劉穎,劉靜宇,張帆
河南大學 計算機與信息工程學院,河南 開封 475004
2007年,Segal等[1]第一次憑借影像學特征解碼肝癌基因組學取得成功后,關于影像學的相關研究便引起了國內外學者的廣泛關注。2012年,影像組學的概念由荷蘭學者Lambin教授等[2]首次正式提出:指從影像圖像的感興趣區域(Region of interest,ROI)中提起海量影像特征,挖掘隱藏信息,并對之進行高通量的定量分析。同年,Kumar等[3]將影像組學定義進一步擴展為:從計算機斷層成像(Computed tomography,CT)、磁共振成像(Magnetic resonance imaging,MRI)或正電子發射型計算機斷層顯像(Positron emission computed tomography,PET)等醫學影像圖像中提取并分析大量高維定量的影像組學特征。概念提出后,由于醫學圖像中包含大量有價值的臨床信息,而影像組學可以挖掘出其更深層次的信息。因此,影像組學這一技術迅速引起了國內外臨床研究人員的注意,使得影像組學在臨床應用的方向迅速發展[4-6]。結合臨床,在輔助鑒別診斷、腫瘤分級、預后評估/術前預測等方面取得了顯著優勢。但是,其在精確診斷和癌癥治療等方面仍存在著問題和挑戰。本文對影像組學的概念和分析流程進行了詳細的概述,并列舉了多個近年來在臨床上應用的經典成功案例,結合影像組學在發展中依然存在的問題,對影像組學的未來進行了探討和期望。
影像組學研究的基本流程為圖像采集、感興趣區域分割、特征提取、特征篩選、構建模型五個步驟。
影像組學的流程從圖像采集開始,它依賴于大量的醫學圖像和相應的臨床數據來揭示它們之間存在的相關性。影像組學最初多是在CT 圖像上研究,不久之后又應用于分析MRI圖像,也有基于PET 圖像來進行研究,現代圖像的采集主要句式通過CT、MRI和PET 等影像掃描方式來進行。在影像組學研究中應用最廣泛最常見的是CT 成像;MRI相較于CT 來說,主要優點是,它對人體沒有放射性損傷,能發現CT 上不能顯示的病灶;PET檢查與CT、MRI相比,它的靈敏度高、準確性好,常用于腫瘤的檢測和分期[7],但是用于分析的醫學圖像是從不同的醫院或數據中心收集的,且采集圖像的方法和過程也不同。通常采用不同的醫學設備型號、掃描參數和協議來獲取,并使用不同的軟件進行重建。研究[8]發現,這些差異都可能會對放射學模型帶來意想不到的影響,最直接的便是影響研究結果的準確性,即目前存在數據缺乏一致性、標準化不足等問題,所以在影像組學研究中,研究者還需充分考慮這些因素對影像組學特征的影響。
實現標準化圖像的獲取,獲得高質量的數據集是目前影像組學研究急需解決的根本問題。
圖像分割即要求在影像圖像中勾畫出ROI,即病灶,比如腫瘤區域,以便與在這個特定區域中提取出影像組學特征,這一步決定了哪些區域將被進一步分析。因此,這是影像組學的基礎步驟,但也是整個影像組學流程中最關鍵、最具有挑戰性的部分。由于腫瘤具有異質性和不規則性,對于非腫瘤性病灶來說,它的分割和認定范圍更加困難,且病變范圍的邊界在醫學圖像中通常是模糊的,導致分割的精度下降,進而影響到影像特征的計算提取。因此,針對特定病變范圍的精準分割是現在面臨的一個巨大挑戰。
在影像組學的研究中,最常用的分割方法是手動分割,手動分割一般都是由經驗豐富的影像科專家進行,其優點在于勾畫ROI及其邊緣的精準度高,但其劣勢也很明顯:受主觀因素影響較大,當實驗存在大量影像時,影像科醫生很可能會由于工作量太大而導致眼睛酸澀、身體疲勞,造成分割精度低下、耗時久等不良后果,且影像科醫生對于病變范圍的認定,影像圖像對于邊界的顯示,周圍結構的影響等都是影響實驗結果的因素。
自動分割是根據算法的不同進行分割,主要分為基于邊緣的圖像分割[9-11]、基于區域的圖像分割[12-14]、基于特定理論的圖像分割[15-17]等。
在現代,不管多么先進的影像設備所得到的圖像都不可避免地帶有噪聲。Hatt等[18]總結了一些PET 自動分割算法,認為人工分割比簡單的基于閾值的方法具有更高的重現性和可靠性。由于腫瘤的異質性和影像成像時的噪聲等影響,自動分割的分割精度較差,不能滿足目前影像組學的需求。
半自動分割顧名思義是在自動分割的基礎上加上人工分割以滿足需求,即需要人為輸入先驗知識。相較于前兩種方法,半自動分割方法的分割精度較高且速度較快。Rios等[19]在非小細胞肺癌(Non small cell lung cancer,NSCLC)腫瘤患者中比較了半自動區域增長體積分割算法和手工分割算法計算的放射學特征,與手工分割相比,半自動分割生成的放射組學特征具有更高的重現性和更強的穩健性。
目前,大多數影像組學的研究仍然在使用人工分割的ROI進行分析,然而無論是自動分割還是手工分割都存在一定的不足。因此,考慮在圖像預處理階段引入深度學習,用深度學習的方法來分割ROI,也是影像組學自動化的一個直接需求。Zeina等[20]在做膠質母細胞瘤患者生存預測研究時,采用了基于卷積神經網絡(Convolutional neural networks,CNN)的無特征分割模型來分割ROI,這項研究是用腫瘤組織分割的影像組學特征來指導的深度神經網絡的方法。
雖然醫學圖像分割方法長期以來一直是人們關注的熱點,但是要提出一種理想的、精度高且全自動的ROI分割方法仍然有很長的路要走。
特征提取是指從已分割好的ROI中提取出一系列肉眼看不見的影像特征,這些影像組學特征可以分為形狀特征、一階直方圖特征、二階直方圖或紋理特征,還有一些獲取于特定圖像的影像組學特征以及僅適用于多模式數據集的分形和融合特征[21]。影像特征的提取是將病理影像轉換成多種定量特征,以這些數據為基礎,利用大數據的優勢進行分析,在進行接下來的研究。
形態特征是最基本的特征,它提供ROI的形狀和物理特征信息,如表面積、體積等,以及描述ROI與球體的相似程度的特征,如致密度、球形不均勻度、球形度等。
一階直方圖特征(統計學特征)是基于直方圖的方法,將ROI分解成圖像強度的單一值,計算得到平均數、中位數、最大值、最小值、均勻性、熵、偏差和峰度值等。
二階直方圖或紋理特征(統計學特征)是描述體素空間分布強度等級的特征,包括灰度共生矩陣(Gray level co-occurrence matrix,GLCM)、灰度游程矩陣(Gray level run-length matrix,GLRLM)、灰度區域大小矩陣(Gray level size zone matrix,GLSZM)和鄰域灰度差分矩陣(Neighborhood graytone difference matrix,NGTDM)。
灰度共生矩陣共17個特征,它是一種通過研究灰度的空間相關特性來描述紋理的常用方法。1973年Haralick等[22]提出了用灰度共生矩陣來描述紋理特征。
灰度游程矩陣[23]共13個特征,其中每個元素描述了灰度級在指定的方向上連續出現的次數。
灰度區域大小矩陣共5個特征,是紋理特征的高級統計矩陣,是醫學影像分析利器。
鄰域灰度差分矩陣是在行和列處的元素存儲具有灰度級和大小的區域數量的矩陣,NGTDM 的影像組學特征包括對比度、冗余度、復雜度、紋理強度等。
隨著人工智能技術的發展,現如今已經開發出了很多專門提取影像特征的計算機軟件,如MaZda軟件、開源的python包pyradiomics等,都可用于醫學圖像的影像組學特征提取,同時也可以用深度網絡來提取特征。影像組學和深度學習的框架里都包含了特征提取的過程。除了影像組學所提取的特征外,可以用卷積神經網絡提取特征來補充傳統的影像組學特征,進而得到更精準的預測模型。Paul等[24]在預測性肺結節的實驗中不僅用傳統方法來提取影像組學特征,且使用了CNN 提取了深度學習特征,并將這些特征篩選后融合到一起,在建立分類模型,實驗結果顯示最終提高了模型的性能。
如今我們已可以從影像中挖掘出很多特征,但這只是影像中的一部分信息,還存在很多隱藏的未知信息未被挖掘。因此,找到并挖掘更多的潛在臨床信息的手段以及更標準的特征提取方法是我們以后要探索的。
在特征提取這步中往往會從ROI中提取到海量特征,然而過多的特征可能包含冗余信息,且當數據集小于特征集時,在使用機器學習的方法訓練分類或預測模型時,往往會產生過擬合的問題。因此,需要進行特征篩選去除不重要的特征,保留相關特征。特征選擇本質上也可以認為是降維的過程,降維后的數據應盡可能地包含對特定目的有用的信息。
特征篩選往往是通過使用機器學習或者統計學的方法來實現,常用的降維方法有最大相關最小冗余(Maximum relevance and minimum redundancy,mRMR)[25]、主成分分析法(Principal component analysis,PCA)[26]、LASSO(Least absolute shrinkage and selection operator)[27]等算法。
m RMR 算法其原理非常簡單,就是在原始特征集合中找到與最終輸出結果相關性最大,但是特征彼此之間相關性最小的一組特征。
PCA 是一種無監督學習技術,通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。這種分析的目的是識別數據中的模式,并通過它們的相關性來表達它們的異同。
LASSO 算法是一個非常硬核的特征篩選算法,它在影像組學研究中一種常用的特征選擇方法。重要特征在模型中系數值很高,而與輸出變量不相關的特征應該具有接近零的系數值,LASSO 算法的原理即把不重要的特征系數值變為零。
Parmar等[28]研究發現特征數量、特征篩選方法以及分類模型都會對影像組學分類預測的準確率產生很大影響。因此,找到更準確、更標準的特征選擇方法將成為以后影像組學的難點和突破點。
影像組學的目標是根據選定的特征建立臨床結果的預測模型,最終目的是應用于臨床并輔助解決實際問題?;谇懊娌襟E得出的研究數據,通常采用監督或非監督分類機器學習方法建立數學模型,以預測結果,不同的研究目的使用不同的分析方法。常用的主要的機器學習分類方法包括隨機森林(Random forest,RF)[29]、邏輯回歸模型(Logistic Regression,LR)[30]、支持向量機(Support vector machine,SVM)[31]。
RF是利用多棵樹對樣本進行訓練并預測的一種分類器。它是由美國科學家Breiman在1996年提出的Bagging集成學習理論[32]與Ho在1998年研究的隨機子空間方法[33]相結合,同時在Amithe和Geman研究每個結點的最優分割[34]方法的啟發下,使得Breiman在2001年提出了隨機森林這個概念。隨機森林具有抗過擬合能力,使結果更加精準。
Logistic回歸是根據輸入域值對記錄進行分類的統計方法,是一種廣義的線性回歸分析模型,該模型在生物醫學的領域中也被廣泛使用,常用于探尋影響反應變量的因素[35]、探索某疾病的危險因素、根據危險因素預測某疾病發生的概率等。
SVM 是一類按監督學習方式對數據進行二元分類的廣義線性分類器,它是Vapnik等[36]在統計學習理論的基礎上提出的一種模式識別的方法,它的目的是以間隔最大化的分割原則尋找一個超平面來對樣本進行分割,最終轉化為一個凸二次規劃問題來求解,SVM 主要用來進行分類和回歸分析。
構建好的模型必須經過驗證才能證明其潛在的臨床應用價值。一個獨立的、外部驗證的模型被認為比一個內部驗證的模型更可靠,因為獨立獲得的數據的結果通常更可靠。此外,驗證模型可以使影像組學研究具有最大的可信度。有許多工具可以測量放射學模型的性能。對于鑒別分析來說,受試者工作特征曲線(Receiver operating characteristic curve,ROC)是最常用的方法來報告所提模型的性能。此外,模型的曲線下面積(Area under curve,AUC)、敏感性和特異性也通常用來評價模型是否能夠預測臨床結果。
準確率是衡量構建模型性能的主要指標,因此如何在沒有出現過擬合的情況下盡可能提高準確率是建模分類所要面臨的挑戰。
隨著技術的發展和研究水平的提高,越來越多的研究表明,影像組學在醫療領域中具有重要的臨床價值,尤其是在輔助鑒別診斷、腫瘤分級、預后評估/術前預測等方面取得了相當優異的結果。
輔助鑒別診斷其核心為對腫瘤進行分類,以協助醫生臨床的判斷、提高疾病診斷效率和提供治療方式參考。劉平平等[37]提出一種基于CT 圖像提取大量量化的放射組學特征并利用SVM 分類器的非侵入性方法,以區分胃腸道間質瘤(Gastrointestinal stromal tumors,GIST)的良性或惡性,實驗結果AUC 為0.85、精度83%、靈敏度82%和特異度84%,表明腫瘤良惡性識別效果良好。Zhou 等[38]使用影像組學和深度學習來診斷磁共振動態增強成像(Dynamic contrast-enhancement magnetic resonance imaging,DCE-MRI)上的良性和惡性乳房病變,實驗用隨機森林來建立影像組學的模型,其中深度學習是使用ResNet50 實現的,實驗結果使用基于ROI的參數的診斷準確度為76%,使用影像組學模型的診斷準確度為84%,使用ROI和影像組學模型結合的診斷準確度為86%,表明影像組學和深度學習的結合很有可能發展成為臨床診斷工具。Neisius等[39]使用支持SVM 分類器區分高血壓心臟病(Hypertensive heart disease,HHD)和肥厚性心肌病(Hypertrophic cardiomyopathy,HCM),研究結果顯示根據選定的紋理特征最大診斷精度為86.2%,在測試集中準確度為80.0%,區分兩類患者能力適中??做蔚萚40]研究用影像組學方法診斷垂體泌乳激素大腺瘤(Pituitary prolactin macroadenoma,PPM)與非垂體泌乳激素大腺瘤(Non pituitary prolactin macroadenoma,NPPM)的可行性,他們用3Dslicer軟件對圖像進行預處理、ROI勾畫與特征提取,用LASSO 算法進行特征選擇,使用logistic回歸與SVM 進行建模與測試,實驗結果發現在訓練組鑒別診斷PPM 與NPPM 的準確度分別為88.2%和91.8%,測試組的準確度分別為73.0%和77.8%,得出基于影像組學特征的機器學習模型對PPM 的診斷效能較高的結論。
腫瘤分級的臨床目的是為了提高患者的生存期。周榴等[41]提出一種基于灰階超聲成像的影像組學預測模型,他們采用影像組學方法對ROI提取特征,并通過計算特征間皮爾遜相關系數以及單變量分析剔除冗余特征,進而構建原發性肝細胞癌分級預測模型,實驗結果AUC為0.76,表明基于灰階超聲成像的影像特征與原發性肝細胞癌分級高度相關,所構建的影像組學模型能夠較好地預測腫瘤分級。Gao等[42]通過提取放射特征構建了腫瘤分期和病理分級預測分類器,對于腫瘤階段預測模型,AUC在訓練組中為0.94,在驗證組中為0.84。在病理等級模型中,AUC 在訓練組中為0.84,在驗證組中為0.75,結果顯示基于超聲波的放射學模型在膀胱癌的術前腫瘤分期和病理分級中表現良好。Kawahara等[43]通過影像組學分析和機器學習,從CT 圖像提出局部晚期食管鱗狀細胞癌癌(Squamous cell carcinoma,SCC)患者分化程度的預測模型,預測模型的準確性、特異性和靈敏度分別為85.4%、88.6%、80.0%,AUC為0.92,結論為該預測模型對食管癌分化程度的分類具有較高的準確性。Zhang等[44]對82名胰腺神經內分泌腫瘤(Pancreatic neuroendocrine tumor,PNET)患者進行了回顧性研究,他們將增強的CT 影像組學特征結合機器學習多種算法建立模型,從實驗中得出結論,根據增強CT 影像學特征,可以鑒別胰腺神經內分泌腫瘤的不同病理分級。
預后評估/術前預測其臨床目的為緩解患者醫療負擔。趙經緯[45]等從肝細胞癌患者CT 圖像中提取1 218個影像組學特征,再用LASSO 算法進行特征選擇,篩選出了8 個具有潛在預測價值的特征,最后用Logistic回歸方法基于篩選出的特征構建肝移植的預測模型,實驗結果預測模型在訓練組中AUC 為0.828,敏感度、特異度分別為82.4%、74.7%;在驗證組中AUC 為0.856,敏感度、特異度分別為77.8%、86.7%,表明影像組學技術對預測肝癌肝移植術后復發具有一定的價值。Jin等[46]根據患者超聲波圖像的紋理特征,研究對早期宮頸癌患者進行淋巴結轉移非侵入性檢測的可行性,基于超聲波圖像的放射學特征表明,有淋巴結轉移和無淋巴結轉移患者之間具有良好的區分性。Zheng等[47]通過乳腺癌常規超聲和剪切波彈性成像的深度學習放射組學(Deep learning radiomics,DLR),提供了一個非侵入性成像生物標志物,以預測早期乳腺癌患者的腋窩淋巴結(Axillary Lymph Node,ALN)的受累情況,避免了不必要的腋窩手術和并發癥。Han等[48]招募了131名腦膜瘤確診的患者,且讓患者進行MRI檢查,以獲得覆蓋全腦的T1液體衰減反轉恢復(T1 fluid-attenuated inversion recovery,T1 FLAIR)圖像、T2 加權圖像(T2-weighted images,T2WI)和T1 FLAIR 對比增強(T1 FLAIR with contrast enhancement,CE-T1 FLAIR)圖像,研究人員通過LASSO 等算法選定了9個特征并基于這些特征建立了一個放射學模型來預測腦膜瘤的等級,實驗結果AUC 為0.956,靈敏度為0.87,特異性為0.92,證明了放射學模型在預測腦膜瘤組織病理學等級方面具有重大價值。Nazari等[49]基于提取的放射特征和臨床信息,開發了基于放射組學的機器學習模型,以預測5 a內透明細胞腎細胞癌(Clear cell renal cell carcinoma,CCRCC)患者的死亡風險,實驗結果證明該模型能夠準確預測腎細胞癌患者的總體生存率及腎細胞癌患者的預后。
綜上所述,影像組學是指用“高級特征分析法”從醫學影像中挖掘更多的信息來協助臨床的一種輔助診斷方式,針對影像中的ROI,可以用特定的工具提取信息、分析信息,進而對臨床進行輔助診斷。影像組學仍然是一個快速發展的領域,目前影像組學已經在臨床應用的輔助診斷、腫瘤分期、預后分析等方面開展了大量的研究并取得了優異的成果,表明影像組學作為臨床醫生決策的輔助工具的價值。目前,深度學習在計算機視覺領域發展迅速且已成為了最為高效的方法。從目前的一些研究來看,在影像組學的ROI分割和特征提取兩大階段中引入深度學習或者說加入深度特征,確實能夠進一步提升影像組學分類或預測的準確性和可靠性,取得比傳統的影像組學方法更好的效果。因此,將深度學習引入到影像組學的各個階段,進行有機結合,進而彌補影像組學存在的不足,將成為未來影像組學技術主要的發展方向。
猜你喜歡組學預測特征根據方程特征選解法中學生數理化·中考版(2022年9期)2022-10-25無可預測黃河之聲(2022年10期)2022-09-27選修2-2期中考試預測卷(A卷)中學生數理化(高中版.高二數學)(2022年4期)2022-05-25選修2-2期中考試預測卷(B卷)中學生數理化(高中版.高二數學)(2022年4期)2022-05-25影像組學在腎上腺腫瘤中的研究進展昆明醫科大學學報(2022年3期)2022-04-19不忠誠的四個特征當代陜西(2019年10期)2019-06-03基于UHPLC-Q-TOF/MS的歸身和歸尾補血機制的代謝組學初步研究天然產物研究與開發(2018年2期)2018-04-04抓住特征巧觀察數學小靈通·3-4年級(2017年9期)2017-10-13不必預測未來,只需把握現在中學生數理化·八年級物理人教版(2017年11期)2017-04-18代謝組學在多囊卵巢綜合征中的應用醫學研究雜志(2015年11期)2015-06-10