張洪濤 俞鴻凱 王海屹 葉慧義△
1中國人民解放軍總醫(yī)院放射科 100853 北京2中國人民解放軍第307醫(yī)院放射科3中國人民解放軍總醫(yī)院泌尿外科△審校者
前列腺癌(prostate cancer,PCa)是男性生殖系統(tǒng)常見的惡性腫瘤,近年來前列腺癌發(fā)病率呈上升趨勢,已成為老年男性最常見的惡性腫瘤之一。中國的發(fā)病率和病死率明顯上升, 正在逐步接近歐美國家,成為嚴(yán)重威脅老年男性健康的一大疾病。據(jù)統(tǒng)計近年來北京、上海、廣州三城市居民男性泌尿生殖系腫瘤發(fā)病率第一位[1]。MRI在前列腺癌的發(fā)現(xiàn)、診斷、分期和療效評估中發(fā)揮著重要作用。在臨床工作中,隨著影像設(shè)備所生成的圖像數(shù)據(jù)量越來越大,而影像科醫(yī)師主要依據(jù)個人經(jīng)驗對影像征象進(jìn)行診斷,不可避免地會出現(xiàn)漏診和誤診的情況。過去對圖像數(shù)據(jù)的處理與使用難以充分挖掘圖像的大數(shù)據(jù)信息,如何更有效地利用醫(yī)學(xué)影像數(shù)據(jù),從腫瘤表型中抽取更多有價值的信息,使臨床診斷更科學(xué)、客觀和準(zhǔn)確,是亟待解決的技術(shù)問題[2]。因此影像組學(xué)應(yīng)運而生,它將傳統(tǒng)的影像圖像轉(zhuǎn)換為可挖掘的數(shù)據(jù)信息,并對之進(jìn)行高通量(high throughput)定量分析[3, 4]。
2012年,Lambin等[5]首次提出了影像組學(xué)的概念,其定義是利用計算機軟件將醫(yī)學(xué)影像轉(zhuǎn)化為可挖掘的數(shù)據(jù),從中抽取海量的定量數(shù)據(jù)特征,用于臨床信息的解析[6]。此前就有很多研究利用紋理分析方法挖掘蘊含于醫(yī)學(xué)圖像中的深層信息,用于疾病的定性、療效預(yù)測和判斷預(yù)后等。隨著圖像處理技術(shù)的發(fā)展[7],除了紋理特征外,還可以提取強度、形狀、小波等高維特征,特征數(shù)量可達(dá)數(shù)百至數(shù)千以上。如何更有效地利用醫(yī)學(xué)影像數(shù)據(jù),從腫瘤表型中抽取更多有價值的信息,是現(xiàn)在面臨的臨床技術(shù)問題[8]。影像組學(xué)其基本流程包括數(shù)據(jù)收集、圖像分割、特征提取、特征篩選和構(gòu)建模型及臨床信息解析。
運用影像組學(xué)開展臨床問題研究的實施流程主要分為五個步驟。
獲取高質(zhì)量、標(biāo)準(zhǔn)化的圖像是整個流程的基礎(chǔ),解決影像特征數(shù)據(jù)采集與重建參數(shù)的標(biāo)準(zhǔn)化是關(guān)鍵[9]。由于醫(yī)學(xué)影像的種類繁多,需要集中對不同模態(tài)影像數(shù)據(jù)進(jìn)行整合挖掘,為臨床指標(biāo)提供精確預(yù)測,這對于影像數(shù)據(jù)的質(zhì)量提出了嚴(yán)苛要求,因為劣質(zhì)影像會影響數(shù)據(jù)分析的準(zhǔn)確性。數(shù)據(jù)包含的樣本應(yīng)盡量多,為避免由于特征過多造成過擬合問題,集合應(yīng)達(dá)到一定規(guī)模[10, 11]。
采用興趣區(qū)(region of interest, ROI)把病變輪廓逐層勾畫出來,通過三維容積重組生成三維興趣容積(volume of interest, OI)[12]。圖像的分割有手動、半自動、全自動三種方式。前兩者是目前的主流方式,但隨著計算機技術(shù)的進(jìn)步及分割算法的完善,全自動將成為將來的主流手段[13, 14]。腫瘤分割算法主要可以分為基于區(qū)域的方法,如區(qū)域生長算法[15];基于邊緣約束的方法,如主動輪廓模型和水平集分割算法;分類或聚類方法,包括支持向量機、深度神經(jīng)網(wǎng)絡(luò)、隨機森林[16]等;當(dāng)前也有一些混合方法,嘗試?yán)酶鞣N附加信息來改進(jìn)分割結(jié)果。當(dāng)前已經(jīng)有多款較成熟的影像分割工具可以在科研工作中使用,常用的工具包包括3D Slicer、ITK-SNAP、MITK以及中國科學(xué)院研發(fā)的3D Med和MITK等。
腫瘤ROI一旦被確定,影像特征便可以通過計算機進(jìn)行提取。特征的選擇和提取也是圖像定量分析的重要一步,目的是降低圖像特征描述子(descriptor)的數(shù)量進(jìn)而降低計算量并提高計算效率[17]。目前常用的影像組學(xué)特征包括一階統(tǒng)計特征、空間幾何特征、紋理特征和小波特征4大類[18]。常用的紋理測度包括以下3類:①灰度共生矩陣,其不僅包含灰度統(tǒng)計信息,而且反映灰度分布的空間信息。包括角二階矩(能量)、慣量、熵。②分形維,圖像的幾何形狀(粗糙程度)也可用分形維描述。分形維作為分形的重要特征和度量,可以作為描述物體的一個穩(wěn)定的特征量。③行程統(tǒng)計。由于紋理特征描述相似(不相似)體素間對比值的內(nèi)在統(tǒng)計關(guān)系,因此通過紋理分析可以測量腫瘤內(nèi)的異質(zhì)性。
基于上述分析提取的影像特征非常龐大。因此,高維特征數(shù)據(jù)的降維是特征提取過程的重要一步。其中有效的降維方式有主成分分析、互信息、Fisher判別、帶懲罰項回歸分析和線性判別等機器學(xué)習(xí)方法,獲得的參數(shù)具有高重復(fù)性、信息豐富和冗余度低的特點[19]。
針對研究目標(biāo)完成對模型的建立和訓(xùn)練。常用以下六種數(shù)學(xué)方法:①多層前饋型神經(jīng)網(wǎng)絡(luò)(back-propagation, BP)法,是目前臨床科研應(yīng)用最為廣泛、亦最為成熟的神經(jīng)網(wǎng)絡(luò)模型。②偏最小二乘回歸法(partial least squares regression, PLSR),一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它主要研究的是多因變量對多自變量的回歸建模,特別當(dāng)各變量內(nèi)部高度線性相關(guān)時,用PLSR更有效。③隨機森林法(Random Forest, RF),該算法下包含多個決策樹,可以有數(shù)以千計的輸入變量,同時可以按變量對分類結(jié)果的重要性進(jìn)行排序。④支持向量機(support vector machine, SVM),其基礎(chǔ)是統(tǒng)計學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能為之間尋求最佳折衷,獲得較好的推廣能力。⑤Boost算法,其主要原理是,通過改變數(shù)據(jù)分布的模型,將用不同的訓(xùn)練集獲得的弱分類器組合成一個強分類器。 其基本思路是,根據(jù)往的訓(xùn)練結(jié)果(包括總體分類的準(zhǔn)確率),賦予每個變量相應(yīng)的權(quán)值。該方法的優(yōu)點是能夠?qū)⒅攸c放在那些較難分開的樣本上,且不容易出現(xiàn)過擬合的現(xiàn)象。⑥Logistic回歸判別分析(logistic discriminant analysis),相比較于一般的線性判別分析,是一種更為靈活的判別方法,可以處理連續(xù)型、 離散型與混合型等多種類型的數(shù)據(jù),logistic比一般的線性判別有更廣的應(yīng)用范圍。近年來一些更精密更復(fù)雜的分類方法,諸如支持向量機、 隨機森林等不斷迅速發(fā)展[20]。
影像組學(xué)概念提出后,引起了眾多國內(nèi)外學(xué)者的重視,紛紛將影像組學(xué)方法用于各種腫瘤(如肺癌、結(jié)直腸癌、乳腺癌及膠質(zhì)瘤)的研究中,應(yīng)用范圍包括腫瘤的定性、臨床分級分期、療效評價、預(yù)后分析和基因分析等。
影像組學(xué)對于鑒別良惡性病變與組織分化程度具有重要價值。Sidhu等[21]認(rèn)為前列腺移行區(qū)的紋理分析能夠鑒別出前列腺移行區(qū)顯著癌。Wibmer等[22]通過對147例經(jīng)活檢證實的前列腺癌患者的MRI圖像的研究發(fā)現(xiàn),T2加權(quán)成像(T2-weighted imaging, T2WI)和表觀擴(kuò)散系數(shù)(apparent diffusion coefficient, ADC)圖像的Haralick紋理特征有利于區(qū)分癌變組織與非癌變組織:ADC 圖像中,癌變組織的熵和慣量值明顯高于非癌變組織,而能量、相關(guān)性和均質(zhì)性則明顯低于非癌變組織;T2WI 圖像中,癌變組織的慣量值明顯高于非癌變組織,而相關(guān)性則明顯低于非癌變組織,而兩者能量、熵和均質(zhì)性均的差異無統(tǒng)計學(xué)意義。Liang等[23]學(xué)者研究了基于CT圖像的影像組學(xué)特征對結(jié)直腸分期的價值,該研究結(jié)果提示影像組學(xué)分析可作為結(jié)直腸術(shù)前分期的一個重要的輔助手段。將前列腺癌的診斷帶入新的高度,提高診斷的敏感性與特異性,以及穩(wěn)定性,大大降低依賴個人診斷水平的因素。
影像組學(xué)分析可被用于評價前列腺癌的療效與預(yù)后分析。Rosenkrantz 等[24]認(rèn)為影像組學(xué)能夠區(qū)分Gleason3+4與Gleason4+3的前列腺癌。Nie等[25]利用治療前多參數(shù)核磁圖像(DWI、T1/T2、DCE)的影像組學(xué)研究評價直腸癌新輔助放化療效果,結(jié)果顯示通過紋理參數(shù)建立的模型相較于傳統(tǒng)的檢查策略可以提高預(yù)測的準(zhǔn)確性。Aerts等[26]分析了440個紋理特征,這些特征主要評價腫瘤圖像的灰度、形狀和紋理類參數(shù),這些圖像來自于1 019個肺部和頭頸部腫瘤;分析顯示紋理特征與潛在的基因表達(dá)相關(guān),并與預(yù)后生存緊密相關(guān)。Gnep等[27]認(rèn)為T2WI Haralick 影像組學(xué)特征與前列腺癌放射治療后的生化復(fù)發(fā)密切相關(guān)。所以隨著影像組學(xué)的發(fā)展,以及對它的認(rèn)識越來越深刻,影像組學(xué)將越來越多地應(yīng)用于高級別前列腺癌的確定和前列腺癌侵襲性的分析,以及前列腺癌內(nèi)分泌治療及放療后的療效評價。
近年較多研究揭示了影像基因組學(xué)在腫瘤影像學(xué)取得一些鼓舞人心的成果。Mazurowski等[28]研究認(rèn)為分子亞型為luminal B型的乳腺癌與腫瘤動態(tài)增強曲線特征之間有顯著的相關(guān)性。Lee等[29]通過研究214例Ⅰ期非小細(xì)胞肺癌手術(shù)患者EGFR蛋白表達(dá)情況及其影像學(xué)特征之間的關(guān)系,認(rèn)為EGFR過表達(dá)陽性組腫瘤直徑顯著大于陰性組;磨玻璃密度所占比例>50%者在 EGFR 蛋白表達(dá)陰性組較陽性組更多見(P=0.007)。Yamamoto等[30]研究172例非小細(xì)胞肺癌的基因突變與影像特征之間的關(guān)系,認(rèn)為影像特征(腫瘤的中心性生長、胸膜尾征、胸腔積液)與ALK基因突變之間有明顯相關(guān)性。而Rizzo等[31]研究認(rèn)為伴胸膜凹陷征的周圍型非小細(xì)胞癌的EGFR基因突變率為27.5%,高于不伴胸膜凹陷征。前列腺癌發(fā)生是一個多基因參與、多因素作用及經(jīng)過多階段演變才最終形成復(fù)雜的生物現(xiàn)象。自2005年Tomlins等[32]首次報導(dǎo)前列腺癌的跨膜絲氨酸蛋白酶編碼基因TMPRSS2(transmembrane protease serine 2)與ETS轉(zhuǎn)錄因子家族成員ERG、ETVl等之間發(fā)生融合,認(rèn)為融合基因與前列腺癌的發(fā)生、淋巴結(jié)轉(zhuǎn)移有關(guān)。所以可以利用影像信息與基因組關(guān)聯(lián)研究腫瘤分子基因及其亞型的臨床發(fā)病機制、表型的相關(guān)性,用于指導(dǎo)臨床治療方案的制定。利用影像組學(xué)特征詮釋疾病的分子基因表型特征,將影像學(xué)與遺傳學(xué)的不同優(yōu)勢有機結(jié)合,通過定量化的技術(shù),將更多的疾病特征更加有效地描述出來,彌補基因診斷技術(shù)在臨床應(yīng)用的局限性。
影像組學(xué)的研究尚處于早期階段,還存在許多問題。第一,影像數(shù)據(jù)的來源標(biāo)準(zhǔn)不一樣,尤其是多中心核磁的數(shù)據(jù),所用采集圖像的參數(shù)沒有統(tǒng)一標(biāo)準(zhǔn),數(shù)據(jù)樣本不平衡。不同中心、不同設(shè)備、不同參數(shù)采集的數(shù)據(jù),采集過程中圖像的噪聲、偽影如何評價等,這些問題不是某個個體或組織能夠解決的,需要相關(guān)標(biāo)準(zhǔn)化規(guī)范。獲得優(yōu)質(zhì)的數(shù)據(jù)集仍是一個比較困難的問題,這些因素可能潛在地影響了分析結(jié)果[33]。第二,數(shù)據(jù)提取的軟件多種多樣,尚無適合各類醫(yī)學(xué)圖像進(jìn)行影像組學(xué)分析的通用的、標(biāo)準(zhǔn)化的分析處理方法[34]。第三,影像組學(xué)分析處理過程中,由于其特征計算基于腫瘤的ROI,因此腫瘤分割是首先要面對的挑戰(zhàn)。觀察者自身和觀察者之間的一致性也需引起重視,通過計算機輔助半自動或自動方法分割腫瘤區(qū)域或容積可能有助于減少變異來源。第四,特征穩(wěn)定性及結(jié)果解釋的問題,影像組學(xué)可以提供海量的特征,如何尋找辨識度高、獨立性強、可重復(fù)的特征仍需要更多的工作。即使影像組學(xué)能夠提供較好的應(yīng)用結(jié)果,但也面臨如何更好解決臨床醫(yī)學(xué)問題的困境。
影像組學(xué)的出現(xiàn),得益于計算機軟硬件技術(shù)的飛速發(fā)展,因此影像組學(xué)是一個典型的醫(yī)工結(jié)合的交叉研究領(lǐng)域。近些年來,越來越多的研究表明了影像組學(xué)特征在很大程度上與腫瘤生物學(xué)行為相關(guān),初步證實了影像組學(xué)在輔助判斷腫瘤療效、預(yù)后以及鑒別腫瘤組織等方面的臨床應(yīng)用的可行性[35]。精準(zhǔn)醫(yī)學(xué)要求量化腫瘤內(nèi)空間和時間的異質(zhì)性,影像組學(xué)能實現(xiàn)精準(zhǔn)醫(yī)學(xué)的目標(biāo)。隨著腫瘤精準(zhǔn)治療和臨床大數(shù)據(jù)的逐漸推廣應(yīng)用,影像組學(xué)將具有廣闊的臨床應(yīng)用前景[36]。