陳洪波, 傅嘉文, 黎浩江, 劉立志, 陳樹(shù)超, 朱志華
(1.桂林電子科技大學(xué) 生命與環(huán)境科學(xué)學(xué)院,廣西 桂林 541004;2.中山大學(xué) 腫瘤防治中心, 廣州 510060)
隆突下淋巴結(jié)轉(zhuǎn)移是肺癌、食管癌重要的轉(zhuǎn)移途徑之一,也是影響患者預(yù)后的重要原因[1-2]。正確鑒別其異常淋巴結(jié)的性質(zhì)是臨床采取有效治療措施的關(guān)鍵。食管癌無(wú)隆突下淋巴結(jié)轉(zhuǎn)移患者5年生存率60.9%,有隆突下淋巴結(jié)轉(zhuǎn)移26.7%[3]。手術(shù)入路應(yīng)以淋巴結(jié)轉(zhuǎn)移的分布模式為基礎(chǔ),而淋巴結(jié)轉(zhuǎn)移是不可預(yù)測(cè)的。因此,治療前淋巴結(jié)轉(zhuǎn)移情況的準(zhǔn)確評(píng)估對(duì)疾病分期、治療方案的選擇和預(yù)后的評(píng)價(jià)具有重要意義。
CT掃描具有較高的組織對(duì)比度和空間分辨力,使病灶及淋巴結(jié)大小、形態(tài)結(jié)構(gòu)、影像學(xué)的異質(zhì)性、與鄰近器官的關(guān)系更為直觀的顯示,且研究表明CT診斷與術(shù)后病理的結(jié)果具有一致性[4-5]。但隆突下淋巴結(jié)的良惡性判別目前仍依賴于細(xì)針穿刺活檢[6-7]。
近年來(lái)發(fā)展的影像組學(xué)利用醫(yī)學(xué)影像中的特征信息來(lái)量化隆突下淋巴結(jié)的微環(huán)境,為隆突下淋巴結(jié)的良惡性分析提供了一種新方法[8-9]。影像組學(xué)已經(jīng)成為疾病臨床研究中非常重要的研究方法。通過(guò)影像組學(xué)對(duì)肺部腫瘤或頭頸部腫瘤的CT圖像進(jìn)行定量分析后發(fā)現(xiàn),在獨(dú)立的肺部腫瘤和頭頸癌患者數(shù)據(jù)集中,大量的放射影像學(xué)特征具有預(yù)后能力[10]。放射特征與腫瘤特異性的聚集和臨床存在關(guān)聯(lián)[11]。隨著醫(yī)學(xué)數(shù)據(jù)的大量激增,機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的應(yīng)用越來(lái)越重要[12-13]。因此,如何使用影像組學(xué)和機(jī)器學(xué)習(xí),正確地在術(shù)前識(shí)別隆突下淋巴的轉(zhuǎn)移性,將對(duì)食管癌和肺癌的預(yù)后產(chǎn)生重大影響。
本研究將提取CT圖像中反映ROI內(nèi)灰度值變化規(guī)律的統(tǒng)計(jì)特征和紋理特征[14],利用XGBoost[15]等機(jī)器學(xué)習(xí)的方法,無(wú)創(chuàng)地判斷隆突下淋巴結(jié)的良惡性,以輔助醫(yī)生對(duì)肺癌和食管癌患者的診斷準(zhǔn)確率,并做出有效的個(gè)性化治療方案。
本研究由中山大學(xué)腫瘤防治中心倫理委員會(huì)審查通過(guò)。該中心提供了80例肺癌患者的胸部增強(qiáng)CT圖像數(shù)據(jù)。其中,隆突下淋巴結(jié)良性(未轉(zhuǎn)移)40例,惡性(轉(zhuǎn)移)40例。淋巴結(jié)良惡性由組織切片病理結(jié)果得到。具有5年以上工作經(jīng)歷的醫(yī)生勾畫(huà)了胸部CT圖像的隆突下淋巴結(jié)區(qū)域。從80例肺癌患者的胸部CT圖像中勾畫(huà)了1 103層CT圖像。
數(shù)據(jù)的預(yù)處理為灰度調(diào)窗和目標(biāo)區(qū)域提取。灰度調(diào)窗的目的是突顯目標(biāo)的特征,本實(shí)驗(yàn)中的窗寬為380,窗位為60。對(duì)醫(yī)生勾畫(huà)的目標(biāo)區(qū)域進(jìn)行特征提取、良惡性分類等處理。
如圖1所示,從調(diào)窗的胸部CT圖像中提取醫(yī)生勾畫(huà)的隆突下淋巴結(jié)區(qū)域的圖像。對(duì)目標(biāo)區(qū)域的圖像提取影像組學(xué)特征,對(duì)提取的特征進(jìn)行標(biāo)準(zhǔn)化和特征選擇后,采取XGBoost方法進(jìn)行良惡性分類。
圖1 隆突下淋巴結(jié)良惡性識(shí)別的方法
1.2.1 影像組學(xué)特征提取
Pyradiomics是流行的醫(yī)學(xué)影像組學(xué)特征提取方法[16-17]。通過(guò)Pyradiomics提取了目標(biāo)區(qū)域的統(tǒng)計(jì)類特征和紋理類特征。統(tǒng)計(jì)類(fist order)通過(guò)常用的基本度量描述了ROI區(qū)域灰度值的分布情況。紋理類(texture)是一種反映圖像中同質(zhì)現(xiàn)象的視覺(jué)特征,它體現(xiàn)了目標(biāo)區(qū)域的具有緩慢變化或者周期性變化的表面結(jié)構(gòu)組織排列屬性,具有旋轉(zhuǎn)不變性和灰度不變性等顯著特點(diǎn)。
本研究對(duì)隆突下淋巴結(jié)區(qū)域的圖像提取了91維影像組學(xué)特征,其中統(tǒng)計(jì)特征18個(gè),包括能量、熵、均值、方差、偏度、峰度等;紋理特征73個(gè),包括灰度共生矩陣(GLCM)22個(gè)屬性、灰度大小區(qū)域矩陣(GLSZM)16個(gè)屬性、灰度游程矩陣(GLRLM)16個(gè)屬性、相鄰灰度差分矩陣(NGTDM)5個(gè)屬性、灰度相關(guān)矩陣(GLDM)14個(gè)屬性。
對(duì)于某些機(jī)器學(xué)習(xí)模型如SVM,目標(biāo)函數(shù)是假設(shè)所有的特征都是零均值并且具有同一階數(shù)上的方差。若某個(gè)特征的方差比其他特征大幾個(gè)數(shù)量級(jí),則在學(xué)習(xí)算法中占據(jù)主導(dǎo)位置,導(dǎo)致模型泛化能力降低。相對(duì)于XGBoost模型標(biāo)準(zhǔn)化數(shù)據(jù)的最大好處是加快訓(xùn)練速度。因此選擇去均值,除以方差來(lái)進(jìn)行特征標(biāo)準(zhǔn)化。
1.2.2 特征選擇
特征選擇主要分為3類:過(guò)濾式、包裹式、嵌入式。過(guò)濾式主要包括方差分析、單變量分析(卡方檢驗(yàn)、互信息、F檢驗(yàn))。包裹式主要通過(guò)一個(gè)基模型對(duì)數(shù)據(jù)進(jìn)行多次訓(xùn)練,每次得到特征得分,并且刪除得分較低的特征,直至滿足設(shè)定要求,典型的算法有遞歸式特征消除。嵌入式主要通過(guò)機(jī)器學(xué)習(xí)算法得到各個(gè)特征的權(quán)重系數(shù),按照從大到小選擇特征數(shù)量,典型的算法有基于L1正則的線性模型、樹(shù)模型。使用遞歸式特征消除進(jìn)行特征選擇,并且使用線性SVM模型對(duì)提取的91維特征進(jìn)行評(píng)分,每次刪除評(píng)分排名最低的特征,重復(fù)選取,直到選取性能最好的特征數(shù)量。
1.2.3 XGBoost分類
XGBoost由陳天奇博士提出,是一種可伸縮的端到端Tree boosting系統(tǒng)。也是一種極端梯度提升樹(shù),相比于梯度提升樹(shù),XGBoost使用了目標(biāo)函數(shù)的二階泰勒展開(kāi)式,并將樹(shù)模型復(fù)雜度加入正則項(xiàng),同時(shí)實(shí)現(xiàn)了并行計(jì)算,優(yōu)化了模型訓(xùn)練速度,由此獲得了更好的性能。本研究使用XGBoost對(duì)隆突下淋巴結(jié)的良惡性進(jìn)行分類分析。模型經(jīng)過(guò)網(wǎng)格搜索后,選擇最優(yōu)的模型參數(shù)如表1所示。
1.2.4 實(shí)驗(yàn)過(guò)程與統(tǒng)計(jì)分析
為了驗(yàn)證本方法的有效性,使用SVM方法進(jìn)行對(duì)照實(shí)驗(yàn)。同時(shí)采用十折交叉驗(yàn)證法驗(yàn)證算法的性能。十折交叉驗(yàn)證法是將良惡性隆突下淋巴結(jié)樣本各分為10組,每次隨機(jī)選擇一組正樣本和負(fù)樣本作為測(cè)試樣本,其他9組作為訓(xùn)練樣本。輪流將其中9組作為訓(xùn)練樣本,一組作為測(cè)試樣本,每次試驗(yàn)得出相應(yīng)的正確率。進(jìn)行10次十折交叉驗(yàn)證,以正確率的均值作為對(duì)算法準(zhǔn)確性的最終估計(jì)。
表1 XGBoost最優(yōu)參數(shù)
對(duì)于一個(gè)肺癌患者的隆突下淋巴結(jié)將分布在多層CT圖像。三維淋巴結(jié)的良惡性的判斷有2種可能情況,即良性、惡性。將每個(gè)患者的多層CT圖像輸入模型,得到每層圖像的識(shí)別概率(0~1),取多層CT圖像識(shí)別概率的均值,并且認(rèn)為大于0.5的為良性,小于0.5的為惡性。由此得到單個(gè)患者的分類情況。采用準(zhǔn)確度(accuracy),敏感度(sensitivity)和特異度(specificity)來(lái)評(píng)價(jià)算法性能。
Accuracy=(nTP+nTN)/(nTN+nTP+nFN+nFP),
Sensitivity=nTP/(nTP+nFN),
Specificity=nTN/(nTN+nFP),
其中:nTP為惡性的惡性淋巴結(jié)樣本數(shù);nTN為良性的良性淋巴結(jié)樣本數(shù);nFN為良性的惡性淋巴結(jié)樣本數(shù);nFP為惡性的良性淋巴結(jié)樣本數(shù)。
對(duì)二維CT圖像中隆突下淋巴結(jié)的良惡性進(jìn)行判別時(shí),利用遞歸式特征消除(RFE)方法對(duì)提取的91維影像組學(xué)特征進(jìn)行選擇。選擇不同的特征數(shù)量對(duì)良惡性的淋巴識(shí)別的性能是不穩(wěn)定的。圖2為在模型參數(shù)最優(yōu)的條件下,選取不同數(shù)量的特征,十折交叉模型的平均準(zhǔn)確率。由圖2可知,XGBoost算法比SVM模型識(shí)別準(zhǔn)確率高。當(dāng)選擇特征維度等于3時(shí),2種模型的良惡性淋巴的識(shí)別率達(dá)到最好的狀態(tài)。這3個(gè)特征分別為熵、中值、聯(lián)合熵。隨著選擇的特征數(shù)量增加,2種方法的準(zhǔn)確率都微幅下降,這也說(shuō)明了特征選擇得越多,冗余信息也隨之越多,也影響了識(shí)別的效果。后續(xù)將對(duì)特征維度等于3時(shí)的結(jié)果進(jìn)行分析。
圖2 不同特征數(shù)量的識(shí)別準(zhǔn)確率
采用十折交叉和ROC曲線來(lái)評(píng)估模型對(duì)二維單張CT圖像的識(shí)別效果。表2為十折交叉驗(yàn)證的結(jié)果,由表2可知,XGBoost模型識(shí)別準(zhǔn)確率略高于SVM,達(dá)到80%。為了準(zhǔn)確反映模型的性能,圖3顯示了“受試者工作特征”(ROC)曲線,通過(guò)計(jì)算曲線下面積AUC評(píng)估模型的可靠性。由圖3可知,2種方法的可行性都比較好,AUC均超過(guò)0.83。
表2 二維CT圖像十折交叉驗(yàn)證的結(jié)果
圖3 模型ROC曲線
表3為三維隆突下淋巴分類結(jié)果。表4為2種方法的準(zhǔn)確度、敏感度和特異度的分類性能。由表4可知,XGBoost模型的準(zhǔn)確度、敏感度均優(yōu)于SVM,而特異度相同。由結(jié)果可看出,XGBoost對(duì)于惡性隆突下淋巴結(jié)的識(shí)別具有更好的性能。
表3 三維隆突下淋巴分類結(jié)果
表4 隆突下淋巴分類性能分析
為對(duì)CT圖像中的隆突下淋巴結(jié)進(jìn)行良惡性分類,利用影像組學(xué)方法對(duì)CT圖像中的隆突下淋巴結(jié)進(jìn)行特征提取。通過(guò)淋巴結(jié)區(qū)域的統(tǒng)計(jì)特征和紋理特征,選擇熵、中值、聯(lián)合熵3個(gè)特征時(shí),獲得的分類性能最好。利用XGBoost方法對(duì)隆突下淋巴良惡性分類進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,隆突下淋巴結(jié)的良惡性準(zhǔn)確率為0.813,敏感度為0.825,特異度為0.800,此性能要高于SVM方法。本研究將有助于肺癌和食管癌的精確診斷和個(gè)性化治療方案的制定。