李宗元 陳曉燁 劉倫旭
肺癌是目前國內(nèi)外發(fā)病率、死亡率最高的惡性腫瘤,外科手術(shù)治療是非小細(xì)胞肺癌(non-small cell lung cancers,NSCLC)的主要治療方式。隨著醫(yī)療領(lǐng)域新技術(shù)的發(fā)展,供臨床決策的肺癌數(shù)據(jù)容量、信息維度不斷增多,如何利用龐大的臨床數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)化決策成為肺癌外科研究的重要方向[1]。機(jī)器學(xué)習(xí)(machine learning,ML)是人工智能的一個(gè)分支,通過模擬人類的學(xué)習(xí)行為,將從數(shù)據(jù)樣本中學(xué)習(xí)的問題與推理的一般概念聯(lián)系起來,其主要方法包括監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類[2]。ML在大樣本和多維數(shù)據(jù)的處理、學(xué)習(xí)過程的標(biāo)準(zhǔn)化和預(yù)測(cè)的高效性及準(zhǔn)確性等方面具有獨(dú)特優(yōu)勢(shì),其在肺癌外科領(lǐng)域的診斷及分期、手術(shù)方案制定及預(yù)后預(yù)測(cè)等方面均具有重要應(yīng)用。
1.肺癌篩查和肺結(jié)節(jié)診斷:胸部影像學(xué)檢查是目前臨床上肺癌篩查和輔助診斷使用最廣泛的檢查手段。隨著高分辨率CT的應(yīng)用、人群早期篩檢意識(shí)的提高,肺癌防治水平明顯提高,越來越多的肺癌病人在早期得到檢查并確診[3]。盡管如此,由于圖像蘊(yùn)含信息豐富、閱片醫(yī)師的主觀性和人眼視覺的局限性,傳統(tǒng)人工閱片方法對(duì)于肺部結(jié)節(jié)的檢出率不確定,且對(duì)檢出結(jié)節(jié)特別是肺磨玻璃結(jié)節(jié)的性質(zhì)鑒別和危險(xiǎn)度分層仍是一個(gè)難題[4]。運(yùn)用計(jì)算機(jī)智能技術(shù)輔助診斷已成為大勢(shì)所趨,基于ML和深度學(xué)習(xí)的算法模型和計(jì)算機(jī)輔助診斷系統(tǒng),在肺結(jié)節(jié)檢出和分類方面表現(xiàn)出極高準(zhǔn)確性,具有很高研究潛力和重要應(yīng)用價(jià)值[5-6]。Massion等[7]使用國家肺結(jié)節(jié)篩查研究(NLST)發(fā)現(xiàn)的未定性肺結(jié)節(jié)CT圖像,訓(xùn)練肺癌預(yù)測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型,并在兩個(gè)學(xué)術(shù)機(jī)構(gòu)的隊(duì)列中進(jìn)行外部驗(yàn)證,結(jié)果顯示,外部驗(yàn)證隊(duì)列的AUC分別為0.835和0.919,與傳統(tǒng)的梅奧風(fēng)險(xiǎn)預(yù)測(cè)模型相比,準(zhǔn)確性有所提升。Choi等[8]建立一種低劑量CT肺結(jié)節(jié)分型的放射組學(xué)預(yù)測(cè)模型,采用分層聚類方法識(shí)別來自數(shù)據(jù)庫的72份CT影像特征,利用支持向量機(jī)(support vector machine,SVM)分類器和套索算法(least absolute shrinkage and selection operator,LASSO)建立預(yù)測(cè)模型,并與美國放射學(xué)會(huì)肺部CT篩查報(bào)告和數(shù)據(jù)系統(tǒng)(Lung RADS)比較,結(jié)果表明,邊界框前后維和反差矩標(biāo)準(zhǔn)差的SVM-LASSO模型對(duì)診斷肺結(jié)節(jié)良惡性的準(zhǔn)確率為84.6%,比Lung RADS高12.4%。隨著ML算法的優(yōu)化和大樣本的訓(xùn)練,其輔助肺癌篩查和肺結(jié)節(jié)惡性腫瘤危險(xiǎn)性鑒別的診斷效能,尚具進(jìn)一步提高的潛力。另一方面,盡管采用低劑量CT對(duì)高風(fēng)險(xiǎn)人群進(jìn)行肺癌篩查應(yīng)用廣泛,但仍存在界定標(biāo)準(zhǔn)不一、假陽性率高和效益成本比較低等問題。近年來,隨著醫(yī)學(xué)檢驗(yàn)技術(shù)的進(jìn)步,特別是生物芯片等技術(shù)的出現(xiàn),新興的生物標(biāo)志物在肺癌篩查中展現(xiàn)出不俗的潛力,將ML、影像組學(xué)和生物標(biāo)志物結(jié)合并建立綜合預(yù)測(cè)模型,對(duì)未來提升肺癌篩檢能力具有重要價(jià)值。Shin等[9]使用正常細(xì)胞系和肺癌細(xì)胞系外泌體(exosomes)的表面增強(qiáng)拉曼光譜(surface-enhanced Raman spectroscopy,SERS),訓(xùn)練深度學(xué)習(xí)模型以識(shí)別早期肺癌,結(jié)果顯示分類準(zhǔn)確率達(dá)95%,提示其作為一種肺癌早期液體活檢的方法具有巨大潛力。
2.肺癌亞型診斷:肺癌的準(zhǔn)確分類是個(gè)體化治療和系統(tǒng)治療決策至關(guān)重要的一步?;顧z和術(shù)后病理切片是常規(guī)臨床實(shí)踐中確定肺癌亞型的主要方法,但均屬侵入性診斷,耗時(shí)且具有一定風(fēng)險(xiǎn)。開發(fā)非侵入性的肺癌亞型分類方法可更好幫助臨床決策。Guo等[10]回顧性納入920例肺癌病人,分別使用三維深度學(xué)習(xí)和放射組學(xué)方法,實(shí)現(xiàn)自動(dòng)區(qū)分肺腺癌(lung adenocarcinomas,ADC)、鱗狀細(xì)胞癌和小細(xì)胞肺癌并比較其表現(xiàn),結(jié)果表明,兩模型準(zhǔn)確率分別為71.6%和74.7%,AUC分別為0.840和0.789,該方法有望成為無創(chuàng)性預(yù)測(cè)肺癌組織學(xué)亞型的有效方法。Zhao等[11]使用包含651個(gè)亞厘米肺結(jié)節(jié)CT影像的數(shù)據(jù)集,訓(xùn)練并開發(fā)出一套基于三維卷積神經(jīng)網(wǎng)絡(luò)和多任務(wù)學(xué)習(xí)的、自動(dòng)預(yù)測(cè)ADC浸潤程度的深度學(xué)習(xí)系統(tǒng),以鑒別不典型腺瘤樣增生、原位腺癌、微浸潤腺癌和浸潤性腺癌,結(jié)果顯示模型加權(quán)平均F1得分為63.3%,優(yōu)于放射科醫(yī)生。
3.肺癌淋巴結(jié)轉(zhuǎn)移分析:ML的算法模型具有很大潛力,可基于計(jì)算機(jī)視覺技術(shù)輔助肺癌影像的識(shí)別,或作為“虛擬活檢”的手段提供淋巴結(jié)轉(zhuǎn)移預(yù)測(cè),可有效減少有創(chuàng)性檢查、提高分期的精確性。Wu等[12]回顧性分析1102例直徑≤2 cm NSCLC的臨床和影像學(xué)特點(diǎn),并納入23項(xiàng)預(yù)測(cè)因子,通過多個(gè)ML算法建立病人術(shù)前淋巴結(jié)轉(zhuǎn)移的預(yù)測(cè)模型,結(jié)果表明,8種模型的AUC為0.784~0.899,其中引入9個(gè)變量的隨機(jī)森林分類器(RFC)最佳。
4.肺癌相關(guān)驅(qū)動(dòng)基因突變預(yù)測(cè):隨著影像技術(shù)和人工智能技術(shù)的發(fā)展,影像基因組學(xué)應(yīng)運(yùn)而生,將分子表型和腫瘤成像特征(如密度、紋理特征等)聯(lián)系起來,為指導(dǎo)精準(zhǔn)醫(yī)療、個(gè)體化治療提供了工具。肺癌相關(guān)驅(qū)動(dòng)基因中,表皮生長因子受體(epidermal growth factor receptor,EGFR)突變最早被發(fā)現(xiàn)且研究較深入,近年來也出現(xiàn)很多針對(duì)ALK重排和KRAS突變的研究。Nair等[13]通過對(duì)50例已知EGFR突變NSCLC病人的胸部CT和FDG PET-CT影像進(jìn)行人工輪廓分析,提取出紋理特征用于開發(fā)多變量邏輯回歸模型,以預(yù)測(cè)EGFR外顯子19和外顯子20的突變,結(jié)果表明由CT和FDG PET-CT紋理特征得出的模型準(zhǔn)確率分別為0.78和0.71。
1.輔助手術(shù)方案決策:ADC中,腫瘤氣道內(nèi)播散(spread through air spaces,STAS)與淋巴血管侵犯和淋巴結(jié)轉(zhuǎn)移相關(guān)。有研究證實(shí),STAS為亞葉切除聯(lián)合淋巴結(jié)采樣術(shù)后早期復(fù)發(fā)的獨(dú)立危險(xiǎn)因素[14],提示STAS陽性病人可能應(yīng)采用肺葉切除術(shù)和縱隔淋巴結(jié)清掃,故術(shù)前預(yù)測(cè)ADC STAS陽性率可為手術(shù)決策提供重要參考。Chen等[15]納入2011~2013年間經(jīng)手術(shù)切除腫瘤的233例Ⅰ期ADC病人,對(duì)88項(xiàng)CT影像組學(xué)特征進(jìn)行無監(jiān)督聚類分析,選取代表性特征構(gòu)建貝葉斯模型(Bayes model)以預(yù)測(cè)病人STAS陽性率,結(jié)果顯示AUC為0.69,可輔助外科醫(yī)師參考選擇手術(shù)方案。
2.輔助治療決策:由于輔助化療的毒性作用,篩選何種術(shù)后病人行輔助化療仍存在爭(zhēng)議,尤其對(duì)于早期NSCLC的治療。Depeursinge等[16]納入手術(shù)切除的I期ADC 101例,基于術(shù)前CT磨玻璃影和腫瘤實(shí)體部分的尺寸的方向提出紋理模型,通過SVM和Lasso算法得到AUC為0.8的預(yù)測(cè)模型,并發(fā)現(xiàn)腺癌侵襲性與腫瘤實(shí)體部分的強(qiáng)度和形態(tài)高度相關(guān),為易復(fù)發(fā)病人的特異性指標(biāo),對(duì)術(shù)后是否進(jìn)行輔助化療有一定的指導(dǎo)意義。Chen等[17]通過多中心回顧性研究280例NSCLC病人的基因特征和T分期,構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型,對(duì)術(shù)后輔助化療的風(fēng)險(xiǎn)進(jìn)行評(píng)估,發(fā)現(xiàn)DUSP6和LCK的表達(dá)結(jié)合T分期對(duì)于預(yù)后預(yù)測(cè)的準(zhǔn)確率為65.71%。研究表明,利用ML可指導(dǎo)輔助化療的應(yīng)用,未來可通過選擇更具特異性的基因位點(diǎn)進(jìn)行分析從而提高預(yù)測(cè)的準(zhǔn)確率。
3.肺癌遠(yuǎn)處轉(zhuǎn)移特異性征象:肺癌易轉(zhuǎn)移至肝、腎上腺、腦及骨,找出相關(guān)影像學(xué)及臨床特征能綜合預(yù)測(cè)腫瘤特異性轉(zhuǎn)移的可能性,據(jù)此對(duì)病人進(jìn)行危險(xiǎn)性分層,可對(duì)高危病人進(jìn)行有針對(duì)性的干預(yù)。Kniep等[18]納入225例原發(fā)肺癌病人,采用隨機(jī)森林(RF)算法在1423個(gè)定量影像特征和基本臨床信息中篩選腦轉(zhuǎn)移特異性特征并訓(xùn)練分類模型,結(jié)果顯示AUC達(dá)0.89,表明此分類模型具有良好預(yù)測(cè)效能。脊柱轉(zhuǎn)移性肺癌病人預(yù)后較差,Lang等[19]納入30例既往無腫瘤、后確診為肺癌且轉(zhuǎn)移至脊柱病人的動(dòng)態(tài)增強(qiáng)MRI,深度學(xué)習(xí)其紋理特征和直方圖并獲得信號(hào)強(qiáng)度-時(shí)間曲線,通過特異性較高的特征如曲線上升期信號(hào)強(qiáng)度增幅(Peak SE%)、曲線最大上升線性斜率(max wash-in SE%)、曲線下降斜率(wash-out SE%)等半定量參數(shù)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率可達(dá)0.81,證明模型具有預(yù)測(cè)肺癌脊柱轉(zhuǎn)移的能力,可作為早期診斷的工具。
通過ML對(duì)臨床信息、影像組學(xué)和生物組學(xué)資料進(jìn)行高效的分析和挖掘,是信息時(shí)代醫(yī)學(xué)與大數(shù)據(jù)結(jié)合的重點(diǎn)方向之一,各種模型和分類器在肺癌外科得到良好應(yīng)用,輔助外科醫(yī)生制定診治決策,推動(dòng)精準(zhǔn)醫(yī)療的發(fā)展。目前,國內(nèi)外已投入ML在肺癌及醫(yī)學(xué)研究的應(yīng)用,但離實(shí)際臨床應(yīng)用還存在一定距離。雖然數(shù)據(jù)來源不斷增大,數(shù)據(jù)維度不斷增多,但仍缺少有效整合不同維度數(shù)據(jù)的高質(zhì)量標(biāo)準(zhǔn)化肺癌臨床數(shù)據(jù)庫。目前絕大多數(shù)預(yù)測(cè)和診斷研究僅適用于某一類病人,后續(xù)研究需優(yōu)化算法,探索模型在訓(xùn)練人群以外的適用性。部分研究指出,目前對(duì)模型的分析結(jié)果仍需要影像醫(yī)師的審閱,需要不斷提高診斷的準(zhǔn)確度和智能化。在社會(huì)法規(guī)方面,診療結(jié)果的醫(yī)療責(zé)任問題、信息安全問題等仍未被規(guī)范。隨著醫(yī)學(xué)大數(shù)據(jù)信息的不斷積累、計(jì)算機(jī)技術(shù)與醫(yī)學(xué)的進(jìn)一步融合,ML在肺癌外科的應(yīng)用機(jī)遇與挑戰(zhàn)并存,有廣泛的應(yīng)用前景和很高的臨床價(jià)值。