徐存來,曹 卓,,尹章勇 ,陳 璇 ,李雨玲 ,龔易莎 ,蔣奕薇 ,潘炯偉
(1.麗水市人民醫(yī)院 呼吸與危重癥科,浙江 麗水 323000;2.溫州醫(yī)科大學(xué) 第一臨床醫(yī)學(xué)院,浙江 溫州 325035)
癌癥篩查的目的就是盡量在沒有任何癥狀的情況下,通過各類檢測(cè)手段,包括但不限于血液學(xué)檢查和影像學(xué)檢查,來發(fā)現(xiàn)潛在的腫瘤或疾病。如何準(zhǔn)確地發(fā)現(xiàn)早期肺癌并進(jìn)行干預(yù)是預(yù)防肺癌主要的任務(wù)之一。與胸部X線相比,低劑量計(jì)算機(jī)斷層掃描可以將肺癌死亡率降低20%以上[1]。然而,每天用肉眼篩選大量CT圖像對(duì)于放射科醫(yī)師來說是巨大的壓力,且單純的影像學(xué)篩查早期肺癌準(zhǔn)確性和特異性仍需提高[1]。近年來發(fā)展起來的人工智能信息挖掘技術(shù),在解決大量數(shù)據(jù)帶來的多參數(shù)統(tǒng)計(jì)分析問題上具有獨(dú)到的優(yōu)勢(shì),因此,利用掌握的涉及不同機(jī)制的分子生物標(biāo)志,同時(shí)聯(lián)合影像學(xué)數(shù)據(jù)建立的數(shù)據(jù)分類模型,將對(duì)提高肺癌的早期判別準(zhǔn)確率有巨大的促進(jìn)作用。為此,本文擬以基于靶掃描的3D卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)技術(shù)聯(lián)合基因檢測(cè)建立模型并運(yùn)用于早期肺癌篩查。
1.1 一般資料 本研究為前瞻性巢式病例對(duì)照研究。選取2017年12月—2020年12月經(jīng)麗水市人民醫(yī)院府前院區(qū)呼吸與危重癥科因“肺結(jié)節(jié)”入院患者作為研究隊(duì)列,收集其基線數(shù)據(jù)、外周血及CT影像學(xué),并隨訪90天。隊(duì)列中經(jīng)手術(shù)病理活檢確診的Ⅰ/Ⅱ期非小細(xì)胞肺癌患者80例作為肺癌組,術(shù)前未經(jīng)任何抗癌治療、無職業(yè)致癌物接觸史。選取隊(duì)列中和病例組同一個(gè)月在我科經(jīng)手術(shù)病理活檢確診為感染性病變且無腫瘤病史的肺結(jié)節(jié)患者80例作為良性組。兩組的年齡、性別差異無統(tǒng)計(jì)學(xué)意義(P>0.05),本研究方案經(jīng)醫(yī)院倫理學(xué)委員會(huì)批準(zhǔn),研究對(duì)象均知情同意。
1.2 DNA提取及甲基化檢測(cè) 所有研究對(duì)象均入組次日抽取空腹外周靜脈血樣本2 mL,置于4 ℃保存不超過1周,在新鮮狀態(tài)下提取DNA備用,選擇受試者外周血中pl6、RASSFIA基因啟動(dòng)子區(qū)甲基化水平作為觀察指標(biāo),嚴(yán)格按照說明書操作。主要試劑:DNA提取試劑盒(TIANamp),人類DNA甲基化試劑盒(Zymo Research),人類基因組甲基化p16和RASSF1A基因檢測(cè)試劑盒(上海透景)。p16基因:上游引物 5′-GAAGAAAGAGGAGGGGCTG-3′,下游引物 5′-GCGCTACCTGATTCCAATTC-3′;RASSF1A基因:上游引物5′-GGGTTTTGCGAGAGCGCG-3′,下游引物 5′-GCTAACAAACGCGAACCG-3′?;驍U(kuò)增條件:Taq 酶0.5 μL,模板DNA 2.5 ng,上游引物(20 μmol/L)1 μL,下游引物(20 μmol/L)1 μL,GC buffer125 μL,dNTP(含Mg2+)8 μL,滅菌蒸餾水加至50 μL。PCR反應(yīng)條件:95 ℃熱啟動(dòng)15 min;95 ℃30 s,62 ℃30 s,72 ℃30 s,共35個(gè)循環(huán);最后72 ℃8 min。
1.3 影像學(xué)處理 所有入組對(duì)象進(jìn)行常規(guī)的低劑量CT掃描,加上我院的人工智能系統(tǒng)(飛圖智能軟件),發(fā)現(xiàn)肺部結(jié)節(jié)后進(jìn)行靶掃描+二三維度重建,靶掃描采用較高劑量進(jìn)行掃描(120 kV,408 mA),且針對(duì)病灶部位進(jìn)行掃描,執(zhí)行ROI重建并且圖像重建大小為1 024×1 024,層厚為1 mm,層數(shù)為56層。參與的讀片醫(yī)師均為高年資醫(yī)師,由3人以上一起讀片。
1.4 Fisher判別分析 Fisher判別分析模型的基本思想是先投影后判別。投影是指將原來的P維(X空間)的輸入變量投影到K維(Y空間)上。本文按3∶1的比例將數(shù)據(jù)隨機(jī)分成訓(xùn)練集和預(yù)測(cè)集兩組,在SPSS Modeler 18.0中實(shí)現(xiàn)。
1.5 C5.0決策樹模型 決策樹最上面的節(jié)點(diǎn)是根節(jié)點(diǎn),從上到下每個(gè)節(jié)點(diǎn)都會(huì)遇到一次測(cè)試,不同的測(cè)試結(jié)果會(huì)輸出不同的分支。其在SPSS Modeler 18.0中實(shí)現(xiàn)對(duì)整理好的數(shù)據(jù)建立預(yù)測(cè)模型。
1.6 3D-CNN方法 以患者靶掃描的圖像作為數(shù)據(jù)來源,由3名高年資影像醫(yī)師進(jìn)行標(biāo)注,選擇最能夠體現(xiàn)肺結(jié)節(jié)特征的3層圖像。針對(duì)每一個(gè)具有金標(biāo)準(zhǔn)的病灶,用矩形框標(biāo)注出病灶的每一層結(jié)構(gòu)。其中,肺癌設(shè)置標(biāo)簽為1,肺良性病變?cè)O(shè)置標(biāo)簽為2。160例數(shù)據(jù)里面總共標(biāo)注了80個(gè)肺癌結(jié)節(jié)和80個(gè)肺良性病變結(jié)節(jié)。本課題組按5∶3的比例將數(shù)據(jù)隨機(jī)分成訓(xùn)練集和預(yù)測(cè)集兩組,在SPSS Modeler 18.0中實(shí)現(xiàn)。研究采用神經(jīng)網(wǎng)絡(luò)算法,在SPSS Modeler 18.0軟件中參數(shù)如下:使用分割數(shù)據(jù)=否;方法=Quick;避免過度訓(xùn)練=50%;設(shè)置隨機(jī)種子數(shù)=否;按條件停止=Times1 min;優(yōu)化=memory;繼續(xù)訓(xùn)練存在的模型=否;使用二進(jìn)制元集合編碼=是;顯示反饋圖=是。
1.7 統(tǒng)計(jì)學(xué)方法 應(yīng)用SPSS 21.0軟件處理數(shù)據(jù)。2組pl6和RASSFIA基因甲基化比較采用Z檢驗(yàn),基于靶掃描的3D-CNN網(wǎng)絡(luò)模型分類結(jié)果采用直接卡方檢驗(yàn)。設(shè)定的檢驗(yàn)水準(zhǔn)為0.05。
2.1 甲基化檢測(cè) 肺癌組外周血pl6、RASSFIA基因啟動(dòng)子甲基化水平均高于良性組,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見表1。
表1 外周血肺癌組和良性組pl6和RASSFIA基因甲基化比較
2.2 基于靶掃描的3D-CNN網(wǎng)絡(luò)模型分類 采用3D-CNN網(wǎng)絡(luò)模型后,預(yù)測(cè)集分類準(zhǔn)確率(83.33%)比訓(xùn)練集(72.00%)提高,但二者差異無統(tǒng)計(jì)學(xué)意義(χ2=0.602,P=0.438)。
2.3 預(yù)測(cè)模型的診斷效果 從Fisher、決策樹、3D-CNN模型對(duì)預(yù)測(cè)集的診斷結(jié)果中可見,3D-CNN模式的診斷靈敏度(79.52%)、特異度(89.24%)、準(zhǔn)確度(85.14%)均最高。見表2。
表2 三種預(yù)測(cè)模型對(duì)預(yù)測(cè)集的診斷結(jié)果
3D-CNN模型在醫(yī)學(xué)領(lǐng)域的運(yùn)用仍以科學(xué)研究為主,尤以結(jié)腸癌領(lǐng)域最為多見。Hildebrand等[2]開發(fā)了一種基于無癥狀的癌癥篩查方法:通過血液學(xué)檢查、年齡和性別等特征,基于GBDT和隨機(jī)森林算法來鑒定受試者是否具有結(jié)腸直腸癌的風(fēng)險(xiǎn),其模型檢測(cè)結(jié)腸直腸癌的AUC達(dá)到0.82。Zhou等[3]使用多層3D-CNN用于肺結(jié)節(jié)檢測(cè)可使診斷模型假陽性減少,所提出的算法在LUNA比賽中獲獎(jiǎng)[4-5]。本次研究采用肺癌組及良性組訓(xùn)練集,訓(xùn)練基于靶掃描的3D-CNN網(wǎng)絡(luò)模型后,其分類準(zhǔn)確率較前提高、誤分率減少。但經(jīng)卡方檢驗(yàn),訓(xùn)練集及預(yù)測(cè)集準(zhǔn)確率差異無統(tǒng)計(jì)學(xué)意義,可能與本研究訓(xùn)練集及預(yù)測(cè)集樣本量過少有關(guān),該模型預(yù)測(cè)集僅為單中心60人次,還需要多中心大樣本的研究加強(qiáng)對(duì)模型的訓(xùn)練。
另一方面,國(guó)外有學(xué)者在3 000例受試者的痰液中發(fā)現(xiàn)其中6個(gè)基因(p16、MGMT、DAPK、 RASSFIA、 PAX513及GATA5)與早期肺癌的風(fēng)險(xiǎn)增高有關(guān)[6]。本次研究發(fā)現(xiàn)肺癌組和良性組外周血pl6、 RASSFIA基因啟動(dòng)子甲基化水平有顯著性差異,證實(shí)了上述觀點(diǎn)。
然而,由于早期肺癌的發(fā)生發(fā)展極其復(fù)雜,近年來發(fā)展起來的多腫瘤標(biāo)志聯(lián)合檢測(cè)也存在相互作用等難以解決的統(tǒng)計(jì)學(xué)問題[7]。結(jié)直腸癌領(lǐng)域的拓荒者和實(shí)踐者鄭樹教授[8]將神經(jīng)網(wǎng)絡(luò)聯(lián)合多種腫瘤標(biāo)志物用于鑒別消化道惡性腫瘤,建立的人工智能消化道腫瘤模型能較好地鑒別肝癌、腸癌和胃癌等消化道腫瘤。本文在我院小樣本研究中利用p16和RASSFIA兩種基因組合及受試者影像學(xué)特征建立了基于Fisher判別及決策樹及3D-CNN等三種模型的早期肺結(jié)節(jié)智能診斷模型,其中3D-CNN模型對(duì)早期肺癌及肺良性疾病的判別敏感性及特異性較高(分別為79.52%和89.24%)。
綜上所述,本研究從肺癌遺傳易感標(biāo)志和早期效應(yīng)標(biāo)志2個(gè)方面為切入點(diǎn),篩選了p16和RASSFIA基因甲基化水平以及應(yīng)用數(shù)據(jù)挖掘技術(shù)中的3D人工神經(jīng)網(wǎng)絡(luò)檢測(cè)初步構(gòu)建了肺癌-肺良性疾病輔助診斷模型,為高危人群的篩查和臨床肺癌的早期診斷提供有價(jià)值的參考資料,對(duì)于提高肺惡性腫瘤患者總體的生存率有積極的意義。但該模型預(yù)測(cè)集僅為單中心60人次,還需要多中心大樣本的研究,且未進(jìn)行全基因組測(cè)序明確甲基化結(jié)果,有待進(jìn)一步研究加以證實(shí)。