劉一萍,李新平,陳 磊,夏金菊,宋凱榮,賈寧陽,劉婉敏,3
1 海軍軍醫(yī)大學(xué)第三附屬醫(yī)院,上海東方肝膽外科醫(yī)院 放射科,上海 200438;2 上海聯(lián)影智能醫(yī)療科技有限公司, 上海 201807;3 同濟大學(xué) 醫(yī)學(xué)院,同濟大學(xué)附屬同濟醫(yī)院 放射科,上海 200331
原發(fā)性肝癌是導(dǎo)致全球癌癥死亡的第二大病因,其預(yù)后普遍較差,中位生存期僅6~20個月,其中肝細胞癌(HCC)是最常見類型[1],其發(fā)病原因與HBV/HCV感染、肥胖、糖尿病、代謝癥候群及非酒精性脂肪肝等有關(guān)。HCC多發(fā)生于有肝炎、肝硬化病史的患者,臨床可以通過影像學(xué)檢查對HCC進行早期診斷,盡早選擇合理的治療手段,如切除、移植、消融和經(jīng)導(dǎo)管動脈化療栓塞(TACE)等。根據(jù)美國肝病學(xué)會指南,在肝硬化背景下,肝內(nèi)直徑1~2 cm可疑結(jié)節(jié)應(yīng)通過動態(tài)增強CT、動態(tài)增強MRI或超聲造影中的至少2種檢查方法進行評價[2],CT和MRI可識別65%直徑<2 cm的肝臟病灶。近年來,肝臟特異度釓對比劑的應(yīng)用為臨床提供了肝膽期肝細胞功能信息,進一步豐富了對HCC代謝信息的研究。
針對HCC分期系統(tǒng),器官獲取與移植網(wǎng)絡(luò)指南[3]和肝臟影像報告及數(shù)據(jù)系統(tǒng)(LI-RADS)指南[4],明確定義包膜、強化呈“快進快出”、腫瘤增大可作為診斷HCC的影像學(xué)特征。盡管HCC具有特殊的影像學(xué)特征,但由于腫瘤的異質(zhì)性和生物學(xué)差異,其治療和預(yù)后的預(yù)判受HCC不同生物學(xué)行為、分化程度和基因組學(xué)特征等諸多因素影響。研究發(fā)現(xiàn),肝癌的預(yù)后不僅與腫瘤的大小有關(guān),還與腫瘤的上皮間質(zhì)轉(zhuǎn)化、微血管浸潤(microvascular invasion,MVI)、血管內(nèi)皮生長因子和缺氧誘導(dǎo)因子等病理特征密切相關(guān),通過影像學(xué)表現(xiàn)預(yù)測腫瘤生物分子學(xué)行為,從而預(yù)判肝癌患者治療效果及預(yù)后是目前影像學(xué)研究熱點之一。
20世紀50年代,“人工智能”成為計算機科學(xué)的一個分支,致力于開發(fā)算法以使機器能夠完成通常需要人類智能才能完成的復(fù)雜任務(wù)。機器學(xué)習(xí)是人工智能研究的主要領(lǐng)域,近幾年迅速發(fā)展的深度學(xué)習(xí)是機器學(xué)習(xí)的研究方向之一。人工智能在醫(yī)療領(lǐng)域的融合發(fā)展迅速,特別在影像醫(yī)學(xué)的診斷、治療和療效評估等方面已有突破性進展。本文主要著眼于人工智能在肝癌中的應(yīng)用,利用放射學(xué)、組織學(xué)或遺傳學(xué)特征,同時結(jié)合臨床特征進行療效評估和預(yù)后預(yù)測的效能[5-6]。
2.1 機器學(xué)習(xí) 機器學(xué)習(xí)研究如何通過計算的手段,學(xué)習(xí)經(jīng)驗(數(shù)據(jù))來提升人工智能系統(tǒng)的性能,通過訓(xùn)練-驗證和測試的算法模式,建立預(yù)測模型并應(yīng)用于臨床輔助診斷。機器學(xué)習(xí)一般分3種類型:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。監(jiān)督學(xué)習(xí)需要為算法學(xué)習(xí)提供有標簽的數(shù)據(jù);無監(jiān)督學(xué)習(xí)即在無標簽數(shù)據(jù)集中找出隱藏的分類信息;強化學(xué)習(xí)則是通過算法提供的許多正負反饋,在互動環(huán)境中動態(tài)學(xué)習(xí)以執(zhí)行特定任務(wù)。利用圖像特征進行分類的傳統(tǒng)機器學(xué)習(xí)算法包括邏輯回歸(logisticregression,LR)、支持向量機(support vector machine,SVM)和隨機森林(random forest,RF)等[7]。
機器學(xué)習(xí)需要的數(shù)據(jù)包括訓(xùn)練集、驗證集和測試集。算法學(xué)習(xí)訓(xùn)練集的數(shù)據(jù)并建模,訓(xùn)練集數(shù)據(jù)中的混雜可能導(dǎo)致機器學(xué)習(xí)算法出現(xiàn)偏差。當(dāng)計算出的特征數(shù)量遠大于樣本數(shù)量時將導(dǎo)致過度擬合。為避免過擬合訓(xùn)練數(shù)據(jù),可通過特征降維方法降低特征數(shù)量,同時保留相關(guān)性高的特征,如套索算法(least absoulute shrinkage and selection operato,Lasso)只保留最相關(guān)的特征。Lasso算法需要在獨立的數(shù)據(jù)集上進行驗證以優(yōu)化算法、避免過擬合。驗證集用于檢測模型的性能和評估訓(xùn)練的質(zhì)量,避免模型過擬合。最優(yōu)的算法模型要在驗證集和測試集上同時表現(xiàn)優(yōu)異,而過擬合對訓(xùn)練數(shù)據(jù)的細微變化反應(yīng)過度而在測試數(shù)據(jù)上表現(xiàn)不佳,將導(dǎo)致模型在真實世界中難以應(yīng)用和推廣。
機器學(xué)習(xí)需要足夠數(shù)量的訓(xùn)練集構(gòu)建模型,將數(shù)據(jù)中有意義的信息表示為圖像特征函數(shù)[8]。真實世界中有標簽的數(shù)據(jù)集往往難以獲取,為了解決標記圖像稀缺的問題,遷移學(xué)習(xí)可以將前一個任務(wù)中學(xué)到的知識應(yīng)用到另一個不同但相關(guān)的任務(wù)中。遷移學(xué)習(xí)利用已有的標簽數(shù)據(jù)獲得一個預(yù)訓(xùn)練模型,再用一個新任務(wù)中的少量訓(xùn)練數(shù)據(jù)完成建模[9],模型的性能可顯著優(yōu)于只在少量訓(xùn)練數(shù)據(jù)上構(gòu)建的模型。最后,構(gòu)建的機器學(xué)習(xí)模型需要在獨立的數(shù)據(jù)集上進行測試,以評估算法的準確性[10]。
2.2 深度學(xué)習(xí) 隨著大量有標簽圖像數(shù)據(jù)集的出現(xiàn)和算法計算能力的大幅提升,深度學(xué)習(xí)成為人工智能領(lǐng)域的熱點。深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集,其基于大樣本量數(shù)據(jù),利用輸入端到輸出端的表征學(xué)習(xí)方法,從原始數(shù)據(jù)中學(xué)習(xí)潛在的復(fù)雜特征,最終目標是使機器具備和人一樣的分析能力。深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)研究,“深度”是指多層感知器包含多層神經(jīng)網(wǎng)絡(luò),中間層包含多個隱藏層。深度學(xué)習(xí)模型利用多層感知器學(xué)習(xí)簡單特征(如信號強度、邊緣和紋理)到更復(fù)雜特征(如形狀、類型),反映數(shù)據(jù)結(jié)構(gòu)層次的圖像(如器官或病變)的組成特性。
人工神經(jīng)網(wǎng)絡(luò)由一組相互連接的基本元素即人工神經(jīng)元構(gòu)成,成千上萬個神經(jīng)元組成多層感知器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)代表了復(fù)雜的非線性功能,其由輸入層、多個隱藏層和輸出層組成。輸入層指輸入數(shù)據(jù);每個隱藏層的前一層所有元素表現(xiàn)的特征值乘以相應(yīng)的權(quán)重特征被疊加,并通過一個非線性函數(shù)激活,與后一組元素通過權(quán)重強度相連,其中的元素之間的加權(quán)連接通過反向傳播糾錯信號,根據(jù)輸入和輸出的實例對元素的加權(quán)連接進行迭代調(diào)整,輸出層產(chǎn)生目標值如分類結(jié)果。具體表現(xiàn)為神經(jīng)網(wǎng)絡(luò)通過前饋神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)提供連接節(jié)點并對特征進行編碼,然后調(diào)整每個節(jié)點的權(quán)值和偏差來訓(xùn)練,從隨機初始配置開始,通過梯度下降的優(yōu)化算法調(diào)整參數(shù),該算法每次從數(shù)據(jù)樣本(正向傳播)計算時,網(wǎng)絡(luò)的性能通過輸入類別和輸出預(yù)測之間的損失(誤差)函數(shù)以最小化損失,小幅度地調(diào)整(反向傳播)網(wǎng)絡(luò)的權(quán)重,對訓(xùn)練數(shù)據(jù)集中的每個樣本進行多次訓(xùn)練后,參數(shù)趨近模型最大化精度[11]。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)由多層網(wǎng)絡(luò)構(gòu)成,包括卷積層(由稱為核的過濾器組成)、匯聚層、全連接層和標準化層。CNN通過對圖像進行卷積操作,將輸入圖像生成一系列特征映射,這些特征映射被一個匯集層降采樣,然后進行另一組卷積操作產(chǎn)生更深層次的特征,每層多個不同的卷積濾波器產(chǎn)生大量不同的特征映射,每個特征映射都突出顯示了輸入圖像的不同特征,卷積和匯集層交替堆疊,直到網(wǎng)絡(luò)正確獲得圖像結(jié)構(gòu),最終執(zhí)行分類或回歸。CNN關(guān)鍵組成部分包括激活函數(shù)(activation function)和下采樣(down-sampling),激活函數(shù)是應(yīng)用于諸如卷積等線性運算輸出的非線性函數(shù),下采樣增加了后續(xù)過濾器的有效范圍或感受野。卷積層和激活函數(shù)形成特征映射,降采樣/最大匯集層降低空間分辨率,降低了模型對圖像的微小移動敏感度。CNN目前已成功應(yīng)用到圖像/器官分割(segmentation),圖像分類(classification)、病灶檢測(detection)、圖像配準(registration)和圖像映射(mapping)等應(yīng)用領(lǐng)域。
3.1 影像組學(xué) 影像組學(xué)分析是從醫(yī)學(xué)影像數(shù)據(jù)中高通量挖掘可能被“隱藏”的圖像特征信息,結(jié)合臨床/實驗室信息建立預(yù)測模型,評估腫瘤特征并預(yù)測與腫瘤侵襲性強關(guān)聯(lián)的病理、免疫標志物、治療療效等[12]。當(dāng)前,HCC影像組學(xué)相關(guān)研究越來越受到關(guān)注,作為研究影像學(xué)與臨床特征關(guān)系的重要方法,以定量評估HCC的生物學(xué)行為、組織學(xué)分級和抗腫瘤治療療效預(yù)測,對于深入了解HCC遺傳學(xué)、生物學(xué)和臨床識別具有不同預(yù)后的關(guān)鍵分子以及相關(guān)基因或表觀遺傳驅(qū)動因子具有潛在的智能化和創(chuàng)新性價值,為HCC優(yōu)化治療策略和預(yù)后提供重要信息[13-14]。
Wakabayashi等[15]回顧性分析23項(包括PET-CT 2項、MR 7項、CT 14項)利用影像組學(xué)評估HCC的早期研究,其中8項研究涉及生物學(xué)特征與影像學(xué)表現(xiàn)之間的關(guān)系,可歸類為放射遺傳學(xué)研究,指出放射組學(xué)仍是一個非常“年輕”的領(lǐng)域,但作為非侵入性方法在補充或替代腫瘤活檢方面具有令人期待的前景。Ma等[16]研究表明,28個影像組學(xué)特征可以重建約80%的基因表達譜、約116個基因模型的變異。MR成像對于運動和磁化率等成像偽影更為敏感,同時MR影像可任意方位成像、軟組織對比度高且可進行多參數(shù)成像,與數(shù)學(xué)、物理等方法結(jié)合可實現(xiàn)定量和定性分析。因此,MR組學(xué)研究也逐漸取得開拓性進展[17]。當(dāng)前,相關(guān)研究主要聚焦于MR影像組學(xué)預(yù)測肝癌患者預(yù)后,通過評估腫瘤大小、信號、強化方式及組學(xué)特征,可以建立侵襲性肝癌的病理和基因組數(shù)據(jù)的預(yù)測復(fù)發(fā)性模型[18]。盡管HCC影像組學(xué)預(yù)測腫瘤生物學(xué)、分子譜、治療后反應(yīng)和結(jié)果的潛在效用已得證實[19],但如MRI成像采集方式的優(yōu)化,分割和提取特征方法的驗證,以及機器學(xué)習(xí)方法中的訓(xùn)練和測試尚需大樣本影像學(xué)數(shù)據(jù)庫的支撐。
筆者認為,當(dāng)前人類對肝癌的認知仍處于不斷完善與完整中,依賴專業(yè)知識轉(zhuǎn)化為對應(yīng)的計算模型具有一定局限性。肝炎、肝硬化背景下的HCC通過動態(tài)增強CT或MRI可作出相對準確的診斷,但其影像學(xué)特征易受主觀性影響。影像組學(xué)可以用于個性化研究HCC影像數(shù)據(jù)與潛在的生物學(xué)行為的聯(lián)系,然而,影像組學(xué)特征依賴于標準化的圖像采集參數(shù),而這些參數(shù)可能由于不同廠商的掃描儀硬件和軟件而變化,因此,影像組學(xué)如廣泛應(yīng)用于HCC診斷和預(yù)后的臨床實踐中,流程、測量標準化,算法、分析方法共享,以及外部驗證是十分必要的。
3.2 病灶分割 深度神經(jīng)網(wǎng)絡(luò)自動分割模型可以減少誤差,優(yōu)化時間和增加方法的標準化,其對肝臟影像自動化處理的先進方法包括對病變定位、分割、診斷、預(yù)后和治療反應(yīng)的預(yù)測,以揭示與臨床病理結(jié)果的聯(lián)系。比較傳統(tǒng)算法,CNN在物體識別、分類等計算機視覺任務(wù)方面準確性更高[20],有研究[21]提出一種基于改進區(qū)域生長分割技術(shù)的肝臟三維自動分割方法,對正常肝臟、肝硬化和肝癌的三維分割的吻合系數(shù)分別為90%、86%和81%,而深度學(xué)習(xí)技術(shù)的肝臟三維自動分割方法的吻合系數(shù)分別為82%、78%和70%;健康與病變肝臟的標準差和峰度有統(tǒng)計學(xué)差異,應(yīng)用logistic回歸模型分類法分類準確率為92.5%;構(gòu)建基于SVM分類器的肝硬化和肝癌的預(yù)測模型,分類結(jié)果顯示按圖像和患者的預(yù)測準確率分別為86.9%(精度為0.93,召回率為0.70)和80%(精度為0.86,召回率為0.75)。
深度神經(jīng)網(wǎng)絡(luò)自動分割模型可應(yīng)用于分割肝臟與腫瘤[22]。Ouhmich等[23]使用神經(jīng)網(wǎng)絡(luò)U-Net成功分割健康肝組織和肝癌組織。U-Net是一種端到端的神經(jīng)網(wǎng)絡(luò)模型,連接層被擴展路徑取代,擴展路徑通過升級采樣(提高特征映射的空間分辨率和恢復(fù)下采樣操作中丟失的空間信息)和跳躍連接(用于從網(wǎng)絡(luò)的追蹤路徑繞過更深層次的層傳遞信息)建立,該網(wǎng)絡(luò)模型廣泛應(yīng)用于醫(yī)學(xué)圖像分析。有研究[24]利用多期增強MRI圖像訓(xùn)練U-Net結(jié)構(gòu)的深度CNN分割模型提取肝臟和HCC病灶,分割后的結(jié)果輸入RF分類器進行分析,最后利用平均神經(jīng)激活閾值降低假陽性率。在174例患者的231個病灶數(shù)據(jù)集上與臨床醫(yī)師標注的金標準比較,病例級和病灶級的重合率相似系數(shù)平均值分別為0.91/0.91(驗證/測試)和0.64/0.68,結(jié)果證實深度CNN可自動分割肝臟和HCC病灶區(qū)域,支持臨床應(yīng)用LI-RADS方法。其中,重合率(Dice)通常被用作評估/度量標準,當(dāng)分割結(jié)果區(qū)域與金標準標注區(qū)域完全不重疊時,Dice值為0,完全重疊時Dice值為1。
筆者認為,人工智能在影像學(xué)圖像處理領(lǐng)域的應(yīng)用已經(jīng)從傳統(tǒng)機器學(xué)習(xí)算法發(fā)展到深度學(xué)習(xí)架構(gòu)。深度學(xué)習(xí)使用多層神經(jīng)網(wǎng)絡(luò)模型在對肝臟和HCC的影像分割、分類和病變檢測中,CNN具有明顯的優(yōu)勢。也要注意到當(dāng)采用深層神經(jīng)網(wǎng)絡(luò)模型進行肝臟和HCC分割時,即使輸入數(shù)據(jù)的微小變化,也可能導(dǎo)致不同的分類結(jié)果,因此需要人工復(fù)核,同時對醫(yī)學(xué)圖像分析和解釋也是放射科醫(yī)師的基本工作任務(wù)。
3.3 精準輔助診斷分級療效評估 基于人工智能技術(shù)的肝癌輔助診斷應(yīng)用發(fā)展迅速,用于肝硬化的早期檢測將有助于控制其向HCC的進展[14]。近年來,基于機器學(xué)習(xí)的方法已被用于提高HCC的診斷性能。Nayak等[21]使用支持向量機構(gòu)建分類模型,基于多期CT影像對肝硬化和肝癌的檢測準確率達90%。與CT相比,MRI能更全面地評估肝臟病變[25],Jansen等[26]從DCT-MRI和T2WI序列中提取相關(guān)特征,結(jié)合臨床危險因素數(shù)據(jù)并創(chuàng)建自動分類系統(tǒng),將肝臟病變分類為腺瘤、囊腫、血管瘤、HCC和轉(zhuǎn)移,其敏感度和特異度分別為0.80/0.78、0.93/0.93、0.84/0.82、0.73/0.56和0.62/0.77。Mokrane等[27]使用歐洲肝病學(xué)會指南將歸類為不確定的肝結(jié)節(jié)隨機分組,對增強3期CT數(shù)據(jù)提取13 920個定量影像學(xué)特征(12組、1160個特征),利用機器學(xué)習(xí)量化反映影像組學(xué)特以鑒別診斷肝癌,實驗組與驗證組的受試者工作特征曲線下面積(AUC)分別為0.70(95%CI:0.61~0.80)和0.66(95%CI:0.64~0.84)。
不僅如此,基于深度學(xué)習(xí)技術(shù)建立的HCC的CT人工智能輔助診斷系統(tǒng),與放射科醫(yī)師的診斷性能比較同樣顯示出優(yōu)勢[28]。評估深度神經(jīng)網(wǎng)絡(luò)模型輔助診斷HCC的分類性能的指標包括準確率、敏感度、特異度、曲線下面積和運算時間[29]。Oestmann等[29]研究表明,深度學(xué)習(xí)模型可更好鑒別HCC,尤其是非典型HCC影像學(xué)特征(不符合LI-RADS的LR-5標準和易于分級錯誤的非肝癌)。Vivanti等[30]報道了基于CNN的檢測方法實現(xiàn)自動識別病變復(fù)發(fā),輸入包括CT影像上病變的初始表現(xiàn)、基線時腫瘤負荷量的定量和隨訪時間,對腫瘤復(fù)發(fā)的識別準確率達86%。Shi等[31]比較了基于CT的CNN模型與單獨使用CT相比,區(qū)分肝癌與其他肝臟局灶性病變的敏感度和特異度更高。Hamm等[32]采用CNN在MRI對肝臟病變進行分類,準確率為92%,敏感度為92%,特異度為98%。Wu等[33]研究了CNN模型在多期MRI對LI-RADS分級的有效性,特別是在LR-3和LR-4/LR-5腫瘤之間的準確率為90%,敏感度為100%,AUC為0.95。Zhen等[25]開發(fā)了一種基于增強MR和臨床數(shù)據(jù)的CNN,在診斷HCC、轉(zhuǎn)移性腫瘤和其他原發(fā)性惡性腫瘤具有較高準確性,與病理符合率為91.9%。
筆者認為,CNN對肝癌診斷的準確性不僅與深度神經(jīng)網(wǎng)絡(luò)的性能有關(guān),還要注意到與特定的標注數(shù)據(jù)集相關(guān)。當(dāng)前的許多研究顯示人工智能技術(shù)在HCC的診斷檢出率高于放射科醫(yī)師,但其復(fù)雜性和難以解釋性對廣泛應(yīng)用帶來了困難,這就需要通過前瞻性臨床研究進行驗證,同時還要考慮到人工智能輔助診斷HCC分類能力中運算時間以及臨床的實用性。
3.4 HCC的分級 肝癌的病理分級是術(shù)后生存和復(fù)發(fā)的重要生物標志物。雖然影像學(xué)表現(xiàn)如瘤周強化、多灶性、邊緣不規(guī)則和包膜破裂可被作為預(yù)測因素,但臨床研究[34]表現(xiàn)欠佳,基于CT影像組學(xué)預(yù)測肝癌病理分級卻顯示出良好的性能(AUC=0.8)。Wu等[35]利用Lasso選擇影像組學(xué)特征,結(jié)合臨床特征(年齡、性別、腫瘤大小、AFP、乙型肝炎、肝硬化、門靜脈血栓、門靜脈高壓和假包膜)構(gòu)建混合預(yù)測模型,相較于僅利用臨床特征構(gòu)建的模型對肝癌分級術(shù)前預(yù)測性能更優(yōu)。
MVI在HCC中被認為是預(yù)測不良生存率和腫瘤切除術(shù)后復(fù)發(fā)的重要指標,術(shù)前預(yù)測HCC的MVI對手術(shù)策略具有重要意義。目前只能通過術(shù)后組織病理學(xué)明確診斷,限制了MVI的應(yīng)用。隨著肝膽特異對比劑的應(yīng)用,越來越多的研究基于Gadoxetate-disodium增強MR組學(xué)用于HCC的MVI術(shù)前預(yù)測[12]。通常在MR肝膽期圖像上人工標記瘤內(nèi)和瘤周的感興趣區(qū)域,用于機器學(xué)習(xí)特征提取和特征篩選,再定量評價MR增強的瘤內(nèi)和瘤周區(qū)的影像學(xué)特征,為預(yù)測HCC的MVI提供了有效的影像組學(xué)模型[12]。有研究[36]利用機器學(xué)習(xí)方法對Gadoxetate-disodium增強MR表現(xiàn)(T1弛豫時間、腫瘤邊緣、腫瘤大小、瘤周強化、瘤周低信號、ADC值),結(jié)合Lasso特征篩選出的影像組學(xué)特征,并利用SVM、XGBoost和logistic模型分類器分別構(gòu)造基于影像組學(xué)的模型預(yù)測HCC的MVI,AUC分別為0.942、0.938和0.936,基于影像組學(xué)的方法預(yù)測MVI顯示了更高的準確率,可作為評估MVI的潛在生物標志物。
筆者認為,以Gadoxetate-disodium為代表的肝膽特異度對比劑在HCC的MRI診斷中達到了非常高的診斷準確性。腫瘤周圍區(qū)域分析有證據(jù)表明MVI是發(fā)生在腫瘤周圍而不是腫瘤內(nèi)部。為進一步了解臨床病理特征之間的相互作用,有待于深入進行大樣本研究腫瘤周圍區(qū)域的定量特征,實現(xiàn)更精準預(yù)測肝癌的分級和術(shù)前MVI。
3.5 HCC療效評估 HCC 的異質(zhì)性具有不同的表型和基因型,可表現(xiàn)出不同的侵襲性,對手術(shù)、介入、放療和靶向藥物治療反應(yīng)不同[37]。傳統(tǒng)的線性模型評估肝癌的預(yù)后有相當(dāng)大的局限性[38-39]。相比較而言,人工智能應(yīng)用在預(yù)測肝癌的治療預(yù)后等方面具有更高的準確性,可以預(yù)測HCC復(fù)發(fā)、治療反應(yīng)及長期總生存率[40]。特別是在分析相對較少的HCC數(shù)據(jù)時,深度學(xué)習(xí)技術(shù)已經(jīng)被用來識別影響HCC預(yù)后的差異。有研究[41]通過提取HCC的CT動脈期表現(xiàn),同時結(jié)合臨床風(fēng)險因素,用Lasso &Cox模型的影像組學(xué)特征能將患者預(yù)測為高風(fēng)險和低風(fēng)險。
在臨床實踐中,BCLC 分期系統(tǒng)是最為廣泛接受的,然而在患者中,即使同一階段依然存在高變異性及腫瘤異質(zhì)性,使得肝癌的預(yù)后評估和治療管理非常具有挑戰(zhàn)性。因此,人工智能技術(shù)可以為決策過程提供客觀支持。研究[42]表明,CT影像組學(xué)分析技術(shù)構(gòu)建的兩種模型預(yù)測肝癌切除術(shù)后復(fù)發(fā),術(shù)前模型包括放射學(xué)特征和術(shù)前(AFP、Alb、膽紅素分級和肝硬化);術(shù)后模型包括術(shù)前數(shù)據(jù)和病理結(jié)果(腫瘤邊緣和衛(wèi)星結(jié)節(jié)),2種模型均有較高的預(yù)后性能并顯示出3種不同復(fù)發(fā)模式的危險因素,可輔助手術(shù)策略制定以及個性化復(fù)發(fā)監(jiān)測。Zhang等[43]研究術(shù)前使用肝膽特異度對比劑,對腫瘤及其周圍組織和非腫瘤實質(zhì)進行放射學(xué)特征分析,預(yù)測手術(shù)切除的肝癌患者的總體生存率,其中非腫瘤組織評分預(yù)后最好(C-index=0.72),提示肝臟背景是預(yù)后的重要因素;此外,臨床結(jié)合放射學(xué)預(yù)測因子(BCLC分期、非平滑腫瘤邊緣)建立的模型對生存結(jié)果具有更佳的預(yù)后表現(xiàn)(C-index=0.84)。
根據(jù)BCLC指南,外科切除、消融術(shù)和肝移植是針對早期(0~A期)的根治性治療方法,對于不適合手術(shù)治療的患者,射頻消融(radiofrequency ablation,RFA)是早期肝癌的治療選擇。Yuan等[44]將消融術(shù)后無復(fù)發(fā)生存期作為終點,從184例接受RFA的HCC患者的3期CT圖像中提取放射學(xué)特征并選擇20個作為Lasso &Cox模型的輸入生成影像組學(xué)特征,其中門靜脈期影像組學(xué)模型有較高的預(yù)測性(C-index=0.736),結(jié)合臨床病理特征的組合模型有更高的預(yù)測性(C-index=0.755),最后利用多組學(xué)特征構(gòu)建列線圖顯示1、2和3年的無復(fù)發(fā)生存率。與大多數(shù)基于術(shù)前影像的模型不同,Shen等[45]對切除或消融后(1個月內(nèi))的CT進行訓(xùn)練,用隨機森林方法和多變量logistic模型提取了34個差異特征,建立的模型在早期檢測中的性能優(yōu)于AFP水平(AUC分別為0.89和0.63),證實該模型在肝癌患者切除或RFA術(shù)后隨訪中的潛在作用。
TACE是無法切除腫瘤的中期肝癌的治療方法,但這種療法的術(shù)后反應(yīng)非常不穩(wěn)定。因此,預(yù)測TACE治療的反應(yīng)有助于選擇哪些患者可以從TACE治療中獲益最大。Abajian等[46]應(yīng)用機器學(xué)習(xí)技術(shù)于臨床信息、成像基線和治療特征訓(xùn)練LR模型和RF模型預(yù)測TACE的療效,結(jié)果發(fā)現(xiàn),LR和RF模型預(yù)測TACE治療反應(yīng)的總體準確率為78%(敏感度62.5%,特異度82.1%,陽性預(yù)測值50.0%,陰性預(yù)測值88.5%),治療反應(yīng)的最強預(yù)測因子包括臨床變量(是否存在肝硬化)和影像變量(相對腫瘤信號強度>27.0)。使用Lasso和回歸模型預(yù)測術(shù)后生存和復(fù)發(fā),低影像組學(xué)評分(表現(xiàn)出侵襲性癌癥的特征,如AFP高水平、腫瘤較大、有血管浸潤)與較短的術(shù)后生存期和復(fù)發(fā)顯著相關(guān),基于影像組學(xué)的列線圖具有良好的生存預(yù)測準確性(C-index=0.71),此外,在加入TNM和BCLC分期后,C-index進一步增加,表明該模型可能是對傳統(tǒng)階段系統(tǒng)的補充。PENG等[47]訓(xùn)練CNN對3個不同中心的HCC的CT圖像預(yù)測對TACE的反應(yīng),模型對完全反應(yīng)、部分反應(yīng)、穩(wěn)定性疾病和進展性疾病預(yù)測的準確率分別為0.97、0.96、0.95和0.96,準確率為84.3%。考慮到在選擇同時使用TACE和索拉非尼聯(lián)合治療時可抑制TACE誘導(dǎo)的血管內(nèi)皮生長因子上調(diào),其療效仍存在爭議。Zhang等[48]通過CNN模型對使用TACE和索拉非尼治療HCC的CT圖像預(yù)測總體生存率,根據(jù)臨床和深度學(xué)習(xí)特征經(jīng)生存分析后建立組合列線圖,結(jié)果顯示,深度學(xué)習(xí)特征在訓(xùn)練集和驗證集均預(yù)測性能良好(C-index=0.717、0.714),組合列線圖預(yù)測性能顯著優(yōu)于臨床列線圖(C-index訓(xùn)練集0.739 vs 0.664,驗證集0.730 vs 0.679),深度學(xué)習(xí)特征對組合列線圖具重要價值,而組合列線圖可作為預(yù)后預(yù)測和確定患者受益TACE聯(lián)合索拉非尼治療的潛在工具。
筆者認為,人工智能模型可以通過分析臨床與腫瘤的特征,進一步強化了預(yù)測HCC術(shù)后復(fù)發(fā)或術(shù)后生存率的優(yōu)越性,即使在較小規(guī)模的研究中仍可獲得優(yōu)秀的結(jié)果。對于數(shù)據(jù)結(jié)構(gòu)良好或特性定義明確的問題,簡單的機器學(xué)習(xí)如LR、SVM和RF有效且更容易應(yīng)用。
人工智能技術(shù)為肝癌的精準診療和個體化研究帶來新的機遇,當(dāng)前以深度學(xué)習(xí)為主要研究方向的人工智能的快速發(fā)展,推動研究者從假設(shè)驅(qū)動型研究轉(zhuǎn)向數(shù)據(jù)驅(qū)動型研究。深度學(xué)習(xí)作為一種功能強大的人工智能技術(shù),可以大幅提高病灶檢測、識別和分類任務(wù)的效能,已應(yīng)用于多種模態(tài)醫(yī)學(xué)影像科研與實踐中。同時也要認識到人工智能技術(shù)在影像醫(yī)學(xué)領(lǐng)域的局限性:大多數(shù)研究為回顧性數(shù)據(jù)分析,可能存在潛在的選擇偏差;人工智能算法的標準化程度不一和成像采集參數(shù)的可重復(fù)性會影響算法的泛化性能,導(dǎo)致模型的應(yīng)用推廣困難;許多機器學(xué)習(xí)尤其是深度學(xué)習(xí)模型缺乏可解釋性,如何有效利用人工智能技術(shù)輔助臨床醫(yī)師進行診斷仍然具有挑戰(zhàn)性。
當(dāng)前,臨床需求的增長與診療技術(shù)的快速進步對放射科醫(yī)師提出了嚴峻的挑戰(zhàn)。一方面,臨床醫(yī)師需要學(xué)習(xí)如何利用和掌握人工智能技術(shù)并應(yīng)用到臨床工作中;另一方面,臨床醫(yī)師要與人工智能研發(fā)人員和統(tǒng)計學(xué)專家一同開展更大規(guī)模前瞻性多中心研究,不斷提高人工智能的準確性和性能。而人工智能的實際臨床應(yīng)用結(jié)果仍然是衡量其價值的重要標準,目前最大的挑戰(zhàn)在于醫(yī)工聯(lián)合團隊如何識別放射學(xué)中哪些特定的臨床任務(wù)最有可能受益于人工智能算法以及人工智能最終會適用在放射學(xué)實踐中的各種臨床應(yīng)用場景。
利益沖突聲明:所有作者均聲明不存在利益沖突。
作者貢獻聲明:劉一萍、李新平、夏金菊、宋凱榮負責(zé)文獻收集與總結(jié);陳磊、劉婉敏及賈寧陽負責(zé)文章攥寫及修改。