李爽 綜述 金世柱 審校
隨著新型算法和大數(shù)據(jù)的發(fā)展與支持,人工智能(Artificial intelligence,AI)在圖像識別領域不斷取得突破,因此在臨床中的應用也備受關注[1]。新近開發(fā)的“深度學習算法”通過使用多層系統(tǒng)(例如卷積神經(jīng)網(wǎng)絡)將復雜信息進行統(tǒng)籌歸類分析,從而實現(xiàn)了對圖像系統(tǒng)化和自動化的鑒別與分析。因而將AI,尤其是深度學習算法應用于臨床輔助診斷,可以實現(xiàn)計算機自動標注提取圖片中的病灶進而對疾病進行識別和診斷。在上消化道內(nèi)鏡領域,單純依靠內(nèi)鏡醫(yī)師進行鏡下診斷仍有很多局限和難題,尤其是對早期惡性組織的鑒別及診斷,約10%的惡性病變可能被漏診[2],而計算機輔助診斷(Computer aided diagnosis,CAD)有望幫助內(nèi)鏡醫(yī)師進行早期癌變的檢測及篩查。本文綜述了有關于AI輔助內(nèi)鏡診斷上消化道早癌及其危險因素的文獻,旨在總結目前的技術水平及技術難點,進一步分析AI在上消化內(nèi)鏡領域需要進一步研究和探索的內(nèi)容。
Barrett食管是導致食管腺癌發(fā)生發(fā)展的危險因素,自動識別Barrett食管中的早期異型增生是胃鏡CAD領域最熱門的研究課題之一。它有助于內(nèi)鏡醫(yī)師施行"高精度"靶向活檢,從而減少不必要的隨機活檢,目前的指南推薦隨機每隔1~2 cm進行內(nèi)鏡下四象限活檢來檢測不典型增生[3],這種隨機活檢的弊端是工作量大且耗時長,并且每個病灶檢測異型增生的靈敏度僅為64%[4]。美國消化內(nèi)鏡協(xié)會建議在特定條件下進行有針對性的活檢來代替隨機活檢,該協(xié)會為此制定的光學診斷準確度的標準是:每名患者檢測高度異型增生和食管腺癌需要達到的靈敏度為90%,陰性預測值(NPV)為98%,特異性為80%[3],然而,只有少數(shù)經(jīng)驗極為豐富的內(nèi)鏡醫(yī)師才能達到此標準。因此,絕大多數(shù)經(jīng)驗不足的內(nèi)鏡醫(yī)師在臨床操作中需要一個決策支持工具來輔助完成診斷。
van der Sommen等[5]采用機器學習算法對傳統(tǒng)內(nèi)鏡圖像進行特定紋理的提取及彩色濾鏡的處理,進而開發(fā)了一個Barrett食管早期非典型增生自動檢測系統(tǒng),評估結果為系統(tǒng)對早期非典型增生病變的靈敏度和特異性均為83%。隨后,同一研究組在2017年進行了AI應用于體激光顯微內(nèi)鏡技術的研究[6],體激光顯微內(nèi)鏡基于光學相干斷層成像技術,可對深度達3 mm的食管壁層進行近顯微分辨率掃描,從而提高了對Barrett食管早期異型增生的檢測率。作者利用體激光顯微內(nèi)鏡圖像對該技術所開發(fā)的AI模型進行體外交叉驗證,結果顯示其靈敏度和特異性分別為90%和93%。
全世界癌癥死亡率排名中,食管癌居于前6位[7],病理類型多為鱗狀細胞癌,魯哥氏染色法是目前胃鏡檢查中鑒別鱗狀細胞癌的金標準,靈敏度>90%,但其特異性較低(約70%),低特異性主要是難以與內(nèi)鏡下炎性病變的假陽性相鑒別。此外,普遍認為此方法需要解決的問題還包括碘染色引起的胃灼熱、過敏反應等嚴重不適[8]。窄帶光成像內(nèi)鏡是一種準確度高且無創(chuàng)的更優(yōu)選擇,但在隨機對照試驗中,其特異性也僅限于約50%[9]。為了改善這些問題,技術人員開發(fā)出了更先進的內(nèi)鏡成像技術,包括激光共聚焦顯微內(nèi)鏡和超放大內(nèi)鏡[10-11]。然而,內(nèi)鏡醫(yī)師需要掌握特定的知識且定期參加培訓才能夠熟練識別這些顯微圖像,這在很大程度上限制了這些內(nèi)鏡新技術在臨床中的推廣應用。
Kodashima等[12]開發(fā)了一個AI智能模型來簡化對10名患者的食管內(nèi)超放大內(nèi)鏡圖像中良惡性組織判別的過程,該智能模型分析顯示,細胞核總數(shù)與整個選定區(qū)域的平均比率有統(tǒng)計學差異,正常組織為(6.4±1.9)%,惡性組織為(25.3±3.8)%(P<0.001),因此能夠在內(nèi)鏡下對良惡性組織進行鑒別。Shin等[13]開發(fā)了一種采用定量圖像分析算法的AI模型,用于對高分辨率顯微內(nèi)鏡采集的圖像進行核質(zhì)區(qū)和胞質(zhì)區(qū)的分割分析,最終得出該模型識別惡性組織的靈敏度和特異性分別為87%和97%。但由于超放大內(nèi)鏡和高分辨率顯微內(nèi)鏡應用的局限性,這些模型最終并未實現(xiàn)軟件的臨床應用。為此,Horie等[14]最新發(fā)表了AI應用于傳統(tǒng)內(nèi)鏡的研究,利用8 428張上消化道內(nèi)鏡圖像進行機器學習后,對惡性病變的檢測靈敏度可達98%,陰性預測值為95%,假陽性圖像較多造成了陽性預測值只有40%,研究人員認為該系統(tǒng)的低陽性預測值可隨著學習樣本數(shù)量的增加而改善。國內(nèi)復旦大學的團隊也通過AI深度學習中的反向傳播算法建立了食管癌CAD系統(tǒng)[15],該系統(tǒng)收集傳統(tǒng)的白光內(nèi)鏡圖像對模型進行訓練及測試,結果為受試者工作特征曲線(ROC曲線)下面積(AUC)值為0.996,靈敏度及特異度可接近富有經(jīng)驗的內(nèi)鏡醫(yī)師。
Hp相關性慢性胃炎可引起黏膜萎縮和腸上皮化生,是導致胃癌的危險因素之一[16]。胃鏡檢查有助于發(fā)現(xiàn)早期的Hp感染,但是診斷的準確性不高,鏡下表現(xiàn)如黏膜萎縮、黏膜腫脹和點狀斑狀發(fā)紅都有可能是Hp感染,Watanabe等[17]研究發(fā)現(xiàn)內(nèi)鏡下檢測Hp感染的靈敏度和特異性僅分別為62%和89%。2004年,Huang等[18]開發(fā)了一個利用神經(jīng)網(wǎng)絡對傳統(tǒng)內(nèi)鏡圖像中與Hp感染相關的胃組織學特征進行預測的CAD系統(tǒng),最終該CAD系統(tǒng)檢測Hp感染的靈敏度為85%,特異性為91%。2017年,Shichijo等[19]開發(fā)了一個具有22層深的卷積神經(jīng)網(wǎng)絡的CAD系統(tǒng),可用于胃鏡檢查期間預測Hp感染,接著CAD系統(tǒng)和23名內(nèi)鏡醫(yī)師分別對一個獨立的測試數(shù)據(jù)集進行回顧性診斷。作者發(fā)現(xiàn)CAD的靈敏度為89%、特異性為87%、診斷時間為194秒,23名內(nèi)鏡醫(yī)師的對應值分別為79%、83%和(230±65)min,說明CAD系統(tǒng)診斷的準確性及速度明顯高于內(nèi)鏡醫(yī)師。
胃癌導致的癌癥死亡率高居前三位,而胃鏡檢查是發(fā)現(xiàn)早期胃癌的最有效途徑。然而,胃癌的早期內(nèi)鏡診斷仍存在兩個難題,一個是發(fā)現(xiàn)困難,早期胃癌鏡下常表現(xiàn)為略發(fā)紅的輕微隆起或凹陷,不易與炎性病變區(qū)分;第二個難以判斷的是胃癌的浸潤深度,一般情況下,黏膜內(nèi)胃癌(M)或侵犯黏膜下淺層的胃癌(SM1<500 μm)應經(jīng)內(nèi)鏡切除,而侵犯黏膜下深層的胃癌(SM2>500 μm)則應經(jīng)手術切除,不然會有淋巴結轉(zhuǎn)移和遠處轉(zhuǎn)移的風險,但是臨床上很難區(qū)分M、SM1和SM2。放大窄帶光成像技術、內(nèi)鏡電子分光圖像處理技術和藍激光成像技術在臨床上有助于區(qū)分胃的良惡性組織[20-23],然而需要醫(yī)師具有大量的專業(yè)知識和經(jīng)驗才能做出診斷,這在一定程度上限制了這些特殊胃鏡檢查方式的廣泛應用。
Miyaki等[24]開發(fā)了一種可自動鑒別胃內(nèi)良惡性組織的CAD系統(tǒng),作者使用一種采樣密集度恒定的深度學習算法對內(nèi)鏡電子分光技術處理的圖像進行放大,驗證結果顯示該系統(tǒng)診斷癌性病變的準確率為86%,靈敏度為85%,特異性為87%。2015年,該研究小組將此技術應用于藍激光成像圖像檢測早期胃癌的CAD系統(tǒng)[25],結果顯示,該系統(tǒng)對癌性病變的平均輸出值為0.846±0.220,對紅腫性病變的平均輸出值為0.381±0.349,對周圍組織的平均輸出值為0.219±0.277,癌性病變的輸出值明顯高于其他類型病變,因此研究小組認為該系統(tǒng)可用于鑒別早期胃癌。Kanesaka等[26]的另一項研究推進了這一領域的發(fā)展,該團隊開發(fā)的基于AI技術的CAD系統(tǒng)不僅可以識別胃癌組織,還可以劃定非癌性和癌性病變之間的界限。該系統(tǒng)對放大窄帶光成像的圖像進行分析,并對其進行像素分割從而提取出像素切片的灰度矩陣特征,接著采用向量法進行機器學習及測試,結果為診斷癌性病變的靈敏度為97%,特異性為95%。2018年,Hirasawa等[27]報告了用深度學習算法中的卷積神經(jīng)網(wǎng)絡建立的能夠自動檢測早期胃癌的CAD系統(tǒng)的研究。此研究并沒有將放大窄帶光成像、內(nèi)鏡電子分光圖像或藍激光成像作為系統(tǒng)的識別目標,而是使用大量傳統(tǒng)的內(nèi)鏡圖像。最終該模型用47秒分析了2 296張試驗圖像,正確診斷71/77個胃癌病灶,總靈敏度為92%,研究結論為構建了能夠在短時間內(nèi)處理大量內(nèi)鏡圖像的用于檢測胃癌的卷積神經(jīng)網(wǎng)絡算法,以該算法為核心的CAD系統(tǒng)具有較強的臨床診斷能力。
關于胃癌浸潤深度的分析,Kubota等[28]采用深度學習算法中的反向傳播神經(jīng)網(wǎng)絡算法開發(fā)了一個CAD系統(tǒng),交叉驗證評估顯示該系統(tǒng)對T1、T2、T3和T4期胃癌的有效診斷率分別為77%、49%、51%和55%。國內(nèi)復旦大學附屬中山醫(yī)院的團隊通過深度學習算法進一步開發(fā)出了能夠區(qū)分早期胃癌和黏膜下浸潤較深的胃癌的CAD系統(tǒng),結果為該CAD模型對“SM2或更深層”腫瘤的診斷靈敏度為76%,特異性為96%,明顯高于內(nèi)鏡醫(yī)師視覺診斷的靈敏度和特異性,96%的高特異度可以減少對浸潤深度的過度診斷,從而避免對M、SM1早期胃癌進行不必要的手術[29]。
盡管全世界的醫(yī)療和計算機機構都在積極探索AI輔助診斷這一充滿前景的領域,其中一些研究初步取得了良好的結果,但仍有一個關鍵問題有待解決,即目前已有的研究大多都是對數(shù)量有限的測試樣本進行回顧性分析,由于選擇偏差或是部分主觀因素的存在,回顧性研究的結果往往會比應用于實際臨床操作的情況要好??紤]到未來AI技術在實時胃鏡檢查中的應用,前瞻性的實驗是必要的。
其次,現(xiàn)有的回顧性研究未明確闡明如何處理臨床實踐中常見的無法分析的低質(zhì)量圖像(在一些回顧性研究中,低質(zhì)量的內(nèi)鏡圖像被排除在分析之外),所用的測試圖像均為經(jīng)過篩選后的高質(zhì)量圖像。而實際上消化道內(nèi)鏡檢查中會受到消化道準備不充分、采圖光線及角度不佳等各方面的原因?qū)е螺敵鰣D像質(zhì)量差,可能達不到CAD系統(tǒng)的最低可識別標準。
胃腸道腫瘤自動檢測和定性分析最重要的結果指標是對癌性病變識別的靈敏度,因為它決定了下一步的治療方向。其他重要的指標包括假陰性結果(即被誤診為非腫瘤的癌性病變)和假陽性結果(即被誤診為癌變的非腫瘤病變)。Hirasawa等[27]闡述了這兩個結果對于鏡下診斷的重要性,71個胃癌病例中有6例被漏診,表明基于病變的假陰性率為8%。被漏診的大多為微小的(≤5 mm)、表面呈凹陷狀的腫瘤;反之,造成假陽性結果的往往是顏色改變或黏膜表面不規(guī)則的胃炎,甚至賁門、胃角和幽門的正常黏膜組織,即使是臨床經(jīng)驗豐富的內(nèi)鏡醫(yī)師也很難將其精確區(qū)分。而造成假陽性、假陰性結果的主要原因可能是學習樣本的數(shù)量和質(zhì)量有限,因此,進一步積累大量高質(zhì)量的內(nèi)鏡圖像用于對算法的訓練可以降低其產(chǎn)生錯誤的概率。鑒于收集基于視頻圖像的AI算法有助于結腸鏡CAD領域的高精度分析[30],采用基于視頻圖像的動態(tài)分析代替目前上消化道靜態(tài)圖像作為學習樣本可能是減少上消化道內(nèi)鏡CAD中假陽性及假陰性結果的一個辦法。
AI輔助診斷與上消化道內(nèi)鏡的結合是一個熱門研究領域,尤其是用于診斷早期上消化道腫瘤,因其發(fā)病率高和難以鑒別而備受關注。截止到目前,最為著名的研究是國內(nèi)中山大學的研究團隊自主研發(fā)的上消化道癌內(nèi)鏡AI輔助診斷系統(tǒng)[31],并進行了多中心對照試驗,結果為該系統(tǒng)對上消化道癌變診斷的準確性、靈敏度及特異性均較高,其靈敏度可接近資深內(nèi)鏡專家的診斷水平,因此已初步應用于臨床內(nèi)鏡檢查中。盡管這一領域的研究大多僅在實驗上進行了初步評估,但鑒于深度學習AI算法的最新技術所展現(xiàn)的諸多優(yōu)勢,AI診斷在上消化道內(nèi)鏡領域的應用前景非??捎^。通過大量的學習樣本和精心設計的前瞻性試驗,該技術有望得到廣泛發(fā)展及應用。屆時AI上消化道內(nèi)鏡癌變診斷系統(tǒng)可以作為實時胃鏡檢查的第二觀察者,輔助內(nèi)鏡醫(yī)師實時鑒別上消化道的惡性病變。同時,它也可以應用于臨床教學來輔助培訓初級內(nèi)鏡醫(yī)師,可以做到像資深內(nèi)鏡醫(yī)師在培訓時一樣將初學者遺漏的病變做出提示,這樣可以大幅度的降低學習成本、提升教學效率。最后,未來技術成熟的CAD有潛力進一步探索目前臨床內(nèi)鏡難以診斷的領域,例如對十二指腸淺表腫瘤的診斷[32]。總之,如果能進一步實現(xiàn)AI內(nèi)鏡下診斷的高精度分析,將會推動上消化道早期腫瘤的診斷及治療。