石澤璇 付梓龍 劉軍娜 李靚璐 牛瓊
濱州醫(yī)學院附屬醫(yī)院消化內(nèi)科,濱州 256603
深度卷積神經(jīng)網(wǎng)絡(convolution neural network,CNN)是一種機器學習的高級模型,也是圖像學習最熱門的學習算法。CNN不僅能像人的大腦一樣處于不斷學習的狀態(tài),還能對目標圖像進行自動識別、檢測,并對目標圖像進行快速且準確的分析,提高疾病診斷率。該系統(tǒng)具有檢測速度快、檢出率高的特點,可應用于大樣本量的篩查工作,這就為結直腸癌的篩查節(jié)省了時間和成本[1]。早期發(fā)現(xiàn)結直腸癌前病變可以促進臨床醫(yī)生的決策并減少他們的工作量。這可以使用具有內(nèi)窺鏡和組織學圖像的自動系統(tǒng)來實現(xiàn)。CNN在深度學習模型中克服了模型的過擬合和梯度消失劣勢,然而一套成熟的CNN模型依賴大樣本量的醫(yī)療數(shù)據(jù)訓練并測試。結腸鏡檢查是用于篩查并診斷腸道疾病的強大醫(yī)療儀器,可有效早期診斷結直腸癌,可對結腸息肉分類以指導建立最佳診療策略。但是,其診斷準確性卻難以得到保證,因為結腸鏡檢查中存在幾項無法規(guī)避的局限性:第一,該檢查手段誤診率較高;第二,一些腫瘤性病變難以發(fā)現(xiàn),即使是內(nèi)窺鏡專家也不例外;第三,在人口眾多的城市及三甲醫(yī)院,這項工作使內(nèi)窺鏡醫(yī)生面臨高耗時、高勞動量及高精神專注度挑戰(zhàn);第四,腺瘤檢測率很大程度上取決于內(nèi)窺鏡醫(yī)生的工作經(jīng)驗。
深度學習(deep learning,DL),特別是CNN,是一種基于人腦視覺皮層處理和識別圖像的原理的深度神經(jīng)網(wǎng)絡。CNN包含多層感知器(人工神經(jīng)元),旨在使用最少的預處理。CNN利用多個網(wǎng)絡層(連續(xù)卷積層后跟池化層)從圖像中提取關鍵特征,并通過完全連接的層作為輸出提供最終分類。CNN能夠從醫(yī)學圖像大數(shù)據(jù)中自動學習提取隱含的疾病診斷特征;從輸入數(shù)據(jù)中提取特征的卷積層由提取特征的濾波器和將濾波器的值轉換為非線性值;由于輸入值中有許多特征,所以CNN中使用了多個篩選器;提取不同特征的多個過濾器的組合可以應用于CNN以確定原始數(shù)據(jù)的特征;過濾器是在通過從學習數(shù)據(jù)中學習來識別特征后自動創(chuàng)建的;通過過濾器提取特征圖后,將應用激活函數(shù)使定量值非線性(是或否值)。近幾年,CNN已迅速成為醫(yī)學圖像分析研究熱點?;卺t(yī)學圖像的診斷,如病理學、放射學和內(nèi)窺鏡檢查,預計將成為醫(yī)學領域第一個受到人工智能影響的診斷[2]。在胃腸鏡檢查中,深層模型正在利用病變的形狀和邊緣信息進行預測。DL有望通過自動檢測和分類病變來幫助內(nèi)窺鏡醫(yī)生提供更準確的診斷。因此,內(nèi)窺鏡醫(yī)生必須專注于這項新技術?;贑NN技術的結腸鏡檢查為醫(yī)療行業(yè)的發(fā)展提供了新思路并且已在多個腸道內(nèi)窺鏡領域中應用。
CNN即專門適用于圖像數(shù)據(jù)的深度神經(jīng)網(wǎng)絡已被用于對多種類型腫瘤的分類或定位中。CNN模型篩查結直腸病變基于白光、放大內(nèi)窺鏡和亞甲藍、靛胭脂等染色劑處理后的色素內(nèi)鏡及電子染色的內(nèi)鏡圖片和視頻訓練模型,通常會用2種甚至2種以上內(nèi)鏡圖片訓練以提高模型的準確性或適用性。臨床上約80%的結直腸息肉為腺瘤。腺瘤發(fā)現(xiàn)率是間歇結直腸癌的獨立預測指標[3]。計算機輔助診斷結腸息肉及腺瘤主要包括結腸鏡下息肉的自動識別及實時顯示息肉存在的位置、大小、數(shù)量等特征,內(nèi)鏡下行息肉組織學分類,實現(xiàn)精準光學診斷[4]。術語“光學診斷”指的是使用先進的成像技術進行實時的、活體的息肉特征觀察和評估,以指導治療決策。
Byrne等[5]開發(fā)了一個人工智能模型,用于實時評估結直腸息肉的內(nèi)窺鏡視頻圖像;采用CNN模型:訓練集,使用223個息肉視頻(29% NICE類型1,53% NICE類型2和18%沒有息肉的正常黏膜),包括60 089幀;驗證集,使用40個視頻(NICE類型1、2和2個正常黏膜的視頻),最終的測試集包括125個連續(xù)識別的微小息肉,其中包括51個增生性息肉和74個腺瘤;腺瘤的診斷靈敏度為98%(95%置信區(qū)間92%~100%),特異度為83%(95%置信區(qū)間67%~93%),陰性預測值97%,陽性預測值90%。
Wang等[6]開展了一項前瞻性隨機對照試驗,基于DL的息肉實時自動監(jiān)測系統(tǒng)表現(xiàn)出高準確性、保真度和穩(wěn)定性;研究表明,在腺瘤發(fā)現(xiàn)率較低的地區(qū),基于DL的實時計算機輔助監(jiān)測系統(tǒng)顯著提高了結直腸息肉和腺瘤的檢出率。目前,計算機輔助診斷系統(tǒng)有可能應用于臨床實踐,以更好地檢測結腸息肉。
Yang等[7]開發(fā)并驗證了DL模型;該模型可以在白光結腸鏡圖像上自動對大腸病變進行組織學分類;收集有病理結果的大腸病變的白色結腸鏡圖像,共收集1 339例患者的影像資料3 828張,訓練了2個卷積神經(jīng)網(wǎng)絡模型,對7類和4類分類的平均準確率在外部驗證數(shù)據(jù)集中分別為74.7%和79.2%;在外部驗證中,ResNet-152模型在4類分類方面優(yōu)于2名內(nèi)窺鏡醫(yī)生,并且與表現(xiàn)最差的內(nèi)窺鏡醫(yī)生相比,在檢測管狀腺瘤病變方面顯示出更高的曲線下面積(AUC)(0.818);用啟始-Resnet-v2方法檢測高度不典型增生病變的平均AUC,達到0.876;建立的CNN模型在基于標準白光結腸鏡圖像將結直腸腫瘤從非腫瘤性病變分類為晚期結直腸癌方面表現(xiàn)出良好的性能。該模型可以被用來輔助組織學的準確預測和在實踐中選擇最佳的治療策略。
對微小息肉的準確光學診斷將使其能夠識別直腸乙狀結腸區(qū)的增生性息肉,并使內(nèi)窺鏡醫(yī)生能夠自信地采取“診斷并離開”的方法,而不是切除病變。同樣,對于小腺瘤,準確的光學診斷將促使內(nèi)窺鏡醫(yī)生就地切除病變并丟棄標本,而不需要進行組織學評估(“ 切除并丟棄”策略)。因此,基于計算機輔助監(jiān)測系統(tǒng)預測息肉病理類型在未來臨床工作中有望成為可能,息肉病理準確預測仍是臨床上的一項重要挑戰(zhàn)。
全結腸鏡檢查對結直腸癌、大腸息肉、炎癥性腸病等疾病的診斷具有很高的靈敏度和特異度。大腸疾病的臨床特點因解剖部位不同而不同。最近的幾項研究指出,根據(jù)流行病學、預后和化療的臨床結果,右側和左側的癌之間存在差異[8-12]。因此,結腸鏡檢查能夠準確地確定大腸疾病的解剖位置。結腸鏡檢查的第一步是在檢查過程中識別每個腸道區(qū)域的解剖位置。這也是構建計算機輔助監(jiān)測系統(tǒng)的第一步。該系統(tǒng)可在結腸鏡檢查過程中為我們提供支持,并為結腸鏡檢查過程的質(zhì)量提供保證。
Saito等[13]構建了一個使用CNN的計算機輔助設計系統(tǒng);該模型通過訓練409例9 995張結腸鏡圖像來構建CNN,并使用5 121張獨立的結腸鏡圖像來測試其性能;這些圖像根據(jù)7個解剖位置進行分類:回腸末端、盲腸、升結腸到橫結腸、降結腸到乙狀結腸、直腸、肛門和難以區(qū)分的部分;最終構建了一個CNN算法并評估了內(nèi)窺鏡醫(yī)生的診斷與CNN的診斷之間的一致性;構建的系統(tǒng)識別了結腸鏡圖像的解剖位置,AUC如下:回腸末端0.979,盲腸0.940,升結腸至橫結腸0.875,降結腸至乙狀結腸0.846,直腸0.835,肛門0.992。在測試過程中,CNN系統(tǒng)正確識別了66.6%的圖像。此外,由于末端回腸的準確率足夠高,如果我們將其結合到實時結腸鏡檢查中,就能夠構建一個完成全結腸鏡檢查的自動確認系統(tǒng)。因此,我們可以使用計算機輔助診斷系統(tǒng)為未來結腸鏡檢查的發(fā)展奠定基礎。
腸道準備質(zhì)量是影響結腸鏡檢查的重要因素之一。盡管結腸鏡檢查在降低結直腸癌發(fā)病率和不算率方面的潛力很大,但結腸鏡檢查的質(zhì)量和有效性與幾個因素有關。腸道準備就是這樣一個因素。事實上,腸道清潔對于確保結腸黏膜的最佳可視化以及檢測和切除息肉至關重要。腸道準備不足與漏診和手術時間延長有關[14-15]。現(xiàn)已經(jīng)開發(fā)了幾種量表來評估腸道準備。一些學者建議將腸道準備的質(zhì)量作為結腸鏡檢查報告的一部分進行記錄。清潔質(zhì)量決定了結腸鏡檢查的質(zhì)量、難度、速度和完整性。在住院患者和合并癥較多的患者中,清潔質(zhì)量較低。接受息肉切除術的患者比例隨著清潔質(zhì)量的提高而增加,而結腸癌檢測似乎并不嚴重依賴于腸道準備的質(zhì)量。
Zhou等[16]利用CNN開發(fā)了一個每30 s提供1次腸道準備評分并顯示結腸鏡檢查退出階段每個評分的累積幀比的名為ENDOANGEL的新系統(tǒng);該系統(tǒng)在人機競賽中以93.33%的準確率優(yōu)于所有內(nèi)窺鏡專家;在帶有氣泡的圖像中達到了80.00%的準確率;在20個結腸鏡視頻中,準確率為89.04%。這為我們提供了一種新穎且更準確的腸道準備評估方法。這種客觀、穩(wěn)定的系統(tǒng)——ENDOANGEL可以在臨床中可靠、穩(wěn)定地應用。
Zhou等[17]基于波士頓腸道準備量表(Boston Intestinal Preparation Scale,BBPS)開展了一項前瞻性觀察性研究;該研究納入3個月內(nèi)616例接受結腸鏡篩查的患者,結果顯示,e-BBPS分數(shù)與腺瘤發(fā)現(xiàn)率之間存在顯著的負相關(r=-0.976,P<0.010);e-BBPS得分1~8的腺瘤發(fā)現(xiàn)率分別為28.57%、28.68%、26.79%、19.19%、17.57%、17.07%、14.81%和0;確定e-BBPS評分3分作為閾值,以保證腺瘤發(fā)現(xiàn)率超過25%,從而實現(xiàn)高質(zhì)量的內(nèi)窺鏡檢查。e-BBPS系統(tǒng)有可能為充分腸道準備的量化提供更客觀和精細的閾值。
結腸鏡作為一種操作者依賴性檢查,受內(nèi)鏡醫(yī)師的主觀意識影響較大,檢查過程中內(nèi)鏡醫(yī)師的操作質(zhì)量對腺瘤發(fā)現(xiàn)率起關鍵作用[18]。內(nèi)鏡醫(yī)師對腺瘤的重視程度和操作水平參差不齊。即使是三甲醫(yī)院,也存在因腸道準備差、內(nèi)鏡檢查人數(shù)多、檢查時間過快、初級內(nèi)鏡醫(yī)師對放大染色內(nèi)鏡圖像判別能力欠佳、內(nèi)鏡醫(yī)師圖像觀察專注水平隨疲勞程度增加而下降等問題導致漏診。如何提高結直腸腺瘤發(fā)現(xiàn)率已經(jīng)成為各級醫(yī)院消化內(nèi)鏡中心最關注的問題之一。結腸鏡退鏡過程中的檢查時間、腸道清潔度、檢查完整度均可影響結直腸腺瘤檢出[19]?;跇藴什僮髁鞒痰馁|(zhì)量控制可降低操作者間的差異,提高結腸鏡檢查質(zhì)量,從而提高結直腸腺瘤檢出率[20]。
Wang等[21]通過結腸鏡檢查時闌尾口的出現(xiàn)證實結腸鏡完全穿越全部結腸,從而作為評估結腸鏡檢查完整率的指標;首先,通過提取闌尾孔圖像中新的局部特征,新特征基于沿邊的橫截面的幾何形狀、照明差異和強度變化;然后通過顯示至少3 s闌尾孔檢查的附錄視頻來表明闌尾口的良好可視化,再利用近相機停留檢測來填補缺失的邊緣欠清晰的闌尾孔圖像,并剔除一些錯誤的分類,從而識別闌尾口并將其作為評估結腸鏡檢查完整率的指標;研究結果中監(jiān)測新月形闌尾孔圖像的平均靈敏度和特異度分別為96.86%和90.47%。
Su等[22]創(chuàng)建了一種基于CNN模型的實時自動質(zhì)量控制系統(tǒng)以降低內(nèi)窺鏡醫(yī)師檢查時間和水平上的波動性,以此來穩(wěn)定結腸鏡檢查的常規(guī)質(zhì)量控制;與對照組相比,實時自動質(zhì)量控制系統(tǒng)組實時自動質(zhì)量控制系統(tǒng)腺瘤發(fā)現(xiàn)率(0.289比 0.165,P<0.001)、每次手術的平均腺瘤數(shù)量(0.367比0.178,P<0.001)、息肉檢出率(0.383比0.254,P<0.001)和每次手術檢測到的息肉平均數(shù)量(0.575比0.305,P<0.001)均較高;此外,實時自動質(zhì)量控制系統(tǒng)組退出時間(7.03 min比5.68 min,P<0.001)和充分腸道準備率(87.34%比80.63%,P=0.023)均優(yōu)于對照組;這項研究表明,實時自動質(zhì)量控制系統(tǒng)可顯著提高息肉和腺瘤的檢測能力,提高結腸鏡檢查的質(zhì)量。
隨著最近人工智能的發(fā)展,在醫(yī)學的各個領域以及胃腸病學中,已經(jīng)實現(xiàn)了對醫(yī)學圖像上的疾病的自動診斷或分類。有些在結腸鏡檢查領域取得了很好的性能,不僅用于檢測大腸息肉[23],而且還用于大腸息肉的分類[24-25]。然而,大多數(shù)研究集中于使用放大窄帶內(nèi)鏡或內(nèi)窺鏡檢查的特定圖像來區(qū)分腫瘤性和非腫瘤性病變[26],這限制了其實際應用。近10余年來CNN技術廣泛應用于腸道檢查的各個環(huán)節(jié),但尚缺乏真正投入臨床使用的臨床試驗,例如目前的研究多為回顧性研究,而回顧性研究學習材料的來源渠道通常較單一且多為靜態(tài)有傾向性的高質(zhì)量內(nèi)鏡圖像。人工智能走向未來臨床實時應用需優(yōu)化的內(nèi)容:⑴內(nèi)鏡圖像選擇偏倚,導致回顧性研究結果往往優(yōu)于臨床操作實際結果;⑵圖像數(shù)據(jù)集臨床實時應用具有一定的片面性和局限性,不能涵蓋病變所有形態(tài)特征,而視頻集的應用能較好解決上述問題;⑶內(nèi)鏡檢查過程中的視頻一般包含相對數(shù)量低清晰度的真實圖片,這是單純篩選出的高質(zhì)量的固定像素圖片很難涵蓋的,利用視頻里截取的大量畫面作為學習材料,一定范圍內(nèi)可減少假陽性和假陰性率[27]。通過不斷改良CNN模型,提高臨床試驗的準確率、靈敏度及特異度,為人工智能走向未來臨床實時應用打下堅實基礎。
近年來DL策略的應用在結腸鏡檢查領域取得了很好的性能,對于未來類似的DL方法也有巨大潛力。消化道腫瘤的早期診斷一直是醫(yī)學界亟待攻克的熱點。利用DL的方法在結腸鏡檢查中對結腸病變監(jiān)測、定位和分類,以幫助內(nèi)鏡醫(yī)生減少漏診率,提高腺瘤發(fā)現(xiàn)率。然而,消化系統(tǒng)早期癌前病變一般累及范圍小、深度淺,內(nèi)窺鏡下形態(tài)表現(xiàn)不明顯,難以發(fā)現(xiàn);而且,內(nèi)窺鏡檢查的評估結果往往取決于手術醫(yī)生的主觀經(jīng)驗,主觀性很強,對醫(yī)生的臨床技能和工作經(jīng)驗要求很高,低資質(zhì)或疲憊的醫(yī)生更有可能誤診病變。CNN可能有助于內(nèi)窺鏡醫(yī)生識別病變并將不良反應降至最低。盡管DL方法取得了巨大的成功,但臨床驗證和應用仍然是必須的。創(chuàng)建更大、分類更細的公共數(shù)據(jù)集,需要較少訓練樣本的新算法和通用驗證框架的創(chuàng)建將保持上升趨勢,并將最終應用于計算機輔助診斷系統(tǒng)的臨床應用,以幫助胃腸病專家提高腺瘤發(fā)現(xiàn)率和早期發(fā)現(xiàn)結直腸癌[28]。
現(xiàn)階段越來越多的研究證明了CNN在提高息肉光學診斷方面的潛力。CNN的使用可能會減輕內(nèi)窺鏡操作人員之間的可變性,使實時采用“切除并丟棄”或“離開”策略成為可能。這將為醫(yī)療系統(tǒng)帶來顯著的社會效益,避免不必要的非腫瘤性息肉切除術,并提高結腸鏡檢查的效率。但是,這需要前瞻性的多中心隨機對照試驗和公開可用的基準測試數(shù)據(jù)集來進一步評估CNN的有效性和普適性。此外,隨著這些模型出現(xiàn)在內(nèi)窺鏡檢查單元中,迫切需要制定指南來確定它們在臨床工作流程中的作用。
作者貢獻聲明石澤璇:研究實施,論文撰寫,數(shù)據(jù)采集,統(tǒng)計學分析;付梓龍:研究實施;李靚璐:數(shù)據(jù)采集;劉軍娜:統(tǒng)計學分析;牛瓊:研究指導,論文修改,經(jīng)費支持