張強 張侖 王旭東 王東 姚曉峰 周旋 李祥春
甲狀腺癌是內(nèi)分泌系統(tǒng)最常見的惡性腫瘤,近幾十年全球發(fā)病率增長迅速[1-2]。在中國甲狀腺癌已經(jīng)躍居女性惡性腫瘤的第4位[2],成為嚴重威脅居民身心健康的高發(fā)惡性腫瘤之一。有研究[2-4]認為甲狀腺癌發(fā)病率的增長與過度診斷相關(guān),但不能完全除外甲狀腺癌發(fā)病率的實際增長[5]。在碘充足人群中通過體格檢查(頸部觸診)發(fā)現(xiàn)甲狀腺結(jié)節(jié)患病率約5%[6],而影像學檢查發(fā)現(xiàn)隱匿性甲狀腺結(jié)節(jié)患者比例高達33%~68%[7],其中約7%~10%的結(jié)節(jié)存在惡性風險[8-10]。甲狀腺癌影像診斷首選超聲,當超聲檢查發(fā)現(xiàn)高危結(jié)節(jié)時,需進行活組織檢查/分子檢測,進而決定是否手術(shù)治療,而中低?;颊咝栊谐曤S訪。分化型甲狀腺癌淋巴結(jié)的轉(zhuǎn)移率也高達20%~50%[11],部分臨床數(shù)據(jù)顯示更高。甲狀腺癌伴淋巴結(jié)轉(zhuǎn)移時,患者術(shù)后終生服藥、甲狀旁腺功能損傷及相關(guān)神經(jīng)功能損傷等風險也相應(yīng)增加。
臨床上需要通過超聲對甲狀腺結(jié)節(jié)及頸部淋巴結(jié)進行系統(tǒng)性評估管理[12],包括甲狀腺結(jié)節(jié)分級、頸部淋巴結(jié)評估。中國醫(yī)療資源欠均衡,甲狀腺超聲診斷水平在部分醫(yī)療機構(gòu)相對薄弱,亟需一種根據(jù)影像自動化、快速準確診斷的方法。近年來人工智能(artificial intelligence,AI)領(lǐng)域的深度學習(deep learning,DL)算法飛速發(fā)展,其在醫(yī)學圖像診斷領(lǐng)域展示出強大的性能,為甲狀腺超聲的AI 管理(artifi?cial intelligence management,AIM)提供了契機。
甲狀腺的評估可以使用幾種影像技術(shù)進行。包括普通放射線照相、放射性核素成像、超聲檢查、電子計算機斷層掃描和核磁共振成像等檢查。每種技術(shù)有其優(yōu)點和局限性,并且通常認為在多數(shù)患者中進行此類研究沒有絕對的臨床指征[13]。技術(shù)的主要限制,除了費用和可操作性,主要是其缺乏特異性組織學診斷。超聲是一種無創(chuàng)、安全、簡便、經(jīng)濟的檢查方法,在臨床應(yīng)用廣泛,甲狀腺是人體淺表器官,超聲檢查是甲狀腺結(jié)節(jié)診斷的首選檢查手段。1967年Fujimoto 等[14]首次描述了超聲對甲狀腺結(jié)節(jié)的檢測和鑒定。隨后數(shù)項研究證實甲狀腺超聲在診斷甲狀腺良惡性結(jié)節(jié)中的有效性[15]。隨著超聲設(shè)備的快速發(fā)展以及7~13 MHz高頻換能器的出現(xiàn),可以檢測到非常小的甲狀腺病變(2~3 mm)[16]。超聲檢查中對甲狀腺結(jié)節(jié)的診斷性描述數(shù)據(jù)也不斷完善,包括甲狀腺結(jié)節(jié)組成成分(囊性、海綿狀、囊實性、實性)、回聲(無回聲、高回聲或等回聲、低回聲、極低回聲)、形狀(縱橫比<1、縱橫比≥1)、邊界(光滑、邊界不清、小葉或毛刺征、侵出腺葉)及回聲灶(無或大的彗尾偽影、大鈣化、邊緣鈣化、點狀鈣化或沙粒樣鈣化),影像學專家通過在臨床中不斷總結(jié)典型的惡性結(jié)節(jié)征象,建立了甲狀腺影像報告和數(shù)據(jù)系統(tǒng)(thyroid im?aging reporting and data system,TI-RADS),進一步為甲狀腺結(jié)節(jié)評估提供參考。
研究人員和各專業(yè)協(xié)會提出了不同版本的TIRADS,以確定需要進行活組織檢查/手術(shù)或超聲隨訪的結(jié)節(jié)[17-18],不同版本的分級標準存在差異。2017年美國放射學會(ACR)提出了ACR版甲狀腺影像報告和數(shù)據(jù)系統(tǒng)(ACR TI-RADS)[19]。ACR TI-RADS提供了基于超聲影像管理甲狀腺結(jié)節(jié)的指導(dǎo)意見,引入了客觀評分體系。但實際施行過程中,甲狀腺結(jié)節(jié)具有較強的異質(zhì)性,內(nèi)部成分不均一,使得許多超聲影像學醫(yī)生在甲狀腺結(jié)節(jié)診斷中容易混淆,診斷存在差異,結(jié)果復(fù)現(xiàn)性差。超聲檢查對甲狀腺癌的診斷標準不斷完善,但統(tǒng)一化標準的推廣、普及和成熟利用,目前較難實現(xiàn),其實施過程中需要大量的人力和財力。影像存檔和通信系統(tǒng)(picture archiving and communication systems,PACS)在臨床的廣泛使用,促進了醫(yī)學影像大數(shù)據(jù)的建立。同時,影像數(shù)量的增長也使診斷處理變得復(fù)雜,越來越需要一種計算機輔助診斷(computer aided diagnosis,CAD)系統(tǒng),實現(xiàn)自動化診斷。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)指具有非線性適應(yīng)性信息處理能力的計算方法(學習),是一種基于大數(shù)據(jù)的運算模型,有別于普通的統(tǒng)計學方法。統(tǒng)計學是以對點數(shù)據(jù)的計算推論面的結(jié)局,而大數(shù)據(jù)是以面數(shù)據(jù)的歸集計算推論點的結(jié)果,“是互聯(lián)、非線性、自適應(yīng)的信息處理系統(tǒng)”。其模仿人腦神經(jīng)元網(wǎng)絡(luò)建立的基于統(tǒng)計的機器學習方法,是通向AI 的途徑之一。DL 隸屬于ANN 系統(tǒng),允許由多個處理層組成的計算模型學習具有多個抽象級別的數(shù)據(jù)表示[20-21]。DL是一種特定類型的機器學習,具有強大的能力和靈活性,其將大千世界表示為嵌套的層次概念體系(由較簡單概念間的聯(lián)系定義復(fù)雜概念、從一般抽象概況到高級抽象表示)[22]。在深度學習算法領(lǐng)域目前有多種神經(jīng)網(wǎng)絡(luò)模型,如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)(擅長圖像處理)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)(擅長語言文本處理)等。在圖像處理中常使用的是CNN。
CNN 是一類包含卷積計算的ANN,當具有深度網(wǎng)絡(luò)結(jié)構(gòu)時稱為深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolu?tional neural network,DCNN),是近年來深度學習在計算機視覺中取得突破性成果的基石。DCNN 由許多神經(jīng)元構(gòu)成的網(wǎng)絡(luò)層堆疊而來,因非線性激活函數(shù)層的網(wǎng)絡(luò)架構(gòu),可以將其視為一個非線性函數(shù),因此整個深度神經(jīng)網(wǎng)絡(luò)可以視為復(fù)合非線性多元函數(shù)。DCNN主要結(jié)構(gòu)包括卷積部分和全連接部分:卷積部分包括卷積層、激活層和池化層,可從圖像提取特征;全連接部分則連接特征提取和輸出計算損失,完成識別分類。理論上講,層數(shù)越深,參數(shù)越多,則函數(shù)模擬能力越強,而在實際操作中,學者通過簡單堆疊增加網(wǎng)絡(luò)深度,發(fā)現(xiàn)其誤差同樣增加,因此科學家不斷采用各種方法優(yōu)化神經(jīng)網(wǎng)絡(luò),使其具備更強大的特征學習和分類能力。
自從AlexNet 在2012年奪得了ImageNet 挑戰(zhàn)賽冠軍,DCNN成為計算機視覺領(lǐng)域的首選算法。經(jīng)典網(wǎng)絡(luò)包括AlexNet、ZFNet、VGGNet、GoogleNet、ResNet、Inception- v3、Inception- v4 及DenseNet。ResNet[23]于2015年被提出,在ImageNet 比賽中,其準確率首次超過人類專家。該網(wǎng)絡(luò)具有2個特點:1)使用了殘差塊;2)可以構(gòu)建極深的網(wǎng)絡(luò)結(jié)構(gòu)(能達到152 層或更高)。解決了DCNN 中經(jīng)常出現(xiàn)的梯度消失的困擾。DenseNet[24]是2017年計算機視覺與模式識別會議最佳論文,通過特征復(fù)用和旁路設(shè)置,既大幅度減少了網(wǎng)絡(luò)的參數(shù)量,又在一定程度上緩解了梯度消失和模型退化的問題。無論是ResNet 還是DenseNet,核心的思想均為跳躍鏈接,將某些輸入不加選擇的使其進入躍層,實現(xiàn)信息流的整合,避免信息在層間傳遞的丟失和梯度消失的問題,且后者參數(shù)量減少了50%。
近年來,深度學習算法快速發(fā)展和醫(yī)學影像大數(shù)據(jù)的獲得,使圖像分類的深度學習算法正逐漸應(yīng)用于臨床影像的自動化診斷。如皮膚癌外觀圖像DCNN分類模型[25]、年齡相關(guān)性黃斑變性DCNN診斷模型[26]、對糖尿病性視網(wǎng)膜病變DCNN診斷模型[27]、基于視網(wǎng)膜光學相干斷層影像的深度學習分類模型[28]等,均取得了卓越的診斷性能。多項高水平研究的數(shù)據(jù)集均在10萬張圖像以上。分析視網(wǎng)膜照相機拍攝圖像,完成糖尿病性視網(wǎng)膜病變分類診斷的模型已經(jīng)開發(fā)為產(chǎn)品IDx-DR,并被美國食品藥品監(jiān)督管理局(FDA)批準應(yīng)用于臨床。
DCNN 也逐漸應(yīng)用于甲狀腺結(jié)節(jié)自動檢測及診斷的研究[29-30],目前研究集中于對良惡性結(jié)節(jié)的診斷。有研究[29]通過分析15 000張(8 148例患者)人工注釋的甲狀腺結(jié)節(jié)超聲圖像構(gòu)建了CNN 模型,在甲狀腺結(jié)節(jié)診斷中獲得了83.0%的準確率。Xia等[31]基于超聲影像特征對187 例甲狀腺患者的203 個結(jié)節(jié)(114 個良性結(jié)節(jié),89 個惡性結(jié)節(jié))的超聲圖像分析,應(yīng)用極限學習機在區(qū)分惡性和良性結(jié)節(jié)方面達到87.72%的準確度。Wang 等[32]收集并標記了2 450 個甲狀腺良性結(jié)節(jié)和2 557個惡性甲狀腺結(jié)節(jié)的圖像,使用YOLOv2 神經(jīng)網(wǎng)絡(luò)通過深度學習建立了自動圖像識別和診斷系統(tǒng),在276例患者的超聲圖像中比較了已建立的系統(tǒng)和影像學專家在診斷甲狀腺良惡性結(jié)節(jié)中的表現(xiàn)。影像學專家的診斷是根據(jù)甲狀腺影像報告和數(shù)據(jù)系統(tǒng)確定的,病理診斷是最終診斷的金標準。提示AI診斷系統(tǒng)對甲狀腺惡性結(jié)節(jié)的AUC值(area under the curve)為0.902,高于影像學專家的0.859(P=0.043 4)。而AI診斷系統(tǒng)在診斷敏感性、陽性預(yù)測值、陰性預(yù)測值和準確性分別為90.5%、95.22%、80.99%和90.31%,其性能與影像學專家診斷相比無顯著性差異(P>0.05)。AI 診斷系統(tǒng)具有更高的特異性(89.91%vs.77.98%,P=0.026)。Chi 等[33]對超聲圖像預(yù)處理以校準其比例并去除偽影,使用深度學習(GoogLeNet)方法從甲狀腺超聲圖像中提取特征,將提取的甲狀腺超聲圖像特征經(jīng)隨機森林分類器以將圖像分類為“惡性”和“良性”病例,對本地健康數(shù)據(jù)庫的164張圖像分類的精度為96.34%,敏感性為86%,特異性為99%。Pereira等[34]在國際光學工程學會(SPIE)醫(yī)學成像會議中報道了其預(yù)訓練的CNN模型,甲狀腺良惡性結(jié)節(jié)診斷的準確性為83%。Bu?da等[35]訓練了多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò),以基于2個正交的超聲圖像作為輸入為甲狀腺結(jié)節(jié)提供活檢建議,對99個結(jié)節(jié)的測試中,深度學習算法對甲狀腺結(jié)節(jié)活檢建議的敏感性和特異性與使用ACR TI-RADS指南的影像學專家診斷相似。深度學習在超聲智能診斷中的研究面臨著數(shù)據(jù)量及數(shù)據(jù)標記的問題,限制了其發(fā)展及應(yīng)用。而后有研究[36]通過深度學習方法分析31.2 萬張甲狀腺超聲圖像,構(gòu)建了用于識別甲狀腺癌的DCNN 模型,并在多中心的獨立驗證集(20 386 張圖像)中達到了較高的準確性(86.3%~88.9%),AUC 值為0.908~0.947,該項研究中的全部獨立驗證集均有組織病理學診斷支持。該研究還在診斷中評估了專家間的診斷效率,在其醫(yī)院內(nèi)部驗證集中,影像醫(yī)師之間的一致率為86.4%(95%CI:83.1%~89.3%)。2 個外部驗證集中的一致率為76.6%(95%CI:69.1%~83.1%)和69.7%(95%CI:63.9%~75.1%)。
從超聲圖像中分割甲狀腺結(jié)節(jié)邊界在臨床指標計算和甲狀腺疾病診斷中起著重要作用。但由于甲狀腺結(jié)節(jié)的異質(zhì)性和與背景相似的成分,通過機器自動準確地分割甲狀腺結(jié)節(jié)具有挑戰(zhàn)性,CNN的出現(xiàn)使得從超聲圖像中自動分割甲狀腺結(jié)節(jié)更容易實現(xiàn)。
Ma等[37]將甲狀腺結(jié)節(jié)分割問題公式化為補丁分類任務(wù),基于CNN 使用來自正常甲狀腺和甲狀腺結(jié)節(jié)圖像的圖像補丁作為輸入,然后生成分割概率圖作為輸出。使用多視圖策略用于改善基于CNN的模型的性能。該CNN 能夠準確、有效地從超聲圖像中自動分割甲狀腺結(jié)節(jié)。該方法是全自動的,無需任何用戶交互。Kumar 等[38]提出了一種具有擴張卷積層的新穎的多輸出卷積神經(jīng)網(wǎng)絡(luò)算法,可通過臨床B超圖像來分割甲狀腺結(jié)節(jié)、結(jié)節(jié)內(nèi)部的囊性成分和正常甲狀腺。并進行了一項前瞻性研究,收集了234例活檢前接受甲狀腺超聲檢查患者的數(shù)據(jù),甲狀腺結(jié)節(jié)和囊性成分的檢出率分別為82%和44%。
Chen等[39]提出了一種基于深度學習的超聲文本分類器,用于預(yù)測甲狀腺良惡性結(jié)節(jié)。其是一種基于深度神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類方法,該超聲分類器是通過帶有病理學良性或惡性標簽的超聲文本而訓練的。與傳統(tǒng)的隨機森林、支持向量機和神經(jīng)網(wǎng)絡(luò)相比,該方法在真實醫(yī)學數(shù)據(jù)集和UCI標準數(shù)據(jù)集上的準確性最高,分別為93%和95%。
在頸部淋巴結(jié)診斷方面,Lee等[40]利用神經(jīng)網(wǎng)絡(luò)訓練了定位和鑒別轉(zhuǎn)移性淋巴結(jié)節(jié)CAD 系統(tǒng),數(shù)據(jù)集為812 個頸部淋巴結(jié)超聲圖像,其準確性為83%。隨著AI 技術(shù)的發(fā)展和計算機算力的進步,依據(jù)數(shù)據(jù)的規(guī)模及標注與否等特點,深度學習算法發(fā)展了很多不同的網(wǎng)絡(luò)模型訓練方式,為超聲影像智能診斷模型的訓練提供了更多、更為可靠的選擇。
甲狀腺結(jié)節(jié)在人群中常見,目前其評估主要依靠超聲TI-RADS分級系統(tǒng),近年甲狀腺癌發(fā)病率增長迅速,甲狀腺結(jié)節(jié)超聲檢查中,影像醫(yī)師任務(wù)繁重,醫(yī)師的認知與經(jīng)驗不同,可能導(dǎo)致診斷結(jié)果一致性差,增加有創(chuàng)檢查及治療風險,大數(shù)據(jù)結(jié)合AI可有效地解決這項問題。甲狀腺癌外科治療人數(shù)的拐點即將出現(xiàn),新確診人數(shù)一段時間內(nèi)仍會增加,大數(shù)據(jù)將使其臨床特性更清晰,實現(xiàn)精準診療[41]。國務(wù)院辦公廳2018年頒布了《關(guān)于促進“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見》,將研發(fā)基于AI的臨床決策支持系統(tǒng)列為關(guān)鍵內(nèi)容?;谀壳凹谞钕俪曌詣踊\斷的迫切需求,結(jié)合中國AI發(fā)展規(guī)劃,筆者所在陳可欣教授團隊構(gòu)建的用于識別甲狀腺癌的DCNN模型,在3個獨立驗證集均有媲美影像學專家診斷的水平[36],構(gòu)建標注的甲狀腺結(jié)節(jié)及頸部淋巴結(jié)超聲圖像數(shù)據(jù)集,采用深度學習算法分析甲狀腺結(jié)節(jié)及頸部淋巴結(jié)超聲圖像,開發(fā)甲狀腺結(jié)節(jié)及頸部淋巴結(jié)超聲的AI管理系統(tǒng),有望用來輔助甲狀腺結(jié)節(jié)超聲診斷,簡化超聲醫(yī)生的工作流程,提高常規(guī)臨床實踐的效率。
AI 的快速發(fā)展離不開計算機技術(shù)的革新、現(xiàn)代統(tǒng)計學方法的創(chuàng)新和快速增長的可獲取數(shù)據(jù)支撐,多學科團隊目前也在進行很多有前景的研究,尤其在醫(yī)學圖像領(lǐng)域。但在研究過程中,研究數(shù)據(jù)是否能夠代表真實世界的異質(zhì)性,預(yù)測模型的研究和臨床實際是否進行結(jié)合,有限數(shù)據(jù)訓練的預(yù)測模式是否可以在不同的臨床中心進行推廣,臨床醫(yī)生和患者是否認可模型的預(yù)測結(jié)果,AI 應(yīng)用于臨床診斷是否能夠得到批準和認證等問題仍有待解決,而未來從事研究的多學科團隊和應(yīng)用AI進行影像健康研究者,將因解決有關(guān)透明度、可重復(fù)性、倫理和有效性的一系列問題而受益[42],而研究者、臨床醫(yī)生和政策制定者的最終目標是能夠給患者帶來獲益。