醫(yī)學影像處理的深度學習可解釋性研究進展

2021-01-26 07:22:16陳園瓊鄒北驥張美華廖望旻黃嘉兒朱承璋

浙江大學學報(理學版) 2021年1期

陳園瓊，鄒北驥，張美華，廖望旻，黃嘉兒，朱承璋

（1.中南大學計算機學院，湖南長沙410083；2.吉首大學軟件學院，湖南張家界427000；3.“移動醫(yī)療”教育部-中國移動聯(lián)合實驗室，湖南長沙410083；4.機器視覺與智慧醫(yī)療工程技術中心，湖南長沙410083；5.中南大學文學與新聞傳播學院，湖南長沙410083）

0 引言

醫(yī)學影像在臨床應用、生命科學研究等方面具有重要作用。不同形態(tài)的醫(yī)學成像技術通過采樣或重建產(chǎn)生離散型圖像，將數(shù)值映射到空域，形成表達解剖區(qū)域內(nèi)部結(jié)構(gòu)或功能的醫(yī)學圖像。從X射線、超聲到計算機斷層掃描（computed tomography，CT）、磁共振成像（magnetic resonance imaging，MRI）、正電子發(fā)射型計算機斷層成像（positron emission computed tomography，PECT），成像技術的每次創(chuàng)新都是對醫(yī)療對象觀察手段的豐富和觀察能力的提高，在改進醫(yī)療手段、提高醫(yī)療水平等方面發(fā)揮了至關重要的作用。計算機科學的發(fā)展和進步極大地提高了醫(yī)學影像的解讀能力，深度學習［1］是機器學習的重要研究方向之一。近年來，深度學習在計算機視覺領域取得了令人矚目的成就，將深度學習應用于醫(yī)學影像的病灶目標分割、定位、檢測、圖像配準和融合等亦取得了顯著進展，已實現(xiàn)對病灶的快速診斷，診斷時間大大縮短。

基于深度學習的醫(yī)療診斷雖然已取得巨大進展［2］，但在臨床實踐中尚面臨一些亟待解決的難題。

（1）數(shù)據(jù)驅(qū)動的深度學習算法，其泛化能力經(jīng)常受質(zhì)疑與挑戰(zhàn)。樣本數(shù)據(jù)不足、訓練樣本分布與真實樣本分布不一致，均會導致算法性能急劇下降。不同于有強大數(shù)據(jù)集的自然圖像處理，在極少醫(yī)學樣本場景下訓練得到的模型能否用于高精度敏感的醫(yī)學影像分析是其中被質(zhì)疑的點之一［3］。據(jù)《華爾街日報》于2019年1月26日的報道，谷歌用于診斷糖尿病視網(wǎng)膜病變的深度學習算法，在印度的實驗室與醫(yī)院遭遇了挑戰(zhàn)，其原因是印度醫(yī)院的成像設備較差，谷歌開發(fā)的算法無法有效識別低質(zhì)量影像。

（2）對抗樣本引發(fā)人們對深度學習穩(wěn)健性的深層次擔憂。對抗樣本是指受輕微擾動的樣本，其可導致模型以高置信度輸出錯誤結(jié)果。這一“荒謬”現(xiàn)象的出現(xiàn)迫使人們探尋深度學習方法，以得到穩(wěn)健的輸出結(jié)果。

圖1 青光眼篩查時醫(yī)生診斷與系統(tǒng)診斷的差別Fig.1 The difference between doctor diagnosis and system diagnosis

（3）深度學習可自動提取抽象特征，其預測過程是端到端的，只有直接結(jié)果，無法提供診斷依據(jù)和病因病理，不能被完全信任和接受。比如對青光眼的篩查（見圖1），醫(yī)生可通過眼壓檢測、視野檢測和人工檢查視盤（optic disc）等檢測方式，結(jié)合患者的臨床癥狀和病理報告診斷病癥，給出病因病理；然而深度學習通過神經(jīng)網(wǎng)絡學習大量有標記的樣本數(shù)據(jù)，提取特征，得到的模型在臨床實踐中難以解釋其輸入與輸出間的關聯(lián)性或因果關系，缺乏過程的可解釋性，難以支持醫(yī)療診斷或醫(yī)學研究中的因果推理［4］。

可解釋性已成為深度學習在醫(yī)學影像處理領域發(fā)展與應用的難題。結(jié)合深度學習在醫(yī)學影像處理中的發(fā)展趨勢，首先綜述了深度學習在醫(yī)學領域的應用現(xiàn)狀及面臨的問題，然后探討了深度學習可解釋性的內(nèi)涵，并重點關注深度學習可解釋性研究方法的進展和具有特殊性的醫(yī)學影像處理的深度學習可解釋性研究進展，最后探討了醫(yī)學影像處理深度學習可解釋性研究的發(fā)展趨勢。

1 深度學習可解釋性的問題與機遇

深度學習的很多模型，如卷積神經(jīng)網(wǎng)絡（convolutional neural networks，CNN）、深度信念網(wǎng)絡（deep belief nets，DBN）等已被廣泛應用于醫(yī)學影像處理。研究者通過深度學習方法自動提取腦部圖像中阿爾茲海默癥（Alzheimer disease，AD）的特征信息，捕捉由AD引起的腦部變化［5］，結(jié)合其他多模態(tài)信息診斷輕度認知障礙（AD/MCI）［6］。通過深度學習自動檢測肺癌細胞［7］，將影像塊和預訓練的CNN相結(jié)合，完成乳腺癌組織分類［8］。通過CNN將低級影像數(shù)據(jù)轉(zhuǎn)化為與非影像模態(tài)數(shù)據(jù)相融合的特征向量［9］，共同學習神經(jīng)網(wǎng)絡所有模態(tài)之間的非線性相關性，完成對子宮頸發(fā)育不良的診斷預測。通過CNN自動提取微動脈瘤特征［10］，進行視網(wǎng)膜血管分割［11］、視網(wǎng)膜病變分類［12］等。這些輔助診斷系統(tǒng)均通過深度學習完成對疾病的快速篩查和診斷，大大縮短了診斷時間，在降低診斷成本的同時，準確率亦有較大提升。

基于深度學習的醫(yī)學影像處理技術取得了巨大進展，與此同時，引發(fā)人們對深度學習可解釋性的思考與研究。筆者調(diào)研了2016—2020年發(fā)表在機器學習與人工智能（artifical intelligence，AI）相關會議（CVPR，ICML，NIPS，AAAI，ICCV，IJCAI）以及國際頂級醫(yī)學影像學術會議MICCAI上的關于深度學習可解釋性以及醫(yī)學影像處理的深度學習可解釋性的研究論文，對題目中包含關鍵詞explain，interpretable，understanding的相關論文做了統(tǒng)計分析，結(jié)果如表1所示。

表1 2016—2020年會議論文統(tǒng)計Table 1 Statistics of conference papers from 2016 to 2020單位：篇

經(jīng)篩選，共得到相關研究論文212篇?？傮w來說，深度學習可解釋性正逐漸被認為是亟須解決的重要問題。2015年之前，幾乎無深度學習可解釋性相關研究論文，2016年，相關研究論文僅11篇，2018年，增至78篇，2019年，深度學習可解釋性依舊是研究熱點。在MICCAI上，醫(yī)學影像處理的深度學習可解釋性也逐漸受關注。2018年，MICCAI錄用了3篇與深度學習可解釋性相關的論文，2019年，MICCAI專門設置工作組，討論醫(yī)學影像處理的深度學習可解釋性。

2 深度學習可解釋性的內(nèi)涵

目前，對可解釋性并沒有統(tǒng)一的定義，廣義的可解釋性是指在需要了解或解決一件事情時，可獲得足夠多可被理解的所需信息。BIRAN等［13］和MILLER［14］將可解釋性定義為人類理解決策原因的程度。模型的可解釋性越高，所做的決定或預測越容易被人理解。在機器學習的國際頂級會議上，有學者從方法和目標等角度給出了對深度學習可解釋性的多種理解。如在2017年第三十一屆神經(jīng)信息處理系統(tǒng)進展大會（NIPS）上，時間檢驗獎獲得者RAHIMI提出，將深度學習應用于某些領域會引發(fā)對透明度和信任度的質(zhì)疑。BIRAN等［13］認為，AI的關鍵是解釋決策、推薦、預測或行為的能力和過程，如果系統(tǒng)的操作被理解，那么系統(tǒng)是可解釋的。另外，可解釋性是以人類為核心的解釋過程，最終目的是使人類理解，所以，人腦神經(jīng)元的連接方式、運作模式以及信息處理方式都可能影響對深度學習可解釋性的研究。

傳統(tǒng)的基于統(tǒng)計分析的機器學習模型，其可解釋性較好，如傳統(tǒng)的線性模型可以從權重的角度理解神經(jīng)網(wǎng)絡中的參數(shù)含義及其重要程度和波動范圍；用戶友好的決策樹模型在做每個決策時都會通過決策序列展示其決策依據(jù)；基于信息理論的變量篩選標準有助于理解模型決策過程中哪些變量的作用更顯著；基于規(guī)則的專家系統(tǒng)依賴特定領域的分類知識庫和單獨的策略庫，根據(jù)上下文邏輯關系進行解釋［13］。然而，深度學習模型的結(jié)構(gòu)越來越復雜，對于由多個非線性函數(shù)疊加的多層神經(jīng)網(wǎng)絡模型，很難解釋其決策依據(jù)，難以直接理解神經(jīng)網(wǎng)絡的“腦回路”。因此，通常將AI可解釋性的目標［15］分為以模型為導向和以用戶為導向兩種。

圖2 人工智能可解釋性的兩大目標［15］Fig.2 Explain two goals of AI

2.1 以模型為導向的可解釋性

研究者在對機器學習模型進行調(diào)試時，將其看作黑匣子。只看到輸入和輸出，很難理解黑匣子內(nèi)部的工作原理，造成難以預測和調(diào)試機器學習模型的輸出結(jié)果等，最終影響對機器學習模型的深入理解及結(jié)果的進一步提升。模型的可解釋性重點關注透明度和信任度。

2.2 以用戶為導向的解釋質(zhì)量

在很多領域，當將結(jié)果呈現(xiàn)給普通用戶時，需要進行解釋。普通推薦系統(tǒng)［16］通過收集各用戶的信息偏好，利用不同的信息源為其提供項目預測和推薦，通常只給出簡單又直觀的理由，無法令用戶信任。為使用戶更好地理解預測結(jié)果和推薦結(jié)果，一些可解釋性推薦系統(tǒng)［14，17］將用戶納入可解釋范疇，讓用戶了解做相應決策的原因，從而極大提高推薦結(jié)果的有效性，增強決策的說服力。在計算機輔助診斷系統(tǒng)中，復雜的深度學習模型解釋決策的能力雖令人滿意［18］，但其對結(jié)果的可讀性、有效性的解釋質(zhì)量尚不高。

人類認識世界、探索事物的客觀規(guī)律主要基于因果推斷的思維模式?；谛颖镜玫降囊?guī)律［19］可較好地被推廣至復雜環(huán)境。實踐證明，科學探索中基于因果推斷所發(fā)現(xiàn)的客觀規(guī)律具有極強的泛化能力。

基于上述理解，筆者嘗試將特定領域的深度學習可解釋性概括為：具備特定領域知識的人在認知負擔可承受的范圍內(nèi)，掌握深度學習模型輸入與輸出之間因果關系的程度，包括主觀、認知和客觀3個因素，其內(nèi)涵如表2所示。

表2 可解釋性內(nèi)涵Table 2 Three factors involved in interpretability

3 深度學習可解釋性的研究方法

深度學習模型由輸入、中間隱層、輸出3部分組成，其中，中間隱層的每個神經(jīng)元均由上一層的線性組合和一個非線性函數(shù)組成，雖然已知參數(shù)的值和訓練過程，但因中間隱層高度非線性，無法理解深度學習模型的具體含義和行為。深度學習的目的是從樣本數(shù)據(jù)中發(fā)現(xiàn)知識和規(guī)律并解決實際問題，而神經(jīng)網(wǎng)絡神經(jīng)元的分層組合形式，則從物質(zhì)組成的視角理解神經(jīng)網(wǎng)絡的運作方式，在此過程中，如果能提供可被理解的數(shù)據(jù)信息或模型信息，則有助于找到理解和解決問題的方法。以上均可歸納為可解釋性研究方法，深度學習可解釋性研究方法的主流方向見表3。

表3 深度學習可解釋性研究方法的主流方向Table 3 The mainstream direction of interpretability in deep learning

3.1 可視化

可視化是將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形、圖像、動畫等易于理解的方式展示，是探索深度學習可解釋認知因素最直觀的方法之一。通過將抽象數(shù)據(jù)映射為圖像，建立模型的可視表達，降低研究人員對深度學習模型的認知難度，理解深度學習的內(nèi)部表達，從而降低模型的復雜度，提高透明度?，F(xiàn)有研究主要集中于輸入數(shù)據(jù)可視化和模型內(nèi)部可視化兩方面。

3.1.1 輸入數(shù)據(jù)可視化

深度學習可從數(shù)據(jù)中發(fā)現(xiàn)知識和規(guī)律，在建模之前對輸入的樣本數(shù)據(jù)進行可視化分析，可快速、全面了解數(shù)據(jù)的分布特征，便于理解問題。MIKOLAJ等［20］用最大均值差異（maximum mean discrepancy，MMD）方法，分別找到具有代表性和不具代表性的數(shù)據(jù)樣本，更好地理解數(shù)據(jù)分布。

3.1.2 模型內(nèi)部可視化

深度學習的黑箱性主要在于中間隱層的高度非線性。現(xiàn)有研究通過可視化內(nèi)部神經(jīng)元［21-23］、可視化濾波器［24，25］、可視化中間隱層［21，26］提升黑匣子的透明度。ZEILER等［21］通過激活最大化和采樣2種方法，對深度神經(jīng)網(wǎng)絡內(nèi)部神經(jīng)元進行可視化，盡可能找到被激活的過濾器的最大化輸入圖像，該圖像可有效顯示特定像素區(qū)域，且是可解釋的。同時，通過反池化-反激活-反卷積的逆過程對卷積網(wǎng)絡內(nèi)部進行可視化，發(fā)現(xiàn)低層次對應邊角或色彩特征、紋理特征，高層次對應狗臉、車輪等局部部位，對物體整體識別能力較強。MAHENDRA等［22］通過特征反演學習圖像，利用自然圖像先驗的視覺清晰度重建網(wǎng)絡的中間激活。清華大學朱軍團隊提出的可視化系統(tǒng) CNNVis［23］，通過提取神經(jīng)元的特征，將各神經(jīng)元連接，對神經(jīng)元集群進行可視化。谷歌大腦的特征可視化工具Lucid［25］能展示深度學習網(wǎng)絡內(nèi)各個神經(jīng)元及其分工，幫助了解網(wǎng)絡內(nèi)神經(jīng)元如何用作物體（如按鈕、衣服和建筑）檢測器、如何在網(wǎng)絡層之間堆積以及如何變復雜。這些可視化方法不僅能展示檢測結(jié)果，還可供直觀地觀察神經(jīng)網(wǎng)絡中各神經(jīng)元的輸出貢獻大小。

可視化的直觀表達在一定程度上降低了深度學習模型的復雜度，提升了模型的透明度，但無法與更高級的語義相關聯(lián)，對人類的認知能力要求很高，仍存在一定的解釋難度。

3.2 語義化

語義是指數(shù)據(jù)的解釋和邏輯表示。語義化是指通過量化或?qū)W習等方法解釋深度學習模型中隱藏層神經(jīng)元具有的語義。

3.2.1 神經(jīng)元或?qū)优c語義相關性的量化

為理解網(wǎng)絡所學到的語義，通過分析神經(jīng)網(wǎng)絡內(nèi)部神經(jīng)元或中間隱藏層與人類語義的相關性，并對其進行量化，BAU等［26］提出了網(wǎng)絡切割（network dissection，ND）方法，首先，通過收集來自不同數(shù)據(jù)源的分層語義標注數(shù)據(jù)，建立包含大量視覺語義的數(shù)據(jù)集；然后，利用交并比（intersection over union，IoU）對隱層單元與語義的相關性進行量化，最終從中間隱藏層學習關于顏色、材質(zhì)、材料、部分、物體、場景等語義。FONG等［27］通過研究語義與相應過濾器的向量嵌入關系，探討多個過濾器組合表示的語義。KIM等［28］通過概念激活向量最大化識別過濾器所編碼的語義。OLAH等［29］將特征可視化與語義詞典相結(jié)合，研究了決策網(wǎng)絡以及神經(jīng)網(wǎng)絡內(nèi)部對輸出的影響機制。

3.2.2 編碼學習語義

神經(jīng)網(wǎng)絡內(nèi)部神經(jīng)元通過學習語義，在語義層面對神經(jīng)網(wǎng)絡進行診斷和修改，使其與人類的知識框架相匹配，具有清晰的符號化內(nèi)部知識表達。SABOUR等［30］創(chuàng)建了膠囊網(wǎng)絡，其內(nèi)部神經(jīng)元活動表示圖像中出現(xiàn)的特定實體的各種屬性，并在MNIST數(shù)據(jù)集上對其進行了訓練，證明膠囊網(wǎng)絡能編碼一些特定的語義，如筆畫的尺度、厚度、傾斜角度、寬度和平移等。信息最大化生成對抗網(wǎng)（information maximizing generative adversarial net，InfoGAN）［31］，將網(wǎng)絡的生成器輸入變量分為不可壓縮噪聲和潛在語義代碼。MNIST數(shù)據(jù)集［32］成功編碼了數(shù)字類型、旋轉(zhuǎn)和寬度語義信息，CelebA數(shù)據(jù)集［33］編碼了面部數(shù)據(jù)集中的情感部分，SVHN數(shù)據(jù)集［34］編碼了照明條件和平板環(huán)境，3D face數(shù)據(jù)集［35］編碼了方位、眼鏡、發(fā)型和情緒，3D chair數(shù)據(jù)集［36］編碼了寬度和三維旋轉(zhuǎn)信息。上述數(shù)據(jù)集均通過編碼內(nèi)部神經(jīng)元學習語義，較容易理解模型內(nèi)部的表達。

深度學習模型實現(xiàn)端到端學習，要求解釋深度學習模型從低級語義到高級語義的生成過程，這不僅有利于理解神經(jīng)網(wǎng)絡的具體結(jié)構(gòu)，而且可輔助深度學習將調(diào)參真正變得可控、可解釋。

3.3 邏輯關系量化

邏輯關系量化是研究事物之間關系的一種判斷方法。事物內(nèi)部或各事物間的關系有相關、并列、主次、遞進以及因果等，關系的強弱可說明事物內(nèi)部或各事物間的邏輯推理能力。比如輸入與輸出之間的因果關系具有極強的推理能力，比普通的相關性更能展現(xiàn)可解釋性。目前從邏輯關系出發(fā)的研究主要有端-端邏輯關系、中-端邏輯關系和模型內(nèi)部神經(jīng)元的相關性3種。

3.3.1 端-端邏輯關系

為找到圖像中對深度學習結(jié)果影響最大的像素，通過研究輸入層變化對輸出結(jié)果的影響，判斷輸入與輸出之間的邏輯關系；利用反向傳播［21］，結(jié)合梯度、網(wǎng)絡權值或特定層上的激活［37-38］跟蹤信息，由網(wǎng)絡輸出跟蹤其輸入或中間隱層；SELVARAJU等［38］通過優(yōu)化過程過濾梯度，進一步提取用于特定預測證據(jù)的細粒度區(qū)域。這些方法的核心是通過詳細搜索或優(yōu)化找到最具代表性的擾動。另外，通過輸入擾動網(wǎng)絡、有規(guī)則或隨機遮擋［21，43］部分樣本，分析遮擋對各方法輸出的影響［21，39-41］。例如 FONG等［40］以元學習作為解釋因子建立擾動，以優(yōu)化空間擾動掩碼，通過擾動試驗，找到對輸出結(jié)果影響較大的特征，從而逐步建立線性可分模型［41］。由于不可能看到所有擾動，因此需找到具有代表性的擾動，KOH等［42］利用統(tǒng)計學影響函數(shù)，分析了增加訓練樣本權重或?qū)τ柧殬颖臼┘虞p微擾動對特定測試樣本損失函數(shù)的影響，以更好地理解深度學習模型的預測效果。

以上方法均是通過探究輸入與輸出的映射關系解釋結(jié)果的。這種衡量變量/樣本重要性的敏感性方法將可解釋性歸于輸入特征或樣本，更容易被理解，但也易導致相同預測結(jié)果的不同可解釋理由，且穩(wěn)定性較差。這些方法均基于模型不可知，未考慮模型的內(nèi)部結(jié)構(gòu)，也未打開黑匣子，忽視了對中間隱層結(jié)構(gòu)的研究，無法了解模型內(nèi)部的工作機理，其邏輯推理基于兩端，對內(nèi)部的可解釋能力不足。

3.3.2 中-端邏輯關系

研究深度學習模型的中間隱層與輸出之間的邏輯關系是進一步挖掘模型內(nèi)部工作機理的必要過程。一些研究用更簡單、可解釋的模型通過局部逼近深度學習的中間隱層，與輸出建立邏輯關系。如RIBEJRU等［43］提出的基于梯度方法及局部可解釋模型不可知論解釋（local interpretable modelagnostic explanations，LIME）方法，通過線性模型在預測結(jié)果附近建立局部中-端邏輯關系。WU等［44］利用學習網(wǎng)絡，通過決策樹的正則化逼近進行深度神經(jīng)網(wǎng)絡學習。ZHANG等［45］提出端-端學習的可解釋CNN，用過濾器添加先驗約束，實現(xiàn)訓練后自動回歸某特定對象（如鳥的頭、喙、腿），在卷積層頂層中通過分離式表征進行目標分類，并將神經(jīng)網(wǎng)絡的表征提煉為決策樹結(jié)構(gòu)［46］，由粗到精對隱藏在CNN全連接層中的各決策模式編碼，用決策樹逼近最終決策結(jié)果。HOU等［47］利用具有解釋序列數(shù)據(jù)的有限狀態(tài)機（finite-state machine，F(xiàn)SA）學習循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN），將學習結(jié)果作為可解釋結(jié)構(gòu)。WU等［48］用與或圖（ANDOR graph，AOG）解析算子代替在CNN特征區(qū)域（regions with CNN features，RCNN）中常用的池化算子。在檢測過程中，用從AOG中實時得到的最佳解析樹解釋包圍框（bounding box）。另外，有研究在強化學習過程中，通過學習因果模型［49］結(jié)構(gòu)，對感興趣的變量的因果關系進行編碼，并用基于因果模型的反事實分析方法解釋強化學習。

通過以上可解釋的方法逼近各深度學習模型的內(nèi)部機理，建立局部與輸出的邏輯關系，客觀解釋性較強。

3.3.3 神經(jīng)元之間的關系

研究內(nèi)部神經(jīng)元之間的關系對理解深度學習模型的內(nèi)部機理具有重要意義。通過識別關鍵數(shù)據(jù)路徑［50］和利用分段線性函數(shù)［51］分析模型相應層的功能，檢測訓練過程中神經(jīng)元的激活情況，尋找不同神經(jīng)元之間的關系。ZHANG等［52-53］將CNN轉(zhuǎn)化為圖模型，通過自動學習具有上萬個節(jié)點的解釋圖，解釋CNN的層次與知識結(jié)構(gòu)。解釋圖中的每個節(jié)點表示CNN中某卷積層對象的部分模式，用知識圖譜解釋決策。這類方法通過探求復雜網(wǎng)絡內(nèi)部神經(jīng)元的相互關系，了解深度學習內(nèi)部的訓練過程和決策過程，探究未知神經(jīng)網(wǎng)絡組件之間的關系，但此關系僅是潛在因果關系的一部分，神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu)依然復雜。

深度學習模型結(jié)構(gòu)復雜，參數(shù)龐大，認知負擔重，可視化方法以及語義量化方法并不能有效解釋模型所做決策的因果推理，因此，用因果推理關系的方法分析客觀因素，有助于了解深度學習模型的訓練和決策過程，實現(xiàn)模型內(nèi)部的透明化。

3.4 交互式

交互式指通過領域?qū)＜遗c深度學習過程的交互，理解深度學習內(nèi)部的決策過程。通過可視化工具［26，43］進行人機交互。人對物體、環(huán)境的交互邏輯比對顏色、紋理等低級語義的交互更敏感。將深度學習系統(tǒng)模塊化和定制化，先單獨訓練各類高級語義的深度學習模塊［54-55］，再根據(jù)認知邏輯將這些模塊進行組合，最終完成特定任務。BAU等［55］提出深度干預神經(jīng)網(wǎng)絡內(nèi)部的訓練和驗證，以GAN為基礎，在自然圖像中對神經(jīng)網(wǎng)絡的內(nèi)部神經(jīng)元進行模塊化處理，在模型診斷時，結(jié)合可視化工具直接激活深度網(wǎng)絡或先激活深度網(wǎng)絡中的神經(jīng)元或神經(jīng)元組，通過交互式的可解釋性實驗探索，一定程度上實現(xiàn)了深度學習模型內(nèi)部的模塊化和定制化。

4 醫(yī)學影像處理的深度學習可解釋性研究

在醫(yī)學領域，病癥的檢查診斷大多需參考醫(yī)學影像，而醫(yī)學影像高度依賴成像設備和成像環(huán)境。相對于自然圖像，醫(yī)學影像更復雜，具體表現(xiàn)在：（1）影像種類多，差異大，難以融合；（2）影像大多是非可見光成像（如X射線），通常顯示某種特殊信號的強度值，信噪比較低；（3）病灶等目標與非目標區(qū)域之間的顏色、灰度、紋理等外觀差異較?。唬?）影像像素大，目標自身缺乏固定的大小、形狀、灰度和紋理等外觀特征，且因個體、成像原理、成像環(huán)境等不同差異較大；（5）因受成像原理和成像環(huán)境的影響，影像中含多種偽影。

同時，醫(yī)學數(shù)據(jù)以多種模態(tài)呈現(xiàn)，每種模態(tài)各有所長、相互關聯(lián)，如不同疾病之間，不同病癥之間，一種疾病與多種病癥之間，多種疾病與同一病癥之間等，極大地限制了對病癥的預測和診斷。

將深度學習引入醫(yī)學領域，極大地提高了對醫(yī)學影像的特征提取能力、篩查水平和診斷效率。但受數(shù)據(jù)驅(qū)動的深度學習輔助疾病診斷與篩查系統(tǒng)只能輸出單一的診斷結(jié)果或篩查結(jié)果，無法給出決策依據(jù)，難以被采納，且對算法人員不友好。盡管深度學習可解釋性研究已取得大量令人矚目的成果，但大多聚焦于特定模型，其可解釋性也側(cè)重于算法設計人員而非醫(yī)生、醫(yī)學研究者和患者，極大地限制了醫(yī)療診斷系統(tǒng)的臨床應用。

面向醫(yī)學影像處理的深度學習可解釋性研究能夠為醫(yī)學知識和疾病輔助診斷與大規(guī)模篩查系統(tǒng)的深度融合提供有效且可交互的途徑，有力推動醫(yī)療的智能化。不同于常用的深度學習可解釋性研究方法，醫(yī)學影像處理的深度學習可解釋性研究方法不僅受數(shù)據(jù)的影響，還與醫(yī)生的學識有關，因此，兩者在研究方法上既相似又有區(qū)別，主要區(qū)別有：

（1）在可視化方法上，深度學習的可解釋性重點關注樣本數(shù)據(jù)規(guī)律的可視化以及模型內(nèi)部的可視化。而醫(yī)學影像重點關注的是病灶區(qū)域，要求讀片直觀。

（2）在語義化方法上，深度學習的可解釋性重點關注模型內(nèi)部神經(jīng)元或中間隱藏層所表征的語義信息，而醫(yī)學影像大多需要用自然語言模擬醫(yī)生的決策過程，在輸出診斷結(jié)果的同時需生成可理解的決策過程和決策結(jié)果，如初級診斷報告等。

（3）在邏輯關系量化上，深度學習的可解釋性重點關注輸入樣本數(shù)據(jù)與輸出結(jié)果之間、模型內(nèi)部神經(jīng)元之間、模型內(nèi)部神經(jīng)元與輸出結(jié)果之間的邏輯關系，而醫(yī)學影像更多地關注用醫(yī)學知識解釋診斷結(jié)果。

最近，對醫(yī)學影像處理的深度學習可解釋性研究趨勢主要有：

4.1 病灶區(qū)域可視化

病灶區(qū)域可視化主要指通過熱力圖［56］、注意力機制［57-59］等方法，結(jié)合其他手段［60-61］，找出病灶區(qū)域并提供可視化證據(jù)，探究為決策提供依據(jù)的醫(yī)學影像像素。如PASCHALI等［56］利用模型激活細粒度的Logit熱力圖解釋醫(yī)學影像決策過程。LEE等［57］根據(jù)頭部CT掃描數(shù)據(jù)檢測急性顱內(nèi)出血，提出了一個可解釋的深度學習框架，通過模擬放射科工作流程并進行迭代，生成注意力圖，利用類激活映射［37］從訓練數(shù)據(jù)中檢索預測基礎。LIAO 等［58］基于注意力機制的弱監(jiān)督診斷青光眼（見圖3），為青光眼的自動檢測提供了可視化解釋依據(jù)（見圖4），在自動檢測青光眼過程中，系統(tǒng)給出了3種類型的輸出：預測結(jié)果、注意力圖和預測基礎，增強了結(jié)果的可解釋性。GARCIA-PERAZA-HERRERA 等［59］在檢測早期鱗片狀細胞腫瘤時，以嵌入式激活圖表示側(cè)重結(jié)果的可解釋性并以其作為約束，通過可視化方法，提供較詳細的注意力圖。在基底細胞癌變檢測過程中，設計了一個解釋層作為數(shù)字染色方法，將在診斷決策中起重要作用的圖像區(qū)域聚集在一起［60］。BIFFI等［61］在原始圖像上通過可視化方法量化學習病理的特異性，用特定任務的可解釋特征區(qū)分臨床條件，使決策過程透明化。

圖3 青光眼診斷可視化模型［58］Fig.3 Diagnosable visual models of glaucoma

通過可視化方法在真實圖像中定位或量化區(qū)域，提供可視化證據(jù)，提升對深度學習模型內(nèi)部表征能力的感知，理解模型的決策依據(jù)。

圖4 青光眼可解釋性的定性與定量表達［58］Fig.4 Qualitative and quantitative expression of glaucoma interpretability

4.2 病歷語義化

目前，將醫(yī)學知識引入模型，并與神經(jīng)元相關聯(lián)的研究尚不多見，大多用自然語言處理方法將病歷信息［62-67］融入圖像處理過程，通過多模態(tài)醫(yī)學信息，將醫(yī)學影像直接映射為診斷報告，給出可理解的診斷依據(jù)，見圖5。

圖5 醫(yī)學影像與診斷報告生成可解釋的診斷報告Fig.5 Medical imaging and diagnostic reports generate interpretable diagnostic reports

ZHANG等［62］提出多模態(tài)醫(yī)學影像診斷模型，將影像模型和語言模型統(tǒng)一在深度學習框架中，在醫(yī)學影像和診斷報告2個模態(tài)間建立映射關系，這樣，深度學習模型不僅能根據(jù)影像給出診斷結(jié)果，還能模擬醫(yī)生診斷并編寫診斷報告，提供可理解的診斷依據(jù)?；谙嗤椒?，WANG等［63］注意到放射科醫(yī)生在閱片時，會觀察不同疾病的癥狀，例如肝轉(zhuǎn)移會蔓延至局部淋巴結(jié)或身體其他部位，所以在診斷報告中包含與其他疾病的關聯(lián)關系，基于此，首先從文本中獲取先驗領域知識，然后與這些癥狀進行關聯(lián)，開發(fā)了多目標CAD框架，用于檢測多種疾病，不僅改進了深度學習模型的性能，而且提供了更精準的診斷報告。在預測高惡性腫瘤時，SHEN等［64］通過量化診斷特征解釋了以專家知識驅(qū)動的方式形成的低級放射科醫(yī)師模型的語義特征。KIM等［65］利用GAN（由可解釋的診斷網(wǎng)絡和合成病變生成網(wǎng)絡組成）學習腫瘤與標準化描述之間的關系，完成可解釋的乳腺腫塊計算機輔助診斷。ZHANG等［66］提出的MDNet模型集合多種網(wǎng)絡，設計了一種基于語義和視覺可解釋的醫(yī)學影像診斷網(wǎng)絡，生成影像的表達，用長短期記憶網(wǎng)絡（LSTM）提取語義信息，并生成更加細致的逐字影像關注區(qū)，但模型復雜度較高。FAUW等［67］進一步改進了該模型，在2個不同的神經(jīng)網(wǎng)絡間插入可解釋的表征，并將二者結(jié)合起來，先利用分割網(wǎng)絡從頻域光相干斷層掃描（OCT）影像中找出病灶特征，輸出分割特征圖，然后，將分割特征圖作為輸入，利用帶有確診和最佳轉(zhuǎn)診的組織圖訓練分類網(wǎng)絡，進行分類，輸出診斷概率和轉(zhuǎn)診建議，實驗結(jié)果與專家臨床診斷結(jié)果相當，是醫(yī)學影像可解釋性研究取得的一個重要里程碑成果。

在對疾病進行輔助診斷和篩查時，將不同的深度學習模型與醫(yī)學知識深度融合，不僅能輸出診斷結(jié)果，還能提供診斷決策依據(jù)，供驗證和對比。若診斷決策與深度學習不一致或與所依據(jù)的醫(yī)學知識不一致，則可通過進一步分析做出更好的決策；若醫(yī)生的決策更好，可對深度學習模型進行調(diào)整，若深度學習模型的決策更好，則可豐富醫(yī)生的知識，使其做出更好的決策。

4.3 因果推理病因

深度學習可解釋性的邏輯關系在于針對模型設計人員進行數(shù)據(jù)的因果推理，但是基于哪些因素得到的輔助診斷結(jié)果無人知曉。

NIU等［68］借鑒傳染病學原理中的科赫法則探索醫(yī)學影像卷積神經(jīng)網(wǎng)絡的可解釋性，科赫法則（Koch’s postulates）（見圖 6）通過將某種病變與特定的病原體建立聯(lián)系，鑒定傳染病，是傳染病病原學鑒定的金標準。

圖6 科赫法則［68］Fig.6 Koch"s postulates

另外，還有一些學者將其他領域的方法引入醫(yī)學影像的可解釋性研究。如LI等［69］在功能性核磁共振成像（fMRI）識別自閉癥譜系障礙的檢測中，結(jié)合影像結(jié)構(gòu)和博弈論中的shapely值解釋了如何通過共享變量引擎（SVE）查看單個特征；ALAA等［70］利用深概率模型獲取復雜的疾病進展，同時利用注意力機制提高臨床可解釋性。GOHORBANI等［71］提出用基于語義的神經(jīng)網(wǎng)絡內(nèi)部狀態(tài)進行解釋，用方向?qū)?shù)量化模型，預測由激活向量學習的底層高級語義。通過眼底影像預測糖尿病視網(wǎng)膜病變（DR）級別，測試微動脈瘤（MA）、全視網(wǎng)膜光凝術（PRP）等治療方法在不同DR級別上的重要性。

以上方法大多通過引入其他領域判斷因果關系的方式建立模型的可解釋基礎，具有一定的可解釋性，但其與醫(yī)學知識的融合尚不夠?；卺t(yī)學知識的因果判斷方法尚需進一步探討。

5 總結(jié)與展望

現(xiàn)階段，深度學習模型的性能得到極大提升，但模型的復雜性幾乎同步提高，可解釋性成為AI發(fā)展的一大難題，雖然深度學習的可解釋性研究取得了一定進展，但仍待進一步探索，特別是對醫(yī)學影像深度學習的可解釋性研究還處于初級階段。因此，基于對當前研究實踐的分析和理解，筆者認為醫(yī)學影像深度學習的可解釋性研究未來可從以下幾個方面展開。

5.1 可視化病灶特征

研究深度學習的透明度，目前可視化輸入數(shù)據(jù)、可視化中間隱層、可視化高卷積層的特征圖等方法在一定程度上均增加了深度學習模型的透明度。通過改進深度學習模型內(nèi)部的可視化，并將可視化特征圖與醫(yī)學知識融合，對模型所做決策的依據(jù)進行深入挖掘，以提高醫(yī)學影像處理的深度學習可解釋性，這對降低模型的認知難度，提高認知能力具有非常重要的意義。

5.2 語義化醫(yī)學圖像

現(xiàn)有的大多數(shù)語義可解釋方法都將圖像識別與自然語言處理相結(jié)合，生成可被理解的診斷報告。自然語言處理用的是深度學習方法，相當于用黑匣子解釋黑匣子，雖然可以得到語義信息，但模型不可知。目前在遷移學習、語義分割等方向上的發(fā)展極大促進了深度學習的可解釋研究，同時，將模型內(nèi)部的語義化方法與多模態(tài)的醫(yī)學數(shù)據(jù)相結(jié)合，可能是語義化醫(yī)學影像的另一發(fā)展途徑。

5.3 醫(yī)學規(guī)則上的因果推理

在邏輯推理基礎上，知識圖譜作為可讀性高的外部知識載體，為提高算法的可解釋性提供了極大可能。用影像神經(jīng)網(wǎng)絡構(gòu)建醫(yī)學診斷知識圖譜，與深度卷積神經(jīng)網(wǎng)絡的影像特征提取能力相結(jié)合，提升模型的領域知識匹配能力和知識邏輯推理能力，有可能將AI醫(yī)學診斷從直覺學習向邏輯學習推進。

5.4 交互式研究

如何在領域?qū)＜液湍Ｐ驮O計人員與深度學習模型之間建立交互，對提升可解釋性至關重要。深度干預神經(jīng)網(wǎng)絡內(nèi)部訓練階段和驗證階段的設計，通過模塊化神經(jīng)網(wǎng)絡內(nèi)部神經(jīng)元，利用可視化工具，通過交互探查深度學習的各階段，找尋交互式操作對模型診斷的影響，實現(xiàn)深度學習模型內(nèi)部模塊化和定制化。通過模塊化進行深度特征提取，如果高級語義定義可順利完成，特別是由醫(yī)生完成，則將在貼近認知層次基礎上豐富因果邏輯的客觀性，從而極大提高深度學習的可解釋性。

6 結(jié) 語

深度學習的超強性能促進AI應用的巨大發(fā)展，AI模型可幫助醫(yī)生縮短閱片時間，加快診斷，然而，算法結(jié)論的可解釋性變得越來越重要，對算法決策過程的了解，有助于建立人機間最大程度的理解和信任。近年來，可解釋性問題廣受政府、工業(yè)界和學術界的關注。美國國防部高級研究計劃署（DARPA）對可解釋 AI項目（explainable AI，XAI）給予了資助，我國國務院在《新一代人工智能規(guī)劃》中提出，實現(xiàn)具備高可解釋性、強泛化的人工智能?？梢灶A料，當AI具有可解釋性時，其高效的診斷速度和精準的診斷水平，可使醫(yī)療從業(yè)人員從重復繁雜的診療任務中解脫出來，智能診斷系統(tǒng)在為病人提供快速診斷的同時，提供可解釋的診斷依據(jù)。

基于可解釋性的定義，介紹和分析了醫(yī)學影像深度學習可解釋性的研究現(xiàn)狀和進展，重點討論了現(xiàn)有的深度學習可解釋性研究方法和醫(yī)學影像處理的深度學習可解釋性研究方法，并簡單討論了醫(yī)學影像處理深度學習可解釋性研究的發(fā)展方向，希望對相關領域研究人員提供一定幫助。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看