王麗會(huì),秦永彬
1. 貴州省智能醫(yī)學(xué)影像分析與精準(zhǔn)診斷重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025;2. 貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025
醫(yī)學(xué)成像已成為臨床診斷的重要輔助手段,其包括計(jì)算機(jī)斷層掃描(computed tomography,CT)成像、磁共振成像(magnetic resonance imaging,MRI)、正電子發(fā)射斷層掃描(positron emission tomography,PET)成像、超聲(ultrasound,US)成像、X射線(X-ray)成像等。如何借助大數(shù)據(jù)和人工智能技術(shù),深入挖掘海量的醫(yī)學(xué)圖像信息,實(shí)現(xiàn)基于影像數(shù)據(jù)的智能診斷、智能臨床決策以及治療預(yù)后,已成為目前的研究熱點(diǎn)。
深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的分支,是目前實(shí)現(xiàn)人工智能技術(shù)的重要手段。隨著深度學(xué)習(xí)技術(shù)在圖像處理和計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,利用深度學(xué)習(xí)技術(shù)輔助臨床診斷和決策已成為醫(yī)學(xué)圖像分析領(lǐng)域的研究重點(diǎn)。醫(yī)學(xué)影像智能診斷的流程可大致分為3個(gè)步驟,首先獲取大量高質(zhì)量的圖像數(shù)據(jù),然后對(duì)圖像進(jìn)行預(yù)處理,最后挖掘圖像信息,進(jìn)行分析預(yù)測(cè)。其具體環(huán)節(jié)如圖1所示。其中海量、高質(zhì)量的圖像數(shù)據(jù)是深度學(xué)習(xí)訓(xùn)練的基礎(chǔ),圖像預(yù)處理(如配準(zhǔn)、感興趣區(qū)域提?。┦呛罄m(xù)分析準(zhǔn)確度的基本保障,挖掘信息、建立預(yù)測(cè)模型是臨床智能決策的關(guān)鍵。因此,本文將分別圍繞這3個(gè)方面,闡述深度學(xué)習(xí)在醫(yī)學(xué)圖像處理分析流程中每個(gè)環(huán)節(jié)的主要應(yīng)用現(xiàn)狀,最后總結(jié)深度學(xué)習(xí)在醫(yī)學(xué)影像研究中的發(fā)展趨勢(shì)。
海量、高質(zhì)量的醫(yī)學(xué)圖像數(shù)據(jù)是利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)影像精準(zhǔn)診斷的基礎(chǔ)。然而,由于成像設(shè)備和采集時(shí)間等因素的限制,在醫(yī)學(xué)成像的過程中不可避免地會(huì)受到噪聲、偽影等因素的影響。同時(shí),針對(duì)某些成像方式,需要在成像分辨率和采集時(shí)間上進(jìn)行折中,例如在CT成像中,為了降低輻射的影響,需要減少投影采集數(shù)目;在磁共振成像中,為了減少患者運(yùn)動(dòng)或者器官自身運(yùn)動(dòng)引起的偽影,需要降低K空間的采樣率以減少采集時(shí)間,然而低采樣率會(huì)嚴(yán)重影響圖像的重建質(zhì)量。為了獲得高質(zhì)量的采集圖像,經(jīng)常需要進(jìn)行圖像降噪、圖像超分辨率重建、圖像去偽影等復(fù)原與重建工作。下面將分別闡述深度學(xué)習(xí)在這幾方面的研究現(xiàn)狀。
2.1.1 醫(yī)學(xué)圖像降噪
基于深度學(xué)習(xí)的醫(yī)學(xué)圖像降噪主要應(yīng)用在低劑量CT圖像中。卷積降噪自動(dòng)編碼器(convolutional neural networkdenoise auto-encoder,CNN-DAE)是早期用于醫(yī)學(xué)圖像降噪的深度學(xué)習(xí)模型[1]。該模型通過一些堆疊的卷積層,以編碼和解碼的方式從噪聲圖像中學(xué)習(xí)無噪圖像,其魯棒性較差,對(duì)噪聲類型變化較為敏感。隨后,Chen H等人[2]提出RED-CNN降噪模型,將殘差網(wǎng)絡(luò)與卷積自動(dòng)編碼器相結(jié)合,通過跳躍連接形成深度網(wǎng)絡(luò),實(shí)現(xiàn)低劑量CT圖像的降噪。同年,Kang E等人[3]首先對(duì)低劑量CT圖像進(jìn)行方向小波變換,然后將深度卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于小波系數(shù)圖像,實(shí)現(xiàn)降噪,并使用殘差學(xué)習(xí)架構(gòu)加快網(wǎng)絡(luò)訓(xùn)練速度,提高性能。
雖然這些網(wǎng)絡(luò)結(jié)構(gòu)的降噪性能相較于傳統(tǒng)方法得到了顯著的提升,但是其網(wǎng)絡(luò)訓(xùn)練均以復(fù)原CT圖像與相應(yīng)正常劑量CT圖像之間的均方誤差最小為優(yōu)化目標(biāo),使得降噪圖像存在細(xì)節(jié)模糊和紋理缺失等問題。為了解決這一問題,研究者提出改進(jìn)損失函數(shù)和模型結(jié)構(gòu)的方法來優(yōu)化低劑量CT圖像的降噪效果。WGAN-VGG模型通過引入感知損失,采用WGAN(Wasserstein generative adversarial network)模型進(jìn)行降噪,利用Wasserstein距離和感知損失提高降噪圖像與真實(shí)圖像的相似性[4]。基于WGAN-GP(gradient penalty)的SMGAN(structurally-sensitive multi-scale generative adversarial net)模型將多尺度結(jié)構(gòu)損失和L1范數(shù)損失結(jié)合到目標(biāo)函數(shù)中,并利用相鄰切片之間的信息降噪,其結(jié)果優(yōu)于WGAN-VGG模型[5]。但是梯度懲罰的使用削弱了生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)的表示能力。為了解決這個(gè)問題,Ma Y J等人[6]提出基于最小二乘生成對(duì)抗網(wǎng)絡(luò)(least-square GAN,LS-GAN)的殘差生成器結(jié)構(gòu),通過引入結(jié)構(gòu)相似度和L1范數(shù)損失來提高降噪能力,生成器負(fù)責(zé)學(xué)習(xí)噪聲,降噪圖像為生成器的網(wǎng)絡(luò)輸入與網(wǎng)絡(luò)輸出的相減結(jié)果。除了生成模型,為了提高降噪效果,Yin X R等人[7]同時(shí)在投影域和圖像域采用3D殘差網(wǎng)絡(luò)進(jìn)行降噪,并利用濾波反投影重建算法,實(shí)現(xiàn)投影域和圖像域的相互轉(zhuǎn)化,通過迭代的思想實(shí)現(xiàn)圖像降噪。Wu DF等人[8]提出一致性神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了無監(jiān)督的圖像降噪方法,其不需要無噪圖像標(biāo)簽,僅利用有噪圖像對(duì)模型進(jìn)行訓(xùn)練,從而獲得降噪圖像。
可以看出,在利用深度學(xué)習(xí)進(jìn)行降噪時(shí),常需要利用有噪圖像和無噪圖像來訓(xùn)練模型,學(xué)習(xí)噪聲類型,或者學(xué)習(xí)無噪圖像與有噪圖像之間的對(duì)應(yīng)關(guān)系,進(jìn)而實(shí)現(xiàn)圖像降噪。這種方式具有一定的局限性,在臨床的某些應(yīng)用上,很難獲得真實(shí)的無噪圖像。因此,如何采用無監(jiān)督或者自監(jiān)督模型,僅利用有噪圖像實(shí)現(xiàn)醫(yī)學(xué)圖像降噪將是未來研究的主要方向。
2.1.2 醫(yī)學(xué)圖像超分辨率重建
高分辨率的醫(yī)學(xué)圖像可以提供更多的臨床診斷細(xì)節(jié),然而由于采集設(shè)備的限制,臨床上高分辨率圖像較難獲取。因此,如何利用深度學(xué)習(xí)技術(shù)從一幅或者多幅低分辨率醫(yī)學(xué)圖像中獲得高分辨率圖像成為當(dāng)前主要研究熱點(diǎn)之一。隨著深度學(xué)習(xí)模型在自然圖像超分辨率重建中的成功應(yīng)用,采用深度學(xué)習(xí)模型進(jìn)行醫(yī)學(xué)圖像超分辨率重建的研究逐漸開展起來。然而,醫(yī)學(xué)圖像與自然圖像有本質(zhì)的區(qū)別,其超分辨率重建不僅需要在圖像切片平面上進(jìn)行,還需要在切片之間進(jìn)行,如圖2所示。
除了將自然圖像中的超分辨率重建模型直接應(yīng)用到醫(yī)學(xué)圖像,Oktay O等人[10]采用深度殘差卷積網(wǎng)絡(luò)從多個(gè)2D心臟磁共振(magnetic resonance,MR)圖像中重建出3D高分辨率MR圖像,提高了層間分辨率。Pham CH等人[11]將SRCNN模型拓展到3D,以實(shí)現(xiàn)腦部MR圖像的超分辨率重建。McDonagh S等人[12]提出對(duì)上下文敏感的殘差網(wǎng)絡(luò)結(jié)構(gòu),可以得到邊界和紋理清晰的高分辨率MR圖像。Zheng Y等人[13]提出多個(gè)Dense模塊和多路分支組合的MR高分辨重建模型,該模型具有較好的重建結(jié)果和泛化能力。Zhao X L等人[14]提出通道可分離的腦部MR圖像高分辨率重建模型,一個(gè)通道采用殘差結(jié)構(gòu),一個(gè)通道采用密集連接結(jié)構(gòu),實(shí)現(xiàn)了特征的有效利用,從而提高高分辨率圖像的重建質(zhì)量。Tanno R等人[15]結(jié)合3DSubpixelCNN和變分推論實(shí)現(xiàn)了磁共振擴(kuò)散張量圖像的超分辨率重建。Peng C等人[16]提出空間感知插值網(wǎng)絡(luò)(spatially aware interpolation network,SAINT),充分利用不同切面的空間信息提高超分辨率圖像的重建質(zhì)量,該模型在對(duì)CT圖像進(jìn)行2倍、4倍和6倍分辨率重建時(shí),均取得了較好的結(jié)果。Shi J等人[17]提出一種多尺度全局和局部相結(jié)合的殘網(wǎng)絡(luò)(multi-scale global local residual learning,MGLRL)模型,實(shí)現(xiàn)了MR圖像的超分辨重建,該模型可以增強(qiáng)圖像重建細(xì)節(jié)。Lyu Q等人[18]采用GAN實(shí)現(xiàn)了多對(duì)比度MR圖像的超分辨率重建。
與醫(yī)學(xué)圖像降噪相似,基于深度學(xué)習(xí)的超分辨率圖像重建需要低分辨率圖像樣本和高分辨率圖像樣本對(duì)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。通常采用下采樣的方式進(jìn)行高/低分辨率圖像樣本對(duì)的構(gòu)造。然而針對(duì)不同模態(tài)的醫(yī)學(xué)成像,其成像原理大不相同,高分辨率和低分辨率之間的對(duì)應(yīng)關(guān)系也不盡相同。因此,采用人工下采樣的方式獲得訓(xùn)練數(shù)據(jù),學(xué)習(xí)低分辨率圖像與高分辨率圖像的對(duì)應(yīng)關(guān)系,很可能與實(shí)際采集中低分辨率圖像與高分辨率圖像的對(duì)應(yīng)關(guān)系不相符,進(jìn)而導(dǎo)致重建的高分辨圖像無意義,因此如何構(gòu)建符合實(shí)際的高/低分辨率圖像樣本對(duì)是利用深度學(xué)習(xí)進(jìn)行超分辨重建的難點(diǎn)。
2.1.3 醫(yī)學(xué)圖像重建
醫(yī)學(xué)圖像重建是指將采集的原始數(shù)據(jù)重建為臨床上可視圖像的過程,如CT采集的原始數(shù)據(jù)為投影圖像,MR采集的原始數(shù)據(jù)為K空間數(shù)據(jù),需要重建算法才能獲得臨床上用于診斷的圖像。在實(shí)際應(yīng)用中,由于一些采集條件的限制(如在CT中盡量減少投影數(shù)目,縮短采集時(shí)間,以降低輻射影響;在MR成像中,減少K空間填充數(shù)目,縮短采集時(shí)間,以避免患者的不適或者由患者運(yùn)動(dòng)帶來的圖像偽影),需要降低原始數(shù)據(jù)的采集率。然而,降低原始數(shù)據(jù)的采集率必然會(huì)影響圖像的重建質(zhì)量。因此,研究合適的重建算法,保證在原始數(shù)據(jù)低采樣率下仍能獲得高質(zhì)量的重建圖像,成為醫(yī)學(xué)圖像重建中的研究重點(diǎn)。
目前采用深度學(xué)習(xí)模型進(jìn)行醫(yī)學(xué)圖像重建的方法主要分為兩類:一類是從原始數(shù)據(jù)直接到圖像的重建,另一類是基于后處理的方式提高重建圖像的質(zhì)量。第一類方法的代表模型有:ADMM-Net[19],其用深度迭代的方式學(xué)習(xí)傳統(tǒng)交替方向乘子(alternating direction method of multipliers,ADMM)優(yōu)化算法中的超參數(shù),可以直接從欠采樣的K空間數(shù)據(jù)中重構(gòu)出MR圖像;Adler J等人[20]提出對(duì)偶學(xué)習(xí)模型,用其代替CT重建中的濾波反投影方法,實(shí)現(xiàn)了投影數(shù)據(jù)到CT圖像的準(zhǔn)確重建;Cheng J等人[21]在此基礎(chǔ)上提出原始-對(duì)偶網(wǎng)絡(luò)(primal-dual network,PD-Net),實(shí)現(xiàn)了MR圖像的快速重建;Zhang HM等人[22]提出JSR-Net(joint spatial-Radon domain reconstruction net),利用深度卷積神經(jīng)網(wǎng)絡(luò)模型,同時(shí)重建CT圖像及其對(duì)應(yīng)的Radon投影變換圖像,得到了比PD-Net更好的重建結(jié)果。第二類方法是目前主要的重建方式,即采用圖像去偽影的后處理模型進(jìn)行重建。用于圖像降噪、超分辨重建的模型都可以用于該類型的圖像重建,如Lee D等人[23]提出帶有殘差模塊的U-Net模型結(jié)構(gòu)來學(xué)習(xí)重建圖像與原始欠采樣圖像之間的偽影;隨后,他們又提出利用雙路U-Net模型對(duì)相位圖像和幅度圖像進(jìn)行重建,進(jìn)而提高了MR圖像的重建質(zhì)量[24];Schlemper J等人[25]采用深度級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型,學(xué)習(xí)動(dòng)態(tài)MR圖像采集的時(shí)序關(guān)系,進(jìn)而在快速采集下提高動(dòng)態(tài)MR圖像的重建質(zhì)量;Han Y等人[26]采用域適應(yīng)微調(diào)方法,將CT圖像重建的網(wǎng)絡(luò)應(yīng)用到MR圖像重建上,可以實(shí)現(xiàn)高采樣率下的準(zhǔn)確重建;Eo T等人[27]提出KIKI-Net,同時(shí)在K空間和圖像空間域上使用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行重建,提高了MR圖像重建的性能;Bao LJ等人[28]采用一個(gè)增強(qiáng)遞歸殘差網(wǎng)絡(luò),結(jié)合殘差塊和密集塊的連接,用復(fù)數(shù)圖像進(jìn)行訓(xùn)練,得到了較好的MR圖像重建結(jié)果;Dai Y X等人[29]基于多尺度空洞卷積設(shè)計(jì)深度殘差卷積網(wǎng)絡(luò),以較少的網(wǎng)絡(luò)參數(shù)提高了MR圖像的重建精度;受到GAN在視覺領(lǐng)域成功應(yīng)用的啟發(fā),Yang G等人[30]提出一種深度去混疊生成對(duì)抗網(wǎng)絡(luò)(DAGAN),以消除MRI重建過程中的混疊偽影;Quan T M等人[31]提出一種具有周期性損失的RefinGAN模型,以極低的采樣率提高了MR圖像的重建精度;Mardani M等人[32]基于LS-GAN損失,采用ResNet的生成器和鑒別器來重建MR圖像,獲得了較好的可視化結(jié)果。
圖像降噪、圖像超分辨率重建、圖像重建等均屬于反問題求解。因此,其模型可互相通用,本文不對(duì)其進(jìn)行一一闡述。
2.2.1 醫(yī)學(xué)圖像數(shù)據(jù)擴(kuò)展
目前,臨床上醫(yī)學(xué)圖像合成主要有兩個(gè)目的。其一,擴(kuò)展數(shù)據(jù)集,以獲得大量醫(yī)學(xué)影像樣本來訓(xùn)練深度學(xué)習(xí)模型,從而提高臨床診斷和預(yù)測(cè)的準(zhǔn)確度。盡管已有很多數(shù)據(jù)擴(kuò)展方法,如平移、旋轉(zhuǎn)、剪切、加噪聲等,但是其數(shù)據(jù)擴(kuò)展方式無法滿足數(shù)據(jù)多樣性的需求,在提升深度學(xué)習(xí)模型的預(yù)測(cè)精度以及泛化能力上仍有待提高。其二,模擬成像。由于不同模態(tài)的醫(yī)學(xué)圖像可以提供不同的信息,融合不同模態(tài)的醫(yī)學(xué)影像信息可以提高臨床診斷精度。然而同一個(gè)病人的多模態(tài)影像信息很難獲取,此時(shí)圖像合成便提供了一種有效的手段。此外,某些新興的成像技術(shù)對(duì)成像設(shè)備具有較高的要求,僅少數(shù)的醫(yī)院及科研機(jī)構(gòu)可以滿足要求,因此圖像合成為獲取稀缺的影像數(shù)據(jù)提供了可能。
隨著GAN模型在自然圖像合成上的成功應(yīng)用,應(yīng)用GAN的衍生模型進(jìn)行醫(yī)學(xué)圖像合成已成為近幾年的研究熱點(diǎn)。在醫(yī)學(xué)圖像數(shù)據(jù)集擴(kuò)展方面,主要采用無條件的GAN模型進(jìn)行合成,即主要從噪聲數(shù)據(jù)中生成醫(yī)學(xué)圖像。常用的方法是以深度卷積生成對(duì)抗網(wǎng)絡(luò)(deep convolutional GAN,DCGAN)為基線模型進(jìn)行改進(jìn)。如Kitchen A等人[33]基于DCGAN模型成功地合成了前列腺的病灶圖像;Schlegl T等人[34]基于DCGAN提出一種AnoGAN模型,用來生成多樣的視網(wǎng)膜圖像,以輔助視網(wǎng)膜疾病的檢測(cè);Chuquicusma MJM等人[35]采用DCGAN模型生成肺結(jié)節(jié)數(shù)據(jù),其結(jié)果可達(dá)到臨床放射科醫(yī)生無法辨別的程度;Frid-Adar M等人[36]使用DCGAN生成了3類肝損傷(即囊腫、轉(zhuǎn)移酶、血管瘤)的合成樣本,以提高肝病分類的準(zhǔn)確性;Bermudez C等人[37]采用DCGAN的原有訓(xùn)練策略,生成了高質(zhì)量的人腦T1加權(quán)MR圖像。
盡管DCGAN在醫(yī)學(xué)圖像合成上取得了眾多有價(jià)值的成果,但其僅能合成分辨率較低的圖像。為了提高醫(yī)學(xué)圖像合成的質(zhì)量,一些改進(jìn)的GAN模型被提出,如Baur C等人[38]采用LAPGAN,基于拉普拉斯金字塔的思想,利用尺度逐漸變化來生成高分辨率的皮膚病變圖像,該方法生成的圖像可以有效地提高皮膚疾病分類的準(zhǔn)確性。此外,基于漸進(jìn)生長(zhǎng)生成對(duì)抗網(wǎng)絡(luò)(progressive grow GAN,PGGAN)在高分辨率圖像合成方面的優(yōu)勢(shì),Korkinof D等人[39]利用PGGAN合成了分辨率為1280×1024的乳腺鉬靶X光圖像。
2.2.2 醫(yī)學(xué)圖像模態(tài)轉(zhuǎn)換
醫(yī)學(xué)圖像的模態(tài)轉(zhuǎn)換合成可以分成兩類。一類是單模態(tài)的轉(zhuǎn)換,如低劑量CT到普通計(jì)量CT圖像的轉(zhuǎn)換[40-41]、3T磁共振儀器采集的MR圖像到7T磁共振儀器采集的MR圖像的生成[42-43],其目的是提高圖像質(zhì)量。另一類是跨模態(tài)的一對(duì)一轉(zhuǎn)換,如為了解決CT在軟組織中對(duì)比度不高且會(huì)帶來輻射的問題,Nie D等人[44-45]提出上下文感知生成模型,通過級(jí)聯(lián)3D全卷積網(wǎng)絡(luò),利用重建損失、對(duì)抗損失、梯度損失,采用配對(duì)圖像進(jìn)行訓(xùn)練,實(shí)現(xiàn)了MR圖像到CT圖像的合成,提高了合成CT圖像的真實(shí)性。除了級(jí)聯(lián)模型,在多模態(tài)圖像轉(zhuǎn)換任務(wù)中,常采用的深度模型網(wǎng)絡(luò)架構(gòu)為編碼-解碼結(jié)構(gòu),典型代表為Pix2Pix[46]以及CycleGAN[47]模型。如Maspero M等人[48]采用Pix2Pix的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了MR圖像到CT圖像的轉(zhuǎn)換,進(jìn)而實(shí)現(xiàn)放化療過程中輻射劑量的計(jì)算;Choi H等人[49]基于Pix2Pix模型,從PET圖像生成了結(jié)構(gòu)信息更加清晰的腦部MR圖像。盡管Pix2Pix模型可以較好地實(shí)現(xiàn)多模態(tài)圖像的轉(zhuǎn)換,但是其要求源圖像與目標(biāo)圖像必須空間位置對(duì)齊。這種訓(xùn)練數(shù)據(jù)在臨床上是很難獲取的。針對(duì)源圖像和目標(biāo)圖像不匹配的問題,通常采用CycleGAN模型進(jìn)行圖像生成。Wolterink JM等人[50]使用不配對(duì)數(shù)據(jù),利用CycleGAN從頭部MRI圖像合成了其對(duì)應(yīng)的CT圖像,合成圖像更真實(shí)。目前,CycleGAN已成為多模態(tài)醫(yī)學(xué)圖像轉(zhuǎn)換中廣泛采用的手段,如心臟MR圖像到CT圖像的合成[51]、腹部MR圖像到CT圖像的合成[52]、腦部CT圖像到MR圖像的合成[53]等。然而CycleGAN有時(shí)無法保留圖像的結(jié)構(gòu)邊界。Hiasa Y等人[54]引入梯度一致性損失,對(duì)CycleGAN模型進(jìn)行了改進(jìn),該損失通過評(píng)估原始圖像與合成圖像之間每個(gè)像素梯度的一致性來保留合成圖像的結(jié)構(gòu)邊界,進(jìn)而提高了合成圖像的質(zhì)量。
在很多醫(yī)學(xué)圖像分析任務(wù)中,獲得高質(zhì)量的圖像數(shù)據(jù)后,經(jīng)常需要對(duì)圖像進(jìn)行配準(zhǔn),并對(duì)感興趣區(qū)域進(jìn)行分割,之后才能進(jìn)行圖像分析和識(shí)別。本節(jié)分別對(duì)深度學(xué)習(xí)在醫(yī)學(xué)圖像配準(zhǔn)以及分割領(lǐng)域的應(yīng)用進(jìn)行詳細(xì)的闡述。
圖像配準(zhǔn)是對(duì)不同時(shí)刻、不同機(jī)器采集的圖像進(jìn)行空間位置匹配的過程,是醫(yī)學(xué)圖像處理領(lǐng)域非常重要的預(yù)處理步驟之一,在多模態(tài)圖像融合分析、圖譜建立、手術(shù)指導(dǎo)、腫瘤區(qū)域生長(zhǎng)檢測(cè)以及治療療效評(píng)價(jià)中有廣泛的應(yīng)用。目前,深度學(xué)習(xí)在醫(yī)學(xué)圖像配準(zhǔn)領(lǐng)域的研究可以分成3類,第一類是采用深度迭代的方法進(jìn)行配準(zhǔn),第二類是采用有監(jiān)督的深度學(xué)習(xí)模型進(jìn)行配準(zhǔn),第三類是基于無監(jiān)督模型的深度學(xué)習(xí)配準(zhǔn)。第一類方法主要采用深度學(xué)習(xí)模型學(xué)習(xí)相似性度量,然后利用傳統(tǒng)優(yōu)化方法學(xué)習(xí)配準(zhǔn)的形變[55-57]。該類方法配準(zhǔn)速度慢,沒有充分發(fā)揮深度學(xué)習(xí)的優(yōu)勢(shì),因此近幾年鮮見報(bào)道。本文主要集中介紹有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的醫(yī)學(xué)圖像配準(zhǔn)。
基于有監(jiān)督學(xué)習(xí)的配準(zhǔn)在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),需要提供與配準(zhǔn)對(duì)相對(duì)應(yīng)的真實(shí)變形場(chǎng),其配準(zhǔn)框架如圖3所示。
網(wǎng)絡(luò)模型的訓(xùn)練目標(biāo)是縮小真實(shí)變形場(chǎng)與網(wǎng)絡(luò)輸出變形場(chǎng)的差距,最后將變形場(chǎng)應(yīng)用到待配準(zhǔn)的圖像上,從而得到配準(zhǔn)結(jié)果。在有監(jiān)督學(xué)習(xí)的醫(yī)學(xué)圖像配準(zhǔn)中,變形場(chǎng)的標(biāo)簽可以通過以下兩種方式獲得:一種是將經(jīng)典配準(zhǔn)算法獲得的變形場(chǎng)作為標(biāo)簽;另一種是對(duì)目標(biāo)圖像進(jìn)行模擬形變,將形變參數(shù)作為真實(shí)標(biāo)簽,將形變圖像作為待配準(zhǔn)圖像。
在基于有監(jiān)督學(xué)習(xí)的剛性配準(zhǔn)方面,Miao S等人[58-59]首先結(jié)合CNN,采用回歸的思想將3DX射線衰減映射圖與術(shù)中實(shí)時(shí)的2DX射線圖進(jìn)行剛體配準(zhǔn);Salehi S S M等人[60]結(jié)合深度殘差回歸網(wǎng)絡(luò)和修正網(wǎng)絡(luò),采用“先粗配準(zhǔn),再細(xì)配準(zhǔn)”的策略,基于測(cè)地線距離損失實(shí)現(xiàn)了3D胎兒大腦T1和T2加權(quán)磁共振圖像的剛體配準(zhǔn),建立了胎兒大腦圖譜;隨后,Zheng JN等人[61]采用域自適應(yīng)的思想,利用預(yù)訓(xùn)練網(wǎng)絡(luò)實(shí)現(xiàn)了2D和3D射線圖像配準(zhǔn),其設(shè)計(jì)了成對(duì)域適應(yīng)模塊,用來調(diào)整模擬訓(xùn)練數(shù)據(jù)與真實(shí)測(cè)試數(shù)據(jù)之間的差異,以提高配準(zhǔn)的魯棒性。
在非線性配準(zhǔn)方面,模擬非線性變形場(chǎng)比模擬剛性變形場(chǎng)困難很多,因此在基于有監(jiān)督學(xué)習(xí)的非線性配準(zhǔn)中,大多采用經(jīng)典方法獲得變形場(chǎng),并以其為標(biāo)簽,對(duì)模型進(jìn)行訓(xùn)練。Yang X等人[62]首先以U-Net網(wǎng)絡(luò)模型為基線結(jié)構(gòu),利用微分同胚算法獲得變形場(chǎng),并將其作為標(biāo)簽,實(shí)現(xiàn)2D和3D腦部MR圖像的端到端配準(zhǔn)。因?yàn)榉蔷€性變形場(chǎng)較難模擬,所以在監(jiān)督學(xué)習(xí)中引入弱監(jiān)督配準(zhǔn)和雙監(jiān)督配準(zhǔn)的概念。弱監(jiān)督配準(zhǔn)指利用解剖結(jié)構(gòu)標(biāo)簽做配準(zhǔn)的標(biāo)記,學(xué)習(xí)變形場(chǎng)。Hu Y P等人[63]使用前列腺超聲圖像和MR圖像的結(jié)構(gòu)標(biāo)記訓(xùn)練CNN模型,學(xué)習(xí)變形場(chǎng),然后將變形場(chǎng)施加在灰度圖像上,從而實(shí)現(xiàn)MR圖像和超聲圖像的配準(zhǔn)。Hering A等人[64]采用相似度測(cè)量和組織結(jié)構(gòu)分割標(biāo)簽,同時(shí)訓(xùn)練配準(zhǔn)網(wǎng)絡(luò),提高了心臟MR圖像的配準(zhǔn)精度。雙監(jiān)督配準(zhǔn)是指模型采用兩種監(jiān)督形式的損失函數(shù)進(jìn)行訓(xùn)練,如Cao X H等人[65]在進(jìn)行MR圖像和CT圖像配準(zhǔn)時(shí),先利用生成網(wǎng)絡(luò)將MR圖像轉(zhuǎn)換為其對(duì)應(yīng)的CT圖像,將CT圖像轉(zhuǎn)換為其對(duì)應(yīng)的MR圖像,在配準(zhǔn)的過程中,同時(shí)計(jì)算原始MR圖像與生成MR圖像之間的相似性損失以及原始CT圖像與生成CT圖像之間的相似性損失,通過兩種損失的優(yōu)化,提高配準(zhǔn)的精度;Fan JF等人[66]結(jié)合有監(jiān)督模型損失和無監(jiān)督模型損失,實(shí)現(xiàn)了腦部MR圖像的準(zhǔn)確配準(zhǔn)。有監(jiān)督學(xué)習(xí)的醫(yī)學(xué)圖像配準(zhǔn)的精度取決于標(biāo)簽的可靠性,因此,如何生成可靠的標(biāo)簽并設(shè)計(jì)合適的損失函數(shù),是有監(jiān)督學(xué)習(xí)的醫(yī)學(xué)圖像配準(zhǔn)中待解決的難點(diǎn)。
隨著空間變換網(wǎng)絡(luò)(spatial transformer network,STN)[67]的問世,利用無監(jiān)督深度學(xué)習(xí)模型進(jìn)行醫(yī)學(xué)圖像配準(zhǔn)成為研究熱點(diǎn)。其配準(zhǔn)網(wǎng)絡(luò)框架如圖4所示。
Yoo I等人[68]結(jié)合卷積自動(dòng)編碼器(convolutional auto-encoder,CAE)和STN模型,實(shí)現(xiàn)了神經(jīng)組織顯微鏡圖像的配準(zhǔn),其中CAE負(fù)責(zé)提取待配準(zhǔn)圖像與目標(biāo)圖像的特征,基于該特征計(jì)算相似性損失,結(jié)果表明,該種損失能取得較好的配準(zhǔn)結(jié)果。2018年,Balakrishnan G等人[69]提出VoxelMorph網(wǎng)絡(luò)結(jié)構(gòu),以U-Net為基線模型,結(jié)合STN模塊,實(shí)現(xiàn)了MR圖像的非線性配準(zhǔn);隨后,其對(duì)模型進(jìn)行了改進(jìn),引入分割標(biāo)記輔助損失,進(jìn)一步提高了配準(zhǔn)的Dice分?jǐn)?shù)[70]。Kuang D等人[71]提出空間變換模塊,用于替代U-Net網(wǎng)絡(luò)結(jié)構(gòu),在降低模型參數(shù)的前提下,實(shí)現(xiàn)了腦部MR圖像的準(zhǔn)確配準(zhǔn)。Zhang J[72]為了進(jìn)一步提高無監(jiān)督配準(zhǔn)的準(zhǔn)確度,除了相似度損失,還引入了變換平滑損失、反向一致性損失以及防折疊損失。其中,變化平滑損失和防折疊損失是為了保證變形場(chǎng)的平滑性。反向一致性損失在互換待配準(zhǔn)圖像與目標(biāo)圖像時(shí),可保證變形場(chǎng)滿足可逆關(guān)系。Tang K等人[73]利用無監(jiān)督網(wǎng)絡(luò)實(shí)現(xiàn)了腦部MR圖像的端到端配準(zhǔn),即網(wǎng)絡(luò)模型同時(shí)學(xué)習(xí)了仿射變換參數(shù)和非線性變換參數(shù)。
除了基于CNN模型的無監(jiān)督配準(zhǔn),采用GAN模型進(jìn)行配準(zhǔn)也已成為一種研究趨勢(shì),即采用條件生成對(duì)抗網(wǎng)絡(luò)進(jìn)行醫(yī)學(xué)圖像配準(zhǔn)。其中,生成器用來生成變換參數(shù)或者配準(zhǔn)后的圖像,判別器用于對(duì)配準(zhǔn)圖像進(jìn)行鑒別。通常在生成器與判別器之間插入STN模塊,以進(jìn)行端到端訓(xùn)練。目前,基于GAN模型的醫(yī)學(xué)圖像配準(zhǔn)有較多的應(yīng)用,如前列腺M(fèi)R圖像與超聲圖像配準(zhǔn)[74],以CycleGAN為基線模型的多模態(tài)視網(wǎng)膜圖像、單模態(tài)MR圖像配準(zhǔn)[75],CT圖像和MR圖像配準(zhǔn)[76]等。在基于GAN的醫(yī)學(xué)圖像配準(zhǔn)中,GAN模型或者起到正則化的作用,用來調(diào)節(jié)變形場(chǎng)及配準(zhǔn)圖像,或者用來進(jìn)行圖像轉(zhuǎn)換,利用交叉域配準(zhǔn)提高配準(zhǔn)的性能。表1總結(jié)了典型的無監(jiān)督配準(zhǔn)模型和有監(jiān)督配準(zhǔn)模型。
表1 深度學(xué)習(xí)配準(zhǔn)的代表性模型總結(jié)
醫(yī)學(xué)圖像分割是計(jì)算機(jī)輔助診斷的關(guān)鍵步驟,是進(jìn)行感興趣區(qū)域定量分析的前提。隨著深度學(xué)習(xí)在語義分割中的快速發(fā)展,將自然圖像分割模型擴(kuò)展到醫(yī)學(xué)圖像已成為主要趨勢(shì)。在醫(yī)學(xué)圖像分割中,采用的主流網(wǎng)絡(luò)框架有CNN、全卷積網(wǎng)絡(luò)(full convolutional network,F(xiàn)CN)、U-Net、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和GAN模型。目前常用的醫(yī)學(xué)圖像分割模型包括2.5DCNN,即分別在橫斷面、失狀面、冠狀面上使用2D卷積進(jìn)行分割,在節(jié)約計(jì)算成本的前提下,充分利用三維空間的鄰域信息提高分割的準(zhǔn)確度[77]。FCN是深度學(xué)習(xí)語義分割的初始模型,通過全卷積神經(jīng)網(wǎng)絡(luò)和上采樣操作,可以粗略地獲得語義分割結(jié)果。為了提高分割細(xì)節(jié),采用跳躍連接將低層的空間信息和高層的語義信息相結(jié)合,以提高圖像分割的細(xì)膩度。FCN[78]及其變體(如并行FCN[79]、焦點(diǎn)FCN[80]、多分支FCN[81]、循環(huán)FCN[82]等)已被廣泛應(yīng)用到各種醫(yī)學(xué)圖像分割任務(wù)中,且表現(xiàn)良好。
U-Net是由一系列卷積和反卷積組成的編碼和解碼結(jié)構(gòu),通過跳躍連接實(shí)現(xiàn)高級(jí)語義特征和低級(jí)空間信息的融合,進(jìn)而保證分割的準(zhǔn)確度。U-Net及其變體(如Nested U-Net[83]、V-Net[84]、循環(huán)殘差U-Net[85])在醫(yī)學(xué)圖像分割上取得了較好的分割結(jié)果,是目前醫(yī)學(xué)圖像分割的主流基線模型。
RNN類分割模型主要考慮醫(yī)學(xué)圖像分割中切片和切片之間的上下文聯(lián)系,進(jìn)而將切片作為序列信息輸入RNN及其變體中,從而實(shí)現(xiàn)準(zhǔn)確分割。典型的模型有CW-RNN(clockwork RNN)[86]和上下文LSTM模型[87],其通過抓取相鄰切片的相互關(guān)系,銳化分割邊緣。在此基礎(chǔ)上,Chen JX等人[88]提出雙向上下文LSTM模型——BDC-LSTM,即在橫斷面雙向、矢狀面雙向和冠狀面雙向上學(xué)習(xí)上下文關(guān)系,其結(jié)果比采用多尺度分割的金字塔LSTM模型要好。
基于GAN的分割的主要思想是生成器被用來生成初始分割結(jié)果,判別器被用來細(xì)化分割結(jié)果。一般在分割網(wǎng)絡(luò)中,生成器常采用FCN或者U-Net網(wǎng)絡(luò)框架,判別器為常見的分類網(wǎng)絡(luò)結(jié)構(gòu),如ResNet、VGG等?;贕AN的醫(yī)學(xué)圖像分割已經(jīng)被應(yīng)用到多個(gè)器官和組織的醫(yī)學(xué)圖像分割任務(wù)中[89-92]。表2為常見醫(yī)學(xué)圖像分割模型所用的數(shù)據(jù)集以及其分割性能對(duì)比。
醫(yī)學(xué)圖像分類和識(shí)別是計(jì)算機(jī)輔助診斷(computer-aided diagnosis,CAD)的最終目標(biāo)。在深度學(xué)習(xí)出現(xiàn)前,常采用人工定義的圖像特征(如圖像的紋理、形狀、圖像的灰度直方圖等),經(jīng)過特征選擇后,再基于機(jī)器學(xué)習(xí)模型(如支持向量機(jī)、邏輯回歸、隨機(jī)森林等)進(jìn)行分類。典型代表為影像組學(xué)方法,其在腫瘤的分型分期、治療的預(yù)后預(yù)測(cè)方面取得了很多重要的成果[93]。然而,人工定義特征以及特征選擇方式很大程度上影響了分類的可靠性和魯棒性。
近年來,深度學(xué)習(xí)模型的飛速發(fā)展,尤其是CNN的廣泛應(yīng)用,使得利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取和選擇特征并進(jìn)行分類成為主流趨勢(shì)。CNN模型的不同變體已經(jīng)在基于醫(yī)學(xué)影像的臨床疾病診斷中得到了廣泛的應(yīng)用,例如基于Kaggle公司的眼底圖像公開數(shù)據(jù)集,Shanthi T等人[94]使用改進(jìn)的AlexNet進(jìn)行糖尿病視網(wǎng)膜病變的分類,其精度可以達(dá)到96.6%左右;基于VGG,利用胸片進(jìn)行肺結(jié)節(jié)的良惡性分類,其精度可高達(dá)99%[95]。目前,在常見的CNN變體中,ResNet和VGG在醫(yī)學(xué)影像分類中的表現(xiàn)最好,因此大多數(shù)的腫瘤檢測(cè)、腦神經(jīng)系統(tǒng)疾病分類、心血管疾病檢測(cè)等將這兩種模型作為基線模型進(jìn)行研究。
與自然圖像數(shù)據(jù)相比,醫(yī)學(xué)圖像數(shù)據(jù)中滿足模型訓(xùn)練需求的數(shù)據(jù)較少。因此,為了提高臨床影像智能診斷的準(zhǔn)確性,通過知識(shí)遷移來訓(xùn)練醫(yī)學(xué)圖像分類模型已成為主流。常見的知識(shí)遷移包含自然圖像到醫(yī)學(xué)圖像的遷移、基于臨床知識(shí)的指導(dǎo)遷移[96-98]。在自然圖像到醫(yī)學(xué)圖像的遷移中,主要有兩種方式:一種是固定利用自然圖像訓(xùn)練的網(wǎng)絡(luò)模型的卷積層參數(shù),利用該參數(shù)提取醫(yī)學(xué)影像特征,然后利用該特征結(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類;另一種是將自然圖像訓(xùn)練的網(wǎng)絡(luò)模型參數(shù)作為醫(yī)學(xué)圖像訓(xùn)練模型的初始化參數(shù),通過微調(diào)來實(shí)現(xiàn)醫(yī)學(xué)圖像分類。除了自然圖像到醫(yī)學(xué)圖像的遷移,還可以利用其他醫(yī)學(xué)圖像數(shù)據(jù)集,采用多任務(wù)學(xué)習(xí)的方式進(jìn)行數(shù)據(jù)信息共享,彌補(bǔ)數(shù)據(jù)不足帶來的分類缺陷[99]。
表2 典型的深度學(xué)習(xí)醫(yī)學(xué)圖像分割方法
基于臨床知識(shí)的指導(dǎo)遷移將臨床醫(yī)生診斷的經(jīng)驗(yàn)(如醫(yī)生的經(jīng)驗(yàn)學(xué)習(xí)方式、影像診斷方式以及診斷關(guān)注的圖像區(qū)域和特征等)融入模型,根據(jù)臨床醫(yī)生診斷的經(jīng)驗(yàn),即先掌握簡(jiǎn)單的疾病影像診斷,再進(jìn)行復(fù)雜疾病診斷,研究者們提出了“課程學(xué)習(xí)”模型,將圖像分類任務(wù)從易到難進(jìn)行劃分,模型訓(xùn)練先學(xué)習(xí)簡(jiǎn)單的圖像分類任務(wù),再學(xué)習(xí)較難的分類任務(wù)[100-101]?;谠摲绞降膶W(xué)習(xí)可以提高分類的準(zhǔn)確度?;卺t(yī)生診斷的方式(如迅速瀏覽全部醫(yī)學(xué)圖像,再選擇某些切片進(jìn)行診斷),研究者提出基于全局和局部的分類模型,其在胸片[102]和皮膚疾病[103]的診斷上取得了較好的效果?;谠\斷時(shí)關(guān)注的影像區(qū)域,帶有注意力機(jī)制的分類模型被提出,典型的代表有AGCNN(attention-based CNN for glaucoma detection)[104]、LACNN(lesion aware CNN)[105]和ABN(attention branch network)[106],通過引入注意力,網(wǎng)絡(luò)可以關(guān)注某些區(qū)域,從而提高分類的精度。此外,根據(jù)醫(yī)生診斷用到的經(jīng)驗(yàn)特征,如腫瘤的形狀、大小、邊界等信息,將人工定義的特征與深度模型提取的特征進(jìn)行融合,提高醫(yī)學(xué)圖像的分類精度,也是一種趨勢(shì)。如Majtner T等人[107]將人工特征分類結(jié)果與深度學(xué)習(xí)分類結(jié)果進(jìn)行融合,提高了皮膚癌分類的準(zhǔn)確度;Chai Y D等人[108]將人工特征和深度學(xué)習(xí)特征進(jìn)行融合并訓(xùn)練分類器,從而實(shí)現(xiàn)青光眼圖像的分類;Xie Y T等人[109]將人工提取的特征圖像塊與深度學(xué)習(xí)圖像塊同時(shí)作為ResNet模型的輸入,實(shí)現(xiàn)肺結(jié)節(jié)的準(zhǔn)確分類。如何將深度學(xué)習(xí)特征與傳統(tǒng)人工特征進(jìn)行有效的融合,是該類模型設(shè)計(jì)的難點(diǎn)。
醫(yī)學(xué)圖像目標(biāo)識(shí)別也屬于臨床診斷的一種,即在一幅圖像中標(biāo)記出可能病變的區(qū)域,并對(duì)其進(jìn)行分類,如圖5所示。
傳統(tǒng)的人工標(biāo)記識(shí)別費(fèi)時(shí)費(fèi)力。最初將深度學(xué)習(xí)模型應(yīng)用于目標(biāo)識(shí)別時(shí),主要是將圖像分成小塊,逐塊輸入由CNN等組成的二分類模型中,判斷其是否屬于目標(biāo)區(qū)域[111-112]。隨著深度學(xué)習(xí)模型在目標(biāo)檢測(cè)領(lǐng)域的快速發(fā)展,尤其是Fast R-CNN模型和Mask R-CNN模型的出現(xiàn),將整幅醫(yī)學(xué)圖像輸入模型,即可一次找到所有可能的目標(biāo)區(qū)域。但是在這兩類模型中均存在一個(gè)區(qū)域建議模塊和一個(gè)分類模塊,二者需要進(jìn)行迭代更新,模型的速度并不能滿足臨床的實(shí)時(shí)性要求。YOLO(you only look once)和SSD(single shot multibox detector)模型的問世解決了目標(biāo)檢測(cè)的實(shí)時(shí)性問題。基于此類模型,Lin T Y等人[113]提出RetinaNet模型,并將其擴(kuò)展應(yīng)用到病理圖像和鉬靶圖像乳腺腫瘤識(shí)別[114-115]、CT圖像的肺結(jié)節(jié)檢測(cè)[98,116]中。上述模型均針對(duì)2D圖像進(jìn)行目標(biāo)檢測(cè),忽略了3D圖像中切片和切片之間的空間信息。為了提高識(shí)別的準(zhǔn)確度,基于RNN和LSTM的識(shí)別模型被應(yīng)用到醫(yī)學(xué)圖像中[117-119]。
此外,在醫(yī)學(xué)圖像目標(biāo)識(shí)別中,同樣存在數(shù)據(jù)不充足的問題。為了解決這個(gè)問題,基于遷移學(xué)習(xí)的醫(yī)學(xué)圖像識(shí)別逐漸開展起來,如基于ImageNet數(shù)據(jù)進(jìn)行模型遷移,實(shí)現(xiàn)肺結(jié)節(jié)[120]、乳腺癌[99]和結(jié)直腸息肉的檢測(cè)[121]。同時(shí),基于臨床經(jīng)驗(yàn)知識(shí)指導(dǎo)的遷移學(xué)習(xí)也被應(yīng)用到醫(yī)學(xué)圖像的目標(biāo)檢測(cè)中。典型代表有AGCL模型,其基于注意力的課程學(xué)習(xí),實(shí)現(xiàn)胸片中的腫瘤檢測(cè)[121];CASED(curriculum adaptive sampling for extreme data imbalance)模型,其可檢測(cè)CT圖像中的肺結(jié)節(jié)[122];特征金字塔模型(feature pyramid network,F(xiàn)PN),其采用不同對(duì)比度的圖像,利用多尺度注意力模型實(shí)現(xiàn)腫瘤檢測(cè)[123]。
圖像分類和圖像目標(biāo)識(shí)別是醫(yī)學(xué)影像臨床診斷的最終目標(biāo),是目前人工智能技術(shù)與臨床緊密結(jié)合的研究方向。筆者僅對(duì)分類識(shí)別的幾種情況進(jìn)行了闡述,以便掌握其發(fā)展方向。表3給出了腫瘤分類中常用的醫(yī)學(xué)圖像數(shù)據(jù)集以及深度學(xué)習(xí)模型,并對(duì)比了其分類性能。
表3 基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分類總結(jié)
本文從醫(yī)學(xué)圖像數(shù)據(jù)產(chǎn)生、醫(yī)學(xué)圖像預(yù)處理,以及醫(yī)學(xué)圖像識(shí)別和分類等方面,闡述了深度學(xué)習(xí)模型在醫(yī)學(xué)圖像分析領(lǐng)域的應(yīng)用現(xiàn)狀。盡管深度學(xué)習(xí)模型(如CNN、LSTM、GAN、注意力機(jī)制、圖模型、遷移學(xué)習(xí)等)在醫(yī)學(xué)圖像分析中已取得眾多突破,然而將深度學(xué)習(xí)應(yīng)用于臨床,輔助臨床進(jìn)行精準(zhǔn)診斷和個(gè)性化治療仍受到以下幾方面的限制。
首先,現(xiàn)有的深度學(xué)習(xí)模型對(duì)影像數(shù)目和質(zhì)量有較高的要求,而臨床上帶有標(biāo)記的醫(yī)學(xué)影像數(shù)據(jù)難以獲取,且目前臨床診斷預(yù)測(cè)常使用的方法是有監(jiān)督學(xué)習(xí),數(shù)據(jù)的不充足勢(shì)必會(huì)影響預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。因此,如何在只有少量有標(biāo)簽數(shù)據(jù)的情況下,采用弱監(jiān)督、遷移學(xué)習(xí)以及多任務(wù)學(xué)習(xí)的思想,提高分類預(yù)測(cè)的準(zhǔn)確度,將是持續(xù)的研究熱點(diǎn)。
其次,臨床應(yīng)用對(duì)可解釋性要求較高,而目前深度學(xué)習(xí)模型所學(xué)習(xí)的特征無法進(jìn)行有效的解釋。盡管現(xiàn)階段已有研究學(xué)者提出采用可視化以及一些參數(shù)分析來對(duì)模型和結(jié)果進(jìn)行解釋,但是與臨床需求中要求的形成可解釋的影像學(xué)標(biāo)記還有一定的距離。因此,研究深度學(xué)習(xí)模型的可解釋方法將是醫(yī)學(xué)圖像領(lǐng)域的研究熱點(diǎn)。
最后,如何提高模型預(yù)測(cè)的魯棒性是待解決的難點(diǎn)?,F(xiàn)有深度學(xué)習(xí)模型多數(shù)僅針對(duì)單一數(shù)據(jù)集效果較好,無法在不訓(xùn)練的情況下,較好地預(yù)測(cè)其他數(shù)據(jù)集。而醫(yī)學(xué)影像由于采集參數(shù)、采集設(shè)備、采集時(shí)間等因素的不同,相同疾病的圖像表現(xiàn)可能大不相同,這導(dǎo)致現(xiàn)有模型的魯棒性和泛化性較差。如何結(jié)合腦認(rèn)知思想改進(jìn)模型結(jié)構(gòu)以及訓(xùn)練方式,提高深度學(xué)習(xí)模型的泛化能力,也是醫(yī)學(xué)圖像應(yīng)用領(lǐng)域中待研究的關(guān)鍵問題。