陸小玲,吳海鋒,曾 玉,孔伶旭,羅金玲
云南民族大學(xué) 電氣信息工程學(xué)院,昆明650504
作為最常見的老年癡呆癥,阿爾茲海默癥(Alzheimer’s Disease,AD)是一種神經(jīng)系統(tǒng)功能退化性疾病,病因尚未完全查明。以現(xiàn)在的醫(yī)療手段,AD還無法被治愈[1],但若能對其正確診斷,則可采用正確的治療方式延緩病人病情。目前,AD的主流診斷方式是依靠醫(yī)師以臨床資料綜合分析和判斷,包括簡易精神狀態(tài)檢查表(Minimum Mental State Examination,MMSE)的神經(jīng)心理學(xué)測驗(yàn)[2],腦電圖(Electroencephalogram,EEG)的電生理檢查[3],核磁共振成像(Magnetic Resonance Imaging,MRI)、正電子發(fā)射斷層掃描(Positron Emission Tomography,PET)的神經(jīng)影像學(xué)檢查[4]以及腦脊液檢查[5]等。雖然這些方式均取得不錯的診斷效果,但畢竟耗時耗力,且存在一定主觀性,仍可能發(fā)生誤診。
近年來,隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,尤其是在AD定量評估中所展現(xiàn)的優(yōu)勢,人們發(fā)現(xiàn)其可作為一種快速的輔助診斷方式,例如多模態(tài)分類[6]和支持向量機(jī)(Support Vector Machines,SVM)[7]等機(jī)器學(xué)習(xí)算法。MRI作為一種高清晰的成像技術(shù),其成像分辨率高,對比度好,信息量大,可清楚地顯示腦結(jié)構(gòu),反映細(xì)微變化,且不會產(chǎn)生對人體有害的電離輻射,目前被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)對AD的輔助診斷上。傳統(tǒng)的MRI機(jī)器學(xué)習(xí)分類方法主要可分為結(jié)構(gòu)特征分類和降維特征分類,其中結(jié)構(gòu)特征分類又主要基于海馬體和腦灰質(zhì)特征[8-9],而降維特征分類主要從感興趣區(qū)(Region of Interest,ROI)提取特征[10]。另外,還有MRI紋理特征提取技術(shù)[11],其運(yùn)行速度和分類性能也較好。然而,這些傳統(tǒng)的MRI機(jī)器學(xué)習(xí)分類準(zhǔn)確率依賴提取特征的準(zhǔn)確率,且大多還需手動提取,有時特征提取還較困難。如果提取的特征本身不太正確,那么分類的準(zhǔn)確率也不會很高。除此之外,傳統(tǒng)機(jī)器學(xué)習(xí)分類更擅長于已知特征數(shù)據(jù)挖掘,而對于如AD其特征尚未完全明確的圖像分類,往往存在一些不確定性。
相比傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)針對未明確特征的對象往往具有自學(xué)習(xí)提取特征特性,其通過非線性模型將原始數(shù)據(jù)轉(zhuǎn)變成低級特征,再經(jīng)多個全連接層形成抽象高級特征,使得分類對象具有更具體和有效的特征表達(dá)。由于MRI是一個具有腦區(qū)空間信息的三維(3D)圖像,目前AD分類較好的深度學(xué)習(xí)是建立在3D卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)上[12],該方法能夠自動從MRI數(shù)據(jù)提取特征進(jìn)行分類,而無需對腦組織和區(qū)域進(jìn)行分割。然而,為了提高分類準(zhǔn)確率,深度學(xué)習(xí)網(wǎng)絡(luò)往往需要大量的訓(xùn)練數(shù)據(jù),而目前公開可使用的AD MRI數(shù)據(jù)仍然有限。另外,深度學(xué)習(xí)通常是深度網(wǎng)絡(luò),權(quán)重?cái)?shù)量巨大,再加上巨大的訓(xùn)練數(shù)據(jù),導(dǎo)致深度網(wǎng)絡(luò)的訓(xùn)練時間較為漫長。作為一種針對小型數(shù)據(jù)訓(xùn)練的分類深度網(wǎng)絡(luò),遷移學(xué)習(xí)已在相關(guān)的訓(xùn)練數(shù)據(jù)集中進(jìn)行了預(yù)訓(xùn)練,因此可縮減在目標(biāo)數(shù)據(jù)集的訓(xùn)練時間。較早將遷移學(xué)習(xí)用在MRI AD診斷上的是采用3D的CNN方法[13-14],其利用SAE提取特征,然后將其作用于網(wǎng)絡(luò)的較低層中,而較高層則通過全連接層實(shí)現(xiàn)。該3D CNN可在(Computer-Aided Diagnosis of Dementia,CADDementia)[15]數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證,也可遷移至阿爾茨海默病神經(jīng)影像學(xué)倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)[16]數(shù)據(jù)集。雖然該方法能夠得到較高的分類準(zhǔn)確率,但畢竟采用3D卷積,權(quán)重?cái)?shù)量龐大,盡管網(wǎng)絡(luò)文件可公開下載,預(yù)訓(xùn)練權(quán)重卻未提供下載,這些都致使其訓(xùn)練時間過長,成為其進(jìn)一步擴(kuò)大應(yīng)用的制約因素。因此,二維(2D)遷移網(wǎng)絡(luò)被提出用在MRI的AD診斷上,AlexNet[17]和VGG16[18]作為可遷移網(wǎng)絡(luò),已在AD診斷上展示了良好性能。這兩個遷移網(wǎng)絡(luò)分別采用AlexNet和VGG16作為預(yù)訓(xùn)練網(wǎng)絡(luò),然后將MRI圖像進(jìn)行切片,按位置和圖像熵選擇若干張切片圖像作為2D卷積神經(jīng)網(wǎng)絡(luò)的輸入,再將2D神經(jīng)網(wǎng)絡(luò)的輸出送至一個頂層網(wǎng)絡(luò)中實(shí)現(xiàn)最后的分類。由于該方法將MRI圖像進(jìn)行切片,該切片可以作為2D卷積神經(jīng)網(wǎng)絡(luò)的輸入,避免了3D圖像與2D網(wǎng)絡(luò)維度不匹配問題。然而,切割不可避免帶來信息丟失,致使分類的準(zhǔn)確率受到影響。
針對以上問題,本文提出了一種3D遷移學(xué)習(xí)網(wǎng)絡(luò),該遷移學(xué)習(xí)可實(shí)現(xiàn)MRI的AD與正??刂疲∟ormal Control,NC)分類。首先,將一個被試者的MRI圖像進(jìn)行切片,得到若干二維圖像,再將這些二維圖像輸入到預(yù)訓(xùn)練的遷移網(wǎng)絡(luò)中完成瓶頸特征提取,然后對瓶頸特征進(jìn)行有監(jiān)督的頂層特征提取,最后將來自每個切片提取的頂層特征合并輸入到分類層網(wǎng)絡(luò)實(shí)現(xiàn)分類。相比以往的遷移學(xué)習(xí),該3D網(wǎng)絡(luò)可從MRI圖像中提取更多的特征值,因此具有更高的分類正確率。同時,引入了遷移學(xué)習(xí),其瓶頸層網(wǎng)絡(luò)已經(jīng)過預(yù)訓(xùn)練,且頂層網(wǎng)絡(luò)采用有監(jiān)督訓(xùn)練,因此減少了訓(xùn)練時間。實(shí)驗(yàn)中,本文采用公開的華盛頓大學(xué)阿爾茨海默病研究中心的開放成像數(shù)據(jù)(Open Access Series of Imaging Studies,OASIS)[19]和預(yù)訓(xùn)練權(quán)重可下載的MobileNet網(wǎng)絡(luò),相比傳統(tǒng)的2D遷移網(wǎng)絡(luò),分類準(zhǔn)確率提高了約8個百分點(diǎn),而分類時間約為傳統(tǒng)堆疊自動編碼器(Stacked Auto-Encoder,SAE)方法的1/60。
由于公開的AD MRI數(shù)據(jù)有限,本文將采用面向小數(shù)據(jù)集分類的遷移卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)AD分類。同時,為了減少分類信息的損失,考慮一種3D網(wǎng)絡(luò)的分類方法。與傳統(tǒng)方法相比,本文的分類網(wǎng)絡(luò)需要保證輸入到分類網(wǎng)絡(luò)的數(shù)據(jù)應(yīng)包含豐富的分類信息,同時也要使得分類網(wǎng)絡(luò)不能太復(fù)雜,以免造成較長的訓(xùn)練時間,因此數(shù)據(jù)如何進(jìn)入分類網(wǎng)絡(luò)是將MRI數(shù)據(jù)應(yīng)用于遷移學(xué)習(xí)的AD分類的首要問題。作為一種高清晰的成像技術(shù),MRI信號是一個包含腦區(qū)結(jié)構(gòu)像的3D圖像,因此是一個NX×NY×NZ的3D數(shù)據(jù),其中NX、NY和NZ分別表示腦區(qū)的三個空間維度。
一種常用的MRI數(shù)據(jù)應(yīng)用于2D遷移學(xué)習(xí)的方法是將MRI數(shù)據(jù)進(jìn)行切割[17-18],得到N1張N2×N3的二維圖像,其中Ni,i=1,2,3可以是NX、NY和NZ的任一維,從而可得到冠狀、矢狀或軸狀切面。然后將這N1張二維切面輸入到2D遷移網(wǎng)絡(luò),最后構(gòu)建一個頂層網(wǎng)絡(luò)實(shí)現(xiàn)最終的分類。此時,原來的MRI數(shù)據(jù)經(jīng)切割后從三維降至二維,因此解決了2D CNN網(wǎng)絡(luò)的輸入維度問題。然而,該方法的性能將取決于N1的值。理論上,N1的取值越大越好,這相當(dāng)于原3D圖像經(jīng)切割后信息丟失得越少。然而由于深度學(xué)習(xí)通常是深度網(wǎng)絡(luò),輸入的圖像越多則權(quán)重將變得異常龐大。以一個CNN網(wǎng)絡(luò)為例,假設(shè)其共有NC個卷積層,每個卷積層分別由L1,L2,…,LN個特征圖組成,特征圖的大小分別為F1×F1,F2×F2,…,FN×FN,所使用的卷積核尺寸分別為M1×M1,M2×M2,…,MN×MN,若步長(stride)為1時,那么該網(wǎng)絡(luò)總共的權(quán)重?cái)?shù)量為:
其中偏置數(shù)為1。由式(1)可見,網(wǎng)絡(luò)的權(quán)重?cái)?shù)與MRI圖像切片數(shù)N1密切相關(guān),N1越大WCNN也越大。
為減小切片數(shù),也可按照一定規(guī)律進(jìn)行切割。一種方法是按位置排序,越靠腦中部位置的切片將保留,反之則舍棄[17];另外一種方法是按圖像熵排序,熵越大的切片將保留下來[18]。然而,不管是以上哪種方法切割,若減少切片數(shù)將不可避免帶來MRI圖像經(jīng)切割后的信息損失,但增加切片數(shù)又將使網(wǎng)絡(luò)變得復(fù)雜,訓(xùn)練時間延長,如圖1所示。因此,在MRI信息損失和遷移網(wǎng)絡(luò)復(fù)雜度上尋找平衡,以保證分類網(wǎng)絡(luò)的分類準(zhǔn)確率和減少訓(xùn)練時間將是本文研究的一個重要問題。
圖1 MRI遷移學(xué)習(xí)的AD分類問題Fig.1 AD classification for MRI transfer learning
本文使用MRI數(shù)據(jù)以及采用遷移學(xué)習(xí)的CNN網(wǎng)絡(luò)來對AD進(jìn)行診斷,方法的基本過程如圖2所示。把一個被試者的MRI數(shù)據(jù)經(jīng)I個切片后輸入到已預(yù)訓(xùn)練完的遷移瓶頸(Bottleneck)網(wǎng)絡(luò)中,以此獲得每個切片的瓶頸特征,再將每個切片的瓶頸特征經(jīng)一頂層以獲得頂層特征,然后該被試者所有切片的頂層特征輸入到分類層中得到最后分類結(jié)果,完成疾病診斷。在該訓(xùn)練網(wǎng)絡(luò)中,無論是瓶頸層還是頂層的權(quán)重對于每一個切片均為共享,不需要對每個切片都采用不同的權(quán)重,因此,即使增加切片數(shù)量,權(quán)重?cái)?shù)量也沒有得到增加。在本文方法中,遷移的瓶頸網(wǎng)絡(luò)是用一個2D網(wǎng)絡(luò)來對2D切片的特征進(jìn)行提取,因此只要對3D圖像產(chǎn)生足夠的切片數(shù)就可實(shí)現(xiàn)對3D圖像的分類。同時,雖然對每個切片都提取了瓶頸層特征,然而分類網(wǎng)絡(luò)中又添加了頂層來進(jìn)一步降維來提取特征,因此特征值維度將變小,分類網(wǎng)絡(luò)的復(fù)雜度也將降低。
圖2 分類方法基本框架Fig.2 Basic framework for classification
一個MRI信號往往是一個具有腦區(qū)空間的三維數(shù)據(jù),不能直接作為一個2D圖像分類器的輸入。由上所述,為實(shí)現(xiàn)3D圖像的特征提取,利用一個2D的遷移網(wǎng)絡(luò)來提取圖像切片的特征。設(shè)xS和DS分別是一源數(shù)據(jù)集中任意一張2D圖像矢量和其對應(yīng)標(biāo)簽,將一CNN網(wǎng)絡(luò)在該源數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,使其滿足
預(yù)訓(xùn)練完成后,將在目標(biāo)MRI訓(xùn)練數(shù)據(jù)集中訓(xùn)練網(wǎng)絡(luò)以完成遷移學(xué)習(xí)的特征提取。首先,完成頂層網(wǎng)絡(luò)訓(xùn)練。把訓(xùn)練集中任意一個被試者的MRI中第i個切片圖像作為遷移網(wǎng)絡(luò)fbtneck(?)的輸入,使得該被試者及其所對應(yīng)標(biāo)簽DT滿足
其次,完成分類層網(wǎng)絡(luò)訓(xùn)練。把訓(xùn)練集中任意一個被試者的MRI 3D圖像張量作為遷移網(wǎng)絡(luò)fbtneck(?)的輸入,使得該被試者XT及其所對應(yīng)標(biāo)簽DT均滿足
則目標(biāo)網(wǎng)絡(luò)分類層fclass(?)訓(xùn)練完成,其中wc是分類層權(quán)重矢量,F(xiàn)為圖像張量XT經(jīng)I個切片后由式(3)得到的頂層特征矢量,表示為
圖3 給出了遷移學(xué)習(xí)AD特征提取的訓(xùn)練過程,整個過程包含預(yù)訓(xùn)練和目標(biāo)訓(xùn)練兩部分。其中預(yù)訓(xùn)練部分通常無需在本地端完成,即使瓶頸層的權(quán)重wb非常龐大,但可由第三方預(yù)先完成而獲得,因此可大幅減少提取特征的訓(xùn)練時間。更重要的是,為保證提取瓶頸特征的有效性,訓(xùn)練和獲取瓶頸層權(quán)重wb往往在一個非常巨大的源數(shù)據(jù)集中完成,如ImageNet數(shù)據(jù)集,因此相比單純無遷移的CNN,遷移網(wǎng)絡(luò)可以解決目標(biāo)數(shù)據(jù)集不足的情形,而目前獲取大規(guī)模ADMRI數(shù)據(jù)仍存在一定困難。圖3中的AD目標(biāo)訓(xùn)練中又包含頂層訓(xùn)練和分類層訓(xùn)練兩部分,其中頂層訓(xùn)練的輸入是由被試者的每張切片所提取的瓶頸層特征,瓶頸層的權(quán)重則來自于預(yù)訓(xùn)練后得到的結(jié)果。頂層網(wǎng)絡(luò)的輸出為從每張切片中提取的特征值,而每張切片的標(biāo)簽將對應(yīng)所屬被試者的標(biāo)簽。訓(xùn)練完畢的頂層權(quán)重將可用于分類層訓(xùn)練,分類層訓(xùn)練的輸入是以被試者為單位的3D切片張量圖像,而該切片張量經(jīng)過頂層得到該被試者的MRI圖像特征,然后進(jìn)入分類層以完成最終分類層的訓(xùn)練。值得注意的是,圖3分類層訓(xùn)練中分類層的權(quán)重wc對每一個切片都為共享,因此即使每個被試者的切片數(shù)量I非常龐大,相比非共享的方式,權(quán)重?cái)?shù)也僅為其1/I。另外,提取特征值的頂層訓(xùn)練和分類層訓(xùn)練均為有監(jiān)督訓(xùn)練,由于無監(jiān)督SAE訓(xùn)練不僅需要編碼層還有解碼層[15],本目標(biāo)訓(xùn)練的層數(shù)可減少1/2。
圖3 遷移學(xué)習(xí)特征提取訓(xùn)練圖Fig.3 Train and feature extraction in transfer learning method
其實(shí),圖3的遷移學(xué)習(xí)特征提取只需對一頂層網(wǎng)絡(luò)和分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而兩者均是一個淺層的神經(jīng)網(wǎng)絡(luò),其權(quán)重和wc的數(shù)量并不大,因此可保證訓(xùn)練能在短時間內(nèi)完成。另外,由于頂層特征來源于一個被試者的若干切片圖像,只要切片數(shù)量足夠多,則可以保證MRI圖像的信息損失足夠小,而由于頂層的權(quán)重對所有切片均為共享,并不會使切片數(shù)量增大而使權(quán)重?cái)?shù)量增大,這也可保證較少的網(wǎng)絡(luò)訓(xùn)練時間。當(dāng)然,頂層特征來自對瓶頸特征的提取,而瓶頸層fbtneck(?)的權(quán)重wb雖可由預(yù)訓(xùn)練得到,但瓶頸層的特征也需由fbtneck(?)得到,因此太復(fù)雜的可遷移CNN網(wǎng)絡(luò)fbtneck(?)會增大特征提取的計(jì)算量,本文將選用一種輕型的CNN網(wǎng)絡(luò)來實(shí)現(xiàn)遷移學(xué)習(xí)。
在遷移學(xué)習(xí)的目標(biāo)訓(xùn)練中,將選用MobileNet來作為瓶頸層網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠在保持模型性能的前提下降低模型大小,同時提升模型速度。這樣可大幅減少計(jì)算量和模型參數(shù)量,并且它的預(yù)訓(xùn)練權(quán)重可下載,它采用一種深度可分離卷積代替?zhèn)鹘y(tǒng)卷積運(yùn)算,將一個標(biāo)準(zhǔn)的卷積分解成一個深度卷積和一個點(diǎn)卷積,如圖4所示,具體計(jì)算過程如下。
圖4 MobileNet的深度可分離卷積網(wǎng)絡(luò)Fig.4 Illustration for separable convolution in deep MobileNet
對于一個N1×N2的MRI數(shù)據(jù)的切片來說,設(shè)其輸入通道為M,經(jīng)過一個標(biāo)準(zhǔn)卷積層,則將產(chǎn)生一個No×NT×NA的特征圖,No是輸出通道數(shù)。若經(jīng)過一個卷積核大小為DK×DK×M×No的標(biāo)準(zhǔn)卷積層,其中DK是卷積核維度,那么該標(biāo)準(zhǔn)卷積的計(jì)算成本為
在深度可分離卷積中,先使用深度卷積為每個輸入通道應(yīng)用單個濾波器,深度卷積的計(jì)算成本為DK×
然后使用1×1的卷積濾波器來創(chuàng)建深度層的輸出的線性組合,其計(jì)算成本為M×No×N1×N2。
從而深度可分離卷積的計(jì)算成本為DK×DK×M×
因此,深度可分離卷積的計(jì)算成本與標(biāo)準(zhǔn)卷積之比為:
由式(5)可知,MobileNet的瓶頸層所需計(jì)算量與相同規(guī)模的傳統(tǒng)遷移網(wǎng)絡(luò)比,大大減少。因此從計(jì)算量角度,選擇MboileNet作為遷移網(wǎng)絡(luò)是較好的選擇。
在目標(biāo)訓(xùn)練中,瓶頸層網(wǎng)絡(luò)采用遷移的MobileNet網(wǎng)絡(luò),無需自行設(shè)計(jì),但頂層網(wǎng)絡(luò)和分類層網(wǎng)絡(luò)需要設(shè)計(jì)以保證提取有效的特征。頂層網(wǎng)絡(luò)的目的是對瓶頸層特征降維,以進(jìn)一步提取特征,頂層網(wǎng)絡(luò)設(shè)計(jì)如圖5所示,主要包括全局池化層、全連接層和激活函數(shù)輸出層。因此,該頂層的權(quán)重?cái)?shù)量為:
圖5 頂層訓(xùn)練設(shè)計(jì)Fig.5 Top layer in transfer learning
其中,n為全連接層的層數(shù),Ni-1和Ni分別為第i-1層和第i層的神經(jīng)元個數(shù),di-1為神經(jīng)元Dropout率,1代表偏置數(shù)。在頂層中,經(jīng)提取和融合后的瓶頸層特征維度已經(jīng)降至很低,即N0較小,且層數(shù)值n較小,因此式(6)的權(quán)重?cái)?shù)不會很大。分類層網(wǎng)絡(luò)的目的是對每個被試者的若干張切片的瓶頸特征進(jìn)行合并,以形成該被試者的特征表示,最后實(shí)現(xiàn)分類。分類層網(wǎng)絡(luò)設(shè)計(jì)如圖6所示,主要包括全局池化層、兩個全連接層和輸出層,其權(quán)重?cái)?shù)量類似式(6),若m為分類層的全連接層數(shù),則代入式(6)可得分類層權(quán)重?cái)?shù)量。
圖6 分類層訓(xùn)練設(shè)計(jì)Fig.6 Classification layer in transfer learning
需要注意的是,頂層和分類層中的一些參數(shù)設(shè)定會影響最后的分類結(jié)果,如全連接層層數(shù)、全連接層的神經(jīng)元數(shù)、Dropout的權(quán)重丟棄率等,如何選擇合適的參數(shù)值可以通過實(shí)驗(yàn)來測試,這部分的討論將在實(shí)驗(yàn)部分做詳細(xì)介紹。
本文遷移學(xué)習(xí)AD分類算法的訓(xùn)練步驟如下所示。
輸入:
輸出:
已知條件:
瓶頸層網(wǎng)絡(luò)fbtneck(?)及其權(quán)重wb;
分類層網(wǎng)絡(luò)fclass(?)。
初始條件:
步驟:
1.預(yù)處理:對原始圖像進(jìn)行預(yù)處理得到XT,然后分成訓(xùn)練集和測試集,再進(jìn)行切片
4.分類層訓(xùn)練:由式(4)得到分類層權(quán)重wc;
5.驗(yàn)證:由驗(yàn)證集,通過式(4)得到分類結(jié)果,并計(jì)算分類準(zhǔn)確率;
6.重復(fù)執(zhí)行步驟3~5直至獲得較高分類準(zhǔn)確率。
在本實(shí)驗(yàn)中,所采用的MRI數(shù)據(jù)均來源于華盛頓大學(xué)阿爾茨海默病研究中心的OASIS數(shù)據(jù)庫,其網(wǎng)址為http://www.oasis-brains.org/,所下載的數(shù)據(jù)為OASIS-1數(shù)據(jù)組。該數(shù)據(jù)包含了416名年齡在18歲至96歲的男性和女性被試者,所有被試者均是右撇子,其中AD被試者100人,NC被試者316人,其數(shù)據(jù)采集參數(shù)詳見表1。除此之外,所下載的每個被試者數(shù)據(jù)均包含源數(shù)據(jù)和預(yù)處理后數(shù)據(jù),本文選擇預(yù)處理后數(shù)據(jù)作為研究對象,該數(shù)據(jù)已經(jīng)過去面部特征、平滑、校正、標(biāo)準(zhǔn)化和配準(zhǔn)等預(yù)處理[19]。最終,本實(shí)驗(yàn)選取了100個AD和100個NC數(shù)據(jù),其中AD組包含了70個非常輕度、28個輕度和2個中度AD的被試者數(shù)據(jù),NC組數(shù)據(jù)則從數(shù)據(jù)庫中隨機(jī)選取。
表1 OASIS中MRI數(shù)據(jù)相關(guān)參數(shù)Table 1 Parameters of MRI data in OASIS
本實(shí)驗(yàn)分別用以下幾種遷移學(xué)習(xí)的方法提取特征和分類,具體參數(shù)由表2列出,步驟簡述如下:
表2 相關(guān)分類方法參數(shù)Table 2 Parameters in evaluated classification algorithms
(l)MobileNet_axial_1:選取每個被試者最靠近中心的1張軸狀切片,用MobileNet提取瓶頸特征后,經(jīng)頂層網(wǎng)絡(luò)得到分類。
(2)VGG16_entropy_32:由文獻(xiàn)[18]的方法,選取每個被試者信息熵最高的32張MRI切片,其余步驟如第2.5節(jié)。需要注意的是,文獻(xiàn)[18]中同一被試者的若干張切片被隨機(jī)地分配到訓(xùn)練集和驗(yàn)證集,而本文方法的訓(xùn)練集和驗(yàn)證集的切片以被試者劃分,即同一被試者的切片只能劃分至訓(xùn)練集或驗(yàn)證集,以避免驗(yàn)證集中被試者的某些切片已被訓(xùn)練的情況。
(3)SAE_axial_32:由文獻(xiàn)[17]按位置切片的方法,選取每個被試者最靠近中心的32張軸狀切片,經(jīng)MoblieNet提取瓶頸特征,提取的瓶頸特征再經(jīng)SAE提取頂層特征,最后合并被試者的各切片頂層特征送至分類層分類。
(4)MobileNet_axial_32:切片方法與SAE_axial_32相同,其余步驟如第2.5節(jié)。
本實(shí)驗(yàn)所測試的所有分類方法均采用5折交叉驗(yàn)證,將總數(shù)據(jù)樣本隨機(jī)分成5份樣本,選擇其中一份樣本作為驗(yàn)證集,其余的樣本作為訓(xùn)練集,每個子樣本用作測試集1次,交叉驗(yàn)證重復(fù)5次。需要注意的是,5折交叉驗(yàn)證是對被試者進(jìn)行劃分,即同一被試者的所有切片是在同一個數(shù)據(jù)集中,避免被試者的一部分切片在訓(xùn)練集經(jīng)過訓(xùn)練,其余切片在驗(yàn)證集的情況。根據(jù)以上的測試方法,各分類方法的分類準(zhǔn)確率為5次分類結(jié)果的平均值。
本實(shí)驗(yàn)還給出了各遷移方法運(yùn)行時間的結(jié)果,包括了完成一次5折交叉驗(yàn)證時提取瓶頸特征時間、提取頂層特征時間、分類層時間以及總時間。所有方法均在Ubuntu 16.04下Anoconda Python2.7上進(jìn)行,遷移學(xué)習(xí)平臺為以TensorFlow為后端的Keras,運(yùn)行硬件為帶有Intel?CoreTMi5-5200U(4核)CPU的PC機(jī),未采用任何GPU。
首先,給出各方法的分類準(zhǔn)確率,如表3所示。在表3中,MobileNet_axial_1的分類準(zhǔn)確率為67.5%,由于該方法僅選取了一張最靠近中心位置的切片,包含的信息不完整,分類準(zhǔn)確率較低。表中其余方法的分類結(jié)果均對一個被試者的若干切片進(jìn)行綜合得到,其中SAE_axial_32的分類準(zhǔn)確率較低,僅有67%,剩余兩種方法的準(zhǔn)確率均超過了70%,該結(jié)果表明利用SAE提取頂層特征的方法分類準(zhǔn)確率并不高。分類準(zhǔn)確率最高的是MobileNet_axial_32,其分類準(zhǔn)確率約75%,與其余的VGG16_entropy_32、MobileNet_axial_1、SAE_axial_32三種方法的分類準(zhǔn)確率相比,分別提升了1.5個百分點(diǎn)、7.4個百分點(diǎn)、7.9個百分點(diǎn)。這也表明,利用有監(jiān)督訓(xùn)練提取頂層特征并在分類層合并的方法的分類準(zhǔn)確率要高于僅利用瓶頸特征進(jìn)行分類的方法。
表3 不同分類方法的分類準(zhǔn)確率Table 3 Classification accuracy for evaluated classification algorithms %
圖7 給出了預(yù)訓(xùn)練網(wǎng)絡(luò)MobileNet所提取的特征值結(jié)果圖,其中NC是預(yù)訓(xùn)練網(wǎng)絡(luò)MobileNet提取NC組的頂層特征,AD是預(yù)訓(xùn)練網(wǎng)絡(luò)MobileNet提取AD組的頂層特征。被試者數(shù)1~80為訓(xùn)練集,81~100為驗(yàn)證集。從圖中可以看出,NC組測試集的頂層特征值大部分集中在0.8~1.0之間,而AD組測試集的頂層特征的一部分值在0.2左右,存在一定的差異性,可確保AD與NC的分類。
圖7 頂層提取的特征值Fig.7 Features extracted from top layer
圖8 給出了四種分類方法在5次交叉驗(yàn)證中的分類準(zhǔn)確率曲線,雖然SAE_axial_32在第1和第5次實(shí)驗(yàn)有較高準(zhǔn)確率,但是其余實(shí)驗(yàn)的分類準(zhǔn)確率較低,且曲線波動較大。另外一方面,雖然MobileNet_axial_32和VGG16_entropy_32這兩種分類方法并不是每次實(shí)驗(yàn)都有較高的分類準(zhǔn)確率,但是波動較小,因此平均值相對其他兩種方法較高。這也表明,利用遷移學(xué)習(xí)網(wǎng)絡(luò)提取特征的方法較SAE的方法更好。
圖8 不同分類方法的分類準(zhǔn)確率曲線Fig.8 Classification accuracy curves for evaluated classification algorithms
表4 給出了各遷移方法提取瓶頸特征時間、提取頂層特征時間、分類層時間和總時間。從表4中可以看出,當(dāng)切片數(shù)相同時,使用MobileNet提取瓶頸特征的時間少于用VGG16提取瓶頸特征,減少了近80%。這表明MobileNet使用深度可分離卷積,大大減少了計(jì)算量。從表中還可以看出,與SAE_axial_32相比,MobileNet_axial_32提取頂層特征的時間減少了近96%,且分類時間也減少了近96%,總時間減少了近97%。這都表明了在相同的環(huán)境下,設(shè)計(jì)一個有監(jiān)督訓(xùn)練的頂層所提取特征的時間遠(yuǎn)少于用SAE提取特征的時間。
表4 分類算法運(yùn)行時間Table 4 Running time for evaluated classification algorithms s
本節(jié)給出了其他因素對本文3D遷移學(xué)習(xí)網(wǎng)絡(luò)的分類影響。
首先,給出各切片方法對結(jié)果的影響,如圖9和表5所示,采用的切片方法參照文獻(xiàn)[17-18]得到,簡述如下:
(l)MobileNet_acs_32:分別沿軸狀、矢狀和冠狀對每個被試者的MRI圖像進(jìn)行切片,選取靠近中心的32張MRI切片,其中包含了11張軸狀、11張矢狀和10張冠狀切片。
(2)MobileNet_entropy_32:對每個被試者的MRI圖像切片,選取信息熵最大的32張軸狀切片。
(3)MobileNet_axial_32:對每個被試者的MRI圖像切片,選取最靠近中心位置的32張軸狀切片。
以上方法切片后所采用的步驟均如第2.5節(jié)所述。其余參數(shù)同MobileNet_axial_32。從圖9可以看到,除第4次外,MobileNet_axial_32的分類準(zhǔn)確率均較高,與表5的結(jié)果一致。該結(jié)果表明,按中心位置選取切片的方法優(yōu)于按信息熵選取切片的方法,且切片選取應(yīng)在同一狀位。
圖9 不同切片方法的分類準(zhǔn)確率曲線Fig.9 Classification accuracy curves for different slice segment methods
表5 不同切片方法的分類準(zhǔn)確率Table 5 Classification accuracy for different slice segment methods %
再次,給出切片的數(shù)量對分類算法的影響,分別選取了最靠中心位置的80張、60張、32張、20張和10張軸狀切片,分類算法的其余參數(shù)同表5和圖9中的算法所采用參數(shù),分類結(jié)果如圖10和表6所示??傮w看,各切片數(shù)量的分類準(zhǔn)確率較為接近,32張切片的結(jié)果略高于其余切片數(shù)量,然而切片數(shù)量太多會導(dǎo)致網(wǎng)絡(luò)復(fù)雜度上升,而切片數(shù)量太少,分類準(zhǔn)確率會略有下降,因此選用32張切片是一種可行的折衷方案。
圖10 不同切片數(shù)的分類準(zhǔn)確率曲線Fig.10 Classification accuracy curves for different counts of slices
表6 不同切片數(shù)的分類準(zhǔn)確率Table 6 Classification accuracy for different counts of slices %
最后,給出分類層參數(shù)對本文3D遷移網(wǎng)絡(luò)的分類影響,主要考慮分類層中全連接層的層數(shù)。表7給出了全連接層數(shù)分別為1、2、3和4時MobileNet_axial_32的平均分類準(zhǔn)確率,圖11給出了每次交叉驗(yàn)證的分類準(zhǔn)確率曲線。從圖中可以看到,具有兩個全連接層的分類層網(wǎng)絡(luò)的分類準(zhǔn)確率曲線最高,且表中的平均準(zhǔn)確率最高的也是兩個全連接層的網(wǎng)絡(luò),因此,設(shè)計(jì)具有兩個全連接層的分類層網(wǎng)絡(luò)是一個較好的選擇。
表7 分類層中不同全連接層數(shù)的分類準(zhǔn)確率Table 7 Classification accuracy for different full-connect layers in classification layer %
圖11 分類層中不同全連接層數(shù)的分類準(zhǔn)確率曲線Fig.11 Classification accuracy curves for different full-connect layers in a classification layer
針對MRI數(shù)據(jù)的AD分類問題,本文采用遷移學(xué)習(xí)MoblieNet網(wǎng)絡(luò)對切片數(shù)據(jù)進(jìn)行特征提取,再進(jìn)入到頂層提取頂層特征,最后由分類層網(wǎng)絡(luò)分類。實(shí)驗(yàn)結(jié)果表明,本文方法較其他方法的分類準(zhǔn)確率有所提升,且運(yùn)行時間也有較大程度的減少,但還有以下幾點(diǎn)需要進(jìn)一步進(jìn)行討論。
首先,本文所采用的遷移網(wǎng)絡(luò)與傳統(tǒng)的3DCNN網(wǎng)絡(luò)[13-14]相比,AD的分類準(zhǔn)確率未表現(xiàn)出顯著提升。然而,3DCNN將3D的MRI圖像數(shù)據(jù)直接作為深度網(wǎng)絡(luò)的輸入,權(quán)重將不可避免地大幅增加,使得訓(xùn)練時間也大幅增加,而本文方法采用2D遷移網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重來提取特征,可大幅減少訓(xùn)練時間,且與傳統(tǒng)診斷AD的2D遷移網(wǎng)絡(luò)相比,分類準(zhǔn)確率確實(shí)得到了提高。因此,作為一種用于AD輔助診斷的機(jī)器學(xué)習(xí)算法,本文的遷移網(wǎng)絡(luò)在減少計(jì)算成本和節(jié)約訓(xùn)練時間上具備一定優(yōu)勢。另外,本文僅使用MRI數(shù)據(jù)進(jìn)行AD分類,而文獻(xiàn)[20-26]的高分類準(zhǔn)確率是建立在多模態(tài)分類方法上,除使用MRI,還使用了PET和腦脊髓液等數(shù)據(jù),因此也可以考慮使用更多種類數(shù)據(jù)來進(jìn)一步提高本文的遷移網(wǎng)絡(luò)分類準(zhǔn)確率。
本實(shí)驗(yàn)主要從OASIS-1數(shù)據(jù)庫中選取數(shù)據(jù),因此實(shí)驗(yàn)所得到的分類準(zhǔn)確率結(jié)果僅局限于該數(shù)據(jù)庫上,嚴(yán)格意義上,要得到更完整的分類準(zhǔn)確率結(jié)果還應(yīng)嘗試更多的數(shù)據(jù)庫數(shù)據(jù)。本文所對比的傳統(tǒng)遷移網(wǎng)絡(luò)[18]使用該數(shù)據(jù)庫,因此選用該數(shù)據(jù)庫能得到較為直觀的對比結(jié)果。在未來的工作中,也可以使用ADNI和CADDementia等數(shù)據(jù)庫。
在選取切片數(shù)上,僅給出被試者10、20、32、60、80張切片的實(shí)驗(yàn)結(jié)果,并未嘗試其他切片數(shù)量來作為網(wǎng)絡(luò)的輸入。由于離中心位置較遠(yuǎn),靠近頭顱兩邊的切片包含的結(jié)構(gòu)信息較少,且切片數(shù)越多,冗余信息越多,過多切片反而降低分類準(zhǔn)確率,增加網(wǎng)絡(luò)運(yùn)行時間,因此沒有考慮更多的切片數(shù)量。
在分類層參數(shù)設(shè)置的實(shí)驗(yàn)中,僅給出了全連接層數(shù)的實(shí)驗(yàn)結(jié)果,而未對其他參數(shù)做進(jìn)一步討論,這主要是因?yàn)橄鄬τ谄渌麉?shù),全連接層數(shù)對分類結(jié)果的影響比較大。對于激活函數(shù),也嘗試了一些常用的softmax、tanh、sigmoid等函數(shù),但發(fā)現(xiàn)這些函數(shù)的分類結(jié)果并沒有較大差別,因此選擇了最常見的ReLU。當(dāng)然,還有一些參數(shù)對頂層性能也非常重要,例如全連接層節(jié)點(diǎn)數(shù)。然而,節(jié)點(diǎn)數(shù)量可由經(jīng)驗(yàn)確定,若節(jié)點(diǎn)數(shù)太小,網(wǎng)絡(luò)無法適應(yīng)大尺寸圖像,若節(jié)點(diǎn)數(shù)太大,會增加訓(xùn)練時間且可能產(chǎn)生過擬合,本文的分類層網(wǎng)絡(luò)的兩個全連接層的節(jié)點(diǎn)數(shù)均設(shè)置為512。
利用機(jī)器學(xué)習(xí)方法來輔助診斷AD可減少人工診斷的時間和人力,本文提出了一種利用MRI信號來分類AD和NC的遷移網(wǎng)絡(luò)機(jī)器學(xué)習(xí)方法。在實(shí)驗(yàn)中,采用了OASIS-1的MRI數(shù)據(jù),將本文方法與其他傳統(tǒng)方法進(jìn)行了對比,結(jié)果顯示本文方法的分類準(zhǔn)確率比僅用VGG16提取瓶頸特征來分類的方法提高了1.5個百分點(diǎn),總時間減少了約80%;比用SAE提取特征來分類的方法,準(zhǔn)確率提高了約8個百分點(diǎn),總時間減少了約98%。該結(jié)果說明,對于MRI數(shù)據(jù),從瓶頸特征提取出頂層特征再到分類層合并的方法要優(yōu)于直接從瓶頸特征進(jìn)行分類的方法,其分類準(zhǔn)確率得到提高,并且使用有監(jiān)督的頂層特征訓(xùn)練時間要少于無監(jiān)督的SAE方法。