曾安,黃殷,潘丹,SONG Xiaowei
(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;2.廣東省大數(shù)據(jù)分析與處理重點(diǎn)實(shí)驗(yàn)室,廣州510006;3.廣東建設(shè)職業(yè)技術(shù)學(xué)院現(xiàn)代教育技術(shù)中心,廣州510440;4.廣州市大智網(wǎng)絡(luò)科技有限公司,廣州 510000;5.西蒙弗雷澤大學(xué)影像技術(shù)實(shí)驗(yàn)室,溫哥華V6B 5K3)
阿爾茨海默癥(Alzheimer′s disease,AD)是一種不可逆轉(zhuǎn)的腦退行性疾病,以目前的增長速度預(yù)計(jì),至 2040 年全球病例數(shù)將高達(dá)八千多萬例[1]。早期準(zhǔn)確診斷和提前干預(yù)可減緩疾病發(fā)展的進(jìn)程,改善患者的生活質(zhì)量。
AD會引起大腦的某些變化[2],如腦區(qū)萎縮或腦區(qū)代謝活性的變化,這些變化可以通過磁共振成像(magnetic resonance imaging,MRI)測量和正電子發(fā)射斷層掃描(positron emission tomography,PET)[3-5]獲取。輕度認(rèn)知障礙(mild cognitive impairment,MCI)通常被認(rèn)為是AD的臨床前期,MCI是從正常對照(normal control,NC)到AD癡呆的過渡狀態(tài)[6]。
MRI通常用于非侵入性地捕獲區(qū)域性腦萎縮,幫助理解大腦解剖學(xué)變化,因此,被廣泛用于AD診斷的模式識別方法研究[7-10]。此外,PET是一種功能性醫(yī)學(xué)成像模式,也可以幫助醫(yī)生診斷AD[11]。包括MRI和PET在內(nèi)的多模態(tài)圖像提供強(qiáng)大的成像模式,幫助理解與AD相關(guān)的解剖學(xué)和神經(jīng)變化[12-15],近期研究表明,多模態(tài)特征的組合可以提高分類性能[15-16]。
深度學(xué)習(xí)方法在醫(yī)學(xué)圖像特征提取方面的研究取得的了很大進(jìn)展[17],卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)是深度學(xué)習(xí)的經(jīng)典模型,與基于先驗(yàn)知識提取特征方法不同,CNN可以通過將特征提取結(jié)合到任務(wù)學(xué)習(xí)過程中,來發(fā)現(xiàn)數(shù)據(jù)中固有的判別表示。Adrien等[18]提出了一種基于深度學(xué)習(xí)的分類算法,用于結(jié)構(gòu)MRI的AD早期診斷。另一種比較流行的深度學(xué)習(xí)模型循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)常用于含有時序的任務(wù),Liu等[19]使用RNN來預(yù)測基于過去天氣和輻射數(shù)據(jù)的背景輻射水平。CNN與RNN相結(jié)合是當(dāng)前研究的熱點(diǎn)之一,在視頻復(fù)制檢測中,Hu等[20]利用ResNet來提取幀級別的內(nèi)容特征,然后采用SiameseLSTM架構(gòu)進(jìn)行時空融合和序列匹配。
雖然CNN與RNN組合模型展示了其高效的性能,但是少有將其組合模型應(yīng)用于多模態(tài)的AD早期診斷。本研究提出了一種基于CNN和RNN的多模態(tài)分類模型,用于AD的早期診斷。首先,將全腦圖像按照矢狀面、冠狀面和橫斷面進(jìn)行切片操作。其次,使用CNN模型獲取單模態(tài)切片內(nèi)特征,然后,組合MRI和PET兩種模態(tài)的高維表示,使用RNN的特殊模型雙向門控循環(huán)單元(bidirectional gate recurrent unit, BGRU)來提取高級表示序列的特征信息用于AD診斷中的圖像分類。最后,將全腦的矢狀面、冠狀面和橫斷面切片的分類結(jié)果進(jìn)行集成投票,獲取最終的分類效果。
本研究使用的數(shù)據(jù)來源于AD神經(jīng)成像倡議(ADNI)數(shù)據(jù)庫,該數(shù)據(jù)庫可在網(wǎng)站(www.loni.ucla.edu/ ADNI)上公開獲取。ADNI 的主要目標(biāo)是測試是否可以將MRI,PET,其他生物標(biāo)志物以及臨床和神經(jīng)心理學(xué)評估結(jié)合起來測量MCI 和AD 的進(jìn)展。
從ADNI數(shù)據(jù)庫上挑選同時擁有MRI和PET圖像數(shù)據(jù)的受試者,且每名受試者的兩種模態(tài)數(shù)據(jù)獲取的時間間隔不超過三個月。將受試者劃分為NC、MCInc、MCIc和AD四組。NC是沒有任何認(rèn)知障礙的受試者;AD組是被臨床確診的具有AD癥狀的受試者;對穩(wěn)定性輕度認(rèn)知障礙患者(MCInc組)和進(jìn)行性輕度認(rèn)知障礙患者(MCIc組)數(shù)據(jù)的挑選標(biāo)準(zhǔn)為:MCInc 組的受試者在所有可用時間點(diǎn)被診斷為MCI患者并且在18個月內(nèi)未轉(zhuǎn)變?yōu)锳D;MCIc組的受試者被診斷為MCI患者,且在18個月內(nèi)轉(zhuǎn)變?yōu)锳D患者。受試者的人口統(tǒng)計(jì)學(xué)和臨床信息見表1。
表1 訓(xùn)練和測試集受試者詳細(xì)信息
本研究提出的基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)分類模型見圖1。模型主要由圖像處理、神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和集成分類三部分組成。圖像處理包括對預(yù)處理后的兩種3D模態(tài)圖像數(shù)據(jù)分別沿矢狀面、冠狀面和橫斷面三個方向進(jìn)行2D切片,再將這些2D切片劃分為不同的數(shù)據(jù)集組;在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中,用不同數(shù)據(jù)集組的切片數(shù)據(jù)訓(xùn)練2D CNN,每一組2D切片數(shù)據(jù)訓(xùn)練一個2D CNN模型,再使用BGRU模型獲取兩種模態(tài)的2D CNN高維表示之間的特征;最后,對2D CNN+BGRU的預(yù)測結(jié)果進(jìn)行集成分類。
圖1 基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)分類框架
從ADNI數(shù)據(jù)庫下載的MRI和PET原始圖像數(shù)據(jù),需要進(jìn)行預(yù)處理。對MRI的預(yù)處理,首先使用mricron軟件將原始圖像轉(zhuǎn)化為nii格式,使用工具包CAT12 對MRI進(jìn)行去頭骨、配準(zhǔn)到MNI標(biāo)準(zhǔn)空間和圖像平滑等一系列操作,隨后對每個MRI進(jìn)行灰度歸一化,使每位受試者的圖像數(shù)據(jù)像素值介于0~1之間。關(guān)于PET圖像的預(yù)處理,原始圖像數(shù)據(jù)轉(zhuǎn)化為hdr格式后,使用spm8將其配準(zhǔn)到PET的模板上,再把它們仿射配準(zhǔn)到相應(yīng)的MRI,并進(jìn)行強(qiáng)度歸一化和轉(zhuǎn)換為8 mm FWHM的均勻各向同性分辨率[21]。預(yù)處理完成后的MRI和PET圖像尺寸均為121 mm×145 mm×121 mm,空間分辨率均為1.5 mm。
預(yù)處理過后,分別對3D的MRI和PET沿矢狀面、冠狀面和橫斷面三個解剖面進(jìn)行多切片操作。考慮到邊界切片不包含腦組織或所含的腦組織較少,本研究只取矢狀面20~97 mm、冠狀面21~125 mm和橫斷面28~96 mm的2D切片。隨后將每個分解面的2D切片分成若干組,每組由15張沿相同分解面的連續(xù)2D切片組成,相鄰兩組之間有6張2D切片的重疊,所以沿矢狀面、冠狀面和橫斷面的切片分別可以分成8組、11組和7組。將3D的121 mm×145 mm×121 mm圖像沿矢狀面、冠狀面和橫斷面切片的尺寸分別為145 mm×121 mm 、121 mm×121 mm和121 mm×145 mm,為保證切片大小相同,我們把所有切片的尺寸統(tǒng)一為145 mm×145 mm。
CNN最早由LeCun等[22]提出,隨著近些年的快速發(fā)展,CNN已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的主流技術(shù),如圖像識別[23]和對象檢測[24]等。CNN一般通過交替堆疊卷積層和池化層來提取圖像特征,在每一層卷積層中,使用一組提取特定特征的卷積核與上一層卷積層輸出做卷積操作,并疊加一個偏置值,然后經(jīng)過非線性激活函數(shù)的運(yùn)算,生成特征圖,以完成卷積層對圖像進(jìn)行特征提取的功能。第k層的第j個特征圖計(jì)算等式如下:
(1)
池化層的本質(zhì)其實(shí)是對局部信息的總結(jié),以突出圖像區(qū)分度的特征。本研究通過最大池化,使特征從底層到較高層變得更加緊湊和高效,從而提高了模型的魯棒性。
將卷積層和池化層提取到的高維特征圖展開成一維向量的形式,作為全連接層的輸入。全連接層學(xué)習(xí)特征向量的表達(dá)式如下:
Gk=f(WkGk-1+bk)
(2)
其中Gk和Gk-1分別表示第k層和第k-1層全連接層的特征向量,Wk表示第k-1層和第k層全連接層的連接矩陣,bk為第k層全連接層的偏置向量。
最后,將softmax分類層附加在全連接層后,其輸出范圍為0~1,并且輸出之和為1,表示每個預(yù)測類別的概率值。
本研究構(gòu)建的CNN 模型與Wang等[25]中提到的CNN 模型相似,均由6層卷積層(convolution layer,conv)、5層池化層(pooling)和2層全連接層(fully connected layer, FC)組成,具體網(wǎng)絡(luò)結(jié)構(gòu)見圖2。將ReLU函數(shù)作為激活函數(shù),CNN在提取切片特征過程中,通過經(jīng)典的反向傳播和隨機(jī)梯度下降算法最小化交叉熵?fù)p失,以調(diào)整模型參數(shù)。
圖2 2D CNN 的網(wǎng)絡(luò)模型結(jié)構(gòu)
序列數(shù)據(jù)有一個特點(diǎn):數(shù)據(jù)之間存在一定的聯(lián)系。本研究需要提取切片之間的特征(聯(lián)系),因此,3D MRI和3D PET 兩種模態(tài)的每一組2D切片數(shù)據(jù)可以看作是一個序列,而RNN可以有效地處理序列問題。
GRU[26]是RNN的特殊網(wǎng)絡(luò)模型之一,具有重置門r和更新門z,重置門r主要控制何種程度舍棄之前的狀態(tài),更新門z表示何種程度用候選態(tài)來更新當(dāng)前的隱藏層。本研究GRU的輸入是2D CNN的輸出,當(dāng)?shù)趖張切片經(jīng)過2D CNN的輸出xt作為GRU輸入時,xt和先前的隱藏狀態(tài)ht-1進(jìn)行線性變換,然后經(jīng)由更新門z和重置門r決定遺忘信息數(shù)量或?qū)⒍嗌傩畔鬟f到下一時刻,其計(jì)算過程見式(3)、式(4):
zt=σ(Wxzxt+Whzht-1)
(3)
rt=σ(Wxrxt+Whrht-1)
(4)
(5)
(6)
為了利用GRU盡可能多地提取2D 切片之間的相關(guān)特征,本研究搭建了一個BGRU網(wǎng)絡(luò)模型,該模型由2層BGRU層、1層全連接層和softmax層組成,其網(wǎng)絡(luò)結(jié)構(gòu)見圖3。BGRU由兩個普通的GRU組成,一個正向的GRU,能學(xué)習(xí)從第1到第n張2D切片經(jīng)過2D CNN所得到高級特征的序列信息,另一個是逆向的GRU,能學(xué)習(xí)從第n到第1張2D切片經(jīng)過2D CNN所得到高級特征的序列信息。因此,在學(xué)習(xí)第t張2D切片的高級特征時,能同時利用兩個序列方向的信息,比單個方向提取的特征更加準(zhǔn)確。
本研究的2D CNN和BGRU模型訓(xùn)練是分段的,即首先完成2D CNN模型的訓(xùn)練,使2D CNN能充分學(xué)習(xí)到2D切片內(nèi)的特征,再將兩種模態(tài)數(shù)據(jù)切片內(nèi)的高級特征進(jìn)行拼接組合,作為BGRU模型的輸入數(shù)據(jù),以完成BGRU的訓(xùn)練,最終利用BGRU提取到的兩種模態(tài)切片間的特征通過softmax層對最終結(jié)果進(jìn)行分類預(yù)測。由圖1可知,每一組切片數(shù)據(jù)均訓(xùn)練2個2D CNN模型和1個BGRU模型,每名受試者在不同子模型的預(yù)測結(jié)果可能存在一定的差異,因此,需要對這些預(yù)測結(jié)果進(jìn)行整合統(tǒng)一。
圖3 BGRU的網(wǎng)絡(luò)模型結(jié)構(gòu)
集成學(xué)習(xí)通過構(gòu)建和組合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),其潛在的思想是即使某一個學(xué)習(xí)器預(yù)測錯誤,也可以通過其他的學(xué)習(xí)器進(jìn)行糾正,結(jié)合多個學(xué)習(xí)器比單個學(xué)習(xí)器具有更強(qiáng)的泛化能力。本研究使用同一組切片位置數(shù)據(jù)的2個2D CNN和1個BGRU模型組合視為1個學(xué)習(xí)器,所以有8個矢狀面,11個冠狀面和7個橫斷面共26個學(xué)習(xí)器。模型框架圖見圖1。由于2D切片所包含的AD特征存在差異,學(xué)習(xí)器的分類性能有所不同,利用驗(yàn)證集挑選出泛化能力強(qiáng)的學(xué)習(xí)器,對強(qiáng)學(xué)習(xí)器的預(yù)測值進(jìn)行集成,以達(dá)到最終的AD分類預(yù)測效果。
本研究實(shí)驗(yàn)進(jìn)行10折交叉驗(yàn)證,將數(shù)據(jù)集隨機(jī)劃分為10個子集,每個子集占總數(shù)據(jù)集的10%,然后將其中的8個作為訓(xùn)練集,1個作為驗(yàn)證集,剩下的1個作為測試集,對整個過程重復(fù)10次。訓(xùn)練集用于訓(xùn)練2D CNN和BGRU模型,以提取2D切片內(nèi)和2D切片間的特征,驗(yàn)證集用于挑選具有較強(qiáng)泛化能力的學(xué)習(xí)器,然后組合這些學(xué)習(xí)器在測試集上進(jìn)行集成分類預(yù)測。我們提出的方法使用Python 的tensorflow 庫來實(shí)現(xiàn),實(shí)驗(yàn)在配備內(nèi)存16 GB的NVIDIA Tesla P100 GPU 服務(wù)器上完成。在訓(xùn)練2D CNN 和BGRU 中,學(xué)習(xí)率均設(shè)為0.0001,30個epoch,batchsize為40,均使用Adam[27]的梯度更新算法。BGRU模型的隱藏單元設(shè)為128個,對于每組切片,將5張連續(xù)切片經(jīng)過2D CNN的高維特征作為BGRU的輸入序列。
實(shí)驗(yàn)中,進(jìn)行了三組對比實(shí)驗(yàn),分別是AD vs NC、MCIc vs NC 和 MCIc vs MCInc。對于每一組實(shí)驗(yàn)的10次交叉驗(yàn)證,將學(xué)習(xí)器在10折驗(yàn)證集上的平均準(zhǔn)確率進(jìn)行排序,篩選矢狀面、冠狀面和橫斷面各3個準(zhǔn)確率最高的學(xué)習(xí)器進(jìn)行集成。
對于每組實(shí)驗(yàn),本研究方法不但與單模態(tài)數(shù)據(jù)進(jìn)行了對比,還與目前的研究結(jié)果做了比較,詳細(xì)結(jié)果見表2。表中2D CNN(MRI)和2D CNN(PET)分別表示使用MRI和PET單模態(tài)的切片數(shù)據(jù)訓(xùn)練2D CNN模型的結(jié)果,2D CNN+BGRU(MRI)和2D CNN+BGRU(PET)表示使用2D CNN和BGRU學(xué)習(xí)單模態(tài)切片內(nèi)和切片間特征的模型,2D CNN+BGRU(MRI+PET)則表示結(jié)合MRI和PET兩種模態(tài)切片數(shù)據(jù)的片內(nèi)高級特征,使用BGRU提取其高級特征之間的聯(lián)系。
由表中的對比結(jié)果可以看出,PET模態(tài)的分類效果整體比MRI模態(tài)的好,PET模態(tài)在三組實(shí)驗(yàn)過程中,使用BGRU模型學(xué)習(xí)切片間特征可以有效提升準(zhǔn)確率,此外,雖然MRI模態(tài)切片數(shù)據(jù)在MCIc vs MCInc實(shí)驗(yàn)中BGRU模型不能提高準(zhǔn)確率,但是在AD vs NC和MCIc vs NC實(shí)驗(yàn)中比未添加BGRU模型的準(zhǔn)確率高,因此,可以看出切片之間的特征還是有助于AD的預(yù)測分類,并且BGRU模型能有效地獲取切片間的特征,同時,PET模態(tài)的切片間AD特征同樣優(yōu)于MRI模態(tài)。由表2可知,雖然MRI模態(tài)和PET模態(tài)的分類性能差距稍大,但是將兩種模態(tài)進(jìn)行結(jié)合,進(jìn)行特征信息互補(bǔ),在AD vs NC和MCIc vs NC實(shí)驗(yàn)結(jié)果能高于單模態(tài),說明多模態(tài)融合對最終分類預(yù)測結(jié)果還是具有一定的作用。在MCIc vs MCInc實(shí)驗(yàn)中,添加BGRU模型作用不大,反應(yīng)了MCIc與MCInc兩種受試者人群的AD特征差異性并不大。此外,實(shí)驗(yàn)結(jié)果與目前最新的研究成果相比,具有很大的提升效果,體現(xiàn)了本研究模型的有效性。
表2 三組實(shí)驗(yàn)結(jié)果對比
本研究提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)分類模型,使用MRI 和PET 兩種模態(tài)的互補(bǔ)信息,將3D 的MRI 和PET 兩種模態(tài)分別沿矢狀面、冠狀面和橫斷面分解成2D 切片,再劃分不同的切片數(shù)據(jù)組。使用2D CNN 模型分別學(xué)習(xí)MRI 切片和PET 切片的片內(nèi)特征,將MRI 切片和PET 切片的高級特征進(jìn)行組合拼接,形成序列輸入到RNN 的變體BGRU 模型,以學(xué)習(xí)MRI 和PET 兩種切片的片間特征,最后將BGRU 模型提取到的特征通過softmax 層進(jìn)行分類。由于不同切片所含AD 特征有所差異,因此,使用驗(yàn)證集挑選每個分解方向具有較強(qiáng)泛化能力的學(xué)習(xí)器進(jìn)行集成分類,以減少較弱學(xué)習(xí)器對最終分類結(jié)果的不良影響。在ADNI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了該方法模型的有效性,且與目前其他研究成果對比,其分類性能有所提升。此外,該方法同樣適用于類似的腦病分析任務(wù)中,如帕金森病和AD 臨床前期主觀認(rèn)知下降研究。