范炤,姚麗麗
(1.山西醫(yī)科大學(xué)老年醫(yī)學(xué)研究所,山西 太原 030001;2.山西醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,山西 太原 030001)
阿爾茲海默癥(AD)是老年人群中最常見(jiàn)的疾病。據(jù)預(yù)測(cè),到2050年,每85人中將有1人受到影響,為患者家庭和社會(huì)增加了沉重的負(fù)擔(dān)[1]。由于AD的病因機(jī)制尚不明確,目前仍無(wú)有效的治療方法,所以早期識(shí)別、及時(shí)干預(yù)遏制病情的發(fā)展尤為重要。根據(jù)美國(guó)國(guó)立神經(jīng)病、語(yǔ)言交流障礙與腦卒中研究所-老年癡呆及相關(guān)疾病學(xué)會(huì) (NINCDS-ADRDA)的分類(lèi)診斷標(biāo)準(zhǔn),將AD分為早期AD(early Alzheimer′s disease, EAD)和晚期AD(late Alzheimer′s disease, LAD)。
隨著醫(yī)學(xué)技術(shù)不斷發(fā)展,神經(jīng)影像學(xué)的運(yùn)用成為識(shí)別AD臨床前期的研究熱點(diǎn)[2-3]。由于大腦局部病變?cè)缙诔30殡S血流及代謝活動(dòng)改變,而大腦結(jié)構(gòu)常常在疾病晚期才發(fā)生變化,故功能影像學(xué)技術(shù)在識(shí)別疾病早期病理變化上更具潛力[4]。目前,功能磁共振成像(fMRI)技術(shù)成為人們研究腦疾病的一種新興方法,主要基于血氧水平依賴(lài)性,其由于具有無(wú)創(chuàng)性,能精確對(duì)腦功能區(qū)進(jìn)行定位,同時(shí)還可以對(duì)患者反復(fù)檢查而無(wú)危險(xiǎn)性,已經(jīng)獲得研究者的廣泛關(guān)注,尤其在評(píng)價(jià)記憶認(rèn)知障礙患者方面。
計(jì)算機(jī)輔助診斷AD系統(tǒng)現(xiàn)在應(yīng)用越來(lái)越廣泛,許多研究者基于不同的影像技術(shù),通過(guò)圖論的研究方法構(gòu)建腦網(wǎng)絡(luò),再結(jié)合不同的機(jī)器學(xué)習(xí)算法對(duì)疾病進(jìn)行分類(lèi)[5-6],均取得了不錯(cuò)的效果,該方法成為目前神經(jīng)影像學(xué)研究腦疾病的熱點(diǎn)。本研究通過(guò)構(gòu)建有向腦網(wǎng)絡(luò)利用不同特征在核主成分分析(KPCA)和Adaboost算法下對(duì)AD進(jìn)行分類(lèi)預(yù)測(cè),以期找到最優(yōu)的特征輔助AD診斷。
本研究的實(shí)驗(yàn)數(shù)據(jù)選自美國(guó)阿爾茲海默癥神經(jīng)影像學(xué)倡議(the Alzheimer′s Disease Neuroimaging Initiative, ADNI)數(shù)據(jù)庫(kù)。研究對(duì)象為8名認(rèn)知功能正常者(normal cognition, NC)和13名AD患者,其中包括7名EAD患者、6名LED患者。收集21名受試者的人口統(tǒng)計(jì)學(xué)資料,包括性別、年齡、簡(jiǎn)易精神狀態(tài)量表(mini-mental state examination, MMSE)評(píng)分和臨床癡呆評(píng)定量表(clinical dementia rating,CDR)評(píng)分。經(jīng)統(tǒng)計(jì)學(xué)分析得到所選取的研究對(duì)象資料見(jiàn)表1,在性別、年齡方面三組之間無(wú)顯著差異,MMSE評(píng)分和CDR評(píng)分三組間均有統(tǒng)計(jì)學(xué)意義。根據(jù)ADNI采集協(xié)議,使用3.0 T Philips掃描儀進(jìn)行采集,獲得受試者的靜息態(tài)fMRI數(shù)據(jù)。選擇合理得到參數(shù)確保圖像質(zhì)量,射頻重復(fù)時(shí)間(TR)為3 000 ms、回波時(shí)間(TE)為30 ms、翻轉(zhuǎn)角(FA)80°,每個(gè)受試者包含140個(gè)功能圖像,每個(gè)圖像掃描48層,層厚參數(shù)為3.31 mm。
表1 研究對(duì)象人口統(tǒng)計(jì)學(xué)分析結(jié)果
本研究基于Matlab平臺(tái)的SPM 8.0軟件包對(duì)靜息態(tài)fMRI圖像數(shù)據(jù)進(jìn)行預(yù)處理,首先將采集到的圖像數(shù)據(jù)由DICOM格式轉(zhuǎn)換為NIFTI格式,去除最初幾個(gè)不穩(wěn)定的時(shí)間點(diǎn);然后進(jìn)行時(shí)間校正和頭動(dòng)校正,去除頭動(dòng)幅度大的受試對(duì)象;接下來(lái)消除掃描儀器的線性漂移、進(jìn)行圖像高斯平滑去噪,將0.01~0.08 Hz作為低頻率過(guò)濾,最后去除腦脊液和白質(zhì)等協(xié)變量。
對(duì)處理后的靜息態(tài)fMRI數(shù)據(jù), 采用自動(dòng)化解剖學(xué)標(biāo)簽(anatomical automatic labeling,AAL)模板,將全腦分為90個(gè)感興趣區(qū)(region of interest,ROI),左右腦區(qū)各為45個(gè),然后對(duì)90個(gè)ROI提取時(shí)間序列,每個(gè)ROI代表一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)上的葡萄糖代謝率作為節(jié)點(diǎn)特征,并計(jì)算節(jié)點(diǎn)內(nèi)的體素代謝平均值。
采用格蘭杰因果分析[7]計(jì)算兩兩腦區(qū)之間的有效連接強(qiáng)度值,得到一個(gè)90×90的有向腦網(wǎng)絡(luò)矩陣,腦網(wǎng)絡(luò)構(gòu)建具體流程見(jiàn)圖1。任意兩個(gè)廣義平穩(wěn)的時(shí)間序列x和y之間的格蘭杰因果關(guān)系都可以通過(guò)自回歸模型計(jì)算,表示為:
圖1 有向腦網(wǎng)絡(luò)構(gòu)建流程圖
(1)
選取合適的閾值使有向圖鄰接矩陣轉(zhuǎn)化,可能會(huì)存在個(gè)別孤立的節(jié)點(diǎn)或小塊子圖未連接到腦網(wǎng)絡(luò)中,添加邊進(jìn)行腦網(wǎng)絡(luò)連接。有研究證明AD患者在個(gè)體腦代謝網(wǎng)絡(luò)拓?fù)鋵傩陨吓c正常受試者有差異[8]。因此,本研究增加節(jié)點(diǎn)的度作為受試者圖像的特征評(píng)估,用以衡量網(wǎng)絡(luò)功能隔離和功能整合。本研究分別驗(yàn)證葡萄糖平均代謝率、網(wǎng)絡(luò)連接以及節(jié)點(diǎn)的度在計(jì)算機(jī)輔助診斷AD上的效果,然后將提取的全部特征進(jìn)行融合,繼續(xù)考察其在AD輔助診斷中的作用。
基于全局特征產(chǎn)生的大量的原始特征會(huì)降低分類(lèi)性能,因此,有必要進(jìn)行特征空間降維。本研究使用包裹式(Wrapper)特征選擇[9],該方法建立在基于模型的特征選擇方法之上,直接把最終采用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)標(biāo)準(zhǔn)。該模式的優(yōu)點(diǎn)是根據(jù)算法的訓(xùn)練準(zhǔn)確率來(lái)選擇特征子集,依據(jù)分類(lèi)性能選出貢獻(xiàn)最大的特征[10],適用于較小樣本數(shù)據(jù),避免過(guò)擬合現(xiàn)象。
2.5.1核主成分分析算法 核主成分分析法[11](KPCA)是一種基于核函數(shù)原理的非線性主成分分析,將研究數(shù)據(jù)非線性映射到新的特征空間F中,然后利用核函數(shù)進(jìn)行內(nèi)積運(yùn)算,提取樣本特征。KPCA不僅可以降低特征維度,還可以使某個(gè)特征強(qiáng)化[12]。KPCA算法過(guò)程如下:
給定一個(gè)訓(xùn)練數(shù)據(jù)集xk(k=1,2,...l),xk∈Rn,將研究數(shù)據(jù)以非線性映射方式由原本空間Rn映射到特征空間F,然后進(jìn)行主成分分析,得到空間協(xié)方差:
(2)
其中,φ(xj)為xj的一種非映射方式,xj為第j個(gè)數(shù)據(jù)。
降低特征維度并進(jìn)行歸一化,可得到:
(3)
通過(guò)φ(x)將原來(lái)的矢量主成分映射為特征矢量,可得到:
(4)
得到降維后的特征矢量有m個(gè)主成分,使用核主成分分析法提取有效特征,提高訓(xùn)練速度和準(zhǔn)確率[13]。
2.5.2Adaboost算法 本研究還對(duì)比了Adaboost算法[14]與KPCA算法都用Python中的Scikit-learn工具包[15],該算法本質(zhì)上是由弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器,是基學(xué)習(xí)器的線性組合。首先從初始訓(xùn)練樣本中提出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的表現(xiàn)對(duì)訓(xùn)練樣本的分布進(jìn)行調(diào)整,使之前基學(xué)習(xí)器被分錯(cuò)的樣本受到后續(xù)關(guān)注,然后用調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)基學(xué)習(xí)器,如此反復(fù),直至基學(xué)習(xí)器達(dá)到先前指定的值T,最終將T個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)組合得到一個(gè)強(qiáng)分類(lèi)器。
2.5.3分類(lèi)效果評(píng)價(jià) 本研究選取偏倚結(jié)果和方差最小的十折交叉驗(yàn)證來(lái)評(píng)估模型算法的效能,為了得到可靠穩(wěn)定的結(jié)果,進(jìn)一步采用了準(zhǔn)確率(Accuracy)、敏感度(Sensitivity)、特異性(Specificity)和受試者工作特征(ROC)曲線下的面積(area under curve,AUC)作為分類(lèi)結(jié)果的評(píng)價(jià)指標(biāo),AUC值大于0.9就認(rèn)為分類(lèi)價(jià)值高。
本研究選取13名AD早晚期患者和年齡、性別相匹配的 8名正常被試的個(gè)體腦代謝網(wǎng)絡(luò)節(jié)點(diǎn)平均葡萄糖代謝率、個(gè)體腦代謝網(wǎng)絡(luò)的連接、個(gè)體腦代謝網(wǎng)絡(luò)節(jié)點(diǎn)度三種特征分別使用KPCA和Adaboost特征選擇算法進(jìn)行分類(lèi),驗(yàn)證上述特征分別在不同特征選擇算法下,AD輔助診斷中的準(zhǔn)確率。隨后將樣本的三種特征進(jìn)行融合,并使用相同的方法考察了融合后的特征,再用于AD分類(lèi)的效果,見(jiàn)表2。結(jié)果顯示,這三種特征均能很好地描述個(gè)體腦代謝網(wǎng)絡(luò)特征。其中,就單特征分類(lèi)能力而言,平均葡萄糖代謝率在KPCA和Adaboost兩種算法下,分別達(dá)到了93.21%和92.89%的準(zhǔn)確率,相比其他兩種特征區(qū)分能力更強(qiáng),對(duì)分類(lèi)的貢獻(xiàn)率較大,表明在用靜息態(tài)fMRI輔助診斷AD時(shí),平均葡萄糖代謝率可能是AD患者明顯的病理特征。而多特征融合后的分類(lèi)能力在兩種算法下都取得了不錯(cuò)的效果,準(zhǔn)確率均在94%以上,AUC值0.97,敏感性和特異性也遠(yuǎn)遠(yuǎn)高于單個(gè)特征區(qū)分能力。本研究還發(fā)現(xiàn),兩種算法對(duì)每個(gè)特征集的分類(lèi)效果幾乎一致,都可以作為該項(xiàng)特征區(qū)分AD各組的模型。
表2 不同特征用于分類(lèi)診斷結(jié)果
與傳統(tǒng)構(gòu)建網(wǎng)絡(luò)方法相比,本研究方法準(zhǔn)確率、特異性、敏感性等方面均有所提升,結(jié)果見(jiàn)表3。其中,Cheng等[16]采用傳統(tǒng)的基于皮爾遜相關(guān)的方法構(gòu)建腦網(wǎng)絡(luò),用腦區(qū)特征分類(lèi)。Guo等[17]在構(gòu)建超網(wǎng)絡(luò)的基礎(chǔ)上,將判別子圖作為特征,采用基于圖核的支持向量機(jī)(SVM) 進(jìn)行分類(lèi)。Tripoliti等[18]沒(méi)有構(gòu)建腦網(wǎng)絡(luò),直接對(duì)fMRI數(shù)據(jù)進(jìn)行特征提取,然后用隨機(jī)森林模型進(jìn)行分類(lèi)。本研究構(gòu)建有向腦網(wǎng)絡(luò)基礎(chǔ)上,采用Wrapper方式進(jìn)行特征選擇的同時(shí)進(jìn)行分類(lèi),節(jié)省了中間復(fù)雜流程。
表3 不同分類(lèi)結(jié)果比較
本研究對(duì)NC、EAD、LAD三組受試者分別進(jìn)行KPCA和Adaboost算法的分類(lèi)預(yù)測(cè),見(jiàn)表4,KPCA模型對(duì)于每個(gè)組的區(qū)分能力都優(yōu)于Adaboost算法,尤其在區(qū)分LAD時(shí),表現(xiàn)出較好的分類(lèi)效果,準(zhǔn)確率分別是85.34%和83.16%,比NC和EAD組的準(zhǔn)確率高。對(duì)于敏感性和特異性而言,KPCA算法下的LAD組也顯著高于其他兩組。而采用Adaboost算法時(shí),EAD組的敏感性為93.48%,高于其他兩組,說(shuō)明在識(shí)別EAD患者時(shí)使用該算法的漏診率較低,而在特異性方面表現(xiàn)一般。針對(duì)本研究結(jié)果,我們可以在AD患病的不同時(shí)期使用不同的算法,相比而言,KPCA算法的分類(lèi)預(yù)測(cè)能力較好,對(duì)AD輔助診斷起著重要作用。
表4 不同分類(lèi)組的分類(lèi)結(jié)果
腦結(jié)構(gòu)網(wǎng)絡(luò)側(cè)重于研究大腦各區(qū)域皮層體積和厚度的關(guān)系,而腦功能網(wǎng)絡(luò)側(cè)重于研究探索神經(jīng)元細(xì)胞之間的代謝活動(dòng)[19-20],本研究選取8名NC和13名早晚期AD患者,利用fMRI圖像在構(gòu)建有向網(wǎng)絡(luò)的基礎(chǔ)上,采用Wrapper方式提取最優(yōu)特征的同時(shí),采用Adaboost和KPCA算法進(jìn)行分類(lèi)。通過(guò)本研究得到能夠用于AD患者早期輔助診斷的最優(yōu)特征,進(jìn)而提高早期診斷準(zhǔn)確率,尋找 AD 患者早期的腦代謝網(wǎng)絡(luò)的屬性差異,對(duì)AD患者提前進(jìn)行干預(yù)治療。
在實(shí)現(xiàn)AD早期計(jì)算機(jī)輔助診斷中,許多研究者利用不同的影像技術(shù),結(jié)合不同的機(jī)器學(xué)習(xí)算法,提出了對(duì)AD有效分類(lèi)的模型[21-24]。他們已經(jīng)從腦結(jié)構(gòu)和腦功能網(wǎng)絡(luò)的拓?fù)鋵傩灾姓业搅艘恍┥飿?biāo)志物。研究者利用FDG-PET成像構(gòu)建腦網(wǎng)絡(luò),發(fā)現(xiàn)腦葡萄糖代謝率是早期AD診斷明顯的病理特征,AD患者的區(qū)域腦葡萄糖代謝率與AD患者的疾病發(fā)展進(jìn)程有密切關(guān)系[25-26],這與本研究的結(jié)論一致。還有研究基于FDG-PET影像構(gòu)建腦代謝網(wǎng)絡(luò),利用不同的特征選擇算法分析了AD患者的正常人節(jié)點(diǎn)度、Hub節(jié)點(diǎn)、聚類(lèi)系數(shù)等網(wǎng)絡(luò)拓?fù)鋵傩?,再基于核支持向量機(jī)分類(lèi),找到區(qū)分AD各組最明顯的病理特征是節(jié)點(diǎn)度[27];而Dai等[28]通過(guò)腦網(wǎng)絡(luò)分析得出,AD患者Hub節(jié)點(diǎn)的分布與認(rèn)知功能正常者相比,存在很大的差異,是AD早期診斷潛在的生物標(biāo)志物。
付常洋等[29]基于fMRI數(shù)據(jù)構(gòu)建四種不同尺度下的腦網(wǎng)絡(luò)并進(jìn)行特征融合對(duì)抑郁癥進(jìn)行分類(lèi),證明融合后的特征對(duì)疾病分類(lèi)效果明顯優(yōu)于單個(gè)特征的效果,為本研究提供思路,并且本研究結(jié)果也證明了該結(jié)論 ,這為今后研究者們進(jìn)行特征提取提供參考。李長(zhǎng)勝等[30]在基于fMRI數(shù)據(jù)對(duì)AD進(jìn)行分類(lèi)應(yīng)用時(shí),通過(guò)提取各個(gè)腦區(qū)的時(shí)間序列來(lái)構(gòu)建全腦功能連接矩陣, 然后使用KPCA提取特征, 將這些特征用Adaboost算法進(jìn)行分類(lèi),取得了不錯(cuò)的效果。本研究仍使用這兩種算法,不同的是,本研究利用Wrapper方式直接將兩種算法用于分類(lèi),分類(lèi)性能得到了較高的提升。
同樣是基于fMRI數(shù)據(jù)對(duì)AD早期診斷的研究,與傳統(tǒng)構(gòu)建網(wǎng)絡(luò)方法相比[16-18],本研究在構(gòu)建腦網(wǎng)絡(luò)基礎(chǔ)上,運(yùn)用KPCA和Adaboost模型獲得更顯著的分類(lèi)效果。除此之外,本研究還對(duì)NC、EAD、LAD三組分別用兩種機(jī)器學(xué)習(xí)算法作預(yù)測(cè)分類(lèi),KPCA模型的效果優(yōu)于Adaboost.
綜上,本研究構(gòu)建有向腦網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)算法下對(duì)AD病程分類(lèi)有良好的效果,但是本研究的樣本量少,后續(xù)將增大樣本或者利用其他模態(tài)影像數(shù)據(jù)對(duì)AD進(jìn)行分類(lèi)。