楊晨暉,侯超群
(廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建廈門361005)
阿爾茨海默病(Alzheimer′s disease,AD)是一種不可逆的神經(jīng)退行性疾病,會導(dǎo)致患者神經(jīng)細(xì)胞的死亡和腦組織的損失,臨床表現(xiàn)為記憶下降和認(rèn)知功能損害.據(jù)預(yù)測,在2050年每85人中將有1個人是AD患者[1].隨著問題的嚴(yán)重性日益突出,越來越多的國家和科研機(jī)構(gòu)投入了大量資金和人力致力于對AD的研究工作,同時也有越來越多關(guān)于AD的公開數(shù)據(jù)集面向研究者.比如,AD神經(jīng)影像學(xué)(ADNI,https:∥ida.loni.usc.edu/login.jsp)數(shù)據(jù)庫提供了磁共振成像(MRI)、正電子發(fā)射型計算機(jī)斷層顯像(PET)和腦脊液(CSF)等模態(tài)的數(shù)據(jù);華盛頓大學(xué)AD研究中心創(chuàng)建了開放式系列圖像研究[2](OASIS,http:∥www.oasisbrains.org)數(shù)據(jù)集,主要收集MRI模態(tài)的數(shù)據(jù),包括416名年齡介于18歲到96歲之間的受試者.然而,AD領(lǐng)域的數(shù)據(jù)集具有樣本量少、多模態(tài)、維度高等特點,如何有效地選擇特征具有重要的研究意義.Kloppel等[3]證實了在某些情況下,傳統(tǒng)機(jī)器學(xué)習(xí)算法對AD的預(yù)測比臨床醫(yī)生更準(zhǔn)確,該證明對研究計算機(jī)輔助診斷AD具有重要的意義.
特征選擇通過移除樣本的原始特征中一些不相關(guān)或者冗余的特征,找到一種具有良好泛化能力并能夠緊湊表達(dá)的原始特征,進(jìn)而達(dá)到降低數(shù)據(jù)維度、提升模型準(zhǔn)確度、降低模型時間復(fù)雜度等目的.有效的選擇特征對進(jìn)一步處理數(shù)據(jù)和使用數(shù)據(jù)具有重要的意義.無監(jiān)督特征選擇方法作為特征選擇的重要分支發(fā)揮著重要作用.Liu等[4]利用稀疏表達(dá)計算有效距離以衡量2個樣本之間相似度進(jìn)行特征選擇.Zhu等[5]提出基于正則化自表達(dá)的無監(jiān)督特征選擇算法,不僅能夠?qū)μ卣鬟M(jìn)行選擇,還可以根據(jù)模型重構(gòu)度對樣本進(jìn)行選擇.Tang等[6]提出一種無監(jiān)督的拉普拉斯分?jǐn)?shù)特征選擇方法,可選擇最能保持?jǐn)?shù)據(jù)集局部拓?fù)浣Y(jié)構(gòu)的特征.此外,近幾年來AD領(lǐng)域不斷涌現(xiàn)的模態(tài)數(shù)據(jù)類型為多模態(tài)特征選擇提供了重要的數(shù)據(jù)基礎(chǔ).單模態(tài)數(shù)據(jù)不能充分挖掘樣本的隱藏信息,而不同模態(tài)數(shù)據(jù)從不同視角提供互補(bǔ)信息,整合多種模態(tài)數(shù)據(jù)能夠挖掘樣本更多的隱含信息.Liu等[7]提出了模態(tài)內(nèi)關(guān)系受限的多任務(wù)特征選擇方法來保留互補(bǔ)的模態(tài)間信息,并通過增加模態(tài)間關(guān)系約束項進(jìn)而保護(hù)不同模態(tài)中同類樣本的相對距離;Liu等[7]把每個模態(tài)中的特征選擇過程作為一個單獨任務(wù),并根據(jù)稀疏性限制所選特征以保持模態(tài)間關(guān)系,對AD進(jìn)行有效地預(yù)測.
此外,隨著計算能力和標(biāo)注數(shù)據(jù)的增加,深度學(xué)習(xí)算法在很多領(lǐng)域取得顯著的效果.針對AD的分類問題,Liu等[8]先使用堆棧式的自編碼進(jìn)行特征提取,緊接著使用softmax[9]作為分類層有效地對AD進(jìn)行分類;Gupta等[10]結(jié)合稀疏自編碼和2D卷積神經(jīng)網(wǎng)絡(luò)有效地提高了分類精度;Payan等[11]使用3D卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)了Gupta的方法,提升了0.65%的準(zhǔn)確率.復(fù)雜的深層卷積神經(jīng)網(wǎng)絡(luò)方法[8,10-11]將特征選擇和分類器整合到一個網(wǎng)絡(luò)結(jié)構(gòu)并取得顯著的效果,但目前該方法仍缺乏理論支撐.
本研究提出一種結(jié)合基于有效距離的拉普拉斯分?jǐn)?shù)特征選擇(effective distance-based laplacian score feature selection,EDLSFS)算法和基于類內(nèi)方差最小化的多任務(wù)特征選擇(minimum intra-class variance-based multitask feature selection,MIVMTFS)算法的二階段多任務(wù)特征選擇(two-stage multi-task feature selection,TSMTFS)算法;并分別討論MIVMTFS算法和TSMTFS算法對AD進(jìn)行分類的分類準(zhǔn)確率,還將TSMTFS算法與相似的基于傳統(tǒng)特征工程的算法和主流的深度學(xué)習(xí)算法進(jìn)行比較.
Belhumeur等[12]于1996年將線性判別分析(linear discriminant analysis,LDA)算法引入人工智能領(lǐng)域,LDA利用樣本的標(biāo)簽作為先驗知識將高維模式的數(shù)據(jù)投影到最佳鑒別矢量空間,投影后的新特征具有最大類間離散度和最小類內(nèi)離散度等特點.主成分分析[13](principal component analysis,PCA)使用無監(jiān)督的方式在樣本中選擇對應(yīng)方差大的前k維作為新特征.Huang等[14]使用組合的LDA算法在多模態(tài)數(shù)據(jù)中共同確定與病理關(guān)聯(lián)的大腦區(qū)域特征.Zhang等[15]針對AD的分類問題,提出了一種基于多模態(tài)多任務(wù)學(xué)習(xí)的算法(MTFS)聯(lián)合選擇特征.但是在多任務(wù)特征學(xué)習(xí)中,如果對每個任務(wù)只考慮樣本和樣本標(biāo)簽之間的關(guān)系而忽略樣本間的相互依賴關(guān)系,可能會導(dǎo)致相似的樣本映射后的映射點間隔較大. Jie等[16]對MTFS算法進(jìn)行改進(jìn),提出一個基于流形正則化項的多任務(wù)特征學(xué)習(xí)算法(M2TFS),主要思想是距離相近的樣本通過線性映射之后的映射點同樣接近,并將該思想嵌入到模型的損失函數(shù)中,實現(xiàn)特征的有效聯(lián)合選擇.
本研究受文獻(xiàn)[16]以及傳統(tǒng)降維方法思想的啟發(fā)提出MIVMTFS算法.MIVMTFS算法對映射函數(shù)加以限制,使得同模態(tài)同類樣本映射后的映射點具有聚集的特點,選擇出來的特征將更有利于分類器的分類效果.MIVMTFS算法引入了同類樣本全局方差最小的思想,通過讓類內(nèi)方差盡可能小來優(yōu)化目標(biāo)函數(shù).本研究構(gòu)建的類內(nèi)方差最小化項如式(1)所示(推導(dǎo)過程詳見附錄http:∥jxmu.xmu.edu.cn/upload/html/20180519.html):
(1)
(2)
其中:Y是表示樣本的類標(biāo)的列向量;β和γ是2個取值范圍為(0,1]的常量,它們的比值反映稀疏化正則項和類內(nèi)方差最小化損失項對目標(biāo)損失函數(shù)最小的貢獻(xiàn)比重,可以通過訓(xùn)練數(shù)據(jù)集內(nèi)部交叉驗證得到.
本研究提出的MIVMTFS算法中,L2,1正則化項β‖W‖2,1能夠確保只有少量的特征從多模態(tài)數(shù)據(jù)中共同選擇;而類內(nèi)方差最小化項(式(2)中第3項)通過對同類數(shù)據(jù)映射點類內(nèi)離散程度的控制保留了單模態(tài)數(shù)據(jù)中最具有分類能力的信息,從而可能誘導(dǎo)更有分類能力的特征.在下文的實驗部分中,本研究將MIVMTFS算法與MTFS和M2TFS算法進(jìn)行比較,驗證MIVMFTS算法的有效性.
拉普拉斯分?jǐn)?shù)(Laplacian score,LS)是基于拉普拉斯特征圖[17]和局部性保持投影[18]理論產(chǎn)生的.拉普拉斯分?jǐn)?shù)的基本思想是評估特征項對數(shù)據(jù)集拓?fù)浣Y(jié)構(gòu)的局部保持能力,根據(jù)評估結(jié)果來決定是否保留此維度特征.Chung等[19]提出LS被認(rèn)為是關(guān)于特征的瑞利熵.基于相似度保護(hù)的特征選擇算法已經(jīng)被廣泛使用在相關(guān)研究[20-23]中,能夠選擇出最佳保護(hù)原始數(shù)據(jù)局部結(jié)構(gòu)的特征.此外,基于相似度保護(hù)的特征選擇準(zhǔn)則有一個統(tǒng)一的模式[24],LS及其擴(kuò)展方法[25]是典型的基于相似度保護(hù)的無監(jiān)督特征選擇方法.LS基于圖模型,采用特征擁有的分類能力衡量其重要程度.例如Cai等[19]提出多集群結(jié)構(gòu)保護(hù)方法(MCFC)用于特征選擇,MCFC基于數(shù)據(jù)的譜分析和L1正則化回歸模型引導(dǎo)特征選擇過程.Zhao等[22]提出基于流形的最大間隔方法用于無監(jiān)督特征選擇.
有效距離基于概率學(xué)思想的距離測度,可以反映數(shù)據(jù)的動態(tài)結(jié)構(gòu)[26].相比于歐幾里德距離,有效距離通過考慮數(shù)據(jù)的動態(tài)結(jié)構(gòu)信息,可以幫助揭示數(shù)據(jù)隱藏的幾何模式.因此在特征學(xué)習(xí)任務(wù)中,采用有效距離代替歐幾里德距離可引入動態(tài)結(jié)構(gòu)信息,進(jìn)而提升學(xué)習(xí)性能.忽略網(wǎng)絡(luò)結(jié)構(gòu)的潛在復(fù)雜性,有效距離的核心思想是:一些可能路徑子集可以控制數(shù)據(jù)的動態(tài)結(jié)構(gòu).給定樣本關(guān)聯(lián)矩陣P,記Pa b(0≤Pa b≤1)為從節(jié)點a到節(jié)點b的轉(zhuǎn)移概率,則節(jié)點a與節(jié)點b的有效距離
Da b=(1-logPa b)
(3)
由式(3)可知,從節(jié)點a到節(jié)點b的轉(zhuǎn)移概率越小,表明節(jié)點a與節(jié)點b間的距離越大;反之,兩個節(jié)點間的距離越小.由于關(guān)聯(lián)矩陣P是非對稱的,所以有效距離矩陣D=(Dij)也是非對稱的.相比于傳統(tǒng)的幾何距離,有效距離可以揭示數(shù)據(jù)的隱藏幾何模式、捕捉到數(shù)據(jù)的動態(tài)結(jié)構(gòu)信息,因此在特征選擇方法中使用有效距離可以找到數(shù)據(jù)中最具有分類能力的特征.
基于給定的有效距離矩陣D,本研究計算每一對樣本間的相似度,記樣本的相似度矩陣S=(Sij),
(4)
其中,常量λ表示高斯函數(shù)的寬度.矩陣元素Sij定義了樣本xi與樣本xj間的相似性.在LS進(jìn)行特征選擇過程中,樣本第r維特征的拉普拉斯分?jǐn)?shù)Qr的計算公式如式(5)所示:
(5)
EDLSFS算法的步驟如下所示:
初始化高斯函數(shù)寬度參數(shù)λ.
1) 基于稀疏表達(dá)構(gòu)造重構(gòu)P,并歸一化P的每一列;
2) 根據(jù)P和式(3)計算有效距離矩陣D;
3) 根據(jù)式(4)構(gòu)造基于有效距離的相似矩陣S;
4) 根據(jù)相似矩陣S和式(5)得出各特征維度的拉普拉斯分?jǐn)?shù)Q;
5) 根據(jù)拉普拉斯分?jǐn)?shù)Q對各個特征維度進(jìn)行排名;
6) 根據(jù)設(shè)定閾值,選取排名靠前的特征作為降維后的新特征.
輸出:各個特征維度根據(jù)拉普拉斯分?jǐn)?shù)排名后的數(shù)組.
EDLSFS算法和MIVMTFS算法在特征選擇上具有互補(bǔ)性.EDLSFS算法可以捕捉到數(shù)據(jù)間的動態(tài)結(jié)構(gòu)信息,從而選擇出最優(yōu)區(qū)分能力的特征且保持了原有特征空間的局部信息.同時EDLSFS算法也存在不足之處:1) 有效距離的計算利用樣本間的相互線性表達(dá),而實際應(yīng)用中許多樣本之間是非線性相關(guān)的;2) 特征排名的閾值很難確定,較小的閾值使得剔除的特征偏多、信息丟失,較大的閾值剔除的特征偏少導(dǎo)致仍存在較多的冗余特征.MIVMTFS算法利用類標(biāo)與數(shù)據(jù)分布信息來選擇特征,由于引入了類標(biāo)信息并改造了目標(biāo)函數(shù),使其在多模態(tài)數(shù)據(jù)中能夠選取出更具有分類能力的特征,但在特征維度比較高、樣本數(shù)比較少的情況下,容易陷入?yún)?shù)優(yōu)化不收斂情況.
本研究結(jié)合EDLSFS算法和MIVMTFS算法實現(xiàn)特征有效選擇.主要是先使用EDLSFS算法對數(shù)據(jù)原始特征做初步降維,降維后的特征作為有監(jiān)督特征選擇MIVMTFS算法的輸入,實現(xiàn)特征的進(jìn)一步選擇.在實驗過程中把無監(jiān)督特征選擇過程和有監(jiān)督特征選擇過程結(jié)合起來,利用10折交叉驗證和網(wǎng)格化搜索策略實現(xiàn)最優(yōu)參數(shù)設(shè)置.TSMTFS算法流程框架如圖1所示,輸入是多模態(tài)影像的原始特征,依次使用無監(jiān)督和有監(jiān)督的特征選擇方法并使用10折交叉驗證法尋找最優(yōu)參數(shù)獲取精簡特征集,以此特征作為分類器(本研究使用多核支持向量機(jī))的輸入進(jìn)行訓(xùn)練,得到最終的分類結(jié)果.
圖1 TSMTFS算法的流程圖Fig.1 The flow diagram of TSMTFS algorithm
本研究的實驗部分使用238個來自AD神經(jīng)影像學(xué)數(shù)據(jù)庫的樣本,包括磁共振成像(MRI)和正電子發(fā)射型計算機(jī)斷層顯像(PET)2種模態(tài)的醫(yī)學(xué)影像數(shù)據(jù),具體參數(shù)如表1所示.本研究參考文獻(xiàn)[27]的方法獲取MRI和PET數(shù)據(jù)以及數(shù)據(jù)處理流程,相關(guān)的實驗過程在MATLAB平臺上實現(xiàn).
表1 238個樣本的基本信息
注:MCI表示輕度認(rèn)知功能障礙;NC表示正常受試者;CDR表示臨床癡呆評定量表,取值范圍為[0,3],數(shù)值越大表示癡呆程度越嚴(yán)重;N表示樣本數(shù)量.
MIVMTFS算法使用由238個樣本組成的多模態(tài)(PET+MRI)數(shù)據(jù),分別對AD vs NC、MCI vs NC兩個分類任務(wù)與MTFS[15]和M2TFS[16]算法進(jìn)行比較,實驗結(jié)果如表2所示.MIVMTFS算法通過將式(1)作為懲罰項加入式(2)的目標(biāo)函數(shù)進(jìn)行優(yōu)化,使得類內(nèi)方差盡可能小進(jìn)而提升了分類效果.在AD vs NC的分類任務(wù)中通過10折交叉驗證,MIVMTFS算法達(dá)到93.09%的平均準(zhǔn)確率(ACC),其他指標(biāo)也是最優(yōu);在MCI vs NC的分類任務(wù)中通過10折交叉驗證,MIVMTFS算法達(dá)到76.83%的ACC,引入流形正則化項的M2TFS算法在各項指標(biāo)達(dá)到最優(yōu).MIVMTFS算法通過對同類數(shù)據(jù)映射點類內(nèi)離散程度的控制保留了單模態(tài)數(shù)據(jù)中最具有分類能力的信息,但缺乏捕捉數(shù)據(jù)間的動態(tài)結(jié)構(gòu)信息的能力,因此選擇的特征丟失了原有特征空間的局部信息.
此外,本研究使用MIVMTFS算法分別在MRI和PET 2個單模態(tài)數(shù)據(jù)集上進(jìn)行實驗,分析被選中的腦區(qū)個數(shù).其中,MRI模態(tài)的最優(yōu)特征個數(shù)為19,PET模態(tài)的最優(yōu)特征個數(shù)為20;同時使用MRI+PET模態(tài)的最優(yōu)特征個數(shù)為56,包括單獨使用MRI模態(tài)和PET模態(tài)時選中的特征.實驗結(jié)果進(jìn)一步說明了MIVMTFS算法能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)的有效特征選擇,標(biāo)記出對疾病敏感的腦區(qū)域,為腦疾病的輔助診斷提供實驗依據(jù).
表2 多模態(tài)數(shù)據(jù)下MIVMTFS算法與MTFS和M2TFS算法的比較
注:SEN表示敏感度;SPE表示特異性;AUC表示ROC曲線下的面積.
TSMTFS實驗部分對238個樣本進(jìn)行組合得到3種模態(tài)數(shù)據(jù)類型,即MRI、PET、MRI+PET,然后分別對這3種模態(tài)數(shù)據(jù)進(jìn)行實驗.通過10折交叉驗證TSMTFS算法在AD vs NC分類任務(wù)中,MRI、PET、MRI+PET的準(zhǔn)確率對應(yīng)的方差分別為0.174,0.220,0.102;在MCI vs NC分類任務(wù)中分別為0.091,0.043,0.270.實驗結(jié)果如表3所示,TSMTFS算法結(jié)合了EDLSFS算法和MIVMTFS算法,其多模態(tài)數(shù)據(jù)上的分類性能更優(yōu)于單模態(tài)數(shù)據(jù)上的分類性能.針對多模態(tài)(MRI+PET)數(shù)據(jù):在AD vs NC的分類任務(wù)中,TSMTFS算法的ACC比MIVMTFS算法提升了0.17個百分點;在MCI vs NC的分類任務(wù)中TSMTFS算法的ACC比MIVMTFS算法提升了5.86個百分點,同時也優(yōu)于M2TFS算法.
本研究的數(shù)據(jù)中,103名MCI受試者還可進(jìn)一步劃分為47名MCI-C和56名MCI-NC,分別表示在隨訪中轉(zhuǎn)化為AD和未轉(zhuǎn)化為AD的受試者.本研究使用多模態(tài)數(shù)據(jù)(MRI+PET)分別采用3種算法進(jìn)行MCI-C vs MCI-NC分類,TSMTFS算法的各項指標(biāo)都優(yōu)于MTFS算法和M2TFS算法,結(jié)果如表4所示.
表3 TSMTFS算法在不同模態(tài)的分類結(jié)果
表4 多模態(tài)數(shù)據(jù)下TSMTFS算法與MTFS和M2TFS算法的比較
上述實驗結(jié)果中,表3首先驗證了TSMTFS算法在多模態(tài)數(shù)據(jù)上的效果優(yōu)于單模態(tài)數(shù)據(jù),同時也進(jìn)一步說明結(jié)合了MIVMTFS和EDLSFS算法的TSMTFS算法能夠進(jìn)一步挖掘多模態(tài)數(shù)據(jù)之間的有效特征.表4針對MCI-C vs MCI-NC的分類任務(wù),以多模態(tài)數(shù)據(jù)為數(shù)據(jù)集分別對MTFS、M2TFS和TSMTFS算法進(jìn)行比較,實驗結(jié)果表明TSMTFS算法取得最優(yōu)的效果.
此外,本研究還選擇了3種當(dāng)前主流的基于深度學(xué)習(xí)算法[8,10-11]與TSMTFS算法進(jìn)行比較,文獻(xiàn)[8,10-11]中使用深度卷積神經(jīng)將特征選擇和分類器整合到一個網(wǎng)絡(luò)結(jié)構(gòu)并取得顯著的效果.如表5所示,在AD vs NC的分類任務(wù)中,Liu等[8]取得了87.76%的ACC;Gupta等[10]結(jié)合了稀疏自編碼和2D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,取得了94.74%的ACC;Payan等[11]使用3D卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)了Gupta的方法,提升了0.65%的ACC.本研究提出的TSMTFS算法取得了93.26%的ACC,與基于深度學(xué)習(xí)的算法[8,10-11]得到的結(jié)果相差不大.實驗結(jié)果再次驗證了TSMTFS算法選擇的特征能夠有效地對AD進(jìn)行預(yù)測,由于文獻(xiàn)[8,10-11]使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的特征并進(jìn)行分類,特征模塊和分類器都是基于反向傳播更新參數(shù)的方式進(jìn)行訓(xùn)練,目前仍缺乏對模型決策做出明確解釋的理論支撐,而TSMTFS算法提取的特征則相對更具有可解釋性.
表5 TSMTFS算法與一些深度學(xué)習(xí)算法的ACC比較
本研究受文獻(xiàn)[16]中算法以及傳統(tǒng)降維思想的啟發(fā)提出了MIVMTFS算法,并將MIVMTFS算法與EDLSFS算法結(jié)合進(jìn)一步提出了TSMTFS算法.TSMTFS算法首先利用EDLSFS算法在無監(jiān)督情況下篩選出較為優(yōu)質(zhì)的特征作為一個數(shù)據(jù)子集.然后利用MIVMTFS算法在有監(jiān)督情況下進(jìn)一步選擇更具有分類能力的特征子集.TSMTFS算法最大的優(yōu)點是在選擇特征數(shù)量較多且樣本數(shù)量較少的情況下不易陷入次優(yōu)解,能夠更好地選擇出具有最優(yōu)分類能力的特征;缺點是時間復(fù)雜度較高,主要由于無監(jiān)督特征選擇部分需要花費更多的時間.本研究在第一階段過濾掉部分特征,限制了整體性能的進(jìn)一步提升.但在無監(jiān)督過程采用了基于有效距離的相似性測度保留了具有分類能力的特征,篩選出有效的精簡特征子集,提升分類器的性能.本研究的實驗數(shù)據(jù)來源于ADNI,實驗部分主要包括3部分:1) 以多模態(tài)數(shù)據(jù)對MIVMTFS算法進(jìn)行實驗,并與MTFS和M2TFS算法做比較,驗證了MIVMTFS算法的有效性和魯棒性;2) 分別以單模態(tài)和多模態(tài)數(shù)據(jù)對TSMTFS算法進(jìn)行實驗,驗證了TSMTFS算法在多模態(tài)數(shù)據(jù)上能夠更加有效地預(yù)測AD;3) 以多模態(tài)為數(shù)據(jù)集,對MCI-C vs MCI-NC分類任務(wù)進(jìn)行實驗,TSMTFS算法相對于MTFS和M2TFS算法取得最優(yōu)性能,ACC只有73.21%,還有很大的提升空間.此外,實驗進(jìn)一步將TSMTFS算法與當(dāng)前主流的深度學(xué)習(xí)算法[8,10-11]作比較.雖然使用深度學(xué)習(xí)算法[8,10-11]的ACC更高,但深度學(xué)習(xí)算法目前仍缺少理論支撐,可解釋性不強(qiáng),而本研究方法可以標(biāo)記出對疾病敏感的腦區(qū)域.在下一步的研究工作中,將圍繞兩方面繼續(xù)研究:1) 深度學(xué)習(xí)算法及其在特定領(lǐng)域的解釋性;2) 將深度學(xué)習(xí)算法提取的特征與傳統(tǒng)特征選擇算法進(jìn)一步結(jié)合,獲取更有效的特征子集.