祝 承,趙曉琦,趙麗萍,焦玉宏,朱亞飛,陳建英,周 偉,譚 穎
(計算機系統(tǒng)國家民委重點實驗室(西南民族大學),成都 610041)
精神分裂癥是一種常見疾病,給患者家庭和社會帶來了沉重的負擔。隨著磁共振成像(Magnetic Resonance Imaging,MRI)成像技術的快速發(fā)展,功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)成為研究腦部疾病的重要手段之一[1]。但由于fMRI數(shù)據(jù)特征維度高而樣本量少,所以考慮如何解決過擬合問題是必要的,而特征選擇或降維就是常用方法之一。
聚類方法在fMRI數(shù)據(jù)的特征選擇中已經得到了廣泛的應用,并且在沒有先驗知識的情況下,可以根據(jù)fMRI時間序列的相關性將數(shù)據(jù)分為子圖內部相似性最大、子圖間相似性最小的若干類。然而,傳統(tǒng)的聚類方法,如:k-means和模糊C均值算法(Fuzzy C-Means,F(xiàn)CM)需要假設fMRI數(shù)據(jù)滿足凸球樣本空間分布,而功能磁共振數(shù)據(jù)是高維的、未知的、空間變換的,不滿足凸球型分布,所以算法容易陷入局部最優(yōu)。
譜聚類是一種基于圖論的聚類方法,能在任意形狀的樣本空間上聚類,即具有識別非凸分布的聚類能力,可以收斂于全局最優(yōu)解[2]。其基本思想是根據(jù)給定的樣本數(shù)據(jù)集間的相似關系構建親和矩陣,計算特征值和特征向量,依據(jù)樣本間的潛在聯(lián)系,聚類出類內相似、類間有異的不同簇。Zhao等[3]基于譜圖理論提出(SPECtral feature selection,SPEC)算法,通過評估特征值分布與目標的一致性進行特征選擇;王連喜等[4]提出基于聚類集成的特征選擇算法,該算法是利用聚類算法將冗余特征聚成一類簇,從各類簇中挑選最具代表性的特征構成最優(yōu)特征子集;非負判別特征選擇(Nonnegative Discriminant Feature Selection,NDFS)算法[5]采用譜聚類算法學習樣本類標,將特征選擇融入學習過程中;近年來,謝娟英等[6]提出了基于譜聚類無監(jiān)督特征選擇(Feature Selection by Spectral Clustering,F(xiàn)SSC)思想用于特征選擇,該方法已初步應用于有高維度小樣本特點的癌癥相關基因數(shù)據(jù),并取得良好效果。譜聚類算法目前在應用方面的研究主要集中在普通圖像層面,在fMRI數(shù)據(jù)的分類中應用較少。
綜上,本文借助譜聚類算法的優(yōu)勢,利用FSSC思想,提出基于譜聚類半監(jiān)督特征選擇(Semi-Supervised Feature Selection by Spectral Clustering,SS-FSSC)的fMRI數(shù)據(jù)分類模型。利用序統(tǒng)計量相關系數(shù)與皮爾遜相關系數(shù)描述腦區(qū)間功能連接特征,確定基于Constraint得分的特征重要性準則,選擇具有代表性的特征構建特征子集,輸入支持向量機(Support Vector Machine,SVM)進行分類器訓練,最后對大腦特異性進行分析確定重要病變腦區(qū),為精神分裂癥的早期診斷和治療提供支撐。
本文用于研究的數(shù)據(jù)來源于新墨西哥大學生物醫(yī)學研究中心提供的公開數(shù)據(jù)集COBRE(Center for Biomedical Research Excellence),包含了146名被試(年齡:18~65歲)的原始fMRI腦影像數(shù)據(jù)和其他臨床信息,其中有72位(58名男性)精神分裂癥患者和74位(51名男性)健康對照組。該數(shù)據(jù)集不包含近12個月中被診斷為神經系統(tǒng)疾病、智力遲鈍、嚴重頭部外傷、藥物濫用或依賴的受試者。為了平衡不同組間性別與被試數(shù)量的差異,本文將12名健康被試與10名病患移除,故而實驗數(shù)據(jù)為62個精神分裂癥病患與62個健康被試。病患組與對照組部分信息如表1所示。
表1 挑揀后的COBRE數(shù)據(jù)集特性Tab.1 Characteristicsof COBRE dataset after selection
COBRE數(shù)據(jù)集是由3T西門子磁共振成像掃描儀在靜息狀態(tài)下掃描獲取的,具體參數(shù)如下:層厚度=3.5 mm,層間距=1.05 mm,RT=2 000 ms,ET=29 ms,F(xiàn)A=75°,33層軸向切片,獲得大小為64×64的矩陣,掃描視野為240 mm。
為更好地評估模型性能,在本研究中,將挑選后的COBRE數(shù)據(jù)集分為訓練集與測試集兩部分,其中訓練集用于特征譜聚類以及分類器模型的訓練。
特征選擇旨在從原始的特征空間中遴選與任務相關的特征,刪除冗余、無關的特征。FSSC思想以構建具有高分類信息且相互之間低冗余的特征子集為原則,對所有特征進行譜聚類,將相似特征聚到同一類簇中。
本文模型以FSSC思想[6]為基礎進行特征選擇,揭示腦區(qū)間功能連接所隱藏的潛在規(guī)律。首先對數(shù)據(jù)進行預處理,然后利用FSL5.0提供的哈佛牛津地圖集將大腦分成48個腦區(qū),提取fMRI數(shù)據(jù)的時間序列;再選取用于描述腦區(qū)間功能連接的兩種相關系數(shù),將其輸入不同的譜聚類算法進行聚類操作,得到多個類簇,并依據(jù)特征重要性準則,挑出重要特征構成特征子集,將特征子集輸入分類器進行分類。其在fMRI數(shù)據(jù)下的應用流程如圖1所示。
圖1 基于SS-FSSC的fMRI數(shù)據(jù)分類流程Fig.1 Flowchart of fMRIdata classification based on SS-FSSC
其中,F(xiàn)SSC思想算法流程[6]描述如下所示:
輸入:訓練數(shù)據(jù)集D∈Rn×d,n為訓練樣本數(shù),d為特征數(shù);被選特征子集規(guī)模數(shù)k。
輸出:特征子集S。
BEGIN
1)初始化被選特征子集S=?,全部特征集合為F;
2)對全部特征采用譜聚類算法進行譜聚類,得到k個特征簇;
3)利用特征重要性準則計算各特征的Score值,從各特征簇選取Score值最大的特征加入特征子集S;
4)輸出特征子集S。
END
1.2.1 功能連接描述
譜聚類算法本質是將聚類問題轉化為二維圖的最優(yōu)劃分問題,即需要兩個維度的信息來描述聚類樣本,因此需要選取合適的二維信息來描述fMRI數(shù)據(jù)腦區(qū)功能連接特征。杰出統(tǒng)計學家Fisher證明,當樣本滿足二元高斯分布時,皮爾遜積矩相關系數(shù)是母體相關系數(shù)的漸近無偏最優(yōu)估計。故本文中利用皮爾遜積矩相關系數(shù)作為描述功能連接特征的工具之一。
檢測環(huán)境、時空差異都會影響到人腦的活動,而精神狀態(tài)的變化會對靜息態(tài)fMRI信號產生直接影響,在數(shù)據(jù)預處理過程中不能完全消除差異性活動,該情況可以假定為一種腦區(qū)時間序列信號下的輕微非線性畸變。新近提出的方法序統(tǒng)計量相關系數(shù)(Order Statistics Correlation Coefficient,OSCC),可適用于解決樣本存在輕微的單調非線性畸變的情況[7-10];且該相關系數(shù)在fMRI數(shù)據(jù)問題上已得到利用[11],其公式如下所示:
其中:x、y是長度為N+的兩個時間序列,按照xi(i=1,2,…,N+)信號的幅值對兩個時間序列重新排序后,分別得到新的序列x(i)和y(i),其中x信號滿足x(1)≤x(2)≤…≤x(N),即為序統(tǒng)計量,y[1],y[2],…,y[N]為相關性伴隨序列?;Qx和y的 作 用,定 義y的 序 統(tǒng) 計 量 為y(1),y(2),…,y(N),而x[1],x[2],…,x[N]作為其伴隨序列。
綜上,本文選取皮爾遜積矩相關系數(shù)與OSCC作為腦區(qū)功能連接特征的描述,并將所有被試各腦區(qū)的兩個相關系數(shù)均值作為二維特征,然后進行特征譜聚類。
1.2.2 特征譜聚類
特征譜聚類是將特征聚類問題轉換為特征圖切分問題,可以在任意形狀的樣本空間上通過分割子圖來聚類數(shù)據(jù)點,且收斂于全局最優(yōu)解。故切分準則的好壞將直接影響到聚類結果,依據(jù)切分準則的差異,本文分別采用規(guī)范割集準則(Normalized Cut,NCut)算法與比例割集準則(Ratio Cut,RCut)算法進行譜聚類。
對特征進行譜聚類,即以特征為頂點,特征間相似性為頂點連接邊權重,可以利用特征間的潛在聯(lián)系,發(fā)現(xiàn)最優(yōu)的特征簇。本文中,將每個功能連接特征視為圖頂點V,對頂點間的邊賦距離值W,確定基于特征距離的無向加權圖G=(V,E)。
其中|A|、|B|表示子圖A、B中頂點的個數(shù)。比例割集準則Rcut算法兼顧了孤立點與均衡化問題,同時加大了類間樣本相似性,降低了過分分割的幾率,但運行速度較慢。
1.2.3 特征評價準則
特征選擇作為數(shù)據(jù)預處理的重要步驟,其評價準則的優(yōu)劣直接影響到特征子集的優(yōu)劣。理想特征的評判標準是去除無關、弱相關且冗余特征,保留弱相關非冗余特征和強相關特征[12],因此對于特征的選擇既要考慮到相關性又要兼顧到冗余性。
本文利用Constraint得分進行實驗,Constraint得分是一種將成對約束作為監(jiān)督信息的受監(jiān)督的特征選擇算法,其目標為選擇同類樣本間差異小、異類樣本間差異大的特征。Constraint得分需定義must-link約束集M={(xi,xj)|xi,xj同類}和cannot-link約束集C={(xi,xj)|xi,xj異類},然后使用約束集M和C對特征f進行評分,其評分函數(shù)有兩種:
其中:fi表示樣本xi在特征f上的取值,正則化系數(shù)λ平衡式(5)前后兩項的貢獻,λ<1;且特征重要性越高,式(4)與式(5)得分越低。本文選用第一種評分函數(shù)。此外,得到各個類簇中最大得分的特征后,依據(jù)其得分進行降序排列,挑選排在前面一定數(shù)量的特征作為最后的分類訓練特征子集。
采用基于譜聚類半監(jiān)督特征選擇SS-FSSC的fMRI數(shù)據(jù)分類模型,需要先確定譜聚類算法類型與用于輸入分類器的相關系數(shù)類型;此外,還需確定類簇數(shù)與期望保留輸入分類器的特征總量。為得到模型的最優(yōu)參數(shù)解,驗證模型性能,并討論病患腦區(qū)連接異常,將實驗及結果分析分為三部分。
第一部分討論不同譜聚類算法與切割準則下模型的解。采用5折交叉驗證法與分類準確率標準差對比分類性能,并選取指標:準確率(Accuracy,ACC)、敏感性(Sensitivity,SEN)和特異性(Specificity,SPE)來量化最優(yōu)設置下支持向量機SVM分類器的性能。各項指標公式[13]如式(6)~(8)所示:
其中:TP(True Positive)為真陽性的個數(shù),即正確診斷病人的個數(shù);TN(True Negative)為真陰性的個數(shù),即正確診斷正常人的個數(shù);FP(False Positive)為假陽性的個數(shù),即錯誤診斷正常人的個數(shù);TN(False Negative)為假陰性的個數(shù),即錯誤診斷病人的個數(shù)。
第二部分首先將基于全腦功能連接(Functional Connectivity,F(xiàn)C),即利用預處理后fMRI全部數(shù)據(jù)信息進行分類器訓練的方法與本文方法進行對比;然后對本文模型不同分類器設置下的結果進行對比;最后,將不同特征降維方法與本文方法進行對比。
第三部分基于本文模型結果,對病患大腦異常進行分析。
此外,本文利用決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、SVM分類器、主成分分析(Principal Component Analysis,PCA)、BP(Back Propagation)神經網(wǎng)絡、線性判別分析(Linear Discriminant Analysis,LDA)以100次5折交叉驗證實驗結果的平均值比較各算法的性能。其中,SVM分類器的核函數(shù)采用多項式核函數(shù)ploy;PCA設置保留40%的信息;BP神經網(wǎng)絡利用sklearn.neural_network庫中的MLPClassifier函數(shù)實現(xiàn),設置權重優(yōu)化的求解器為adam,啟用early_stopping,其余參數(shù)為默認設置;DT、RF、LDA皆為scikitlearn函數(shù)under different parameters庫默認設置。
本文對靜態(tài)功能連接特征,分別利用譜聚類中規(guī)范割集準則NCut與不規(guī)范的比例割集準則RCut進行聚類,再確定選擇后要輸入SVM分類器的特征數(shù)量,最后分別采用皮爾遜積矩相關系數(shù)與序統(tǒng)計量相關系數(shù)OSCC來表示特征,進行分類器訓練。具體結果如圖2所示,其中類簇數(shù)固定為1 000,SVM核函數(shù)固定為多項式核函數(shù)(Poly),圖例中_G表示grade得分。為保證分類結果的可靠性,本文將五折交叉驗證重復100次,并取其總體平均準確率與總體平均標準差。
由圖2(a)可以看出,當保留特征數(shù)量在0~20時,隨著輸入分類器特征數(shù)量的不斷增加各類模型的準確率快速上升,達到70%時基本趨于穩(wěn)定,本文稱準確率達到70%時保留的特征數(shù)量為模型的臨界點;從圖2(b)可以看出,當保留的特征數(shù)量大于150時,各類模型的準確率開始逐漸下降。其中,各類模型的最值點和臨界點的具體信息如表2所示。
圖2 不同特征數(shù)量下SS-FSSC各類模型的分類準確率Fig.2 Classification accuracy of SS-FSSCwith different featurenumbers
表2 不同參數(shù)下模型的最值點與臨界點信息Tab.2 Information of maximum and critical pointsof themodel
從表2可看出,各類模型最高準確率差異波動在1%~2%,且保留特征數(shù)較少時模型準確率較不穩(wěn)定;從局部看利用OSCC時,SVM分類器能更快達到模型臨界點;從總體看Pearon與Rcut的組合設置能在保留特征數(shù)量較小時,更快達到最優(yōu)解,且OSCC與RCut的組合設置達到了最高的模型準確率。因此,選用準確率ACC、敏感性SEN和特異性SPE來量化OSCC與RCut組合設置下的模型性能,結果如表3所示。
表3 OSCC_RCut設置下模型分類結果評價Tab.3 Evaluation of model classification results under OSCC_RCut setting
2.2.1 FC與SS-FSSC方法下模型分類結果對比
實驗分別選取特征數(shù)量為16和152兩個值,對基于FC和SS-FSSC方法的不同模型的分類結果進行比較,2種方法在不同分類器上的準確率如圖3所示(保留小數(shù)點后3位,若末尾為0則不顯示)。由圖3可以看出,基于譜聚類半監(jiān)督特征選擇的分類模型準確率明顯優(yōu)于基于全腦功能連接特征的各類分類模型,且由圖3(b)可以看出特征數(shù)量值為152時,采用SVM為分類器時平均準確率可達77%,次之是利用隨機森林(RF)的分類結果,最低準確率是在決策樹(DT)上的分類結果;而基于功能連接特征的分類模型,其準確率在各個模型上基本穩(wěn)定于51%左右,基于SVM為分類器的結果有所提高。
圖3 FC與SS-FSSC方法下模型分類結果對比Fig.3 Comparison of model classification resultsunder FCand SS-FSSCmethods
2.2.2 基于不同分類器的分類效果實驗
將基于譜聚類半監(jiān)督特征選擇SS-FSSC的功能連接特征子集輸入不同分類器進行對比,圖4顯示了不同特征數(shù)在臨界點和最值點的分類準確率。
圖4 基于SS-FSSC的不同分類器結果對比Fig.4 Comparison of different classifier resultsbased on SS-FSSC
由圖4可以看出,無論是在臨界點還是最值點,基于SVM的分類效果都要優(yōu)于其他兩類的分類效果,且從圖4(b)可以看出,當特征數(shù)量值為152時,其最高準確率可達95.83%,得到較好的準確率。但是相對于保留152個特征數(shù)量時,保留16個特征數(shù)量的分類結果并不是很穩(wěn)定。本文實驗的最佳效果是基于SVM分類得到的。
2.2.3 基于不同特征降維方法的分類結果對比
實驗分別選取特征數(shù)量為16和152兩個值,將不同特征降維方法PCA、BP神經網(wǎng)絡、LDA與本文方法進行對比,結果如圖5所示。無論是在臨界點還是最值點,本文模型準確率都優(yōu)于常用經典的特征降維方法。
圖5 不同特征降維方法與本文模型分類結果對比Fig.5 Comparison of classification results of different feature dimension reduction methods and the proposed model
由表2可知,選用OSCC作為工具時,保留特征數(shù)16是模型的臨界點,所以認為該16個功能連接是可能的精神分裂癥重要病變功能連接,且其所對應的腦區(qū)可能為重要病變腦區(qū)。具體分布如圖6所示。
圖6中功能連接對應腦區(qū)的出現(xiàn)頻率如表4所示,精神分裂癥重要病變功能連接及其病變腦區(qū)集中分布在左腦。其中距狀裂皮質(Intracalcarine Cortex)出現(xiàn)頻次最高,顳上回前部、楔前皮質、顳下回,顳枕部、扣帶回旁、額葉內側皮質、顳橫回(包括H1和H2)、顳平面、額葉前部出現(xiàn)頻次較高。
圖6 重要病變連接及其對應腦區(qū)Fig.6 Important diseased connectionsand the correspondingbrain regions
依據(jù)以往對精神分裂癥病患的fMRI數(shù)據(jù)研究,認為其主要病變腦區(qū)位于腦島(Insula)、海馬體(Hippocampus)、額葉(Frontal)和顳葉(Temporal)[14-15]。本文的定位的10個腦區(qū)也覆蓋上述區(qū)域。
距狀裂皮質在語言學習和記憶中發(fā)揮重要作用,同時在精神分裂癥研究中的地位已得到廣泛關注[16-18],從表4可知,本文定位的腦區(qū)中距狀裂皮質出現(xiàn)頻次最高,因此上述研究結論與本文實驗結果一致。
表4 重要功能連接對應腦區(qū)出現(xiàn)頻率統(tǒng)計Tab.4 Occurrence frequency statisticsof brain regions corresponding to important functional connections
對精神分裂癥患者的皮質下區(qū)域體積改變的大規(guī)模調查中,發(fā)現(xiàn)患者左右腦存在不對稱,患者左腦蒼白球比右腦蒼白球平均大4%左右,表明精神分裂癥中的神經通路和連接方式異常側向的可能性[19-21],這或許可以解釋本研究中精神分裂癥重要病變功能連接及其病變腦區(qū)集中分布在左腦的結果。
本文提出基于譜聚類半監(jiān)督特征選擇SS-FSSC的fMRI數(shù)據(jù)分類模型。通過皮爾遜積矩相關系數(shù)和OSSC描述腦區(qū)間功能連接特征,利用切分準則將相似性高的特征聚成一類簇,基于Constraint得分進行特征重要性評判,選擇具有代表性的特征構成特征子集,并結合SVM分類器進行分類。經過實驗發(fā)現(xiàn)本文模型僅利用16或17個功能連接特征,就能穩(wěn)定達到70%以上的平均準確率;輸入特征數(shù)為150左右時,達到約為77%的最高平均準確率;同時因模型輸入分類器特征較少,避免了過擬合的問題;最后通過分析上述16個功能連接特征,發(fā)現(xiàn)其集中分布在左腦,并且對應腦區(qū)中距狀裂皮質出現(xiàn)頻次最高,符合現(xiàn)有研究狀況,但其具體原因還需進一步研究。因此,本研究不僅可以用于fMRI數(shù)據(jù)精神分裂癥的輔助診斷中,還對病變腦區(qū)的確定有著重大意義。但是本模型在如何運用新提出的譜聚類算法進行譜聚類、尋求更多數(shù)學方法描述腦區(qū)間功能連接特征、調整特征重要性準則、機器學習算法的融合創(chuàng)新[22]等方面仍有待改進之處。