黃慶坤 艾斯克爾·米吉提 楊鵬
(1.大理護理職業(yè)學院 云南省大理市 671000 2.南京財經大學 江蘇省南京市 210000)
腦科學研究的目的之一是從大腦中“讀出”受試者的感受或他正在經歷的視聽情境。該研究基于以下假設:對于被試所受到到的外部特征刺激與他們大腦中某些組織的活動之間存在一定的映射關系。為了驗證這個假設,我們需要兩個前提:Step1 需要準確定位大腦的活動區(qū)域,并檢測它們的活動變化;Step2 需要通過算法來描述出該映射關系。對于Step1,功能性磁共振成像(functional magnetic resonance imaging,fMRI)可以檢測到相關腦激活區(qū)血氧的微小變化進行功能成像,能夠很好地反映大腦的動態(tài)活動,在有限延遲的情況下準確定位不同的活動組織。對于Step2,大多采用fMRI 數據研究方法,引入統(tǒng)計學習和人工智能原理,結合深度學習和機器學習算法,解碼大腦認知狀態(tài)?;诂F(xiàn)階段研究,本文主要對以下兩方面進行討論:
(1)在獲取任務態(tài)fMRI 數據后怎樣對相應任務激活腦區(qū)進行定位研究;
(2)怎樣找到各特征變化率序列以及腦功能圖像序列間的映射關系,并泛化到數據中用來實現(xiàn)分類。
由于fMRI 數據存在時序性特征,假設BOLD 信號沒有任何噪音干擾,能直接顯示神經活動,實驗就可通過分析時間序列來建立預測模型,通過預測變量與實際fMRI 信號進行統(tǒng)計分析,進而觀察體素對刺激任務的響應狀態(tài)。但是神經活動本身存在復雜多變性,使得fMRI 數據存在著噪聲大的特點,導致了fMRI 數據存在著有效信息提取困難等問題。因此本文首先在被試間進行一級模型分析(First level model),通過將血液動力學響應函數(HRF)與設計矩陣中定義的一組預測變量進行卷積,將每個體素的時間序列與預測的BOLD 響應進行回歸,提取感興趣區(qū)域(ROI);其次通過機器學習算法建立分類模型,在超參數尋優(yōu)方法下通過交叉驗證(Cross-Validation)來進行算法評估。
分類分析的任務是建立每個特征的變化率序列與腦功能圖像之間的映射關系(預測特征變化率序列的準確性)。給定數據集T={(x,y),…(x,y)},其中x∈X表示功能掃描下大腦體素(voxel)特征的活動序列,y∈Y表示具有時間序列的任務類別,其中tr 時間序列 ,p 是對應于特征率體素的個數。通過尋找X上的決策函數J(x): X →Y,實現(xiàn)從實現(xiàn)體素到目標任務的特征映射:
Haxby 數據集是一個塊設計的任務態(tài)fMRI 數據集,來自于對大腦腹側顳葉皮層中面部和物體表征的研究。在每一次掃描中,被試參與八個物體類別的灰度圖像任務,按24 秒的時間段分組,每幅圖像顯示500ms,1500ms 的刺激間隔,2.5s 的重復掃描時間(TR)。在實驗之前需要標準的預處理步驟:圖像格式轉換、時間層校正、頭部運動校正、空間歸一化、去線性漂移、帶通濾波(0.01~0.08hz)、回歸獨立信號等。
表1:
由于fMRI 數據具有時序性,在被試間可通過與功能掃描(session)下對應的任務刺激類別(events)構建設計矩陣(Design matrix)進行建模分析(一級模型)。在實驗中,通過將血液動力學響應函數(HRF)與設計矩陣中定義的預測變量進行卷積構建BOLD 信號,并通過回歸模型預測大腦體素的時序性(任務相關激活體素,例如一組激活體素可能對應face 圖像任務,而另一組激活體素可能對應cat 圖像任務),見圖1。
圖1: GLM 實驗圖。圖1(a)為實驗設計圖,圖1(b)為設計矩陣,圖1(c)為全腦β 值圖。對每個被試進行一級模型分析,在被試組級進行二級模型分析,設計矩陣對應每個Run 中的圖像任務,通過設計矩陣來進行GLM 回歸,此時fMRI 數據被描述為包含一組回歸變量(X1,X2)的模型(X)的線性組合-E.q(3),結果是一組β 值的全腦圖(圖1(c)),β 值反映了每組成份與任務的相關性大小。
基于上述GLM 建模分析,實驗構建subject1 到subject6被試的fMRI 數據集。Step1. 提取(mask)被試ROI 的激活體素值構建特征向量;Step2. 通過機器學習算法構建決策函數,實現(xiàn)激活體素到類別標簽的特征映射-E.q(4),其中實驗對比了支持向量機、貝葉斯、決策樹和神經網絡分類算法;Step3. 通過通過K-Fold 交叉驗證法來進行分類實驗,為了降低實驗模型的復雜度,實驗采用了一種集成方法(Method of Pipeline),通過方差分析(anova)與特征選擇(SelectKBest),使用前K 個與標簽最相關的特征進行實驗,其中對于分類結采用準確率:acc(f;N)=∫∏(f(x)=y)p(x) dx 來進行模型評估,其中N 為數據分布,p(·)為概率密度函數。在被試組subject1 到subject6,對比不同模型在圖像刺激任務下的分類結果,見表2。在支持向量機分類模型中使用三種核函數進行參數映射:
表2:
其中γ,θ,d,δ 是核參數并且γ>0。通過超參數尋優(yōu)算法得到最佳核參數“l(fā)inear”:C=0.01;“rbf”:C=100,gamma=0.001;“poly”:C=100,degree=4,gamma=0.001。
從表2 中可以看出通過SMV(rbf)分類準確率值均值最高92%(最佳閾值)。并且SVM(linear)模型也取得不錯的分類結果。由于神經網絡分類效果受隱藏層個數與神經元節(jié)點數影響(hidden_layer=5,每層200 個神經元節(jié)點,Adam 優(yōu)化算法,learning_rate=0.001),分類效果較差。SVM(poly)、貝葉斯分類器以及決策樹在改組數據上分類結果不理想。實驗通過SVM(linear)和SVM(poly)分類模型在被試組進行對比分析,見圖2,從圖中可看出每個被試針對同一組圖像任務所得的分類結果不同,并且泛化到subjects 組間SVM(rbf)分類結果優(yōu)于SVM(linear)(被試間存在個體差異性)。
圖2: subjects-各外部特征率分類結果對比。橫坐標為K 值,縱坐標為對應K 值的準確率。
通過實驗研究發(fā)現(xiàn),不同的分類模型所得到的準確率不同,其中SVM(rbf)預測準確率最高(92%),但需要注意的是算法之間并不存在優(yōu)劣性。對于fMRI 數據的高維稀疏性使得線性模型具有很強的適應能力,盡管fMRI 數據通過預處理后具有較低的信噪比,但是線性疊加有助于抵消大量噪音,并且預測結果穩(wěn)定性較好,具有很好的操作性。因此,在實驗中SVM 模型預測效果優(yōu)于其他分類模型,但不同的是,線性SVM 不直接依賴于數據分布,只有少數幾個代表支持向量的樣本參與了計算,分類平面不受一類點影響,進而SVM 算法在不同圖像任務下能取得較穩(wěn)定的預測得分。盡管通過實驗實現(xiàn)對Task-fMRI 數據進行分類,但結果任然存在誤差,這是由于被試間存在個體的差異性(BOLD信號之間差異性等)、算法模型復雜度(特別地,在實驗中神經網絡模型分類由于受隱藏層個數、神經元節(jié)點等參數的約束)等問題,加之傳統(tǒng)機器學習模型都為淺層模型,對fMRI 數據樣本少、維度高的特性仍然存在特征選擇問題(先驗知識):對fMRI 圖像局部特征提取較弱,未能充分處理fMRI 數據隱含的時序特征。因此,在下一步研究中,將更充分地挖掘大腦隱藏體素,針對于fMRI 數據特性嘗試遞歸特征消除、通過構建動態(tài)相關矩陣并進行非負稀疏矩陣分解等算法更好地進行特征提取,并且針對于分類模型,將嘗試運用深度學習算法,并通過遷移學習等更好的解決小樣本學習帶來的問題。