章文佩 沈群倫 宋錦濤 周仁來
基于事件相關(guān)電位(ERPs)和機(jī)器學(xué)習(xí)的考試焦慮診斷
章文佩沈群倫宋錦濤周仁來
(南京大學(xué)心理系, 南京 210023) (安徽工業(yè)大學(xué)工商管理系, 馬鞍山 243032)(中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院, 北京 100190)
考試焦慮對個體的身心具有嚴(yán)重危害。傳統(tǒng)診斷考試焦慮的方法容易受到個體主觀態(tài)度的影響, 從而影響對個體考試焦慮的發(fā)現(xiàn)與及早干預(yù)。為了克服傳統(tǒng)主觀問卷對考試焦慮群體診斷的不足, 本研究提出腦電神經(jīng)數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)的客觀綜合診斷方法評估個體的考試焦慮水平。研究采用情緒Stroop范式, 結(jié)合腦電技術(shù)測量個體對考試焦慮者的注意抑制功能, 機(jī)器學(xué)習(xí)基于此前提, 提取P1, P2, N2, P3和LPP五種事件相關(guān)電位(ERP)成分, 以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為主采用7種常見的機(jī)器學(xué)習(xí)算法對個體考試焦慮程度進(jìn)行進(jìn)一步的診斷。結(jié)果表明CNN對考試焦慮診斷的準(zhǔn)確率達(dá)86.5%, F1-score為0.911, 顯著高于其他6種常見算法。因此采用CNN對腦電信號進(jìn)行深度學(xué)習(xí)得出的診斷模型能夠有效地對個體的考試焦慮程度進(jìn)行診斷。
機(jī)器學(xué)習(xí); 考試焦慮; 情緒Stroop; ERPs
在中國, 考試是評價個人能力的一種主要手段。作為一種評價性事件, 個體對考試的認(rèn)知會影響個體在面對此類事件時的焦慮程度(Schutz, Davis, & Schwanenflugel, 2002)。當(dāng)個體非常重視考試結(jié)果并因此將考試視為一種威脅, 會出現(xiàn)焦慮的癥狀(Lotz & Sparfeldt, 2017)。高度考試焦慮在各級學(xué)生中的比例都超過20% (陳睿, 劉瀟楠, 周仁來, 2011), 在一些地區(qū)的初中生中這一比例甚至高達(dá)35% (陳祉妍, 2002)。
考試焦慮對個體的身心健康具有嚴(yán)重危害。首先, 在面臨重要考試的時候, 考試焦慮者會體會到一種強(qiáng)烈的擔(dān)憂和情緒反應(yīng), 時時刻刻在擔(dān)心考試的失敗, 他人的評價以及考試結(jié)果的排名(Zeidner & Matthews, 2005)。不僅是心慌、緊張等情緒體驗(yàn), 考試焦慮者還會表現(xiàn)出一系列生理的、行為的反應(yīng), 如出現(xiàn)與植物性神經(jīng)活動失調(diào)相關(guān)的身體反應(yīng)癥狀(如心跳加快、出冷汗、呼吸急促、顫抖等), 并且由此影響個體的生理健康, 影響內(nèi)分泌, 降低免疫功能, 增加感染性疾病、胃部不適及睡眠障礙等軀體疾病(閆慧, 盧莉, 2014)。此外, 高度的考試焦慮往往與抑郁情緒相聯(lián)系(陳睿等, 2011), 而抑郁癥發(fā)病得越早, 越可能影響至終生, 且復(fù)發(fā)率和自殺率越高(王瑋文, 謝希, 邵楓, 2008)。因此, 對考試焦慮進(jìn)行早期的準(zhǔn)確診斷十分必要。
目前, 國內(nèi)外對考試焦慮的研究中所采用的診斷技術(shù)主要采用主觀測評, 具體分為問卷調(diào)查法和訪談法。然而, 想要僅通過主觀測評技術(shù)達(dá)到對考試焦慮進(jìn)行早期識別并準(zhǔn)確診斷其程度并不容易。具體限制在于:(1)真實(shí)性:當(dāng)被試由于某些原因想要隱藏自己真實(shí)的情況時, 采用訪談或者問卷等主觀測評的方法可能會降低評估的準(zhǔn)確性(風(fēng)笑天, 2003), 如學(xué)生不希望自己被老師或者家長知道自己的考試焦慮, 則會選擇更為積極的主觀表述, 從而影響評估結(jié)果。(2)誘導(dǎo)性:主觀評估的過程可能激發(fā)個體的負(fù)性情緒, 如在填答問卷中看到“考試”, “掛科”等字面負(fù)性信息, 或者訪談中提及有關(guān)考試的負(fù)性經(jīng)歷, 個體都有可能會誘發(fā)出相關(guān)的負(fù)性情緒(Diegomantecón, 2015), 從而可能會加重或者影響個體作答時的情緒狀態(tài), 從而影響評估結(jié)果。
為了降低這些限制, 結(jié)合客觀技術(shù)的綜合診斷必不可少。而精確敏感的客觀技術(shù)指標(biāo)需要以考試焦慮的病理模式為基礎(chǔ)??荚嚱箲]者并不總是處在一種不適應(yīng)的狀態(tài)中, 考試焦慮癥狀的出現(xiàn)具有情境性和特異性(Lowe et al., 2008), 當(dāng)沒有或者面對非重要考試相關(guān)事件時, 考試焦慮者并沒有明顯的心理生理不適癥狀, 只會表現(xiàn)出一定的焦慮癥狀, 但當(dāng)重要考試相關(guān)事件出現(xiàn)時, 考試焦慮者的焦慮水平會急速上升, 伴隨著明顯的心理生理反應(yīng), 并進(jìn)一步影響個體的認(rèn)知水平(Lotz & Sparfeldt, 2017; Mok & Chan, 2016)。這表明, 考試焦慮的癥狀是隨著考試焦慮者對考試事件的認(rèn)知而變化的, 即考 試焦慮者越將考試事件視作是一種威脅(即對考試的認(rèn)知越不合理), 越能夠激發(fā)他們的不適癥狀(Mochcovitch, da Rocha Freire, Garcia, & Nardi, 2014)。因此, 考試焦慮者的認(rèn)知模式是對考試焦慮進(jìn)行診斷的重要基礎(chǔ)。
腦電技術(shù)(Electroencephalography, EEG) 可以有效反映個體對特定刺激的情緒狀態(tài)變化、注意及背后的認(rèn)知模式(Edwards, Burt, & Lipp, 2010)。腦電是人腦活動時產(chǎn)生的自發(fā)電位, 具有較高的時間分辨率和敏感性 (Luck, Woodman, & Vogel, 2000), 其中, 事件相關(guān)電位(event-related potentials, ERPs)則是大腦對特定類型刺激的電位反應(yīng), 可以反映個體對特定事件的認(rèn)知模式。考試焦慮者的重要認(rèn)知特點(diǎn)為將考試視為一種威脅, 因此考試相關(guān)威脅信息出現(xiàn)時, 高考試焦慮者更容易將注意資源放在考試相關(guān)威脅信息上(即注意偏向), 并持續(xù)加工這些信息, 對當(dāng)前需要進(jìn)行的任務(wù)產(chǎn)生干擾(Kalanthroff, Henik, Derakshan, & Usher, 2016; Putwain, Langdale, Woods, & Nicholson, 2011)。具體表現(xiàn)為當(dāng)考試相關(guān)(威脅)信息出現(xiàn)時, 高考試焦慮者在ERP的重要成分上有顯著的波幅變化(增加或降低)。
情緒Stroop范式能夠很好地反映高考試焦慮個體對考試威脅信息的認(rèn)知特點(diǎn)(van Bockstaele et al., 2014; Verhaak, Smeenk, van Minnen, & Kraaimaat, 2004)。在情緒Stroop任務(wù)中, 每次給被試呈現(xiàn)一個詞語刺激, 同時包含目標(biāo)維度(顏色)和干擾維度(詞義), 要求被試只專注目標(biāo)維度(即判斷詞的顏色)而忽略干擾維度(即詞義), 詞義分為考試相關(guān)威脅詞(如:掛科)和中性詞(如:街道), 任務(wù)通過比較威脅詞和中性詞條件下的ERP成分變化推斷個體對威脅信息的注意特點(diǎn)(Dennis & Chen, 2009; Gu et al., 2011)。由于高考試焦慮者對考試相關(guān)威脅信息存在注意偏向, 因此, 當(dāng)威脅詞出現(xiàn)時, 相比于低考試焦慮者, 高考試焦慮者會在一些有重要意義的ERP成分上表現(xiàn)出波幅的顯著變化, 可能表現(xiàn)為相對早期的、感覺的, 與自動化加工關(guān)的成分(如P1, P2, N2等成分) (Kanske & Kotz, 2012; Wabnitz, Martens, & Neuner, 2016), 及相對晚期的、認(rèn)知的, 與自主加工和情緒活動相關(guān)的成分(如P3, LPP等成分; Albert, López-Martín, & Carretié, 2010; Raz, Dan, Arad, & Zysberg, 2013)的波幅顯著增強(qiáng)。
采用ERPs技術(shù)對考試焦慮程度評估可以有效降低問卷法的限制:(1)真實(shí)性:ERPs中的特定成分反映的是個體對特定刺激的自動化反應(yīng), 不易于自主控制, 具有高度的客觀性(Righi, Mecacci, & Viggiano, 2009)。(2)誘導(dǎo)性:ERP任務(wù)中呈現(xiàn)的刺激材料往往時間較短, 個體沒有充分的時間對其進(jìn)行加工, 從而對個體(Morel, George, Foucher, Chammat, & Dubal, 2014; Tillman & Wiens, 2011)的情緒和認(rèn)知影響較低。然而ERPs技術(shù)也存在自身的局限性:(1)個體差異性:不同個體之間的腦電幅值可能差異很大, 很難找到具有代表性的有效特征, 使得在使用腦電對不同群體進(jìn)行分類診斷的精確性受到影響(Boshra, Ruiter, Reilly, & Connolly, 2016; 王艷娜, 孫丙宇, 2017)。(2)干擾性:由于腦電指標(biāo)十分敏感, 因此很容易受到外界干擾信號或者內(nèi)部其他類型認(rèn)知的干擾(Cecotti et al., 2011)。因此單獨(dú)使用ERPs技術(shù)進(jìn)行分類診斷的準(zhǔn)確率無法保證。
為了減少ERPs技術(shù)的限制對考試焦慮診斷性的影響, 增加診斷的穩(wěn)定性與準(zhǔn)確性, 我們在腦電技術(shù)的基礎(chǔ)上進(jìn)一步采用機(jī)器學(xué)習(xí)技術(shù)。機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)是一種強(qiáng)力的分類模型, 已經(jīng)在圖像識別(Krizhevsky, Sutskever, & Hinton, 2012), 自然語言處理(Kumar et al., 2016), 文本分類(Yang et al., 2016)等任務(wù)中取得很好的結(jié)果。我們主要采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)這種深度學(xué)習(xí)算法對腦電類型數(shù)據(jù)進(jìn)行模型的建立。在適用性方面, CNN是一種基于普通神經(jīng)網(wǎng)絡(luò)的推廣算法, 特別善于捕捉數(shù)據(jù)的局部特征。腦電數(shù)據(jù)雖然存在個體差異性和干擾性的局限, 但是也存在相對穩(wěn)定性, 即在頭皮上相鄰電極點(diǎn)之間的點(diǎn)位變化具有很大的相關(guān)性, 結(jié)合分析能夠提高準(zhǔn)確性。而CNN可以組合分析相鄰電極點(diǎn)之間的腦電數(shù)據(jù), 通過下采樣的方式來減小數(shù)據(jù)矩陣的大小, 有效減少數(shù)據(jù)的位移、擾動和一些小的變化對數(shù)據(jù)穩(wěn)定性和準(zhǔn)確性的影響, 因此CNN對腦電數(shù)據(jù)具有高度適用性(Lu, Jiang, & Liu, 2017; Seijdel, Ramakrishnan, Losch, & Scholte, 2016)。在具體操作方面, 為了處理一些復(fù)雜的任務(wù), 在傳統(tǒng)的分類模型中, 往往需要對數(shù)據(jù)進(jìn)行很復(fù)雜的特征提取, 然后將得到的特征放入分類模型中進(jìn)行處理。而CNN是一種端對端的算法, 即只需要將經(jīng)過簡單預(yù)處理的數(shù)據(jù)作為模型的輸入, CNN會自動學(xué)習(xí)特征, 并且利用習(xí)得的特征進(jìn)行分類。此外, 同傳統(tǒng)機(jī)器學(xué)習(xí)方法相比, CNN在這一類有空間結(jié)構(gòu)的數(shù)據(jù)上表現(xiàn)遠(yuǎn)超傳統(tǒng)機(jī)器學(xué)習(xí)方法(Lee, 2015; Fotin, Haldankar,& Periaswamy, 2016), 并且已被驗(yàn)證確實(shí)能夠提取出高層次的有用的信息(Zeiler & Fergus, 2014; Mahendran & Vedaldi, 2015), 同時神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)能夠保證它可以實(shí)現(xiàn)對任何一個從輸入向量到輸出向量的連續(xù)映射函數(shù)的逼近(Hornik, 1991)。所以我們認(rèn)為CNN能在ERPs數(shù)據(jù)上取得良好的結(jié)果。
因此, 本文主要關(guān)注考試焦慮的程度評估與診斷問題, 采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對高、低考試焦慮者在情緒Stroop中的ERP腦電信號進(jìn)行分類模型的建立, 并進(jìn)一步使用該模型對被試的考試焦慮進(jìn)行診斷, 試圖探究更為客觀、準(zhǔn)確的考試焦慮診斷方法。
本研究通過海報及網(wǎng)絡(luò)招募的方式招募了82名被試。被試(年齡為18~26歲; 皆為右利手)根據(jù)考試焦慮量表(Sarason, 1978)得分以及兩位專家的綜合評估被分至高考試焦慮組(TAS分?jǐn)?shù):27.85 ± 4.78, 人數(shù)為57人, 男性25人, 年齡:21.27 ± 1.89歲)和低考試焦慮組(TAS分?jǐn)?shù):8.65 ± 2.76, 人數(shù)為25人, 男性12人, 年齡:21.35 ± 2.96歲)。該實(shí)驗(yàn)已經(jīng)通過倫理委員會的審查, 所有被試在實(shí)驗(yàn)前已經(jīng)簽署知情同意書, 均為自愿參加實(shí)驗(yàn), 在實(shí)驗(yàn)之后也獲得相應(yīng)的報酬(40元)。
考試焦慮量表是由美國臨床心理學(xué)家Irwin G. Sarason于1978年編制完成的(Sarason, 1978)。TAS量表共37題, 每個問題要求作是或否的二擇一回答, “是”記1分, “否”記0分, 通過計算總分對考試焦慮程度進(jìn)行評估, 總分范圍為0~37, 得分越高說明考試焦慮的程度越高, TAS得分≥20為高考試焦慮者, TAS得分≤12為低考試焦慮者(Newman, 1996; Wang, 2001)。量表的重測信度為0.61, 同質(zhì)性系數(shù)為0.64。量表的結(jié)構(gòu)效度采用與考試焦慮測驗(yàn)(TAI)的相關(guān)測得, TAS 總量表分和TAI的擔(dān)心(worry)分量表的相關(guān)為0.48; 和TAI的情緒性(emotionality)分量表的相關(guān)為0.60 (王才康, 2001)。
情緒Stroop任務(wù)設(shè)計與前人設(shè)計類似(Thomas, Johnstone, & Gonsalvez, 2007), 要求被試忽略詞義, 只判斷詞的顏色。在材料上:(1)詞義分為兩種條件:考試相關(guān)威脅詞(如“試卷”, “分?jǐn)?shù)”)和中性詞(如“花園”, 鞋子)。詞匯的選取是通過評定的方法:請40位被試(不參加此次實(shí)驗(yàn))根據(jù)威脅度和相關(guān)度篩選出考試相關(guān)威脅詞與中性詞各15個, 并根據(jù)使用頻率進(jìn)行匹配。評定結(jié)果為考試相關(guān)威脅詞的威脅度((38) = 30.19,< 0.001)與相關(guān)度((38) = 38.166,< 0.001)都顯著高于中性詞, 且兩類詞在使用頻率上沒有顯著差異((38) = 1.436,= 0.162)。(2)詞色分為兩種條件:紅色和藍(lán)色。在操作上, 任務(wù)包括兩部分(1)練習(xí)部分:包含6次實(shí)驗(yàn)試次, 但是每次呈現(xiàn)的都是中性詞, 具體設(shè)置與實(shí)驗(yàn)部分(見后文)類似, 且練習(xí)部分中出現(xiàn)的詞都沒有出現(xiàn)在實(shí)驗(yàn)部分中。此外, 每個試次中在被試進(jìn)行反應(yīng)之后程序都呈現(xiàn)“正確”或“錯誤”的反饋(實(shí)驗(yàn)部分不呈現(xiàn)反饋); (2)實(shí)驗(yàn)部分:包含120次試次(每個詞匯隨機(jī)出現(xiàn)4次, 2次為紅色, 2次為藍(lán)色)。每個試次都以計算機(jī)屏幕中央呈現(xiàn)注視點(diǎn)“+”開始, 該注視點(diǎn)停留在屏幕上200 ms, 之后屏幕呈現(xiàn)空白并持續(xù)一定時間(在800至1200 ms之間隨機(jī)), 隨后一個目標(biāo)詞將出現(xiàn)在白色背景下。每個試次在以下兩種情況下結(jié)束:(a)被試完成反應(yīng)(按下按鈕選擇詞匯的顏色), 或者(b)在2000 ms內(nèi)未進(jìn)行反應(yīng)。試次間會出現(xiàn)空白屏幕并持續(xù)一定時間(在1000至1200 ms之間隨機(jī))。
本研究采用NeuroScan公司的64導(dǎo)放大器采集EEG信號。采集時采用左側(cè)乳突作為參考電極。水平眼電分別置于雙眼外眼瞼處, 垂直眼電分別置于左眼上下2.5 cm處。全頭電阻始終保持在5 kΩ以下。EEG信號的采集采用直流電(DC)模式, 分辨率為1000 Hz。
腦電信號的離線處理采用Curry 7.0.8軟件。EEG信號通過雙側(cè)乳突進(jìn)行轉(zhuǎn)參考, 進(jìn)行0~30 Hz的濾波, 并對垂直眼電與質(zhì)量不佳的信號進(jìn)行校正或刪除。ERP成分信息通過疊加被試分別在兩種條件下的EEG信號得出:EEG信號以每次刺激前200 ms至刺激后1000 ms (共計1200 ms)進(jìn)行分段疊加, 采用刺激前200 ms的數(shù)據(jù)作為基線對ERP波形進(jìn)行校正。在具體分析的ERP成分上, 本研究根據(jù)前人文獻(xiàn)(Donaldson, Ait Oumeziane, Hélie, & Foti, 2016; Felmingham, Stewart, Kemp, & Carr, 2016)并結(jié)合本研究的結(jié)果提取出5個具有含義的ERP成分:P1 (120~170 ms), P2 (210~260 ms), N2 (240~290 ms), P3 (320~370 ms)和LPP (450~600 ms), 在每個ERP成分的時間段內(nèi)取峰值作為此成分的數(shù)據(jù)值。最終, 對于每一個被試, 我們采集有64個電極點(diǎn)信號, 每個電極點(diǎn)包含威脅詞, 中性詞兩種條件, 每種條件含有5種ERP成分的峰值數(shù)據(jù), 即一個被試有64×2×5 = 640個數(shù)據(jù)。為了確定這5種成分的選擇是否具有代表性, 我們對分別對5種成分在Fz, FCz, Cz, CPz和Pz五個電極點(diǎn)上的ERP波幅進(jìn)行2(組別高考試焦慮, 低考試焦慮) × 2(條件:考試焦慮威脅詞, 中性詞)的重復(fù)測量方差分析, 從而判斷這5種成分的選取是否能有效區(qū)分高、低考試焦慮者。
在神經(jīng)網(wǎng)絡(luò)任務(wù)中, 我們一般會對數(shù)據(jù)進(jìn)行歸一化或者正則化處理, 這樣可以使模型盡快的收斂, 由于這些數(shù)據(jù)的絕對值都小于15, 我們直接將數(shù)據(jù)除以15, 使它們的取值在(?1, 1)之間。
為了對每種機(jī)器學(xué)習(xí)算法進(jìn)行更為客觀的比較, 我們采取k折交叉驗(yàn)證的方式, 即:將樣本均勻地分為互斥的k份, 保證每一份的樣本個數(shù)相同。一共進(jìn)行k次訓(xùn)練, 每次訓(xùn)練選其中k?1份作為訓(xùn)練集, 剩下一份作為測試集, 最終的指標(biāo)為k次訓(xùn)練之后得到的模型在測試集上指標(biāo)的平均值(見圖1)。一種基于經(jīng)驗(yàn)的k值確定方式為k≈log (n) (Jung, 2018), n為樣本量的大小。這里log (n) = log (82) ≈4.4, 因此我們向上取整取k = 5, 使用5折交叉驗(yàn)證。
卷積操作是卷積神經(jīng)網(wǎng)絡(luò)的核心操作, 通過它模型得以提取數(shù)據(jù)的不同特征, 模型也是通過這一步在數(shù)據(jù)中學(xué)習(xí)到了卷積核的參數(shù)。卷積的操作如圖2, 具體公式為:
圖1 圖中的表示原始數(shù)據(jù)集,,,…D表示將分成的k個相同大小的子集
圖2 卷積操作的計算展示
注:這里的卷積是不進(jìn)行補(bǔ)全的卷積, 即卷積運(yùn)算之后數(shù)據(jù)矩陣會相應(yīng)變小, 同時也有一種補(bǔ)全的卷積操作, 即在原數(shù)據(jù)矩陣周圍添0, 使得卷積之后得到的數(shù)據(jù)矩陣大小不變。
卷積操作是通過卷積核(紅色矩陣)在數(shù)據(jù)矩陣(藍(lán)色矩陣)上進(jìn)行滑動, 將對應(yīng)的元素進(jìn)行相乘相加得到的新元素作為輸出矩陣的對應(yīng)元素。這里輸出數(shù)據(jù)矩陣的長和寬皆為:4?2+1 = 3。黃色矩陣的第一個元素是由1×1+2×0+5×0+6×2 = 13得到, 由于我們的步長是1, 那么將紅色矩陣向右滑動一格, 黃色矩陣的第二個元素由2×1+0×3+6×0+1×2 = 4得到, 其他元素以此類推。使用多個卷積核就可以得到多個不同的輸出, 以此得到輸入數(shù)據(jù)的多個不同特征, 卷積核中的元素是所要訓(xùn)練的參數(shù), 可以通過反向傳播的方式進(jìn)行訓(xùn)練(LeCun & Bengio, 1995)。
池化是卷積神經(jīng)網(wǎng)絡(luò)中常用的一種操作, 它通過降低矩陣長和寬的大小, 降低了數(shù)據(jù)矩陣的分辨率, 但是也進(jìn)一步壓縮并提取了原數(shù)據(jù)的特征, 并且減少了網(wǎng)絡(luò)計算的復(fù)雜度。圖3是一個最大池化操作的直觀展示, 不難看出, 如果數(shù)據(jù)矩陣中的部分?jǐn)?shù)據(jù)發(fā)生一些輕微變化, 最大池化還是能輸出一樣的結(jié)果, 這也是模型對于數(shù)據(jù)的偏移和旋轉(zhuǎn)有較好的魯棒性的原因。
圖3 最大池化的計算展示
注:圖中表示的是一個4×4的矩陣上使用一個2×2的窗口以步長為2進(jìn)行最大池化, 其原理就是取出每個2×2窗口中的的最大元素作為輸出矩陣中對應(yīng)元素的值。
本研究使用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)見圖4。本文中使用的CNN的輸入數(shù)據(jù)維度是64×2×5, 其中64代表64個不同位置的電極點(diǎn), 2代表任務(wù)條件(即威脅詞和中性詞下不同的腦電信息), 5代表5種ERP成分(即P1, P2, N2, P3和LPP成分)。將原始數(shù)據(jù)輸入到卷積層Conv1做卷積計算, 即用一個較小的卷積核(也叫卷積矩陣)在數(shù)據(jù)矩陣上根據(jù)給定的步長(這里步長為1)進(jìn)行滑動, 將對應(yīng)位置的元素進(jìn)行相乘求和。在如圖中輸入數(shù)據(jù)矩陣為64×2×5的情況下, 用16個5×5的卷積核來進(jìn)行卷積操作, 每一個卷積核都進(jìn)行卷積操作就得到16個64×2的矩陣(這里我們使用補(bǔ)全的卷積方式, 于是數(shù)據(jù)矩陣的大小并不發(fā)生改變), 這16個矩陣分別代表16種原數(shù)據(jù)的不同特征, 在深度學(xué)習(xí)中我們稱為通道數(shù)??梢钥闯鼍矸e是一種局部操作, 通過一定大小的卷積核作用于局部數(shù)據(jù)區(qū)域來提取局部信息, 這里卷積核的大小是事先給定的, 里面的參數(shù)由模型學(xué)習(xí)而來, 這些特性使得CNN的參數(shù)可以共享, 減少了參數(shù)個數(shù), 并且在數(shù)據(jù)發(fā)生平移變換的時候, 模型仍能捕捉到相似的特征。為了滿足不同任務(wù)的需要, 近年來, 許多不同的卷積核如空洞卷積也被提出(Yu & Koltun, 2015)。
卷積層一般會跟著一個下采樣操作, 又叫池化層, 即通過一個小矩陣在數(shù)據(jù)矩陣上滑動, 只提取小矩陣中的最大數(shù)據(jù)(最大池化)或平均數(shù)據(jù)(平均池化), 從一個較大數(shù)據(jù)矩陣壓縮到一個較小的矩陣用作下一層的輸入, 這一層沒有參數(shù)需要學(xué)習(xí), 通過池化運(yùn)算可以減少分辨率, 降低數(shù)據(jù)對噪音的敏感程度。在這里Pool1層做的就是池化操作, 通過一個4×1的矩陣在上一卷積層的輸出矩陣中以步長為3滑動, 使該輸出矩陣變?yōu)?2×2×16的大小(22 = [65/4]+1, []表示向下取整)。
圖4 本研究使用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
注:每一層的具體參數(shù)見表1。橫線上的數(shù)據(jù)表示這一層的輸入數(shù)據(jù)的維度, 也即上一層輸出數(shù)據(jù)的維度。Conv代表卷積操作, Pool代表池化操作, relu代表在卷積操作之后的非線性激活方法。
每次池化之后我們都會對輸出的數(shù)據(jù)矩陣做非線性激活, 這一手段使得模型能夠擬合任意的數(shù)據(jù)流形, 常用的非線性激活函數(shù)是relu函數(shù)。即:
()=(0,)
在很多實(shí)驗(yàn)中驗(yàn)證了這是一個非常有效的激活函數(shù), 并且具有生物學(xué)意義, 這種非線性的激活函數(shù)使得卷積神經(jīng)網(wǎng)絡(luò)可以逼近任意數(shù)據(jù)分布, 使得網(wǎng)絡(luò)有了非常強(qiáng)大的擬合能力, 同時也有防止梯度消失的作用(Nair & Hinton, 2010)。
在后面的幾層中我們繼續(xù)做了卷積和池化的操作, 使得數(shù)據(jù)矩陣的長和寬越來越小, 而通道數(shù)越來越多, 即學(xué)習(xí)得到的特征數(shù)越來越多, 這就是卷積神經(jīng)網(wǎng)絡(luò)的特征提取的過程。
傳統(tǒng)的CNN在倒數(shù)幾層架構(gòu)中會將數(shù)據(jù)矩陣展平成一個向量, 再加入幾層全連接網(wǎng)絡(luò), 也就是FC層, 最后一層再用softmax分類器進(jìn)行輸出。而最近的研究指出全連接網(wǎng)絡(luò)會非常容易導(dǎo)致過擬合, 取消中間的全連接層, 而全用卷積層代替, 并且加入平均池化也即Pool3, 可以大大提高模型的泛化性(Lin, Chen, & Yan, 2013), 因此這里我們采用的也是這種架構(gòu)。
最后在經(jīng)過FC層之后能得到一個預(yù)測的類別即被試的考試焦慮或者非考試焦慮, 將預(yù)測的結(jié)果與已知的實(shí)際類別進(jìn)行比較并計算兩者之間的誤差, 使用優(yōu)化算法Adam來優(yōu)化模型中每一層的參數(shù)從而減少誤差, 使預(yù)測的正確率不斷上升, 本文所使用的卷積神經(jīng)網(wǎng)絡(luò)在交叉驗(yàn)證下的正確率達(dá)到了86.6%。本文中的卷積神經(jīng)網(wǎng)絡(luò)的代碼框架是TensorFlow, 在python上進(jìn)行了實(shí)現(xiàn), 并使用了GPU加速, 顯卡配置是2塊Quadro P500。
為了便于說明每一層的結(jié)構(gòu), 我們將卷積和池化分為兩層來介紹, 這里我們建立了一個7層的卷積神經(jīng)網(wǎng)絡(luò)(表1), 通過卷積操作來提取特征, 通過池化來壓縮數(shù)據(jù)的分辨率, 最后采用平均池化提取全局特征, 這一操作可以增加模型的泛化能力。
本文還使用了其他機(jī)器學(xué)習(xí)的分類方法:邏輯回歸(Logistic Regression), K近鄰(KNN), 支持向量機(jī)(SVM), 隨機(jī)森林(Random Forest), 人工神經(jīng)網(wǎng)絡(luò)(ANN), 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN), 并將分類結(jié)果與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較(表2)。其中邏輯回歸是在正負(fù)兩類樣本找到一個線性分類邊界來劃分兩類樣本的算法; K近鄰則是通過計算新樣本與訓(xùn)練集中樣本的“距離”來進(jìn)行新樣本的劃分, 找出訓(xùn)練集中離新樣本“距離”最近的K個點(diǎn), K個點(diǎn)中正(負(fù))類樣本更多, 則新樣本就被預(yù)測為正(負(fù))類樣本, 這里我們使用歐式距離; 支持向量機(jī)通過尋找離分類邊界最近的訓(xùn)練樣本點(diǎn)來找到劃分超平面, 這些樣本點(diǎn)被稱為支持向量; 隨機(jī)森林是多棵決策樹的集成, 通過可放回采樣, 隨機(jī)選取樣本、特征來構(gòu)造多棵決策樹, 根據(jù)每個樹的分類結(jié)果來投票共同決定新樣本的分類結(jié)果; ANN是最普通神經(jīng)網(wǎng)絡(luò), 多層的神經(jīng)網(wǎng)絡(luò)通過多次特征的線性組合與非線性函數(shù)的激活來得到強(qiáng)大的學(xué)習(xí)能力; RNN是ANN的一種推廣, 它使得每一層的神經(jīng)元之間可以互相連接, 從而增加了信息的流動性, 往往應(yīng)用在自然語言處理當(dāng)中。
表1 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
注:通過三次卷積操作提取了數(shù)據(jù)的特征, 將數(shù)據(jù)矩陣的大小進(jìn)行壓縮, 但是數(shù)據(jù)的深度加深, 每次池化操作之后都使用了relu函數(shù)對數(shù)據(jù)矩陣進(jìn)行逐元素激活, 最后加上一個全連接層將每一個樣本進(jìn)行分類。
情緒Stroop的ERP結(jié)果見圖5, 方差分析結(jié)果表明P1, P2, N2, P3和LPP這5種ERP成分對高、低考試焦慮者具有鑒別能力, 即在Fz, FCz, Cz, CPz和Pz點(diǎn)上均有顯著結(jié)果。具體表現(xiàn)為(以Cz點(diǎn)結(jié)果為例), 在5種成分上, 條件主效應(yīng)在P2, N2, 和P3成分上顯著(P2:(1, 80) = 9.25,= 0.003, η= 0.10; N2:(1, 80) = 19.51,< 0.001, η= 0.20; P3:(1, 80) = 27.86,0.001η= 0.26), 在P1和LPP成分上不顯著(s(1, 80) < 1.06,s > 0.307), 組別主效應(yīng)均不顯著(s (1, 80) < 1.52,s > 0.221), 組別與條件交互效應(yīng)均顯著(P1:(1, 80) = 11.68,< 0.001, η= 0.13; P2:(1, 80) = 14.10,< 0.001, η= 0.15; N2:(1, 80) = 28.55,< 0.001, η= 0.26; P3:(1, 80) = 22.41,< 0.001η= 0.22;LPP:(1, 80) = 16.92,< 0.001η= 0.18); 進(jìn)一步簡單分析表明, 高考試焦慮組在考試相關(guān)威脅詞條件下的ERP波幅顯著強(qiáng)于中性詞條件下(P1:(1, 80) = 16.19,<0.001, η= 0.17; P2:(1, 80) = 37.88,< 0.001, η= 0.32; N2:(1, 80) = 78.12,< 0.001η= 0.49; P3:(1, 80) = 82.18,< 0.001η= 0.51; LPP:(1, 80) = 19.55,< 0.001, η= 0.20), 而低考試焦慮組在兩種詞匯條件下的ERP波幅沒有顯著差異(P1, P2, N2, P3:s (1, 80) < 2.06,s > 0.155; LPP:(1, 80) = 4.02,= 0.048, η= 0.05, 邊緣顯著)。
不同機(jī)器學(xué)習(xí)算法比較的結(jié)果見表2。由于這一批數(shù)據(jù)正反兩類的數(shù)目并不均衡, 這里我們使用在測試集上的準(zhǔn)確率和F1-score來評價模型的優(yōu)劣, F1-score是樣本類別不均衡下一種衡量模型好壞的評價指標(biāo), 它是基于查準(zhǔn)率與查全率的調(diào)和平均來定義的, 在這一實(shí)驗(yàn)中, 高考試焦慮人群的數(shù)量遠(yuǎn)多于低考試焦慮人群, 因此在高考試焦慮人群上的準(zhǔn)確性可能會掩蓋低考試焦慮的部分, 相對于單一的準(zhǔn)確性而言F1-score更加全面的衡量了模型在高、低考試焦慮這兩類人群上的準(zhǔn)確性。通過對不同模型間的各類重要指標(biāo)進(jìn)行比較(表2), 我們發(fā)現(xiàn)CNN在這一分類任務(wù)上的各個重要指標(biāo)都顯著高于其他算法。例如, 宿云、胡斌、徐立新、張曉煒和陳婧(2015)在研究中提到的用隨機(jī)森林對EGG信號進(jìn)行分類的方法, 雖然隨機(jī)森林構(gòu)建更快, 需要調(diào)整的參數(shù)也更少, 但是它在某些噪音較大的分類問題上容易過擬合, 且偏向于劃分取值較多的特征, 因此在當(dāng)前數(shù)據(jù)上表現(xiàn)不佳, 同時也有研究指出, 神經(jīng)網(wǎng)絡(luò)往往比隨機(jī)森林得到的結(jié)果更優(yōu)一些(Strier & Shechter, 2016)。因此我們認(rèn)為, 在對于腦電信號的處理方面, 卷積神經(jīng)網(wǎng)絡(luò)確實(shí)有獨(dú)特的優(yōu)勢。
表2 不同機(jī)器學(xué)習(xí)模型的結(jié)果對比
圖5 情緒Stroop任務(wù)的ERP波形圖
注:情緒Stroop任務(wù)中高、低考試焦慮在兩種條件(中性詞和考試相關(guān)威脅詞)下的ERP總平均波形圖(以Fz, FCz, Cz, CPz和Pz電極點(diǎn)為例)。
本研究提出了一種用于考試焦慮程度的診斷方法。該方法使用ERPs技術(shù)采集并分析高、低考試焦慮者在情緒Stroop中對考試相關(guān)威脅詞與中性詞下的ERP成分, 采用機(jī)器學(xué)習(xí)(以CNN算法為主)建立了一個對被試焦慮與否的分類模型, 并且通過一些量化的指標(biāo)說明CNN在這一分類任務(wù)上的表現(xiàn)明顯好于其它5種算法。
首先, 情緒Stroop范式結(jié)合ERPs技術(shù)確實(shí)可以作為一個有效判斷考試焦慮程度的診斷任務(wù)。具體表現(xiàn)為以下三點(diǎn):
(1)范式對考試焦慮程度評估的可靠性與有效性。通過比較不同算法在兩個指標(biāo)上的得分(見表2)可以得出, 采用各模型對被試的ERP數(shù)據(jù)進(jìn)行計算均可以得到較高的準(zhǔn)確率和F1-score, 準(zhǔn)確率高表示模型對高、低考試焦慮兩類人群總的分類能力強(qiáng), F1-score高代表模型對于識別高、低考試焦慮人的能力都強(qiáng)并且不會因?yàn)閮深悩颖镜臄?shù)量不均勻使模型產(chǎn)生偏差。前人研究中表明當(dāng)準(zhǔn)確率大于75%, F1-score大于0.8, 模型就有良好的性能(Dem?ar, 2006)。本研究中所采用的機(jī)器學(xué)習(xí)算法的結(jié)果基本都能滿足這一條件, 這表明對個體應(yīng)用情緒Stroop范式所采集到的ERP數(shù)據(jù)對個體考試焦慮程度的判斷具有穩(wěn)定性, 因此, 證明此任務(wù)具有良好的效度。
(2)機(jī)器學(xué)習(xí)特征選取的有效性和高度客觀性。本研究在機(jī)器學(xué)習(xí)的特征選取中具有重要心理學(xué)意義的特征是任務(wù)條件(即情緒Stroop任務(wù)中的考試相關(guān)威脅條件與中性條件)和ERP成分(即P1, P2, N2, P3和LPP成分), 而通過對腦電結(jié)果的方差分析可以得出這兩種重要特征的選取兼具有效性和客觀性。首先, 方差分析的結(jié)果表明這兩種特征可以有效區(qū)分高、低考試焦慮者。方差結(jié)果表明低考試焦慮者在情緒Stroop任務(wù)中的兩種條件下的ERP波幅沒有顯著差異, 而高考試焦慮者的ERP波幅有顯著差異, 并體現(xiàn)在各個ERP成分上。這說明高考試焦慮者會因?yàn)榭荚囅嚓P(guān)威脅詞的出現(xiàn)而受到干擾, 說明結(jié)合這兩類特征可以有效反映高考試焦慮者認(rèn)知中視考試相關(guān)威脅詞為威脅的認(rèn)知模式(Gootjes, Coppens, Zwaan, Franken, & van Strien, 2011)。其次, 在這5種ERP成分各自代表了不同的心理學(xué)意義并且ERP波幅可以量化, 從而達(dá)到診斷的客觀性與準(zhǔn)確性。具體而言, P1-P2-N2成分反映的是個體對刺激自動化的注意偏向(Berggren & Derakshan, 2013; Derakshan, Smyth, & Eysenck, 2009), P3成分在此類任務(wù)中反映的主要是在個體對信息進(jìn)一步的精細(xì)加工(Jo, Schmidt, Inacker, Markowiak, & Hinterberger, 2016; Peng, Cai, & Zhou, 2015), LPP成分反映的則是個體對刺激的情緒性自動反應(yīng)(Cosme & Wiens, 2015; Gootjes et al., 2011)。本研究的ERP結(jié)果說明當(dāng)考試相關(guān)威脅信息出現(xiàn)時, 高考試焦慮者能夠迅速注意到并自動化加工這類信息(P1-P2-N2成分), 之后高考試焦慮者對這類信息的干擾抑制失敗, 從而對此類信息進(jìn)行進(jìn)一步精細(xì)加工(P3成分), 這種對威脅信息的加工隨后激發(fā)了相應(yīng)的負(fù)性情緒(LPP成分), 因此本研究中的ERP成分可以有效反映高考試焦慮者對考試信息的不合理認(rèn)知(Chen & Zhou, 2010)。最后, 由于高考試焦慮者對考試相關(guān)威脅的反應(yīng)包含高度自動化的反應(yīng), 他們在進(jìn)行任務(wù)的時候往往很難意識到自己對不同類型詞匯的反應(yīng), 無法猜測任務(wù)目的(Yiend, 2010), 因此在使用此模型進(jìn)行考試焦慮篩查時, 可以有效避免由于猜測到任務(wù)目的而有意識地進(jìn)行某種傾向的回答(例如掩蓋焦慮程度或者夸大焦慮程度), 達(dá)到診斷的客觀性與準(zhǔn)確性。
(3)情緒Stroop范式結(jié)合ERPs技術(shù)評估手段的可操作性。完成一次情緒Stroop任務(wù)只需要5分鐘, 且實(shí)驗(yàn)范式規(guī)則簡單易懂, 具有高度有效性與可靠性(van Bockstaele et al., 2014; Verhaak et al., 2004), 因此能夠很好地應(yīng)用到實(shí)際診斷。
其次, 不同算法的比較可以得出我們建立的卷積神經(jīng)網(wǎng)絡(luò)模型具有良好的區(qū)別高、低考試焦慮者的能力。具體表現(xiàn)為以下三點(diǎn):
(1)高準(zhǔn)確率。相比于其他算法, CNN的算法具有最高的準(zhǔn)確率(86.5%)和F1-score (0.911)。因?yàn)镃NN模型擁有對數(shù)據(jù)的平移不變性, 并且能夠捕捉數(shù)據(jù)的局部特性和提取更高級的特征(Boureau et al., 2010), 因此使得卷積神經(jīng)網(wǎng)絡(luò)相對于其他模型而言, 對腦電數(shù)據(jù)的分析具有更高的適用性, 因此有比較明顯的提升。因此, 本研究建立的CNN診斷模型具有高度準(zhǔn)確性, 可靠性和普適性, 同時由于F1-score很高, 這一模型在識別高、低考試焦慮上都有很高的準(zhǔn)確度。
(2)診斷精確性。在應(yīng)用CNN模型對考試焦慮進(jìn)行診斷時, 不僅可以對個體是否是考試焦慮者進(jìn)行診斷, 還可以分析出其考試焦慮的程度。在操作層面上, 卷積神經(jīng)網(wǎng)絡(luò)最后一層輸出的是直接的分類結(jié)果, 對于一個新的被試, 只要輸入數(shù)據(jù), 就可以判定他是否是考試焦慮, 而倒數(shù)第二層輸出的結(jié)果是該被試是高考試焦慮或低考試焦慮的概率。這個概率可以反映被試個體的考試焦慮程度, 即屬于高考試焦慮這一類的概率越大, 被試的考試焦慮程度越大。因此, 通過對高、低考試焦慮者在情緒Stroop中的ERP腦電信號進(jìn)行機(jī)器學(xué)習(xí)的結(jié)果可以有效對個體的考試焦慮程度進(jìn)行客觀診斷。
(3)可操作性。雖然對比于傳統(tǒng)機(jī)器學(xué)習(xí)方法, 卷積神經(jīng)網(wǎng)絡(luò)的模型搭建需要仔細(xì)的調(diào)參, 花費(fèi)更多地時間, 但是一旦模型建立, 進(jìn)行預(yù)測就會非??? 特別是對于大量數(shù)據(jù)而言, 深度學(xué)習(xí)模型有非常大的優(yōu)勢。
本研究的局限主要在于兩點(diǎn):首先, 本研究中數(shù)據(jù)量不高, 深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動的模型, 即深度模型強(qiáng)大的泛化能力來自于龐大的數(shù)據(jù)量, 由于我們的數(shù)據(jù)量有限, 因此這可能會降低模型的泛化能力。未來可考慮建立大數(shù)據(jù)數(shù)據(jù)庫, 并使用數(shù)據(jù)增強(qiáng)等一系列手段提升數(shù)據(jù)量, 模型的表現(xiàn)可能有更進(jìn)一步的提升; 其次, 本研究提出的綜合診斷方法需要借助腦電設(shè)備, 相對于單純采用問卷進(jìn)行診斷還是限制更多。不過隨著便攜腦電設(shè)備的不斷發(fā)展, 此診斷方法會變得越加便利。
在本研究中, 我們試圖通過卷積神經(jīng)網(wǎng)絡(luò)來對考試焦慮進(jìn)行更加客觀的診斷, 目標(biāo)是達(dá)到對考試焦慮的及早診斷考試焦慮程度評估。從機(jī)器學(xué)習(xí)的兩個重要指標(biāo)上的表現(xiàn)來看, 各類模型是相當(dāng)有效的, 其中, CNN模型是最適用于ERP數(shù)據(jù)的深度學(xué)習(xí), 對考試焦慮的診斷及程度判斷具有很高的準(zhǔn)確率與可靠性。
Albert, J., López-Martín, S., & Carretié, L. (2010). Emotional context modulates response inhibition: Neural and behavioral data.,(1), 914–921.
Berggren, N., & Derakshan, N. (2013). Attentional control deficits in trait anxiety: why you see them and why you don’t.,(3), 440–446.
Boshra, R., Ruiter, K., Reilly, J., & Connolly, J. (2016). Machinelearning based framework for EEG/ERP analysis.,, 105.
Boureau, Y-L., Bach, F., LeCun, Y., & Ponce, J. (2010, June). Learning mid-level features for recognition. In(pp. 2559–2566). IEEE.
Cecotti, H., Rivet, B., Congedo, M., Jutten, C., Bertrand, O., Maby, E., & Mattout, J. (2011). A robust sensor-selection method for P300 brain-computer interfaces.,(1), 016001.
Chen, R., Liu, X. N., & Zhou, R. L. (2011). The attentional bias to threat stimuli in test-anxious students.,(1), 151–154.
[陳睿, 劉瀟楠, 周仁來. (2011). 不同程度考試焦慮個體對威脅性刺激注意機(jī)制的差異.,(1), 151–154.]
Chen, R., & Zhou, R. (2010). Attentional disengage from test-related pictures in test-anxious students: Evidence from event-related potentials.,, 232–239.
Chen, Z. Y. (2002). Fear of negative evaluation and test anxiety in middle school students.,(12), 855–857.
[陳祉妍. (2002). 中學(xué)生負(fù)面評價恐懼與考試焦慮的相關(guān)性.,(12), 855–857.]
Cosme, D., & Wiens, S. (2015). Self-reported trait mindfulness and affective reactivity: A motivational approach using multiple psychophysiological measurese.,(3), e0119466.
Dem?ar, J. (2006). Statistical comparisons of classifiers over multiple data sets.,, 1–30.
Dennis, T. A., & Chen, C-C. (2009). Trait anxiety and conflict monitoring following threat: An ERP study.,(1), 122–131.
Derakshan, N., Smyth, S., & Eysenck, M. W. (2009). Effects of state anxiety on performance using a task-switching paradigm: An investigation of attentional control theory.,(6), 1112–1117.
Diegomantecón, J. (2015). Instrument adaptation in cross-cultural studies of students’ mathematics-related beliefs: Learning from healthcare research.,(4), 545–567.
Donaldson, K. R., Ait Oumeziane, B., Hélie, S., & Foti, D. (2016). The temporal dynamics of reversal learning: P3 amplitude predicts valence-specific behavioral adjustment.,, 24–32.
Edwards, M. S., Burt, J. S., & Lipp, O. V. (2010). Selective attention for masked and unmasked threatening words in anxiety: Effects of trait anxiety, state anxiety and awareness.,(3), 210–218.
Felmingham, K. L., Stewart, L. F., Kemp, A. H., & Carr, A. R. (2016). The impact of high trait social anxiety on neural processing of facial emotion expressions in females.,, 179–186.
Feng, X. (2003). Result representation and method application: Analysis of 141 investigations.,(2), 28–38.
[風(fēng)笑天. (2003). 結(jié)果呈現(xiàn)與方法運(yùn)用——141項(xiàng)調(diào)查研究的解析.,(2), 28–38.]
Fotin, S. V., Yin, Y., Haldankar, H., Hoffmeister, J. W., & Periaswamy, S. (2016, March). Detection of soft tissue densities from digital breast tomosynthesis: comparison of conventional and deep learning approaches. In(Vol. 9785, p. 97850X). International Society for Optics and Photonics.
Gootjes, L., Coppens, L. C., Zwaan, R. A., Franken, I. H. A., & van Strien, J. W. (2011). Effects of recent word exposure on emotion-word Stroop interference: An ERP study.,(3), 356–363.
Gu, R., Lei, Z., Broster, L., Wu, T., Jiang, Y., & Luo, Y-J. (2011). Beyond valence and magnitude: A flexible evaluative coding system in the brain.,(14), 3891–3897.
Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks.,(2), 251–257.
Jo, H-G., Schmidt, S., Inacker, E., Markowiak, M., & Hinterberger, T. (2016). Meditation and attention: a controlled study on long-term meditators in behavioral performance and event-related potentials of attentional control.,, 33–39.
Jung, Y. (2018). Multiple predicting K-fold cross-validation for model selection.,(1), 197–215.
Kalanthroff, E., Henik, A., Derakshan, N., & Usher, M. (2016). Anxiety, emotional distraction, and attentional control in the Stroop task.,(3), 293–300.
Kanske, P., & Kotz, S. A. (2012). Effortful control, depression, and anxiety correlate with the influence of emotion on executive attentional control.,(1), 88–95.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In(pp. 1097–1105).
Kumar, A., Irsoy, O., Ondruska, P., Iyyer, M., Bradbury, J., Gulrajani, I., … Com, R. (2016). Ask me anything: Dynamic memory networks for natural language processing.(pp. 1378–1387).
LeCun, Y., & Bengio, Y. (1995). Convolutional networks for images, speech, and time-series.(pp. 255–258). M. A. Arbib, Ed.Cambridge, MA: MIT Press.
Lee, A. (2015). Comparing deep neural networks and traditionalvision algorithms in mobile robotics..Retrieved from http://cs.swarthmore.edu
Lin, M., Chen, Q., & Yan, S. (2013). Network in network.. Retrieved from https:// arxiv.org/abs
Lotz, C., & Sparfeldt, J. R. (2017). Does test anxiety increase as the exam draws near? – students’ state test anxiety recorded over the course of one semester.,, 397–400.
Lowe, P. A., Lee, S. W., Witteborg, K. M., Prichard, K. W., Luhr, M. E., Cullinan, C. M., ... Janik, M. (2008). The Test Anxiety Inventory for Children and Adolescents (TAICA) examination of the psychometric properties of a new multidimensional measure of test anxiety among elementary and secondary school students.,(3), 215–230.
Lu, Y., Jiang, H., & Liu, W. (2017, September). Classification of EEG signal by STFT-CNN framework: identification of right-/left-hand motor imagination in BCI systems. In(Vol. 299, p. 001).
Luck, S. J., Woodman, G. F., & Vogel, E. K. (2000). Event-related potential studies of attention.,(11), 432–440.
Mahendran, A., & Vedaldi, A. (2015). Understanding deep image representations by inverting them. In(pp. 5188–5196).
Mochcovitch, M. D., da Rocha Freire, R. C., Garcia, R. F., & Nardi, A. E. (2014). A systematic review of fMRI studies in generalized anxiety disorder: evaluating its neural and cognitive basis.,, 336–342.
Mok, W. S. Y., & Chan, W. W. L. (2016). How do tests and summary writing tasks enhance long-term retention of students with different levels of test anxiety?,(6), 567–581.
Morel, S., George, N., Foucher, A., Chammat, M., & Dubal, S. (2014). ERP evidence for an early emotional bias towards happy faces in trait anxiety.,(1), 183–192.
Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In(pp. 807–814).
Newman, E. (1996).Los Angeles: Learning Skills Publications.
Peng, M., Cai, M., & Zhou, R. (2015). Processing of task-irrelevant emotional faces impacted by implicit sequence learning.,(17), 1056–1060.
Putwain, D. W., Langdale, H. C., Woods, K. A., & Nicholson, L. J. (2011). Developing and piloting a dot-probe measure of attentional bias for test anxiety.,(4), 478–482.
Raz, S., Dan, O., Arad, H., & Zysberg, L. (2013). Behavioral and neural correlates of emotional intelligence: An event- related potentials (ERP) study.,, 44–53.
Righi, S., Mecacci, L., & Viggiano, M. P. (2009). Anxiety, cognitive self-evaluation and performance: ERP correlates.,(8), 1132–1138.
Sarason, I. G. (1978). The test anxiety scale: Concept and research. In(Vol. 5, pp. 193–216).Washington DC: Hemisphere.
Schutz, P. A., Davis, H. A., & Schwanenflugel, P. J. (2002). Organization of concepts relevant to emotions and their regulation during test taking.,(4), 316–342.
Seijdel, N., Ramakrishnan, K., Losch, M., & Scholte, S. (2016). Overlap in performance of CNN’s, human behavior and EEG classification.,(12), 501.
Strier, R., & Shechter, D. (2016). Visualizing access: Knowledge development in university-community partnerships.,(3), 343–359.
Su, Y., Hu, B., Xu, L. X., Zhang, X. W., & Chen, J. (2015). EEG-data-oriented knowledge modeling and emotion recognition.,(11), 1002–1009. https://doi.org/10.1360/N972014-00829
[宿云, 胡斌, 徐立新, 張曉煒, 陳婧. (2015). 面向腦電數(shù)據(jù)的知識建模和情感識別.,(11), 1002–1009.]
Thomas, S. J., Johnstone, S. J., & Gonsalvez, C. J. (2007). Event-related potentials during an emotional Stroop task.,(3), 221– 231.
Tillman, C. M., & Wiens, S. (2011). Behavioral and ERP indices of response conflict in Stroop and flanker tasks.,(10), 1405–1411.
van Bockstaele, B., Verschuere, B., Tibboel, H., de Houwer, J., Crombez, G., & Koster, E. H. W. (2014). A review of current evidence for the causal impact of attentional bias on fear and anxiety.,(3), 682–721.
Verhaak, C. M., Smeenk, J. M., van Minnen, A., & Kraaimaat, F. W. (2004). Neuroticism, preattentive and attentional biases towards threat, and anxiety before and after a severe stressor: A prospective study.,(4), 767–778.
Wabnitz, P., Martens, U., & Neuner, F. (2016). Written threat: electrophysiological evidence for an attention bias to affective words in social anxiety disorder.,(3), 516–538.
Wang, C. K. (2001). Reliability and validity of test anxiety scale-Chinese version.,(2), 96–97.
[王才康. (2001). 考試焦慮量表在大學(xué)生中的測試報告.,(2), 96–97.]
Wang, W.-W., Xie, X., & Shao, F. (2008). Early-onset depression and its neural basis.,(3), 411–417.
[王瑋文, 謝希, 邵楓. (2008). 早發(fā)性抑郁及其神經(jīng)基礎(chǔ).,(3), 411–417.]
Wang, Y-N., & Sun, B-Y. (2017). Cigarette craving EEG classification based on convolution neural networks.,(6), 256–260.
[王艷娜, 孫丙宇. (2017). 基于卷積神經(jīng)網(wǎng)絡(luò)的煙癮渴求腦電分類.,(6), 256–260.]
Yan, H., & Lu, L. (2014). Effects of exam stress on psychosomatic response saliva immuneglobulin and cortisol among medical college student.,(6), 813–816.
[閆慧, 盧莉. (2014). 考試應(yīng)激對醫(yī)學(xué)生心身反應(yīng)唾液免疫球蛋白及皮質(zhì)醇的影響.,(6), 813–816.]
Yang, Z., Yang, D., Dyer, C., He, X., Smola, A., & Hovy, E. (2016). Hierarchical attention networks for document classification., 1480–1489.
Yiend, J. (2010). The effects of emotion on attention: A review of attentional processing of emotional information.,(1), 3–47.
Yu, F., & Koltun, V. (2015). Multi-scale context aggregation by dilated convolutions..Retrieved from https://arxiv.org/abs
Zeidner, M., & Matthews, G. (2005). Evaluation anxiety. In A. J. Elliot & C. S. Dweck (Eds.),(pp. 141–163). London: Guildford Press.
Zeiler, M. D., & Fergus, R. (2014, September). Visualizing and understanding convolutional networks. In(pp. 818–833). Springer, Cham.
Classification of test-anxious individuals using Event-Related Potentials (ERPs): The effectiveness of machine learning algorithms
ZHANG Wenpei; SHEN Qunlun; SONG Jintao; ZHOU Renlai
(Department of Psychology, Nanjing University, Nanjing, 210023, China)(Department of Business Administration, School of Business, Anhui University of Technology, Maanshan, 243032, China) (Academy of Mathematics and Systems Science, Chinese Academy of Sciences, 100190, China)
Individuals with test anxiety always treat tests/examinations as a potential threat. This cognitive mode impairs these individuals’ cognition, attention and emotions. A traditional method classifying subjects either as high or low on test anxiety (i.e., HTA or LTA, respectively) relies on questionnaire data. Questionnaire data may be unstable due to the subjective nature of participants’ attitudes, implying a reduced classification accuracy. In search for higher levels of (data) stability and classification accuracy a new classification approach is proposed. This new approach overcomes subjective data’s negative impact on classification accuracy by relying on event-related potential (EPR) data (also referred to as ERPs), objective (multivariate, longitudinal) data which adequately capture participants’ reactions to relevant stimuli (over time). However, as ERP data may still be somewhat unstable due to individual differences between participants, (machine) learning algorithms are adopted as their ‘learning’ feature may increase both the stability of ERP data and classification accuracy.
This study recruited 57 HTA participants and 25 LTA participants based on: (a) Test Anxiety Scale (TAS) scores, and (b) (two) specialists’ psychological diagnostic results on a single participant. Reliance on the emotional Stroop (ES) paradigm in combination with ERP technology enabled the assessment of participants’ cognitive mode related to test anxiety. In ES, the information on the ERP components P1, P2, N2, P3 and LPP ERP were selected as input for seven commonly used machine learning algorithms: Convolutional Neural Network (CNN), Logistic Regression (LR), K Nearest Neighbors (KNN), Support Vector Machine (SVM), Random Forest (RF), Artificial Neural Network (ANN), and Recurrent Neural Network (RNN). To compare the classification accuracy of these algorithms (using the complete sample of HTA and LTA subjects) important indexes (i.e., accuracy and F1-score) were calculated and compared across these algorithms.
The results showed that: (a) the ERPs data collected in ES allow effective differentiation between HTA and LTA (P1:(1, 80) = 11.68,< 0.001, η= 0.13; P2:(1, 80) = 14.10,< 0.001, η= 0.15; N2:(1, 80) = 28.55,< 0.001, η= 0.26; P3:(1, 80) = 22.41,< 0.001η= 0.22;LPP:(1, 80) = 16.92,< 0.001η= 0.18); (b) classification on the basis of ERP data using machine learning algorithms shows high accuracy and stability, that is the classification accuracy of all seven algorithms is found to be high as evidenced by an accuracy index of 71.8% or higher (CNN: 86.5%, LR: 80.3%, KNN: 71.8%, SVM: 79.0%, RF: 73.1%, ANN: 82.7%, and RNN: 79.2%) and an F1-score of 0.814 or higher (CNN: 0.911, LR: 0.868, KNN: 0.817, SVM: 0.865, RF: 0.814, ANN: 0.882, and RNN: 0.870); (c) CNN outperforms the other six common machine learning algorithms showing both the highest accuracy index and F1-score. Moreover, as over and above this (relative) superiority CNN combines the (technical) property known as ‘shift invariance’ and robustness to noise, the algorithm may be considered ideal for effectively classifying test anxious individuals using ERP data.
It is concluded that: (a) as manifested by its ‘discriminatory’ nature and stable classification performance (as evidenced by all machine learning algorithms’ favorable values for all important indices) reliance on the ES paradigm enables machine learning leading up to effective diagnosis of test anxiety; and (b) participants’ classification into HTA and LTA by relying on ERP data which are subsequently analyzed by means of the machine learning algorithm CNN is (most) effective (i.e., as benchmarked against six other commonly used machine learning algorithms). Consequently, using ES in combination with ERP technology and the CNN machine learning algorithm can be conceived as an ideal method for diagnosing test anxiety.
machine learning; test anxiety; emotional Stroop; ERPs
2018-10-29
* 中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(14370303)、江蘇省普通高校學(xué)術(shù)學(xué)位研究生科研創(chuàng)新計劃項(xiàng)目(KYZZ16_0010)和安徽省高校人文科學(xué)研究項(xiàng)目(SK2017A0084)資助。
章文佩與沈群倫為共同第一作者
R395
周仁來, E-mail: rlzhou@nju.edu.cn