穆家寶
(中國科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥 230026)
雙相抑郁癥(Bipolar Disorder),即雙相抑郁障礙,也稱躁狂抑郁癥,是一種能夠引起患者心情大起大落變化的疾病?;颊呒扔性昕癖憩F(xiàn),又有抑郁癥癥狀表現(xiàn)。躁狂時(shí)自我感覺良好、精力充沛、積極樂觀、思維活躍,又或脾氣暴躁、行事沖動(dòng);抑郁時(shí)則情緒低落、興趣減退、極度自卑。患者情感發(fā)作形式不限,可以是抑郁發(fā)作、躁狂發(fā)作,也有部分患者在一段時(shí)間內(nèi)出現(xiàn)躁狂和抑郁的反復(fù)交替。
由于雙相抑郁癥患者會(huì)經(jīng)歷躁狂和抑郁兩種不同的發(fā)作情況,因此它的確診要比其他精神疾病更加困難。據(jù)統(tǒng)計(jì),雙相抑郁癥患者的平均確診時(shí)間高達(dá)8年。每兩名雙相抑郁癥患者中就有一人在其一生中至少嘗試過一次自殺行為,且很多患者通過自殺結(jié)束生命,年平均自殺率高達(dá)0.4%[1],是普通人群的10~20倍[2]。雙相抑郁癥患者的終身自殺風(fēng)險(xiǎn)高達(dá)20%[3]。
大多數(shù)雙相抑郁癥患者都是在躁狂發(fā)作期間自殺的,這主要是因?yàn)榛颊咴谝钟羝诜e攢的負(fù)面消極情緒被躁狂發(fā)作時(shí)的沖動(dòng)點(diǎn)燃,將自殺的念頭轉(zhuǎn)化為自殺的行為,造成了雙相抑郁癥患者的高自殺率[4]。因此,如果能夠開發(fā)一種算法可以自動(dòng)評估雙相患者此時(shí)所處的狀態(tài)(Mania/Hypomania/Remission),就可以協(xié)助醫(yī)生進(jìn)行輔助治療。
近年來,一些研究致力于攻克雙相抑郁癥的自動(dòng)評估。Abdullah等人[5]使用智能手機(jī)應(yīng)用程序在四個(gè)星期內(nèi)被動(dòng)記錄的手機(jī)語音、短信和通話,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)來測量社會(huì)節(jié)奏指標(biāo)。這個(gè)指標(biāo)可以顯示雙相抑郁癥患者在日常中的任何變化。Le等人[6]通過提取情緒喚醒度和上半身運(yùn)動(dòng)直方圖對雙相抑郁癥患者進(jìn)行分類,并使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)作為分類器,其實(shí)驗(yàn)結(jié)果顯示對于女性患者達(dá)到了50%的召回率,對于男性患者達(dá)到了53%的召回率。Ciftic[7]等人使用Kaya等人[8]提出的手工面部特征提取方法,作者先選擇了從視覺信息中提取的23個(gè)幾何特征和從音頻信息中提取的低級描述符(LLDs)作為輸入特征,使用偏最小二乘法(Partial Least Squares,PLS)和極限學(xué)習(xí)機(jī)(Extreme Learning Machines,ELM)檢測雙向抑郁癥。在2018年國際視聽情感挑戰(zhàn)賽(Audio-Visual Emotion Recognition Challenge18,AVEC2018)中,主辦方提供視覺模態(tài)的面部動(dòng)作單元、音頻模態(tài)的梅爾倒譜系數(shù)和日內(nèi)瓦簡單聲學(xué)參數(shù)集(GeMAPS)等底層特征作為競賽基準(zhǔn)特征[9]。實(shí)驗(yàn)表明,這些底層特征在雙相抑郁癥的檢測中具有很重要的作用。Xing等人[10]使用底層特征(包括MFCC、eGeMAPS、FAU、眼神、每句話單詞數(shù)量等)結(jié)合梯度提升決策樹提出了一個(gè)多模態(tài)層級回歸模型,在AVEC2018數(shù)據(jù)集上取得了不錯(cuò)的效果。Du等人[11]提出了一個(gè)基于音頻的IncepLSTM模型,該模型通過將計(jì)算機(jī)視覺領(lǐng)域的Inception模塊和LSTM網(wǎng)絡(luò)相結(jié)合,從雙相抑郁癥患者語音的MFCC中提取多尺度的時(shí)序特征。
以上基于手工設(shè)計(jì)的底層特征檢測方法雖然取得了較好的檢測性能,但對病情的認(rèn)知還不充分,還需要更好的方法提取特征來進(jìn)行檢測。
針對以上問題,近年來迅速發(fā)展的深度學(xué)習(xí)技術(shù)為檢測雙向抑郁癥提供了新的思路[12]。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)、長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)等模型的出現(xiàn),抑郁癥檢測領(lǐng)域利用其強(qiáng)大的特征提取能力得到了迅速的發(fā)展。目前,針對視頻的雙向抑郁癥的自動(dòng)檢測技術(shù)相對落后,如果將深度學(xué)習(xí)技術(shù)應(yīng)用到視頻雙向抑郁癥檢測中,將會(huì)有效地提高自動(dòng)檢測技術(shù)的性能。
因此,本文提出一個(gè)CNN-LSTM網(wǎng)絡(luò)的混合模型,該模型從視頻中提取特征去檢測雙相抑郁癥的三個(gè)不同階段(Mania/HypoMania/Remissionone),通過使用CNN網(wǎng)絡(luò)提取面部特征,將面部特征輸入LSTM網(wǎng)絡(luò),從而對雙相抑郁癥的不同階段進(jìn)行分類。在在AVEC2018雙相抑郁癥數(shù)據(jù)庫開發(fā)集上的實(shí)驗(yàn)結(jié)果表明,該模型性能優(yōu)于之前的方法。
Ciftci等人在AVEC2018上[7]提供了土耳其音視頻雙相抑郁癥數(shù)據(jù)集。該數(shù)據(jù)集中的樣本來自土耳其一家精神健康中心,樣本均被診斷患有雙相抑郁癥。數(shù)據(jù)集中包含46名患者和49名健康對照組人員的音視頻信息。實(shí)驗(yàn)規(guī)定在患者住院期間的第0天、第3天、第7天、第14天、第28天以及出院后的第3個(gè)月進(jìn)行音視頻數(shù)據(jù)跟蹤錄制,同時(shí)對患者進(jìn)行楊氏躁狂量表(Young Mania Rating Scale,YMRS)和蒙哥馬利-阿斯伯格(Montgomery-Asberg Depression Rating,MADRS)抑郁量表的測定。音視頻在錄制時(shí),需要受試者完成7項(xiàng)任務(wù),包括:
(1)講訴來醫(yī)院的原因;
(2)講訴為什么參與錄制這次數(shù)據(jù);
(3)描述愉快的記憶;
(4)描述悲傷的記憶;
(5)從1數(shù)到30;
(6)觀看梵高的畫,然后根據(jù)自己的理解描述;
(7)觀看丹戈?duì)柕漠?,然后根?jù)自己的理解描述。
數(shù)據(jù)集總共包含218段視頻,視頻長度為13 s~1019 s。每段視頻都被標(biāo)注了樣本錄制時(shí)的雙相抑郁癥的階段和YMRS分?jǐn)?shù)。218段視頻被劃分稱3個(gè)部分,其中104段視頻作為訓(xùn)練集,60段視頻作為開發(fā)集,54段視頻作為測試集。由于測試集的標(biāo)簽只在AVEC2018比賽中可用,因此本文在開發(fā)集上評估實(shí)驗(yàn)結(jié)果。
本文首先將原始視頻幀中的人臉部分裁切出來得到面部圖片序列,然后把面部圖片序列送入微調(diào)過的Resnet50模型提取面部特征序列,最后面部特征序列經(jīng)過LSTM模型分類從而得到最終預(yù)測標(biāo)簽,整體網(wǎng)絡(luò)框架如圖1所示。
圖1 模型架構(gòu)圖
以30 Hz的幀率提取每個(gè)視頻的所有幀,總計(jì)提取了約200萬個(gè)視頻幀。為了關(guān)注面部信息,使用dlib庫的人臉檢測模塊[13]將每一幀圖片中的人臉裁剪出來并對齊,然后將裁剪出來的人臉圖片尺寸縮放至224×224像素存儲(chǔ)。接下來,將存儲(chǔ)的圖片送進(jìn)CNN網(wǎng)絡(luò)提取面部特征。模型過擬合是深度學(xué)習(xí)中一個(gè)常見的問題,特別是在小數(shù)據(jù)集上訓(xùn)練模型時(shí)十分常見,常見的解決方法是使用在通用計(jì)算機(jī)視覺基準(zhǔn)數(shù)據(jù)集(例如ImageNet和VGGFace2[14])上預(yù)訓(xùn)練模型的權(quán)值。ImageNet數(shù)據(jù)集是針對物體識(shí)別任務(wù)而開發(fā)的,VGGFace2數(shù)據(jù)集是針對人臉識(shí)別任務(wù)而開發(fā)的。由于本文目標(biāo)與人臉屬性相關(guān),使用VGGFace2數(shù)據(jù)集上預(yù)訓(xùn)練模型的權(quán)值更加合適。初始化一個(gè)在VGGFace2數(shù)據(jù)集上預(yù)訓(xùn)練的Resnet50模型,再在FER2013plus人臉表情數(shù)據(jù)集[15]上對模型進(jìn)行微調(diào)來作為面部特征提取器。具體方法為:替換預(yù)訓(xùn)練模型的分類器層以適配FER2013plus數(shù)據(jù)集的表情分類任務(wù),以較小的學(xué)習(xí)率在數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練模型,訓(xùn)練完成后的模型作為面部特征提取器。
將人臉圖片輸入微調(diào)過的Resnet50模型,提取模型最后一個(gè)平均池化層的2048維的輸出作為面部特征向量。對所有的特征向量進(jìn)行標(biāo)準(zhǔn)化處理,生成對應(yīng)每一個(gè)樣本的特征向量序列。
CNN模型僅能提取空間信息,無法處理特征向量序列的時(shí)序信息。為了解決這個(gè)問題,使用循環(huán)神經(jīng)網(wǎng)絡(luò)來處理時(shí)序信息。LSTM是一種改進(jìn)過的循環(huán)神經(jīng)網(wǎng)絡(luò),主要解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)產(chǎn)生的梯度消失和梯度爆炸問題。此外,還引入了門控單元控制信息傳遞。具體結(jié)構(gòu)如圖2所示。
圖2 LSTM模型架構(gòu)圖
給定輸入序列[x1,…,xt,…,xT],將輸入序列映射到一個(gè)輸出序列[y1,…,yt,…,yT],如下所示:
其中it表示輸入門單元,ft表示遺忘門單元,ot表示輸出門單元,ct表示記憶單元,ht表示隱層單元,Wab表示a和b間的可學(xué)習(xí)權(quán)重,ba表示偏置數(shù),⊙表示哈達(dá)瑪積(Hadamard Product),σ表示Sigmoid激活函數(shù)σ(x)=1/(1+e-x)。
為了使模型聚焦特征序列中與病情重點(diǎn)相關(guān)的片段,并減少無關(guān)片段對分類性能的影響,在LSTM模型后添加一個(gè)注意力層。注意力層首先計(jì)算不同幀特征的權(quán)重參數(shù),然后對不同幀的特征加權(quán)求和,得到整個(gè)視頻片段的特征(表示為y),最后通過Softmax分類器預(yù)測整個(gè)視頻片段的所屬類別。注意力層具體計(jì)算方式如下:
(1)數(shù)據(jù)增強(qiáng)
訓(xùn)練集和開發(fā)集總共164個(gè)樣本,細(xì)節(jié)如表1所示。為了增加訓(xùn)練樣本,采用以300幀的步長切分每個(gè)樣本。對于開發(fā)集上的樣本采取相同的切分方法,切分前后訓(xùn)練集和開發(fā)集的樣本數(shù)量如表1所示。
表1 訓(xùn)練集和開發(fā)集上三類樣本數(shù)
(2)實(shí)驗(yàn)參數(shù)
硬 件 平 臺(tái) 為:AMD Ryzen 3700x CPU,NVIDIA RTX3090 GPU;
軟件平臺(tái)為:Windows 1021H2,PyTorch 1.10.1+CUDA11.3。
模型訓(xùn)練使用結(jié)合梯度裁剪的動(dòng)量SGD優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.001。損失函數(shù)使用交叉熵?fù)p失函數(shù)。batch size設(shè)置為16。LSTM網(wǎng)絡(luò)的隱層單元設(shè)置為128。
(3)性能評估
本實(shí)驗(yàn)采用AVEC2018比賽使用的準(zhǔn)確率(Accuracy,Acc)和未加權(quán)平均召回率(Unweighted Average Recall,UAR)作為評估模型性能的指標(biāo)。其中:
其中TPx表示該類別分類正確的樣本數(shù)量,Recallx表示該類別的召回率。
(4)實(shí)驗(yàn)結(jié)果
表2展示了結(jié)合注意力機(jī)制方法(Resnet50+LSTM+Attention)和未加注意力機(jī)制方法(Resnet50+LSTM)的實(shí)驗(yàn)結(jié)果。相比之下,結(jié)合注意力機(jī)制的方法識(shí)別準(zhǔn)確率更高,表明注意力機(jī)制能增強(qiáng)LSTM網(wǎng)絡(luò)的特征提取能力,因?yàn)樽⒁饬C(jī)制能從視頻幀序列中有選擇地篩選出對病情有判別作用的片段,并聚焦到這些重要片段上。
表2 注意力機(jī)制的消融實(shí)驗(yàn)(%)
表3展示了本文工作和現(xiàn)有使用視覺信息檢測雙相抑郁癥工作的對比,本文方法的平均召回率達(dá)到了61.4%,準(zhǔn)確率達(dá)到了64.2%。實(shí)驗(yàn)結(jié)果表明,在面部動(dòng)作單元(Facial Action Unit,F(xiàn)AU)、視覺詞袋模型(Bag of Visual Words,BoVW)、上半身運(yùn)動(dòng)速度等方面,本文方法優(yōu)于采用手工特征的方法。
表3 與現(xiàn)有工作結(jié)果的對比(%)
本文提出了一個(gè)基于CNN-LSTM網(wǎng)絡(luò)的混合模型的雙相抑郁癥檢測方法。該方法從視頻片段中提取特征作為輸入,使用在人臉表情數(shù)據(jù)集上微調(diào)的Resnet50模型提取視頻幀的空間特征,通過結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò)提取幀之間的時(shí)序信息來檢測雙相抑郁癥。通過對比當(dāng)前的工作,所提出的方法有更高的分類準(zhǔn)確率。