關(guān)鍵詞:多模態(tài);深度學(xué)習(xí);抑郁癥檢測;卷積神經(jīng)網(wǎng)絡(luò);特征增強;多模態(tài)融合
中圖分類號:TP391.41 文獻標(biāo)志碼:A
0 引言(Introduction)
早期診斷抑郁癥在促進治療效果方面起著至關(guān)重要的作用。但是目前抑郁癥的診斷依賴于主觀行為,例如患者的自我報告評估和臨床判斷癥狀嚴(yán)重程度,而這些因素容易受到環(huán)境因素的影響。
如何有效地進行自動多模態(tài)抑郁癥檢測,以輔助醫(yī)生實現(xiàn)早期抑郁癥的診斷,已成為當(dāng)前一個既重要又具有挑戰(zhàn)性的研究問題。因此,運用機器學(xué)習(xí)等技術(shù)進行抑郁癥自動檢測[1]的研究受到廣大研究者的關(guān)注。然而,傳統(tǒng)的融合方法通常直接采用簡單的級聯(lián)方式融合多模態(tài)特征,這種方式忽略了模態(tài)之間的交互性,無法充分提取出更全面的特征表示,從而影響了抑郁癥的檢測效果。
因此,本文探索了一種基于多模態(tài)特征增強網(wǎng)絡(luò)的抑郁癥檢測方法,該方法融合了音頻、視頻及rPPG信號,其中rPPG模態(tài)作為一種附加模態(tài),增強了多模態(tài)抑郁癥檢測的效果,通過堆疊多個模態(tài)間和模態(tài)內(nèi)Transformer,并配合多頭自注意力機制,共同獲取輸入序列每個時間步的模態(tài)內(nèi)和模態(tài)間的信息交互,以達到多模態(tài)特征增強的目的,從而提升抑郁癥檢測性能。
1 相關(guān)研究(Related research)
目前,主流的抑郁癥檢測方法主要可以分為3類:基于視頻的檢測、基于音頻的檢測和基于多模態(tài)的檢測。
抑郁癥患者常常表現(xiàn)出面部表情的減少或呆滯,他們的面部表情可能缺乏生動度和情感表達。研究者通過機器學(xué)習(xí)分析面部特征在輔助診斷抑郁癥方面取得了比較大的進展[2]。例如,孫浩浩等[3]基于人臉圖像的全局和局部特征,構(gòu)建了一種融合通道層注意力機制的多支路卷積網(wǎng)絡(luò)模型。音頻作為傳達情感的媒介,抑郁癥患者和非抑郁癥患者之間的言語模式存在明顯的差異[4]。MA等[5]提出了DepAudioNet深度模型,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶(LSTM),用于編碼聲道中的抑郁癥相關(guān)特征,從而提供更全面的音頻表示,取得了較好的檢測效果。這些深度學(xué)習(xí)架構(gòu)在提取有意義的音頻或視頻特征以及提高抑郁癥檢測的效果方面發(fā)揮著重要作用。然而,僅依賴音頻或者視頻特征可能會丟失測試對象的其他動態(tài)信息,從而限制了抑郁癥檢測的性能。
除了視頻和音頻模態(tài),rPPG信號也可用于抑郁癥檢測。rPPG信號使用非接觸式光學(xué)技術(shù)測量和分析心率和血流量等生理信息。一些研究通過提取rPPG信號并計算統(tǒng)計特征和心率變異性(HRV)特征,探討了抑郁癥與HRV 之間的關(guān)系[6-7]。這些特征隨后被輸入基于隨機森林和多層感知機(Multilayer Perceptron,MLP)的機器學(xué)習(xí)回歸器中。這些發(fā)現(xiàn)證明了基于rPPG的抑郁癥檢測方法的潛力。然而,很少有研究關(guān)注和探索用于抑郁癥檢測的rPPG信號。
除了上述單模態(tài)方法,通過多模態(tài)信息融合方法整合多種模態(tài)在提高抑郁癥檢測性能方面也顯示出不錯的效果。HE等[8]通過特征層融合將提取的音頻和視頻特征串聯(lián)成一個高維特征向量,并使用支持向量回歸(SVR)進行抑郁癥預(yù)測。然而,這種方法容易產(chǎn)生高維特征表示,從而導(dǎo)致維度災(zāi)難。YANG等[9]將獲得的音頻視頻結(jié)果和文本結(jié)果進行決策融合,以獲得最終的抑郁癥檢測結(jié)果。但是,決策層融合單獨考慮不同模態(tài),無法捕捉它們之間的內(nèi)在關(guān)系。更多的研究者通過模型層融合考慮模態(tài)之間的關(guān)系。NIU等[10]采用多模態(tài)注意力特征融合方法整合音頻模態(tài)和視頻模態(tài)。谷明軒等[11]結(jié)合了腦電信號和音頻特征提出了基于全連接神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征融合模型。但是,這些模型層融合方法在模態(tài)之間的交互性方面仍存在不足。近年來,Transformer[12]技術(shù)引起了廣泛關(guān)注,Transformer模型中的編碼器和解碼器組件利用多頭自注意機制捕捉輸入序列數(shù)據(jù)的長距離上下文信息。ILIAS等[13]提出了一種將語言之外的信息融入基于Transformer的模型,用于社交媒體中抑郁癥和壓力檢測,這一方法展現(xiàn)出良好的應(yīng)用前景。
受到Transformer技術(shù)的優(yōu)勢和rPPG信號在抑郁癥檢測中潛力的啟發(fā),本研究提出一種基于多模態(tài)特征增強網(wǎng)絡(luò)的抑郁癥檢測方法。首先,針對視頻、音頻和rPPG模態(tài)進行多模態(tài)特征提取;其次,通過基于Transformer的特征增強模塊和多頭自注意力機制,實現(xiàn)不同模態(tài)之間的交互;最后,利用多層感知機實現(xiàn)最終的抑郁癥檢測任務(wù)。
2 基于多模態(tài)特征增強網(wǎng)絡(luò)的抑郁癥檢測方法(Depression detection method based onmultimodal feature enhancement network)
基于多模態(tài)特征增強網(wǎng)絡(luò)的抑郁癥檢測方法的整體結(jié)構(gòu)如圖1所示,該結(jié)構(gòu)主要包括多模態(tài)特征提取、多模態(tài)特征增強和回歸預(yù)測3個部分。(1)多模態(tài)特征提?。簩τ谝曨l模態(tài)和音頻模態(tài),本文采用深度CNN[14-15]提取高級視頻和音頻特征。對于rPPG模態(tài),采用短時端到端rPPG估計框架[16]提取rPPG信號值。(2)多模態(tài)特征增強:模態(tài)之間的Transformer通過與其他模態(tài)之間進行信息交互,用于增強目標(biāo)模態(tài)的特征。模態(tài)內(nèi)Transformer聚焦于目標(biāo)模態(tài),對目標(biāo)模態(tài)內(nèi)部特征進行交互,關(guān)注到目標(biāo)模態(tài)中最相關(guān)和有價值的信息。多頭自注意力機制提取更豐富、更有用的特征,平均池化聚合目標(biāo)模態(tài)特征。(3)回歸預(yù)測:通過級聯(lián)和自注意力機制處理增強后的特征并輸入多層感知機網(wǎng)絡(luò)進行最終的抑郁癥預(yù)測。
2.1 多模態(tài)特征提取
對于視頻模態(tài),首先從每個視頻樣本中提取100個連續(xù)的幀,使用多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)[17]進行人臉檢測任務(wù),其次使用EmoFAN[14]預(yù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型提取每個視頻幀的面部特征。
對于音頻模態(tài),本文使用預(yù)訓(xùn)練的VGGish[15]深度卷積神經(jīng)網(wǎng)絡(luò)模型進行特征提取。VGGish模型在一百萬個音頻片段上進行了預(yù)訓(xùn)練,并為每個譜圖段生成128維特征。
對于rPPG 模態(tài),本文使用短時端到端rPPG 估計框架[16],該框架能夠從視頻流中檢測到由血容量脈搏引起的微小顏色變化,進而實現(xiàn)rPPG的有效估計。具體來說,在人臉檢測之后,首先使用類似Unet[18]的深度學(xué)習(xí)模型選擇和跟蹤感興趣區(qū)域并進行皮膚和非皮膚像素的語義分割訓(xùn)練;其次計算皮膚分割像素的空間RGB通道均值,并將其投影到垂直于膚色的平面上,通過調(diào)整投影信號的alpha值獲得rPPG信號值。
2.2 多模態(tài)特征增強網(wǎng)絡(luò)
本節(jié)將詳細介紹多模態(tài)特征增強網(wǎng)絡(luò)的相關(guān)模塊,該網(wǎng)絡(luò)由多個模態(tài)間Transformer(圖2)、模態(tài)內(nèi)Transformer(圖3)和多頭自注意力機制組成,旨在共同捕捉輸入序列每個時間步的模態(tài)內(nèi)和模態(tài)間的動態(tài)關(guān)系,從而學(xué)習(xí)跨模態(tài)的漸進綜合特征。
3.3 實驗細節(jié)
對于視頻模態(tài),本文從每個視頻中選擇了100個連續(xù)幀,并使用EmoFAN[14]預(yù)訓(xùn)練模型提取128維的面部特征,維度為(100,128)。對于音頻模態(tài),本文使用VGGish[15]預(yù)訓(xùn)練模型提取128維的音頻特征,維度為(num _segments,128),其中num_segments 是分割后的頻譜圖段數(shù)。對于rPPG模態(tài),獲得了維度為(num_seconds,10)的特征,其中num_seconds 是原始視頻樣本的持續(xù)時間。對于音頻和rPPG模態(tài),本文采用自適應(yīng)平均池化[20]將提取的特征轉(zhuǎn)換為(100,128)的固定特征維度供后續(xù)任務(wù)使用。使用的自適應(yīng)平均池化[20]可以將具有任意空間維度的特征圖轉(zhuǎn)換為固定大小的表示。
所有深度學(xué)習(xí)方法都在PyTorch框架上進行,并使用NVIDIA RTX 3090 GPU進行計算。使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 05。采用批量大小為4,并將最大訓(xùn)練輪數(shù)設(shè)置為1 000。
3.4 實驗對比結(jié)果和分析
3.4.1 AVEC2013數(shù)據(jù)集實驗結(jié)果
本研究在AVEC2013數(shù)據(jù)集上對比了單模態(tài)和多模態(tài)的結(jié)果。針對單模態(tài)情況,本文在模型中去除了模態(tài)間Transformer模塊。如表1所示,在AVEC2013數(shù)據(jù)集上,視頻模態(tài)的表現(xiàn)優(yōu)于音頻模態(tài)和rPPG模態(tài)。視頻模態(tài)的MAE為8.67,而音頻模態(tài)和rPPG模態(tài)分別為9.03和10.01。這一優(yōu)勢可能源于視頻中的面部表情為抑郁癥檢測提供了更多的線索。對于多模態(tài)融合方法,綜合考慮3個模態(tài)的結(jié)果優(yōu)于僅考慮兩個模態(tài)的結(jié)果,這表明3個模態(tài)在一定程度上相互補充,為抑郁癥檢測提供了更全面的線索。同時,驗證了rPPG信號在多模態(tài)抑郁癥檢測中的有效性,為抑郁預(yù)測提供了額外的輔助信息。綜上所述,將3個模態(tài)進行融合能夠達到最佳的性能,驗證了本文提出模型的有效性。
3.4.2 消融實驗
為了評估模型中每個多模態(tài)特征增強模塊的有效性,在AVEC2013數(shù)據(jù)集上進行消融實驗。本文進行了不同模塊的組合實驗,實驗結(jié)果如表2所示。其中,模態(tài)間、模態(tài)內(nèi)和多頭自注意力分別表示模型多模態(tài)特征增強部分僅使用模態(tài)間Transformer、模態(tài)內(nèi)Transformer或多頭自注意力機制,“+”表示使用兩個模塊的組合。
表2中的結(jié)果顯示:僅使用模態(tài)間Transformer的性能優(yōu)于僅使用模態(tài)內(nèi)Transformer,但低于這兩個模塊的組合使用。這表明,通過模態(tài)間Transformer中的跨模態(tài)注意力機制,能實現(xiàn)模態(tài)之間更有效地交互,從而對目標(biāo)模態(tài)實現(xiàn)特征增強,同時,模態(tài)內(nèi)Transformer也能關(guān)注到目標(biāo)模態(tài)在時間上的變化信息。因此,將這兩個模塊結(jié)合使用能夠獲得更好的效果。此外,單獨使用多頭自注意力機制模型效果并不理想,然而當(dāng)與模態(tài)間Transformer和模態(tài)內(nèi)Transformer模塊結(jié)合使用時,達到了本模型的最優(yōu)效果。這表明,多頭自注意力機制在一定程度上能夠?qū)W習(xí)到模態(tài)交互后更全面的特征,從而實現(xiàn)整體的特征增強。
3.4.3 不同模型對比結(jié)果
為了更全面地評估本文提出模型的有效性,在AVEC2013數(shù)據(jù)集上將其與目前較先進的方法進行了對比,對比結(jié)果如表3所示。根據(jù)所使用的模態(tài)數(shù)量,這些方法可以分為3個主要類別:基于音頻的抑郁癥檢測方法、基于視頻的抑郁癥檢測方法以及基于音頻和視頻的雙模態(tài)抑郁癥檢測方法。以下是對一些具有代表性檢測方法的簡要介紹,更多的信息可參考表3中列出的相關(guān)文獻。
基于音頻的抑郁癥檢測方法:VALSTAR 等[19]提取了LLD聲學(xué)特征,并采用支持向量回歸進行抑郁癥檢測。HE等[21]將深度音頻特征與深度CNN和手工紋理特征相結(jié)合后,通過全連接層進行抑郁得分預(yù)測。NIU等[22]提取短時MFCC段的分段級特征并采用支持向量回歸預(yù)測個體的抑郁水平。ZHAO等[23]提出了一種混合特征提取網(wǎng)絡(luò),將DCNN與自注意力網(wǎng)絡(luò)集成,用于從語音信號中檢測抑郁嚴(yán)重程度。
基于視頻的抑郁癥檢測方法:ZHU 等[24]提取了LPQTOP特征,并通過稀疏編碼進行學(xué)習(xí),以進一步提高抑郁癥檢測的準(zhǔn)確性。JAZAERY 等[25]使用3D 卷積神經(jīng)網(wǎng)絡(luò)(3DCNN)捕捉面部區(qū)域在兩個不同尺度上的時空特征,并在決策層上進行融合。HE等[21]提出了一種名為DepNet的集成框架,用于捕捉視頻中面部表情的時間動態(tài)特征,以進行抑郁癥分析。
基于音頻和視頻的雙模態(tài)抑郁癥檢測方法:MENG等[26]使用LLD聲學(xué)特征對音頻特征進行編碼,并使用運動歷史直方圖捕捉面部區(qū)域內(nèi)每個像素的運動,最終在決策層上融合音頻和視頻特征后,進行最終的抑郁癥預(yù)測。NIU等[10]提出了一種時空注意網(wǎng)絡(luò)和多模態(tài)注意特征融合策略,用于通過音頻和視頻預(yù)測個體的抑郁水平。
4 結(jié)論(Conclusion)
針對自動抑郁癥檢測任務(wù)中傳統(tǒng)的方法存在的問題,例如不能充分利用不同模態(tài)信息、未充分考慮多模態(tài)融合過程中模態(tài)間的交互等,本文提出了一種基于多模態(tài)特征增強網(wǎng)絡(luò)的抑郁癥檢測方法。該方法通過與不同模態(tài)之間的交互,實現(xiàn)目標(biāo)模態(tài)的特征增強,并融合了多種模態(tài),將rPPG模態(tài)與視頻模態(tài)和音頻模態(tài)結(jié)合應(yīng)用于多模態(tài)抑郁癥檢測任務(wù)。本文提出的方法利用模態(tài)間Transformer、模態(tài)內(nèi)Transformer和多頭自注意力機制逐步學(xué)習(xí)視頻、音頻和rPPG等不同模態(tài)的綜合特征。在AVEC2013公共數(shù)據(jù)集上進行的大量實驗證明,本文提出的方法在多模態(tài)抑郁癥檢測任務(wù)上展現(xiàn)出良好的性能。
本文提出的模型能更好地挖掘不同模態(tài)中的抑郁線索,為多模態(tài)融合提供了新思路。在未來工作中,我們將探索跨模態(tài)對齊的先進方法,以期進一步提高多模態(tài)融合效果。此外,研究發(fā)現(xiàn),rPPG信號的性能并不優(yōu)于視頻模態(tài)和音頻模態(tài),這可能是由于提取rPPG信號值的方法不夠精確。因此,使用更先進的方法提取更具表達力的生理信號,并將其應(yīng)用于多模態(tài)融合具有重要的研究意義。
作者簡介:
趙小明(1964-),男,碩士,教授。研究領(lǐng)域:模式識別,情感計算。
范慧婷(1998-),女,碩士生。研究領(lǐng)域:人工智能。
張石清(1980-),男,博士,教授。研究領(lǐng)域:模式識別,情感計算。