張志浩 王坤俠?
(1 安徽建筑大學(xué)電子與信息工程學(xué)院合肥 230601)
(2 安徽建筑大學(xué)安徽省建筑聲環(huán)境重點(diǎn)實(shí)驗(yàn)室(安徽建筑大學(xué))合肥 230601)
語聲情感識(shí)別(Speech emotion recognition,SER)是“情感計(jì)算”研究領(lǐng)域的一個(gè)重要分支[1]。SER在人機(jī)智能輔助[2]、人機(jī)交互[3-4]、行為識(shí)別[5]等應(yīng)用中發(fā)揮著重要作用。在人機(jī)交互中,通過輸入的語聲信號(hào)識(shí)別說話人的情感狀態(tài),可以起到監(jiān)管、協(xié)助和指引的作用。因此SER的研究是一項(xiàng)關(guān)鍵并富有挑戰(zhàn)性的任務(wù)[6-7]。
近年來,SER研究者們通過對(duì)多種特征和分類器的深入研究,使得SER的性能逐漸提高[8]。SER最顯著的特征是從整條語聲中計(jì)算出的一維的低級(jí)描述符(LLDs),例如能量、基頻(F0)和Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)等[9]。這些特征可以全面地捕捉語聲的情感信息,進(jìn)而有效地改善SER的識(shí)別率。然而這些手工特征對(duì)于表征語聲中的情感信息并不是最有效的,這可能導(dǎo)致性能不佳[10]。而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)和長(zhǎng)短期記憶(Long short-term memory,LSTM)網(wǎng)絡(luò)在SER特征提取方面表現(xiàn)出卓越的性能[11]。這兩種網(wǎng)絡(luò)能夠從大量訓(xùn)練樣本中提取關(guān)鍵信息特征進(jìn)而提高SER的識(shí)別率[12]。Mao等[13]提出利用CNN提取LLDs有效的語聲情感信息,并在多個(gè)公開數(shù)據(jù)集上表現(xiàn)出優(yōu)異的性能。Senthilkumar等[14]使用LSTM學(xué)習(xí)語聲信號(hào)之間幀與幀的特征信息,獲得了較好的SER結(jié)果。但是,傳統(tǒng)的一維LLDs特征存在著頻域信息缺失問題[15],因此,研究者們紛紛將語聲信號(hào)轉(zhuǎn)換成二維時(shí)頻特征如頻譜圖、對(duì)數(shù)Mel頻譜圖(Log-Mel)等作為SER模型的輸入,用來提取語聲高級(jí)情感特征,與傳統(tǒng)聲學(xué)特征相比表現(xiàn)出更好的性能[16-17]。如Trigeorgis等[18]利用CNN和LSTM網(wǎng)絡(luò)提取語聲頻譜圖的時(shí)空特征,其實(shí)驗(yàn)結(jié)果要優(yōu)于在一維特征上的實(shí)驗(yàn)結(jié)果。Zhang等[19]則將一維的語聲信號(hào)轉(zhuǎn)換為具有RGB三通道的頻譜圖,并將其作為CNN模型的輸入。其實(shí)驗(yàn)結(jié)果表明,在三通道語聲頻譜圖上進(jìn)行SER的性能比一維特征優(yōu)越。盡管上述研究者們利用頻譜圖作為特征并取得了較為不錯(cuò)的效果,但是在使用CNN或LSTM網(wǎng)絡(luò)進(jìn)行特征提取時(shí),忽略了在情感識(shí)別方面語聲頻譜圖的不同片段區(qū)域存在較大差異性。而模型對(duì)于圖中有效的空間特征和時(shí)間特征的提取能力有限,導(dǎo)致大量的有效特征和無效特征冗余,從而限制了SER模型的性能。而注意力機(jī)制(Attention mechanism)則可以利用其加權(quán)機(jī)制來過濾掉冗余特征[20-22],捕獲頻譜圖中的關(guān)鍵情感信息,有利于關(guān)鍵特征的提取與學(xué)習(xí),進(jìn)而提高SER識(shí)別率。
為了解決有效的情感特征提取問題,本文基于以上研究提出時(shí)空注意力-卷積遞歸神經(jīng)網(wǎng)絡(luò)(Spatiotemporal attention-Convolution recursive neural network,STA-CRNN)模型,即在CRNN模型中引入空間注意力(Spatial attention)[23]機(jī)制和時(shí)間注意力(Temporal attention)機(jī)制。在CNN進(jìn)行空間特征提取時(shí),空間注意力機(jī)制可以聚焦空間關(guān)鍵信息,使網(wǎng)絡(luò)能夠關(guān)注情感顯著區(qū)域。在LSTM網(wǎng)絡(luò)進(jìn)行時(shí)間特征提取時(shí),時(shí)間注意力機(jī)制可以對(duì)不同時(shí)間序列片段特征給予權(quán)重,提高有效特征的提取能力。
本文貢獻(xiàn)如下:(1)提出了一種基于時(shí)空注意機(jī)制的CRNN網(wǎng)絡(luò)模型,包括CNN和LSTM兩個(gè)模塊;(2)經(jīng)過實(shí)驗(yàn)確定了空間注意力機(jī)制在CNN網(wǎng)絡(luò)層中的最佳層間位置;(3)驗(yàn)證了時(shí)空注意力機(jī)制的CRNN網(wǎng)絡(luò)模型能夠明顯提高SER識(shí)別率。
本文提出了一種基于時(shí)空注意力機(jī)制的CRNN模型。模型分為兩大部分:基于空間注意力機(jī)制的CNN網(wǎng)絡(luò)和基于時(shí)間注意力機(jī)制的LSTM網(wǎng)絡(luò)。模型結(jié)構(gòu)如圖1所示,首先將Log-Mel譜圖和其一階、二階差分組成三維Log-Mel譜圖,輸入到基于空間注意力機(jī)制的CNN網(wǎng)絡(luò)中,充分提取其空間特征;其次將輸出結(jié)果輸入到基于時(shí)間注意力機(jī)制的LSTM網(wǎng)絡(luò)中,再將得到的向量輸入到全連接層中,進(jìn)行Softmax分類,最終得到情感類別。
圖1 STA-CRNN模型結(jié)構(gòu)Fig.1 Structure of STA-CRNN
在CNN網(wǎng)絡(luò)中,卷積模塊包括6個(gè)卷積層、2個(gè)最大池化層和1個(gè)空間注意力層。卷積層的第一層和第二層有128個(gè)輸出通道,池化層的大小為2×4。其他卷積層的輸出通道為256,卷積核的大小為5×3,為了防止過擬合,在每個(gè)卷積后添加Relu、Drop和BN模塊,并在最后一次卷積后,加入空間注意力層。
空間注意力的計(jì)算過程如下:首先將卷積模塊輸出的特征圖作為空間注意力層的輸入特征圖,再對(duì)其做一個(gè)基于通道的最大池化(Maxpool)和平均池化(Avgpool)操作,并將它們連接起來生成一個(gè)有效的特征圖,如公式(1)所示:
其中,f7×7表示7×7的卷積核尺寸,R1×H×W和分別表示通道上的平均池化特征和最大池化特征。
接著將這兩個(gè)結(jié)果做融合和卷積操作,降維至一個(gè)通道。再經(jīng)過Sigmoid生成空間注意力特征圖。最后將該特征圖和該模塊的輸入特征圖做乘法,得到最終生成的特征。
為了獲取Log-Mel譜圖的時(shí)間特征,采用基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)對(duì)卷積模塊的輸出結(jié)果進(jìn)行時(shí)間序列上的特征提取。LSTM主要由遺忘門、輸入門、輸出門以及隱藏狀態(tài)所構(gòu)成,具體的計(jì)算過程為
其中,f(t)、i(t)、o(t)、c(t)分別表示t時(shí)刻遺忘門、輸入門、輸出門的值,α(t)表示t時(shí)刻對(duì)ht-1和xt的初步特征提取。xt表示t時(shí)刻的輸入,ht-1表示t-1時(shí)刻的隱層狀態(tài)值。W表示權(quán)重矩陣,b為偏置值;tanh表示正切雙曲函數(shù),σ表示激活函數(shù)Sigmoid。
BiLSTM由兩個(gè)LSTM層組成,并通過方向相反的兩個(gè)LSTM層來提取信息,包括將來和過去的隱藏信息,最后拼接并輸出,見公式(8):
在BiLSTM的基礎(chǔ)上,添加一個(gè)時(shí)間注意力層,該注意力機(jī)制會(huì)根據(jù)式(9)計(jì)算出在不同時(shí)間序列,BiLSTM輸出序列的權(quán)重參數(shù),然后采用式(10)根據(jù)權(quán)重大小將編碼序列中的每一個(gè)向量進(jìn)行加權(quán)求μ和,最終得到attention數(shù)值,并通過Softmax分類器預(yù)測(cè)情感類別。
為了檢驗(yàn)本文所提出模型的性能,選擇柏林語聲情感數(shù)據(jù)集(Emo-DB)[24]和交互式情緒二元運(yùn)動(dòng)捕捉(IEMOCAP)數(shù)據(jù)集[25]進(jìn)行相關(guān)實(shí)驗(yàn)。
Emo-DB:該數(shù)據(jù)集由來自7種情緒狀態(tài)(anger、boredom、disgust、fear、happy、neural、sad)共535個(gè)話語組成。庫中的話語由講德語的10名專業(yè)演員(5名男性,5名女性)記錄。Emo-DB語料庫的平均重新編碼時(shí)間約為2~3 s,采樣率為16 kHz。Emo-DB作為一種標(biāo)準(zhǔn)數(shù)據(jù)集,已被廣泛用于情緒研究。
IEMOCAP:該數(shù)據(jù)集由10名專業(yè)演員在5個(gè)不同的會(huì)話中記錄,每個(gè)會(huì)話有2名演員(1名男性,1名女性)。演員以腳本和即興版本記錄不同情緒的對(duì)話,由3位專家進(jìn)行注釋,并由至少2位專家同意選擇。最終形成包括視頻、語聲和文本以及9種情感(anger、happy、excitement、sadness、frustration、fear、surprise、other、neural)的離散標(biāo)簽,其中語聲平均話語時(shí)長(zhǎng)為3.5 s。由于該數(shù)據(jù)庫存在樣本不均衡的情況,本文和諸多國(guó)內(nèi)外研究者們[11,20]相同,選擇(anger、happy、sad、neural)這4類人類基本情感進(jìn)行實(shí)驗(yàn),并且該數(shù)據(jù)集所有對(duì)比實(shí)驗(yàn)也均是上述4類情感。
實(shí)驗(yàn)采用Log-Mel譜圖作為輸入。Log-Mel譜圖提取過程如下:首先將語聲信號(hào)進(jìn)行分幀、加窗,隨后進(jìn)行離散傅里葉變換計(jì)算每一幀的功率譜,并通過Mel濾波得到Mel頻譜圖,最后進(jìn)行對(duì)數(shù)運(yùn)算,即可得到Log-Mel譜圖[26]。但由于語聲數(shù)據(jù)的時(shí)長(zhǎng)參差不齊,幀長(zhǎng)不一致,故在提取Log-Mel譜圖時(shí),統(tǒng)一將幀長(zhǎng)歸為300幀,不足300幀的用0填充,超過300幀的進(jìn)行分割處理。此外,為了得到語聲的動(dòng)態(tài)特征,提取Log-Mel譜圖的一階、二階差分并和Log-Mel譜圖組成3D Log-Mel特征集。
本文將Emo-DB數(shù)據(jù)庫和IEMOCAP數(shù)據(jù)庫劃分為10份數(shù)據(jù),采用十折交叉驗(yàn)證法,輪流將其中9份數(shù)據(jù)作為訓(xùn)練集,一份作為測(cè)試集,最后將10輪實(shí)驗(yàn)結(jié)果的準(zhǔn)確率取平均值作為最終識(shí)別準(zhǔn)確率。實(shí)驗(yàn)使用兩種常見的評(píng)估指標(biāo):加權(quán)準(zhǔn)確率(Weighted accuracy,WA)和未加權(quán)準(zhǔn)確率(Unweighted accuracy,UA)[27],來衡量模型的性能。WA是測(cè)試集中所有樣本的準(zhǔn)確率,UA是全部情緒準(zhǔn)確率的平均值。
本文在實(shí)驗(yàn)中使用了自適應(yīng)矩估計(jì)(Adam)優(yōu)化器,并將其初始學(xué)習(xí)率設(shè)置為0.001,權(quán)值衰減為5×10-4,批量大小等于32。該模型的參數(shù)通過最小化交叉熵目標(biāo)函數(shù)進(jìn)行優(yōu)化,而最大迭代次數(shù)設(shè)置為150。
2.3.1 空間注意力機(jī)制在CNN層間位置的實(shí)驗(yàn)結(jié)果分析
為了研究CNN網(wǎng)絡(luò)中空間注意力層和卷積層不同層間位置關(guān)系對(duì)于識(shí)別率的影響,依次把空間注意力層放入第一層卷積至最后一層卷積之后,記為CNN(AC1)-CNN(AC7),所有的實(shí)驗(yàn)均在Emo-DB庫和IEMOCAP上進(jìn)行了150次迭代,實(shí)驗(yàn)結(jié)果如表1所示。
表1 空間注意力機(jī)制在CNN不同層間位置實(shí)驗(yàn)結(jié)果Table 1 Experimental results of spatial attention mechanism in different layers of CNN(單位:%)
通過表1可知,隨著卷積層的加深,網(wǎng)絡(luò)提取的有效特征越來越多,此時(shí)可以通過注意力機(jī)制聚焦關(guān)鍵情感特征,從而提高模型的識(shí)別率。IEMOCAP庫中AC1至AC6識(shí)別率持續(xù)升高,Emo-DB庫雖然AC4變低,但總體也呈上升趨勢(shì)。然而從AC6到AC7時(shí)識(shí)別率開始變低。此外,由于層數(shù)的增多,也會(huì)增加訓(xùn)練負(fù)擔(dān)。
圖2展示了在150次迭代中,AC1至AC7的收斂曲線。
從圖2中可以看出,在Emo-DB庫中,經(jīng)過80次迭代后,模型趨于穩(wěn)定,其中AC6不僅在第10代準(zhǔn)確率最高,而且收斂速度也最快。在IEMOCAP庫中,經(jīng)過60次迭代后,模型趨于穩(wěn)定,AC6也同樣取得了最好的實(shí)驗(yàn)效果。
圖2 CNN(AC1-7)在Emo-DB庫和IEMOCAP庫中的收斂曲線Fig.2 Convergence curves of CNN(AC1-7)in Emo-DB and IEMOCAP
綜上所述,本文選擇在第6層卷積后加入空間注意力機(jī)制具有科學(xué)性和有效性。
2.3.2 STA-CRNN實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證本文所提模型的有效性,創(chuàng)建了由CNN+BiLSTM模型以及在此基礎(chǔ)上加入兩種注意力機(jī)制所組成的基線模型。設(shè)置了具體實(shí)驗(yàn)如下:
(1)Base1(CNN+BiLSTM):以CNN+BiLSTM作為基線模型。
(2)Base2(ACNN+BiLSTM):在Base1的基礎(chǔ)上,在CNN中加入時(shí)空注意力層。
(3)Base3(CNN+A-BiLSTM):在Base1的基礎(chǔ)上,在BiLSTM網(wǎng)絡(luò)后加入時(shí)間注意力層。
(4)Base4(并行STA-CRNN):將帶有空間注意力機(jī)制的CNN和時(shí)間注意力機(jī)制的BiLSTM采取并行方式,采用特征融合的方法,和本文串行的STA-CRNN模型進(jìn)行對(duì)比。
(5)本文模型(STA-CRNN):和上述實(shí)驗(yàn)進(jìn)行對(duì)比,驗(yàn)證本文所提出網(wǎng)絡(luò)的有效性。
表2為4種模型的實(shí)驗(yàn)結(jié)果。
表24 種模型實(shí)驗(yàn)結(jié)果Table 2 Experimental results of four types of models(單位:%)
圖3為在Emo-DB和IEMOCAP庫中4種模型的收斂曲線。
圖3 在Emo-DB和IEMOCAP庫中4種模型收斂曲線Fig.3 Convergence curves of four model in Emo-DB and IEMOCAP
通過表2和圖3可知,在Base1的基礎(chǔ)上,不論是在CNN中(Base2)還是在BiLSTM中(Base3)加入注意力層,WA和UA都有增長(zhǎng),但是都沒有達(dá)到預(yù)期的效果。而本文的模型把兩種注意力機(jī)制結(jié)合形成了時(shí)空注意力機(jī)制,集合了兩者的優(yōu)點(diǎn),無論是串行結(jié)構(gòu)還是并行結(jié)構(gòu)均使得模型的性能得到了顯著改善。串行的STA-CRNN模型相較于并行的STA-CRNN模型,在兩個(gè)數(shù)據(jù)庫上均取得了最好的結(jié)果,在Emo-DB庫中WA和UA分別高了0.2%、0.8%,在IEMOCAP中分別高了1.3%、1.1%,并且其收斂曲線也最為穩(wěn)定。
圖4展示了本文模型在Emo-DB和IEMOCAP庫上實(shí)驗(yàn)的混淆矩陣,通過分析混淆矩陣可知,本文所提出的模型對(duì)于angry的識(shí)別率較好,在Emo-DB和IEMOCAP庫上分別達(dá)到了95%和80%的準(zhǔn)確率。
圖4 本文模型在Emo-DB和IEMOCAP庫上實(shí)驗(yàn)的混淆矩陣Fig.4 The confusion matrix of the model is tested on Emo-DB and IEMOCAP
但是本模型對(duì)于happy的識(shí)別效果較差:在IEMOCAP庫中僅有24%,因?yàn)榇蟛糠值膆appy被識(shí)別成neutral情感;在Emo-DB庫中識(shí)別率為68%,有20%的happy被識(shí)別成憤怒。上述分析結(jié)果與之前的研究結(jié)果一致[28-29],由于訓(xùn)練數(shù)據(jù)的有限性以及happy類別比其他類別更依賴語境,導(dǎo)致happy類別很難被識(shí)別。
本文選擇以下8種網(wǎng)絡(luò)作為對(duì)比實(shí)驗(yàn):基于三維注意的卷積遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional recurrent neural networks with attention,ACRNN)[12],并行卷積遞歸神經(jīng)網(wǎng)絡(luò)(Parallelized convolutional recurrent neural network,PCRN)[30],多重卷積遞歸神經(jīng)網(wǎng)絡(luò)(Multiple convolution recurrent neural network,MCRN)[28],1D和3D多特征融合網(wǎng)絡(luò)[31],基于卷積的膠囊神經(jīng)網(wǎng)絡(luò)(Capsule neural network based CNN,CapCNN)[32],時(shí)間注意池網(wǎng)絡(luò)(Attentive temporal pooling,ATP)[33],上下文疊加拓展的卷積神經(jīng)網(wǎng)絡(luò)[34],以及卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN-LSTM)[11]。結(jié)果如表3所示。
表3 與現(xiàn)有SER結(jié)果準(zhǔn)確率比較Table 3 Comparison with the accuracy of existing SER results(單位:%)
通過表3可以看出,在Emo-DB庫中,本模型比ACRNN[12]的UA提高了1.9%;比PCRN[29]模型的WA和UA分別高了0.4%、0.2%;而與最近較為火熱的CapCNN[32]、ATP[33]對(duì)比,也體現(xiàn)了一定的優(yōu)勢(shì),兩者UA皆是提高了1.8%。在IEMOCAP庫中,本文模型比傳統(tǒng)CNN-LSTM[11]的WA增長(zhǎng)了4.7%,而UA的增幅高達(dá)8.9%;和MCRN[28]相對(duì)比也表現(xiàn)出了更好的識(shí)別率,WA和UA提升達(dá)2.1%、3.5%;在和最新的一些的方法對(duì)比中可以得出比1D+3D網(wǎng)絡(luò)[30]的UA提高了4.3%;和DiCCOSER-CS[34]相比,本文模型的WA提高了3.6%,而UA的提升幅度高達(dá)8.8%。綜上所述,本文所提出的模型優(yōu)于大多數(shù)先進(jìn)方法。
本文提出了一種用于SER的STA-CRNN模型。該模型包含CNN、LSTM兩大模塊。分別在CNN和LSTM網(wǎng)絡(luò)中加入了空間注意力機(jī)制和時(shí)間注意力機(jī)制,以便更好地提高模型性能,從而提高語聲情感識(shí)別率。從兩個(gè)情感數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果以及在和其他先進(jìn)的方法對(duì)比中可以得出,本文的模型可以更好地提取語聲頻譜圖中的有效特征信息,過濾掉無效特征信息,使得SER的識(shí)別率大幅度提高。由于本文所提取的特征是類似于圖像的RGB三通道結(jié)構(gòu),而通道與通道之間的重要性不同,故也會(huì)影響卷積過程中特征的提取。因此,在未來的研究中,本文會(huì)在CNN中加入通道注意力機(jī)制以提高SER的效果。