楊磊,趙紅東*,于快快
基于多頭注意力機(jī)制的端到端語音情感識(shí)別
楊磊1,趙紅東1*,于快快2
(1.河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401; 2.光電信息控制和安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,天津 300308)(*通信作者電子郵箱zhaohd@hebut.edu.cn)
針對(duì)語音情感數(shù)據(jù)集規(guī)模小且數(shù)據(jù)維度高的特點(diǎn),為解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長(zhǎng)程依賴消失和卷積神經(jīng)網(wǎng)絡(luò)(CNN)關(guān)注局部信息導(dǎo)致輸入序列內(nèi)部各幀之間潛在關(guān)系沒有被充分挖掘的問題,提出一個(gè)基于多頭注意力(MHA)和支持向量機(jī)(SVM)的神經(jīng)網(wǎng)絡(luò)MHA-SVM用于語音情感識(shí)別(SER)。首先將原始音頻數(shù)據(jù)輸入MHA網(wǎng)絡(luò)來訓(xùn)練MHA的參數(shù)并得到MHA的分類結(jié)果;然后將原始音頻數(shù)據(jù)再次輸入到預(yù)訓(xùn)練好的MHA中用于提取特征;最后通過全連接層后使用SVM對(duì)得到的特征進(jìn)行分類獲得MHA-SVM的分類結(jié)果。充分評(píng)估MHA模塊中頭數(shù)和層數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響后,發(fā)現(xiàn)MHA-SVM在IEMOCAP數(shù)據(jù)集上的識(shí)別準(zhǔn)確率最高達(dá)到69.6%。實(shí)驗(yàn)結(jié)果表明同基于RNN和CNN的模型相比,基于MHA機(jī)制的端到端模型更適合處理SER任務(wù)。
語音情感識(shí)別;多頭注意力;卷積神經(jīng)網(wǎng)絡(luò);支持向量機(jī);端到端
近年來,語音情感識(shí)別(Speech Emotion Recognition,SER)作為人機(jī)交互的重要媒介,引起越來越多國(guó)內(nèi)外研究人員的關(guān)注。人類的情感在人類交流中一直扮演著重要角色,SER是指對(duì)隱藏在人類對(duì)話中的情感變化進(jìn)行分析,通過提取語音的相關(guān)特征并將其輸入神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類,從而識(shí)別說話者可能的情感變化?,F(xiàn)實(shí)中SER有著廣泛的應(yīng)用場(chǎng)景,如客服人員在與客戶電話溝通過程中,通過SER系統(tǒng)實(shí)時(shí)跟蹤客戶的情緒變化,以便更加主動(dòng)地提供優(yōu)質(zhì)服務(wù)。由于情感的表達(dá)依賴于諸多因素,如說話者的性別、年齡、方言等,所以研究人員面臨的一個(gè)主要挑戰(zhàn)是如何更好地提取具有區(qū)別性、魯棒性和顯著影響力的特征,以提高模型的識(shí)別能力。目前,特征提取方式主要分為兩類:一類是從音頻信號(hào)中手動(dòng)提取相關(guān)的短期特征,如梅爾頻譜倒譜系數(shù)、音高和能量等,然后將短期特征應(yīng)用于傳統(tǒng)分類器,如高斯混合模型、矩陣分解和隱馬爾可夫模型等;另一類是使用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、自動(dòng)編碼器、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)模型、CNN+LSTM的組合等,文獻(xiàn)[1-2]的研究表明,這些方法在語音分類任務(wù)中都取得了很好的效果。
隨著人工智能和硬件計(jì)算能力的提高,深度學(xué)習(xí)方法在音頻分類上的應(yīng)用越來越廣泛。深度學(xué)習(xí)具有優(yōu)秀的學(xué)習(xí)和泛化能力,能夠從大量訓(xùn)練樣本中提取與任務(wù)相關(guān)的分層特征表示,在自動(dòng)語音識(shí)別和音樂信息檢索[3-4]領(lǐng)域的研究工作中取得了巨大成功。文獻(xiàn)[5]中首先使用CNN學(xué)習(xí)語音情感顯著特征,并在幾個(gè)基準(zhǔn)數(shù)據(jù)集上展示了CNN的優(yōu)異性能。文獻(xiàn)[6]中使用一維CNN對(duì)音頻樣本進(jìn)行預(yù)處理,目的是降低噪聲并強(qiáng)調(diào)音頻文件的特定區(qū)域。由于音頻信號(hào)可以在時(shí)域中傳遞上下文信息,即當(dāng)前時(shí)刻的音頻信息與前一時(shí)刻的信息相關(guān),因此在SER任務(wù)中可以應(yīng)用RNN和LSTM捕捉與時(shí)間相關(guān)的特征表示。文獻(xiàn)[7]中提出了一種框架級(jí)語音特征結(jié)合注意力和LSTM的SER方法,該方法可以從波形中提取幀級(jí)語音特征來代替?zhèn)鹘y(tǒng)的統(tǒng)計(jì)特征,從而通過幀序達(dá)到保持原始語音內(nèi)部時(shí)序關(guān)系的目的。文獻(xiàn)[8-9]中將CNN和LSTM相結(jié)合挖掘輸入序列的時(shí)空特征,這也是語音情感分類任務(wù)中常見的一類處理方式。文獻(xiàn)[10]中進(jìn)一步提出了基于注意力機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò),并以梅爾譜圖(Mel-spectrogram)作為輸入,有效提高了模型的識(shí)別能力。文獻(xiàn)[11]中采用基于注意力的雙向長(zhǎng)短時(shí)記憶(Bi-directional LSTM, Bi-LSTM)模型與基于注意力的CNN并行組合的排列方式搭建網(wǎng)絡(luò),用來學(xué)習(xí)特征,并結(jié)合VGG16進(jìn)行梅爾譜圖的預(yù)處理,實(shí)現(xiàn)了較高的識(shí)別準(zhǔn)確率,但模型規(guī)模相對(duì)較大,增加了訓(xùn)練難度。這些模型的提出表明了注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)結(jié)合的有效性。
注意力機(jī)制是近年來序列-序列領(lǐng)域的一個(gè)熱門話題。作為一種注意力機(jī)制,自注意力通過學(xué)習(xí)輸入序列中幀與幀之間的潛在關(guān)系,捕捉整個(gè)輸入序列的內(nèi)部結(jié)構(gòu)特征。Transformer[12]是一種完全基于自注意力機(jī)制的序列模型,它在許多自然語言處理任務(wù)中表現(xiàn)出優(yōu)異性能。與傳統(tǒng)的RNN相比,Transformer可以同時(shí)應(yīng)用多個(gè)自注意力機(jī)制并行處理輸入序列上的所有幀,然后通過一定變換,最終映射成能代表整個(gè)輸入序列的注意力值。一些基于Transformer架構(gòu)的方法,如預(yù)訓(xùn)練語言模型[13-14]和端到端語音識(shí)別方法[15]證明了Transformer識(shí)別性能優(yōu)于LSTM。支持向量機(jī)(Support Vector Machine, SVM)是一種監(jiān)督學(xué)習(xí)方法,擅長(zhǎng)處理具有小規(guī)模樣本、非線性和高維模式識(shí)別等特點(diǎn)的分類任務(wù),它通過非線性映射將原始樣本從低維特征空間變換到高維特征空間甚至無限維特征空間(希爾伯特空間),利用徑向核函數(shù)構(gòu)造高維空間的最優(yōu)超平面,實(shí)現(xiàn)樣本的線性分離。受上述分析的啟發(fā),針對(duì)語音情感數(shù)據(jù)集規(guī)模小、維度高的特點(diǎn),本文提出了一種基于多頭注意力(Multi-Headed Attention, MHA)融合SVM的模型MHA-SVM來實(shí)現(xiàn)語音情感分類任務(wù)。為說明SVM適合處理語音情感分類任務(wù),本文還給出了最鄰近法(-Nearest Neighbor,NN)和邏輯回歸法(Logistic Regression, LR)分類器的實(shí)驗(yàn)結(jié)果。NN的思想是將個(gè)最近樣本中頻率最高的類別分配給該樣本;LR是在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上建立決策邊界的回歸方程,然后將回歸方程映射到分類函數(shù)來實(shí)現(xiàn)分類目的。實(shí)驗(yàn)結(jié)果表明,相比NN和LR,本文提出的MHA-SVM在IEMOCAP數(shù)據(jù)集上可以進(jìn)一步提升多頭注意力機(jī)制的分類效果。
本文的主要工作有:
1)使用Transformer模型的編碼模塊搭建一個(gè)基于MHA的情感分類模型,利用并行處理結(jié)構(gòu)來高效地學(xué)習(xí)分類特征,模型的分類性能優(yōu)于以往的RNN模型。
2)針對(duì)語音情感數(shù)據(jù)集的特點(diǎn),嘗試以MHA為特征提取器,SVM為任務(wù)分類器,二者的融合可以將MHA的分類效果提升1.9個(gè)百分點(diǎn)。為說明SVM的適用性,本文將SVM和其他兩個(gè)分類器NN和LR進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于多頭注意力機(jī)制和SVM的端到端模型非常適合處理SER問題,可以提高模型識(shí)別性能。
在SER系統(tǒng)中,特征輸入、特征提取和融合網(wǎng)絡(luò)是模型獲得更好性能的重要保證,因此本文將回顧與上述過程相關(guān)的一些關(guān)鍵概念和技術(shù)。
然后計(jì)算出輸入序列的加權(quán)平均和,從而取得整個(gè)序列注意力值,數(shù)學(xué)表達(dá)為
這種計(jì)算注意力的方式也被稱為軟注意力機(jī)制。
圖1 放縮點(diǎn)積注意力結(jié)構(gòu)
音頻的信息表達(dá)依賴于音頻序列中幀的位置,所以位置編碼對(duì)于音頻序列至關(guān)重要。在RNN中,位置信息可以被自動(dòng)記錄在網(wǎng)絡(luò)隱藏層中,而Transformer由于未采用循環(huán)結(jié)構(gòu),為保留輸入序列的順序信息,需要對(duì)輸入序列內(nèi)的每一幀進(jìn)行位置編碼,計(jì)算過程見式(8)、(9)。
圖2 多頭注意力結(jié)構(gòu)
為解決低維度空間線性不可分的問題,SVM使用核函數(shù)將數(shù)據(jù)從低維度的樣本空間映射到高維度的特征空間中,然后在特征空間中尋找一個(gè)超平面實(shí)現(xiàn)樣本線性可分[16]。非線性可分的SVM優(yōu)化問題可描述為
IEMOCAP數(shù)據(jù)集由10個(gè)專業(yè)演員(5名女性和5名男性)進(jìn)行12 h的音頻和視頻錄制,并在兩個(gè)不同性別的演員之間以演奏劇本或即興表演的方式進(jìn)行5次對(duì)話。這些收集到的錄音被劃分為長(zhǎng)度在3~15 s的短語句,每個(gè)語句被標(biāo)注為10種情緒之一(中性、快樂、悲傷、憤怒、驚訝、恐懼、厭惡、沮喪、興奮和其他)。本文實(shí)驗(yàn)只使用音頻數(shù)據(jù),為與前人的作品[17-19]進(jìn)行一致的比較,將所有標(biāo)有“興奮”的話語與標(biāo)有“高興”的話語合并為“高興”類別,且只考慮四種情緒類別(中性、高興、悲傷、生氣)。由表1可以看出類別間數(shù)據(jù)分布不平衡。
表1 IEMOCAP數(shù)據(jù)集類別情況
音頻信號(hào)的采樣率直接影響輸入樣本的維數(shù),并最終影響模型的計(jì)算量。本文實(shí)驗(yàn)以11 025 Hz的采樣率對(duì)輸入的原始語音信號(hào)進(jìn)行采樣[20],以160個(gè)采樣點(diǎn)為一幀將每個(gè)樣本依序截取成277幀??紤]到數(shù)據(jù)集中樣本長(zhǎng)短不一致,采用補(bǔ)零和截?cái)嗖呗?,將樣本的一維信號(hào)統(tǒng)一變換成大小為(277,160)的二維信號(hào),取樣過程見圖3。
圖3 分幀圖
圖4 Transformer層結(jié)構(gòu)
本文提出的端到端架構(gòu)可以直接從原始音頻信號(hào)中學(xué)習(xí)特征表示,并在不同的語音上取得良好的分類性能,模型結(jié)構(gòu)如圖5所示。
圖5 MHA-SVM結(jié)構(gòu)
首先,對(duì)輸入原始波形應(yīng)用兩個(gè)具有小濾波器尺寸的卷積層,以便提取局部特征;然后進(jìn)入Transformer層,通過全連接層和softmax層得到MHA的分類結(jié)果和模型參數(shù)設(shè)置;最后將已訓(xùn)練的MHA作為預(yù)訓(xùn)練模型,原始波形輸入MHA中用于提取特征并訓(xùn)練SVM分類器,得到SVM的分類結(jié)果。MHA的參數(shù)見表2。
表2 MHA參數(shù)
在內(nèi)存為16 GB的英偉達(dá)TITAN Xp GPU上驗(yàn)證本文提出的語音情感識(shí)別方法。實(shí)驗(yàn)超參數(shù)設(shè)置如下:10倍交叉驗(yàn)證,按8∶1∶1的比例隨機(jī)劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集;訓(xùn)練集使用批量大小為64的200次迭代;Dropout參數(shù)為0.5;以ReLU為激活函數(shù),利用Adam優(yōu)化器將預(yù)測(cè)和真實(shí)類型標(biāo)簽之間的分類損失函數(shù)最小化,選擇交叉熵作為損失函數(shù),如式(12)所示。
其中:(True Positive)代表真實(shí)值為正且預(yù)測(cè)為正的樣本數(shù)量;(False Positive)代表真實(shí)值為負(fù)且預(yù)測(cè)為正的樣本數(shù)量;(False Negative)代表真實(shí)值為正且預(yù)測(cè)為負(fù)的樣本數(shù)量;(True Negative)為真實(shí)值為負(fù)且預(yù)測(cè)為負(fù)的樣本數(shù)量。
為驗(yàn)證模型效果,先進(jìn)行消融實(shí)驗(yàn),去除Transformer層,僅使用卷積網(wǎng)絡(luò)進(jìn)行分類實(shí)驗(yàn),識(shí)別準(zhǔn)確率為47.2%(圖6(a));其次,對(duì)比自注意力與多頭注意力對(duì)分類的影響,將Transformer層用LSTM層和注意力層替換,其中LSTM層的輸出維度為128,其他設(shè)置不變,識(shí)別準(zhǔn)確率為60.1%(圖6(b))。
圖6 消融實(shí)驗(yàn)中訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率曲線
其次,使用LR和NN進(jìn)行對(duì)比實(shí)驗(yàn),與SVM設(shè)置相同,LR和NN都是連接在MHA的全連接層后面。考慮到模型復(fù)雜度與數(shù)據(jù)量相對(duì)有限的數(shù)據(jù)集,設(shè)置模型頭數(shù)為2、4、8,設(shè)置層數(shù)為1、2。表3是在不同頭數(shù)和層數(shù)下MHA、MHA-SVM、MHA-LR和MHA-NN的識(shí)別準(zhǔn)確率結(jié)果??梢钥闯?,在“頭”數(shù)量較少時(shí),隱藏向量的表達(dá)能力不足,模型準(zhǔn)確率相對(duì)較低,增加“頭”數(shù)量后可以提升模型對(duì)細(xì)節(jié)的表示能力,設(shè)置“頭”數(shù)量為8時(shí),準(zhǔn)確率達(dá)到最高。同時(shí),1層的模型就可以獲得較好效果,層數(shù)對(duì)模型的影響相對(duì)不太敏感,而且由于層數(shù)增加,導(dǎo)致模型復(fù)雜度提升,對(duì)于訓(xùn)練數(shù)據(jù)量較小的數(shù)據(jù)集,容易導(dǎo)致過擬合,從而影響模型的泛化能力。從表3中還可以看出,SVM分類器可以進(jìn)一步提升MHA的分類效果,而LR和NN則對(duì)MHA的影響較小。當(dāng)頭數(shù)為8且層數(shù)為1時(shí),MHA和MHA-SVM的識(shí)別準(zhǔn)確率都達(dá)到最高,分別為67.7%和69.6%。圖7分別是準(zhǔn)確率曲線、混淆矩陣和t分布-隨機(jī)鄰近嵌入(T-distribution Stochastic Neighbour Embedding, t-SNE)圖。
表3 不同頭數(shù)和層數(shù)下模型的識(shí)別準(zhǔn)確率比較 單位: %
由表4可以看出,除“悲傷”類別外,其余三個(gè)類別的精準(zhǔn)率都在70%以上。由于訓(xùn)練集中“悲傷”類別的訓(xùn)練樣本數(shù)相對(duì)較少,模型只能從有限的樣本中學(xué)習(xí)特征,從而容易將測(cè)試集中的“悲傷”樣本錯(cuò)誤地分類到“中性”或“高興”類別。從總體上看,所有模型的F1分?jǐn)?shù)都達(dá)到70%,這表明MHA-SVM在不平衡數(shù)據(jù)集上具有很好的識(shí)別性能。
圖7 實(shí)驗(yàn)結(jié)果
最后,表5給出了SER領(lǐng)域近年的研究成果及其研究方法。這些研究工作的準(zhǔn)確率都不高于70%,這主要是由IEMOCAP數(shù)據(jù)內(nèi)部結(jié)構(gòu)特點(diǎn)決定[23]。IEMOCAP數(shù)據(jù)集采集過程使用兩個(gè)麥克風(fēng)分別獨(dú)立采集男演員聲音和女演員聲音,兩類演員在對(duì)話表演中會(huì)相互打斷,話語會(huì)相交,這個(gè)交集時(shí)間占整個(gè)對(duì)話時(shí)間的9%,由于麥克風(fēng)放置位置相對(duì)接近對(duì)方,這會(huì)導(dǎo)致單一麥克風(fēng)同時(shí)記錄兩個(gè)聲音,從而增加音頻片段內(nèi)容的判斷難度和數(shù)據(jù)類型的非平衡性。另外,數(shù)據(jù)標(biāo)注質(zhì)量進(jìn)一步降低了IMMOCAP數(shù)據(jù)集的識(shí)別準(zhǔn)確率,根據(jù)標(biāo)注規(guī)則,對(duì)音頻片段所含情緒類別的判斷需取得半數(shù)以上專家一致評(píng)價(jià)時(shí),才能對(duì)該片段進(jìn)行標(biāo)注,數(shù)據(jù)集中約有25%的音頻片段無法被分配到情緒標(biāo)簽,而標(biāo)注片段中能取得所有專家一致評(píng)價(jià)的占比不到50%,這進(jìn)一步說明人類情緒表達(dá)的復(fù)雜性和情緒評(píng)估的主觀性。由表5可以看出,與其他對(duì)比方法相比,在IEMOCAP數(shù)據(jù)集上本文模型的識(shí)別性能最優(yōu)。傳統(tǒng)機(jī)器學(xué)習(xí)方法SVM[24-25]的識(shí)別性能要弱于神經(jīng)網(wǎng)絡(luò),其中文獻(xiàn)[24]中以低水平特征集為輸入使用單一SVM獲得57.5%準(zhǔn)確率;文獻(xiàn)[25]中將原始音頻輸入以SVM為內(nèi)部節(jié)點(diǎn)的決策樹中,逐步識(shí)別各情緒類別。以原始音頻為輸入的端到端CNN-BLSTM[8]中,從原始音頻提取潛在關(guān)系的能力都遠(yuǎn)遜于基于MHA的模型,而且網(wǎng)絡(luò)深度增加帶來的運(yùn)算效率的降低不利于其在移動(dòng)終端的部署實(shí)施。以手工提取的梅爾譜圖等聲音特征作為輸入的模型[10-11]雖然網(wǎng)絡(luò)結(jié)構(gòu)較前面模型簡(jiǎn)潔,但受限于人為選擇聲音特征的偏差和樣本數(shù)據(jù)維度高、規(guī)模小的問題,無法針對(duì)具體語音情感數(shù)據(jù)集的特點(diǎn),自主挖掘聲音序列的內(nèi)部潛在特征,模型的泛化能力弱于基于MHA的模型。實(shí)驗(yàn)結(jié)果說明基于MHA的模型可以有效地捕捉原始聲音序列中的內(nèi)部時(shí)空關(guān)系,而SVM作為分類器對(duì)高維小規(guī)模樣本的聲音特征分類有積極的促進(jìn)作用。
表4 MHA-SVM在IEMOCAP數(shù)據(jù)集上四個(gè)情緒類別的性能比較 單位: %
表5 IEMOCAP數(shù)據(jù)集上7種模型的準(zhǔn)確率對(duì)比
本文提出了以原始音頻為輸入的基于多頭注意力的端到端語音情感識(shí)別模型。模型中的卷積層能夠有效提取語音信號(hào)的低維特征,多頭注意機(jī)制可以減小序列信息的長(zhǎng)度,充分挖掘語音信號(hào)的時(shí)空結(jié)構(gòu)信息,并結(jié)合SVM進(jìn)一步提高語音情感分類的識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明該模型比基于梅爾譜圖的模型具有更大的優(yōu)勢(shì),由于輸入為原始波形,且無需手工特征提取步驟,這給模型部署在移動(dòng)端帶來了便利。未來的工作中,我們將繼續(xù)優(yōu)化模型,提高模型識(shí)別準(zhǔn)確率,使模型在移動(dòng)端具有開發(fā)應(yīng)用前景。
[1] SALAMON J, BELLO J P. Deep convolutional neural networks and data augmentation for environmental sound classification[J]. IEEE Signal Processing Letters, 2017, 24(3): 279-283.
[2] LIM W, JANG D, LEE T. Speech emotion recognition using convolutional and recurrent neural networks[C]// Proceedings of the 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2016: 1-4.
[3] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[4] SCHEDL M, GóMEZ E, URBANO J. Music information retrieval: recent developments and applications[J]. Foundations and Trends in Information Retrieval, 2014, 8(2/3): 127-261.
[5] MAO Q R, DONG M, HUANG Z W, et al. Learning salient features for speech emotion recognition using convolutional neural networks[J]. IEEE Transactions on Multimedia, 2014, 16(8): 2203-2213.
[6] ISSA D, DEMIRCI M F, YAZICI A. Speech emotion recognition with deep convolutional neural networks[J]. Biomedical Signal Processing Control, 2020, 59: No.101894.
[7] XIE Y, LIANG R Y, LIANG Z L, et al. Speech emotion classification using attention-based LSTM[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(11): 1675-1685.
[8] 呂惠煉,胡維平. 基于端到端深度神經(jīng)網(wǎng)絡(luò)的語言情感識(shí)別研究[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 39(3): 20-26.(LYU H L, HU W P. Research on speech emotion recognition based on end-to-end deep neural network[J]. Journal of Guangxi Normal University (Natural Science Edition), 2021, 39(3): 20-26.)
[9] LATIF S, RANA R, KHALIFA S, et al. Direct modelling of speech emotion from raw speech[EB/OL]. (2020-07-28)[2021-01-25].https://arxiv.org/pdf/1904.03833.pdf.
[10] CHEN M Y, HE X J, YANG J, et al. 3-D convolutional recurrent neural networks with attention model for speech emotion recognition[J]. IEEE Signal Processing Letters, 2018, 25(10): 1440-1444.
[11] ZHAO Z P, BAO Z T, ZHAO Y Q, et al. Exploring deep spectrum representations via attention-based recurrent and convolutional neural networks for speech emotion recognition[J]. IEEE Access, 2019, 7:97515-97525.
[12] VASWANI A, SHAZEER N, PARMAR J, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[13] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. [2021-01-25].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_ understanding_paper.pdf.
[14] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[15] KARITA S, SOPLIN N E Y, WATANABE M, et al. Improving transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration[C]// Proceedings of the 20th Annual Conference of the International Speech Communication Association. [S.l.]: ISCA, 2019: 1408-1412.
[16] 陳闖, RYAD C,邢尹,等. 改進(jìn)GWO優(yōu)化SVM的語音情感識(shí)別研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018, 54(16): 113-118.(CHEN C, RYAD C, XING Y, et al. Research on speech emotion recognition based on improved GWO optimized SVM[J]. Computer Engineering and Applications, 2018, 54(16): 113-118.)
[17] 余華,顏丙聰. 基于CTC-RNN的語音情感識(shí)別方法[J]. 電子器件, 2020, 43(4): 934-937.(YU H, YAN B C. Speech emotion recognition based on CTC-RNN[J]. Chinese Journal of Electron Devices, 2020, 43(4): 934-937.)
[18] YOON S, BYUN S, JUNG K. Multimodal speech emotion recognition using audio and text[C]// Proceedings of the 2018 IEEE Spoken Language Technology Workshop. Piscataway: IEEE, 2018: 112-118.
[19] CHO J, PAPPAGARI R, KULKARNI P, et al. Deep neural networks for emotion recognition combining audio and transcripts[C]// Proceedings of the 19th Annual Conference of the International Speech Communication Association. [S.l.]: ISCA, 2018: 247-251.
[20] ALDENEH Z, PROVOST E M. Using regional saliency for speech emotion recognition[C]// Proceedings of the 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2017: 2741-2745.
[21] WAN M T, McAULEY J. Item recommendation on monotonic behavior chains[C]// Proceedings of the 12th ACM Conference on Recommender Systems. New York: ACM, 2018: 86-94.
[22] XIA Q L, JIANG P, SUN F, et al. Modeling consumer buying decision for recommendation based on multi-task deep learning[C]// Proceedings of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM, 2018: 1703-1706.
[23] CHERNYKH V, PRIKHODKO P. Emotion recognition from speech with recurrent neural networks[EB/OL]. (2018-07-05)[2021-01-25].https://arxiv.org/pdf/1701.08071.pdf.
[24] TIAN L M, MOORE J D, CATHERINE L. Emotion recognition in spontaneous and acted dialogues[C]// Proceedings of the 2015 International Conference on Affective Computing and Intelligent Interaction. Piscataway: IEEE, 2015: 698-704.
[25] ROZGI? V, ANANTHAKRISHNAN S, SALEEM S, et al. Ensemble of SVM trees for multimodal emotion recognition[C]// Proceedings of the 2012 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2012: 1-4.
End-to-end speech emotion recognition based on multi-head attention
YANG Lei1, ZHAO Hongdong1*, YU Kuaikuai2
(1,,300401,;2,300308,)
Aiming at the characteristics of small size and high data dimensionality of speech emotion datasets, to solve the problem of long-range dependence disappearance in traditional Recurrent Neural Network (RNN) and insufficient excavation of potential relationship between frames within the input sequence because of focus on local information of Convolutional Neural Network (CNN), a new neural network MAH-SVM based on Multi-Head Attention (MHA) and Support Vector Machine (SVM) was proposed for Speech Emotion Recognition (SER). First, the original audio data were input into the MHA network to train the parameters of MHA and obtain the classification results of MHA. Then, the same original audio data were input into the pre-trained MHA again for feature extraction. Finally, these obtained features were fed into SVM after the fully connected layer to obtain classification results of MHA-SVM. After fully evaluating the effect of the heads and layers in the MHA module on the experimental results, it was found that MHA-SVM achieved the highest recognition accuracy of 69.6% on IEMOCAP dataset. Experimental results indicate that the end-to-end model based on MHA mechanism is more suitable for SER tasks compared with models based on RNN and CNN.
Speech Emotion Recognition (SER); Multi-Head Attention (MHA); Convolutional Neural Network (CNN); Support Vector Machine (SVM); end-to-end
This work is partially supported by Fund of Science and Technology on Electro-Optical Information Security Control Laboratory (614210701041705).
YANG Lei, born in 1978, Ph. D. candidate. His research interests include intelligent information processing.
ZHAO Hongdong, born in 1968, Ph. D., professor. His research interests include photoelectric information processing, speech signal processing.
YU Kuaikuai, born in 1988, M. S., engineer. His research interests include electronic information.
TP183
A
1001-9081(2022)06-1869-07
10.11772/j.issn.1001-9081.2021040578
2021?04?14;
2021?07?19;
2021?07?23。
光電信息控制和安全技術(shù)重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目(614210701041705)。
楊磊(1978—),男,吉林敦化人,博士研究生,CCF會(huì)員,主要研究方向:智能信息處理;趙紅東(1968—),男,河北滄州人,教授,博士生導(dǎo)師,博士,主要研究方向:光電信息處理及應(yīng)用、語音信號(hào)處理;于快快(1988—),男,天津人,工程師,碩士,主要研究方向:電子信息。