趙小蕾 許喜斌
1(中山大學(xué)新華學(xué)院信息科學(xué)學(xué)院 廣東 廣州 510520)2(廣東工程職業(yè)技術(shù)學(xué)院 廣東 廣州 510520)
語(yǔ)音情感識(shí)別(Speech Emotion Recognition,SER)是模式識(shí)別領(lǐng)域的研究熱點(diǎn),是新型人機(jī)交互系統(tǒng)及人工智能發(fā)展不可或缺的重要技術(shù)[1]。SER技術(shù)主要分為語(yǔ)音信號(hào)采集、特征提取和情感識(shí)別三個(gè)階段[2],其中關(guān)鍵的模塊是特征提取和情感識(shí)別模塊。針對(duì)特征提取技術(shù)研究者們多年來(lái)進(jìn)行了細(xì)致的分析和研究,情感特征主要包括韻律特征、頻域特征和音質(zhì)特征[3],這些特征在傳統(tǒng)語(yǔ)音情感識(shí)別中起到關(guān)鍵作用,輔以一定的特征選擇算法針對(duì)特定數(shù)據(jù)集可以取得優(yōu)異識(shí)別性能。值得一提的是,學(xué)者們嘗試將時(shí)頻兩域的情感特征進(jìn)行結(jié)合,提出了語(yǔ)譜圖特征提取方法,并應(yīng)用于語(yǔ)音識(shí)別[4]和語(yǔ)音情感識(shí)別相關(guān)領(lǐng)域[5]。在識(shí)別模型研究方面,從淺層學(xué)習(xí)的支持向量機(jī)(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、深度置信網(wǎng)絡(luò)(DBN)[11]和遞歸神經(jīng)網(wǎng)絡(luò)等(RNN)[10]。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,深度學(xué)習(xí)能夠提取高層的特征,近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域具有出色的表現(xiàn),其中卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域取得了前所未有的成功[11]。許多研究者們也逐步將深度學(xué)習(xí)引入到SER任務(wù)中。黃晨晨等[11]利用深度信念網(wǎng)絡(luò)自動(dòng)提取語(yǔ)音情感特征,合并連續(xù)多幀語(yǔ)音情感特征構(gòu)造一個(gè)高維的特征,最后輸入到支持向量機(jī)(SVM)進(jìn)行分類。Mao等[12]基于CNN網(wǎng)絡(luò)提取顯著特征,從而提升復(fù)雜場(chǎng)景下的SER情感識(shí)別性能,實(shí)驗(yàn)證明該方法具有較高的魯棒性和穩(wěn)定性。Huang等[13]訓(xùn)練了一個(gè)改進(jìn)的CNN模型,能夠提取顯著語(yǔ)音情感特征,進(jìn)而提高情感識(shí)別率。Lee等[14]提取了高層特征并使用RNN進(jìn)行預(yù)測(cè),在IEMOCAP數(shù)據(jù)庫(kù)上取得62%的識(shí)別準(zhǔn)確率。Niu等[15]提出了數(shù)據(jù)預(yù)處理算法,通過改變頻譜圖的大小獲得更多的數(shù)據(jù),并輸入到深度神經(jīng)網(wǎng)絡(luò)模型AlexNet中,在IEMOCAP數(shù)據(jù)集上獲得了48.8%平均準(zhǔn)確率。Fayek等[16]研究了適用于SER任務(wù)的前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)及其變體,并在副語(yǔ)言語(yǔ)音識(shí)別中驗(yàn)證了深度學(xué)習(xí)結(jié)構(gòu)的有效性。文獻(xiàn)[17]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別語(yǔ)譜圖特征的語(yǔ)音情感識(shí)別方法,首先提取灰度語(yǔ)譜圖特征,隨后利用Gabor小波和分塊PCA進(jìn)行特征再提取和降維,最后送入CNNs進(jìn)行識(shí)別分類,取得了不錯(cuò)的效果。
雖然深度學(xué)習(xí)在SER中取得了一定的成績(jī),但以往的傳統(tǒng)語(yǔ)音情感識(shí)別(淺層學(xué)習(xí))也并非沒有任何價(jià)值,淺層學(xué)習(xí)模型訓(xùn)練速度快,參數(shù)少,所提取的特征具有針對(duì)性,而深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要大量的訓(xùn)練數(shù)據(jù),調(diào)參復(fù)雜。文獻(xiàn)[18]指出深度學(xué)習(xí)不需要人工參與進(jìn)而缺乏先驗(yàn)知識(shí)的引導(dǎo),故提出使用淺層學(xué)習(xí)引導(dǎo)深度學(xué)習(xí)的方法,說明淺層學(xué)習(xí)仍有特定意義。
對(duì)于語(yǔ)音情感識(shí)別問題雖然是大數(shù)據(jù)的時(shí)代,但獲取的有效數(shù)據(jù)卻有限,而淺層學(xué)習(xí)在小樣本數(shù)據(jù)集上具有優(yōu)勢(shì),能否突破數(shù)據(jù)集的數(shù)量限制,充分發(fā)揮二者的優(yōu)勢(shì),形成優(yōu)勢(shì)互補(bǔ),是值得研究的課題。因此,本文提出了融合深度學(xué)習(xí)和淺層學(xué)習(xí)且適用于小樣本語(yǔ)音的語(yǔ)音情感識(shí)別的模型。構(gòu)建了兩種識(shí)別模型:傳統(tǒng)語(yǔ)音識(shí)別——淺層學(xué)習(xí)和深度學(xué)習(xí)框架——PCANET模型[19],最后通過有效決策層融合兩類模型。研究目標(biāo)是充分利用淺層學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢(shì)以避免不足,提高識(shí)別率和魯棒性。傳統(tǒng)聲學(xué)特征具有針對(duì)性但主觀性較強(qiáng),深度學(xué)習(xí)網(wǎng)絡(luò)可以自動(dòng)提取特征,但會(huì)受樣本數(shù)量和參數(shù)影響,通過有效的決策融合方法,可以綜合利用二者的優(yōu)勢(shì),得到穩(wěn)定的高識(shí)別率。
本文方法框架流程如圖1所示,主要分為三個(gè)模塊:淺層學(xué)習(xí)特征提取模塊、深度學(xué)習(xí)特征提取模塊、分類決策融合模塊。淺層學(xué)習(xí)特征提取模塊,使用人工特征提取方法,并通過特征選擇,選取有效的特征;深度學(xué)習(xí)特征提取模塊,鑒于PCANET在圖像處理上具有絕對(duì)優(yōu)勢(shì),故獲取具有豐富情感信息的灰度語(yǔ)譜圖作為輸入,最后經(jīng)過有效的決策融合取得最終結(jié)果。
圖1 本文方法框架流程
PCANET網(wǎng)絡(luò)輸入為灰度語(yǔ)譜圖,故深度學(xué)習(xí)特征提取模塊涉及兩部分:灰度語(yǔ)譜圖生成算法以及PCANET網(wǎng)絡(luò)計(jì)算過程。
語(yǔ)譜圖的生成流程如圖2所示。
圖2 語(yǔ)譜圖獲取流程
具體步驟描述如下:
步驟1對(duì)語(yǔ)音情感信號(hào)加窗分幀。假設(shè)第i個(gè)語(yǔ)音情感信號(hào)用si表示,則加窗分幀后用si(m,n)表示,m為分幀的個(gè)數(shù),n為幀長(zhǎng),加窗采用漢明窗,本文實(shí)驗(yàn)采用的窗長(zhǎng)為1 024。
步驟2加窗并進(jìn)行傅里葉變換。計(jì)算傅里葉系數(shù)Xi(m,n):
(1)
式中:N代表序列長(zhǎng)度;k代表序數(shù)。
步驟3采用對(duì)數(shù)能量方法生成灰度語(yǔ)譜圖。設(shè)在點(diǎn)(a,b)上的灰度值為gi(a,b):
gi(a,b)=log10|Xi(m,n)|
(2)
步驟4采用最大最小歸一化方法對(duì)語(yǔ)譜圖進(jìn)行歸一化。得到歸一化灰度語(yǔ)譜圖Gi(a,b):
(3)
式中:gmax(a,b)、gmin(a,b)分別為語(yǔ)譜圖Gi(a,b)灰度級(jí)中的最大值和最小值。
步驟5將語(yǔ)譜圖量化成0~255的灰度級(jí)圖像Gi′(a,b)。
步驟2第一階段PCA處理。假設(shè)第一階段PCA濾波參數(shù)為L(zhǎng)1,用來(lái)表示PCA中對(duì)特征值排序后的前L1個(gè)特征值。隨后取L1個(gè)最大的特征值對(duì)應(yīng)的特征向量組成L1個(gè)PCA卷積核。用PCA對(duì)樣本集X進(jìn)行計(jì)算:
(4)
s.t.VTV=IL1
式中:IL1為L(zhǎng)1×L2的單位矩陣。
對(duì)應(yīng)的PCA濾波器如下:
(5)
式中:matk1k2為將向量從Rk1k2空間投影到Rk1×k2空間的函數(shù);ql(XXT)表示計(jì)算XXT的第l個(gè)主成分特征向量。
通過訓(xùn)練將樣本變換到新的空間:
(6)
步驟3第二階段PCA處理。在步驟2得到的卷積圖像上再次進(jìn)行相似的操作。此次取L2個(gè)最大的特征值對(duì)應(yīng)的特征向量,得到L2個(gè)PCA卷積核。得到的特征變換為:
(7)
步驟4輸出層處理。為了使特征表達(dá)能力更強(qiáng),使用赫維賽德階躍函數(shù)O(x)對(duì)特征值進(jìn)行二值化[20],最終獲得的二值化及加權(quán)處理后的結(jié)果如下:
(8)
將輸出S分為B塊,每個(gè)塊分別進(jìn)行直方圖統(tǒng)計(jì),得到的最終特征:
(9)
式中:fi表示第i個(gè)語(yǔ)譜圖經(jīng)過PCANET網(wǎng)絡(luò)得到的特征表示;Bh表示分塊直方圖統(tǒng)計(jì)。
為了實(shí)現(xiàn)淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)勢(shì)互補(bǔ),采用了決策層融合方法。SVM分類器在小樣本語(yǔ)音情感識(shí)別中具有廣泛的應(yīng)用,PCANET模型原采用SVM,可取得較佳效果[15],投票機(jī)制是決策層融合常用有效方法,且SVM采用投票機(jī)制。綜上分析本文基于投票決策提出了有效的差異性投票機(jī)制,差異性投票機(jī)制體現(xiàn)在兩個(gè)方面:兩類特征的識(shí)別精度差異性,各自分類器類別之間的差異性。綜合兩個(gè)SVM分類器統(tǒng)計(jì)總票數(shù),判定得票最高的類別為最終決策的類別。本文設(shè)采用深度學(xué)習(xí)特征的SVM分類器為D-SVM,采用淺層學(xué)習(xí)的分類器為S-SVM。
步驟2計(jì)算每個(gè)模型類別間的差異性信息。對(duì)于識(shí)別N個(gè)類別的“一對(duì)一”SVM分類,有N(N-1)/2個(gè)子分類器,各子分類器根據(jù)到各個(gè)類別的距離進(jìn)行兩兩投票。為了保證票數(shù)的有效性,舍棄距離小于一定閾值的無(wú)效投票,描述如下:(1)計(jì)算閾值t(取樣本所有子分類器的平均距離值);(2)舍去兩兩子分類器距離小于t的投票。
步驟3計(jì)算N個(gè)類別的最終投票分別為V1,V2,…,VN,其中Vi=Dd×vdi+Ds×vsi,vdi為深度學(xué)習(xí)第i個(gè)類別的有效投票數(shù),vsi為淺層學(xué)習(xí)第i個(gè)類別的有效投票數(shù)。最終結(jié)果為result=max(V1,V2,…,VN)。
在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證,其具體信息如下:
數(shù)據(jù)庫(kù)1:柏林?jǐn)?shù)據(jù)庫(kù)(EMO-DB)。由柏林工業(yè)大學(xué)錄制的德語(yǔ)情感語(yǔ)音庫(kù)包含535個(gè)語(yǔ)音數(shù)據(jù),采樣率為16 kHz,16 bit量化,由10個(gè)不同的人(5男5女)錄制而成,包含7種不同的情感,分別為中性、害怕、厭惡、喜悅、厭煩、悲傷和生氣。
數(shù)據(jù)庫(kù)2:課題組自行錄制的語(yǔ)音情感語(yǔ)音數(shù)據(jù)庫(kù)SPSED[21]。包含6種情感:高興、傷心、驚奇、生氣、害怕和厭惡。由5男6女錄制,每人錄制每種情感的15個(gè)語(yǔ)料(本文選用5男5女)。
實(shí)驗(yàn)方案:采用5折交叉驗(yàn)證方法,將情感語(yǔ)料分成5份,4份用于訓(xùn)練,剩下的一份作為測(cè)試,經(jīng)過5次輪換訓(xùn)練及測(cè)試,取平均值作為最終的識(shí)別結(jié)果。
將語(yǔ)譜圖作為PCANET網(wǎng)絡(luò)的輸入。給出語(yǔ)譜圖示例圖(部分),圖像經(jīng)過降采樣最終大小為384×301,如圖3和圖4所示,可以看出不同情感的語(yǔ)譜圖信息具有顯著的差異性。
圖4 EMO-DB情感語(yǔ)音庫(kù)灰度語(yǔ)譜圖(部分)
針對(duì)淺層學(xué)習(xí)(人工統(tǒng)計(jì))特征識(shí)別方法,為了觀察特征降維后特征大小對(duì)識(shí)別率的影響,在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),求得各情感類別識(shí)別率平均值,最初提取的特征為能量相關(guān)、基音頻率相關(guān)及共振峰系數(shù)等101維特征,并采用序列浮動(dòng)前向選擇(SFFS)方法進(jìn)行特征選擇,實(shí)際降維到61維。
對(duì)PCANET網(wǎng)絡(luò)的各參數(shù)設(shè)置,通過實(shí)驗(yàn)給出對(duì)比,并確定最終的參數(shù)值。為了觀察PCANET網(wǎng)絡(luò)中塊大小的選取對(duì)識(shí)別率的影響,在兩個(gè)數(shù)據(jù)庫(kù)上,塊大小分別取3×3、5×5、7×7、9×9、11×11(單位:像素,通常選用奇數(shù)),測(cè)試本文方法的平均識(shí)別率,固定其他參數(shù)L1=L2=8,重疊率為50%,直方圖塊大小為兩階段分別取2,其結(jié)果如圖5所示??梢钥闯?,塊大小(實(shí)際為選取的窗口大小)為5×5時(shí)可以獲得最佳效果。
圖5 塊大小參數(shù)對(duì)識(shí)別率的影響
為了觀察濾波器選取參數(shù)對(duì)識(shí)別率的影響,測(cè)試了不同取值下的識(shí)別率,如圖6所示。固定其他參數(shù)塊大小選取5×5,直方圖塊大小選取2,重疊率為50%??梢钥闯?,兩階段都選擇8時(shí)效果為最佳。實(shí)驗(yàn)也測(cè)試了直方圖塊大小和重疊率的影響,選擇2為最佳,重疊率在30%以上已經(jīng)可以取得較好效果,為了保險(xiǎn)起見本文選擇50%。
圖6 濾波器個(gè)數(shù)選擇對(duì)識(shí)別率的影響
為了驗(yàn)證融合淺層學(xué)習(xí)和深度學(xué)習(xí)的有效性,測(cè)試僅使用淺層學(xué)習(xí)識(shí)別方法(傳統(tǒng)方法中的人工統(tǒng)計(jì)特征,記為方法1)、深度學(xué)習(xí)識(shí)別方法(記為方法2)、本文方法,實(shí)驗(yàn)結(jié)果如表1所示??梢钥闯?,在兩個(gè)數(shù)據(jù)庫(kù)上方法2識(shí)別率明顯高于方法1,說明采用語(yǔ)譜圖+PCANET提取特征+SVM方法較傳統(tǒng)人工統(tǒng)計(jì)特征+SVM方法更佳。而本文方法較方法2取得了更高的識(shí)別率,在SPSED上較融合之前的方法2提高了2.54個(gè)百分點(diǎn),較方法1提高了6.1個(gè)百分點(diǎn);在柏林?jǐn)?shù)據(jù)庫(kù)上,本文方法較方法2提高了2.93個(gè)百分點(diǎn),較傳統(tǒng)方法提高了3.86個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文方法是有效的,這是因?yàn)槠涑浞掷昧藘煞N識(shí)別模型的優(yōu)勢(shì),豐富了情感信息的獲取途徑。
表1 融合方法有效性驗(yàn)證實(shí)驗(yàn) %
為了進(jìn)一步驗(yàn)證本文決策層融合方法的有效性,分別與下述方法進(jìn)行比較實(shí)驗(yàn):特征層融合方法(方法1),該方法采用特征級(jí)聯(lián),然后使用SVM分類器識(shí)別,以及常用的決策融合方法:線性加權(quán)融合方法(方法2,權(quán)重取0.5)、證據(jù)理論融合方法(方法3)、貝葉斯融合方法(方法4)。為了驗(yàn)證融合淺層學(xué)習(xí)和深度學(xué)習(xí)方法的有效性,與較有代表性的語(yǔ)音情感識(shí)別方法進(jìn)行了對(duì)比,如文獻(xiàn)[11]和文獻(xiàn)[13]。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯?,本文方法取得了最佳結(jié)果。方法1是特征級(jí)聯(lián)融合方法,方法2-方法4的特征決策融合方法均比方法1略高些,說明采用決策融合方法更為合理。本文方法與文獻(xiàn)[11]和文獻(xiàn)[13]相比也取得了明顯的優(yōu)勢(shì),驗(yàn)證了本文方法在小樣本數(shù)據(jù)集上可以取得較好的效果。
表2 與其他方法的對(duì)比實(shí)驗(yàn) %
本文分析了淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)缺點(diǎn),為了實(shí)現(xiàn)兩種模型的優(yōu)勢(shì)互補(bǔ)提出了淺層學(xué)習(xí)和深度學(xué)習(xí)模型決策層融合方法,并應(yīng)用于小樣本語(yǔ)音情感識(shí)別中。淺層學(xué)習(xí)采用傳統(tǒng)的人工統(tǒng)計(jì)特征,提取具有針對(duì)性的有效特征,深度學(xué)習(xí)階段獲取了情感語(yǔ)音的語(yǔ)譜圖信息,并將語(yǔ)譜圖按照?qǐng)D像處理方式,使用PCANET提取特征,將兩類特征分別輸入到SVM識(shí)別模型中,隨后使用提出的有效差異性投票機(jī)制的決策融合方法進(jìn)行融合。在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證實(shí)驗(yàn),對(duì)比了特征層、決策層常用融合策略以及具有代表性的語(yǔ)音情感識(shí)別方法,本文方法取得了相對(duì)較高的識(shí)別率。下一步工作是研究利用淺層學(xué)習(xí)的先驗(yàn)知識(shí)引導(dǎo)深度學(xué)習(xí)端到端的識(shí)別策略。