融合淺層學(xué)習(xí)和深度學(xué)習(xí)模型的語(yǔ)音情感識(shí)別

2020-12-14 09:13:44趙小蕾許喜斌

計(jì)算機(jī)應(yīng)用與軟件 2020年12期

趙小蕾許喜斌

1(中山大學(xué)新華學(xué)院信息科學(xué)學(xué)院廣東廣州 510520)2(廣東工程職業(yè)技術(shù)學(xué)院廣東廣州 510520)

0 引言

語(yǔ)音情感識(shí)別(Speech Emotion Recognition,SER)是模式識(shí)別領(lǐng)域的研究熱點(diǎn)，是新型人機(jī)交互系統(tǒng)及人工智能發(fā)展不可或缺的重要技術(shù)[1]。SER技術(shù)主要分為語(yǔ)音信號(hào)采集、特征提取和情感識(shí)別三個(gè)階段[2]，其中關(guān)鍵的模塊是特征提取和情感識(shí)別模塊。針對(duì)特征提取技術(shù)研究者們多年來(lái)進(jìn)行了細(xì)致的分析和研究，情感特征主要包括韻律特征、頻域特征和音質(zhì)特征[3],這些特征在傳統(tǒng)語(yǔ)音情感識(shí)別中起到關(guān)鍵作用，輔以一定的特征選擇算法針對(duì)特定數(shù)據(jù)集可以取得優(yōu)異識(shí)別性能。值得一提的是，學(xué)者們嘗試將時(shí)頻兩域的情感特征進(jìn)行結(jié)合，提出了語(yǔ)譜圖特征提取方法，并應(yīng)用于語(yǔ)音識(shí)別[4]和語(yǔ)音情感識(shí)別相關(guān)領(lǐng)域[5]。在識(shí)別模型研究方面，從淺層學(xué)習(xí)的支持向量機(jī)(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8]，到深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、深度置信網(wǎng)絡(luò)(DBN)[11]和遞歸神經(jīng)網(wǎng)絡(luò)等(RNN)[10]。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比，深度學(xué)習(xí)能夠提取高層的特征，近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域具有出色的表現(xiàn)，其中卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域取得了前所未有的成功[11]。許多研究者們也逐步將深度學(xué)習(xí)引入到SER任務(wù)中。黃晨晨等[11]利用深度信念網(wǎng)絡(luò)自動(dòng)提取語(yǔ)音情感特征，合并連續(xù)多幀語(yǔ)音情感特征構(gòu)造一個(gè)高維的特征，最后輸入到支持向量機(jī)(SVM)進(jìn)行分類。Mao等[12]基于CNN網(wǎng)絡(luò)提取顯著特征，從而提升復(fù)雜場(chǎng)景下的SER情感識(shí)別性能，實(shí)驗(yàn)證明該方法具有較高的魯棒性和穩(wěn)定性。Huang等[13]訓(xùn)練了一個(gè)改進(jìn)的CNN模型，能夠提取顯著語(yǔ)音情感特征，進(jìn)而提高情感識(shí)別率。Lee等[14]提取了高層特征并使用RNN進(jìn)行預(yù)測(cè)，在IEMOCAP數(shù)據(jù)庫(kù)上取得62%的識(shí)別準(zhǔn)確率。Niu等[15]提出了數(shù)據(jù)預(yù)處理算法，通過改變頻譜圖的大小獲得更多的數(shù)據(jù)，并輸入到深度神經(jīng)網(wǎng)絡(luò)模型AlexNet中，在IEMOCAP數(shù)據(jù)集上獲得了48.8%平均準(zhǔn)確率。Fayek等[16]研究了適用于SER任務(wù)的前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)及其變體，并在副語(yǔ)言語(yǔ)音識(shí)別中驗(yàn)證了深度學(xué)習(xí)結(jié)構(gòu)的有效性。文獻(xiàn)[17]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別語(yǔ)譜圖特征的語(yǔ)音情感識(shí)別方法，首先提取灰度語(yǔ)譜圖特征，隨后利用Gabor小波和分塊PCA進(jìn)行特征再提取和降維，最后送入CNNs進(jìn)行識(shí)別分類，取得了不錯(cuò)的效果。

雖然深度學(xué)習(xí)在SER中取得了一定的成績(jī)，但以往的傳統(tǒng)語(yǔ)音情感識(shí)別(淺層學(xué)習(xí))也并非沒有任何價(jià)值，淺層學(xué)習(xí)模型訓(xùn)練速度快，參數(shù)少，所提取的特征具有針對(duì)性，而深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，需要大量的訓(xùn)練數(shù)據(jù)，調(diào)參復(fù)雜。文獻(xiàn)[18]指出深度學(xué)習(xí)不需要人工參與進(jìn)而缺乏先驗(yàn)知識(shí)的引導(dǎo)，故提出使用淺層學(xué)習(xí)引導(dǎo)深度學(xué)習(xí)的方法，說明淺層學(xué)習(xí)仍有特定意義。

對(duì)于語(yǔ)音情感識(shí)別問題雖然是大數(shù)據(jù)的時(shí)代，但獲取的有效數(shù)據(jù)卻有限，而淺層學(xué)習(xí)在小樣本數(shù)據(jù)集上具有優(yōu)勢(shì)，能否突破數(shù)據(jù)集的數(shù)量限制，充分發(fā)揮二者的優(yōu)勢(shì)，形成優(yōu)勢(shì)互補(bǔ)，是值得研究的課題。因此，本文提出了融合深度學(xué)習(xí)和淺層學(xué)習(xí)且適用于小樣本語(yǔ)音的語(yǔ)音情感識(shí)別的模型。構(gòu)建了兩種識(shí)別模型：傳統(tǒng)語(yǔ)音識(shí)別——淺層學(xué)習(xí)和深度學(xué)習(xí)框架——PCANET模型[19]，最后通過有效決策層融合兩類模型。研究目標(biāo)是充分利用淺層學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢(shì)以避免不足，提高識(shí)別率和魯棒性。傳統(tǒng)聲學(xué)特征具有針對(duì)性但主觀性較強(qiáng)，深度學(xué)習(xí)網(wǎng)絡(luò)可以自動(dòng)提取特征，但會(huì)受樣本數(shù)量和參數(shù)影響，通過有效的決策融合方法，可以綜合利用二者的優(yōu)勢(shì)，得到穩(wěn)定的高識(shí)別率。

1 方法框架流程

本文方法框架流程如圖1所示，主要分為三個(gè)模塊：淺層學(xué)習(xí)特征提取模塊、深度學(xué)習(xí)特征提取模塊、分類決策融合模塊。淺層學(xué)習(xí)特征提取模塊，使用人工特征提取方法，并通過特征選擇，選取有效的特征；深度學(xué)習(xí)特征提取模塊，鑒于PCANET在圖像處理上具有絕對(duì)優(yōu)勢(shì)，故獲取具有豐富情感信息的灰度語(yǔ)譜圖作為輸入，最后經(jīng)過有效的決策融合取得最終結(jié)果。

圖1 本文方法框架流程

2 深度學(xué)習(xí)特征提取

PCANET網(wǎng)絡(luò)輸入為灰度語(yǔ)譜圖，故深度學(xué)習(xí)特征提取模塊涉及兩部分：灰度語(yǔ)譜圖生成算法以及PCANET網(wǎng)絡(luò)計(jì)算過程。

2.1 語(yǔ)譜圖生成算法

語(yǔ)譜圖的生成流程如圖2所示。

圖2 語(yǔ)譜圖獲取流程

具體步驟描述如下：

步驟1對(duì)語(yǔ)音情感信號(hào)加窗分幀。假設(shè)第i個(gè)語(yǔ)音情感信號(hào)用si表示，則加窗分幀后用si(m,n)表示，m為分幀的個(gè)數(shù)，n為幀長(zhǎng)，加窗采用漢明窗，本文實(shí)驗(yàn)采用的窗長(zhǎng)為1 024。

步驟2加窗并進(jìn)行傅里葉變換。計(jì)算傅里葉系數(shù)Xi(m,n)：

(1)

式中：N代表序列長(zhǎng)度；k代表序數(shù)。

步驟3采用對(duì)數(shù)能量方法生成灰度語(yǔ)譜圖。設(shè)在點(diǎn)(a,b)上的灰度值為gi(a,b)：

gi(a,b)=log10|Xi(m,n)|

(2)

步驟4采用最大最小歸一化方法對(duì)語(yǔ)譜圖進(jìn)行歸一化。得到歸一化灰度語(yǔ)譜圖Gi(a,b)：

(3)

式中：gmax(a,b)、gmin(a,b)分別為語(yǔ)譜圖Gi(a,b)灰度級(jí)中的最大值和最小值。

步驟5將語(yǔ)譜圖量化成0～255的灰度級(jí)圖像Gi′(a,b)。

2.2 PCANET特征提取過程

步驟2第一階段PCA處理。假設(shè)第一階段PCA濾波參數(shù)為L(zhǎng)1，用來(lái)表示PCA中對(duì)特征值排序后的前L1個(gè)特征值。隨后取L1個(gè)最大的特征值對(duì)應(yīng)的特征向量組成L1個(gè)PCA卷積核。用PCA對(duì)樣本集X進(jìn)行計(jì)算：

(4)

s.t.VTV=IL1

式中：IL1為L(zhǎng)1×L2的單位矩陣。

對(duì)應(yīng)的PCA濾波器如下：

(5)

式中：matk1k2為將向量從Rk1k2空間投影到Rk1×k2空間的函數(shù)；ql(XXT)表示計(jì)算XXT的第l個(gè)主成分特征向量。

通過訓(xùn)練將樣本變換到新的空間：

(6)

步驟3第二階段PCA處理。在步驟2得到的卷積圖像上再次進(jìn)行相似的操作。此次取L2個(gè)最大的特征值對(duì)應(yīng)的特征向量，得到L2個(gè)PCA卷積核。得到的特征變換為：

(7)

步驟4輸出層處理。為了使特征表達(dá)能力更強(qiáng)，使用赫維賽德階躍函數(shù)O(x)對(duì)特征值進(jìn)行二值化[20]，最終獲得的二值化及加權(quán)處理后的結(jié)果如下：

(8)

將輸出S分為B塊，每個(gè)塊分別進(jìn)行直方圖統(tǒng)計(jì)，得到的最終特征：

(9)

式中：fi表示第i個(gè)語(yǔ)譜圖經(jīng)過PCANET網(wǎng)絡(luò)得到的特征表示；Bh表示分塊直方圖統(tǒng)計(jì)。

3 決策層融合方法

為了實(shí)現(xiàn)淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)勢(shì)互補(bǔ)，采用了決策層融合方法。SVM分類器在小樣本語(yǔ)音情感識(shí)別中具有廣泛的應(yīng)用，PCANET模型原采用SVM，可取得較佳效果[15]，投票機(jī)制是決策層融合常用有效方法，且SVM采用投票機(jī)制。綜上分析本文基于投票決策提出了有效的差異性投票機(jī)制，差異性投票機(jī)制體現(xiàn)在兩個(gè)方面：兩類特征的識(shí)別精度差異性，各自分類器類別之間的差異性。綜合兩個(gè)SVM分類器統(tǒng)計(jì)總票數(shù)，判定得票最高的類別為最終決策的類別。本文設(shè)采用深度學(xué)習(xí)特征的SVM分類器為D-SVM，采用淺層學(xué)習(xí)的分類器為S-SVM。

步驟2計(jì)算每個(gè)模型類別間的差異性信息。對(duì)于識(shí)別N個(gè)類別的“一對(duì)一”SVM分類，有N(N-1)/2個(gè)子分類器，各子分類器根據(jù)到各個(gè)類別的距離進(jìn)行兩兩投票。為了保證票數(shù)的有效性，舍棄距離小于一定閾值的無(wú)效投票，描述如下：(1)計(jì)算閾值t(取樣本所有子分類器的平均距離值)；(2)舍去兩兩子分類器距離小于t的投票。

步驟3計(jì)算N個(gè)類別的最終投票分別為V1,V2,…，VN,其中Vi=Dd×vdi+Ds×vsi,vdi為深度學(xué)習(xí)第i個(gè)類別的有效投票數(shù)，vsi為淺層學(xué)習(xí)第i個(gè)類別的有效投票數(shù)。最終結(jié)果為result=max(V1,V2,…,VN)。

4 仿真實(shí)驗(yàn)

在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證，其具體信息如下：

數(shù)據(jù)庫(kù)1：柏林?jǐn)?shù)據(jù)庫(kù)(EMO-DB)。由柏林工業(yè)大學(xué)錄制的德語(yǔ)情感語(yǔ)音庫(kù)包含535個(gè)語(yǔ)音數(shù)據(jù)，采樣率為16 kHz，16 bit量化，由10個(gè)不同的人(5男5女)錄制而成，包含7種不同的情感，分別為中性、害怕、厭惡、喜悅、厭煩、悲傷和生氣。

數(shù)據(jù)庫(kù)2：課題組自行錄制的語(yǔ)音情感語(yǔ)音數(shù)據(jù)庫(kù)SPSED[21]。包含6種情感：高興、傷心、驚奇、生氣、害怕和厭惡。由5男6女錄制，每人錄制每種情感的15個(gè)語(yǔ)料(本文選用5男5女)。

實(shí)驗(yàn)方案：采用5折交叉驗(yàn)證方法，將情感語(yǔ)料分成5份，4份用于訓(xùn)練，剩下的一份作為測(cè)試，經(jīng)過5次輪換訓(xùn)練及測(cè)試，取平均值作為最終的識(shí)別結(jié)果。

4.1 生成語(yǔ)譜圖部分示例

將語(yǔ)譜圖作為PCANET網(wǎng)絡(luò)的輸入。給出語(yǔ)譜圖示例圖(部分)，圖像經(jīng)過降采樣最終大小為384×301，如圖3和圖4所示，可以看出不同情感的語(yǔ)譜圖信息具有顯著的差異性。

圖4 EMO-DB情感語(yǔ)音庫(kù)灰度語(yǔ)譜圖(部分)

4.2 參數(shù)設(shè)置

針對(duì)淺層學(xué)習(xí)(人工統(tǒng)計(jì))特征識(shí)別方法，為了觀察特征降維后特征大小對(duì)識(shí)別率的影響，在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)，求得各情感類別識(shí)別率平均值，最初提取的特征為能量相關(guān)、基音頻率相關(guān)及共振峰系數(shù)等101維特征，并采用序列浮動(dòng)前向選擇(SFFS)方法進(jìn)行特征選擇，實(shí)際降維到61維。

對(duì)PCANET網(wǎng)絡(luò)的各參數(shù)設(shè)置，通過實(shí)驗(yàn)給出對(duì)比，并確定最終的參數(shù)值。為了觀察PCANET網(wǎng)絡(luò)中塊大小的選取對(duì)識(shí)別率的影響，在兩個(gè)數(shù)據(jù)庫(kù)上，塊大小分別取3×3、5×5、7×7、9×9、11×11(單位：像素，通常選用奇數(shù))，測(cè)試本文方法的平均識(shí)別率，固定其他參數(shù)L1=L2=8，重疊率為50%，直方圖塊大小為兩階段分別取2，其結(jié)果如圖5所示?？梢钥闯?，塊大小(實(shí)際為選取的窗口大小)為5×5時(shí)可以獲得最佳效果。

圖5 塊大小參數(shù)對(duì)識(shí)別率的影響

為了觀察濾波器選取參數(shù)對(duì)識(shí)別率的影響，測(cè)試了不同取值下的識(shí)別率，如圖6所示。固定其他參數(shù)塊大小選取5×5，直方圖塊大小選取2，重疊率為50%?？梢钥闯?，兩階段都選擇8時(shí)效果為最佳。實(shí)驗(yàn)也測(cè)試了直方圖塊大小和重疊率的影響，選擇2為最佳，重疊率在30%以上已經(jīng)可以取得較好效果，為了保險(xiǎn)起見本文選擇50%。

圖6 濾波器個(gè)數(shù)選擇對(duì)識(shí)別率的影響

4.3 對(duì)比實(shí)驗(yàn)與分析

為了驗(yàn)證融合淺層學(xué)習(xí)和深度學(xué)習(xí)的有效性，測(cè)試僅使用淺層學(xué)習(xí)識(shí)別方法(傳統(tǒng)方法中的人工統(tǒng)計(jì)特征，記為方法1)、深度學(xué)習(xí)識(shí)別方法(記為方法2)、本文方法，實(shí)驗(yàn)結(jié)果如表1所示?？梢钥闯?，在兩個(gè)數(shù)據(jù)庫(kù)上方法2識(shí)別率明顯高于方法1，說明采用語(yǔ)譜圖+PCANET提取特征+SVM方法較傳統(tǒng)人工統(tǒng)計(jì)特征+SVM方法更佳。而本文方法較方法2取得了更高的識(shí)別率，在SPSED上較融合之前的方法2提高了2.54個(gè)百分點(diǎn)，較方法1提高了6.1個(gè)百分點(diǎn)；在柏林?jǐn)?shù)據(jù)庫(kù)上，本文方法較方法2提高了2.93個(gè)百分點(diǎn)，較傳統(tǒng)方法提高了3.86個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明，本文方法是有效的，這是因?yàn)槠涑浞掷昧藘煞N識(shí)別模型的優(yōu)勢(shì)，豐富了情感信息的獲取途徑。

表1 融合方法有效性驗(yàn)證實(shí)驗(yàn) %

為了進(jìn)一步驗(yàn)證本文決策層融合方法的有效性，分別與下述方法進(jìn)行比較實(shí)驗(yàn)：特征層融合方法(方法1)，該方法采用特征級(jí)聯(lián)，然后使用SVM分類器識(shí)別，以及常用的決策融合方法：線性加權(quán)融合方法(方法2，權(quán)重取0.5)、證據(jù)理論融合方法(方法3)、貝葉斯融合方法(方法4)。為了驗(yàn)證融合淺層學(xué)習(xí)和深度學(xué)習(xí)方法的有效性，與較有代表性的語(yǔ)音情感識(shí)別方法進(jìn)行了對(duì)比，如文獻(xiàn)[11]和文獻(xiàn)[13]。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示?？梢钥闯?，本文方法取得了最佳結(jié)果。方法1是特征級(jí)聯(lián)融合方法，方法2-方法4的特征決策融合方法均比方法1略高些，說明采用決策融合方法更為合理。本文方法與文獻(xiàn)[11]和文獻(xiàn)[13]相比也取得了明顯的優(yōu)勢(shì)，驗(yàn)證了本文方法在小樣本數(shù)據(jù)集上可以取得較好的效果。

表2 與其他方法的對(duì)比實(shí)驗(yàn) %

5 結(jié) 語(yǔ)

本文分析了淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)缺點(diǎn)，為了實(shí)現(xiàn)兩種模型的優(yōu)勢(shì)互補(bǔ)提出了淺層學(xué)習(xí)和深度學(xué)習(xí)模型決策層融合方法，并應(yīng)用于小樣本語(yǔ)音情感識(shí)別中。淺層學(xué)習(xí)采用傳統(tǒng)的人工統(tǒng)計(jì)特征，提取具有針對(duì)性的有效特征，深度學(xué)習(xí)階段獲取了情感語(yǔ)音的語(yǔ)譜圖信息，并將語(yǔ)譜圖按照?qǐng)D像處理方式，使用PCANET提取特征，將兩類特征分別輸入到SVM識(shí)別模型中，隨后使用提出的有效差異性投票機(jī)制的決策融合方法進(jìn)行融合。在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證實(shí)驗(yàn)，對(duì)比了特征層、決策層常用融合策略以及具有代表性的語(yǔ)音情感識(shí)別方法，本文方法取得了相對(duì)較高的識(shí)別率。下一步工作是研究利用淺層學(xué)習(xí)的先驗(yàn)知識(shí)引導(dǎo)深度學(xué)習(xí)端到端的識(shí)別策略。