• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合淺層學(xué)習(xí)和深度學(xué)習(xí)模型的語(yǔ)音情感識(shí)別

      2020-12-14 09:13:44趙小蕾許喜斌
      關(guān)鍵詞:語(yǔ)譜淺層識(shí)別率

      趙小蕾 許喜斌

      1(中山大學(xué)新華學(xué)院信息科學(xué)學(xué)院 廣東 廣州 510520)2(廣東工程職業(yè)技術(shù)學(xué)院 廣東 廣州 510520)

      0 引 言

      語(yǔ)音情感識(shí)別(Speech Emotion Recognition,SER)是模式識(shí)別領(lǐng)域的研究熱點(diǎn),是新型人機(jī)交互系統(tǒng)及人工智能發(fā)展不可或缺的重要技術(shù)[1]。SER技術(shù)主要分為語(yǔ)音信號(hào)采集、特征提取和情感識(shí)別三個(gè)階段[2],其中關(guān)鍵的模塊是特征提取和情感識(shí)別模塊。針對(duì)特征提取技術(shù)研究者們多年來(lái)進(jìn)行了細(xì)致的分析和研究,情感特征主要包括韻律特征、頻域特征和音質(zhì)特征[3],這些特征在傳統(tǒng)語(yǔ)音情感識(shí)別中起到關(guān)鍵作用,輔以一定的特征選擇算法針對(duì)特定數(shù)據(jù)集可以取得優(yōu)異識(shí)別性能。值得一提的是,學(xué)者們嘗試將時(shí)頻兩域的情感特征進(jìn)行結(jié)合,提出了語(yǔ)譜圖特征提取方法,并應(yīng)用于語(yǔ)音識(shí)別[4]和語(yǔ)音情感識(shí)別相關(guān)領(lǐng)域[5]。在識(shí)別模型研究方面,從淺層學(xué)習(xí)的支持向量機(jī)(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、深度置信網(wǎng)絡(luò)(DBN)[11]和遞歸神經(jīng)網(wǎng)絡(luò)等(RNN)[10]。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,深度學(xué)習(xí)能夠提取高層的特征,近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域具有出色的表現(xiàn),其中卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域取得了前所未有的成功[11]。許多研究者們也逐步將深度學(xué)習(xí)引入到SER任務(wù)中。黃晨晨等[11]利用深度信念網(wǎng)絡(luò)自動(dòng)提取語(yǔ)音情感特征,合并連續(xù)多幀語(yǔ)音情感特征構(gòu)造一個(gè)高維的特征,最后輸入到支持向量機(jī)(SVM)進(jìn)行分類。Mao等[12]基于CNN網(wǎng)絡(luò)提取顯著特征,從而提升復(fù)雜場(chǎng)景下的SER情感識(shí)別性能,實(shí)驗(yàn)證明該方法具有較高的魯棒性和穩(wěn)定性。Huang等[13]訓(xùn)練了一個(gè)改進(jìn)的CNN模型,能夠提取顯著語(yǔ)音情感特征,進(jìn)而提高情感識(shí)別率。Lee等[14]提取了高層特征并使用RNN進(jìn)行預(yù)測(cè),在IEMOCAP數(shù)據(jù)庫(kù)上取得62%的識(shí)別準(zhǔn)確率。Niu等[15]提出了數(shù)據(jù)預(yù)處理算法,通過改變頻譜圖的大小獲得更多的數(shù)據(jù),并輸入到深度神經(jīng)網(wǎng)絡(luò)模型AlexNet中,在IEMOCAP數(shù)據(jù)集上獲得了48.8%平均準(zhǔn)確率。Fayek等[16]研究了適用于SER任務(wù)的前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)及其變體,并在副語(yǔ)言語(yǔ)音識(shí)別中驗(yàn)證了深度學(xué)習(xí)結(jié)構(gòu)的有效性。文獻(xiàn)[17]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別語(yǔ)譜圖特征的語(yǔ)音情感識(shí)別方法,首先提取灰度語(yǔ)譜圖特征,隨后利用Gabor小波和分塊PCA進(jìn)行特征再提取和降維,最后送入CNNs進(jìn)行識(shí)別分類,取得了不錯(cuò)的效果。

      雖然深度學(xué)習(xí)在SER中取得了一定的成績(jī),但以往的傳統(tǒng)語(yǔ)音情感識(shí)別(淺層學(xué)習(xí))也并非沒有任何價(jià)值,淺層學(xué)習(xí)模型訓(xùn)練速度快,參數(shù)少,所提取的特征具有針對(duì)性,而深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要大量的訓(xùn)練數(shù)據(jù),調(diào)參復(fù)雜。文獻(xiàn)[18]指出深度學(xué)習(xí)不需要人工參與進(jìn)而缺乏先驗(yàn)知識(shí)的引導(dǎo),故提出使用淺層學(xué)習(xí)引導(dǎo)深度學(xué)習(xí)的方法,說明淺層學(xué)習(xí)仍有特定意義。

      對(duì)于語(yǔ)音情感識(shí)別問題雖然是大數(shù)據(jù)的時(shí)代,但獲取的有效數(shù)據(jù)卻有限,而淺層學(xué)習(xí)在小樣本數(shù)據(jù)集上具有優(yōu)勢(shì),能否突破數(shù)據(jù)集的數(shù)量限制,充分發(fā)揮二者的優(yōu)勢(shì),形成優(yōu)勢(shì)互補(bǔ),是值得研究的課題。因此,本文提出了融合深度學(xué)習(xí)和淺層學(xué)習(xí)且適用于小樣本語(yǔ)音的語(yǔ)音情感識(shí)別的模型。構(gòu)建了兩種識(shí)別模型:傳統(tǒng)語(yǔ)音識(shí)別——淺層學(xué)習(xí)和深度學(xué)習(xí)框架——PCANET模型[19],最后通過有效決策層融合兩類模型。研究目標(biāo)是充分利用淺層學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢(shì)以避免不足,提高識(shí)別率和魯棒性。傳統(tǒng)聲學(xué)特征具有針對(duì)性但主觀性較強(qiáng),深度學(xué)習(xí)網(wǎng)絡(luò)可以自動(dòng)提取特征,但會(huì)受樣本數(shù)量和參數(shù)影響,通過有效的決策融合方法,可以綜合利用二者的優(yōu)勢(shì),得到穩(wěn)定的高識(shí)別率。

      1 方法框架流程

      本文方法框架流程如圖1所示,主要分為三個(gè)模塊:淺層學(xué)習(xí)特征提取模塊、深度學(xué)習(xí)特征提取模塊、分類決策融合模塊。淺層學(xué)習(xí)特征提取模塊,使用人工特征提取方法,并通過特征選擇,選取有效的特征;深度學(xué)習(xí)特征提取模塊,鑒于PCANET在圖像處理上具有絕對(duì)優(yōu)勢(shì),故獲取具有豐富情感信息的灰度語(yǔ)譜圖作為輸入,最后經(jīng)過有效的決策融合取得最終結(jié)果。

      圖1 本文方法框架流程

      2 深度學(xué)習(xí)特征提取

      PCANET網(wǎng)絡(luò)輸入為灰度語(yǔ)譜圖,故深度學(xué)習(xí)特征提取模塊涉及兩部分:灰度語(yǔ)譜圖生成算法以及PCANET網(wǎng)絡(luò)計(jì)算過程。

      2.1 語(yǔ)譜圖生成算法

      語(yǔ)譜圖的生成流程如圖2所示。

      圖2 語(yǔ)譜圖獲取流程

      具體步驟描述如下:

      步驟1對(duì)語(yǔ)音情感信號(hào)加窗分幀。假設(shè)第i個(gè)語(yǔ)音情感信號(hào)用si表示,則加窗分幀后用si(m,n)表示,m為分幀的個(gè)數(shù),n為幀長(zhǎng),加窗采用漢明窗,本文實(shí)驗(yàn)采用的窗長(zhǎng)為1 024。

      步驟2加窗并進(jìn)行傅里葉變換。計(jì)算傅里葉系數(shù)Xi(m,n):

      (1)

      式中:N代表序列長(zhǎng)度;k代表序數(shù)。

      步驟3采用對(duì)數(shù)能量方法生成灰度語(yǔ)譜圖。設(shè)在點(diǎn)(a,b)上的灰度值為gi(a,b):

      gi(a,b)=log10|Xi(m,n)|

      (2)

      步驟4采用最大最小歸一化方法對(duì)語(yǔ)譜圖進(jìn)行歸一化。得到歸一化灰度語(yǔ)譜圖Gi(a,b):

      (3)

      式中:gmax(a,b)、gmin(a,b)分別為語(yǔ)譜圖Gi(a,b)灰度級(jí)中的最大值和最小值。

      步驟5將語(yǔ)譜圖量化成0~255的灰度級(jí)圖像Gi′(a,b)。

      2.2 PCANET特征提取過程

      步驟2第一階段PCA處理。假設(shè)第一階段PCA濾波參數(shù)為L(zhǎng)1,用來(lái)表示PCA中對(duì)特征值排序后的前L1個(gè)特征值。隨后取L1個(gè)最大的特征值對(duì)應(yīng)的特征向量組成L1個(gè)PCA卷積核。用PCA對(duì)樣本集X進(jìn)行計(jì)算:

      (4)

      s.t.VTV=IL1

      式中:IL1為L(zhǎng)1×L2的單位矩陣。

      對(duì)應(yīng)的PCA濾波器如下:

      (5)

      式中:matk1k2為將向量從Rk1k2空間投影到Rk1×k2空間的函數(shù);ql(XXT)表示計(jì)算XXT的第l個(gè)主成分特征向量。

      通過訓(xùn)練將樣本變換到新的空間:

      (6)

      步驟3第二階段PCA處理。在步驟2得到的卷積圖像上再次進(jìn)行相似的操作。此次取L2個(gè)最大的特征值對(duì)應(yīng)的特征向量,得到L2個(gè)PCA卷積核。得到的特征變換為:

      (7)

      步驟4輸出層處理。為了使特征表達(dá)能力更強(qiáng),使用赫維賽德階躍函數(shù)O(x)對(duì)特征值進(jìn)行二值化[20],最終獲得的二值化及加權(quán)處理后的結(jié)果如下:

      (8)

      將輸出S分為B塊,每個(gè)塊分別進(jìn)行直方圖統(tǒng)計(jì),得到的最終特征:

      (9)

      式中:fi表示第i個(gè)語(yǔ)譜圖經(jīng)過PCANET網(wǎng)絡(luò)得到的特征表示;Bh表示分塊直方圖統(tǒng)計(jì)。

      3 決策層融合方法

      為了實(shí)現(xiàn)淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)勢(shì)互補(bǔ),采用了決策層融合方法。SVM分類器在小樣本語(yǔ)音情感識(shí)別中具有廣泛的應(yīng)用,PCANET模型原采用SVM,可取得較佳效果[15],投票機(jī)制是決策層融合常用有效方法,且SVM采用投票機(jī)制。綜上分析本文基于投票決策提出了有效的差異性投票機(jī)制,差異性投票機(jī)制體現(xiàn)在兩個(gè)方面:兩類特征的識(shí)別精度差異性,各自分類器類別之間的差異性。綜合兩個(gè)SVM分類器統(tǒng)計(jì)總票數(shù),判定得票最高的類別為最終決策的類別。本文設(shè)采用深度學(xué)習(xí)特征的SVM分類器為D-SVM,采用淺層學(xué)習(xí)的分類器為S-SVM。

      步驟2計(jì)算每個(gè)模型類別間的差異性信息。對(duì)于識(shí)別N個(gè)類別的“一對(duì)一”SVM分類,有N(N-1)/2個(gè)子分類器,各子分類器根據(jù)到各個(gè)類別的距離進(jìn)行兩兩投票。為了保證票數(shù)的有效性,舍棄距離小于一定閾值的無(wú)效投票,描述如下:(1)計(jì)算閾值t(取樣本所有子分類器的平均距離值);(2)舍去兩兩子分類器距離小于t的投票。

      步驟3計(jì)算N個(gè)類別的最終投票分別為V1,V2,…,VN,其中Vi=Dd×vdi+Ds×vsi,vdi為深度學(xué)習(xí)第i個(gè)類別的有效投票數(shù),vsi為淺層學(xué)習(xí)第i個(gè)類別的有效投票數(shù)。最終結(jié)果為result=max(V1,V2,…,VN)。

      4 仿真實(shí)驗(yàn)

      在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證,其具體信息如下:

      數(shù)據(jù)庫(kù)1:柏林?jǐn)?shù)據(jù)庫(kù)(EMO-DB)。由柏林工業(yè)大學(xué)錄制的德語(yǔ)情感語(yǔ)音庫(kù)包含535個(gè)語(yǔ)音數(shù)據(jù),采樣率為16 kHz,16 bit量化,由10個(gè)不同的人(5男5女)錄制而成,包含7種不同的情感,分別為中性、害怕、厭惡、喜悅、厭煩、悲傷和生氣。

      數(shù)據(jù)庫(kù)2:課題組自行錄制的語(yǔ)音情感語(yǔ)音數(shù)據(jù)庫(kù)SPSED[21]。包含6種情感:高興、傷心、驚奇、生氣、害怕和厭惡。由5男6女錄制,每人錄制每種情感的15個(gè)語(yǔ)料(本文選用5男5女)。

      實(shí)驗(yàn)方案:采用5折交叉驗(yàn)證方法,將情感語(yǔ)料分成5份,4份用于訓(xùn)練,剩下的一份作為測(cè)試,經(jīng)過5次輪換訓(xùn)練及測(cè)試,取平均值作為最終的識(shí)別結(jié)果。

      4.1 生成語(yǔ)譜圖部分示例

      將語(yǔ)譜圖作為PCANET網(wǎng)絡(luò)的輸入。給出語(yǔ)譜圖示例圖(部分),圖像經(jīng)過降采樣最終大小為384×301,如圖3和圖4所示,可以看出不同情感的語(yǔ)譜圖信息具有顯著的差異性。

      圖4 EMO-DB情感語(yǔ)音庫(kù)灰度語(yǔ)譜圖(部分)

      4.2 參數(shù)設(shè)置

      針對(duì)淺層學(xué)習(xí)(人工統(tǒng)計(jì))特征識(shí)別方法,為了觀察特征降維后特征大小對(duì)識(shí)別率的影響,在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),求得各情感類別識(shí)別率平均值,最初提取的特征為能量相關(guān)、基音頻率相關(guān)及共振峰系數(shù)等101維特征,并采用序列浮動(dòng)前向選擇(SFFS)方法進(jìn)行特征選擇,實(shí)際降維到61維。

      對(duì)PCANET網(wǎng)絡(luò)的各參數(shù)設(shè)置,通過實(shí)驗(yàn)給出對(duì)比,并確定最終的參數(shù)值。為了觀察PCANET網(wǎng)絡(luò)中塊大小的選取對(duì)識(shí)別率的影響,在兩個(gè)數(shù)據(jù)庫(kù)上,塊大小分別取3×3、5×5、7×7、9×9、11×11(單位:像素,通常選用奇數(shù)),測(cè)試本文方法的平均識(shí)別率,固定其他參數(shù)L1=L2=8,重疊率為50%,直方圖塊大小為兩階段分別取2,其結(jié)果如圖5所示??梢钥闯?,塊大小(實(shí)際為選取的窗口大小)為5×5時(shí)可以獲得最佳效果。

      圖5 塊大小參數(shù)對(duì)識(shí)別率的影響

      為了觀察濾波器選取參數(shù)對(duì)識(shí)別率的影響,測(cè)試了不同取值下的識(shí)別率,如圖6所示。固定其他參數(shù)塊大小選取5×5,直方圖塊大小選取2,重疊率為50%??梢钥闯?,兩階段都選擇8時(shí)效果為最佳。實(shí)驗(yàn)也測(cè)試了直方圖塊大小和重疊率的影響,選擇2為最佳,重疊率在30%以上已經(jīng)可以取得較好效果,為了保險(xiǎn)起見本文選擇50%。

      圖6 濾波器個(gè)數(shù)選擇對(duì)識(shí)別率的影響

      4.3 對(duì)比實(shí)驗(yàn)與分析

      為了驗(yàn)證融合淺層學(xué)習(xí)和深度學(xué)習(xí)的有效性,測(cè)試僅使用淺層學(xué)習(xí)識(shí)別方法(傳統(tǒng)方法中的人工統(tǒng)計(jì)特征,記為方法1)、深度學(xué)習(xí)識(shí)別方法(記為方法2)、本文方法,實(shí)驗(yàn)結(jié)果如表1所示??梢钥闯?,在兩個(gè)數(shù)據(jù)庫(kù)上方法2識(shí)別率明顯高于方法1,說明采用語(yǔ)譜圖+PCANET提取特征+SVM方法較傳統(tǒng)人工統(tǒng)計(jì)特征+SVM方法更佳。而本文方法較方法2取得了更高的識(shí)別率,在SPSED上較融合之前的方法2提高了2.54個(gè)百分點(diǎn),較方法1提高了6.1個(gè)百分點(diǎn);在柏林?jǐn)?shù)據(jù)庫(kù)上,本文方法較方法2提高了2.93個(gè)百分點(diǎn),較傳統(tǒng)方法提高了3.86個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文方法是有效的,這是因?yàn)槠涑浞掷昧藘煞N識(shí)別模型的優(yōu)勢(shì),豐富了情感信息的獲取途徑。

      表1 融合方法有效性驗(yàn)證實(shí)驗(yàn) %

      為了進(jìn)一步驗(yàn)證本文決策層融合方法的有效性,分別與下述方法進(jìn)行比較實(shí)驗(yàn):特征層融合方法(方法1),該方法采用特征級(jí)聯(lián),然后使用SVM分類器識(shí)別,以及常用的決策融合方法:線性加權(quán)融合方法(方法2,權(quán)重取0.5)、證據(jù)理論融合方法(方法3)、貝葉斯融合方法(方法4)。為了驗(yàn)證融合淺層學(xué)習(xí)和深度學(xué)習(xí)方法的有效性,與較有代表性的語(yǔ)音情感識(shí)別方法進(jìn)行了對(duì)比,如文獻(xiàn)[11]和文獻(xiàn)[13]。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯?,本文方法取得了最佳結(jié)果。方法1是特征級(jí)聯(lián)融合方法,方法2-方法4的特征決策融合方法均比方法1略高些,說明采用決策融合方法更為合理。本文方法與文獻(xiàn)[11]和文獻(xiàn)[13]相比也取得了明顯的優(yōu)勢(shì),驗(yàn)證了本文方法在小樣本數(shù)據(jù)集上可以取得較好的效果。

      表2 與其他方法的對(duì)比實(shí)驗(yàn) %

      5 結(jié) 語(yǔ)

      本文分析了淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)缺點(diǎn),為了實(shí)現(xiàn)兩種模型的優(yōu)勢(shì)互補(bǔ)提出了淺層學(xué)習(xí)和深度學(xué)習(xí)模型決策層融合方法,并應(yīng)用于小樣本語(yǔ)音情感識(shí)別中。淺層學(xué)習(xí)采用傳統(tǒng)的人工統(tǒng)計(jì)特征,提取具有針對(duì)性的有效特征,深度學(xué)習(xí)階段獲取了情感語(yǔ)音的語(yǔ)譜圖信息,并將語(yǔ)譜圖按照?qǐng)D像處理方式,使用PCANET提取特征,將兩類特征分別輸入到SVM識(shí)別模型中,隨后使用提出的有效差異性投票機(jī)制的決策融合方法進(jìn)行融合。在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證實(shí)驗(yàn),對(duì)比了特征層、決策層常用融合策略以及具有代表性的語(yǔ)音情感識(shí)別方法,本文方法取得了相對(duì)較高的識(shí)別率。下一步工作是研究利用淺層學(xué)習(xí)的先驗(yàn)知識(shí)引導(dǎo)深度學(xué)習(xí)端到端的識(shí)別策略。

      猜你喜歡
      語(yǔ)譜淺層識(shí)別率
      淺層換填技術(shù)在深厚軟土路基中的應(yīng)用
      基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
      基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      基于時(shí)頻域特征的場(chǎng)景音頻研究
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別
      淺層地下水超采區(qū)劃分探究
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      博白县| 磐安县| 外汇| 岢岚县| 上杭县| 淅川县| 奉贤区| 安徽省| 资溪县| 彩票| 健康| 沂源县| 宣武区| 延川县| 北川| 博湖县| 习水县| 深州市| 亳州市| 乐亭县| 行唐县| 翁源县| 景泰县| 陈巴尔虎旗| 汤阴县| 无为县| 蒙山县| 黄陵县| 宁安市| 南靖县| 沿河| 涿鹿县| 绥宁县| 高雄市| 宜城市| 大关县| 塘沽区| 连州市| 醴陵市| 大埔区| 崇左市|