• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于AA-LSTM網(wǎng)絡(luò)的語音情感識別研究

      2021-11-17 04:01:06張會(huì)云黃鶴鳴黃志東
      計(jì)算機(jī)仿真 2021年3期
      關(guān)鍵詞:步長方差均值

      張會(huì)云,黃鶴鳴*,李 偉,黃志東

      (1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

      1 引言

      語音包含豐富的語言、副語言和非語言信息[1],這些信息對人機(jī)交互具有非常重要的意義。僅理解語言信息并不足以使計(jì)算機(jī)能夠完全理解說話者的意圖。為了使計(jì)算機(jī)類同人類,語音識別系統(tǒng)需要能夠處理非語言信息,尤其是說話者的情感狀態(tài)[2]。因此,語音情感識別(Speech Emotion Recognition,SER)受到越來越多研究者的廣泛關(guān)注[3-4]。

      情感語音包括語義內(nèi)容和情感特征,大量SER研究主要集中于尋找最能表示情感的不同語音特征[1]。文獻(xiàn)[5-6]提出了關(guān)于情感的各種短期特征和長期特征,但仍不清楚哪些特征更能提供情感方面的信息。傳統(tǒng)方法是提取大量統(tǒng)計(jì)特征,并使用機(jī)器學(xué)習(xí)算法分類。很明顯,特征提取包括兩個(gè)階段。首先,從短幀中提取情感聲學(xué)特征,即低級描述符;其次,每個(gè)低級描述符用不同統(tǒng)計(jì)聚合函數(shù)表示成特征向量,表達(dá)了句子級不同低級描述符的時(shí)間變化和輪廓[5]。常用的低級描述符和高級統(tǒng)計(jì)函數(shù)如表1所示[6]。

      表1 常用的低級描述符與高級統(tǒng)計(jì)函數(shù)

      2 相關(guān)工作

      人類通過潛意識識別情感,為了實(shí)現(xiàn)更好的人機(jī)交互,需要考慮語音中的情感。由于人類情感界限模糊,因此,識別情感具有很大的挑戰(zhàn)性。首先,很難確定語音片段的開始和結(jié)束;其次,每個(gè)語音片段通常表示不同情感[5-7]。

      最近深度學(xué)習(xí)自動(dòng)學(xué)習(xí)SER中的情感特征受到很多研究者的關(guān)注[8-10]。對情感的識別需要考慮上下文信息,而LSTM網(wǎng)絡(luò)恰好用于序列輸入動(dòng)態(tài)建模,且能夠解決網(wǎng)絡(luò)訓(xùn)練中的梯度消失或爆炸問題。這是由于LSTM的輸入通常來自底層和先前時(shí)刻時(shí)間步長的輸出,且LSTM中的記憶單元和門能夠控制信息記憶、輸出或遺忘[2,10]。

      SER受益于神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[8,9,11]表明神經(jīng)網(wǎng)絡(luò)更高層可獲取更多時(shí)間步長時(shí),其網(wǎng)絡(luò)性能將大幅提升,但這僅針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò),并未討論時(shí)間序列問題。文獻(xiàn)[12-14]表明語音時(shí)間信息有利于情感識別。因此,很多研究者提出了將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)用于SER研究,文獻(xiàn)[13]使用RNN在幀級學(xué)習(xí)短期聲學(xué)特征,并將傳統(tǒng)表示映射到句子級表示。由于Attention機(jī)制能夠選擇情感集中區(qū)域[14-15],文獻(xiàn)[5]提出了將其應(yīng)用于LSTM網(wǎng)絡(luò)來提取聲學(xué)特征。在此基礎(chǔ)上,文獻(xiàn)[6]引入先進(jìn)的LSTM(Advanced LSTM,A-LSTM)網(wǎng)絡(luò)來提取聲學(xué)特征,能更好地實(shí)現(xiàn)上下文建模,實(shí)驗(yàn)表明,基于Attention機(jī)制的A-LSTM(Attention Advanced LSTM,AA-LSTM)網(wǎng)絡(luò)對情感的識別性能更優(yōu)。

      為了提取語音中的潛在情感,研究了AA-LSTM網(wǎng)絡(luò)在不同參數(shù)集對情感識別系統(tǒng)性能的影響。

      3 語料庫描述與特征提取

      為了評估基于AA-LSTM網(wǎng)絡(luò)的SER系統(tǒng)性能,本研究在EMO-DB語料庫上進(jìn)行了大量實(shí)驗(yàn)。EMO-DB語料庫由柏林工業(yè)大學(xué)在專業(yè)錄音室錄制,采樣率16kHz,16bit量化,共535句語料,由10位演員(5男5女)對10個(gè)語句(5長5短)模擬生氣W、無聊L、厭惡E、害怕A、高興F、悲傷T及中性/N等7種情感。

      所提取的聲學(xué)特征包括13維MFCC、過零率、譜重心、諧波噪聲比及音高等,并對提取的特征進(jìn)行歸一化處理[16-17]。

      4 語音情感識別系統(tǒng)

      4. 1 基于Attention機(jī)制的LSTM

      基于Attention機(jī)制的LSTM網(wǎng)絡(luò)依賴Attention機(jī)制學(xué)習(xí)每個(gè)步長的權(quán)重并將其表示為加權(quán)組合,多任務(wù)學(xué)習(xí)可更好地學(xué)習(xí)句子級特征[5]。其結(jié)構(gòu)如圖1所示。

      圖1 基于Attention機(jī)制的加權(quán)池化LSTM

      該結(jié)構(gòu)分為主干和分支,分支包含情感、說話者和性別分類[5],主干共享所有任務(wù),并處理分類的輸入和特征表示,其頂部是加權(quán)池層[2],[18],計(jì)算如(1)式所示

      (1)

      (2)

      其中,hT是T時(shí)LSTM的輸出,AT是T時(shí)相應(yīng)權(quán)重的標(biāo)量,計(jì)算過程如(2)式,W是學(xué)習(xí)參數(shù),exp(W·hT)是T時(shí)的能量。若T時(shí)幀能量很高,其權(quán)重就增大,關(guān)注更高;反之,則關(guān)注較低,即模型可分配權(quán)重[19]。

      本研究主干是具有256個(gè)ReLU節(jié)點(diǎn)的全連接層和128個(gè)節(jié)點(diǎn)的雙向LSTM層,隨后進(jìn)入加權(quán)池層。在分支部分,每個(gè)任務(wù)均有隱含層,即包含256個(gè)ReLU神經(jīng)元和Softmax層。

      4. 2 A-LSTM

      傳統(tǒng)LSTM的輸入來自底層和前一刻時(shí)間步長的輸出并將其反饋到更高層。門機(jī)制通過點(diǎn)乘法控制信息流動(dòng)[6],記憶單元更新信息如(3)式。其中,ft和it是t時(shí)遺忘門和輸入門的輸出;Ct是新的候選單元值,計(jì)算如(4)式。其中,tanh是激活函數(shù),WC是學(xué)習(xí)的權(quán)重集合,bC是偏置;[ht-1,xt]是先前時(shí)間步長(h值)和底層(x值)的串聯(lián),t時(shí)h值計(jì)算如(5)式。其中,Ot是輸出門,基于ht-1和Ct-1計(jì)算Ct。

      (3)

      (4)

      ht=ot⊙tanh(Ct)

      (5)

      與傳統(tǒng)LSTM不同,A-LSTM釋放了時(shí)間t狀態(tài)依賴于t-1狀態(tài)的假設(shè),并使用多個(gè)狀態(tài)的加權(quán)和計(jì)算C值和H值,如圖2所示。將LSTM中的(3-4)式修改為(6-7)式,C是選定狀態(tài)的加權(quán)和,T是選定時(shí)間步長的集合,(9)式中的是標(biāo)量,表示時(shí)間步長對應(yīng)的權(quán)重;(10)式用于計(jì)算t時(shí)刻隱含值,與(5)式相同,但此時(shí)單元值是C′,h′通過(11-12)式進(jìn)行計(jì)算,在(9)(12)式中,W是學(xué)習(xí)到的共享參數(shù),C′和h′包含集合T中的所有狀態(tài)和隱含值。

      圖2 A-LSTM的展開圖

      (6)

      (7)

      (8)

      (9)

      (10)

      (11)

      (12)

      A-LSTM具有更靈活的時(shí)間依賴建模能力,類同人類學(xué)習(xí)機(jī)制,能夠回憶起先前時(shí)刻信息,使學(xué)習(xí)變得更好。

      4.3 AA-LSTM

      將Attention機(jī)制與A-LSTM網(wǎng)絡(luò)相結(jié)合得到AA-LSTM網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。與圖1不同之處在于該網(wǎng)絡(luò)將圖1中的LSTM網(wǎng)絡(luò)改為圖2中的A-LSTM網(wǎng)絡(luò)結(jié)構(gòu),其計(jì)算過程如式(6~12)。

      5 實(shí)驗(yàn)與結(jié)果

      本研究在EMO-DB德語情感語料庫上研究了AA-LSTM網(wǎng)絡(luò)中的最優(yōu)參數(shù)設(shè)置和優(yōu)化器選擇。首先,比較了不同批處理(Batchsize)、迭代周期(Epoch)、交叉驗(yàn)證次數(shù)(K_folds)以及訓(xùn)練終止條件(Patience)對AA-LSTM網(wǎng)絡(luò)系統(tǒng)性能的影響;其次,選擇不同的優(yōu)化器對系統(tǒng)進(jìn)行優(yōu)化,其評價(jià)指標(biāo)采用準(zhǔn)確率、均值和方差。

      圖3 基于Attention機(jī)制的A-LSTM網(wǎng)絡(luò)

      表2給出了該模型在不同Batch size下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同Batchsize下模型所獲得的性能,在該系統(tǒng)中,使K_folds=5,Epoch=100,Patience=10,Optimiser=′Adam′。

      由表2可知,在其它參數(shù)確定的情況下,不同Batch Size對系統(tǒng)性能影響有所差異。當(dāng)Batch Size=16時(shí),系統(tǒng)最佳性能達(dá)到66.39%,但均值為61.78%且偏離程度較大;Batch Size=64雖偏離程度較小,但耗時(shí)相當(dāng)大。綜合來看,當(dāng)Batch Size=32時(shí)不僅系統(tǒng)平均性能較穩(wěn)定,耗時(shí)也非常小,主要是由于選取的批量大小合適,提高了訓(xùn)練速度;同時(shí),選取合適Batch Size使梯度下降方向更加準(zhǔn)確,從而提升了網(wǎng)絡(luò)整體性能。

      表2 不同Batch Size下的混淆矩陣與性能

      表3給出了該模型在不同優(yōu)化器(Adam,Rmsprop,Sgd)下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同優(yōu)化器下模型所獲得的性能,在該系統(tǒng)中,使K_folds=5,Patience=10,Epoch=100,Batch size=32。

      由表3可知,在其它參數(shù)確定的情況下,不同優(yōu)化器對系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差,與Adam,Sgd等優(yōu)化器相比,選擇Rmsprop優(yōu)化器優(yōu)化模型時(shí),系統(tǒng)最佳性能可達(dá)到67.29%,平均性能為62.26%且偏離程度較小,表明Rmsprop是該系統(tǒng)中的最佳優(yōu)化器,Adam次之,Sgd優(yōu)化器不適用于該模型結(jié)構(gòu)。

      表3 不同優(yōu)化器下的混淆矩陣與性能

      表4給出了該模型在不同訓(xùn)練終止條件(Patience)下所獲得的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同Patience下模型所獲得的性能,在該系統(tǒng)中,Batchsize=32,Optimiser=′Rmsprop′,K_folds=5,Epoch=100。

      由表4可知,在其它參數(shù)確定的情況下,不同Patience對系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差等因素,當(dāng)Patience=10時(shí),系統(tǒng)性能達(dá)到最優(yōu)、整體性能穩(wěn)定、偏離程度較小且耗時(shí)較小。隨著Patience值不斷增大,系統(tǒng)性能有所下降,這是由于過擬合現(xiàn)象造成的。

      表5給出了該模型在不同交叉驗(yàn)證次數(shù)(K_folds)下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同K_folds下模型所獲得的性能,在該系統(tǒng)中,使Batchsize=32,Optimiser=′Rmsprop′,Patience=10,Epoch=100。

      由表5可知,在其它參數(shù)確定的情況下,不同K_folds對系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差等因素,隨著K_folds逐漸增大,模型最佳性能可達(dá)到70.09%,且整體性能有所提升,這是一個(gè)非??捎^的結(jié)果,但系統(tǒng)偏離程度較大且非常耗時(shí)。

      表4 不同Patience下的混淆矩陣與性能

      表5 不同K-folds下的混淆矩陣與性能

      表6、表7給出了該模型在不同迭代周期(Epoch)下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同Epoch下模型的性能,在該系統(tǒng)中,使Batchsize=32,Optimiser=′Rmsprop′,Patience=10,K_folds=5。

      由表6、表7可知,在其它參數(shù)確定的情況下,不同Epoch對系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差,當(dāng)Epoch增大到100時(shí),模型最佳性能可達(dá)到67.29%,且整體性能有所提升,但偏離程度較大;當(dāng)Epoch繼續(xù)增大到200時(shí),模型的性能有所下降且非常耗時(shí)。同時(shí),縱觀表6,表7可得出:針對同一Epoch,K_folds越大,系統(tǒng)性能越好。進(jìn)一步證明了K_folds對系統(tǒng)性能的作用。

      表6 K_folds=5在不同Epoch下的混淆矩陣與性能

      表7 K_folds=10在不同Epoch下的混淆矩陣與性能

      6 結(jié)論與展望

      本研究采用AA-LSTM網(wǎng)絡(luò)對SER系統(tǒng)中的參數(shù)進(jìn)行了驗(yàn)證,該實(shí)驗(yàn)中涉及到的網(wǎng)絡(luò)參數(shù)有:模型交叉驗(yàn)證次數(shù)(K_folds)、模型在訓(xùn)練集上運(yùn)行的周期(Epoch)、每次訓(xùn)練模型時(shí)選取的批量大小(Batch size)、檢測模型終止的條件(Patience)以及模型優(yōu)化器(Adam,Rmsprop,Sgd)等。實(shí)驗(yàn)結(jié)果表明:網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)對情感識別系統(tǒng)性能影響較大,即選取適當(dāng)參數(shù)集不僅能夠提高網(wǎng)絡(luò)模型的性能,還能大大減少模型的訓(xùn)練時(shí)間;同時(shí),優(yōu)化器的選擇對系統(tǒng)性能影響也較大。本研究通過大量實(shí)驗(yàn)以選擇AA-LSTM網(wǎng)絡(luò)性能達(dá)到最優(yōu)時(shí)的參數(shù)設(shè)置,今后將利用對抗網(wǎng)絡(luò)生成足夠數(shù)量SER數(shù)據(jù),并在最優(yōu)參數(shù)設(shè)置下將跳躍連接引入該網(wǎng)絡(luò)以研究其性能,或?qū)⒔Y(jié)合多時(shí)間步長狀態(tài)的思想擴(kuò)展到門控循環(huán)單元(GRU)。

      猜你喜歡
      步長方差均值
      方差怎么算
      基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
      概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
      計(jì)算方差用哪個(gè)公式
      方差生活秀
      均值不等式失效時(shí)的解決方法
      均值與方差在生活中的應(yīng)用
      基于逐維改進(jìn)的自適應(yīng)步長布谷鳥搜索算法
      關(guān)于均值有界變差函數(shù)的重要不等式
      對偶均值積分的Marcus-Lopes不等式
      久治县| 万源市| 呼伦贝尔市| 信丰县| 石屏县| 西贡区| 诏安县| 城口县| 石楼县| 政和县| 禹城市| 余姚市| 威宁| 墨竹工卡县| 合阳县| 吴堡县| 江门市| 清涧县| 赫章县| 扶沟县| 连山| 华容县| 洱源县| 于都县| 沧源| 云浮市| 亚东县| 永和县| 区。| 德州市| 阆中市| 南陵县| 新营市| 平原县| 荔波县| 石楼县| 安阳市| 余江县| 库尔勒市| 防城港市| 连城县|