• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      全卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語音情感識別

      2021-11-08 08:50:20姜芃旭
      聲學(xué)技術(shù) 2021年5期
      關(guān)鍵詞:語音準確率卷積

      朱 敏,姜芃旭,趙 力

      (1.常州信息職業(yè)技術(shù)學(xué)院電子工程學(xué)院,江蘇 常州 213164;2.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096)

      0 引 言

      語言學(xué)家專注于從語音中探索潛在的信息,代表說話者或聲音中間體的狀態(tài)。作為副語言學(xué)中的一項情感任務(wù),語音情感識別技術(shù)通過電腦來對輸入的情感特征做出判別。作為人機語音交互的重點之一,語音情感識別的相關(guān)技術(shù)在近年來受到了廣泛的關(guān)注[1]。語音情感識別有著廣闊的研究前景,大量學(xué)者對副語言學(xué)的研究促使情感識別研究取得了突出的進展。隨著計算機性能的逐步提升以及相關(guān)語音情感研究內(nèi)容的不斷突破,語音情感技術(shù)開始不斷應(yīng)用在各個行業(yè)中。作為語音在人工智能發(fā)展中的主要分支,語音情感識別的相關(guān)研究具有重要的意義。

      作為語言情感識別系統(tǒng)中最重要的一步,情感特征提取決定了整個系統(tǒng)對不同情感的識別效果。語言情感識別的核心課題之一便是從語音中提取顯著的情感特征[2]。傳統(tǒng)的語音情感特征包括譜相關(guān)特征、超音質(zhì)特征和語音質(zhì)量特征[3]。由于語音本身復(fù)雜的內(nèi)在因素,手工制作的特征目前難以描述更精細的特征表示,如何提高語言情感識別的性能依然是一個挑戰(zhàn)。

      深度學(xué)習(xí)網(wǎng)絡(luò)[4]近年來在表達特征方面表現(xiàn)出了突出的性能,相關(guān)的最新研究為語音情感識別提供了更好的描述語音中情緒狀態(tài)的深度模型。與手工設(shè)計的特征相比,神經(jīng)網(wǎng)絡(luò)通過自動學(xué)習(xí)的方式提取的深層特征具有更多的內(nèi)在信息。目前,大量基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法在語音情感識別中應(yīng)用[5],通過設(shè)計和開發(fā)相應(yīng)的網(wǎng)絡(luò)模型,提高了語音情感識別的研究水平,并且一些相關(guān)網(wǎng)絡(luò)已經(jīng)成功地應(yīng)用于語音情感識別中的特征學(xué)習(xí)[6-8]。相關(guān)神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用,促使我們利用相關(guān)網(wǎng)絡(luò)對語音信號進行深層研究,因此我們需要解決一些現(xiàn)有系統(tǒng)中存在的問題。

      首先,每個語音文件的長度基本都不相同,但大多數(shù)的神經(jīng)網(wǎng)絡(luò)模型需要固定的輸入,有必要在不丟失情感細節(jié)的前提下設(shè)計適當(dāng)?shù)妮斎雭頋M足模型的要求。其次,以往的很多情感識別的相關(guān)研究都是采用串聯(lián)的方式來連接不同的神經(jīng)網(wǎng)絡(luò)模型,模型間的呈遞關(guān)系可能會失去一些情感細節(jié)。

      對此,本文提出了一種針對語音情感識別的FCN+LSTM模型。將譜圖和幀級兩種不同功能的特征作為模型的輸入。不同于傳統(tǒng)模型之間的呈遞關(guān)系,F(xiàn)CN+LSTM模型采用并行的連接方式,以獲得更好的情感細節(jié)。全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)模塊[9]可以捕獲譜特征中的時頻相關(guān)信息。同時,由于長短期記憶(Long Short-Term Memory,LSTM)模型[10]可以接受不同長度的輸入,采用幀級特征作為輸入可以更好地彌補因壓縮譜圖大小而在FCN模塊中丟失的時間細節(jié)。使用加權(quán)融合的方式分別對兩個模塊的輸出連接到一個可訓(xùn)練的權(quán)重層后進行融合,最后,使用分類器對不同情感進行分類。不同的對比實驗證明了所提模型的優(yōu)越性。

      1 全卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

      本文的語音情感識別系統(tǒng)框圖如圖1所示。首先,分別從語音的原始波形中提取出譜圖特征和幀級特征,然后分別在FCN和LSTM模塊中進行學(xué)習(xí),最后將不同模塊的輸出融合后進行分類。

      圖1 基于FCN+LSTM的語音情感識別系統(tǒng)框圖Fig.1 Block diagram of the FCN + LSTM based speech emotion recognition system

      1.1 特征提取

      譜圖特征是目前語音識別中的一個熱門特征,該特征綜合考慮了頻率和時間的關(guān)系,包含更多的相關(guān)參數(shù),表達情感更加直觀,可以提取到更多的情感信息。對語音信號進行預(yù)加重、加窗、快速傅里葉變換,并將信號通過一組三角濾波器來提取出譜圖特征[11]。同時,為了從語音中提取出更多的情感信息,將三維譜圖特征作為FCN的輸入,三維譜圖特征由原始譜圖以及其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)組合而成。在本文中,使用64組濾波器,25 ms的漢明窗以及10 ms的重疊來獲取譜圖特征,三維譜圖特征作為 FCN模塊的輸入。為了加速訓(xùn)練效果并提高模型性能,預(yù)訓(xùn)練的AlexNet作為初始化模型,由于AlexNet需要固定的輸入,所以使用雙線性差值的算法將每段譜圖特征以及其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)的大小調(diào)整為227×227。

      大多數(shù)神經(jīng)網(wǎng)絡(luò)需要在特征輸入網(wǎng)絡(luò)前對其進行處理,使所有特征保持統(tǒng)一的輸入大小,語音數(shù)據(jù)不同于圖像數(shù)據(jù),每一個語音文件可能有著不同的時長,為了將不同時長的語音輸送進神經(jīng)網(wǎng)絡(luò)中,常用的方法是將語音信號切割成同樣大小的片段作為輸入[7-8]。但是不完整的情感細節(jié)的輸入特征可能會導(dǎo)致模型的魯棒性下降,并且在卷積的計算過程中可能會丟失語音的時間相關(guān)信息。因為使用的是預(yù)訓(xùn)練的AlexNet模型,網(wǎng)絡(luò)對輸入特征的要求為 227×227×3,由于我們將 n×64×3的特征利用雙線性差值變?yōu)?27×227×3,n為每段語音的幀長,不同語音的幀長可能并不相同,由于幀長的拉伸或者壓縮一定程度上造成了原有特征中的時間相關(guān)信息的丟失。為了解決這個問題,同時使用融合的幀級特征作為LSTM模塊的輸入特征,來補足在卷積過程中丟失的時間信息。獲取幀級特征的參數(shù)與三維譜圖特征相同,同樣使用 64組梅爾濾波器,25 ms的漢明窗以及10 ms的重疊來獲取幀級特征。其中幀級特征中的每幀不同的特征號如表1所示。其中前 30維幀數(shù)分別為梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)及其一階導(dǎo)參數(shù),后 50維幀數(shù)分別為譜圖特征及其一階導(dǎo)參數(shù),80維的幀級特征作為LSTM模塊的輸入特征,每幀中包含更豐富的信息量,可以讓LSTM獲得更多的情感信息。圖2為兩模塊輸入特征的特征圖。

      表1 幀級特征中的基本特征Table 1 Basic feature of frame-level features

      1.2 FCN模塊

      FCN模塊用于從譜圖特征中提取情感細節(jié)。卷積層和池化層是卷積網(wǎng)絡(luò)的主要組成部分。其中,卷積中不同層間的連接通過卷積核操作。不同于深度神經(jīng)網(wǎng)絡(luò)中的全連接操作,卷積層中每一個卷積核都采用局部連接的方式連接不同層,也就是每一個像素點都只包含上一層中的規(guī)定大小區(qū)域的信息,并且每層卷積中可以由多個卷積核組成,每個卷積核的特征映射可以表示為

      池化層一定程度上規(guī)避了過擬合,池化層中的窗口化計算與卷積層中相同,計算特征對于窗口的最大、最小值進行,池化算法可以表示為

      圖3 FCN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 FCN network structure

      表2 卷積網(wǎng)絡(luò)模塊的詳細參數(shù)Table 2 Detailed parameters of convolution net module

      使用平均池化為本模塊的池化方式以更好地獲取最后一層池化層中抽象的特征表示。同時,平均池化層可以減少大量的參數(shù),減輕網(wǎng)絡(luò)的復(fù)雜度,緩解過擬合。通過層間算法運算,將輸入數(shù)據(jù)抽象為高級特征表示。同時,對整個網(wǎng)絡(luò)在結(jié)構(gòu)上做正則化防止過擬合,F(xiàn)CN每一層模塊的詳細輸出參數(shù)如表3所示。

      表3 FCN模塊參數(shù)Table 3 Parameters of FCN module

      1.3 LSTM模塊

      LSTM內(nèi)部實現(xiàn)了一個更精細的內(nèi)部單元來有效地存儲和更新信息。xt、ht-1和ct-1分別表示當(dāng)前時刻的輸入,上一時刻的輸出和上一時刻的單位狀態(tài)。ht和ct分別表示當(dāng)前時刻的輸出和當(dāng)前狀態(tài)。LSTM通過不同門函數(shù)之間的運算來更新內(nèi)部參數(shù)。忘記門用于決定單元需要丟棄的信息,可用式(4)表示:

      式中:bf和Wf分別代表偏差和權(quán)重;σ是Sigmoid激活函數(shù);遺忘門ft通過讀取當(dāng)前時刻的輸入xt和單元狀態(tài)ht-1,輸出介于“0”和“1”之間的值。可用式(5)、式(6)表示:

      圖4 LSTM模塊展開形式Fig.4 Expansion form of LSTM module

      LSTM動態(tài)處理每幀數(shù)據(jù)的方式彌補了在卷積網(wǎng)絡(luò)中由于壓縮或拉長輸入數(shù)據(jù)而造成的時間信息丟失。

      最后將兩個模塊中同時訓(xùn)練的特征進行融合,使用SoftMax分類器進行分類。所有模塊同時進行訓(xùn)練,以保證模型可以獲得最佳的學(xué)習(xí)能力。

      2 實驗結(jié)果及分析仿真數(shù)據(jù)庫

      2.1 仿真數(shù)據(jù)庫

      2.1.1 中國科學(xué)院自動化研究所漢語情感語料庫

      中國科學(xué)院自動化研究(Institute of Automation,Chinese Academy of Sciences,CASIA)數(shù)據(jù)庫[12]是為研究情感語音所設(shè)計的語料,由4位專業(yè)發(fā)音人在純凈的錄音環(huán)境下錄音,包括6種情緒,分別為驚訝(surprise)、憤怒(anger)、悲傷(sadness)、恐懼(fear)、中性(neutral)和快樂(happy)。共1 200句不同的發(fā)音,50句相同文本。

      2.1.2 柏林德語情感語音庫

      柏林德語情感語音庫(Berlin Emotional Database,Emo-db)[13]是柏林大學(xué)錄制的德語語音情感數(shù)據(jù)庫,數(shù)據(jù)庫由10名演員(5男、5女)錄制而成,包含了7種不同情感,分別為生氣(anger)、高興(joy)、害怕(fear)、悲傷(sadness)、厭惡(disgust)、無聊(boredom)和中性(nertral)。共包含535條語句。

      2.2 參數(shù)設(shè)定

      本實驗在CASIA庫上采用1 200句6種情感中的1 080句作為訓(xùn)練數(shù)據(jù),其余的作為測試數(shù)據(jù),在Emo-db庫上選取535句7種情感中的481句作為訓(xùn)練數(shù)據(jù),其余作為測試數(shù)據(jù),實驗重復(fù) 10次并取均值來減少誤差,每一輪實驗中所有對比實驗的數(shù)據(jù)集劃分相同。采用非加權(quán)準確率(Unweighted Accuracy,UA)[14]作為實驗的評價標準。

      本實驗采用 Windows 10操作系統(tǒng),顯卡為GTX 1080 ti,使用Python語言編碼,深度學(xué)習(xí)庫為Tensorflow。FCN與LSTM的輸出維度為1 024,其中全局池化層采用平均化池化策略,dropout設(shè)置為0.7,訓(xùn)練過程中的學(xué)習(xí)率設(shè)置為0.000 1,迭代次數(shù)設(shè)置為200。

      3 仿真實驗

      由于對CNN的網(wǎng)絡(luò)結(jié)構(gòu)進行了修改,使其變?yōu)槿矸e網(wǎng)絡(luò)。為了驗證修改模型的優(yōu)越性,首先在AlexNet和本文所改進的FCN中對兩個數(shù)據(jù)庫進行對比實驗,實驗中采用相同的模型參數(shù),其中AlexNet表示為CNN。FCN中刪除了原網(wǎng)絡(luò)中的全連接層,最后一層池化層后加入了一層1×1大小的卷積層和平均池化層,兩庫中測試集的UA隨迭代次數(shù)的變化如圖5所示。在兩模型的對比實驗中可以看出,改進的 FCN模型相較于原始卷積網(wǎng)絡(luò)模型具有更好的識別效果。在 CASIA和 Emo-db數(shù)據(jù)庫中可以看出,CNN網(wǎng)絡(luò)在收斂過程中具有較大的起伏,而FCN相較于CNN在迭代過程中的波動較小,說明改進后的網(wǎng)絡(luò)更加穩(wěn)定。兩模型的實驗準確率如表4所示,實驗結(jié)果顯示,F(xiàn)CN在兩數(shù)據(jù)庫中的測試結(jié)果分別為78.6%和81.4%,相較于CNN網(wǎng)絡(luò)準確率分別提升了5.8個百分點和6.4個百分點,準確率有明顯的提升,證明改進的模型相較于傳統(tǒng)的CNN模型有著更好的識別性能。

      圖5 兩個數(shù)據(jù)庫中以譜圖特征為輸入的CNN和FCN測試非加權(quán)準確率(UA)的對比Fig.5 Comparison of the UA values of the spectrograph features in the two databases tested by CNN and FCN

      表4 CASIA和Emo-db數(shù)據(jù)庫中以譜圖特征為輸入的CNN和FCN測試的非加權(quán)準確率(UA)Table 4 The UA values of the spectrograph features in CASIA and Emo-db databases tested by CNN and FCN

      在傳統(tǒng)的語音識別模型中,LSTM通常是作為最后的特征整合模型,這種模型間的串聯(lián)關(guān)系可能會使得 LSTM 在特征學(xué)習(xí)的過程中流失一部分情感。為了更好地獲取語音中的情感細節(jié),本模型采用80維的幀級特征作為LSTM的輸入特征并直接進行特征提取以盡可能地減少過于復(fù)雜的模型中情感細節(jié)的流失。為了驗證所提取的特征性能,LSTM模塊使用64維幀級特征進行對比,64維幀級特征為譜圖特征,使用64組濾波器,25 ms的漢明窗以及 10 ms的重疊來獲取。兩庫中測試集的UA隨迭代次數(shù)的變化如圖6所示,測試準確率如表5所示。從兩個輸入的對比實驗中可以看出,在CASIA數(shù)據(jù)庫中,80幀級特征作為LSTM的輸入與64維特征作為LSTM的輸入的收斂曲線十分接近,并且UA的提高也不明顯。但是在Emo-db數(shù)據(jù)庫中,80為幀級特征作為輸入具有較大的優(yōu)勢。相較于64維幀級特征作為輸入的準確率提升了5.1個百分點。

      圖6 兩個數(shù)據(jù)庫中64維和80維幀級特征為輸入的LSTM測試的非加權(quán)準確率(UA)的對比Fig.6 Comparison of the UA values of the 64D and 80D frame-level features in the two databases tested by LSTM

      表5 兩個數(shù)據(jù)庫中64維和80維幀級特征作為LSTM模型輸入的測試UA值比較Table 5 Comparison of the UA values of the 64D and 80D frame-level in the two databases tested by LSTM

      最后,將所設(shè)計完整的模型 FCN+LSTM 與FCN模塊和LSTM模塊相比較,同時,CNN+LSTM+幀級特征(64維)也加入對比實驗來驗證不同模塊的并行效果。本文使用了加權(quán)的融合方式對不同模塊的輸出進行融合,為了驗證該融合方法相較于普通融合方法的優(yōu)越性,F(xiàn)CN+LSTM+幀級特征(80維)+加權(quán)融合也同樣加入到對比實驗中。兩個數(shù)據(jù)庫中測試集的UA隨迭代次數(shù)的變化如圖7所示。從圖中可以看出,在兩個數(shù)據(jù)庫中,所有的實驗經(jīng)過200次的訓(xùn)練后測試集都趨于穩(wěn)定,并且本文中所設(shè)計的 FCN+LSTM+幀級特征(80維)+加權(quán)融合的模型相較于其他模型可以更快地收斂。表6顯示了所有實驗的對比情況。

      圖7 所有的非加權(quán)準確率(UA)測試值隨迭代次數(shù)變化的曲線Fig.7 Variation curves of all tested UA values with iteration times

      實驗結(jié)果如表6所示,F(xiàn)CN+LSTM+幀級特征模型相較于單一的FCN模型和LSTM模型對情感都有著更好的識別效果,說明并行的模型結(jié)構(gòu)確實可以提升模型的準確率。同時改進的模型FCN+LSTM+幀級特征(80維)相比于CNN+LSTM+幀級特征(64維)的性能也有所提升,兩個數(shù)據(jù)庫中的UA值分別提升了1.6個百分點和0.6個百分點。說明對CNN模型的改進以及LSTM輸入特征的提取對并行模型的性能改善同樣是有效的,也說明我們針對不同模塊所設(shè)計的不同輸入是合理的。最后,我們所設(shè)計的 FCN+LSTM+幀級特征(80維)+加權(quán)融合的模型在所有實驗中取得了最好的實驗效果,與不使用加權(quán)融合的FCN+LSTM+幀級特征(80維)的模型相比,兩個數(shù)據(jù)庫中的UA值分別提升了3.4個百分點和4.9個百分點,實驗效果顯著,驗證了所提出的對不同模塊的輸出分別進行權(quán)重計算的重要性。實驗結(jié)果證明了在我們所設(shè)計的并行多輸入模型中,在 FCN模塊學(xué)習(xí)語音數(shù)據(jù)的時頻相關(guān)細節(jié)的同時,LSTM模塊補足了在卷積過程中所丟失的時間信息,并通過對不同模塊的輸出分別加權(quán)的特征融合方式,較好地融合了不同特征。

      表6 不同模塊測試的非加權(quán)準確率(UA)對比Table 6 Comparison of the UA values tested by different modules

      同時,本文還對一些相似的方案進行了對比。文獻[15]、[16]同樣提出了一種LSTM和CNN的語音情感識別方法。文獻[15]提取譜圖特征作為LSTM的輸入,利用CNN提取更高層的情感特征。文獻[16]同樣是提取譜圖特征作為輸入,但采用的是CNN-LSTM的連接方式,文獻[15]、[16]均采用串行結(jié)構(gòu)連接LSTM和CNN模型。與文獻[15]、[16]不同的是,首先使用的是并行結(jié)構(gòu)來連接兩個不同的模塊,其次,不同模塊的輸入是不同的。為了驗證所設(shè)計模型的優(yōu)越性,在相同的實驗條件下對不同模型進行了對比,結(jié)果如表7所示。

      從表7中可以看出,相較于文獻[15]、[16]中的串行結(jié)構(gòu),本文所采用的并行結(jié)構(gòu)模型具有較大的優(yōu)勢。兩個情感數(shù)據(jù)庫的UA有大幅的提高,相較于文獻[15],兩個數(shù)據(jù)庫的UA分別提高了8.1個百分點和9.6個百分點,相較于文獻[16],兩個數(shù)據(jù)庫的UA分別提高了4.7個百分點和3.6個百分點,說明本文改進的模型結(jié)構(gòu)以及算法的優(yōu)化是合理的,可以顯著地提升語音情感識別系統(tǒng)的性能。

      表7 不同算法測試的非加權(quán)準確率(UA)對比Table 7 Comparison of the UA values tested by different algorithms

      4 總 結(jié)

      本文提出了一種全卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型,采用多輸入并行的模型組合方法對特征進行學(xué)習(xí)。利用FCN模塊學(xué)習(xí)語音譜圖特征中的時頻相關(guān)信息,同時利用LSTM模塊來學(xué)習(xí)語音的幀級特征,以補充模型在 FCN學(xué)習(xí)過程中缺失的時間相關(guān)信息,特征融合后使用分類器進行情感分類。在兩個公開的情感數(shù)據(jù)集上的實驗證明了該方法的優(yōu)越性。

      猜你喜歡
      語音準確率卷積
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      高速公路車牌識別標識站準確率驗證法
      青川县| 汕头市| 尚志市| 南丰县| 宿州市| 延安市| 增城市| 侯马市| 河津市| 巨野县| 高碑店市| 伊吾县| 武穴市| 辉南县| 根河市| 加查县| 大庆市| 明溪县| 迁安市| 和平区| 天祝| 邢台县| 辽阳县| 五大连池市| 泾源县| 定兴县| 罗山县| 华亭县| 江阴市| 西盟| 金山区| 遂昌县| 麻栗坡县| 古丈县| 苏州市| 卓尼县| 潞西市| 浮山县| 荆州市| 宝清县| 衡阳县|