魏金太 王 振
河南林業(yè)職業(yè)學院
情感識別在許多應用中起著重要的作用,特別是在當今日益普遍的人機交互系統(tǒng)中。作為人類之間的主要傳播媒體之一,語音已經(jīng)引起了研究者的廣泛關(guān)注。言語包含豐富的情緒信息,如何從語音信號中提取這些信息對于自動語音情感識別具有重要意義。作為語音情感識別的重要組成部分,提取最相關(guān)的聲學特征引起了很多研究興趣。這些研究大部分都致力于設計一些手勢特征,這些特征對于情感識別來說是最有特色的。
最近,機器學習社區(qū)的一個趨勢是直接從原始未處理數(shù)據(jù)中推導出輸入信號的表示。這個想法背后的原因是網(wǎng)絡可以自動學習原始輸入信號的中間表示,它更適合手頭的任務,因此可以提高性能。受此啟發(fā),我們試圖通過專門設計的可變長度深度神經(jīng)網(wǎng)絡構(gòu)建情緒識別系統(tǒng),該神經(jīng)網(wǎng)絡可直接從輸入語音的頻譜圖中導出情緒類別。
頻譜圖是信號的時頻分解,指示其頻率隨時間變化的內(nèi)容。在我們的工作中,卷積神經(jīng)網(wǎng)絡(CNN)首先被構(gòu)造為有效地學習代表情緒信息的空間譜圖模式;然后使用遞歸神經(jīng)網(wǎng)絡(RNN)來模擬由譜圖表示的句子上的時間結(jié)構(gòu);最后的情緒類別是由全連接層導出的。這項工作的想法類似于以前的Satt 的工作。
然而,我們的神經(jīng)網(wǎng)絡具有能夠處理可變長度語音段的優(yōu)點。與將語音輸入分成較小的和固定長度的段相比,我們的方法可以解決在語音分割過程中引入的精度損失。在IEMOCAP 數(shù)據(jù)集中,使用5 折交叉驗證,我們可以實現(xiàn)71.45%的加權(quán)準確性(WA),相對于固定的2.95%絕對(3.85%相對)改善長度方法。相同數(shù)據(jù)集的未加權(quán)準確度(UA)為64.22%,這也優(yōu)于固定長度方法,絕對偏差為4.82%(相對于8.11%)。
論文組織如下:第1 節(jié)總結(jié)了以前的相關(guān)工作,第2節(jié)給出了變長方法和定長方法的比較,第3 節(jié)介紹了譜圖提取和變長神經(jīng)網(wǎng)絡結(jié)構(gòu),第4 節(jié)總結(jié)本文。
近年來,深度學習方法和工具已經(jīng)引入到語音處理領(lǐng)域,用于特征提取、分類/回歸。研究人員已經(jīng)表明,用深度網(wǎng)絡中不同層次的原始信號統(tǒng)計學習替代手工制作的低層(幀級)特征可以顯著提高分類和回歸解決方案的準確性。在語音識別中,首次研究表明直接使用語音波形的自動語音識別(ASR)的更好特征是Jaitly 和Hinton,他們提出,雖然他們沒有以端到端的方式對系統(tǒng)進行訓練,通過直接在語音時間信號上訓練受限玻爾茲曼機器來學習中間表示。Sainath 等人通過使用卷積,LSTM-DNN 匹配基于log-Mel 濾波器能量的大詞匯量語音識別(LVCSR)系統(tǒng)的性能。Bhargava 和Rose 使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(DNNs)對窗口化語音波形進行訓練,并且在相同體系結(jié)構(gòu)上獲得的結(jié)果只比相應的MFCC 略差。直接使用梅爾譜聲譜圖進行說話人識別也被證明是成功的。此外,基于線性間隔頻譜圖描述了最近公布的現(xiàn)有技術(shù)的魯棒語音識別系統(tǒng)。
在語音情感識別領(lǐng)域,已經(jīng)進行了一些使用深度神經(jīng)網(wǎng)絡進行特征學習的研究。最近,喬治等人提出了一個卷積循環(huán)神經(jīng)網(wǎng)絡,對原始信號進行操作,從語音數(shù)據(jù)中執(zhí)行端到端的自發(fā)情緒預測任務。Satt 等人還將CNN 和LSTM 相結(jié)合,對線性間隔頻譜圖中的情緒進行分類,超過了通用基準數(shù)據(jù)集IEMOACP 的最新精度。然而,所有這些方法都將語音輸入分為較小和固定長度的部分,這在訓練和預測階段導致準確性的損失。我們的方法提出使用可變長度的神經(jīng)網(wǎng)絡來解決這個問題。
Satt 等人首先將每個長于3 秒的句子分割成長度相等的較短的子句。在提取光譜圖后,不超過3 秒的部分用零填充到3 秒。每個子句被分配相應的整個句子的情感標簽,這些較短的子句在整個提議的系統(tǒng)中都用于訓練和測試階段。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡的難度(確保輸入長度相等),但會引入一些錯誤。觀察表明,只有一部分語音在非中性情緒句子中包含明顯的非中性情緒信息。將這些子句用于訓練神經(jīng)網(wǎng)絡可能會導致網(wǎng)絡在識別中性情緒和非中性情緒時產(chǎn)生混淆。但是,當我們聽完整個句子時,神經(jīng)語音段可以增強情感語段的感覺。
以上問題表明,使用整句作為輸入比分成幾段更合理。但是句子的長度一般是不同的,所以我們的研究旨在設計一個神經(jīng)網(wǎng)絡來處理可變長度的輸入序列。
眾所周知,卷積神經(jīng)網(wǎng)絡(CNN)可以被認為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡。這可以使網(wǎng)絡擁有大量的神經(jīng)元并表達計算量大的模型,同時保持實際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學習得相當小。常用的手段,特別是在計算機視覺中,用于處理相同尺寸的輸入,這可以方便地連接其他神經(jīng)網(wǎng)絡,例如全連接層。
遞歸神經(jīng)網(wǎng)絡(RNN)是流行的模型,在許多序列建模任務中顯示出很大的希望。它們對序列的每個元素執(zhí)行相同的任務,輸出依賴于以前的計算。為了計算效率,輸入序列通常是固定長度的。可變長度序列通常被填充到相同的長度,但是我們可以忽略無效填充時間步的輸出,以便可以正確處理可變長度的序列。
可變長度深度神經(jīng)網(wǎng)絡的輸入是全句子的譜圖,輸出是句子情感類別的分類結(jié)果。
IEMOCAP 數(shù)據(jù)集中的語音信號以16KHz 采樣,并組織為單個句子,持續(xù)時間從不到一秒到約20 秒。每個句子都標有一種情感,采用一系列重疊的漢明窗口,幀步長(窗口移位)為10 毫秒,幀長度(窗口尺寸)為40 毫秒。對于每一幀,我們計算一個長度為1600 的DFT(對于10Hz 的網(wǎng)格分辨率)。我們使用0-4KHz 的頻率范圍,忽略其余部分。
在我們的工作中,輸入序列在訓練階段在同一批次中被填充到相同長度且為零,但不同批次之間的長度不同。預測階段不使用填充,所以我們的神經(jīng)網(wǎng)絡需要具備避免填充值對輸出干擾的能力。
首先,對于卷積神經(jīng)網(wǎng)絡,我們可以使用掩碼來保留來自S1 的輸出并忽略來自S2 的輸出。其可以表示如下:
Sconv=Conv(S)?Mask(S)(1)
其中Conv(S)是S 的卷積層的輸出,Mask(S)是一個掩蔽矩陣,Sconv=[y1,y2,...,yV,...,yT]是與S相同長度的輸出序列,其中[y1,y2,...,yV]是掩碼矩陣有效部分的值,[yV+1,...,yT]是填充部分的零值。有效輸出可以通過Conv(S)和Mask(S)之間的元素乘法實現(xiàn)。
其次,對于遞歸神經(jīng)網(wǎng)絡,因為語音情感識別是一個序列分類問題,所以我們只需要最后一個有效時間步中的輸出。假設S 是遞歸神經(jīng)網(wǎng)絡的輸入,預期結(jié)果應該是t=V 時的輸出。
在本文中,我們提出了一個可變長度的神經(jīng)網(wǎng)絡,在頻譜圖上運行,從可變長度的語音片段中執(zhí)行情感分類任務。未來,我們將繼續(xù)探索如何使用其他深度神經(jīng)網(wǎng)絡結(jié)構(gòu)來處理可變長度的語音情感識別。