胡洋,蒲南江,吳黎慧,高磊
(中北大學(xué)信息與通信工程學(xué)院 太原 030051)
目前,大多數(shù)研究者都是基于Plutchik劃分的6大基本情感(平靜、高興、驚奇、憤怒、悲傷、恐懼),本文也以上述分類標(biāo)準(zhǔn)進行語音情感識別研究。語音情感識別的研究已取得許多成果,但是傳統(tǒng)的方法大多都是運用單一的分類器來進行情感識別,比如文獻[3]構(gòu)建HMM模型進行語音情感識別,得到了不錯的識別率。而文獻[4]通過自組織人工神經(jīng)網(wǎng)絡(luò)進行語音情感識別也有比較理想的識別結(jié)果。但是由于單一分類器的固有缺點,識別率還有待提高。本文考慮將HMM和ANN兩種分類器進行融合,將進一步提高語音情感識別率。
由于語音情感識別研究的特殊性,沒有統(tǒng)一的語音情感識別庫,大多數(shù)研究者都是自建符合自己研究的語音情感識別庫,主要有兩種獲得語音情感庫的方法:一是誘導(dǎo)錄音法,通過準(zhǔn)備沒有情感狀態(tài)傾向的中性語句作為錄音腳本,記錄錄音者在各種模擬情感狀態(tài)下的語音材料作為語音庫;二是視頻剪輯法,通過截取影視作品中的帶有需要情感狀態(tài)的語句作為語音庫的來源。
因為視頻剪輯法工作量大,而且得到的語音材料大多包含背景音,給后期工作帶來額外的麻煩。本文采取誘導(dǎo)錄音法建立情感語音庫,即邀請8位(4男4女)情感豐富的錄音者對30個語音腳本分別用高興、憤怒、驚奇、悲傷、恐懼以及平靜的方式錄音1遍。然后邀請錄音者之外的10人對錄音材料進行試聽實驗,去除情感特征不明顯的語句,最終得到600句符合要求的情感語句,400句作為訓(xùn)練語句,200句作為識別語句。
語音聽取實驗的結(jié)果見表1。
表1 情感語音聽取實驗結(jié)果
語音之所以能夠表達情感,是因為其中包含能體現(xiàn)情感特征的參數(shù)。情感的變化通過特征參數(shù)的差異而體現(xiàn)。因此研究從語音信號中提取什么樣的特征來反映情感狀態(tài)的差別,對于情感語音識別具有極其重要的意義。
選取語音情感特征要考慮兩個方面的因素:一是選取的情感特征要適合所采取的語音情感識別模型的結(jié)構(gòu)和特點;二是要攜帶情感信息。本文分別從語音的語音特征和韻律特征兩個方面提取符合上述要求的語音情感特征。
研究表明在不同的情感狀態(tài)下,對于同一句話,基頻的變化是不同的,基音頻率反映的是整個語音信號的語調(diào)軌跡,較好地體現(xiàn)了人的情感的變化。比如驚奇情感信號的基頻軌跡曲線在句尾的地方往往有上翹的特征。
短時能量參數(shù)反映了語音振幅或能量隨時間變化的關(guān)系。語音信號短時能量定義為:
語音情感識別常用的一種特征參數(shù)是線性預(yù)測倒譜系數(shù)(LPCC),線性預(yù)測倒譜系數(shù)是從線性預(yù)測編碼系數(shù)LPC推導(dǎo)出來的。LPCC的主要優(yōu)點是提取出了語音產(chǎn)生過程的激勵信息,該信息主要反映聲道特性,而且只要十幾個倒譜特征參數(shù)就能很好的反映出語音的共振峰特性。
為了適應(yīng)HMM模型的結(jié)構(gòu),對提取出來的各種語音情感特征要進行歸一化處理,歸一化后的特征參數(shù)連接形成了18維的語音特征向量:
ANN和HMM是在語音情感識別中應(yīng)用較多的分類器,兩者各有優(yōu)勢和缺點。HMM是對語音信號進行統(tǒng)計建模的強有力工具,但模式識別性能較差,識別和訓(xùn)練算法依賴于較強的假設(shè)。ANN則具有較強的模式識別性能和并行處理能力,它具有學(xué)習(xí)特定知識而不需要預(yù)先假設(shè)的能力,缺點是不能處理語音動態(tài)變化的特征序列。本文將結(jié)合兩者的特點,建立一個融合HMM和ANN的語音情感識別器。
隱馬爾科夫鏈(HMM)是雙重隨機過程,一個隨機過程描述狀態(tài)的轉(zhuǎn)移,另一個描述狀態(tài)與觀察值之間的統(tǒng)計對應(yīng)關(guān)系。在HMM中,不能直接看到隨機過程的狀態(tài),只能看到觀察值,通過另一個隨機過程去感知狀態(tài)的存在及其特性。
HMM模型可以很好地模擬人類的語言過程,自從20世紀80年代,L. R. Rabiner把HMM|統(tǒng)計模型引入語音情感識別上以來,研究者已經(jīng)取得了不少研究成果。HMM在語音情感識別中的主要問題有:Baum-Welch訓(xùn)練算法、Viterbi算法等問題。傳統(tǒng)的Baum-Welch算法是一種基于最大似然訓(xùn)練準(zhǔn)則的算法,其本質(zhì)上是似然概率 P ( X )最大化的問題的一個局部最優(yōu)解的問題。 是模型的參數(shù)集,X表示用于訓(xùn)練的數(shù)據(jù)。它是用已知類別的模型數(shù)據(jù)來訓(xùn)練模型,使其似然概率趨于局部最大,但是不能保證這個似然概率比其他模型對應(yīng)的數(shù)據(jù)的似然概率更大。本文考慮使用基于最大互信息量(MMI)的參數(shù)重估方法。
對于HMM模型,要為每一種情感建立一個HMM模型,本文對高興、驚奇、憤怒、悲傷、恐懼、平靜這6種情感分別建立一個HMM模型,標(biāo)記為 Hi, i = 1 , 2 , 3 , 4 , 5 , 6 。在進行語音情感識別過程中,對于每一個要識別的情感語音樣本M,都要進行分幀、預(yù)處理、特征參數(shù)的提取和特征參數(shù)的歸一化的準(zhǔn)備工作,得到所需要的語音特征向量Vi,對于每一種HMM模型,利用Viterbi算法求出相應(yīng)的最大概率,語音樣本就被識別與其匹配概率最大的HMM所代表的語音情感。
然后考慮HMM和ANN的融合問題,這里選用的人工神經(jīng)網(wǎng)絡(luò)是多層感知器(Multilayer perception)。MLP有以下特點:(1)它能將復(fù)雜的聲學(xué)信號映射為不同級別的語音學(xué)和音韻學(xué)的表示(2)對不同的類,可以在超平面中形成分離得部分,適合于分類(3)不需要事先做出假設(shè),對模型使用全局約束,識別效果好。
HMM和ANN融合的整體識別流程圖如圖1所示。
圖1 ANN/HMM識別流程圖
首先對該分類器進行訓(xùn)練,HMM采用簡單的從左到右的單向HMM模型,訓(xùn)練算法采用基于最大互信息量準(zhǔn)則。對每一個樣本計算它和所有HMM模型的似然概率,同時為了得到等維的特征矢量,這里采用平均矢量法對得到的語音特征矢量進行規(guī)整,從而完成對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。在識別階段,先用每個HMM的均值矢量序列與待識別的語音信號進行線性匹配,選擇距離最小的HMM對待識別的語音規(guī)整,作為神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點,通過MLP識別。實驗結(jié)果表明識別結(jié)果有了一定的提高。具體數(shù)據(jù)如表2所示。
表2 HMM和HMM/ANN識別結(jié)果對比
基于多種分類器的融合的方法是一種值得探究的方法,在單一分類器的識別率提高有一定困難的情況下,多分類器融合為提高語音情感識別率開創(chuàng)了新的方向,由于語音樣本不足等種種原因,語音情感識別率還有待提高,有些技術(shù)還有待突破,例如MMI準(zhǔn)則還有待改進等問題。
[1]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識別[J].清華大學(xué)學(xué)報:自然科學(xué)版,2006, 46(1):86-89.
[2]趙力,蔣春暉,鄒采榮,等. 語音信號中的情感特征分析和識別的研究[J]. 電子學(xué)報,2004,32(4):606-609.
[3]國辛純,郭繼昌,竇修全.基于HMM的語音情感識別研究[J].電子測量技術(shù),2006,29(5):69-71.
[4]石瑛,胡學(xué)鋼.基于神經(jīng)網(wǎng)絡(luò)的語音情感識別[J]. 計算機工程與應(yīng)用, 2008, 44(24):191-194.
[5]林奕琳,韋崗. 基于短時和長時特征的語音情感識別研究[J]. 通信技術(shù),2006,6(4):450-454.
[6]趙力,錢向民,鄒采榮,等,語音信號中的情感識別研究[J]. 軟件學(xué)報,2001(12):1050-1055.
[7]茅曉泉,胡光銳.基于最大互信息量的離散隱馬爾科夫模型訓(xùn)練方法[J].上海交通大學(xué)學(xué)報,2001,35(11):1713-1716.
[8]李玉萍,樸春俊,韓永成.一種帶噪語音信號端點檢測方法研究[J].電子測試,2008(2):14-17.