何 凌,黃 華,劉肖珩
(1.四川大學 電氣信息學院,四川 成都610065;2.四川大學 基礎醫(yī)學與法醫(yī)學院,四川 成都610041)
隨著人機交互技術的迅速發(fā)展,人們期盼實現(xiàn)更為自然的人機交流,使計算機不僅能實現(xiàn)更為準確的言語交流,也能理解人們的情感信息。語音信號作為人們最常用最便捷的信息傳輸媒體,不僅包含了大量的言語信息,還包含著非言語信息,如說話人的情感狀態(tài)。語音情感識別技術就是通過提取代表情感信息的語音特征參數(shù),并進行模式識別,以此判斷說話人的情感狀態(tài)。語音情感識別在計算機科學的基礎上,還涉及到心理學、生理學、語言學、信號處理、模式識別等多學科的知識。這項技術可應用于刑偵、駕駛、教育、醫(yī)學、安檢、服務、娛樂等眾多方面,是當今多媒體時代非常活躍的一個研究方向[1-4]。
1990年,美國MIT多媒體實驗室的 “情感編輯器”實現(xiàn)了對人類語音情感信號進行采樣和識別的功能[5]。至此,語音情感識別技術作為一個新的研究領域迅速發(fā)展。隨著信息技術與數(shù)字語音技術的融合,涌現(xiàn)了多種語音情感特征參數(shù)算法[6-8]。大多數(shù)的特征參數(shù)采用基音頻率、共振峰參數(shù)、語速、Mel倒譜系數(shù)等參數(shù)。該類參數(shù)通過對語音信號的直接計算而得到。由人類的發(fā)音機理可知,由聲門產生的激勵信號通過聲道響應及嘴唇輻射,得到語音信號。近年來研究表明,聲門信號作為語音激勵信號,同樣包含了豐富的說話人情感信息。Moore等人[9]應用聲門開閉時間及聲門閃動信號 (glottal timing and glottal shimmer),實現(xiàn)說話人情感狀態(tài)的識別。實驗結果表明,采用聲門信號特征參數(shù),其判別結果優(yōu)于傳統(tǒng)的基音頻率及共振峰參數(shù)。Iliev等人[10]采用聲門特征參數(shù)對高興、生氣和悲傷三類情感進行判別。對聲門信號情感特征的分析,更加完整了情感語音的研究。
本文基于語音信號生成的激勵系統(tǒng)、聲道及嘴唇輻射模型,通過逆濾波器及線性預測分析,實現(xiàn)聲門信號估計,并提出了一種基于聲門信號特征參數(shù)和高斯混合模型的語音情感識別算法。提出的算法與傳統(tǒng)的基音頻率及共振峰參數(shù)進行比較。并討論了情感信息在聲門激勵處的產生。
人的發(fā)聲過程一般可分為,首先由肺部的收縮送出一段氣流,經氣管到喉頭聲門處 (即聲帶開口處),對聲帶產生一個沖擊,使聲帶振動,然后通過聲道響應及嘴唇輻射而形成語音[11]。由于發(fā)出不同聲音時聲道的形狀有所不同,所以產生不同的語音。根據(jù)語音產生機理,語音信號生成系統(tǒng)由3個部分組成:聲門激勵系統(tǒng)、聲道系統(tǒng)和嘴唇輻射系統(tǒng)。語音信號可以表述為聲門信號 (glottal signal)通過聲道濾波器 (vocal tract filter)和嘴唇輻射濾波器 (lip radiation fitler)卷積得到,如圖1所示。
圖1 語音信號生成系統(tǒng)
其中g(t)為聲門信號,s(t)為語音信號。通過Z變換,語音信號S(Z)可以表達為
其中嘴唇輻射濾波器R(Z)可以數(shù)學建模為
聲道濾波器V (Z)可以數(shù)學建模為全極點模型
其中系數(shù)ci可由線性預測分析 (linear prediction analysis)得到[12]。
聲門信號是一段偽隨機信號,其中一段周期信號可以分為兩個階段:聲門打開階段和聲門閉合階段,如圖2所示。其中to表示聲門打開的時刻,tc為聲門閉合的時刻。聲門打開階段 (open phase)持續(xù)時間為to至tc,聲門閉合階段 (closed phase)持續(xù)時間為tc至to。T為一段聲門信號的周期
圖2 聲門信號
當人類處于不同情感狀態(tài)時,其發(fā)聲過程也相應發(fā)生變化,與安靜狀態(tài)下有所不同。圖3和圖4所示為元音/a/在 “自然” (圖3)和 “生氣” (圖4)狀態(tài)下的一段聲門信號。
由圖3和圖4可以看出,當說話人處于 “生氣”狀態(tài)時,其語音的表達通常音量增加 (激勵幅度增大),同時音調升高 (聲門振動頻率增加)且語速加快。由此可見,聲門激勵信號中包含著人類情感信息。通過對聲門信號某些特征參數(shù)的提取,結合模式識別分類器,能夠判別出不同的情感狀態(tài)。
本文采用的聲門信號特征參數(shù)如下:
(1)tmax:聲門信號幅值最大值時對應的時刻。
(2)tmin:聲門信號幅值最小值時對應的時刻。
(3)tc:聲門關閉時刻。
(4)to:聲門打開時刻。
(5)OQ:聲門打開時段與聲門信號偽周期的比率
(6)CQ:聲門閉合時段與聲門信號偽周期的比率
聲帶的開啟和閉合形成振動,聲帶的開啟和閉合活動循環(huán)往復的進行,就形成了一串周期性脈沖并將其氣流送入聲道。聲帶每開啟閉合一次的時間稱為基音周期T。本文采用自相關函數(shù)法求取語音的基音周期[13]。
由于語音信號為非平穩(wěn)隨機信號,但在一定時間內(1532毫秒)可以看做短時平穩(wěn)信號,因此,對輸入的數(shù)字語音信號s[n]進行分幀處理,得到分幀信號xm[n],每幀信號長度為N,1秒內幀個數(shù)為m。語音信號的自相關函數(shù)的定義為
短時自相關函數(shù)具有以下性質,當時域信號為周期信號時,自相關函數(shù)也是周期性函數(shù),兩者具有同樣的周期。濁音是一個準周期信號,在一幀語音內基音周期近似恒定,因此,短時平均幅度差函數(shù)在濁音語音的基音周期上出現(xiàn)極小值。根據(jù)式 (7),計算自相關函數(shù)的周期,即可以得到語音信號的基音周期。尋找Rm(k)峰值Rm_peak,兩個峰值Rm_peak之間的距離即為基音頻率。
當聲門激勵通過聲道時,和聲道發(fā)生諧振和反諧振,從而使激勵的某一些頻譜的能量獲得增強,而另一些被減弱,從而得到新的語音包絡,這個包絡的的能量集中的峰處為共振峰。
本文采用LPC線性預測法計算共振峰參數(shù)[13]。LPC分析是用全極點濾波器模擬聲道傳輸函數(shù),通過求解一組線性預測系數(shù),獲得這個全極點濾波器模型。而這個模型的共軛極點對就對應相應的共振峰,利用極點,可以得到共振峰頻率,共振峰帶寬,及共振峰幅度。
聲道傳輸函數(shù)的全極點模型表達式為
式中:階的線性預測器,ai——預測器系數(shù),G——線性系統(tǒng)增益。
對式 (8)求解極點,每一個極點對應一個共振峰,極點和共振峰之間的關系有
式中:θ——極點相位角,r——極點半徑,T——采樣周期。
通過式 (9)和式 (10)可以求解出相應共振峰頻率F及帶寬B。
實驗采用高斯混合模型作為判別器[14],對七種不同類型的情感進行識別。
混合高斯模型的概率密度函數(shù)由M個高斯概率密度函數(shù)加權求和得到
其中x為一D維隨機向量,pii=1,2…M為混合加權,bii=1,2…M為子分布密度。
實驗給定GMM模型一組訓練數(shù)據(jù),根據(jù)最大似然估計 (maximum likelihood,ML)法確定模型參數(shù),建立模型。
實驗采用公開的 BES (berlin emotion speech database)情感語料庫[15]。該情感語料庫由 Technical University Berlin大學錄制而成,語言為德語,說話人包括5名男性和5名女性。受試者在自然狀態(tài)下模擬7種不同情感的表達:自然、生氣、無聊、厭惡、害怕、高興和悲傷。語料庫共包括了535句語音信號。其語音庫的結構見表1。
表1 BES情感數(shù)據(jù)庫結構
情感語音識別系統(tǒng)分為兩個部分:特征參數(shù)提取模塊和模式識別模塊。其中模式識別模塊包含了兩個部分:首先是應用訓練語音信號實現(xiàn)模型的建立,然后采用測試語音信號實現(xiàn)對情感類別的判別。
實驗從情感語料庫中隨機選取80%語音信號作為訓練數(shù)據(jù),對輸入的語音信號提取特征參數(shù) (基音頻率、共振峰參數(shù)、聲門信號時域特征參數(shù)),將提取后的特征參數(shù)組作為識別器的輸入信號,實現(xiàn)對高斯混合模型的參數(shù)估計。將剩下的20%語音信號作為測試數(shù)據(jù),提取相同的特征參數(shù)作為識別器的輸入,最后通過識別器得到判別結果。實驗流程如圖5所示。該實驗流程重復10次后,得到平均識別率為實驗結果。
圖5 語音情感識別系統(tǒng)流程
實驗首先對語音信號進行去噪預處理,預處理后的語音信號進行分幀處理,幀長為32ms,對每幀信號計算其基音周期和共振峰參數(shù)。其流程如圖6所示。
圖6 基音頻率及共振峰參數(shù)計算
表2所示為應用基音頻率及共振峰參數(shù)所得7種不同情感的識別正確率。
表2 情感識別正確率 (基頻和共振峰參數(shù))
圖7所示為提出的聲門信號時域特征參數(shù)的計算流程圖。實驗首先對語音信號進行去噪預處理,去噪后的語音信號應用逆濾波器和LP分析估計其聲門信號。對聲門信號進行分幀處理,幀長為32ms,對每幀信號計算其時域特征參數(shù)組。
圖7 聲門參數(shù)計算
表3所示為應用聲門信號時域特征參數(shù)所得7種不同情感的識別正確率。
表3 情感識別正確率 (聲門信號特征參數(shù))
由表2和表3可以看出,基于提出的特征提取算法的自動情感識別率高于傳統(tǒng)的基音頻率和共振峰特征參數(shù)。
表4所示為應用聲門信號時域特征參數(shù)組得到的對BES語料庫中七種不同情感類別的正確識別率。
表4 7種情感的正確識別率 (%)
由表4可以看出,自動識別系統(tǒng)對于情感類別 “生氣”的識別正確率最高,這是因為人類在表達這類情感時,其情感因素表達強度最為強烈,其特征參數(shù)的表征度較大。同時可以看出,系統(tǒng)對于 “厭惡”這類情感的識別率較低,這是因為該類情感的表達較其他情感較弱,其特征參數(shù)的表征不明顯。系統(tǒng)對于情感 “高興”易判別為類別 “生氣”,這是因為情感類別 “高興”與 “生氣”相比,其人類的表達有一定的相似度,如音量變大,語速變快等,使得其特征參數(shù)的表征相似度較大。
實驗結果表明,本文提出的基于聲門信號時域特征參數(shù)的情感語音識別系統(tǒng),對7種不同類型的情感識別率較高,其識別正確率到達了61.9%,優(yōu)于采用傳統(tǒng)的基音頻率及共振峰的特征提取算法 (其識別正確率分別為50.6%和54.4%)。
同時,實驗結果表明,與語音信號相似,聲門信號作為語音的激勵信號,同樣包含著豐富的人類情感特征。通過對聲門信號特征參數(shù)的分析,可以得到有效的語音情感識別系統(tǒng)。
Technical University Berlin大學在對BES情感語料庫進行錄制的同時,組織了受試者對該語料庫的7種不同類型的情感進行了人工判別,其人類判別的正確率為73.5%??梢姡谔岢龅奶卣鲄?shù)提取算法的自動語音情感識別系統(tǒng)獲得了較高的情感類別識別率,其正確率接近于人類的識別正確率。
:
[1]Becker Asano C,Kanda T,Ishi C.How about laughter perceived naturalness of two laughing humanoid robots [C]//ACII,Amsterdam,2009.
[2]Truong K P,David A,F(xiàn)ranciska M G.Speech-based recognition of self-reported and observed emotion in a dimensional space[J].Speech Communication,2012,54 (9):1049-1063.
[3]Susie M D,Marianne J U,Chris F,et al.Emotion recognition in huntingtons disease:A systematic review [J].Neuroscience&Biobehavioral Reviews,2012,36 (1):237-253.
[4]Voran S.Listener detection of talker stress in low-rate coded speech[C]//Proceedings of International Conference on A-coustics,Speech,and Signal Processing,2008:4813-4816.
[5]Picard R W.Affective computing [M].London,England:MIT Press,1997.
[6]Ayadi M,Kamel M,Karray F.Survey on speech emotion recognition:Features,classification schemes and databases[J].Pattern Recognition,2011,44 (3):572-587.
[7]Korba M C A,Messadeg D,Djemili R,et al.Robust speech recognition using perceptual wavelet denoising and mel-frequency product spectrum cepstral coefficient features[J].Informatica(Ljubljana),,2008,32 (3):283-288.
[8]Dimitrios V,Constantine K.Emotional speech recognition:Resources,features and methods [J].Speech Communication,2006,48 (9):1162-1181.
[9]Moore E,Clements M A,Peifer J W,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].Biomedical Engineering,IEEE Transactions on,2008.55 (1):96-107.
[10]Iliev A I,Scordilis M S.Emotion recognition in speech using inter-sentence glottal statistics[C]//Proceedings of 15th International Conference on in Systems,Signals and Image Processing,2008:465-468.
[11]ZHANG Xueying.Digital speech signal processing and MATLAB simulation[M].Beijing:Publishing House of Electronics Industry,2011:10-22 (in Chinese). [張雪英.數(shù)字語音處理及MATLAB仿真 [M].北京:電子工業(yè)出版社,2011:10-22.]
[12]Drugman T,Bozkurt B,Dutoit T,Causal-anticausal decomposition of speech using complex cepstrum for glottal source estimation[C]//Speech Communication,2011:855-866.
[13]ZHAO Li.Speech signal processing[M].Beijing:China Machine Press,2009 (in Chinese).[趙力.語音信號處理 [M].北京:機械工業(yè)出版社,2009.]
[14]YUN S,Yoo Chang D.Loss-scaled large-margin gaussian mixture models for speech emotion classification[J].IEEE Transactions on Audio Speech and Language Processing,2012,20 (2):585-598.
[15]WU S,F(xiàn)alk T,CHAN W.Automatic speech emotion recognition using modulation spectral features[J].Speech Communication,2011,53 (5):768-785.