基于聲門特征參數(shù)的語音情感識別算法研究

2013-09-08 10:18:34劉肖珩

計算機工程與設計 2013年6期

何凌，黃華，劉肖珩

（1.四川大學電氣信息學院，四川成都610065；2.四川大學基礎醫(yī)學與法醫(yī)學院，四川成都610041）

0 引言

隨著人機交互技術的迅速發(fā)展，人們期盼實現(xiàn)更為自然的人機交流，使計算機不僅能實現(xiàn)更為準確的言語交流，也能理解人們的情感信息。語音信號作為人們最常用最便捷的信息傳輸媒體，不僅包含了大量的言語信息，還包含著非言語信息，如說話人的情感狀態(tài)。語音情感識別技術就是通過提取代表情感信息的語音特征參數(shù)，并進行模式識別，以此判斷說話人的情感狀態(tài)。語音情感識別在計算機科學的基礎上，還涉及到心理學、生理學、語言學、信號處理、模式識別等多學科的知識。這項技術可應用于刑偵、駕駛、教育、醫(yī)學、安檢、服務、娛樂等眾多方面，是當今多媒體時代非常活躍的一個研究方向［1－4］。

1990年，美國MIT多媒體實驗室的 “情感編輯器”實現(xiàn)了對人類語音情感信號進行采樣和識別的功能［5］。至此，語音情感識別技術作為一個新的研究領域迅速發(fā)展。隨著信息技術與數(shù)字語音技術的融合，涌現(xiàn)了多種語音情感特征參數(shù)算法［6－8］。大多數(shù)的特征參數(shù)采用基音頻率、共振峰參數(shù)、語速、Mel倒譜系數(shù)等參數(shù)。該類參數(shù)通過對語音信號的直接計算而得到。由人類的發(fā)音機理可知，由聲門產生的激勵信號通過聲道響應及嘴唇輻射，得到語音信號。近年來研究表明，聲門信號作為語音激勵信號，同樣包含了豐富的說話人情感信息。Moore等人［9］應用聲門開閉時間及聲門閃動信號（glottal timing and glottal shimmer），實現(xiàn)說話人情感狀態(tài)的識別。實驗結果表明，采用聲門信號特征參數(shù)，其判別結果優(yōu)于傳統(tǒng)的基音頻率及共振峰參數(shù)。Iliev等人［10］采用聲門特征參數(shù)對高興、生氣和悲傷三類情感進行判別。對聲門信號情感特征的分析，更加完整了情感語音的研究。

本文基于語音信號生成的激勵系統(tǒng)、聲道及嘴唇輻射模型，通過逆濾波器及線性預測分析，實現(xiàn)聲門信號估計，并提出了一種基于聲門信號特征參數(shù)和高斯混合模型的語音情感識別算法。提出的算法與傳統(tǒng)的基音頻率及共振峰參數(shù)進行比較。并討論了情感信息在聲門激勵處的產生。

1 聲門信號特征參數(shù)計算

1.1 聲門信號的計算

人的發(fā)聲過程一般可分為，首先由肺部的收縮送出一段氣流，經氣管到喉頭聲門處（即聲帶開口處），對聲帶產生一個沖擊，使聲帶振動，然后通過聲道響應及嘴唇輻射而形成語音［11］。由于發(fā)出不同聲音時聲道的形狀有所不同，所以產生不同的語音。根據(jù)語音產生機理，語音信號生成系統(tǒng)由3個部分組成：聲門激勵系統(tǒng)、聲道系統(tǒng)和嘴唇輻射系統(tǒng)。語音信號可以表述為聲門信號（glottal signal）通過聲道濾波器（vocal tract filter）和嘴唇輻射濾波器（lip radiation fitler）卷積得到，如圖1所示。

圖1 語音信號生成系統(tǒng)

其中g（t）為聲門信號，s（t）為語音信號。通過Z變換，語音信號S（Z）可以表達為

其中嘴唇輻射濾波器R（Z）可以數(shù)學建模為

聲道濾波器V （Z）可以數(shù)學建模為全極點模型

其中系數(shù)ci可由線性預測分析（linear prediction analysis）得到［12］。

1.2 聲門信號時域特征參數(shù)計算

聲門信號是一段偽隨機信號，其中一段周期信號可以分為兩個階段：聲門打開階段和聲門閉合階段，如圖2所示。其中to表示聲門打開的時刻，tc為聲門閉合的時刻。聲門打開階段（open phase）持續(xù)時間為to至tc，聲門閉合階段（closed phase）持續(xù)時間為tc至to。T為一段聲門信號的周期

圖2 聲門信號

當人類處于不同情感狀態(tài)時，其發(fā)聲過程也相應發(fā)生變化，與安靜狀態(tài)下有所不同。圖3和圖4所示為元音／a／在 “自然” （圖3）和 “生氣” （圖4）狀態(tài)下的一段聲門信號。

由圖3和圖4可以看出，當說話人處于 “生氣”狀態(tài)時，其語音的表達通常音量增加（激勵幅度增大），同時音調升高（聲門振動頻率增加）且語速加快。由此可見，聲門激勵信號中包含著人類情感信息。通過對聲門信號某些特征參數(shù)的提取，結合模式識別分類器，能夠判別出不同的情感狀態(tài)。

本文采用的聲門信號特征參數(shù)如下：

（1）tmax：聲門信號幅值最大值時對應的時刻。

（2）tmin：聲門信號幅值最小值時對應的時刻。

（3）tc：聲門關閉時刻。

（4）to：聲門打開時刻。

（5）OQ：聲門打開時段與聲門信號偽周期的比率

（6）CQ：聲門閉合時段與聲門信號偽周期的比率

2 基音周期與共振峰參數(shù)的計算

2.1 基音周期的計算

聲帶的開啟和閉合形成振動，聲帶的開啟和閉合活動循環(huán)往復的進行，就形成了一串周期性脈沖并將其氣流送入聲道。聲帶每開啟閉合一次的時間稱為基音周期T。本文采用自相關函數(shù)法求取語音的基音周期［13］。

由于語音信號為非平穩(wěn)隨機信號，但在一定時間內（1532毫秒）可以看做短時平穩(wěn)信號，因此，對輸入的數(shù)字語音信號s［n］進行分幀處理，得到分幀信號xm［n］，每幀信號長度為N，1秒內幀個數(shù)為m。語音信號的自相關函數(shù)的定義為

短時自相關函數(shù)具有以下性質，當時域信號為周期信號時，自相關函數(shù)也是周期性函數(shù)，兩者具有同樣的周期。濁音是一個準周期信號，在一幀語音內基音周期近似恒定，因此，短時平均幅度差函數(shù)在濁音語音的基音周期上出現(xiàn)極小值。根據(jù)式（7），計算自相關函數(shù)的周期，即可以得到語音信號的基音周期。尋找Rm（k）峰值Rm＿peak，兩個峰值Rm＿peak之間的距離即為基音頻率。

2.2 共振峰的計算

當聲門激勵通過聲道時，和聲道發(fā)生諧振和反諧振，從而使激勵的某一些頻譜的能量獲得增強，而另一些被減弱，從而得到新的語音包絡，這個包絡的的能量集中的峰處為共振峰。

本文采用LPC線性預測法計算共振峰參數(shù)［13］。LPC分析是用全極點濾波器模擬聲道傳輸函數(shù)，通過求解一組線性預測系數(shù)，獲得這個全極點濾波器模型。而這個模型的共軛極點對就對應相應的共振峰，利用極點，可以得到共振峰頻率，共振峰帶寬，及共振峰幅度。

聲道傳輸函數(shù)的全極點模型表達式為

式中：階的線性預測器，ai——預測器系數(shù)，G——線性系統(tǒng)增益。

對式（8）求解極點，每一個極點對應一個共振峰，極點和共振峰之間的關系有

式中：θ——極點相位角，r——極點半徑，T——采樣周期。

通過式（9）和式（10）可以求解出相應共振峰頻率F及帶寬B。

3 高斯混合模型

實驗采用高斯混合模型作為判別器［14］，對七種不同類型的情感進行識別。

混合高斯模型的概率密度函數(shù)由M個高斯概率密度函數(shù)加權求和得到

其中x為一D維隨機向量，pii＝1，2…M為混合加權，bii＝1，2…M為子分布密度。

實驗給定GMM模型一組訓練數(shù)據(jù)，根據(jù)最大似然估計（maximum likelihood，ML）法確定模型參數(shù)，建立模型。

4 情感語料庫

實驗采用公開的 BES （berlin emotion speech database）情感語料庫［15］。該情感語料庫由 Technical University Berlin大學錄制而成，語言為德語，說話人包括5名男性和5名女性。受試者在自然狀態(tài)下模擬7種不同情感的表達：自然、生氣、無聊、厭惡、害怕、高興和悲傷。語料庫共包括了535句語音信號。其語音庫的結構見表1。

表1 BES情感數(shù)據(jù)庫結構

5 實驗結果及分析

情感語音識別系統(tǒng)分為兩個部分：特征參數(shù)提取模塊和模式識別模塊。其中模式識別模塊包含了兩個部分：首先是應用訓練語音信號實現(xiàn)模型的建立，然后采用測試語音信號實現(xiàn)對情感類別的判別。

實驗從情感語料庫中隨機選取80%語音信號作為訓練數(shù)據(jù)，對輸入的語音信號提取特征參數(shù) （基音頻率、共振峰參數(shù)、聲門信號時域特征參數(shù)），將提取后的特征參數(shù)組作為識別器的輸入信號，實現(xiàn)對高斯混合模型的參數(shù)估計。將剩下的20%語音信號作為測試數(shù)據(jù)，提取相同的特征參數(shù)作為識別器的輸入，最后通過識別器得到判別結果。實驗流程如圖5所示。該實驗流程重復10次后，得到平均識別率為實驗結果。

圖5 語音情感識別系統(tǒng)流程

實驗首先對語音信號進行去噪預處理，預處理后的語音信號進行分幀處理，幀長為32ms，對每幀信號計算其基音周期和共振峰參數(shù)。其流程如圖6所示。

圖6 基音頻率及共振峰參數(shù)計算

表2所示為應用基音頻率及共振峰參數(shù)所得7種不同情感的識別正確率。

表2 情感識別正確率（基頻和共振峰參數(shù)）

圖7所示為提出的聲門信號時域特征參數(shù)的計算流程圖。實驗首先對語音信號進行去噪預處理，去噪后的語音信號應用逆濾波器和LP分析估計其聲門信號。對聲門信號進行分幀處理，幀長為32ms，對每幀信號計算其時域特征參數(shù)組。

圖7 聲門參數(shù)計算

表3所示為應用聲門信號時域特征參數(shù)所得7種不同情感的識別正確率。

表3 情感識別正確率（聲門信號特征參數(shù)）

由表2和表3可以看出，基于提出的特征提取算法的自動情感識別率高于傳統(tǒng)的基音頻率和共振峰特征參數(shù)。

表4所示為應用聲門信號時域特征參數(shù)組得到的對BES語料庫中七種不同情感類別的正確識別率。

表4 7種情感的正確識別率（%）

由表4可以看出，自動識別系統(tǒng)對于情感類別 “生氣”的識別正確率最高，這是因為人類在表達這類情感時，其情感因素表達強度最為強烈，其特征參數(shù)的表征度較大。同時可以看出，系統(tǒng)對于 “厭惡”這類情感的識別率較低，這是因為該類情感的表達較其他情感較弱，其特征參數(shù)的表征不明顯。系統(tǒng)對于情感 “高興”易判別為類別 “生氣”，這是因為情感類別 “高興”與 “生氣”相比，其人類的表達有一定的相似度，如音量變大，語速變快等，使得其特征參數(shù)的表征相似度較大。

6 結束語

實驗結果表明，本文提出的基于聲門信號時域特征參數(shù)的情感語音識別系統(tǒng)，對7種不同類型的情感識別率較高，其識別正確率到達了61.9%，優(yōu)于采用傳統(tǒng)的基音頻率及共振峰的特征提取算法（其識別正確率分別為50.6%和54.4%）。

同時，實驗結果表明，與語音信號相似，聲門信號作為語音的激勵信號，同樣包含著豐富的人類情感特征。通過對聲門信號特征參數(shù)的分析，可以得到有效的語音情感識別系統(tǒng)。

Technical University Berlin大學在對BES情感語料庫進行錄制的同時，組織了受試者對該語料庫的7種不同類型的情感進行了人工判別，其人類判別的正確率為73.5%?？梢姡谔岢龅奶卣鲄?shù)提取算法的自動語音情感識別系統(tǒng)獲得了較高的情感類別識別率，其正確率接近于人類的識別正確率。

：

［1］Becker Asano C，Kanda T，Ishi C.How about laughter perceived naturalness of two laughing humanoid robots ［C］／／ACII，Amsterdam，2009.

［2］Truong K P，David A，F(xiàn)ranciska M G.Speech－based recognition of self－reported and observed emotion in a dimensional space［J］.Speech Communication，2012，54 （9）：1049－1063.

［3］Susie M D，Marianne J U，Chris F，et al.Emotion recognition in huntingtons disease：A systematic review ［J］.Neuroscience＆Biobehavioral Reviews，2012，36 （1）：237－253.

［4］Voran S.Listener detection of talker stress in low－rate coded speech［C］／／Proceedings of International Conference on A－coustics，Speech，and Signal Processing，2008：4813－4816.

［5］Picard R W.Affective computing ［M］.London，England：MIT Press，1997.

［6］Ayadi M，Kamel M，Karray F.Survey on speech emotion recognition：Features，classification schemes and databases［J］.Pattern Recognition，2011，44 （3）：572－587.

［7］Korba M C A，Messadeg D，Djemili R，et al.Robust speech recognition using perceptual wavelet denoising and mel－frequency product spectrum cepstral coefficient features［J］.Informatica（Ljubljana），，2008，32 （3）：283－288.

［8］Dimitrios V，Constantine K.Emotional speech recognition：Resources，features and methods ［J］.Speech Communication，2006，48 （9）：1162－1181.

［9］Moore E，Clements M A，Peifer J W，et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech［J］.Biomedical Engineering，IEEE Transactions on，2008.55 （1）：96－107.

［10］Iliev A I，Scordilis M S.Emotion recognition in speech using inter－sentence glottal statistics［C］／／Proceedings of 15th International Conference on in Systems，Signals and Image Processing，2008：465－468.

［11］ZHANG Xueying.Digital speech signal processing and MATLAB simulation［M］.Beijing：Publishing House of Electronics Industry，2011：10－22 （in Chinese）. ［張雪英.數(shù)字語音處理及MATLAB仿真［M］.北京：電子工業(yè)出版社，2011：10－22.］

［12］Drugman T，Bozkurt B，Dutoit T，Causal－anticausal decomposition of speech using complex cepstrum for glottal source estimation［C］／／Speech Communication，2011：855－866.

［13］ZHAO Li.Speech signal processing［M］.Beijing：China Machine Press，2009 （in Chinese）.［趙力.語音信號處理［M］.北京：機械工業(yè)出版社，2009.］

［14］YUN S，Yoo Chang D.Loss－scaled large－margin gaussian mixture models for speech emotion classification［J］.IEEE Transactions on Audio Speech and Language Processing，2012，20 （2）：585－598.

［15］WU S，F(xiàn)alk T，CHAN W.Automatic speech emotion recognition using modulation spectral features［J］.Speech Communication，2011，53 （5）：768－785.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看