• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聲門特征參數(shù)的語音情感識別算法研究

      2013-09-08 10:18:34劉肖珩
      計算機工程與設計 2013年6期
      關鍵詞:基音聲道聲門

      何 凌,黃 華,劉肖珩

      (1.四川大學 電氣信息學院,四川 成都610065;2.四川大學 基礎醫(yī)學與法醫(yī)學院,四川 成都610041)

      0 引 言

      隨著人機交互技術的迅速發(fā)展,人們期盼實現(xiàn)更為自然的人機交流,使計算機不僅能實現(xiàn)更為準確的言語交流,也能理解人們的情感信息。語音信號作為人們最常用最便捷的信息傳輸媒體,不僅包含了大量的言語信息,還包含著非言語信息,如說話人的情感狀態(tài)。語音情感識別技術就是通過提取代表情感信息的語音特征參數(shù),并進行模式識別,以此判斷說話人的情感狀態(tài)。語音情感識別在計算機科學的基礎上,還涉及到心理學、生理學、語言學、信號處理、模式識別等多學科的知識。這項技術可應用于刑偵、駕駛、教育、醫(yī)學、安檢、服務、娛樂等眾多方面,是當今多媒體時代非常活躍的一個研究方向[1-4]。

      1990年,美國MIT多媒體實驗室的 “情感編輯器”實現(xiàn)了對人類語音情感信號進行采樣和識別的功能[5]。至此,語音情感識別技術作為一個新的研究領域迅速發(fā)展。隨著信息技術與數(shù)字語音技術的融合,涌現(xiàn)了多種語音情感特征參數(shù)算法[6-8]。大多數(shù)的特征參數(shù)采用基音頻率、共振峰參數(shù)、語速、Mel倒譜系數(shù)等參數(shù)。該類參數(shù)通過對語音信號的直接計算而得到。由人類的發(fā)音機理可知,由聲門產生的激勵信號通過聲道響應及嘴唇輻射,得到語音信號。近年來研究表明,聲門信號作為語音激勵信號,同樣包含了豐富的說話人情感信息。Moore等人[9]應用聲門開閉時間及聲門閃動信號 (glottal timing and glottal shimmer),實現(xiàn)說話人情感狀態(tài)的識別。實驗結果表明,采用聲門信號特征參數(shù),其判別結果優(yōu)于傳統(tǒng)的基音頻率及共振峰參數(shù)。Iliev等人[10]采用聲門特征參數(shù)對高興、生氣和悲傷三類情感進行判別。對聲門信號情感特征的分析,更加完整了情感語音的研究。

      本文基于語音信號生成的激勵系統(tǒng)、聲道及嘴唇輻射模型,通過逆濾波器及線性預測分析,實現(xiàn)聲門信號估計,并提出了一種基于聲門信號特征參數(shù)和高斯混合模型的語音情感識別算法。提出的算法與傳統(tǒng)的基音頻率及共振峰參數(shù)進行比較。并討論了情感信息在聲門激勵處的產生。

      1 聲門信號特征參數(shù)計算

      1.1 聲門信號的計算

      人的發(fā)聲過程一般可分為,首先由肺部的收縮送出一段氣流,經氣管到喉頭聲門處 (即聲帶開口處),對聲帶產生一個沖擊,使聲帶振動,然后通過聲道響應及嘴唇輻射而形成語音[11]。由于發(fā)出不同聲音時聲道的形狀有所不同,所以產生不同的語音。根據(jù)語音產生機理,語音信號生成系統(tǒng)由3個部分組成:聲門激勵系統(tǒng)、聲道系統(tǒng)和嘴唇輻射系統(tǒng)。語音信號可以表述為聲門信號 (glottal signal)通過聲道濾波器 (vocal tract filter)和嘴唇輻射濾波器 (lip radiation fitler)卷積得到,如圖1所示。

      圖1 語音信號生成系統(tǒng)

      其中g(t)為聲門信號,s(t)為語音信號。通過Z變換,語音信號S(Z)可以表達為

      其中嘴唇輻射濾波器R(Z)可以數(shù)學建模為

      聲道濾波器V (Z)可以數(shù)學建模為全極點模型

      其中系數(shù)ci可由線性預測分析 (linear prediction analysis)得到[12]。

      1.2 聲門信號時域特征參數(shù)計算

      聲門信號是一段偽隨機信號,其中一段周期信號可以分為兩個階段:聲門打開階段和聲門閉合階段,如圖2所示。其中to表示聲門打開的時刻,tc為聲門閉合的時刻。聲門打開階段 (open phase)持續(xù)時間為to至tc,聲門閉合階段 (closed phase)持續(xù)時間為tc至to。T為一段聲門信號的周期

      圖2 聲門信號

      當人類處于不同情感狀態(tài)時,其發(fā)聲過程也相應發(fā)生變化,與安靜狀態(tài)下有所不同。圖3和圖4所示為元音/a/在 “自然” (圖3)和 “生氣” (圖4)狀態(tài)下的一段聲門信號。

      由圖3和圖4可以看出,當說話人處于 “生氣”狀態(tài)時,其語音的表達通常音量增加 (激勵幅度增大),同時音調升高 (聲門振動頻率增加)且語速加快。由此可見,聲門激勵信號中包含著人類情感信息。通過對聲門信號某些特征參數(shù)的提取,結合模式識別分類器,能夠判別出不同的情感狀態(tài)。

      本文采用的聲門信號特征參數(shù)如下:

      (1)tmax:聲門信號幅值最大值時對應的時刻。

      (2)tmin:聲門信號幅值最小值時對應的時刻。

      (3)tc:聲門關閉時刻。

      (4)to:聲門打開時刻。

      (5)OQ:聲門打開時段與聲門信號偽周期的比率

      (6)CQ:聲門閉合時段與聲門信號偽周期的比率

      2 基音周期與共振峰參數(shù)的計算

      2.1 基音周期的計算

      聲帶的開啟和閉合形成振動,聲帶的開啟和閉合活動循環(huán)往復的進行,就形成了一串周期性脈沖并將其氣流送入聲道。聲帶每開啟閉合一次的時間稱為基音周期T。本文采用自相關函數(shù)法求取語音的基音周期[13]。

      由于語音信號為非平穩(wěn)隨機信號,但在一定時間內(1532毫秒)可以看做短時平穩(wěn)信號,因此,對輸入的數(shù)字語音信號s[n]進行分幀處理,得到分幀信號xm[n],每幀信號長度為N,1秒內幀個數(shù)為m。語音信號的自相關函數(shù)的定義為

      短時自相關函數(shù)具有以下性質,當時域信號為周期信號時,自相關函數(shù)也是周期性函數(shù),兩者具有同樣的周期。濁音是一個準周期信號,在一幀語音內基音周期近似恒定,因此,短時平均幅度差函數(shù)在濁音語音的基音周期上出現(xiàn)極小值。根據(jù)式 (7),計算自相關函數(shù)的周期,即可以得到語音信號的基音周期。尋找Rm(k)峰值Rm_peak,兩個峰值Rm_peak之間的距離即為基音頻率。

      2.2 共振峰的計算

      當聲門激勵通過聲道時,和聲道發(fā)生諧振和反諧振,從而使激勵的某一些頻譜的能量獲得增強,而另一些被減弱,從而得到新的語音包絡,這個包絡的的能量集中的峰處為共振峰。

      本文采用LPC線性預測法計算共振峰參數(shù)[13]。LPC分析是用全極點濾波器模擬聲道傳輸函數(shù),通過求解一組線性預測系數(shù),獲得這個全極點濾波器模型。而這個模型的共軛極點對就對應相應的共振峰,利用極點,可以得到共振峰頻率,共振峰帶寬,及共振峰幅度。

      聲道傳輸函數(shù)的全極點模型表達式為

      式中:階的線性預測器,ai——預測器系數(shù),G——線性系統(tǒng)增益。

      對式 (8)求解極點,每一個極點對應一個共振峰,極點和共振峰之間的關系有

      式中:θ——極點相位角,r——極點半徑,T——采樣周期。

      通過式 (9)和式 (10)可以求解出相應共振峰頻率F及帶寬B。

      3 高斯混合模型

      實驗采用高斯混合模型作為判別器[14],對七種不同類型的情感進行識別。

      混合高斯模型的概率密度函數(shù)由M個高斯概率密度函數(shù)加權求和得到

      其中x為一D維隨機向量,pii=1,2…M為混合加權,bii=1,2…M為子分布密度。

      實驗給定GMM模型一組訓練數(shù)據(jù),根據(jù)最大似然估計 (maximum likelihood,ML)法確定模型參數(shù),建立模型。

      4 情感語料庫

      實驗采用公開的 BES (berlin emotion speech database)情感語料庫[15]。該情感語料庫由 Technical University Berlin大學錄制而成,語言為德語,說話人包括5名男性和5名女性。受試者在自然狀態(tài)下模擬7種不同情感的表達:自然、生氣、無聊、厭惡、害怕、高興和悲傷。語料庫共包括了535句語音信號。其語音庫的結構見表1。

      表1 BES情感數(shù)據(jù)庫結構

      5 實驗結果及分析

      情感語音識別系統(tǒng)分為兩個部分:特征參數(shù)提取模塊和模式識別模塊。其中模式識別模塊包含了兩個部分:首先是應用訓練語音信號實現(xiàn)模型的建立,然后采用測試語音信號實現(xiàn)對情感類別的判別。

      實驗從情感語料庫中隨機選取80%語音信號作為訓練數(shù)據(jù),對輸入的語音信號提取特征參數(shù) (基音頻率、共振峰參數(shù)、聲門信號時域特征參數(shù)),將提取后的特征參數(shù)組作為識別器的輸入信號,實現(xiàn)對高斯混合模型的參數(shù)估計。將剩下的20%語音信號作為測試數(shù)據(jù),提取相同的特征參數(shù)作為識別器的輸入,最后通過識別器得到判別結果。實驗流程如圖5所示。該實驗流程重復10次后,得到平均識別率為實驗結果。

      圖5 語音情感識別系統(tǒng)流程

      實驗首先對語音信號進行去噪預處理,預處理后的語音信號進行分幀處理,幀長為32ms,對每幀信號計算其基音周期和共振峰參數(shù)。其流程如圖6所示。

      圖6 基音頻率及共振峰參數(shù)計算

      表2所示為應用基音頻率及共振峰參數(shù)所得7種不同情感的識別正確率。

      表2 情感識別正確率 (基頻和共振峰參數(shù))

      圖7所示為提出的聲門信號時域特征參數(shù)的計算流程圖。實驗首先對語音信號進行去噪預處理,去噪后的語音信號應用逆濾波器和LP分析估計其聲門信號。對聲門信號進行分幀處理,幀長為32ms,對每幀信號計算其時域特征參數(shù)組。

      圖7 聲門參數(shù)計算

      表3所示為應用聲門信號時域特征參數(shù)所得7種不同情感的識別正確率。

      表3 情感識別正確率 (聲門信號特征參數(shù))

      由表2和表3可以看出,基于提出的特征提取算法的自動情感識別率高于傳統(tǒng)的基音頻率和共振峰特征參數(shù)。

      表4所示為應用聲門信號時域特征參數(shù)組得到的對BES語料庫中七種不同情感類別的正確識別率。

      表4 7種情感的正確識別率 (%)

      由表4可以看出,自動識別系統(tǒng)對于情感類別 “生氣”的識別正確率最高,這是因為人類在表達這類情感時,其情感因素表達強度最為強烈,其特征參數(shù)的表征度較大。同時可以看出,系統(tǒng)對于 “厭惡”這類情感的識別率較低,這是因為該類情感的表達較其他情感較弱,其特征參數(shù)的表征不明顯。系統(tǒng)對于情感 “高興”易判別為類別 “生氣”,這是因為情感類別 “高興”與 “生氣”相比,其人類的表達有一定的相似度,如音量變大,語速變快等,使得其特征參數(shù)的表征相似度較大。

      6 結束語

      實驗結果表明,本文提出的基于聲門信號時域特征參數(shù)的情感語音識別系統(tǒng),對7種不同類型的情感識別率較高,其識別正確率到達了61.9%,優(yōu)于采用傳統(tǒng)的基音頻率及共振峰的特征提取算法 (其識別正確率分別為50.6%和54.4%)。

      同時,實驗結果表明,與語音信號相似,聲門信號作為語音的激勵信號,同樣包含著豐富的人類情感特征。通過對聲門信號特征參數(shù)的分析,可以得到有效的語音情感識別系統(tǒng)。

      Technical University Berlin大學在對BES情感語料庫進行錄制的同時,組織了受試者對該語料庫的7種不同類型的情感進行了人工判別,其人類判別的正確率為73.5%??梢姡谔岢龅奶卣鲄?shù)提取算法的自動語音情感識別系統(tǒng)獲得了較高的情感類別識別率,其正確率接近于人類的識別正確率。

      [1]Becker Asano C,Kanda T,Ishi C.How about laughter perceived naturalness of two laughing humanoid robots [C]//ACII,Amsterdam,2009.

      [2]Truong K P,David A,F(xiàn)ranciska M G.Speech-based recognition of self-reported and observed emotion in a dimensional space[J].Speech Communication,2012,54 (9):1049-1063.

      [3]Susie M D,Marianne J U,Chris F,et al.Emotion recognition in huntingtons disease:A systematic review [J].Neuroscience&Biobehavioral Reviews,2012,36 (1):237-253.

      [4]Voran S.Listener detection of talker stress in low-rate coded speech[C]//Proceedings of International Conference on A-coustics,Speech,and Signal Processing,2008:4813-4816.

      [5]Picard R W.Affective computing [M].London,England:MIT Press,1997.

      [6]Ayadi M,Kamel M,Karray F.Survey on speech emotion recognition:Features,classification schemes and databases[J].Pattern Recognition,2011,44 (3):572-587.

      [7]Korba M C A,Messadeg D,Djemili R,et al.Robust speech recognition using perceptual wavelet denoising and mel-frequency product spectrum cepstral coefficient features[J].Informatica(Ljubljana),,2008,32 (3):283-288.

      [8]Dimitrios V,Constantine K.Emotional speech recognition:Resources,features and methods [J].Speech Communication,2006,48 (9):1162-1181.

      [9]Moore E,Clements M A,Peifer J W,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].Biomedical Engineering,IEEE Transactions on,2008.55 (1):96-107.

      [10]Iliev A I,Scordilis M S.Emotion recognition in speech using inter-sentence glottal statistics[C]//Proceedings of 15th International Conference on in Systems,Signals and Image Processing,2008:465-468.

      [11]ZHANG Xueying.Digital speech signal processing and MATLAB simulation[M].Beijing:Publishing House of Electronics Industry,2011:10-22 (in Chinese). [張雪英.數(shù)字語音處理及MATLAB仿真 [M].北京:電子工業(yè)出版社,2011:10-22.]

      [12]Drugman T,Bozkurt B,Dutoit T,Causal-anticausal decomposition of speech using complex cepstrum for glottal source estimation[C]//Speech Communication,2011:855-866.

      [13]ZHAO Li.Speech signal processing[M].Beijing:China Machine Press,2009 (in Chinese).[趙力.語音信號處理 [M].北京:機械工業(yè)出版社,2009.]

      [14]YUN S,Yoo Chang D.Loss-scaled large-margin gaussian mixture models for speech emotion classification[J].IEEE Transactions on Audio Speech and Language Processing,2012,20 (2):585-598.

      [15]WU S,F(xiàn)alk T,CHAN W.Automatic speech emotion recognition using modulation spectral features[J].Speech Communication,2011,53 (5):768-785.

      猜你喜歡
      基音聲道聲門
      9.7.8聲道、造價250余萬 James極品影院賞析
      為發(fā)燒需求打造的11聲道后級 Orisun(傲力聲)OA-S11
      支撐喉鏡聲門區(qū)暴露困難影響因素的logistics分析
      基于基音跟蹤的語音增強研究
      尷尬的打嗝
      實現(xiàn)從7.2到11.2聲道的飛躍 Onkyo(安橋)TX-RZ830
      基于“聲門適度感”的聲樂演唱與教學研究
      樂理小知識
      小演奏家(2014年11期)2014-12-17 01:18:52
      考慮覆蓋率下時差式超聲流量計的平面聲道模型*
      一種改進的基音周期提取算法
      镇坪县| 韶山市| 五家渠市| 江油市| 交口县| 泽普县| 波密县| 洪雅县| 辽宁省| 青河县| 炉霍县| 海晏县| 伊通| 盐城市| 遂溪县| 栾城县| 靖远县| 五河县| 宝兴县| 堆龙德庆县| 抚松县| 南投县| 赞皇县| 达日县| 衡东县| 科技| 建昌县| 安顺市| 土默特左旗| 古交市| 洛南县| 伽师县| 正安县| 华宁县| 彰武县| 侯马市| 旬阳县| 昭平县| 墨玉县| 扬州市| 云阳县|