朱宇軒
(西華大學,四川 成都 610039)
?
基于Mel頻率倒譜系數(shù)的說話人識別研究
朱宇軒
(西華大學,四川 成都 610039)
摘要:由于人耳對聲音頻率的感知不是線性的,通過短時傅里葉變化得到的語音信號短時譜是按實際語音頻率分布的,但符合人耳聽覺特性的頻率分布是按照臨界頻帶分布的。因此按實際頻率分布的頻譜作為語音特征時,由于它不符合人耳的聽覺特性,將會降低說話人識別系統(tǒng)的識別性能。
關鍵詞:頻率倒譜;語音特征
1Mel頻率倒譜系數(shù)(MFCC)
MFCC是在頻譜上采用濾波器組的方法計算出來的,將語音頻率劃分成一系列的三角形濾波器序列,這組濾波器在頻率的坐標上是等寬的。這是因為人類在對1000Hz以下的聲音頻率范圍的感知遵循近似線性的關系;對1000Hz以上的語音頻率范圍的感知不遵循線性關系,而是遵循在對數(shù)頻率坐標上的近似線性關系。
Mel頻率倒譜系數(shù)(MFCC)是使用傅立葉分析提取的語音特征參數(shù),是類似于指數(shù)的形式,Mel頻率可以用如下公式表示:
Mel(f)=2595lg(1+f/700)
(1)
式中:f是以Hz為單位的實際頻率。對頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點。語音頻率與Mel頻率的對應關系如圖1所示。
2頻率倒譜系數(shù)計算
根據(jù)Zwicker的工作,Mel頻率的增長是與臨界帶寬的變化保持一致的,以Mel為單位的頻率刻度劃分與臨界帶寬在細節(jié)上并不精確相等,但這個差別是很小的。
(1)將信號進行分幀,預加重和加漢明窗處理,然后進行短時傅里葉變換并得到其頻譜。
(2)求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波;由于每一個頻帶中分量的作用在人耳中是疊加的,因此將每個濾波器頻帶內的能量進行疊加,這時第k個濾波器的輸出功率譜x′(k)。
(3)將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到L個MFCC系數(shù),一般L取12~16個左右。得到MFCC系數(shù)為
(2)
它將頻譜轉化為基于頻率的非線性頻譜,然而轉換到頻譜域上,由于充分考慮了人耳的聽覺特性,在一定程度上模擬了人耳對語音的處理特點,而且沒有任何提前假設,MFCC 參數(shù)具有良好的識別性能和抗噪能力,在信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性。但是計算量和計算精度要求較高。
3MFCC中的能量信息和動態(tài)參數(shù)
短時能量是說話人識別中一個重要的參數(shù),由于短時能量對系統(tǒng)的識別性別有一定的提升作用,因此可以在說話人語音特征中加入能量參數(shù)作為特征向量的一維分量。
假定語音段中長度為N的一幀{si(n),n=1,2,…,N},計算該幀的短時對數(shù)能量的公式如下:
(3)
為了減小不同語音段不同語音幀的能量差別,使其能夠與前面的倒譜特征系數(shù)一起作為向量計算,需對其進行歸一化處理。
(4)
前面計算得到的MFCC倒譜系數(shù)為語音信號的靜態(tài)特征參數(shù),它只表征了語音譜的即時信息。研究發(fā)現(xiàn),語音倒譜的動態(tài)信息包含了與說話人有關的信息,可以將其用于提高說話人識別系統(tǒng)的識別率。
語音信號的倒譜動態(tài)信息表示了語音特征參數(shù)隨時間變化的規(guī)律。語音倒譜特征隨時間的變化規(guī)律可由下式表示:
(5)
4總結
在實際的應用中窗函數(shù)h(k)一般采用矩形窗,k為常數(shù),一般取2,這樣的動態(tài)參數(shù)就是當前幀的前兩幀和后兩幀的線性結合。用同樣的方法對一階動態(tài)參數(shù)進行計算就得到了二階MFCC參數(shù)。在得到倒譜系數(shù)的動態(tài)信息后,一般的做法是將原始特征與動態(tài)特征參數(shù)結合,組成高維特征矢量作為訓練和識別的一幀語音信號特征參數(shù)。實驗表明,使用MFCC及其一階和二階差分參數(shù)作為特征可顯著提高說話人識別系統(tǒng)的性能,它在一定程度上模擬了人耳對語音的處理特點,并具有一定的抗噪性能,進一步地表示了說話人語音背后的隱性個性差異。
參考文獻:
[1]徐波.語音識別技術與應用的發(fā)展趨勢.中國計算機學會,2008,2:54~57.
[2]李霄寒.基于概率統(tǒng)計模型的說話人確認的研究[D].中國科學技術大學,2003.
[3]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004,10~50.
作者簡介:朱宇軒,男,漢族,四川南充,工人,大學本科,西華大學,研究方向:電子、計算機。
中圖分類號:TN912
文獻標志碼:A
文章編號:1671-1602(2016)10-0014-01