劉 冰,滕廣超,林嘉宇
(1.國(guó)防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院,長(zhǎng)沙410073;2.武警湖南省總隊(duì)湘潭市支隊(duì),湘潭411104;3.武警黃金一總隊(duì)通信科,哈爾濱150086)
基于GMM的說話人識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
劉 冰1,2,滕廣超1,3,林嘉宇1
(1.國(guó)防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院,長(zhǎng)沙410073;2.武警湖南省總隊(duì)湘潭市支隊(duì),湘潭411104;3.武警黃金一總隊(duì)通信科,哈爾濱150086)
現(xiàn)代通信中,說話人的身份認(rèn)證技術(shù)一直是通信行業(yè)研究的重點(diǎn)和熱點(diǎn)。而基于GMM和MFCC的說話人識(shí)別技術(shù),是目前為止相對(duì)成熟和常用的方法。對(duì)說話人識(shí)別系統(tǒng)的構(gòu)成做了相關(guān)的研究,并通過MATLAB編程,設(shè)計(jì)了一款以MFCC作為特征參數(shù),基于GMM模型的說話人識(shí)別系統(tǒng)。經(jīng)過實(shí)驗(yàn)測(cè)試,本系統(tǒng)能基本滿足工作及家庭生活環(huán)境下的說話人識(shí)別需要。
說話人識(shí)別;Mel倒譜系數(shù);混合高斯模型
說話人識(shí)別(Speaker Recognition)[1],也稱聲紋識(shí)別(Voiceprint Recognition),是一種利用說話人的語(yǔ)音特征與預(yù)先提取的說話人的語(yǔ)音特征相比較,進(jìn)而確認(rèn)和鑒別說話人身份的技術(shù)。說話人識(shí)別技術(shù)的研究始于二戰(zhàn)時(shí)期美國(guó)的Bell實(shí)驗(yàn)室,經(jīng)過幾十年的研究和發(fā)展,說話人識(shí)別技術(shù)取得了突飛猛進(jìn)的發(fā)展。特別是1995年,Reynolds[2]對(duì)高斯混合模型(Gaussian Mixture Model,GMM)[3-4]進(jìn)行了詳細(xì)介紹和應(yīng)用,其簡(jiǎn)單、實(shí)用、高效的特點(diǎn),使之成為說話人識(shí)別模式匹配過程中的重要技術(shù)。說話人識(shí)別可分為說話人確認(rèn)(Speaker Verification)和說話人鑒別(Speaker Identification)兩類。
說話人識(shí)別系統(tǒng)一般由訓(xùn)練模塊和識(shí)別模塊組成。其原理如圖1所示。
圖1 說話人識(shí)別系統(tǒng)原理框圖
2.1 說話人識(shí)別系統(tǒng)預(yù)處理
說話人識(shí)別系統(tǒng)的預(yù)處理過程一般可分為:采樣與量化、預(yù)加重處理、加窗和端點(diǎn)檢測(cè)。
語(yǔ)音信號(hào)經(jīng)過采樣和量化之后,信號(hào)由模擬轉(zhuǎn)為了數(shù)字信號(hào)。為便于頻譜分析或聲道參數(shù)分析,需要對(duì)信號(hào)進(jìn)行預(yù)加重。預(yù)加重可以用一階數(shù)字濾波器來表示:
其中μ為預(yù)加重系數(shù),取值為0.9375。
根據(jù)語(yǔ)音信號(hào)在10ms到20ms內(nèi)近似不變的假設(shè),可以將語(yǔ)音信號(hào)分成一些短的段進(jìn)行處理,即分幀。分幀后進(jìn)行加窗,采用漢明窗函數(shù)。
端點(diǎn)檢測(cè)(VAD)方面,采用的是短時(shí)能量與短時(shí)過零率相結(jié)合的方法,由此判斷語(yǔ)音信號(hào)的起始點(diǎn)位置。短時(shí)能量可用來區(qū)分清音段和濁音段,有聲段和無聲段。短時(shí)過零率則表示一幀語(yǔ)音中語(yǔ)音信號(hào)波形經(jīng)過零電平的次數(shù)。由于短時(shí)過零率對(duì)噪聲非常敏感,很容易產(chǎn)生虛假過零,故我們對(duì)其進(jìn)行了改進(jìn)。設(shè)立一個(gè)門限T,將過零率的定義改進(jìn)為越過±T的次數(shù)。即
經(jīng)過改進(jìn)后,短時(shí)過零率有了較強(qiáng)的抗干擾能力,同時(shí)在進(jìn)行說話人識(shí)別端點(diǎn)檢測(cè)時(shí),可以設(shè)立多個(gè)門限,進(jìn)一步提高檢測(cè)精度。
2.2 MFCC特征提取
Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)[5-6]是一種基于梅爾尺度的頻域倒譜參數(shù)。MFCC運(yùn)用Mel頻率刻度對(duì)實(shí)際頻率軸進(jìn)行彎折來模擬人耳所聽到的聲音高低和聲音頻率之間的非線性關(guān)系,因而在說話人識(shí)別中得到了極為廣泛的應(yīng)用。系統(tǒng)中MFCC參數(shù)提取的流程是:
(1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,其中語(yǔ)音采集頻率8000Hz、16-bit、Mono,幀長(zhǎng)為20ms,幀移為10ms;
(2)快速傅里葉變換(FFT):使用基2的離散傅里葉變換,將時(shí)域能量轉(zhuǎn)換為頻域能量;
(3)Mel能量:通過40個(gè)Mel濾波器組,得到40維的Mel頻子帶能量;
(4)Mel對(duì)數(shù)能量:對(duì)每個(gè)MEL頻子帶能量取對(duì)數(shù),mel(i)=ln[filt(i)];
(5)離散余弦變換:
其中D=13,mfcc(n)即為原始的mfcc特征;
(6)一階二階差分:在原有13維mfcc特征的后面加入13維的一階和二階差分構(gòu)成39維的特征。可通過一個(gè)長(zhǎng)度為5的窗函數(shù)來求,從而使得這種靜態(tài)特征得到相應(yīng)的動(dòng)態(tài)特征。通過實(shí)驗(yàn)表明,這種39維的動(dòng)態(tài)特征能夠很好的提高系統(tǒng)識(shí)別性能。
2.3 基于GMM混合高斯模型的模式匹配
混合高斯模型對(duì)不同說話人語(yǔ)音的短時(shí)譜特征矢量所具有的概率密度函數(shù)進(jìn)行建模。通過對(duì)這些特征矢量進(jìn)行聚類,并看做是一個(gè)多維的高斯分布函數(shù),然后求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率,作為每個(gè)說話人的模板。最后把觀測(cè)序列代入模板,進(jìn)行模式匹配,找到最大后驗(yàn)概率,即對(duì)應(yīng)識(shí)別的人。
M階GMM概率密度函數(shù)如下:
其中s為語(yǔ)音的特征矢量,M為高斯混合模型中分量的個(gè)數(shù),αj為混合權(quán)值;P(s|λ)表示s屬于λ模型的概率。其中等j個(gè)混合高斯概率密度函數(shù)可表示為P(s):
其中μj為均值向量,Rj為協(xié)方差矩陣。一個(gè)完整的混合高斯模型是由參數(shù)混合權(quán)重、均值向量和協(xié)方差矩陣組成,可表示為:
系統(tǒng)中的模式匹配即所有參考說話人構(gòu)成的一個(gè)集合,識(shí)別判斷目標(biāo)說話人與集合中的哪一個(gè)說話人相匹配。其目的就是找到目標(biāo)說話人與集合中模型的最大輸出匹配概率,使得待識(shí)別語(yǔ)音特征矢量組X具有最大后驗(yàn)概率P(λi|X)。
由Bayes理論,最大后驗(yàn)概率可表示為
3.1 系統(tǒng)設(shè)置與數(shù)據(jù)庫(kù)
實(shí)驗(yàn)主要是在PC機(jī)平臺(tái)上,采用MATLAB 7.0編程語(yǔ)音完成的。系統(tǒng)以有源型麥克風(fēng)作為錄制語(yǔ)音的輸入工具,運(yùn)用CoolEdit ProV2.1對(duì)錄入后的語(yǔ)音進(jìn)行處理。
實(shí)驗(yàn)數(shù)據(jù)來自實(shí)驗(yàn)室環(huán)境下的采集。語(yǔ)音庫(kù)中包含了30個(gè)說話人(15男,15女),年齡范圍在10歲至40歲之間,共進(jìn)行300次說話人識(shí)別測(cè)試。實(shí)驗(yàn)所用的主要參數(shù)如表1所示。
表1 實(shí)驗(yàn)主要參數(shù)列表
3.2 系統(tǒng)功能設(shè)計(jì)
該說話人識(shí)別系統(tǒng)具有以下功能:
(1)能較準(zhǔn)確的識(shí)別待驗(yàn)證人是否為合法用戶;
(2)可實(shí)現(xiàn)語(yǔ)音波形的顯示;
(3)可訓(xùn)練說話人語(yǔ)音,增加訓(xùn)練樣本庫(kù);
(4)可較準(zhǔn)確的識(shí)別待驗(yàn)證人的身份信息。
3.3 系統(tǒng)基本結(jié)構(gòu)
說話人識(shí)別系統(tǒng)主要分為兩個(gè)部分:訓(xùn)練過程和識(shí)別過程。
在訓(xùn)練階段,首先讀取訓(xùn)練對(duì)象的若干語(yǔ)音文件作為訓(xùn)練語(yǔ)句,然后對(duì)這些訓(xùn)練語(yǔ)句進(jìn)行端點(diǎn)檢測(cè)、預(yù)加重、MFCC特征參數(shù)提取,最后為訓(xùn)練對(duì)象建立各自的語(yǔ)音特征參數(shù)模型。
在識(shí)別階段,首先將事先錄制的語(yǔ)音文件作為測(cè)試語(yǔ)句在系統(tǒng)中讀取,然后系統(tǒng)對(duì)這些測(cè)試語(yǔ)句的特征參數(shù)進(jìn)行提取,然后將這些參數(shù)與系統(tǒng)內(nèi)部建立的各個(gè)語(yǔ)音模型進(jìn)行特征參數(shù)相似度計(jì)算,最終得到識(shí)別結(jié)果。
3.4 系統(tǒng)性能評(píng)估
一個(gè)說話人識(shí)別系統(tǒng)的好壞主要由正確識(shí)別率、訓(xùn)練時(shí)間長(zhǎng)短、識(shí)別時(shí)間長(zhǎng)短、語(yǔ)音環(huán)境變化等元素進(jìn)行反映。一般來說,一個(gè)好的說話人識(shí)別系統(tǒng),應(yīng)該具備較高的正確識(shí)別率,較短的訓(xùn)練時(shí)間,較短的識(shí)別時(shí)間,能適應(yīng)多種語(yǔ)音環(huán)境等特點(diǎn)。
為了測(cè)試系統(tǒng)性能,系統(tǒng)使用了39維差分MFCC特征參數(shù)進(jìn)行了小數(shù)據(jù)庫(kù)文本的說話人識(shí)別實(shí)驗(yàn),參與實(shí)驗(yàn)的共有30人(15男,15女)。在錄入訓(xùn)練樣本時(shí),每人錄入4句文字和2句數(shù)字,共錄兩次,累積時(shí)長(zhǎng)為1分鐘,建模時(shí)間約為30s。測(cè)試時(shí),每人再錄入1句文字和1句數(shù)字,共錄兩次,累積時(shí)長(zhǎng)為20s。在測(cè)試過程中,將每人的測(cè)試語(yǔ)音分別截取成1s、2s、4s、8s、10s的語(yǔ)音段,用來測(cè)試不同時(shí)長(zhǎng)的測(cè)試語(yǔ)音對(duì)于系統(tǒng)正確識(shí)別率的影響。實(shí)驗(yàn)結(jié)果如表2所示。
表2 在不同測(cè)試時(shí)間長(zhǎng)度下識(shí)別準(zhǔn)確率和識(shí)別時(shí)間
通過測(cè)試可知,在訓(xùn)練樣本時(shí)間相對(duì)一致的情況下,測(cè)試樣本時(shí)間越長(zhǎng),識(shí)別的準(zhǔn)確度越高,完成識(shí)別所用時(shí)間越長(zhǎng);其參數(shù)提取采用39維差分MFCC方法能有效提高說話人識(shí)別系統(tǒng)性能。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的說話人識(shí)別系統(tǒng)具有較高的識(shí)別率和較短的識(shí)別時(shí)間,能基本滿足辦公室、家居環(huán)境下較少用戶的說話人識(shí)別需要。
[1]吳朝暉,楊瑩春.說話人識(shí)別模型與方法[M].北京:清華大學(xué)出版社,2009.
[2]D A Reynolds,Thomas F.Quatier and Robert B.Dram.Speaker verification using adapted Gaussian Mixture Models[J].Digital Singal Processing 10,Academic Press.2000:19-24.
[3]蔣偉,范明鈺.基于高斯混合模型的說話人識(shí)別研究[D].成都.電子科技大學(xué),2005.
[4]D A Reynolds,Campbell W,Gleason T T.The 2004 MIT Lincoln laboratory speaker recognition system[A].In Processdings of ICASSP[C],Philadel Phia,USA,2008.
[5]何朝霞,潘平.說話人識(shí)別中改進(jìn)的MFCC參數(shù)提取方法[J].科學(xué)技術(shù)與工程,2011,11(18):4215-4218.
[6]王剛,鄧方.電話信道下應(yīng)用DMFCC進(jìn)行說話人識(shí)別[J].清華大學(xué)學(xué)報(bào),2009,49(10):1597-1600.
Design and Im plementation of Speaker Identification System Based on GMM
LIU Bing1,2,TENG Guang-chao1,3,LIN Jia-yu1
(1.Shool of Electronic Science and Engineering,National Defense Technology University,Changsha 410073,China;2.Xiangtan City Team,The Armed Police Corps of Hunan,Xiangtan 411104,China;3.Communications Department,Gold Corp I,The Armed Police,Harbin 150086,China)
In modern communication,the technology of the speaker's ID authentication is the focus of research and hotspots in communications industry.At present,the speaker identification technology,based on GMM and MFCC,is usable and poplar.In this paper,the composition of speaker identification system is researched and a system which uses Mel frequency cepstral coefficients(MFCC)as feature parameter and GMM for speakermodel is designed by Matlab.The test results show that the system can generallymeet the requirements of identification for work and life.
Speaker Recognition;MFCC;GMM
10.3969/j.issn.1002-2279.2014.03.018
TP391.4
:A
:1002-2279(2014)03-0063-03
劉冰(1985-),男,湖南省湘鄉(xiāng)市人,工程碩士,主研方向:語(yǔ)音信號(hào)處理,說話人識(shí)別。
2013-10-30