陳業(yè)仙,張歆奕,毛杰
?
基于GMM-UBM的語(yǔ)言辨識(shí)算法研究
陳業(yè)仙,張歆奕,毛杰
(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)
運(yùn)用Matlab軟件,以自已建立的語(yǔ)音數(shù)據(jù)庫(kù)為基礎(chǔ),對(duì)與文本無(wú)關(guān)的基于GMM-UBM的語(yǔ)言辨識(shí)系統(tǒng)進(jìn)行了測(cè)試,獲得的平均識(shí)別率達(dá)74%,與傳統(tǒng)GMM算法的測(cè)試對(duì)比,基于GMM-UBM的語(yǔ)言辨識(shí)算法能更好地改善語(yǔ)言辨識(shí)系統(tǒng)的性能.
語(yǔ)言辨識(shí);高斯混合-全局背景模型;期望最大化;貝葉斯自適應(yīng)算法
隨著信息時(shí)代的快速發(fā)展,全球合作日趨頻繁,語(yǔ)言辨識(shí)技術(shù)越來(lái)越受到人們的關(guān)注. 語(yǔ)言辨識(shí)是計(jì)算機(jī)分析處理一個(gè)語(yǔ)音片斷并判別其所屬語(yǔ)言種類的過(guò)程[1],主要用在信息檢索和機(jī)器翻譯等領(lǐng)域,作為自動(dòng)翻譯、自動(dòng)轉(zhuǎn)換、多語(yǔ)種通信系統(tǒng)等的前端處理技術(shù)[2]. 本文提出了基于GMM-UBM的語(yǔ)言辨識(shí)算法,以期改善語(yǔ)言辨識(shí)系統(tǒng)的性能,獲得更好的識(shí)別率和系統(tǒng)移植性.
完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,即
本文用EM算法進(jìn)行50次迭代實(shí)驗(yàn)得到GMM,實(shí)驗(yàn)結(jié)果如圖1所示. 由圖1可知:得到的似然函數(shù)是單調(diào)遞增的,且最后收斂.
圖1 EM算法訓(xùn)練GMM得到的似然函數(shù)曲線
在語(yǔ)言辨識(shí)系統(tǒng)中,高斯混合-全局背景模型(GMM-UBM)是一個(gè)與語(yǔ)言無(wú)關(guān)的背景模型,它利用除目標(biāo)語(yǔ)言外的所有訓(xùn)練數(shù)據(jù)獲得一個(gè)語(yǔ)言UBM,基于GMM-UBM的語(yǔ)言辨識(shí)系統(tǒng)框圖見圖2[3].
圖2 基于GMM-UBM的語(yǔ)言辨識(shí)系統(tǒng)框圖
以網(wǎng)絡(luò)下載、光盤、磁帶及真實(shí)環(huán)境下錄制的數(shù)據(jù)自建語(yǔ)音數(shù)據(jù)庫(kù)并作為本文采用的實(shí)驗(yàn)數(shù)據(jù).信號(hào)以8 kHz進(jìn)行采樣,16 bit量化. 語(yǔ)音經(jīng)預(yù)加重后通過(guò)加窗得到語(yǔ)音幀,加窗選用256點(diǎn)(32 ms)的漢明窗,幀移為l6 ms并去除靜音幀和低能量幀,特征參數(shù)是提取12階的LPCC倒譜系數(shù). 訓(xùn)練階段,用所有語(yǔ)種數(shù)據(jù)訓(xùn)練得到UBM后,通過(guò)貝葉斯自適應(yīng)算法快速獲得每種語(yǔ)言的GMM;識(shí)別階段,計(jì)算每段輸入語(yǔ)音的對(duì)數(shù)概率分?jǐn)?shù),最終判別語(yǔ)言的種類.
訓(xùn)練時(shí),選取10位固定說(shuō)話人,用中文和英文2種語(yǔ)言,建立中文GMM模型. 測(cè)試時(shí)進(jìn)行開集、閉集實(shí)驗(yàn),閉集實(shí)驗(yàn)數(shù)據(jù)是來(lái)自相同說(shuō)話人的訓(xùn)練與測(cè)試語(yǔ)音數(shù)據(jù),開集實(shí)驗(yàn)數(shù)據(jù)是來(lái)自不同說(shuō)話人的訓(xùn)練與測(cè)試語(yǔ)音數(shù)據(jù),中文為目標(biāo)語(yǔ)言,英文為闖入者語(yǔ)言,實(shí)驗(yàn)內(nèi)容如下:
表1 2種模型10人雙語(yǔ)開集、閉集實(shí)驗(yàn)結(jié)果對(duì)照
通過(guò)上述實(shí)驗(yàn)得知:GMM-UBM的性能在語(yǔ)言辨識(shí)中比GMM性能更好. 在此基礎(chǔ)上,本文進(jìn)行了更大規(guī)模的開集實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3、圖4所示.
圖3 中文GMM似然曲線圖
圖4 中文GMM-UBM似然曲線圖
表2 3種語(yǔ)言的開集實(shí)驗(yàn)結(jié)果對(duì)照 %
由上述實(shí)驗(yàn)可知:用于訓(xùn)練的原始數(shù)據(jù)量越充分,系統(tǒng)的性能越好;GMM-UBM充分利用了GMM的優(yōu)點(diǎn),反映了所有待識(shí)別語(yǔ)種的特征分布,涵蓋了更多語(yǔ)言的發(fā)音情況,且利用貝葉斯自適應(yīng)算法能快速地分離出各種語(yǔ)言的GMM參數(shù),得到每種語(yǔ)種的模型. 與傳統(tǒng)的GMM方法相比,UBM方法的訓(xùn)練和識(shí)別速度更快,識(shí)別率明顯高于GMM.
本文將GMM-UBM用于語(yǔ)言辨識(shí)系統(tǒng),獲得了平均正確率74%的識(shí)別效果,這說(shuō)明GMM-UBM模型是語(yǔ)言辨識(shí)的一種有效方法.
[1] 趙力. 語(yǔ)音信號(hào)處理[M]. 北京:機(jī)械工業(yè)出版社,2003.
[2] 屈丹,王炳錫,魏鑫. 基于GMM-UBM模型的語(yǔ)言辨識(shí)研究[J]. 信息處理,2003, 19(1): 85-88.
[3] 姜洪臣,鄭榕,張樹武,等. 基于SDC特征GMM-UBM模型的自動(dòng)語(yǔ)種識(shí)別[J]. 中文信息學(xué)報(bào),2007, 21(1): 49-53.
[4] 王炳錫,屈丹,彭煊. 實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M]. 北京:國(guó)防工業(yè)出版社,2005.
[責(zé)任編輯:孫建平]
A Study of a Language Identification Algorithm Based on the GMM-UBM Model
CHENYe-xian,ZHANGXin-yi,MAOJie
Language identification technology is a very important part of the speech recognition technology. In this paper, based on the practical application and a self-established voice database, a language identification system based on the GMM-UBM model and independent of the speaker is studied and compared with the traditional GMM methods. Experiment results show that this algorithm can effectively improve the performance of the language identification system and achieve an average recognition rate of 74%.
language identification; GMM-UBM; EM; Bayesian adaptive algorithm
1006-7302(2010)03-0005-56
TP391.4
A
2009-05-20
陳業(yè)仙(1970—),女,廣東陽(yáng)江人,實(shí)驗(yàn)師,碩士,研究方向:語(yǔ)音信號(hào)處理,E-mail: chenyexian@126.com.