朱曉晶,侯旭初,崔慧娟,唐昆
(清華大學(xué)電子工程系清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,北京100084)
基于LPCC和能量熵的端點(diǎn)檢測(cè)?
朱曉晶,侯旭初,崔慧娟,唐昆
(清華大學(xué)電子工程系清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,北京100084)
為提高語(yǔ)音端點(diǎn)檢測(cè)系統(tǒng)在低信噪比下檢測(cè)的準(zhǔn)確性,提出了一種基于倒譜特征和譜熵的端點(diǎn)檢測(cè)算法。首先,根據(jù)分析得到待測(cè)語(yǔ)音幀的倒譜特征量,然后計(jì)算該特征量分別在通過(guò)訓(xùn)練得到的語(yǔ)音和噪聲的高斯混合模型下的似然概率,通過(guò)兩者概率的比較作出有聲無(wú)聲初判決;聯(lián)合能量熵端點(diǎn)檢測(cè)結(jié)果得到最終判決,最后通過(guò)Hangover機(jī)制最大限度的保護(hù)了語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,此方法改善了能量熵端點(diǎn)檢測(cè)法在babble噪聲下的劣勢(shì),且在不同噪聲環(huán)境下均優(yōu)于G.729 Annex B的性能。
語(yǔ)音信號(hào)處理;話音端點(diǎn)檢測(cè);譜熵;線性預(yù)測(cè)系數(shù);倒譜系數(shù);高斯混合模型
端點(diǎn)檢測(cè)算法的研究在語(yǔ)音信號(hào)處理領(lǐng)域中一直有著重要的意義。作為語(yǔ)音信號(hào)預(yù)處理技術(shù)的一部分,語(yǔ)音端點(diǎn)檢測(cè)被廣泛應(yīng)用在語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別、語(yǔ)音編碼等系統(tǒng)中。傳統(tǒng)的門(mén)限比較法由于門(mén)限邊界的更新規(guī)則難以確定,對(duì)噪聲變化性能不好,從而導(dǎo)致判別準(zhǔn)確率的降低。許多新的特征被提出,如基于多特征聯(lián)合的方法[1]、基于頻域能量的特征[2]、基于差分能量和差分過(guò)零率的特征[3]、基于高階統(tǒng)計(jì)量的特征[4]等,然而以上特征在噪聲很強(qiáng)的環(huán)境中,尤其在群口噪聲背景下運(yùn)用效果都不夠理想。已有的能量譜熵法以能量彌補(bǔ)熵在babble下的不足,性能稍有改善。考慮到模型匹配方法[5]對(duì)時(shí)變?cè)肼暰哂休^好的適應(yīng)能力,而且倒譜特征能很好地表征聲道特性,本文提出了一種倒譜特征和能量熵的端點(diǎn)聯(lián)合檢測(cè)算法。大量的實(shí)驗(yàn)結(jié)果表明,在不同噪聲環(huán)境和信噪比下,算法的性能均優(yōu)于G. 7299 Annex B的性能,尤其群口噪聲背景下性能改善顯著。
2.1 LPCC參數(shù)的提?。?]
在提取特征參數(shù)之前,所采集的信號(hào)經(jīng)過(guò)預(yù)處理(一般包括預(yù)加重、加窗、分幀)之后,通過(guò)線性預(yù)測(cè)(Linear Prediction Coefficient,LPC)分析得到聲道模型的系統(tǒng)函數(shù)為
式中,p是LPC分析的階數(shù),ak為線性預(yù)測(cè)系數(shù)(k=1,2,3,…,p),A(z)稱為逆濾波器,其沖激響應(yīng)為h(n)。由式(1)可知,LPC的分析就是求解p階線性預(yù)測(cè)系數(shù)ak(本文通過(guò)自相關(guān)Durbin法求解)。根據(jù)倒譜的定義,對(duì)式(1)兩邊取對(duì)數(shù)后兩邊關(guān)于z求導(dǎo),有:
令式(2)左右的常數(shù)項(xiàng)和z-1各次冪的系數(shù)分別相等,得到^h(n)和ak之間的遞推關(guān)系為
按式(3)直接從預(yù)測(cè)系數(shù)求得倒譜^h(n),令C(n)=^h(n),便得到倒譜特征的統(tǒng)一表示式。
2.2 能量熵特征計(jì)算[7]
語(yǔ)音抽樣頻率為8 kHz,幀長(zhǎng)為25 ms,進(jìn)行256點(diǎn)的FFT變換。將每幀信號(hào)分為13個(gè)子帶,選取頻譜分布在250~3 500 Hz并且能量不超過(guò)該幀總能量90%的子帶,計(jì)算經(jīng)過(guò)語(yǔ)音增強(qiáng)后的子帶能量以及各子帶信噪比,根據(jù)各子帶信噪比的不同調(diào)整其在整個(gè)譜熵計(jì)算過(guò)程中的權(quán)重,然后平滑譜熵,以最終的譜熵作為端點(diǎn)檢測(cè)的依據(jù)。
每一個(gè)頻帶的能量為
式中,Gk加權(quán)因子,Rk是對(duì)應(yīng)子帶的相應(yīng)的Fourier變換第k個(gè)幅度值。
相應(yīng)的概率密度函數(shù)為
為了消除一些集中在特殊頻率的噪聲,可以限定Pi<0.9,即采用下述約束關(guān)系:
第i幀的熵可以定義為
2.3 高斯混合模型的原理
用高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行檢測(cè)的原理[8]是對(duì)語(yǔ)音和噪聲分別建立一個(gè)概率模型,該模型中的參數(shù)是由語(yǔ)音和噪聲的特征參數(shù)分布決定的。我們采用EM算法來(lái)對(duì)模型中的參數(shù)進(jìn)行估計(jì),這樣得到了GMM模型。
特征矢量x對(duì)不同狀態(tài)的高斯概率密度函數(shù)可以寫(xiě)為
式中,μi是狀態(tài)平均矢量,Σi是狀態(tài)協(xié)方差矩陣,D是特征矢量的維數(shù)。平均矢量μi是特征矢量x的元素的期望值,而協(xié)方差矩陣Σi代表著特征矢量元素的互相關(guān)(非對(duì)角線項(xiàng))和方差(對(duì)角線項(xiàng))。模型的參數(shù)集合λ就包括了權(quán)重、均值和協(xié)方差,即:
對(duì)于某個(gè)特定的模型(用λ表示)而言,特征矢量在所有M(M為高斯混合模型中分量的個(gè)數(shù))個(gè)狀態(tài)中出現(xiàn)的總概率是由M個(gè)多維高斯分布加權(quán)疊加得到的,即:
2.4 GMM的參數(shù)估計(jì)——EM算法
EM(Expectation-Maximization)算法最初對(duì)模型參數(shù)初始化,然后利用最大似然估計(jì)原則,在迭代中改善模型的參數(shù)估計(jì)。在每次迭代中增加模型估計(jì)λ與觀測(cè)特征矢量的匹配概率[9],最大似然地計(jì)算模型參數(shù),并不斷重復(fù)直到局部最大,即每次迭代時(shí),有p(x|λk+1)>p(x|λk),其中k是迭代的次數(shù)??梢宰C明,每一次迭代都增大或不改變似然度(當(dāng)?shù)玫骄植孔钪禃r(shí),似然度值將不會(huì)改變)。
EM算法在迭代中改善模型的參數(shù)估計(jì),通過(guò)不斷的迭代改進(jìn),從而能最好地匹配觀測(cè)數(shù)據(jù)。假設(shè)訓(xùn)練特征矢量序列為X={x1,x2,x3,…,xT},最大期望下所得到的GMM重估公式為[9]
實(shí)現(xiàn)中,認(rèn)為模型中每類矢量各維相互獨(dú)立且服從正態(tài)分布,從而將原始協(xié)方差矩陣簡(jiǎn)化為對(duì)角矩陣,使運(yùn)算得到簡(jiǎn)化。
GMM進(jìn)行識(shí)別訓(xùn)練時(shí),必須確定GMM模型的高斯混合分量個(gè)數(shù),考慮到計(jì)算量和復(fù)雜度,算法中高斯混合分量個(gè)數(shù)設(shè)為6,且使用LBG法[10]進(jìn)行參數(shù)初始化。
2.5 兩種特征端點(diǎn)檢測(cè)分析
能量熵特征是目前用來(lái)進(jìn)行端點(diǎn)檢測(cè)的單特征中最為普遍也是最好的,但是為了能夠較快地跟蹤背景噪聲的變化,門(mén)限需要不斷更新。在傳統(tǒng)的端點(diǎn)檢測(cè)算法中,只在噪聲幀進(jìn)行更新,如果噪聲能量突然升高或者降低,則這種方法的檢測(cè)結(jié)果會(huì)一直錯(cuò)下去;基于倒譜特征的模型匹配法為了解決訓(xùn)練環(huán)境和測(cè)試環(huán)境的不匹配,會(huì)動(dòng)態(tài)調(diào)整模型的參數(shù),即使在噪聲發(fā)生劇烈變化時(shí),仍能很快地適應(yīng),從而可以在一定程度上減少這種錯(cuò)誤。并且,由于bab
ble的譜熵和語(yǔ)音的譜熵近似,能量譜熵法以能量彌補(bǔ)熵在babble下的不足,性能仍然不夠理想;而倒譜特征取合適的階數(shù)(8~12)后可較好地表征聲道特性,是話音識(shí)別最有效的一個(gè)特征[6],用來(lái)進(jìn)行端點(diǎn)
檢測(cè)時(shí)能有效地將目標(biāo)人聲從一堆人聲中鑒別出來(lái)。但是用LPCC作為分類特征,用來(lái)進(jìn)行端點(diǎn)檢測(cè)時(shí)會(huì)因?yàn)樾盘?hào)幀與噪聲幀的信息特征相交區(qū)域較大,誤剪率會(huì)較大。兩者在單獨(dú)運(yùn)用時(shí),各有其不足,聯(lián)合運(yùn)用時(shí),可以優(yōu)勢(shì)互補(bǔ)。
2.6 算法流程描述
如圖1所示,算法實(shí)現(xiàn)的流程為:
(1)用GMM模型對(duì)語(yǔ)音和背景噪聲分別建立統(tǒng)計(jì)模型;
(2)根據(jù)分析得到待測(cè)語(yǔ)音幀的LPCC特征量,然后計(jì)算該特征量分別在通過(guò)訓(xùn)練得到的語(yǔ)音和噪聲的高斯混合模型(GMM)下的似然概率,通過(guò)比較做出有聲無(wú)聲初判決;
假設(shè)基于LPCC特征矢量x,其為語(yǔ)音和噪聲的后驗(yàn)概率分別為P(s|x)和P(n|x)。初判決的規(guī)則是,如果P(s|x)>P(n|x),判為語(yǔ)音,VAD=1;反之,為噪聲,VAD=0。
由貝葉斯準(zhǔn)則得到:
式中,P(s)和P(n)為語(yǔ)音和噪聲的先驗(yàn)概率,預(yù)先設(shè)定為2/3和1/3(為了最大限度保護(hù)語(yǔ)音)。P(s|x)和P(n|x)的計(jì)算就轉(zhuǎn)換成p(x|s)和p(x|n),即似然概率的計(jì)算;
(3)聯(lián)合能量熵端點(diǎn)檢測(cè)結(jié)果得到最終端點(diǎn)判決。其中為了盡可能最大限度地保護(hù)語(yǔ)音,采用Hangover機(jī)制以防止語(yǔ)音末尾部分因?yàn)槟芰科蛯?dǎo)致的誤判(切音)。
實(shí)驗(yàn)語(yǔ)料:將標(biāo)準(zhǔn)語(yǔ)音庫(kù)的語(yǔ)音材料與NOISEX-92噪聲庫(kù)的噪聲采樣材料(WHITE、PINK、babble噪聲、f16噪聲、m109噪聲)根據(jù)SNR合成作為測(cè)試材料,信噪比從-5~15 dB,語(yǔ)音8 kHz采樣、16 bit量化。
測(cè)試方法:將VAD函數(shù)判決結(jié)果以文件形式輸出,觀察輸出語(yǔ)音何時(shí)是語(yǔ)音幀何時(shí)是非語(yǔ)音幀,并與源文件進(jìn)行比較,將錯(cuò)誤判決的幀數(shù)計(jì)算出來(lái)。其中,錯(cuò)誤幀數(shù)=語(yǔ)音錯(cuò)判為噪聲的幀數(shù)+噪聲錯(cuò)判為語(yǔ)音的幀數(shù),準(zhǔn)確率=((總幀數(shù)-錯(cuò)誤幀數(shù))/總幀數(shù))×100%
3.1 不同噪聲不同信噪比下測(cè)試結(jié)果
在4種不同的噪聲環(huán)境(白噪聲、粉色噪聲、群口噪聲、戰(zhàn)斗機(jī)噪聲),在-5~15 dB的信噪比范圍內(nèi),對(duì)本文所提出的算法進(jìn)行了驗(yàn)證,算法的性能如圖2所示。
3.2 不同噪聲背景下與G.729 Annex B性能比較
從圖3可以看到,在4種噪聲背景下,不同的信噪比下,算法均顯現(xiàn)了比G.729算法優(yōu)越的性能。
3.3 不同噪聲背景下與能量譜熵法性能比較
從圖4可以看出,在white噪聲、f16噪聲和m109噪聲下,算法與能量譜熵法性能相近。在babble噪聲下,與G.729和能量譜熵法比較,算法性能最優(yōu)。
群口噪聲為眾人說(shuō)話噪聲,端點(diǎn)檢測(cè)時(shí)要從一堆人聲中檢測(cè)出特定人聲,一直都是難點(diǎn)。從G.729的性能曲線看出,隨著信噪比的降低,效果不佳;由于babble的譜熵和語(yǔ)音的譜熵近似,能量譜熵法以能量彌補(bǔ)熵在babble下的不足,性能稍好;本算法采用的倒譜特征是話音識(shí)別最有效的一個(gè)特征,表現(xiàn)出了比能量譜熵法更為優(yōu)越的性能。
本文提出了一種基于LPCC和能量熵的端點(diǎn)聯(lián)合檢測(cè)算法,通過(guò)利用GMM性能好、復(fù)雜度小且方法簡(jiǎn)單的特點(diǎn)以及LPCC能夠很好地表征聲道特征且運(yùn)算量不的優(yōu)點(diǎn),可以更好地將語(yǔ)音和噪聲識(shí)別開(kāi)來(lái)。實(shí)驗(yàn)結(jié)果表明,該算法性能優(yōu)越,且有效改善了已有的能量熵法在babble噪聲下的劣勢(shì),能夠?qū)崟r(shí)應(yīng)用。但其在實(shí)現(xiàn)前需要積累很多先驗(yàn)知識(shí),當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí),它可能不能充分反映語(yǔ)音或噪聲的特性,這是今后需要進(jìn)一步研究的問(wèn)題。
[1]徐大為,吳邊,趙建偉,等.一種噪聲環(huán)境下的實(shí)時(shí)語(yǔ)音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2003,24(1):115-117.
XU Da-wei,WU Bian,ZHAO Jian-wei,et al.A real time algorithm for voice activity detection in noisy environment[J].Computer Engineering and Application,2003,24(1):115-117.(in Chinese)
[2]Junqua J C,Mak B,Reaves B.A robust algorithm for word boundary detection in the presence of noise[J].IEEE Transactions on Speech and Audio Processing,1994,2(3):406-412.
[3]Beritelli F,Casale S,Ruggeri G,et al.Performances evaluation and comparision of G.729/AMR/fuzzy voice activity detectors[J].IEEE Signal Processing Letters,2002,9(3):85-88.
[4]Pencak J,Neloson D.The NP speech activity detection algorithm[C]//Proceedings of 1995 International Conference on Acoustics,Speech and Signal Processing.Detroit,MI,USA:[s.n.],1995:381-384.
[5]Reynolds D,Rose R.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.
[6]韓紀(jì)慶,張磊,鄭軼然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004:109-110.
HAN Ji-qing,ZHANG Lei,ZHENG Yi-ran.Speech Signal Processing[M].Beijing:Tsinghua University Publishing House,2004:109-110(in Chinese)
[7]李曄,張仁智,崔慧娟,等.低信噪比下基于譜熵的語(yǔ)音端點(diǎn)檢測(cè)算法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,45(10):1397-1400.
LI Ye,ZHANG Ren-zhi,CUI Hui-juan,et al.Voice activity detection algorithm with low signal-to-noise ratios based on the spectrum entropy[J].Tsinghua University(Sci&Teacj),2005,45(10):1397-1400.(in Chinese)
[8]Reynolds D A,Quatieri T F,Dunn R B.Speaker Verification Using Adapted Gaussian Mixture Models[J].Digital Signal Processing,2000,10(1):19-41.
[9]Dempster A D,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society,1977,39(2):1-37.
[10]Gish H,Schmid M.Text-Independent Speaker Identification[J].IEEE Signal Processing Magazine,1994,11(4):18-32.
ZHU Xiao-jing was born in Jiangsu Province,in 1979.She is now a graduate student.Her research interests include speech processing and speech encryption.
Email:qingtengdhx@126.com
侯旭初(1985-),女,河北人,清華大學(xué)電子工程系研究生,主要研究方向?yàn)檎Z(yǔ)音信號(hào)處理;
HOU Xu-chu was born in Hebei Province,in 1985.She is now a graduate student.Her research direction is speech signal processing.
崔慧娟(1945-),女,遼寧人,清華大學(xué)電子工程系教授,主要研究方向?yàn)樾旁淳幋a、語(yǔ)音編碼、多媒體通信系統(tǒng)等;
CUI Hui-juan was born in Liaoning Province,in 1945.She is now a professor.Her research interests include signal source coding,speech coding and multimedia communication system.
唐昆(1945-),男,江蘇人,清華大學(xué)電子工程系教授,主要研究方向?yàn)閿?shù)字通信、語(yǔ)音編碼、自適應(yīng)信號(hào)處理等領(lǐng)域。
TANG Kun was born in Jiangsu Province,in 1945.He is now a professor.His research interests include communication,speech coding and adaptive signal processing.
Voice Activity Detection Based on LPCC and Spectrum Entropy
ZHU Xiao-jing,HOU Xu-chu,CUI Hui-juan,TANG Kun
(National Laboratory of Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)
In order to improve the accuracy of Voice Activity Detection(VAD)in low SNR noisy environments,an algorithm based on Linear Predictive Cepstral Coefficient(LPCC)and energy entropy is proposed.First,the LPCC extracted from the input speech is imported into speech model and noise model,both of which are Gaussian Mixture Model(GMM)separately,to calculate the likelihood ratio of speech to noise.The first-stage VAD decision is made based on the likelihood ratio.Then the spectrum entropy is applied to the second decisionmaking stage.Finally,a mechanism called Hangover is used to better protect the speech.Experiment results show that the new algorithm can compensate the drawbacks of spectrum entropy method in babble noisy environment.Furthermore,it outperforms the G.729 Annex B under various noisy environments.
speech signal processing;voice activity detection(VAD);spectrum entropy;linear prediction coefficient(LPC);linear predictive cepstral coefficient(LPCC);Gaussian mixture model(GMM)
The National Natural Science Foundation of China(No.60572081)
TN912.3
A
10.3969/j.issn.1001-893x.2010.06.009
朱曉晶(1979-),女,江蘇人,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音處理、語(yǔ)音加密;
1001-893X(2010)06-0041-05
2010-03-04;
2010-04-23
國(guó)家自然科學(xué)基金資助項(xiàng)目(60572081)