王金芳,虢 明
(吉林大學(xué)通信工程學(xué)院,長(zhǎng)春130012)
語(yǔ)音活動(dòng)檢測(cè)(Voice active detection,VAD)是檢測(cè)語(yǔ)音中有/無聲的技術(shù)。早期VAD利用啟發(fā)式模型,例如短時(shí)能量[1]、短時(shí)過零率[2]、高階統(tǒng)計(jì)分析[3]等對(duì)語(yǔ)音和非語(yǔ)音實(shí)施判別。近期的系統(tǒng)采用特征-模型的方法,包括兩個(gè)關(guān)鍵部分:特征提取和模型建立。由于上述方法的特征容易受到噪聲的影響,在高噪聲條件下,其檢測(cè)性能難以得到保障,如何提取強(qiáng)魯棒性的特征成為這種方法的關(guān)鍵。在聽覺感知方面,Alsteris等[4]證實(shí),短時(shí)相位譜起著重要作用。群時(shí)延函數(shù)(Group delay function,GDF)是相位譜對(duì)頻率的微分,作為特征,已展示出對(duì)語(yǔ)音一定的表征效力[5-7]。經(jīng)由Murthy等[8]分析和證明,群時(shí)延函數(shù)具有優(yōu)良的噪聲魯棒性能。時(shí)域信號(hào)的卷積,在頻域表現(xiàn)為信號(hào)相乘,相位則為相加,因此,諧振的存在導(dǎo)致群時(shí)延函數(shù)本身具有明顯的尖峰效應(yīng),妨礙進(jìn)一步處理。一種改進(jìn)方法是將幅度譜進(jìn)行倒譜平滑[7],并引入兩個(gè)參數(shù)降低其動(dòng)態(tài)變化范圍,得到改進(jìn)群時(shí)延函數(shù)(Modified group delay function,MODGDF)[5]。為滿足對(duì)共振峰的有效估計(jì),改進(jìn)的群時(shí)延函數(shù)摒棄了語(yǔ)音信號(hào)中的激勵(lì)成份,只保留聲道響應(yīng)部分,造成MODGDF對(duì)原聲學(xué)空間表征能力下降。本文提出指數(shù)函數(shù)規(guī)整群時(shí)延函數(shù)(Exponent function warping group delay function,EGDF),在降低群時(shí)延譜動(dòng)態(tài)變化范圍、抑制尖峰效應(yīng)的同時(shí),減少特征提取過程的信息丟失?;贕MM的VAD實(shí)驗(yàn)表明,在噪聲魯棒性和檢測(cè)精度方面,本文方法優(yōu)于改進(jìn)的群時(shí)延函數(shù)。
設(shè)語(yǔ)音信號(hào)序列x(n)的傅里葉變換表示為x(ejω),其相位為θ(ejω),則極坐標(biāo)形式的傅里葉變換為
定義群時(shí)延函數(shù)
式中:下標(biāo)R和I分別表示實(shí)部和虛部;Y(ejω)是信號(hào)的傅里葉變換。信號(hào)y(n)=nx(n)的傅里葉變換的連續(xù)性使得未卷繞(Unwrapped)的相位函數(shù)具備連續(xù)性。由于實(shí)際計(jì)算中,相位被卷繞到(-π,π]區(qū)間內(nèi),如果直接對(duì)相位取導(dǎo)數(shù)會(huì)因卷繞造成群時(shí)延函數(shù)不具備連續(xù)性,因此選擇式(2)作為群時(shí)延函數(shù)常用表達(dá)式。根據(jù)語(yǔ)音信號(hào)產(chǎn)生的源濾波器模型,假設(shè)聲道沖激響應(yīng)由若干諧振器和反諧振器級(jí)聯(lián)而成,表現(xiàn)形式即是傅里葉變換幅度的相乘,其傅里葉變換相位譜轉(zhuǎn)化為若干諧振器和反諧振器非卷繞相位譜的疊加。經(jīng)對(duì)式(1)取對(duì)數(shù)操作,原傅里葉變換域各模塊乘積形式轉(zhuǎn)化為群時(shí)延域加性形式。諧振時(shí),群時(shí)延數(shù)值急劇增大,出現(xiàn)局部峰值,而根據(jù)式(2),此時(shí)的信號(hào)幅度接近零,即信號(hào)z變換零點(diǎn)接近單位圓,形成群時(shí)延函數(shù)的尖峰效應(yīng),零點(diǎn)越接近單位圓,其幅度越大[8]。圖1(c)給出取樣率8 kHz,時(shí)長(zhǎng)25 ms語(yǔ)音片段的群時(shí)延函數(shù)曲線??捎^察到,群時(shí)延幅度范圍大大高于幅度譜的范圍,并且較幅度譜觀察不到明顯的說話人信息。激勵(lì)源聲門周期是另外一種產(chǎn)生群時(shí)延尖峰效應(yīng)的因素,表現(xiàn)為諧波成份,如圖1(a)中周期性的波動(dòng)成分,對(duì)群時(shí)延譜精細(xì)結(jié)構(gòu)有很大貢獻(xiàn)。通常的平滑技術(shù)難以消除這些尖峰,尖峰效應(yīng)的存在使計(jì)算難度加大。對(duì)于共振峰估計(jì)等,只需得到尖峰位置信息,不需要尖峰的強(qiáng)度,所以需抑制尖峰效應(yīng),一種方法是丟掉激勵(lì)源信息,而僅考慮聲道信息,即倒譜平滑群時(shí)延函數(shù)(Cepstrally smoothed group delay function,CSGDF),最初由Yegnanarayana等[7]提出,實(shí)施方法是以倒譜平滑版本|Sc(ejω)|2取代式(2)的分母項(xiàng)|X(e)jω|2而得到
按文獻(xiàn)[5]選擇最優(yōu)倒譜平滑濾波器長(zhǎng)度l=6,其倒譜平滑群時(shí)延函數(shù)如圖1(d)所示,其動(dòng)態(tài)范圍較GDF進(jìn)一步增加,卻可以觀察到與幅度譜相似的信息。
接著,Murthy等[5]引入兩個(gè)參數(shù)α和γ,使倒譜平滑群時(shí)延函數(shù)的動(dòng)態(tài)范圍進(jìn)一步降低,得到改進(jìn)群時(shí)延函數(shù)(MODGDF)為
圖1 純凈語(yǔ)音、幅度譜及各類群時(shí)延譜Fig.1 Pure speech,amplitude spectrum and various group delay spectrums
由于CSGDF和MODGDF的目的是利用其共振峰估計(jì)信息,都只是改進(jìn)群時(shí)延函數(shù)的聲道特性。由于忽略激勵(lì)源信息,降低了語(yǔ)音表征力。
為了在減小群時(shí)延變化動(dòng)態(tài)范圍的同時(shí)避免丟失語(yǔ)音有效信息,定義指數(shù)函數(shù)規(guī)整群時(shí)延函數(shù)
其曲線如圖1(f)所示,不僅保留了激勵(lì)源信息,而且縮短了群時(shí)延變化動(dòng)態(tài)范圍。從幅度譜可觀察到明顯的共振峰,而各次諧波并不明顯;群時(shí)延具有很大的動(dòng)態(tài)范圍,諧波信息幾乎無法辨別; CSGDF譜F2尖峰突出,其它尖峰受到抑制,諧波信息難以辨別;MODGDF諧波信息豐富,動(dòng)態(tài)范圍降低約數(shù)千倍,雖然能夠確定強(qiáng)共振峰F2的位置,但其它共振峰幾乎被諧波尖峰淹沒;從EGDF譜能明確觀察到各共振峰和諧波信息。
將與圖1相同的一段語(yǔ)音片段疊加白噪聲分別生成信噪比為5 dB、0 dB的帶噪語(yǔ)音,其相應(yīng)的波形分別如圖2、圖3所示。
圖2 帶噪語(yǔ)音、幅度譜及各類群時(shí)延譜(白噪聲SNR=5 dB)Fig.2 Noisy speech,am p litude spectrum and various group delay spectrums(White noise SNR=5 dB)
圖3 帶噪語(yǔ)音、幅度譜及各類群時(shí)延譜(白噪聲SNR= 0 dB)Fig.3 Noisy speech,am plitude spectrum and various group delay spectrums(W hite noise SNR=0 dB)
圖2(c)、圖3(c)群時(shí)延譜動(dòng)態(tài)范圍較圖1 (c)仍很大,尤其值得注意的是,因?yàn)樵肼暤挠绊?,出現(xiàn)許多偽峰值。帶噪語(yǔ)音CSGDF譜的問題與純凈語(yǔ)音情況一樣凸顯。MODGDF除F2尖峰外,其它共振峰尖峰幾乎被噪聲干擾淹沒,頻頻出現(xiàn)與GDF相似的負(fù)峰值。帶噪EGDF譜的各共振峰仍然清晰可辨;與帶噪MODGDF對(duì)比,整個(gè)頻帶噪聲受到抑制,并且沒有出現(xiàn)偽峰值和負(fù)峰值;同GDF和CSGDF對(duì)比,群時(shí)延動(dòng)態(tài)變化范圍大幅降低,與MODGDF不相上下。
比較圖2和圖3,當(dāng)噪聲功率增加時(shí),GDF和MODGDF變化很大,除大的共振峰外,其他的顯得雜亂無章,而EGDF基本沒有變化,源和聲道信息仍然清晰可辨,表明其優(yōu)良的噪聲魯棒性。
GDF、CSGDF、MODGDF和EGDF倒譜域特征的計(jì)算框圖如圖4所示。
圖4 各倒譜域特征的計(jì)算框圖Fig.4 Block diagram of various cepstral features
將帶噪語(yǔ)音和背景噪聲分別建立高斯混合模型,記為λ1和λ0。根據(jù)測(cè)試語(yǔ)音特征集x,對(duì)某一幀信號(hào),分別與上述兩個(gè)模型匹配,根據(jù)得分結(jié)果,按照下述準(zhǔn)則進(jìn)行判決決策
式中:i為幀序號(hào),r(i)表示第i幀的判決結(jié)果。
實(shí)驗(yàn)語(yǔ)音選自標(biāo)準(zhǔn)語(yǔ)音庫(kù)TIMIT數(shù)據(jù)庫(kù),其語(yǔ)音采樣率為16 kHz,噪聲取自NOISEX-92庫(kù),將原語(yǔ)音和噪聲數(shù)據(jù)均下采樣為8 kHz。預(yù)加重系數(shù)取0.97,分析窗為矩形窗,窗長(zhǎng)25 ms,幀移10 ms。分別按信噪比10 dB、5 dB和0 dB疊加白噪聲和Babble噪聲生成帶噪語(yǔ)音。使用帶噪語(yǔ)音(非靜音)數(shù)據(jù)訓(xùn)練帶噪語(yǔ)音的GMM,其混合度為20;噪聲GMM訓(xùn)練數(shù)據(jù)截取自測(cè)試語(yǔ)音,一般可認(rèn)為語(yǔ)音信號(hào)前200 ms為純?cè)肼?。以GDF、CSGDF、MODGDF和EGDF的倒譜系數(shù)為特征進(jìn)行GMM語(yǔ)音活動(dòng)檢測(cè),檢測(cè)結(jié)果如圖5~圖10所示。
圖5 VAD結(jié)果(白噪聲SNR=10 dB)Fig.5 VAD results(W hite noise SNR=10 dB)
從檢測(cè)結(jié)果可知,三種信噪比下,EGDF的檢測(cè)性能都優(yōu)于GDF、CSGDF和MODGDF。幾種情況下,EGDF都能準(zhǔn)確檢測(cè)濁音,其它方法誤差很大,噪聲的存在使錯(cuò)檢增多。對(duì)比圖5 (e)和圖6(e),5 dB結(jié)果幾乎接近于10 dB的結(jié)果,從實(shí)驗(yàn)角度證實(shí)了EGDF具有良好的噪聲魯棒性。0 dB的檢測(cè)效果有所下降,因噪聲影響導(dǎo)致對(duì)濁音的錯(cuò)檢增多,且算法對(duì)Babble噪聲的檢測(cè)效果不及白噪聲的效果,因?yàn)槠涓咏Z(yǔ)音信號(hào)。
圖6 VAD結(jié)果(白噪聲SNR=5 dB)Fig.6 VAD results(W hite noise SNR=5 dB)
圖7 VAD結(jié)果(白噪聲SNR=0 dB)Fig.7 VAD results(W hite noise SNR=0 dB)
圖8 VAD結(jié)果(Babb le噪聲SNR=10dB)Fig.8 VAD results(Babble noise SNR=10dB)
圖9 VAD結(jié)果(Babble噪聲SNR=5 dB)Fig.9 VAD results(Babble noise SNR=5 dB)
導(dǎo)致群時(shí)延函數(shù)尖峰效應(yīng)的根本原因是語(yǔ)音信號(hào)z變換零點(diǎn)接近單位圓。本文提出指數(shù)函數(shù)規(guī)整的群時(shí)延函數(shù),在計(jì)算初始群時(shí)延函數(shù)基礎(chǔ)上,對(duì)其表達(dá)式中的功率譜采用指數(shù)函數(shù)規(guī)整,消除其在某一點(diǎn)為零的可能性,同時(shí)降低群時(shí)延的尖峰效應(yīng)。GMM語(yǔ)音活動(dòng)檢測(cè)實(shí)驗(yàn)表明,本文方法不但優(yōu)于其他的群時(shí)延函數(shù),而且在噪聲條件下具有良好的魯棒性,驗(yàn)證了文獻(xiàn)[8]所言。今后的研究重點(diǎn)是進(jìn)一步改進(jìn)群時(shí)延函數(shù),以加強(qiáng)其在更低信噪比下的魯棒性。
圖10 VAD結(jié)果(Babble噪聲SNR=0 dB)Fig.10 VAD results(Babble noise SNR=0 dB)
[1]Dong E,Liu G,Zhou Y,et al.Voice activity detection based on short-time energy and noise spectrum adaptation[C]∥In 2002 6th International Conference on Signal Processing(ICSP'02),Beijing,China,2002:464-467.
[2]Sangwan A,Chiranth M C,Jamadagni H S,et al.VAD techniques for real-time speech transmission on the Internet[C]∥In 5th IEEE International Conference on High Speed Networks and Multimedia Communications,Jeju Island,Korea,2002:46-50.
[3]Nemer E,Goubran R,Mahmoud S.Robust voice activity detection using higher-order statistics in the LPC residual domain[J].IEEE Transactions on Speech and Audio Processing,2001,9:217-231.
[4]Alsteris L D,Paliwal K K.Short-time phase spectrum in speech processing:a review and some experimental results[J].Digital Signal Processing,2007,17:578-616.
[5]Murthy H A,Gadde V.Themodified group delay function and its application to phoneme recognition[C]∥In 2003 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP'03),Hong Kong,China,2003:68-71.
[6]Murthy H A,Madhu Murthy K V,Yegnanarayana B. Formant extraction from phase using weighted group delay function[J].Electronics Letters,1989,25:1609-1611.
[7]Yegnanarayana B,Murthy H A.Significance of group delay functions in spectrum estimation[J]. IEEE Transactions on Signal Processing,1992,40:2281-2289.
[8]Murthy H A,Yegnanarayana B.Group delay functions and its applications in speech technology[J].Springer,2011,36:745-782.