孟憲波,鮑長(zhǎng)春
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院語(yǔ)音與音頻信號(hào)處理實(shí)驗(yàn)室,北京100124)
?
基于最小控制GARCH模型的噪聲估計(jì)算法
孟憲波,鮑長(zhǎng)春
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院語(yǔ)音與音頻信號(hào)處理實(shí)驗(yàn)室,北京100124)
摘要:MCRA(Minima-Controlled Recursive Averaging)方法是經(jīng)典的噪聲估計(jì)算法,然而在語(yǔ)音段MCRA方法存在不能對(duì)噪聲功率譜進(jìn)行有效更新的問(wèn)題.針對(duì)這一問(wèn)題,本文利用廣義自回歸條件異方差(Generalized Autoregressive Conditional Heteroskedasticity,GARCH)模型在時(shí)頻域?qū)υ肼曅盘?hào)建模,在MCRA算法原理的基礎(chǔ)上,提出了基于最小控制GARCH模型的噪聲估計(jì)算法,實(shí)驗(yàn)結(jié)果表明,本文所提的噪聲估計(jì)算法能夠更為準(zhǔn)確估計(jì)噪聲功率譜,將該算法應(yīng)用到語(yǔ)音增強(qiáng)中能夠獲得到較好的語(yǔ)音增強(qiáng)效果.
關(guān)鍵詞:噪聲估計(jì);GARCH模型;MCRA算法;語(yǔ)音增強(qiáng)
1引言
語(yǔ)音通信過(guò)程中不可避免地受到來(lái)自周圍環(huán)境噪聲的干擾.語(yǔ)音增強(qiáng)的目是盡可能地抑制噪聲,有效地提高信噪比,同時(shí)保證很高的主客觀語(yǔ)音質(zhì)量,提高語(yǔ)音的整體聽(tīng)覺(jué)效果.經(jīng)過(guò)最近幾十年的發(fā)展,學(xué)者們提出了許多種單通道的語(yǔ)音增強(qiáng)算法.在單通道的語(yǔ)音增強(qiáng)算法中,噪聲估計(jì)算法的性能直接影響著增強(qiáng)后語(yǔ)音的效果.因此,噪聲估計(jì)算法一直是各國(guó)學(xué)者廣泛研究的重要課題[1,2].
基于最小統(tǒng)計(jì)量(MS,Minimum Statistics)的噪聲估計(jì)算法[3]可以在搜索窗中較好地搜索噪聲功率譜的最小值,但該方法對(duì)于噪聲突變情況適應(yīng)性較差.MCRA噪聲估計(jì)算法把MS方法與遞歸平均方法結(jié)合到了一起[4],比MS方法更為平穩(wěn)和更具適應(yīng)性.然而根據(jù)MCRA算法原理,在語(yǔ)音存在的假設(shè)條件下,只是簡(jiǎn)單的利用前一幀的噪聲功率譜來(lái)更新當(dāng)前幀信號(hào)的噪聲功率譜.因此,一但搜索窗內(nèi)的語(yǔ)音成分較強(qiáng)時(shí),此算法不能很好地跟蹤噪聲信號(hào)功率譜的變化.
近些年,GARCH模型廣泛應(yīng)用在金融預(yù)測(cè)和統(tǒng)計(jì)等領(lǐng)域,它對(duì)波動(dòng)簇信號(hào)的預(yù)測(cè)有很好的表現(xiàn),已經(jīng)有研究者利用GARCH模型對(duì)語(yǔ)音信號(hào)建模,并在語(yǔ)音增強(qiáng)中取得了很好的效果,但在噪聲估計(jì)中鮮有研究.為了解決MCRA算法在語(yǔ)音成分較強(qiáng)時(shí)不能很好的跟蹤噪聲信號(hào)功率譜變化的問(wèn)題,本文結(jié)合噪聲信號(hào)的功率譜具有波動(dòng)簇信號(hào)的特點(diǎn),嘗試?yán)肎ARCH模型在時(shí)頻域?qū)υ肼曅盘?hào)建模,在MCRA算法原理的基礎(chǔ)上,提出了一種基于最小控制GARCH模型(MC-GARCH,Minima-Controlled GARCH)的噪聲估計(jì)算法.根據(jù)MCRA算法原理,在語(yǔ)音存在的假設(shè)條件下,利用針對(duì)噪聲信號(hào)建立的GARCH(1,1)模型遞推公式對(duì)噪聲功率譜進(jìn)行計(jì)算更新.這樣就可以在語(yǔ)音存在段實(shí)現(xiàn)對(duì)噪聲功率譜的有效跟蹤和更新,得到更為準(zhǔn)確的噪聲功率譜估計(jì).實(shí)驗(yàn)結(jié)果表明,本文提出的基于MC-GARCH模型的噪聲估計(jì)算法,能夠更為有效的估計(jì)噪聲信號(hào)功率譜,當(dāng)將所提算法應(yīng)用到語(yǔ)音增強(qiáng)算法中時(shí),得到了更好的增強(qiáng)效果.
2噪聲信號(hào)的GARCH建模方法
2.1GARCH原理簡(jiǎn)介
GARCH是常用的統(tǒng)計(jì)分析模型工具中時(shí)間序列模型的一種,其基本原理是用過(guò)去時(shí)間的誤差和方差信息來(lái)預(yù)測(cè)當(dāng)前時(shí)刻的方差.GARCH對(duì)于方差時(shí)變的波動(dòng)簇時(shí)間序列預(yù)測(cè)有很好的效果,這使得GARCH在數(shù)據(jù)處理方面有重要的應(yīng)用.2004年有學(xué)者首次將GARCH應(yīng)用到語(yǔ)音信號(hào)處理中[5].其基本原理如下.
(1)
定義yt在以t-1時(shí)刻為信息條件下的條件方差為λt,那么條件方差λt可用如下公式表示為
(2)
通過(guò)用過(guò)去p個(gè)時(shí)刻的條件方差和過(guò)去q個(gè)時(shí)刻的條件預(yù)測(cè)誤差建立當(dāng)前時(shí)刻條件方差λt的如下函數(shù)關(guān)系,
(3)
我們就完成了一個(gè)(p,q)階的廣義自回歸條件異方差模型,記作GARCH(p,q)[5].
GARCH(p,q)模型通常用線性方程表示為[6]
(4)
式中κ、αi、βj是模型參數(shù),且滿足
κ>0,αi≥0,βj≥0
i=1,…,;j=1,…,p
由于最為簡(jiǎn)單的GARCH(1,1)模型也隱含地考慮到了過(guò)去若干時(shí)刻信息對(duì)當(dāng)前時(shí)刻的影響,因此在實(shí)際應(yīng)用中GARCH(1,1)模型最為常用.
2.2噪聲的GARCH建模
通過(guò)分析可知,噪聲信號(hào)的STFT(Short Time Fourier Transform)系數(shù)滿足利用GARCH建模的基本條件.即噪聲信號(hào)的STFT系數(shù)的方差具有波動(dòng)性,其時(shí)頻域在統(tǒng)計(jì)分布上具有重尾效應(yīng),此外,噪聲信號(hào)具有一個(gè)重要的特點(diǎn):當(dāng)在同一頻點(diǎn)上觀察連續(xù)時(shí)間的噪聲信號(hào)的STFT系數(shù)序列時(shí)可以發(fā)現(xiàn),相鄰時(shí)刻的STFT系數(shù)的幅度高度相關(guān).因此我們嘗試?yán)肎ARCH模型在時(shí)頻域?qū)υ肼曅盘?hào)建模.
首先,定義實(shí)際噪聲信號(hào)的STFT系數(shù)譜為Dt,k,Θt-1表示已知的前一時(shí)刻條件信息,那么就可以得到在信息Θt-1為條件下的當(dāng)前時(shí)刻噪聲信號(hào)STFT譜系數(shù)的誤差,
σe(t,k)=Dt,k-E{Dt,k|Θt-1}
(5)
式中σe(t,k)是噪聲信號(hào)STFT譜系數(shù)的預(yù)測(cè)誤差,t是幀標(biāo)號(hào),k是頻點(diǎn)序號(hào).
而噪聲信號(hào)STFT譜系數(shù)的方差可以表示為
=E{(Dt,k-E{Dt,k|Θt-1})2}
(6)
由于通常情況下假設(shè)Dt,k具有零均值,所以進(jìn)一步可以得到
(7)
根據(jù)GARCH建模原理,可以得到關(guān)于噪聲信號(hào)STFT譜系數(shù)的GARCH(p,q)模型為
(8)
為實(shí)際應(yīng)用,定義噪聲信號(hào)功率譜預(yù)測(cè)的GARCH(1,1)模型為
(9)
式中式中α,ρ,η為模型參數(shù).滿足
α>0,ρ>0,η>0,ρ+η<1
這樣,式(9)就是我們所要建立的關(guān)于噪聲信號(hào)STFT譜系數(shù)的GARCH(1,1)模型的遞推表達(dá)式.
3基于MC-GARCH模型的噪聲估計(jì)
3.1估計(jì)原理
在基于語(yǔ)音存在和語(yǔ)音不存在的兩種假設(shè)基礎(chǔ)上,MCRA噪聲估計(jì)算法針對(duì)語(yǔ)音存在與否,給出如下表達(dá)式[4]:
(10)
分析式(10)可知,MCRA噪聲估計(jì)算法只在語(yǔ)音不存在時(shí)更新噪聲信號(hào)的功率譜估計(jì),而當(dāng)語(yǔ)音存在時(shí),噪聲信號(hào)每個(gè)頻點(diǎn)的功率譜估計(jì)用上一幀該頻點(diǎn)的噪聲估計(jì)結(jié)果近似代替.因此,MCRA噪聲估計(jì)算法不能在語(yǔ)音存在段對(duì)噪聲進(jìn)行有效的估計(jì)更新,因此會(huì)影響噪聲估計(jì)算法的準(zhǔn)確性.
(11)
從式(10)可以看出,其得到的噪聲功率譜估計(jì)實(shí)質(zhì)是以第t-1幀噪聲功率譜估計(jì)為條件下的第t幀噪聲功率譜估計(jì).因此式(11)就可以表示為
(12)
對(duì)比式(10)和式(11)可以發(fā)現(xiàn),MCRA噪聲估計(jì)方法在語(yǔ)音存在時(shí)刻只是利用前一幀的噪聲功率譜來(lái)更新得到當(dāng)前幀的噪聲功率譜,這就使得MCRA對(duì)語(yǔ)音存在段的噪聲估計(jì)能力較弱,而本文利用GARCH模型在語(yǔ)音存在段對(duì)噪聲信號(hào)建模,利用了GARCH模型對(duì)波動(dòng)信號(hào)的預(yù)測(cè)的性能優(yōu)勢(shì),能夠較好跟蹤噪聲信號(hào)的波動(dòng)趨勢(shì).從而使得本文所提的噪聲估計(jì)方法可以更為準(zhǔn)確的估計(jì)噪聲,尤其是在語(yǔ)音存在段,本文提出方法的效果更為明顯.
(13)
當(dāng)令模型參數(shù)α=(1-β)|Yt,k|2,而參數(shù)η=β時(shí),上式就可以簡(jiǎn)化為
(14)
進(jìn)一步令γ=1-β,可得
(15)
式中γ,ρ,η為參數(shù)因子,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)取得,滿足γ>0,ρ>0,η>0,ρ+η<1.這里分別取γ=0.005,ρ=0.3,η=0.6.
從式(15)可以看出本文所提噪聲估計(jì)算法的遞推關(guān)系式同樣為一個(gè)GARCH(1,1)模型的形式,與MCRA噪聲算法相似,本文所提噪聲估計(jì)算法的遞推關(guān)系式同樣受到pt,k的影響,因此將本文提出的噪聲估計(jì)算法稱為最小控制GARCH模型噪聲估計(jì)算法,記為MC-GARCH.而語(yǔ)音存在概率也是同通過(guò)在時(shí)間窗內(nèi)搜索含噪信號(hào)的功率譜最小值并與含噪信號(hào)平滑功率譜比較判定的方法得到的,文獻(xiàn)[7]中給出了求解語(yǔ)音存在概率pt,k的詳盡算法,這里不再贅述.
3.2噪聲估計(jì)誤差項(xiàng)的更新方法
表1 子帶劃分表
(16)
而帶減系數(shù)εn不同子帶對(duì)應(yīng)不同的值,即
(17)
其中ε1,ε2,ε3為驗(yàn)經(jīng)因子,這里取ε1=1.5,ε2=2.5,ε3=1.2.
然后根據(jù)含噪信號(hào)的功率與增強(qiáng)語(yǔ)音功率譜的比值的方式找到對(duì)應(yīng)的過(guò)減系數(shù)φn,定義比值為SSRn
(18)
(19)
(20)
式中常數(shù)因子ζ取0.001
通過(guò)以上過(guò)程就完成了對(duì)噪聲信號(hào)功率譜估計(jì)的誤差項(xiàng)更新過(guò)程.
4實(shí)驗(yàn)及測(cè)試結(jié)果分析
本文實(shí)驗(yàn)采用的純凈語(yǔ)音信號(hào)選自NTT標(biāo)準(zhǔn)語(yǔ)音庫(kù)中的中文子庫(kù),采樣率為8kHz.噪聲信號(hào)選自ITU-T噪聲庫(kù).
下面將給出本文所提算法和參考算法得到的在特定頻率處的噪聲功率譜估計(jì)曲線.
圖2和圖3分別是在白噪聲和有色噪聲(street)條件下的含噪語(yǔ)音信號(hào)頻譜圖和在頻率約為680Hz處MC-GARCH模型法、MCRA方法和MS方法所對(duì)應(yīng)的噪聲功率譜估計(jì)曲線比較示例.從中可以看出,本文提出的MC-GARCH模型算法對(duì)應(yīng)的噪聲功率譜估計(jì)能夠較好的跟蹤噪聲信號(hào)功率譜的趨勢(shì).特別是在有語(yǔ)音成分存在的時(shí)間段,MC-GARCH模型算法能夠較好地更新噪聲功率譜估計(jì),這是因?yàn)楸疚脑谡Z(yǔ)音存在時(shí)段引入了GARCH對(duì)噪聲信號(hào)建模,而GARCH模型對(duì)于在時(shí)頻域上具有波動(dòng)簇特性的噪聲信號(hào)有很好的估計(jì)效果.因此,相對(duì)MCRA方法,MC-GARCH模型法可以在語(yǔ)音存在時(shí)段對(duì)噪聲功率譜估計(jì)進(jìn)行更為有效的更新.
針對(duì)噪聲估計(jì)算法在噪聲估計(jì)方面的性能表現(xiàn),本文采用計(jì)算均方誤差(MSE)的方法對(duì)所提出的噪聲估計(jì)算法和參考方法進(jìn)行測(cè)評(píng).它能反映估計(jì)噪聲與實(shí)際噪聲之間的接近程度,相對(duì)估計(jì)誤差值越小則表明估計(jì)噪聲功率譜越接近實(shí)際噪聲的功率譜[9].
相對(duì)估計(jì)誤差(MSE)定義如下:
(21)
在信噪比為0dB、5dB、10 dB和15dB下,本文分別對(duì)白噪聲、street噪聲、volvo噪聲和babble噪聲功率譜估計(jì)進(jìn)行了MSE測(cè)評(píng),結(jié)果如表2~5所示.
分析各表可以看出在不同信噪比和不同噪聲環(huán)境中,本文提出的MC-GARCH模型噪聲估計(jì)方法的MSE均明顯小于參考算法,這說(shuō)明本文提出的算法對(duì)噪聲的估計(jì)更為準(zhǔn)確.原因是MC-GARCH模型噪聲估計(jì)方法可以在語(yǔ)音存在段有效的更新噪聲估計(jì),因此本文所提算法比參考算法更為準(zhǔn)確有效.
為進(jìn)一步說(shuō)明本文所提方法的優(yōu)勢(shì),圖4給出了一段基于統(tǒng)計(jì)模型[7]的增強(qiáng)語(yǔ)音的語(yǔ)譜比較示例,噪聲為街道噪聲,輸入信噪比為10dB,使用的噪聲估計(jì)方法分別為MS法、MCRA法和MC-GARCH模型法,圖4(a)~圖4(d)分別對(duì)應(yīng)含噪語(yǔ)音的語(yǔ)譜、用MS增強(qiáng)的語(yǔ)譜、用MCRA增強(qiáng)的語(yǔ)譜和用MC-GARCH模型增強(qiáng)的語(yǔ)譜.從頻譜圖可以看出本文提出的MC-GARCH模型噪聲估計(jì)算法對(duì)應(yīng)的圖4(d)中的噪聲殘留明顯少于參考方法,并且語(yǔ)音成分也得到了較好的保留.尤其是在語(yǔ)音存在時(shí)間段,與參考方法相比,MC-GARCH模型方法對(duì)應(yīng)的圖4(d)中的噪聲得到了較好的消除.
表2 白噪聲功率譜估計(jì)的MSE比較
表3 street噪聲功率譜估計(jì)的MSE比較
表4 volvo噪聲功率譜估計(jì)的MSE比較
表5 babble噪聲功率譜估計(jì)的MSE比較
5結(jié)論
針對(duì)經(jīng)典MCRA噪聲估計(jì)方法在語(yǔ)音段不能對(duì)噪聲信號(hào)進(jìn)行有效更新的問(wèn)題.本文利用GARCH模型在時(shí)頻域?qū)υ肼曅盘?hào)建模,在MCRA算法原理的基礎(chǔ)上,提出了基于MC-GARCH模型的噪聲估計(jì)算法,實(shí)驗(yàn)及測(cè)試結(jié)果表明,與參考算法相比,本文提出的基于MC-GARCH噪聲估計(jì)算法可以更為有效地跟蹤噪聲信號(hào)的變化,能夠較為準(zhǔn)確的進(jìn)行噪聲信號(hào)功率譜估計(jì),當(dāng)應(yīng)用到語(yǔ)音增強(qiáng)后算中可以獲得較好的增強(qiáng)效果.
參考文獻(xiàn)
[1]Hendriks R C,Heusdens R,Jensen J.MMSE based noise PSD tracking with low complexity[A]. 2010 International Conference on Acoustics,Speech,and Signal Processing[C].Dallas,Texas,USA:IEEE Press,2010.4266-4269.
[2]張東方,蔣建中,張連海.一種改進(jìn)型IMCRA非平穩(wěn)噪聲估計(jì)算法[J].計(jì)算機(jī)工程,2012,38(13):270-272.
Zhang Dong-fang,Jiang Jian-zhong,Zhang Lian-hai.Improved IMCRA non-stationary noise estimation algorithm[J].Computing Engineering,2012,38(13):270-272
[3]Martin R.Spectral subtraction based on minimum statistics[J].European Signal Processing Conference,1994,1182-1185.
[4]Cohen I,Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement[J].Signal Processing Letters,IEEE,2002,9(1):12-15.
[5]Cohen I.Modeling speech signals in the time-frequency domain using GARCH model[J].European Signal Processing,2004,84(12):2453-2459.
[6]Cohen I,Speech spectral modeling and enhancement based on generalized autoregressive conditional hetero-skedasticity models[J].European Signal Processing,2006,86(4):698-709.
[7]Loizou P.Speech Enhancement:Theory and Practice[M].Boca Raton,FL,USA:CRC Press,2007.435-439.
[8]Kamath S,Loizou P.A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[A].IEEE International Conference on Acoustics Speech and Signal Processing[C].Orlando,Florida,USA:IEEE,2002.4164-4164.
[9]周旋.基于統(tǒng)計(jì)模型和經(jīng)驗(yàn)?zāi)J椒纸獾膶拵дZ(yǔ)音增強(qiáng)技術(shù)研究[D].北京:北京工業(yè)大學(xué),2012.
孟憲波男,1987年出生,河北承德人,北京工業(yè)大學(xué)碩士研究生,主要研究方向?yàn)檎Z(yǔ)音與音頻信號(hào)處理.
E-mail:mengxianbo@emails.bjut.edu.cn
鮑長(zhǎng)春(通信作者)男,1965年出生,內(nèi)蒙古赤峰人,博士,北京工業(yè)大學(xué)教授、博士生導(dǎo)師,IEEE 高級(jí)會(huì)員,國(guó)際語(yǔ)音通信學(xué)會(huì)(ISCA)會(huì)員,亞太信號(hào)與信息處理學(xué)會(huì)(APSIPA)會(huì)員,中國(guó)電子學(xué)會(huì)理事,中國(guó)聲學(xué)學(xué)會(huì)理事,信號(hào)處理專業(yè)委員會(huì)委員.主要研究方向?yàn)檎Z(yǔ)音與音頻信號(hào)處理.
E-mail:chchbao@bjut.edu.cn
Noise Estimate Algorithm Based on Minima Controlled GARCH Model
MENG Xian-bo,BAO Chang-chun
(SpeechandAudioSignalProcessingLaboratory,SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing100124,China)
Abstract:Considering the problem that the typical MCRA (Minima-Controlled Recursive Averaging) noise estimate algorithm fails to update the power spectrum of noise effectively when the speech is present,so this paper proposes a noise estimate algorithm based on minima controlled GARCH model.The noise signal is modeled as a GARCH process in time-frequency domain and then the proposed noise estimate algorithm is achieved combined with the basis of the framework of MCRA method.Experimental and testing results indicate that the proposed algorithm can estimate the spectrum of noise more accurately compared with the reference methods.When the proposed algorithm is applied into speech enhancement,a better performance can be achieved as well.
Key words:noise estimate;GARCH model;MCRA algorithm;speech enhancement
作者簡(jiǎn)介
DOI:電子學(xué)報(bào)URL:http://www.ejournal.org.cn10.3969/j.issn.0372-2112.2016.03.037
中圖分類號(hào):TN912.3
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0372-2112 (2016)03-0747-06
基金項(xiàng)目:國(guó)家自然科學(xué)基金(No.61471014)
收稿日期:2014-10-08;修回日期:2015-04-28;責(zé)任編輯:梅志強(qiáng)