劉鳳增
【摘 要】由于多麥克風越來越多地部署到同一個設備上,基于雙麥克風和麥克風陣列的多通道語音增強研究有了較大的應用價值。介紹了自適應噪聲對消法、FDM等雙通道語音增強方法和波束形成、獨立分量分析等麥克風陣列語音增強方法,對各個方法的原理、發(fā)展和優(yōu)缺點進行了詳細分析和總結,對多通道語音增強深入研究有一定幫助。
【關鍵詞】語音增強;雙通道;麥克風陣列;波束形成
1.引言
語音是人們通訊交流的主要方式之一。我們生活的環(huán)境中不可避免地存在著噪聲,混入噪聲的語音會使人的聽覺感受變得糟糕,甚至影響人對語音的理解。在語音編碼、語音識別、說話人識別等系統(tǒng)中,噪聲也會嚴重影響應用的效果。語音增強成為研究的一個問題,其模型如圖1所示。
圖1 語音增強模型
按照采集信號的麥克風數(shù)量分類,語音增強方法可被分為單通道(single channel)、雙通道(dual-channel)、麥克風陣列(microphone array)三種類型。一般來說,麥克風越多,去噪的效果越好。早期,大部分通信/錄音終端都只配有一個麥克風,因此單通道語音增強吸引了大量研究者的目光,方法較為成熟。但單通道方法的缺點是缺少參考信號,噪聲估計難度大,增強效果受到限制。近年來隨著麥克風設備的小型化和成本的降低,雙麥克風和麥克風陣列越來越多地被部署。研究者的注意力也在從單通道語音增強向雙通道和麥克風陣列語音增強轉移,這里對已有的多通道語音增強算法作以簡單介紹。
2.雙通道語音增強方法
在語音增強中,一個關鍵的問題就是獲得噪聲。在單通道語音增強中,噪聲是通過從帶噪語音信號中估計得到的,估計算法較為復雜且估計噪聲總是與真實噪聲存在差異,這就限制了增強效果的提高。為了獲得真實噪聲,簡單的做法就是增加一個麥克風來采集噪聲。從帶噪語音信號中減去采集噪聲來得到語音信號,這種方法叫做自適應噪聲對消法(ANC,adaptive noise canceling),是最原始的最簡單的雙通道語音增強算法。針對雙麥克風開發(fā)的算法不多,主要有噪聲對消法、一階差分麥克風(FDM,first-order differential microphone)及基于FDM改進得到的自適應零陷波束形成法( ANF,adaptive null-forming)。
2.1 自適應噪聲對消法
噪聲對消法采用兩個麥克風,一個麥克風采集帶噪語音,另一個采集噪聲信號,用帶噪信號減去噪聲信號,得到語音信號。減操作一般在頻域進行,如果采集到的噪聲與帶噪信號中的噪聲足夠相似,甚至可以在時域上直接相減。以上是在理想情況下,實際中兩個麥克風的位置不同,兩路信號之間存在著延遲、不同衰減、干擾,但兩路中的噪聲成分都來自于同一噪聲源,噪聲之間仍然具有很強的相關性。利用相關性,采用LMS數(shù)字濾波器結合減操作,則可實現(xiàn)自適應噪聲對消。自適應噪聲對消法適合于平穩(wěn)的噪聲環(huán)境,如果噪聲是非平穩(wěn)的則會嚴重影響其效果。該方法假設噪聲與語音是不相關的,若噪聲與語音相關,LMS濾波的系數(shù)應在語音間歇期間進行刷新,這里需要用到發(fā)聲活動檢測(voice activity detection),增加了方法的復雜度,效果也不夠理想。自適應噪聲對消法的另一個缺點是會引入音樂噪聲。
2.2 FDM方法
FDM方法與噪聲對消相似,不同的是根據(jù)麥克風位置對兩路信號進行差分計算,輸出更精確的帶噪語音信號和參加噪聲信號。對得到的兩組信號進行自適應噪聲對消,得到增強后語音。自適應濾波可能不收斂,這將極大影響增強效果,且收斂速度慢也會使實時增強難以實現(xiàn)。因此,文獻利用單通道增強算法代替自適應噪聲對消法,帶噪語音信號作為單路輸入,參考噪聲信號作為估計噪聲,解決了收斂問題及收斂過程中的噪聲泄露問題。
噪聲對消和FDM都是相關去噪,假設噪聲和語音是獨立不相關的,噪聲和噪聲之間是相關的。
3.麥克風陣列語音增強方法
麥克風陣列語音增強,主要采用陣列信號處理技術進行增強,其中有波束形成(Beamforming)和獨立分量分析(ICA,independent component analysis)。波束形成法在20世紀八十年代中期開始被用于語音信號處理。波束形成是空間濾波技術,它從麥克風陣列獲得的一組信號中找出一個特定方向的信號,而把其他方向的信號忽略掉。波束形成方法可以分為三種:固定波束形成,自適應波束形成,結合后置濾波(Postfiltering)的波束形成。
3.1 固定波束形成
固定波束形成(FB,fixed beamformer)分為延時求和波束形成和濾波求和波束形成,它是因權值或濾波器權重是固定的而得名。固定波束形成由三個模塊組成:延時估計模塊,延時補償模塊,加權/濾波相加模塊,其原理結構如圖2所示:
圖2 固定波束形成原理圖
圖中,當為一固定常數(shù)時為延時求和波束形成,當w代表濾波器沖擊響應時為濾波求和波束形成。固定波束形成法結構簡單,實現(xiàn)容易,適合平穩(wěn)背景噪聲,但由于w是固定的,不能自適應地處理噪聲多變的情況,對高斯白噪聲等非相關噪聲處理效果較好,不能處理相關噪聲。
3.2 自適應波束形成法
自適應波束形成法(Adaptive Beamforming)是為多變的噪聲環(huán)境設計的,它根據(jù)輸入信號調整濾波器權重,使波束方向零陷對準噪聲方向。該方法采用優(yōu)化的方法來估計語音信號,優(yōu)化的準則有最大信噪比,最小均方誤差,線性限制最小方差等。Frost基于線性約束最小方差(LCMV,Linearly Constrained Minimum Variance )準則提出了一種波束形成方法,它的自適應機制是帶約束的最小均方(LMS,Least-mean-sqare)適應。其原理結構如圖3所示:
圖3 Frost波束形成原理圖
LCMV波束形成包括四部分:時延估計,時延補償,帶約束的最優(yōu)化濾波,求和輸出。為克服Frost方法的約束,Griffiths和Jim提出了一種廣義旁瓣消除器(GSC ,Generalized Sidelobe Canceller)自適應波束形成,它把約束和最小化分為兩部分。其原理結構如圖4所示:
圖4 GSC波束形成原理圖
GSC波束形成將Frost算法改進為上下兩通道加自適應濾波的形式。上通道是一個固定波束形成器,用于產(chǎn)生帶噪語音信號;下通道是一個阻塞矩陣,用以產(chǎn)生參考噪聲;對兩路信號進行自適應濾波得到語音信號。時域的GSC假設各麥克風接收到的是語音信號的不同延遲版本,因此又叫做延遲廣義旁瓣消除器(D-GSC)。頻域的GSC由Gannot等人發(fā)明,叫做轉移函數(shù)廣義旁瓣消除器(TF-GSC)能夠處理更為復雜的聲場轉移函數(shù)(ATFs,acoustic transfer functions)。 Frost和GSC波束形成算法能較好的處理相干噪聲,但對于非相干的噪聲處理效果不佳。
3.3 后置濾波波束形成
后置濾波波束形成可以有效地處理非相干噪聲,它由zelinski在1988年提出。其原理結構如圖5所示:
圖5 后置濾波波束形成原理圖
在GSC的自適應濾波階段,由于采用LMS濾波器,要求噪聲之間是相關的。后置濾波法用維納濾波器代替了LMS濾波,實現(xiàn)對非相干和漫射噪聲的消除。
3.4 獨立分量分析
ICA是在研究盲源分離過程中出現(xiàn)的一種全新的信號處理和數(shù)據(jù)分析方法。ICA能夠從混合信號中分離出各個獨立分量,它不需要知道源信號和傳輸信道的參數(shù),僅僅通過分析觀測到的混合信號的統(tǒng)計特性。ICA的原理如圖6所示。
圖6 ICA原理圖
圖中展示的是有個源信號,用個麥克風來采集,表示源信號,為每個麥克風采集的混合信號?;旌暇仃嚤硎净旌闲盘柺怯稍葱盘柕木€性疊加得到的,混合矩陣式未知的,在現(xiàn)實中,它是由信源位置和麥克風位置決定的。ICA對個混合信號進行處理,分解混合信號恢復個獨立的源信號。用ICA進行信號分離必須滿足以下條件:
(1)麥克風數(shù)量大于等于源信號數(shù)量,及;
(2)源信號之間是相互獨立的;
(3)混合信號是獨立源信號的線性疊加;
(4)屬于高斯分布的源信號最多只有一路;
帶噪語音中的噪聲一般是加性的,即使是乘性的也可以通過求對數(shù)轉換為加性的;噪聲和語音的產(chǎn)生過程是不相關的。因此可將帶噪語音認為是獨立源語音和獨立源噪聲的線性混合信號,應用ICA來進行語音增強。對于多聲源噪聲情況也是適用的。