基于時域濾波多頻段譜減法的語音增強

2017-10-18 02:59:08張小宇劉云清趙馨

長春理工大學(xué)學(xué)報(自然科學(xué)版) 2017年4期

關(guān)鍵詞：子帶頻帶時域

張小宇，劉云清，趙馨

（長春理工大學(xué) 電子信息工程學(xué)院，長春 130022）

基于時域濾波多頻段譜減法的語音增強

張小宇，劉云清，趙馨

（長春理工大學(xué) 電子信息工程學(xué)院，長春 130022）

傳統(tǒng)的多頻段語音增強是將頻域分割成各個頻段，并對每個頻段單獨進行語音增強，但是因為相鄰頻帶的共振峰影響清晰語音估計，導(dǎo)致了語音識別效果不理想，為了減少相鄰頻帶的共振峰帶來的影響，提出了一種時域濾波中多頻帶語音增強的方法，通過將時域中的未處理語音過濾成各種等效的基于矩形帶寬的子帶，然后在每個頻帶中使用基于離散余弦變換（DCT）譜減法來估計清晰語音，并結(jié)合使用各個頻帶信噪比（SNR）獲得頻帶特定加權(quán)因子。在SNR為0～10dB的汽車噪聲、餐廳噪聲、列車噪聲、白色噪聲和工廠噪聲的環(huán)境下基于時域多頻段語音增強算法增強效果優(yōu)于現(xiàn)有的技術(shù)。

譜減法；多頻帶；DCT

語音通信系統(tǒng)的性能特征在于語音質(zhì)量和可懂度，然而，這些因素容易受到外部噪聲源干擾而劣化。在這些源中，背景噪聲是最常見的，并且其以加法方式影響語音信號。這需要有效的語音增強算法來提高語音信號的質(zhì)量和可理解性，從而提高系統(tǒng)的性能并降低聽眾的疲勞［1］。語音增強算法的作用是去除噪聲并增強語音特定分量，從而產(chǎn)生清晰、無噪聲的語音。目前的工作重點是頻譜處理方法，其比較成功的方法是譜減法［2］。在文獻［4-7］中有對基本譜減法的一些改進，這些語音增強算法需要對噪聲頻譜進行估計，可以使用語音活動檢測器［3］或使用噪聲估計算法［4］來估計。

頻域語音增強的噪聲去除方法主要使用傅里葉變換（FT）衍生的頻譜。這種方法不僅可以增強未處理語音的幅度頻譜，同時可以保持未處理語音的相位不受干擾，因為這是純凈語音可能的最佳相位［5］。然而，當(dāng)使用未處理語音的相位信息時，語音可以被增強的程度是有限的［6］。為了克服該限制，可以從提供符號信息的方法入手，而不是用相位的實際變換（諸如離散余弦變換（DCT））導(dǎo)出頻譜。此外，與FT相比，DCT提供了高分辨率和能量壓縮［7］。在文獻［8，9］中，作者使用閾值方法去除DCT域中的未處理語音中的噪聲。DCT的能量壓縮屬性在語音增強中是非常重要的，因為語音的整體質(zhì)量受到有聲段質(zhì)量的影響，對于該有聲段，大多數(shù)能量被限制為低頻分量而不是無聲語音段。

雖然這些技術(shù)顯著改善了語音質(zhì)量，但是它們作為單個實體作用于整個頻帶，而語音和噪聲分量并不是均勻地分布在所有的頻帶上。因此提出了改進的多頻譜譜減法，將未處理語音頻譜線性或非線性的劃分各個子帶，并且獨立地對每個子帶執(zhí)行噪聲去除。同時因為磁極相互作用的問題，一個頻帶中的頻譜分量對相鄰頻帶中的頻譜分量是有影響的；并且與純凈語音不同，增強語音不能通過直接組合每個子帶中的頻率而使用逆傅里葉變換，即：通過傅里葉變換給每個頻帶不同的權(quán)重，將信號分解成含有不同權(quán)重的頻率分量；未處理語音由于噪聲的不均勻分布，頻域頻帶劃分將導(dǎo)致子帶具有不同的信噪比（SNR），當(dāng)每個子帶中的語音分量被增強時，每個子帶的SNR改變，即頻率分量的分布也與之前的不同。所以在使用導(dǎo)出原始未處理語音的權(quán)重就會導(dǎo)致純凈語音的不準(zhǔn)確估計。為了克服這些問題，使用時域濾波可能更合適。

本文提出了改進的語音增強技術(shù)，通過使用DCT在語音段中能量壓縮方面的優(yōu)點，以及用于時域濾波生成的多頻帶可以減少頻譜域濾波中極點之間的相互作用的優(yōu)點。在譜減法中，由于噪聲分量不均勻分布在所有的頻帶上，因此將頻帶特定的加權(quán)因子分配給每一個子帶，該帶特定加權(quán)因子在低SNR頻帶上大于高SNR頻帶，并且基于相應(yīng)頻帶SNR來計算。

1 基于DCT的譜減法（SSDCT）

譜減法是通過從未處理語音頻譜分量中減去噪聲分量來估計干凈的語音頻率分量。假設(shè)語音s(n)和噪聲分量d(n)不相關(guān)，并且所考慮的噪聲是背景噪聲，其本質(zhì)上是加性。

即：

一般使用FT將未處理語音變換到頻域，然而現(xiàn)在主要是利用DCT的優(yōu)點，使用DCT（類型II）：

其中，X(k)，S(k)和D(k)分別表示未處理語音，純凈語音和噪聲的DCT導(dǎo)出的幅度譜。噪聲的幅度D(k)是從未處理語音中的無音段估計的。

使用譜減法估計純凈語音頻譜幅度：

其中，α為增強高信噪比段的過減因子，β是噪聲的頻譜下限參數(shù)，類似于離散傅里葉變換（DFT），處理后的頻譜和相位（未處理語音頻譜分量的符號信息）組合以獲得增強的語音信號。

圖1 基于SSFT和SSDCT的譜減法算法的比較

為了進行比較，該系統(tǒng)實現(xiàn)了基于全波段FT的譜減法（SSFT）算法［10］。如圖1（a）-（e）所示，給出了受0dB的餐廳噪聲影響的語音信號、噪聲語音信號的頻譜圖，通過SSFT和SSDCT算法增強的語音信號以及干凈的語音信號的頻譜圖。在圖1（c）中通過SSFT增強的語音中，話語的幾個低頻分量不被保留。然而，在圖1（d）中通過SSDCT增強的這些信息分量，通過保留提高語音質(zhì)量。為了進一步改善語音質(zhì)量，在各種SNR水平下對未處理語音數(shù)據(jù)執(zhí)行時域濾波多頻帶譜減法（TMB-SS）。

2 時域濾波多頻段譜減法（TMBSS）

由于噪聲和語音頻譜分量不均勻分布在所有頻帶上，因此多頻帶譜減法優(yōu)于全頻譜減法。從子帶中的語音分量減去噪聲分量，則可以更好的降低噪聲。子帶語音頻譜可以通過將頻率段分成不同的頻帶或通過在時域中將信號濾波到不同的頻帶，然后估計頻譜來獲得。在這個系統(tǒng)中是通過時域濾波獲得多個子帶，因為它可以減少相鄰頻帶頻譜分量的影響。提出的語音增強算法TMB-SS的框圖如圖2所示。為了進一步改善子頻帶級別的降噪，基于等效矩形帶寬（ERB）尺度提取多個子帶。ERB尺度與人類聽覺系統(tǒng)高度相關(guān)，并且與其他臨界頻帶尺度相比，它能更精確地模擬低頻分量［11］。ERB濾波器的帶寬計算為：

其中，fc是以Hz為單位的濾波器的中心頻率。濾波器的上限截止頻率和下限截止頻率（fu和fl）為：

然后未處理語音信號通過這些濾波器獲得臨界頻帶信號，未處理語音信號以臨界頻帶信號的組合表示：

其中，M表示臨界頻帶的數(shù)目，xi(n)是第i個臨界頻帶中的未處理語音信號。

在這個系統(tǒng)中，使用時域濾波是為了減少相鄰頻帶的影響，并且基于ERB將未處理語音信號劃分為子帶。SS-DCT單獨地應(yīng)用于每個頻帶，用于估計在臨界頻帶級的純凈語音頻譜。由于噪聲頻譜分量并不是均勻分布在所有臨界頻帶內(nèi)，因此在每個子帶信號中需要實現(xiàn)的噪聲減少量和信號失真（SD）是不同的。所以應(yīng)該在其它頻帶上增強一個子帶，減小低SNR頻帶與高SNR頻帶的SD，加權(quán)因子是在頻帶級別上提供對噪聲減少和SD的附加程度的控制。所以，基于相應(yīng)的頻帶SNR將頻帶特定加權(quán)因子γi引入每個臨界頻帶。過減因子（αi）通過僅處理子帶信號來強調(diào)段中的噪聲去除，而γi在頻帶級上提供對噪聲去除的附加程度的控制。因此，除了過減因子之外，在當(dāng)前工作中提出帶特定加權(quán)因子（γi）。估計的純凈語音頻譜由下式給出：

圖2 語音增強算法TMB-SS的框圖

其中，βi是取決于在每個臨界頻帶中估計的噪聲的頻譜下限參數(shù)。高SNR頻帶與低SNR頻帶相比具有較低的加權(quán)因子，并且基于使用單獨頻帶SNR計算的平均SNR來分類。根據(jù)經(jīng)驗觀察，當(dāng)加權(quán)因子的范圍在1和2.5之間時，可以實現(xiàn)更好的噪聲去除。因此取最高SNR的頻帶的加權(quán)因子為1，最低SNR的頻帶的加權(quán)因子為2.5。對于具有中間SNR的頻帶，使用在1.08和2.04之間（步長為0.08）的加權(quán)因子。使用客觀測量法來評估頻帶特定加權(quán)因子對所提出的語音增強算法（TMB-SS）的性能影響，所獲得的分?jǐn)?shù)在表1中列出。從得分可以看出，當(dāng)使用γi時，SD（SD）和背景失真（BD）的量減少，說明改進了語音增強的質(zhì)量。

最后，組合每個臨界頻帶估計的清晰語音信號，獲得如下式中的增強語音信號

3 實驗結(jié)果

語音增強算法使用從TIMIT語料庫和NOIZEUS數(shù)據(jù)庫隨機選擇的句子進行評估。NOIZEUS是一個未處理語音語料庫，包含30個話語，由三個男性和三個女性說話者說話，被來自AURORA數(shù)據(jù)庫的八個真實世界噪聲破壞。NOISEX-92是一個噪聲數(shù)據(jù)庫，包括八種不同的非固定噪聲，如工廠、機槍、白噪聲、粉紅噪聲等。將來自NOISEX-92和AURORA數(shù)據(jù)庫的噪聲以不同的SNR水平添加到TIMIT和NOIZEUS數(shù)據(jù)庫中干凈的語音中，獲得未處理語音信號。在這個系統(tǒng)中，以0-10dB的SNR水平，添加五個不同的噪聲，即：餐廳噪聲、白噪聲、工廠噪聲（選自NOISEX-92）、汽車噪聲和火車噪聲（選自AURORA）。

3.1 SSFT與SSDCT

從SSFT和SSDCT算法的目標(biāo)質(zhì)量測量獲得的觀察結(jié)果討論如下：

從PESQ值（參見表2）可以看出，在考慮所有的SNR條件下，對于列車噪聲（改善為0.1-0.4），SSDCT產(chǎn)生的質(zhì)量優(yōu)于SSFT的語音。對于汽車，工廠和多余噪聲，SSDCT的性能與SSFT的性能非常相似。

?對于除白噪聲之外的所有噪聲，SSDCT獲得的整體質(zhì)量分?jǐn)?shù)與SSFT更接近，如表2所示。

?SSDCT的性能在SD和BD方面與SSFT相當(dāng)，如表3所示。對于餐廳噪聲，SSDCT將BD降低到與SSFT相比相當(dāng)大的量，并且通過較高的BD分?jǐn)?shù)來反映。

3.2 FMB-SS與TMB-SS

從FMB-SS和TMB-SS算法的客觀質(zhì)量測量，得出以下觀察結(jié)果：

?TMB-SS算法在所有SNR水平上從受列車、餐廳噪聲、白噪聲和工廠噪聲影響的語音中得出高度增強的語音，PESQ分?jǐn)?shù)比FMB-SS提高了0.1-0.4，如表2所示。

在汽車噪聲的情況下，TMB-SS執(zhí)行更接近FMB-SS，并且在SNR＞4dB（在PESQ值中改善0.1-0.3）時產(chǎn)生更好的性能。

由于TMB-SS比FMB-SS引入的背景和SD低，在表2中觀察到增強語音的整體質(zhì)量改善為0.1-0.3。

對于TMB-SS，在所有SNR級別的白噪聲和工廠噪聲，以及高于5dB SNR水平的汽車、火車和餐廳噪聲，增強語音信號中的殘留噪聲（由BD分?jǐn)?shù)測量）較低（參見表3），從而提高整體質(zhì)量。

在所考慮的大多數(shù)噪聲條件下，在語音增強中使用TMB-SS具有比FMB-SS低的SD量。

4 結(jié)論

表1 具有和不具有帶特定加權(quán)因子γi的TMB-SS的性能比較

表2 0-10dB各種噪聲PESQ和整體質(zhì)量的平均值

表3 0-10dB各種噪聲SD和BD的平均值

為了解決頻域多頻帶方法中的相鄰頻帶頻率分量的影響，提出了基于時域多頻段語音增強算法，從實驗結(jié)果可以看出，本文提出的算法比傳統(tǒng)的語音增強方法增強效果好。PESQ值驗證了改進的算法具有更好的語音質(zhì)量，使用改進的算法具有比傳統(tǒng)算法低的SD量和BD量。

［1］Lim JS，Oppenheim AV.Enhancement and bandwidth compression of noisy speech［J］.Proceeding of the IEEE，2005，67（12）：1586-1604.

［2］Boll S.Suppression of acoustic noise in speech using spectral subtraction［J］.IEEE Transactions on Acoustics Speech and Signal Process，1979，27（2）：13-120.

［3］陳歡，邱曉暉.改進譜減法語音增強算法的研究［J］.計算機技術(shù)與發(fā)展，2014（04）：69-71+76.

［4］Plapous C，Marro C，Scalart P.Improved signal-tonoise ratio estimation for speech enhancement［J］.IEEE Trans Audio，Speech，Lang Process，2006，14（6）：2098-2108.

［5］符成山.一種改進譜減法語音增強算法的研究［J］.信息通信，2016（06）：21-22.

［6］McAulay R，Malpass M.Speech enhancement using a soft-decision noise suppression filter［J］.IEEE Trans Acoust Speech Signal Process，1980，28（2）：137-145.

［7］Junqua JC，Reaves B，Mak B.A study of endpoint detection algorithms in adverse condition：incidence on a DTW and HMM recognizer［J］.Proc Of European Conf on Speech Communication and Technology，1991，3（2）：1371-1374.

［8］Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics［J］.IEEE Trans Speech Audio Process，2001，9（5）：504-512.

［9］寧礦鳳，王景芳.DCT域維納濾波語音增強［J］.計算機工程與應(yīng)用，2015，51（8）：226-230.

［10］Cohen I，Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement［J］.IEEE Signal Process Lett，2002，9（1）：12-15.

［11］張君昌，劉海鵬，樊養(yǎng)余.一種自適應(yīng)時移與閾值的DCT語音增強算法［J］.西安電子科技大學(xué)學(xué)報，2014，41（6）：155-159.

Speech Enhancement Based on Time Domain Filtering Multi-band Spectrum Subtraction

ZHANG Xiaoyu，LIU Yunqing，ZHAO Xin
（School of Electronic and Information Engineering，Changchun University of Science and Technology，Changchun 130022）

The traditional multi-band speech is enhanced due to the problem of the pole interaction between the various frequency bands，which leads to the unsatisfactory speech recognition effect.A method of multi-band speech enhancement in time domain filtering is proposed，clean speech is estimated by filtering unprocessed speech in the temporal domain into various equivalent rectangular bandwidth based subbands followed by discrete cosine transform（DCT）based spectral speech enhancement in each band using spectral subtraction and incorporates band-specific weighting factor obtained using respective band signal-tonoise ratio（SNR）.It is observed that DCT-derived spectrum based temporal-domain multiband speech enhancement algorithm outperforms the existing techniques for car，babble，train，white，and factory noise in the 0–10 dB SNR levels.

spectral subtraction；multi–band；DCT

TN912.35

1672-9870（2017）04-0078-05

2017-06-05

吉林省科技攻關(guān)項目（20160204003GX）

張小宇（1990-），女，碩士研究生，E-mail：1179353525@qq.com