鄭展恒 曾慶寧
摘? 要: 為了研究和提高語音增強(qiáng)的效果,針對語音信號的非平穩(wěn)性,根據(jù)卡爾曼濾波能處理非平穩(wěn)信號,其是以最小均方誤差為估計(jì)的最優(yōu)準(zhǔn)則,提出一種改進(jìn)的卡爾曼濾波語音增強(qiáng)算法。該方法首先在改進(jìn)譜減法和人耳掩蔽效應(yīng)增強(qiáng)的基礎(chǔ)上,利用語音信號的生成模型,通過線性預(yù)測系數(shù)組成狀態(tài)轉(zhuǎn)移矩陣,采用基于聽覺掩蔽效應(yīng)改進(jìn)的譜減法估計(jì)語音和噪聲的AR參數(shù),該分析改進(jìn)后的參數(shù)更加準(zhǔn)確并提供給卡爾曼增強(qiáng)算法,最終實(shí)現(xiàn)卡爾曼濾波的語音增強(qiáng)。仿真實(shí)驗(yàn)表明,在不同信噪比下該算法均有效地實(shí)現(xiàn)了語音增強(qiáng),去噪效果較好,提高了語音質(zhì)量。
關(guān)鍵詞: 語音增強(qiáng); AR參數(shù)估計(jì); 聽覺掩蔽; 基本譜減法; 狀態(tài)轉(zhuǎn)移矩陣; 仿真結(jié)果分析
中圖分類號: TN912.35?34? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)21?0027?04
Research and improvement of speech enhancement algorithms
ZHENG Zhanheng1, 2, ZENG Qingning2
(1. MOE Key Laboratory of Cognitive Radio and Information Processing, Guilin 541004, China;
2. School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, China)
Abstract: In view of the non?stationary of speech signals, an improved speech enhancement algorithm based on Kalman filtering, which can process non?stationary signals according to the optimal criterion of minimum mean square error estimation, is proposed to study and improve the effects of speech enhancement. In this method, a speech signal generation model is used to build the state transition matrix by linear prediction coefficients on the basis of improving spectral subtraction and enhancing human ear masking effect, and then the AR parameters of speech and noise are estimated by the improved spectral subtraction based on the auditory masking effect. It is found in the analysis that the improved parameters are more accurate and can be provided for the Kalman enhancement algorithm to achieve the speech enhancement based on the Kalman filtering. The simulation results show that the proposed algorithm has a good denoising effect, and can effectively enhance the speech and improve the speech quality at different SNR.
Keywords: speech enhancement; AR parameter estimation; auditory masking; basic spectral subtraction; state?transition matrix; simulation result analysis
0? 引? 言
近年來,現(xiàn)代科技的不斷發(fā)展以及AI的不斷突破和進(jìn)步,語音處理的相關(guān)技術(shù)與應(yīng)用更加廣泛地深入到人們的日常生活與科技生產(chǎn)中,語音信號處理以及語音增強(qiáng)算法在這些方面的應(yīng)用越來越廣泛,人們更加重視語音增強(qiáng)算法的研究和實(shí)際應(yīng)用。
對語音信號進(jìn)行增強(qiáng)就是要改善語音信號質(zhì)量,盡可能減少噪聲影響,提高語音可懂度,及對語音信號后續(xù)做進(jìn)一步處理。當(dāng)前具有代表性的語音增強(qiáng)方法有:譜減法[1?3]、維納濾波[4]、麥克風(fēng)陣列[5?6]、人耳掩蔽效應(yīng)[1]、卡爾曼濾波法等增強(qiáng)算法[5?11]??柭鼮V波起初由匈牙利人Rudolf Emil Kalman提出用于控制方面,因其具有處理非平穩(wěn)信號的能力,符合語音的特性,后來許多學(xué)者陸續(xù)對其開展算法研究。
實(shí)際的處理中,若對模型參數(shù)在含噪語音中估計(jì),會帶來較大誤差,本文先對基本譜減法進(jìn)行研究,采用基于人耳掩蔽效應(yīng)的譜減法先對其做預(yù)處理,以獲得接近純凈的語音,為卡爾曼濾波提供所需的AR參數(shù)。采用人耳掩蔽效應(yīng)與譜減法相結(jié)合能有效對語音去噪且不失真,將其作為預(yù)處理方法最終能夠取得較好的增強(qiáng)效果。
1? 語音增強(qiáng)算法分析與實(shí)現(xiàn)
1.1? 基本譜減法及改進(jìn)算法
S.Boll假設(shè)噪聲信號是平穩(wěn)的或變化緩慢的加性噪聲,且在語音信號和噪聲信號不相關(guān)的前提下提出譜減法,假定噪聲是平穩(wěn)的,人耳對相位信息不敏感,將含噪語音的相位作為處理后語音的相位,根據(jù)處理后的幅度和相位進(jìn)行IFFT變換,得到增強(qiáng)后的時(shí)域信號。
設(shè)含噪語音為[y(n)],純凈語音為[s(n)],平穩(wěn)加性高斯白噪聲為[d(n)],有:
[y(n)=s(n)+d(n),? ?0≤n≤N-1] (1)
由傅里葉變換和純凈語音與含噪語音不相關(guān),有:
[EY(k)2=ES(k)2+ED(k)2] (2)
選取適當(dāng)幀長語音信號為短時(shí)平穩(wěn)過程后:
[Y(k)2=S(k)2+λn(k)] (3)
式中[λn(k)]為[D(k)2]的統(tǒng)計(jì)平均,這樣就得到基本譜減法求出原始語音信號的估計(jì)值[S(k)]。
實(shí)際上,噪聲的幀功率譜在譜減聽覺上形成殘留噪聲;語音信號頻譜中殘存的寬帶噪聲從聽覺方面發(fā)揮著掩蔽純音噪聲的功能。基于這些因素的考慮,對基本譜減法進(jìn)行改進(jìn),有:
[S(k)2=maxY(k)2-α*λn(k),β*λn(k),? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?α>1,β?1] (4)
1.2? 基于人耳掩蔽效應(yīng)的語音增強(qiáng)
人耳聽覺只能感受到一定聲壓和頻率范圍的聲音,并不能感受所有頻率和所有聲強(qiáng)的聲音,研究人耳特性對語音增強(qiáng)有著十分重要的作用,這個特性就是聽覺掩蔽效應(yīng),是心理聲學(xué)現(xiàn)象,它由人耳對聲音的頻率分辨機(jī)制決定的。據(jù)聲學(xué)手冊的定義:掩蔽是一個聲音的聽閾因另一個聲音的存在而上升的現(xiàn)象,掩蔽大小就是聽閾上升的分貝數(shù)。
現(xiàn)在針對實(shí)際情況,研究建立在噪聲環(huán)境下的語音壓縮聽覺模型,即采用一個建立在Bark關(guān)鍵頻率段基礎(chǔ)上常用的音頻信號聽覺掩蔽模型——Johnston模型,按照臨界帶寬劃分信號頻域。在Bark頻域中各個臨界帶間的間隔,要考慮到掩蔽音的純音特性即掩蔽音信號是偏純音的還是偏噪聲的,進(jìn)一步得到掩蔽閾值偏移量,并最終求出擴(kuò)展前掩蔽閾值,將計(jì)算出的掩蔽閾值與人耳聽力絕對閾值比較得到最終的掩蔽閾值。
實(shí)際中在所有頻段和語音幀內(nèi)采取固定的譜減系數(shù)語音增強(qiáng)的效果并不理想,現(xiàn)在在人耳掩蔽效應(yīng)模型的基礎(chǔ)上進(jìn)行譜減,對不同頻段和不同的語音幀動態(tài)調(diào)整譜減系數(shù)。基于譜減的聽覺掩蔽增強(qiáng)算法原理圖如圖1所示。
這種方法是利用人耳掩蔽效應(yīng)直接對傳統(tǒng)的增強(qiáng)方法進(jìn)行改進(jìn):
1) 對輸入的含噪語音進(jìn)行分幀和加窗、FFT,對其做譜分析;
2) 端點(diǎn)檢測后通過基本譜減增強(qiáng)法對含噪信號初步估計(jì);
3) 對建立的聽覺掩蔽模型求出具體的掩蔽閾值;
4) 進(jìn)一步得到信號每一幀的動態(tài)譜減參數(shù);
5) 通過對動態(tài)譜減參數(shù)自適應(yīng)的調(diào)節(jié),實(shí)現(xiàn)對含噪信號參數(shù)的調(diào)節(jié);
6) 引入相位信息后,對頻域增強(qiáng)處理后的信號作IFFT變換等,求出增強(qiáng)后的時(shí)域語音信號。
1.3? 基于卡爾曼濾波的語音增強(qiáng)
現(xiàn)實(shí)中的噪聲大都是非平穩(wěn)的,因而研究非平穩(wěn)噪聲狀態(tài)下的語音增強(qiáng)具有重要意義。
卡爾曼濾波在語音去噪已有許多研究應(yīng)用,其結(jié)合語音生成模型,用信號的線性預(yù)測系數(shù)作為狀態(tài)轉(zhuǎn)移矩陣,增強(qiáng)后語音中殘留的音樂噪聲減少,語音自然度提高,其模型參數(shù)估計(jì)的準(zhǔn)確與否直接影響增強(qiáng)語音的質(zhì)量。卡爾曼濾波算法在語音信號去噪方面的應(yīng)用研究較多,主要?dú)w功于其處理數(shù)據(jù)和計(jì)算算法實(shí)現(xiàn)等較為方便。
卡爾曼濾波器的主要過程有兩個,分別是預(yù)估和校正。預(yù)估就是根據(jù)時(shí)間更新方程建立對當(dāng)前狀態(tài)的先驗(yàn)估計(jì),方便構(gòu)造下一狀態(tài)的先驗(yàn)估計(jì)值;校正即是反饋過程,根據(jù)更新方程預(yù)估的先驗(yàn)估計(jì)值和當(dāng)前測量值對現(xiàn)狀態(tài)分析,改進(jìn)后驗(yàn)估計(jì)值。
對含噪語音信號的計(jì)算式為:
[y(k)=s(k)+n(k)] (5)
式中:[s(k)]為純凈語音;[n(k)]為與[s(k)]不相關(guān)的背景噪聲。純凈語音[s(k)]在短時(shí)間段內(nèi)認(rèn)為是平穩(wěn)的,其[p]階AR預(yù)測方程為:
[s(k)=i=1pai(k)s(k-i)+u(k)] (6)
進(jìn)一步得到系統(tǒng)的狀態(tài)空間方程為:
[S(k)=FS(k-1)+Gu(k)y(k)=HS(k)+n(k)] (7)
式中:[S(k)]是[k]時(shí)刻的系統(tǒng)狀態(tài),即語音實(shí)際值;[F]是LPC系數(shù)構(gòu)成的狀態(tài)轉(zhuǎn)移矩陣;[y(k)]是[k]時(shí)刻的測量值;[n(k)]和[u(k)]分別為測量噪聲和過程噪聲,均值始終為零,且其方差分別為[δ2n]和[δ2u]的不相關(guān)白噪聲;[H]和[G]分別為觀測向量和輸入向量。
[H=GT=0,0,…,0,11×p] (8)
[S(k)=s(k-p+1),s(k-p+2),…,s(k)T]? (9)
[F=010…0001…0?????000…1apap-1ap-2…a1p×p] (10)
分幀后的語音信號在假設(shè)初始條件值后,通過卡爾曼濾波遞推求出相應(yīng)的結(jié)果:
[S(00)=0,P(00)=0S(kk-1)=FS(k-1k-1)P(kk-1)=FP(k-1k-1)FT+δ2uGGTK(k)=P(kk-1)HTHP(kk-1)HT+δ2n-1S(kk)=S(kk-1)+K(k)y(k)-HS(kk-1)P(kk)=I-K(k)HP(kk-1)]
迭代計(jì)算后最終得出增強(qiáng)后的語音信號在[k]時(shí)刻的最佳估值:
[S(k)=HS(kk)] (11)
2? 實(shí)驗(yàn)仿真結(jié)果與分析
根據(jù)前文分析研究的增強(qiáng)算法,分別進(jìn)行實(shí)驗(yàn)仿真,算法測試所用語音信號是在實(shí)驗(yàn)室安靜環(huán)境下錄制的,將錄制的語音信號作為原始純凈語音,其采樣率為8 kHz,幀長為1 024,幀移是512,選取的窗函數(shù)為海明窗,求解掩蔽閾值的臨界頻帶數(shù)為24,采用高斯白噪聲作為背景噪聲。
首先是基本譜減法的語音增強(qiáng),其仿真測試結(jié)果如圖2所示(0 dB時(shí))。
通過圖2的仿真結(jié)果發(fā)現(xiàn),基本譜減法增強(qiáng)效果不是很明顯,增強(qiáng)后的語音仍保留了大量噪聲。試聽發(fā)現(xiàn)有流水噪聲伴隨語音,有時(shí)或掩蓋原來的語音,聽覺效果較差。
下面對改進(jìn)譜減法和基于人耳掩蔽效應(yīng)的譜減法進(jìn)行仿真,測試結(jié)果如圖3所示。
從圖3所示的實(shí)驗(yàn)結(jié)果得出:被0 dB白噪聲污染的信號,基于掩蔽效應(yīng)算法的增強(qiáng)結(jié)果圖相比傳統(tǒng)譜減法增強(qiáng)結(jié)果圖更接近原始的語音信號波形圖。試聽表明:新算法語音增強(qiáng)后的噪聲減少較為明顯,音樂噪聲相比基本譜減法不怎么突出,語音信號質(zhì)量改善很大,基于人耳掩蔽的語音增強(qiáng)算法在去除音樂噪聲方面效果更好,但是噪聲濾除仍不太理想。觀察去噪后的信噪比可以發(fā)現(xiàn):基于人耳掩蔽效應(yīng)的譜減法相比基本譜減法信噪比非但沒增加反而有些減少。流水噪聲雖沒那么明顯,但聽音測試發(fā)現(xiàn)局部的噪聲有些許增強(qiáng),特別是在低信噪比時(shí)測定效果較差。
因此基于以上情況,現(xiàn)在將譜減法作為預(yù)處理,為使得去噪后語音效果更好,這里對預(yù)處理得到的語音進(jìn)行卡爾曼濾波增強(qiáng),仿真結(jié)果如圖4所示。
從圖4的仿真結(jié)果看出,利用改進(jìn)卡爾曼濾波算法去噪后,語音質(zhì)量比上述幾種增強(qiáng)算法都有所提高。其語音波形比改進(jìn)譜減法和基于人耳掩蔽效應(yīng)的譜減法得到的波形更加飽滿,寂靜段噪聲的幅度也有明顯減小。試聽發(fā)現(xiàn)基本不存在流水噪聲,這主要?dú)w功于人耳掩蔽,它使流水噪聲沒那么明顯,其次,歸功于卡爾曼濾波以最小均方誤差為估計(jì)的最優(yōu)準(zhǔn)則,去噪實(shí)驗(yàn)效果好。
綜上,實(shí)驗(yàn)分別對采用不同的高斯白噪聲,運(yùn)用前文的幾種語音增強(qiáng)算法分別求出相應(yīng)的輸出信噪比,具體結(jié)果如表1所示。
從表1列出的測試結(jié)果可以看出,在不同信噪比的情況下,改進(jìn)后的卡爾曼濾波語音增強(qiáng)算法較其他幾種算法效果好。
3? 結(jié)? 語
本文主要研究了語音信號增強(qiáng)的幾種算法,及噪聲的產(chǎn)生機(jī)理,對語音信號進(jìn)行預(yù)處理得到初步去噪后的語音,為卡爾曼濾波算法提供較準(zhǔn)確的AR參數(shù),利用Matlab R2014a編程對增強(qiáng)算法進(jìn)行實(shí)驗(yàn)測試,所用語音信號為實(shí)驗(yàn)室安靜環(huán)境下錄制。實(shí)驗(yàn)結(jié)果和數(shù)據(jù)表明,用基于人耳掩蔽效應(yīng)的譜減法對含噪語音作預(yù)處理,然后通過卡爾曼濾波可以取得更好的效果,流水噪聲得到較好的抑制,增強(qiáng)后語音聽起來較為舒適。
注:本文通訊作者為曾慶寧。
參考文獻(xiàn)
[1] PALIWAL K, W?JCICKI K, SCHWERIN B. Single?channel speech enhancement using spectral subtraction in the short?time modulation domain [J]. Speech communication, 2010, 52(5): 450?475.
[2] ZHANG Yi, ZHAO Yunxin. Real and imaginary modulation spectral subtraction for speech enhancement [J]. Speech communication, 2013, 55(4): 509?522.
[3] 蔡文堅(jiān),王輔忠,張慧春,等.基于隨機(jī)共振的微弱語音譜減降噪方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(2):499?502.
[4] 王群,曾慶寧,鄭展恒,等.低信噪比環(huán)境下的麥克風(fēng)陣列語音識別算法研究[J].科學(xué)技術(shù)與工程,2017,17(31):101?107.
[5] 毛維,曾慶寧,龍超.基于雙微陣列的語音增強(qiáng)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(8):2490?2494.
[6] 馬金龍,曾慶寧,龍超,等.多噪聲環(huán)境下可懂度提升的助聽器語音增強(qiáng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(8):2160?2164.
[7] 章旭景,李輝,陸偉.基于子帶卡爾曼濾波的語音增強(qiáng)方法[J].信號處理,2009,25(9):1474?1478.
[8] 黃小平,王巖.卡爾曼濾波原理及應(yīng)用[M].北京:電子工業(yè)出版社,2015:30?76.
[9] 馬麗麗,張曼,陳金廣,等.有色噪聲條件下的高斯和卡爾曼濾波算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(10):2856?2859.
[10] 亓賀,張雪英,武奕峰.頻域內(nèi)的卡爾曼濾波語音增強(qiáng)算法[J].電聲技術(shù),2011,35(10):55?58.
[11] 張勇,劉軼.非平穩(wěn)噪聲環(huán)境下結(jié)合聽覺掩蔽的語音增強(qiáng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(5):1279?1284.
[12] CHEN Jingdong, BENESTY J, HUANG Yiteng, et al. New insights into the noise reduction Wiener filter [J]. IEEE tran?sactions on audio, speech, and language processing, 2006, 14(4): 1218?1234.
作者簡介:鄭展恒(1978—),男,碩士,高級實(shí)驗(yàn)師,研究方向?yàn)樾盘柼幚怼?/p>
曾慶寧(1963—),男,博士,教授,碩導(dǎo),主要研究方向?yàn)樾盘柼幚砑罢Z音、圖像等。