趙宏志 安朋博 杜麗霞
摘 要:語(yǔ)音增強(qiáng)是解決語(yǔ)音噪聲污染的一種有效手段。本文簡(jiǎn)單介紹了現(xiàn)有的基于語(yǔ)音短時(shí)對(duì)數(shù)譜的最小均方誤差(MMSE-LSA)進(jìn)行估計(jì)的語(yǔ)音增強(qiáng)算法。利用幀間平滑定義平滑系數(shù)來(lái)對(duì)先驗(yàn)信噪比進(jìn)行連續(xù)估計(jì),在減少語(yǔ)音失真機(jī)會(huì)的同時(shí),能夠有效地抑制殘留噪聲。文章還通過(guò)MATLAB仿真分析其優(yōu)劣,并結(jié)合算法的優(yōu)點(diǎn)來(lái)達(dá)到語(yǔ)音增強(qiáng)的最佳效果,從而提高語(yǔ)音信號(hào)的可懂度和識(shí)別率。
關(guān)鍵詞:語(yǔ)音增強(qiáng);MMSE-LSA;幀間平滑;MATLAB仿真
中圖分類號(hào):TP391.42;TN912.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)02-0118-02
Research and Implementation of MMSE-LSA Speech Enhancement algorithm
ZHAO Hongzhi,AN Pengbo,DU Lixia
(School of Electronics and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
Abstract:Speech enhancement is an effective means to solve speech noise pollution.This paper briefly introduces the existing speech enhancement algorithm based on the minimum mean-squared error (MMSE-LSA) estimation of speech short-time log spectrum,then improve the speech enhancement algorithm based on MMSE-LSA,to improve the effect of speech enhancement,and the enhanced speech is more in line with human hearing.Using inter-frame smoothing to define the smoothing coefficient continuously estimates the a priori SNR,which can effectively suppress the residual noise while reducing the opportunity for speech distortion.The advantages and disadvantages are analyzed through MATLAB simulation,and the advantages of the algorithm are combined to achieve the best effect of speech enhancement,thereby improving the intelligibility and recognition rate of the speech signal.
Keywords:speech enhancement;MMSE-LSA;inter-frame smoothing;MATLAB simulation
0 引 言
語(yǔ)音信號(hào)是人類傳播信息和表達(dá)感情的重要媒體,是聽覺器官對(duì)聲音傳播介質(zhì)機(jī)械振動(dòng)地感知,也是人類最重要、最有效、最常用和最方便的通信方式。但是語(yǔ)音信號(hào)在傳送過(guò)程中會(huì)受到不同程度的干擾,這會(huì)影響語(yǔ)音的質(zhì)量與自然度。因此需要從帶噪語(yǔ)音信號(hào)中提取出盡可能純凈的原始語(yǔ)音,并對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行語(yǔ)音增強(qiáng)處理,從而達(dá)到抗噪效果。
本文以基本的MMSE-LSA算法為基礎(chǔ),結(jié)合其優(yōu)點(diǎn)提出了新的增強(qiáng)算法,并對(duì)其進(jìn)行了大量的仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果說(shuō)明該方法對(duì)語(yǔ)音有顯著的增強(qiáng)效果。
1 短時(shí)對(duì)數(shù)譜的MMSE語(yǔ)音增強(qiáng)算法
設(shè)帶噪信號(hào)為y(t)=s(t)+d(t),0≤t≤T,其中s(t)為純凈語(yǔ)音信號(hào),d(t)為平穩(wěn)、加性、高斯白噪聲。令Yk=Rkexp(jθk),Sk=Akexp(jαk),分別表示帶噪語(yǔ)音y(t)、信號(hào)s(t)和噪聲d(t)進(jìn)行FFT后的第k個(gè)頻譜分量;Rk、Ak分別表示帯噪語(yǔ)音和純凈語(yǔ)音信號(hào)的幅值。語(yǔ)音增強(qiáng)的任務(wù)就是利用已知的噪聲功率譜信息,從y(t)中估計(jì)出s(t),即由Yk估計(jì)出Sk。這里僅需求出頻譜幅度的對(duì)數(shù),然后對(duì)純凈語(yǔ)音的短時(shí)對(duì)數(shù)譜作最小均方誤差估計(jì)。處理后的語(yǔ)音由估計(jì)得到的幅度譜和相位重建。因而估值問題可以簡(jiǎn)化為估計(jì)Ak。Ak的估計(jì)式為:?k=exp{E[lnAk|Yk]}。
設(shè)Zk=lnAk,則有:
(1)
為求均方誤差最小值。通過(guò)計(jì)算的到增益函數(shù)可以寫成:
(2)
其中ξk、γk分別是先驗(yàn)信噪比和后驗(yàn)信噪比。
2 先驗(yàn)信噪比的求解及進(jìn)行幀間平滑
先驗(yàn)信噪比ξk的求解是由前一幀先驗(yàn)信噪比ξk-1與當(dāng)前后驗(yàn)信噪比γk共同決定的。然而MMSE-LSA估計(jì)量是在假定先驗(yàn)信噪比ξk和噪聲方差λd(k)己知的條件下得到的。在實(shí)際系統(tǒng)中,這些參數(shù)通常由估計(jì)得到。在語(yǔ)音起始段和結(jié)束段時(shí)不能很好地跟蹤先驗(yàn)信噪比的變化。因此,先驗(yàn)信噪比和在頻域進(jìn)行頻譜的平滑是問題的關(guān)鍵。
2.1 先驗(yàn)信噪比的估計(jì)
引入直接決策(Decision-Directed)算法對(duì)先驗(yàn)信噪比進(jìn)行估計(jì),同時(shí)決定前一幀先驗(yàn)信噪比ξk-1與當(dāng)前后驗(yàn)信噪比γk對(duì)當(dāng)前幀先驗(yàn)信噪比的貢獻(xiàn)。根據(jù)先驗(yàn)信噪比與后驗(yàn)信噪比的關(guān)系為ξk(n)=γk(n)-1,由此可得:
(3)
在該式中,pd(k,n-1)表示噪聲能量;Ak(n-1)表示n-1個(gè)分幀中第k個(gè)分量的語(yǔ)音頻譜幅度;α為直接決策系數(shù),。由于語(yǔ)言信號(hào)的短時(shí)平穩(wěn)性,α的取值應(yīng)該隨著當(dāng)前后驗(yàn)信噪比和前一幀的先驗(yàn)信噪比的變化而變化。但由于直接決策算法估計(jì)出的當(dāng)前幀的增益函數(shù)只與前一幀有關(guān),因而不能較好地匹配當(dāng)前幀。由此需要在幀與幀之間進(jìn)行增強(qiáng)處理時(shí),要更加平滑以減少各點(diǎn)之間的不連續(xù)性。
2.2 幀間平滑處理
由于對(duì)當(dāng)前幀的平滑需要利用后一幀的信息,因此在需要實(shí)時(shí)處理的情況下,采用一個(gè)兩點(diǎn)的平滑濾波器,假設(shè)待平滑頻域樣點(diǎn)序列為Si=[si,0,si,1,si,2,…,si,N-1],其中N為頻點(diǎn)個(gè)數(shù)。待平滑幀前一幀頻域樣點(diǎn)序列為Si-1=[si-1,0,si-1,1,si-1,2,…,si-1,N-1],則經(jīng)由平滑處理后,當(dāng)前幀頻域樣點(diǎn)序列為,其中。定義平滑因子α(k,n),首先定義前一幀的先驗(yàn)信噪比為ξk-1,當(dāng)前幀的后驗(yàn)信噪比為γk,并定義代價(jià)函數(shù)J為增強(qiáng)后語(yǔ)音 與純凈語(yǔ)音s(n)的均方誤差,即:
(4)
令J對(duì)因子α的偏導(dǎo)數(shù)為0,可得:α(k,n)=1-?[ξ(k-1,n),γ(k,n)],其中函數(shù):
(5)
則可得先驗(yàn)信噪比為:
(6)
考慮幀間平滑可得:
(7)
3 算法實(shí)現(xiàn)及仿真結(jié)果
通過(guò)MATLAB對(duì)算法進(jìn)行仿真,并對(duì)時(shí)域波形和語(yǔ)譜圖進(jìn)行觀察分析,可知優(yōu)化后的MMSE-LSA與原來(lái)的算法相比,能夠有效地濾除背景噪聲并且減少原始語(yǔ)音信號(hào)的失真。圖1是原始語(yǔ)音信號(hào)及加噪語(yǔ)音信號(hào)和增強(qiáng)后語(yǔ)音信號(hào)波形。試驗(yàn)對(duì)不同信噪比條件下的含噪語(yǔ)音進(jìn)行了增強(qiáng),通過(guò)觀察語(yǔ)音信號(hào)的時(shí)域波形圖和語(yǔ)譜圖,發(fā)現(xiàn)新算法能夠在有效濾除背景噪聲的情況下保持原始語(yǔ)音信號(hào)的較小失真,從而有效地改善語(yǔ)音質(zhì)量。
圖1 增強(qiáng)后的波形對(duì)比圖
4 結(jié) 論
本文主要研究了基于短時(shí)對(duì)數(shù)譜的語(yǔ)音增強(qiáng)(MMSE-LSA)算法,以及算法中先驗(yàn)信噪比的估計(jì)和幀間平滑。試驗(yàn)表明該新算法在保證較小失真的情況下,比較明顯地降低了噪聲,在性能上比原MMSE-LSA算法有較大的優(yōu)勢(shì),并且運(yùn)算量不大,適用范圍廣。
參考文獻(xiàn):
[1] 朱先和,楊世平.基于小波變換對(duì)信號(hào)噪聲的處理研究 [J].電子科技,2016,29(6):128-131.
[2] Hu Y,Loizou P C. Speech enhancement based on wavelet thresholding the multitaper spectrum [J].IEEE Transactions on Speech & Audio Processing,2004,12(1):59-67.
[3] 李軒,張瑜,關(guān)慶陽(yáng).衛(wèi)星信道MMSE和LS均衡算法性能比較 [J].電子科技,2015,28(7):84-86.
[4] Hasan M K,Zilany MSA,Khan M R. DCT speech enhancement with hard and soft thresholding criteria[J]. Electronics Letters,2002,38(13):669-670.
[5] 楊龍.幾種單通道的語(yǔ)音增強(qiáng)算法研究 [J].科技視界,2015(26):155+222.
[6] Wang Y,Han K,Wang D L. Exploring Monaural Features for Classification-Based Speech Segregation [J].IEEE Transactions on Audio Speech & Language Processing,2013,21(2):270-279.
[7] Xu T,Wang W. A block-based compressed sensing method for underdetermined blind speech separation incorporating binary mask [C]// IEEE International Conference on Acoustics Speech and Signal Processing,2010,130(5):2022-2025.