梁瑞宇 趙 力 王青云 鄒采榮,3 荊 麗
(1東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)(2南京工程學(xué)院通信工程學(xué)院,南京 211167)(3廣州大學(xué)機械與電氣工程學(xué)院,廣州 510006)
?
實時多通道數(shù)字助聽器降噪算法
梁瑞宇1,2趙力1王青云1,2鄒采榮1,3荊麗1
(1東南大學(xué)信息科學(xué)與工程學(xué)院,南京210096)
(2南京工程學(xué)院通信工程學(xué)院,南京211167)
(3廣州大學(xué)機械與電氣工程學(xué)院,廣州510006)
摘要:在兼顧降噪性能和功耗的基礎(chǔ)上,提出了一種實時多通道數(shù)字助聽器降噪算法.首先,將輸入信號分解為16個子帶,計算每個子帶的聲壓級,并基于估計的聲壓級來計算子帶噪聲和語音概率;然后,利用直接判決方法計算子帶信號的先驗信噪比和后驗信噪比;最后,計算子帶增益函數(shù)以實現(xiàn)自適應(yīng)降噪.將該算法與改進譜減法、自適應(yīng)維納濾波法和調(diào)制深度法進行了比較.結(jié)果表明:與其他3種算法相比,在10 dB白噪聲的情況下,本文算法輸出的平均信噪比減少約3 dB,主觀語音質(zhì)量評估得分最多提高0.90;在4種噪聲環(huán)境下其平均主觀語音質(zhì)量評估得分提高0.41;所提算法采用子帶聲壓級計算取代信號功率譜估計,節(jié)省了快速傅里葉變換的計算量,其時延較其他3種算法至少降低50%.
關(guān)鍵詞:降噪;多通道助聽器;自適應(yīng)維納濾波;聲壓級
引用本文:梁瑞宇,趙力,王青云,等.實時多通道數(shù)字助聽器降噪算法[J].東南大學(xué)學(xué)報(自然科學(xué)版),2016,46(1) : 13-17.DOI: 10.3969/j.issn.1001-0505.2016.01.003.
噪聲環(huán)境下聽障患者的語音理解度是影響助聽器使用的關(guān)鍵因素之一[1-2],故語音降噪算法是助聽器中的一種核心算法.在超市、聚會等噪聲環(huán)境下,即使說話人聲音很大,聽者仍然有可能無法理解語音內(nèi)容[3],其原因在于,噪聲使聽障患者的聽覺認知過載,從而干擾了神經(jīng)系統(tǒng)對語音處理的能力[4].因此,在噪聲環(huán)境下,不光要提高語音信號的可聽性,更重要的是改善聽障患者的理解度.長期以來,助聽器的降噪方法主要包含方向性麥克風(fēng)技術(shù)和語音降噪算法2類[5].在助聽器設(shè)計中,集成方向性傳聲器的助聽器通常假定使用者正前方的聲音為有用聲音,側(cè)方和后方的聲音為噪聲[6].這種助聽器技術(shù)在實際效果和用戶滿意度方面都存在一定的問題,且受到助聽器體積和功耗的限制.此類助聽器中也會使用降噪算法,如通過降噪提高環(huán)境識別算法性能[7].
在語音降噪方面,譜減法及其改進算法[8]是常用的降噪方法,其關(guān)鍵在于噪聲功率的估計,但這類方法容易產(chǎn)生音樂噪聲.在自適應(yīng)降噪算法中,維納濾波算法是助聽器降噪算法中的研究熱點之一[9],較高的算法復(fù)雜度一直是影響其實用化的關(guān)鍵因素.調(diào)制深度法是商用助聽器常用的一種降噪算法,該算法通過檢測調(diào)制深度來推斷語音信號是否存在,從而調(diào)整信號增益以實現(xiàn)語音降噪.但是,當語音為競爭性噪聲時,該算法不能區(qū)分期望的語音信號和不需要的噪聲.除了經(jīng)典算法外,研究者們基于時頻分析、深度神經(jīng)網(wǎng)絡(luò)、正交分解、小波變換、壓縮感知等提出了用于實現(xiàn)語音降噪的新算法[10-12],但大部分算法的復(fù)雜度較高,無法移植到助聽器類低功耗、低時延的產(chǎn)品中.
針對現(xiàn)有問題,本文提出了一種改進的多通道數(shù)字助聽器降噪算法.通過子帶噪聲估計,計算并調(diào)整每個子帶的增益函數(shù)以抑制噪聲.為了降低常用譜估計算法的復(fù)雜度,使用子帶聲壓級估計代替信號功率譜估計.與改進譜減法[8]、自適應(yīng)維納濾波法[13]和調(diào)制深度法[7]相比,本文算法在信噪比(SNR)和主觀語音質(zhì)量評估得分(PESQ)方面都有一定改善,且算法時延最?。?/p>
多通道數(shù)字助聽器降噪系統(tǒng)如圖1所示.含噪語音信號通過預(yù)加重處理后進行多通道分解.系統(tǒng)選用6階IIR濾波器組進行信號分解,通道數(shù)為16.信號分解后,在每個子帶進行聲壓級計算、降噪和非線性響度補償?shù)然静僮鳎盘柼幚硗瓿珊?,?jīng)濾波器綜合并去加重,形成降噪后的語音信號.
圖1 多通道數(shù)字助聽器降噪系統(tǒng)框圖
設(shè)子帶k的第m幀信號為y(m,k),可表示為
式中,s(m,k),n(m,k)分別為子帶純凈語音信號和噪聲信號.
在基于先驗信噪比的維納濾波算法中,子帶k的增益函數(shù)G(m,k)為
式中,Zprio(m,k)為子帶k中第m幀信號的先驗信噪比.當語音質(zhì)量下降時,減少G(m,k)可抑制噪聲.Zprio(m,k)通常采用直接判決算法[14]獲得,即
式中,‖Y(m,k)‖2為輸入信號y(m,k)的功率譜.
功率譜通常基于FFT計算所得,故計算量較大.為此,本文結(jié)合助聽器的基本算法,提出了一種改進策略,即采用聲壓級替代輸入信號功率譜.聲壓級計算公式為
式中,pref=20×10-5Pa為參考聲壓; R為系統(tǒng)常量;‖y(m,k)‖2為輸入信號能量.
①按照式(5)計算子帶聲壓級L(m,k).
②計算平滑的子帶能量,即
式中,α∈[0,1]為平滑系數(shù),且此處取值為0.7.
③計算子帶信號的最小能量Pmin(m,k),即
式中,δ為調(diào)整門限,此處取值為5.子帶語音概率p(m,k)為
式中,ξ為概率更新系數(shù),此處取值為0.2.
⑤計算估計的子帶噪聲功率譜,即
式中,η=0.8.
⑥將式(5)~(10)代入式(2)~(3),可得增益函數(shù)G(m,k).第m幀降噪語音^s(m,k)為
需要注意的是,系數(shù)η,α,β,γ,ξ的取值需要在語音質(zhì)量和失真程度、響應(yīng)速度和評估精度之間折中選擇.為獲得滿意的性能,在不同的數(shù)字助聽器或聲學(xué)場景下需要采用不同的系數(shù).
式中,β和γ為經(jīng)驗系數(shù),此處β=0.96,γ=0.99.
④計算I(m,k),以確定子帶內(nèi)是否存在語音,其計算公式為
3.1實驗設(shè)置
為了考察本文算法的性能和計算量,將其與改進譜減法[8]、自適應(yīng)維納濾波法[13]和調(diào)制深度法[7]進行了比較.測試指標包括SNR,PESQ和算法時延.實驗安排在靜音室里進行,播放設(shè)備為揚聲器陣列(包含4個揚聲器和1個低音炮).使用聲場景仿真軟件SurroundRouter產(chǎn)生測試場景.實驗噪聲選自NoiseX-92噪聲庫,主要使用白噪聲、驅(qū)逐艦噪聲、語音噪聲和粉紅噪聲.所選用的語音文件來自TIMIT語音庫,信號的采樣率為16 kHz.測試用助聽器放置在揚聲器陣列中心位置處.助聽器聲壓級采用TES-52A聲壓計進行校準.實驗過程中圖1所示的響度補償功能是關(guān)閉的.為比較分幀引起的時延,子帶的幀長分別取為32,64,128.
3.2降噪性能比較
利用4種算法得到的降噪后的語音波形和語譜圖見圖2.所選語音片段為TIMIT語音庫中的kdt_070文件,輸入信噪比為10 dB,噪聲類型為白噪聲.由圖可知,本文算法的效果最佳,所得的信號波形和語譜圖與純凈語音信號最接近;改進譜減法的效果最差;調(diào)制深度法的效果略好;自適應(yīng)維納濾波法雖然過濾了大部分噪聲,但在語音段的處理略差.
圖2 降噪前后的語音波形和語譜比較
為了綜合比較算法性能,給出了50段語音的平均輸出信噪比和平均PESQ,結(jié)果分別見圖3和表1.實驗中選取的輸入信噪比為0,10 dB,算法幀長為128.由實驗結(jié)果可知,本文算法的平均性能與自適應(yīng)維納濾波算法的平均性能相近,明顯優(yōu)于其他2種算法.當輸入信噪比為10 dB時,平均輸出信噪比提高約3 dB.當輸入信噪比為0 dB時改善程度不明顯,說明算法在低信噪比情況下仍需改善.對于不同類型的噪聲而言,本文算法對于白噪聲和驅(qū)逐艦噪聲的降噪效果最好;而對于其余2種噪聲,自適應(yīng)維納濾波算法的性能最佳.對比4種算法,改進譜減法的平均輸出信噪比最?。骄鵓ESQ的比較結(jié)果與平均輸出信噪比的比較結(jié)果基本相似.在4種噪聲環(huán)境下,本文算法的平均主觀語音質(zhì)量評估得分提高0.41.4種算法的平均PESQ由高到低分別為:本文算法、自適應(yīng)維納濾波算法、調(diào)制深度法、改進譜減法.其中,在10 dB白噪聲情況下,本文算法的平均PESQ最多提高0.90.
圖3 4種算法的平均輸出信噪比對比
表1 4種算法的平均PESQ對比
3.3算法復(fù)雜度與實時性能比較
對于數(shù)字助聽器來說,從輸入到輸出的時延不能超過40 ms.實際上,在一些高端商業(yè)助聽器中,時延通??刂圃谑畮缀撩耄虼?,計算復(fù)雜度是數(shù)字助聽器算法的關(guān)鍵指標.低復(fù)雜度意味著實時性好、功耗低.
對于改進譜減法和自適應(yīng)維納濾波法而言,F(xiàn)FT和快速傅里葉逆變換(IFFT)是必不可少的.而調(diào)制深度法是通過計算調(diào)制深度幅度來估計噪聲的,不需要進行FFT和IFFT運算,故其復(fù)雜度較低;但是當噪聲本身為語音時,該算法的性能明顯下降.本文算法使用子帶聲壓級計算來替代復(fù)雜的信號功率譜估計,計算復(fù)雜度低,具有較佳的降噪性能.4種算法的時延性能如圖4所示.統(tǒng)計的延時時間包括從分解到綜合的全過程,即信號分解、子帶聲壓級計算、子帶降噪和語音綜合,不包括響度補償.由圖可知,本文算法的時延最小,自適應(yīng)維納濾波法的時延最大.本文算法采用子帶聲壓級計算取代信號功率譜估計,節(jié)省了FFT的計算量,其時延較其他3種算法至少降低50%.當幀長為128時,本文算法的時延至少減少2/3.
圖4 4種算法的時延性能對比
針對助聽器降噪算法的特殊性,本文提出了一種實時多通道數(shù)字助聽器降噪算法.該算法綜合考慮了降噪性能和算法實時性,以子帶聲壓級計算代替信號功率譜估計,從而有效降低了算法復(fù)雜度.與3種常用算法的對比實驗結(jié)果顯示,本文算法的綜合性能最好.在輸出信噪比和PESQ沒有明顯降低的情況下,本文算法的時延顯著減少.未來的研究方向是通過分析不同的數(shù)字助聽器和聲學(xué)場景對算法系數(shù)的影響來選擇算法參數(shù),從而提高算法的適應(yīng)性.
參考文獻(References)
[1]Swanepoel D W,Clark J L,Koekemoer D,et al.Telehealth in audiology: The need and potential to reach underserved communities[J].International Journal of Audiology,2010,49 (3) : 195-202.DOI: 10.3109/ 14992020903470783.
[2]KochKiN S.MarkeTrakⅧ: The key influencing factors in hearing aid purchase intent[J].Hearing Review,2012,19(3) : 12-25.
[3]Lunner T,Sundewall-Thorén E.Interactions between cognition,compression,and listening conditions: Effects on speech-in-noise performance in a two-channel hearing aid[J].Journal of the American Academy of Audiology,2007,18(7) : 604-617.
[4]Kalluri S,Humes L E.Hearing technology and cognition[J].American Journal of Audiology,2012,21 (2) : 338-343.DOI: 10.1044/1059-0889(2012/12 -0026).
[5]Kamkar-Parsi A H,Bouchard M.Instantaneous binaural target PSD estimation for hearing aid noise reduction in complex acoustic environments[J].IEEE Transactions on Instrumentation and Measurement,2011,60 (4) : 1141-1151.
[6]Shinn-Cunningham B G,Best V.Selective attention in normal and impaired hearing[J].Trends in Amplification,2008,12 (4 ) : 283-299.DOI: 10.1177/ 1084713808325306.
[7]Chung K.Challenges and recent developments in hearing aids.Part I.Speech understanding in noise,microphone technologies and noise reduction algorithms[J].Trends in Amplification,2004,8(3) : 83-124.DOI: 10.1177/108471380400800302.
[8]Boll S F.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1979,27(2) : 113 -120.DOI: 10.1109/TASSP.1979.1163209.
[9]Ngo K,Spriet A,Moonen M,et al.A combined multichannel Wiener filter-based noise reduction and dynamic range compression in hearing aids[J].Signal Processing,2012,92(2) : 417-426.DOI: 10.1016/j.sigpro.2011.08.006.
[10]Hendriks R C,Gerkmann T,Jensen J.DFT-domain based single-microphone noise reduction for speech enhancement: A survey of the state of the art[J].Synthesis Lectures on Speech and Audio Processing,2013,9(1) : 1-80.
[11]Benesty J,Chen J,Huang Y A,et al.Time-domain noise reduction based on an orthogonal decomposition for desired signal extraction[J].The Journal of the Acoustical Society of America,2012,132(1) : 452-464.DOI: 10.1121/1.4726071.
[12]Aggarwal R,Singh J K,Gupta V K,et al.Noise reduction of speech signal using wavelet transform with modified universal threshold[J].International Journal of Computer Applications,2011,20(5) : 14-19.
[13]Scalart P,F(xiàn)ilho J V.Speech enhancement based on a priori signal to noise estimation[C]/ /IEEE International Conference on Acoustics,Speech and Signal Processing.Atlanta,GA,USA,1996: 629-632.
Real-time noise reduction algorithm for multi-channel digital hearing aids
Liang Ruiyu1,2Zhao Li1Wang Qingyun1,2Zou Cairong1,3Jing Li1
(1School of Information Science and Engineering,Southeast University,Nanjing 210096,China)
(2School of Communication Engineering,Nanjing Institute of Technology,Nanjing 211167,China)
(3School of Mechanical and Electric Engineering,Guangzhou University,Guangzhou 510006,China)
Abstract:A real-time noise reduction algorithm for multi-channel digital hearing aids is proposed based on the balance between noise reduction performance and power consumption.First,the input signal is decomposed into 16 subbands and the sound pressure level(SPL) of each subband is calculated.Based on the estimated SPL,the subband noise and the speech probability are computed.Then,the priori signal noise ratio (SNR) and the posteriori SNR of the subband signal are calculated by the direct decision method.Finally,the gain function is calculated to adaptively reduce noises.And the proposed algorithm is compared with the improved spectral subtraction,adaptive Wiener filter and the algorithm based on the modulation depth.The experimental results show that compared with the other three algorithms,the average SNR of the proposed algorithm decreases by about 3 dB and the perceptual evaluation of speech quality (PESQ) is at most improved by 0.90 when the SNR of the white noise is 10 dB.In addition,the average output PESQ is improved by 0.41 in four kinds of noisy environments.In the proposed algorithm,the estimation of the power spectrum is replaced by the calculation of the subband SPL and the fast Fourier transform computation is reduced,inducing at least 50% decrease of the time-delay compared with the other three algorithms.
Key words:noise reduction; multi-channel hearing aid; adaptive Wiener filtering;sound pressure level
基金項目:國家自然科學(xué)基金資助項目(61273266,61301219,61375028)、江蘇省自然科學(xué)基金資助項目(BK20130241).
收稿日期:2015-08-30.
作者簡介:梁瑞宇(1978—),男,博士,副教授;趙力(聯(lián)系人),男,博士,教授,博士生導(dǎo)師,zhaoli@ seu.edu.cn.
DOI:10.3969/j.issn.1001-0505.2016.01.003
中圖分類號:TN912.3
文獻標志碼:A
文章編號:1001-0505(2016) 01-0013-05