一種基于MMSE-LSA和VAD的語音增強(qiáng)算法

2014-08-08 08:24晏光華

移動通信 2014年10期

【摘要】通過介紹語音增強(qiáng)的特點(diǎn)，詳細(xì)分析了最小均方誤差對數(shù)譜幅度估計(jì)（MMSE-LSA）算法，并提出了與MMSE-LSA算法相匹配的語音激活檢測（VAD）算法。該方案計(jì)算簡單、易于實(shí)現(xiàn)且語音增強(qiáng)效果好，能夠動態(tài)地跟蹤背景噪聲的變化。最后通過仿真分析，比較了MMSE-LSA與其它幾種語音增強(qiáng)算法的增強(qiáng)效果。

【關(guān)鍵詞】MMSE-LSAVAD語音增強(qiáng)

中圖分類號：TN912.35文獻(xiàn)標(biāo)識碼：B文章編號：1006-1010(2014)-10-0059-04

A Speech Enhancement Algorithm Based on MMSE-LSA and VAD

YAN Guang-hua

[Abstract] The minimum mean square error of log-spectral amplitude estimator (MMSE-LSA) algorithm is analyzed in detail by introducing the characteristics of speech enhancement, and voice activity detection (VAD) algorithm matching with MMSE-LSA algorithm is proposed. This scheme is simple and easy to implement and its speech enhancement effect is good. In addition, it can track the changes of background noise dynamically. Finally, the enhancement effect of MMSE-LSA is compared with that of other algorithms by the analysis of simulation.

[Key words]MMSE-LSAVADspeech enhancement

1 引言

在語音通信特別是軍用語音通信中，各類的噪聲干擾較為普遍，坦克、飛機(jī)、艦船上的電臺常常會受到很強(qiáng)的背景噪聲干擾，嚴(yán)重影響語音通信的質(zhì)量和效果。普通濾波手段作用有限，難以有效地消除噪聲，因此有必要采用語音增強(qiáng)技術(shù)，提高語音通信的效果。

語音增強(qiáng)是消除語音中噪聲干擾的重要手段，它在語音低速編碼、語音識別和人機(jī)語音交互等領(lǐng)域都有著重要的應(yīng)用，在軍用語音通信中具有重要的意義。語音增強(qiáng)的基本思想是從與噪聲混淆的語音信號中提取純凈的語音信號，消除背景噪聲的影響，提高語音的清晰度和自然度，使收聽者能夠更清楚、更舒適地聽清話音。典型的語音增強(qiáng)算法有減譜法、自適應(yīng)濾波、維納濾波、最小均方誤差估計(jì)（MMSE）等。其中，減譜法及其改進(jìn)算法會存在較明顯的音樂噪聲；自適應(yīng)濾波和維納濾波算法會造成語音信號的失真；而基于短時譜分析的最小均方誤差估計(jì)（MMSE-STSA）算法的語音增強(qiáng)效果最優(yōu)，對背景噪聲的抑制度高、使語音信號的失真度低。

本文詳細(xì)分析了一種改進(jìn)的MMSE-STSA算法——最小均方誤差對數(shù)譜幅度估計(jì)（MMSE-LSA）算法，并利用該算法對數(shù)譜幅度已知的特點(diǎn)，提出了僅需對數(shù)譜幅度的VAD算法與之結(jié)合使用，最后還給出了測試結(jié)果和結(jié)論。

2 MMSE-LSA原理

語音增強(qiáng)是從語音和人講話的特點(diǎn)發(fā)展而來，人們在說話的時候總是存在停頓，據(jù)統(tǒng)計(jì)停頓時間約占講話總時間的40%～60%。而收聽到的語音信號可以看作凈語音與噪聲的疊加，因此在講話的停頓時間就認(rèn)為只存在噪聲而不存在語音。利用語音激話檢測（VAD）算法判斷語音的停頓，并統(tǒng)計(jì)噪聲，最后利用MMSE 算法估計(jì)出純凈的語音。語音增強(qiáng)的處理對象是語音信號，效果表現(xiàn)形式是人耳對語音的感知，在做數(shù)字信號處理時需要以下兩點(diǎn)作為依據(jù)：

（1）語音信號是時變、非平穩(wěn)隨機(jī)過程，但是它在10～30ms可以近似看成平穩(wěn)的；

（2）人耳對語音的感知主要依賴語音信號的幅度，而對其相位不敏感。

MMSE-LSA算法的結(jié)構(gòu)如圖1所示。首先根據(jù)語音信號的準(zhǔn)平穩(wěn)特性對語音信號進(jìn)行分幀處理，這樣每一幀信號都認(rèn)為具有平穩(wěn)特性，再求出每幀信號的短時頻譜，提取特征參數(shù)；然后利用VAD算法判斷每幀信號是噪聲還是含噪語音，并用MMSE方法估計(jì)出純凈語音的短時譜幅度（STSA）；最后利用人耳對語音相位不敏感的特性，用輸入信號的短時譜相位和估計(jì)的短時譜幅度重構(gòu)語音信號，從而得到增強(qiáng)后的語音信號。

圖1MMSE-LSA算法結(jié)構(gòu)圖

設(shè)收到的帶噪語音信號y(t)可以表示為：

y(t)=x(t)+n(t)（1）

其中，x(t)為純凈的語音信號；n(t)為加性噪聲。

根據(jù)語音信號短時平穩(wěn)的特性，對輸入的帶噪語音信號y(t)分幀，為了避免分幀時產(chǎn)生截?cái)嘈?yīng)，影響話音質(zhì)量，對分幀的信號加窗處理。同時，為了保證輸出語音的連續(xù)性，采用滑動窗方式分幀。出于硬件平臺對FFT運(yùn)算的要求，本文處理的幀長度為256點(diǎn)，每幀更新100采樣點(diǎn)，采用漢明窗。分幀后的語音信號如式（2）所示：

（2）

其中，yn(t)表示滑動窗分幀后的第n幀信號；H(t)表示漢明窗；為加窗后的語音信號。

對做FFT運(yùn)算，得到語音信號的第n幀短時頻Yn(W)，通過VAD判斷每一幀的輸入信號是噪聲或者是含噪語音信號，并利用判斷結(jié)果更新噪聲短時譜幅度的統(tǒng)計(jì)值N(W)。根據(jù)人耳對相位不敏感的特性，只考慮短時譜的幅度，利用|Yn(W)|2和|N(W)|2可以直接求得后驗(yàn)信噪比。后驗(yàn)信噪比可以表示成當(dāng)前輸入信號功率與噪聲功率的比值。由于當(dāng)前輸入信號功率可以近似看作語音信號功率與噪聲功率之和，因此后續(xù)的計(jì)算要減1。后驗(yàn)信噪比可以表示為：

（3）

使用后驗(yàn)信噪比計(jì)算增益函數(shù)固然可以起到語音增強(qiáng)的目的，但是使用先驗(yàn)信噪比計(jì)算增益函數(shù)能更加有效地抑制音樂噪聲。采用直接判決法（DD）對先驗(yàn)信噪比進(jìn)行估計(jì)，如式（4）所示：

（4）

其中，Yn-1(W)為上一幀輸入的語音信號；Gn-1(W)為上一幀的增益；α為平滑系數(shù)，范圍為0～1；max{}表示兩者中值較大的一個。通過式（4）可以看出，先驗(yàn)信噪比是以遞推方式求出的。

根據(jù)選取代價(jià)函數(shù)的不同，增益因子可以衍生出多種估計(jì)行形。其中，基于先驗(yàn)信噪比的對數(shù)譜估計(jì)增益函數(shù)能較好地消除噪聲。增益函數(shù)如式（5）所示，其中積分為指數(shù)積分函數(shù)。

（5）

通過增益函數(shù)可求得增強(qiáng)后的語音信號短時譜，如式（6）所示：

Xn(W)=Gn(W)*Yn(W) （6）

用IFFT運(yùn)算將估計(jì)的純凈語音信號短時譜Xn(W)變換為時域信號，并通過窗疊加保證輸入輸出的點(diǎn)數(shù)一致。

endprint

3 VAD檢測

在語音增強(qiáng)方案中，VAD算法是非常重要的一部分。由于現(xiàn)實(shí)環(huán)境中大部分的背景噪聲是非平穩(wěn)的，為了保證語音增強(qiáng)的效果，需要時刻跟蹤背景噪聲的變化。VAD的目的就是判斷輸入的語音信號是語音還是背景噪聲，同時VAD判斷的準(zhǔn)確程度直接影響著語音增強(qiáng)的效果。根據(jù)語音在短時能量、短時過零率、倒譜系數(shù)等方面的特征，VAD具有多種算法。本文采用的VAD算法利用語音信號的短時全帶能量包絡(luò)、低通帶能量包絡(luò)和高通帶能量包絡(luò)進(jìn)行決策，計(jì)算量小且準(zhǔn)確度高，能夠在低信噪比下保持較小的虛警概率。

根據(jù)以上對MMSE-LSA的描述可知，在VAD檢測中語音信號的短時對數(shù)譜幅度是已知的，VAD算法僅需要對各子帶的能量進(jìn)行簡單的計(jì)算和判決，而不需要再計(jì)算語音信號的短時能量。接收語音信號的全帶能量Ep、低通帶能量Elp和高通帶能量Ehp計(jì)算公式分別如下：

（7）

（8）

（9）

其中，p表示輸入語音信號的第p幀；n表示全帶的各頻點(diǎn)；l表示截止頻率以內(nèi)的各頻點(diǎn)；h表示截止頻率以外的各頻點(diǎn)。為了平滑各帶能量值，在幾幀內(nèi)對能量做一階低通濾波處理，若能量增加則不做平滑處理，防止造成拖尾效應(yīng)。最后，算法利用每幀信號各帶能量的最大值、最小值進(jìn)行VAD檢測。VAD算法的流程圖如圖2所示。

VAD算法首先要初始化能量包絡(luò)的各參數(shù)，根據(jù)人講話的特點(diǎn)，假設(shè)語音開頭的100～200ms為背景噪聲，利用這段時間的語音信號能量平均值初始化包絡(luò)參數(shù)如下：

Emin=Ep，Emax=Ep（10）

Elp.min=Elp，Elp.max=Elp （11）

Ehp.min=Ehp，Ehp.max=Ehp （12）

對三個子帶包絡(luò)能量的最大值、最小值做一階濾波平滑處理，并計(jì)算每個子帶能量最大值和最小值之間的差值。

Δ=Emax-Emin（13）

Δlp=Elp.max-Elp.min （14）

Δhp=Ehp.max-Ehp.min （15）

最后，對各包絡(luò)能量進(jìn)行多邊界判決得出VAD檢測的結(jié)果。多邊界判決的門限值η和權(quán)值pc可以自適應(yīng)地調(diào)整以滿足不同的需求。

4 仿真結(jié)果分析

如何客觀地評價(jià)語音效果是一項(xiàng)非常重要且繁瑣的工作，因?yàn)檎Z音的最終目的是讓收聽者聽清話音，需要根據(jù)人耳獨(dú)特的聽覺特性來評價(jià)語音質(zhì)量的好壞。目前還沒有比較客觀的方法來準(zhǔn)確地評價(jià)語音質(zhì)量的好壞，所以測試大多采用主觀評價(jià)方法。常用的主觀評價(jià)方法有平均意見得分（MOS）、判斷韻字測試（DRT）和判斷滿意度測試（DAM）。目前國際上最通用的主觀評價(jià)方法是MOS評價(jià)，它是從絕對等級評價(jià)法發(fā)展而來，用于對語音整體滿意度或語音通信系統(tǒng)質(zhì)量的評分。標(biāo)準(zhǔn)的MOS測試要求參加測試的實(shí)驗(yàn)者人數(shù)應(yīng)在40人以上，所測試的語音材料要足夠豐富，測試環(huán)境要盡量保持一致。

由于實(shí)際的測試條件有限，本文對語音增強(qiáng)效果的評價(jià)采用了簡單化的平均意見得分（MOS）方法，并根據(jù)增強(qiáng)語音對語音信號本身的失真程度以及背景噪聲的抑制程度進(jìn)行綜合評價(jià)。測試者僅限于實(shí)驗(yàn)室的8個人，語音增強(qiáng)的語料庫采用了不同信噪比下自錄的男生、女生及標(biāo)準(zhǔn)播報(bào)員聲音測試，噪聲選用包括白噪聲在內(nèi)的noise92噪聲庫的多種噪聲。

本文在VC平臺上實(shí)現(xiàn)了幾種語音增強(qiáng)方法，包括：MMSE-LSA、基本減譜法、多帶減譜法、維納濾波法。經(jīng)過實(shí)驗(yàn)者仔細(xì)測試比對得出結(jié)論：基本減譜法語音增強(qiáng)效果最差，存在較明顯的音樂噪聲，同時對背景噪聲的抑制也不夠；多帶減譜法雖然減少了部分的音樂噪聲，但是語音信號本身的失真較嚴(yán)重；MMSE-LSA和維納濾波法語音增強(qiáng)效果最好，但是通過對各種背景噪聲下的語音測試發(fā)現(xiàn)，維納濾波法對于語音信號的失真要比MMSE-LSA嚴(yán)重，并且在低信噪比下語音效果不如MMSE-LSA方法?？傮w來說，語音增強(qiáng)對于白噪聲之類的平穩(wěn)背景噪聲具有較好的抑制效果，而對于機(jī)關(guān)槍等非平穩(wěn)背景噪聲的抑制效果不明顯。圖3給出了0dB白噪聲下MMSE-LSA方法語音增強(qiáng)的語音波形圖：

5 結(jié)語

本文研究了最小均方誤差對數(shù)譜幅度估計(jì)（MMSE-LSA）語音增強(qiáng)算法，并利用MMSE-LSA對數(shù)譜幅度已知的特點(diǎn)采用了簡單高效的VAD算法。通過對仿真結(jié)果進(jìn)行詳細(xì)分析，比較了MMSE-LSA與其它幾種語音增強(qiáng)算法的增強(qiáng)效果。MMSE-LSA能夠有效地消除白噪聲之類的平穩(wěn)噪聲，但是對于突發(fā)的非平穩(wěn)噪聲效果不明顯，仍有待于進(jìn)一步研究。

參考文獻(xiàn)：

[1] 易克初,田斌,付強(qiáng). 語音信號處理[M]. 北京: 國防工業(yè)出版社, 2000.

[2] Rabiner L R, Schafer R W. 語音信號數(shù)字處理[M]. 朱雪龍,等譯. 北京: 科學(xué)出版社, 1983.

[3] Y Ephraim, D Malah. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984: 1109-1121.

[4] Rainer Martin. Spectral Subtraction Based on Minimum Statistics[C]. Proc Eur Signal Processing Conf, 1994: 1182-1185.

[5] Rainer Martin. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2001,9(5).

[6] Mark Marzinzik, Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2002,10(2).★

作者簡介

晏光華：學(xué)士畢業(yè)于大連艦艇學(xué)院，現(xiàn)任職于海軍司令部信息化部，主要研究方向?yàn)闊o線通信。

endprint

3 VAD檢測

（7）

（8）

（9）

Emin=Ep，Emax=Ep（10）

Elp.min=Elp，Elp.max=Elp （11）

Ehp.min=Ehp，Ehp.max=Ehp （12）

對三個子帶包絡(luò)能量的最大值、最小值做一階濾波平滑處理，并計(jì)算每個子帶能量最大值和最小值之間的差值。

Δ=Emax-Emin（13）

Δlp=Elp.max-Elp.min （14）

Δhp=Ehp.max-Ehp.min （15）

4 仿真結(jié)果分析

5 結(jié)語

參考文獻(xiàn)：

[1] 易克初,田斌,付強(qiáng). 語音信號處理[M]. 北京: 國防工業(yè)出版社, 2000.

[2] Rabiner L R, Schafer R W. 語音信號數(shù)字處理[M]. 朱雪龍,等譯. 北京: 科學(xué)出版社, 1983.

[3] Y Ephraim, D Malah. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984: 1109-1121.

[4] Rainer Martin. Spectral Subtraction Based on Minimum Statistics[C]. Proc Eur Signal Processing Conf, 1994: 1182-1185.

[5] Rainer Martin. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2001,9(5).

[6] Mark Marzinzik, Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2002,10(2).★

作者簡介

晏光華：學(xué)士畢業(yè)于大連艦艇學(xué)院，現(xiàn)任職于海軍司令部信息化部，主要研究方向?yàn)闊o線通信。

endprint

3 VAD檢測

（7）

（8）

（9）

Emin=Ep，Emax=Ep（10）

Elp.min=Elp，Elp.max=Elp （11）

Ehp.min=Ehp，Ehp.max=Ehp （12）

對三個子帶包絡(luò)能量的最大值、最小值做一階濾波平滑處理，并計(jì)算每個子帶能量最大值和最小值之間的差值。

Δ=Emax-Emin（13）

Δlp=Elp.max-Elp.min （14）

Δhp=Ehp.max-Ehp.min （15）

4 仿真結(jié)果分析

5 結(jié)語

參考文獻(xiàn)：

[1] 易克初,田斌,付強(qiáng). 語音信號處理[M]. 北京: 國防工業(yè)出版社, 2000.

[2] Rabiner L R, Schafer R W. 語音信號數(shù)字處理[M]. 朱雪龍,等譯. 北京: 科學(xué)出版社, 1983.

[3] Y Ephraim, D Malah. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984: 1109-1121.

[4] Rainer Martin. Spectral Subtraction Based on Minimum Statistics[C]. Proc Eur Signal Processing Conf, 1994: 1182-1185.

[5] Rainer Martin. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2001,9(5).

[6] Mark Marzinzik, Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2002,10(2).★

作者簡介

晏光華：學(xué)士畢業(yè)于大連艦艇學(xué)院，現(xiàn)任職于海軍司令部信息化部，主要研究方向?yàn)闊o線通信。

endprint

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種基于MMSE-LSA和VAD的語音增強(qiáng)算法