李婉玲,張秋菊
(江南大學(xué) 機(jī)械工程學(xué)院,無錫 214122)
(江蘇省食品先進(jìn)制造裝備技術(shù)重點(diǎn)實(shí)驗(yàn)室,無錫 214122)
語音增強(qiáng)技術(shù)一直是信號(hào)處理領(lǐng)域的研究熱點(diǎn),廣泛應(yīng)用于移動(dòng)通信、模式識(shí)別和助聽器等系統(tǒng)中.語音增強(qiáng)旨在降低加性噪聲對(duì)語音質(zhì)量感知和語音可懂度的影響,常用語音增強(qiáng)算法包括參數(shù)法、統(tǒng)計(jì)法和非模型法,其中譜減法因其良好的消噪效果且算法簡(jiǎn)單而得到廣泛應(yīng)用[1–4].傳統(tǒng)譜減法在高信噪比時(shí)具有良好的降噪表現(xiàn),而在低信噪比語音中,因算法固有缺陷,增強(qiáng)語音存在明顯的“音樂噪聲”和殘余噪聲.Upadhyay等[5]提出多頻帶譜減法,在劃分的子頻譜上分別進(jìn)行譜減法,有效降低“音樂噪聲”;Wojcicki等[6]將噪聲幅度譜與變化的相位譜相結(jié)合,提高語音質(zhì)量;Mowlaee等[7]利用基音頻率和噪聲信噪比信息得到相位估計(jì)器;Kulmer等[8]通過噪聲相位譜的相位分解和時(shí)間平滑獲得諧波相位估計(jì).
基于傳統(tǒng)譜減法的語音增強(qiáng)系統(tǒng)采用不準(zhǔn)確的噪聲信號(hào)估計(jì)純凈語音幅譜,并使用帶噪語音的相位進(jìn)行信號(hào)重建,導(dǎo)致算法所得的增強(qiáng)語音與實(shí)際純凈語音存在較大偏差.一些學(xué)者[6–8]基于相位在頻譜上均勻分布且與幅度相互獨(dú)立的假設(shè),針對(duì)該偏差提出某種意義上的最優(yōu)估計(jì)器,這些估計(jì)器在低信噪比下取得不錯(cuò)的相位修正效果.Kulmer等[9]研究發(fā)現(xiàn),語音增強(qiáng)應(yīng)考慮信號(hào)的不確定性;Kraw-czykbecker等[10,11]考慮相位分布的不均勻性,提出一種基于馮·米塞斯分布的相位感知信號(hào)增強(qiáng)模型.基于此,本文對(duì)傳統(tǒng)譜減法進(jìn)行改進(jìn),采用多頻帶譜減法減少“音樂噪聲”,并聯(lián)合相位函數(shù)和幅度函數(shù),推導(dǎo)基于最大后驗(yàn)概率(Maximum A Posteriori probability,MAP)的最優(yōu)估計(jì)器,稱為聯(lián)合MAP估計(jì)器.
假設(shè)噪聲信號(hào)為平穩(wěn)加性噪聲,則帶噪語音信號(hào)x(n)可用如下公式[12]表示:
式中,n為采樣時(shí)間標(biāo)號(hào),s(n)為純凈語音,d(n)為噪聲信號(hào),假設(shè)兩者相互獨(dú)立.對(duì)語音信號(hào)進(jìn)行傅里葉變換,則分別表示帶噪信號(hào)、純凈信號(hào)和噪聲的傅里葉形式,三者之間的關(guān)系[13]可表示為:
將其擴(kuò)展到功率譜域,則純凈語音的信號(hào)譜可表示為:
假設(shè)噪聲信號(hào)均值為零,則式(3)的乘積項(xiàng)為零.為消除譜相減殘留的功率譜分量(音樂噪聲),引入多頻帶譜減法[5],劃分語音信號(hào)頻譜,并對(duì)各子頻帶的語音頻譜獨(dú)立進(jìn)行譜減法,改進(jìn)譜減法對(duì)純凈語音幅度的估值為:
式中,i為子頻帶序號(hào),α為自適應(yīng)過減系數(shù),與信噪比相關(guān),δ為子頻帶噪聲抑制因子,bi、ei為子頻帶的始末頻率,噪聲為語音間隙計(jì)算所得的數(shù)學(xué)期望,是一個(gè)估值.實(shí)驗(yàn)表明,該算法可以有效抑制“音樂噪聲”.
譜減法基于人耳相聾特性[14]進(jìn)行噪聲相位估計(jì),采用帶噪語音的相位近似描述噪聲相位,導(dǎo)致純凈語音的相位估值與真實(shí)值之間存在較大誤差.帶噪語音與純凈語音的相位偏差用 φdev表示:
從圖1可以看到,不準(zhǔn)確的相位估計(jì)對(duì)信號(hào)幅頻估值產(chǎn)生較大影響,信號(hào)的幅度與相位不完全獨(dú)立,因此,在進(jìn)行相位預(yù)估時(shí),應(yīng)充分考慮信號(hào)幅度的影響.
圖1 信號(hào)的相位偏差圖
譜減法的本質(zhì)是一種似然估計(jì),采用帶噪語音的相位近似噪聲相位和純凈語音相位,造成相位偏差,影響低信噪比下語音增強(qiáng)效果.本文基于此,采用最大后驗(yàn)概率法,提出聯(lián)合相位函數(shù)和幅度函數(shù)的MAP估計(jì)器對(duì)相位進(jìn)行估計(jì)[15],并與多頻帶譜減法結(jié)合,取得良好的增強(qiáng)效果.
基于相位分布不均勻性,本文提出聯(lián)合MAP估計(jì)器,通過交替迭代相位估計(jì)函數(shù)和幅度估計(jì)函數(shù),得到純凈語音的最優(yōu)相位估計(jì)器.
假設(shè)帶噪信號(hào)為已知信號(hào),可得純凈語音的幅度和相位估計(jì)為:
假設(shè)條件概率密度函數(shù)服從以純凈語音為中心的高斯分布,則信號(hào)的條件概率密度為:
假設(shè)信號(hào)譜的幅度服從Γ分布,其先驗(yàn)密度函數(shù)為:
式中,v為形狀參數(shù),μ/ σs為尺度參數(shù).
考慮到語音信號(hào)的不確定性,本文假設(shè)信號(hào)相位服從馮·米塞斯分布,為不均勻分布,則相位先驗(yàn)密度函數(shù)為:
式中,βμ為循環(huán)均值,κ為集中密度,I0(·)為零階修正貝塞爾函數(shù),聯(lián)立方程組(6)~(9),可得純凈語音幅度和相位的聯(lián)合MAP估計(jì)為:
其中:
為簡(jiǎn)化偏導(dǎo)計(jì)算,忽略與自變量無關(guān)的函數(shù)p(X),并對(duì)L1(B,β)取對(duì)數(shù)似然函數(shù),可得:
為獲取最大后驗(yàn)相位估計(jì),取對(duì)數(shù)似然函數(shù)對(duì)相位的一階偏導(dǎo)為零,可得:
由式(13)和余弦定理可得,基于聯(lián)合MAP估計(jì)器的β估值為:
取對(duì)數(shù)似然函數(shù)對(duì)幅度的一階偏導(dǎo)為零:
即:
由上式計(jì)算可得幅度B的估計(jì)值為:
設(shè)m為迭代次數(shù),則聯(lián)合MAP估計(jì)器中:
設(shè)相鄰迭代間復(fù)值偏差的功率譜為E:
隨著迭代次數(shù)的增加,偏差功率譜E逐漸衰減,設(shè) ΔE的閾值為–20 dB 時(shí),迭代終止,此時(shí)迭代次數(shù)m=2,如圖2所示.從圖中可以看出能量逐步衰減,算法終將達(dá)到平衡狀態(tài).根據(jù)李雅普諾夫第二法,該系統(tǒng)漸近穩(wěn)定.
圖2 聯(lián)合 MAP 交替迭代情況
本文算法步驟如下:
(1)進(jìn)行預(yù)處理并根據(jù)傅里葉變換,轉(zhuǎn)換帶噪語音到頻域,計(jì)算其功率譜;
(2)劃分頻帶并進(jìn)行聯(lián)合MAP估計(jì),估計(jì)各個(gè)子頻帶的相位譜;
(3)計(jì)算子頻帶噪聲和帶噪語音的功率譜;
(4)按式(4)分別計(jì)算各個(gè)子頻帶增強(qiáng)語音的幅度譜;
(5)重建信號(hào)并進(jìn)行反傅里葉變換.
本文實(shí)驗(yàn)數(shù)據(jù)為Cool Edit軟件在安靜環(huán)境下錄制的50句語音,選用noiseX-92數(shù)據(jù)庫(kù)中的白噪聲(white)、粉紅噪聲(pink)和人群嘈雜聲(babble)作為實(shí)驗(yàn)噪聲數(shù)據(jù).采樣頻率均為8 kHz.選擇純凈語音中的一句分別加入三種噪聲構(gòu)成信噪比為0 dB的帶噪語音,語句內(nèi)容為“江南大學(xué)是一座美麗的校園”,共12個(gè)字.采用MATLAB進(jìn)行改進(jìn)譜減法和本文算法的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3~圖5所示.實(shí)驗(yàn)結(jié)果表明,多頻帶譜減法有效抑制“音樂噪聲”,在低信噪比情況下,本文算法所得波形圖與純凈語音接近,語音增強(qiáng)效果明顯.
圖3 white
圖4 pink
將純凈語音與不同噪聲進(jìn)行混合,帶噪信號(hào)的信噪比分別為0、5、15 dB,取各語句實(shí)驗(yàn)結(jié)果的平均值作為評(píng)價(jià)數(shù)據(jù),引入語音質(zhì)量感知評(píng)價(jià)(PESQ)對(duì)增強(qiáng)信號(hào)的語音質(zhì)量進(jìn)行評(píng)價(jià),如圖6所示.PESQ在1.0~4.5范圍內(nèi)產(chǎn)生得分,分值越高說明語音的質(zhì)量越好.同時(shí)采用STOI對(duì)增強(qiáng)信號(hào)的語音可懂度進(jìn)行評(píng)價(jià),驗(yàn)證降噪后語音信號(hào)的可懂度.在(0,1)范圍內(nèi),STOI算法所得數(shù)值越大,增強(qiáng)信號(hào)的可懂度越高,如圖7所示.
從圖6可以看到,在低信噪比情況下,本文算法的PESQ得分明顯高于傳統(tǒng)譜減法和改進(jìn)譜減法,有效降低相位偏差導(dǎo)致的殘留噪聲,增強(qiáng)信號(hào)的語音質(zhì)量較高.圖7顯示的STOI測(cè)評(píng)結(jié)果表明本文算法提高了帶噪語音的可懂度,在低信噪比情況下有較優(yōu)的表現(xiàn).實(shí)驗(yàn)結(jié)果顯示,本文算法在取得良好降噪效果的同時(shí),保證了語音信息量,增強(qiáng)了語音可懂度.
圖6 不同背景噪聲下各算法的PESQ得分
圖7 不同背景噪聲下各算法的 STOI值
針對(duì)傳統(tǒng)譜減法因?yàn)樽V相減和相位估計(jì)偏差帶來的“音樂噪聲”和殘留噪聲問題,本文提出一種基于聯(lián)合最大后驗(yàn)概率的譜減語音增強(qiáng)算法.采用馮·米塞斯分布體現(xiàn)信號(hào)相位分布的不均勻性,并假設(shè)條件概率密度服從高斯分布,信號(hào)幅度服從Γ分布,根據(jù)最大后驗(yàn)概率得到幅度和相位的估值,并進(jìn)行交替迭代,得到聯(lián)合MAP的相位估計(jì).將聯(lián)合MAP估計(jì)與多頻帶譜減法結(jié)合,重建增強(qiáng)語音.實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)譜減法和多頻帶譜減法,在低信噪比情況下,本文算法具有更好的語音質(zhì)量感知和更高的語音可懂度,有效提高語音增強(qiáng)效果.