李真,李郡,任慧
(1. 中國傳媒大學(xué)信息與通信工程學(xué)院,北京100024;2.視聽技術(shù)與智能控制系統(tǒng)文化和旅游部重點(diǎn)實(shí)驗(yàn)室,北京100024;3.現(xiàn)代演藝技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100024)
語音增強(qiáng)是指通過降低或抑制背景噪聲,提高帶有噪聲的語音信號的質(zhì)量和可懂度,也稱作語音降噪[1-4]。2008年Kamil Wójcicki 等提出改變帶噪語音的相位譜,而不改變帶噪語音的幅度譜的相位譜補(bǔ)償(phase spectrum compensation PSC)語音增強(qiáng)方法[5][6]。PSC采用固定的參數(shù)對相位譜進(jìn)行調(diào)整,其存在的問題是在噪聲強(qiáng)度較大的情況下,噪聲去除效果并不理想,會(huì)有殘留噪聲。為了解決這一問題,本文提出一種改進(jìn)的相位譜補(bǔ)償算法(modified phase spectrum compensation MPSC),可根據(jù)分段信噪比設(shè)定可變的調(diào)整參數(shù)。取得了較好的語音增強(qiáng)效果。
設(shè)含加性噪聲的帶噪語音可表示為y(n)=x(n)+d(n),其中y(n)、x(n)、d(n)分別表示帶噪語音、純凈語音和噪聲的離散信號。其中帶噪語音的短時(shí)傅里葉變化表示為Y(n,k)=|Y(n,k)|ej∠Y(n,k),其中|Y(n,k)|表示其幅度譜,∠Y(n,k)表示其相位譜。帶噪語音信號因?yàn)槠涫菍?shí)信號,所以其離散傅里葉變換是共軛對稱的,在信號重構(gòu)階段,兩個(gè)共軛向量的和向量是最終重構(gòu)后形成時(shí)域信號的關(guān)鍵,和向量在實(shí)軸上投影的大小決定了增強(qiáng)后時(shí)域信號的幅度的強(qiáng)弱,所以可以通過修改兩個(gè)向量的共軛關(guān)系來實(shí)現(xiàn)信號的壓縮。這就是相位譜補(bǔ)償方法的原理。
其相位補(bǔ)償過程如下:
首先,帶噪復(fù)頻譜被一個(gè)和頻率有關(guān)的實(shí)值函數(shù)Λ(k)補(bǔ)償
(1)
其中為了達(dá)到刪除效果,Λ(k)是關(guān)于Fs/2(采樣頻率的一半)非對稱的,采用如下的簡單反對稱函數(shù)
(2)
其中λ是實(shí)值常數(shù),N是頻率分析的長度,假設(shè)為偶數(shù)。
第二步,YΛ(n,k)通過反正切函數(shù)的四象限變換計(jì)算改變的相位譜
(3)
其中Im{·}和Re{·}指對YΛ(n,k)求虛部和實(shí)部。我們把改變的相位譜指定為偽相位譜,因?yàn)樗痪邆湔鎸?shí)相位譜的性能。之后偽相位譜和帶噪語音的幅度譜進(jìn)行重新合成產(chǎn)生改進(jìn)的復(fù)頻譜。
(4)
信號幅值改變很有限
信號幅值發(fā)生明顯改變圖1 相位譜補(bǔ)償語音增強(qiáng)算法矢量原理圖
從圖1中可以看出,對于給定λ值,對不同信號段的影響是不同的。λ大于信號幅度值才會(huì)對信號造成明顯的衰減作用,如果想減弱噪聲的影響,則值應(yīng)該大于噪聲幅度值。對于信噪比較高的語音信號,噪聲幅度相對較小,此時(shí)通過引入非對稱函數(shù)產(chǎn)生的相位補(bǔ)償作用能實(shí)現(xiàn)對噪聲的明顯消除。
該算法的關(guān)鍵是Λ(k)的選取,由式(2)知Λ(k)函數(shù)選取即λ值的選取。λ取值越大,對共軛向量的影響就越大,從而對帶噪語音信號的壓縮程度就越大,但是λ值選取過大有可能會(huì)造成信號失真,λ值選取過小,對噪聲壓縮程度較小,會(huì)使去噪效果較差,導(dǎo)致更多的殘留噪聲。文獻(xiàn)[6]中提出λ的經(jīng)驗(yàn)值為3.74,在整個(gè)語音信號期間其值不變,實(shí)驗(yàn)證明采用固定λ值雖然取得了較好的去噪效果,但是在噪聲強(qiáng)度比較大的情況下,如靜音段,噪聲去除效果并不理想,仍會(huì)有殘留噪聲,如圖2(c)所示,選取經(jīng)驗(yàn)值λ=3.74,可以看到噪聲得到了很大幅度的消減,但是在靜音段仍殘留較多噪聲。所以能否調(diào)整λ的取值,使其在噪聲能量比較大的段(如語音間隙),取值較大,從而也可以較大限度消減噪聲。
(a)純凈語音波形圖 (b)10dB高斯白噪聲干擾信號波形圖
(c)采用λ=3.74相位譜補(bǔ)償后語音波形圖 (d)改進(jìn)相位補(bǔ)償后語音波形圖圖2 語音時(shí)域波形圖
基于上面所提PSC算法所存在的問題,本文提出一個(gè)根據(jù)分段信噪比調(diào)整λ值的改進(jìn)相位譜補(bǔ)償算法(Modified Phase Spectrum Compensation MPSC),使λ值根據(jù)噪聲強(qiáng)度進(jìn)行調(diào)整。分段信噪比定義如式(5)。
(5)
在語音信號的靜音間隙期間的信號能量將非常小,進(jìn)而導(dǎo)致大的負(fù)分段信噪比值,文獻(xiàn)[7]提出解決這個(gè)問題的方法是將SNRseg的值限制在[-10dB,35dB]。基于此,在靜音段設(shè)定SNRseg=-10dB。圖3所示是不同輸入信噪比語音信號所對應(yīng)的分段信噪比,從圖中可以看出SNRseg<-5dB時(shí),已基本處于無語音的靜音段,所以將SNRseg=-5dB作為臨界點(diǎn),SNRseg>-5dB語音信號起主要作用,可選取經(jīng)驗(yàn)值,設(shè)置λ=3.74,當(dāng)SNRseg<-5dB時(shí),噪聲信號起主要作用,此時(shí)λ取值可高于3.74,從而更加有效的壓縮噪聲,提高語音質(zhì)量?;诖颂岢靓嗽O(shè)置公式如式(6)所示。
圖3 白噪聲環(huán)境下不同信噪比語音信號的分段信噪比
(6)
λ*的選取越大越好,但是也不能過大,如何選取λ*的值,通過一系列實(shí)驗(yàn)得到表1,是在不同信噪比下,不同λ*所對應(yīng)的PESQ值,從表中可以看到λ*取18時(shí),在輸入語音信噪比為0dB,5 dB,10 dB都可取得最好的語音質(zhì)量,在15dB時(shí)的語音質(zhì)量僅次于最優(yōu)值,所以確定非對稱函數(shù)的設(shè)置公式為式(7)。
(7)
改進(jìn)相位補(bǔ)償算法的流程如圖4所示。首先對信號進(jìn)行分幀、加窗,傅里葉變換,之后計(jì)算每一幀的信噪比,根據(jù)信噪比的臨界設(shè)定值,由式(7)確定λ值大小,根據(jù)式(1)、式(2)和式(3)確定該幀的補(bǔ)償相位譜,確定每幀的補(bǔ)償相位譜后,最終與帶噪語音幅度譜合成復(fù)頻譜,進(jìn)行傅里葉逆變換,得到增強(qiáng)后的語音信號。
表1 不同信噪比時(shí)不同λ*取值所對應(yīng)的PESQ值
圖4 改進(jìn)相位譜補(bǔ)償算法流程圖
圖2(d)是改進(jìn)相位補(bǔ)償法的時(shí)域語音波形圖,從圖中可以看出相比原相位補(bǔ)償法,其在語音間隙的噪聲進(jìn)一步得到了抑制。圖5分別是white白噪聲、street噪聲及car噪聲情況下相位補(bǔ)償算法和改進(jìn)相位補(bǔ)償算法對帶噪語音增強(qiáng)后提高的PESQ分值。從這三個(gè)圖可以看出在不同輸入信噪比,不同噪聲環(huán)境下改進(jìn)相位譜補(bǔ)償法在語音質(zhì)量的提高上均比原來相位譜補(bǔ)償法取得更顯著效果。并且這幾種噪聲環(huán)境中,白噪聲環(huán)境下的ΔPESQ值最大,說明對白噪聲的增強(qiáng)效果最好。而且語音質(zhì)量提高隨著信噪比的提高而更明顯,進(jìn)一步證明了相位譜補(bǔ)償法在高輸入信噪比情況下,對噪聲的抑制更大,語音增強(qiáng)效果更好。
(a)white噪聲 (b)street噪聲 (c)car噪聲圖5 不同噪聲環(huán)境下兩種相位譜補(bǔ)償法提高的ΔPESQ
本文對相位補(bǔ)償算法所存在的參數(shù)不可調(diào)整的問題進(jìn)行改進(jìn),提出了根據(jù)分段信噪比調(diào)整參數(shù)的改進(jìn)的相位譜補(bǔ)償算法,使得在噪聲強(qiáng)度較大的靜音段也能取得較好的語音增強(qiáng)效果,并將改進(jìn)的相位譜補(bǔ)償算法和傳統(tǒng)的幅度譜估計(jì)算法結(jié)合。實(shí)驗(yàn)結(jié)果表明該方法有效提高了帶噪語音中分段信噪比較低的部分的去噪效果,相比PSC方法取得了更好的語音增強(qiáng)質(zhì)量。