柏梁澤,高 勇
(四川大學(xué) 電子信息學(xué)院,四川 成都 610065)
語音增強(qiáng)可以從帶噪語音中分離出語音,它有著廣泛的應(yīng)用,如穩(wěn)健的自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR)[1]、助聽器的設(shè)計(jì)和移動(dòng)通信等。其中,單通道語音增強(qiáng)與多通道語音增強(qiáng)相比更有應(yīng)用市場,因?yàn)椴恍枰^多的空間配置資源[2]。語音增強(qiáng)在傳統(tǒng)的數(shù)字信號(hào)處理領(lǐng)域已經(jīng)得到廣泛的研究,其中譜減法[3]是一種經(jīng)典的降噪方法,主要是通過從帶噪語音譜中減去估計(jì)的噪聲,但是容易引來音樂噪聲。隨后,維納濾波和均方誤差估計(jì)方法[4]在語音增強(qiáng)領(lǐng)域也得到了廣泛應(yīng)用,這類方法對(duì)于噪聲和語音之間的統(tǒng)計(jì)特性假設(shè)至關(guān)重要,因此難以滿足非平穩(wěn)噪聲的真實(shí)環(huán)境。
與以往的數(shù)字信號(hào)處理方法相比,基于模型的方法使用預(yù)先混合信號(hào)建立關(guān)于語音和噪聲的模型已經(jīng)取得顯著的成果。例如文獻(xiàn)[5]中的技術(shù)通過學(xué)習(xí)先驗(yàn)知識(shí)在不同源之間建立了概率干擾模型,在低信噪比條件下可以顯著提高性能。類似的非負(fù)矩陣分解語音增強(qiáng)利用不同的信號(hào)基,從混合信號(hào)中分離出噪聲和語音信號(hào),從而達(dá)到語音增強(qiáng)。但是,這類方法不能很好地推廣到?jīng)]有訓(xùn)練過的噪聲條件下,此外需要復(fù)雜的計(jì)算,使得很難在實(shí)際環(huán)境中得到應(yīng)用。
近年來,有監(jiān)督的語音增強(qiáng)受到較多關(guān)注,最簡單的形式是通過向訓(xùn)練的分類器——通常是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)輸入混合語音的特征來估計(jì)混合語音的理想時(shí)頻掩蔽從而達(dá)到語音增強(qiáng)的效果。理想時(shí)頻掩蔽表示每個(gè)時(shí)頻單元是否、或在多大程度上是目標(biāo)語音主導(dǎo)。其中常用掩蔽碼有基于二元決策的二元掩蔽(IBM)[6]和基于比率決策的比率掩蔽(IRM)[7]。與傳統(tǒng)的語音增強(qiáng)不同,有監(jiān)督分離并沒有對(duì)潛在的語音或噪聲信號(hào)做出明確的統(tǒng)計(jì)假設(shè),而是從訓(xùn)練集中學(xué)習(xí)數(shù)據(jù)分布,并且基于DNN的IBM和IRM估計(jì)器已經(jīng)被證明能夠提高增強(qiáng)后語音的可懂度[8]。
有監(jiān)督的語音增強(qiáng)的2個(gè)關(guān)鍵組成部分是從帶噪語音中提取的聲學(xué)特征和用于監(jiān)督學(xué)習(xí)的分類器。本文在多分辨率耳蝸?zhàn)V[9]的基礎(chǔ)上,引入聲學(xué)特征卷積平滑耳蝸?zhàn)V(Convolution Smoothing Cochleagram,CSCG),該特征將3個(gè)不同平滑度的耳蝸?zhàn)V結(jié)合起來,充分提取出語音的局部和前后信息。選取一系列已經(jīng)在語音增強(qiáng)方面被證明有效果的特征進(jìn)行對(duì)比,例如,對(duì)數(shù)能量譜(LPS)、梅爾倒譜系數(shù)(MFCC)、冪歸一化倒譜系數(shù)(PNCC)和聽覺濾波器頻率倒譜系數(shù)(GFCC)。實(shí)驗(yàn)表明,CSCG特征參數(shù)取得了較好的效果。為了提高分類器的學(xué)習(xí)能力,采用深度雙向長短時(shí)記憶網(wǎng)絡(luò)(Deep Bidirectional Long Term Short Memory Networks,DBLSTM)進(jìn)行分類。DNN只能從輸入到輸出一個(gè)方向進(jìn)行學(xué)習(xí),然而DBLSTM可充分利用上下文信息進(jìn)行學(xué)習(xí)并且對(duì)分類任務(wù)有較大的適應(yīng)能力[10],能有效提高分類器的準(zhǔn)確性。最后,為了進(jìn)一步提高語音增強(qiáng)效果,研究了利用差分平均濾波作為一種后處理技術(shù)來增強(qiáng)特征的魯棒性。
語音增強(qiáng)可以解釋為將帶噪信號(hào)映射到可懂度和清晰度有提高的目標(biāo)信號(hào)的過程,其中,基于有監(jiān)督的語音增強(qiáng),通過從帶噪語音中提取聲學(xué)特征,并將其與期望目標(biāo)值一起輸入到分類器中進(jìn)行訓(xùn)練,從數(shù)據(jù)中顯式學(xué)習(xí)映射。最后,通過將估計(jì)的輸出和混合語音送入合成器中,產(chǎn)生增強(qiáng)后的語音。系統(tǒng)基本結(jié)構(gòu)分為特征提取、時(shí)頻估計(jì)和合成語音三部分。
(1) 對(duì)數(shù)能量譜
計(jì)算對(duì)數(shù)能量譜,首先將語音信號(hào)進(jìn)行分幀,其中采用幀長為32 ms、幀移為16 ms、相鄰幀的重疊率50%以有效保證恢復(fù)的信號(hào)比較平滑。其次,對(duì)數(shù)能量譜是對(duì)離散傅里葉變換(DFT)后的各個(gè)系數(shù)取模的平方后取對(duì)數(shù),取對(duì)數(shù)可以模擬人耳對(duì)聲強(qiáng)的非線性感知。因?yàn)閷?duì)數(shù)能量譜上的信息比較完整,因此將以對(duì)數(shù)能量譜為基礎(chǔ),結(jié)合其他特征進(jìn)行語音增強(qiáng)。
(2)梅爾倒譜系數(shù)
計(jì)算梅爾倒譜系數(shù),首先將輸入語音信號(hào)進(jìn)行分幀處理,并使用DFT導(dǎo)出功率譜,然后將功率譜轉(zhuǎn)換成Mel尺度。最后,利用對(duì)數(shù)壓縮和離散余弦變換(DCT)計(jì)算MFCC。
(3)聽覺濾波器頻率倒譜系數(shù)
計(jì)算聽覺濾波器頻率倒譜系數(shù),首先將輸入信號(hào)通過64通道的Gammatone濾波器輸出子帶信號(hào),進(jìn)行分幀處理,然后使用3次根式壓縮每個(gè)子帶信號(hào)的能量,最后采用DCT形成GFCC。
(4)冪歸一化倒譜系數(shù)
冪歸一化倒譜系數(shù)是一種語音識(shí)別中新的特征,它利用平滑幀間信號(hào)能量技術(shù)處理來減少噪聲破壞,并且采用冪率壓縮取代了傳統(tǒng)的對(duì)數(shù)壓縮。首先用Gammatone頻率積分法對(duì)輸入信號(hào)的功率譜進(jìn)行積分,然后再進(jìn)行非對(duì)稱濾波和時(shí)間掩蔽除去背景噪聲,最后利用冪律非線性和DCT得到PNCC。
(5)聽覺濾波器系數(shù)
計(jì)算聽覺濾波器系數(shù),只需要在計(jì)算GFCC的過程中省略掉DCT就可以得到GF。
(1)理想IBM
理想IBM是計(jì)算聽覺場景分析(CASA)常用的特征。IBM是一個(gè)由預(yù)混信號(hào)構(gòu)成的時(shí)頻掩蔽。對(duì)于每個(gè)時(shí)頻單元,如果局部SNR大于局部準(zhǔn)則(表示為LC),則將對(duì)應(yīng)的掩蔽值設(shè)置為1,否則設(shè)置為0。IBM被定義為:
(1)
式中,SNR(t,f)為時(shí)間t和頻率f的局部信噪比。
(2)理想IRM
理想IRM定義如下:
(2)
式中,S2(t,f)和N2(t,f)以時(shí)頻單元的形式,分別表示語音和噪聲的能量;β為調(diào)整掩蔽碼的參數(shù)??梢钥闯?,IRM很接近于假設(shè)語音和噪聲不相關(guān)的維納濾波器。實(shí)驗(yàn)研究表明,當(dāng)β值為0.5時(shí),可以得到好的語音增強(qiáng)效果,此時(shí)的IRM相似于能量譜最優(yōu)估計(jì)的均方根維納濾波器。
選取理想IRM作為訓(xùn)練目標(biāo),文獻(xiàn)[11]表明,IRM在提高語音的質(zhì)量和清晰度上比理想IBM獲得效果更好。
通過將估計(jì)出的理想IRM與帶噪語音的幅度相乘,得到增強(qiáng)后的語音幅度譜,并利用帶噪語音的相位,再通過重疊相加法,生成增強(qiáng)后的語音。
在耳蝸?zhàn)V的基礎(chǔ)上,引入特征CSCG,包含多種能量分布的信號(hào)的時(shí)頻單元。通過使用2維卷積產(chǎn)生3個(gè)不同平滑度的耳蝸?zhàn)V,不同平滑度的耳蝸?zhàn)V在不同尺度下捕捉語音的信息。
CSCG主要是由語音增強(qiáng)領(lǐng)域中廣泛使用的耳蝸?zhàn)V來構(gòu)成,為了計(jì)算耳蝸?zhàn)V,首先將輸入語音信號(hào)送入Gammatone濾波器組,其中特定Gammatone濾波器組的脈沖響應(yīng)為:
gfc(t)=tN-1exp[-2πtb(fc)]cos(2πfct)u(t),
(3)
式中,fc為中心頻率;N為濾波器的階數(shù);u(t)為階躍函數(shù)。函數(shù)b(fc)通過fc來決定帶寬。為了模擬人耳的聽覺系統(tǒng),中心頻率fc在等效矩形帶寬(ERB)度量上均勻分布。b(fc)和fc的函數(shù)關(guān)系如下:
b(fc)=1.019×ERB(fc)=
1.019×24.7×(4.37×fc/1 000+1),
(4)
可以看出,b(fc)隨著fc的增加而增加,因此低頻具有高的分辨率,高頻具有較低的分辨率。得到Gammatone濾波器組的響應(yīng)信號(hào)后,在每一通道進(jìn)行分幀,其中幀長為32 ms、幀移為16 ms。然后,在每一通道計(jì)算每一幀的能量得到耳蝸?zhàn)V。耳蝸?zhàn)V中的時(shí)頻單元僅包含局部信息,估計(jì)的目標(biāo)掩蔽效果不佳。為了彌補(bǔ)這一缺點(diǎn),CSCG采用二維卷積對(duì)耳蝸?zhàn)V進(jìn)行處理,可更好地提供每個(gè)時(shí)頻單元相鄰的能量分布信息。計(jì)算CSCG基本步驟如下:
① 在給定的輸入語音信號(hào)基礎(chǔ)上,計(jì)算第一個(gè)64通道的耳蝸?zhàn)VCG1,然后對(duì)每一個(gè)時(shí)頻單元進(jìn)行非線性的對(duì)數(shù)操作,提高低頻的能量信息。
② 在給定耳蝸CG1的基礎(chǔ)上,以給定時(shí)頻單元為中心,用一個(gè)長度為11通道、寬度為11幀的窗,對(duì)周圍的時(shí)頻單元進(jìn)行二維卷積操作,取平均賦值給該時(shí)頻單元。如果窗口超出耳蝸?zhàn)V大小,采用零值進(jìn)行填充,通過以上操作獲得耳蝸?zhàn)VCG2。
③ 產(chǎn)生耳蝸?zhàn)VCG3和產(chǎn)生耳蝸?zhàn)VCG2一樣,需將窗口大小調(diào)整為23通道、23幀來改變平滑度。
④ 最后,將CG1、CG2、CG3拼接起來形成64×4維的CSCG。
在CSCG特征中,可以看出CG1主要包含了自身時(shí)頻單元所具有的局部語音信息,而CG2和CG3通過不同平滑度的卷積操作,可以給時(shí)頻單元提供不同程度的相鄰時(shí)頻單元的信息。CSCG的構(gòu)成方法,主要是通過固定耳蝸?zhàn)VCG1,逐步拼接不同平滑度耳蝸?zhàn)VCG2和CG3,然后觀察實(shí)驗(yàn)結(jié)果,到實(shí)驗(yàn)效果不再上升為止。在5 dB多種噪聲下增強(qiáng)后語音的客觀語音質(zhì)量評(píng)估(PESQ)如圖1所示。當(dāng)在CG1、CG2和CG3的情況下繼續(xù)拼接平滑度更高的耳蝸?zhàn)VCG4時(shí),PESQ有所下降,因此拼接不宜過多。
圖1 不同平滑度耳蝸?zhàn)V增強(qiáng)語音效果Fig.1 Speech enhancement effect of cochleagramwith different smoothness
CSCG特征的可視化圖如圖2所示,右邊是純凈信號(hào)的耳蝸?zhàn)V特征,左邊是信噪比5 dB、噪聲為Babble的帶噪語音耳蝸?zhàn)V特征??梢钥闯?,CG1是正常的耳蝸?zhàn)V,CG2、CG3是不同平滑度的耳蝸?zhàn)V。CSCG如果判斷該時(shí)頻單元是語音主導(dǎo),那么它相鄰的時(shí)頻單元也有很大可能是語音主導(dǎo),即語音主導(dǎo)的時(shí)頻單元很少單獨(dú)出現(xiàn),從而有利于分類器對(duì)目標(biāo)掩蔽的估計(jì)。
圖2 CSCG特征圖Fig.2 CSCG feature map
引入DBLSTM網(wǎng)絡(luò)做分類器進(jìn)行語音增強(qiáng),DNN只能學(xué)習(xí)當(dāng)前幀的語音信息,不能利用語音上下文信息所具有的關(guān)聯(lián)性,因此采用DBLSTM網(wǎng)絡(luò)能取得更好的效果。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)在處理序列數(shù)據(jù)時(shí),能得到很好的效果。在給定輸入序列x=(x1,x2,...,xT)的條件下,RNN在時(shí)間t為1~T計(jì)算隱藏序列h=(h1,h2,...,hT)和輸出序列y=(y1,y2,...,y2)。顯式連接相鄰序列中的多個(gè)輸入向量,以提高網(wǎng)絡(luò)學(xué)習(xí)上下文的能力。
傳統(tǒng)的RNN的缺點(diǎn)就是只能利用以前的語音信息,語音信息的前后具有較強(qiáng)的相關(guān)性,所以有必要采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)來進(jìn)行增強(qiáng)。BRNN通過使用2個(gè)單獨(dú)的隱藏層在2個(gè)方向上處理數(shù)據(jù),然后將其轉(zhuǎn)發(fā)到同一輸出層來實(shí)現(xiàn),結(jié)構(gòu)如圖3所示。
圖3 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)Fig.3 Bidirectional recurrent neural network
但是,在進(jìn)行后向傳播中很容易出現(xiàn)“梯度消失和爆炸”的問題,很難讓RNN得到良好的訓(xùn)練結(jié)果,LSTM很好地緩解了以上問題,通過引入存儲(chǔ)單元和一系列門來動(dòng)態(tài)地控制信息流。單個(gè)LSTM存儲(chǔ)單元如圖4所示。
圖4 長短時(shí)記憶細(xì)胞Fig.4 Long and short term memory cells
LSTM的實(shí)現(xiàn)公式:
it=σ(Wxixt+Whiht-1+bi),
(5)
ft=σ(Wxfxt+Whfht-1+bf),
(6)
ct=ft?ct-1+it?tanh(Wxcxt+Whcht-1+bc),
(7)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo),
(8)
ht=ot?tanh(ct),
(9)
式中,t為幀索引;σ為Sigmod激活函數(shù);i,f,o,c分別為輸入門、遺忘門、輸出門和細(xì)胞激活向量,它們的大小都和隱藏向量ht相同;?表示元素相乘;W,b分別表示從序列向量到各個(gè)門的權(quán)重矩陣(例如Wxi表示xt到輸入門i)和偏移向量。
(10)
(11)
(12)
使用深層結(jié)構(gòu),能夠獲得更深入的信息,可以通過將多個(gè)RNN隱藏層堆疊起來形成深度循環(huán)網(wǎng)絡(luò)D-RNNs,其結(jié)構(gòu)如圖5所示。
圖5 深度循環(huán)神經(jīng)網(wǎng)絡(luò)Fig.5 Deep recurrent neural network
本文將在后面討論使用多少隱藏層取得較好效果。假設(shè)D-RNNs中的所有N層都使用相同的隱藏層函數(shù),則隱藏序列hn從n=1到N和t=1到T迭代計(jì)算如下:
(13)
式中,H()為隱藏層激活函數(shù);其中W,b分別表示權(quán)重矩陣(例如Whn-1hn代表第n-1~n層隱藏層)和偏移向量,定義h0=x,網(wǎng)絡(luò)的輸出yt如下:
yt=WhNyhNt+by。
(14)
圖6 深度雙向長短時(shí)記憶網(wǎng)絡(luò)Fig.6 Deep bidirectional long short term memory network
通過DBLSTM網(wǎng)絡(luò),既可以避免“梯度爆炸和消失”帶來的問題,又可以從輸入和輸出2個(gè)方向同時(shí)取得語音的背景信息,可以提高語音增強(qiáng)中語音的質(zhì)量和可懂度。
實(shí)驗(yàn)主要分為訓(xùn)練和測試2個(gè)階段,其中訓(xùn)練階段采用的純凈語音來自TMIT數(shù)據(jù)庫[12],使用的噪聲語音是來自O(shè)SU Perception and Neurodynamic Laboratory[13]采集的100種環(huán)境噪聲,多種噪聲的選取可以有效地提高模型在面對(duì)沒有訓(xùn)練過的噪聲時(shí)的泛化能力。將4 620條TIMIT庫語音和各種噪聲進(jìn)行混合,產(chǎn)生多種信噪比的帶噪語音,構(gòu)成了10 h訓(xùn)練集。然后提取帶噪語音的聲學(xué)特征:LPS、MFCC、GFCC、PNCC、CSCG。最后以LPS為基礎(chǔ),因?yàn)樗A袅苏Z音比較完整的信息,分別單獨(dú)結(jié)合其他幾種特征送入分類器進(jìn)行訓(xùn)練,目標(biāo)時(shí)頻單元選取的是效果良好的IRM。
測試階段,純凈語音是來自TMIT語音庫的192條語音,測試的噪聲來自Noisex92噪聲庫包含F(xiàn)actory、Buccaneer、Babble、Desroty、Hfchannel、Destroyerops等非平穩(wěn)噪聲和Pink、White等平穩(wěn)噪聲。提取出帶噪語音的相應(yīng)聲學(xué)特征后送入網(wǎng)絡(luò)得到估計(jì)出的時(shí)頻單元,然后利用帶噪語音的幅度和相位,結(jié)合估計(jì)的時(shí)頻單元產(chǎn)生增強(qiáng)后的語音。
為了評(píng)價(jià)各種方法下的語音增強(qiáng)性能,將采用多種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)增強(qiáng)后的語音進(jìn)行評(píng)估,其中包括PESQ[14]來評(píng)估增強(qiáng)語音的質(zhì)量、STOI[15]來評(píng)價(jià)語音的可懂度、分段信噪比segSNR來評(píng)價(jià)增強(qiáng)語音的信噪比。
在語音信號(hào)處理中,差分和二階差分被廣泛用于捕捉短暫的動(dòng)態(tài)信息,比如在語音識(shí)別領(lǐng)域,級(jí)聯(lián)MFCC參數(shù)的差分和二階差分可以有效提高識(shí)別率。差分濾波技術(shù)計(jì)算公式為:
C(m+M)]/(2M+1),
(15)
圖7 5 dB情況下差分平均濾波PESQFig.7 Differential average filtering PESQ at 5 dB
圖8 5 dB情況下差分平均濾波STOI效果Fig.8 Differential average filtering STOI at 5 dB
為了對(duì)比各特征參數(shù)對(duì)語音增強(qiáng)效果的影響,先采用4.2節(jié)所使用的DAF,然后送入統(tǒng)一的分類器DNN,得到增強(qiáng)語音,然后分別測試在不同噪聲下,各種信噪比條件下的平均PESQ和平均segSNR,如表1和表2所示??梢钥闯?,GF、GFCC、CSCG采用Gammatone濾波器的效果明顯比PNCC和MFCC好。其次,由于MFCC、GFCC、PNCC采用了離散余弦變換壓縮了語音信息,導(dǎo)致增強(qiáng)效果不好。廣泛使用在語音識(shí)別中的MFCC參數(shù)對(duì)比PNCC參數(shù)也有效果上的提升。本文提出的CSCG通過不同的平滑程度的耳蝸?zhàn)V,可獲得多個(gè)層次語音信息,從而不管是PESQ,還是segSNR都比其他特征效果好。
表1 各聲學(xué)特征在不同噪聲下的PESQTab.1 PESQ of speech features under different noises
首先探索網(wǎng)絡(luò)深度對(duì)增強(qiáng)性能的影響,分別選取各種數(shù)量的隱藏層數(shù),如圖9所示,比較各種噪聲類型上的平均PESQ,BLSTML中的L代表了雙向長短時(shí)網(wǎng)絡(luò)(BLSTM)的層數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)是L層BLSTM作為隱藏層,每層包含1 024個(gè)神經(jīng)元,激活函數(shù)選取tanh。最后一層采用全連接層,作為輸出層,包含257個(gè)神經(jīng)元,激活函數(shù)選取Sigmod。其中可以看出2層BLSTM取得效果最好,隨著層數(shù)的增加,語音的質(zhì)量效果反而下降,說明層數(shù)的增加導(dǎo)致語音信息的丟失。
圖9 5 dB噪聲下網(wǎng)絡(luò)層數(shù)的PESQFig.9 PESQ of network layers under 5 dB noise
接下來,選取2層BLSTM作為本文的基礎(chǔ)網(wǎng)絡(luò),保持輸入的聲學(xué)特征一樣,和DNN進(jìn)行實(shí)驗(yàn)對(duì)比,如圖10所示,其中DNN網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)是4層全連接層,前3層包含1 024個(gè)神經(jīng)元,激活函數(shù)是Relu,最后一層包含257個(gè)神經(jīng)元,激活函數(shù)是Sigmod??梢钥闯?,本文使用的DBLSTM網(wǎng)絡(luò)結(jié)構(gòu),充分使用語音的上下文信息,不管是何種信噪比情況下,都獲得了比DNN獲得更好的語音效果。
圖10 DNN和BLSTM分類器PESQFig.10 PESQ of DNN and BLSTM classifiers
采用PESQ、segSNR、STOI三種客觀評(píng)價(jià)指標(biāo)對(duì)各類方法效果進(jìn)行評(píng)估。其中對(duì)比方法有時(shí)頻掩蔽估計(jì)DNN_MASK[16]、回歸模型語音增強(qiáng)DNN_BASE[17]、深度神經(jīng)網(wǎng)絡(luò)的非負(fù)矩陣分解DNN_NMF[18]、傳統(tǒng)語音增強(qiáng)算法Logmmse[4]和本文提出的DBLSTM_CSCG,用于實(shí)驗(yàn)測試的噪聲都是未經(jīng)訓(xùn)練過的,可以充分說明模型的泛化能力。各信噪比下、各種噪聲條件下包括平穩(wěn)和非平穩(wěn)噪聲,不同方法語音增強(qiáng)的平均效果如圖11~圖13所示。
圖11 各種方法的PESQ對(duì)比Fig.11 PESQ comparison of various methods
圖12 不同方法下的segSNRFig.12 SegSNR comparison of various methods
圖13 不同方法下的STOIFig.13 STOI comparison of various methods
可以看出,本文提出的方法DBLSTM_CSCG不管是在分段信噪比segSNR、語音的質(zhì)量清晰度PESQ和語音的可懂性STOI都比其他幾種方法取得更好的效果,并且隨著信噪比的降低效果明顯更好,因此更適用于噪聲惡劣的環(huán)境。盡管傳統(tǒng)方法Logmmse在PESQ和segSNR都比其他幾種方法要好,但是短時(shí)可懂性STOI效果明顯不好,破壞了語音的完整信息。可以看出,DNN_NMF、DNN_BASE、DNN_ MASK這3種方法對(duì)各評(píng)價(jià)指標(biāo)差別不大,提升性能較小,并且從圖12可以看出,DNN_BASE在高信噪比下,分段信噪比反而降低,充分說明了DBLSTM給語音增強(qiáng)效果帶來的益處。
本文主要從有監(jiān)督的語音增強(qiáng)系統(tǒng)的聲學(xué)特征和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),引入了CSCG,有效利用語音的多個(gè)維度的信息,并且在此基礎(chǔ)上,將原有的DNN作分類器,改成DBLSTM網(wǎng)絡(luò),充分利用語音的前后信息的相關(guān)性,提高了網(wǎng)絡(luò)的學(xué)習(xí)能力。通過多組對(duì)比實(shí)驗(yàn)證明,本文提出的方法不管在語音的可懂性、清晰度質(zhì)量,還是分段信噪比上都有較大的提升,并且在低信噪比下可以帶來更多益處。