孫思雨,張海劍,陳佳佳
(武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072)
語(yǔ)音增強(qiáng)問(wèn)題是語(yǔ)音信號(hào)處理領(lǐng)域的研究熱點(diǎn),廣泛應(yīng)用于助聽(tīng)器、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別等語(yǔ)音通信場(chǎng)景[1-4]。語(yǔ)音增強(qiáng)的目標(biāo)在于從嘈雜的混合語(yǔ)音中提取出純凈人聲信號(hào),抑制背景噪聲,從而提高各種語(yǔ)音通信場(chǎng)景下的語(yǔ)音質(zhì)量和可懂度。語(yǔ)音增強(qiáng)通常分為單通道語(yǔ)音增強(qiáng)和多通道語(yǔ)音增強(qiáng)。與單通道語(yǔ)音增強(qiáng)僅使用混合語(yǔ)音波形或頻譜作為算法輸入來(lái)估計(jì)純凈語(yǔ)音不同,多通道語(yǔ)音增強(qiáng)還能利用陣列結(jié)構(gòu)中包含的空間信息來(lái)輔助算法提取純凈語(yǔ)音,從而在更復(fù)雜的實(shí)際聲學(xué)場(chǎng)景中提升語(yǔ)音質(zhì)量與清晰度。傳統(tǒng)的語(yǔ)音增強(qiáng)技術(shù)主要基于波束形成(Beamforming),通過(guò)增強(qiáng)來(lái)自目標(biāo)方向的信號(hào)并抑制其他方向的信號(hào)來(lái)實(shí)現(xiàn)空間濾波[5],如最小方差無(wú)失真響應(yīng)(Minimum Variance Distortion-less Response, MVDR)波束形成器[6]和廣義特征值(Ge-neralized Eigenvalue, GEV)波束形成器[7]等。
隨著深度學(xué)習(xí)在語(yǔ)音信號(hào)處理領(lǐng)域的興起,傳統(tǒng)的波束形成器開(kāi)始結(jié)合深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)構(gòu)成了廣義的神經(jīng)波束形成器。得益于單通道語(yǔ)音增強(qiáng)技術(shù)的蓬勃發(fā)展,許多多通道語(yǔ)音增強(qiáng)技術(shù)通常是對(duì)單通道語(yǔ)音增強(qiáng)技術(shù)的簡(jiǎn)單擴(kuò)展。文獻(xiàn)[8-9]展示了多通道語(yǔ)音增強(qiáng)技術(shù)對(duì)每個(gè)通道的混合信號(hào)應(yīng)用單通道語(yǔ)音增強(qiáng)網(wǎng)絡(luò),來(lái)并行預(yù)測(cè)對(duì)應(yīng)通道的時(shí)頻掩碼,接著利用這些時(shí)頻掩碼來(lái)計(jì)算空間協(xié)方差矩陣,進(jìn)而利用統(tǒng)計(jì)優(yōu)化準(zhǔn)則去推導(dǎo)出MVDR波束權(quán)值。由于最終權(quán)重估計(jì)的準(zhǔn)確度顯著依賴(lài)于第一階段的掩碼估計(jì),在低信噪比、強(qiáng)混響等不利的聲學(xué)條件下,前一階段的掩碼估計(jì)精度會(huì)下降,帶來(lái)的掩碼預(yù)測(cè)誤差將會(huì)嚴(yán)重影響最終波束權(quán)值估計(jì)的準(zhǔn)確度。另一種多通道增強(qiáng)策略是顯式或隱式地將空間信息作為聯(lián)合特征,喂給網(wǎng)絡(luò)去直接估計(jì)陣列參考麥克風(fēng)通道對(duì)應(yīng)的掩碼,或多個(gè)通道的波束權(quán)值。一種典型的顯式方法是直接利用輸入信號(hào)的相位來(lái)手動(dòng)提取通道間相位差(Inter-channel Phase Difference, IPD)作為輔助特征,顯式地為輸入特征添加空間信息[10]。常用的隱式方法是將多通道輸入信號(hào)經(jīng)過(guò)時(shí)頻變換后,將得到的復(fù)數(shù)譜的實(shí)部和虛部在通道維度進(jìn)行堆疊作為輸入特征送給網(wǎng)絡(luò)去預(yù)測(cè)目標(biāo)信號(hào)的復(fù)數(shù)時(shí)頻掩碼,這樣就將空間信息隱式地引入到輸入特征中[11-13]。上述策略本質(zhì)上仍然沿用了單通道語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),沒(méi)有充分利用傳統(tǒng)波束形成方法可以進(jìn)行空間濾波的優(yōu)勢(shì)[14],對(duì)于實(shí)際中更復(fù)雜的聲學(xué)環(huán)境,這些算法的性能將會(huì)達(dá)到瓶頸。
最近,一些神經(jīng)波束形成器的范式被提出。一類(lèi)基于時(shí)域處理,如文獻(xiàn)[15]提出的FasNet在時(shí)域估計(jì)濾波器系數(shù)進(jìn)行濾波求和。另一類(lèi)是在時(shí)頻域進(jìn)行處理,如文獻(xiàn)[16]提出了一種新的神經(jīng)波束形成器的范式名為全深度學(xué)習(xí)的MVDR(All Deep Learning MVDR, ADL-MVDR),ADL-MVDR用不同的網(wǎng)絡(luò)模塊來(lái)模擬傳統(tǒng)MVDR計(jì)算空間協(xié)方差矩陣和求解波束權(quán)值的過(guò)程,并將這些網(wǎng)絡(luò)模塊集成到一個(gè)端到端網(wǎng)絡(luò)中。受該方法的啟發(fā),文獻(xiàn)[14]提出了一種嵌入波束網(wǎng)絡(luò)(Embedding and Beamforming Network, EaBNet),與直接顯式地計(jì)算空間協(xié)方差矩陣不同,其在嵌入模塊提取包含空間信息和頻譜信息的嵌入張量,在波束模塊采用網(wǎng)絡(luò)的形式模擬波束權(quán)值計(jì)算過(guò)程。
盡管EaBNet展示了非??捎^的語(yǔ)音增強(qiáng)性能,但起決定性作用的嵌入模塊感受野有限,從而導(dǎo)致提取的嵌入張量中包含的頻譜和時(shí)間上下文信息不足。為解決以上問(wèn)題,本文在嵌入模塊中引入傅里葉卷積[17]來(lái)增大頻率維度感受野,以及時(shí)頻卷積模塊(Time Frequency Convolutional Module, TFCM)[18]對(duì)時(shí)間上下文信息進(jìn)行捕捉。此外添加注意力機(jī)制[19],進(jìn)一步擴(kuò)大感受野,更好地從輸入特征圖中提取上下文信息??焖俑道锶~卷積(Fast Fourier Convolution, FFC)的全局分支具有整個(gè)圖像范圍的感受野,并在文獻(xiàn)[20]中被證明適用于捕捉周期性結(jié)構(gòu)。TFCM的原理與時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network, TCN)[21]類(lèi)似,均采用深度擴(kuò)張卷積來(lái)實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)時(shí)序依賴(lài)建模,本文采用TFCM在編解碼器中捕獲時(shí)間上下文信息。在注意力機(jī)制方面,本文主要考慮空間注意力和通道注意力[19, 22-23]?;谝陨蠋追N算子,本文提出了基于傅里葉卷積的上下文特征提取器,結(jié)合FFC全局分支和TFCM的特點(diǎn),更好地從輸入特征圖中學(xué)習(xí)頻譜上下文信息。在此基礎(chǔ)上同時(shí)采用了一種新的卷積循環(huán)網(wǎng)絡(luò)(Convolutional Recurrent Network, CRN)結(jié)構(gòu)來(lái)替換EaBNet中的嵌入模塊,用來(lái)學(xué)習(xí)包含豐富空間和頻譜聯(lián)合信息的嵌入張量,其編解碼器中嵌入了前述上下文特征提取器,并在跳連接部分嵌入卷積注意力模塊(Convolutional Block Attention Mo-dule, CBAM)[19],以更好地實(shí)現(xiàn)信息在網(wǎng)絡(luò)中的流通并學(xué)習(xí)跨通道間的特征。為了在不降低性能的前提下實(shí)現(xiàn)更輕量級(jí)的模型,采用深度反饋?lái)樞蛴洃浘W(wǎng)絡(luò)(Deep Feedback Sequential Memory Network, DFSMN)作為CRN中的循環(huán)模塊對(duì)長(zhǎng)時(shí)依賴(lài)關(guān)系進(jìn)行建模[24-25]。所提模型在增強(qiáng)性能方面優(yōu)于原始的EaBNet,并且在2021年遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別比賽官方提供的開(kāi)發(fā)集上達(dá)到了最優(yōu)的效果。下面將詳細(xì)介紹本文所提出的基于傅里葉卷積的多通道語(yǔ)音增強(qiáng)方法。
假設(shè)混響室內(nèi)有M個(gè)麥克風(fēng)來(lái)記錄語(yǔ)音信號(hào),第m個(gè)麥克風(fēng)輸出的信號(hào)經(jīng)過(guò)短時(shí)傅里葉變換(Short-Time Fourier Transform, STFT)后可表示為:
(1)
(2)
式中:{·}*表示共軛操作,Wm(n,f)表示第m個(gè)通道對(duì)應(yīng)的波束權(quán)值。通過(guò)對(duì)估計(jì)得到的目標(biāo)語(yǔ)譜圖進(jìn)行逆短時(shí)傅里葉變換(Inverse STFT, ISTFT)得到最終增強(qiáng)的時(shí)域信號(hào)。
本文所提的多通道語(yǔ)音增強(qiáng)系統(tǒng)如圖1所示,其中包含了一個(gè)提取嵌入張量的CRN模塊和計(jì)算波束權(quán)值的長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)模塊以及全連接層。輸入噪聲譜經(jīng)過(guò)STFT后得到時(shí)頻域語(yǔ)譜圖D∈B×M×F×T,其中B、M、F和T分別表示塊大小(batch size)、輸入通道數(shù)(一般指麥克風(fēng)個(gè)數(shù))、頻點(diǎn)個(gè)數(shù)以及幀數(shù)。將實(shí)數(shù)譜與復(fù)數(shù)譜在通道維度堆疊得到輸入帶噪復(fù)數(shù)譜C∈B×2M×F×T,將輸入帶噪復(fù)數(shù)譜作為網(wǎng)絡(luò)輸入估計(jì)波束權(quán)值。圖1中CRN結(jié)構(gòu)用來(lái)提取包含空間信息和頻譜信息的嵌入張量,接著通過(guò)2層堆疊的LSTM結(jié)構(gòu)導(dǎo)出波束權(quán)重。估計(jì)出的濾波系數(shù)用來(lái)對(duì)對(duì)應(yīng)通道的噪聲復(fù)數(shù)譜按照式(2)進(jìn)行濾波,最后將每個(gè)通道濾波得到的語(yǔ)譜圖相加再經(jīng)過(guò)ISTFT得到目標(biāo)信號(hào)。
圖1 算法流程Fig.1 Flowchart of the proposed algorithm
由于嵌入張量的提取準(zhǔn)確度將直接影響最終波束形成權(quán)值估計(jì)的準(zhǔn)確性。因此對(duì)于嵌入模塊CRN的設(shè)置至關(guān)重要。經(jīng)典的CRN結(jié)構(gòu)僅在循環(huán)模塊中考慮對(duì)時(shí)間上下文之間的依賴(lài)性建模,由于其突出的性能,許多CRN結(jié)構(gòu)被廣泛應(yīng)用于增強(qiáng)任務(wù)中[25-28]。經(jīng)典的CRN結(jié)構(gòu)的編解碼器模塊常采用簡(jiǎn)單的卷積結(jié)構(gòu),對(duì)上下文信息的捕捉能力有限,在不利的聲學(xué)條件下,隨著目標(biāo)語(yǔ)音所受的干擾增加,時(shí)間與頻率上下文信息對(duì)純凈信號(hào)的恢復(fù)變得至關(guān)重要,常用的CRN結(jié)構(gòu)性能將會(huì)到達(dá)瓶頸。
為了處理常用CRN結(jié)構(gòu)中編解碼器捕捉上下文信息能力有限的問(wèn)題,提出了一種基于傅里葉卷積的大感受野的CRN結(jié)構(gòu),如圖1所示。所提出的CRN結(jié)構(gòu)包含K組編解碼器結(jié)構(gòu)、由DFSMN組成的循環(huán)模塊,以及由CBAM組成的跳連接模塊。相比傳統(tǒng)的CRN結(jié)構(gòu),本文所提CRN結(jié)構(gòu)在編解碼器模塊部分具有較大感受野,能充分從輸入特征中捕捉頻譜-空間聯(lián)合信息,用于學(xué)習(xí)嵌入向量。
本文所提編解碼器結(jié)構(gòu)如圖2所示,歸一化采用二維塊歸一化(BatchNorm2d),PReLU為激活函數(shù),用來(lái)為網(wǎng)絡(luò)增加非線性映射能力。輸入語(yǔ)譜圖經(jīng)過(guò)二維卷積映射到高維后,再通過(guò)上下文特征提取器捕捉時(shí)頻上下文特征。設(shè)第l個(gè)編碼器的輸入特征為F∈C×F×T,經(jīng)過(guò)卷積模塊時(shí)的運(yùn)算過(guò)程為:
圖2 編解碼器結(jié)構(gòu)Fig.2 Structure of the encoder and decoder
G=δ(BN(W1F))∈C′×F′×T′,
(3)
式中:C、C′分別為2維卷積的輸入通道數(shù)和輸出通道數(shù),G為上采樣后的特征圖,W1為該二維卷積的權(quán)重,δ(·)為PReLU激活函數(shù),BN(·)表示塊歸一化。接著將特征圖G送入上下文特征提取器進(jìn)行特征提取。
上下文特征提取器由傅里葉卷積的全局分支和TFCM組成,如圖3所示。傅里葉卷積中包含了一個(gè)由傳統(tǒng)卷積操作組成的局部分支,以及一個(gè)對(duì)輸入特征圖進(jìn)行離散傅里葉變換的全局分支。傅里葉卷積的全局分支具有全圖像域的感受野,這是由于離散傅里葉變換(Discrete Fourier Transform, DFT)在變換域上任意一點(diǎn)的更新將會(huì)對(duì)原始域的信號(hào)產(chǎn)生全局影響[17, 20, 29]。因此本文對(duì)特征圖的頻率維度進(jìn)行傅里葉變換,以在頻率特征維度上獲得全局感受野。
圖3 所提上下文特征提取器Fig.3 Proposed context feature extractor
此外,為了進(jìn)一步提高對(duì)時(shí)間上下文信息的捕捉能力,本文引入了TFCM[17]對(duì)時(shí)序依賴(lài)信息進(jìn)行建模,TFCM與TCN[21]原理類(lèi)似,均采用深度擴(kuò)張卷積來(lái)實(shí)現(xiàn)上下文建模,不同點(diǎn)在于TFCM采用二維深度卷積。
上下文特征提取器采用2個(gè)分支對(duì)輸入特征圖G進(jìn)行并行處理。左分支用傅里葉變換操作來(lái)提取頻率維度的上下文信息,右分支用TFCM組提取時(shí)間上下文信息。
在左分支中,首先將特征圖G通過(guò)一個(gè)CBAM,CBAM由2個(gè)門(mén)控注意力模塊組成,分別為空間注意力模塊和通道注意力模塊,詳見(jiàn)文獻(xiàn)[15]。對(duì)于一個(gè)輸入CBAM的特征圖G,計(jì)算過(guò)程為:
Q=SA(CA(G))∈C′×F′×T′,
(4)
式中:
CA(G)=G*σ(W2(δ(Avg(G))+δ(Max(G)))),
(5)
SA(G)=G*σ(W3([Avg(G);Max(G)])),
(6)
SA(·)、CA(·)分別表示空間注意力模塊和通道注意力模塊,通過(guò)對(duì)輸入特征產(chǎn)生不同的權(quán)重,再將這些權(quán)重作用于輸入特征上,從而從輸入特征中提取空間-頻譜聯(lián)合信息;σ(·)表示sigmoid函數(shù),W2、W3分別表示二維卷積權(quán)重,Avg(·)、Max(·)分別表示平均池化和最大池化操作。
接著對(duì)特征圖Q在頻率維度做一維實(shí)數(shù)傅里葉變換,得到一個(gè)新的復(fù)值特征圖:
H=f(Q)∈C′×F′/2×T′,
(7)
式中:f(·)表示一維實(shí)數(shù)傅里葉變換。接著將復(fù)值特征圖的實(shí)部與虛部在通道維度堆疊得到一個(gè)實(shí)數(shù)值張量H′∈2C′×F′/2×T′,接著用一個(gè)1×1卷積模塊對(duì)變換域的特征H′進(jìn)行更新:
A=δ(BN(W4H′))∈2C′×F′×T′,
(8)
式中:W4為逐點(diǎn)卷積的權(quán)重。接著對(duì)特征圖A的通道維度進(jìn)行切分,將其分為兩部分作為實(shí)部和虛部去組成一個(gè)新的復(fù)值特征圖用于逆傅里葉變換:
Jr,Ji=chunk(A)∈C′×F′/2×T′,
(9)
K=f′(Jr+Ji*i)∈C′×F′×T′,
(10)
式中:chunk(·)表示在通道維度將張量切分為兩部分,f′(·)表示一維逆傅里葉變換。
在右分支中,采用一組TFCM連接,通過(guò)控制深度擴(kuò)張卷積中的擴(kuò)張因子大小來(lái)實(shí)現(xiàn)時(shí)間上下文建模。右分支中包含L個(gè)TFCM,擴(kuò)張因子分別為20,21,…,2L-1。最后將左分支和右分支得到的結(jié)果相加再經(jīng)過(guò)逐點(diǎn)卷積得到一個(gè)編碼器的輸出。
左右分支分別提取頻率上下文和時(shí)間上下文信息,這使得所提出的傅里葉卷積編碼器具有較大感受野和較強(qiáng)的特征提取能力。此外,頻率維度的全局感受野有助于傅里葉卷積編碼器更好地從輸入語(yǔ)譜圖中學(xué)習(xí)諧波間的相關(guān)信息。
解碼器首先采用轉(zhuǎn)置卷積對(duì)高維特征圖進(jìn)行下采樣,將特征圖恢復(fù)到低維空間,接著再將其通過(guò)所提的上下文特征提取模塊對(duì)特征圖進(jìn)行恢復(fù)。
DFSMN是在前饋全連接層的基礎(chǔ)上,在其隱藏層中加入了一個(gè)記憶單元,記憶單元的作用是對(duì)該隱藏狀態(tài)的前后單元進(jìn)行編碼,從而捕捉序列的上下文信息,具體可參見(jiàn)文獻(xiàn)[23-24]。在本文中,最后一層編碼器的輸入為M∈C×F×T,將其變換為一組序列S∈(C×F)×T送入DFSMN。對(duì)于一個(gè)時(shí)刻t,對(duì)序列st∈C×F處理過(guò)程為:
(11)
(12)
(13)
本文采用2種損失函數(shù)來(lái)衡量增強(qiáng)信號(hào)與參考信號(hào)的相似度。第一種采用常用的SI-SNR,用來(lái)衡量增強(qiáng)信號(hào)與參考信號(hào)的時(shí)域相似度。SI-SNR的計(jì)算過(guò)程可以表示為[28]:
(14)
(15)
(16)
第二種采用聯(lián)合冪律壓縮譜和非對(duì)稱(chēng)損失函數(shù)來(lái)提升語(yǔ)音識(shí)別感知準(zhǔn)確度,并防止對(duì)噪聲過(guò)抑制。它主要由壓縮幅度譜Lmag、壓縮復(fù)數(shù)譜Lspec以及非對(duì)稱(chēng)壓縮幅度譜Lasym組成[30]:
L2=Lmag+Lspec+Lasym,
(17)
(18)
(19)
(20)
(21)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自2021年遠(yuǎn)場(chǎng)語(yǔ)音增強(qiáng)比賽所提供的數(shù)據(jù)集[31]。純凈語(yǔ)音數(shù)據(jù)選自AISHELL-1[32]、AISHELL-3[33]、VCTK[34]以及LibriSpeech(train-clean-360)[35]四個(gè)語(yǔ)料庫(kù),從每個(gè)數(shù)據(jù)集中挑選10 000條信噪比大于15 dB的語(yǔ)音段用來(lái)生成訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)填充或剪裁到4 s。噪聲數(shù)據(jù)來(lái)自于開(kāi)源的MUSAN[36]和AudioSet[37]語(yǔ)料庫(kù)。麥克風(fēng)陣列設(shè)置為間隔為5 cm,包含8個(gè)麥克風(fēng)的均勻線陣,并采用鏡像方法[38]生成超過(guò)5 000個(gè)多通道房間脈沖響應(yīng)(Room Impulse Response, RIR)。仿真生成的房間長(zhǎng)寬高隨機(jī)設(shè)置為3~8 m、3~8 m、3~3.5 m?;祉憰r(shí)間隨機(jī)設(shè)置為0.1~0.9 s。語(yǔ)音和噪聲的位置隨機(jī),與麥克風(fēng)陣列間的位置間隔隨機(jī)設(shè)置為0.5~5 m,并設(shè)置語(yǔ)音與噪聲間隔大于20°。目標(biāo)語(yǔ)音和干擾噪聲隨機(jī)以-5~25 dB的信噪比混合。驗(yàn)證集按照官方提供的純凈語(yǔ)音集和噪聲集生成。最后,生成了大約60 000組訓(xùn)練數(shù)據(jù)集和1 600組噪聲數(shù)據(jù)集。
本文在2021年遠(yuǎn)場(chǎng)語(yǔ)音增強(qiáng)比賽官方提供的開(kāi)發(fā)集上驗(yàn)證算法的性能。采用4個(gè)客觀指標(biāo)對(duì)性能進(jìn)行評(píng)估:感知語(yǔ)音質(zhì)量(Perceptual Evaluation of Speech Quality, PESQ)[39]、短時(shí)客觀可理解性(Short Time Objective Intelligibility, STOI)[40]、擴(kuò)展短時(shí)客觀可理解性(Extended STOI, E-STOI)[41]以及尺度不變信噪比(Scale-invariant SNR, Si-SNR)。
首先將所有的語(yǔ)音信號(hào)重采樣到16 kHz,訓(xùn)練數(shù)據(jù)填充或剪裁到4 s,驗(yàn)證數(shù)據(jù)填充或剪裁到6 s。采用20 ms的漢寧窗對(duì)語(yǔ)音段進(jìn)行分幀,幀移為10 ms。對(duì)每幀信號(hào)進(jìn)行512點(diǎn)的STFT變換,將信號(hào)從時(shí)域變換到時(shí)頻域。對(duì)于所提的CRN結(jié)構(gòu),其中包含5對(duì)編解碼器,編解碼器中卷積參數(shù)設(shè)置如表所示。此外,每個(gè)編碼器中包含5個(gè)TFCM。循環(huán)模塊的DFSMN結(jié)構(gòu)共享網(wǎng)絡(luò)權(quán)值,均包含64個(gè)隱藏單元。波束權(quán)值推理部分由2個(gè)包含64個(gè)隱藏單元的LSTM模塊堆疊而成。本文采用ADAM優(yōu)化器對(duì)網(wǎng)絡(luò)模型進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,如果在驗(yàn)證集上計(jì)算的損失值連續(xù)2個(gè)周期都不下降,則將學(xué)習(xí)率減半。
表1 編碼器卷積參數(shù)設(shè)置
本文首先在2021年遠(yuǎn)場(chǎng)語(yǔ)音增強(qiáng)比賽官方提供的開(kāi)發(fā)集上評(píng)估了所提方法的性能,損失函數(shù)采用L1損失函數(shù),并與4個(gè)較優(yōu)的基線系統(tǒng)進(jìn)行了比較,方法分別為:oracle MVDR、文獻(xiàn)[17]方法、MIMO-Net[10]和EaBNet[12]。其中,oracle MVDR為理想條件下的MVDR波束形成器,利用參考信號(hào)估計(jì)出目標(biāo)語(yǔ)音對(duì)應(yīng)的導(dǎo)向矢量,再使用MVDR波束形成器對(duì)導(dǎo)向矢量對(duì)應(yīng)的方向進(jìn)行空間濾波,以估計(jì)目標(biāo)純凈語(yǔ)音;文獻(xiàn)[17]的模型在比賽提供的開(kāi)發(fā)集上表現(xiàn)出較好的性能,其在DCCRN[28]的基礎(chǔ)上提出了復(fù)數(shù)空間注意力和通道注意力模塊用來(lái)提取空間信息;MIMO-Net在2021年遠(yuǎn)場(chǎng)語(yǔ)音增強(qiáng)比賽中獲得第一名,其采用一個(gè)簡(jiǎn)單的因果Unet網(wǎng)絡(luò)來(lái)估計(jì)波束權(quán)值,采用濾波求和操作實(shí)現(xiàn)空間濾波;EaBNet是2022年中科院聲學(xué)所提出的多通道語(yǔ)音增強(qiáng)模型,是目前一種較為先進(jìn)的多通道增強(qiáng)方法。表2展示了5個(gè)模型在比賽官方提供的開(kāi)發(fā)集上的客觀指標(biāo)。從表2可看出,所提方法大大優(yōu)于比賽官方所提供的基線系統(tǒng),也優(yōu)于其他對(duì)比方法,達(dá)到了最優(yōu)性能,這有力地說(shuō)明了所提方法能有效從輸入混合信號(hào)中提取頻譜和空間聯(lián)合信息,從而提高增強(qiáng)后的語(yǔ)音質(zhì)量。同時(shí),與其他方法相比,所提模型參數(shù)量較小,進(jìn)一步說(shuō)明了所提方法的有效性。
表2 開(kāi)發(fā)集上增強(qiáng)結(jié)果
為了更全面地對(duì)模型效果進(jìn)行分析,本文從LibriSpeech數(shù)據(jù)集中隨機(jī)抽取與訓(xùn)練集不重合的2 000條語(yǔ)音段作為純凈語(yǔ)音,并從AudioSet中抽取2 000條噪聲作為噪聲集。將每條噪聲和語(yǔ)音填充或剪裁到6 s,分別在-5、0、5 dB的信噪比條件下生成測(cè)試數(shù)據(jù),驗(yàn)證本文模型在低信噪比環(huán)境下的增強(qiáng)效果。其中每種低信噪比條件下仿真生成的RIR混響時(shí)間為[0.1, 0.9]s,按照均勻采樣的方式隨機(jī)從上述范圍中選擇一個(gè)混響時(shí)間生成每條RIR。表3展示了低信噪比下本文所提方法和對(duì)比算法的結(jié)果,該實(shí)驗(yàn)中采用的模型是使用L1損失函數(shù)訓(xùn)練好的模型。從表3整體來(lái)看,隨著信噪比的降低,所有方法的性能均下降,但所提方法在每種信噪比條件下都展示出最優(yōu)的性能。此外,隨著信噪比降低,所提方法與EaBNet的差距逐漸增加,這表明所提方法能在低信噪比條件下更好地從輸入多通道信號(hào)中提取重要頻譜-空間聯(lián)合信息用以區(qū)分噪聲信號(hào)和語(yǔ)音信號(hào)。
表3 不同信噪比下的客觀指標(biāo)對(duì)比
此外,為了驗(yàn)證所提模型在不同混響程度下的增強(qiáng)效果,采用表3實(shí)驗(yàn)中抽取的純凈語(yǔ)音和噪聲語(yǔ)音分別在[0.1, 0.3]s、[0.3, 0.6]s以及[0.6, 1.0]s三種范圍下分別生成1 000條RIR。每種條件下生成RIR時(shí),其混響時(shí)間都在所對(duì)應(yīng)的范圍內(nèi)均勻采樣獲得。生成的RIR與純凈語(yǔ)音和噪聲進(jìn)行卷積得到帶噪語(yǔ)音,每條帶噪語(yǔ)音的信噪比均為5 dB。表4展示了不同混響時(shí)間下所提算法與對(duì)比算法的實(shí)驗(yàn)結(jié)果。從表4可以看出,在混響時(shí)間較小時(shí),所提方法與對(duì)比方法都展現(xiàn)了較好結(jié)果。隨著混響時(shí)間增加,所有方法的性能都大幅下降,尤其是在混響時(shí)間接近0.9 s時(shí),這是由于混響較大時(shí),空間混疊增加,目標(biāo)語(yǔ)音的空間信息受到較大干擾,從而導(dǎo)致空間信息提取困難,但本文所提方法仍大幅優(yōu)于其他方法,也證明了本文方法在捕捉空間-頻譜信息方面的優(yōu)越性。
表4 不同混響時(shí)間下的客觀指標(biāo)對(duì)比
為驗(yàn)證2種損失函數(shù)的性能,本文在2021年遠(yuǎn)場(chǎng)語(yǔ)音增強(qiáng)比賽官方提供的開(kāi)發(fā)集上評(píng)估了2種損失函數(shù)的性能,結(jié)果如表5所示。從表5可以看出,第二種混合損失函數(shù)L2整體優(yōu)于Si-SNR損失函數(shù)L1,除了Si-SNR指標(biāo),這說(shuō)明冪律壓縮譜損失函數(shù)能有效提高增強(qiáng)語(yǔ)音的感知度,故PESQ指標(biāo)會(huì)明顯優(yōu)于L1損失函數(shù)。
表5 不同損失函數(shù)結(jié)果對(duì)比
本文針對(duì)大多數(shù)多通道語(yǔ)音增強(qiáng)網(wǎng)絡(luò)缺乏對(duì)頻譜上下文充分學(xué)習(xí)的問(wèn)題,提出了一種基于傅里葉卷積編碼器的卷積循環(huán)編解碼器CRN。所提傅里葉卷積編碼器以FFC為基礎(chǔ),集成了注意力機(jī)制以及TFCM,用來(lái)擴(kuò)大卷積感受野,從而更好地從輸入語(yǔ)譜圖中捕捉空間-頻譜聯(lián)合信息。此外在所提CRED中采用DFSMN作為循環(huán)模塊對(duì)時(shí)間上下文進(jìn)行建模,大大減小網(wǎng)絡(luò)整體參數(shù)量。實(shí)驗(yàn)結(jié)果表明,所提方法優(yōu)于其他基線,且網(wǎng)絡(luò)參數(shù)量更小。此外,本文討論了2種損失函數(shù)的性能,實(shí)驗(yàn)結(jié)果表明,聯(lián)合冪律壓縮譜損失函數(shù)能獲得更高的PESQ結(jié)果。