劉雄濤 周書民 方江雄
摘? 要:單通道語音分離主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)對(duì)語音序列建模,但這些方法都存在對(duì)較長停頓的語音序列建模困難的問題。提出一種雙路徑多尺度多層感知混合分離網(wǎng)絡(luò)(DPMNet)去解決這個(gè)問題。提出多尺度上下文感知建模方法,將三個(gè)不同時(shí)間尺度的輸入通道特征融合。與傳統(tǒng)的方法相比,加入全連接層以弱化噪音的干擾,卷積和全連接的交叉融合增加了模型的感受野,強(qiáng)化了長序列建模能力。實(shí)驗(yàn)表明,這種雙路徑多尺度混合感知的方案擁有更少的參數(shù),在Libri2mix及其實(shí)驗(yàn)嘈雜的版本W(wǎng)HAM!,以及課堂真實(shí)數(shù)據(jù)的ICSSD都表明DPMNet始終優(yōu)于其他先進(jìn)的模型。
關(guān)鍵詞:多尺度上下文建模;混合感知;全連接層;雙路徑網(wǎng)絡(luò);語音分離
中圖分類號(hào):TP18? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)01-0008-06
Dual-Path Multi-Scale Hybrid Perceptual Speech Separation Model
LIU Xiongtao1, ZHOU Shumin1, FANG Jiangxiong2
(1.Jiangxi Engineering Research Center of Process and Equipment for New Energy, East China University of Technology, Nanchang? 330013, China; 2.School of Electronics and Information Engineering, Taizhou University, Taizhou? 318000, China)
Abstract: Single-channel speech separation mainly uses recurrent neural networks or convolutional neural networks to model speech sequences, but these methods all have the problem of difficulty in modeling speech sequences with longer pauses. A dual-path multi-scale multi-layer perceptual hybrid separation network (DPMNet) is proposed to solve this problem. A multi-scale context-aware modeling method is proposed to fuse the input channel features of three different time scales. Compared with the traditional method, adding the fully connected layer could weaken the interference of noise. And the cross-fusion of convolution and fully connected increases the receptive field of the model and strengthens the modeling ability of long sequences. Experiments show that this dual-path multi-scale hybrid perceptual scheme has a fewer parameters. In Libri2mix and its experimental noisy version WHAM!, as well as ICSSD on real classroom data show that DPMNet consistently outperforms other advanced models.
Keywords: multi-scale context modeling; hybrid perception; fully connected layer; dual-path network; speech separation
0? 引? 言
語音分離技術(shù)常被稱為雞尾酒會(huì)問題[1],旨在從多個(gè)混合語音中提取單個(gè)說話人語音,噪聲條件下的語音分離是其重要組成部分。近年來,基于深度學(xué)習(xí)的時(shí)域語音分離方法得到了研究人員的關(guān)注,傳統(tǒng)的語音分離是在時(shí)頻中完成的(T-F)域[2-4]。為解決相位重構(gòu)以及STFT延遲的問題,基于時(shí)域的卷積音頻分離網(wǎng)絡(luò)被提出。
一方面,Tasnet采用“編碼器-解碼器”框架,這種方法省去了時(shí)域轉(zhuǎn)頻域步驟,并將分離問題轉(zhuǎn)換成掩碼問題[5]。但是,LSTM存在長序列梯度消失和無法并行計(jì)算的問題。使用TCN[6]代替LSTM的Conv-Tasnet在解決這些問題的同時(shí)擁有更靈活的感受野[7]。深度可分離卷積將原先的一種卷積操作,變?yōu)閮蓚€(gè)卷積操作,可以大大地減小參數(shù)量。使用最大化最佳尺度不變信噪比(OSI-SNR)[8]通過在訓(xùn)練時(shí)學(xué)習(xí)潛在目標(biāo)分離模塊,更好的解釋了時(shí)域損失函數(shù)[9]。為了解決混亂場(chǎng)景分離效果不好的問題,Stacked-LSTM網(wǎng)絡(luò)[10]將長序列輸入劃分為更小的塊并堆疊在一起,相比于TCN收斂更快,模型更小,但是分離速度較慢。為了提高卷積網(wǎng)絡(luò)中語音特征提取的準(zhǔn)確率,減少卷積和池化運(yùn)算導(dǎo)致有效信息丟失,使用膠囊網(wǎng)絡(luò)在Conformer模型中引入了動(dòng)態(tài)進(jìn)程機(jī)制[11]。另外,在FurcaNeXt[12]、SuDoRM-RF[13]、SpEx[14]和SpEx+[15]模型中融合了在不同時(shí)間尺度上進(jìn)行語音編碼的方法,稱為多尺度融合(MSF),相比單個(gè)分辨率能夠更好地還原原始特征[15,16],能夠更好地提高語音分離效果。
另一方面,由于Conv-TasNet使用固定的時(shí)間上下文長度[7],因此對(duì)單個(gè)說話者的長期跟蹤可能會(huì)失敗,尤其是當(dāng)句子中存在較長停頓時(shí)。當(dāng)輸入長序列數(shù)據(jù)集,由于一維卷積的感受野較小導(dǎo)致無法對(duì)話語間的關(guān)系進(jìn)行建模,雙路徑遞歸神經(jīng)網(wǎng)絡(luò)(DPRNN)通過將長序列拆分成小塊進(jìn)行塊內(nèi)和塊間操作[17]。使用多尺度Loss函數(shù)以及把單個(gè)雙向LSTM換成了平行的兩個(gè)LSTM實(shí)現(xiàn)了對(duì)多個(gè)說話人的語音分離[18]。目前主要的語音分離模型通?;谘h(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)不能直接根據(jù)上下文對(duì)語音序列進(jìn)行建模[19],從而導(dǎo)致次優(yōu)的分離性能。例如,基于RNN的模型需要通過許多中間狀態(tài)傳遞信息?;贑NN的模型存在感受野有限的問題。幸運(yùn)的是,基于自注意力機(jī)制的Transformer可以有效地解決這個(gè)問題[20],其中輸入的元素可以直接交互。但Transformer通常的數(shù)據(jù)長度與端到端時(shí)域語音分離系統(tǒng)相比較短,雙路徑網(wǎng)絡(luò)是解決極長輸入序列建模的有效方法[17]。
值得注意的是,基于自注意力的架構(gòu),尤其是Transformer被證實(shí)能夠很好地實(shí)現(xiàn)語音分離任務(wù)[20-23]。隨著ViT[24]結(jié)構(gòu)的在CV領(lǐng)域的爆火,基于mlp的改進(jìn)將CNN和Transformers有效結(jié)合起來[25,26]的方法,在保證較小模型尺寸的情況下提高分離效果。MLP-Mixer,一個(gè)完全基于MLPs的結(jié)構(gòu),其MLPs有兩種類型,分別是channel-mixing MLPs和token-mixing MLPs,前者獨(dú)立作用于image patches融合通道信息,后者跨image patches融合空間信息。
在本研究中,為了解決上述問題,提出雙路徑多尺度多層感知混合分離網(wǎng)絡(luò)DPMNet,包含語音編碼器,分離網(wǎng)絡(luò),語音解碼器。具體來說,語音編碼器包含短、中、長三個(gè)不同尺度的采集窗口,將這些包含更多的長時(shí)間信息的不同尺度語音特征轉(zhuǎn)換成中間特征。分離網(wǎng)絡(luò)主要分析編碼器的輸出數(shù)據(jù),得到各個(gè)源的掩碼。其中分別包含塊內(nèi)和塊間的卷積和全連接層,用于融合不同空間的語音特征,同時(shí)為了提高了模型的映射能力,降低訓(xùn)練難度,使用殘差網(wǎng)絡(luò)連接。最后中間特征與每個(gè)源的掩碼進(jìn)行元素級(jí)相乘,解碼器將重構(gòu)每個(gè)源的波形。
本文的其余部分安排如下。第一節(jié)提出了使用多尺度卷積編碼器實(shí)現(xiàn)的不同時(shí)間域內(nèi)的特征融合,介紹分離網(wǎng)絡(luò)混合感知的方法。實(shí)驗(yàn)的具體設(shè)置在第二節(jié)中說明。第三節(jié)顯示實(shí)驗(yàn)結(jié)果。第四節(jié)得出結(jié)論。
1? 模型
1.1? 整體結(jié)構(gòu)
DPMNet模型如圖1所示,由語音編碼器,分離網(wǎng)絡(luò)和解碼器組成。該模型結(jié)構(gòu)與Conv-Tasnet[7]類似,在此基礎(chǔ)上,為了更好地表現(xiàn)長語音結(jié)構(gòu)特征,語音編碼器由L1、L2、L3三個(gè)不同大小的一維卷積組成,得到的多分辨率特征數(shù)據(jù)送到分離網(wǎng)絡(luò)中,通過分析得到不同說話人的掩碼。解碼器窗口與編碼器的參數(shù)相同,但是由三個(gè)轉(zhuǎn)置一維卷積構(gòu)成。分離器中包含一個(gè)塊內(nèi)和塊間感知層,分別由一維卷積和線性層組成,并通過殘差連接串聯(lián)在一起。其他部分還包含Dropout層Groupnorm層等。最后語音解碼器通過解碼還原各個(gè)說話人的語音波形。接下來將展開介紹編碼器,雙路徑混合感知分離網(wǎng)絡(luò)和解碼器。
1.2? 語音編碼器
由于單個(gè)卷積層的窗口相對(duì)固定,且當(dāng)語音長度較長且句子中存在較長停頓時(shí),單個(gè)的卷積無法準(zhǔn)確地表現(xiàn)這些信息,所以本文中采用三個(gè)不同的窗口大小的卷積分別采集不同時(shí)間跨度的信息[15],最后對(duì)信息進(jìn)行融合,這在保證信息不變的情況下能夠更好地反應(yīng)句子中的細(xì)節(jié)問題。
語音編碼器由幾個(gè)并行的1-D具有不同濾波器長度的CNN會(huì)產(chǎn)生不同的時(shí)間分辨率。雖然多個(gè)尺度的數(shù)量可以因人而異,本文只研究三種不同的尺度。如果用X來表示輸入的混合語音,L來表示三個(gè)卷積的窗口的話,則編碼器中的聲音信號(hào)WK將用如下公式表示:
WK=ReLU(X*LK,K∈(1,2,3)? ? ? ? ? ? ? ? ? (1)
通過設(shè)置三個(gè)不同的時(shí)間窗口大小L1(short),L2(middle),L3(long),來實(shí)現(xiàn)句子中不同長度的特征關(guān)聯(lián),步長分別是其窗口的一般。為了避免大小不同的數(shù)據(jù)直接相加造成的信息錯(cuò)亂,在較短的數(shù)據(jù)后面補(bǔ)充對(duì)分離效果不產(chǎn)生影響的數(shù)據(jù),最后通過如下公式將數(shù)據(jù)整合得到編碼器的輸出Xe。
Xe=cat(W1,W2,W3)? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
1.3? 分離網(wǎng)絡(luò)
分離網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由塊內(nèi)mlp和塊間mlp組成,之間通過殘差連接,網(wǎng)絡(luò)中由K個(gè)模塊串聯(lián)在一起。mlp block包含線性層、Layernorm層、Dropout層以及兩個(gè)mlp層,其中可以為一維卷積或者全連接層。采用殘差連接將線性層的輸出與第二個(gè)dropout層的輸出疊加。
首先,通過分塊(Segmentation)將二維的語音數(shù)據(jù)變換成三維數(shù)據(jù)。若原始音頻長度為L,寬度為C=1,則經(jīng)過分塊之后形成的長寬高分別為2P,S,C。其中P為分塊的長度,為了之后的切片(patch)的方便,這里設(shè)置2P和S是patch_size的整數(shù)倍,且他們相等。關(guān)系如下,其中Xe表示編碼器輸出,XS表示經(jīng)過分塊的模型輸出。
XS=Segmention(Xe,Patch_size,S,C)? ? ? ? ? ? (3)
分離網(wǎng)絡(luò)由塊內(nèi)的mlp和塊與塊之間的mlp,通過與ViT[24]相似的拆分思想,將按照默認(rèn)patch_size=16,長與寬為16×16的大小將數(shù)據(jù)進(jìn)行切分,將其展開成一條直線。通過塊內(nèi)的mlp計(jì)算每個(gè)patch內(nèi)語音的相關(guān)性,利用卷積操作在數(shù)據(jù)之間計(jì)算相關(guān)性。采用mlp的方式在較長的數(shù)據(jù)長度內(nèi)計(jì)算句子相關(guān)性,方便網(wǎng)絡(luò)對(duì)較長句子停頓的情況進(jìn)行建模。為了更好地保留原始特征的比重,使用大量使用殘差連接彌補(bǔ)模型計(jì)算過程中的數(shù)據(jù)丟失。分離網(wǎng)絡(luò)中,塊內(nèi)mlp可以用Wr表示,Xseperate表示經(jīng)過分離網(wǎng)絡(luò)之后的模型輸出。
分離網(wǎng)絡(luò)的關(guān)系如下:
Wr=XS+row_mlp(XS)? ? ? ? ? ? ? ? ? ? ? ? ?(4)
Wseperate=Xr+col_mlp(Xr)? ? ? ? ? ? ? ? ? ? ? (5)
XO=Xseperate*Xe? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (6)
最后,使用二維卷積層為每個(gè)源計(jì)算一個(gè)掩碼。分離網(wǎng)絡(luò)的輸出Xseperate與原始混合音頻的特征數(shù)據(jù)Xe之間計(jì)算元素乘法得到每個(gè)源的波形。
1.4? 語音解碼器
一維卷積形式的解碼器只需要通過轉(zhuǎn)置計(jì)算即可得到分離完成的語音波形,但是在這篇文章中,首先需要通過逆向的切片運(yùn)算把三維數(shù)據(jù)轉(zhuǎn)換為二維音頻數(shù)據(jù)。之后將每條通道中的數(shù)據(jù)與編碼器中的三個(gè)不同時(shí)間窗口的一維卷積進(jìn)行逆向運(yùn)算,LT為卷積模型的轉(zhuǎn)置參數(shù),計(jì)算方式如下:
Xoutput_K=ReLU(X*LTK, K∈(1,2,3)? ? ? ? ? ? ? ?(7)
最后將三個(gè)通道內(nèi)的數(shù)據(jù)疊加在一起得到不同說話人的語音波形。
2? 實(shí)驗(yàn)
2.1? 數(shù)據(jù)集
Libri2Mix-K:Libri2Mix[27]由兩個(gè)或三個(gè)揚(yáng)聲器的混合以及來自WHAM![28]的環(huán)境噪聲樣本組成。該數(shù)據(jù)集是使用train-100、train-360、dev和測(cè)試集構(gòu)建的LibriSpeech數(shù)據(jù)集[29]。使用train-100作為訓(xùn)練集,生成兩個(gè)說話人的音頻數(shù)據(jù),大約41個(gè)小時(shí),包含13 900條語音數(shù)據(jù)。測(cè)試集大約6個(gè)小時(shí),包含3 000條語音數(shù)據(jù),來自Librispeech的del數(shù)據(jù)。采樣率為16 kHz。為了保證對(duì)比的可行性,使用相同的數(shù)據(jù)對(duì)不同的模型進(jìn)行測(cè)試。
Libri2Mix-N:這個(gè)數(shù)據(jù)集同樣由LibriSpeech[29]與WHAM![28]生成。通過將咖啡館、餐廳和酒吧等環(huán)境噪聲與Libri2Mix混合在一起,SNR在-6 dB和3 dB,數(shù)據(jù)規(guī)模上與Libri2Mix數(shù)據(jù)集相同。該數(shù)據(jù)集是為了與Libri2Mix數(shù)據(jù)集形成對(duì)比,證明模型在噪音條件下的泛用性。
ICSSD:此數(shù)據(jù)集是本文提出的基于課堂的語音數(shù)據(jù)集,通過采集課堂中的聲音信息生成包含mix、noise、student和teacher四個(gè)部分?jǐn)?shù)據(jù),采樣率為16 kHz。訓(xùn)練集大約7小時(shí),包含6 000條語音數(shù)據(jù)。測(cè)試集大約1小時(shí),包含1 000條語音數(shù)據(jù)。與前兩個(gè)數(shù)據(jù)集不同的是本數(shù)據(jù)集中的語音為中文,而前兩個(gè)為英文。其次本數(shù)據(jù)集中的噪音包含教室鈴聲和與語音無關(guān)的學(xué)生竊竊私語聲等,更符合模型的實(shí)際使用情況。
2.2? 實(shí)施細(xì)節(jié)
編碼器和解碼器分別采用三個(gè)一維卷積和三個(gè)轉(zhuǎn)置一維卷積,在默認(rèn)情況下,卷機(jī)核大小(kernel_size)分別為L1=10,L2=50,L3=100,步長分別是其窗口大小的一半,卷積產(chǎn)生的通道數(shù)為256,這與后面的塊大小(patch_size)有關(guān)。
每個(gè)模型都在Libri2Mix-K、Libri2Mix-N和ICSSD三個(gè)數(shù)據(jù)集上訓(xùn)練20個(gè)epoch,采樣率為16 kHz,批量處理大小為4,學(xué)習(xí)率為1×10-3。所有的實(shí)驗(yàn)都是在Intel(R) Xeon(R) Silver 4210 CPU @ 2.20 GHz和GeForce RTX 3080 10G上進(jìn)行的。
2.3? 模型訓(xùn)練
使用了尺度不變的信噪比改進(jìn)SI-SNRi[30]和信號(hào)失真比率改進(jìn)SDRi[31]作為衡量語音分離精度的評(píng)估指標(biāo)的模型。SDR其計(jì)算公式為:
(8)
其中? 表示估計(jì)的信號(hào),E表示語音中的噪音信號(hào)。
SISDR的計(jì)算公式為:
(9)
(10)
(11)
其中? 表示干凈的源信號(hào),xE表示與估計(jì)信號(hào)相垂直的語音聲音信息無關(guān)的噪音信號(hào)。
3? 結(jié)? 果
3.1? 三種mlp_block結(jié)構(gòu)的比較
在對(duì)比卷積和mlp在含有噪音的語音進(jìn)行特征采集時(shí),如圖3所示,可以說明的是卷積會(huì)降低分貝值,卷積操作加重了無用數(shù)據(jù)的比重,不能更好地區(qū)別停頓的位置,且受噪音的影響較大。
為了證明不同卷積和線性連接在DP分離網(wǎng)絡(luò)中的作用,設(shè)計(jì)了如表1所示的三種方案,層數(shù)都為2,分別在Libri2mix-k上進(jìn)行試驗(yàn)。
其中L1=2,L2=12,L3=72,patch_size=16。由上面的結(jié)論結(jié)合表中的實(shí)驗(yàn)結(jié)果得知,CC+LL的效果最好。通過利用卷積可以更好地挖掘塊內(nèi)的信息,而利用線性層則可以更好地獲取在較長時(shí)間內(nèi)的特征關(guān)系,便于對(duì)長數(shù)據(jù)的建模,減少較長句子停頓的影響,同時(shí)也可以減少噪音在數(shù)據(jù)中的比重。
3.2? 模型比較
設(shè)計(jì)了DPMNet網(wǎng)絡(luò),其中包含CC+LL,為了證明不同patch_size和MS對(duì)系統(tǒng)的影響,在三個(gè)數(shù)據(jù)集上設(shè)計(jì)了表2所示的實(shí)驗(yàn)列表。
由表2中數(shù)據(jù)可知,當(dāng)編碼器解碼器的窗口大小逐漸增大時(shí),模型的參數(shù)在不斷增大,但是模型的分離能力卻在下降,設(shè)計(jì)差別過大的時(shí)間窗口卷積不利于模型的建立,但是過小差別的編碼器也不利于模型對(duì)較長數(shù)據(jù)的建模。表3中patch_size表示將三維數(shù)據(jù)分塊的大小,layer表示mlp_block在網(wǎng)絡(luò)中的層數(shù),他們之間是通過串聯(lián)連接的,L1,L2,L3表示編碼器解碼器窗口大小,表中包含了不同參數(shù)下Epoch=20的SI-SDR結(jié)果。Patch_size為分塊操作中的關(guān)鍵參數(shù),從數(shù)據(jù)可知,在其他條件不變的情況下,越大的數(shù)值分離的效果越好,但是受限于設(shè)備原因,只測(cè)試了20輪訓(xùn)練的結(jié)果。
為了表現(xiàn)模型與其他模型的不同,分別在Libri2Mix-k、Libri2Mix-n和ICSSD數(shù)據(jù)集上進(jìn)行測(cè)試,如表4所示,其中包含基于波形的語音分離模型DPCL++[32]和UPIT-BLSTM-ST[33],基于時(shí)域語音分離的模型有BLSTM-TasNet[5]、Conv-TasNet[7]和DPRNN-TasNet[34]。DPMNet的模型尺寸只有2.7 M,且在ICASSD數(shù)據(jù)集上相比其他模型擁有更好的分離準(zhǔn)確率。
3.3? 多尺度特征融合
多尺度特征輸入相比于單個(gè)的一維卷積能夠更好地提取語音特征,設(shè)計(jì)了如表5所示的實(shí)驗(yàn),最小的時(shí)間窗口為10,MS分別為10,50,100,分離網(wǎng)絡(luò)的結(jié)構(gòu)為CC+LL。由SISDR的結(jié)果可知,多尺度相比于單尺度擁有更好的分離效果。如圖4所示,多尺度編碼器相比單尺度擁有更好的特征表現(xiàn)能力。
4? 結(jié)? 論
ViT和mlp-mixer算法在圖像以及NLP領(lǐng)域得到廣泛應(yīng)用,通過對(duì)比基于卷積的模型發(fā)現(xiàn)其能夠更好地提取長序列的語音特征,同時(shí)提高模型速度。本文提出可否利用mlp-mixer的結(jié)構(gòu)將卷積的思想融合進(jìn)來,一方面可以減少模型的參數(shù)量,另一方面對(duì)于語音的特征可以更好地提取。發(fā)現(xiàn)在不同的組合情況下,模型的表現(xiàn)不同,當(dāng)兩個(gè)卷積與兩個(gè)全連接層相連接時(shí),更能夠提取混合信號(hào)中的說話人特征。另外也發(fā)現(xiàn)結(jié)合多尺度的特征融合在長序列的語音分離任務(wù)中得到了更好的效果。
通過本次實(shí)驗(yàn)證明卷積網(wǎng)絡(luò)主要存在三個(gè)問題:
(1)卷積算法會(huì)加重噪音在特征向量中的比重,其中,空洞卷積會(huì)丟失信息的連續(xù)性,使分離語音失真;
(2)卷積的長時(shí)間依賴性依然存在,數(shù)據(jù)中的有效信息占比越小,對(duì)分離的效果影響越大;
(3)卷積會(huì)降低句子的分貝,對(duì)于句子停頓的敏感性與全連接相比較差。為解決較長停頓的語音分離,提出了雙路徑多尺度多層感知混合分離網(wǎng)絡(luò)(DPMNet)。使用多尺度特征融合操作避免了單個(gè)卷積的視野固定,特征容易丟失的問題。使用雙路徑的混合感知結(jié)構(gòu),結(jié)合卷積和多層感知機(jī)的優(yōu)點(diǎn),在全局和局部之間讀取句子內(nèi)部,句子與句子之間的特征關(guān)系。該設(shè)計(jì)為單通道語音分離提供了新的思路。
盡管這些結(jié)果較為滿意,但是依然存在許多挑戰(zhàn)。在本文中沒有對(duì)三個(gè)說話人及以上的情況進(jìn)行試驗(yàn),希望在之后進(jìn)行位置數(shù)量源的語音分離。同時(shí)由于設(shè)備影響導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)較少,無法進(jìn)行參數(shù)量更大的實(shí)驗(yàn)也是本文的遺憾。
參考文獻(xiàn):
[1] HAYKIN S,CHEN Z.The Cocktail Party Problem [J].Neural Comput,2005,17(9):1875-902.
[2] HERSHEY J R,CHEN Z,ROUX J L,et al.Deep Clustering:Discriminative Embeddings for Segmentation and Separation [C]//2016 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Shanghai:IEEE,2016:31-35.
[3] CHEN Z,LUO Y,MESGARANI N.Deep Attractor Network for Single-Microphone Speaker Separation [C]//2017 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).New Orleans:IEEE,2016:246-250.
[4] KOLBAEK M,YU D,TAN Z H,et al.Multitalker Speech Separation With Utterance-Level Permutation Invariant Training of Deep Recurrent Neural Networks [J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2017,25(10):1901-1913.
[5] LUO Y,MESGARANI N.TasNet:Time-Domain Audio Separation Network for Real-Time,Single-Channel Speech Separation [C]//2018 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Calgary:IEEE,2018:696-700.
[6] BAI S J,KOLTER J Z,KOLTUN V.An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling [J/OL].arXiv:1803.01271 [cs.LG].[2022-08-09].https://arxiv.org/abs/1803.01271.
[7] LUO Y,MESGARANI N.Conv-TasNet:Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation [J/OL].arXiv:1809.07454 [cs.SD].[2022-08-06].https://arxiv.org/abs/1809.07454.
[8] MA C,LI D M,JIA X P.Two-Stage Model and Optimal SI-SNR for Monaural Multi-Speaker Speech Separation in Noisy Environment [J/OL].arXiv:2004.06332 [eess.AS].[2022-08-07].https://arxiv.org/abs/2004.06332.
[9] WU X C,LI D M,MA C,et al.Time-Domain Mapping with Convolution Networks for End-to-End Monaural Speech Separation [C]//2020 IEEE 5th International Conference on Signal and Image Processing (ICSIP).Nanjing:IEEE,2020:757-761.
[10] ZHAO M C,YAO X J,WANG J,et al.Single-Channel Blind Source Separation of Spatial Aliasing Signal Based on Stacked-LSTM [J].Sensors,2021,21(14):4844.
[11] LIU Y K,LI T,ZHANG P Y,et al.Improved Conformer-based End-to-End Speech Recognition Using Neural Architecture Search [J/OL].arXiv:2104.05390 [eess.AS].[2022-08-07].https://arxiv.org/abs/2104.05390v1.
[12] ZHANG L W,SHI Z Q,HAN J Q,et al.FurcaNeXt:End-to-End Monaural Speech Separation with Dynamic Gated Dilated Temporal Convolutional Networks [C]//26th International Conference on Multimedia Modeling.Daejeon:MMM,2020:653–665.
[13] TZINIS E,WANG Z P,SMARAGDIS P.Sudo RM-RF:Efficient Networks for Universal Audio Source Separation [C]//2020 IEEE 30th International Workshop on Machine Learning for Signal Processing(MLSP).Espoo:IEEE,2020:1-6
[14] XU C L,RAO W,CHNG E S,et al.Time-Domain Speaker Extraction Network [C]//2019 IEEE Automatic Speech Recognition and Under-standing Workshop (ASRU).Singapore:IEEE,2019:327-334.
[15] GE M,XU C L,WANG L B,et al.L-SpEx:Localized Target Speaker Extraction [C]//ICASSP 2022-2022 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Singapore:IEEE,2022:7287-7291
[16] TOLEDANO D T,MP FERN?NDEZ-GALLEGO,LOZANO-DIEZ A,et al.Multi-Resolution Speech Analysis for Automatic Speech Recognition Using Deep Neural Networks:Experiments on TIMIT [J/OL].PLoS ONE,2018,13(10)[2022-8-26]. https://ideas.repec.org/a/plo/pone00/0205355.html.
[17] LUO Y,CHEN Z,YOSHIOKA T.Dual-Path RNN:Efficient Long Sequence Modeling for Time-Domain Single-Channel Speech Separation [C]//ICASSP 2020-2020 IEEE International Confer-ence on Acoustics,Speech and Signal Processing (ICASSP).Barcelona:IEEE,2020:46-50.
[18] ZHAO Y,WANG D L,XU B Y,et al.Monaural Speech Dereverberation Using Temporal Convolutional Networks with Self Attention [J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2020,28:1598-1607.
[19] NACHMANI E,WOLF L,ADI Y M.Voice Separation with an Unknown Number of Multiple Speakers:US16853320 [P].[2020-04-20].
[20] SPERBER M,NIEHUES J,NEUBIG G,et al.Self-Attentional Acoustic Models [J/OL].arXiv:1803.09519 [cs.CL].[2022-08-19].https://arxiv.org/abs/1803.09519v1.
[21] KAISER L,GOMEZ A N,SHAZEER N,et al.One Model To Learn Them All[J/OL].arXiv:1706.05137 [cs.LG].[2022-08-11].https://arxiv.org/abs/1706.05137.
[22] SUBAKAN C,RAVANELLI M,CORNELL S,et al.Attention is All You Need in Speech Separation [J/OL].arXiv:2010.13154 [eess.AS].[2022-08-13].https://arxiv.org/abs/2010.13154.
[23] SUN C,ZHANG M,WU R J,et al.A Convolutional Recurrent Neural Network with Attention Frame-Work for Speech Separation in Monaural Recordings [J].Scientific Reports,2021,11:1-14.
[24] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2022-08-14].https://arxiv.org/abs/2010.11929.
[25] TOLSTIKHIN I,HOULSBY N,KOLESNIKOV A,et al.MLP-Mixer:An all-MLP Architecture for Vision [J/OL].arXiv:2105.01601 [cs.CV].[2022-08-17].https://arxiv.org/abs/2105.01601.
[26] LIU H X,DAI Z H,SO D R,et al.Pay Attention to MLPs [J/OL].arXiv:2105.08050 [cs.LG].[2022-08-15].https://arxiv.org/abs/2105.08050.
[27] COSENTINO J,PARIENTE M,CORNELL S,et al.LibriMix:An Open-Source Dataset for Generalizable Speech Separation [J/OL].arXiv:2005.11262 [eess.AS].[2022-08-16].https://arxiv.org/abs/2005.11262.
[28] WICHERN G,ANTOGNINI J,F(xiàn)LYNN M,et al.WHAM?。篍xtending Speech Separation to Noisy En-vironments [J/OL].arXiv:1907.01160 [cs.SD].[2022-08-16].https://arxiv.org/abs/1907.01160.
[29] PANAYOTOV V,CHEN G G,POVEY D,et al.Librispeech:An ASR Corpus Based on Public Domain Audio Books [C]//2015 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).South Brisbane:IEEE,2015:5206-5210.
[30] ROUX J L,WISDOM S,ERDOGAN H,et al.SDR–Half-baked or Well Done? [J/OL].arXiv:1811.02508 [cs.SD].[2022-08-17].https://arxiv.org/abs/1811.02508.
[31] VINCENT E,GRIBONVAL R,F(xiàn)?VOTTE C.Performance Measurement in Blind Audio Source Separation [J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1462-1469.
[32] HERSHEY J R,ZHUO C,ROUX J L,et al.Deep Clustering:Discriminative Embeddings for Segmentation and Separation [C]//2016 International Conference on Acoustics,Speech and Signal Processing(ICASSP).Shanghai:IEEE,2016:31-35.
[33] HUANG L,CHENG G F,ZHANG P Y,et al.Utterance-level Permutation Invariant Training with Latency-controlled BLSTM for Single-channel Multi-talker Speech Separation [J/OL].arXiv:1912.11613 [cs.SD].[2022-08-17].https://arxiv.org/abs/1912.11613v1.
[34] ZHU J Z,YEH R,HASEGAWA-JOHNSON M.Multi-Decoder DPRNN:High Accuracy Source Counting and Separation [J/OL].arXiv:2011.12022 [cs.SD].[2022-08-18].https://arxiv.org/abs/2011.12022v1.
作者簡介:劉雄濤(1999—),男,漢族,河北沙河人,研究生在讀,研究方向:控制工程。
收稿日期:2022-09-09
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61966001,61866001,62163004,61866016,62206195)