基于嵌入式注意機(jī)制的目標(biāo)語音提取算法

2023-10-28 10:47:20郭志楷楊明堃蔣國峰劉歡歡馬紅強(qiáng)

計(jì)算機(jī)測量與控制 2023年10期

郭志楷，楊明堃，蔣國峰，陶祁，劉歡歡，馬紅強(qiáng)

(空軍工程大學(xué)航空機(jī)務(wù)士官學(xué)校航空電子工程系，河南信陽 464099)

0 引言

單聲道語音分離是將說話人語音信號從混合語音中分離出來，也被稱為雞尾酒會問題[1]。人類的聽覺系統(tǒng)可以很容易的從混合語音中分離感興趣的源信號，但是這對于計(jì)算機(jī)識別系統(tǒng)來講并不容易，尤其是在單聲道情況下，提取目標(biāo)語音非常困難。因而關(guān)于語音信號處理的大多數(shù)研究都集中在單聲道語音分離(SCSS，single channel speech separation)[2-4]。非負(fù)矩陣分解(NMF，nonnegative matrix factorization)[5]和計(jì)算聽覺場景分析(CASA，computational auditory scene analysis)[6]都是SCSS的常用方法。在文獻(xiàn)[5]中，NMF為每個(gè)源都訓(xùn)練一個(gè)非負(fù)基的集合，以此來進(jìn)行語音分離。在文獻(xiàn)[6]中，CASA由語音的客觀質(zhì)量評估(OQAS，objective quality assessment of speech)指導(dǎo)，解決了語音質(zhì)量與分離過程相結(jié)合的問題。但是對于多個(gè)說話人混合的語音，NMF和CASA取得的分離效果有限。

近幾年，深度學(xué)習(xí)技術(shù)在很多領(lǐng)域都得到了很好的應(yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，研究學(xué)者們已經(jīng)提出了很多基于深度學(xué)習(xí)的語音分離方法[7-10]，SCSS技術(shù)取得了很大的進(jìn)步?；谏疃壬窠?jīng)網(wǎng)絡(luò)(DNN，deep neural network)的語音分離通常在以下3種情況下應(yīng)用：1)聲音與樂器之間的分離；2)多個(gè)說話者的分離；3)嘈雜語音的分離。基于DNN的單聲道語音大體可分為兩種主要形式，第一種是將混合信號的特征直接通過DNN映射到源信號的特征[11]，第二種是將混合信號映射到各種頻譜掩蔽，以解釋混合信號中每個(gè)源的貢獻(xiàn)。眾多研究表明，二進(jìn)制掩蔽相比較比例掩蔽分離性能低，比例掩蔽表示混合信號中源信號所占的真實(shí)能量比[12]。大多數(shù)關(guān)于混合語音的分離研究，都是針對所有源信號的分離。然而在實(shí)際情況下，例如，單個(gè)揚(yáng)聲器向個(gè)人移動設(shè)備發(fā)出語音查詢，或者自動語音識別設(shè)備對說話人的語音識別，在這些場景下更傾向于恢復(fù)單個(gè)目標(biāo)揚(yáng)聲器，同時(shí)降低噪聲和干擾揚(yáng)聲器的影響，這個(gè)問題被定義為目標(biāo)說話人提取[13-14]。與語音分離相比，提取目標(biāo)說話者可以有效解決置換不變訓(xùn)練(PIT，permutation invariant training)[15]、說話者數(shù)量未知的說話人跟蹤等問題。當(dāng)網(wǎng)絡(luò)僅專注于目標(biāo)說話者語音提取時(shí)，總體分離性能可能會更好。

大多數(shù)針對提取目標(biāo)說話人的研究，都是在目標(biāo)說話人語音基礎(chǔ)上只訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，以此建立專門用來提取說話人的模型[16-18]。在這些提取模型的訓(xùn)練過程中，目標(biāo)說話者和干擾者的語音都被使用，而訓(xùn)練的目的只是為了估計(jì)目標(biāo)說話人的掩蔽，單一的網(wǎng)絡(luò)難以充分考慮語音樣本的深度特征。

Zhao等人[19]發(fā)現(xiàn)頻譜映射在去混響中比時(shí)頻掩蔽更有效，而掩蔽在去噪和分離方面比頻譜映射更好。因此構(gòu)造了兩個(gè)階段的DNN，其中第一階段執(zhí)行掩蔽去噪，第二階段執(zhí)行頻譜映射去混響。受此啟發(fā)，利用這兩種方法的優(yōu)點(diǎn)，可以開發(fā)一個(gè)包含頻譜特征映射分離和掩蔽提取功能的框架，可在目標(biāo)說話人提取過程中同時(shí)融入這兩種方法的優(yōu)勢[20]。與單一網(wǎng)絡(luò)相比，聯(lián)合網(wǎng)絡(luò)識別目標(biāo)語音的精度更高[21]。

本文著重進(jìn)行了目標(biāo)說話人語音提取研究，提出了一個(gè)包含語音分離和提取相結(jié)合的注意機(jī)制模型，基于語音數(shù)據(jù)的迭代訓(xùn)練過程，仿真了模型訓(xùn)練的收斂性，利用訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行了目標(biāo)說話人語音提取實(shí)驗(yàn)，并給出部分實(shí)驗(yàn)的處理結(jié)果。

1 語音提取問題描述

對于單聲道語音提取問題，可理解為從線性混合的單聲道語音y(t)中提取目標(biāo)說話人語音s0(t)的過程?；旌闲盘枮椋?/p>

(1)

式中，si(t)為任何數(shù)量的干擾者語音或者是噪聲(在實(shí)驗(yàn)中考慮了干擾者)；i=1，2，…，I為干擾說話人或者是噪聲的索引。

通過短時(shí)傅里葉變換(STFT，short time fourier transform)將混合信號y(t)轉(zhuǎn)化為Y(t，f)：

(2)

式中，t和f分別為時(shí)間和頻率索引；Y(t，f)、S0(t，f)和Si(t，f)分別為y(t)、s0(t)和si(t)在時(shí)頻域的表示。

在語音增強(qiáng)[22-23]和語音分離[24-25]的研究中表明，對 DNN訓(xùn)練時(shí)，采用信號幅度譜近似(SA，signal approximation)損失收斂方法比理想比例掩蔽(IRM，ideal ratio mask)和估計(jì)的幅值譜掩蔽(SMM，spectral magnitude mask)之間的近似損失收斂方法性能更好。

(3)

(4)

2 目標(biāo)值

在基于DNN的監(jiān)督語音分離系統(tǒng)中，語音的分離工作通常分兩階段進(jìn)行，首先是模型的訓(xùn)練階段，其次是測試分離階段。我們要講的是在訓(xùn)練階段中目標(biāo)的獲取，目標(biāo)的選取一般都是基于干凈的目標(biāo)語音和背景干擾得到的，合適有效的目標(biāo)對于模型的學(xué)習(xí)能力和系統(tǒng)的分離性能起著重要的作用。目前使用的目標(biāo)主要分為兩類：基于時(shí)頻掩蔽的目標(biāo)和基于語音幅度譜估計(jì)的目標(biāo)。這里簡單介紹下主要的四種分離目標(biāo)。

2.1 理想二值掩蔽

理想二值掩蔽(IBM，ideal binary mask)經(jīng)常作為深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的目標(biāo)，該目標(biāo)是一個(gè)二值函數(shù)(0或1)，該二值掩蔽的取值是根據(jù)語音信號時(shí)頻譜的每個(gè)時(shí)頻單元中語音能量和噪聲能量的大小關(guān)系決定。首先設(shè)定一個(gè)閾值，如果一個(gè)時(shí)頻單元中局部信噪比大于閾值，則對應(yīng)的單元掩蔽值設(shè)為1，反之為0。IBM表示為：

(5)

其中：SNR(t，f)表示語音信號時(shí)頻單元的局部信噪比，IBM(t，f)表示理想二值掩蔽，LC是設(shè)置的閾值。

2.2 理想比例掩蔽

Wang等人首先提出了理想比例掩蔽(IRM，ideal ratio mask)，IRM是一種軟函數(shù)類型的目標(biāo)[12]。該目標(biāo)計(jì)算公式如下：

(6)

其中：IRM(t，f)是在時(shí)間t和頻率為f的時(shí)頻單元掩蔽值，S2(t，f)和N2(t，f)分別表示語音能量和噪聲能量，β是一個(gè)可調(diào)節(jié)參數(shù)，而Wang等人已經(jīng)通過實(shí)驗(yàn)證明，β為0.5時(shí)，模型的訓(xùn)練結(jié)果是最好的。IRM的值在[0，1]之間是連續(xù)的，這樣在分離語音的時(shí)候可以提高目標(biāo)語音能量譜完整性。

2.3 幅度譜掩蔽

幅度譜掩蔽(SMM，spectral magnitude mask)由目標(biāo)語音和帶噪語音的STFT譜計(jì)算得到，表示如下：

(7)

|S(t，f)|和|M(t，f)|分別表示目標(biāo)語音和帶噪語音幅度譜，利用兩者的比值得到SMM目標(biāo)。由于SMM目標(biāo)用來估計(jì)目標(biāo)語音的幅度譜，所以在信號的重構(gòu)時(shí)需要結(jié)合帶噪語音信號或目標(biāo)語音信號的相位，經(jīng)過STFT得到重構(gòu)的目標(biāo)語音的時(shí)域信號。

2.4 信號近似估計(jì)

信號近似估計(jì)(SA，signal approximation)的思想就是最小化目標(biāo)語音和估計(jì)輸出的語音幅度之間的誤差，當(dāng)誤差逐漸收斂時(shí)，默認(rèn)為此時(shí)的模型參數(shù)最優(yōu)，損失函數(shù)如下：

SA(t，f)=(RM(t，f)|Y(t，f)|-|S(t，f)|)2

(8)

其中：RM(t，f)是網(wǎng)絡(luò)模型的輸出，可直接認(rèn)為是估計(jì)的掩蔽，也可以通過用SMM目標(biāo)估計(jì)RM(t，f)來訓(xùn)練模型參數(shù)，然后通過上述目標(biāo)函數(shù)最小化對模型參數(shù)進(jìn)行微調(diào)得到最優(yōu)解。

3 頻譜映射分離網(wǎng)絡(luò)

3.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

DNN是模仿人類神經(jīng)系統(tǒng)而設(shè)計(jì)的信息分析處理結(jié)構(gòu)，由神經(jīng)元作為基本單元組成。一組輸入經(jīng)過加權(quán)進(jìn)入神經(jīng)單元，然后對加權(quán)后的輸入進(jìn)行激活計(jì)算，最后產(chǎn)生某種輸出。其結(jié)構(gòu)如圖1所示。

圖1 神經(jīng)單元結(jié)構(gòu)

基本神經(jīng)單元中含有多個(gè)輸入、一組權(quán)重、一個(gè)加法器、一個(gè)激活函數(shù)和一個(gè)輸出，其計(jì)算原理為：

(9)

其中：xi表示輸入數(shù)據(jù)，wi表示權(quán)重和偏置(i=0)，F(xiàn)表示激活函數(shù)，yk表示第k層神經(jīng)單元的輸出。

激活函數(shù)F有多種表達(dá)式，常用的激活函數(shù)有：線性函數(shù)、雙曲正切函數(shù)(Tanh)、Sigmoid函數(shù)、線性整流函數(shù)(ReLU，rectified linear units)。

1)線性函數(shù)：

F(x)=x

(10)

2)Tanh函數(shù)：

(11)

3)Sigmoid函數(shù)：

(12)

4)ReLU函數(shù)：

F(x)=max(0，x)

(13)

除了上述四種激活函數(shù)外，還有閾值函數(shù)等。激活函數(shù)是影響神經(jīng)網(wǎng)絡(luò)功能的重要因素之一，不同的激活函數(shù)實(shí)現(xiàn)的功能是不一樣的，例如Tanh函數(shù)在特征相差明顯時(shí)效果會更好，ReLU函數(shù)的稀疏性可解決網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失現(xiàn)象。連續(xù)平滑的Sigmoid函數(shù)和具有稀疏性的ReLU函數(shù)常用于語音分離任務(wù)中。

深度神經(jīng)網(wǎng)絡(luò)又包含三種屬性層，即輸入層、隱藏層、輸出層，深度的大小取決于神經(jīng)網(wǎng)絡(luò)的隱藏層個(gè)數(shù)。圖2展示了一個(gè)三層的神經(jīng)網(wǎng)絡(luò)。

圖2 三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

3.2 附加掩蔽層的頻譜映射網(wǎng)絡(luò)

頻譜映射分離網(wǎng)絡(luò)主要由單個(gè)DNN體系結(jié)構(gòu)組成，其中每個(gè)揚(yáng)聲器對應(yīng)一個(gè)輸出層，而利用譜映射分離后的兩個(gè)語音幅度譜之和不等于混合語音的幅度譜，表明直接映射分離語音幅度譜是有缺陷的。因此，一個(gè)掩蔽層被添加到網(wǎng)絡(luò)輸出端，很好地解決了這個(gè)問題，其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 附加掩蔽層的頻譜映射分離網(wǎng)絡(luò)

(14)

(15)

頻譜映射分離網(wǎng)絡(luò)將說話人選擇機(jī)制包括在其分離框架中，在輸出層之后進(jìn)行說話人語音的選擇，然而目前還不清楚這是否會提供最佳的說話人語音。因此本文將基于頻譜映射的分離解釋為內(nèi)部分離機(jī)制的頻譜映射，如圖4所示。

由此，可以認(rèn)為分離機(jī)制存在于兩個(gè)模塊中，其中一個(gè)分離模塊生成了對應(yīng)每個(gè)源信號的內(nèi)部嵌入向量Zi，另一個(gè)掩蔽估計(jì)模塊生成來自內(nèi)部嵌入向量的時(shí)頻掩蔽Mi，如式(16)、 (17)函數(shù)所示：

(16)

Mi= MaskEstimator (Zi) (i= 1，...I)

(17)

其中：Separator(·)為內(nèi)部嵌入向量分離器；i為Separator(·)源信號對應(yīng)的嵌入向量的索引；MaskEstimator(·)為基于嵌入向量的掩蔽估計(jì)器。假設(shè)I個(gè)源共用MaskEstimator(·)，并且其中shared表示參數(shù)和網(wǎng)絡(luò)層激活函數(shù)共享，linear是DNN中的線性運(yùn)算。

4 多任務(wù)學(xué)習(xí)的嵌入式注意機(jī)制模型

對于人耳聽力來講，在一個(gè)多人說話的環(huán)境中只關(guān)注自己感興趣的語音是很容易的。然而這對于人機(jī)交互的語音識別設(shè)備來說是很困難的，因此為了更好地識別感興趣的說話人，就需要提取目標(biāo)說話人的語音信息而忽略其他人聲音。為了解決這個(gè)問題，本文提出的基于注意機(jī)制的多任務(wù)學(xué)習(xí)語音提取算法，它成功地提取出了目標(biāo)說話人信息，同時(shí)輔助信息的利用更好地提高了說話人語音質(zhì)量。

4.1 分離和提取相結(jié)合的嵌入式注意機(jī)制

本文提出的分離系統(tǒng)可以擴(kuò)展到更多源信號混合的分離工作，為了簡化說明，只考慮兩個(gè)源信號混合的分離提取工作(目標(biāo)語音s1，干擾語音s2)。

基于分離和提取相結(jié)合的嵌入式注意機(jī)制模型如圖5所示，意在實(shí)現(xiàn)一個(gè)分離和提取雙重標(biāo)準(zhǔn)下的語音處理系統(tǒng)。該模型由分離器、注意機(jī)制模塊和掩膜估計(jì)器三部分串聯(lián)而成，分離器分離出不同說話人的嵌入向量{Zi}Ii=1，在注意機(jī)制模塊中與說話人輔助語音譜特征相結(jié)合運(yùn)算，提取出目標(biāo)說話人的嵌入向量Ztar，進(jìn)而在掩蔽估計(jì)器中得出目標(biāo)說話人對應(yīng)的時(shí)頻掩蔽Mtar。

該模型通過在分離器和掩蔽估計(jì)器之間添加說話人注意機(jī)制模塊，該模塊可以有針對性的選擇對應(yīng)目標(biāo)說話人的嵌入向量，從而集成了說話人感知提取功能。下列功能函數(shù)可表示基于嵌入式注意機(jī)制的分離和提取進(jìn)程：

(18)

(19)

Mtar=MaskEstimator(Ztar)

(20)

(21)

(22)

在嵌入注意機(jī)制中多層感知器的輸出端使用了雙曲正切函數(shù)，該函數(shù)在特征相差明顯時(shí)效果會很好，循環(huán)過程中不斷擴(kuò)大特征效果。其計(jì)算如下：

(23)

(24)

式中，w，WΓ，WAUX為網(wǎng)絡(luò)可訓(xùn)練的權(quán)重；b為網(wǎng)絡(luò)模型偏置參數(shù)；γ為設(shè)置的超參數(shù)。

4.2 多任務(wù)學(xué)習(xí)進(jìn)程

LMTL=αLSEPA+(1-α)LEXTR

(25)

(26)

(27)

5 實(shí)驗(yàn)及結(jié)果分析

為了驗(yàn)證目標(biāo)語音提取算法的有效性和優(yōu)越性，設(shè)計(jì)了兩組實(shí)驗(yàn)。第一組實(shí)驗(yàn)證明了本算法的有效性，同時(shí)探討了說話人性別對目標(biāo)語音提取的影響。第二組實(shí)驗(yàn)分別使用不同的訓(xùn)練目標(biāo)作為目標(biāo)語音提取的對比試驗(yàn)，驗(yàn)證了算法的優(yōu)越性。

5.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)所用語音數(shù)據(jù)由TIMIT[27]數(shù)據(jù)庫提供，分別從TIMIT數(shù)據(jù)庫中選取兩個(gè)不同性別的說話人語音片段，針對每個(gè)說話人截取了40秒時(shí)長的語音，前8秒作為測試樣本，中間16秒作為訓(xùn)練樣本，最后16秒作為輔助語音樣本。然而為了研究說話人性別和語種影響，采集了兩段相同時(shí)長的母語為漢語的說話人語音數(shù)據(jù)。根據(jù)采集得到的數(shù)據(jù)，利用Matlab軟件對信號進(jìn)行處理分析，將兩說話人語音進(jìn)行混合，混合的信噪比(SNR，signal-to-noise ratio)從0～5 dB均勻分布。采樣頻率為16 000 Hz。

5.2 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)分離和提取的統(tǒng)一網(wǎng)絡(luò)采用五層結(jié)構(gòu)的DNN，一個(gè)輸入層，三個(gè)隱藏層和一個(gè)輸出層，其每層網(wǎng)絡(luò)的單元數(shù)為[513 1024 1024 1024 513]。

預(yù)訓(xùn)練：掩蔽估計(jì)網(wǎng)絡(luò)采用玻爾茲曼機(jī)(RBM，restricted boltzmann machine)進(jìn)行預(yù)訓(xùn)練，訓(xùn)練迭代次數(shù)為20，語音數(shù)據(jù)最小批次大小為256(幀數(shù))，學(xué)習(xí)率為0.003。通過RBM預(yù)訓(xùn)練，得到網(wǎng)絡(luò)的初始權(quán)重和偏置。

實(shí)驗(yàn)使用RBM預(yù)訓(xùn)練方法初始化網(wǎng)絡(luò)參數(shù)，將前一層的輸出作為下一層的輸入以這種數(shù)據(jù)傳遞方式訓(xùn)練RBM模型，其模型如圖6所示。

圖6 玻爾茲曼機(jī)模型

RBM是一種無方向的兩層神經(jīng)網(wǎng)絡(luò)，嚴(yán)格意義上并不算深層網(wǎng)絡(luò)。在圖6中，下面一層神經(jīng)元組成了可見層(輸入層)，用v表示可見層的神經(jīng)單元值，上面一層神經(jīng)元組成了隱藏層(輸出層)，用h表示隱藏層的神經(jīng)單元值。可見層和隱藏層是全連接的，兩層之間的權(quán)重由w表示。RBM工作時(shí)，首先獲取一個(gè)訓(xùn)練樣本v，計(jì)算隱藏層節(jié)點(diǎn)概率，然后在這基礎(chǔ)上獲取隱藏層激活的樣本h，計(jì)算v和h的外積作為“正梯度”。反過來從h中獲取重構(gòu)的可見層激活向量樣本v′，然后從v′再次獲得隱藏層激活向量h′，計(jì)算v′和h′的外積作為“負(fù)梯度”。利用正負(fù)梯度差乘上學(xué)習(xí)率更新權(quán)重w。

精調(diào)：預(yù)訓(xùn)練得到初始化網(wǎng)絡(luò)參數(shù)，在此基礎(chǔ)上利用反向傳播算法有監(jiān)督的訓(xùn)練神經(jīng)網(wǎng)絡(luò)，使用隨機(jī)梯度下降法更新權(quán)重，并且在訓(xùn)練過程中引入了可變動量項(xiàng)，訓(xùn)練的前十次動量項(xiàng)為0.5，后續(xù)的迭代過程中動量項(xiàng)為0.9的可變化學(xué)習(xí)率，其值在區(qū)間[0.08，0.004]中均勻減小，自適應(yīng)學(xué)習(xí)率改善了固定學(xué)習(xí)率在學(xué)習(xí)權(quán)重時(shí)精確性差的問題。精調(diào)階段的訓(xùn)練次數(shù)為180，隱藏層和輸出層的激活函數(shù)分別是ReLU函數(shù)和Sigmoid函數(shù)。

ReLU(x)=max(0，x)

(28)

(29)

Sigmoid函數(shù)的連續(xù)光滑性質(zhì)，使網(wǎng)絡(luò)輸出在一定范圍內(nèi)，數(shù)據(jù)在傳遞過程中不易發(fā)散，ReLU函數(shù)的稀疏性可解決網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失現(xiàn)象。

掩蔽估計(jì)網(wǎng)絡(luò)的目標(biāo)函數(shù)為LMTL，參數(shù)α設(shè)為0.5，多次試驗(yàn)表明γ=2時(shí)分離性能最優(yōu)，其收斂曲線如圖7所示，曲線逐漸趨于收斂，這表示網(wǎng)絡(luò)的訓(xùn)練是有效的。

圖7 多任務(wù)學(xué)習(xí)的損失曲線

為了評估說話人語音的提取性能，實(shí)驗(yàn)采用了BSS_EVAL工具箱中的三個(gè)評估指標(biāo)：源信號失真比(SDR，source to distortion ratio)、源信號偽影比(SAR，source to artifacts ratio)、源信號干擾比(SIR，source to interference ratio)。SDR反映了綜合分離效果，SAR反映算法對產(chǎn)生噪聲的抑制能力，SIR 反映算法對干擾信號的抑制能力。三者數(shù)值越大就說明分離提取性能越高。

5.3 實(shí)驗(yàn)結(jié)果

首先對算法的有效性進(jìn)行了實(shí)驗(yàn)評估，實(shí)驗(yàn)結(jié)果以波形圖和語譜圖的形式展示，如圖8和圖9所示。

圖8 語音時(shí)域信號波形圖

圖9 目標(biāo)說話人的估計(jì)掩

圖8分別展示目標(biāo)語音、干擾語音、混合語音和算法提取的目標(biāo)說話人語音的波形圖。波形圖的橫軸表示時(shí)間，縱軸表示波形的幅值大小。通過對比提取的目標(biāo)說話人波形和混合語音的波形，可以看出算法具有提取目標(biāo)人語音的功能，提取的目標(biāo)說話人波形與目標(biāo)源語音波形的相似程度體現(xiàn)了算法模型對目標(biāo)說話人語音提取性能的優(yōu)劣。

圖9和圖10分別表示目標(biāo)說話人的估計(jì)掩蔽插圖和語譜圖。掩蔽插圖橫坐標(biāo)為時(shí)間幀，縱坐標(biāo)為網(wǎng)絡(luò)輸出通道數(shù)。該掩蔽插圖由掩蔽值歸一化后描繪而成，其圖上的白色部分是有值的，在0～1之間取值。黑色背景代表很小的值，接近于0。注意下列圖右上角的矩形框區(qū)域，在掩蔽插圖和目標(biāo)語音語譜圖框內(nèi)黑色占主導(dǎo)，說明此區(qū)域的譜值絕大多數(shù)很小或?yàn)?，而對應(yīng)的干擾語音和混合語音矩形框內(nèi)具有不同顏色值，說明此區(qū)域的譜值大于0，最終提取的目標(biāo)說話人語音語譜圖在相應(yīng)位置也是黑色占主導(dǎo)，這在時(shí)頻域里體現(xiàn)了掩蔽提取目標(biāo)說話人的本質(zhì)。

圖10 語音頻域信號語譜

除了驗(yàn)證所提算法的有效性，同時(shí)也在相同信噪比混合情況下，探討了說話人的性別對提取算法的影響，實(shí)驗(yàn)結(jié)果如表1所示。

表1 混合信噪比為0 dB下的男1目標(biāo)語音提取性能 dB

利用這4個(gè)人的語音分別得到了以上5種組合方式，其中男1和女1為不同性別的目標(biāo)說話人，選自是TIMIT數(shù)據(jù)集中的說話人語音。男2和女2是干擾說話人，為課題組錄制的說話人語音。通過分析表1和表2指標(biāo)，可以發(fā)現(xiàn)，相比較同性別混合語音，不同性別混合語音中的提取效果更好。在同性別混合語音中，女聲的提取效果由于男聲的提取效果，這可能與說話人的音質(zhì)和音色有一定的關(guān)系。除了說話人性別對語音的提取有影響以外，干擾說話人語音的說話內(nèi)容和語種對目標(biāo)語音提取性能也有關(guān)系。同語種的混合的說話人提取效果要比不同語種混合的說話人提取效果好。這表明由同語種混合語音訓(xùn)練的網(wǎng)絡(luò)模型，對本語種語音信號的提取更有效。而對于不同語種的語音來講，特征可能相差較大，無法在同一特征水平上進(jìn)行很好的分離提取。

表2 混合信噪比為0 dB下的女1目標(biāo)語音提取性能 dB

為了探究混合信噪比對提取性能的影響，因此在不同混合語音信噪比下進(jìn)行了語音提取性能測試，由表3分析可知，隨著干擾混合信噪比的增大，語音提取性能也不斷提高。這表明在目標(biāo)語音信號功率越大時(shí)，提取性能越高。

表3 不同信噪比下的語音提取性能 dB

為了驗(yàn)證所提算法的優(yōu)越性，分別使用幅度譜掩蔽(SMM，spectral magnitude mask)和信號近似估計(jì)(SA，signal approximation)目標(biāo)方法進(jìn)行了對比實(shí)驗(yàn)，結(jié)果如表4所示。

表4 混合信噪比為0 dB下不同方法的目標(biāo)語音提取性能 dB

根據(jù)表4的實(shí)驗(yàn)結(jié)果表明，相比較SA和SMM這兩種方法，本文提出的基于多任務(wù)學(xué)習(xí)的嵌入式注意機(jī)制語音提取算法在SDR分別取得了0.877 1 dB和3.290 4 dB的提高。對于SAR和SIR指標(biāo)，本文算法也均優(yōu)于其它兩種方法。

6 結(jié)束語

在這篇文章中，針對目標(biāo)說話人語音的提取，我們提出了一種基于分離和提取多任務(wù)學(xué)習(xí)的嵌入式注意機(jī)制目標(biāo)語音提取算法。本文的算法模型主要分為分離模塊、嵌入式注意機(jī)制模開、語音提取模塊三部分，在分離和提取的多任務(wù)優(yōu)化標(biāo)準(zhǔn)下，充分利用了說話人輔助信息，更加集中地對目標(biāo)說話人語音進(jìn)行提取。實(shí)驗(yàn)結(jié)果表明，本文提出的算法利用較少的訓(xùn)練數(shù)據(jù)集，可實(shí)現(xiàn)相對較高的提取性能。

本文的不足之處在于使用的數(shù)據(jù)集單一，下一步努力方向是擴(kuò)大數(shù)據(jù)集總類，保證語音信號質(zhì)量的前提下，提高模型的普適性。同時(shí)可探究在其他各種噪聲環(huán)境下目標(biāo)說話人語音的提取性能。