• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識(shí)蒸餾與ResNet的聲紋識(shí)別

      2023-02-15 05:57:54榮玉軍方昳凡程家偉
      重慶大學(xué)學(xué)報(bào) 2023年1期
      關(guān)鍵詞:聲紋識(shí)別掩膜損失

      榮玉軍,方昳凡,田 鵬,程家偉

      (1.中移(杭州)信息技術(shù)有限公司,杭州 310000;2.重慶郵電大學(xué) 自動(dòng)化學(xué)院,重慶 400065)

      隨著物聯(lián)網(wǎng)、智能設(shè)備、語(yǔ)音助手、智能家居和類(lèi)人機(jī)器人技術(shù)的發(fā)展,以及人們對(duì)安全的日益重視,生物識(shí)別技術(shù)的應(yīng)用越來(lái)越多,包括臉部、視網(wǎng)膜、聲音和虹膜等識(shí)別技術(shù)[1]。其中聲紋識(shí)別因易于實(shí)現(xiàn),使用成本低而被用戶(hù)廣泛接受。聲音是一種生物行為特征,它傳遞一個(gè)人特征相關(guān)的信息,比如說(shuō)話(huà)人的種族、年齡、性別和感覺(jué)。說(shuō)話(huà)人識(shí)別是指根據(jù)人的聲音識(shí)別人的身份[2]。研究表明,聲音因其獨(dú)特的特征可以用來(lái)區(qū)分不同人的身份[3],除了虹膜、指紋和人臉外,語(yǔ)音提供了更高級(jí)別的安全性,是一種更加有效的生物識(shí)別技術(shù)。

      說(shuō)話(huà)人識(shí)別可分為說(shuō)話(huà)人確認(rèn)和說(shuō)話(huà)人辨認(rèn)2個(gè)任務(wù),說(shuō)話(huà)人確認(rèn)是實(shí)現(xiàn)智能交互的關(guān)鍵技術(shù),可廣泛應(yīng)用于金融支付、刑事偵查、國(guó)防等領(lǐng)域[4]。說(shuō)話(huà)人確認(rèn)是一對(duì)一的認(rèn)證,其中一個(gè)說(shuō)話(huà)者的聲音與一個(gè)特定的特征匹配,可以分為文本依賴(lài)型和文本獨(dú)立型[5]。與文本相關(guān)的說(shuō)話(huà)人確認(rèn)系統(tǒng)要求從固定的或提示的文本短語(yǔ)產(chǎn)生語(yǔ)音,利用說(shuō)話(huà)人語(yǔ)音的尺度不變性、特征不變性和文本相關(guān)不變性等特性,對(duì)說(shuō)話(huà)人語(yǔ)音進(jìn)行識(shí)別[6],而與文本無(wú)關(guān)的說(shuō)話(huà)人確認(rèn)系統(tǒng)操作的是無(wú)約束語(yǔ)音,是一個(gè)更具有挑戰(zhàn)性與實(shí)用性的問(wèn)題。

      當(dāng)前,深度學(xué)習(xí)方法廣泛應(yīng)用于語(yǔ)音識(shí)別[10]、計(jì)算機(jī)視覺(jué)領(lǐng)域,并逐漸應(yīng)用于說(shuō)話(huà)人識(shí)別等其他領(lǐng)域,均取得了顯著成效。2014年,Google的d-vector使用神經(jīng)網(wǎng)絡(luò)隱層輸出替代I-Vector,雖然實(shí)驗(yàn)效果不如I-Vector,但證明了神經(jīng)網(wǎng)絡(luò)方法的有效性。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, recurrent neural network)在語(yǔ)音識(shí)別方面效果良好,在處理變長(zhǎng)序列方面具有明顯優(yōu)勢(shì),現(xiàn)在也被應(yīng)用在說(shuō)話(huà)人識(shí)別任務(wù)中。2017年,Snyder[11]等人使用時(shí)延神經(jīng)網(wǎng)絡(luò)提取幀級(jí)特征,語(yǔ)句級(jí)特征則從統(tǒng)計(jì)池化層聚合而來(lái),利用PLDA進(jìn)行后端打分,處理短語(yǔ)音的效果優(yōu)于I-Vector,在它基礎(chǔ)上加入離線(xiàn)數(shù)據(jù)增強(qiáng)后效果整體超過(guò)了I-Vector,成為新的基準(zhǔn)模型。目前,有方法將圖像領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)用于說(shuō)話(huà)人識(shí)別語(yǔ)音信號(hào)的預(yù)處理以提高說(shuō)話(huà)人識(shí)別率[12],VGG結(jié)構(gòu)網(wǎng)絡(luò)[13],深度殘差網(wǎng)絡(luò)[14]等卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也被用于處理說(shuō)話(huà)人識(shí)別任務(wù)。盡管深度學(xué)習(xí)的應(yīng)用使得說(shuō)話(huà)人識(shí)別技術(shù)有了巨大進(jìn)步,但目前還存在以下問(wèn)題:1)對(duì)于短語(yǔ)2 s的短時(shí)語(yǔ)音識(shí)別性能差;2)缺乏對(duì)信道多變性的補(bǔ)償能力;3)對(duì)于噪聲條件適應(yīng)性不足,魯棒性差。

      筆者提出一種采用知識(shí)蒸餾技術(shù),將傳統(tǒng)的I-Vector方法與深度學(xué)習(xí)相結(jié)合的方法,進(jìn)行與文本無(wú)關(guān)的說(shuō)話(huà)人確認(rèn)。設(shè)計(jì)所使用的ResNet網(wǎng)絡(luò)模型結(jié)構(gòu), 并對(duì)模型進(jìn)行訓(xùn)練。比較不同打分后端下基準(zhǔn)模型和增加數(shù)據(jù)增強(qiáng)后的實(shí)驗(yàn)結(jié)果,以及采用知識(shí)蒸餾的I-Vector模型與ResNet網(wǎng)絡(luò)相結(jié)合后的實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了討論。

      1 基于知識(shí)蒸餾與ResNet的聲紋識(shí)別

      筆者設(shè)計(jì)的聲紋識(shí)別模型方法分為4步,如圖1所示。1)對(duì)輸入語(yǔ)音進(jìn)行預(yù)處理;2)對(duì)輸入語(yǔ)音提取I-Vector,采用訓(xùn)練好的I-Vector模型作為教師模型,ResNet為學(xué)生模型;3)將I-Vector模型與ResNet模型聯(lián)合訓(xùn)練;4)利用PLDA方法或者余弦方法進(jìn)行打分。

      圖1 基于知識(shí)蒸餾與ResNet的聲紋識(shí)別模型框架圖

      1.1 語(yǔ)音預(yù)處理

      原始語(yǔ)音的預(yù)處理主要進(jìn)行的步驟為:

      1)提取語(yǔ)音數(shù)據(jù)的Fbank(Filter Bank)特征。

      2)對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行增強(qiáng),包括使用噪聲數(shù)據(jù)集與原始數(shù)據(jù)集疊加合頻譜增強(qiáng)方法。

      1.1.1 特征提取

      Fbank是頻域特征,能更好反映語(yǔ)音信號(hào)的特性,由于使用了梅爾頻率分布的三角濾波器組,能夠模擬人耳的聽(tīng)覺(jué)響應(yīng)特點(diǎn)。Fbank特征的提取步驟為:

      1)首先使用一階高通濾波器應(yīng)用于原始信號(hào),進(jìn)行信號(hào)預(yù)加重,達(dá)到提高信號(hào)的信噪比與平衡頻譜的目的,

      y(n)=s(n)-αs(n-1),

      (1)

      式中:y(n)是預(yù)加重后的信號(hào);s(n)為原始語(yǔ)音信號(hào);α是預(yù)加重系數(shù),其典型值為0.95或0.97。

      2)將預(yù)加重后的語(yǔ)音分割成多個(gè)短時(shí)幀,每一幀之間具有部分重疊。接著利用Hamming窗為每一個(gè)短時(shí)幀進(jìn)行加窗操作,防止離散傅里葉變化過(guò)程中產(chǎn)生頻譜泄露。

      (2)

      式中:w(n)即為窗函數(shù);N為該幀的采樣點(diǎn)數(shù)量。

      3)對(duì)加窗后的語(yǔ)音信號(hào)進(jìn)行離散傅里葉變換

      (3)

      其中:s(n)為一個(gè)短時(shí)幀語(yǔ)音信號(hào);S(k)是其頻率響應(yīng)。根據(jù)頻率響應(yīng)計(jì)算功率頻譜P(k)

      (4)

      4)最后使用梅爾頻率均勻分布的三角濾波器對(duì)功率譜圖進(jìn)行濾波,得到了Fbank特征,該特征模擬了非線(xiàn)性的人耳的聽(tīng)覺(jué)響應(yīng)。可以通過(guò)下列計(jì)算公式進(jìn)行頻率f和梅爾頻率m之間進(jìn)行轉(zhuǎn)換

      (5)

      f=700(10m/2 595-1)。

      (6)

      通過(guò)上述過(guò)程即可得到作為網(wǎng)絡(luò)輸入的Fbank特征。

      5)Fbank特征是頻域特征,而通道噪聲是卷積性的,其在頻域?yàn)榧有栽肼暎虼死玫棺V均值歸一化方法(CMVN,cepstral mean and variance normalization)抑制該噪聲。之后利用語(yǔ)音活動(dòng)檢測(cè)(VAD, voice activity detection)基于語(yǔ)音幀能量移除語(yǔ)音數(shù)據(jù)在中的靜音段。

      1.1.2 數(shù)據(jù)增強(qiáng)

      在深度學(xué)習(xí)中,數(shù)據(jù)集大小決定了模型能夠?qū)W習(xí)到內(nèi)容的豐富性,對(duì)模型的泛化性與魯棒性起著關(guān)鍵性作用。在研究中將采用2種數(shù)據(jù)增強(qiáng)方式:1)離線(xiàn)數(shù)據(jù)增強(qiáng);2)在線(xiàn)數(shù)據(jù)增強(qiáng)。

      離線(xiàn)數(shù)據(jù)增強(qiáng)方法在X-Vector模型中[18]最先使用,該方法采用2個(gè)額外的噪聲數(shù)據(jù)集MUSAN和simulated RIRs[15],其中MUSAN數(shù)據(jù)集由大約109 h的音頻組成,包括3種類(lèi)型:1)語(yǔ)音數(shù)據(jù),包括可公開(kāi)獲得的聽(tīng)證會(huì)、辯論等錄音;2)音樂(lè)數(shù)據(jù),包括爵士、說(shuō)唱等不同風(fēng)格音樂(lè);3)噪聲數(shù)據(jù),包括汽車(chē)聲、雷聲等噪聲。simulated RIRs數(shù)據(jù)集包括具有各種房間配置的模擬房間脈沖響應(yīng)。離線(xiàn)數(shù)據(jù)增強(qiáng)的具體方式為,隨機(jī)采用下列的一種方式進(jìn)行增強(qiáng):

      1)語(yǔ)音疊加:從MUSAN數(shù)據(jù)集的語(yǔ)音數(shù)據(jù)中隨機(jī)選取3—7條語(yǔ)音,將其疊加后,再以13~20 dB的信噪比與原始語(yǔ)音相加。

      2)音樂(lè)疊加:從MUSAN數(shù)據(jù)集的音樂(lè)數(shù)據(jù)中隨機(jī)選取一條音頻,將其變換至原始語(yǔ)音長(zhǎng)度,再以5~15 dB的信噪比與原始語(yǔ)音相加。

      3)噪聲疊加:從MUSAN數(shù)據(jù)集的噪聲數(shù)據(jù)中隨機(jī)選取一條音頻,以1 s為間隔,0~15 dB的信噪比與原始語(yǔ)音相加。

      4)混響疊加:從simulated RIRs數(shù)據(jù)集中隨機(jī)選取一條音頻,與原始信號(hào)進(jìn)行卷積。

      在線(xiàn)語(yǔ)音增強(qiáng)方法是一種直接作用于頻譜圖上的方法,可以在網(wǎng)絡(luò)接收輸入后直接計(jì)算。本研究中主要采用在線(xiàn)語(yǔ)音增強(qiáng)的其中2種方式:頻率掩膜與時(shí)間掩膜方式。如圖2所示,以下設(shè)置原始語(yǔ)音特征的頻譜特征為S∈RF×T:

      圖2 頻譜增強(qiáng)后的Fbank特征

      1)頻率掩膜:特征的頻率維度是F,設(shè)置頻率掩膜區(qū)間長(zhǎng)度為f,f為可調(diào)參數(shù)。然后從區(qū)間[0,F-f]中任意選取掩膜區(qū)間的開(kāi)始位置f0,最后對(duì)語(yǔ)音特征S的[f0,f0+f]區(qū)間進(jìn)行掩膜操作,即將其區(qū)間內(nèi)的值設(shè)置為0,該操作可重復(fù)多次。

      2)時(shí)間掩膜:特征的時(shí)間維度是T,設(shè)置頻率掩膜區(qū)間長(zhǎng)度為t,t為可調(diào)參數(shù)。然后從區(qū)間[0,T-t]中任意選取掩膜區(qū)間的開(kāi)始位置t0,最后對(duì)語(yǔ)音特征S的[t0,t0+t]區(qū)間進(jìn)行掩膜操作,即將其區(qū)間內(nèi)的值設(shè)置為0,該操作可重復(fù)多次。

      1.2 I-Vector提取

      假設(shè)一幀語(yǔ)音特征的大小為F,即Fbank特則維度為F,將數(shù)據(jù)集中第i條語(yǔ)音的特征表示為Oi=(oi1…oi2…oiTi)∈RF×Ti,式中:Ti表示該語(yǔ)音的幀數(shù);oit表示第t幀的特征向量,t=T1,T2,…,Ti。在I-Vector框架中,假設(shè)每一幀的特征向量oit都由各自的高斯混合模型(GMM,gaussian mixture model)生成,同一條語(yǔ)音中的不同語(yǔ)音幀特征由同一模型獨(dú)立分布生成,而每條語(yǔ)音所對(duì)應(yīng)的高斯混合模型都由通用背景模型(UBM,universal background model)進(jìn)行均值超向量平移操作得到

      μi=μ(b)+Twi,

      (7)

      式中:μi,μ(b)∈RCF,μi為第i條語(yǔ)音對(duì)應(yīng)的GMM的均值超向量,μ(b)為UBM的均值超向量;C為GMM模型分量的數(shù)目;T∈RCF×D為I-Vector提取器,定義了總變化矩陣;wi∈RD為總變化空間內(nèi)服從標(biāo)準(zhǔn)高斯分布的隱變量,對(duì)其進(jìn)行MAP估計(jì),即可得到I-Vector。

      (8)

      (9)

      式中,γc(oit)為第c個(gè)高斯分量的后驗(yàn)概率

      (10)

      接著可通過(guò)以下計(jì)算得到I-Vector

      (11)

      式中:Li為

      (12)

      估計(jì)總變化矩陣T的過(guò)程即為I-Vector模型的訓(xùn)練過(guò)程,使用EM算法訓(xùn)練模型,其中E步驟為

      〈wi|Xi〉=ui,

      (13)

      (14)

      M步驟為

      (15)

      式中,N為數(shù)據(jù)集中包含的語(yǔ)音總數(shù)。利用I-Vector模型解決短時(shí)語(yǔ)音與信道失配問(wèn)題,并學(xué)習(xí)到信息“教”給基于ResNet的聲紋識(shí)別模型。

      1.3 基于ResNet的聲紋識(shí)別設(shè)計(jì)

      筆者設(shè)計(jì)的基于ResNet聲紋識(shí)別模型結(jié)構(gòu)如表1所示。

      表1 ResNet的具體結(jié)構(gòu)

      在表1中,[·,·,·]表示卷積的卷積核的大小、通道數(shù)、卷積步長(zhǎng)。輸出大小中T為輸入特征的幀數(shù)。在每一個(gè)殘差塊后都接有批量歸一化層與ReLU激活函數(shù)。

      從表1的結(jié)構(gòu)中,網(wǎng)絡(luò)輸入是大小為(1,T,64)的張量,F(xiàn)bank特征維度為64,網(wǎng)絡(luò)結(jié)構(gòu)中的卷積層、殘差塊2、殘差塊3對(duì)輸入采取了通道數(shù)翻倍、頻率維度減半、時(shí)間維度減半的操作。全連接層1的輸出即為提取的聲紋特征,全連接層2為分類(lèi)層,僅僅在訓(xùn)練過(guò)程中使用,1211為訓(xùn)練數(shù)據(jù)集包含的人數(shù)。

      統(tǒng)計(jì)池化層(statistics pooling)是聲紋識(shí)別模型中所特有的結(jié)構(gòu),用來(lái)處理語(yǔ)音輸入序列變長(zhǎng)問(wèn)題。卷積層也可以接收不定大小的輸入,但對(duì)于不同大小的輸入,其輸出大小也會(huì)不同,但在聲紋識(shí)別任務(wù)中,需要將不同大小的特征映射至固定維度大小的聲紋特征。殘差塊將維度為F0的Fbank特征變?yōu)樾螤顬閄∈RC×F×T的多通道特征,其中:C為通道數(shù);F和T對(duì)應(yīng)于網(wǎng)絡(luò)原始輸入O∈R1×F0×T0中的特征維度F0和T0,F(xiàn)

      圖3 注意力統(tǒng)計(jì)池化層結(jié)構(gòu)

      首先為每個(gè)幀級(jí)特征計(jì)算標(biāo)量分?jǐn)?shù)scoret

      scoret=vTf(WRCt+b)+k,

      (16)

      式中:f()表示非線(xiàn)性激活函數(shù);RCt為第t個(gè)通道的特征;v,W,b,k為要學(xué)習(xí)的參數(shù),接著利用softmax函數(shù)在所有的幀上做歸一化操作,得到歸一化分?jǐn)?shù)αt:

      (17)

      (18)

      通過(guò)這種方式,利用加權(quán)平均提取到的語(yǔ)句級(jí)特征將關(guān)注到信息量更豐富的幀,接著使用加權(quán)標(biāo)準(zhǔn)差將統(tǒng)計(jì)池化與注意力機(jī)制相結(jié)合

      (19)

      將加權(quán)平均值與加權(quán)標(biāo)準(zhǔn)差拼接后作為全連接層的輸入,提高了語(yǔ)句級(jí)聲紋特征的可區(qū)分性。將ResNet提取到的聲紋特征記為Embedding。

      1.4 基于知識(shí)蒸餾的聯(lián)合訓(xùn)練

      1.4.1 后端打分

      使用2種后端打分策略:PLDA打分后端與余弦打分后端。

      1)PLDA打分計(jì)算過(guò)程:記2條語(yǔ)音的I-Vector分別為u1,u2,使用對(duì)數(shù)似然比進(jìn)行打分

      lnN(u1|m,∑+VVT)-lnN(u2|m,∑+VVT),

      (20)

      式中:p(u1,u2|H1)為2條語(yǔ)音來(lái)自同一說(shuō)話(huà)人的似然函數(shù),p(u1|H0)與p(u2|H0)分別為u1和u2來(lái)自不同說(shuō)話(huà)人的似然函數(shù)。

      2)余弦打分后端計(jì)算過(guò)程:記2條語(yǔ)音的Embedding分別為x1,x2,使用2向量的余弦距離計(jì)算得分

      (21)

      1.4.2 訓(xùn)練損失函數(shù)

      研究使用的第一種損失函數(shù)是蒸餾損失,它是I-Vector與經(jīng)ResNet提取到的Embedding之間的均方誤差(MSE,mean squared error),將一個(gè)批次中的第i個(gè)樣本的I-Vector記為ui∈RD,ResNet提取到的Embedding記為xi∈RD,兩者之間的損失由以下公式計(jì)算

      (22)

      式中B表示一個(gè)批次的大小。通過(guò)優(yōu)化這一損失,可以使ResNet提取到的Embedding向I-Vector學(xué)習(xí),由于I-Vector服從高斯分布,與PLDA中的假設(shè)相符,所以使用這種損失可以提高以PLDA為打分后端時(shí)的聲紋識(shí)別模型性能。

      第二種損失為度量學(xué)習(xí)損失,采用的為additive margin softmax(AM-Softmax)損失,它的計(jì)算過(guò)程為

      (23)

      最終,筆者提出一種將2種損失相結(jié)合的基于知識(shí)蒸餾的聯(lián)合損失函數(shù)

      Lcombine=γLm+(1-γ)Ld,

      (24)

      式中,γ為超參數(shù),0≤γ≤1,可以控制2種損失之間的比例。

      當(dāng)單獨(dú)使用蒸餾損失MSE時(shí),相當(dāng)于使用無(wú)監(jiān)督訓(xùn)練,I-Vector直接與Embedding計(jì)算損失;單獨(dú)使用度量學(xué)習(xí)損失AM-Softmax時(shí),僅使用ResNet模型訓(xùn)練,未有監(jiān)督訓(xùn)練,未利用I-Vector進(jìn)行知識(shí)蒸餾;使用聯(lián)合損失時(shí),既使用了蒸餾損失MSE,也使用了度量學(xué)習(xí)損失AM-Softmax進(jìn)行訓(xùn)練。3種損失都用來(lái)更新ResNet網(wǎng)絡(luò)的權(quán)值。

      2 實(shí)驗(yàn)與結(jié)果分析

      筆者所提出的模型使用VoxCeleb1[17]公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)通過(guò)一套基于計(jì)算機(jī)視覺(jué)技術(shù)開(kāi)發(fā)的全自動(dòng)程序從開(kāi)源視頻網(wǎng)站中捕捉而得到,完全屬于自然環(huán)境下的真實(shí)場(chǎng)景,說(shuō)話(huà)人范圍廣泛,場(chǎng)景多樣。其中包括一個(gè)驗(yàn)證集和一個(gè)測(cè)試集,分別用于模型的訓(xùn)練和測(cè)試,數(shù)據(jù)集的數(shù)量統(tǒng)計(jì)如表2所示,此外,從測(cè)試集中隨機(jī)抽取了37 720對(duì)語(yǔ)句用于模型的驗(yàn)證。在擁有了原數(shù)據(jù)后,使用離線(xiàn)增強(qiáng)和在線(xiàn)增強(qiáng)方法對(duì)原數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),對(duì)比分析數(shù)據(jù)強(qiáng)化對(duì)實(shí)驗(yàn)結(jié)果的影響。數(shù)據(jù)增強(qiáng)策略中的離線(xiàn)增強(qiáng)方式增加的樣本數(shù)量為100 000個(gè),在訓(xùn)練之前加入數(shù)據(jù)集;另一種是在線(xiàn)增強(qiáng)方式,頻率掩膜參數(shù)設(shè)置為10,重復(fù)次數(shù)為1次,時(shí)間掩膜參數(shù)為15,重復(fù)次數(shù)為2次,即參數(shù)F,Nf,T,Nt分別被設(shè)置為10, 1, 15和2。

      表2 模型數(shù)據(jù)集統(tǒng)計(jì)

      2.1 基準(zhǔn)模型

      基準(zhǔn)模型用于和本實(shí)驗(yàn)中所設(shè)計(jì)的模型進(jìn)行性能比較,從而證明本實(shí)驗(yàn)中的模型有效性。實(shí)驗(yàn)使用的基準(zhǔn)模型包括I-Vector、X-Vector,2種模型均使用Kaldi框架實(shí)現(xiàn)。I-Vector模型的語(yǔ)音特征使用24維的梅爾頻率倒譜系數(shù)(MFCC, mel frequency cepstral coefficents),經(jīng)過(guò)了二階差分處理、基于滑動(dòng)窗口的CMN和VAD處理后為72維,所用的UBM模型具有2048個(gè)高斯分量,所得的I-Vector維度為400。X-Vector模型的語(yǔ)音特征使用30維MFCC,并經(jīng)過(guò)了基于滑動(dòng)窗口的CMN和VAD,網(wǎng)絡(luò)結(jié)構(gòu)為5層的TDNN,說(shuō)話(huà)人特征為512維,其使用了離線(xiàn)增強(qiáng)方式的數(shù)據(jù)增強(qiáng)方法,增強(qiáng)的樣本數(shù)量為100 000個(gè),并在訓(xùn)練之前加入數(shù)據(jù)集,網(wǎng)絡(luò)訓(xùn)練所用的損失函數(shù)為交叉熵?fù)p失。2種模型均采用PLDA打分后端,并在PLDA前,使用LDA將離線(xiàn)增強(qiáng)后的數(shù)據(jù)維度降至200維并進(jìn)行了L2歸一化。

      2.2 模型訓(xùn)練

      本次實(shí)驗(yàn)使用基于PyTorch的深度學(xué)習(xí)框架構(gòu)建了所需要的ResNet模型,使用單個(gè)NVIDIA Tesla P100顯卡訓(xùn)練30個(gè)迭代。使用Kaldi框架提取64維的Fbank作為輸入特征,并經(jīng)過(guò)了基于滑動(dòng)窗口的CMN和VAD。Cosine和PLDA打分被用于模型結(jié)果評(píng)估,其中均采用等錯(cuò)誤率(EER,equal error rate)和最小檢測(cè)代價(jià)功能(minDCF, minimum detection cost function)來(lái)衡量模型的性能,等錯(cuò)誤率是指當(dāng)決策閾值變化時(shí),錯(cuò)誤接受率(FAR,false acceptance rate)與錯(cuò)誤拒絕率(FRR, false rejection rate)相等時(shí)FAR或FRR的值,檢測(cè)代價(jià)是說(shuō)話(huà)人識(shí)別中常用的一種性能評(píng)定方法,定義式為DCF=Cfr×FRR×Ptarget+Cfa×FAR×(1-Ptarget),其中Cfr和Cfa為錯(cuò)誤拒絕和錯(cuò)誤接受的懲罰權(quán)重,取Cfr=Cfa=1,Ptarget為目標(biāo)說(shuō)話(huà)人在總?cè)巳褐械谋壤?,最小檢測(cè)代價(jià)即閾值變化時(shí),檢測(cè)代價(jià)的最小值。2種指標(biāo)的值越小,表明模型性能越強(qiáng)。在 AM-Softmax損失函數(shù)中,縮放因子α和附加距離m分別設(shè)置為30和0.2。在訓(xùn)練中,輸入被截?cái)嗷蛱畛錇? s的長(zhǎng)度,以形成大小為128的小批量數(shù)據(jù)。使用初始學(xué)習(xí)率為0.001的Adam優(yōu)化器,將驗(yàn)證集數(shù)據(jù)用于檢驗(yàn)訓(xùn)練效果,當(dāng)驗(yàn)證集上的結(jié)果沒(méi)有得到改善時(shí),將學(xué)習(xí)率衰減到之前的1/2。

      2.3 主要實(shí)驗(yàn)結(jié)果分析

      如表3所示。其中DCF(0.01)表示檢測(cè)代價(jià)函數(shù)中的p-target參數(shù)為0.01,基準(zhǔn)模型都使用了交叉熵?fù)p失函數(shù)。

      表3 基準(zhǔn)模型實(shí)驗(yàn)結(jié)果

      ResNet基準(zhǔn)模型的性能具有較好的穩(wěn)定性,在余弦打分后端和PLDA打分后端下的結(jié)果相差不大,在余弦打分下的實(shí)驗(yàn)結(jié)果相較X-Vector和I-Vector模型有很大的提升。ResNet基準(zhǔn)模型采用在線(xiàn)增強(qiáng)后,PLDA打分下的實(shí)驗(yàn)結(jié)果優(yōu)于ResNet基準(zhǔn)模型,而余弦打分下的實(shí)驗(yàn)結(jié)果變化不大。ResNet基準(zhǔn)模型采用離線(xiàn)增強(qiáng)后,在2種打分方式下,所有性能指標(biāo)相較于ResNet基準(zhǔn)模型都有了很大的提升,并且同樣優(yōu)于采用在線(xiàn)增強(qiáng)方式的ResNet基準(zhǔn)模型。因此對(duì)于同樣的數(shù)據(jù)處理流程,離線(xiàn)增強(qiáng)方式更為復(fù)雜,但能獲得更好的結(jié)果,在線(xiàn)增強(qiáng)方式計(jì)算速度快,仍然值得嘗試。

      采用知識(shí)蒸餾技術(shù)的ResNet模型使用了MSE損失函數(shù),基于度量學(xué)習(xí)的ResNet模型損失函數(shù)使用AM-Softmax,從表4可以看出,針對(duì)知識(shí)蒸餾技術(shù)優(yōu)化的損失方法,ResNet模型結(jié)果明顯優(yōu)于I-Vector基準(zhǔn)模型,因?yàn)镽esNet是從I-Vector中提取和學(xué)習(xí)部分相關(guān)參數(shù)且得到了更好的結(jié)果,這證明了ResNet方法和蒸餾損失方法結(jié)合的有效性。采用基于度量學(xué)習(xí)的損失函數(shù)AM-Softmax得到的模型結(jié)果優(yōu)于I-Vector基準(zhǔn)模型和采用知識(shí)蒸餾技術(shù)得到的模型結(jié)果。因此,考慮采用聯(lián)合訓(xùn)練的方式來(lái)提升實(shí)驗(yàn)效果。

      表4 三種模型的對(duì)比實(shí)驗(yàn)

      在聯(lián)合訓(xùn)練中,使用的模型都是ResNet模型,采用在線(xiàn)增強(qiáng)進(jìn)行數(shù)據(jù)增強(qiáng),從上表可看出,γ分別取0.2、0.1、0.05,γ控制這2個(gè)損失之間的比例,通過(guò)減小γ來(lái)強(qiáng)調(diào)蒸餾損失。結(jié)合表4和表5可以看出,針對(duì)損失函數(shù),使用MSE損失和AM-Softmax損失聯(lián)合訓(xùn)練的方法能夠很大程度的提升模型的結(jié)果,實(shí)驗(yàn)結(jié)果還表明,AM-Softmax損失有助于提高模型在Cosine打分下的性能,而MSE損失有助于提高模型在PLDA打分下的性能。

      表5 聯(lián)合訓(xùn)練實(shí)驗(yàn)結(jié)果

      2.4 聯(lián)合訓(xùn)練與模型集成的對(duì)比

      模型集成是指通過(guò)分?jǐn)?shù)融合的方式,集成采用MSE損失函數(shù)和AM-Softmax損失函數(shù)的2種模型,2種模型使用離線(xiàn)增強(qiáng),將它們測(cè)試集的打分結(jié)果進(jìn)行加權(quán)平均,然后再計(jì)算EER等性能指標(biāo)。

      從表6中可以看出,在余弦打分后端與PLDA打分后端下,模型集成的性能均略低于聯(lián)合訓(xùn)練方式,2種訓(xùn)練方式實(shí)驗(yàn)結(jié)果相差不大,但相比于模型集成需要訓(xùn)練多個(gè)模型進(jìn)行集成,而聯(lián)合訓(xùn)練只需要一個(gè)模型,節(jié)約了計(jì)算資源,更加高效。

      表6 模型集成的實(shí)驗(yàn)結(jié)果

      2.5 與其他方法的對(duì)比

      結(jié)合以上實(shí)驗(yàn)可以得出性能最好的是采用數(shù)據(jù)增強(qiáng)和聯(lián)合損失的網(wǎng)絡(luò)結(jié)構(gòu),表7展示了和其他論文中同樣使用VoxCeleb1數(shù)據(jù)集的說(shuō)話(huà)人識(shí)別方法的實(shí)驗(yàn)結(jié)果的比較。

      表7 與其它方法對(duì)比的實(shí)驗(yàn)結(jié)果

      從表7可以看出,提出的方法與其他方法對(duì)比,EER最低降低了8%,達(dá)到了3.229%,性能均優(yōu)于表中提到的其他方法。

      3 結(jié) 語(yǔ)

      提出了一種基于知識(shí)蒸餾與ResNet的聲紋識(shí)別方法。將傳統(tǒng)無(wú)監(jiān)督聲紋識(shí)別方法與基于深度學(xué)習(xí)的聲紋識(shí)別方法相結(jié)合,用蒸餾損失MSE約束ResNet聲紋特征和I-Vector的差異,提高了聲紋識(shí)別的準(zhǔn)確率。此外,研究進(jìn)一步采用了2種不同數(shù)據(jù)增強(qiáng)方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,增強(qiáng)了模型對(duì)噪聲環(huán)境的適應(yīng)性,提高了系統(tǒng)的魯棒性,驗(yàn)證了2種增強(qiáng)方式在聲紋識(shí)別任務(wù)中的有效性。設(shè)計(jì)的ResNet模型包括了注意力統(tǒng)計(jì)池化,結(jié)合知識(shí)蒸餾損失與度量學(xué)習(xí)損失設(shè)計(jì)了新的聯(lián)合訓(xùn)練損失,相較于模型集成的方法,在2種打分后端下,聯(lián)合訓(xùn)練方法的EER均低于模型集成方法。構(gòu)建了端到端的聲紋識(shí)別模型,與大多數(shù)基于深度學(xué)習(xí)的方法相比,能夠?qū)ER進(jìn)一步降低為3.229%。

      猜你喜歡
      聲紋識(shí)別掩膜損失
      基于聲紋識(shí)別技術(shù)的機(jī)車(chē)司機(jī)身份識(shí)別與安全控制研究
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      少問(wèn)一句,損失千金
      一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
      胖胖損失了多少元
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      聲紋識(shí)別中的區(qū)分性訓(xùn)練
      光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
      淺談一種基于聲紋識(shí)別的教室上課點(diǎn)名系統(tǒng)
      面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
      罗平县| 张家港市| 肇源县| 三河市| 察隅县| 枝江市| 集安市| 朝阳区| 天等县| 广元市| 万荣县| 拉萨市| 信丰县| 丰宁| 翼城县| 柳江县| 汉中市| 克什克腾旗| 太湖县| 临江市| 如东县| 启东市| 商水县| 易门县| 招远市| 右玉县| 元朗区| 壤塘县| 独山县| 和硕县| 滦南县| 土默特左旗| 赞皇县| 宁晋县| 高平市| 子洲县| 奇台县| 噶尔县| 揭西县| 仪陇县| 湖口县|