陳佳,章堅武,張浙亮
基于上下文信息與注意力特征的欺騙語音檢測
陳佳1,章堅武1,張浙亮2
(1. 杭州電子科技大學(xué),浙江 杭州 310018;2. 浙江宇視科技有限公司,浙江 杭州 310051)
隨著語音合成和語音轉(zhuǎn)換技術(shù)的快速發(fā)展,欺騙語音檢測方法仍存在欺騙檢測準(zhǔn)確率低、通用性差等問題。因此,提出一種基于上下文信息與注意力特征的端到端的欺騙檢測方法。該方法基于深度殘差收縮網(wǎng)絡(luò)(DRSN),利用雙分支上下文信息協(xié)調(diào)融合模塊(DCCM)聚集豐富的上下文信息,融合基于協(xié)調(diào)時頻注意力機(jī)制(CTFA)的特征以獲得具有上下文信息的跨維度交互特征,從而最大化捕獲偽影的潛力。與最佳基線系統(tǒng)相比,在ASVspoof 2019 LA數(shù)據(jù)集中,所提方法在EER和t-DCF性能指標(biāo)上分別降低68%和65%;在ASVspoof 2021 LA數(shù)據(jù)集中,所提方法的EER和t-DCF分別為4.81和0.311 5,分別降低48%和10%。實(shí)驗(yàn)結(jié)果表明,所提方法能有效提高欺騙語音檢測的準(zhǔn)確率和泛化能力。
欺騙語音檢測;上下文信息;注意力特征;端到端;偽影
自動說話人驗(yàn)證(automatic speaker verification,ASV)系統(tǒng)作為一種身份識別技術(shù),旨在從語音信號中驗(yàn)證說話人的身份[1],大力推動基于人類行為和生理特征監(jiān)測及認(rèn)證系統(tǒng)的發(fā)展[2]。ASV系統(tǒng)驗(yàn)證過程不需要任何面對面的接觸[3],不會給用戶帶來不適和健康風(fēng)險,但會導(dǎo)致該系統(tǒng)容易受到欺騙攻擊。目前常用的反欺騙方法框架主要由前端特征提取和后端分類構(gòu)成,將前端生成的手工聲學(xué)特征輸入后端分類器。徐劍等[4]直接從語譜圖中提取完整局部二進(jìn)制模式(completed local binary pattern,CLBP)紋理特征以提高欺騙語音檢測的準(zhǔn)確率。于佳祺等[5]將常量Q倒譜系數(shù)(constant Q cepstral coefficient,CQCC)聲學(xué)特征與均勻局部二值模式(uniform local binary pattern,ULBP)紋理特征進(jìn)行聯(lián)合并輸入隨機(jī)森林分類模型以檢測欺騙語音。手工聲學(xué)特征在檢測不可見的攻擊時可能存在缺陷,因此已有工作提出了直接對原始音頻波形進(jìn)行操作的端到端(end-to-end,E2E)解決方案[6],這種方案有效避免了手工聲學(xué)特征帶來的限制。Ge等[7]探索了自動學(xué)習(xí)欺騙語音檢測的方法,將架構(gòu)搜索與E2E學(xué)習(xí)結(jié)合,提出了原始部分連接可差分結(jié)構(gòu)搜索(raw partially-connected differentiable architecture search,Raw PC-DARTS)系統(tǒng),該系統(tǒng)允許對網(wǎng)絡(luò)架構(gòu)和網(wǎng)絡(luò)參數(shù)進(jìn)行聯(lián)合優(yōu)化。為了有效捕獲給定語音譜圖中與欺騙攻擊相關(guān)的偽影,Kang等[8]建議在端到端欺騙對抗系統(tǒng)中采用注意力激活函數(shù)AReLU[9]。盡管這些端到端系統(tǒng)的性能優(yōu)于經(jīng)典的欺騙檢測系統(tǒng),但研究結(jié)果表明其仍有很大的改進(jìn)空間。
在ASVspoof 2019[10]的邏輯訪問(logical access,LA)場景中,合成語音欺騙攻擊主要采取語音合成和語音轉(zhuǎn)換的方式。用于指示欺騙攻擊的人工制品稱為欺騙偽影,人工制品的性能往往取決于攻擊的性質(zhì)和特定的攻擊算法。在ASVspoof 2021[11]LA場景中,真實(shí)語音和欺騙語音通過各種電話網(wǎng)絡(luò)進(jìn)行未知編解碼和傳輸。當(dāng)語音數(shù)據(jù)在跨電話系統(tǒng)之間傳輸時,傳輸通道中可能會產(chǎn)生一些干擾性變化使數(shù)據(jù)中的欺騙偽影受到未知編解碼和傳輸?shù)挠绊?,加大了欺騙檢測的難度,從而提高了對欺騙檢測系統(tǒng)的性能要求。在合成語音檢測中,欺騙偽影用于區(qū)分真實(shí)語音與欺騙語音,主要存在于特定的時間和頻譜間隔中,具有高區(qū)分性的時間特征和頻率特征,但是目前沒有一種較好的方法能夠捕獲存在于時域和頻域間的偽裝線索。無論在時域還是在頻域,不同的注意力機(jī)制都會存在互補(bǔ)的、有區(qū)別的信息,且都適用于不同的欺騙攻擊。Ling等[12]利用頻率注意力機(jī)制和通道注意力機(jī)制捕獲頻域和通道之間的關(guān)系,不僅將注意力集中到語音表示中信息量較大的頻域中,還減少了通道冗余,但是該模型忽略了時域上的特征信息。Zhou等[13]在欺騙語音檢測中引入輕量級跨維度交互注意(lightweight cross-dimensional interaction attention,LCIA)模塊以學(xué)習(xí)跨越不同頻域和時域的欺騙線索,但該注意力機(jī)制沒有充分融合上下文信息,導(dǎo)致容易忽略偽影的相關(guān)特征,高效地融合跨維度特征對于欺騙語音檢測來說也十分重要。雖然現(xiàn)有方法的檢測性能相比傳統(tǒng)方法均有所提升,但隨著各種高質(zhì)量欺騙攻擊的發(fā)展,現(xiàn)有的欺騙檢測方法仍然缺乏對未知的欺騙攻擊的有效性和通用性。針對以上問題,本文基于原始音頻波形,提出一種上下文信息和注意力特征融合網(wǎng)絡(luò)(context information and attention feature fusion network,CAFNet),該網(wǎng)絡(luò)將上下文信息和基于注意力的跨維度交互特征進(jìn)行融合以學(xué)習(xí)具有上下文信息的跨維度交互特征,同時克服由未知編解碼和傳輸所帶來的干擾,從而精確地識別并檢測欺騙偽影。
本文的主要貢獻(xiàn)包括以下3個方面。
?設(shè)計了雙分支上下文信息協(xié)調(diào)融合模塊(dual-branch context information coordination fusion module,DCCM),提取有價值的上下文信息以獲得不同欺騙偽影之間的相關(guān)信息,融合基于注意力機(jī)制的跨維度交互特征以聚集區(qū)分性線索,集成具有上下文信息的跨維度交互特征來細(xì)化欺騙偽影的重要信息以獲得全面的信息特征表示,有助于提高網(wǎng)絡(luò)的抗干擾能力和高效地檢測出欺騙偽影。
?設(shè)計了協(xié)調(diào)時頻注意力(coordinate time-frequency attention,CTFA)機(jī)制,捕獲并融合時域和頻域間的交互特征以及局部細(xì)粒度特征,最大限度地挖掘捕捉區(qū)分性線索的潛力,利用更多的細(xì)粒度特征信息以防止忽略細(xì)微偽影。
?針對不同數(shù)據(jù)集之間存在數(shù)據(jù)組成、傳輸途徑等差異,分析了所提網(wǎng)絡(luò)的檢測性能、通用性以及抗干擾能力。
在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)中,深度殘差網(wǎng)絡(luò)(residual network,ResNet)[14]是其極具影響力的變體。對于早期的CNN模型,增加網(wǎng)絡(luò)深度可能會使網(wǎng)絡(luò)退化從而導(dǎo)致較高的訓(xùn)練誤差,ResNet使用恒等路徑(identity shortcut)來解決這一問題以提高訓(xùn)練的正確率。Hua等[15]基于原始語音波形,以ResNet的跳躍連接和Inception[16]的并行卷積為網(wǎng)絡(luò)架構(gòu),提出了一種端到端的輕量級欺騙檢測模型,實(shí)現(xiàn)了較好的檢測性能。但在處理噪聲信號時,ResNet的特征學(xué)習(xí)能力有待提升。深度殘差收縮網(wǎng)絡(luò)(deep residual shrinkage network,DRSN)[17]在ResNet的基礎(chǔ)上學(xué)習(xí)基于注意力機(jī)制的閾值函數(shù),并將學(xué)習(xí)到的最佳閾值提供給軟閾值以自適應(yīng)地從數(shù)據(jù)集中獲得有用的特征并去除無關(guān)的噪聲干擾。其中,閾值函數(shù)也稱為收縮函數(shù),通常用于信號去噪。周曄等[18]利用DRSN的去噪能力實(shí)現(xiàn)復(fù)雜聲學(xué)環(huán)境下的欺騙語音檢測,但其使用手工聲學(xué)特征,容易丟失一些用于欺騙檢測的有效信息。本文在DRSN的基礎(chǔ)上,提出一種端到端的欺騙語音檢測網(wǎng)絡(luò)。
在實(shí)際應(yīng)用場景中,欺騙對象不可能單獨(dú)存在,其周圍的對象一定會和該對象有或多或少的聯(lián)系。當(dāng)多個欺騙對象同時存在時,準(zhǔn)確識別出欺騙對象是一項挑戰(zhàn),而增大感受野以獲取有效的上下文信息有助于識別和檢測欺騙對象。王金華等[19]提出一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN)的語音情感識別算法,利用雙向長短期記憶(bi-directional long short-term memory,BiLSTM)獲得數(shù)據(jù)的序列上下文信息,有效提高算法的泛化性和區(qū)分性。Lei等[20]設(shè)計分層上下文編碼器來提取有效的上下文信息,顯著提高合成語音的自然度和表達(dá)能力。注意力機(jī)制直觀上可捕獲全局和局部的依賴關(guān)系,防止網(wǎng)絡(luò)過擬合,提高網(wǎng)絡(luò)的泛化能力。擠壓和激勵網(wǎng)絡(luò)(squeeze-and-excitation network,SENet)[21]在通道維度上增加注意力機(jī)制,但是沒有考慮空間信息。卷積塊注意力模塊(convolutional block attention module,CBAM)[22]在SENet的基礎(chǔ)上引入了空間注意力,同時對兩個維度進(jìn)行注意力分配,增強(qiáng)了注意力機(jī)制對模型性能的提升效果,但保留局部信息的效果較差。協(xié)調(diào)注意力(coordinate attention,CA)[23]將位置信息嵌入通道注意,有助于更準(zhǔn)確地捕獲方向和位置信息,但不能很好地整合全局和局部上下文信息。近年來,上下文信息、注意力機(jī)制在計算機(jī)聽覺領(lǐng)域起著至關(guān)重要的作用,但是目前沒有一種很好的方法將上下文信息和基于注意力的特征進(jìn)行有效聯(lián)合。
特征融合在現(xiàn)代網(wǎng)絡(luò)架構(gòu)中已被廣泛使用,并且可以進(jìn)一步提高CNN的性能。即便如此,大多數(shù)特征融合的工作為了實(shí)現(xiàn)多尺度特征的有效融合,需要構(gòu)建復(fù)雜的路徑,且不能很好地聚集上下文信息,以至于容易忽略欺騙對象的特征。注意力特征融合(attentional feature fusion,AFF)[24]可以融合不同層次或者分支的特征,來解決上下文聚合和初始集成的問題。該模塊將接收到的特征與另一個AFF模塊迭代集成,得到迭代注意力特征融合(iterative attentional feature fusion,iAFF)。iAFF模塊逐步優(yōu)化初始集成,緩解特征的初始整合中基于注意力的特征融合的瓶頸,有效聚集上下文信息。本文提出了雙分支上下文信息協(xié)調(diào)融合模塊,將豐富的上下文信息和基于注意力的跨維度交互特征進(jìn)行融合以準(zhǔn)確識別區(qū)分性線索,具體介紹見第2節(jié)。
本文提出一種上下文信息和注意力特征融合網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。本節(jié)首先介紹雙分支上下文信息協(xié)調(diào)融合模塊,其包含池化層分支和卷積層分支,然后介紹協(xié)調(diào)時頻注意力機(jī)制,最后介紹該機(jī)制的兩個組成模塊。
為了獲取豐富的上下文信息和協(xié)調(diào)區(qū)分性線索的跨維度交互關(guān)系,本文設(shè)計了一種雙分支上下文信息協(xié)調(diào)融合模塊,以充分融合具有上下文信息的跨維度交互特征。該模塊由卷積層分支和池化層分支組成,其結(jié)構(gòu)如圖2所示。
圖1 上下文信息和注意力特征融合網(wǎng)絡(luò)結(jié)構(gòu)
圖2 雙分支上下文信息協(xié)調(diào)融合模塊結(jié)構(gòu)
圖3 協(xié)調(diào)時頻注意力結(jié)構(gòu)
(1)時頻融合模塊
在時間維度上,池化后的輸出特征為:
在頻率維度上,池化后的輸出特征為:
(2)局部特征提取模塊
由于欺騙語音系統(tǒng)中的關(guān)鍵特征是數(shù)據(jù)偽造后留下的欺騙偽影,這些偽影可能不包含語義信息,而包含一些細(xì)粒度特征信息,因此本文設(shè)計了局部特征提取模塊來提取局部細(xì)粒度特征以幫助網(wǎng)絡(luò)捕獲更多細(xì)節(jié)信息。通過該模塊在通道維度上獲取并利用更多的細(xì)粒度特征信息以防止忽略細(xì)微偽影。
ASVspoof 2019 LA數(shù)據(jù)集基于VCTK語料庫,使用最新的語音合成和語音轉(zhuǎn)換算法生成欺騙語音信號。該數(shù)據(jù)集采用107名說話人(46名男性、61名女性)的語音作為語音樣本,所有說話人的真實(shí)語音和欺騙語音被隨機(jī)劃分到互不相交的訓(xùn)練集、開發(fā)集和測試集。ASVspoof 2019 LA數(shù)據(jù)集說話人和語音數(shù)量見表1。
表1 ASVspoof 2019 LA數(shù)據(jù)集說話人和語音數(shù)量
同時,本文選取ASVspoof 2021 LA數(shù)據(jù)集分析所提網(wǎng)絡(luò)的抗干擾性能。與ASVspoof 2019 LA的測試集不同,ASVspoof 2021 LA測試集由通過各種電話系統(tǒng)(包括IP電話(voice over Internet protocol,VoIP)和公共電話交換網(wǎng)(public switched telephone network,PSTN))傳輸?shù)恼鎸?shí)語音和欺騙語音組成,包含181 566條語音。ASVspoof 2021 LA任務(wù)不會為單條語音提供編解碼器元數(shù)據(jù),該任務(wù)的重點(diǎn)是研究對未知編解碼器和傳輸信道可變性干擾魯棒的欺騙對策以區(qū)分由攻擊生成的真實(shí)語音和欺騙語音。由于ASVspoof 2021 LA數(shù)據(jù)集中不包括單獨(dú)的訓(xùn)練集和開發(fā)集,因此本文使用ASVspoof 2019 LA數(shù)據(jù)集的訓(xùn)練集和開發(fā)集作為ASVspoof 2021 LA數(shù)據(jù)集的訓(xùn)練集和開發(fā)集。
本文使用官方評估指標(biāo):串聯(lián)檢測成本函數(shù)(tandem detection cost function,t-DCF)和等錯誤率(equal error rate,EER)檢測不同網(wǎng)絡(luò)的性能。兩個指標(biāo)值越小,網(wǎng)絡(luò)性能越好。
為了驗(yàn)證所提網(wǎng)絡(luò)中CTFA對比其他注意力機(jī)制的優(yōu)越性。本文在ASVspoof 2019 LA數(shù)據(jù)集上做了4組對比實(shí)驗(yàn),不同注意力機(jī)制在ASVspoof 2019 LA數(shù)據(jù)集上的檢測性能見表2。具體而言,將DCCM中的CTFA用SENet、CBAM、CA、LCIA替換,其他條件均保持一致。
表2 不同注意力機(jī)制在ASVspoof 2019 LA數(shù)據(jù)集上的檢測性能
實(shí)驗(yàn)結(jié)果表明,與當(dāng)前較流行的注意力機(jī)制相比,本文提出的CTFA檢測性能更優(yōu)越。為了分析以上5組模型,本文對模型進(jìn)行多次訓(xùn)練并總結(jié)模型的檢驗(yàn)結(jié)果,不同注意力機(jī)制的性能比較如圖4所示。從圖4可以看出,CAFNet-CTFA的t-DCF和EER最低,CAFNet-SENet的t-DCF和EER最高。這表明,CTFA能最大限度地提升特征學(xué)習(xí)能力,從而高效地提高網(wǎng)絡(luò)的欺騙檢測能力。與LCIA相比,CTFA同時考慮時域和頻域中潛在的欺騙線索以及局部細(xì)粒度信息,顯著地提升了網(wǎng)絡(luò)對目標(biāo)偽影的捕獲能力,證明了捕獲局部細(xì)粒度特征的重要性。
圖4 不同注意力機(jī)制的性能比較
為了驗(yàn)證所提網(wǎng)絡(luò)的有效性,本文在ASVspoof 2019 LA數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。具體而言,本文進(jìn)行了4組消融實(shí)驗(yàn):CAFNet中未包含池化層分支(DRSN-convolution layer)、CAFNet中未包含卷積層分支(DRSN-pool layer)、CAFNet中未包含CTFA(without CTFA)、CAFNet中未包含DCCM(DRSN)。CAFNet在ASVspoof 2019 LA數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果見表3。
表3 CAFNet在ASVspoof 2019 LA數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果
消融實(shí)驗(yàn)結(jié)果表明,卷積層分支和池化層分支都可以有效提高網(wǎng)絡(luò)的檢測性能。其中,卷積層分支的性能優(yōu)于池化層分支,說明卷積更有助于擴(kuò)大感受野以獲取具有上下文信息的特征信息,從而更有效地檢測區(qū)分性特征。此外,當(dāng)添加CTFA模塊時,EER和t-DCF分別降低了48%和37%。這表明將時間、頻率維度間的交互特征和局部細(xì)粒度特征協(xié)調(diào)融合可幫助模型精準(zhǔn)地捕獲潛在的區(qū)分性線索。相比于DRSN,DCCM的引入可以更高效地提高模型的檢測性能,充分證明將豐富的上下文信息與基于注意力的跨維度交互特征有效結(jié)合得到具有上下文信息的跨維度交互特征,能更加精準(zhǔn)地捕獲和鑒別欺騙偽影。CAFNet和ASV系統(tǒng)的結(jié)合可以實(shí)現(xiàn)高效檢測。
為了驗(yàn)證所提網(wǎng)絡(luò)對比其他網(wǎng)絡(luò)的性能優(yōu)勢,本文在ASVspoof 2019 LA數(shù)據(jù)集上將CAFNet與其他現(xiàn)有的競爭單系統(tǒng)進(jìn)行比較,不同模型在ASVspoof 2019 LA數(shù)據(jù)集上的檢測性能見表4。
表4 不同模型在ASVspoof 2019 LA數(shù)據(jù)集上的檢測性能
從表4可以得出,在ASVspoof 2019 LA數(shù)據(jù)集上,CAFNet實(shí)現(xiàn)了最佳檢測性能,EER和t-DCF分別降至1.44和0.044 7。相比于RawNet2,CAFNet在EER和t-DCF性能指標(biāo)上分別降低68%和65%。ResNet-FCA將頻率注意力和通道注意力進(jìn)行融合,僅將注意力集中在語音表示中信息較豐富的子帶上,而忽略了重要的時域信息。Raw CIANet-mul構(gòu)建了一種新的時頻注意力模塊,可以捕獲時間和頻率間的跨維度交互線索,但忽略了上下文信息和局部細(xì)粒度信息對欺騙檢測的重要性。CAFNet在使用注意力機(jī)制聚焦有價值的特征的同時,有效地擴(kuò)大感受野以獲取上下文信息,從而實(shí)現(xiàn)高效的欺騙檢測。本文提出的DCCM可以在CTFA提供的重要注意力線索的指導(dǎo)下有效集成包含豐富上下文信息的跨維度交互特征,提高網(wǎng)絡(luò)檢測欺騙線索的能力。實(shí)驗(yàn)結(jié)果表明,CAFNet對于欺騙語音檢測是有效的。
為了驗(yàn)證所提網(wǎng)絡(luò)的通用性和抗干擾性能,本文在ASVspoof 2021 LA數(shù)據(jù)集上將CAFNet與其他現(xiàn)有的競爭單系統(tǒng)進(jìn)行比較,不同模型在ASVspoof 2021 LA數(shù)據(jù)集上的檢測性能見表5。
表5 不同模型在ASVspoof 2021 LA數(shù)據(jù)集上的檢測性能
在ASVspoof 2021 LA應(yīng)用場景中,當(dāng)所有語音數(shù)據(jù)在電話系統(tǒng)之間傳輸時,數(shù)據(jù)中的欺騙偽影可能會受到未知編解碼和傳輸?shù)母蓴_,從而使ASVspoof更接近實(shí)際的應(yīng)用場景,大大增加了語音檢測的復(fù)雜度,因此本文提出的網(wǎng)絡(luò)需要很好地消除不同的干擾變化。從表5可以得出,在ASVspoof 2021 LA數(shù)據(jù)集上,CAFNet實(shí)現(xiàn)了較好的泛化性能和抗干擾性能,EER和t-DCF分別降至4.81和0.311 5。相較于ResNet-LogSpec和RawNet2-RawBoost,CAFNet的t-DCF指標(biāo)值略高,這兩種系統(tǒng)均針對ASVspoof 2021 LA數(shù)據(jù)集的特點(diǎn)對數(shù)據(jù)進(jìn)行不同方式的數(shù)據(jù)增強(qiáng),顯著提高了系統(tǒng)對電話場景中存在的未知干擾性變化的魯棒性。相較于LFCC-LCNN,CAFNet在EER和t-DCF性能指標(biāo)上分別降低48%和10%,進(jìn)一步證明了基于端到端的CAFNet具有較強(qiáng)的通用性和抗干擾性能。
為了有效捕獲并鑒別欺騙線索以及解決高質(zhì)量欺騙攻擊的通用性問題,本文提出一種端到端的上下文信息和注意力特征融合網(wǎng)絡(luò),設(shè)計了協(xié)調(diào)時頻注意力機(jī)制以最大化捕獲時域和頻域中欺騙線索的潛力和有效利用局部細(xì)粒度特征,設(shè)計了雙分支上下文信息協(xié)調(diào)融合模塊以獲得具有上下文信息的跨維度交互特征,從而提高網(wǎng)絡(luò)的特征學(xué)習(xí)能力。消融實(shí)驗(yàn)表明,CAFNet中使用的DCCM、CTFA是有效的。在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CAFNet在檢測欺騙語音方面具有良好的實(shí)用性和普適性,并且比其他競爭單系統(tǒng)具有優(yōu)勢。在ASVspoof 2021 LA任務(wù)中,CAFNet對電話場景中存在的未知干擾性變化的魯棒性還有待提高。未來將在提升網(wǎng)絡(luò)檢測性能的同時,研究一種基于數(shù)據(jù)增強(qiáng)的輕量化欺騙檢測網(wǎng)絡(luò),簡化網(wǎng)絡(luò)復(fù)雜度和參數(shù)量。
[1] KINNUNEN T, LI H. An overview of text-independent speaker recognition: from features to supervectors[J]. Speech communication, 2010, 52(1): 12-40.
[2] SINGH N, AGRAWAL A, KHAN R A. Voice biometric: a technology for voice based authentication[J]. Advanced Science, Engineering and Medicine, 2018, 10(7-8): 754-759.
[3] MITTAL A, DUA M. Automatic speaker verification systems and spoof detection techniques: review and analysis[J]. International Journal of Speech Technology, 2021(25): 1-30.
[4] 徐劍, 簡志華, 于佳祺, 等. 采用完整局部二進(jìn)制模式的偽裝語音檢測[J]. 電信科學(xué), 2021, 37(5): 91-99.
XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.
[5] 于佳祺, 簡志華, 徐嘉, 等. 基于聯(lián)合特征與隨機(jī)森林的偽裝語音檢測[J]. 電信科學(xué), 2022, 38(6): 91-99.
YU J Q, JIAN Z H, XU J, et al. Spoofing speech detection algorithm based on joint feature and random forest[J]. Telecommunications Science, 2022, 38(6): 91-99.
[6] TAK H, PATINO J, TODISCO M, et al. End-to-end anti-spoofing with RawNet2[C]//Proceedings of 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2021: 6369-6373.
[7] GE W Y, PATINO J, TODISCO M, et al. Raw differentiable architecture search for speech deep fake and spoofing detection[EB]. 2021.
[8] KANG W H, ALAM J, FATHAN A. Attentive activation function for improving end-to-end spoofing countermeasure systems[EB]. 2022.
[9] CHEN D S, LI J, XU K. AReLU: attention-based rectified linear unit[EB]. 2020.
[10] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public data base of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020, 64: 101-114.
[11] YAMAGISHI J, WANG X, TODISCO M, et al. ASVspoof 2021: accelerating progress in spoofed and deep fake speech detection[EB]. 2021.
[12] LING H F, HUANG L C, HUANG J R, et al. Attention-based convolutional neural network for ASV spoofing detection[C]// Proceedings of 2021 INTERSPEECH. [S.l.:s.n.], 2021: 4289-4293.
[13] ZHOU Y, ZHANG J W, ZHANG P G. Spoof speech detection based on raw cross-dimension interaction attention network[C]// Proceedings of 2022 Chinese Conference on Biometric Recognition. Cham: Springer, 2022: 621-629.
[14] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.
[15] HUA G, TEOH A B J, ZHANG H. Towards end-to-end synthetic speech detection[J]. IEEE Signal Processing Letters, 2021, 28: 1265-1269.
[16] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 1-9.
[17] ZHAO M H, ZHONG S S, FU X Y, et al. Deep residual shrinkage networks for fault diagnosis[J]. IEEE Transactions on Industrial Informatics, 2019, 16(7): 4681-4690.
[18]周曄, 章堅武, 程繼承. 面向復(fù)雜聲學(xué)環(huán)境的偽裝語音檢測[J]. 傳感技術(shù)學(xué)報, 2022, 35(10): 1355-1362.
ZHOU Y, ZHANG J W, CHENG J C. Speech anti-spoofing for complex acoustic environments[J]. Chinese Journal of Sensors and Actuators, 2022, 35(10): 1355-1362.
[19] 王金華, 應(yīng)娜, 朱辰都, 等. 基于語譜圖提取深度空間注意特征的語音情感識別算法[J]. 電信科學(xué), 2019, 35(7): 100-108.
WANG J H, YING N, ZHU C D, et al. Speech emotion recognition algorithm based on spectrogram feature extraction of deep space attention feature[J]. Telecommunications Science, 2019, 35(7): 100-108.
[20] LEI S, ZHOU Y X, CHEN L Y, et al. Towards expressive speaking style modelling with hierarchical context information for mandarin speech synthesis[C]//Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2022: 7922-7926.
[21] HU J, SHEN L, ALBANIE S. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 7132-7141.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the 2018 European Conference on Computer Vision. [S.l.:s.n.], 2018: 3-19.
[23] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recongnition. Piscataway: IEEE Press, 2021: 13713-13722.
[24] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2021: 3560-3569.
[25] LUO A W, LI E L, LIU Y L, et al. A capsule network based approach for detection of audio spoofing attacks[C]//Proceed ings of 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2021: 6359-6363.
[26]LI X, WU X X, LU H, et al. Channel-wise gated Res2Net: towards robust detection of synthetic speech attacks[C]//Proceedings of 2021 INTERSPEECH. [S.l.:s.n.], 2021: 4314-4318.
[27] ZHANG Y, JIANG F, DUAN Z Y. One-class learning towards synthetic voice spoofing detection[J]. IEEE Signal Processing Letters, 2021, 28: 937-941.
[28] COHEN A, RIMON I, AFLALO E, et al. A study on data augmentation in voice anti-spoofing[J]. Speech Communication, 2022, 141: 56-67.
[29] DAS R K. Known-unknown data augmentation strategies for detection of logical access, physical access and speech deep fake attacks: ASV spoof 2021[C]//Proceedings of 2021 Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. [S.l.:s.n.], 2021: 29-36.
[30] TAK H, KAMBLE M, PATINO J, et al. Raw boost: a raw data boosting and augmentation method applied to automatic speaker verification anti-spoofing[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2022: 6382-6386.
[31] CáCERES J, FONT R, GRAU T. The biometric vox system for the ASVspoof 2021 challenge[C]//Proceedings 2021 Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. [S.l.:s.n.], 2021: 68-74.
[32] PAL M, RAIKAR A, PANDA A, et al. Synthetic speech detection using meta-learning with prototypical loss[EB]. 2022.
Spoof speech detection based on context information and attention feature
CHEN Jia1, ZHANG Jianwu1, ZHANG Zheliang2
1. Hangzhou Dianzi University, Hangzhou 310018, China 2. Zhejiang Uniview Technologies Co., Ltd., Hangzhou 310051, China
With the rapid development of speech synthesis and speech conversion technology, methods of spoof speech detection still have problems such as low spoof detection accuracy and poor generality. Therefore, an end-to-end spoof detection method based on context information and attention feature was proposed. Based on deep residual shrinkage network (DRSN), the proposed method used the dual-branch context information coordination fusion module (DCCM) to aggregate rich context information, and fused features based on coordinate time-frequency attention (CTFA) to obtain cross-dimensional interaction features with context information, thus maximizing the potential of capturing artifacts. Compared with the best baseline system, in the ASVspoof 2019 LA dataset, the proposed method had reduced the EER and t-DCF performance indicators by 68% and 65% respectively, in the ASVspoof 2021 LA dataset, the EER and t-DCF of the proposed method were 4.81 and 0.311 5 and dropped by 48% and 10% separately. The experimental results show that this method can effectively improve the accuracy and generalization ability of spoof speech detection.
spoof speech detection, context information, attention feature, end-to-end, artifacts
TN912.3
A
10.11959/j.issn.1000–0801.2023006
陳佳(2000– ),女,杭州電子科技大學(xué)通信工程學(xué)院碩士生,主要研究方向?yàn)檎Z音檢測與人工智能等。
章堅武(1961– ),男,博士,杭州電子科技大學(xué)通信工程學(xué)院教授、博士生導(dǎo)師,中國電子學(xué)會高級會員,浙江省通信學(xué)會常務(wù)理事,主要研究方向?yàn)橐苿油ㄐ?、多媒體信號處理與人工智能、通信網(wǎng)絡(luò)與信息安全。
張浙亮(1969– ),男,博士,浙江宇視科技有限公司副總裁,主要研究方向?yàn)槿斯ぶ悄堋⑷肆Y源等。
The National Natural Science Foundation of China (No.U1866209, No.61772162)
2022–11–28;
2023–01–05
章堅武,jwzhang@hdu.edu.cn
國家自然科學(xué)基金資助項目(No.U1866209,No.61772162)