摘 要:語音合成和轉換技術的不斷更迭對聲紋識別系統(tǒng)產(chǎn)生重大威脅。針對現(xiàn)有語音欺騙檢測方法中難以適應多種欺騙類型,對未知欺騙攻擊檢測能力不足的問題,提出了一種結合卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN) 與Transformer 的欺騙語音檢測模型。設計基于坐標注意力(Coordinate Attention,CA) 嵌入的SE-ResNet18 的位置感知特征序列提取網(wǎng)絡,將語音信號局部時頻表示映射為高維特征序列并引入二維位置編碼(two-Dimensional Position Encoding,2D-PE) 保留特征之間的相對位置關系;提出多尺度自注意力機制從多個尺度建模特征序列之間的長期依賴關系,解決Trans-former 難以捕捉局部依賴的問題;引入特征序列池化(Sequence Pooling,SeqPool) 提取話語級特征,保留Transformer 層輸出幀級特征序列之間的相關性信息。在ASVspoof2019 大賽官方邏輯訪問(Logic Access,LA) 數(shù)據(jù)集的實驗結果表明,提出的方法相對于當前先進的欺騙語音檢測系統(tǒng),等錯誤率(Equal Error Rate,EER) 平均降低12. 83% ,串聯(lián)檢測成本函數(shù)(tandem Detection Cost Function,t-DCF) 平均降低7. 81% 。
關鍵詞:欺騙語音檢測;位置感知序列;Transformer;特征序列池化
中圖分類號:TP391. 4 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)05-1091-08
0 引言
NIST 說話人識別評估挑戰(zhàn)[1]的結果顯示,在過去的數(shù)年里,語音生物識別技術已經(jīng)達到了令人印象深刻的性能。由該技術衍生出的自動說話人驗證(Automatic Speaker Verification,ASV)系統(tǒng)得以被廣泛地應用在安全系統(tǒng)、出入境管制、法醫(yī)實驗室、網(wǎng)上銀行和其他電子商務系統(tǒng)等社會重要機構。大量研究表明,盡管最先進的ASV 系統(tǒng)具有很高的性能,但在面對語音合成、語音轉換等欺騙攻擊時依然表現(xiàn)得十分脆弱[2],因此設計有效的欺騙檢測方法保證ASV 系統(tǒng)的安全性具有重要意義。
在語音信號的時頻表示中,不同的子區(qū)域之間存在某些固定的關系,例如基頻與諧波[3],語音合成或者語音轉換技術通常無法充分對這些關系進行建模[4]。因此有效提取局部時頻區(qū)域特征并建模它們之間的全局依賴關系能夠提高欺騙檢測的性能。卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)目前是反欺騙對抗最常用的模型。Wang等[5]設計了一種密集連接的卷積神經(jīng)網(wǎng)絡增強音頻特征的傳播,并通過特征重用確保網(wǎng)絡中各層之間的最大信息流,大幅提升特征提取能力。Li 等[6]在Res2Net 的基礎上提出了CGRes2Net,通過在特征組之間的連接中加入門控機制,實現(xiàn)根據(jù)輸入動態(tài)選擇信道,提升檢測效果。Fu 等[7]提出了一種基于快速傅里葉變換的CNN 前端特征提取網(wǎng)絡FastAudio,用可學習層取代固定濾波器組實現(xiàn)特征提取,與固定前端相比,能夠更加靈活地適應未知欺騙檢測。Tak 等[8]使用RawNet2 直接從原始語音波形中學習幀級特征,實驗結果表明了避免使用基于先驗知識的手工前端特征的端到端架構在欺騙檢測中的潛力。但是基于CNN 的模型只適用于建模局部特征,對于全局依賴性通常需要依靠堆疊大量的卷積層實現(xiàn),效率低下。為了解決該問題,Tak 等[9]通過圖注意力網(wǎng)絡(Graph Attention Network,GAT)跨越時頻點捕獲局部時頻區(qū)域之間的全局依賴關系,但是出于計算量的考慮,構建圖結點的數(shù)量比較有限,這會導致信息的損失。
最近,基于Transformer[10]的架構在計算機視覺、自然語言處理等領域表現(xiàn)出優(yōu)秀的效果,其通過自注意機制高效的捕獲全局依賴性,這對語音欺騙檢測來說至關重要。受此啟發(fā),本文提出了一種結合CNN 和Transformer 的欺騙檢測模型,增強對局部時頻特征的提取能力以及高效建模特征之間的全局依賴關系,提升對未知欺騙攻擊檢測的性能。
1 Transformer 網(wǎng)絡模型
1. 1 Transformer 概述
Transformer 架構引入自注意力機制,通過計算每個特征序列與其他序列之間的關系對當前序列進行更新。自注意力機制的主要特點是高效并行化計算和快速構建全局相關性的能力,這使其比遞歸神經(jīng)網(wǎng)絡或者CNN 更適合學習長距離依賴關系。Transformer 后來被用于自然語言處理。最近,它的各種變體結構被廣泛集成到計算機視覺和說話人識別領域中并取得了優(yōu)秀的性能。
Transformer 架構由多個Transformer 塊堆疊組成,每個Transformer 塊包括多頭自注意力層和前饋層F(·)。其中多頭自注意力層由多個自注意力頭Att(·)組成,它是Transformer 學習全局依賴信息的關鍵。給定輸入序列集合h = [h1 ,h2 ,h3 ,…,ht]∈ Rt×d,其中t 和d 分別代表序列的數(shù)量和維數(shù),每一個自注意力頭可以被看做是對值矩陣V 的加權和,權重由鍵矩陣K 和查詢矩陣Q 之間的相似性得出,計算如下:
式中:矩陣Q、K、V 由序列集合h 與權重矩陣W 相乘得到。
多頭注意力機制將多個自注意力的輸出進行拼接后傳入一個線性層計算全局相關性。
2 本文模型結構
為了高效捕捉語音信號局部時頻表示之間的相關性,提升欺騙語音檢測的性能,本文設計了一種基于結合CNN 和Transformer 的欺騙語音檢測網(wǎng)絡,基本結構如圖1 所示。主要由位置感知序列映射、幀級特征提取以及話語級特征聚合組成。
對于一段語音信號樣本,首先將其轉換為時頻表示特征FBank,將FBank 通過卷積神經(jīng)網(wǎng)絡映射為C 維特征序列集合X∈RT×F×C 并添加位置編碼信息,其中,T、F 為FBank 時間和頻率方向的局部時頻表示數(shù)量。隨后,進行拉伸變換,構建位置感知特征序列集合XP ∈RC×D ,其中D = T×F。然后基于改進的Transformer 編碼器提取幀級特征,從多個尺度高效建模各個特征序列之間的相關性,最后引入特征序列池化聚合話語級特征用于分類預測。
2. 1 位置感知序列映射
本文采用SE-ResNet18 的前3 層從FBank 中提取局部特征,構建特征序列集合。原SE-ResNet18在每個卷積塊之間添加Squeeze Excitation(SE)模塊用于學習通道之間的相關性,是一種面向通道的注意力機制。但是SE 模塊忽略了空間關系,對于欺騙語音檢測而言,難以區(qū)分各個局部時頻表示的重要性。因此本文通過在每個SE-ResNet18 塊之間嵌入坐標注意力(Coordinate Attention,CA)機制[11]對SE-ResNet18 進行改進。此外,特征序列集合的拉伸變換操作會丟失每個時頻子區(qū)域之間的相對位置關系,故本文引入二維交替正余弦編碼[12]對相對位置信息進行保留。
2. 1. 1 CA 嵌入
CA 機制通過將時間方向和頻率方向的空間信息編碼到通道中,使模型能夠關注重要時頻區(qū)域,忽略無效時頻區(qū)域,具體結構如圖2 所示。首先,對于給定的輸入特征H∈RC×T×F ,使用平均池化沿時間和頻率方向聚合一對一維空間感知向量st ∈RC×1×F 、sf∈RC×T×1 ,將2 個空間感知向量拼接后經(jīng)由1×1 卷積進行通道交互和壓縮,然后通過批歸一化(BatchNormalization,BN)層與非線性變換層(Non-linear)生成空間編碼信息sp ∈RCr×1×(F+T),r 表示壓縮系數(shù),最后使用2 個1×1 的卷積以及Sigmoid 激活函數(shù)分別產(chǎn)生時間方向和頻率方向的權重信息對原始特征進行加權。
2. 1. 2 二維交替正余弦編碼
Transformer 中通常使用一維位置編碼處理自然語言序列中可能出現(xiàn)的由于位置變換導致位置信息丟失的問題,但是這并不適用于由CNN 輸出的三維特征序列集合,因此本文引入文獻[12]中的二維交替正余弦編碼保留特征序列之間的相對位置信息。對于特征序列集合X = [x1 ,x2 ,x3 ,…,xi ]∈ T×F×C ,具體編碼信息如下:
2. 2 多尺度自注意機制
Transformer 中的自注意機制優(yōu)勢在于其高效的并行化能力和全局依賴建模,但卻難以捕捉特征序列局部之間的依賴,這也導致基于Transformer 的架構通常難以應用到語音領域。為了提升Transformer?qū)Φ奶卣餍蛄芯植块L期依賴的建模能力,本文提出了一種多尺度自注意力(Multiscale Self-Attention,MSA)機制對原自注意力進行改進。該機制利用不同的自注意力頭關注不同長度的局部序列以獲取多尺度長期依賴信息,提高局部建模能力,結構如圖3所示。
首先將特征集合x∈RD×C 按序列長度均分得到n 個局部序列特征集合xi∈RD×(C/n),其中i 表示第i 個局部序列特征集合,C 表示單個特征序列長度,D 表示集合中的特征數(shù)量。均分操作之后,每個局部序列特征集合xi 都會通過與之相對應的自注意力頭Atti 和激活函數(shù)為LeakyReLU 線性層Li,其中線性層的作用是保證xi 和yi 的維度一致。輸出yi 表示如下:
如圖3 所示,Atti 的輸入特征不僅包括當前的局部序列特征集合xi,同時還包括前一項輸出局部序列特征集合yi。因此,當前輸入局部特征子集包含更長的序列特征以及多種感受野的大小組合。更長的序列特征包含更多的語音信息以及進行更好的上下文分析,多種感受野的大小組合則可以豐富局部子序列長期依賴關系,實現(xiàn)更精準、有效的特征提取。如式(9)所示,將所有的yi 進行拼接后輸入線性層LG 和自注意力頭AttG 進行全局級多尺度依賴信息整合,輸出特征Y∈RCG×D 。
2. 3 特征序列池化
池化操作也稱為讀出操作,主要作用是將連續(xù)的高維幀級序列特征聚合為可用于分類的話語級特征。本文引入特征序列池化(Sequence Pooling,SeqPool)[13]聚合幀級特征,不同于常用的平均池化、最大池化以及總和池化等靜態(tài)池化方法,特征SeqPool 是一種基于注意力機制的映射變換,其通過保留不同幀級序列之間的相關信息提高性能并且不會帶來額外的參數(shù)。
該方法一共包括3 個步驟。對于一個L 層的Transformer 編碼器輸出yL ∈RD×C,特征SeqPool 方法首先利用一個線性層對yL 進行降維以及信息整合,隨后,對g(yL )∈RD×1 應用Softmax 激活函數(shù)為每一個輸入幀級序列產(chǎn)生一個重要性權重,計算如下:
wL = Softmax(g(yL) T )∈ R1 ×D , (10)
式中:g(yL)代表線性層映射。將重要性權重wL 與yL 相乘生成話語級特征z,計算如下:
z = Softmax(g(yL) T )× yL ∈ R1 ×C 。(11)
將z 進行降維后生成z′∈R3. 1 實驗環(huán)境與參數(shù)細節(jié)C 輸入到全連接層中進行分類。對于欺騙檢測任務,全連接層的最后一層是一個包含2 個神經(jīng)元的線性層,每一個神經(jīng)元的輸出分別代表欺騙類別和真實類別的置信度得分。
3 實驗與結果分析
3. 1 實驗環(huán)境與參數(shù)細節(jié)
本文采用FBank 作為前端時頻表示特征。以20 ms 幀長、10 ms 幀移、漢寧窗以及512 個傅里葉變換變換點提取對數(shù)功率譜。所有對數(shù)功率譜調(diào)整為固定長度400 幀,對于時長不足的語音樣本,本實驗沿時間軸對特征進行復制。對于長語音,本實驗隨機選擇400 幀連續(xù)幀。然后應用60 個線性濾波器提取60 維FBank。
本實驗基于Ubuntu 20. 04 操作系統(tǒng),采用Py-Torch 框架實現(xiàn),顯卡為NVDIA GTX 1080Ti。設置β1 = 0. 9,β2 = 0. 999,初始學習率為5 ×10-5 的Adam優(yōu)化器,學習速率衰減采用余弦退火方法??偣灿柧殻保埃?個輪次,取其中最好的實驗結果作為最終結果。
3. 2 數(shù)據(jù)集
實驗采用ASVspoof2019 大賽的邏輯訪問(Logical Access,LA)數(shù)據(jù)集驗證本文模型以及其他不同模型的檢測效果。該數(shù)據(jù)集基于VCTK 語料庫的107 位說話人語音樣本,由17 種不同的語音合成以及語音轉換算法產(chǎn)生后通過16 比特量化下采樣到16 kHz 得到。數(shù)據(jù)集包含訓練集、開發(fā)集以及評估集3 個子集且彼此之間沒有交集。此外,開發(fā)集中的欺騙語音采用訓練集中相同的欺騙語音算法(A01 ~ A06)產(chǎn)生,用于驗證算法對可見欺騙語音的檢測效果。評估集中使用了13 種欺騙語音產(chǎn)生算法(A07 ~ A19),其中的A06、A04 與訓練集中的A19、A16 是同一種欺騙算法,另外的11 種算法相對于訓練集是未知的,用于驗證算法對未知欺騙語音的檢測效果。數(shù)據(jù)集詳細設置如表1 所示。
3. 3 評估指標
本文采用等錯誤率[2](Equal Error Rate,EER)作為次要檢測指標,采用ASVspoof2019 大賽中所提出的最小串聯(lián)檢測代價函數(shù)[14](min tandem-Detection Cost Function,min t-DCF)作為主要檢測指標,二者的值均越低代表系統(tǒng)的檢測準確度越高。
(1)EER
如式(14)所示,EER 被定義為在閾值為τ 的情況下,錯誤接受率PFAR(τ)和錯誤拒絕率PFRR(τ)相等時的值。錯誤接受率和錯誤拒絕率由式(12)、式(13)所示,其中Nfa(τ)、Nmiss(τ)分別表示欺騙語音樣本被錯誤接受的數(shù)量以及真實語音樣本被錯誤拒絕的數(shù)量,Nspoof、Nbonafide 分別表示欺騙語音樣本的數(shù)量以及真實語音樣本的數(shù)量。EER 是一種獨立評判欺騙語音檢測系統(tǒng)的有效指標,通過比較EER可以直觀地看出欺騙語音檢測系統(tǒng)的性能。
(2)最小串聯(lián)檢測代價函數(shù)
實際場景中,ASV 系統(tǒng)通常與反欺騙(CM)系統(tǒng)串聯(lián)應用,如果只將CM 系統(tǒng)的等錯誤作為評價指標,無法全面反映CM 系統(tǒng)和ASV 系統(tǒng)對檢測結果的影響。因此,ASVspoof2019 大賽采用最小串聯(lián)檢測代價函數(shù)作為主要的評價指標。如式(15)所示,其綜合考慮CM 系統(tǒng)和ASV 系統(tǒng)的決策,在評價系統(tǒng)性能時更加合理:
式中:PCMFRR(τ)和PCMFAR(τ)分別表示在閾值為τ 的情況下,CM 系統(tǒng)的錯誤拒絕率和錯誤接收率;系數(shù)C0 、C1 、C2 由ASV 系統(tǒng)和CM 系統(tǒng)的2 種錯誤率以及先驗概率所決定,t-DCFdefault 定義為CM 系統(tǒng)接受或拒絕每條測試語音樣本無信息的默認成本。
t-DCFdefault = C0 + min{C1 ,C2 }。(16)
3. 4 消融實驗
為了驗證本文模型中每個組件的有效性,通過移除或者替換對應組件在評估集上進行了多組消融實驗,結果如表2 所示。
由表2 可知,實驗2 通過添加位置嵌入信息(Position Embedding,PE)保留時頻子區(qū)域之間的相對位置關系能夠在一定程度上提升模型性能。實驗3 在SE-ResNet18 層之間添加CA 模塊區(qū)分局部時頻子區(qū)域之間的重要性,EER 與min t-DCF 分別降低3. 7% 、1. 3% 。在實驗3 的基礎上將自注意力機制替換成MSA 機制,EER 降低5. 0% ,min tDCF 降低3. 73% ,這表明豐富尺度信息能有效提升對欺騙偽影的檢測。實驗5 進一步將全局平均池化(Global Average Pooling,GAP)替換為SeqPool,EER和min t-DCF 達到1. 58 和0. 048 1,對比實驗4 分別降低4. 73% 、2. 03% ,因為SeqPool 相對于靜態(tài)池化方法,能夠有效保留Transformer 編碼器輸出幀級特征之間的相關信息,從而提升模型檢測精度。
圖4 是分別提?。?000 條真實語音和各類欺騙語音的話語級特征進行降維后形成的可視化消融實驗對比圖,其中紫色代表真實語音,黃色代表欺騙語音,圖4 (a)~ 圖4 (d)分別對應消融實驗2 ~ 5。圖4(a)為添加PE 信息后的可視化效果圖,可以看出真實語音和欺騙語音類間碰撞情況較多,且對于真實語音的類內(nèi)聚合度差。圖4(b)為在圖4(a)的基礎上嵌入CA 機制的可視化效果圖,相比于圖4(a),圖4 (b)的類間碰撞情況有所降低,且真實語音類間聚合度有明顯提升,這表明CA 提升了模型的特征提取能力,話語級特征具備更強的甄別性。圖4(c)為將自注意力機制替換為MSA 機制的可視化效果圖,可以看出類間碰撞降低,對于大部分真實語音,類間聚合度明顯提高,但是依然存在少部分真實樣本聚合度比較差。圖4(d)為進一步替換GAP 為SeqPool 的可視化效果圖,相比于圖4(c),在沒有增加類間碰撞的情況下,提升了真實語音之間的相似性,這表明SeqPool 并不會影響主干網(wǎng)絡的特征提取能力,且能保留主干網(wǎng)絡輸出特征序列之間的相關性信息以提升區(qū)分度。
3. 5 未知攻擊檢測性能對比實驗
為了驗證本文模型對未知攻擊檢測的性能,在評估集中使用6 種模型與本文模型進行對比,包括OC-Softmax[15]、LCNN-LSTM-sum[16]、Attention + ResNet[17]、MCG-Res2Net50[6]、Raw PC-DARTS[18]和Res-TSSD-Net[19]。上述6 種模型均是單一系統(tǒng),并沒有經(jīng)過任何分數(shù)融合策略。對比實驗分別比較7 種模型的EER 和min t-DCF,結果如表3 所示。本研究在EER 指標上達到最優(yōu)性能,相較于最優(yōu)模型Res-TSSDNet,min t-DCF 相同,但是EER 降低了1. 83% 。
為了進一步對比Raw PC-DARTS、Res-TSSDNet與本文模型對不同攻擊類型的檢測性能,在評估集上對A07 ~ A19 共13 種未知欺騙攻擊分別進行實驗并比較min t-DCF 指標,結果如圖5 所示。
從圖5 可以看出對于大部分的欺騙類型,3 種模型的檢測性能表現(xiàn)差距不大。針對A07 ~ A16 共10 種攻擊類型,本文模型的整體精度表現(xiàn)得更加穩(wěn)定,對于A08 和A12 類型,Raw PC-DARTS 無法有效檢測,Res-TSSDNet 的檢測性能波動最明顯,相對于其余攻擊類型,其對于A07、A10 以及A15 的檢測精度存在明顯下降,這表明本文模型的泛化性能更好,能夠適應更多種的未知欺騙類型。但是在面對公認難度最高的A17 攻擊類型時,3 種模型的min t-DCF均有大幅度上升,其中本文模型的表現(xiàn)最差,主要原因在于A17 是一種基于原始波濾波的轉換攻擊算法,因此采用A17 算法生成的偽裝語音在原始波中會包含更多的欺騙偽影。而Raw PC-DARTS 和Res-TSSDNet 均采用未經(jīng)手工處理的原始波形作為輸入特征,相對于本文采用的前端特征Linear FBank 保留了更多的有效信息。但是以原始波形作為輸入特征同時會引入大量冗余信息,提升了模型對特征的提取難度,導致模型無法在多種不同的攻擊類型上表現(xiàn)出平穩(wěn)的性能。
本文模型的話語級特征在評估集上針對各類攻擊類型的可視化結果如圖6 所示,紅色圓點為真實語音,其余顏色圓點為多種欺騙語音。從圖6 中可以看出真實語音類內(nèi)聚合度高,同時與各類欺騙語音之間間距明顯,少量類間碰撞主要集中于A17 上,這表明本文模型能夠有效區(qū)分真實語音和欺騙語音。
4 結束語
本文提出了一種結合CNN 與Transformer 的欺騙語音檢測模型,旨在通過高效捕捉語音信息局部時頻表示之間的全局相關性來提高來解決現(xiàn)有方法難以適應多種欺騙類型、對未知欺騙攻擊檢測能力不足的問題。設計基于CA 注意力嵌入的SE-Res-Net18 的位置感知特征序列提取網(wǎng)絡,將語音信號局部時頻表示映射為高維特征序列,采用二維位置編碼保留特征序列之間的相對位置信息,并在原SE-ResNet18 的基礎上嵌入CA 注意力區(qū)分特征序列之間的重要性,提升特征提取能力;提出MSA 機制替換Transformer 層中的單一自注意力,解決Transformer 難以捕捉局部依賴的問題;引入SeqPool提取話語級特征,保留Transformer 層輸出幀級特征序列之間的相關性信息,優(yōu)化檢測精度。實驗結果表明,在ASVspoof2019 大賽數(shù)據(jù)集的LA 場景中,相較于當前先進模型,本文模型適應性更強且min t-DCF 與EER 平均降低7. 81% 和12. 83% ,整體檢測精度上具備明顯優(yōu)勢。在未來的工作中,將使用多特征融合的方式,豐富前端特征表達,從而提升對未知攻擊檢測的精度和模型的泛化性。
參考文獻
[1] SADJADI S O,GREENBERG C,SINGER E,et al. The2021 NIST Speaker Recognition Evaluation [EB / OL ].(2022-04-21)[2023-05-16]. https:∥arxiv. org / abs /2204. 10242.
[2] NAUTSCH A,WANG X,EVANS N,et al. ASVspoof2019:Spoofing Countermeasures for the Detection of Synthesized,Converted and Replayed Speech [J ]. IEEETransactions on Biometrics, Behavior, and IdentityScience,2021,3(2):252-265.
[3] HUANG P Y,XU H,LI J C,et al. Masked Autoencodersthat Listen[C]∥ NeurIPS 2022. New Orleans:[s. n. ],2022:28708-28720.
[4] HUANG R J,CUI C Y,CHEN F Y,et al. SingGAN:Generative Adversarial Network for Highfidelity SIngingVoice Generation[C]∥Proceedings of the 30th ACM International Conference on Multimedia. Lisboa:ACM,2022:2525-2535.
[5] WANG Z,CUI S S,KANG X G,et al. Densely ConnectedConvolutional Network for Audio Spoofing Detection[C]∥2020 AsiaPacific Signal and Information Processing Association Annual Summit and Conference (APSIPAASC). Auckland:IEEE,2020:1352-1360.
[6] LI X,WU X X,LU H,et al. Channelwise GatedRes2Net:Towards Robust Detection of Synthetic SpeechAttacks [EB / OL]. (2021 - 07 - 19 )[2023 - 05 - 16 ].https:∥arxiv. org / abs / 2107. 08803.
[7] FU Q C,TENG Z W,WHITE J,et al. FastAudio:A Learnable Audio FrontEnd for Spoof Speech Detection[C]∥ICASSP 2022 - 2022 IEEE International Conference onAcoustics,Speech and Signal Processing (ICASSP). Singapore:IEEE,2022:3693-3697.
[8] TAK H,PATINO J,TODISCO M,et al. EndtoEnd Antispoofing with RawNet2 [C]∥ ICASSP 2021 - 2021 IEEEInternational Conference on Acoustics,Speech and SignalProcessing (ICASSP). Toronto:IEEE,2021:6369-6373.
[9] TAK H,JUNG J,PATINO J,et al. Graph Attention Networks for Antispoofing [EB / OL ]. (2021 - 04 - 08 )[2023-05-16]. https:∥arxiv. org / abs / 2104. 03654.
[10] VASWANI A,SHAZEER N,PARMAR N,et al. AttentionIs All You Need [C]∥ NIPS 2017. Long Beach:CurranAssociatior Inc. ,2017:6000-6010.
[11] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attentionfor Efficient Mobile Network Design[C]∥Proceedings ofthe IEEE / CVF Conference on Computer Vision and PatternRecognition. Nashville:IEEE,2021:13713-13722.
[12] RAISI Z,NAIEL M A,FIEGUTH P,et al. 2D PositionalEmbeddingbased Transformer for Scene Text Recognition[J ]. Journal of Computational Vision and ImagingSystems,2020,6(1):1-4.
[13] HASSANI A,WALTON S,SHAH N,et al. Escaping theBig Data Paradigm with Compact Transformers[EB / OL].(2022-06-07)[2023-05-16]. https:∥arxiv. org / abs /2104. 05704v4.
[14] KINNUNEN T,LEE K A,DELGADO H,et al. tDCF:ADetection Cost Function for the Tandem Assessment ofSpoofing Countermeasures and Automatic Speaker Verification[EB / OL]. (2019 -04 -12)[2023 -05 -16]. https:∥arxiv. org / abs / 1804. 09618v2.
[15] ZHANG Y,JIANG F,DUAN Z Y. Oneclass Learning Towards Synthetic Voice Spoofing Detection [J ]. IEEESignal Processing Letters,2021,28:937-941.
[16] WANG X,YAMAGISHI J. A Comparative Study onRecent Neural Spoofing Countermeasures for SyntheticSpeech Detection[EB / OL]. (2021-03 -21)[2023 -05 -16]. https:∥arxiv. org / abs / 2103. 11326v2.
[17] LING H F,HUANG L C,HUANG J R,et al. Attentionbased Convolutional Neural Network for ASV Spoofing Detection[C]∥ Interspeech 2021. Brno:[s. n. ],2021:4289-4293.
[18] GE W Y,PATINO J,TODISCO M,et al. RawDifferentiable Architecture Search for Speech Deepfakeand Spoofing Detection [EB / OL ]. (2021 - 10 - 06 )[2023-05-16]. https:∥arxiv. org / abs / 2107. 12212v2.
[19] HUA G,TEOH A B J,ZHANG H J. Towards EndtoEndSynthetic Speech Detection [J]. IEEE Signal ProcessingLetters,2021,28:1265-1269.
作者簡介
徐童心 男,(1999—),碩士研究生。主要研究方向:語音檢測與人工智能。
黃 俊 男,(1971—),博士,教授。主要研究方向:深度學習。
基金項目:國家自然科學基金(61771085)