鄭榕 孟凡芹 王志宣
1. 北京遠(yuǎn)鑒信息技術(shù)有限公司研究院 2. 公安部第一研究所 3. 多維身份識別與可信認(rèn)證技術(shù)國家工程研究中心
人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)正在快速興起,通過人工智能算法對數(shù)據(jù)或內(nèi)容進(jìn)行生產(chǎn)和編輯,重塑數(shù)字內(nèi)容的生產(chǎn)和消費模式[1]。語音是人機(jī)交互的的主要接口,伴隨著人工智能技術(shù)的興起和新設(shè)備不斷推出,得到了快速發(fā)展,其中一些只能通過語音命令或聲音交互進(jìn)行操作,這為黑客或破壞者提供了攻擊的機(jī)會,特別是涉及語音欺詐或者深度合成(Deep Synthesis)語音方面[2],達(dá)到以假亂真的程度,輕松實現(xiàn)變聲、聲音克隆等。技術(shù)濫用后很可能使得偽造生成內(nèi)容通過互聯(lián)網(wǎng)和電信網(wǎng)廣泛傳播,造成虛假身份、虛假信息、違法違規(guī)內(nèi)容流出或傳播,給檢測、追溯、監(jiān)管等造成嚴(yán)重困難。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,典型人機(jī)交互系統(tǒng)例如聲紋識別系統(tǒng)、語音控制系統(tǒng)等,在走向?qū)嶋H應(yīng)用的過程中易受語音欺騙的攻擊[3]。語音欺騙攻擊利用各種算法生成與特定說話人或特定內(nèi)容盡可能相似的語音,包括語音合成、聲音轉(zhuǎn)換、錄音重放、語音拼接和對抗樣本等形式。
語音欺騙主要可分為物理訪問(Physical Access)攻擊和邏輯訪問(Logical Access)攻擊。物理攻擊通常經(jīng)過了聲音采集環(huán)節(jié),通過APP、HTML5頁面等形式,例如錄音重放。邏輯攻擊通常是通過調(diào)用SDK/API、服務(wù)接口完成攻擊,例如語音合成、聲音轉(zhuǎn)換、聲音克隆等。實際應(yīng)用中需要鑒別各種來源音頻或視頻中音軌數(shù)據(jù)的真?zhèn)?,包括來自互?lián)網(wǎng)和電信網(wǎng)等復(fù)雜多樣的音頻數(shù)據(jù)。音頻鑒偽是將音頻數(shù)據(jù)輸送到自動音頻鑒偽系統(tǒng)中,通過系統(tǒng)輸出的相似度判決是否為偽造音頻。本文結(jié)合音頻鑒偽檢測典型系統(tǒng)和技術(shù)發(fā)展歷程,開展了音頻鑒偽檢測與防御技術(shù)研究,旨在提升實際應(yīng)用場景中音頻鑒偽檢測的通用性和泛化能力。
典型的音頻鑒偽檢測技術(shù)需支持傳統(tǒng)偽造音頻以及深度合成音頻的檢測,如音頻增刪拼接偽造、語音身份風(fēng)格偽造、音色偽造、韻律偽造和聲音轉(zhuǎn)換等各種類型的偽造音頻[4]。鑒偽檢測系統(tǒng)流程如圖1所示。
訓(xùn)練階段:把真實音頻和偽造音頻的波形或特征輸入分類網(wǎng)絡(luò)或分類器,例如門控循環(huán)單元(Gated Recurrent Unit,GRU)或者輕量級卷積神經(jīng)網(wǎng)絡(luò)(Light Convolutional Neural Network,LCNN)等,迭代訓(xùn)練網(wǎng)絡(luò),最后得到真實音頻和偽造音頻的分類模型。非端到端分類網(wǎng)絡(luò)中通常前置音頻特征提取模塊。
檢測階段:把待測音頻的波形或特征輸入到鑒偽檢測模型,計算相似度并與預(yù)設(shè)閾值進(jìn)行比較,得到檢測判決結(jié)果。
聲音模仿和錄音重放,實現(xiàn)成本較低,通過簡單的錄音設(shè)備即可實現(xiàn)。利用開源算法工具,語音合成和聲音轉(zhuǎn)換的偽造門檻不斷降低。攻防技術(shù)手段不斷升級,偽造攻擊可以是單點攻擊但是檢測防御需要做到線防御或面防御。隨著變分自編碼器、生成對抗網(wǎng)絡(luò)、流模型、擴(kuò)散模型等技術(shù)的發(fā)展,攻擊技術(shù)手段不斷提升,例如聲音轉(zhuǎn)換逐漸朝著小樣本、輕量化、多對多轉(zhuǎn)換的技術(shù)路線發(fā)展。語音合成逐步提升韻律音色合成的穩(wěn)定性、個性化和表現(xiàn)力。錄音重放基于各種新推出的采集設(shè)備、播放設(shè)備、錄音設(shè)備,以及錄放過程中引入的各種環(huán)境噪聲。
隨著錄音設(shè)備質(zhì)量的提高和語音合成、聲音轉(zhuǎn)換等語音智能處理技術(shù)的發(fā)展,特別是深度合成技術(shù)的深入應(yīng)用,真實音頻與人工生成后的音頻將越來越難以區(qū)分,給語音防欺騙檢測和自動聲紋識別系統(tǒng)的安全性帶來嚴(yán)峻的挑戰(zhàn)。當(dāng)前技術(shù)應(yīng)用主要存在以下幾方面的局限性:
攻防對抗頻繁:鑒別技術(shù)提出之后會有針對該鑒別技術(shù)的對抗方式出現(xiàn),攻防對抗非常頻繁。
泛化能力不足:通常鑒偽技術(shù)只針對特定生成模型,對未見場景或者遷移后的性能下降明顯,比如在跨域跨場景或多種數(shù)據(jù)來源的數(shù)據(jù)場景中性能下降,實際應(yīng)用中會遇到長尾分布問題導(dǎo)致效果不佳,這些問題均要求檢測模型具備更好的泛化能力和通用性。
深度學(xué)習(xí)效果有待提升:通常方法是先將原始音頻數(shù)據(jù)預(yù)處理成特征,再把特征輸入神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)和其他模塊分別訓(xùn)練以提升整體模型的效果,由于各個模塊的最優(yōu)解結(jié)合后并不一定是全局最優(yōu),因此深度學(xué)習(xí)的效果發(fā)揮還不夠充分。
音頻鑒偽攻防對抗中,進(jìn)一步研究真實音頻與偽造音頻之間差異性及有效解釋,應(yīng)對復(fù)雜多樣音頻鑒偽的通用能力,提升基于深度學(xué)習(xí)的檢測防御能力,特別是端到端音頻鑒偽系統(tǒng)性能、多系統(tǒng)融合鑒偽等方面,受到越來越多的重視。
國際上對語音防欺騙這一問題持續(xù)關(guān)注,并從2015年至2021年連續(xù)舉辦了四屆聲紋防攻擊挑戰(zhàn)賽(Automatic Speaker Verification and Spoofing Countermeasures Challenge,ASVspoof)[5]。最早關(guān)注合成轉(zhuǎn)換類攻擊,然后是錄音重放攻擊,最近一屆挑戰(zhàn)賽細(xì)分為合成轉(zhuǎn)換賽道、錄音重放賽道和深偽賽道。挑戰(zhàn)賽的舉辦極大地推動了語音防欺騙技術(shù)的進(jìn)步。國內(nèi)外研究單位聯(lián)合在語音領(lǐng)域會議ICASSP2022上舉辦首屆語音深度合成鑒別挑戰(zhàn)賽(Audio Deep Synthesis Detection Challenge,ADD2022)[6],推動研究人員提出具有創(chuàng)新性的算法,促進(jìn)音頻鑒偽領(lǐng)域的技術(shù)發(fā)展。語音領(lǐng)域會議INTERSPEECH2022上舉辦了首屆欺騙感知聲紋確認(rèn)挑戰(zhàn)賽(Spoofing-Aware Speaker Verification Challenge,SASV2022)[7],旨在促進(jìn)聯(lián)合優(yōu)化解決方案的研究,以完成傳統(tǒng)上分別優(yōu)化的音頻鑒偽和聲紋識別任務(wù)。
?
當(dāng)前音頻鑒偽主要可分為特征工程和深度學(xué)習(xí)兩種技術(shù)路線。特征工程是提取多種頻譜特征或?qū)︻l譜提取器的改進(jìn),例如梅爾倒譜、線性倒譜等濾波器組頻譜,屬于根據(jù)專家知識設(shè)計的濾波器組。深度學(xué)習(xí)技術(shù)思路一方面可用于改進(jìn)特征提取,例如基于深度神經(jīng)網(wǎng)絡(luò)的濾波器提取器優(yōu)化訓(xùn)練等;另一方面,可用于直接訓(xùn)練真實和各種類型偽造音頻的分類器。
1. 特征提取
音頻鑒偽檢測任務(wù)中,特征提取是非常重要的環(huán)節(jié)。特征工程技術(shù)路線可提取梅爾倒譜系數(shù)特征(Mel-Frequency Cepstral Coefficient,MFCC)、線性倒譜系數(shù)(Linear Frequency Cepstral Coefficients,LFCC)、逆梅爾倒譜系數(shù)特征(Inverted Mel-Frequency Cepstral Coefficient,IMFCC)、短時傅里葉變換(Short-Time Fourier Transform,STFT)聲譜圖特征、恒定Q倒譜系數(shù)特征(Constant Q Cepstral Coefficient,CQCC)、伽馬通(GammaTone)聽覺濾波器組頻譜等。當(dāng)前主要是兩種形式,一種是常見的倒譜系數(shù)提取,在濾波器組設(shè)計方面,依據(jù)專家知識設(shè)計或者基于深度學(xué)習(xí)訓(xùn)練得到。另一種是引入音樂分析的恒定Q倒譜系數(shù)提取。參數(shù)Q描述濾波器之間的分離程度,人類聽覺系統(tǒng)在500Hz到20000Hz的頻帶內(nèi)Q不變。由于恒定Q變換獲取的幾何分布的能量譜,需轉(zhuǎn)成離散余弦變換要求的頻率上的線性分布再提取倒譜特征,因此增加均勻重采樣環(huán)節(jié)。
上述兩種特征提取方法中,均通過設(shè)置較多的濾波器組和較高的倒譜系數(shù)獲取更好的分辨能力,增強(qiáng)對高頻信息的刻畫能力。同時,增加一階和二階差分倒譜系數(shù),增強(qiáng)對動態(tài)信息的刻畫能力。
2. 分類模型
特征提取之后,需要具有分類性能出色的后端分類模型對聲學(xué)特征進(jìn)行建模,當(dāng)前主流的兩類方法:
基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測方法,主要包括生成式模型和判別式模型兩種技術(shù)路線,例如生成式模型中的高斯混合模型分類器、判別式模型中的支持向量機(jī)分類器。
基于深度學(xué)習(xí)的檢測方法,例如基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network,CRNN)以及上述網(wǎng)絡(luò)結(jié)構(gòu)的衍生算法,例如基于長短期記憶(Long Short-Term Memory,LSTM)、殘差網(wǎng)絡(luò)(ResNet)和變形器(Transformer)的音頻鑒偽網(wǎng)絡(luò)。
音頻鑒偽任務(wù)中,通常采用真?zhèn)味诸惸P?。而如果將音頻鑒偽看作是異常檢測或者類別極度不平衡的分類任務(wù),研究人員也提出了單分類(One-Class)模型。單分類問題不是將不同標(biāo)簽的數(shù)據(jù)區(qū)分開來,而是對單個類別的數(shù)據(jù)表征在樣本空間中進(jìn)行區(qū)域輪廓描述,當(dāng)某個音頻表征落在這個區(qū)域外,判定該音頻不屬于目標(biāo)類別。
1. 非端到端網(wǎng)絡(luò)
非端到端網(wǎng)絡(luò)中各模塊按照一定的規(guī)則與其他模塊相互聯(lián)系而構(gòu)成更加復(fù)雜的系統(tǒng),例如音頻鑒偽技術(shù)中的混合網(wǎng)絡(luò)(Hybrid Network)或管路網(wǎng)絡(luò)(Pipeline Network)。輕量級卷積神經(jīng)網(wǎng)絡(luò)LCNN鑒偽是非端到端網(wǎng)絡(luò)的典型代表[8]。
LCNN音頻鑒偽技術(shù)采用輕量級卷積神經(jīng)網(wǎng)絡(luò)和最大特征映射(Max Feature Map,MFM)激活模塊。最大特征映射改進(jìn)了通常的池化方式,通過激活卷積層特征圖的最大值獲取更多富有競爭力的節(jié)點,實現(xiàn)特征選擇并加速生成稀疏連接,使得卷積神經(jīng)網(wǎng)絡(luò)可獲得更緊湊的表征。同時,最大特征映射局部特征選擇利用競爭關(guān)系而非閾值來激活神經(jīng)元,在跨域條件下有更好的泛化能力。基于輕量級卷積神經(jīng)網(wǎng)絡(luò)的鑒偽研究主要是針對損失函數(shù)的選擇和注意力機(jī)制學(xué)習(xí)方面。
2. 端到端網(wǎng)絡(luò)
(1)RawNet系列網(wǎng)絡(luò)
RawNet是一種原始信息卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),最早用于聲紋識別任務(wù)。RawNet網(wǎng)絡(luò)可輸出語音嵌入表征。第一個卷積層直接應(yīng)用于原始語音波形,所有濾波器參數(shù)自動學(xué)習(xí)。在較高層中提取幀級表示的殘差塊,殘差塊使用跳轉(zhuǎn)連接,使訓(xùn)練更深的分類器能夠利用更多區(qū)分信息。
RawNet2結(jié)合了原始RawNet方法和正弦網(wǎng)絡(luò)(SincNet)的優(yōu)點[9]。RawNet2的第一層與SincNet基本相同,而上層由與RawNet相同的殘差塊和門控循環(huán)單元層組成。RawNet2使用基于殘差塊輸出激活函數(shù)的特征圖縮放(Feature Map Scaling,F(xiàn)MS)。FMS注意力機(jī)制獲得更具辨別力的表征。
RawNet3網(wǎng)絡(luò)是基于RawNet2和ECAPA-TDNN網(wǎng)絡(luò)的改進(jìn)。ECAPA-TDNN通過引入擠壓激勵(Squeeze-Excitation,SE)模塊以及通道注意機(jī)制,在國際聲紋識別比賽VoxSRC2020中取得了第一名的成績,并已成為聲紋識別的主流框架之一。RawNet3對原始波形應(yīng)用預(yù)加重并通過實例歸一化(Instance Normalization)層,輸出使用參數(shù)化的分析濾波器組的時頻域表示。該層是RawNet2中正弦卷積層(Sinc-Convolutional Layer)的擴(kuò)展,即由實值參數(shù)化濾波器組變?yōu)閺?fù)數(shù)值參數(shù)化濾波器組。RawNet3每個主干塊稱為AFMS-Res2MP,基于Res2Net網(wǎng)絡(luò)結(jié)構(gòu)得到,這里Res2Net是在單個殘差塊內(nèi)構(gòu)造分層的殘差連接而構(gòu)建的CNN結(jié)構(gòu),在粒度級別上表示了多尺度特征,增加了每層的感受野。AFMS是RawNet2的特征圖縮放模塊的擴(kuò)展。
(2)圖卷積注意力網(wǎng)絡(luò)
基于圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)的音頻鑒偽系統(tǒng)RawGAT,如圖4所示。包含頻域和時域圖注意力網(wǎng)絡(luò),能夠?qū)W習(xí)跨越不同子帶和時間間隔的線索之間的關(guān)系,使用頻譜和時間的模型級圖融合子圖和圖池化(Graph Pooling)策略以提高真假音頻的區(qū)分度[10]。該網(wǎng)絡(luò)模型結(jié)構(gòu)實現(xiàn)了端到端的高層語義特征表征,在頻域-時域注意力機(jī)制基礎(chǔ)上增加了圖注意力模塊,采用了圖池化層用于區(qū)分性節(jié)點選擇,并最終實現(xiàn)模型級別的融合音頻鑒偽檢測。
在RawGAT方法基礎(chǔ)上,進(jìn)一步提出了AASIST(Audio Anti-Spoofing using Integrated Spectro-Temporal GAT)鑒偽檢測模型[11]。AASIST使用了各向異性堆疊圖注意層(Heterogeneous Stacking Graph Attention Layer,HSGAL)、競爭性最大圖操作(Max Graph Operation,MGO)和擴(kuò)展讀出策略,取得了性能上的大幅度提升。
為了應(yīng)對實際環(huán)境中音頻鑒偽檢測性能下降問題,提升系統(tǒng)魯棒性和泛化能力,通常采用數(shù)據(jù)增強(qiáng)的方法。根據(jù)處理方式不同,數(shù)據(jù)增強(qiáng)可分為在線數(shù)據(jù)增強(qiáng)和離線數(shù)據(jù)增強(qiáng)。離線數(shù)據(jù)增強(qiáng)就是一次性把數(shù)據(jù)讀入并擴(kuò)增后存儲,再用這個擴(kuò)增后的數(shù)據(jù)集進(jìn)行訓(xùn)練,適用于較小的數(shù)據(jù)集。在線數(shù)據(jù)增強(qiáng)就是在每個訓(xùn)練周期或批次前,對數(shù)據(jù)集進(jìn)行加噪聲、加混響等操作。
當(dāng)前數(shù)據(jù)增強(qiáng)方法存在一定的局限性,例如,離線數(shù)據(jù)增強(qiáng)需要先對語音和噪聲/混響數(shù)據(jù)進(jìn)行加噪,生成大量數(shù)據(jù)存儲并在訓(xùn)練過程中讀取,對存儲和磁盤I/O要求高。在線方式的數(shù)據(jù)增強(qiáng),雖然節(jié)省了磁盤空間,但需要對數(shù)據(jù)重復(fù)加噪聲或混響等擾動,極大地增加了訓(xùn)練時間。
1. 面向復(fù)雜多樣音頻場景的數(shù)據(jù)增強(qiáng)
實際場景中音頻來源和音頻特性復(fù)雜多樣,會受到話音傳輸干擾、網(wǎng)絡(luò)特性干擾和采集設(shè)備干擾。傳輸干擾包括基于IP的語音傳輸(VoIP)、公共交換電話網(wǎng)絡(luò)(PSTN)等影響;網(wǎng)絡(luò)特性干擾包括編解碼、網(wǎng)絡(luò)丟包丟幀、碼率變化等;編碼譯碼器(Codec)干擾包括非線性失真、語譜缺失等。針對上述干擾,音頻增強(qiáng)方式可從以下幾方面進(jìn)行:
話音傳輸干擾:影響信道響應(yīng),針對VoIP、PSTN、衛(wèi)星通話等信道的話音數(shù)據(jù),采用G.722、G.729、amr等音頻格式的轉(zhuǎn)換。
網(wǎng)絡(luò)特性干擾:針對有損編解碼,采用FFmpeg或SoX軟件工具,實現(xiàn)多種網(wǎng)絡(luò)音頻格式的互相轉(zhuǎn)換,例如mp3、aac、silk、opus等。由于每種格式存在不同碼率的影響,通常隨機(jī)選取高中低三種碼率進(jìn)行數(shù)據(jù)增強(qiáng)。
編碼譯碼器的影響:主要體現(xiàn)在寬帶編碼譯碼器(Wide-band Codec)或窄帶編碼譯碼器(Narrow-band Codec)的使用。帶通濾波的影響會造成高頻信息的丟失,可對音頻進(jìn)行寬帶或窄帶編碼譯碼器的模擬增強(qiáng)。
2. 嵌入表征數(shù)據(jù)增強(qiáng)
嵌入表征數(shù)據(jù)增強(qiáng)方法,是通過表征層噪聲分布匹配(Noise Distribution Matching,NDM)。基本思想是在嵌入空間對干凈和含噪嵌入表征計算差值,假定服從均勻分布、拉普拉斯分布或高斯分布,基于上述分布模型去估計分布參數(shù)。得到噪聲嵌入向量的分布估計之后,不再需要對原始數(shù)據(jù)進(jìn)行加噪再提取含噪嵌入向量,而是直接從噪聲嵌入向量分布估計中直接采樣得到,并與干凈嵌入向量相加得到加噪增強(qiáng)的嵌入向量。相較于常見的數(shù)據(jù)增強(qiáng)方法,在磁盤存儲、I/O資源和訓(xùn)練時間等方面均有節(jié)省。
3. 時頻域掩蔽增強(qiáng)
基于時頻域掩蔽增強(qiáng)訓(xùn)練的音頻鑒偽檢測泛化能力提升方法,采用時頻域掩蔽技術(shù),損失函數(shù)采用加權(quán)交叉熵?fù)p失和混合正則化損失相融合,避免了訓(xùn)練數(shù)據(jù)中真實音頻和偽造音頻不平衡造成的模型偏向某一類別的風(fēng)險,提升模型的泛化能力。
利用音頻編輯軟件可輕易對真實音頻進(jìn)行剪切、復(fù)制、粘貼等拼接偽造操作,導(dǎo)致音頻的真實性與完整性不易判斷。按照音頻拼接方式的不同,可以分為同人語音或非同人音頻拼接、一段或多段拼接、真實片段音頻拼接或真實與偽造音頻片段拼接等多種形式。錄音取證中鑒別一段音頻檢材是否經(jīng)過拼接處理,已成為重要技術(shù)問題。
輕量級卷積神經(jīng)網(wǎng)絡(luò)利用時間和空間上的平移不變性,以及長短期記憶網(wǎng)絡(luò)在時域的上下文記憶的優(yōu)點,對自然音頻和拼接音頻能夠更好地區(qū)分。通過滑窗的方法對待檢測音頻進(jìn)行鑒別,對窗內(nèi)音頻特征信息進(jìn)行分析,提高鑒別準(zhǔn)確率,并能提供拼接點數(shù)量和時間信息估計。
ASVspoof2015數(shù)據(jù)集是第一個用于偽造和檢測研究的主要數(shù)據(jù)集。該數(shù)據(jù)集僅針對邏輯訪問攻擊場景,分為Train、Dev和Eva三部分,其中Train和Dev包含真實和S1到S5共五種欺騙算法的虛假語音。Eva包含真實和S1到S10共十種欺騙算法的虛假語音。S10是基于開源文本轉(zhuǎn)語音系統(tǒng)的拼接合成算法。使用ASVspoof2015-Eva的真實和S10數(shù)據(jù)構(gòu)成拼接語音測試集,共計9404條真實和18400條拼接虛假語音。
由于ASVspoof2015未提供拼接訓(xùn)練集,本文采用兩個中文語音數(shù)據(jù)集自制拼接訓(xùn)練數(shù)據(jù),即THCHS-30(https:// www.openslr.org/18/)和MAGICDATA(https://www.openslr. org/68/),分別自制5470條真實和拼接虛假語音?;赑yTorch搭建實驗環(huán)境,采用等錯誤率(Equal Error Rate,EER)作為評價指標(biāo),EER指標(biāo)越接近于0表示模型的鑒偽檢測效果越好。
?
由表2,在較大的幀長幀移和批次大小上取得了明顯的效果提升,改變LSTM的層數(shù)對檢測性能有進(jìn)一步的提升。本文提出的LCNN和LSTM的網(wǎng)絡(luò)結(jié)構(gòu),能夠提高拼接語音鑒別的準(zhǔn)確度。
注意力機(jī)制可以幫助模型對輸入的每個部分賦予不同的權(quán)重,抽取出更加關(guān)鍵及重要的信息,使模型做出更加準(zhǔn)確的判斷。采用端到端的架構(gòu)將音頻的原始信息經(jīng)過簡單的轉(zhuǎn)換編碼格式等處理,然后直接送入模型進(jìn)行檢測是否為虛假音頻。網(wǎng)絡(luò)結(jié)構(gòu)包含音頻的嵌入特征提取模塊,為了更全面更精準(zhǔn)地學(xué)習(xí)偽造音頻和真實音頻的區(qū)別,嵌入特征提取模塊分為兩大部分,第一部分提取音頻全頻帶嵌入特征,第二部分提取音頻不同子頻帶嵌入特征。網(wǎng)絡(luò)引入組合注意機(jī)制模塊。為了讓網(wǎng)絡(luò)更好地學(xué)習(xí)音頻局部的特點,該模塊分為三個子模塊:時間區(qū)域注意力模塊、頻譜區(qū)域注意力模塊和通道區(qū)域注意力模塊。網(wǎng)絡(luò)中引入了融合注意力模塊,既用于學(xué)習(xí)經(jīng)過組合注意力模塊進(jìn)行特征選擇之后保留的重要信息,也是對各個子頻帶和全頻帶進(jìn)一步利用注意力機(jī)制進(jìn)行融合學(xué)習(xí)。
ASVspoof2019數(shù)據(jù)集包含LA和PA兩個子集,LA子集為真實語音和合成/轉(zhuǎn)換語音,PA子集為真實語音和重放語音。使用ASVspoof2019-Eva的LA子集作為測試集,共計7355條真實和63882條虛假語音。使用ASVspoof2019-Train的LA子集作為訓(xùn)練集,共計2580條真實和22800條虛假語音?;赑yTorch搭建實驗環(huán)境,引入基于殘差網(wǎng)絡(luò)的TSSDNet(Time-Domain Synthetic Speech Detection Net)[12],即Res-TSSDNet 端到端網(wǎng)絡(luò)進(jìn)行實驗對比。
?
從表3可以看出,目前端到端網(wǎng)絡(luò)比非端到端網(wǎng)絡(luò)在音頻鑒偽任務(wù)上取得了更好的檢測效果,基于圖卷積網(wǎng)絡(luò)和多重注意力機(jī)制的等錯誤率低于1%,證明了方法的有效性。
為了提升檢測準(zhǔn)確率,降低檢測誤報率,實際音頻鑒偽應(yīng)用通常采用多系統(tǒng)融合的鑒偽檢測方法。以下是一種基于端到端網(wǎng)絡(luò)和非端到端網(wǎng)絡(luò)融合的音頻鑒偽系統(tǒng)。端到端網(wǎng)絡(luò)系統(tǒng)中,獲取音頻的序列信息并進(jìn)行歸一化,結(jié)合融合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練得到端到端模型。非端到端網(wǎng)絡(luò)系統(tǒng)中,提取音頻特征并輸入到后續(xù)模塊中,結(jié)合融合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練得到非端到端分類模型。兩種網(wǎng)絡(luò)在訓(xùn)練時獨立進(jìn)行,在測試階段將對兩種模型檢測的分?jǐn)?shù)進(jìn)行融合,提升系統(tǒng)的準(zhǔn)確率和穩(wěn)定性。端到端網(wǎng)絡(luò)和非端到端網(wǎng)絡(luò)中注意機(jī)制均可采用圖注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)每個節(jié)點可以根據(jù)相鄰節(jié)點的特征,為其分配不同的權(quán)值,另外引入注意力機(jī)制之后,只與相鄰節(jié)點有關(guān),無需得到整張圖的信息。圖注意力網(wǎng)絡(luò)可以處理變長輸入,關(guān)注有影響力的輸入,可有效學(xué)習(xí)到真實音頻和偽造音頻之間的區(qū)別,從而提升模型檢測性能。
智能語音技術(shù)日新月異,加強(qiáng)音頻鑒偽檢測與防御技術(shù)研究十分必要。從音頻鑒偽攻防對抗角度,回顧了音頻鑒偽技術(shù)的主要發(fā)展歷程。從特征工程、深度學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等方面介紹了音頻鑒偽技術(shù)路線。闡述了當(dāng)前主流的端到端鑒偽模型、注意力機(jī)制網(wǎng)絡(luò)、面向?qū)嶋H復(fù)雜場景的數(shù)據(jù)增強(qiáng)等關(guān)鍵技術(shù)。最后,以語音拼接的傳統(tǒng)偽造檢測、基于多重注意力機(jī)制的音頻鑒偽和基于多系統(tǒng)融合的音頻鑒偽為例,詳述了音頻鑒偽技術(shù)系統(tǒng)。從實驗結(jié)果可以看出,基于空間平移不變性以及時域上下文記憶的輕量級卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò),可實現(xiàn)對自然音頻和拼接音頻的區(qū)分。在音頻鑒偽任務(wù)上,端到端網(wǎng)絡(luò)比非端到端網(wǎng)絡(luò)普遍取得了更好的檢測性能,進(jìn)一步挖掘端到端網(wǎng)絡(luò)的效果值得更多關(guān)注。
實際場景對音頻鑒偽的通用性和泛化能力提出了更高要求,特別是對未見或跨域場景的偽造生成攻擊。多因子多系統(tǒng)融合鑒偽,基于場景遷移、預(yù)訓(xùn)練模型、自監(jiān)督學(xué)習(xí)(Self-supervised learning)的音頻鑒偽技術(shù)將是未來的技術(shù)發(fā)展趨勢。監(jiān)督學(xué)習(xí)模型極度依賴于大量的有標(biāo)簽數(shù)據(jù),而自監(jiān)督學(xué)習(xí)可以作為音頻鑒偽的前置任務(wù),從海量無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)音頻的有效表征,更好地用于下游音頻鑒偽任務(wù)。