臺建瑋 ,李亞凱 ,賈曉啟 ,黃慶佳
1 中國科學院信息工程研究所 北京 中國 100093
2 中國科學院大學網(wǎng)絡空間安全學院 北京 中國 100049
語音識別是一種能夠使得智能設備識別和理解人類語音的技術,由于先進的語音識別系統(tǒng)都具備自動化能力,因此也稱為自動語音識別[1]。得益于語音識別技術近年來在識別精度上的大幅提升,語音識別以其易用性和高效性成為了一種越來越流行的人機交互機制。因此,語音識別將各種各樣的軟件服務轉(zhuǎn)變?yōu)榱丝烧Z音控制的系統(tǒng)和智能音響也逐漸走入了普羅大眾的家庭生活。除了亞馬遜Alexa、谷歌助手、蘋果Siri、訊飛聽見等商業(yè)產(chǎn)品外,還有Kaldi[2]、卡內(nèi)基梅隆大學的 Sphinx[3]和 Mozilla DeepSpeech[4]等開源平臺。圖1 概述了一個典型的語音識別系統(tǒng)架構(gòu),包括兩個主要組成部分: 音頻獲取模塊和語音模型。其中音頻獲取模塊由音頻采集設備和信號處理設備組成。語音模型有三個子模塊組成: 特征提取模塊,聲學模型和語言模型。原始音頻經(jīng)過功率放大器和濾波器后,語音識別系統(tǒng)需要從數(shù)字化的音頻信號中提取聲學特征。常用的聲學特征提取算法有Mel 頻率倒譜系數(shù)(mel-frequency cepstral coefficients,MFCC)[5]、線性預測系數(shù)[6]等,其中在商業(yè)產(chǎn)品和開源平臺中使用頻率最高的均為MFCC。同時語音信號是一種典型的時序信號,其所含信息在時間跨度上有較大差異,因此語音識別系統(tǒng)需要使用短時分析定期對語音信號進行評估。
圖1 語音識別系統(tǒng)架構(gòu)圖Figure 1 The architecture of speech recognition system
近年來,隨著深度學習技術[7]的蓬勃發(fā)展,深度學習在各行各業(yè)中的應用不斷加深。深度學習歸屬于機器學習大類中的一個子集,它通過訓練一個神經(jīng)網(wǎng)絡模型來執(zhí)行原本需要人類理解能力的任務,例如語音識別、圖像識別或多樣化樣本生成等。術語“深度”通常指的是神經(jīng)網(wǎng)絡中隱藏層的數(shù)量,原始的神經(jīng)網(wǎng)絡一般只包含2 到3 個隱藏層,而深層神經(jīng)網(wǎng)絡可以包含多達上百個隱藏層。大多數(shù)深度學習方法通過建立基于數(shù)據(jù)的神經(jīng)網(wǎng)絡結(jié)構(gòu)和目標函數(shù),利用大規(guī)模標記數(shù)據(jù)的優(yōu)勢,使神經(jīng)網(wǎng)絡模型直接從數(shù)據(jù)中學習特征,而不需要手動提取特征,達到神經(jīng)網(wǎng)絡模型自動化學習的目的。因此該類方法可以達到比傳統(tǒng)機器學習方法更高的識別準確率。最近的研究表明,深度學習在一些特定任務中甚至比人類做的更好,例如圖像識別。因此,通過將深度學習技術引入語音識別這一任務領域,研究人員實現(xiàn)了語音識別系統(tǒng)識別精度的大幅提升,進一步推動了語音識別系統(tǒng)的大規(guī)模應用。
盡管深度學習技術對語音識別任務的精度提升具有重要價值,但深度學習技術也帶來了巨大的安全問題,其中對深度學習模型的安全威脅最大的就是對抗樣本[8]攻擊,這一點已經(jīng)在圖像領域得到了廣泛的研究和證明。對抗樣本是由攻擊者精心設計的具有誤導能力的惡意樣本。例如,攻擊者在一張熊貓圖片中引入一個微小的擾動后,人類對該擾動毫無感知,但是基于深度學習的圖像識別模型確以99.3%的置信度將熊貓圖片識別為長臂猿[9]。這種對抗樣本攻擊給基于深度學習的應用帶來了巨大的安全風險。例如,攻擊者可以針對自動駕駛汽車使用貼紙或油漆創(chuàng)建一個具有對抗性的停車標志,而車輛基于圖像識別的自動駕駛系統(tǒng)將該停車標志識別為“加速”或其他標志,造成極大的危害。近年來,針對深度學習中對抗樣本的研究越來越受到研究人員的關注。但是大多數(shù)研究集中在圖像領域,對語音識別系統(tǒng)乃至整個語音領域的安全性研究還存在不足。
隨著深度學習模型在語音識別任務上的精度不斷提高,目前最先進的語音識別系統(tǒng)大都采用深度學習作為核心技術,因此攻擊該系統(tǒng)的關鍵點在于神經(jīng)網(wǎng)絡容易受到對抗樣本干擾和欺騙這一安全漏洞[10]。這一點自然而然地激發(fā)了攻擊者構(gòu)建語音對抗樣本的靈感。攻擊者只需要在原語音上添加微小的擾動,使得人耳察覺不到擾動的存在,但語音識別系統(tǒng)的預測結(jié)果卻可以受到攻擊者的干擾和誤導。但是在實際的攻擊場景中,對抗擾動的添加往往會造成明顯的噪聲或在空氣信道傳播時被環(huán)境噪聲破壞。因此,有效地生成對抗擾動變得更具有挑戰(zhàn)性。因此,生成語音對抗樣本的過程往往需要在擾動復雜性,攻擊有效性和攻擊隱蔽性之間進行權(quán)衡。由于語音對抗樣本的巨大研究潛力,針對語音對抗樣本攻防兩端的研究工作不斷涌現(xiàn),已經(jīng)成為了一個新興的研究熱點。探索針對語音對抗樣本的防御策略,實現(xiàn)更安全的語音識別系統(tǒng)是研究語音對抗樣本攻擊方法的主要目標。根據(jù)相關工作的研究進展,本文主要分析和討論對語音識別系統(tǒng)中聲學模型的攻擊和防御問題。
近年來,深度學習在圖像分類、語音識別、自動駕駛等領域中得到了廣泛的應用,雖然它顯著地提高了目標任務的精度,但也不可避免的面臨著對抗樣本帶來的安全威脅。由于深度學習在語音識別任務中極好的適用性,目前最先進的語音識別系統(tǒng)大都基于深度學習技術來實現(xiàn)其聲學模型和語音模型。因此,目前語音識別系統(tǒng)面臨的最大安全威脅就是語音對抗樣本攻擊。
從概念上說,一個深度學習模型本質(zhì)上是一個映射函數(shù),它將模型輸入映射到相應的概率輸出,此時找到一個與模型輸入相近但其概率輸出與該輸入差異較大的樣本,此時這兩個輸入的差異太小以至于人類無法對其區(qū)分,但其模型輸出概率能夠?qū)⑺鼈冏R別為不同的類別。為了欺騙語音識別系統(tǒng),攻擊者通過在正常語音樣本上添加精心設計的微小擾動來生成語音對抗樣本。人類無法聽見這種擾動或該擾動僅僅被認為是微弱的背景噪聲,但卻使得語音識別模型預測錯誤,甚至誤導該模型產(chǎn)生攻擊者預期的結(jié)果,從而導致目標系統(tǒng)接受惡意的控制指令。圖2 展示了語音對抗樣本[11]對目標語音識別系統(tǒng)的攻擊過程。針對對抗樣本的原理,Biggio 等人[12]描述了相關的幾個重要概念,包括對抗目標(Adversary’s goal)、對抗知識(Adversary’s knowledge)和對抗能力(Adversary’s capability)等。這些概念同樣適用于語音對抗樣本。
圖2 語音對抗樣本攻擊流程Figure 2 The attack pipeline of speech adversarial examples
根據(jù)語音對抗樣本的攻擊在知識,目標和背景上的差異,我們從以下多個維度來討論該攻擊威脅模型: 對抗知識,對抗目標性,攻擊對象和語音對抗載體。
2.2.1 對抗知識
根據(jù)攻擊者在進行對抗攻擊時對目標系統(tǒng)的知識掌握程度的不同,可以將語音對抗攻擊分為白盒攻擊和黑盒攻擊兩種類型。白盒攻擊假設攻擊者對目標深度學習模型有較為全面的了解,包括模型類型,模型架構(gòu)以及所有預訓練參數(shù)和權(quán)重等,同時攻擊者可以不受限制地與目標模型進行交互。而黑盒攻擊則假設攻擊者只掌握了很少的目標模型知識,甚至是只能得到模型輸出結(jié)果的普通用戶。因此,黑盒攻擊的難度和實用性都遠高于白盒攻擊。
2.2.2 對抗目標性
根據(jù)攻擊者在對語音識別系統(tǒng)進行語音對抗樣本攻擊時是否有預期的目標指令,可以將語音對抗樣本攻擊分為無目標攻擊和有目標攻擊兩種類型。無目標攻擊旨在使深度學習模型為語音對抗樣本預測任何不正確的分類,即該攻擊生成的語音對抗樣本只能干擾目標語音識別系統(tǒng)的正常功能而不能完成其它特定的攻擊意圖。而有目標攻擊是一種更強大的攻擊方式,它旨在誤導深度學習模型為語音對抗樣本預測特定的分類,該特定的分類由攻擊者設定。這種攻擊不只可以干擾語音識別系統(tǒng)的正常功能,而且可以使得被攻擊系統(tǒng)執(zhí)行符合攻擊者意圖的惡意指令,引發(fā)嚴重的安全問題。
2.2.3 攻擊對象
攻擊對象是指語音對抗攻擊的目標系統(tǒng)。在針對語音識別系統(tǒng)的語音對抗樣本攻擊中,其攻擊的對象主要是各類白盒或黑盒的語音識別系統(tǒng)。其中白盒系統(tǒng)除了為語音識別任務定制化的模型外,還有很多開源的白盒系統(tǒng),比較常見的有: Mozilla DeepSpeech[4],DeepSpeech-2[13]和Kaldi[2]等。而黑盒語音識別系統(tǒng)主要包含商用語音API 或語音物理設備,其中商用語音API 在各大科技廠商均有相關產(chǎn)品,而語音物理設備較為常見的有Google Home,Amazon Echo 和Microsoft Cortana 等。需要指出的是,本文將具有語音識別系統(tǒng)的物理設備看做黑盒系統(tǒng),并以此作為目標系統(tǒng)來討論。
2.2.4 語音對抗載體
對于語音識別系統(tǒng)的對抗樣本來說,其對抗樣本載體,即對抗樣本的存在形式極大的影響了語音對抗樣本的隱蔽性。一般來說,語音對抗樣本載體主要為靜默,噪聲和錯義語音這幾種音頻類型[14]。靜默的語音對抗樣本由于其語音頻段超過人耳的感知范圍,因此對用戶具有強大的隱蔽性。而噪聲相對于靜默來說,更容易被人耳感知,因此隱蔽性較差,但生成這類語音對抗樣本的效率高,難度低。錯義語音相對于前兩種類型來說更為常用,它利用心理聲學的知識降低了人耳對語音對抗樣本的敏感性,即人耳在接收一個明確語音信息的同時會忽略其中的擾動。攻擊者通過微調(diào)原語音生成該類語音對抗樣本,并保證用戶無法察覺該樣本與原語音的差異,同時可以誤導語音識別系統(tǒng)進行錯誤分類或?qū)崿F(xiàn)其他特定攻擊意圖。
有趣的是,在訓練集的不同子集上訓練的具有不同權(quán)重參數(shù)的模型都會對相同的對抗樣本產(chǎn)生錯誤的分類結(jié)果,即對抗樣本具有可遷移性。這也說明了對抗樣本不單純是模型欠擬合的問題,而是深度學習技術本身的一個盲點。
Wei 等人[15]驗證了對抗樣本的可遷移性,即針對一種深度學習模型生成的對抗樣本在遷移到另一個不同結(jié)構(gòu)的模型后仍然具備一定的攻擊能力。由于目前先進的語音識別系統(tǒng)大多基于深度學習模型,因此語音對抗樣本也繼承了可遷移性這一特點,這為語音對抗樣本遷移攻擊提供了理論基礎。為了定量化地評估不同對抗樣本的可遷移性,他們提出一種遷移成功率的計算方式。即給定兩個模型,通過計算一個模型生成的對抗樣本在另一個模型上分類正確的百分比,用來評估無目標攻擊的可轉(zhuǎn)移性。更低的比率說明對抗樣本的可遷移性更好。而評估有目標攻擊的可遷移性通過計算一個模型生成的對抗樣本在另一個模型中分類為攻擊者預期類別的比率,該比率越高代表對抗樣本的可遷移性越好。通過以上兩種方法,可以對對抗樣本的可遷移性進行較為全面的評估。
根據(jù)攻擊方式的差異,可以從不同的角度對語音對抗樣本的攻擊方法進行歸類。本文從語音對抗樣本攻擊信道的角度,根據(jù)其攻擊信道差異,即語音對抗樣本通過數(shù)字信道或物理(空氣)信道的差異,將語音對抗樣本攻擊方法分為兩個大類: 數(shù)字攻擊和物理攻擊。
數(shù)字攻擊是指生成的語音對抗樣本直接通過數(shù)字的方式輸入目標語音識別系統(tǒng),這種攻擊不需要通過空氣信道傳輸語音對抗樣本,因此不需要考慮環(huán)境噪聲對對抗擾動帶來的影響。一般情況下,數(shù)字攻擊可以根據(jù)對抗擾動生成算法的不同具體地歸納為4 種主要類型: 基于梯度符號,基于迭代優(yōu)化,基于遺傳算法和通用化擾動。
物理攻擊是指生成的語音對抗樣本需要通過空氣信道傳播,再由語音采集設備(例如麥克風)將語音信號轉(zhuǎn)化為系統(tǒng)可理解的數(shù)字信號,之后再輸入語音識別系統(tǒng)。由于這種攻擊要求語音對抗樣本通過空氣信道傳播,因此對樣本的魯棒性提出了更高的要求。空氣信道中包含了大量未知的噪聲信號,這會對樣本中的對抗擾動產(chǎn)生很大的干擾,導致語音對抗樣本失去攻擊能力。為此,物理攻擊方法需要考慮空氣信道這一影響因素。同時,物理攻擊方法需要關注語音對抗樣本對于人耳的隱蔽性,需要將對抗擾動控制在人耳不可感知的頻率范圍。更具體的,物理攻擊根據(jù)目標系統(tǒng)的特征還可以具體分為語音接口攻擊和語音設備攻擊兩種類型。
圖3 數(shù)字攻擊與物理攻擊Figure 3 Digital attack and physical attack
攻擊方法與防御策略的關系就像是硬幣的兩面,兩者互相競爭又互相促進。與對抗攻擊分類相比,語音對抗樣本的防御策略更為豐富。目前,根據(jù)思路和切入點的差異可以將語音對抗樣本的防御策略劃分為以下幾個主要類別: 對抗訓練,對抗樣本檢測,數(shù)據(jù)壓縮防御和模型優(yōu)化。對抗樣本檢測根據(jù)特征來檢測并過濾出語音對抗樣本,以此語音識別系統(tǒng)的防御能力。值得指出的是,對抗訓練(Adversarial Training)一般是指使用對抗性目標函數(shù),即最大化對抗分類器目標,來優(yōu)化模型輸出的概念。區(qū)別于上述概念,此處對抗訓練的概念是指通過將語音對抗樣本加入模型的訓練過程(訓練集),來提升語音識別模型的魯棒性,進而提升對語音對抗樣本的防御能力。數(shù)據(jù)壓縮防御從破壞對抗擾動的攻擊能力的角度緩解語音對抗樣本帶來的安全威脅。而模型優(yōu)化則是通過額外的輔助模塊來改進模型自身結(jié)構(gòu),降低語音識別系統(tǒng)的脆弱性。
由于針對語音識別系統(tǒng)的攻擊和防御是對立統(tǒng)一的,因此對語音識別系統(tǒng)的各類攻擊方法進行全面和系統(tǒng)的研究是提升語音識別系統(tǒng)安全性的必要步驟。針對語音識別系統(tǒng)的攻擊有很多種,目前根據(jù)攻擊信道的不同可以歸納為兩種主要類別,即數(shù)字攻擊和物理攻擊,如圖4 所示。在這一節(jié)中,對于不同類別中的每一個相關工作,本文將簡要回顧其攻擊方法并對這些方法進行全面的比較和討論。
圖4 語音對抗樣本攻擊分類Figure 4 The attack categories of speech adversarial examples
3.1.1 基于梯度符號
Gong等人[16]提出了一種基于梯度符號的語音識別系統(tǒng)對抗樣本生成方法,適用于白盒攻擊場景。該方法通過直接擾動音頻記錄的原始波形而不是特定的聲學特征來生成用于誤導語音識別系統(tǒng)的語音對抗樣本。實驗表明該方法生成的對抗擾動可以導致最先進的語音識別系統(tǒng)性能顯著下降,而對原語音的質(zhì)量影響較小。為了避免聲學特征轉(zhuǎn)換回波形而帶來的感知損失,他們提出了一種針對端到端的深度學習模型的擾動方法來直接修改原始波形并且使用卷積層代替遞歸結(jié)構(gòu)來解決梯度消失問題。在干擾因子為0.032 的情況下,攻擊成功率提高了30%左右。然而語音對抗樣本的有效性在很大程度上依賴于替代網(wǎng)絡的訓練,因此通過對抗樣本的可轉(zhuǎn)移性進行黑箱攻擊的可能性很小,實用價值有限。
同樣的,Kreuk 等人[17]將基于梯度符號的方法應用于聲學特征(例如MFCC),然后根據(jù)該聲學特征重建音頻波形。通過將假陽性率提高大約90%,可以大大提高攻擊性能,這顯然比Gong 等人[16]的方案更好。此外,該攻擊進行了兩次黑盒攻擊驗證,證明所該方法生成的對抗擾動具有可遷移性,但是沒有對對抗擾動和攻擊準確性進行精確評估。同時,目前基于梯度符號方法的語音對抗樣本生成技術的研究相對較少。
3.1.2 基于迭代優(yōu)化
相比于基于梯度符號的方法,基于迭代優(yōu)化的方法也是利用了梯度來計算所需的對抗擾動。但是基于迭代優(yōu)化的方法使用優(yōu)化器不斷執(zhí)行迭代過程,可以實現(xiàn)更加快速和細粒度的對抗擾動計算。一般情況下,基于迭代優(yōu)化方法要求攻擊者對目標模型的信息有充分的了解,因此攻擊前提較為苛刻,但是通常比其他方法擁有更高的攻擊成功率。
傳統(tǒng)的語音識別系統(tǒng)由不同的組件組成,例如特征提取模塊,聲學模型和語言模型等,其中每個組件都是單獨設計和訓練的。最近,語音識別系統(tǒng)研究集中于基于深度學習的端到端模型設計,這類模型無需輸入額外的預處理信息即可獲得語音特征并輸出識別結(jié)果,提升識別任務的效率。Cisse 等人[18]介紹了Houdini 攻擊,一種針對黑盒系統(tǒng)的對抗樣本生成方法,該攻擊通過生成能夠直接導致目標系統(tǒng)喪失識別能力的語音對抗樣本來攻擊任何基于梯度的語音識別模型。在實驗中,該攻擊通過生成人類無法與察覺的語音對抗樣本(經(jīng)ABX 實驗驗證),對DeepSpeech-2[13]深度語音識別模型進行了成功的無目標攻擊。同時,Cisse 等人[18]還通過在黑盒攻擊場景中對Google Voice[19]語音識別系統(tǒng)進行攻擊來研究語音對抗樣本的可遷移性。
與上述兩種方法類似,Carlini 等人[20]也構(gòu)建了一種針對語音識別模型的對抗樣本攻擊。對于給定的任何音頻,該攻擊只需添加小于0.01%的對抗擾動就可以使得目標語音識別系統(tǒng)將其理解為任何預期的指令。該攻擊利用基于迭代優(yōu)化的方法,針對端到端的白盒系統(tǒng),直接對用作語音識別模型輸入的原始樣本進行操作來添加對抗擾動。但是這需要通過困難的MFCC 逆變換來實現(xiàn),因此該攻擊將MFCC預處理過程重新實現(xiàn)以保證該過程可求梯度,實現(xiàn)對原語音進行直接修改??偟膩碚f,該攻擊基于白盒的迭代優(yōu)化方法生成對抗樣本,并在先進的語音識別模型DeepSpeech[4]中達到了100%的攻擊成功率。
3.1.3 基于遺傳算法
假設攻擊者知道模型的架構(gòu)和參數(shù),可以使用反向傳播有效地計算出對抗擾動所需的精確梯度。但是基于鏈式法則的梯度計算需要具備計算模型所有網(wǎng)絡層梯度的能力,盡管這一要求在圖像識別模型中容易做到,但是將相同的技術應用于語音識別模型卻變得困難,因為它們大多依賴于信號處理模塊的輸出(如頻譜和MFCC)作為輸入語音數(shù)據(jù)的特征。而提取頻譜和MFCC 的模塊往往是不可微的,沒有有效的方法來計算它們的梯度,此時對抗性擾動的計算面臨困境。因此,研究人員另辟蹊徑,嘗試通過引入遺傳算法來避免計算特征提取模塊的梯度。遺傳算法是一種通過模擬自然進化過程搜索最優(yōu)解的啟發(fā)式優(yōu)化算法[21],其主要特點是直接對結(jié)構(gòu)對象進行操作,不存在求導和函數(shù)連續(xù)性的限定。該算法在創(chuàng)建一系列具有代表性的對抗樣本之后,適應性更高的候選樣本更有可能變異并成為下一代的一部分,重復迭代過程并得到最終結(jié)果。
基于遺傳算法不依賴梯度優(yōu)化的這一優(yōu)點,Alzantot 等人[22]提出了第一個基于遺傳算法的解決方案來生成語音對抗樣本。該攻擊從創(chuàng)建大量候選樣本開始,然后為每個候選樣本計算適合度分數(shù),得分更高的樣本更容易變異。此方案以87%的成功率實現(xiàn)了對語音識別系統(tǒng)有目標的黑盒攻擊,并且89%的人類測試者將這些對抗擾動視為語音背景噪聲。但是該方法僅在單個單詞的語音片段上進行了性能評估,而對于語句級別的語音片段是否有效尚不明確。更重要的是,該攻擊僅在定制的深度學習模型上有效,面對其他高級語音識別系統(tǒng)時無法保證攻擊成功率。
受到上述研究工作的啟發(fā),Taori 等人[23]通過結(jié)合遺傳算法和梯度估計提出了一種性能更加優(yōu)越的,針對黑盒語音識別模型的語音對抗樣本生成方法。該方法可以在對抗擾動陷入局部最小值時加快收斂速度并增加突變概率。為了限制過多的突變,從而限制過多的噪聲,Taori 等人[23]設計了新的動量突變更新算法來改進標準的遺傳算法。攻擊的第二階段使用梯度估計來計算各個語音點的梯度,因此在語音對抗樣本接近預期目標時,可以更準確地添加擾動。該攻擊采用黑盒方法進行語音對抗樣本生成,實現(xiàn)對語音識別系統(tǒng)有目標的攻擊以執(zhí)行預期的惡意指令。在遺傳迭代進行了3000 次之后,與預期目標指令達到了89.25%的相似性,同時與原語音保持了94.6%的相似性。然而,對流行的DeepSpeech[4]模型進行攻擊時,該方法的攻擊成功率只有35%。
3.1.4 通用化擾動
與此同時,語音領域也存在具有通用性的對抗擾動。Neekhara 等人[24]驗證了通用化語音對抗擾動的存在,這些擾動會通過語音識別系統(tǒng)引起語音信號的錯誤識別。由于圖像領域的通用性對抗擾動算法不能在語音領域直接使用,因此他們解決了一個替代的優(yōu)化問題以實現(xiàn)針對語音識別系統(tǒng)的通用性對抗性擾動生成方法。為了將每個數(shù)據(jù)點推向其決策邊界,即將大多數(shù)數(shù)據(jù)點推到語音識別模型的正確分類區(qū)域之外,該算法通過迭代遍歷訓練數(shù)據(jù)集以構(gòu)建具有通用能力的擾動向量。最終Neekhara 等人[24]提出了一種白盒攻擊算法來尋找單個不可感知的語音對抗擾動,將其添加到任意語音信號中以生成語音對抗樣本,并使用通用化擾動成功對先進語音識別模型DeepSpeech[4]發(fā)起了攻擊。同時,通過在基于WaveNet 的語音識別系統(tǒng)上進行語音對抗樣本遷移攻擊測試,該通用性語音對抗擾動生成方法被證明在很大程度上可在具有不同架構(gòu)的模型之間遷移。
Abdoli 等人[25]也提出了一種的通用性對抗擾動的生成方法,這種通用性擾動可以欺騙針對有目標和無目標攻擊的語音識別系統(tǒng)。他們提出了兩種實現(xiàn)這種通用對抗擾動的方法。第一種方法基于圖像領域眾所周知的迭代貪婪算法: 它將細微擾動聚集到輸入以便將其推到?jīng)Q策邊界。第二種方法是這項工作的主要技術貢獻,即一種新穎的懲罰公式。與貪婪算法不同,懲罰方法使一批樣本上的目標函數(shù)最小化。因此,當訓練樣本的數(shù)量有限時,它將產(chǎn)生具有更高成功率的攻擊。實驗證明該方法的有目標攻擊和無目標攻擊的攻擊成功率分別高于91.1%和74.7%。值得注意的是,無論是有目標攻擊還是無目標攻擊,在訓練集上生成的對抗擾動可以很好地遷移到測試集上。
在語音直接以數(shù)字的方式輸入目標語音識別系統(tǒng)的情況下,攻擊者通過使用能夠清晰描述對抗目標的攻擊算法來確定目標系統(tǒng)的數(shù)據(jù)點位置來生成語音對抗樣本。但在語音通過空氣信道輸入目標系統(tǒng)的情況下,語音對抗樣本攻擊的難度將會大大增加,這種困難可以歸因于環(huán)境的混響和來自揚聲器和麥克風的噪音。相比之下,通過空氣信道傳播的語音對抗樣本需要對未知的環(huán)境和設備具有更好的魯棒性。同時,考慮到空氣信道的獨特性,語音對抗樣本可以同時干擾大量的目標系統(tǒng),實現(xiàn)大規(guī)模攻擊。因此,使用該信道傳播語音對抗樣本的安全威脅將遠遠大于直接以數(shù)字的方式輸入目標語音識別系統(tǒng)的場景。更具語音識別服務提供方式的不同,我們還可以將物理攻擊分為語音接口攻擊和物理設備攻擊。語音接口攻擊是指目標語音系統(tǒng)是以白盒模型或黑盒API 的形式提供識別服務,攻擊者可以通過數(shù)字接口與目標系統(tǒng)進行直接的交互。而物理設備假設攻擊對象是真實物理世界中的商用語音設備,這些設備只通過空氣信道與用戶交互。此時,目標系統(tǒng)對于攻擊者來說是完全的黑盒,無法了解模型信息,甚至無法通過接口與識別服務進行交互。
3.2.1 語音接口攻擊
Yuan 等人[26]提出通過基于迭代優(yōu)化的方法生成有效的對抗擾動并將該擾動添加到音樂中實現(xiàn)對語音識別系統(tǒng)的攻擊。與Carlini 等人[21]類似,Yuan 等人也使用可逆的MFCC 提取模塊實現(xiàn)對原語音信號波形的修改。該攻擊考慮到播放音樂的普遍性以及將語音對抗樣本隱藏在多樣化的音樂波形后面的便利性,因此選擇了不同類型的音樂作為對抗攻擊的載體。通過對歌曲和預期語音命令在聲學模型中的輸出特征,不斷執(zhí)行梯度下降來生成具有最小化擾動的語音對抗樣本以保證對用戶的隱蔽性。在Kaldi[2]上的攻擊實驗表明,該攻擊能夠達到100%的成功率,并且對原音樂的信噪比干擾很小。此外,他們首次展示了語音對抗樣本通過空氣信道執(zhí)行攻擊的可能性。具體來說,為了保證這種通過空氣信道的語音對抗樣本切實可行,該攻擊集成了一個通過用戶說話時產(chǎn)生的電子噪聲得到的通用噪聲模型。因此,這種具有對抗攻擊能力的音樂可以通過空氣信道進行傳播而不丟失攻擊者預期的惡意指令。但是該攻擊實驗是在短距離(即1.5 米)內(nèi)進行的,因此需要進一步探索在真實攻擊場景中的攻擊性能。
無獨有偶,Yakura 等人[27]也提出一種方法來產(chǎn)生一種具有良好魯棒性的語音對抗樣本,可以在真實世界中攻擊語音識別模型。該方法通過模擬物理世界中的回放或錄制所引起的信號變換,然后將這些變換進行建模并添加到語音對抗樣本的生成過程中,使得語音對抗樣本對空氣信道的魯棒性更好。該方法通過空氣信道播放的語音對抗樣本對DeepSpeech[4]發(fā)起了成功的攻擊,并且保證該攻擊不能被用戶察覺。
上述工作已經(jīng)實現(xiàn)了更具魯棒性的語音對抗樣本并在真實世界中成功發(fā)起了攻擊,但是語音對抗樣本對用戶的隱蔽性還存在不足。盡管目前生成語音對抗樣本的工作在實現(xiàn)方法上都考慮了對對抗擾動的最小化,但是人耳相比于人眼更加敏感,語音中的微小擾動也容易被用戶發(fā)現(xiàn)。因此,為了緩解人耳對語音對抗樣本對的敏感性,Qin 等人[28]利用人耳掩蔽這一心理聲學原理,實現(xiàn)了一種新穎的生成有效的且不可察覺的語音對抗樣本的方法。具體來說,該方法利用人耳掩蔽的心理聲學原理,只在人類感知不到的頻率區(qū)域添加對抗性擾動。例如在一個高頻信號之后添加相對頻率更低的對抗擾動,即使該擾動在絕對能量方面不是“安靜的”,但仍然能夠保證對人耳“隱形”。該方法通過人類聽覺實驗驗證了對人耳的隱蔽性,同時生成了具有完整句子的語音對抗樣本,并在Lingvo[29]語音識別系統(tǒng)上實現(xiàn)了100%的攻擊成功率。
Szurley 等人[30]也注意到人類聽覺系統(tǒng)的心理聲學特性可以被利用來生成有效但更不易察覺的對抗擾動。因此,一種基于心理聲學特性的損失函數(shù)和房間脈沖響應建模的自動化語音對抗擾動方法被提出以創(chuàng)建在多個物理環(huán)境(例如多個不同的房間)中可以通過空氣信道傳播的語音對抗樣本。另外,大多數(shù)現(xiàn)有語音對抗樣本研究依賴于主觀的人類聽力測試來評估樣本的質(zhì)量,這些測試沒有明確解釋對抗性擾動的感知失真。為了彌補這一研究空白,Szurley 等人[30]提出一種新的評估指標,即語音質(zhì)量感知評估分數(shù)來評估語音對抗樣本的質(zhì)量,這使得對攻擊樣本的評估不再依賴主觀的人類聽力測試。
盡管通過空氣信道傳播的語音對抗樣本已經(jīng)被證明能夠達到很高的攻擊成功率,但是攻擊者需要有關攻擊發(fā)生的物理環(huán)境的精確信息,以便根據(jù)特定環(huán)境聲學模型設置和調(diào)整對抗擾動,因此不具備轉(zhuǎn)移到其他物理環(huán)境的能力。其他通過空氣信道實現(xiàn)強大攻擊效果的語音對抗樣本主要是攻擊者手工制作的樣本,因此不具備實現(xiàn)大規(guī)模,自動化攻擊的能力。Sch?nherr 等人[31]提出了一種生成語音對抗樣本的通用化方法,使得語音對抗樣本在空氣信道中保持了魯棒性,通過語音轉(zhuǎn)錄或重放的方式對目標系統(tǒng)實現(xiàn)攻擊。所提出的方法只需要粗略的估測房間的信息(長、寬、高),使用房間脈沖響應模擬器來強化對抗擾動,而不需要實際進入房間進行環(huán)境聲采集。他們使用開源語音識別系統(tǒng)Kaldi[2]演示該攻擊,并使用房間脈沖響應模擬器來強化語音對抗樣本,以應對不同的房間特征。此外,該算法也利用心理聲學知識將對原語音信號的大部分擾動隱藏在人類聽覺的掩蔽區(qū)域內(nèi)。通過這種方法生成的語音對抗樣本具有較好的遷移能力,能夠適應不同的房間特征,同時也可以根據(jù)特定的精確房間信息對對抗擾動進行調(diào)整。因此,攻擊者可以針對任意房間設置優(yōu)化對抗擾動,成功實現(xiàn)對目標系統(tǒng)任何類型的有目標攻擊。
3.2.2 物理設備攻擊
在真實的攻擊場景下,攻擊者往往不是針對語音識別接口進行攻擊,而是與語音識別的物理設備(例如Google Home 和Amazon Echo 等)進行直接交互來實現(xiàn)對這些設備的語音對抗樣本攻擊。與語音識別接口不同,攻擊者無法獲得商業(yè)的語音識別設備所使用的系統(tǒng)信息,語音樣本也無法通過數(shù)字的方式輸入系統(tǒng)。所以并不清楚在這種真實物理世界中的黑盒攻擊場景下,語音對抗樣本是否依然能夠通過空氣信道成功攻擊語音識別物理設備。
針對這種真實物理世界中的黑盒挑戰(zhàn),Chen 等人[32]提出了一種對商業(yè)語音識別設備的進行語音對抗樣本攻擊的方法。作為一種新思路,該方法的核心思想是在本地同時使用一個與目標黑盒系統(tǒng)大致類似的模型和一個與目標黑盒系統(tǒng)無關的先進白盒系統(tǒng)作為替代模型進行語音對抗樣本的生成。這兩種模型在估計目標黑盒系統(tǒng)的行為時可以有效地互補,從而生成對目標黑盒系統(tǒng)具有高度可遷移性的語音對抗樣本。更具體地說,該方法首先使用文本到語音系統(tǒng)合成指令語音片段,然后根據(jù)一定的策略將語音片段輸入目標黑盒系統(tǒng)并更具系統(tǒng)輸出建立一個與之類似的替代模型。這允許替代模型能夠?qū)W⒂趯糇钪匾臄?shù)據(jù)類型,并使得替代模型更接近目標黑盒系統(tǒng)。最后,該方法將在語音數(shù)據(jù)集上訓練的替代模型與開源的先進語音識別模型進行集成,通過基于迭代優(yōu)化的算法并系統(tǒng)地選擇這兩種模型交叉生成的語音對抗樣本。對于98%的攻擊目標設備,包括Google Assistant、Google Home、Amazon Echo 和Microsoft Cortana,該方法至少可以生成一個符合攻擊者預期惡意指令的語音對抗樣本,具有很高的實用性。這種類型的攻擊方法將是未來的重要研究方向。
一般來說,數(shù)字攻擊相較于物理攻擊更容易實現(xiàn),但是攻擊前提要求苛刻,不易滿足。而物理攻擊則是在更真實的物理世界執(zhí)行的攻擊,因此對攻擊前提要求低,實用性很強。但是這種方法往往難以實現(xiàn),甚至需要攻擊者手動調(diào)整語音對抗樣本。因此攻擊成本很高,無法執(zhí)行大規(guī)模的攻擊。
在數(shù)字攻擊中,基于遺傳算法的方法是一種無梯度的優(yōu)化攻擊,不依賴目標模型的信息。因此,該方法非常適合黑盒攻擊場景。然而這種方法通常需要與模型進行不斷的交互以實現(xiàn)上千次的遺傳迭代過程,當目標語音識別模型運行在具有有限通信帶寬資源的物理設備上時,該方法耗時巨大,甚至是不實際的。另一方面,基于梯度符號和迭代優(yōu)化的解決方案是大多屬于白盒攻擊,這種攻擊更為簡單,但實用性相對有限。基于梯度符號的方法是一種簡化過的優(yōu)化方案,它只需一次迭代過程就能夠生成對抗擾動,比其他方法速度快很多,但擾動的攻擊效果有限。基于迭代優(yōu)化的方法雖然耗時更長,但是往往能夠達到更高的攻擊成功率。
在物理攻擊中,基本都是基迭代優(yōu)化的方法實現(xiàn)對抗擾動的生成,也都是有目標的攻擊,但是攻擊對象差異較大。相比于針對語音接口的對抗攻擊,針對語音物理設備的攻擊具有更高的實用價值。表1展示了現(xiàn)有語音對抗攻擊方法的全面比較。本文列出了它們的目標系統(tǒng),攻擊類型,對抗擾動生成方法,對抗知識,對抗目標性等信息。
表1 語音對抗攻擊方法的全面比較Table 1 The comprehensive comparison of speech adversarial examples attacks
對抗樣本是深度學習模型普遍存在的安全問題。對于基于深度學習的語音識別系統(tǒng)來說,語音對抗樣本可以在用戶不可感知的前提下對系統(tǒng)發(fā)起攻擊,誤導目標系統(tǒng)接收和執(zhí)行攻擊者預期的惡意指令。因此,語音對抗樣本攻擊為先進的語音識別系統(tǒng)帶來了前所未有的安全風險,提出全面而有效的語音對抗樣本防御技術是解決這一安全風險的核心問題。根據(jù)現(xiàn)有的研究工作,語音對抗樣本的防御策略主要包括以下四個類別: 對抗樣本檢測,對抗訓練,數(shù)據(jù)壓縮防御和模型優(yōu)化等,如圖5 所示。
圖5 語音對抗樣本防御分類Figure 5 The countermeasure categories of speech adversarial examples
4.1.1 語音活性檢測
語音活動檢測是一種常用的語音處理算法,用于檢測音頻樣本中人類語音的存在,在語音通訊和語音識別領域應用廣泛。語音活動檢測可以在輸入音頻信號中區(qū)分人類語音區(qū)域,靜音區(qū)域和噪聲區(qū)域。通過識別輸入音頻中的靜音和噪聲區(qū)域,可以從該音頻中消除屬于這些區(qū)域的信號,但是保持人類語音區(qū)域的有效信息。這包括消除單詞之間的靜音和噪聲區(qū)域,從而將整個音頻轉(zhuǎn)化為僅構(gòu)成完整語音語義的單個單詞。這對于語音識別系統(tǒng)尤其有用,因為在預處理過程中使用語音活動檢測可以只給模型提供必要的語音數(shù)據(jù),從而有可能提升系統(tǒng)效率并改善語音識別精度。
基于以上描述,Abdullah 等人[33]提出了一種基于語音活性檢測的語音識別系統(tǒng)防御方案。如果在語音對抗樣本攻擊時先對語音的活性進行檢測,語音對抗樣本可能被分類為靜音或噪聲,并且無法輸入目標語音模型進入下一步處理。為了驗證該防御方案的有效性,他們實現(xiàn)了語音活性檢測算法并觀察哪些區(qū)域被識別為語音區(qū)域,哪些被識別為靜音和噪聲區(qū)域。實驗證明,在各種不同情況下,該算法均可以準確定位音頻信號中的語音區(qū)域。通過語音活性檢測雖然不能對語音對抗樣本攻擊進行完善的防御,但它確實增加了音頻無法被正確轉(zhuǎn)錄的可能性。即被認為是語音的噪聲區(qū)域,尤其是單詞之間的噪聲,將與實際語音一起發(fā)送到語音識別系統(tǒng),這增加了部分或全部語音可能被錯誤翻譯的概率,從而一定程度上防御了攻擊。
在語音識別系統(tǒng)的真實使用場景下,來自現(xiàn)場用戶發(fā)出的語音指令屬于正常輸入,而通過其他揚聲器重播的語音大概率不屬于正常輸入??紤]到人聲的產(chǎn)生過程,首先將空氣從肺中排出并形成氣流,然后氣流穿過氣管和聲帶,最后從口腔中發(fā)出而形成聲波。當產(chǎn)生的聲波和氣流到達麥克風時,不僅會捕獲到語音信息,還會捕獲到一種可被感知的爆炸聲,稱為爆破音。但是,通過揚聲器播放語音對抗樣本不能產(chǎn)生由現(xiàn)場用戶的呼吸引起的爆破音。
利用這一發(fā)聲特性,Zhou 等人[34]提出可以利用用戶在靠近麥克風講話時會因為呼吸而產(chǎn)生一定的爆音這一現(xiàn)象來區(qū)分當前語音指令是確實來自用戶發(fā)聲還是揚聲器的語音重播。通過識別語音的來源,現(xiàn)場用戶發(fā)出的合法指令能夠被識別并輸入語音識別系統(tǒng)進行處理,而通過揚聲器播放的語音重播將會被識別為不合法輸入并在輸入系統(tǒng)前被過濾出來,從而實現(xiàn)對語音識別系統(tǒng)的防御方案。該方案的防御過程可以分為三個階段: 預處理,爆破音定位和攻擊檢測。預處理步驟在語音水平上將語音信號分割為音素,以提高定位爆破音時的準確性。同時,對所有潛在的爆破聲進行了音素校正和持續(xù)時間檢查。由于每個音素在人的聲道系統(tǒng)中都有自己獨特的發(fā)音方式,因此不同音素產(chǎn)生爆破音的概率是不同的。為了提高爆破聲的定位精度,該防御方案僅在高概率音素存在的情況下將潛在的爆破音識別為真實的爆破音。盡管揚聲器和麥克風通道的噪聲引入導致了某些語音攻擊樣本也表現(xiàn)出爆破音,但通過進一步地分析流行噪聲的特征,可以將真實人類(合法用戶)發(fā)出的語音和電子設備重播的語音準確地區(qū)分開。
綜上,使用爆破音分析的方法可以有效地檢測出大多數(shù)語音對抗樣本。同時,Zhou 等人[34]還評估了不同類型的語音攻擊(例如 DolphinAttack[35]和CommanderSong[26]),使用不同長度的語音樣本和通過不同揚聲器播放語音的條件下該防御方案的有效性和魯棒性。
4.1.2 樣本分類器
除了通過語音活性檢測來區(qū)分正常樣本和對抗樣本之外,還有一種常用的方法是使用樣本分類器來對不同的樣本進行區(qū)分,達到檢測語音對抗樣本的目標?;跈C器學習技術的分類器可以通過分類結(jié)果檢測出語音對抗樣本并將它們隔絕在語音識別系統(tǒng)之前。因此,Carlini 等人[36]在語音識別系統(tǒng)中使用邏輯回歸構(gòu)造了一個隱藏的語音樣本分類器。該分類器從語音的短期特征中提取的中期特征(例如均值和標準差)作為分類依據(jù)。實驗表明,通過將語音對抗樣本標記為惡意樣本,該分類器最高可以實現(xiàn)99.8%的惡意樣本檢測率,而僅產(chǎn)生0.2%的誤報率,這意味著該分類器只會錯誤地丟棄千分之二的正常語音樣本,對語音識別系統(tǒng)的性能影響幾乎可忽略。對于一些基于白盒攻擊精心構(gòu)造的語音對抗樣本,該分類器的性能也能達到70%以上的語音對抗樣本檢測率,同時保證誤報率小于1%。因此,使用分類器進行對抗樣本檢測具有一定的可行性。
由于現(xiàn)有的語音識別系統(tǒng)具有多樣性,它們使用不同的模型結(jié)構(gòu),參數(shù)和訓練數(shù)據(jù)集,因此針對語音識別系統(tǒng)設計的語音對抗樣本存在明顯差異,因此攻擊的可遷移性較差。受到這一現(xiàn)象和多版本程序設計的啟發(fā),Zeng 等人[37]提出了一種新穎的語音對抗樣本檢測方法MVP-EARS,該方法通過分析各種針對語音識別系統(tǒng)生成的語音對抗樣本來確定被檢測語音是否為對抗樣本。他們基于多版本程序設計類似的思路,通過多種目標語音識別系統(tǒng)生成語音對抗樣本,建立了當時最大的語音對抗樣本數(shù)據(jù)集。通過進一步調(diào)整上述思路,該方法對語音對抗樣本檢測模型進行了主動訓練,對檢測模型性能的評估表明MVP-EARS 針對語音對抗樣本的檢測精度最高可達到99.88%。MVP-EARS 可以大大降低了攻擊者生成語音對抗樣本的靈活性,能夠?qū)φZ音對抗驗本提供有效的防御。
與上述兩個研究類似,Kwak 等人[38]也提出了一種新的基于文本轉(zhuǎn)語音指令分析的用戶合法指令識別和可疑語音指令檢測的方法,并使用一個大型的真實世界的語音系統(tǒng)數(shù)據(jù)集(大約3460 萬個語音,包含460 萬個異常)評估其可行性。該方法創(chuàng)新地使用文本轉(zhuǎn)語音指令語句和匹配的應用程序作為主要分類特征,基于輕量級分類算法實現(xiàn)了對可疑語音指令的檢測。為了評估檢測準確性,他們使用真實世界的語音系統(tǒng)數(shù)據(jù)集,并測量了平均等錯誤率、檢測準確率等指標。準確率驗證的結(jié)果表明,平均等錯誤率約為3.4%,檢測準確率為95.7%。
4.1.3 數(shù)據(jù)特征分析
Yang 等人[39]提出了一種根據(jù)時間依賴(temporal dependency)這一特定數(shù)據(jù)屬性來對語音對抗樣本進行有效檢測的方法。該方法通過對三種先進的語音對抗樣本生成技術所產(chǎn)生的語音對抗樣本數(shù)據(jù)進行時間依賴性分析,通過該特征可以在自適應和非自適應的攻擊中有效的檢測出語音對抗樣本。與此同時,Yang 等人[39]還討論了模型輸入變換作為圖像領域常用的降低對抗樣本功能的常用技術在語音識別系統(tǒng)中的防御能力存在局限性。為了評估輸入變換方法對語音對抗樣本的防御能力,他們在語音識別系統(tǒng)上實現(xiàn)四種輸入轉(zhuǎn)換方法,分別是波形量化、時間平滑、下采樣和自動編碼器改造。對于最新的語音對抗樣本攻擊,輸入變換方法能夠提供一定的的防御能力,但防御效果有限。同時,通過樣本的特定數(shù)據(jù)屬性來進行異常樣本檢測的思路不僅適用于語音領域,也可遷移到其他研究領域用以提升模型的魯棒性。
對抗訓練的核心思想是將對抗樣本添加到訓練數(shù)據(jù)中來增強模型的魯棒性,進而提升模型對對抗樣本的防御能力。不同于樣本分類器的防御策略,對抗訓練策略將對抗樣本作為訓練過程的一部分,以此來提升模型本身對該類攻擊的防御能力。具體來說,對抗訓練過程先通過已知的多種對抗樣本生成方法來獲取大量的對抗樣本,然后將這些對抗樣本添加原樣本的標簽并混入訓練集,這可以保證對抗擾動特征分布已經(jīng)被包含在樣本特征空間之中。然后,隨著在模型訓練過程中不斷加入擁有正確標簽的對抗樣本,模型能夠?qū)W習更泛化的樣本特征分布。最終,模型能夠更準確地獲取樣本特征空間的分類邊界,從而使得對原樣本進行微小擾動而產(chǎn)生的對抗樣本失去對該模型的攻擊能力。與此同時,對抗訓練可以通過增量學習的形式對現(xiàn)有的模型進行防御能力的提升,這降低了對抗訓練的使用成本,提升了該防御方法的實用價值。
現(xiàn)有研究表明,對語音識別系統(tǒng)進行對抗訓練是一種防御已知語音對抗樣本攻擊的有效方法。Szegedy 等人[40]的研究工作證明將對抗樣本和普通樣本一起加入訓練集來訓練模型能夠使該模型稍微正則化。增加對抗樣本與增加訓練數(shù)據(jù)并不一樣,其思路并不是單純地擴充訓練數(shù)據(jù)。增加普通樣本會提升模型本身的性能,而增加對抗樣本并不能顯著提高模型的性能,但是可以揭露出模型的缺陷,從而提升模型的魯棒性。
由于Szegedy 等人[40]在圖像領域驗證了對抗訓練作為一種防御方法的可行性和有效性,Yakura 等人[27]討論了對抗訓練方法在語音領域的可能性。他們通過語音對抗樣本生成技術獲取的大量對抗樣本,然后將這些樣本添加到訓練數(shù)據(jù)中并賦予原語音的標簽。此時數(shù)據(jù)集中同時包含正常語音樣本和語音對抗樣本,在訓練過程中,語音識別模型被引導去學習對抗擾動的分布。最終,模型通過提升自身魯棒性獲得了對語音對抗樣本的防御能力。
不只是語音對抗樣本可以進行對抗訓練,由于語音通過空氣信道傳播的特殊性,語音重播樣本也可以被用來提升模型的防御能力。從這個角度出發(fā),Gong 等人[41]提出了語音數(shù)據(jù)集ReMASC,該語音數(shù)據(jù)集是為研究語音控制系統(tǒng)的漏洞和防御方案而提出的。ReMASC 數(shù)據(jù)集既包含真實的語音樣本,又包含每個語音通過空氣信道重播后錄制的重播樣本,這些樣本可以用來訓練數(shù)據(jù)集來提升模型對語音對抗樣本的敏感性,一定程度上可以輔助語音識別系統(tǒng)提升針對語音對抗樣本攻擊的防御能力。但是,對抗訓練只能對模型的安全性提供有限的提升。
4.3.1 音頻壓縮
數(shù)據(jù)壓縮是一種應用起來比較容易的一種對抗樣本防御方式。在圖像領域,已經(jīng)有工作證明壓縮技術能夠減輕對抗樣本帶來的干擾。Das 等人[42]設計并實現(xiàn)了ADAGIO 工具,該工具可以進行對抗性音頻攻擊和防御的實驗。在實驗中AMR 壓縮和MP3 壓縮將針對性攻擊的成功率從92.5%降低到0%,并顯著地提高了模型對于普通樣本的正確率,而且由于AMR 基于心理聲學原理設計的,所以AMR 壓縮技術可以有效地從音頻中去除人類無法感知的對抗成分。
4.3.2 降低采樣率
降低音頻采樣率也是數(shù)據(jù)壓縮防御方法中的一種,它們都是通過修改輸入語音以衰減添加到原始音頻中精心制作的對抗擾動來破壞語音對抗樣本的攻擊能力。在Yuan 等人[26]的研究工作中,如果將音頻采樣率設定為8000Hz,下行采樣率設定為5600Hz,可以將語音對抗驗本的攻擊成功率降低到8%,并且原有的語音仍然保持91%的識別成功率。實驗表明降低音頻壓縮率可以有效防御對抗樣本攻擊。但是數(shù)據(jù)壓縮以及降低音頻采樣率不可避免地帶來對原語音特征和信息的損壞,因此是一把雙刃劍,需要在保持原語音和破壞對抗擾動間進行權(quán)衡。
4.4.1 模型脆弱性分析
通過模型脆弱性分析來找出模型的缺陷是進行模型優(yōu)化的一個重要步驟。Du 等人[43]提出了一種針對遞歸神經(jīng)網(wǎng)絡的模糊測試框架。遞歸神經(jīng)網(wǎng)絡(recurrent neural network,RNN)實現(xiàn)了時間行為和帶有循環(huán)的“內(nèi)存” 和內(nèi)部狀態(tài),RNN 的這種有狀態(tài)性質(zhì)有助于其成功處理諸如音頻,自然語言和視頻處理之類的順序輸入。作為RNN 的典型應用,語音識別系統(tǒng)面臨測試不足的嚴峻問題。他們針對基于RNN 系統(tǒng)提出了一種覆蓋率指導的自動測試框架??紤]到RNN的獨特網(wǎng)絡結(jié)構(gòu),他們首先將RNN模型形式化建模為馬爾可夫決策過程,并基于馬爾可夫決策過程模型,設計了一套專門針對基于RNN 系統(tǒng)的測試標準,以捕獲其深度學習內(nèi)部的動態(tài)狀態(tài)轉(zhuǎn)換行為。他們進一步提出了一個基于RNN 系統(tǒng)的自動化測試框架,該框架以指定的覆蓋范圍為指導。實驗結(jié)合了8 個音頻變換方式以生成新的音頻測試輸入。基于巨大的測試生成空間,實驗利用覆蓋率反饋來指導測試方向,從而系統(tǒng)地覆蓋RNN 的主要功能行為和極端情況。實驗從訓練集中隨機選擇樣本,并大致遵循訓練數(shù)據(jù)的分布以確保測試的有效性。
Zhang 等人[44]的工作也使用了模糊測試模型對自然語言處理中的意圖分類器進行脆弱性分析。他們首先分析了語音助手行為中語音解釋的語義不一致的問題,并發(fā)現(xiàn)此問題是由意圖分類器產(chǎn)生的。他們通過實驗證明使用一些常見的口頭錯誤時,由意圖分類器的不正確的語義解釋導致的語義不一致會破壞語音助手處理事務完整性。為了對這種問題進行更進一步的分析,他們設計了一個語言模型指導的模糊工具LipFuzzer 來評估意圖分類器的安全性,LipFuzzer 可以發(fā)現(xiàn)潛在的易于誤解的口語錯誤。為了指導模糊測試,借助統(tǒng)計關系學習和自然語言處理技術來構(gòu)建對抗性語言模型。這種建模過程能夠?qū)⒄Z言知識轉(zhuǎn)換為計算統(tǒng)計關系模型,并最終通過該知識來分析模型的脆弱性問題。
4.4.2 防御性蒸餾
最初,Hintion 等人[45]提出了模型蒸餾方法,該方法旨在將訓練好的復雜模型具備的“知識”遷移到一個結(jié)構(gòu)更為簡單的網(wǎng)絡中,或者通過簡單的網(wǎng)絡去學習復雜模型中“知識”,進而提升模型學習效率。通過對該方法稍加改動,就形成了防御性蒸餾。一般來說,復雜模型稱為“教師模型”而相對簡單網(wǎng)絡稱為“蒸餾模型”。
防御性蒸餾基于模型蒸餾方法來提高深度學習模型的穩(wěn)健性,但是與原蒸餾方法相比有兩個顯著的改變。第一點是教師模型和蒸餾模型在大小上是相同的,換句話說,防御性蒸餾不會對模型進行精簡。第二點是防御性蒸餾使用一個更大的蒸餾溫度常數(shù)來迫使蒸餾模型對其預測概率有更高的置信度。蒸餾過程可以降低計算對抗擾動時的梯度值并提高了生成對抗樣本所需最小對抗擾動的平均值,因此具有提高對抗樣本生成難度的作用。以此為理論依據(jù),Papernot 等人[46]提出使用防御性蒸餾來防御對抗樣本攻擊,并通過實驗驗證了其作為防御方案的可行性。盡管防御性蒸餾能夠提升語音對抗樣本攻擊的執(zhí)行成本,但只要稍加改進對抗樣本生成技術就可以輕松繞過該防御,同時對于黑盒攻擊來說并不依賴梯度值來計算對抗擾動。
綜上所述,如今語音對抗樣本的攻防研究已經(jīng)受到了全世界研究人員的廣泛關注。針對語音對抗擾動的生成原理及其攻擊方式的研究是一個重點領域。通過分析語音對抗樣本攻擊的特征,提出系統(tǒng)而有效的語音對抗樣本防御方案將是該領域的主要目標。作為一個年輕而又迅速發(fā)展的領域,語音對抗樣本未來可能會在以下幾個方面獲得進一步的研究和發(fā)展:
(1) 目前先進的語音對抗樣本生成方法大多還是針對白盒模型開發(fā)的,盡管攻擊成功率高,但是在真實場景下難以實現(xiàn)。如何實現(xiàn)更好的黑盒攻擊,如何提升黑盒攻擊的效率,以便生成更具有實用價值的語音對抗樣本。
(2) 語音不同于圖像,它在通過空氣信道時會不可控的引入大量的環(huán)境噪聲,嚴重破壞對抗擾動的攻擊能力。盡管圖像對抗樣本攻擊路徑上也會引入由光線變化產(chǎn)生的噪聲,但這一問題在語音上要嚴峻的多。因此如何提升語音對抗樣本對環(huán)境噪聲的魯棒性還需要進一步研究,目前主流的方法是對環(huán)境噪聲建模并在計算對抗擾動時考慮該因素的影響,但是目前對環(huán)境噪聲的建模能力還遠不足,無法應對復雜多變的真實物理世界。
(3) 由于人耳對語音的高敏感性,使得針對人耳專門設計更具有隱蔽性的對抗擾動很有必要。目前主要的方法是利用心理聲學原理來選擇性的在原語音中添加對抗擾動,盡管該方法被證明有效,但是它約束了擾動的選擇性,使得語音對抗樣本缺乏多樣性,更容易被檢測。因此完善語音對抗樣本攻擊的隱蔽性具有很高的研究價值。
(4) 對抗擾動的生成方法不斷革新,相應的防御策略研究卻進展緩慢。目前還缺乏針對語音對抗樣本攻擊全面且有效的防御方案。通過分析最先進的語音對抗樣本攻擊方法,設計一個更完善更通用的防御方案來保障語音識別系統(tǒng)的安全性和可靠性具有重要的研究潛力和應用價值,因此這一研究方向也是該研究領域的最終目標。
最近的研究表明,深度學習模型很容易被對抗樣本誤導而喪失識別能力,這極大地威脅了依賴于深度學習模型的先進語音識別系統(tǒng)。在本文中,我們介紹了語音對抗樣本生成及其攻擊方式的相關概念,較為系統(tǒng)的總結(jié)了目前的語音對抗樣本攻擊方法,討論了相應的各類防御策略。
語音對抗樣本是一種針對語音系統(tǒng)可用性的攻擊,該攻擊可以干擾語音識別系統(tǒng)的正常功能或誤導目標系統(tǒng)執(zhí)行攻擊者預期的惡意指令。基于攻擊類型的差異,我們將現(xiàn)有的語音對抗攻擊分為兩個主要類別;根據(jù)防御角度的差異,我們將現(xiàn)有語音對抗樣本的防御策略分為四個類別。我們介紹了語音對抗樣本攻擊的基本原理并詳細地回顧了最新的相關研究進展,并且進行了全面的比較。最后,本文從語音對抗樣本攻擊和防御兩個方面討論了未來的研究方向和挑戰(zhàn)。
綜上所述,研究針對語音識別系統(tǒng)的對抗樣本攻擊和防御技術,給出具有實際意義的抽象表達,開發(fā)具有普適能力的對抗擾動計算方法和設計一個全面而有效的語音對抗樣本防御方案,實現(xiàn)安全高效的語音識別系統(tǒng)是該領域研究的最終目標。但是,還需要前赴后繼的研究工作來實現(xiàn)這一目標。