丁 燁,王 杰,宛 齊,廖 清
(1.東莞理工學(xué)院 網(wǎng)絡(luò)空間安全學(xué)院,廣東 東莞 523820;2.哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055)
對(duì)抗攻擊通過在深度學(xué)習(xí)模型中加入人類視覺上無法察覺的擾動(dòng),被稱為對(duì)抗樣本[1]。對(duì)抗樣本可以使模型受到干擾而產(chǎn)生錯(cuò)誤的分類,從而導(dǎo)致錯(cuò)誤類別的置信度大于正確類別的置信度。隨著深度學(xué)習(xí)在不同的任務(wù)上取得優(yōu)異性能,如人臉識(shí)別、自動(dòng)駕駛、會(huì)議記錄等,對(duì)人類社會(huì)進(jìn)步帶來了巨大的貢獻(xiàn)。然而在許多的研究工作中,對(duì)抗攻擊被證明可以在圖像、視頻、語音等領(lǐng)域的深度學(xué)習(xí)中執(zhí)行惡意任務(wù),從而造成重大的安全問題。
為了解決對(duì)抗攻擊帶來的影響,避免這種惡意的攻擊,研究者們開始了對(duì)對(duì)抗攻擊的防御工作。對(duì)抗防御主要分為兩個(gè)方面,一個(gè)方面是直接改進(jìn)模型而讓現(xiàn)有的對(duì)抗攻擊方法失效,如防御性蒸餾[2]。另外一個(gè)方面是進(jìn)行對(duì)抗樣本的檢測(cè)。關(guān)于對(duì)抗檢測(cè)的研究主要集中在圖像域中對(duì)圖片特征處理,如Xu等人[3]提出了一種基于特征壓縮的對(duì)抗樣本檢測(cè)方法;Joel等人[4]在頻譜上綜合分析了現(xiàn)有的攻擊方法和數(shù)據(jù)集,發(fā)現(xiàn)大部分的對(duì)抗樣本在頻域都出現(xiàn)了嚴(yán)重的偽影,并且在頻域空間這些偽影數(shù)據(jù)可以分離,從而能夠分類識(shí)別。
受到Joel等人[4]的啟發(fā),本文將對(duì)抗攻擊后的圖像和原始圖像變換到DCT域[5]上進(jìn)行頻譜分析。通過對(duì)比,本文發(fā)現(xiàn)所有的對(duì)抗樣本頻譜圖上都表現(xiàn)出了與原始圖像頻譜圖明顯的不同。由于攻擊方法的方式迥異,本文更進(jìn)一步分析了不同攻擊方法產(chǎn)生的對(duì)抗樣本和原始樣本之間的DCT頻譜,并表明對(duì)抗樣本和原始樣本的頻譜圖在高頻上都出現(xiàn)了嚴(yán)重偽影的原因是來自于擾動(dòng)的生成方法。
基于上述分析,本文設(shè)計(jì)了一個(gè)基于頻域信息進(jìn)行分類的CNN-DCT模型,相比較以往基于空間域信息進(jìn)行分類的CNN模型,大大提高了對(duì)抗樣本的檢測(cè)準(zhǔn)確率。該模型在同一數(shù)據(jù)集上檢測(cè)目前常見的對(duì)抗攻擊方法,產(chǎn)生的對(duì)抗樣本能夠達(dá)到98%的檢測(cè)準(zhǔn)確率,在DCT域上能極大程度區(qū)分開對(duì)抗樣本和干凈樣本,可以為深度網(wǎng)絡(luò)模型訓(xùn)練所需的數(shù)據(jù)集劃分出干凈的正常樣本,從而提高模型的性能。該模型在物理世界里也具有較強(qiáng)的實(shí)用性,可以用來檢測(cè)現(xiàn)實(shí)世界中“對(duì)抗樣本”。例如在無人駕駛技術(shù)中,需要車載模型來識(shí)別道路路標(biāo),而一些路標(biāo)容易被有意或無意地添加了擾動(dòng)(對(duì)抗樣本),從而使車載模型判別錯(cuò)誤,造成不必要的麻煩和潛在的危險(xiǎn)。通過本文提出的CNN-DCT模型,可以判定該路標(biāo)是否為干凈的樣本,提前進(jìn)行風(fēng)險(xiǎn)規(guī)避。
值得注意的是,考慮到對(duì)抗樣本在頻域中存在偽影且可能被利用來檢測(cè)的弊端,本文嘗試去優(yōu)化擾動(dòng)生成的方法,通過一個(gè)低通濾波直接作用在不同攻擊方法產(chǎn)生的對(duì)抗擾動(dòng)上,使對(duì)抗樣本與原始樣本在頻域上也盡可能表現(xiàn)一致。然而,這種改進(jìn)的方法雖然十分簡(jiǎn)單,卻嚴(yán)重降低了原始方法的攻擊成功率。因此,本文提出了IAA-DCT算法,通過重新設(shè)定對(duì)抗樣本的生成方式,利用啟發(fā)式的方法去搜索在頻域上能與原始樣本一致的對(duì)抗樣本,從而降低對(duì)抗樣本的檢測(cè)率。實(shí)驗(yàn)表明,本文的IAA-DCT算法明顯降低了CNN-DCT模型關(guān)于對(duì)抗樣本的檢測(cè)率,并在一定程度保持或者提高了攻擊的成功率。
本文的工作從頻域的角度證明了對(duì)抗攻擊存在的嚴(yán)重弊端,彌補(bǔ)了對(duì)抗樣本在頻域工作的不足。本文主要的貢獻(xiàn)總結(jié)為以下幾點(diǎn):
(1)本文通過頻域的角度發(fā)現(xiàn)了對(duì)抗樣本在頻譜上存在著與原始樣本頻域嚴(yán)重的不同。
(2)基于頻域信息的不同,本文提出了一種在頻域上的對(duì)抗樣本檢測(cè)模型CNN-DCT,極大地提高了對(duì)抗樣本檢測(cè)率。
(3)針對(duì)對(duì)抗樣本在頻域上存在的偽影且易被利用來分類的弊端,本文設(shè)計(jì)了一種通用的優(yōu)化算法IAA-DCT,在保持攻擊成功率的同時(shí)極大降低了對(duì)抗樣本通過CNN-DCT的準(zhǔn)確率。
本節(jié)主要介紹圖像域上對(duì)抗樣本的通用生成方法以及幾種經(jīng)典對(duì)抗樣本的原理,為下文分析對(duì)抗樣本在頻域上存在偽影以及提出改進(jìn)算法IAADCT做介紹。
在基于圖像分類的對(duì)抗樣本研究中,對(duì)抗攻擊的目標(biāo)是通過在自然圖像上添加一個(gè)精心設(shè)計(jì)且難以察覺的擾動(dòng)來干擾模型的推理結(jié)果。在形式上,它通過設(shè)計(jì)不同的優(yōu)化問題來找到滿足條件的擾動(dòng)。給定一個(gè)分類模型f和一張圖像x,這個(gè)優(yōu)化問題的一般數(shù)學(xué)表達(dá)如下:
其中δ(·)表示的是干凈樣本和對(duì)抗樣本之間的距離表達(dá)式,r是添加到圖像x上的擾動(dòng)大小,常見的 衡 量 方 式 有L1范 數(shù)||r||1、L2范 數(shù)||r||2和L∞范數(shù)||r||∞,而f(x)輸出的是x對(duì)應(yīng)的分類結(jié)果,yt為指定的類別標(biāo)簽。
根據(jù)模型結(jié)構(gòu)以及參數(shù)是否已知,可將對(duì)抗攻擊分為白盒攻擊和黑盒攻擊。本文只討論了白盒攻擊方法下的兩種主要實(shí)現(xiàn)手段。
一是基于梯度信息進(jìn)行攻擊,經(jīng)典的研究工作有FGSM[6]、BIM[7]、PGD[8]。文獻(xiàn)[6]在2014年利用對(duì)抗樣本的線性解釋提出了一個(gè)快速產(chǎn)生對(duì)抗樣本的方式,也即Fast Gradient Sign Method(FGSM)方法。假定模型參數(shù)值為θ,模型的損失函數(shù)為H(θ,x,y)。FGSM方 法 在 無 窮 范 數(shù) 限 制 下(||η||∞<ε)添 加 擾 動(dòng)η=εsign(▽x H(θ,x,y)),其中ε為限定擾動(dòng)值大小的常量,sign(·)表示為取變量值正負(fù)符號(hào)的函數(shù),▽x H(·)表示的是損失函數(shù)H關(guān)于x的梯。用x′表示最后生成的對(duì)抗樣本,則FGSM方法的完整公式如下:
這是一種簡(jiǎn)單的單步攻擊方法,存在噪聲大、攻擊率低的弊端。于是文獻(xiàn)[7]基于之前的FGSM攻擊方法做出了一部分改進(jìn),其中用迭代攻擊代替單步攻擊,于是提出了Basic Iterative Methods(BIM)攻擊方法,BIM完整的攻擊公式如下:
初始化第一個(gè)對(duì)抗樣本x′為原始樣本x,總共迭代n次,其中Clip(·)函數(shù)是將每次迭代的擾動(dòng)大小限制在一定的范圍內(nèi)。后來在文獻(xiàn)[8]中指出這實(shí)際上等價(jià)于無窮范數(shù)版本的Projected Gradient Descent(PGD)。
另外一種白盒攻擊方法基于約束優(yōu)化問題來實(shí)現(xiàn)。比如C&W[9]方法,常規(guī)方法通過構(gòu)造約束優(yōu)化問題來創(chuàng)建對(duì)抗樣本,具體見式(1)。但其中的方程約束很難推導(dǎo),因此作者將該方程進(jìn)行了如下變換:
文獻(xiàn)[9]給出了7個(gè)目標(biāo)函數(shù)C(·),本文不作詳細(xì)描述。
第1節(jié)介紹了圖像域上對(duì)抗樣本的相關(guān)工作以及幾種經(jīng)典對(duì)抗攻擊方法,如FGSM、BIM、PGD和C&W的生成原理。它們都在圖像域上對(duì)自然圖像添加擾動(dòng)而忽視了對(duì)頻域的考慮。因此本節(jié)通過引入DCT域來分析對(duì)抗樣本,提出一個(gè)基于DCT系數(shù)的對(duì)抗樣本檢測(cè)器CNN-DCT。并且針對(duì)DCT頻譜的差異性易被利用來分類對(duì)抗樣本和原始樣本,提出了改進(jìn)算法IAA-DCT。
離散余弦變換(DCT)是一種與傅里葉變換相關(guān)的變換。對(duì)于二維功能(如圖像),DCT允許視覺上的重要信息集中在一個(gè)小的信息上。因此,DCT是針對(duì)JPEG壓縮的國際標(biāo)準(zhǔn)有損算法的核心組成部分。它還可以將一個(gè)函數(shù)表示為不同振幅和頻率的許多余弦函數(shù)的和,將信號(hào)從時(shí)空域轉(zhuǎn)換為頻域。1D-DCT的一般公式如下:
其中,F(xiàn)(u)為余弦變換值,u為廣義頻率變量,u=1,2,…,N-1;f(x)為時(shí)域中N個(gè)點(diǎn)的序列x=1,2,…,N-1。
本文進(jìn)行了利用2D-DCT將圖像從空間域轉(zhuǎn)換為DCT域的實(shí)驗(yàn),給定一個(gè)2D圖像X∈Rd×d,定義一個(gè)基礎(chǔ)函數(shù):
對(duì) 于1≤i,j≤d,2D-DCT變 換V=DCT(X)具 體公式展開如下:
其中,Nj1、Nj2是歸一化項(xiàng),以確保圖變換是等距的,例 如||X||2=||DCT(X)||2。Vi,j項(xiàng) 對(duì) 應(yīng) 于Ψd(i,j)波 的幅值,低頻率用低i、j表示。此外,DCT是可逆的,逆X=IDCT(V),具體展開如下:
對(duì)于包含多個(gè)彩色通道的圖像,DCT和IDCT可以分別在通道上應(yīng)用。
為了更好地探究對(duì)抗樣本在頻域中的變化,本文對(duì)CIFAR-10數(shù)據(jù)集進(jìn)行對(duì)抗攻擊,該數(shù)據(jù)集共有60000張分辨率大小為32×32的彩色圖像,總共劃分為10個(gè)類,每類6000張圖。本文將二維DCT變換后的DCT系數(shù)繪制為熱力圖(Heatmap),如圖1所示。每個(gè)DCT系數(shù)對(duì)應(yīng)空間頻率對(duì)圖像的貢獻(xiàn)比例。在實(shí)踐中,本文對(duì)圖像的每個(gè)通道分別進(jìn)行行和列的1D-DCT變換,將它們相乘(對(duì)應(yīng)于水平和垂直方向),得到2D-DC變換后的系數(shù),然后進(jìn)行加權(quán)平均。熱力圖的左上區(qū)域?qū)?yīng)圖像的低頻,右下區(qū)域?qū)?yīng)的是圖像的高頻。當(dāng)從低頻觀察高頻時(shí),可以注意到系數(shù)下降得特別快,因此本文在制作熱圖之前截取了2.0~4.5范圍的系數(shù)。
圖1 不同算法在CIFAR-10上攻擊后的平均圖譜結(jié)果
其中,圖1(a)是CIFAR-10數(shù)據(jù)集10000個(gè)干凈樣本的平均頻譜,平均頻譜指的是樣本經(jīng)過DCT變換后求平均得到的頻譜圖。圖1(b)、圖1(c)、圖1(d)和圖1(e)分別是FGSM[6]、BIM[7]、PGD[8]和C&W[9]這幾種經(jīng)典對(duì)抗攻擊方法在數(shù)據(jù)集CIFAR-10上產(chǎn)生的10000個(gè)對(duì)抗樣本的DCT平均圖譜。與文獻(xiàn)[10-11]相似,圖1(a)的結(jié)果表明,自然圖像的頻率主要集中在左上角低頻部分,這部分的頻率分量對(duì)圖像的貢獻(xiàn)最大,并隨著往高頻區(qū)域移動(dòng),低頻對(duì)圖像的貢獻(xiàn)逐漸減小。主要的原因是因?yàn)閳D像中大部分相鄰像素相互關(guān)聯(lián)且變化平緩,因此可以用一個(gè)低頻函數(shù)來接近完整的圖像信息。研究發(fā)現(xiàn)這些對(duì)抗樣本在圖像域上看起來與原始圖像十分接近,然而在DCT域上與原始圖像則有著明顯的差別。從圖1(b)、圖1(c)、圖1(d)和圖1(e)可以明顯地發(fā)現(xiàn),對(duì)抗樣本的頻譜高頻分量明顯比圖1(a)增加了許多高頻分量,頻率從低往高發(fā)生了劇烈振蕩變化,產(chǎn)生了明顯的高頻偽影。
針對(duì)2.2小節(jié)發(fā)現(xiàn)對(duì)抗樣本在DCT域上存在高頻偽影的問題,本文提出了一個(gè)基于DCT系數(shù)的訓(xùn)練的對(duì)抗樣本檢測(cè)器CNN-DCT。相較于在圖像域訓(xùn)練的分類器,都是對(duì)圖像在空間域上的數(shù)據(jù)進(jìn)行訓(xùn)練。而基于DCT系數(shù)訓(xùn)練的檢測(cè)器,是在將所有的圖像都?xì)w一化到區(qū)間[-1,1],然后利用2.1小節(jié)介紹的2D-DCT將圖像從空間域變換到DCT域,得到DCT系數(shù)后,把DCT系數(shù)作為輸入進(jìn)行訓(xùn)練。本文提出的對(duì)抗樣本檢測(cè)器CNN-DCT為一個(gè)簡(jiǎn)單的8層網(wǎng)絡(luò)結(jié)構(gòu),如表1所示。
表1 檢測(cè)器網(wǎng)絡(luò)結(jié)構(gòu)
考慮到對(duì)抗樣本高頻偽影的存在,并且存在可能被利用來進(jìn)行區(qū)分干凈樣本和對(duì)抗樣本,一個(gè)直觀的解決想法是直接在最后添加的擾動(dòng)上增加一個(gè)低通濾波器,讓對(duì)抗樣本在頻域上看起來與原始圖像盡可能的相似。然而,這個(gè)簡(jiǎn)單的方法雖然減小了對(duì)抗樣本和原始樣本在頻域上的差異,在一定程度上降低了CNN-DCT的檢測(cè)率,但同時(shí)也增大了攻擊的失敗率。為此本文尋求一個(gè)改進(jìn)方法,在不犧牲攻擊成功率的前提下又能解決在頻域上易被檢測(cè)的問題。本文提出了一個(gè)改進(jìn)的對(duì)抗攻擊算法IAA-DCT,可以將攻擊空間限制在低頻范圍內(nèi),通過啟發(fā)式的方法在低頻空間搜索最優(yōu)的擾動(dòng),從而使對(duì)抗樣本在圖像域和頻域上都能最大程度上接近。
首先基于式(1),本文進(jìn)行了以下優(yōu)化:
其中l(wèi)f(r)表示的是將擾動(dòng)r變換到DCT域后,去除一定的高頻分量,保留了擾動(dòng)r的低頻組件,然后再通過DCT逆變換IDCT轉(zhuǎn)換成圖像域。具體展開如下式所示:
本文通過對(duì)DCT變換后的擾動(dòng)DCT(r)應(yīng)用掩模Mask去除擾動(dòng)r中的高頻分量。然后通過對(duì)掩模后的頻率分量應(yīng)用IDCT重構(gòu)擾動(dòng)。其中,掩模m={0,1}d×d是像素值分別為0和1的二維矩陣圖像,掩模采用逐元素積的方式進(jìn)行。
算法1詳細(xì)描述了對(duì)抗攻擊算法改進(jìn)后的整個(gè)流程,通過設(shè)定預(yù)期的攻擊成功率η,保證在限定擾動(dòng)r的頻域大小同時(shí),也能維持一定的攻擊成功率。其中ATK表示的是在N個(gè)原始樣本x上成功被攻擊的樣本數(shù)占所有被攻擊原始樣本的比例,randint(K)表示從K類別中隨機(jī)選取一個(gè)類別。
本文實(shí)驗(yàn)在CIFAR-10[12]數(shù)據(jù)集和SVHN[13]數(shù)據(jù)集上進(jìn)行了驗(yàn)證。受攻擊基準(zhǔn)模型為VGG-19[14]和ResNet-34[15]。實(shí)驗(yàn)從以下幾個(gè)指標(biāo)上進(jìn)行觀測(cè):
(1)被攻擊后模型的魯棒性準(zhǔn)確率ACC(Accuracy);
(2)對(duì)抗樣本的檢測(cè)率AER(Adversarial Examples Rate),AER值越高則表示對(duì)抗樣本檢測(cè)率越高;
(3)攻擊成功率ASR(Attack Success Rate),值為成功使分類器分類錯(cuò)誤的圖像數(shù)量占全部圖像總數(shù)的比例,ASR值越高代表攻擊成功率越高。
3.2.1 實(shí)驗(yàn)細(xì)節(jié)
在對(duì)抗樣本檢測(cè)上主要驗(yàn)證了幾種經(jīng)典的對(duì)抗樣本,包括FGSM[6]、BIM[7]、PGD[8]和C&W[9]。 在CIFAR-10數(shù)據(jù)集上,分別利用這幾種攻擊方法在CIFAR-10數(shù)據(jù)集的訓(xùn)練集上各自隨機(jī)生成10000張對(duì)抗樣本,其中8000張樣本用來訓(xùn)練,2000張樣本用來測(cè)試。而在SVHN數(shù)據(jù)集上,則從訓(xùn)練集上隨機(jī)篩選出10000張生成對(duì)抗樣本,用來訓(xùn)練和測(cè)試的比例與CIFAR-10數(shù)據(jù)集相同。本文使用交叉熵作為損失函數(shù),SGD作為優(yōu)化器,其中學(xué)習(xí)率為0.001,動(dòng)量值為0.9。
3.2.2 實(shí)驗(yàn)結(jié)果和總結(jié)
(1)實(shí)驗(yàn)結(jié)果
本文利用FGSM[6]、BIM[7]、PGD[8]和C&W[9]這幾個(gè)經(jīng)典對(duì)抗攻擊算法在數(shù)據(jù)CIFAR-10和SVHN上分別對(duì)VGG-19和ResNet-34進(jìn)行攻擊,并且利用得到的等比例混合對(duì)抗樣本集的DCT系數(shù)訓(xùn)練得到的檢測(cè)器CNN-DCT和圖像域上訓(xùn)練的CNN進(jìn)行性能比較,其中ACC和AER表示的是在DCT域上實(shí)驗(yàn)得到的結(jié)果,ACC*和AER*表示的是在圖像域上操作的結(jié)果。結(jié)果(如表2所示)表明,CNN-DCT取得了平均97%以上的對(duì)抗樣本檢測(cè)率AER,相對(duì)于在圖像域訓(xùn)練得到的檢測(cè)器CNN取得的92%平均對(duì)抗樣本檢測(cè)率AER*提升了近5%。同時(shí)發(fā)現(xiàn),在面對(duì)不同網(wǎng)絡(luò)和不同數(shù)據(jù)集時(shí),對(duì)同一個(gè)數(shù)據(jù)集上不同網(wǎng)絡(luò)或者同一個(gè)網(wǎng)絡(luò)在不同數(shù)據(jù)集上進(jìn)行攻擊,CNN-DCT得到的對(duì)抗樣本檢測(cè)結(jié)果和ACC相差不大。例如,F(xiàn)GSM方法在數(shù)據(jù)集CIFAR-10和SVHN上分別對(duì)VGG和ResNet攻擊后,通過CNN-DCT得到的對(duì)抗樣本檢測(cè)率幾乎落在97.5%左右,與ACC平均98.6%的檢測(cè)率相差不大。這說明改檢測(cè)模型得到一個(gè)較高的假陽率,于是本文在3.3小節(jié)進(jìn)行了檢測(cè)模型的遷移性實(shí)驗(yàn)測(cè)試。
表2 CNN-DCT檢測(cè)結(jié)果 (%)
(2)總結(jié)
對(duì)抗樣本在圖像域上看起來與干凈樣本幾乎一致,而在頻域上存在的高頻偽影可以被有效利用。相比基于圖像域信息訓(xùn)練的檢測(cè)器,基于頻域信息訓(xùn)練的檢測(cè)器取得了更高更穩(wěn)定的對(duì)抗樣本檢測(cè)率。
(1)遷移性結(jié)果分析
為了得到CNN-DCT在面對(duì)新的數(shù)據(jù)集時(shí)的表現(xiàn)性能,本文將在SVHN數(shù)據(jù)集上進(jìn)行對(duì)抗攻擊生成的對(duì)抗樣本訓(xùn)練得到檢測(cè)器遷移到CIFAR-10數(shù)據(jù)集上進(jìn)行檢測(cè)。同時(shí)也進(jìn)行了從SVHN數(shù)據(jù)集訓(xùn)練的檢測(cè)器遷移到CIFAR-10數(shù)據(jù)集測(cè)試的驗(yàn)證實(shí)驗(yàn)。
本文分別對(duì)受攻擊模型VGG-19和ResNet-34在數(shù)據(jù)集CIFAR-10和SVHN上進(jìn)行遷移性性能測(cè)試。在被攻擊模型ResNet-34上,從SVHN數(shù)據(jù)集訓(xùn)練的CNN-DCT遷移到CIFAR-10數(shù)據(jù)集結(jié)果不足80%。而從數(shù)據(jù)集CIFAR-10遷移到SVHN的檢測(cè)結(jié)果都接近90%,如表3和表4所示(其中S表示源數(shù)據(jù)集,T表示目標(biāo)數(shù)據(jù)集)。這對(duì)于未知模型或者未知數(shù)據(jù)集而言,是一個(gè)可觀的表現(xiàn)結(jié)果,為以后對(duì)抗樣本的檢測(cè)提供了一個(gè)新奇的研究方向。
表3 VGG-19模型上遷移結(jié)果(%)
表4 ResNet-34模型上遷移結(jié)果檢測(cè)結(jié)果 (%)
(2)總結(jié)
由于高頻偽影普遍存在于不同的數(shù)據(jù)集上,并且CNN-DCT在遷移性上表現(xiàn)優(yōu)異,使得防御者即使在不了解攻擊者攻擊的數(shù)據(jù)集的情況下,可以很好地利用遷移學(xué)習(xí)進(jìn)行對(duì)抗樣本的檢測(cè)。未來將繼續(xù)展開深入的工作。
本文定義了攻擊成功率ASR(Attack Success Rate),即成功使分類器在一定數(shù)量圖像分類錯(cuò)誤占全部圖像的比例。為了更好地評(píng)估本文改進(jìn)的算法,本文在CIFAR-10數(shù)據(jù)集圖像域上訓(xùn)練了一個(gè)有95%分類準(zhǔn)確度的CNN模型作為基準(zhǔn)模型。
如表5所示,ASR和AER表示的是對(duì)上述基準(zhǔn)模型的攻擊成功率以及對(duì)應(yīng)對(duì)抗樣本的檢測(cè)率,ASR*和AER*表示的是直接對(duì)擾動(dòng)添加一個(gè)低通濾波后的結(jié)果,ASR**和AER**表示用了本文的改進(jìn)算法取得的結(jié)果。ASR越高并且AER越低,證明攻擊的成功率越好且不易在頻域中被檢測(cè)器檢測(cè)到。在正常的對(duì)抗攻擊下,本文可以利用頻域信息很好地區(qū)分開對(duì)抗樣本和干凈樣本,分辨度接近100%。為了解決這個(gè)弊端,本文嘗試在常規(guī)的方法攻擊后方添加一個(gè)低通濾波器,將要添加的擾動(dòng)篩選出一定的低頻分量作為最后的擾動(dòng)。雖然這個(gè)方法極大程度上降低基于頻域檢測(cè)器CNN-DCT對(duì)對(duì)抗樣本的正確檢測(cè)率,同時(shí)也帶了攻擊失敗的問題,它嚴(yán)重地降低了攻擊的成功率,從97%降到了不足80%。為此,本文更近一步提出了另外一個(gè)優(yōu)化改進(jìn)算法IAA-DCT,對(duì)抗樣本的檢測(cè)率從99%降低到了95%以下,并且還保持著90%以上的攻擊成功率。
表5 IAA-DCT算法對(duì)比檢測(cè)結(jié)果(%)
本文以頻域的角度重新探索了對(duì)抗樣本的相關(guān)工作。從對(duì)抗樣本在DCT域上的平均圖譜結(jié)果發(fā)現(xiàn),即使在圖像域上跟原始樣本看起來完全一致的對(duì)抗樣本,在DCT域上也表現(xiàn)出了與原始樣本的巨大不同,普遍存在高頻偽影。因此,本文以此為切入點(diǎn),設(shè)計(jì)了一個(gè)基于DCT域信息的對(duì)抗樣本檢測(cè)器CNN-DCT。結(jié)果表明,相對(duì)于直接在圖像域上將對(duì)抗樣本和原始樣本進(jìn)行分類,本文設(shè)計(jì)的檢測(cè)器CNN-DCT,在 數(shù) 據(jù) 集CIFAR-10和SVHN上 取 得 了近乎98%的成功檢測(cè)率,分類性能相對(duì)在圖像域上訓(xùn)練的CNN有極大提升,同時(shí)在DCT域上能夠極大程度區(qū)分開對(duì)抗樣本和干凈樣本,從而提高訓(xùn)練模型的性能。遷移性實(shí)驗(yàn)結(jié)果表明,在未知攻擊數(shù)據(jù)集的情況下,也可以利用遷移學(xué)習(xí)來進(jìn)行對(duì)抗樣本檢測(cè),未來將成為一個(gè)新的對(duì)抗防御方向。最后針對(duì)于上述對(duì)抗樣本在頻域上存在的高頻偽影以及易被檢測(cè)的缺陷,提出了改進(jìn)算法IAA-DCT,保證了對(duì)抗樣本在圖像域上的視覺一致,也讓其和原始樣本在頻域上盡可能相似,在保持攻擊成功率的同時(shí),也極大程度上降低在頻域上被檢測(cè)的風(fēng)險(xiǎn)。