結合擾動約束的低感知性對抗樣本生成方法

2022-07-15 01:05:34王楊曹鐵勇楊吉斌鄭云飛方正鄧小桐

中國圖象圖形學報 2022年7期

王楊，曹鐵勇*，楊吉斌，鄭云飛,2,3，方正，鄧小桐

1.陸軍工程大學指揮控制工程學院，南京 210007；2.陸軍炮兵防空兵學院南京校區(qū)火力系，南京 211100；3.安徽省偏振成像與探測重點實驗室，合肥 230031

0 引言

隨著深度神經網絡在計算機視覺任務中的廣泛應用，對抗樣本(adversarial examples)的概念也應運而生。對抗樣本是指在原數據集中通過人工添加對抗擾動而形成的樣本。這類樣本會導致深度模型以高置信度給出與原樣本不同的輸出結果。對抗擾動是對抗樣本生成過程中的關鍵因素。對抗擾動的作用是使模型產生錯誤的輸出，同時擾動應盡量不影響原圖像，甚至讓人眼視覺也難以感知。

攻擊成功率(attack success rate，ASR)和視覺感知性是評價對抗樣本的兩個重要指標。攻擊成功率指添加擾動后對抗樣本被深度模型誤判的概率，其衡量了對抗樣本對深度模型的攻擊性能，數值越高，則對抗樣本對深度模型的攻擊能力越強。視覺感知性指在原圖像上增加對抗擾動后而不為人眼視覺所感知的能力，其衡量了對抗樣本的隱蔽性，感知性越低，說明對抗擾動越隱蔽，更不為人眼察覺。

按照對抗樣本生成算法是否獲得神經網絡的參數和結構信息，可以將現(xiàn)有算法分為白盒攻擊算法與黑盒攻擊算法。

一些典型的白盒方法通過生成對抗樣本實現(xiàn)了視覺的低感知性。FGSM(fast gradient sign method)算法(Goodfellow等，2015)在損失增加的方向上添加固定幅度的擾動生成對抗樣本，但該算法僅在圖像全局范圍內添加擾動，沒有對擾動的分布進行界定。Kurakin等人(2016)提出了基于FGSM的迭代版本BIM(basic iterative method)，經迭代沿損失增加的方向上添加小幅擾動，并在每次迭代后重新計算優(yōu)化方向，進而構建了比FGSM更精細的擾動。之后FGSM衍生算法的目標也多是提升對抗性與遷移性(Dong等，2018；Xie等，2019；Shi等，2019)，在視覺感知性上與原有方法無明顯差異。DeepFool算法(Moosavi-Dezfooli等，2016)通過比較樣本空間中樣本點到不同分類邊界的距離，添加最小幅度的擾動生成對抗樣本，它也成為白盒方法中視覺感知性比較的一個基準。JSMA(Jacobian-based saliency map attacks)(Papernot等,2016)計算圖像顯著性分數，依照像素點對輸出結果的重要性添加擾動，僅改變部分圖像像素即可實現(xiàn)攻擊。C&W(Carlini &Wagner)算法(Carlini和Wagner，2017)使用改進的范數損失對擾動進行優(yōu)化。Rony等人(2019)對C&W算法進行改進，在提升效率的同時仍能得到與原始算法視覺感知性近似的樣本。Croce和Hein(2020)分析了現(xiàn)有方法在迭代時存在的次優(yōu)解現(xiàn)象，提出了APGD(auto projected gradient descent)和AutoAttacks兩種方法。PerC-C&W(perceptual color distance C&W)(Zhao等，2020)在CIELch空間計算對抗樣本與原圖像在樣本空間的距離，為改善對抗樣本的視覺感知性提供了新思路。

現(xiàn)實中常常無法獲得部署模型的參數信息，因此黑盒方法的實用性要遠大于白盒攻擊方法。不同于白盒中普遍使用梯度信息生成擾動的做法，黑盒方法通過向模型輸入帶有擾動的圖像，利用輸出的變化求解擾動。這使得黑盒算法生成對抗樣本的難度更大。OnePixel(Su等，2019)利用差分進化法篩選添加擾動的像素。該方法在極端情況下僅改變一個像素的數值就使深度模型輸出錯誤，但擾動的生成位置沒有考慮對視覺感知性的影響，且若要達到較高的攻擊成功率需增加擾動像素的個數。Xiao等人(2018)提出了基于生成對抗網絡(generative adversarial network，GAN)(Goodfellow 等，2014)的對抗樣本生成方法AdvGAN(adversarial GAN)，使用合頁損失優(yōu)化擾動，并對擾動幅度進行限定。之后的AdvGAN++(Jandial等，2019)、DaST(data-free substitute training for adversarial atacks)(Zhou等，2020)方法均基于GAN網絡。Phan等人(2020)提出CAG(content-aware adversarial attack generator)方法，利用感知損失生成對抗樣本。此外，還有利用集成思想(Liu等，2017；Che等，2019；Pang等，2019)實現(xiàn)黑盒攻擊的方法。這些方法在對抗樣本的攻擊成功率或攻擊可行性上取得了進步，但在視覺感知性上的優(yōu)化手段與之前的方法相同。

在達到一定攻擊率的情況下，上述算法通過添加固定幅度的擾動、修改少量像素的數值或限定擾動變化的極限值實現(xiàn)對視覺感知性的客觀要求。但客觀上滿足感知性要求，并不能在主觀評價上取得很好的效果。

圖1展示了部分算法生成的對抗樣本。可以看出，現(xiàn)有方法在視覺感知性上還存在一定的改進空間：1)在圖像全局增加擾動，存在擾動紋理突出的現(xiàn)象(圖1(b)(d))；2)沒有考慮生成擾動對全局結構的影響，破壞了圖像的整體結構(圖1(c));3)擾動分布不合理，生成擾動跨越前后背景(圖1(d))。

圖1 部分方法在Tiny-ImageNet數據集上生成的對抗樣本Fig.1 Adversarial examples generated by some algorithms on Tiny-ImageNet((a) original image;(b) FGSM;(c) PerC-C&W;(d) AdvGAN)

限定對抗擾動的幅度、面積與分布，能夠降低對抗樣本的視覺感知性，但會對樣本的攻擊成功率產生影響。如何平衡對抗樣本攻擊成功率與視覺感知性之間的關系，在維持較高攻擊成功率的前提下降低視覺感知性，是本文研究的主要問題。

綜上，本文提出通過提取圖像中的關鍵區(qū)域在有限的區(qū)域內添加擾動，同時限定對抗擾動在該區(qū)域內的分布，使擾動分布更符合圖像全局結構，從而降低視覺感知性。已有研究(Selvaraj等，2017)證明，不同區(qū)域對模型輸出結果的響應不盡相同。本文將圖像中對模型分類結果響應較大的區(qū)域稱為關鍵區(qū)域。在關鍵區(qū)域上添加對抗擾動能對模型的輸出結果產生較大影響，從而維持受限擾動條件下對抗攻擊的ASR。

本文方法具體分為兩個階段。第1階段的目標是使用提取網絡提取對分類模型輸出影響較大的關鍵區(qū)域。若提取出的區(qū)域符合預期，則向該區(qū)域添加擾動，能加大分類模型輸出錯誤結果的概率。為訓練提取網絡，在第1階段不對擾動進行優(yōu)化，使用數值固定的噪聲作為第1階段擾動，訓練提取網絡；同時，計算關鍵區(qū)域與輸入數據在感知網絡某一層輸出的感知損失(楊娟等，2019)，從而優(yōu)化提取網絡，使提取出的區(qū)域與輸入數據在圖像全局結構近似。第2階段固定提取網絡的權重，生成關鍵區(qū)域，通過生成對抗網絡向關鍵區(qū)域添加擾動，生成對抗樣本。生成對抗網絡是一種基于對抗性訓練的神經網絡，由生成網絡和判別網絡兩個子網絡構成。在本文中，生成網絡的功能是輸入圖像信息，輸出針對該圖像的對抗擾動。之后對抗擾動與原圖像結合，成為對抗樣本。將對抗樣本與原始圖像送入判別網絡，由網絡判斷輸入數據是原始數據還是對抗樣本。隨著兩種網絡的交替訓練，擾動的性能逐步提升。

為驗證本文生成對抗樣本的視覺感知性，引入均方誤差(mean square error，MSE)與結構相似性(structural similarity，SSIM)作為衡量感知性的兩個客觀指標。最終在3個公開數據集上的實驗驗證了本文方法的有效性，在保持較高攻擊成功率的同時，有效限制了擾動生成的區(qū)域與面積，顯著降低了視覺感知性。

1 本文算法

1.1 問題描述

給定原始圖像x,y為正確的分類標簽，圖像分類模型f能夠以較大概率實現(xiàn)從輸入x至輸出y的映射f(x)→y。向原始圖像x添加擾動ρ生成對抗樣本x+ρ,使得f(x+ρ)≠y。

1.2 方法介紹

本文算法提出通過約束對抗擾動的面積與空間分布，降低對抗樣本的視覺感知性。算法在設計中主要考慮以下因素：1)對抗擾動分布盡可能在圖像的同一語義區(qū)域，如目標區(qū)域或背景區(qū)域；2)擾動分布應與圖像結構保持一致；3)減少無效擾動的生成。

模型包含兩個階段，總體框架如圖2所示，其中，橙色表示在某一階段進行訓練的網絡，藍色表示在該階段權重固定的網絡。在第1階段，通過提取網絡提取能顯著影響深度模型輸出結果的關鍵區(qū)域，并利用感知損失進一步限定該區(qū)域，使擾動與圖像的結構信息保持一致。在第2階段，通過帶有自注意力機制的生成對抗網絡，向前一階段獲得的圖像關鍵區(qū)域添加擾動，生成具有低感知性的對抗樣本。

圖2 總體框架Fig.2 Overall framework

第2階段生成擾動的對抗性應優(yōu)于或等于第1階段使用的噪聲擾動，這也為第2階段的對抗成功率劃定了下界。同時，對抗成功率的下界也與第1階段選擇的擾動相關。本文選擇高斯噪聲作為第1階段的固定擾動。

1.3 生成對抗網絡

模型中通過生成對抗網絡向原圖添加擾動，構造對抗樣本。具體而言，本文生成網絡包含編碼器—瓶頸層—解碼器結構。瓶頸層使用殘差連接，編碼器包含6層卷積—標準化—激活結構，瓶頸層殘差分支包含4層卷積—標準化—激活結構，解碼器包含5層結構。生成網絡結構如圖3所示。

為使生成的對抗擾動更平滑，模型在解碼器結構圖的模塊2①中引入像素渲染模塊(Shi等，2016)，如圖3右上標注A所示，計算流程為：輸入尺寸為H×W×r2的特征圖，通過周期篩選得到尺寸為rH×rW×C的高分辨率圖像。本文在生成網絡的瓶頸層加入自注意力機制，如圖3右上標注B所示。自注意力機制是注意力機制的一種，它擅長捕捉數據或特征的內部相關性。在圖像生成領域中，它可以捕捉圖像中某一點像素與其他位置較遠像素間的聯(lián)系，更好地對全局信息建模，具體結構如圖4所示。

圖3 生成網絡結構圖Fig.3 Generator structure

圖4 自注意力結構Fig.4 Self-attention module

圖5展示了自注意生成網絡與普通生成網絡生成擾動的對比，其中圖5(b)(c)均為標準化后灰度圖像。從圖中紅框區(qū)域可以看出，使用自注意力機制與全局感知損失生成的擾動主要分布在圖像的關鍵區(qū)域，且分布更為均勻、密集。從圖中藍框區(qū)域可以看出，在非關鍵區(qū)域添加的擾動顏色較淺、幅度更小。

圖5 自注意生成網絡與普通生成網絡生成擾動的對比Fig.5 Comparison of adversarial perturbations between self-attention generator and normal generator((a) original images；(b) perturbation generated with self-attention mechanism；(c) normal perturbation)

判別網絡判斷輸入數據是原始樣本或是對抗樣本。網絡包含5層結構，前3層使用譜標準化，用以提升網絡訓練時的穩(wěn)定性，結構如圖6所示對應圖2中模塊②。

圖6 判別網絡結構Fig.6 Discriminator’s structure

1.4 提取網絡

算法的出發(fā)點是通過限定擾動的位置與分布，降低對抗樣本的視覺感知性。注意力機制(項圣凱等，2020)能夠提取出深度模型輸出的關鍵區(qū)域，賦予其更大權重。算法通過帶有注意力機制的提取網絡，生成關鍵區(qū)域，約束擾動的分布。

提取網絡與注意力機制的結構如圖7所示，其中D-Conv表示空洞卷積結構，Conv為卷積結構對應圖2中模塊③。注意力機制選擇應用廣泛的BAM(bottleneck attention module)(Park等，2018)結構。提取網絡包含3層卷積—標準化—激活結構、1個注意力層、2個反卷積—標準化—激活結構和1個用于增強局部信息的池化—卷積—標準化—激活結構。通過提取網絡中卷積結構得到的輸出特征圖，經過門機制篩選，最終得到包含圖像關鍵區(qū)域的特征圖。門機制篩選圖像關鍵區(qū)域算法的具體步驟如下：

圖7 提取網絡與注意力結構Fig.7 Extractor and attention mechanism

輸入：圖像x。

輸出：包含圖像關鍵區(qū)域的特征圖。

第1階段：圖像x送入注意力網絡生成標準化特征圖。

1) 將圖像送入注意力網絡，輸出注意力特征圖(H×W× 3);

2) 將注意力特征圖通道內像素的值歸一化至[0,1]。

第2階段：門機制生成粗特征圖，篩選后得到關鍵區(qū)域。

3) for 注意力特征圖中的像素點(x,y,c) do;

4) 粗特征圖在 (x,y) 的值為該點在第1階段生成特征圖的值 (1 × 3) 與τ(3 × 1)相乘;

5) if 值大于閾值;

6) 值不變;

7) else;

8) 值為0;

9) end for;

10) 得到關鍵區(qū)域特征圖。

經實驗驗證，τ的取值為[0.36,0.34,0.30]，閾值設定為0.7。

1.5 感知網絡結構

為更好地約束注意力網絡生成的關鍵區(qū)域，本文引入感知損失。計算感知損失所用的特征提取網絡為帶有ImageNet預訓練權重的VGG16(Visual Geometry Group)網絡，對應圖2中模塊④。

2 訓練過程

2.1 第1階段訓練過程

第1階段訓練注意力網絡，損失函數為

L1=α1Ladv1+β1LD1+γ1Lp

(1)

式中，Ladv1為第1階段對抗損失，LD1為第1階段判別損失，Lp為感知損失，α1、β1、γ1的取值分別為5、10、1。

原圖進入注意力網絡，生成包含圖像關鍵區(qū)域的特征圖。原圖與特征圖進入感知網絡，計算兩者的感知損失。感知損失為特征圖與原圖在經過感知網絡第2層激活函數后所得特征圖間的最小二乘損失，表達式為

(2)

式中，φ為特征提取網絡，C、H、W為原圖x與特征圖a經過特征提取網絡第2層后的通道數、高度和寬度。

將通過門機制篩選得到的特征圖與噪聲擾動相乘，生成第1階段對抗擾動。擾動與原圖結合得到第1階段的對抗樣本。對抗樣本和原圖一同送入判別網絡，計算判別損失。之后對抗樣本送入目標網絡，計算第1階段對抗損失。

判別損失為

LD1=ExlogD(x)+Exlog(1-D(x+ρ1))

(3)

ρ1=F?PG

(4)

式中，ρ1為第1階段得到的擾動，F(xiàn)為經過門機制得到的特征圖，D()為判別器輸出結果，PG表示高斯噪聲擾動(Gaussian noise perturbation)，F(xiàn)與PG間使用元素級乘法?。

對抗損失表達式為

Ladv1=Exlt(T(x+ρ1),t)
ρ1∈[-Pmax,Pmax]

(5)

式中，T為被攻擊的深度模型，輸入第1階段對抗樣本，輸出向量與經過one-hot編碼所得的分類標簽向量t長度相同。lt為損失函數，本文使用交叉熵損失。Pmax為擾動幅度的上限。

2.2 第2階段訓練過程

第2階段訓練生成網絡，損失表達式為

(6)

式中，α2、β2、γ2的取值分別為5、1、1。固定提取網絡權重，將原圖送入提取網絡與生成網絡，生成帶有關鍵區(qū)域的特征圖和第2階段對抗擾動。擾動與特征圖之間進行元素級乘法，并與原圖結合，生成對抗樣本。將原圖與對抗樣本送入目標網絡和判別網絡，計算對抗損失和判別損失。

第2階段的對抗損失為

Ladv2=Exlt(T(x+ρ2),t)

(7)

ρ2=F?P2,ρ2∈[-Pmax,Pmax]

(8)

式中，ρ2為第2階段得到的擾動，P2為生成網絡生成的第2階段擾動(perturbation generated by generator)。第2階段的判別損失為

LD2=ExlogD(x)+Exlog(1-D(x+ρ2))

(9)

在兩個階段中，算法均對判別網絡進行訓練。兩個階段的判別網絡結構相同，作用是判斷輸入數據是原始數據還是添加擾動后的數據。第1階段訓練結束后，不固定判別網絡的參數，直接進入第2階段的訓練。實驗結果表明，在前一階段得到的權重上繼續(xù)訓練與在初始化后的網絡上重新訓練相比，能更快地使模型收斂。隨著輪數的增加，兩種條件下訓練得到的損失趨于一致，對應的攻擊成功率無明顯差別。

3 實驗與分析

為評估本文算法的效果，與9種典型對抗樣本算法在3個圖像分類數據集上進行比較。對比算法包含白盒與黑盒算法，白盒算法為FGSM (Goodfellow 等，2015)、BIM(Kurakin 等，2016)、DeepFool(Moosavi-Dezfooli等，2016)、JSMA(Papernot 等，2016)、PerC-C&W (Zhao 等，2020)、APGD(Croce和Hein，2020)和AutoAttack(Croce和Hein，2020)，黑盒算法為OnePixel(Su 等，2019)和AdvGAN (Xiao 等，2018)。

3.1 評估數據集及模型

本文方法使用的優(yōu)化器為Adam，判別損失學習率為0.005，對抗損失學習率為0.01，采用異步優(yōu)化策略，即判別網絡每5輪進行1次優(yōu)化、生成網絡每輪進行優(yōu)化。兩個階段的迭代輪數均為100輪。評估數據集為CIFAR-10、Tiny-ImageNet和隨機抽取的 ImageNet數據集圖像。CIFAR-10數據集共10種類別，包含50 000幅訓練圖像和10 000幅測試圖像，分辨率為32 × 32像素。Tiny-ImageNet數據集共200種類別，包含100 000幅訓練圖像和10 000幅測試圖像，分辨率為64 × 64像素。隨機選取ImageNet數據集共10種類別，包含1 000幅圖像，分辨率裁剪為224 × 224像素。對抗模型為3種廣泛使用的圖像分類模型：VGG13、ResNet18和DenseNet121。實驗硬件平臺為 GeForce Nvidia RTX 2080Ti，軟件平臺為Ubuntu 19.10、Pytorch 1.6。

在客觀指標的評價上，使用ASR評價算法的對抗性能，通過比較對抗擾動前后圖像的MSE和SSIM衡量不同算法生成對抗樣本的客觀視覺感知性。MSE衡量對抗擾動的強度，SSIM從結構化信息角度評價對抗擾動對圖像的影響。ASR與SSIM數值越接近1越好，MSE數值越小越好。FGSM的擾動步長ε= 10，APGD與AutoAttack的擾動步長均為15。其余對比算法參數為原文開源代碼的默認參數。對比算法均設置最大迭代輪數。

3.2 攻擊效果對比分析

實驗對不同對抗樣本的攻擊效果進行對比與分析。不同方法在CIFAR-10和Tiny-ImageNet數據集上的ASR比較如表1和表2所示。

表2 不同方法在Tiny-ImageNet數據集的ASR比較Table 2 ASR comparison of different methods on Tiny-ImageNet dataset

從表1可以看出，在低分辨率數據集CIFAR-10上添加小幅度擾動，隨著擾動幅度的增強，ASR逐漸提升，與基于GAN的算法相差不超過3%，而在ResNet網絡上甚至超過了基于GAN的算法。原因是在分辨率較低的圖像上，注意力網絡生成的圖像重點區(qū)域較小，添加小幅擾動能降低模型的分類置信度，但仍輸出正確的結果。

表1 不同方法在CIFAR-10數據集的ASR比較Table 1 ASR comparison of different methods on CIFAR-10 dataset

從表2可以看出，隨著圖像分辨率的增長(Tiny-ImageNet、ImageNet)，注意力網絡提取的圖像重點區(qū)域增大，在小幅度擾動的情況下，本文方法的對抗攻擊成功率能夠與對比方法持平，相差不超過0.5%；另外由于攻擊成功率超過99%，微小的性能差別并不會影響實質攻擊效果。綜合比較，本文方法的攻擊成功率與當前方法近似，維持在同一水平。

3.3 視覺感知性對比分析

3.3.1 客觀指標分析

不同方法在CIFAR-10和Tiny-ImageNet數據集上的MSE比較如表3所示?？梢钥闯?，本文方法的MSE值大幅低于FGSM、BIM、PerC-C&W、APGD、AutoAttack和AdvGAN。DeepFool算法的MSE值遠低于其他算法，原因是Tiny-ImageNet數據集有200個類別，算法能夠找到更多的決策邊界，進而選擇更小的邊界距離，減小擾動的幅度。PerC-C&W的MSE遠大于其他方法，原因是算法并不在圖像的每一通道限制擾動幅度，而是限定在三通道上總的擾動幅度，導致其擾動數值分布不平均，MSE較大。OnePixel和JSMA對像素值的修改幅度劇烈，使得MSE數值偏大。這也反映了客觀的評價指標并不能充分體現(xiàn)主觀的感知性評價。APGD通過改進現(xiàn)有方法的不足，AutoAttack通過糅合多種方法提升對抗攻擊的成功率，但均沒有充分考慮擾動對圖像感知性的影響，故客觀感知性評價較低。綜上，在低、中分辨率數據集上對視覺感知性的客觀評價指標比較表明，本文方法的MSE值優(yōu)于大部分比較方法，僅在中分辨率數據集上高于DeepFool方法。

表3 不同方法的MSE比較Table 3 MSE comparison of different methods

結構相似性(SSIM)是一衡量兩幅圖像相似度的指標，其值越接近1，說明兩幅圖像越相似。不同方法在CIFAR-10和Tiny-ImageNet數據集上的SSIM比較如表4所示?？梢钥闯?，本文方法的SSIM較AdvGAN大幅提升，略高于DeepFool算法。

表4 不同方法的SSIM比較Table 4 SSIM comparison of different methods

3.3.2 主觀感知性比較

圖8為不同方法在CIFAR-10數據集上生成的對抗樣本比較，其中，為確保攻擊成功率，OnePixel方法修改的像素點為5個。圖8(j)為AdvGAN方法在擾動幅度Pmax= 10時生成的對抗樣本，圖8(k)和圖8(l)分別為本文方法在擾動幅度Pmax=20和Pmax=30時生成的對抗樣本?？梢钥闯觯疚姆椒ㄔ跀_動幅度Pmax=20時較擾動幅度Pmax= 10的AdvGAN方法仍有一定的優(yōu)勢。

圖8 不同方法在CIFAR-10數據集上生成的對抗樣本比較Fig.8 Comparison of different adversarial examples on CIFAR-10 ((a) original images;(b) FGSM;(c) BIM;(d) DeepFool；(e) PerC-C&W;(f) OnePixel;(g) JSMA;(h) APGD;(i) AutoAttack;(j) AdvGAN when Pmax= 10;(k) ours whenPmax= 20;(l) ours whenPmax= 30)

圖9為不同方法在Tiny-ImageNet數據集上的效果比較。其中，圖9(j)和圖9(k)分別為擾動幅度Pmax= 10時AdvGAN和本文方法生成的對抗樣本?？梢钥闯觯跀_動幅度相同情況下，與黑盒方法OnePixel和AdvGAN相比，本文生成擾動面積小，對抗紋理不明顯；與白盒方法中的FGSM、BIM和PerC-C&W方法相比，本文擾動紋理的感知性更低。

圖9 不同方法在Tiny-ImageNet數據集上生成的對抗樣本比較Fig.9 Comparison of different adversarial examples on Tiny-ImageNet((a) original images;(b) FGSM;(c) BIM;(d) DeepFool;(e) PerC-C&W;(f) OnePixel;(g) JSMA;(h) APGD;(i) AutoAttck;(j) AdvGAN when Pmax= 10;(k) ours when Pmax= 10)

在包含1 000幅挑選的ImageNet圖像數據集上對本文方法的視覺感知性進行測試，擾動幅度限制為25，在保持較高成功率的情況下，視覺感知效果如圖10所示?？梢钥闯?，1)限定最大擾動幅度為15時，本文方法的效果(圖10(k))與AdvGAN(圖10(j))相比，隨著分辨率的提升，對抗擾動的紋理對圖像信息、結構和視覺感知性產生的影響降低，但AdvGAN生成的對抗樣本在圖像邊緣產生了一定的虛化。2)在高分辨率圖像上與對比方法相比，本文方法在視覺感知性上低于FGSM、JSMA、AdvGAN算法，與BIM、DeepFool、PerC-C&W、OnePixel、APGD和AutoAttack算法相當。

圖10 不同方法在ImageNet數據集上生成的對抗樣本比較Fig.10 Comparison of different adversarial examples on ImageNet dataset((a) original images;(b) FGSM;(c) BIM;(d) DeepFool;(e) PerC-C&W;(f) OnePixel;(g) JSMA;(h) APGD;(i) AutoAttack;(j) AdvGAN;(k) ours)

3.4 參數敏感性分析與消融實驗

3.4.1 參數敏感性分析

對擾動生成產生影響的參數主要有擾動幅度Pmax、第1階段訓練參數和第2階段訓練參數。其中，第1階段訓練參數包括對抗損失權重α1=5、判別損失權重β1=10、感知損失權重γ1=1；第2階段訓練參數包括對抗損失權重α2=5、判別損失權重β2=1、感知損失權重γ2=1。實驗對第1、2階段的訓練參數進行敏感性分析，并對算法中各模塊對ASR的影響做消融實驗。選用數據集為Tiny-ImageNet，對抗模型為ResNet18，擾動最大幅值Pmax=10。

對于兩個階段的6個參數，分別對某一參數進行調整，固定其余參數，觀察算法ASR值的變化。對第1階段參數進行分析，結果如圖11(a)—(c)所示。從ASR變化的幅度可以看出，對抗損失權重α1對ASR影響較大，隨著α1增大，算法ASR逐漸增加，表明算法側重于對模型的攻擊性能。隨著判別損失權重β1和感知損失權重γ1的增加，ASR下降，模型趨于對擾動的分布進行優(yōu)化，對抗性能下降。在第1階段訓練結束后，不對判別網絡權重進行初始化，而是直接進行下一階段的訓練，結果如圖11(d)—(e)所示。第2階段的判別損失權重β2對ASR的影響較小。在該階段主要對生成網絡進行訓練，對抗損失權重α2對ASR產生較大影響。從圖11的數據觀察得到，若側重于對抗樣本的視覺感知性(降低對抗損失權重、提高判別損失權重)，則攻擊成功率有所下滑，體現(xiàn)出提升對抗樣本的攻擊成功率與減低其視覺感知性之間是矛盾的。若僅進行第1階段訓練，得到的攻擊成功率并不理想；第2階段對擾動進行優(yōu)化后，攻擊成功率得到提升。說明第2階段的功能是對第1階段使用固定擾動提取出的關鍵區(qū)域生成新的擾動，新生成的擾動更適應該區(qū)域所包含的圖像信息。

圖11 參數變化對ASR的影響Fig.11 The influence of α,β and γ on ASR ((a) α1-ASR line graph;(b) β1-ASR line graph;(c) γ1-ASR line graph;(d)α2-ASR line graph;(e)β2-ASR line graph;(f)γ2-ASR line graph)

3.4.2 消融實驗

參與第1階段訓練的模塊主要有感知網絡和注意力網絡，兩種模塊對ASR的影響如表5所示。

表5 不同模塊對ASR的影響Table 5 The influence of different modules on ASR

4 結論

本文分析了現(xiàn)有對抗樣本生成方法在視覺感知性上的不足，提出了全新的低感知對抗樣本生成方法，通過限定對抗樣本擾動生成的位置與面積，在保證攻擊率的情況下，顯著降低了對抗樣本的視覺感知性。最后通過定性和定量實驗，比較了本文算法與具有代表性的對抗樣本方法在攻擊成功率和視覺感知性上的性能，驗證了本文算法的有效性。

本文主要針對對抗樣本的視覺感知性進行研究，通過約束擾動的位置與分布提升了對抗樣本的視覺效果。下一步工作將關注于提升對抗樣本的攻擊成功率，增強攻擊的魯棒性。