針對深度學(xué)習(xí)的對抗攻擊綜述*

2021-05-15 09:56:26郭嘉寶彭鉞峰

密碼學(xué)報(bào) 2021年2期

劉會, 趙波, 郭嘉寶, 彭鉞峰

武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院, 武漢430072

1 引言

深度學(xué)習(xí)被廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、語音識別等多個(gè)領(lǐng)域并取得了重大突破.尤其在圖像識別和圖像分類的任務(wù)中, 深度學(xué)習(xí)具備非常高的準(zhǔn)確度, 甚至表現(xiàn)出了超越人類的工作能力.然而,即使深度神經(jīng)網(wǎng)絡(luò)通過模擬人類大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)取得了顯著的效果, 但是深度神經(jīng)網(wǎng)絡(luò)的理解方式與人類認(rèn)知仍然存在較大差異, 深度學(xué)習(xí)的工作原理缺乏可解釋性, 其輸出結(jié)果的可信性難以得到有效的保障.深度學(xué)習(xí)缺乏可解釋性由其自身結(jié)構(gòu)和運(yùn)行機(jī)理決定, 具體表現(xiàn)在以下3 個(gè)方面: (1) 深度神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量大、參數(shù)多; (2) 神經(jīng)網(wǎng)絡(luò)采用分層結(jié)構(gòu), 層次之間連接方式多樣; (3) 神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)樣本特征, 而許多特征人類無法理解.在探索深度學(xué)習(xí)的可解釋性、揭示深度學(xué)習(xí)的工作原理的過程中, Szegedy等人[1]發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)對加入特定擾動的圖像樣本表現(xiàn)出極高的脆弱性, 并將這種帶有對抗擾動的樣本稱之為“對抗樣本”(見圖1).

圖1 對抗樣本生成示例Figure 1 Adversarial example

在計(jì)算機(jī)視覺領(lǐng)域, 對抗樣本現(xiàn)象是指對輸入圖像加入人眼視覺難以感知的輕微擾動, 導(dǎo)致基于深度學(xué)習(xí)的圖像分類器以高置信度的方式輸出錯(cuò)誤的結(jié)果.在數(shù)字水印領(lǐng)域[2], 對抗擾動會影響嵌入模式的完整性, 使得水印無法檢測, 數(shù)字媒體的真實(shí)性無法得到有效驗(yàn)證.Sharif[3]通過優(yōu)化方法計(jì)算擾動并打印到眼鏡框上, 攻擊者只需要佩戴這種定制的眼鏡便可以成功欺騙人臉識別系統(tǒng), 獲得合法的訪問權(quán)限.對抗樣本的研究對解釋深度學(xué)習(xí)工作原理具有顯著的意義, 同時(shí)也極大促進(jìn)了基于深度學(xué)習(xí)安全攻防的發(fā)展.

本文從對抗攻擊的基本原理出發(fā), 重點(diǎn)調(diào)研了其在計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵技術(shù)和代表性成果, 特別探討了對抗攻擊在具體場景下的應(yīng)用價(jià)值, 進(jìn)一步揭示了對抗樣本對深度學(xué)習(xí)的安全威脅.通過對對抗攻擊的發(fā)展歷程進(jìn)行梳理, 探究該技術(shù)面臨的主要挑戰(zhàn), 并指出未來的發(fā)展前景.本文的主要貢獻(xiàn)如下:

(1) 系統(tǒng)分析了計(jì)算機(jī)視覺領(lǐng)域中對抗攻擊的典型算法, 并按擾動范圍、模型知識、攻擊目標(biāo)的針對性、攻擊頻次對對抗攻擊進(jìn)行分類, 提供這類算法的整體概述;

(2) 調(diào)研了對抗攻擊在具體場景下的實(shí)際應(yīng)用, 包括自然語言處理、語音識別、惡意軟件檢測、對抗樣本可解釋性等, 進(jìn)一步明確了對抗攻擊的研究對于深度學(xué)習(xí)的價(jià)值;

(3) 按對抗攻擊的發(fā)展歷程對其進(jìn)行詳細(xì)梳理, 探討了對抗攻擊面臨的主要挑戰(zhàn)和未來可能的發(fā)展方向.

本文整體架構(gòu)如下.第2 節(jié)主要介紹了對抗攻擊的基本知識和概念, 以及計(jì)算機(jī)視覺領(lǐng)域中常用數(shù)據(jù)集.第3 節(jié)按照擾動范圍、模型知識背景、攻擊針對性和攻擊頻次提出相應(yīng)的對抗攻擊分類方法.第4 節(jié)重點(diǎn)分析了對抗攻擊在計(jì)算機(jī)視覺領(lǐng)域中的8 類關(guān)鍵技術(shù).第5 節(jié)介紹了對抗攻擊在諸如自然語言處理、語音識別、惡意軟件檢測和可解釋性對抗樣本等領(lǐng)域的應(yīng)用.第6 節(jié)探討了對抗樣本攻擊面臨的主要挑戰(zhàn)和未來的發(fā)展前景.第7 節(jié)總結(jié)全文.

2 背景知識

2.1 深度學(xué)習(xí)

深度學(xué)習(xí)是由大量帶有激活函數(shù)的神經(jīng)元組成的深層次的神經(jīng)網(wǎng)絡(luò).神經(jīng)元接受上層輸入信號后進(jìn)行加權(quán)連接, 通過激活函數(shù)處理產(chǎn)生神經(jīng)元的輸出并進(jìn)行信號的下層傳遞, 從而構(gòu)建了深層次的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).深度神經(jīng)網(wǎng)絡(luò)能夠在不依賴于專家知識的情況下自動學(xué)習(xí)原始數(shù)據(jù)的顯隱性特征, 其形式化表達(dá)如公式(1)所示.

這里f(i)(x,θi) 是第i 層網(wǎng)絡(luò)的函數(shù), i = 1,2,··· ,k , 其中k 是深度神經(jīng)網(wǎng)絡(luò)的層數(shù).在計(jì)算機(jī)視覺領(lǐng)域, 卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是最常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一.CNN 由輸入層、卷積層、池化層和全連接層組成, 其中卷積層通過權(quán)重共享進(jìn)行卷積運(yùn)算, 池化層通過對主要特征采樣調(diào)整信號規(guī)模.手寫字體識別模型LeNet-5[4]誕生于1998 年, 是最早的CNN 之一.近年來, 隨著ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC) 的興起, 涌現(xiàn)了大量優(yōu)秀的CNN 模型, 代表性的研究成果包括:

(1) AlexNet[5]: 由2012 年ILSVRC 冠軍獲得者Krizhevsky 等人提出, 總共有8 個(gè)帶權(quán)重的網(wǎng)絡(luò)層, 其中前5 層為卷積層, 后3 層為全連接層;

(2) VGG[6]: 由2014 年ILSVRC 第二名獲得者Simonyan 等人提出, 以VGG-16 和VGG-19 為代表, 具有網(wǎng)絡(luò)層次深、泛化能力強(qiáng)等特點(diǎn);

(3) GoogLeNet[7]: 由2014 年ILSVRC 冠軍獲得者Szegedy 等人提出, 通過引入Inception 模塊來提高網(wǎng)絡(luò)內(nèi)部計(jì)算資源的利用率;

(4) ResNet[8]: 由2015 年ILSVRC 冠軍獲得者He 等人提出, 通過改變深度神經(jīng)網(wǎng)絡(luò)的連接方式簡化網(wǎng)絡(luò)訓(xùn)練, 單個(gè)模型在ImageNet 數(shù)據(jù)集的準(zhǔn)確率高達(dá)95.51%;

(5) SeNet[9]: 由2017 年(最后一屆)ILSVRC 冠軍獲得者Hu 等人提出, 該模型關(guān)注通道之間的關(guān)系, 并提出SE 模塊對學(xué)習(xí)到的特征進(jìn)行自適應(yīng)重構(gòu).

2.2 對抗攻擊

對抗樣本是指通過對原始樣本人為加入人眼視覺難以感知的細(xì)微擾動所形成的輸入樣本, 該樣本能使深度學(xué)習(xí)模型以高置信度的方式給出錯(cuò)誤的輸出.通過生成對抗樣本以達(dá)成逃避基于深度學(xué)習(xí)的檢測服務(wù)的攻擊方式被稱為對抗攻擊.對抗攻擊的流程如圖2 所示.

圖2 對抗攻擊流程圖Figure 2 Flow chart of adversarial attacks

在圖像分類任務(wù)中, 用戶輸入一張圖像至已訓(xùn)練好的深度學(xué)習(xí)分類器中, 分類器會給出相應(yīng)類別的預(yù)測結(jié)果.當(dāng)遭受對抗攻擊后, 原始樣本被加入人眼難以察覺的擾動, 形成的對抗樣本能夠誤導(dǎo)分類器給出其他類別的預(yù)測結(jié)果.對抗攻擊的形式化表達(dá)如公式(2)所示.

這里, 深度學(xué)習(xí)分類器f 分類原始樣本x 至類別l, 分類加入擾動δ 所形成的對抗樣本x′至類別l′, D 是樣本的取值范圍.對抗攻擊是指在成功誤導(dǎo)深度學(xué)習(xí)分類器的前提下求解擾動量的最小值, 本質(zhì)是一個(gè)約束最優(yōu)化問題.

2.3 樣本距離度量

對抗攻擊是指通過加入人眼難以察覺的擾動, 生成能夠成功欺騙深度學(xué)習(xí)分類器以達(dá)到逃逸攻擊的目的. 為了使對抗樣本更具欺騙性, 對抗攻擊中目標(biāo)函數(shù)的定義顯得尤為重要. 目標(biāo)函數(shù)的定義涉及到對原始樣本與對抗樣本的距離度量, 以量化樣本之間的相似性. 在許多經(jīng)典的對抗攻擊算法中, Lp被廣泛用于度量樣本間的p 范式距離, 其定義如公式(3)所示.

這里L(fēng)0, L2和L∞是3 個(gè)最常用的樣本距離度量指標(biāo). L0是指對抗擾動的數(shù)量, L2是指原始樣本與對抗樣本的歐幾里得距離, L∞表示對抗擾動的最大改變強(qiáng)度.

2.4 數(shù)據(jù)集

對抗攻擊通常需要對相同數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn), 以評估和對比攻擊方法的性能. 在圖像分類領(lǐng)域,ImageNet、MNIST 和CIFAR-10 是3 個(gè)應(yīng)用非常廣泛的開源數(shù)據(jù)集. ImageNet 是根據(jù)WordNet 層次結(jié)構(gòu)組織的圖像數(shù)據(jù)集. 該數(shù)據(jù)集數(shù)量龐大、類別豐富,是迄今為止最優(yōu)秀的圖像數(shù)據(jù)集,著名的ILSVRC挑戰(zhàn)賽基于此數(shù)據(jù)集展開對抗攻擊和防御. MNIST 數(shù)據(jù)集來自美國國家標(biāo)準(zhǔn)與技術(shù)研究所, 是一個(gè)手寫體數(shù)字(0–9) 數(shù)據(jù)庫. 該數(shù)據(jù)集包含60 000 個(gè)訓(xùn)練樣本和10 000 個(gè)測試樣本, 數(shù)字已標(biāo)準(zhǔn)化于大小為28×28 的圖像中. CIFAR-10 是由Geoffrey Hinton 的學(xué)生Alex Krizhevsky 和Vinod Nair 等人整理搭建的小型數(shù)據(jù)集, 用于普通物體識別. 該數(shù)據(jù)集包含60 000 張大小為32×32×3 的圖像, 其中訓(xùn)練樣本50 000 張、測試樣本10 000 張. CIFAR-10 數(shù)據(jù)集總共分為10 個(gè)類別, 分別是飛機(jī)、汽車、鳥、貓、鹿、狗、蛙、馬、船和卡車. MNIST 和CIFAR-10 內(nèi)容簡潔、尺寸小, 易于對抗攻擊的實(shí)施, 因此經(jīng)常被作為評價(jià)對抗攻擊性能的圖像數(shù)據(jù)集.

3 對抗攻擊分類

攻擊者通常會根據(jù)不同的場景設(shè)計(jì)相應(yīng)的對抗攻擊方案. 歸納對抗攻擊方法的特性, 我們從擾動范圍、攻擊者掌握目標(biāo)模型知識的情況、攻擊目標(biāo)的針對性、攻擊實(shí)施的頻次等4 個(gè)方面對對抗攻擊進(jìn)行分類.

(1) 擾動范圍

a. 全局像素?cái)_動攻擊

全局像素?cái)_動攻擊是指攻擊者生成對抗樣本過程中通過對圖像所有像素增加合適的擾動, 以達(dá)到欺騙深度學(xué)習(xí)模型的目的. 利用梯度下降生成對抗樣本的方法是一種典型的全局像素?cái)_動攻擊, 具有更強(qiáng)的可遷移性.

b. 部分像素?cái)_動攻擊

部分像素?cái)_動攻擊是指攻擊者通過權(quán)衡各個(gè)像素的擾動優(yōu)先級、并選擇最佳的擾動組合生成對抗樣本, 以達(dá)到欺騙深度學(xué)習(xí)模型的目的. 該方法有時(shí)僅須改變一個(gè)像素值, 但生成的對抗樣本通常不具備可遷移性.

(2) 模型知識

a. 白盒攻擊

白盒攻擊是指攻擊者在已知目標(biāo)模型所有知識的情況下生成對抗樣本的一種攻擊手段, 這些知識包括網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)重和超參、激活函數(shù)類型、訓(xùn)練數(shù)據(jù)等. 這種攻擊方案實(shí)施起來較為容易, 但多數(shù)場景下攻擊者難以獲得深度學(xué)習(xí)模型的內(nèi)部知識, 因此應(yīng)用場景非常有限.

b. 黑盒攻擊

黑盒攻擊是指攻擊者在不知道目標(biāo)模型任何內(nèi)部信息的情況下實(shí)施的攻擊方案. 這類攻擊者通常扮演普通用戶獲得基于深度學(xué)習(xí)的應(yīng)用服務(wù)的分類結(jié)果, 通過應(yīng)用服務(wù)提供的輸出對該模型實(shí)施對抗攻擊.由于不需要掌握目標(biāo)模型, 黑盒攻擊更容易在低控制權(quán)場景下部署和實(shí)施.

(3) 針對性

a. 定向攻擊

定向攻擊旨在將深度學(xué)習(xí)分類器誤導(dǎo)至攻擊者指定的類別. 例如在人臉識別系統(tǒng)中, 攻擊者需要將未授權(quán)的人臉偽裝成已授權(quán)的人臉, 以實(shí)現(xiàn)非法授權(quán). 定向攻擊一方面需要降低深度學(xué)習(xí)對輸入樣本真實(shí)類別的置信度, 同時(shí)應(yīng)盡可能提升攻擊者指定類別的置信度, 因此攻擊難度較大.

b. 非定向攻擊

非定向攻擊旨在將深度學(xué)習(xí)分類器誤導(dǎo)至錯(cuò)誤的類別即可, 而不指定具體的類別. 例如在監(jiān)控系統(tǒng)中,攻擊者希望通過生成對抗樣本實(shí)現(xiàn)逃逸攻擊, 達(dá)到規(guī)避檢測的目的. 非定向攻擊僅需要盡可能降低深度學(xué)習(xí)對輸入樣本真實(shí)類別的置信度, 因此攻擊難度相對較小.

(4) 攻擊頻次

a. 單次攻擊

單次攻擊是指攻擊者只需要一次計(jì)算就能夠生成成功欺騙深度學(xué)習(xí)模型的對抗樣本, 即通過一次計(jì)算找到約束條件下的最優(yōu)解. 一般情況下, 單次攻擊的效率高, 但生成的對抗樣本魯棒性較差.

b. 迭代攻擊

迭代攻擊通常需要多次計(jì)算逼近約束條件下的最優(yōu)解. 該攻擊方案較單次攻擊需要更長的運(yùn)行時(shí)間,但通常能得到誤分類率更高、魯棒性更強(qiáng)的對抗樣本.

4 關(guān)鍵技術(shù)研究進(jìn)展

對抗樣本的發(fā)現(xiàn)源自于對深度學(xué)習(xí)可解釋性的探索. Szegedy 等人[1]發(fā)現(xiàn)加入特定擾動的圖像樣本能夠輕易欺騙深度神經(jīng)網(wǎng)絡(luò), 并提出“對抗樣本” 這一概念. 這個(gè)有趣的發(fā)現(xiàn)促進(jìn)了研究人員對對抗樣本引發(fā)的安全問題的思考. 攻擊者通過對輸入樣本加入少量擾動便能有效實(shí)施逃逸攻擊, 輕易規(guī)避基于深度學(xué)習(xí)服務(wù)的安全檢測. 這一節(jié)我們按各個(gè)技術(shù)提出的時(shí)間順序介紹了近年來計(jì)算機(jī)視覺領(lǐng)域中對抗攻擊研究的代表性成果, 并按照第3 節(jié)所介紹的對抗攻擊分類方法對這些攻擊算法進(jìn)行分類, 分類結(jié)果見表1.

表1 對抗攻擊分類Table 1 Taxonomy of adversarial attacks

(1) L-BFGS 攻擊

在探索深度學(xué)習(xí)可解釋性的研究中, Szegedy[1]等人證明了深度學(xué)習(xí)對加入特定擾動的輸入樣本表現(xiàn)出極強(qiáng)的脆弱性, 并由此發(fā)現(xiàn)了對抗樣本的存在, 提出了第一個(gè)針對深度學(xué)習(xí)的對抗攻擊方案L-BFGS.L-BFGS 攻擊的定義如公式(4)所示.

這里c 是大于0 的常量, x′是對輸入樣本x 增加擾動δ 所形成的對抗樣本, Jθ為損失函數(shù). L-BFGS 攻擊所生成的對抗樣本的質(zhì)量嚴(yán)重依賴于參數(shù)c 的選取, 因此該方法通常需要花費(fèi)大量的時(shí)間尋找合適的參數(shù)c 以求解約束最優(yōu)化問題. 利用L-BFGS 攻擊生成的對抗樣本具有良好的遷移性, 大多數(shù)情況下在不同類型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、不同數(shù)據(jù)集訓(xùn)練的模型中同樣適用. 該方法的提出引起了學(xué)術(shù)界和工業(yè)界對深度學(xué)習(xí)可信性的思考, 開啟了針對深度學(xué)習(xí)的對抗攻擊和防御等安全問題的研究.

(2) FGSM 攻擊

Goodfellow 等人[10]認(rèn)為對抗樣本的存在源自于深度神經(jīng)網(wǎng)絡(luò)的高維度線性特性, 高維度的線性模型必然存在對抗樣本. 基于這一觀點(diǎn), Goodfellow 等人設(shè)計(jì)了FGSM (fast gradient sign method) 對抗攻擊, 該方法的形式化表達(dá)如公式(5)所示.

這里ε 是常量, sign 表示符號函數(shù), 對抗擾動為δ. FGSM 攻擊采用后向傳播求解神經(jīng)網(wǎng)絡(luò)損失函數(shù)的梯度. 該方法僅需一次梯度更新得到對抗擾動, 屬于單次攻擊的類別, 因此對抗攻擊實(shí)施的效率非常高,但對抗樣本的不可見性難以保證. 在此基礎(chǔ)上, 許多改進(jìn)的方案相繼提出. 考慮到一次梯度更新生成的對抗樣本擾動強(qiáng)度較大, Kurakin 等人[11]提出了基礎(chǔ)迭代法I-FGSM, 通過多個(gè)小步梯度更新優(yōu)化擾動強(qiáng)度. Rozsa 等人[12]提出FGVM(fast gradient value method) 攻擊, 直接利用損失函數(shù)的梯度值δ =?xJθ(x,l) 作為擾動強(qiáng)度生成對抗樣本, 為每張圖像提供多個(gè)可能的對抗性擾動.

(3) JSMA 攻擊

JSMA (Jacobian-based saliency map attack) 攻擊[13]由Papernot 等人于2016 年提出. 不同于FGSM, JSMA 攻擊是一種利用前向傳播計(jì)算輸入擾動對神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的影響. JSMA 攻擊包括計(jì)算深度神經(jīng)網(wǎng)絡(luò)的雅可比矩陣、構(gòu)建對抗顯著映射和選擇擾動像素三個(gè)步驟. 深度神經(jīng)網(wǎng)絡(luò)f 對輸入樣本x 的雅可比矩陣計(jì)算方法如公式(6)所示.

為量化像素值的改變對目標(biāo)分類器的影響, JSMA 攻擊提出了利用雅可比矩陣構(gòu)建對抗顯著映射, 其表達(dá)式如公式(7)所示.

這里i 是輸入特征. 輸入特征值越大, 說明基于深度學(xué)習(xí)的目標(biāo)分類器對該特征的擾動越敏感. 因此, 在擾動像素的選擇階段, JSMA 攻擊選擇對抗顯著值最大的像素加入擾動, 以此生成對抗樣本欺騙深度學(xué)習(xí)分類器. 實(shí)驗(yàn)證明, 當(dāng)改變原始樣本中4.02% 的特征時(shí), JSMA 攻擊可以獲得97% 的攻擊成功率. 由于雅可比矩陣計(jì)算依賴于神經(jīng)網(wǎng)絡(luò)的輸入樣本, 不同的輸入樣本計(jì)算得到的雅可比矩陣差異較大, 因此JSMA 攻擊通常不具備可遷移性.

(4) DeepFool 攻擊

考慮到深度神經(jīng)網(wǎng)絡(luò)對對抗樣本表現(xiàn)出極強(qiáng)的不穩(wěn)定性, Moosavi-Dezfooli 等人[14]提出了一種計(jì)算對抗擾動的方法DeepFool, 通過計(jì)算原始樣本與對抗樣本的決策邊界的最小距離來量化深度學(xué)習(xí)分類器面向?qū)构舻聂敯粜? 給定一個(gè)反射分類器f(x)=ωTx+b,其對應(yīng)的仿射平面Γ={x:ωTx+b=0},那么, 改變分類器對原始樣本x0分類結(jié)果的最小擾動δ 等于x0到仿射平面Γ 的正交投影, 最小擾動δ的計(jì)算方式如公式所示.

通過整體迭代, DeepFool 攻擊能夠得到對抗擾動的近似最小值δ, 其表達(dá)如公式(9)所示.

這里δi是指第i 輪迭代中加入的對抗擾動, 可由公式(8)計(jì)算得到. DeepFool 攻擊通過每一輪的像素修改將原始樣本推向決策邊界, 直至跨越?jīng)Q策邊界形成對抗樣本. 相比于FGSM 攻擊、JSMA 攻擊, DeepFool攻擊生成的對抗樣本平均擾動最小. 然而, DeepFool 攻擊是以最小距離使原始樣本跨越?jīng)Q策邊界形成對抗樣本, 因此無法將深度學(xué)習(xí)分類器誤導(dǎo)至指定的類別, 即不具備定向攻擊的能力.

(5) Universal Perturbation 攻擊

不同于針對單個(gè)圖像的對抗攻擊, Universal Perturbation 攻擊[15]提出了一種通用的對抗擾動計(jì)算方法. 該方法生成的擾動具有很強(qiáng)的泛化能力, 能夠跨數(shù)據(jù)集、跨模型實(shí)施對抗攻擊. Universal Perturbation 攻擊借鑒了DeepFool 攻擊的思想, 利用對抗擾動將大多數(shù)原始樣本推出決策邊界, 其定義如公式(10)所示.

這里通用的對抗擾動δ 必須滿以下約束:

這里參數(shù)ε 控制對抗擾動δ 的擾動強(qiáng)度, α 控制對圖像庫X 實(shí)施對抗攻擊的失敗率. 在計(jì)算Universal Perturbation 的整體迭代過程中, Moosavi-Dezfooli 等人采用DeepFool 算法計(jì)算每一個(gè)輸入樣本的最小擾動并更新對抗擾動δ, 直至大多數(shù)(P ≥1 ?α) 的對抗樣本能夠成功欺騙深度學(xué)習(xí)分類器. Universal Perturbation 攻擊的存在揭示了深度神經(jīng)網(wǎng)絡(luò)決策邊界之間的幾何關(guān)聯(lián). 攻擊者不需要直接攻擊目標(biāo)模型, 而是在本地生成泛化能力強(qiáng)的對抗擾動, 以此遷移至目標(biāo)模型實(shí)施對抗攻擊, 實(shí)現(xiàn)在低控制權(quán)場景下對抗攻擊的部署和開展.

(6) One-Pixel 攻擊

One-Pixel 攻擊[16]通過僅改變原始圖像中一個(gè)像素點(diǎn)實(shí)現(xiàn)針對深度神經(jīng)網(wǎng)絡(luò)的對抗攻擊, 是一種基于前向傳播的攻擊方案. 該方法對擾動像素的位置信息和擾動強(qiáng)度進(jìn)行編碼, 基于差分進(jìn)化算法利用深度神經(jīng)網(wǎng)絡(luò)的反饋結(jié)果引導(dǎo)對抗擾動的進(jìn)化方向, 直至對抗擾動收斂至穩(wěn)定的狀態(tài). One-Pixel 攻擊的定義如公式(12)所示.

這里fl′(x′) 表示深度學(xué)習(xí)分類器f 識別對抗樣本x′為類別l′的概率, d=1 表示僅改變一個(gè)像素值. 該問題本質(zhì)上是一個(gè)單約束的優(yōu)化問題. 考慮到暴力求解該優(yōu)化問題的時(shí)間代價(jià)高, Su 等人[16]引入差分進(jìn)化算法求解最優(yōu)的對抗擾動. 這里采用的差分進(jìn)化算法不包括交叉算子, 其變異算子如公式(13)所示.

這里xi(g +1) 表示第g +1 代的候選解, 該候選解是由對抗擾動的坐標(biāo)x ?y 和改變強(qiáng)度RGB 組成.F = 0.5 表示縮放因子, r1, r2, r3 是隨機(jī)數(shù). 由于差分進(jìn)化算法不需要知道深度神經(jīng)網(wǎng)路的梯度信息, 僅依賴輸出類別的概率分布引導(dǎo)進(jìn)化方向, 因此One-Pixel 攻擊屬于黑盒攻擊. 此外, 該攻擊方案不要求深度神經(jīng)網(wǎng)絡(luò)可微分, 適用于多種深度學(xué)習(xí)分類器. 基于進(jìn)化算法的優(yōu)化問題計(jì)算依賴于種群規(guī)模和迭代次數(shù), 為盡可能獲得全局最優(yōu)解, 種群規(guī)模和迭代次數(shù)的設(shè)定相對較大. One-Pixel 攻擊通常需要在較大的種群規(guī)模中通過多輪迭代尋求對抗擾動的最優(yōu)解, 因此攻擊效率較低.

(7) C&W 攻擊

防御性蒸餾[17]是利用知識蒸餾將復(fù)雜模型所學(xué)的“知識” 遷移到結(jié)構(gòu)簡單的神經(jīng)網(wǎng)絡(luò)中, 通過避免攻擊者直接接觸原始神經(jīng)網(wǎng)絡(luò)達(dá)到防御對抗攻擊的目的. 針對防御性蒸餾, Carlini 和Wagner 聯(lián)合提出了在L0, L2和L∞范式下的一組有效的攻擊方法C&W 攻擊[18]. 通過對比這3 種范式下的實(shí)驗(yàn)結(jié)果,他們認(rèn)為, L2范式下的C&W 攻擊具備最強(qiáng)的攻擊能力. L2范式的C&W 攻擊如公式(14)所示.

這里, f 的定義如下:

這里Z(x) 是神經(jīng)網(wǎng)絡(luò)softmax 層的輸出, 超參k 約束該攻擊找到具有高置信度且錯(cuò)誤類別為t 的對抗樣本x′. C&W 攻擊表現(xiàn)出了較L-BFGS、FGSM、JSMA 和DeepFool 更好的攻擊效果, 同時(shí)具備破壞防御性蒸餾的能力. 然而, C&W 攻擊需要花費(fèi)大量的時(shí)間尋找合適的參數(shù)以約束擾動的可見性, 屬于迭代攻擊的類別, 因此攻擊效率相對較低.

(8) Luo&Liu 攻擊

對抗攻擊的加入應(yīng)盡可能不被人眼視覺察覺, 因此樣本距離度量需要充分考慮人眼視覺系統(tǒng). Luo 等人[19]通過調(diào)研人眼視覺系統(tǒng)發(fā)現(xiàn), 人眼對平坦區(qū)域的擾動較紋理區(qū)域更敏感, 在加入對抗擾動時(shí)應(yīng)考慮擾動像素周圍的紋理特征. 而圖像的紋理特征可以通過方差量化, 量化方法如公式(16)所示.

這里SD(pi) 表示以擾動像素pi為中心的n×n 窗口區(qū)域內(nèi)的方差. 考慮到擾動強(qiáng)度對人眼視覺的影響,Luo 等人[19]建立了與擾動強(qiáng)度和紋理特征有關(guān)的樣本距離度量方法, 如公式(17)所示.

這里m 表示加入擾動的數(shù)量, χ 是擾動強(qiáng)度, D(x,x′) 表示原始樣本與對抗樣本的視覺距離. 為了增強(qiáng)對抗樣本的魯棒性, Luo&Liu 攻擊構(gòu)建了可微分的目標(biāo)函數(shù)如公式(18)所示.

這里i 表示除目標(biāo)類別之外的其他類別, Pi是指深度學(xué)習(xí)分類器將樣本識別為類別i 的概率. 通過重構(gòu)約束函數(shù)和目標(biāo)函數(shù), Luo 等人提出了一種新的對抗攻擊方案, 如公式(19)所示.

這里Dmax表示樣本間的最大距離, 由攻擊者手動輸入. Luo&Liu 攻擊通過評估每個(gè)像素值的擾動優(yōu)先級, 利用貪婪算法得到近似最優(yōu)的像素?cái)_動組合, 形成對抗擾動. 相比于Lp范式距離度量, 該方案的約束函數(shù)考慮了擾動強(qiáng)度、數(shù)量和紋理特征, 生成的對抗樣本具有更強(qiáng)的隱蔽性. 然而, 由于像素優(yōu)先級的評估需要遍歷原始樣本的所有像素及其對應(yīng)的擾動強(qiáng)度, 大量的時(shí)間開銷使得該攻擊方案效率低下.

5 對抗攻擊應(yīng)用

對抗攻擊的提出源自于深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用和探索. 事實(shí)上, 對抗攻擊充分利用了深度神經(jīng)網(wǎng)絡(luò)與人類在理解輸入樣本時(shí)先天存在的差異, 通過加入擾動擴(kuò)大這種差異, 從而導(dǎo)致深度學(xué)習(xí)模型給出不同于人類感知的判斷. 因此, 對抗攻擊不僅僅局限于計(jì)算機(jī)視覺領(lǐng)域, 文本、音頻、代碼等其他數(shù)據(jù)類型也同樣面臨對抗攻擊的安全威脅. 第5 節(jié)介紹了對抗攻擊在諸如自然語言處理[20]、語音識別[21,22]、惡意軟件檢測[23,24]等領(lǐng)域的應(yīng)用, 特別介紹了對抗攻擊技術(shù)對深度神經(jīng)網(wǎng)絡(luò)工作原理的探索, 強(qiáng)調(diào)該技術(shù)在揭示深度學(xué)習(xí)可解釋性的應(yīng)用價(jià)值[1,25].

5.1 自然語言處理

對抗攻擊對深度學(xué)習(xí)的威脅在自然語言處理領(lǐng)域廣泛存在. 不同于圖像相鄰像素相關(guān)性高, 文本的離散性使其難以優(yōu)化, 而且文本對某些單詞非常敏感, 一個(gè)單詞的簡單替換也可能導(dǎo)致整體語義發(fā)生變化.Li 等人[20]充分利用文本的離散性研制了一套高效生成對抗文本的工具TextBugger, 其攻擊流程主要包括選擇單詞擾動位置、添加擾動兩個(gè)階段.

在選擇單詞擾動位置時(shí), TextBugger 針對白盒攻擊和黑盒攻擊的場景分別提出了單詞擾動優(yōu)先級的評估方法. 在白盒攻擊的場景下, TextBugger 利用雅克比矩陣評估文本擾動對目標(biāo)分類器的影響. 在黑盒攻擊的場景下, TextBugger 通過計(jì)算移除文本種某一該單詞后檢測器對文本預(yù)測結(jié)果置信度的變化, 以此尋找對分類結(jié)果影響最大的單詞.

在添加擾動過程中, TextBugger 定義了5 種常用的文本擾動方法: (1) 插入: 在單詞中隨機(jī)插入一個(gè)空格; (2) 刪除: 隨機(jī)刪除單詞中的一個(gè)字母; (3) 交換: 隨機(jī)交換鄰近的兩個(gè)字母; (4) Sub-C: 將單詞中的一個(gè)字母替換為外觀相似的字符(比如o 替換成0, l 替換成數(shù)字1); (5) Sub-W: 在詞空間中尋找鄰近的單詞替代(比如foolish 替換成silly). TextBugger 嘗試對擾動優(yōu)先級高的單詞選擇不同的擾動策略, 直到成功欺騙基于深度學(xué)習(xí)的文本分類器.

TextBugger 攻擊針對特定白盒模型, 如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM) 等表現(xiàn)出良好效果. 在針對如Google Perspective、IBM Classifier、Facebook fastText 等5 類基于深度學(xué)習(xí)的文本分類的應(yīng)用中, TextBugger 同樣具有非常高的誤分類率, 進(jìn)而證明了對抗攻擊在自然語言處理領(lǐng)域具有顯著的現(xiàn)實(shí)威脅.

5.2 語音識別

相比于視覺, 人類對語音領(lǐng)域的擾動更為敏感, 而且這些擾動在無線傳輸信道中容易受到干擾[21,22].因此, 對抗攻擊在語音識別領(lǐng)域的不可察覺性和魯棒性面臨嚴(yán)峻挑戰(zhàn). Yao 等人[21]利用聽覺掩碼的心理聲學(xué)模型生成音頻對抗樣本, 從魯棒性和不可察覺性兩方面定義的對抗攻擊的目標(biāo)函數(shù)如公式(20)所示.

5.3 惡意軟件

惡意軟件檢測系統(tǒng)本質(zhì)上執(zhí)行二分類任務(wù), 即區(qū)別惡意軟件和非惡意軟件. 基于深度學(xué)習(xí)的惡意軟件檢測系統(tǒng)[23,24]通常需要完成惡意代碼特征提取和特征學(xué)習(xí)兩個(gè)過程. 對抗攻擊通過對代碼特征人為加入少量擾動以誤導(dǎo)惡意軟件檢測系統(tǒng), 使其按攻擊者的意圖給出分類結(jié)果. 因此, 生成惡意軟件的對抗樣本主要有以下兩步: 評估擾動對分類器的影響和選擇擾動生成對抗樣本. 基于此, Grosse 等人[23]借鑒了JSMA 攻擊的算法, 利用雅可比矩陣計(jì)算代碼特征的擾動優(yōu)先級, 然后加入當(dāng)前擾動優(yōu)先級最大的特征直至成功規(guī)避檢測系統(tǒng). 為保證對抗性樣本的可用性, 該方案對擾動做了如下限制: (1) 對抗擾動僅影響應(yīng)用程序中單行代碼的特性; (2) 僅擾動與AndroidManifest.xml 清單文件相關(guān)的特性. 這種攻擊方法通過兩個(gè)限制條件確保了惡意軟件的對抗樣本保留其原始功能, 同時(shí)能有效規(guī)避檢測系統(tǒng). 由于雅可比矩陣的計(jì)算需要知道目標(biāo)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 因此這種攻擊方法屬于白盒攻擊.

5.4 可解釋性對抗樣本

對抗樣本的提出源自于對深度學(xué)習(xí)可解釋性的探索, 而后發(fā)展成針對基于深度學(xué)習(xí)檢測服務(wù)的逃逸攻擊及其防御. 而在文獻(xiàn)[25] 中, Ilyas 等人將對輸入樣本的特征劃分為魯棒性特征和非魯棒性特征. 魯棒性特征是指人類視覺可以理解的特征(例如鼻子、眼睛、嘴等), 其他特征為非魯棒性特征. 基于這一劃分,他們利用對抗攻擊解釋了對抗樣本存在的原因: 對抗脆弱性由非魯棒性特性引起. 為證明這一結(jié)論, Ilyas等人[25]構(gòu)建了以下兩個(gè)實(shí)驗(yàn).

實(shí)驗(yàn)1: 構(gòu)建由魯棒性特征組成的訓(xùn)練樣本并訓(xùn)練深度學(xué)習(xí)模型. 如果該模型的魯棒性更強(qiáng), 說明通過刪除非魯棒性特征能夠提升模型魯棒性.

實(shí)驗(yàn)2: 構(gòu)建由非魯棒性特征組成的訓(xùn)練樣本并訓(xùn)練深度學(xué)習(xí)模型. 如果該模型有效, 說明深度學(xué)習(xí)模型使用到了非魯棒性特征, 對抗樣本是有價(jià)值的特征.

為構(gòu)建由魯棒性特征組成的訓(xùn)練樣本, 實(shí)驗(yàn)1 對輸入樣本集(X,L) 展開對抗攻擊, 得到對抗樣本集(X′,L′). 由于對抗攻擊破壞了輸入樣本X 的非魯棒性特征、保留其魯棒性特征, 因此可以構(gòu)建魯棒性特征樣本集(X′,L). 實(shí)驗(yàn)分別利用魯棒性特征樣本集(X′,L) 和原始樣本集(X,L) 訓(xùn)練同一深度學(xué)習(xí)模型. 結(jié)果表明, 利用魯棒性特征樣本集(X′,L) 訓(xùn)練的模型魯棒性更強(qiáng), 從而證明刪除樣本中的非魯棒性特征能夠有效提升深度學(xué)習(xí)模型的魯棒性.

為構(gòu)建由非魯棒性特征組成的訓(xùn)練樣本, 實(shí)驗(yàn)2 利用對抗攻擊方法得到對抗樣本集(X′,L′), 并以此作為非魯棒性特征樣本集, 此時(shí)可以認(rèn)為對抗樣本X′保留了類別L 的魯棒性特征和類別L′的非魯棒性特征. 實(shí)驗(yàn)利用非魯棒性特征樣本集(X′,L′) 訓(xùn)練深度學(xué)習(xí)模型, 并在原始測試樣本集進(jìn)行精確度測試.結(jié)果發(fā)現(xiàn)在CIFAR 數(shù)據(jù)集的精確度高達(dá)43%, 說明深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了輸入樣本的非魯棒性特征.

該方法巧妙地利用對抗攻擊從正反兩方面證明了輸入樣本的非魯棒性特征是有價(jià)值的特征, 而不是有限樣本過擬合的產(chǎn)物, 進(jìn)而解釋了對抗樣本現(xiàn)象是由輸入樣本的非魯棒性特性引起. 如果不明確地阻止深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入樣本的非魯棒性特征, 深度學(xué)習(xí)將始終面臨對抗攻擊的安全威脅.

6 挑戰(zhàn)與展望

對抗樣本現(xiàn)象吸引了學(xué)術(shù)界和產(chǎn)業(yè)界的共同關(guān)注. 隨著對抗攻擊技術(shù)的發(fā)展, 對抗樣本的防御手段得到重視. 主流的對抗樣本防御技術(shù)包括蒸餾神經(jīng)網(wǎng)絡(luò)[17]、對抗訓(xùn)練[26,27]、梯度掩蓋[28,29]等, 但這些防御手段大多最終都被成功破解或被證明無效[30,31]. 對抗樣本的檢測技術(shù)作為一種防御手段的補(bǔ)充應(yīng)運(yùn)而生, 例如, 利用深度神經(jīng)網(wǎng)絡(luò)對合法樣本與對抗樣本進(jìn)行二分類[32], 在深度神經(jīng)網(wǎng)絡(luò)中加入檢測機(jī)制[33],打造平臺以評估樣本面向?qū)构舻聂敯粜缘萚34]. 但這些檢測技術(shù)無法完全區(qū)分合法樣本和對抗樣本,對抗攻擊的安全隱患仍然存在. 因此, 在深度學(xué)習(xí)的可解釋性沒有完全揭曉之前, 針對深度學(xué)習(xí)的對抗攻擊仍然值得重視.

對抗攻擊技術(shù)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的成績, 其未來可能的發(fā)展方向至少包括以下3 個(gè)方面.一是生成具備高魯棒性[19,35,36]、隱蔽性[19,37]和可遷移性[15,38]的對抗樣本, 保障對抗攻擊在復(fù)雜環(huán)境和低控制權(quán)場景下的部署和實(shí)施; 二是注重對抗攻擊的應(yīng)用價(jià)值[20–24,39], 例如, 生成病毒的對抗樣本規(guī)避惡意軟件檢測系統(tǒng)[23,24], 生成惡意文件的對抗樣本攻擊文件分類器[39]等; 三是利用對抗攻擊技術(shù)探索深度神經(jīng)網(wǎng)絡(luò)的工作原理, 從本質(zhì)上揭示深度學(xué)習(xí)的可解釋性[1,25].

7 結(jié)語

本文介紹了針對深度學(xué)習(xí)的對抗攻擊基本原理和分類方法, 重點(diǎn)選取了計(jì)算機(jī)視覺領(lǐng)域中8 類主流的對抗攻擊算法進(jìn)行詳細(xì)解讀和分析, 并著重介紹了對抗攻擊在自然語言處理、語音識別、惡意軟件檢測和解釋對抗樣本現(xiàn)象等4 個(gè)方面的應(yīng)用. 回顧其發(fā)展歷程, 對抗樣本現(xiàn)象的發(fā)現(xiàn)源于對深度學(xué)習(xí)可解釋性的探索, 初期的對抗攻擊方法重點(diǎn)關(guān)注攻擊行為的可用性, 而后向可遷移性、隱蔽性、魯棒性等多方面發(fā)展, 同時(shí)注重對抗攻擊在各種復(fù)雜環(huán)境和低控制權(quán)場景下的實(shí)際應(yīng)用, 并逐步延申至針對深度學(xué)習(xí)檢測服務(wù)的逃逸攻擊. 在總結(jié)其發(fā)展歷程的基礎(chǔ)上, 本文分析了對抗攻擊面臨的主要挑戰(zhàn), 并指出了該技術(shù)未來3 個(gè)重要的研究方向.