王舒雅,劉強(qiáng)春,陳云芳,王福俊
1.南京郵電大學(xué) 通達(dá)學(xué)院,江蘇 揚(yáng)州 225127
2.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023
3.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106
大數(shù)據(jù)應(yīng)用時(shí)代,人工智能技術(shù)[1]再次成為學(xué)術(shù)界和工業(yè)界關(guān)注的焦點(diǎn)。人工智能的實(shí)際應(yīng)用離不開深度學(xué)習(xí)的發(fā)展。目前,深度學(xué)習(xí)采用的模型主要是神經(jīng)網(wǎng)絡(luò)模型,最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對于圖像中物體的分類正確率甚至超越了人眼的識別率,但是近些年也有研究表明,訓(xùn)練完好、泛化能力較強(qiáng)的的卷積神經(jīng)網(wǎng)絡(luò)易受對抗樣本的干擾,致使其在分類預(yù)測階段產(chǎn)生很大的分類偏差。這一有趣的現(xiàn)象首次被Szegedy 等人[2]發(fā)現(xiàn),在干凈的圖片樣本上加入人為設(shè)計(jì)的微小擾動(dòng)向量時(shí),便會使模型產(chǎn)生誤分類。隨著對該現(xiàn)象研究的不斷深入,發(fā)現(xiàn)不僅卷積神經(jīng)網(wǎng)絡(luò)會遭受到對抗樣本的影響,很多機(jī)器學(xué)習(xí)模型也會被對抗樣本“攻破”。因此,對抗樣本威脅了人工智能的落地應(yīng)用。尤其是在計(jì)算機(jī)視覺領(lǐng)域,為了獲得更好的表征學(xué)習(xí)能力,都會選用卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)特征提取模型,但卻給攻擊者留下了攻擊空間。一方面,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提高了社會服務(wù)水平,幫助人類更好的生活;另一方面,卷積神經(jīng)網(wǎng)絡(luò)本身的脆弱性,使得對抗樣本可能對模型產(chǎn)生攻擊。為了解決這兩者之間的矛盾,研究對抗樣本的生成方法具有重要意義。
目前對抗攻擊方法大部分局限于尋找基于梯度迭代的對抗擾動(dòng),以此最大化模型的預(yù)測損失,致使模型分類錯(cuò)誤。但是此類對抗樣本正被越來越多的防御策略“狙擊”,模型的魯棒性也在顯著提升。針對這一問題,本文跳出傳統(tǒng)構(gòu)造擾動(dòng)的對抗框架,提出一種基于圖片語義信息的對抗樣本生成方法。該方法利用人類視覺認(rèn)知系統(tǒng)和卷積神經(jīng)網(wǎng)絡(luò)在物體識別過程中體現(xiàn)的形狀偏差特性,將RGB 顏色模型下的圖片擾動(dòng)變換至CMY 或HSI 顏色模型下,該轉(zhuǎn)變過程稱之為對抗變換。經(jīng)過對抗變換生成的對抗樣本不會限制圖像修改的像素?cái)?shù)量,但是可以很好地保留圖片的語義信息,不影響人眼的再次識別。該方法是一種黑盒攻擊方法,其不需要目標(biāo)模型的網(wǎng)絡(luò)參數(shù)、損失函數(shù)或者相關(guān)的結(jié)構(gòu)信息,在樣本生成過程中,其僅依靠顏色模型的變換和顏色通道的隨機(jī)擾動(dòng),避免了以往黑盒攻擊存在的劣勢。
對抗樣本(adversarial example)是指在原數(shù)據(jù)集中通過人工添加肉眼不可見或在經(jīng)處理不影響整體的肉眼可見的細(xì)微擾動(dòng)所形成的樣本,這類樣本會導(dǎo)致訓(xùn)練好的模型以高置信度給出與原樣本不同的分類輸出[3]。
對于對抗樣本的生成,最直接的方法是通過解決約束優(yōu)化問題迭代生成對抗擾動(dòng),從而最大化模型的預(yù)測誤差。目前,學(xué)術(shù)界提出了多種對抗樣本的生成方法,表1對比了六種常用的對抗樣本生成方法。
表1 六種對抗樣本生產(chǎn)方法的對比Table 1 Comparison of six adversarial examples production method
攻擊的類型多種多樣,從不同角度出發(fā),對抗樣本的攻擊可以分為不同種類。
從對抗樣本是否需要指定攻擊的類目出發(fā),攻擊可分為:無目標(biāo)攻擊和目標(biāo)攻擊。(1)無目標(biāo)攻擊:不指定具體類目,只要能夠讓模型識別錯(cuò)誤即可。(2)目標(biāo)攻擊:不僅需要模型能夠識別錯(cuò)誤,還要能夠錯(cuò)誤分類到指定類別。
從對抗樣本是否知道模型的具體細(xì)節(jié)(例如網(wǎng)絡(luò)結(jié)構(gòu)、模型參數(shù)等)出發(fā),攻擊可分為白盒攻擊和黑盒攻擊。(1)白盒攻擊:攻擊者能夠獲取到模型的所有信息。(2)黑盒攻擊:攻擊者無法獲取到模型的任何信息,只能參考模型對于圖片的輸出標(biāo)簽來生成對抗樣本。
顏色模型是計(jì)算機(jī)科學(xué)解釋和表示自然界色彩的方法。根據(jù)不同研究場景,確立了不同的模型標(biāo)準(zhǔn)。一般情況下,一種顏色模型用一個(gè)三維坐標(biāo)系和一個(gè)子空間來表示,所有坐標(biāo)值都限定在[0,1]之間,每種顏色是這個(gè)子空間的一個(gè)單點(diǎn),顏色模型也稱為彩色空間。
1.2.1 RGB顏色模型
在圖像處理任務(wù)中,圖像的顏色信息最開始都是用RGB 顏色模型表示的。紅(Red)、綠(Green)、藍(lán)(Blue)作為該顏色模型的三基色,可以將三基色按一定比例疊加產(chǎn)生新的顏色。
1.2.2 CMY顏色模型
CMY是另外一種顏色模型,其分別代表青色(Cyan)、品紅(Magenta)、黃色(Yellow)三種油墨色。CMY 顏色模型與RGB 顏色模型之間可以通過簡單的轉(zhuǎn)換得到,假定所有的顏色值都已歸一化到[0,1]范圍,具體轉(zhuǎn)換如下式:
1.2.3 HSI顏色模型
不同于RGB顏色模型,HSI顏色模型更符合人的視覺系統(tǒng)感知色彩的方式,以色調(diào)(Hue)、飽和度(Saturation)和亮度(Intensity)三種基本特征量來表示顏色。Hue 是色調(diào),表示顏色在人視覺上的感受,如紅色、綠色、藍(lán)色等,它也可以表示一定范圍的顏色,如暖色、冷色等。S是飽和度,表示顏色的純度。I是亮度,對應(yīng)顏色的明亮程度。
在HSI顏色模型的三個(gè)分量中,圖像的彩色信息不受I分量影響,而H和S分量會影響人對于顏色的視覺感受。HSI 顏色模型和RGB 顏色模型只是同一物理量的不同表示方法,因而它們之間存在著轉(zhuǎn)換關(guān)系,RGB轉(zhuǎn)換為HSI的公式如下:
Szegedy 等人[2]首次提出了對抗樣本現(xiàn)象并且設(shè)計(jì)了L-BFGS 方法,通過簡單的最優(yōu)化過程,對一個(gè)能夠正確分類的輸入圖像作微小擾動(dòng)。這種方法是通過優(yōu)化遍歷流行網(wǎng)絡(luò)表示并在輸入空間中發(fā)現(xiàn)對抗樣本,然而對抗樣本存在流行空間中的低概率區(qū)域,因此很難通過對輸入點(diǎn)附近簡單的隨機(jī)采樣獲得?;趯箻颖粳F(xiàn)象,以限制擾動(dòng)向量維度的攻擊方法被逐漸提出,其中包括I-FGSM[9]、梯度下降映射法[10](Projected Gradient Descent,PGD)和C&W 攻擊[11]。這些經(jīng)典的對抗樣本生成方法大都將擾動(dòng)來源限制在損失函數(shù)或者目標(biāo)函數(shù)的梯度上,這樣可以增大模型對于樣本的預(yù)測誤差,實(shí)現(xiàn)有效地攻擊。針對此類樣本帶來的威脅,研究者根據(jù)擾動(dòng)向量生成的相關(guān)特性,提出了防御策略。Song等人[12]提出了輸入重構(gòu)方法,其利用PixelCN 網(wǎng)絡(luò)將惡意的對抗樣本數(shù)據(jù)轉(zhuǎn)化為自然樣本數(shù)據(jù),使得對抗樣本重新回到訓(xùn)練樣本集的數(shù)據(jù)分布狀態(tài)。Papernot等人[13]提出防御蒸餾型網(wǎng)絡(luò),首先通過訓(xùn)練集訓(xùn)練出一個(gè)基礎(chǔ)網(wǎng)絡(luò),然后利用基礎(chǔ)網(wǎng)絡(luò)的預(yù)測輸出作為樣本標(biāo)簽訓(xùn)練第二個(gè)網(wǎng)絡(luò),最后利用兩個(gè)網(wǎng)絡(luò)進(jìn)行綜合預(yù)測。Huang等人[14]提出的對抗訓(xùn)練也能有效地提升模型的魯棒性,降低對抗擾動(dòng)對模型的干擾。除了上述的對抗攻擊方法,Engstrom等人[15]提出對原始圖片的對抗性平移和旋轉(zhuǎn)可以愚弄卷積神經(jīng)網(wǎng)絡(luò),但是旋轉(zhuǎn)后的圖片在人眼看來并不自然;Brown 等人[16]提出了對抗性補(bǔ)丁方法,該方法需要額外生成補(bǔ)丁,并將補(bǔ)丁打在干凈圖片上,導(dǎo)致原圖的部分內(nèi)容被遮擋,影響視覺效果。Zhao等人[17]利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來生成對抗樣本,首先在數(shù)據(jù)集上訓(xùn)練WGAN,其中生成器部分用于對抗樣本的生成,將高斯噪聲圖片輸入到生成器中,在視覺上可以得到與目標(biāo)圖片相似的對抗樣本。此外,還訓(xùn)練了一個(gè)轉(zhuǎn)換模型,用來衡量對抗樣本和目標(biāo)圖片之間的誤差,并將誤差傳遞給需要優(yōu)化的生成模型。雖然,在視覺上利用模型生成的對抗樣本更加自然,但是模型的設(shè)計(jì)和訓(xùn)練耗時(shí)較多,且需要大量的數(shù)據(jù)支撐。與此類似,Papernot 等人[18]為了提升對目標(biāo)模型攻擊的成功率,用相同的數(shù)據(jù)集訓(xùn)練可替代模型,并依據(jù)可替代模型的相關(guān)參數(shù)及結(jié)構(gòu)信息構(gòu)造對抗樣本,最后完成對目標(biāo)模型的攻擊。這個(gè)過程同樣也是耗時(shí)的,并且可替代模型只是做到了近似,和目標(biāo)模型在決策邊界上仍然存在很大差距。Brendel 等人[19]提出了一種基于邊界的對抗樣本生成方法,首先找到一個(gè)不限制閾值大小的對抗樣本,然后依據(jù)一定的策略將該樣本沿著原本的方向移動(dòng),直到該對抗樣本離原樣本最近,但依然保持對抗性。此過程需要不斷地查詢網(wǎng)絡(luò)模型的類別輸出,但在現(xiàn)實(shí)攻擊環(huán)境中,這種查詢手段會被限制,因此該攻擊方式不具備通用性。
可見,現(xiàn)存的對抗攻擊方法由于被防御策略“狙擊”而限制了攻擊能力;而攻擊能力較強(qiáng)的方法會對原始圖片做大幅修改,甚至出現(xiàn)了偽影和遮擋物,嚴(yán)重影響了視覺效果;利用模型產(chǎn)生的對抗樣本需要花費(fèi)大量精力做數(shù)據(jù)支持和模型訓(xùn)練。因此為了避免這些方法中的缺陷,本文不再利用目標(biāo)模型的相關(guān)結(jié)構(gòu)和參數(shù)信息,立足于圖像色彩空間提出了基于圖像語義信息的對抗樣本生成方法。這種方法利用人眼視覺識別中的形狀偏向特性,僅通過擾動(dòng)圖片在顏色模型下的色彩通道來生成對抗樣本,該方法可以完好地保留圖片的語義信息,在不影響感官識別的情況下對模型實(shí)現(xiàn)黑盒攻擊。
下式定義了通過圖像對抗變換生成語義對抗樣本的問題:
其中,Ω(?)表示人類視覺系統(tǒng)產(chǎn)生的視覺標(biāo)簽,F(xiàn)(?)表示模型給出的標(biāo)簽,生成的對抗樣本需要保持原始語義信息不變。因此人眼能夠準(zhǔn)確識別出目標(biāo)物體,但此類樣本依然會導(dǎo)致目標(biāo)模型產(chǎn)生誤分類。此問題可以看做是在保持原始圖像視覺標(biāo)簽的情況下,將任何一張給定的圖像變換到致使模型錯(cuò)誤分類但包含原始圖像內(nèi)容的自然圖像空間。這種對抗轉(zhuǎn)換在不知道目標(biāo)模型內(nèi)部細(xì)節(jié)參數(shù)的情況下可以完成有效的黑盒攻擊,并且可以避開最先進(jìn)的防御策略,對進(jìn)一步提升模型的魯棒性提供了參考。此外這種新的對抗樣本生成思路有助于進(jìn)一步揭示卷積模型和人類視覺系統(tǒng)的相似性,也有助于分析模型泛化性能的本質(zhì)。
人類視覺認(rèn)知和卷積神經(jīng)網(wǎng)絡(luò)的識別過程都表現(xiàn)出了相同的特性——形狀偏好特性。在所有影響人類視覺認(rèn)知的因素中,研究發(fā)現(xiàn)物體的形狀是最關(guān)鍵的因素。卷積網(wǎng)絡(luò)在特征提取過程中,利用多層卷積不斷地提取圖像物體的邊緣輪廓信息,最后綜合提取出的卷積映射圖給出最后的分類決策。顯然,物體的形狀包含了更多有助于識別的語義信息。
形狀偏好現(xiàn)象是人類認(rèn)知發(fā)展過程中一個(gè)重要的現(xiàn)象,其對人類的學(xué)習(xí)和思維能力的培養(yǎng)都產(chǎn)生著巨大的影響。研究者們分別在詞匯學(xué)習(xí)任務(wù)、分類任務(wù)和歸納推理任務(wù)中研究了人類認(rèn)知過程中的形狀偏好現(xiàn)象。Landau 等人[20]通過實(shí)驗(yàn)說明了成人在分類任務(wù)中更偏向于將形狀相似的物體歸為一類,表現(xiàn)出形狀偏好特性。
深度神經(jīng)網(wǎng)絡(luò)可以出色地完成一些諸如圖像識別與分類、目標(biāo)檢測等復(fù)雜的實(shí)際任務(wù),但是這些任務(wù)的完成需要依托復(fù)雜的模型結(jié)構(gòu),并且網(wǎng)絡(luò)學(xué)習(xí)的解決方案也會變得更加不可解釋。這樣,網(wǎng)絡(luò)既表現(xiàn)出在解決實(shí)際問題方面呈現(xiàn)出的性能優(yōu)越性,又體現(xiàn)出了不可知性,整個(gè)網(wǎng)絡(luò)是一個(gè)“黑箱”的狀態(tài)。Ritter 等人[21]利用人類認(rèn)知心理學(xué)的發(fā)展、研究和實(shí)驗(yàn)過程對神經(jīng)網(wǎng)絡(luò)的可解釋性進(jìn)行了探討。認(rèn)知心理學(xué)方面的研究表明,學(xué)習(xí)新單詞時(shí)人們傾向于為形狀相似的物體而不是顏色、質(zhì)地和大小相似的物體分配相同的名稱。由于深度神經(jīng)網(wǎng)絡(luò)在一些特定任務(wù)中的表現(xiàn)可以和人類媲美,兩者之間的關(guān)聯(lián)也變得越來越緊密,因此可以通過人類認(rèn)知心理學(xué)的視角解讀神經(jīng)網(wǎng)絡(luò),從而發(fā)現(xiàn)網(wǎng)絡(luò)中隱藏的計(jì)算特性。
卷積神經(jīng)網(wǎng)絡(luò)可以在圖像分類任務(wù)中表現(xiàn)出超越人類的特性,但是已被證明其易受到對抗樣本的干擾。雖然添加了對抗擾動(dòng)的樣本圖片和原始圖片保持著相同的視覺標(biāo)簽,但是卷積網(wǎng)絡(luò)卻會以很高的分類置信度將其錯(cuò)誤分類?,F(xiàn)有的基于目標(biāo)函數(shù)梯度且以增大分類模型損失函數(shù)為目的的對抗樣本生成方法正被越來越多的防御策略“狙擊”。因此,為了生成更具威脅性的對抗樣本,從人類和模型在物體識別方面表現(xiàn)出的形狀偏好特性出發(fā),依據(jù)CMY顏色模型與RGB顏色模型的關(guān)聯(lián)性,通過擾動(dòng)原像素通道實(shí)現(xiàn)對抗變換,保持圖片中的目標(biāo)物體不變,僅僅修改了色彩通道信息,因此可以保留圖片本身的語義信息。
通常情況下,一張圖像會以RGB顏色模式表示,利用對抗變換技術(shù)將圖片從RGB模式轉(zhuǎn)換為CMY模式,轉(zhuǎn)換以后的圖片依然能夠保持完整的語義信息。從RGB 和CMY 顏色模型的轉(zhuǎn)換公式可以看出,CMY 顏色模型下的各個(gè)通道相當(dāng)于RGB的“負(fù)”向轉(zhuǎn)換。那么給定一張?jiān)嫉母蓛魣D片樣本X,其中Xi,n∈[0,1]表示第n個(gè)顏色通道的第i個(gè)像素點(diǎn),在RGB 顏色模型下,n為3 表示有三個(gè)通道,每個(gè)像素點(diǎn)都被歸一化到區(qū)間[0,1]。因此,基于CMY變換的語義對抗樣本可以定義為,在轉(zhuǎn)換過程中,原像素較亮的地方會變得暗淡,較暗的地方會變得光亮。由于這種對抗變換對原始顏色通道做了大幅修改,因此轉(zhuǎn)變過后的樣本不需要增加額外的色彩偏移擾動(dòng)就可以完成對抗攻擊。
圖1 展示了對抗轉(zhuǎn)換過程,整個(gè)過程分三個(gè)階段。首先分離RGB 顏色模型下的通道,然后將各自通道轉(zhuǎn)換成CMY 顏色模型下的表示,最后進(jìn)行通道合并。不同于以往對抗樣本需要尋找到盡量小的對抗擾動(dòng),該方法更關(guān)注圖片的語義表示。對抗變換會在原始圖片上帶來較大的顏色改變,但不影響人眼的識別。
圖1 CMY對抗樣本生成框架Fig.1 CMY adversarial example generating framework
在眾多顏色模型中,HSI顏色模型更容易被人類視覺所理解和感知,因此本文將在HSI顏色模型中進(jìn)一步研究對抗變換方法。在該模型中色調(diào)與飽和度分量都能較大程度地影響圖像的顏色,而亮度分量在模型中的作用是保持圖像內(nèi)容的完整性,即保持圖片內(nèi)物體的主要形狀特性,因此將亮度分量從色調(diào)和飽和度分量中分離出來。為了生成符合人眼視覺語義理解的對抗樣本,本文通過僅改變色調(diào)和飽和度信息的方式來改變圖片的色彩,分別使用xH、xS和xI來表示一張圖像的色調(diào)、飽和度和亮度分量。對于一張給定的圖片,將其從RGB顏色模型變換到HSI模型,并且采用迭代的方式擾動(dòng)色調(diào)和飽和度分量,擾動(dòng)次數(shù)的增加會帶來色彩偏移量的增加,并且修改了圖像本身的像素信息。從卷積模型本身設(shè)計(jì)的局限性[22]可知,模型只擬合了圖像空間的部分?jǐn)?shù)據(jù)空間,而擾動(dòng)使得對抗樣本超出了模型對訓(xùn)練集數(shù)據(jù)分布的擬合范圍。另外卷積模型只關(guān)注圖片本身的數(shù)字統(tǒng)計(jì)特性[23],而沒有真正學(xué)習(xí)到圖片本身的語義概念,因此這兩個(gè)分量的色彩偏移量使得它能夠愚弄分類模型?;贖SI顏色變換的語義對抗樣本定義如下:
在對抗樣本生成過程中通過保持I分量不變來確定圖片的語義信息,并且隨機(jī)擾動(dòng)色調(diào)和飽和度部分。這樣修改后的圖片雖然能成功愚弄分類模型,但是對抗樣本卻攜帶了大量的可視化噪聲,使得人眼視覺不夠平滑和自然。為了得到更加自然的對抗樣本,將所有像素的色相和飽和度分量偏移相同的量。但是在顯著增加飽和度分量時(shí),對抗樣本將過于色彩化,在顯著降低飽和度分量時(shí),對抗樣本又會變成灰度圖像。為了控制飽和度分量的變化,將對抗樣本定義為解決如下問題:
其中,δH和δS都是標(biāo)量,色調(diào)分量的變化呈現(xiàn)圓周式,即色調(diào)1 等于色調(diào)0。因此本文將色調(diào)分量對1 取模,將其映射到[0,1]之間,飽和度分量也會被裁剪限制在[0,1]之間。為了使擾動(dòng)向量盡量微小且沒有突出異常值,將從正態(tài)分布中產(chǎn)生δH和δS的隨機(jī)擾動(dòng)量。
算法1基于HSI顏色空間的對抗樣本生成算法。
該算法已知一個(gè)待攻擊目標(biāo)分類模型F,干凈的圖片樣本x和算法的迭代次數(shù)N。首先將處于RGB顏色模型下的干凈圖片轉(zhuǎn)換到HSI顏色空間,并分別將色調(diào)(H)、飽和度(S)、亮度(I)分量賦值給xH、xS、xI。在每一次算法迭代過程中δH和δS均是可調(diào)參數(shù),其中δH是從正態(tài)分布[0,1]中獲得的擾動(dòng)量,δS是從正態(tài)分布中獲得的擾動(dòng)量。根據(jù)獲得的擾動(dòng)量,在色調(diào)和飽和度分量上做相應(yīng)的對抗變換,最后查詢模型的輸出是否改變了分類結(jié)果。若已經(jīng)改變則返回對抗樣本,若沒有改變則進(jìn)行下一次迭代直至達(dá)到迭代次數(shù)N。這種方法在攻擊時(shí)不需要任何目標(biāo)網(wǎng)絡(luò)內(nèi)部的參數(shù)或者結(jié)構(gòu)信息,只需要查詢樣本的分類標(biāo)簽,因此該方法可以看做是黑盒攻擊方法。
數(shù)據(jù)集:采用CIFAR10數(shù)據(jù)集[24]作為攻擊方法的測試集,由50 000張訓(xùn)練集圖片和10 000張測試集圖片構(gòu)成。每張圖片的大小是32×32×3,其包含三個(gè)顏色通道。具體地,CIFAR10 數(shù)據(jù)集含有10 個(gè)分類:飛機(jī)、轎車、鳥、貓、鹿、狗、青蛙、房子、船、卡車,每一種類別都是包括5 000 張訓(xùn)練圖像和1 000 張測試圖像。選取每個(gè)類別的測試集作為原始干凈圖像,通過本文提出的方法將這些圖像變成具有攻擊能力的對抗樣本,隨后在預(yù)訓(xùn)練模型上實(shí)施攻擊,探測新方法的攻擊能力。
模型:實(shí)驗(yàn)?zāi)P瓦x用VGG16 網(wǎng)絡(luò)作為目標(biāo)攻擊模型,其在CIFAR10數(shù)據(jù)集中得到了很好的預(yù)訓(xùn)練。如圖2所示,網(wǎng)絡(luò)共有5個(gè)卷積段,每個(gè)卷積段包含2至3個(gè)卷積層,每個(gè)卷積層都用3×3的小卷積來代替大卷積。這樣在加深網(wǎng)絡(luò)層數(shù)的同時(shí)可以盡量減少參數(shù)量,并且可以獲得更大的感受野,提升模型特征提取能力。每個(gè)卷積段的結(jié)尾都會連接一個(gè)最大池化層來縮小圖片尺寸,在模型的最后是3層全連接層,綜合提取卷積層獲得的特征,最后使用softmax 函數(shù)得到相應(yīng)的類別標(biāo)簽。由于深度的增加和小卷積核的使用,VGG16網(wǎng)絡(luò)可以在測試集上得到很好的泛化效果,實(shí)現(xiàn)很高的分類正確率。
圖2 VGG16網(wǎng)絡(luò)模型Fig.2 VGG16 network model
攻擊分類模型并統(tǒng)計(jì)模型的分類正確率是測試對抗攻擊的常用手段。因此,分別依據(jù)CMY 和HSI 顏色模型實(shí)施對抗變換,在CIFAR10測試集上生成相應(yīng)的對抗樣本,然后將對抗樣本作為目標(biāo)模型VGG16 網(wǎng)絡(luò)的輸入,探測模型的識別成功率。除此之外,還對基于對抗訓(xùn)練的VGG16模型的魯棒效果進(jìn)行了研究。本實(shí)驗(yàn)利用基于損失函數(shù)梯度擾動(dòng)(FGSM)生成的對抗樣本作為訓(xùn)練集參與模型訓(xùn)練,經(jīng)過對抗訓(xùn)練的VGG16 網(wǎng)絡(luò)對于該類擾動(dòng)具備了很強(qiáng)的魯棒效果。表2 直觀地展示了VGG16預(yù)訓(xùn)練模型以及相應(yīng)對抗訓(xùn)練模型在樣本圖片上的識別率,其識別率越低表示對抗樣本具有更高的攻擊成功率。
表2 模型分類識別率Table 2 Identification rate of model classification %
實(shí)驗(yàn)發(fā)現(xiàn),Pretrained-VGG16網(wǎng)絡(luò)在干凈的測試集中獲得了94.3%的識別率,同時(shí)經(jīng)過對抗訓(xùn)練的Adversarial-VGG16網(wǎng)絡(luò)也能獲得90.7%的識別率,這表明基礎(chǔ)模型是個(gè)訓(xùn)練得當(dāng)?shù)目蓽y試模型,能保證一定的識別基準(zhǔn)率。而當(dāng)Pretrained-VGG16網(wǎng)絡(luò)分別遭受CMY變換和HSI變換對抗樣本的攻擊時(shí),其識別率大幅度下降,分別降至11.6%和5.4%。這說明經(jīng)過良好訓(xùn)練并且在測試集上能獲得較高識別率的模型并不能很好地泛化到語義對抗樣本中。對抗樣本在攻擊擁有防御措施的Adversarial-VGG16 模型時(shí),其識別率較干凈測試圖片也下降至12.3%和8.9%,可見這種防御策略給模型帶來的魯棒性只針對基于梯度的對抗擾動(dòng),而對于基于對抗變換生成的擾動(dòng)策略,其沒有防御能力。另外,本文還利用不同樣本集對VGG16 模型進(jìn)行遷移訓(xùn)練,圖3 展示了模型在進(jìn)行微調(diào)時(shí),對抗樣本量和模型識別率的關(guān)聯(lián)性。
圖3(a)展示了僅用CMY變換對抗樣本對網(wǎng)絡(luò)進(jìn)行微調(diào)時(shí)模型的識別率。隨著樣本量的增加,模型對于CMY 變換對抗樣本的識別率會顯著增強(qiáng),但是對于干凈樣本的識別率會有所降低,并且對于HSI-shifted的識別率基本保持不變。當(dāng)僅用HSI-shifted對抗樣本對模型進(jìn)行微調(diào)時(shí),圖3(b)展現(xiàn)了相似的特性。圖3(c)展示了使用CMY變換和HSI變換對模型進(jìn)行微調(diào)后的結(jié)果,可以發(fā)現(xiàn)模型對兩者的識別率均有提高,但是干凈樣本的識別率仍然會降低。當(dāng)把兩種類別的對抗樣本和干凈樣本都用于模型的微調(diào)時(shí),模型會在保持干凈圖片識別率的情況下提升對于對抗樣本的識別率,如圖3(d)所示。這表明網(wǎng)絡(luò)模型只會對出現(xiàn)頻率較高的樣本空間做出更好的特征擬合,這無疑限制了模型的實(shí)際應(yīng)用能力。
圖3 CMY變換和HSI變換樣本對網(wǎng)絡(luò)進(jìn)行微調(diào)Fig.3 CMY transform and HSI transform samples fine-tune network
擾動(dòng)次數(shù)N在基于HSI變換的對抗樣本生成中扮演重要角色,因此需要進(jìn)一步研究擾動(dòng)次數(shù)對攻擊成功率的影響。實(shí)驗(yàn)仍然選用CIFAR10 的測試集作為干凈樣本,預(yù)訓(xùn)練的VGG16 作為待攻擊的目標(biāo)模型。由于實(shí)驗(yàn)測試集的原始圖片尺寸為32×32×3,尺寸較小且待攻擊模型是常見深度為16 層的卷積神經(jīng)網(wǎng)絡(luò),因此實(shí)驗(yàn)中的最大擾動(dòng)次數(shù)被設(shè)定為100次,在[0,100]的區(qū)間內(nèi)觀測對抗樣本攻擊成功率與迭代次數(shù)的關(guān)系。對抗變換在每一次擾動(dòng)中,HSI 顏色模型下的H 和S 分量都會疊加隨機(jī)擾動(dòng)值并且保持I 分量不做變化,隨機(jī)擾動(dòng)值是來自正態(tài)分布產(chǎn)生的隨機(jī)數(shù),伴隨著迭代次數(shù)的增加,圖片的擾動(dòng)量也會增加。在圖4 中發(fā)現(xiàn)經(jīng)過1 次擾動(dòng)迭代后,數(shù)據(jù)測試集中將近15%的圖片已經(jīng)完成了對抗轉(zhuǎn)換,成為了具有攻擊能力的對抗樣本,隨著迭代次數(shù)的不斷增加,對抗樣本的攻擊成功率也在穩(wěn)步上升,直到迭代次數(shù)達(dá)到100時(shí),對抗攻擊成功率達(dá)到94.6%??梢?,對抗樣本的攻擊成功率和實(shí)驗(yàn)的擾動(dòng)次數(shù)關(guān)聯(lián)很大,較多的迭代次數(shù)保證了較高的攻擊成功率,但是隨機(jī)擾動(dòng)值的增加也會使得圖像色彩的偏移性更大,而卷積模型在基于顏色通道擾動(dòng)的對抗變換上也更容易表現(xiàn)出不魯棒性。
圖4 迭代攻擊成功率Fig.4 Iterative attack success rate
將圖片轉(zhuǎn)換到HSI顏色模型下,然后在H分量和S分量中不斷增加擾動(dòng)因子,擾動(dòng)因子δH從正態(tài)分布[0,1]中取值,δS從正態(tài)分布中取值,其中N是算法總迭代步數(shù),i是當(dāng)前迭代值,用視覺效果展示擾動(dòng)因子對于對抗樣本的影響。從圖5可以看出,原圖片是一張船的圖片,在H分量和S分量的疊加擾動(dòng)下,原圖經(jīng)過不同的對抗變換生成不同的對抗樣本。這些對抗樣本雖然在感官上色彩不一,但仍然能識別出圖片中船的模樣,這說明經(jīng)過對抗變換的圖片仍然保留了語義信息。
圖5 擾動(dòng)因子對于對抗變換的影響Fig.5 Effect of perturbation factor on adversarial transformation
圖片經(jīng)過對抗變換,H分量和S分量的值變小時(shí),圖片會褪去鮮艷的色彩,對抗樣本整體呈現(xiàn)出暗淡的黑白色;當(dāng)兩個(gè)分量的值越來越大時(shí),對抗樣本逐漸色彩鮮明化。另外,S分量的變化更受擾動(dòng)因子δS影響,S分量的變化也更能影響人的視覺識別,因此在每次迭代擾動(dòng)中,會將從正態(tài)分布獲得的擾動(dòng)值加在圖片的每個(gè)像素值中,并且隨著擾動(dòng)次數(shù)i的遞增,擾動(dòng)值的獲取區(qū)間也在不斷增大,因此較容易得到偏移量更大的擾動(dòng)值。擾動(dòng)因子的這些限制使對抗樣本不會出現(xiàn)較為突出的異常像素區(qū)域,在視覺上光滑的,且不影響人眼對圖片物體的正常識別。
圖6 展示了利用對抗變換在CIFAR10 數(shù)據(jù)集上生成相應(yīng)對抗樣本的實(shí)例,圖中的首行代表原始的干凈樣本,并配有相應(yīng)的視覺標(biāo)簽,中間和末行代表利用CMY變換和HSI 變換方法生成的對抗樣本。CIFAR10 數(shù)據(jù)集圖片的大小是32×32,可視化分辨率較低,從圖中可以發(fā)現(xiàn)基于顏色模型的對抗變換對于背景信息的修改相對較多,但是仍然較好地保留了圖片中物體的形狀特性,即保留了圖片的語義信息,人眼在視覺上能夠準(zhǔn)確地識別出目標(biāo)物。
圖6 對抗樣本視覺效果Fig.6 Adversarial sample visual effect
盡管卷積網(wǎng)絡(luò)在干凈樣本上能獲得較強(qiáng)的泛化性能,但面對語義對抗樣本時(shí)卻顯得異常脆弱,表現(xiàn)出不魯棒性。因此可以認(rèn)為分類模型對于數(shù)據(jù)的學(xué)習(xí)過程是比較片面的,其只學(xué)習(xí)到了圖像本身的數(shù)字統(tǒng)計(jì)特征,將數(shù)據(jù)的分布做了很好地?cái)M合,但是并沒有學(xué)到更加抽象的語義信息,在面對仍然保留了語義特征的對抗樣本時(shí)就不能體現(xiàn)出泛化特性。其次和人類視覺認(rèn)知過程類比,人類在進(jìn)行識別時(shí)更多的關(guān)注語義之間的關(guān)聯(lián)性,這有助于理解和識別物體,而卷積模型在識別過程中,通過卷積核提取圖片的特征,然后將特征映射圖進(jìn)行疊加,這種映射疊加過程只考慮了數(shù)字層面的融合,并沒有進(jìn)一步考慮到特征圖之間的語義關(guān)聯(lián)性。
本文利用對抗變換擾動(dòng)顏色通道生成語義對抗樣本,該對抗樣本可以完成高效的黑盒攻擊,卷積模型在本文的攻擊策略上表現(xiàn)出不魯棒性。通過攻擊實(shí)驗(yàn)發(fā)現(xiàn)卷積模型在識別過程中不具備語義相關(guān)性弱點(diǎn),因此模型只能學(xué)習(xí)到圖片本身的數(shù)字特征和相關(guān)分布特性。語義模型的創(chuàng)新對于對抗樣本的防御效果將是下一步的研究方向。另外,由于卷積網(wǎng)絡(luò)不能很好地識別具有語義信息的圖片,這也凸顯出了網(wǎng)絡(luò)本身的局限性。人類在對物體識別時(shí)會更加關(guān)注物體關(guān)鍵部位的信息,并根據(jù)其語義關(guān)聯(lián)性做出綜合判斷,因此將進(jìn)一步研究卷積模型在關(guān)鍵部位特征提取的能力和特征圖高效利用方式來提升網(wǎng)絡(luò)性能。研究新的網(wǎng)絡(luò)結(jié)構(gòu)不但有助于進(jìn)一步解開網(wǎng)絡(luò)模型的“黑箱”特性,還能夠提升模型的魯棒性,給模型的實(shí)際安全部署提供保障。