• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度學習模型的版權保護研究綜述

      2022-04-18 05:22:16王馨雅華光江昊張海劍
      網(wǎng)絡與信息安全學報 2022年2期
      關鍵詞:后門攻擊者神經(jīng)網(wǎng)絡

      王馨雅,華光,江昊,張海劍

      (武漢大學電子信息學院,湖北 武漢 430072)

      0 引言

      隨著計算資源和大數(shù)據(jù)的普及和發(fā)展,深度學習技術在社會多領域取得了巨大成功,為社會產(chǎn)業(yè)升級和科學技術發(fā)展提供了強勁驅動力。然而,成功地訓練一個深度學習模型通常需要付出巨大的人力物力代價。首先,訓練過程依賴大量準確標注的優(yōu)質數(shù)據(jù)。大數(shù)據(jù)的獲取本身并非易事,而對數(shù)據(jù)實現(xiàn)有效的清洗和標注則是更加煩瑣的工作。例如,著名的ImageNet[1]圖像分類數(shù)據(jù)庫以眾包的模式借助世界范圍用戶的力量進行人工標注,耗時3年才得以成型。其次,為了訓練得到有效的神經(jīng)網(wǎng)絡模型,往往需要分配大量的計算資源以調整網(wǎng)絡的拓撲結構以及超參數(shù),而目前較先進的深度神經(jīng)網(wǎng)絡的權重數(shù)量日趨龐大,可輕易超過億數(shù)量級。例如,用于自然語言處理的GTP-3模型[2],其參數(shù)數(shù)量已達到1 750億。因此,經(jīng)過精心訓練的高性能神經(jīng)網(wǎng)絡模型理應被視作數(shù)據(jù)和模型擁有者的勞動成果,應該擁有專屬的知識產(chǎn)權。

      除優(yōu)質的標注數(shù)據(jù)和充足的計算資源以外,訓練深度神經(jīng)網(wǎng)絡模型還需要一定的專業(yè)知識,并非是每個人都能夠完成的任務。在這種情況下,銷售訓練好的模型已經(jīng)成為一種商業(yè)模式。例如,IBM公司提出了深度學習服務概念(DLaaS,deep learning as a service)[3],利用常用的TensorFlow和PyTorch等深度學習框架在IBM Cloud上為用戶部署深度學習任務,降低了深度學習門檻。此外,亞馬遜、阿里云提供了相應DLaaS的API供普通用戶使用。深度學習的迅猛發(fā)展以及DLaaS的逐漸普及也帶來了一些安全隱患[4-5]。例如,模型的購買者將購買的模型復制或篡改后對模型進行二次分發(fā),或盜取模型后聲稱自己對模型的所有權,都會對模型所有者的知識產(chǎn)權和經(jīng)濟利益造成損害。因此,需要一種對神經(jīng)網(wǎng)絡模型版權保護的框架,以驗證模型所有者對模型的所有權,進而保護模型所有者的合法權益。

      近年來,深度學習模型的版權保護問題逐漸受到世界各國的關注。2017年7月,我國印發(fā)《新一代人工智能發(fā)展規(guī)劃》,強調要建立人工智能技術標準和知識產(chǎn)權體系。2018年11月,歐洲專利局發(fā)布了人工智能和機器學習的專利性指南。由此可見,針對深度學習模型的版權保護已成一項重要研究課題。

      基于優(yōu)質大數(shù)據(jù)和精密的網(wǎng)絡結構訓練好的深度神經(jīng)網(wǎng)絡屬于其擁有者的知識產(chǎn)權,具備數(shù)字產(chǎn)品的特征。基于此,學者將多媒體內(nèi)容版權保護的數(shù)字水印方法[6-7]引入深度學習領域,即在訓練好的深度神經(jīng)網(wǎng)絡模型中嵌入水印。2017年,Uchida等[8]首次提出了神經(jīng)網(wǎng)絡水印概念,并提出了一種將水印嵌入網(wǎng)絡損失函數(shù)的正則項中的方法。隨后,學術界展開了針對深度學習模型水印的廣泛研究。

      總體來說,保護深度神經(jīng)網(wǎng)絡模型的方法與保護一般數(shù)字產(chǎn)品的方法相似,均借助密碼學(cryptography)[9]或水印[10]技術手段。使用密碼學的主要方式為對模型的重要數(shù)據(jù)進行加密(encryption),并僅對得到授權的用戶分發(fā)密鑰(key)。這種方法的主要局限在于無法控制授權用戶在解密(decryption)模型后的行為。而水印技術可以很好地彌補其局限性,對侵權行為實施有效追溯。此外,針對深度學習中的生成式(generative)和判別式(discriminative)兩大類模型,神經(jīng)網(wǎng)絡水印的總體嵌入思想有所不同。本文在總結所有方法的同時,重點討論判別式模型中最常見的多分類器模型的數(shù)字水印保護方法。

      目前,用于保護深度網(wǎng)絡分類器的水印方法按照水印的嵌入機制可分為兩類:基于網(wǎng)絡內(nèi)部信息的方法和基于后門的方法。基于網(wǎng)絡內(nèi)部信息的方法直接將水印嵌入目標模型的內(nèi)部結構中,包括將水印嵌入權重、激活層的輸出以及在網(wǎng)絡中添加新的層作為水印等?;诤箝T的方法主要針對圖像分類的任務,通過在深度學習模型中嵌入后門,引入特殊的輸入輸出關系。當需要驗證模型所有權時,模型的所有者可將作為后門嵌入的特殊樣本輸入網(wǎng)絡來獲得預先設置好的特殊標簽。由于模型的后門只有模型的所有者知曉,可通過展示這些異常的輸入輸出關系來證明自己對模型的所有權。

      1 神經(jīng)網(wǎng)絡水印框架及方法分類

      本節(jié)在介紹神經(jīng)網(wǎng)絡水印的基本框架以及相關概念后,進一步對現(xiàn)有相關研究進行分類??紤]到現(xiàn)有多數(shù)研究工作是針對判別模型,本節(jié)以基于監(jiān)督學習的深度神經(jīng)網(wǎng)絡分類器為主要研究模型,同時簡單介紹其他模型。

      1.1 性能指標

      在嵌入水印時,需權衡水印質量和模型本身功能之間的平衡,而嵌入水印的深度神經(jīng)網(wǎng)絡模型在分發(fā)后可能經(jīng)歷無意或惡意攻擊,在水印驗證階段需要進行水印提取,由此可知,對于神經(jīng)網(wǎng)絡水印存在如下性能指標。

      1) 功能不變性:水印嵌入后原始模型的性能應盡可能不受影響。該指標可同時用來評估水印系統(tǒng)和對水印系統(tǒng)的攻擊,即嵌入水印和針對水印的攻擊均不能以犧牲模型功能為代價,否則嵌入和攻擊將失去意義。

      2) 魯棒性:嵌入的水印要能抵御可能存在的攻擊,如對模型的微調、壓縮或二次訓練,在受到攻擊后也能可靠提??;對于基于后門機制嵌入的水印則應有能力抵御逃逸攻擊和歧義攻擊。

      3) 嵌入容量:對于修改網(wǎng)絡內(nèi)部信息的神經(jīng)網(wǎng)絡水印方法,可嵌入的最大信息比特數(shù)。

      4) 安全性:嵌入神經(jīng)網(wǎng)絡內(nèi)部的水印信息或建立的后門映射關系不被攻擊者獲取的性能,主要通過嵌入密鑰實現(xiàn)。

      5) 計算復雜度:神經(jīng)網(wǎng)絡水印嵌入和驗證所需要的計算復雜度,可分開評估。如基于后門的水印在驗證階段的計算復雜度較低,僅需對比推斷結果。

      1.2 神經(jīng)網(wǎng)絡水印方法分類

      現(xiàn)有的神經(jīng)網(wǎng)絡模型版權保護方法分類如圖1所示。本節(jié)首先給出判別式模型中典型的基于監(jiān)督學習的分類模型的宏觀水印框架,再簡要介紹針對生成式模型和基于密碼學保護深度神經(jīng)網(wǎng)絡模型的方法。

      圖1 神經(jīng)網(wǎng)絡模型版權保護方法分類 Figure 1 Classification of methods for neural network intellectual property protection

      1.2.1 分類模型

      深度神經(jīng)網(wǎng)絡分類模型的訓練目標為建立樣本空間X到標簽空間Y的映射。假設訓練集由N對樣本?標簽對構成,記為(xi,yi),其中i∈ { 0,1,… ,N? 1},xi∈X,yi∈Y,對模型來說,正確且有效的輸入輸出的關系用f:X→Y表示。如果用M表示模型結構,用W表示模型權重,則模型的訓練過程如下。

      其中,W?為訓練后的權重。對于全體訓練集,當正確映射關系比例大于(1 ?ε)|X|時,判定模型訓練成功,其中ε為一個很小的正實數(shù)。

      1.2.2 判別式模型保護方法

      嵌入網(wǎng)絡內(nèi)部:通過修改已訓練好網(wǎng)絡的內(nèi)部信息實現(xiàn)水印的嵌入,嵌入過程可描述為

      其中,λ權衡損失的參數(shù),損失函數(shù)左邊部分保證模型的功能不變性,右邊部分保證水印的嵌入,Mark為含密鑰的特殊映射關系,因方法不同,設計較為靈活。水印驗證時,利用預設的密鑰以及嵌入的Mark建立函數(shù)關系,當映射正確率滿足一定比例時認為驗證成功。

      建立網(wǎng)絡后門:通過在訓練集中加入觸發(fā)集訓練,模型學習到預先設定特殊映射關系從而建立后門[11-13]。用角標 {?}T表示觸發(fā)集,則觸發(fā)樣本表示為xT,i,其對應的標簽為yT,i,嵌入了后門的權重可表示為

      其中,損失函數(shù)左邊部分保證模型的功能不變性,右邊部分保證后門的建立。水印驗證時,給定由 (xT,i,yT,i)組成的密鑰,當模型推斷結果的正確比例大于(1 ?ε)|XT|時,判定驗證成功。

      值得注意的是,以上兩類嵌入方法既可基于已訓練好的網(wǎng)絡進行微調實現(xiàn),也可采取重訓練的方式同時得到正常樣本和觸發(fā)樣本的映射關系。此外,以上方法均常用于圖像識別的分類任務,即輸入圖片得到推斷的類標簽。

      1.2.3 生成式模型保護方法

      判別式模型主要學習特征與數(shù)據(jù)之間的后驗關系,而生成式模型主要學習數(shù)據(jù)與特征的聯(lián)合分布關系或數(shù)據(jù)本身的分布情況。因此生成式模型,如生成對抗網(wǎng)絡(GAN,generative adversarial network)或變分自編碼器(VAE,variational autoencoder)可產(chǎn)生新的數(shù)據(jù),比僅輸出后驗分數(shù)的判別式模型更豐富。在此情況下,攻擊者可利用模型生成大量數(shù)據(jù)用于訓練自己的網(wǎng)絡,因此生成式模型產(chǎn)生的新數(shù)據(jù)也需要得到保護。

      在計算機視覺領域,生成式模型一般用于各種圖像處理任務,它們的輸出不再是分類標簽,而是經(jīng)過處理之后的圖像。針對這一類模型,Zhang等[14]最先提出在輸出圖片的空間域嵌入水印的保護方法。后來將這種方法延伸到模型具有多個發(fā)行版本時嵌入多個水印的問題中,同時提出了一種直接在網(wǎng)絡訓練過程中完成水印嵌入的方案[15]。

      但是這種方式嵌入的水印和網(wǎng)絡之間沒有直接的關聯(lián),如果攻擊者獲知模型的內(nèi)部信息,則可以嵌入自己的水印,或者通過PS等圖像處理技術去除圖片中的水印。針對這些局限,Wu等[16]設計了一個改進的系統(tǒng),讓被保護的網(wǎng)絡和水印提取網(wǎng)絡一起參與訓練,驗證階段需要使用這個水印提取網(wǎng)絡才能夠提取出水印。

      1.2.4 基于密碼學的方法

      除了利用水印進行版權保護,還有學者利用密碼學的方法對深度學習模型進行版權保護,這種方法使用混沌加密算法給模型權重的排列位置加密,只有經(jīng)過權值解密的模型才能夠正常地進行推斷,因此竊取一個經(jīng)過加密的模型的意義將大幅減弱,攻擊者需要重新訓練[9]。

      1.3 白盒與黑盒場景

      現(xiàn)有研究將深度網(wǎng)絡模型的版權保護系統(tǒng)按照在驗證階段是否需要訪問網(wǎng)絡內(nèi)部參數(shù)分成了白盒方法和黑盒方法。白盒方法以Uchida等[8]提出的水印驗證框架為代表,水印的驗證需要訪問模型權重?;诤箝T機制的水印系統(tǒng)則是典型的黑盒方法,這一類方法只需要通過輸入輸出關系就可以驗證模型所有權,不需要訪問模型內(nèi)部參數(shù)或結構。然而,在設計模型版權保護方案時,情形更為復雜,不僅要考慮水印驗證所需要的條件,還應該考慮到模型以不同方式分發(fā)的情形下,模型水印對各種潛在攻擊的魯棒性。

      2 神經(jīng)網(wǎng)絡分類模型水印

      本節(jié)重點介紹圖1中針對判別式模型的嵌入網(wǎng)絡內(nèi)部和建立網(wǎng)絡后門兩類水印嵌入方法。以基于卷積神經(jīng)網(wǎng)絡(CNN,convolutional neural network)的深度神經(jīng)網(wǎng)絡分類器為例,圖2展示了這些方法將水印嵌入網(wǎng)絡的情形。

      圖2 深度神經(jīng)網(wǎng)絡分類模型水印嵌入方法 Figure 2 Demonstration of watermark embedding methods for DNN classifier

      2.1 嵌入網(wǎng)絡內(nèi)部

      (1)嵌入模型權重

      嵌入權重的方法試圖將二進制的水印比特信息B通過密鑰K嵌入部分網(wǎng)絡權重中,對應圖2中右下角綠色方框的部分。記選取的部分網(wǎng)絡權重為V, V ?W,則嵌入的過程通過訓練可得到新的模型參數(shù)。

      其中,{?}表示內(nèi)積。式(6)是式(3)的一種具體情況。驗證水印時,首先根據(jù)嵌入權重的位置選取部分權重,因網(wǎng)絡權重可能遭到攻擊,故記為 V′,然后提供密鑰K和嵌入信息B,當對比結果滿足

      或達到一定比例對比正確時,則判定水印驗證成功,其中sgn{?}為符號函數(shù)。接下來,介紹基于式(6)、式(7)的一些神經(jīng)網(wǎng)絡水印方法。

      Uchida等[8]提出了第一個嵌入網(wǎng)絡內(nèi)部的水印框架,通過正則化參數(shù)的方式將水印比特信息嵌入某一個中間層的權重分布中,這項工作是對深度神經(jīng)網(wǎng)絡嵌入水印的初次嘗試,揭示了向模型嵌入水印的潛力。但是這種方法很容易受到重寫攻擊,因為網(wǎng)絡的層數(shù)是有限的,攻擊者可以對每一層進行重訓練,這樣原始水印就會被破壞。另外,這種通過正則化參數(shù)嵌入水印的方法可能干擾模型的正常訓練。

      Chen等[17]同樣提出將水印嵌入模型權重,為了追蹤模型的使用情況,在模型分發(fā)時給每一個用戶提供一個向量編碼。這些向量編碼通過模型所有者秘密生成的投影矩陣X,在訓練時作為水印嵌入模型中。驗證時用戶根據(jù)自己的編碼提取出相應的權重,然后模型所有者將其與X相乘得到預先嵌入模型的水印。

      Rouhani[18]提出將水印嵌入網(wǎng)絡的動態(tài)部分——激活層的概率分布中。在嵌入階段,水印與網(wǎng)絡一起訓練,輸出嵌入了水印的模型和存儲了水印位置信息的密鑰WMkeys。在驗證階段,需要使用這個密鑰才能夠觸發(fā)模型得到嵌入了水印的激活層的概率分布,進而提取出嵌入的水印簽名。由于將水印嵌入了網(wǎng)絡的動態(tài)部分,與嵌入權重的方法相比,可嵌入的水印容量更大,而且這種方法同時依賴于數(shù)據(jù)和模型,在實際應用中更加靈活且不易被檢測。

      Kuribayashi等[19]將水印嵌入全連接層的權重中,通過量化索引調制來控制嵌入水印在模型中引入的變化量大小,運用隨機排列和抖動調制等技術提高水印的保密性。

      Feng等[20]提出了一種具有補償機制的模型微調方案。他設置了兩個密鑰:密鑰K0作為偽隨機算法的初始值生成n個權重嵌入的位置,密鑰K1則作為另一個偽隨機生成器的初始值,這個偽隨機生成器用來產(chǎn)生特定的噪聲模式,以對經(jīng)過正交變換的水印進行調制。密鑰K0的存在給攻擊者實施重寫攻擊設置了障礙,因為攻擊者無法獲知嵌入了水印的權重的位置。針對水印進行擴頻調制則讓水印分散地嵌入權重中,增強了水印的魯棒性。

      將水印嵌入網(wǎng)絡參數(shù)的方法很容易受到微調攻擊,因此Tartaglione[21]提出另一種策略:讓嵌入了水印的權重不參與網(wǎng)絡訓練時的參數(shù)更新。通過調整訓練時的損失函數(shù),使帶有水印信息的部分參數(shù)在網(wǎng)絡訓練前后保持不變,這種方法對于微調攻擊有較強的魯棒性。

      (2)嵌入新增層

      上文所述各方法均保留了原有的模型結構,僅將水印嵌入模型參數(shù)中,而Fan等[22]采用了另一種思路,即在網(wǎng)絡中增加新的層以實現(xiàn)水印的嵌入。該方法在模型的每個卷積層后面添加一個名為Passport的層(如圖2神經(jīng)網(wǎng)絡中的綠色虛線框所示),該層被專門用來嵌入水印信息B,如果將Passport層的權重表示為 WP,f(WP)表示將該層權重映射到二進制的結果,嵌入水印后的權重可表示為

      (3)嵌入網(wǎng)絡的輸出

      將水印嵌入模型參數(shù)中容易受到模型提取攻擊,因此有學者提出將水印嵌入模型的輸出中。 Sebastian[23]將水印嵌入API響應的一個子集中,提出一種動態(tài)的對抗水印方法,動態(tài)地改變一小部分樣本查詢的結果,而對分類準確率的影響微乎其微。針對機器翻譯任務的模型,Venugopal等[24]提出一種使用哈希函數(shù)生成定長序列的方法來在其輸出中嵌入水印以區(qū)分機器翻譯和人工翻譯的結果。

      (4)其他

      Lou等[25]利用神經(jīng)網(wǎng)絡架構搜索將水印嵌入網(wǎng)絡結構中。He等[26]選擇一部分網(wǎng)絡的權重和一個單層感知機進行參數(shù)共享,將感知機的輸入作為密鑰,感知機的輸出即水印信息。

      還有學者將神經(jīng)網(wǎng)絡作為水印嵌入。Lyu等[27]將神經(jīng)網(wǎng)絡本身作為水印來嵌入,提出一種作為水印使用的神經(jīng)網(wǎng)絡HufuNet,將其一半的卷積核嵌入目標模型參數(shù)中,另一半則保留,用于所有權驗證。

      2.2 建立網(wǎng)絡后門

      (1)在原有訓練集圖片上添加擾動

      一種典型的觸發(fā)樣本的構造方式是選取原始訓練集中的部分圖片,在圖片上應用某種特定的干擾模式,并隨機分配一個原始訓練集中的標簽(在圖2中用藍色方框表示)。如果用Kpattern來表示對圖片內(nèi)容的干擾模式,per(?)表示擾動算法,則有

      這種干擾模式可以是有意義的字符串或者Logo,或者某種特定模式的噪聲[28]。但這些經(jīng)過干擾的樣本往往在特征分布上與正常樣本有較大差異,在水印驗證階段容易被攻擊者所識別。攻擊者可以先讓查詢樣本經(jīng)過一個后門檢測器,如果檢測器認為這是一個查詢樣本,則拒絕輸出或隨機輸出一個標簽,從而逃逸后門的驗證[4]。為了提高魯棒性,Li等[29]使用自編碼器產(chǎn)生不可見的Logo,并將生成的盲水印嵌入原始圖片作為觸發(fā)集,觸發(fā)集圖片在視覺上和正常樣本沒有區(qū)別,且和正常樣本的特征分布一致,因此能夠更好地抵御上述逃逸攻擊。有學者在頻域嵌入不可見的Logo來生成觸發(fā)集[30],頻域的水印更加具有隱蔽性,對各種信號處理方法也更加魯棒。為了降低負陽率,Guo等[31]采用遺傳進化算法來決定后門依賴的觸發(fā)模式。

      (2)以圖片實例作為后門

      還有一類后門方法并不以某種特定的觸發(fā)模式作為觸發(fā)集的構造方式,而采用圖片實例作為后門(對應圖2中紅色三角表示的觸發(fā)集樣本):

      Zhang等[28]將原始訓練集中的一部分圖片替換為與此任務不相關的圖片,Yossi等[32]則使用了一組從互聯(lián)網(wǎng)上下載的圖片來構建觸發(fā)集。此外,與現(xiàn)有大多數(shù)水印系統(tǒng)需要可信第三方完成水印驗證的工作方式不同,他在后門水印設計過程中引入了commitment機制,同時約束了模型所有者和攻擊者,不需要引入可信第三方即可完成水印驗證。

      (3)添加新的類別標簽

      雖然以上兩種后門水印方法均未改變模型的結構, 但Zhong等[33]認為在圖片上疊加擾動的方法在網(wǎng)絡中引入了錯誤的映射關系,改變了分類網(wǎng)絡的決策邊界,進而影響了模型的準確率和魯棒性。而添加新的類別則不會對原來的分類邊界產(chǎn)生干擾。因此他在原始的標簽空間中增加一類,讓所有的后門圖片屬于這個新的類別(在圖2中用黃色矩形表示)。

      新類別的觸發(fā)集對應的樣本為對原始訓練樣本添加Logo標簽后的一組新樣本。

      (4)使用對抗樣本

      對抗樣本是通過在原始的圖片中加入細微的干擾,能夠讓模型以高置信度輸出一個錯誤分類的輸入[34-35]。Merrer等[36]采用對抗訓練的方式將對抗樣本作為后門嵌入網(wǎng)絡。他選擇了一部分對抗樣本作為觸發(fā)樣本,給這些選定的對抗樣本分配分類正確的標簽,再讓模型在這些樣本上微調。在微調過程中,模型在這些觸發(fā)樣本附近的決策邊界會發(fā)生改變。一個經(jīng)過上述微調的模型,如果再次受到觸發(fā)集中對抗樣本的觸發(fā),將輸出正確的分類結果。在這種情況下,水印的嵌入方式不變,但驗證方式與上述后門方案相反。該方法的觸發(fā)集和映射機制可表示為

      其中, A (xi)表示對抗攻擊,但對抗攻擊后的樣本仍為正確分類。

      還有一些學者依據(jù)對抗樣本的特性來進行模型的版權驗證。Lukas[37]和Zhao等[38]利用了對抗樣本的遷移性,即對抗樣本在相同或者相似的模型上往往具有較高的遷移性,因此在代理模型上會表現(xiàn)出高遷移性,通過將對抗樣本在可疑模型上的攻擊成功率與某個閾值進行比較,從而判斷可疑模型是否是根據(jù)原始模型得到的代理模型。Chen等[39]提出了第一個多比特的基于后門的水印方案,他使用一種模型相關的編碼方案,將作者簽名以二進制編碼的形式嵌入模型的預測結果中,這種方案使用定向生成的對抗樣本作為后門觸發(fā)集,并將對抗樣本和相應的分類置信度分數(shù)作為模型指紋分發(fā)給合法用戶(此類觸發(fā)集在圖2中用紅色矩形表示)。

      (5)其他

      為了讓后門方案同時與模型和用戶相關,Zhu等[40]采用這樣的方式構造觸發(fā)集:使用兩個不予公開的哈希函數(shù)分別生成作為觸發(fā)集的圖像鏈和其對應的標簽。單向哈希函數(shù)無法反向構造,因此在驗證階段攻擊者難以實施偽造攻擊。

      還有一種方法采取了類似后門的方式,但是不需要特定的觸發(fā)集[41]。這種方法采取一種可學習的圖像加密算法,將部分干凈圖像經(jīng)過加密變換之后作為觸發(fā)集,在驗證時需要用密鑰將圖片進行處理之后才能得到正確的推斷。

      文獻[42]在干凈樣本和觸發(fā)集圖像上都通過隱寫技術嵌入了Logo,將水印與所有者身份信息聯(lián)系起來,便于區(qū)別于其他的企業(yè)、產(chǎn)品或服務。

      深度模型水印方法分類如表1所示。

      表1 深度模型水印方法分類Table 1 The classification of DNN watermarking methods

      3 攻擊方法

      針對現(xiàn)有的模型保護水印框架,有很多可能的攻擊策略。目前的攻擊方式主要有移除攻擊、逃逸攻擊和歧義攻擊。移除攻擊是指通過微調、剪枝或壓縮等方式去除模型中原有的水??;逃逸攻擊是指攻擊者在黑盒的驗證階段通過一些手段逃脫水印的驗證;歧義攻擊則是讓模型中出現(xiàn)另外一個非法水印,以混淆對于水印真實性的判斷。目前,對于后門水印方案的攻擊主要利用了神經(jīng)網(wǎng)絡的如下特性。

      遺忘性:神經(jīng)網(wǎng)絡在訓練時,不可避免地會記住用于訓練的數(shù)據(jù),如果想要網(wǎng)絡遺忘這些數(shù)據(jù),只需要刪除這些數(shù)據(jù)再進行重新訓練[43-44]。同樣,對于嵌入了后門的網(wǎng)絡,可以通過加入大量的新樣本對網(wǎng)絡進行微調,讓網(wǎng)絡忘記嵌入的后門,達到去除后門的目的。

      不可解釋性:深度學習的模型一直被視作黑盒子,雖然學者一直在探索模型可解釋性的方法,但這項任務依舊面臨挑戰(zhàn)[45-47]。當模型泛化表現(xiàn)較差時,欠擬合或者過擬合都會導致模型真正學習到的特征與重要性得分失去匹配。因此,有了使用對抗樣本作為后門和利用樣本空間局限性來實施攻擊的方式。

      過參數(shù)性: 神經(jīng)網(wǎng)絡的過參數(shù)性也是導致對抗樣本存在的重要原因之一。例如,對抗樣本實現(xiàn)了僅僅修改訓練圖片的一個或幾個像素,讓網(wǎng)絡輸出和正常分類不一樣的結果[48]。攻擊者可能會定向生成模型的對抗樣本,并把它當作觸發(fā)圖片,在水印驗證階段實施歧義攻擊。

      樣本空間局限性: 對于對數(shù)據(jù)重度依賴的深度神經(jīng)網(wǎng)絡模型,訓練樣本空間總體是有限的。但對于攻擊者來說,樣本空間卻是無限的,攻擊者總可以找到一種在原始樣本空間之外的樣本,或者在原始樣本中選取一些樣本并分配和模型無關的標簽[49]。樣本空間示意如圖3所示。

      圖3 樣本空間示意 Figure 3 Example space of known, unknown, and adversarial examples

      該思路同樣為歧義攻擊提供了可能。下面詳細介紹一些攻擊策略對應的具體研究工作。

      3.1 水印檢測

      水印檢測的目標是檢測出模型中是否存在水印,以及存在什么形式的水印。在檢測出系統(tǒng)中存在的水印之后,攻擊者可以決定具體采取何種攻擊策略。Wang等[50]指出在文獻[8]的方法中由于水印嵌入改變了模型的權重分布,因此很容易被檢測。他同時展示了一種基于屬性推理的通用白盒水印檢測方法[51]。Shafieinejad等[52]也展示了一種屬性推理攻擊,使用部分訓練數(shù)據(jù)和從網(wǎng)絡中提取的特征向量,有效地檢測出模型中是否存在基于后門機制嵌入的水印。他又提出一種對水印檢測攻擊更魯棒的水印方案:采用一種對抗訓練的方式同時訓練目標模型和水印檢測網(wǎng)絡以獲得水印隱蔽性度量,并以正則化參數(shù)的形式使之參與水印的嵌入[53]。

      3.2 移除攻擊

      最常見的對于神經(jīng)網(wǎng)絡模型水印保護系統(tǒng)的攻擊方式是設法去除模型中嵌入的水印。移除攻擊可以通過微調[54-55]、剪枝[55-57]或者蒸餾[58]的方式實現(xiàn)。也有一些學者同時融合了微調和剪枝的策略,先對神經(jīng)元進行剪枝,然后對模型進行微調[55]。如果攻擊者知道水印的具體位置,還可以通過重新初始化其所在層的參數(shù)并重訓練來去除該層的水印[8]。

      目前大多數(shù)的移除攻擊針對后門水印的移除[52,54,59-61]。文獻[52]給出對后門水印實施攻擊的3種方式,指出在白盒場景時攻擊者可以通過正則化算法結合微調的方式來移除水印。文獻[54]通過合理地設置初始學習率和學習率的衰減參數(shù),成功地通過微調去除了基于后門機制嵌入的水印。雖然這種微調能夠成功去除水印,但是需要一定量標注的訓練數(shù)據(jù)。而現(xiàn)實場景中攻擊者往往缺乏足夠的有標記訓練數(shù)據(jù),因此文獻[59]進一步提出使用未標記數(shù)據(jù)的微調方法。具體做法是使用預訓練模型的預測結果對從互聯(lián)網(wǎng)上下載的未標記數(shù)據(jù)進行標記,并用這些數(shù)據(jù)對模型進行微調。

      對于嵌入網(wǎng)絡內(nèi)部的水印方法,文獻[50]針對Uchida等提出的水印方法,使用一種水印移除算法去除網(wǎng)絡原始嵌入的水印,并同時嵌入了新的水印。

      3.3 逃逸攻擊

      Ryota等[57]提出可以通過修改查詢樣本的方式實施逃逸攻擊。這種方法適用于在原圖上添加擾動而產(chǎn)生的后門樣本。如果系統(tǒng)判定一個查詢樣本為后門樣本,則使用一個自編碼器去除圖片上覆蓋的干擾信息,讓觸發(fā)樣本重新變回一個正常樣本。

      此外,Hitaj等[4]提出了兩種基于盜取模型的逃逸攻擊方法,分別為集成攻擊(ensemble attack)和檢測攻擊(detector attack),均可在黑盒模式下實施,無須訪問模型內(nèi)部信息。攻擊者將盜取的模型建立為DLaaS系統(tǒng),通過API提供服務謀取利益。集成攻擊是將多個盜取的模型組成集群,對于輸入的分類任務通過對多個模型的推斷結果采取投票機制輸出結果,可有效擾亂觸發(fā)樣本的映射結果。而檢測攻擊通過引入觸發(fā)樣本檢測機制實施逃逸攻擊。在輸入API之前先讓樣本經(jīng)過檢測器,當檢測到觸發(fā)樣本時,系統(tǒng)刻意輸出隨機的標簽以擾亂后門觸發(fā)機制,而對于檢測到的正常樣本,系統(tǒng)使用盜取的模型進行正常的推斷。

      3.4 歧義攻擊

      歧義攻擊的目標是讓模型中出現(xiàn)另外的非法水印,破壞水印的唯一性?;谏疃葘W習模型的過參數(shù)化特性,一個模型中可以同時存在多個后門。攻擊者可以使用對抗樣本作為額外的后門,或者通過微調的方式在模型中嵌入新的后門。Guo等[62]指出將作者簽名作為后門嵌入模型的系統(tǒng)可能受到偽簽名的攻擊,如對于Yossi等[32]提出的方案,攻擊者可以通過遺傳算法生成另一組抽象圖片,在模型中形成一組新的特殊映射。

      深度模型水印攻擊方法分類如表2所示。值得注意的是,基于額外訓練的移除攻擊需要使用少量正常樣本(遠少于原始訓練所需樣本數(shù)量)對模型進行白盒下的水印移除。對于替代模型,需要在黑盒條件下得到足夠使替代模型收斂的標記數(shù)據(jù)從而實現(xiàn)替代攻擊。而逃逸和歧義攻擊在黑盒和白盒條件下均不需要使用正常樣本即可完成攻擊。

      表2 深度模型水印攻擊方法分類Table 2 The classification of DNN watermarking attack methods

      4 討論

      在深度學習模型的版權保護問題中,模型的分發(fā)方式不同,會導致攻擊者采用不同的攻擊策略,因此在設計模型版權保護方案時,應該將這些因素考慮在其中。從時間先后順序考慮,首先,對于模型所有者,在水印嵌入時應只考慮白盒場景,即模型擁有者可利用與模型有關的任意信息(權重、結構等)輔助水印嵌入。此后,當攻擊者獲得分發(fā)的模型后,根據(jù)攻擊者獲得的與模型相關知識的多少可分為白盒與黑盒情況,前者假設攻擊者已知的模型信息和模型所有者相同,后者假設攻擊者僅能觀測給定樣本和其輸出的關系。最后,在模型驗證時,存在白盒與黑盒的情況,前者需要訪問模型內(nèi)部信息,而后者只需觀測輸入輸出關系。下面分別討論各種可能的情形以及模型擁有者和攻擊者可能的應對方式。

      4.1 白盒分發(fā)

      該情況意味著攻擊者可以獲知模型的結構和參數(shù),在攻擊時可以采用更靈活的方法。通常情況下攻擊者由于缺乏獨立訓練模型的能力而對模型進行竊取,或對水印保護框架實施攻擊,以達到非法使用模型,或提供類似服務來牟取利益的目的。當模型以白盒形式分發(fā)時,攻擊者需要在攻擊代價(對模型進行微調,重訓練)和訓練自己的模型中做出權衡。只有當攻擊者只擁有有限的訓練數(shù)據(jù),或不具備足夠的算力重新訓練模型時,現(xiàn)有的水印方法才具備魯棒性。

      基于Kerckhoffs' Principle,只有在模型結構和水印算法同時保密的情況下,模型才可能是絕對安全的。從更嚴格的模型安全的角度考慮,應假定攻擊者擁有和模型所有者相同的訓練條件(足夠的訓練數(shù)據(jù)和算力)。在這種條件下,攻擊者既可以采取和模型擁有者相同或不同的水印嵌入方式制造歧義攻擊,也可采用微調、剪枝等手段對水印進行破壞或者移除[54-55]。在這種考慮下,不管采用何種驗證方式,現(xiàn)有的基于水印的版權驗證框架對于以白盒形式分發(fā)的模型來說都是無效的。因此,不論黑盒驗證還是白盒驗證,以白盒模式分發(fā)的模型均難以得到有效保護,而黑盒分發(fā)與黑盒驗證模式是最有可能在實際應用中采用的模式,值得更多研究關注。

      4.2 黑盒分發(fā)

      在實際應用中,更常見的情形是各大公司通過聘請AI專家設計模型,花費大量資金和人力訓練數(shù)據(jù),最終得到一個模型文件。這些公司對外提供機器學習服務的方式主要有兩種:一種是提供云模式的API,另一種是將模型私有地部署到用戶的設備或者數(shù)據(jù)中心的服務器上[5]。對于前者,攻擊者通過一定的遍歷算法,在反復調用云模式的API后可以在本地還原出一個與原始模型功能相同的模型,并提供相似的服務;對于后者,攻擊者通過逆向等安全技術可以將模型還原供其使用或者對模型二次售賣??傮w來說,只有黑盒分發(fā)情況下的神經(jīng)網(wǎng)絡模型才能得到有效保護。

      4.2.1 黑盒驗證

      有兩類方法可以適用于黑盒場景下的水印驗證:一類是基于后門機制的模型水印方法;另一類是Rouhani等[18]所提出的水印方案。

      當模型以黑盒發(fā)放時,這兩類方法都可以達到驗證模型版權的目的。對于攻擊者來說,由于無法訪問模型的內(nèi)部參數(shù)與結構,也就無法對模型進行微調或者重訓練,這給實施移除攻擊和歧義攻擊造成了困難。在這種情況下,模型所有者可設計如Zhu等[40]的水印嵌入方法,構建難以復制的后門機制,使攻擊者無法有效采取歧義攻擊。而攻擊者可能會實施逃逸攻擊、基于后門的歧義攻擊,或者盜取多個功能相似的模型進行集成[4]。

      4.2.2 白盒驗證

      當模型以黑盒發(fā)放時,水印方法對于各種攻擊方法的魯棒性都增強了,然而,當攻擊者將竊取的模型以API接口(黑盒)的形式部署到線上時,白盒驗證將無法實施。此外,白盒驗證方法難以用于嵌入式系統(tǒng)[62]。因此,白盒驗證方案都具有應用的局限性。

      5 結束語

      本文對近年來興起的用于保護深度神經(jīng)網(wǎng)絡版權的神經(jīng)網(wǎng)絡水印研究進行了梳理和介紹,對現(xiàn)有方法進行了分類和討論,其中重點闡述了針對判別式模型中常見的多分類神經(jīng)網(wǎng)絡版權保護的水印嵌入和驗證方法,包括與傳統(tǒng)多媒體水印類似的嵌入模型內(nèi)部的方法和神經(jīng)網(wǎng)絡特有的基于后門的方法,對各方法的特點和優(yōu)劣進行了詳細介紹;進一步討論和總結了現(xiàn)有針對神經(jīng)網(wǎng)絡水印的一系列攻擊方法,從水印嵌入、攻擊以及驗證3個階段分別討論了白盒與黑盒場景下模型所有者和攻擊者面臨的挑戰(zhàn)和可能采取的策略。

      神經(jīng)網(wǎng)絡水印目前仍是一個較新的研究領域,還存在很多值得研究的問題。該領域未來的研究方向可以聚焦于如下問題。

      (1)提升后門水印針對歧義攻擊的魯棒性。白盒驗證的方法無法用于嵌入式系統(tǒng)[62],也無法應對攻擊者將偽造模型部署到遠端的情況,有其固有的局限性。因此,基于后門機制,滿足在黑盒場景下驗證的版權保護方案是目前值得研究的方向。而對于基于后門機制的嵌入方法,最常見的攻擊方式是找到模型中的異常輸入輸出關系,從而引入新的異常映射,即實施歧義攻擊。此外,由于訓練樣本的有限性、深度神經(jīng)網(wǎng)絡模型的不可解釋性和過參數(shù)性,實際應用中存在大量未知樣本和對抗樣本,均可作為歧義攻擊的參考樣本。因此,有必要研究對于歧義攻擊更魯棒的后門水印方案。

      (2)拓展目標模型的任務領域。目前的模型版權保護方案中基于后門機制的方法大多數(shù)針對圖像分類網(wǎng)絡。除了圖像分類模型之外,圖像生成和處理網(wǎng)絡也是一類非常具有應用價值的模型,已經(jīng)有學者開始關注這一類模型的版權問題[15,64]。針對生成對抗網(wǎng)絡的水印保護方案,除了驗證模型所有權之外,GAN水印可以用于深度偽造內(nèi)容的溯源,在其誤用時歸因于模型所有者。針對GAN模型,有學者利用圖像隱寫術在所有訓練數(shù)據(jù)中嵌入了水印,這樣任何模型生成的圖片都攜帶了水印[65]。此外,有工作將水印技術應用到了自然語言處理模型[66]、語音識別模型[67],以及圖神經(jīng)網(wǎng)絡的保護中[68],而在深度學習其他領域的模型保護問題依然值得進一步研究。

      (3)可逆水印。不管是將水印嵌入模型內(nèi)部參數(shù),還是在模型中嵌入后門,都是不可逆的過程。這些水印技術只能盡可能地降低對原始網(wǎng)絡性能的影響,但模型參數(shù)卻被永久改變了??赡嫠】梢栽谔崛∷≈蠡謴湍P驮嫉膮?shù),保護模型的完整性,對軍事、法律等領域的模型保護具有重要的意義。目前有工作將數(shù)字圖像可逆水印技術應用到模型保護中[69],相關工作仍有待進一步研究。

      猜你喜歡
      后門攻擊者神經(jīng)網(wǎng)絡
      基于微分博弈的追逃問題最優(yōu)策略設計
      自動化學報(2021年8期)2021-09-28 07:20:18
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      工業(yè)物聯(lián)網(wǎng)后門隱私的泄露感知研究
      電子制作(2018年18期)2018-11-14 01:47:56
      正面迎接批判
      愛你(2018年16期)2018-06-21 03:28:44
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      有限次重復博弈下的網(wǎng)絡攻擊行為研究
      這個班還不錯
      新帕薩特右后門玻璃升降功能失效
      新途安1.4TSI車后門車窗玻璃不能正常升降
      舒城县| 三门县| 商丘市| 乐都县| 弥勒县| 洪洞县| 涡阳县| 吉林市| 耿马| 利津县| 辽阳市| 博乐市| 荆州市| 广南县| 巢湖市| 侯马市| 偃师市| 三原县| 彭泽县| 曲周县| 九龙县| 武宣县| 宕昌县| 犍为县| 巴青县| 平利县| 故城县| 雷波县| 永吉县| 武宣县| 西林县| 吉安市| 潜山县| 边坝县| 晋城| 潼关县| 石屏县| 南康市| 绥中县| 赤壁市| 岢岚县|