• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向校園人臉識(shí)別的數(shù)據(jù)投毒攻擊檢測(cè)算法研究*

      2022-05-19 05:30:00龔成清何文華
      菏澤學(xué)院學(xué)報(bào) 2022年2期
      關(guān)鍵詞:投毒魯棒性人臉

      龔成清,何文華

      (廣東女子職業(yè)技術(shù)學(xué)院應(yīng)用設(shè)計(jì)學(xué)院,廣東 廣州 511450)

      引言

      機(jī)器學(xué)習(xí)是人工智能的關(guān)鍵技術(shù),機(jī)器學(xué)習(xí)通過模仿人類的學(xué)習(xí)行為,憑借計(jì)算機(jī)強(qiáng)大的運(yùn)算能力來獲取新知識(shí),從而實(shí)現(xiàn)自身性能的改善.機(jī)器學(xué)習(xí)已經(jīng)在人臉識(shí)別、自然語音處理、自動(dòng)駕駛和醫(yī)療系統(tǒng)等領(lǐng)域被廣泛應(yīng)用.然而,針對(duì)機(jī)器學(xué)習(xí)的攻擊也伴隨而生,機(jī)器學(xué)習(xí)的安全和隱私問題隨著其應(yīng)用的推廣日漸突出[1].針對(duì)機(jī)器學(xué)習(xí)分類器的攻擊可以分為三類:數(shù)據(jù)投毒、對(duì)抗輸入和模型竊取[2].數(shù)據(jù)投毒發(fā)生在機(jī)器學(xué)習(xí)模型的數(shù)據(jù)訓(xùn)練階段,攻擊者通過一定的策略修改原始訓(xùn)練數(shù)據(jù)集或者向原始訓(xùn)練數(shù)據(jù)集中注入污染數(shù)據(jù)來對(duì)數(shù)據(jù)進(jìn)行攻擊,這樣就使得機(jī)器學(xué)習(xí)分類器的分類邊界發(fā)生偏移或改變,從而使機(jī)器學(xué)習(xí)產(chǎn)生錯(cuò)誤的輸出結(jié)果,造成安全隱患.

      研究者針對(duì)數(shù)據(jù)投毒攻擊的檢測(cè)進(jìn)行了探索和研究,目前相關(guān)研究主要有數(shù)據(jù)清洗和提高算法魯棒性兩個(gè)思路.數(shù)據(jù)清洗方法主要是對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行清洗,篩選出投毒數(shù)據(jù).Nelson和Marco Barren提出了拒絕消極影響(Reject On Negative Impact, RONI)檢測(cè)方法就是典型的數(shù)據(jù)清洗方法[3,7],該方法對(duì)垃圾郵件進(jìn)行了檢測(cè)實(shí)驗(yàn),取得了比較好的效果,但該方法步驟繁瑣且計(jì)算量大,不適合在大規(guī)模候選集合情況下對(duì)數(shù)據(jù)進(jìn)行篩選;Biggio等人提出了Bagging和隨機(jī)子空間兩種基于多分類器集成的方法來提高算法的魯棒性[4,7],但技術(shù)的可拓展性不強(qiáng),檢測(cè)的泛化性能也差強(qiáng)人意; 中南大學(xué)的亢飛等人綜合應(yīng)用數(shù)據(jù)清洗和提高算法魯棒性兩個(gè)指標(biāo),針對(duì)數(shù)據(jù)投毒攻擊的問題,提出了一種基于數(shù)據(jù)復(fù)雜度的投毒數(shù)據(jù)檢測(cè)方法[5],能夠有效檢測(cè)投毒數(shù)據(jù),但該方法數(shù)據(jù)模型復(fù)雜,效率不高.

      當(dāng)前,很多學(xué)校都已經(jīng)安裝了人臉識(shí)別的門禁系統(tǒng).人臉識(shí)別的門禁系統(tǒng)是通過機(jī)器學(xué)習(xí)來判斷人臉的特征,從而能夠進(jìn)行身份識(shí)別.數(shù)據(jù)投毒攻擊使得人臉識(shí)別系統(tǒng)有可能誤判身份,使得不合法身份的人員進(jìn)入校園,造成嚴(yán)重的安全隱患.針對(duì)數(shù)據(jù)投毒攻擊給校園人臉識(shí)別帶來的安全威脅,通過孤立森林算法(Isolation Forest)對(duì)訓(xùn)練的人臉圖像進(jìn)行分析,檢測(cè)出離群點(diǎn)后對(duì)數(shù)據(jù)進(jìn)行清洗,然后運(yùn)用多譜聚類算法對(duì)人臉圖像樣本進(jìn)行評(píng)分,評(píng)估數(shù)據(jù)的合法性來增強(qiáng)算法的魯棒性,最后通過線性擬合對(duì)參數(shù)進(jìn)行優(yōu)化,計(jì)算得到數(shù)據(jù)清洗和算法魯棒性的最優(yōu)平衡點(diǎn),得出了檢測(cè)數(shù)據(jù)投毒攻擊的優(yōu)化算法.

      1 孤立森林算法

      攻擊者通過修改原始的訓(xùn)練數(shù)據(jù)形成了投毒數(shù)據(jù),投毒數(shù)據(jù)破壞了合法樣本的數(shù)據(jù)分布.一般來說,合法樣本是一個(gè)密集點(diǎn)集合,相對(duì)合法樣本數(shù)據(jù),投毒數(shù)據(jù)為異常點(diǎn),數(shù)量較少且通常散落在密集點(diǎn)區(qū)域以外的空間,屬于離群點(diǎn).孤立森林算法是一種適用于連續(xù)數(shù)據(jù)的無監(jiān)督異常檢測(cè)方法,可以有效地把異常點(diǎn)從正常點(diǎn)中檢測(cè)出來.傳統(tǒng)的異常檢測(cè)算法主要是通過距離、密度等量化指標(biāo)來刻畫樣本間的疏離程度,孤立森林算法則通過切分的方法計(jì)算樣本點(diǎn)的孤立程度來檢測(cè)異常數(shù)據(jù).孤立森林算法采用孤立二叉樹(Isolation Tree,即 iTree)對(duì)數(shù)據(jù)進(jìn)行切分,異常數(shù)據(jù)由于跟正常數(shù)據(jù)較為疏離,使用孤立二叉樹進(jìn)行數(shù)據(jù)分割,只需要較少幾次切分就可以將異常數(shù)據(jù)劃分出來.相較于K-means等傳統(tǒng)算法,孤立森林算法對(duì)高維數(shù)據(jù)有更高的效率和更好的魯棒性.

      孤立森林算法包含訓(xùn)練和預(yù)測(cè)兩個(gè)步驟,訓(xùn)練步驟主要是用來構(gòu)建iTree.

      算法1:孤立森林訓(xùn)練算法

      1)設(shè)X=x1,x2,x3……,xn為訓(xùn)練集,?xi∈X,從X中隨機(jī)抽取p個(gè)樣本點(diǎn)構(gòu)成X的子集X′放入根節(jié)點(diǎn);

      2)從d個(gè)維度中隨機(jī)指定一個(gè)維度q,在當(dāng)前數(shù)據(jù)中隨機(jī)產(chǎn)生一個(gè)切割點(diǎn)p;

      3)由切割點(diǎn)p生成一個(gè)超平面,將當(dāng)前數(shù)據(jù)空間劃分為兩個(gè)子空間:指定維度小于p的樣本點(diǎn)放入左子節(jié)點(diǎn),大于或等于p的樣本點(diǎn)放入右子節(jié)點(diǎn);

      4)遞歸2)和3),直至所有的葉子節(jié)點(diǎn)都只有一個(gè)樣本點(diǎn)或者孤立樹已經(jīng)達(dá)到指定高度;

      5)循環(huán)1)~4),直至生成t棵孤立樹.

      經(jīng)過訓(xùn)練步驟構(gòu)造了iTree后,就可以對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè).由于異常數(shù)據(jù)的稀疏性和疏離性,異常數(shù)據(jù)會(huì)距離iTree的根節(jié)點(diǎn)更近,而正常數(shù)據(jù)則會(huì)與根節(jié)點(diǎn)有更遠(yuǎn)的距離.訓(xùn)練集經(jīng)過算法1的操作,異常點(diǎn)在iTree中會(huì)被快速劃分到離根節(jié)點(diǎn)較近的葉子節(jié)點(diǎn).因此,可以將每個(gè)樣本點(diǎn)x放入森林中的對(duì)應(yīng)iTree中,計(jì)算葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑長(zhǎng)度得到其異常分值S(x,n),來判斷x是否為異常點(diǎn).計(jì)算的公式如下:

      (1)

      h(x)=e+C(n)

      (2)

      (3)

      其中,h(x)為x所在樹的高度;e表示數(shù)據(jù)x從iTree的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)所經(jīng)過的邊的數(shù)目;C(n)是一個(gè)修正值,表示用n條樣本數(shù)據(jù)構(gòu)建的二叉樹的平均路徑長(zhǎng)度;H(n-1)可用ln(n-1)+0.5 772 156 649(歐拉常數(shù))估算.

      從異常分值的公式看,如果數(shù)據(jù)x在多棵iTree中的平均路徑長(zhǎng)度越短,得分就越接近1,表明數(shù)據(jù)x是異常點(diǎn);如果數(shù)據(jù)x在多棵iTree中的平均路徑長(zhǎng)度越長(zhǎng),得分就越接近0,表示數(shù)據(jù)x是正常點(diǎn);如果數(shù)據(jù)x在多棵iTree中的平均路徑長(zhǎng)度接近整體均值,則打分會(huì)在0.5附近,則認(rèn)為不存在異常點(diǎn).

      2 多譜聚類評(píng)估算法

      人臉圖像是一種高維度、非常規(guī)分布的數(shù)據(jù).針對(duì)校園人臉識(shí)別的數(shù)據(jù)投毒樣本大多基于數(shù)據(jù)漂移的這一特點(diǎn)[6,7], 采用譜聚類算法對(duì)樣本點(diǎn)數(shù)據(jù)進(jìn)行聚類劃分可以對(duì)樣本數(shù)據(jù)進(jìn)行快速有效的評(píng)估分類,而且也不容易陷入局部最優(yōu)解.在常用的譜聚類算法中,數(shù)據(jù)點(diǎn)與數(shù)據(jù)點(diǎn)之間的相似度計(jì)算通常采用余弦相似度、高斯函數(shù)等,而常用的分割方法有最小分割法、規(guī)范化分割、比例分割法等[8-10].采用不同的相似度函數(shù)和分割方法對(duì)樣本評(píng)估的結(jié)果有時(shí)會(huì)有較大的差異.為了能夠更加準(zhǔn)確地對(duì)人臉圖像的樣本數(shù)據(jù)進(jìn)行評(píng)估,可以使用多譜聚類來進(jìn)行綜合衡量.考慮到算法的復(fù)雜度和運(yùn)行效率,經(jīng)過實(shí)驗(yàn)驗(yàn)證,分別應(yīng)用余弦相似度、高斯函數(shù)作為相似度的核函數(shù),通過最小分割和規(guī)范分割的分割方法,充分提取不同視角數(shù)據(jù)中的互補(bǔ)信息對(duì)樣本進(jìn)行檢測(cè)評(píng)估,最后用分?jǐn)?shù)平均法來集成多個(gè)譜聚類,可以實(shí)現(xiàn)對(duì)投毒樣本的準(zhǔn)確評(píng)估.

      算法2:多譜聚類樣本合法性評(píng)估算法

      輸入:人臉圖像樣本集X=(x1,x2,…,xn)

      輸出:對(duì)人臉圖像樣本的檢測(cè)評(píng)估值V={Vx1,Vx2,…VxN}.

      1)采用高斯函數(shù)和余弦相似度函數(shù)分別構(gòu)建相似矩陣S1、S2;

      2)根據(jù)相似矩陣S1、S2分別構(gòu)建對(duì)應(yīng)的度矩陣D1、D2;

      3)對(duì)度矩陣D1、D2,分別計(jì)算出對(duì)應(yīng)的拉普拉斯矩陣L1、L2;

      6)對(duì)特征向量f1、f2組成的矩陣,按行進(jìn)行標(biāo)準(zhǔn)化操作,得到n×k1維的特征矩陣F1、F2;

      7)把F1、F2中的每一行作為一個(gè)k1維樣本,共得到n個(gè)樣本,分別用最小分割和規(guī)范分割的聚類方法對(duì)樣本進(jìn)行聚類,聚類維數(shù)為k2.經(jīng)排列組合,分別得到4種簇劃分C1(c1,c2,…,ck2),C2(c1,c2,…,ck2),C3(c1,c2,…,ck2),C4(c1,c2,…,ck2);

      8)分別把C1,C2,C3,C4劃分為k個(gè)簇,在劃分出來的簇中選擇樣本最密集的簇作為合法簇,其他簇作為候選簇;

      10)使用譜聚類學(xué)習(xí)器Hij對(duì)C1,C2,C3,C4的每個(gè)樣本的平均值進(jìn)行打分,打分值為Vij;

      3 線性擬合

      在人臉識(shí)別的機(jī)器學(xué)習(xí)過程中,數(shù)據(jù)清洗和算法的魯棒性是一對(duì)矛盾的指標(biāo).一般來說,數(shù)據(jù)清洗得越干凈,則算法的魯棒性就越差,反之亦然.若把數(shù)據(jù)清洗看成是一個(gè)自變量,魯棒性就是對(duì)應(yīng)的因變量,那么計(jì)算這兩個(gè)變量間的相互依賴關(guān)系就是一個(gè)典型的線性回歸問題,這兩個(gè)變量數(shù)據(jù)就可以使用線性預(yù)測(cè)函數(shù)來建模并通過數(shù)據(jù)估算優(yōu)化模型參數(shù).因此,利用線性擬合在數(shù)據(jù)清洗和魯棒性之間就可以找到一個(gè)最優(yōu)的平衡.線性擬合是一種監(jiān)督學(xué)習(xí),線性回歸假設(shè)目標(biāo)值與特征之間線性相關(guān),通過構(gòu)建損失函數(shù),來求解損失函數(shù)最小時(shí)的參數(shù).對(duì)于數(shù)據(jù)清洗(對(duì)應(yīng)參數(shù)設(shè)為w)和魯棒性(對(duì)應(yīng)參數(shù)設(shè)為b),給定n個(gè)特征,每個(gè)特征M個(gè)樣本集,通過訓(xùn)練n×M個(gè)數(shù)據(jù),將這些訓(xùn)練數(shù)據(jù)帶入到損失函數(shù)h中,擬合過程就是求解w和b使得損失函數(shù)最小化的過程.線性擬合的公式如下:

      (4)

      式中xi為w的輸入向量,yi為b的輸入向量.將訓(xùn)練數(shù)據(jù)帶入損失函數(shù)h中,可以通過最小二乘法或梯度下降法對(duì)目標(biāo)函數(shù)進(jìn)行求解.實(shí)驗(yàn)表明,采用梯度下降的方法,對(duì)自變量進(jìn)行不斷的更新(針對(duì)w和b求偏導(dǎo)),可以使得損失函數(shù)快速逼近最小值.利用梯度下降,得到數(shù)據(jù)清洗和魯棒性的最優(yōu)擬合值為0.55,如圖1所示:

      圖1 數(shù)據(jù)清洗與魯棒性的最優(yōu)擬合點(diǎn)

      4 仿真實(shí)驗(yàn)

      實(shí)驗(yàn)使用學(xué)校人臉識(shí)別系統(tǒng)中的1 500張人臉圖像作為訓(xùn)練樣本,圖像大小為128×128.算法使用python3.8編程實(shí)現(xiàn),實(shí)驗(yàn)使用的操作系統(tǒng)是windows 10,機(jī)器配置為Intel Core i7 3.0 G的CPU,8 G的內(nèi)存.

      對(duì)投毒樣本的檢測(cè),一般有4種情況:TP,TN,F(xiàn)P,F(xiàn)N.如表1所示:

      表1 真實(shí)值與預(yù)測(cè)值關(guān)系

      為了綜合評(píng)估算法的有效性,使用了5個(gè)分類指標(biāo)和1個(gè)效率指標(biāo)進(jìn)行檢測(cè).分類指標(biāo)分別是:預(yù)測(cè)正確率(ACC)、查準(zhǔn)率(P)、查全率(R)、F1-score、ROC曲線,效率指標(biāo)使用的是算法的運(yùn)行效率(T).

      預(yù)測(cè)正確率(ACC)指的是數(shù)據(jù)檢測(cè)過程中被正確預(yù)測(cè)的數(shù)據(jù)實(shí)例與所有實(shí)例的數(shù)量比值,計(jì)算公式如公式(5)所示.

      (5)

      查準(zhǔn)率(P)體現(xiàn)了算法對(duì)負(fù)樣本的區(qū)分能力,指的是檢測(cè)出的投毒實(shí)例與被預(yù)測(cè)為投毒實(shí)例的比例,計(jì)算公式如公式(6)所示.

      (6)

      查全率(R)體現(xiàn)了算法對(duì)正樣本的識(shí)別能力,指的是被檢測(cè)出投毒實(shí)例與真實(shí)投毒實(shí)例的數(shù)量比值,計(jì)算公式如公式(7)所示.

      (7)

      F1-score是查準(zhǔn)率(P)和查全率(R)的綜合, 計(jì)算公式如公式(8)所示.

      (8)

      ROC 曲線展示是查全率和精度的變化關(guān)系,其x軸表示的是假正例率 (FPR),y軸表示的是真正例率(TPR).假正例率 (FPR)和真正例率(TPR)的計(jì)算公式如公式(9)、公式(10)所示.

      (9)

      (10)

      運(yùn)行效率(T)是算法完成訓(xùn)練檢測(cè)所需的時(shí)間,計(jì)算公式如公式(11)所示.

      T=t2-t1

      (11)

      式中t1為開始時(shí)間 ,t2為結(jié)束時(shí)間.

      實(shí)驗(yàn)中,采用一定的策略對(duì)人臉圖像進(jìn)行了數(shù)據(jù)投毒攻擊,使用本文算法與文獻(xiàn)[4]、文獻(xiàn)[5]的算法對(duì)圖像樣本進(jìn)行了訓(xùn)練和檢測(cè),實(shí)驗(yàn)結(jié)果如圖2~7所示:

      圖2 ACC對(duì)比

      圖3 查準(zhǔn)率對(duì)比

      圖4 查全率對(duì)比

      圖5 F1-score對(duì)比

      圖6 ROC對(duì)比

      圖7 算法效率對(duì)比

      從圖2可以看出隨著數(shù)據(jù)投毒率的增加,三種算法的預(yù)測(cè)正確率均有下降,文獻(xiàn)[4]性能下降明顯.本文算法與文獻(xiàn)[5]性能接近,都有較高的預(yù)測(cè)正確率,表明兩種算法經(jīng)過數(shù)據(jù)清洗都能有效地抵御投毒攻擊;從圖3可知,隨著更多的投毒樣本出現(xiàn),三種算法檢測(cè)出投毒樣本的機(jī)率也越來越高,檢測(cè)的精確率均有提升,本文算法優(yōu)于對(duì)比的兩種算法;圖4的查全率則是有效檢測(cè)投毒數(shù)據(jù)的重要指標(biāo),反映了算法對(duì)投毒數(shù)據(jù)的有效檢測(cè)能力.因?yàn)楸疚牟捎枚嘧V聚類的樣本合法性評(píng)估算法綜合評(píng)價(jià)樣本,對(duì)投毒數(shù)據(jù)的檢測(cè)具有更好的正確性,同時(shí)通過線性擬合得到數(shù)據(jù)清洗和魯棒性的最優(yōu)平衡點(diǎn),算法不會(huì)因?yàn)榧?xì)微的數(shù)據(jù)擾動(dòng)而出現(xiàn)虛警的情況,因此,相對(duì)其他兩種算法,本文算法具有更好的查全率;圖5展示了在投毒數(shù)據(jù)樣本與正常數(shù)據(jù)數(shù)樣本量不均衡的情況下,三種算法的F1-score的數(shù)據(jù)對(duì)比,在數(shù)據(jù)投毒比例不高的情況下,本文算法的性能遜于文獻(xiàn)[5]的算法,原因是本文采用的是多譜聚類樣本合法性評(píng)估算法,當(dāng)投毒樣本不多的時(shí)候,譜聚類學(xué)習(xí)器計(jì)算出的樣本數(shù)據(jù)受個(gè)別異常數(shù)據(jù)擾動(dòng)的影響較大,平均值會(huì)有較多的偏差,導(dǎo)致算法可靠性降低.但隨著投毒數(shù)據(jù)比例的增加,譜聚類學(xué)習(xí)器將通過學(xué)習(xí)可以計(jì)算出更加精確的樣本平均值,當(dāng)數(shù)據(jù)投毒比例超過50%的時(shí)候,本文算法會(huì)有更好的性能表現(xiàn),說明本文算法具有更好的穩(wěn)健性.圖6則表明,隨著FPR的增加,本文算法的TPR的檢測(cè)能力也優(yōu)于對(duì)比的算法.從圖7得知,因?yàn)槿四槇D像有較多的高維特征,采用孤立森林算法對(duì)圖像進(jìn)行檢測(cè)相對(duì)于文獻(xiàn)[4]的K-means算法和文獻(xiàn)[5]的復(fù)雜模型算法,具有更快的運(yùn)算速度.

      5 結(jié)語

      數(shù)據(jù)投毒是針對(duì)機(jī)器學(xué)習(xí)的一種攻擊方式,它通過干預(yù)深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,比如插入或者修改某些訓(xùn)練樣本,從而實(shí)現(xiàn)降低模型準(zhǔn)確度或者實(shí)現(xiàn)特定輸入的定向或者非定向輸出,從而帶來嚴(yán)重的安全隱患.本文針對(duì)校園門禁系統(tǒng)的人臉圖像進(jìn)行數(shù)據(jù)投毒檢測(cè),將數(shù)據(jù)清洗和魯棒性進(jìn)行綜合考量,提出了一種新的數(shù)據(jù)投毒攻擊的檢測(cè)算法.實(shí)驗(yàn)表明,該算法快速有效.算法在投毒樣本數(shù)據(jù)不多的情況下,F(xiàn)1-score的性能表現(xiàn)還有待改進(jìn),今后將對(duì)這一問題進(jìn)行進(jìn)一步的研究解決.

      猜你喜歡
      投毒魯棒性人臉
      基于樣本原生特征的投毒防御方法
      有特點(diǎn)的人臉
      荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
      基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
      三國(guó)漫——人臉解鎖
      基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
      西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
      馬面部與人臉相似度驚人
      投毒兇手
      長(zhǎng)得象人臉的十種動(dòng)物
      奇聞怪事(2014年5期)2014-05-13 21:43:01
      乐都县| 甘肃省| 伊通| 兴海县| 页游| 彭山县| 武陟县| 金川县| 阿图什市| 冀州市| 大埔区| 遵化市| 泰州市| 思南县| 福泉市| 香格里拉县| 宣化县| 志丹县| 定边县| 临沧市| 都江堰市| 绵阳市| 桂东县| 竹山县| 潍坊市| 青田县| 漠河县| 七台河市| 武乡县| 禄劝| 彝良县| 宝丰县| 浦东新区| 彩票| 滨州市| 香河县| 枞阳县| 冀州市| 定南县| 横山县| 伊春市|