馬 喆,周華兵
(武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205)
近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域取得重大突破,超越了許多傳統(tǒng)方法。然而,深度學(xué)習(xí)技術(shù)也對(duì)個(gè)人隱私數(shù)據(jù)、社會(huì)穩(wěn)定和國(guó)家安全等造成潛在威脅。
以深度學(xué)習(xí)技術(shù)制作的虛假圖像以及音視頻內(nèi)容在網(wǎng)絡(luò)上傳播,深度偽造技術(shù)采用“生成式對(duì)抗網(wǎng)絡(luò)”(Generative Adversarial Networks,GAN)的機(jī)器學(xué)習(xí)模型將圖片疊加到源圖片上,尤其是Deepfakes 技術(shù)生成的偽造視頻通過(guò)篡改或替換原始視頻中的人臉信息制作虛假新聞、政治謠言,這類偽造視頻人眼難以辨認(rèn),一旦被濫用危害極大,給國(guó)家安全甚至世界秩序帶來(lái)風(fēng)險(xiǎn)。目前,針對(duì)深度偽造內(nèi)容的檢測(cè)和防御成為世界各國(guó)政府、企業(yè)及研究人員關(guān)注的熱點(diǎn)之一[1]。
深度偽造內(nèi)容檢測(cè)方法大多采用多層卷積神經(jīng)網(wǎng)絡(luò),取得了一定成果,但其仍然存在網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、計(jì)算量大等問(wèn)題。本文提出一種基于低層特征的深度偽造圖像檢測(cè)方法,先對(duì)圖像進(jìn)行預(yù)處理提取低層特征,再將低層特征通過(guò)簡(jiǎn)單的全連接網(wǎng)絡(luò)訓(xùn)練實(shí)現(xiàn)分類。全連接網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,計(jì)算量小于多層神經(jīng)網(wǎng)絡(luò)且分類精度有所提高。
基于傳統(tǒng)的信號(hào)處理方法進(jìn)行圖像取證,利用圖像的頻域特征和統(tǒng)計(jì)特征來(lái)檢測(cè)拼接、復(fù)制—移動(dòng)、移除等偽造圖像記錄[2]。Chierchia 等[3]基于相機(jī)設(shè)備指紋光響應(yīng)不均勻性檢測(cè)小的篡改圖像;Huh 等[4]設(shè)計(jì)了一個(gè)孿生網(wǎng)絡(luò),在來(lái)自不同相機(jī)的圖像塊上提取圖片的噪音指紋從而實(shí)現(xiàn)檢測(cè);Zhou 等[5]提出基于雙流的Faster R-CNN 網(wǎng)絡(luò),融合RGB 流與噪聲流的特征學(xué)習(xí)兩個(gè)模態(tài)空間信息;Liu等[6]提出一個(gè)新的深度融合網(wǎng)絡(luò),通過(guò)追蹤邊界來(lái)定位篡改區(qū)域。這些基于取證的技術(shù)已經(jīng)很成熟,但是深度偽造圖像通常會(huì)進(jìn)行不同的壓縮方式、不同的壓縮率等后處理,而經(jīng)過(guò)后處理的圖像局部異常特征會(huì)減弱。傳統(tǒng)取證方法關(guān)注的是局部異常特征,因此傳統(tǒng)取證方法不能直接用于深度偽造圖像檢測(cè)。
近年深度偽造圖像檢測(cè)技術(shù)取得進(jìn)展。深度偽造技術(shù)往往忽略人的真實(shí)生理特征,Yang 等[7-8]發(fā)現(xiàn)假人臉與真人臉在3D 頭部姿態(tài)評(píng)估和關(guān)鍵點(diǎn)位置具有不一致性,因此根據(jù)SVM 分類器進(jìn)行學(xué)習(xí)。但隨著深度偽造技術(shù)在生理信號(hào)上的改進(jìn),此類方法會(huì)失效;早期的深度偽造圖像由于技術(shù)缺陷會(huì)在人臉區(qū)域留下人工痕跡,Li 等[9]發(fā)現(xiàn)Deepfakes 視頻留下的人工偽影,通過(guò)模擬人工偽影構(gòu)造負(fù)樣本使用Resnet50 網(wǎng)絡(luò)訓(xùn)練分類器;Matern 等[10]利用真假臉的不一致性來(lái)區(qū)分,通過(guò)對(duì)特定區(qū)域(牙齒、眼睛等)提取的特征向量訓(xùn)練多層感知機(jī)進(jìn)行分類。但是壓縮、優(yōu)化修改篡改邊界等后處理和高分辨率偽造圖像的出現(xiàn),使這類方法的檢測(cè)能力大大減弱。最近的深度偽造圖像大部分借助了GAN 技術(shù),文獻(xiàn)[11]和文獻(xiàn)[12]發(fā)現(xiàn)GAN 生成技術(shù)改變了圖像的像素和色度空間統(tǒng)計(jì)特征,通過(guò)對(duì)特征共生矩陣的學(xué)習(xí)來(lái)區(qū)分生成圖像的差異;文獻(xiàn)[13]和文獻(xiàn)[14]嘗試用GAN 指紋來(lái)區(qū)分偽造。但這類方法只對(duì)特定的GAN 有效,無(wú)法處理未知的GAN,泛化能力不足?;趫D片級(jí)的深度學(xué)習(xí)方法是當(dāng)前研究熱點(diǎn),Nguyen 等[15]設(shè)計(jì)膠囊網(wǎng)絡(luò)來(lái)判別造假的圖片或視頻,通過(guò)抽取人臉圖像,用VGG-19 提取特征編碼,然后輸入膠囊網(wǎng)絡(luò);Nguyen等[16]設(shè)計(jì)了Y 型解碼器,在分類的同時(shí)融入分割和重建損失,通過(guò)分割輔助分類效果;Darius 等[17]根據(jù)圖像的介觀特性使用CNN 網(wǎng)絡(luò)進(jìn)行分類。深度學(xué)習(xí)具有強(qiáng)大的學(xué)習(xí)能力,大型深度偽造圖像數(shù)據(jù)集FaceForensics++的出現(xiàn)為這類方法提供了便利[18],但這類方法學(xué)習(xí)到的模型對(duì)壓縮處理后的圖像檢測(cè)能力有所下降。
上述方法都在各自數(shù)據(jù)集上取得了較好效果,但仍然有許多問(wèn)題亟需解決。當(dāng)前的深度偽造圖像檢測(cè)方法大多基于深度學(xué)習(xí),使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大型數(shù)據(jù)集計(jì)算量較大,一些方法的檢測(cè)能力會(huì)由于壓縮、優(yōu)化篡改邊界等后處理而下降。
針對(duì)以上問(wèn)題,本文提出采用低層特征的深度偽造圖像檢測(cè)方法,具體闡述如下:
(1)預(yù)處理圖像提取低層特征并使用全連接網(wǎng)絡(luò)訓(xùn)練分類器,簡(jiǎn)化了網(wǎng)絡(luò),減少了計(jì)算量。
(2)基于人工痕跡的方法依賴真假人臉邊界以及其他特定區(qū)域的不一致性,采用圖像噪聲這類低層特征不會(huì)隨優(yōu)化邊界操作而變化的特性,對(duì)優(yōu)化篡改邊界的數(shù)據(jù)集分類效果好。
(3)基于圖片級(jí)的深度學(xué)習(xí)方法對(duì)壓縮處理后的圖像檢測(cè)能力有所下降,為此,本文采用誤差水平分析(ELA)提取壓縮的圖像特征,提高了壓縮圖像的檢測(cè)準(zhǔn)確率。
深度學(xué)習(xí)具有準(zhǔn)確表示復(fù)雜、高維、大規(guī)模數(shù)據(jù),進(jìn)而直接提取特征的能力。特征提取分為自動(dòng)提取和手動(dòng)提取兩種類型。自動(dòng)提取指在數(shù)據(jù)集上直接訓(xùn)練模型,即讓模型自主學(xué)習(xí)和提取能夠區(qū)分真?zhèn)蝺?nèi)容的特征;手動(dòng)提取則需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,人工提取出部分特征,進(jìn)而基于已提取特征完成分類器訓(xùn)練。當(dāng)前的方法多使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取圖像的高級(jí)特征,使用大規(guī)模的數(shù)據(jù)訓(xùn)練分類器。本文提出的方法關(guān)注的是噪聲、誤差水平分析等低層級(jí)特征,手動(dòng)提取噪聲圖、ELA 圖,進(jìn)一步轉(zhuǎn)換為灰度直方圖特征作為分類器的輸入,使用全連接網(wǎng)絡(luò)做分類器,簡(jiǎn)化了卷積神經(jīng)網(wǎng)絡(luò)提取特征過(guò)程。
詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。將數(shù)據(jù)集根據(jù)圖像真?zhèn)畏譃閮深悾孩賯卧靾D像標(biāo)簽為0;②真實(shí)圖像標(biāo)簽為1。以一張大小為256 × 256 × 3 的圖像為輸入,對(duì)輸入圖像分別進(jìn)行SRM 濾波以及ELA 處理得到噪聲圖以及ELA 圖并轉(zhuǎn)換為灰度圖像,并根據(jù)兩幅灰度圖的0~255 像素值計(jì)算每個(gè)像素的個(gè)數(shù),轉(zhuǎn)化為兩個(gè)1× 1× 256 維的特征向量,再拼接為1× 1× 512 維的特征向量。將3 個(gè)全連接網(wǎng)絡(luò)作為分類器,以上述1× 1× 512 維的特征向量和對(duì)應(yīng)的標(biāo)簽作為輸入,前兩個(gè)全連接層每層后加一個(gè)RELU 激活函數(shù),最后一個(gè)全連接層輸出經(jīng)過(guò)softmax 函數(shù)激活,使用二分類的交叉熵?fù)p失根據(jù)輸入的低層特征以及對(duì)應(yīng)標(biāo)簽訓(xùn)練分類器。
在采集過(guò)程中每幅圖像都有自己的獨(dú)特標(biāo)記,這些標(biāo)記要么來(lái)自硬件(如傳感器、鏡頭),要么來(lái)自軟件組件(如壓縮、合成算法)。硬軟件產(chǎn)生的標(biāo)記一般具有“周期性”或者是均勻的。一旦圖像改變就會(huì)打破這種均勻,因此可以利用標(biāo)記判斷是否為合成圖片。圖2(彩圖掃OSID 碼可見(jiàn),下同)中,對(duì)真?zhèn)螆D像進(jìn)行噪聲分析和誤差水平分析,觀察它們之間的差異。真實(shí)圖像和偽造圖像的噪聲和ELA圖在臉部區(qū)域(圖中紅框)有差異,具體體現(xiàn)在真實(shí)圖像的噪聲圖與ELA 圖的臉部區(qū)域五官(眼睛、鼻子、嘴唇等)與周圍的臉部邊界等背景近似,而偽造圖像的噪聲圖與ELA圖中五官區(qū)域與臉部邊界(篡改邊界)等背景部分有所不同,ELA 圖中尤為顯著。
Fig.1 Network structure圖1 網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2 Noise analysis and ELA analysis圖2 噪聲分析和ELA 分析
數(shù)字圖像隱寫技術(shù)指在圖像中隱藏秘密信息,會(huì)改變某些像素大小。SRM 采用圖像定性隱寫分析框架,檢測(cè)圖像是否有隱寫嵌入改動(dòng)。SRM 采用豐富的線性和非線性空域高通濾波器對(duì)圖像進(jìn)行濾波,將得到的豐富噪聲殘差圖像作為SRM 的子模型[19]。對(duì)圖像某個(gè)像素的隱寫嵌入改動(dòng)會(huì)導(dǎo)致某些噪聲殘差圖像相應(yīng)位置的相鄰像素相關(guān)性發(fā)生變化,SRM 方法豐富的子模型能增加隱寫分析的多樣性,更全面地感知隱寫嵌入引起的圖像相鄰像素相關(guān)性變化。深度偽造圖像主要篡改人臉,改變了人臉區(qū)域像素大小,可以看作隱寫嵌入改動(dòng)。因此,本文將隱寫分析中的SRM 濾波器用于圖像深度噪聲特征提取器。
SRM 收集基本的噪聲特征,僅使用3 個(gè)內(nèi)核的SRM 濾波器即可獲得不錯(cuò)的性能。本文將SRM 濾波器的內(nèi)核大小定義為5×5×3,輸出通道大小為3,其權(quán)重如圖3 所示。
Fig.3 SRM filter weights圖3 SRM 濾波器權(quán)重
誤差水平分析(Error Level Analysis,ELA)可以識(shí)別圖像中處于不同壓縮級(jí)別的區(qū)域,獲取圖像壓縮時(shí)的失真情況[20]。ELA 以指定的JPEG 質(zhì)量級(jí)別保存圖像。JPEG 圖像使用有損壓縮系統(tǒng),圖像的每次重新編碼(重新保存)都會(huì)增加圖像的質(zhì)量損失從而引入已知數(shù)量的錯(cuò)誤。JPEG 算法在8×8 像素網(wǎng)格上運(yùn)行,每個(gè)8×8 正方形均獨(dú)立壓縮。如果圖像未修改則每個(gè)正方形應(yīng)以大致相同的速率降級(jí),所有8×8 正方形都應(yīng)具有相似的潛在錯(cuò)誤。如果對(duì)圖像進(jìn)行了修改,則修改所觸及的每個(gè)8×8 正方形應(yīng)比圖像其余部分潛在錯(cuò)誤更高。ELA 通過(guò)潛在錯(cuò)誤的不同確定篡改區(qū)域。如果圖像進(jìn)行了多次壓縮處理,則該圖像篡改區(qū)域的潛在錯(cuò)誤在ELA 圖上會(huì)更加明顯。壓縮處理在深度偽造圖像中較為常見(jiàn),使用ELA 方法能在圖像被壓縮的情況下檢測(cè)偽造。
本文實(shí)驗(yàn)采用數(shù)據(jù)集FaceForensics++ 進(jìn)行訓(xùn)練。選取750 個(gè)原始視頻以及對(duì)應(yīng)的750 個(gè)由DeepFakes 生成的偽造視頻(壓縮質(zhì)量均為c23),然后在每個(gè)原始視頻和偽造視頻均提取30 幀,用人臉檢測(cè)器抽取出人臉框,截取人臉時(shí)以人臉框?yàn)榛鶞?zhǔn)向外擴(kuò)展0.3 倍,圖像大小調(diào)整為256×256×3。原始視頻中提取的幀為真實(shí)圖像,標(biāo)簽為1;DeepFakes 視頻中提取的幀為偽造圖像,標(biāo)簽為0。訓(xùn)練集與測(cè)試集大小比例為9∶1。損失函數(shù)使用常用的二分類交叉熵?fù)p失,如式(1)所示。
參數(shù)設(shè)置:使用SGD 優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)率lr設(shè)為0.01,動(dòng)量參數(shù)momentum 設(shè)為0.5,
每次更新后的學(xué)習(xí)率衰減值decay 設(shè)為0,不使用Nesterov 動(dòng)量。網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)設(shè)置為100。
為了驗(yàn)證本文方法在網(wǎng)絡(luò)結(jié)構(gòu)、計(jì)算量以及分類精度上的優(yōu)勢(shì),在Deepfakes(壓縮率為c23)數(shù)據(jù)集中挑選未參與訓(xùn)練的100 個(gè)視頻,每個(gè)視頻提取10 幀進(jìn)行模型測(cè)試。
文獻(xiàn)[2]總結(jié)了基于圖像篡改痕跡的模型在不同數(shù)據(jù)集上的AUC 值對(duì)比。本文模型在壓縮率c23 的Deepfakes數(shù)據(jù)集上測(cè)試得到AUC 值,并與文獻(xiàn)[9]和文獻(xiàn)[10]的模型進(jìn)行比較,AUC 值越高代表分類效果越好,具體數(shù)值見(jiàn)表1。由于Deepfakes 技術(shù)在替換原始人臉時(shí)對(duì)人臉邊界(篡改邊界)進(jìn)行了優(yōu)化,上述兩個(gè)基于篡改痕跡的模型在該數(shù)據(jù)集上分類性能下降。本文模型分類效果較好,說(shuō)明采用圖像噪聲這類低層特征訓(xùn)練的分類器對(duì)Deepfakes 的數(shù)據(jù)集分類效果較好。
Table 1 Comparison of AUC values between the proposed model and the tamper trace model表1 本文模型與基于篡改痕跡模型AUC 值比較
接受者操作特性(Receiver Operating Characteristic,ROC)曲線一般用于二分類模型評(píng)價(jià),ROC 曲線覆蓋的面積越大,模型分類效果越好。本文方法與文獻(xiàn)[15]的Capluse、文獻(xiàn)[16]的Milt_task 和文獻(xiàn)[17]的Mesonet 方法在ROC 曲線上的比較如圖4 所示。從圖中可以看出本文模型的ROC 曲線覆蓋面積最大。
Fig.4 ROC curves of the four models圖4 4 種模型的ROC 曲線
另外使用AUC 與EER 指標(biāo)評(píng)價(jià)模型性能。AUC(Area Under Curve)表示ROC 曲線下的面積。AUC 值作為一個(gè)數(shù)量值,可以進(jìn)行定量比較,AUC 值越高表示分類器性能越好。等錯(cuò)誤概率(EER)用于預(yù)先確定其錯(cuò)誤接受率以及錯(cuò)誤拒絕率的閾值。等錯(cuò)誤率值越低,分類器的準(zhǔn)確度越高。本文方法與上述文獻(xiàn)的3 種方法在AUC 值和EER 值上的比較如表2 所示,從表中可以看出,本文模型的AUC 值(99.55%)最大,而等錯(cuò)誤率(2.5%)最小。
Table 2 Comparison of AUC value and EER value表2 AUC 值與EER 值比較 (%)
上述3 種文獻(xiàn)的方法分類效果在壓縮后的Deepfakes數(shù)據(jù)集上表現(xiàn)不佳,而本文模型的ROC 曲線覆蓋面積最大,AUC 值最大,等錯(cuò)誤率最小,分類效果最好,說(shuō)明使用ELA 處理和SRM 濾波提取的低層特征更有利于對(duì)抗圖像壓縮等后處理對(duì)分類器性能的影響。
模型的復(fù)雜度用模型參數(shù)量、計(jì)算量和模型大小評(píng)價(jià),使用這3 個(gè)指標(biāo)將本文方法與其他方法對(duì)比,具體數(shù)值根據(jù)thop 計(jì)算[22]。從表3 可以看出,本文方法相比于其他方法網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、計(jì)算量最小,模型參數(shù)量和模型大小也非常小,說(shuō)明本文方法簡(jiǎn)單、高效。
Table 3 Comparison of parameter calculation表3 參數(shù)量計(jì)算量比較
近年來(lái),基于深度學(xué)習(xí)技術(shù)的深度偽造發(fā)展迅速,在電影特效制作、虛擬角色創(chuàng)建等領(lǐng)域應(yīng)用廣泛。但惡意的深度偽造生成換臉圖像,偽造內(nèi)容通過(guò)網(wǎng)絡(luò)快速傳播,人們難以分辨真?zhèn)危瑢?duì)網(wǎng)絡(luò)安全帶來(lái)了巨大威脅。
研究深度偽造檢測(cè)技術(shù),防止惡意偽造內(nèi)容造成的威脅成為熱點(diǎn)。本文提出一個(gè)基于低層特征的方法檢測(cè)偽造圖像,該方法在分類器性能和效率上與最近幾種熱門的檢測(cè)方法相比有一定優(yōu)勢(shì),在面對(duì)壓縮處理后的圖像以及優(yōu)化篡改邊界的數(shù)據(jù)集時(shí)分類效果很好。但本文的方法以及現(xiàn)有的其他檢測(cè)方法均依賴于特定的數(shù)據(jù)集和生成算法,泛化能力很弱,無(wú)法應(yīng)對(duì)新的篡改方法,而且大多在單一場(chǎng)景下測(cè)試,檢測(cè)算法不具有魯棒性。后續(xù)工作不僅要專注于提高某個(gè)數(shù)據(jù)集的檢測(cè)精度,魯棒性和泛化問(wèn)題也是研究重點(diǎn)。