基于Inception3D網(wǎng)絡(luò)的眼部與口部區(qū)域協(xié)同視頻換臉偽造檢測

2021-04-19 12:42:00韓語晨張海劍

信號處理 2021年4期

韓語晨華光張海劍

(武漢大學(xué)電子信息學(xué)院, 湖北武漢 430072)

1 引言

深度偽造(DeepFake),即利用深度學(xué)習(xí)技術(shù)合成虛假圖像、視頻、音頻等多媒體內(nèi)容,作為新興的多媒體內(nèi)容篡改方式,是目前受社會各界關(guān)注最為廣泛且負面影響深遠的安全隱患之一[1-2]。較傳統(tǒng)手工偽造多媒體(借助Photoshop、Audacity等媒體編輯軟件),深度偽造多媒體具有偽造內(nèi)容自由度更高、偽造效果更逼真、人眼更難察覺等顯著優(yōu)勢。深度偽造多媒體往往含有虛假的人物、事件及語音資料,一旦在網(wǎng)絡(luò)空間大范圍快速傳播,可被利用于散布虛假信息、誘導(dǎo)輿情發(fā)展、制造傳播仇恨、煽動群體行為,對個人、集體乃至國家安全造成嚴重損害。2018年,網(wǎng)絡(luò)上出現(xiàn)美國前總統(tǒng)奧巴馬發(fā)表不當(dāng)言論(對其后一任總統(tǒng)特朗普進行人身攻擊)的視頻[3],經(jīng)證實是利用深度偽造技術(shù)產(chǎn)生的虛假視頻。2019年,新華網(wǎng)披露目前微信詐騙科技含量越來越高,已出現(xiàn)通過深度偽造的克隆語音進行成功詐騙的案例[4]。此外,開源的“換臉”、“換聲”等程序?qū)映霾桓F,且不乏“一鍵式”深度偽造軟件和手機App,使得深度偽造的“門檻”大幅降低,也使深度偽造多媒體內(nèi)容取證成為亟待研究的世界性課題。

偽造視頻中對面部信息的篡改主要可以分為四種類型[5]:

整臉合成(Entire Face Synthesis):整臉合成指通過深度偽造技術(shù)合成現(xiàn)實世界不存在的人臉,主要分為基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[6]和自編碼器(autoencoder)[7]的方法。目前較有代表性的方法為文獻[8]中提出的StyleGAN,2020年11月,韓國MBN電視臺成功運用該技術(shù)合成了第一位AI主播,實現(xiàn)了智能新聞播報[9]。

換臉(Identity Swap):換臉偽造將已有視頻中的人臉替換為已知的目標(biāo)人臉,因視頻的動態(tài)特性和口型語音一致性的要求,視頻換臉往往比圖像換臉操作更為精密復(fù)雜。目前主要的視頻換臉工具包括開源的FaceSwap[10]、Deep-FaceSwap[11]、Faceswap-GAN[12]、DeepFaceLab[13]等。

屬性篡改(Attribute Manipulation):屬性篡改通過修改或者增減面部的一些屬性達到篡改目的。常見的可篡改屬性包括發(fā)型、頭發(fā)皮膚顏色、性別、年齡、增減眼鏡等飾物等。此類篡改操作通常是通過GAN來完成,例如文獻[14]中提出的StarGAN。

表情交換(Expression Swap):此類篡改主要目的為改變?nèi)说拿娌勘砬?比較流行的技術(shù)為Face2Face[15]和Neural Textures[16]。

在以上這四種類型中,換臉視頻通過面部替換偽造一個人說出特定的語句或者做出特定的動作,可用于誤導(dǎo)輿論、擾亂社會秩序, 甚至可能會威脅人臉識別系統(tǒng)、干預(yù)政府選舉和顛覆國家政權(quán)等,已成為當(dāng)前最先進且危害最大的新型網(wǎng)絡(luò)攻擊形式。因此,本文主要研究深度偽造中換臉視頻的檢測問題。

隨著深度偽造的廣泛研究,出現(xiàn)了一些利用深度學(xué)習(xí)對深度偽造進行檢測的方法[17-26],文獻[17-20]構(gòu)造了端到端(end-to-end)的深度偽造檢測網(wǎng)絡(luò),包括Mesonet[18]、MISLnet[19]、ShallowNet[20]等,其中MISLnet是一個通用圖像取證網(wǎng)絡(luò),原本用來檢測加噪、中值濾波、高斯模糊、JPEG壓縮等操作。文獻[21]將人臉區(qū)域分為了整臉、眼、鼻、口以及剩余區(qū)域等5個內(nèi)容作為Xception網(wǎng)絡(luò)的輸入,從實驗結(jié)果看,最能幫助檢測的區(qū)域為眼和口部,而其他區(qū)域效果較差。文獻[22]則指出,一般的深度偽造都包括合成面部和面部融合兩個步驟,現(xiàn)有的方法大多通過捕捉合成過程中可能出現(xiàn)的細微痕跡進行檢測,而文獻[22]提出了一種面部X射線(face X-ray)用于檢測人臉圖像的偽造,面部X射線將輸出一幅灰度圖像,它反映了輸入圖像是否可以分解為來自不同來源的兩幅圖像。然而,以上的方法都是從圖像層面對深度偽造進行檢測,丟失了視頻中的時間和運動信息。為了將時間信息納入考量,文獻[23]提出了利用視頻中光流場(optical flow field)信息檢測深度偽造的思路,將待檢測視頻中的光流信息作為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的輸入,利用網(wǎng)絡(luò)提取光流中能分辨深度偽造的深層特征。文獻[24-25]則以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式,利用循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉圖像流的時間信息的能力來檢測深度偽造視頻。文獻[26]采用動作識別中的3D(3 Dimension)卷積[27]代替?zhèn)鹘y(tǒng)的2D卷積,對比了3D ResNet、3D ResNeXt和I3D(Inception3D)在檢測深度偽造視頻上的能力。

總體來說,現(xiàn)有深度偽造視頻取證方法大多基于對比真實和偽造視頻之間的視覺差異,從而提煉出定量特征描述用于分類,這種研究方式有一定的效果但缺乏針對深度偽造合成原理的探索。此外,循環(huán)神經(jīng)網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)雖然可以保留視頻中的時間信息,但是網(wǎng)絡(luò)復(fù)雜度較高,權(quán)值參數(shù)數(shù)量龐大,且需要大量的訓(xùn)練樣本進行訓(xùn)練,對計算資源要求較高。值得注意的是,在視頻換臉深度偽造過程中,主要技術(shù)挑戰(zhàn)在于眼部的動態(tài)呈現(xiàn)和口型與語音的一致性問題上,這些部位也自然成為更易留下偽造痕跡的地方。因此,本文針對深度偽造的合成過程中容易出現(xiàn)的眨眼不自然痕跡和口型擬合問題,利用基于dlib人臉識別庫[28]的Face-recognition工具庫,提取人臉的眼部和口部位置作為雙流3D卷積神經(jīng)網(wǎng)絡(luò)的輸入。同時,本文提出僅包含兩個Inception模塊的高效I3D網(wǎng)絡(luò),保留了I3D網(wǎng)絡(luò)多層次、多維度的特征,去除了原始I3D網(wǎng)絡(luò)中存在的冗余部分,在保證一定準確率的同時將訓(xùn)練速度提升為原來的三倍。下文將詳細介紹本文提出的基于雙流特征的高效I3D網(wǎng)絡(luò)模型。

2 基于雙流特征的高效Inception3D神經(jīng)網(wǎng)絡(luò)

現(xiàn)有的一些具有代表性的深度偽造換臉檢測方法的性能和局限性如表1所示,表中Acc.表示正確率(Accuracy),性能評估均取在FaceForensics++上測試的數(shù)據(jù)。其中,Face X-ray[22]提出提取人臉邊緣融合痕跡、文獻[21]將人臉區(qū)域分成五個內(nèi)容作為輸入,這兩種方法均只利用了深度偽造換臉視頻中的視覺信息,未能充分考慮視頻中的時間信息。為將時間維度的特征納入深度偽造檢測的考慮,文獻[23-25]分別提出了利用光流場和LSTM結(jié)構(gòu),但均存在一定的局限性。文獻[26]的作者提出利用3DCNN結(jié)構(gòu)檢測深度偽造,取得了一定效果,但缺乏針對性特征處理,且整體復(fù)雜度較高。

表1 現(xiàn)有方法評估

針對以上問題,本文提出用眼、口雙流特征捕捉換臉視頻中較明顯的篡改痕跡,通過3D卷積神經(jīng)網(wǎng)絡(luò)提取深層特征,且保留時間維提取運動信息中的篡改痕跡,更進一步改進了原始的I3D網(wǎng)絡(luò),提出更高效的I3D網(wǎng)絡(luò)。圖1展示了本文提出的雙流三維卷積網(wǎng)絡(luò)模型檢測總體流程。下文將詳細介紹雙流特征和高效I3D網(wǎng)絡(luò)。

圖1 雙流3D卷積網(wǎng)絡(luò)檢測總體流程圖Fig.1 Two stream 3D CNN detection flowchart

2.1 雙流特征

換臉視頻篡改檢測中,最重要的信息是人臉篡改的痕跡,這種痕跡包括合成人臉操作留下的偽影,以及拼接合成人臉與真實背景時留下的不自然的痕跡。而視頻中這些痕跡只存在于很小的范圍內(nèi),大部分的背景是冗余信息,可以去除。去除這些信息將減少操作的復(fù)雜度,使網(wǎng)絡(luò)集中學(xué)習(xí)有意義的部分,提高識別準確率、縮短訓(xùn)練時間。

觀察大量的換臉視頻發(fā)現(xiàn),合成假臉與真實人臉之間存在幾個比較明顯的差異:假臉的眼部通常不能同真臉的眼部一樣靈活的活動,在眨眼頻次、眼球活動等方面存在異常;假臉的嘴部在口型變化時,周圍的皮膚紋理變化較小,與真臉的正常變化相比存在明顯差異。針對這兩個差異,提取出視頻人臉的眼部、口部作為神經(jīng)網(wǎng)絡(luò)的輸入,進行針對性的特征提取和識別,再將兩個部分的結(jié)果融合來得到最終的結(jié)果。

圖2 眼、口篡改痕跡(圖左為篡改視頻、圖右為真實視頻)Fig.2 The eye, mouth artifacts (left: fake, right: real)

為了定位視頻中的人臉,并準確提取人臉的眼、口部分,本文使用的基于dlib開源庫的Face-recognition人臉識別庫,定義了人臉部區(qū)域的68個特征點,包含了臉部輪廓、眉眼、鼻子以及口部等關(guān)鍵區(qū)域,如圖3所示。為分別提取眼部和口部區(qū)域作為雙流網(wǎng)絡(luò)輸入,將點18～27、點37～48作為眼部區(qū)域關(guān)鍵點,并由此定義區(qū)域外圍矩形框;將點49～68作為口部區(qū)域的關(guān)鍵點,也定義相應(yīng)的外圍矩形框。區(qū)別于用于目標(biāo)識別人物的區(qū)域提取,在取證過程中為盡可能保留更多可能產(chǎn)生篡改痕跡的內(nèi)容,我們將對應(yīng)區(qū)域外圍適當(dāng)放大,各方向均擴展一定像素。最終提取出的眼部和口部區(qū)域作為雙流網(wǎng)絡(luò)的輸入。

圖3 人臉特征點及雙流區(qū)域提取Fig.3 Face feature points and two stream region extraction

2.2 Inception3D神經(jīng)網(wǎng)絡(luò)及改進

提取出換臉視頻中最有可能留下篡改痕跡的眼部和口部區(qū)域后,需要使用深度神經(jīng)網(wǎng)絡(luò)進一步提取深層特征和運動特征。目前針對視頻中動作識別的研究已經(jīng)得到廣泛開展[29-31],主要思路有三種[25]:第一種是視頻中的RGB幀與其光流在網(wǎng)絡(luò)的兩個分支中處理后融合的雙流網(wǎng)絡(luò),利用光流來捕捉時間信息和跨幀運動[29],第二種是由循環(huán)卷積層支持的單流神經(jīng)網(wǎng)絡(luò),訓(xùn)練好的循環(huán)卷積模型處于網(wǎng)絡(luò)頂部,用來處理視頻的時間維度,而卷積神經(jīng)網(wǎng)絡(luò)則提取高級語義特征,提取并認識每一幀的內(nèi)容[30],第三種則是通過3D卷積學(xué)習(xí)豐富的時空特征[31]。這些方法中,光流的使用在動作識別任務(wù)場景中收獲了很好的效果,但其更適用于捕捉微小的跨幀運動,對于捕捉換臉視頻中的篡改痕跡收效甚微。而循環(huán)卷積層方面,首先其訓(xùn)練復(fù)雜度較高,對于數(shù)據(jù)量龐大的視頻內(nèi)容需要較高的算力支撐。更重要的是,循環(huán)卷積層所具備長記憶能力的優(yōu)勢可能并不完全適用于偽造內(nèi)容檢測,因后者主要關(guān)注時間和空間維度局部區(qū)域的不一致性。而3D卷積結(jié)構(gòu)與前兩種思路不同,既能在時域和空域同時感知視頻特征,又能高效計算,因此更適用于換臉視頻的檢測。

2.2.1 標(biāo)準Inception3D網(wǎng)絡(luò)

Inception3D網(wǎng)絡(luò)[31]最初被提出用于動作識別領(lǐng)域,是由Google公司在2015年提出的Inception二維卷積神經(jīng)網(wǎng)絡(luò)[32]膨脹成三維而來,原始的卷積核與池化核均擴展為三維,從而可以從視頻中完整提取時間和空間特征,在速度和準確性上都表現(xiàn)出了優(yōu)異的性能。原始的I3D網(wǎng)絡(luò)包含RGB和光流兩個不同的網(wǎng)絡(luò)分支,基于前文的分析及現(xiàn)有實驗結(jié)果,因光流信息并不能很好的提取換臉篡改痕跡,本文使用I3D網(wǎng)絡(luò)檢測換臉視頻時,沒有使用光流分支。

表2 標(biāo)準I3D網(wǎng)絡(luò)參數(shù)

當(dāng)包含時間順序的一系列視頻幀輸入二維的卷積神經(jīng)網(wǎng)絡(luò)時,二維的濾波器將無視時間關(guān)系,將三維的輸入處理成簡單的二維特征圖,這破壞了視頻中包含的運動信息。為了保留Inception網(wǎng)絡(luò)多尺寸、高深度提取圖像中視覺信息的特性,同時不損失時間信息,可以將二維卷積神經(jīng)網(wǎng)絡(luò)膨脹為三維卷積神經(jīng)網(wǎng)絡(luò),將原本方形(N×N)的濾波器變?yōu)榱⒎叫?N×N×N)的,這賦予了濾波器額外的時間維度,從而使輸出的特征圖依然保留時間特征。二維模型處理兩個空間維度(長度和寬度)時,卷積核和步長都是相同的,這表明網(wǎng)絡(luò)中較深的特征受到兩個維度越來越遠位置的影響是同等的。然而在時間維上,對稱的濾波器不一定有最佳的效果,而應(yīng)該取決于幀率和圖像尺寸。如果在時間維上相對于空間增長太快,可能會合并來自不同物體的邊緣,破壞早期特征,而如果增長太慢,就可能不能很好地捕捉場景動態(tài)。

I3D網(wǎng)絡(luò)參數(shù)如表2所示,為了更好的保留時間特征,在前兩個最大池化層(max-pooling)中不執(zhí)行時間維的池化(pooling),使用1×3×3的內(nèi)核且步長為1,而在其他最大池化層中使用了對稱的內(nèi)核和超過1的步長。在整體架構(gòu)上,除了最后一個卷積層以外,每一個卷積層之后都使用了批標(biāo)準化(Batch Normalization, BN)層和ReLU激活函數(shù)。

在I3D網(wǎng)絡(luò)中,大量使用了Inception結(jié)構(gòu),這是一種利用1×1×1的卷積核擴展網(wǎng)絡(luò)深度和廣度的方法。圖4展示了Inception結(jié)構(gòu)的細節(jié)內(nèi)容,可見該結(jié)構(gòu)對上一層的輸入使用多尺度的卷積處理,拓展了網(wǎng)絡(luò)的廣度,同時為了減少計算量,使用1×1×1卷積層在提升網(wǎng)絡(luò)深度的同時避免參數(shù)爆炸式增長。在表2中,每一個Inception層都擁有相同的結(jié)構(gòu),只是在輸出通道數(shù)上略有差別。

圖4 Inception結(jié)構(gòu)Fig.4 Inception submodule

I3D網(wǎng)絡(luò)的輸入為上一步雙流預(yù)處理模塊提取的按時間順序排列的眼、口圖片序列,每個序列包含100幀圖片,對應(yīng)幀率為24 Hz的4.2秒視頻流,每張圖像經(jīng)過重采樣調(diào)整為224×224像素。整個網(wǎng)絡(luò)一共有27層(包括池化層),在完全連接層(Fully connected, FC)之前,通常還會使用dropout層防止過擬合。在完全連接層之后,使用softmax激活函數(shù)作為分類器以及交叉熵損失作為代價函數(shù):

loss=-[ylog(p)+(1-y)log(1-p)]

(1)

其中y代表樣本標(biāo)簽(正類:輸入視頻為真實視頻,記為1。負類:輸入視頻為虛假視頻,記為0),p代表預(yù)測為正的概率。在訓(xùn)練階段,損失反向傳播促使網(wǎng)絡(luò)學(xué)習(xí)真實視頻與虛假視頻之間的差異。

2.2.2 高效Inception3D網(wǎng)絡(luò)

在動作識別問題中通常要對400類以上的動作進行分類,需要捕捉每一個動作之間宏觀上的差別。而換臉視頻的檢測是二分類問題,從分類數(shù)量上來看,動作識別問題要提取更加深層的特征,將動作識別領(lǐng)域的I3D網(wǎng)絡(luò)直接用于換臉視頻檢測,在特征提取上存在一定的冗余?；诖?本文在標(biāo)準I3D網(wǎng)絡(luò)的基礎(chǔ)上提出了更精簡的高效I3D網(wǎng)絡(luò),一方面保留標(biāo)準I3D網(wǎng)絡(luò)多尺度提取時間和空間特征的特性,另一方面刪減網(wǎng)絡(luò)冗余,提升訓(xùn)練速度。

對于I3D網(wǎng)絡(luò),Inception模塊是增加網(wǎng)絡(luò)深度的重要環(huán)節(jié),層數(shù)較多的網(wǎng)絡(luò)能夠捕捉更深層的特征,表達能力更強,同時也會帶來過擬合、計算復(fù)雜度過高的問題。原始Inception網(wǎng)絡(luò)的提出主要用于400類圖像分類。對于圖像分類問題,深層特征更具表達能力以提升分類效果。但對于深度偽造檢測,其主要思想是通過深度神經(jīng)網(wǎng)絡(luò)提取與偽造痕跡緊密相關(guān)的特征,而非內(nèi)容識別特征。而這種特征往往既不在淺層(紋理特征)也不在深層(宏觀特征),而是在較為適中的網(wǎng)絡(luò)層中。同時,換臉檢測是一個二分類問題,已與I3D網(wǎng)絡(luò)設(shè)計時考慮的任務(wù)截然不同。因此,在基于I3D網(wǎng)絡(luò)的換臉檢測問題中,考慮總體減少網(wǎng)絡(luò)層數(shù)和Inception模塊。通過實驗,發(fā)現(xiàn)增加Inception模塊對正確率提升的意義不大,但在訓(xùn)練和檢測速度上卻有比較明顯的影響,最終通過實驗確定了高效I3D的結(jié)構(gòu)。

此外,標(biāo)準I3D網(wǎng)絡(luò)的輸入是224×224大小的圖片,而大部分的眼、口圖片大小僅為100像素以下,因此本文調(diào)整了雙流特征的輸入,眼部圖片將調(diào)整為80×30的大小,而口部圖片將調(diào)整為60×40的大小,幀數(shù)不變。隨著輸入圖片大小調(diào)整,平均池化層的內(nèi)核大小也做出了相應(yīng)調(diào)整,不同流的網(wǎng)絡(luò)參數(shù)如表3所示。與標(biāo)準I3D網(wǎng)絡(luò)相同,除了最后一個卷積層以外,每一個卷積層之后都使用了BN層和ReLU激活函數(shù),在全連接層添加了參數(shù)為0.36的dropout層,之后使用softmax激活函數(shù)作為分類器以及交叉熵損失作為代價函數(shù)。本文設(shè)計的高效I3D網(wǎng)絡(luò)結(jié)構(gòu)模型如圖5所示。

表3 本文提出的高效I3D網(wǎng)絡(luò)參數(shù)

圖5 高效Inception3D網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 The structure of efficient Inception3D network

在整個網(wǎng)絡(luò)中使用了三種類型的卷積層,包括如Conv1、Conv2_2的普通卷積層,Inception模塊中用在3×3×3卷積層之前的1×1×1卷積層,以及如Conv5的1×1×1卷積層。普通卷積層主要是為了學(xué)習(xí)更高層次的篡改特征,每一個卷積層都將學(xué)習(xí)前一個卷積層輸出的低層特征,得到特征的新表達,需要注意的是,Inception模塊中有兩種1×1×1卷積層,如果是單獨使用,其后不接3×3×3卷積層,這種卷積層也屬于普通卷積層,在Inception模塊中與3×3×3卷積層并行使用,主要目的是拓展網(wǎng)絡(luò)的寬度,提取不同尺度的特征。如Conv2_1的1×1×1卷積層在下一層必須是一個普通卷積層,這種卷積層的串聯(lián)主要是為了對數(shù)據(jù)進行降維,例如在Inception3中一個分支的輸入為50×10×15×192,輸出為50×10×15×32,若不使用1×1×1卷積層,直接使用3×3×3卷積層,卷積層的參數(shù)為3×3×3×192×32,而在3×3×3卷積層之前先使用16輸出的1×1×1卷積層,卷積層參數(shù)則會變?yōu)?×1×1×192×16+3×3×3×16×32,減少了大約十倍。如Conv5的1×1×1卷積層只用到了一次,與全連接層類似,可以方便調(diào)節(jié)分類,對不同的數(shù)據(jù)集有更多的適配性。

在Inception4之后的網(wǎng)絡(luò)可以認為是分類層,對之前一系列卷積層提取出的深度特征進行進一步學(xué)習(xí)和分類,最終識別輸入圖像是否經(jīng)過換臉篡改。最大池化層(Max pool)保留滑動窗口鄰域內(nèi)的最大值,而平均池化層(Avg pool)保留本地鄰域內(nèi)的平均值。池化層可以降低特征圖的維數(shù),減少訓(xùn)練的計算成本和過擬合,在本網(wǎng)絡(luò)中使用了三個最大池化層和一個平均池化層。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集

本文主要使用了目前比較常用的四個數(shù)據(jù)集[17,33-36]:

Celeb-DF[33]:Celeb-DF旨在生成具有更好視覺質(zhì)量的假視頻。該數(shù)據(jù)庫由408個從YouTube上提取的真實視頻組成,對應(yīng)59位名人的采訪,這些名人在性別、年齡和種族方面分布各異。此外,這些視頻在諸如臉部像素大小、方向、光照條件和背景等方面都有很大的變化。在假視頻方面,該數(shù)據(jù)集使用DeepFake技術(shù)總共創(chuàng)建了795個視頻,對59個受試者中的每一對進行面部交換,最終視頻為MPEG4.0格式。

DFDC[34]:DFDC(DeepFake Detection Challenge)數(shù)據(jù)集是最新的公開深度偽造數(shù)據(jù)集之一,由Facebook與其他公司和學(xué)術(shù)機構(gòu)(如微軟、亞馬遜和麻省理工學(xué)院)合作發(fā)布。在本文中使用DFDC預(yù)覽數(shù)據(jù)集,由來自66個付費演員的1131個真實視頻組成,確保性別、膚色和年齡的現(xiàn)實差異。需要注意的是,此數(shù)據(jù)集與其他流行的數(shù)據(jù)集相比,沒有使用公開可用的數(shù)據(jù)或者來自社交媒體網(wǎng)站的數(shù)據(jù)。在假視頻方面,該數(shù)據(jù)集使用了兩種不同的未知方法創(chuàng)建了4119個視頻,通過交換具有相似外表(例如膚色、面部毛發(fā)、眼鏡)的主體產(chǎn)生。DFDC數(shù)據(jù)集還考慮了不同的采集場景(如室內(nèi)和室外)、光照條件(如白天和夜晚)、人與相機的距離以及姿態(tài)變化等。

FaceForensics++[17]:FaceForensics++數(shù)據(jù)庫于2019年發(fā)布,作為原始FaceForensics數(shù)據(jù)庫[35]的擴展,該數(shù)據(jù)集專注于面部表情操作。FaceForensics++包含來自YouTube的1000個真實視頻,假視頻則是使用計算機圖形學(xué)(CG, Computer Graphics)和深度學(xué)習(xí)方法生成的,每個方法生成了1000個假視頻。在本文中專注于深度學(xué)習(xí)方法,假視頻采用faceswap方法生成。

DeepFake Detection[36]:DeepFake Detection數(shù)據(jù)集是谷歌AI實驗室于2019年發(fā)布的深度偽造公開數(shù)據(jù)集。該數(shù)據(jù)集包含了來自28位自愿和付費演員在不同場景下拍攝的幾百個真實視頻,假視頻則是使用公開的深度偽造生成方法創(chuàng)建的,共包含超過3000個視頻。

現(xiàn)有的數(shù)據(jù)集都是在已有真實視頻的基礎(chǔ)上,利用一種或多種算法創(chuàng)造出不同的篡改視頻,這導(dǎo)致數(shù)據(jù)集的真實視頻比較少,而虛假視頻相當(dāng)多,真假的比例失衡在網(wǎng)絡(luò)訓(xùn)練時可能存在一些影響,因此,實驗過程中調(diào)整了這一比例,在篡改視頻中隨機選取一部分,使真假視頻的比例控制在1:1左右。對于DFDC數(shù)據(jù)集,本論文只采用了預(yù)覽數(shù)據(jù)集,即DFDC preview,并未采用比賽中的全部數(shù)據(jù)。在本文中,所有數(shù)據(jù)集都被劃分成訓(xùn)練集(80%)和測試集(20%)兩部分,實驗結(jié)果來自測試集上的檢測結(jié)果。

3.2 網(wǎng)絡(luò)訓(xùn)練及實驗結(jié)果3.2.1 網(wǎng)絡(luò)預(yù)訓(xùn)練

本文采用了文獻[31]的方法在ImageNet數(shù)據(jù)集上對高效I3D網(wǎng)絡(luò)進行預(yù)訓(xùn)練。由于ImageNet是一個圖片數(shù)據(jù)集,無法直接應(yīng)用到3D卷積神經(jīng)網(wǎng)絡(luò)上,文獻[31]提出,將一張圖片作為一幀復(fù)制多份,擴充為一列幀,即可制作出平凡(boring)的動態(tài)數(shù)據(jù)集對3D卷積神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練。在本文中,對于高效I3D網(wǎng)絡(luò),從ImageNet數(shù)據(jù)集1000類中選取了400類,每一類包含49張圖片,每張圖片擴充成150幀進行預(yù)訓(xùn)練。

3.2.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理過程將待驗視頻中的人臉區(qū)域提取出來,并進一步提取眼部和口部特征分別作為雙流網(wǎng)絡(luò)的輸入。其中,如前文所述及圖6所示,眼部和口部區(qū)域分別包含了各自區(qū)域內(nèi)的20個特征點。為包含更多有用信息,眼部區(qū)域矩形框長和寬分別拓展了10和5個像素,口部區(qū)域各邊緣分別拓展了10個像素。

圖6 眼、口雙流特征示例Fig.6 Examples of two stream characteristics of eye and lip

3.2.3 實驗結(jié)果分析

高效I3D網(wǎng)絡(luò)在TensorFlow平臺上進行訓(xùn)練和測試。訓(xùn)練時,網(wǎng)絡(luò)權(quán)重由ImageNet預(yù)訓(xùn)練權(quán)重初始化,批量大小為4,訓(xùn)練100個階段。學(xué)習(xí)率設(shè)置為階梯函數(shù)下降,每訓(xùn)練25個階段下降一次,分別為0.001, 0.0008, 0.0005, 0.0001,使用動量梯度下降算法優(yōu)化。眼部、口部數(shù)據(jù)分別調(diào)整為80×30、60×40的大小作為網(wǎng)絡(luò)輸入,網(wǎng)絡(luò)兩個分支的輸出平均得到最后的結(jié)果,超參數(shù)設(shè)置情況見表4。本文采用準確率以及受試者工作特征(Receiver Operating Characteristic, ROC)曲線來評估網(wǎng)絡(luò)優(yōu)劣,并與文獻[17]中提到的Xception網(wǎng)絡(luò)進行比較。需要注意的是,Xception是針對視頻每一幀進行檢測的,因此在本文討論時,設(shè)定一個視頻中如果超過50%的幀都被認定為假,就認為這個視頻是偽造的。

表4 網(wǎng)絡(luò)訓(xùn)練使用的超參數(shù)

表5給出了在不同數(shù)據(jù)集下幾種方法的分類準確度。表中每一行代表一種方法,其中第三行代表高效I3D網(wǎng)絡(luò)的眼部流分支,第四行代表高效I3D網(wǎng)絡(luò)的口部流分支,第五行代表由眼部和口部結(jié)果平均所得到的高效I3D網(wǎng)絡(luò)結(jié)果。表中每一行展示了不同方法在同一個數(shù)據(jù)集上的結(jié)果。從結(jié)果上看,由于Xception網(wǎng)絡(luò)是針對FaceForensics++數(shù)據(jù)集提出且在FaceForensics++上訓(xùn)練,所以該網(wǎng)絡(luò)在FaceForensics++數(shù)據(jù)集上表現(xiàn)得很好,而在其他數(shù)據(jù)集上,本文提出的雙流高效I3D則表現(xiàn)出了比較大的優(yōu)勢。比較第三、四、五行的結(jié)果,可以看出大部分情況下,雙流網(wǎng)絡(luò)的結(jié)果好于眼部或口部單流的結(jié)果。從數(shù)據(jù)集上看,幾種網(wǎng)絡(luò)在FaceForensics++數(shù)據(jù)集上的效果要好于在其他數(shù)據(jù)集上的,這主要是因為FaceForensics++數(shù)據(jù)集相較于其他數(shù)據(jù)集數(shù)據(jù)量更大,可以使網(wǎng)絡(luò)訓(xùn)練地更加充分。相對應(yīng)的,DFDC預(yù)覽數(shù)據(jù)集是四個數(shù)據(jù)集中數(shù)據(jù)量最小的,在此數(shù)據(jù)集上的訓(xùn)練效果也就相對比較差。對比標(biāo)準I3D網(wǎng)絡(luò)和高效I3D網(wǎng)絡(luò),在最終分類準確度相差不大的情況下,標(biāo)準I3D網(wǎng)絡(luò)的訓(xùn)練速度為0.52秒每批,測試速度為0.36秒每視頻,而高效I3D的訓(xùn)練速度為0.19秒每批,測試速度為0.07秒每視頻,在測試速度上提升為原來的2.7倍,訓(xùn)練速度上提升為原來的5.1倍。

表5 不同網(wǎng)絡(luò)在各數(shù)據(jù)集下的分類準確度

圖7 兩種3D網(wǎng)絡(luò)在不同數(shù)據(jù)集下的ROC曲線Fig.7 ROC curves of the two 3D networks under different datasets

進一步,本文所提高效雙流I3D和標(biāo)準雙流I3D網(wǎng)絡(luò)在各數(shù)據(jù)集上實驗所得ROC曲線如圖7所示。由于兩種網(wǎng)絡(luò)的檢測性能比較接近,為方便觀察,將假陽性率設(shè)置為對數(shù)尺度。在高效I3D網(wǎng)絡(luò)具有3倍左右計算速度提升的前提下,由圖可見,對于FaceForensics++數(shù)據(jù)集,高效I3D網(wǎng)絡(luò)性能好于標(biāo)準I3D網(wǎng)絡(luò),而對于其他三個數(shù)據(jù)集,后者性能略好于前者?？傮w來說,各數(shù)據(jù)集ROC曲線均接近(0,1)最優(yōu)點,表明本文所提方法的優(yōu)越性。

為了檢測在不同數(shù)據(jù)集上的性能,本文使用在Celeb-DF數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)模型對其他三個數(shù)據(jù)集的測試集進行檢驗,結(jié)果如表6所示。表中數(shù)據(jù)顯示,在DFDC 預(yù)覽和DeepFakeDetection數(shù)據(jù)集上高效I3D的結(jié)果要好于標(biāo)準I3D,標(biāo)準I3D存在過擬合的現(xiàn)象。在FaceForensics++數(shù)據(jù)集上,標(biāo)準I3D的性能略好,可能是由于Celeb-DF數(shù)據(jù)集與FaceForensics++數(shù)據(jù)集的換臉篡改算法存在一定的重合。從實驗結(jié)果可以看出跨庫性能并不太理想,這與目前大多數(shù)深度偽造檢測方法面臨的問題相同。其主要原因在于缺乏有效手段保證網(wǎng)絡(luò)學(xué)習(xí)到的僅為偽造痕跡,而沒有受到其他非相關(guān)信息(語義、背景等)的影響。此外,各數(shù)據(jù)集中所使用的偽造算法的差異,也是導(dǎo)致跨庫性能下降的原因之一。如何改良網(wǎng)絡(luò)結(jié)構(gòu)、結(jié)合手工與深度特征、改進訓(xùn)練方式,以最終提升深度偽造檢測算法的跨庫性能,也是以后研究的重點之一。

表6 高效I3D與標(biāo)準I3D的跨庫檢測正確率

4 結(jié)論

本文提出了一種用于深度偽造換臉視頻檢測的眼部和口部雙流高效Inception3D深度神經(jīng)網(wǎng)絡(luò)協(xié)同檢測方法。預(yù)處理階段,利用dlib人臉識別庫檢測視頻中的人臉并分別提出眼部和口部區(qū)域作為網(wǎng)絡(luò)輸入。隨后,通過本文設(shè)計的高效I3D雙流網(wǎng)絡(luò)分別學(xué)習(xí)眼部和口部在空域和時域的篡改特征。最后利用雙流輸出結(jié)果協(xié)同判定待驗視頻的真實性。實驗結(jié)果顯示,本文所提方法在Celeb-DF、DFDC預(yù)覽、DeepFakeDetection等目前常用的數(shù)據(jù)集上的檢測準確性較Xception網(wǎng)絡(luò)分別提升了18.5%、59.5%以及29.2%。而相對于采用了標(biāo)準I3D結(jié)構(gòu)的雙流網(wǎng)絡(luò),其高效版可在Celeb-DF數(shù)據(jù)集上保證檢測準確率不變的情況下實現(xiàn)約3倍的處理速度提升。后續(xù)工作將關(guān)注如何改進雙流特征的融合機制、設(shè)計端到端的網(wǎng)絡(luò)、優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略等,以進一步提升檢測性能。