視頻深度偽造檢測技術(shù)及應(yīng)用

2023-02-23 04:55:06孫煒晨田青羅曼劉健

警察技術(shù) 2023年1期

孫煒晨田青羅曼劉健

1. 公安部第一研究所 2. 多維身份識別與可信認證技術(shù)國家工程研究中心 3. 螞蟻集團

一、背景

近年來，隨著人工智能技術(shù)的快速發(fā)展，越來越多的人從工作、學(xué)習(xí)、生活等多個方面感受到科技的發(fā)展給人們帶來的便利。作為引領(lǐng)第四次科技革命的核心技術(shù)之一，人工智能在推動經(jīng)濟發(fā)展、滿足人民群眾對物質(zhì)文化的需求上帶來了重大且深遠的影響。

2022年冬奧會期間，全球首個AI手語合成主播“小聰”用流暢的手語解說了谷愛凌在中國女子雪上項目奪得首金后激動人心的瞬間，有效幫助了聽障人士便捷、高效地接收資訊信息，更好地享受人工智能技術(shù)發(fā)展帶來的便利。2021年9月2日，第八批在韓中國人民志愿軍烈士遺骸回國。人民日報微信公眾號發(fā)布了利用深度合成技術(shù)將老照片中志愿軍的黑白面孔逼真還原的短視頻，讓大家一睹革命先烈的風(fēng)采。這些成功案例的背后，深度合成技術(shù)的發(fā)展起到了至關(guān)重要的作用。深度合成作為一種人工智能內(nèi)容合成技術(shù)，隨著技術(shù)成熟度的不斷提高，在影視制作、廣告營銷、社交娛樂等領(lǐng)域應(yīng)用推廣開來，越來越多的互聯(lián)網(wǎng)企業(yè)、平臺、機構(gòu)開始利用深度合成技術(shù)面向公眾提供產(chǎn)品和服務(wù)，根據(jù)其本身的性質(zhì)可以分為三類。第一類是具有積極作用的應(yīng)用，比如深度合成技術(shù)用于電影、教育媒體和數(shù)字通信、游戲和娛樂、醫(yī)療保健以及各種商業(yè)領(lǐng)域等。第二類是比較中性的深度合成應(yīng)用，主要是娛樂方面的深度合成產(chǎn)品。第三類屬于惡意的深度合成應(yīng)用，也稱為深度偽造（Deepfake），這一類深度偽造被用于某種特殊的目的，往往會給國家安全、社會治理帶來嚴峻的威脅和挑戰(zhàn)，如利用深度偽造技術(shù)抹黑政治人物、利用深度偽造技術(shù)合成色情視頻等。本文將從視頻深度偽造攻防對抗的機理出發(fā)，通過對當前視頻深度偽造及檢測技術(shù)進行整理和歸納，并對各類模型方法的優(yōu)劣勢進行分析，探索未來技術(shù)潛在的發(fā)展方向，促進視頻深度偽造檢測領(lǐng)域的發(fā)展。

二、視頻深度偽造攻防對抗

深度偽造技術(shù)就是近些年來出現(xiàn)的一種利用人工智能、深度學(xué)習(xí)等新技術(shù)控制音視頻、圖像或文本內(nèi)容，產(chǎn)生誤導(dǎo)效果的一種深度合成技術(shù)，尤其在圖像和視頻領(lǐng)域應(yīng)用最為普遍，其合成的偽造圖像和視頻可以模仿目標的面部表情、動作、語音、語調(diào)等信息，起到足以“以假亂真”的效果。

深度偽造攻擊主要是通過生成對抗網(wǎng)絡(luò)（GAN）模型實現(xiàn)的，因此，對抗深度偽造攻擊的手段可以從模型學(xué)習(xí)角度出發(fā)，即依賴完備的訓(xùn)練數(shù)據(jù)、魯棒的人工智能模型等。目前，學(xué)術(shù)界和工業(yè)界均已對深度偽造檢測開展了大量研究和探索，并取得了一定的成效，主要分為基于視頻圖像本身成像特征分析的方法和基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法兩類?；谝曨l圖像本身成像特征分析的方法通過分析視頻圖像中的光照不連續(xù)性、陰影不連續(xù)性或幾何位置不一致等圖像的物理特征，分析視頻圖像成像設(shè)備傳感器噪聲差異性和色差差異性特征，利用人的眨眼頻率、脈搏、心率、血流等生理信號特征來辨別視頻圖像的真?zhèn)巍；跀?shù)據(jù)驅(qū)動的檢測方法是通過在大量真實和虛假視頻圖像數(shù)據(jù)上訓(xùn)練深度學(xué)習(xí)模型，使深度學(xué)習(xí)模型學(xué)習(xí)到能夠有效區(qū)分真假視頻圖像的特征表示，在深度偽造檢測方面取得了一定的成果，但現(xiàn)有的深度偽造檢測模型只針對特定的深度偽造攻擊類型有效，對未知類型的深度偽造攻擊檢測的泛化性亟待提高。

新型深度偽造方法的層出不窮，加上深度偽造檢測模型適應(yīng)性的局限等，深度偽造檢測技術(shù)面臨“強對抗性”，需要持續(xù)更新和迭代優(yōu)化。類似于博弈的過程，深度偽造和檢測在不斷學(xué)習(xí)攻防過程中會自我進化，規(guī)避上一代的對抗技術(shù)。

三、視頻深度偽造技術(shù)發(fā)展歷程

（一）視頻深度偽造技術(shù)分類

深度偽造技術(shù)中最廣為人知的一種應(yīng)用形式就是AI換臉，是指用另一個人臉來替換一張圖片或視頻中的一個人臉，合成新的圖片或視頻。如圖1所示，AI換臉把源圖片（Source Image）中的人臉替換到目標圖片（Target Image），形成換臉圖片（Swapped Image）。

從視覺圖像的角度，人臉深度偽造的生成技術(shù)一般可劃分為四大類：換臉（Replacement）、活化（Animation）、編輯（Editing）、合成（Synthesis）。接下來將展開介紹這四類生成技術(shù)的具體做法。

換臉Replacement，也叫Face Swap，是公眾最熟知也最常見的一種深度偽造技術(shù)。如圖2所示，它是指將源人臉圖像Xs的身份內(nèi)容轉(zhuǎn)移或者替換到目標人臉圖像Xt上，使得篡改后的圖像具備源身份Xs。這里在篡改人臉身份時的操作又可以細分為轉(zhuǎn)移Transfer和交換Swap兩種。前者是將Xs的人臉區(qū)域直接覆蓋到Xt的面部；而后者則是僅僅將Xs的ID特征替換給Xt，但是Xt原有的面部表情等會被保留[1]。

活化Animation，也叫表情重演（Facial Reenactment），如圖3所示，它是指使用源人臉圖像Xs中的行為、動作或表情來驅(qū)動目標人臉圖像Xt，使得Xt的行為和Xs一樣，包括各種表情、眼部嘴巴的動作以及整個頭部的位姿等[2,3]。

編輯Editing，如圖4所示，是指添加、更改或刪除目標人臉圖像Xt的一些人臉屬性，比如，更換目標對象的發(fā)型、眼鏡、年齡、顏值、膚色和種族等屬性[4]。

合成Synthesis，如圖5所示，是指在沒有任何目標身份作為參考基礎(chǔ)的情況下，憑空創(chuàng)建虛擬的角色，如直接用GAN或者其它生成模型生成人臉，沒有明確的目標[5]。

（二）視頻深度偽造生成模型介紹

目前，雖然深度偽造技術(shù)都能夠生成虛假和篡改的人臉圖像，但是換臉和活化才是最大的安全隱患，因為這兩種偽造技術(shù)能夠控制人臉的身份和動作，從而進行更定向的攻擊和詐騙。本部分將簡單介紹一下?lián)Q臉和活化常見的生成流程，如圖6所示，大致分為四步：

（1）人臉圖像物料準備（Identity Ready）：一般需要提取準備好源人臉圖像Xs作為驅(qū)動，目標人臉圖像Xt作為被篡改對象；

（2）預(yù)處理階段（Preprocessing）：進行人臉檢測、對齊和截取，并提取一些中間態(tài)的特征備用，如關(guān)鍵點、輪廓邊界、3DMM參數(shù)和UV圖等；

（3）模型生成和篡改（Generation）：基于源圖像Xs所提供的身份或動作等驅(qū)動信號，使用CNN或GAN深度模型來對目標圖像Xt進行篡改并生成一張新的假臉圖像Xg” ；

（4）后處理階段（Postprocessing）：將生成的假臉Xg” 通過圖像融合技術(shù)貼回到目標圖像的背景區(qū)域，有時還會引入超分辨率和圖像和諧化等技術(shù)來改善造假痕跡，最終得到完整的Deepfake假臉Xg。

目前深度偽造所使用的生成網(wǎng)絡(luò)通常使用5種基礎(chǔ)神經(jīng)網(wǎng)絡(luò)的變種或組合構(gòu)建得來：編碼解碼網(wǎng)絡(luò)（Encoder-Decoder，ED）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）、圖像風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)（Style Transfer GAN）、遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）。

1. 編碼解碼網(wǎng)絡(luò)（Encoder-Decoder，ED）[6]

該網(wǎng)絡(luò)至少包含一個編碼器En和一個解碼器De，連接編碼器和解碼器的中間層較窄，基本架構(gòu)如圖7所示。Deepfake技術(shù)通常會使用多個編碼器或解碼器，并通過操縱編碼e來影響輸出。編碼解碼網(wǎng)絡(luò)的優(yōu)點在于結(jié)構(gòu)簡單，適用范圍廣，并且可以通過多層堆疊的方式提升模型的表示能力。但由于多層堆疊時，按照逐層貪婪訓(xùn)練的方式，模型訓(xùn)練缺少全局優(yōu)化，導(dǎo)致模型的性能受限。

2. 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）

與全連接網(wǎng)絡(luò)不同的是，CNN卷積網(wǎng)絡(luò)擅長學(xué)習(xí)數(shù)據(jù)中局部的結(jié)構(gòu)模式并組合得到高層次的表征，因此其在處理圖像方面效率更高。如圖8所示，通過卷積、池化和上采樣層，可以靈活地組合和構(gòu)建用于圖像處理的編解碼。但由于結(jié)構(gòu)的局限性，對視頻、語音、自然語言處理的能力不足，而且模型訓(xùn)練需要大量有標注的樣本，模型性能與訓(xùn)練樣本的數(shù)量、質(zhì)量、多樣性、標簽顆粒度、標簽準確性等正相關(guān)，訓(xùn)練難度較大。

3. 生成對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）

4. 圖像風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)（Style Transfer GAN）

Pix2Pix[8]和 CycleGAN[9]是兩種流行的圖像風(fēng) 格轉(zhuǎn) 換網(wǎng)絡(luò)，其網(wǎng)絡(luò)架構(gòu)如圖10、圖11所示，使用的都是GAN基本原理。Pix2Pix使用的是一種監(jiān)督式、成對式的訓(xùn)練方式，巧妙地利用了對抗生成網(wǎng)絡(luò)框架解決圖像風(fēng)格轉(zhuǎn)換這類問題。其提升版本Pix2PixHD可用來生成具有更好保真度的高分辨率圖像，但訓(xùn)練需要大量的成對圖片，對數(shù)據(jù)有嚴苛要求。

5. 遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）

RNN是一種可以處理序列和可變長度數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，其基本架構(gòu)如圖12所示。RNN具有能夠處理任意長度的輸入，且具有模型參數(shù)規(guī)模不隨輸入長度增加的優(yōu)點，但計算速度慢、難以獲取很久以前的信息等缺點限制了RNN模型的應(yīng)用。隨后出現(xiàn)的RNN升級版長期短期記憶（LSTM）和門遞歸單元（GRU）模型在一定程度上緩解了RNN的缺點。在Deepfake制作中，RNN通常用于處理音頻、視頻。

（三）視頻深度偽造技術(shù)應(yīng)用及存在的威脅

近年來，隨著Deepfake生成技術(shù)的不斷成熟，也有越來越多的換臉工具被開源出來，例如FaceSwap、DeepFaceLab、FaceSwap-GAN等[10,11]，甚至還出現(xiàn)了不少指導(dǎo)Deepfake生成的社區(qū)和平臺。即使是一些沒有技術(shù)背景的人們，在教學(xué)視頻的指導(dǎo)下，也能夠生成一些Deepfake篡改過的照片或者視頻。這也導(dǎo)致了Deepfake生成技術(shù)被廣泛應(yīng)用到各行各業(yè)，其性質(zhì)好壞不一。

Deepfake技術(shù)的出現(xiàn)，在推動娛樂與文化交流產(chǎn)業(yè)的新興發(fā)展方面起到了積極的作用。

（1）電影制作：電影制作中創(chuàng)建虛擬角色、視頻渲染、聲音模擬；

壓力是一把雙刃劍，它既能摧毀意志，也能激發(fā)斗志。作為一名校長，在學(xué)校實際管理中總會遇到許多壓力，比如安全壓力、升學(xué)壓力等等。如何處理好這些壓力，讓它在學(xué)校發(fā)展中起到作用？我認為，在壓力面前要提前籌謀，尋找科學(xué)穩(wěn)妥的方式才能化壓力為動力。

（2）人物復(fù)活：“復(fù)活”歷史人物或已逝的親朋好友，實現(xiàn)“面對面”溝通，創(chuàng)造一種新型的交流方式；

（3）數(shù)字人主播：全數(shù)字化控制的新聞主播和購物導(dǎo)播，實現(xiàn)了一種現(xiàn)代科技化的信息傳播方式。

Deepfake生成技術(shù)更多的是一些消極應(yīng)用，常被用于誤導(dǎo)輿論、擾亂社會秩序，甚至可能會威脅人臉識別系統(tǒng)、干預(yù)政府選舉和顛覆國家政權(quán)等，已成為當前最先進的新型網(wǎng)絡(luò)攻擊形式。

（1）色情制作：2017年網(wǎng)絡(luò)和平臺上顯著出現(xiàn)，2019年Deeptrace公司調(diào)研估計換臉視頻96%是色情；

（2）虛假新聞：發(fā)布或歪曲知名政客的言論，愚弄公眾等；

（3）金融詐騙：利用合成的語音和刷臉視頻進行金融詐騙；

（4）影像篡改：將個人面孔交換到電影明星身體插入影視剪輯中，侵犯版權(quán)；

（5）司法干擾：篡改罪犯照片干擾司法取證，移除CT或MRI醫(yī)療影像中證據(jù)進行保險欺詐。

Deepfake大多數(shù)都是因其有害應(yīng)用而聞名，面對Deepfake所帶來的巨大威脅，不少國家制定了政策法規(guī)來防止Deepfake技術(shù)的濫用。Deepfake是一種可以將目標人的面部圖像疊加到源人的視頻上，以創(chuàng)建目標人做或說源人的事情的視頻的技術(shù)。美國在《2018年惡意偽造禁令法案》中規(guī)范了兩類主體即制作深度偽造內(nèi)容引發(fā)犯罪和侵權(quán)行為的個人，及明知內(nèi)容為深度偽造還繼續(xù)分發(fā)的平臺。歐盟也在2019年4月發(fā)布了《人工智能道德準則》，并將隱私和數(shù)據(jù)管理作為可信賴人工智能需要滿足的七個要素之一。

四、視頻深度偽造檢測技術(shù)發(fā)展歷程

Deepfake的快速發(fā)展和應(yīng)用，給個人隱私數(shù)據(jù)、社會穩(wěn)定和國家安全等造成了潛在威脅，針對深度偽造內(nèi)容的檢測和防御現(xiàn)已成為世界各國政府、企業(yè)組織乃至個人所關(guān)注的熱點問題之一。

（一）深度偽造檢測技術(shù)的主要方法和手段

大多數(shù)圖像檢測方法不能直接用于視頻檢測，因為視頻壓縮后幀數(shù)據(jù)會嚴重退化[12]。視頻具有在幀組之間變化的時間特性，對于僅為檢測靜態(tài)圖像設(shè)計的方法具有挑戰(zhàn)性。使用跨視頻幀的時間模式的檢測方法主要基于深度遞歸網(wǎng)絡(luò)模型來檢測Deepfake視頻，如圖13所示，F(xiàn)ake Video Detection的檢測方法可大致分為兩類：采用幀間時序特征的方法和探索幀內(nèi)視覺偽影的方法[13]。

1. 幀間時序特征的方法

幀間時序特征是利用視頻流的時空特征來檢測深度偽造，視頻操作是在逐幀的基礎(chǔ)上執(zhí)行的，可以認為由面部操作產(chǎn)生的低級偽影會進一步表現(xiàn)為跨幀不一致的時間偽影。

（1）循環(huán)卷積模型（RCN）

基于卷積網(wǎng)絡(luò)DenseNet和門控循環(huán)單位的集成，以利用幀之間的時間差異。如圖14所示，檢測過程分兩步，第一步預(yù)處理步驟包括檢測、裁剪和對齊視頻中一系列幀上的人臉區(qū)域，第二步通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）來區(qū)分真假面部圖像[14]。

（2）時間感知管線

此方法強調(diào)深層視頻包含幀內(nèi)不一致（Intra-Frame Inconsistencies）和幀之間的時間不一致（Temporal Inconsistencies），使用CNN和長短期記憶（LSTM）來檢測Deepfake視頻。如圖15所示，CNN用于提取幀級特征，并將其饋入LSTM以創(chuàng)建時間序列描述符，最后使用一個全連接網(wǎng)絡(luò)根據(jù)序列描述符計算屬于真假幀序列的概率[15]。

采用幀間時序特征的方法有效利用了視頻流中的時序信息，提取篡改幀圖像在特征空間中的異常信息，提升了深偽檢測領(lǐng)域的整體性能，但模型復(fù)雜度高、計算開銷大、模型訓(xùn)練難收斂等缺點也影響了這類方法的應(yīng)用和推廣。

2. 幀內(nèi)視覺偽影的方法

視覺偽影是由于缺乏整體一致性，入射照明的錯誤或不精確估計或底層幾何結(jié)構(gòu)的不精確估計而引起。視頻的偽影檢測通常是將視頻分解為幀并探索單個幀內(nèi)的視覺偽影以獲得判別特征，再將這些特征分配到深層或淺層分類器中以區(qū)分真假視頻。目前有些Deepfake檢測方法基于眼睛、牙齒和面部輪廓的視覺特征來檢測偽影，進而判斷人臉視頻的真?zhèn)蝃16]。

基本原理是通過搜索特定類型的偽影，人眼對偽影或許不易察覺，但機器學(xué)習(xí)和取證分析法容易檢測。常見的圖像空間域的幾種偽影類型[17]如圖16所示：

（1）融合（Blending）：生成的內(nèi)容重新融合到圖像幀時會產(chǎn)生一些偽影，檢測方法比如邊界檢測、質(zhì)量度量、頻率分析。

（2）環(huán)境（Environment）：偽造的臉部內(nèi)容和圖像幀的剩余部分可能是不協(xié)調(diào)的，比如面部變形過程中的殘差、光照、保真度變化。

（3）取證（Forensics）：分析模型在偽造品中留下的細微特征和樣式，比如GAN會留下獨特的指紋可能用于識別生成器、分析相機的獨特傳感器噪聲（PRNU）識別粘貼的內(nèi)容、尋找視頻中幀序列的殘差、尋找缺陷并預(yù)測和監(jiān)測臉部特征點（如頭部姿勢往往不一致）。

（4）生理（Physiology）：基于生成的內(nèi)容缺少生理信號的假設(shè)，比如監(jiān)測心率識別偽造的面部、監(jiān)測皮膚下血容量（脈搏）、監(jiān)測不規(guī)則的眨眼模式，相反也有利用脈搏信號構(gòu)建Deepfake模型。

（5）同步（Synchronization）：不一致也是一個揭示因子，比如可以把語音和嘴巴的輪廓特征點相關(guān)聯(lián)檢測視頻配音攻擊、檢測嘴型和語音因素的不一致。

針對上述偽影特征，可以使用不同類型的分類器（即深層或淺層）進行檢測：

（1）深分類器（Deep Classifiers）：Deepfake視頻通常以有限的分辨率創(chuàng)建，需要仿射人臉變形方法（縮放、旋轉(zhuǎn)、剪切）以匹配原始視頻的配置（比如分辨率）。由于扭曲的面部區(qū)域和周圍環(huán)境的分辨率不一致，此過程留下了CNN模型可檢測到偽影特征，如VGG16、ResNet50、ResNet101和ResNet152等[18]。

（2）淺分類器（Shallow Classifiers）：由于Deepfake 在人臉生成流程中存在缺陷，部分方法通過觀察3D頭部姿勢之間的差異（包括頭部方向和位置）來檢測視頻真?zhèn)?，該方法基于中央面部區(qū)域的68個面部關(guān)鍵點進行估算，檢查3D頭部姿勢，提取的特征被饋送到機器學(xué)習(xí)的SVM淺層分類器中以獲得檢測結(jié)果。此外還可以使用隨機森林（Random Forest，RF）、多層感知機（MLP）等淺層分類器[19]。

采用視覺偽影檢測方法，充分利用了深度偽造往往通過逐幀的方式對面部的特定區(qū)域進行篡改的特點，將深偽檢測問題轉(zhuǎn)化為視覺偽影檢測問題。但這種方法難以捕捉視頻幀間時間的不一致性，且對全圖合成的檢測效果不佳，應(yīng)用層面仍有局限性。

3. 數(shù)字水印技術(shù)

除了以上被動采用深度學(xué)習(xí)方法發(fā)掘合成視頻中細微紋理差異來檢測視頻真?zhèn)蔚拇胧┮酝?，?shù)字水印技術(shù)（Digital Watermarking）作為一種主動防御的手段，也可在避免合成技術(shù)的濫用中發(fā)揮關(guān)鍵作用。

和視覺可見的明水印不同，數(shù)字水印通過在媒體作品如音頻、視頻、圖像、文本中嵌入不可見的信息，從而實現(xiàn)信息隱藏、版權(quán)認證、追蹤溯源、真實性驗證等作用?？沼騆SB方法是最簡單的嵌入數(shù)字水印的方法，任何一幅圖片都具備一定的容噪性，這表現(xiàn)在像素數(shù)據(jù)的最低有效位（Least Significant Bit，LSB）對人眼的視覺影響很小，該方法的數(shù)字水印信息就隱藏在圖像每一個像素的最低位或次低位，實現(xiàn)其不可見性。還有頻域水印的方法，如圖17所示，先通過傅里葉變換或者小波變換將圖像變換到頻域，并在頻域?qū)D像添加水印信息，再通過逆變換將圖像轉(zhuǎn)換為空間域。相對于空域手段，頻域手段所添加的數(shù)字水印隱匿性更強，抗攻擊性更高。目前這類方法仍處于探索階段，未來有望與前兩類方法結(jié)合使用，從主動和被動兩個層面提高深偽檢測的性能和適用性，能夠在應(yīng)用領(lǐng)域快速擴展。

（二）深度偽造預(yù)防與緩解

Deepfake為社會帶來改變的同時，隨著深度合成（偽造）視頻技術(shù)門檻降低，黑灰產(chǎn)通過一些手段靠此來牟取不正當利益，例如不法分子用換臉軟件生成當紅女明星的色情視頻并出售；合成知名企業(yè)家的視頻，進行網(wǎng)絡(luò)詐騙等。這些“雜音”也為合成技術(shù)的發(fā)展蒙上了陰影。

針對上面這種現(xiàn)象，從政府到企業(yè)，都在采取不同措施來解決Deepfake合成技術(shù)的反面問題。2022年，國家互聯(lián)網(wǎng)信息辦公室發(fā)布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定（征求意見稿）》，規(guī)定深度合成服務(wù)提供者對使用其服務(wù)所制作的深度合成信息內(nèi)容，應(yīng)當通過有效技術(shù)措施在信息內(nèi)容中添加不影響用戶使用的標識，依法保存日志信息，使發(fā)布、傳播的深度合成信息內(nèi)容可被自身識別、追溯。谷歌也將Deepfake加入到了Colab的禁止項目列表當中，以避免Deepfake技術(shù)的濫用。此外，學(xué)術(shù)界也進行大量研究，例如采用深度學(xué)習(xí)的方式，利用CNN卷積網(wǎng)絡(luò)來檢測合成視頻中的偽影線索和不一致性，以辨別視頻真?zhèn)?。從國家層面的立法保護，到企業(yè)層面的防御政策，再到學(xué)術(shù)界的檢測技術(shù)研究，通過多方聯(lián)防聯(lián)控能夠在一定程度上防范Deepfake所帶來的社會危害。

此外，未來的Deepfake生成技術(shù)會越來越實用和有效，實時深度偽造也會越來越逼真，我們需要提前做好預(yù)防[20,21]：

（1）考慮攻擊對手的下一步，而不只是當前攻擊的弱點：評估這些攻擊的理論極限，比如找出生成模型延遲的邊界以檢測實時攻擊、確定GAN的限制以設(shè)計適當?shù)牟呗浴?/p>

（2）探索當前Deepfake檢測器的弱點和局限性：通過識別和了解潛在的安全漏洞，才能制定出更強大的真?zhèn)螜z測方案。

五、結(jié)語

深度合成內(nèi)容模糊了真實世界和虛擬世界的邊界，讓人們重新審視“眼見為實”的認識論權(quán)威。目前，深度偽造鑒別需求逐漸增加且難度顯著提升。一方面通過技術(shù)手段對抗層出不窮的偽造方法，另一方面深度偽造治理監(jiān)管機制亟需建立和完善。隨著《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國民法典》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》相繼出臺，有效規(guī)范了深度合成技術(shù)合法應(yīng)用，促進深度合成技術(shù)健康、持續(xù)發(fā)展。

視頻深度偽造檢測技術(shù)及應(yīng)用

一、背景

二、視頻深度偽造攻防對抗

三、視頻深度偽造技術(shù)發(fā)展歷程