郭 欣 孫建德
(1)中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院,100872,北京; 2)山東師范大學(xué)信息科學(xué)與工程學(xué)院,250358,濟(jì)南 )
自從發(fā)明了成像設(shè)備,人們便可記錄很多事情發(fā)生的瞬間,圖像在提供證據(jù)和支撐歷史紀(jì)錄等方面得到了越來(lái)越廣泛的應(yīng)用,例如:新聞報(bào)道、刑事調(diào)查、法庭辯護(hù)等方面,因此,照片的真實(shí)性至關(guān)重要.然而,隨著圖像處理軟件、程序方法的快速發(fā)展,圖像的處理變得越來(lái)越簡(jiǎn)單且多樣化,出現(xiàn)了大量的偽造圖像.
在圖像處理技術(shù)尚沒(méi)高度發(fā)達(dá)的時(shí)候,人們對(duì)數(shù)字圖像的篡改大多是通過(guò)圖像的復(fù)制-移動(dòng)、剪切-拼接等操作來(lái)進(jìn)行,這些操作也會(huì)產(chǎn)生人眼無(wú)法識(shí)別的篡改圖像.近幾年來(lái),隨著AI(Artifical Intelligence)技術(shù)的飛速發(fā)展,圖像篡改的技術(shù)越來(lái)越高超,可以由噪聲生成不存在的圖像,也可以根據(jù)自己想要的效果對(duì)圖像的某個(gè)部位進(jìn)行偽造,出現(xiàn)了越來(lái)越多的篡改圖像.2017年,“Deepfake”(深度換臉技術(shù))一詞風(fēng)行全球,并取得了非常逼真的效果,給政治界、娛樂(lè)圈以及人們的日常生活帶來(lái)了很大的影響.如圖1所示,“Deepfake”把希拉里·克林頓換成了美國(guó)總統(tǒng)特朗普的樣子,并且可以完美地實(shí)現(xiàn)動(dòng)態(tài)視頻中的“表情變化”.在圖像生成方面,生成的圖像質(zhì)量也越來(lái)越高.2018年,Huang H等人[1]提出了IntroVAE模型,能夠生成1 024×1 024高分辨率的自然圖像;2018年,Deep Mind公司[2]提出了基于ImageNet的BigGANs模型生成高分辨率、逼真的自然圖像(如圖2所示),可以生成非常清晰的多種類圖像.由此可見,圖像的篡改技術(shù)越來(lái)越高明,由起初對(duì)圖像的小修小改到現(xiàn)在輸入噪音生成不存在的圖像或視頻,給人們研究圖像的真實(shí)性帶來(lái)了更大的挑戰(zhàn).
圖1 Deepfake 偽造的視頻截圖
圖2 BigCANs生成的圖像
為了應(yīng)對(duì)上述問(wèn)題,數(shù)字圖像取證技術(shù)成為研究的熱點(diǎn)問(wèn)題,是檢測(cè)圖像是否被篡改的主要方法[3-5].數(shù)字圖像取證技術(shù)可以分析數(shù)字圖像的某些特性,因此可以用于識(shí)別、鑒定數(shù)字圖像是否被篡改,保證數(shù)字圖像內(nèi)容的完整性、真實(shí)性和原始性[6].研究人員通過(guò)提取圖像的各類統(tǒng)計(jì)特征,或者是相機(jī)的一些成像函數(shù)特征,將自然圖像和篡改圖像進(jìn)行區(qū)分,實(shí)現(xiàn)篡改圖像的檢測(cè).這種傳統(tǒng)的圖像取證技術(shù)能夠?qū)崿F(xiàn)的精度比較高,但是產(chǎn)生了高計(jì)算成本以及人工操作的成本.隨著深度學(xué)習(xí)方法的發(fā)展,研究人員將卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolution Neural Networks)用于圖像取證技術(shù),能夠提取圖像更多的特征,高效地完成偽造檢測(cè).
本文致力于數(shù)字圖像取證技術(shù)的研究,將對(duì)數(shù)字圖像取證技術(shù)做出介紹,并從傳統(tǒng)圖像取證技術(shù)和基于深度學(xué)習(xí)的圖像取證技術(shù)兩個(gè)方向?qū)鼛啄陙?lái)圖像被動(dòng)取證方面的主要進(jìn)展做出綜述,對(duì)經(jīng)典的圖像取證方法進(jìn)行分析研究,概括現(xiàn)在圖像取證技術(shù)依然存在的挑戰(zhàn),預(yù)測(cè)未來(lái)圖像取證技術(shù)可能的發(fā)展方向.
數(shù)字圖像取證技術(shù)(Digital Image Forensics),是通過(guò)對(duì)圖像統(tǒng)計(jì)特性的分析來(lái)判斷圖像內(nèi)容的真實(shí)性、完整性和原始性,也就是判斷數(shù)字圖像從被數(shù)碼相機(jī)拍攝以后有沒(méi)有經(jīng)過(guò)篡改的技術(shù)[7].它的出發(fā)點(diǎn)是通過(guò)提取數(shù)字圖像周期中留下的固有痕跡進(jìn)行分析,判斷數(shù)字圖像的操作歷史.數(shù)字圖像取證技術(shù)用來(lái)檢測(cè)數(shù)字圖像的真實(shí)性,根據(jù)主要的解決思路,可以分為主動(dòng)取證技術(shù)和被動(dòng)取證技術(shù)[8].
主動(dòng)取證技術(shù)是將識(shí)別的信息嵌入到數(shù)字圖像中,然后再提取識(shí)別信息,將提取出的信息與原先嵌入的信息進(jìn)行比較,從而鑒別圖像是否真實(shí)和完整,如數(shù)字水印技術(shù)(Digital Watermarking),是事先在圖像的空域或者頻域中嵌入易碎的水印信息,圖像經(jīng)過(guò)傳輸后再提取水印信息,通過(guò)判斷水印信息是否完整來(lái)判斷圖像是否被篡改[7].
被動(dòng)取證技術(shù),又稱為盲取證技術(shù),不需要圖像的先驗(yàn)信息,也不需要發(fā)送端對(duì)圖像進(jìn)行操作,僅僅利用接收到的圖像來(lái)判斷其真實(shí)性或完整性.被動(dòng)取證技術(shù)認(rèn)為,盡管人眼無(wú)法識(shí)別出圖像偽造的痕跡,但是圖像的基本統(tǒng)計(jì)特性和一致性會(huì)被篡改操作影響,引起自然圖像各種形式的不一致性.因此,可以利用這些不一致性,通過(guò)學(xué)習(xí)分析識(shí)別圖像的篡改痕跡以及對(duì)這些篡改進(jìn)行定位.
對(duì)偽造的數(shù)字圖像進(jìn)行被動(dòng)檢測(cè)可以看成一個(gè)二分類問(wèn)題,將被檢測(cè)的圖像分為兩類:真實(shí)圖像或偽造圖像.盲取證過(guò)程(如圖3所示)可以由以下幾個(gè)步驟組成:
圖3 被動(dòng)取證技術(shù)過(guò)程圖
1) 圖像預(yù)處理:對(duì)圖像進(jìn)行一些預(yù)處理操作提高檢測(cè)的準(zhǔn)確率,如,灰度圖轉(zhuǎn)換、離散余弦變換等,這一步不是必須的操作.
2) 特征提取與處理:對(duì)(處理后)圖像進(jìn)行特征提取,對(duì)原始圖像和篡改后的圖像分別提取特征,提取的特征要對(duì)篡改操作非常敏感且能夠有效地區(qū)分原始圖像和偽造圖像.如果提取的特征維度較大,可以對(duì)特征進(jìn)行降維處理,這樣可以在準(zhǔn)確率高的同時(shí)達(dá)到降低計(jì)算成本的目的.
3) 訓(xùn)練分類器:利用處理好的特征,可以對(duì)分類器進(jìn)行訓(xùn)練.
4) 分類與后處理:將要檢測(cè)的圖像,也像訓(xùn)練圖像一樣執(zhí)行1)、2)步操作,然后將得到的特征輸入到分類器中,判斷圖像是自然圖像還是偽造圖像,根據(jù)判斷結(jié)果可以對(duì)圖像進(jìn)行一些后續(xù)處理,如,篡改定位等操作.
基于內(nèi)在一致性的傳統(tǒng)數(shù)字圖像取證技術(shù)主要是對(duì)圖像提取不同的特征,然后用這些特征訓(xùn)練分類模型,實(shí)現(xiàn)對(duì)被檢測(cè)圖像的分類.常常被考慮到的內(nèi)在一致性主要包含:光學(xué)規(guī)律的一致性、傳感器規(guī)律一致性、圖像篡改時(shí)的痕跡所做以及統(tǒng)計(jì)特征的一致性.
3.1光學(xué)規(guī)律一致性數(shù)字圖像取證技術(shù)利用光學(xué)規(guī)律主要體現(xiàn)在利用光照的一致性或圖像的色差來(lái)完成.對(duì)一張圖像進(jìn)行修改后,很難準(zhǔn)確地匹配原始圖像的光照條件,圖4是由電影明星Cher和Brad Pitt的兩張個(gè)人圖像合成的圖像[9],Cher拍照時(shí)的光源方向是不確定的,而Pitt拍照時(shí)的光源方向位于他的左側(cè),由此可以判斷這是一幅偽造圖像.因此,光照的不一致性可以成為檢測(cè)圖像是否被篡改的工具.
圖4 電影明星Cher和Brad Pitt的合成圖像
近年來(lái),有很多檢測(cè)工作是利用光源的方向進(jìn)行的.Micah K Johnson等人[9]認(rèn)為,只要能夠估計(jì)出一幅圖像中不同的人或者物體的光源方向,則可以根據(jù)光源一致性來(lái)判斷該圖像是否為偽造圖像.因此,他們提出了一種使用單張圖像估計(jì)光源方向的方法,在P Nillius等人[10]提出的對(duì)于光源方向自動(dòng)預(yù)測(cè)的模型的基礎(chǔ)上,將模型的一些必須假設(shè)放寬松,對(duì)物體對(duì)光線的反射進(jìn)行分析,并且添加了周圍環(huán)境因素對(duì)于光線的影響,提出了更一般的光源方向預(yù)測(cè)模型.同時(shí),他們考慮了3-D光源與2-D光源、整體光源與局部光源的情況,取得了不錯(cuò)的實(shí)驗(yàn)效果.這個(gè)方法可以適用于任何圖像確定其光源方向,但是只能在一定模糊度內(nèi)確定光源的方向.
Micah K Johnson等人[11]在另一個(gè)工作中提出,場(chǎng)景中的光源會(huì)在眼睛上產(chǎn)生高光,可以借助眼睛中高光的位置判斷光源的3-D方向.高光的位置由光源、反射面以及觀察者(或相機(jī))的相對(duì)位置決定的.當(dāng)觀察者的方向?yàn)楦吖饽鼙豢吹降姆较驎r(shí),可以從眼睛高光處的表面反射法線和觀察者的方向估計(jì)出光源的方向.判斷出光源的方向后,就可以用來(lái)檢測(cè)圖像是否是偽造圖像.由于這個(gè)方法是從眼睛中高光來(lái)判斷光源方向的,因此只能用于眼睛分辨率比較高的圖像,存在一定的局限性.
上面這兩種方法對(duì)單一光源為主的圖像判斷非常有效,但是不適用于包含多個(gè)光源或非定向照明的復(fù)雜照明環(huán)境(如陰天的天空).Micah K Johnson等人[12]提出了在復(fù)雜的照明環(huán)境中使用光照不一致性檢測(cè)篡改的方法.基于照明是遠(yuǎn)距離的、拍攝場(chǎng)景中的表面是凸的、表面的反射率是恒定的以及相機(jī)的響應(yīng)是線性的假設(shè),他們利用Ravi Ramamoorthi等人[13]的工作,將復(fù)雜的光照環(huán)境進(jìn)化成一個(gè)低維模型(9-D),并且刻畫了如何從單個(gè)圖像估計(jì)模型中參數(shù)的方法以及如何簡(jiǎn)化成5-D模型.然而,不同的光照環(huán)境有時(shí)會(huì)產(chǎn)生近似的模型系數(shù),此時(shí),模型無(wú)法區(qū)分光照差異.
除了利用光源方向,圖像的色差也可用于檢測(cè)偽造圖像.橫向色差在一階近似下表示為彩色通道相對(duì)于其它通道的膨脹/收縮,在對(duì)圖像進(jìn)行篡改時(shí),橫向色差經(jīng)常受到干擾,不能保持一致性.Micah K Johnson等人[14]分析了色差產(chǎn)生的原因,并對(duì)色差的產(chǎn)生建立模型,同時(shí)考慮了1-D成像系統(tǒng)和2-D成像系統(tǒng),然后利用最大化顏色通道之間的相互信息算法對(duì)色差進(jìn)行估計(jì),使用估計(jì)得到的色差計(jì)算其一致性,對(duì)偽造圖像進(jìn)行檢測(cè).
3.2傳感器規(guī)律一致性基于傳感器特性的數(shù)字圖像取證技術(shù)主要檢測(cè)相機(jī)模式噪聲的存在.相機(jī)模式噪聲是成像傳感器中的一個(gè)隨機(jī)特征,而在偽造的圖像區(qū)域是沒(méi)有這種模式噪聲的,并且對(duì)于被抑制的噪聲缺少合理的解釋,因此,相機(jī)的模式噪聲可以用來(lái)檢測(cè)偽造圖像.
Jan Luká?等人[15]在假設(shè)拍攝圖像的相機(jī)可用或由該相機(jī)拍攝的其它圖像可以獲得的情況下,提出了基于相機(jī)模式噪聲的偽造數(shù)字圖像檢測(cè)方法.他們主要回顧了模式噪聲的特性和近似求解方法,對(duì)于給定的相機(jī),通過(guò)對(duì)由此相機(jī)拍攝的多幅圖像求平均得到相機(jī)的模式噪聲參考值.對(duì)于給定的檢測(cè)圖像,為了確定其選中區(qū)域是否與相機(jī)模式噪聲兼容,首先計(jì)算該區(qū)域的噪聲殘差與相機(jī)參考模式的相關(guān)性,在相關(guān)性超過(guò)閾值時(shí),說(shuō)明該區(qū)域是被篡改的.除此之外,他們還介紹了一種偽造區(qū)域的自動(dòng)識(shí)別算法,偽造區(qū)域被確定為一幅圖像中模式噪聲最低的區(qū)域.通過(guò)在一幅圖像中滑動(dòng)一組不同的基本形狀,計(jì)算每個(gè)形狀之間噪聲的相關(guān)性,積累最低的相關(guān)值,判斷偽造區(qū)域.這個(gè)方法適用于任何的偽造方法,但是也存在一定的局限性,因?yàn)樗竽軌蛴泻蜋z測(cè)圖像同相機(jī)拍攝的照片.
Chen Mo等人[16]提出了一個(gè)統(tǒng)一的框架,用于從圖像中識(shí)別源數(shù)碼相機(jī),并使用光響應(yīng)非均勻噪聲(PRNU,Photo Response Non-uniformity)來(lái)顯示經(jīng)過(guò)處理的圖像.從傳感器輸出的簡(jiǎn)化模型出發(fā),利用最大似然原理,估計(jì)PRNU,然后通過(guò)檢測(cè)所研究圖像的特定區(qū)域中的傳感器PRNU的存在來(lái)實(shí)現(xiàn)識(shí)別源數(shù)碼相機(jī)以及檢測(cè)偽造兩個(gè)取證任務(wù).檢測(cè)被公式化為假設(shè)檢驗(yàn)問(wèn)題,是使用小圖像塊的測(cè)試統(tǒng)計(jì)的預(yù)測(cè)器獲得最佳測(cè)試統(tǒng)計(jì)的統(tǒng)計(jì)分布.此方法是在Jan Luká?等人的工作[15]的基礎(chǔ)上提出來(lái)的,能夠使用更少的數(shù)據(jù)獲得更準(zhǔn)確度估計(jì).
3.3圖像篡改痕跡或生成痕跡人們對(duì)圖像進(jìn)行篡改時(shí),通常會(huì)留下各種人眼不可見的內(nèi)在篡改痕跡,因此,有很多研究工作通過(guò)檢測(cè)這些痕跡對(duì)圖像進(jìn)行篡改檢測(cè).通常這類篡改檢測(cè)方法包括對(duì)解碼、白平衡以及伽馬校正的檢測(cè).當(dāng)圖像成像時(shí),也會(huì)有很多相機(jī)產(chǎn)生的痕跡,如果對(duì)圖像進(jìn)行篡改,這些痕跡是不存在的或者比較弱,因此也可使用這些痕跡對(duì)偽造圖像 進(jìn)行檢測(cè).
基于這樣一個(gè)事實(shí),即通常一個(gè)圖像的篡改操作會(huì)以一種可測(cè)量的方式改變相機(jī)顏色濾波陣列(CFA,Color Filter Array)的解碼工件,缺少CFA工件或檢測(cè)到較弱的CFA工件可能表明存在全局或局部篡改.Ahmet EmirDirik等人[17]提出了一種基于CFA解碼的篡改檢測(cè)技術(shù),通過(guò)對(duì)CFA模式數(shù)估計(jì)和CFA噪聲的分析,將計(jì)算出來(lái)的結(jié)果與一個(gè)經(jīng)驗(yàn)閾值進(jìn)行比較,確定圖像是否被篡改.
Ashwin Swaminathan等人[18]提出了一種基于內(nèi)在指紋的圖像取證技術(shù),內(nèi)在指紋是指各種圖像處理操作,包括內(nèi)部和外部采集設(shè)備,在數(shù)字圖像上留下的痕跡.他們通過(guò)對(duì)相機(jī)模型及其組成分析,估計(jì)出各種相機(jī)內(nèi)處理操作的內(nèi)在指紋.將相機(jī)捕獲的圖像進(jìn)一步處理建模為操作濾波器,采用盲反卷積技術(shù)獲得線性時(shí)不變估計(jì),并估計(jì)與這些后置相機(jī)操作相關(guān)的內(nèi)在指紋.通過(guò)對(duì)被檢測(cè)的圖像進(jìn)行分析,與相機(jī)施加的指紋出現(xiàn)變化或者不一致,或出現(xiàn)了新的類型的指紋,表明圖像經(jīng)過(guò)了篡改.
大多數(shù)數(shù)碼相機(jī)使用一個(gè)傳感器和一個(gè)顏色濾波陣列,然后插值缺失的顏色樣本,得到一個(gè)三通倒的彩色圖像.這種插值引入了特定的相關(guān)性,當(dāng)對(duì)圖像進(jìn)行篡改時(shí),這些相關(guān)性很可能被破壞.Alin C Popescu and Hany Farid[19]量化了CFA插值引入的特定關(guān)聯(lián),并通過(guò)構(gòu)建算法能夠在圖像的任何部分自動(dòng)檢測(cè)到這些關(guān)聯(lián),如果一幅圖像被檢測(cè)到缺失這些關(guān)聯(lián),則是被篡改的圖像.
3.4統(tǒng)計(jì)特征一致性篡改圖像和原始圖像的統(tǒng)計(jì)特征是存在差異的,基于統(tǒng)計(jì)特征的圖像取證技術(shù)是對(duì)兩種不同的圖像進(jìn)行特征提取,然后用提取到的特征訓(xùn)練分類器,對(duì)測(cè)試圖像進(jìn)行檢測(cè).
Wang Wei等人[20]提出了一種從圖像的色度通道進(jìn)行邊緣信息的提取,建模為一個(gè)有限狀態(tài)的馬爾可夫鏈,從馬爾可夫鏈的平穩(wěn)分布中提取低維特征向量用于圖像篡改檢測(cè).首先通過(guò)一個(gè)掩模與圖像的色度分量進(jìn)行卷積得到此色度分量的邊緣圖像,然后對(duì)此邊緣圖像進(jìn)行閾值化,得到閾值化后的邊緣圖像.由于此圖像的像素值為0-T之間的整數(shù),因此可以建模為有限狀態(tài)的馬爾可夫鏈,隨后用一步轉(zhuǎn)移概率矩陣來(lái)表征此圖像,通過(guò)對(duì)轉(zhuǎn)移概率矩陣進(jìn)行操作,得到馬爾可夫鏈的平穩(wěn)分布,作為特征向量.然后用這些特征向量訓(xùn)練SVM(Support Vector Machines),進(jìn)行篡改檢測(cè).該方法的優(yōu)點(diǎn)是提取了低維的特征向量,降低了計(jì)算復(fù)雜度.
Hsu Yufeng和Chang Shihfu提出了一種基于圖像中不同區(qū)域相機(jī)特征一致性檢測(cè)的自動(dòng)拼接圖像檢測(cè)方法.首先將測(cè)試圖像分割成不同的區(qū)域,利用平面區(qū)域輻照度點(diǎn)(LPIPs)的幾何不變量,從每個(gè)區(qū)域中估計(jì)一個(gè)相機(jī)響應(yīng)函數(shù)(CRF),計(jì)算CRF交叉擬合分?jǐn)?shù)和區(qū)域強(qiáng)度特征,訓(xùn)練SVM分類器,用來(lái)確定兩個(gè)區(qū)域之間的邊界劃分是否為真實(shí)的或者拼接的,進(jìn)而判斷整個(gè)圖像是否是被篡改的[21].
Hsu Yufeng等人[22]提出了一個(gè)基于判別隨機(jī)場(chǎng)(DRF,Discriminative Random Fields)的統(tǒng)計(jì)融合框架來(lái)集成適合于篡改檢測(cè)的多個(gè)線索的圖像取證方法.進(jìn)行線索融合檢測(cè)篡改圖像主要有兩方面的優(yōu)勢(shì):處理不同類型的篡改圖像以及通過(guò)不同模塊的分工合作提高檢測(cè)精度.現(xiàn)有的檢測(cè)方法主要基于檢測(cè)的輸出分為局部真實(shí)性檢測(cè)和空間不一致性檢測(cè).本文以雙量化(DQ,Double Quantization)作為局部真實(shí)性檢測(cè)的線索,以相機(jī)響應(yīng)函數(shù)(CRF,Camera Response Function)作為相鄰區(qū)域一致性檢測(cè)的線索,將兩個(gè)線索的融合看成標(biāo)注問(wèn)題,利用DRF進(jìn)行融合.將圖像劃分為一個(gè)個(gè)8×8的塊,然后將這些塊隨機(jī)劃分為不同的區(qū)域,對(duì)每一個(gè)塊計(jì)算其DQ得分,對(duì)每個(gè)區(qū)域中的塊之間計(jì)算CRF一致性得分,對(duì)不同區(qū)域的塊之間計(jì)算CRF一致性得分,通過(guò)DRF計(jì)算其最大后驗(yàn)概率,來(lái)估計(jì)其相應(yīng)的標(biāo)簽,判斷是否被篡改.
Kaur等人[23]提出了一種無(wú)源混合方法檢測(cè)復(fù)制-移動(dòng)和拼接進(jìn)行的圖像偽造.該方法基于離散分?jǐn)?shù)余弦變換(DFCT,Discrete Fractional Cosine Transform)和局部二值模式(LBP,Local Binary Patterns)實(shí)現(xiàn).其中,離散分?jǐn)?shù)余弦變換的分?jǐn)?shù)參數(shù)可以提高檢測(cè)的精度,局部二值模式可以有效地突出偽影.同時(shí),利用支持向量機(jī)(SVM)對(duì)圖像進(jìn)行分類,分為真實(shí)圖像、復(fù)制移動(dòng)圖像和拼接圖像.接下來(lái),對(duì)復(fù)制移動(dòng)圖像和拼接圖像進(jìn)行定位,定位圖像中的篡改區(qū)域.
Shah等人[24]致力于圖像復(fù)制-移動(dòng)偽造檢測(cè),提出一種有效的檢測(cè)方法.該方法首先將離散小波變換應(yīng)用于輸入圖像,所得到的最低頻率近似子帶被分割成具有固定大小的重疊小塊,滑動(dòng)因子為一個(gè)像素.然后計(jì)算每個(gè)固定大小塊的二維離散余弦變換,然后通過(guò)Zigzag掃描存儲(chǔ)為單行向量,用于偽造檢測(cè).混合變換和快速K-means聚類技術(shù)的使用有助于提高處理速度,減少整體偽造檢測(cè)時(shí)間.
隨著深度學(xué)習(xí)的興起,圖像取證方向的研究人員也將目光轉(zhuǎn)移到深度學(xué)習(xí)的方法上[25-28].基于深度學(xué)習(xí)的圖像取證技術(shù)與上文中描述的傳統(tǒng)的圖像取證技術(shù)不同,類似于其它基于深度學(xué)習(xí)算法的任務(wù),將圖像的特征提取的分類結(jié)合在一起,構(gòu)造一個(gè)統(tǒng)一的網(wǎng)絡(luò),實(shí)現(xiàn)了end-to-end的圖像取證技術(shù).同時(shí),也有研究者將深度網(wǎng)絡(luò)與信息論相結(jié)合完成圖像取證工作[29-30].基于深度學(xué)習(xí)的圖像取證領(lǐng)域的研究工作主要涉及到了三個(gè)方面:一是簡(jiǎn)單的遷移;二是對(duì)網(wǎng)絡(luò)輸入進(jìn)行修改;三是對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改.
4.1簡(jiǎn)單的遷移由于圖像取證問(wèn)題可以看成是分類問(wèn)題,因此可以將已經(jīng)在計(jì)算機(jī)視覺(jué)領(lǐng)域經(jīng)常用于分類的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)直接應(yīng)用于圖像取證領(lǐng)域,這可以看成是對(duì)卷積神經(jīng)網(wǎng)絡(luò)在圖像取證問(wèn)題上的簡(jiǎn)單遷移.相機(jī)源取證是可以解決圖像取證的一個(gè)關(guān)鍵思路,判斷出圖像是否符合某種相機(jī)拍攝的特點(diǎn),就可以確定圖像是哪款相機(jī)拍攝的,進(jìn)而判斷其是否被偽造.在傳統(tǒng)的方法中,已經(jīng)有根據(jù)不同相機(jī)在管道中留下的特征軌跡對(duì)圖像的相機(jī)源進(jìn)行取證.Luca Baroffio等人[31]首次提出將卷積神經(jīng)網(wǎng)絡(luò)用于判斷圖像相機(jī)源問(wèn)題,與傳統(tǒng)的相機(jī)源取證方法不同,該方法直接從每個(gè)相機(jī)拍攝的大量圖片中學(xué)習(xí)每個(gè)相機(jī)的特征,利用學(xué)習(xí)到的特征對(duì)測(cè)試圖像進(jìn)行分類.他們提出的網(wǎng)絡(luò)結(jié)構(gòu)使用了三個(gè)卷積層和兩個(gè)全連接層,包含了濾波、池化和非線性激活等一系列簡(jiǎn)單的操作,對(duì)于27種相機(jī)模型的識(shí)別準(zhǔn)確率均大于94%.
4.2對(duì)網(wǎng)絡(luò)輸入進(jìn)行修改雖然圖像取證問(wèn)題可以看成是分類問(wèn)題,但是它和分類問(wèn)題是有區(qū)別的.由于造假技術(shù)越來(lái)越高超,真?zhèn)螆D像之間的差異越來(lái)越小,多數(shù)情況下是人眼無(wú)法識(shí)別的,如圖5所示,BBC新聞上報(bào)道的伊朗導(dǎo)彈圖片中顯示了四枚,但實(shí)際上只有三枚導(dǎo)彈是真的,其中一枚是通過(guò)其它導(dǎo)彈復(fù)制移動(dòng)過(guò)去的,這是人眼無(wú)法識(shí)別的[32].而對(duì)于計(jì)算機(jī)視覺(jué)領(lǐng)域的分類問(wèn)題,類別之間的差異還是比較明顯的,多數(shù)情況下是人眼可以識(shí)別的.因此,研究人員將計(jì)算機(jī)視覺(jué)領(lǐng)域中用于分類任務(wù)的深度學(xué)習(xí)模型遷移到圖像取證領(lǐng)域時(shí),通常在模型之前對(duì)網(wǎng)絡(luò)的輸入進(jìn)行處理,以達(dá)到放大類間差異的效果.
圖5 伊朗導(dǎo)彈偽造圖片
Chen Jiansheng和Kang Xiangui等人[37]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的中值濾波取證模型,與傳統(tǒng)的CNN模型不同,這個(gè)CNN框架的第一層為濾波層,將圖像作為輸入,然后輸出其中值濾波殘差(MFR,Median Fitering Residuals),通過(guò)這步預(yù)處理操作,圖像內(nèi)容被去掉,同時(shí)圖像噪聲信號(hào)也被放大.然后,通過(guò)卷積層和池化層學(xué)習(xí)圖像噪聲的特征表示,最后對(duì)圖像進(jìn)行分類.實(shí)驗(yàn)結(jié)果顯示,該文章中的取證模型取得了顯著的性能改進(jìn),特別是在復(fù)制粘貼偽造檢測(cè)方面.通過(guò)對(duì)比實(shí)驗(yàn),添加了濾波層的模型,檢測(cè)結(jié)果優(yōu)于未添加濾波層的模型7.22%.
Paolo Rota等人[34]認(rèn)為,為了能夠直接從數(shù)據(jù)中學(xué)習(xí)到原始圖像和篡改圖像的特征,需要一組一致的標(biāo)記圖像,而很多篡改圖像只是圖像中的小部分被篡改,圖像的其它內(nèi)容會(huì)對(duì)其特征提取產(chǎn)生影響.因此,他們提出了一種基于補(bǔ)丁(Patch)的卷積神經(jīng)網(wǎng)絡(luò)模型去檢測(cè)篡改圖像,對(duì)于篡改的圖像,從篡改區(qū)域的邊界提取Patch,對(duì)于真實(shí)圖像,從圖像中隨機(jī)抽選Patch,使用提出的Patch學(xué)習(xí)特征訓(xùn)練網(wǎng)絡(luò).這種方法不僅使學(xué)習(xí)到的特征更加精確,而且還能達(dá)到擴(kuò)充數(shù)據(jù)集的效果.
Luca Bondi等人[35]基于不同相機(jī)模型在圖像上留下不同的特征痕跡,利用圖像補(bǔ)丁的方法訓(xùn)練CNN模型,進(jìn)行篡改檢測(cè).如果圖像是原始圖像,則所有像素都應(yīng)該被檢測(cè)為一個(gè)設(shè)備的痕跡,如果圖像是偽造的,則可以檢測(cè)到多個(gè)設(shè)備的痕跡.通過(guò)CNN模型學(xué)習(xí)特征后,利用迭代聚類技術(shù)對(duì)這些特征進(jìn)行分析,檢測(cè)圖像是否偽造.
4.3對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改通過(guò)4.2節(jié)的分析,可以看出取證問(wèn)題與分類問(wèn)題存在一定的差異,很多研究人員也意識(shí)到了這些差異,有關(guān)學(xué)者嘗試對(duì)深度學(xué)習(xí)中的模型進(jìn)行修改,結(jié)合圖像取證的實(shí)際問(wèn)題提出相應(yīng)的網(wǎng)絡(luò)模型.
Belhassen Bayar等人[36]提出了一種使用深度學(xué)習(xí)模型檢測(cè)篡改圖像的方法,使用一種新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),直接從大量的訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)不同操作的不同特性.與以往的學(xué)習(xí)圖像內(nèi)容特征的卷積網(wǎng)絡(luò)不同,在新的模型中,他們開發(fā)了一種新的卷積層,用來(lái)抑制圖像內(nèi)容對(duì)檢測(cè)的影響,并且能夠自適應(yīng)地學(xué)習(xí)篡改操作的特性,而不需要預(yù)先選擇特征或其它的預(yù)處理.通過(guò)對(duì)圖像內(nèi)容的抑制,對(duì)于圖像的篡改檢測(cè)準(zhǔn)確率能達(dá)到99.10%.
Peng Zhou等人[37]提出了一種雙流的Faster Region-CNN網(wǎng)絡(luò),可以學(xué)習(xí)更豐富的特征,實(shí)現(xiàn)端到端的訓(xùn)練.兩個(gè)特征流之一是RGB流,其目的是從RGB圖像輸入中提取特征,以發(fā)現(xiàn)篡改痕跡,如強(qiáng)度對(duì)比差異、非自然篡改邊界等;另一個(gè)特征流是噪聲流,利用隱寫分析模型中提出的SRM濾波層提取原始圖像和篡改圖像的噪聲特征.然后,通過(guò)一個(gè)雙線性池化層融合這兩種特征,進(jìn)一步合并這兩種特征的空間共現(xiàn).兩種特征融合在一起進(jìn)行篡改檢測(cè),提高了準(zhǔn)確率,不僅能夠檢測(cè)篡改痕跡,還能夠區(qū)分各種篡改技術(shù).
DariusAfchar等人[38]提出了一種自動(dòng)有效檢測(cè)視頻中人臉偽造的方法,主要是針對(duì)目前偽造視頻的兩種新技術(shù):Deppfake和Face2Face.他們提出了兩種不同的MesoNet模型,網(wǎng)絡(luò)結(jié)構(gòu)主要由卷積層、最大池化層以及全連接層組成,能夠很好地學(xué)習(xí)圖像的細(xì)觀特性,在Deppfake數(shù)據(jù)集上能夠達(dá)到98%的檢測(cè)準(zhǔn)確率,在Face2Face數(shù)據(jù)集上能夠達(dá)到95%準(zhǔn)確率.
Liu等人[39]的研究不同于以往經(jīng)典的檢測(cè)篡改解決方案,提出一種新型端到端生成對(duì)抗網(wǎng)絡(luò)(CD-GAN)解決圖像的復(fù)制-移動(dòng)偽造檢測(cè)問(wèn)題.該模型不需要具體的提取特征,只需要真實(shí)圖像的樣本和偽造圖像的樣本輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練.與傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的偽造檢測(cè)方法對(duì)比,該網(wǎng)絡(luò)的檢測(cè)精度大大提高.
Elaskily等人[40]提出了一種檢測(cè)圖像是否有復(fù)制-移動(dòng)篡改的深度網(wǎng)絡(luò)模型(CMFD).該模型的主要結(jié)構(gòu)為卷積神經(jīng)網(wǎng)絡(luò)(CNN)和卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(CovLSTM).該方法通過(guò)卷積(Convolutions, CNVs)層、ConvLSTM層和pooling層提取圖像特征,然后進(jìn)行特征匹配,檢測(cè)復(fù)制移動(dòng)偽造.
由于深度學(xué)習(xí)的快速發(fā)展以及良好效果的取得,圖像偽造效果也越來(lái)越好,人們也慢慢地把目光轉(zhuǎn)移到對(duì)視頻進(jìn)行篡改.因此,在對(duì)圖像取證提高準(zhǔn)確率的同時(shí),對(duì)視頻的取證也是一個(gè)有待解決的問(wèn)題.傳統(tǒng)的圖像取證技術(shù)雖然能夠取得不錯(cuò)的效果,但是需要人工操作的地方比較多,而深度學(xué)習(xí)的取證方法能夠?qū)崿F(xiàn)端到端的效果,并且是自動(dòng)提取特征,不需要過(guò)多的人工干預(yù),在數(shù)據(jù)集充足的情況下,也能取得很好的效果.基于深度學(xué)習(xí)的取證技術(shù)也是未來(lái)的主流研究方向,將傳統(tǒng)方法和深度方法進(jìn)行結(jié)合能否取得更好的效果,也是一個(gè)值得討論的問(wèn)題.
本文主要介紹了數(shù)字圖像取證技術(shù),并對(duì)傳統(tǒng)的數(shù)字圖像取證技術(shù)和基于深度學(xué)習(xí)方法的取證技術(shù)分類概述.在傳統(tǒng)的數(shù)字圖像取證方面,本文重點(diǎn)概述了基于光照統(tǒng)一性、傳感器規(guī)律統(tǒng)一性、圖像篡改痕跡或成像痕跡以及統(tǒng)計(jì)特征四個(gè)方面的經(jīng)典方法;在深度學(xué)習(xí)用于圖像取證方面,本文重點(diǎn)從簡(jiǎn)單的模型遷移、對(duì)網(wǎng)絡(luò)輸入層的修改以及對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的修改三個(gè)方面進(jìn)行介紹.由于篡改技術(shù)越來(lái)越高超,對(duì)視頻的篡改檢測(cè)也是取證領(lǐng)域面臨的一大挑戰(zhàn).深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了重大進(jìn)展和良好的效果,基于深度學(xué)習(xí)的圖像取證方法將是主要的研究方向.