熊禮治,曹夢琦,付章杰
(1.南京信息工程大學數(shù)字取證教育部工程研究中心,江蘇 南京 210044;2.南京信息工程大學計算機學院、軟件學院、網絡空間安全學院,江蘇 南京 210044)
隨著圖像和視頻處理算法的發(fā)展,篡改的圖像和視頻檢測變得越來越困難[1-2]。惡意篡改圖片和視頻并上傳至互聯(lián)網[3-4]可能會導致不良的影響。因此,尋找一種有效的識別方法具有重要意義。
篡改視頻有2 種類型:一種是基于幀的篡改,另一種是基于內容對象的篡改。與基于幀的篡改操作(包括幀插入[5-6]、幀刪除、幀復制等方法)相比,基于內容對象的篡改視頻通常需要專業(yè)人員使用復雜的操作技術進行[7]。如圖1 所示,視頻在篡改后通常沒有視覺差異,篡改操作留下的痕跡很難被發(fā)現(xiàn),使這種篡改視頻更有害且更難以檢測。
圖1 原始視頻幀與篡改視頻幀樣例
近年來,專家學者們在圖像篡改被動檢測領域取得了一些進展。肖斌等[8]針對圖像copy-move 篡改提出了一種基于分組尺度不變特征的快速檢測方法。李巖等[9]提出一種FI-SURF(flip invariant speeded-up robust features)算法,該算法能夠檢測出圖像鏡像copy-move 篡改。Liang 等[10]提出了一種集成中心像素映射、最大零連通分量標記和片段拼接檢測的算法,極大提高了檢測效率。Zhang 等[11]基于聯(lián)合概率密度矩陣和離散余弦變化系數(shù)等抽象統(tǒng)計特征提出了一種混合取證方法,提高了算法穩(wěn)健性。隨著深度學習技術的發(fā)展,新的基于神經網絡的深度學習方法被提出。由馬里蘭大學和Adobe公司提出的基于Faster R-CNN(region-based convolutional neural network)的雙流網絡[12-13]可以檢測出篡改圖像中的偽造區(qū)域。王珠珠[14]使用U-Net 提取圖像中多階段的特征信息用于檢測。
與單個圖像相比,篡改視頻可以從相鄰幀中獲得用于操作篡改區(qū)域的相關信息,然后進行編輯和修補,使檢測更加困難。目前,數(shù)字視頻篡改檢測算法可以分為四類:1) 基于噪聲模式的算法;2) 基于像素相關的算法;3) 基于視頻內容特征的算法;4) 基于抽象統(tǒng)計特征的算法。
基于噪聲模式的算法通過提取數(shù)字視頻在篡改后留下的噪聲痕跡,進行視頻完整性檢測。Ding等[5-6]利用幀插入篡改殘留的偽影和信號殘差檢測運動補償幀率上轉換視頻。Hsu 等[15]提出了一種基于篡改噪聲的相關算法來定位篡改區(qū)域。該算法采用宏塊計算篡改噪聲的相關系數(shù),并且認為相關系數(shù)服從高斯混合模型(GMM,Gaussian mixture model)。當宏塊的相關系數(shù)明顯偏離閾值時,該宏塊被認為是篡改的。Chen 等[1]首先提出了基于目標篡改的視頻檢測問題,創(chuàng)建了SYSU-OBJFORG 數(shù)據(jù)集,并提出了一種基于運動殘差的時序篡改檢測算法,使用共謀算子從視頻幀序列中生成運動殘差靜態(tài)圖像并使用圖像篡改算法進行檢測。
基于像素相關的算法利用篡改操作會破壞數(shù)字視頻中相鄰像素在時空方向上相關性的特點,通過尋找像素相關性的異常變化實現(xiàn)篡改被動取證。Wang 等[16]利用監(jiān)控攝像機插值生成視頻幀的特點,提出了基于期望最大化(EM,expectation maximization)的插值周期檢測和定位算法。Bestagini等[17]通過計算相鄰兩幀的像素差值,當差值為零時,確定像素點為篡改,但應用條件嚴格。Liu 等[18]利用亮度和對比度作為特征來衡量前景和背景之間的相似性,然后通過識別這些塊的前景和背景之間的特征不一致性來檢測篡改。Sitara 和Mehtre[19]提出了一種基于像素差值的篡改視頻檢測方法。
基于視頻內容特征的算法通過對篡改殘留痕跡、異常光流變化等內容特征進行分析實現(xiàn)完整性檢測。Zhang等[20]提出使用篡改后留下的偽影作為回火檢測的檢測依據(jù)進行篡改視頻檢測。Li 等[21]提出了一種通過分析運動向量的異常特征來檢測在靜止背景視頻中篡改運動目標的算法。Aloraini 等[22]利用空間分解、時間濾波和序列分析來檢測和定位基于目標移除的篡改視頻。Zhong 等[23]利用最佳幀間匹配算法識別從視頻中提取的多維密集矩陣特征來識別幀間篡改視頻,并根據(jù)設定的閾值定位幀間的篡改區(qū)域。
基于抽象統(tǒng)計特征的算法利用篡改后的區(qū)域像素值抽象統(tǒng)計特征與原始區(qū)域不同的特點實現(xiàn)取證。Chen 等[24]提出了一種被動取證算法,通過計算視頻目標可變寬邊界區(qū)域的統(tǒng)計特征,使用支持向量機(SVM,support vector machine)作為分類器并進行訓練,用于鑒別視頻對象的真實性。Pandey等[25]提出了一種時空聯(lián)合copy-move篡改視頻區(qū)域檢測與定位算法。通過在空域提取尺度不變特征變換(SIFT,scale-invariant feature transform)特征,在時域提取噪聲特征,并計算相互系數(shù)完成篡改檢測和區(qū)域定位。
傳統(tǒng)的被動取證方法需要手動設計檢測特征,存在識別效率、準確率低和穩(wěn)健性差等問題,無法滿足應用需求。近年來,深度學習的發(fā)展為視頻篡改檢測帶來新的研究方向。利用深度學習方法來進行篡改視頻檢測應歸納為基于噪聲模式的算法。Yao 等[26]提出了一種基于目標移除篡改視頻檢測的CNN。利用相鄰兩幀之間的幀差,通過高通濾波器提取高頻信息并輸入CNN 進行訓練。CNN 可以自動學習篡改特征,提高了檢測的效率和準確率。翁韶偉等[27]利用Inception 網絡從灰度運動殘差中提取特征信息進行篡改檢測和定位。陳臨強等[28]提出了一種時空域定位檢測網絡,在此方案基礎上,Yang 等[29]提出了一種時空三叉戟網絡(STN,spatiotemporal trident network),用于視頻被動取證中目標移除篡改檢測和定位,他們使用連續(xù)的5 幀作為網絡輸入,通過空域富模型[30](SRM,steganalysis rich model)濾波和三維卷積[31-32](C3D,3D convolution)提取特征編碼,然后利用雙向長短時記憶網絡(BiLSTM,bi-directional long short-term memory)解碼特征來檢測時域篡改,具有很高的分類準確性。Wang 等[33]通過實驗表明,CNN傾向于先學習圖像中與標簽相對應的低頻信息,然后學習高頻信息來進一步提高分類準確率,因此高頻信息對于特征提取網絡同樣重要。
本文使用以改進的C3D 網絡為主干特征提取器的雙流網絡來融合視頻幀單元的低頻、高頻和時域特征,提出了一種視頻目標移除篡改取證方法。首先,利用SRM 濾波器提取視頻幀的高頻信息,并和原始視頻幀中的低頻信息共同作為網絡輸入,通過特征提取器獲得2 個包含不同頻域信息的特征向量;然后,使用緊湊雙線性池化(CBP,compact bilinear pooling)融合包含不同信息的特征向量;最后,將融合后的特征向量送入分類器進行分類預測。該方法可以充分利用視頻中的低頻、高頻和時間信息,通過網絡自動學習篡改視頻幀的特征,實現(xiàn)篡改視頻幀的時域定位。本文的主要貢獻如下。
1) 提出一種改進的C3D 網絡用來提取視頻幀序列的時間信息,使用卷積核大小為1×1 的卷積層來融合特征以及降低特征向量維度。
2) 利用CBP 融合低頻信息流的低頻信息特征和高頻信息流的高頻信息特征,并將融合后的特征向量用于時域檢測和定位。
3) 提出一種具有低頻信息流和高頻信息流的三維雙流網絡,并將改進的C3D 網絡作為特征提取器提高時域檢測的準確性。
在二維卷積(C2D,2D convolution)網絡中,卷積僅從空間維度計算特征,只能應用于二維特征映射,而不能處理視頻數(shù)據(jù)的時間信息。在分析視頻數(shù)據(jù)問題時,時間信息作為不同于圖像而特有的信息,對預測分類結果有重要作用。C3D 能夠將多個連續(xù)的視頻幀堆疊成一個立方體,使用三維卷積核一次通過立方體的多個維度計算結果以獲取連續(xù)的視頻時間信息。
本文采用雙線性池化[34](BP,bilinear pooling)對融合特征進行細粒度分類。對于不同的2 個特征提取器從同一位置提取出來的特征x和特征y,通過雙線性池化操作,在保留空間位置特征的前提下,融合成一個特征向量用于分類以提高檢測的置信度。BP 的精準定義如下。
對于圖像I中位置l提取出的 2 個特征(其中fA和fB為特征提取函數(shù),T為通道數(shù),M和N為維度數(shù))。設Z=MN,BP 操作定義如下。
從圖2中可以直觀地理解雙線性池化,具體如下。
圖2 圖像I 中位置l 的雙線性池化的過程
1) 將圖像I同一位置的兩組不同特征融合(相乘)為一個矩陣B;
2) 對矩陣B中所有位置l進行池化獲得矩陣P;
3) 重塑矩陣P為雙線性向量x;
4) 對向量x做矩歸一化和L2 歸一化,獲得特征向量z用于分類。
然而,傳統(tǒng)的雙線性池化具有特征向量z的維度過高的問題。融合后的特征向量z的維度等于特征向量x維度和特征向量y維度的乘積。為了在不降低性能的情況下,減少計算消耗和加快訓練速度,本文使用CBP 來融合2 個特征向量。
分類操作可以被看成式(2)所示的線性核機器。
算法1張量簡單投影
低頻信息流有2 個功能。首先,低頻信息流可以學習到篡改區(qū)域光線不一致、邊界對比度高等篡改特征。受物體光線變換、反射以及人物遮擋等原因的影響,不同視頻幀幀間的光線都會變換,但光線在同一幀內表現(xiàn)出相對一致性。對于目標移除篡改,篡改區(qū)域通常是從其他相鄰視頻幀復制過來的,篡改區(qū)域的光線與其他區(qū)域不同,會呈現(xiàn)出不一致的光線特征。如圖3 所示,篡改幀中標記區(qū)域的光線與原始幀相比出現(xiàn)不連續(xù),且在SRM 濾波后高頻圖像中存在不規(guī)則噪聲,網絡可以從輸入的連續(xù)視頻幀中學習到此類差異特征。其次,低頻信息流可以從連續(xù)輸入中捕獲視頻內容的語義信息。針對如圖1 (c)所示的混合幀輸入樣例,前兩幀為原始幀,后三幀為篡改幀,目標人物被移除導致篡改區(qū)域前后的語義信息不一致,這些不一致信息對目標移除篡改檢測有效。
圖3 一對原始幀和篡改幀
低頻信息流更側重于學習低頻語義信息,并不能處理所有的信息,對于精心處理后的篡改視頻幀,幀內光線變化不明顯,低頻信息流不能很好地學習到篡改痕跡。然而,篡改操作會改變視頻幀的高頻信息,因此使用特征提取器從高頻信息中獲取特征向量用于網絡訓練對于進一步提高分類準確率也非常重要。
視頻篡改通常經過3 個步驟:解壓縮成幀、篡改視頻幀和重新壓縮成視頻。這種篡改過程會在高頻區(qū)域留下痕跡,由于篡改操作通常從同源視頻的其他相鄰幀截取目標區(qū)域并復制到篡改幀以保證視覺完整性,因此篡改區(qū)域的高頻信息與其他區(qū)域不一致。通過實驗發(fā)現(xiàn),篡改區(qū)域的高頻信息在相鄰篡改幀間擁有較大的連續(xù)性和相似性。
篡改區(qū)域高頻信息與原始區(qū)域高頻信息相關性較小,同一區(qū)域內相鄰像素間構建殘差會在高頻區(qū)域出現(xiàn)不同的統(tǒng)一性特征,且在區(qū)域交界處會顯示明顯不規(guī)則噪聲。SRM 已經被證明在高頻信息提取上效果顯著,通過對目標像素和相鄰像素計算殘差并對濾波器的輸出進行量化和截斷,提取共現(xiàn)信息作為最終的特征。將濾波后生成的擁有高頻信息的圖像輸入高頻信息流中,使網絡能夠學習到篡改區(qū)域與原始區(qū)域不一致的高頻噪聲信息。本文使用3 個高頻濾波核,SRM 層輸入和輸出通道為3,卷積核大小為5×5×3,能夠在適當?shù)挠嬎阆南氯〉昧己玫男Ч?,高頻濾波核的具體參數(shù)如圖4 所示。通過SRM 濾波后圖像更強調高頻噪聲信息而不是低頻語義信息,特征提取網絡可以學習到篡改區(qū)域與原始區(qū)域不一致的高頻信息特征,用于進一步提高分類準確率。
圖4 高頻濾波核的具體參數(shù)
傳統(tǒng)C3D 網絡[36]使用三維池化層進行跨通道池化,容易導致對分類重要的特征信息被模糊,降低網絡檢測準確率。本文提出的改進C3D 網絡使用卷積核大小為1×1 的卷積層替代池化層進行跨通道融合特征和降低維度,并在此基礎上提出如圖5 所示的雙流網絡。首先,輸入連續(xù)5 幀原始視頻幀單元,通過SRM 濾波層生成高頻噪聲圖像。然后,將2 種類型的圖像分別輸入相應的C3D 網絡中,分別提取128 維特征向量。最后,通過CBP 層將2 個128 維特征向量融合為4 096 維特征向量,并將其輸入二分類器中用于預測輸入數(shù)據(jù)單元的中間幀是否為篡改幀。由于篡改檢測問題可以被視為二分類問題,因此模型損失函數(shù)使用交叉熵損失。設預測結果為正樣本的概率為p,則負樣本概率為1-p,損失函數(shù)如式(4)所示。
圖5 雙流網絡模型結構
其中,yi為數(shù)據(jù)單元i的標簽,正樣本為1,負樣本為0;pi為數(shù)據(jù)單元i被預測為正樣本的概率。
使用卷積核大小為1×1 的卷積層的C3D 網絡如圖6 所示。C3D 組按照C3D、P3D 和C3D(1×1)順序組合,C2D組按照C2D和P2D順序組合。MP3D表示最大池化(3D max pooling)層,C3D 表示三維卷積層,P3D 表示三維池化(3D pooling)層,C3D(1×1)表示卷積核大小為1×1 的三維卷積層,C2D 表示二維卷積層,P2D 表示二維池化(2D pooling)層,GAP 表示全局平均池化(global average pooling)層,Reshape 表示變換層,用于去除冗余維度。在每個卷積層之后均進行批處理歸一化運算和激活操作。
圖6 使用卷積核大小為1×1 的卷積層的C3D 網絡
MP3D 用于縮小輸入幀的大小,將720 像素×720 像素減小為240 像素×240 像素,減少計算量的同時便于設計網絡。前3 個C3D 層卷積核大小為3×3×3。在每個C3D 層之后,執(zhí)行P3D,其步幅為1×2×2。P3D 層之后是卷積核大小為1×1 的C3D 層。在第一次變換層后,輸入維度從三維減少到二維。接著,使用兩組卷積核大小為1×1 的C2D 和步幅為2×2 的P2D 將輸入向量維度降為1。在經過GAP層和最后一個變換層之后得到一個128 維的特征向量。特征提取結束后輸入二分類器,用于預測中間幀是否為篡改幀。低頻信息流和高頻信息流各輸出128 維特征向量,經過CBP 特征融合得到4 096 維特征向量。最后,經過兩層全連接層將特征向量維度降為2 后使用Softmax 回歸模型對向量進行歸一化分類輸出預測值。
本文使用SYSU-OBJFORG 數(shù)據(jù)集,這是目前最大的目標移除篡改視頻數(shù)據(jù)集,有100 對原始和篡改視頻。視頻拍攝場景為教學樓走廊,篡改目標包括各種運動狀態(tài)的物體,且篡改區(qū)域大小不同。視頻平均長度為10 s,視頻幀率為25 f/s,碼率為3 Mbit/s 并且所有視頻都以H.264/MPEG-4 格式進行壓縮。
數(shù)據(jù)量對于網絡參數(shù)訓練具有重要影響。用于訓練的樣本數(shù)據(jù)量越大,網絡學習共有特征信息的能力越強,能夠更好地擬合非線性函數(shù)提高分類準確率。SYSU-OBJFORG 數(shù)據(jù)集每段視頻平均篡改幀數(shù)為100,原始幀和篡改幀的樣本數(shù)量較少且不對等,會導致網絡欠擬合、分類準確率低,不能直接用于網絡訓練學習。因此,本文提出一種非對稱采樣方法,對原始視頻進行欠采樣,而對篡改視頻進行過采樣。通過這種方法為網絡訓練生成足夠的數(shù)據(jù)樣本。
原始幀與篡改幀的采樣方法如圖7 所示。數(shù)據(jù)集視頻的分辨率為1 280 像素×720 像素。為了方便網絡的設計和數(shù)據(jù)的處理,將視頻幀裁剪為720 像素×720 像素作為網絡輸入。對于原始視頻幀,設置裁剪步長為20 像素,每5 幀(目標幀及前后各兩幀)對齊裁剪,并將剪裁結果保存為一組數(shù)據(jù)單元,其標簽設置為中間目標幀的標簽。對于篡改幀,設置裁剪步長為10 像素,裁剪的區(qū)域范圍設置為[Left,Right ],并使用與原始視頻幀相同的裁剪方法。
圖7 原始幀與篡改幀的采樣方法
其中,LB 是篡改區(qū)域的左側邊界,RB 是篡改區(qū)域的右側邊界,core 是篡改區(qū)域中心坐標。
上述方法生成的訓練樣本只需包含篡改區(qū)域的任意部分,即可用于網絡訓練,增強樣本的多樣性,降低視頻內容的運動狀態(tài)、篡改區(qū)域大小等對網絡檢測準確率的影響,弱化網絡對特定樣本的依賴性,增加算法的穩(wěn)健性。驗證集和測試集的裁剪方式與訓練集相同。此外,在網絡訓練階段進行數(shù)據(jù)增強。由于視頻與圖像不同,具有方向性和時序性,數(shù)據(jù)單元組在輸入網絡前只進行隨機水平翻轉和垂直翻轉。驗證階段不進行數(shù)據(jù)增強。
本文提出的雙流網絡是基于Pytorch 框架實現(xiàn)的,運行在Windows 10 系統(tǒng)上,使用NVIDIA GeForce GTX1050ti 4 GB GPU,選擇Adam 作為優(yōu)化器。RGB 流和SRM 流分別訓練10 個epoch,網絡的學習速率設置為0.001,每4 個epoch 減少0.1。然后利用訓練好的模型參數(shù)訓練整體網絡,整體雙流網絡訓練8 個epoch,網絡的學習率設置為0.000 1,每3 個epoch 減少0.1。網絡模型參數(shù)總和為64 180,訓練總時長為80 h。
網絡訓練階段的批大小設置為16,即輸入大小為16×5×(720×720)×3,其中16 代表批大小,5 為連續(xù)幀數(shù)量,3 為通道數(shù)。驗證階段批大小設置為8。數(shù)據(jù)集隨機分為3 個部分,訓練集有70 對視頻,驗證集和測試集分別有15 對視頻。訓練階段從訓練集中選取20 000 個原始幀數(shù)據(jù)單元和20 000 個篡改幀數(shù)據(jù)單元作為訓練數(shù)據(jù),從驗證集中選取10 000 個原始幀數(shù)據(jù)單元和10 000 個篡改幀數(shù)據(jù)單元作為驗證數(shù)據(jù)。當驗證階段的損失函數(shù)趨于收斂時,選擇精度最高的訓練模型進行測試。在測試階段,從測試集中選擇10 000 個原始幀數(shù)據(jù)單元和10 000 個篡改幀數(shù)據(jù)單元作為測試數(shù)據(jù)。所有的數(shù)據(jù)單元均從相應數(shù)據(jù)集中隨機選取,數(shù)據(jù)集劃分的細節(jié)和訓練集遍歷次數(shù)如表1 所示。
表1 視頻數(shù)據(jù)集的劃分細節(jié)和訓練集遍歷次數(shù)
測試階段的批大小為8,即輸入的數(shù)據(jù)組大小為8×5×(720×720)×3。對于每一組數(shù)據(jù)單元,網絡的輸出是中間目標幀的分類結果。在篡改視頻的時域定位測試中,本文使用Chen 等[1]定義的6 個評價指標。
其中,PFACC(pristine frame accuracy)是原始幀分類正確率,F(xiàn)FACC(forged frame accuracy)是篡改幀分類正確率,F(xiàn)ACC(frame accuracy)是所有幀分類正確率,Precision、Recall 和F1值可以通過計算得出。TP(true positive)是篡改幀正確分類數(shù)量,F(xiàn)P(false positive)是原始幀錯誤分類數(shù)量,F(xiàn)N(false negative)篡改幀錯誤分類數(shù)量。
本文使用卷積核大小為1×1 的三維卷積層代替三維池化層進行降維操作,1×1 卷積操作是將不同通道上同一位置的特征線性組合,在跨通道信息交互的同時,進一步融合位置信息和時間信息。在實現(xiàn)降維的同時避免了池化層可能將利于分類的重要特征掩蓋的情況。為了證明卷積核大小為1×1 的三維卷積層在特征融合和降維操作上的優(yōu)勢,本文設計了對比試驗。實驗選擇STN 中提出的單支C3D網絡[29]與本文提出的改進C3D 網絡進行比較。網絡在相同數(shù)據(jù)集中進行訓練和測試,共訓練5 個epoch,網絡學習速率設置為0.001,每3 個epoch下降0.1。實驗結果如圖8 所示,使用1×1 卷積核的C3D 網絡比不使用1×1 卷積核的C3D 網絡在低頻信息流中FACC 提升2.34%,在高頻信息流中FACC 提升1.31%。2 種模型高頻信息流和低頻信息流訓練速度均為6.17 組/秒和9.09 組/秒。實驗結果證明使用卷積核大小為1×1 的三位卷積層代替池化層進行特征融合和降維操作在相同計算消耗的情況下可以進一步提高網絡分類預測精度。
圖8 單支C3D 網絡和改進C3D 網絡檢測結果比較
CBP 融合后的特征向量的維度數(shù)量會對分類結果產生影響,數(shù)量過多會增加計算消耗或出現(xiàn)不利于預測分類的冗余特征。本文分別選擇512 維、2 048 維、4 096 維、8 192 維、16 384 維融合向量進行實驗。該實驗對未使用預訓練參數(shù)的整體雙流網絡進行訓練,網絡訓練7 個epoch,學習速率設置為0.001,每4 個epoch 下降0.1,實驗結果如圖9 所示。隨著融合向量的維度增加,網絡的分類準確率得到提升。在維度較小的時候,分類準確率隨著維度數(shù)量增加提高明顯,當維度增加至4 096 維之后準確率出現(xiàn)小幅度下降并保持穩(wěn)定。融合特征的維度數(shù)量同樣影響網絡的訓練收斂速度,512 維向量在6 個epoch 后開始收斂,當特征維度的數(shù)量增加至8 192 維后,網絡在一個epoch 后達到較高準確率并開始收斂。實驗結果表明增加融合后用于分類的特征向量的維度數(shù)量可以增加分類的準確率,但是當維度到達一定數(shù)量后分類準確率不再增加并保持穩(wěn)定。增加特征向量的維度會增加計算消耗,但可以加快網絡收斂的速度,能夠使網絡在較短的時間內達到較高的分類準確率。在衡量計算消耗和分類準確率后,本文提出的網絡選擇通過CBP 層將2 個128 維向量合成為4 096 維向量后用于分類。
圖9 融合后向量的維度對分類結果的影響
上述實驗證明,使用卷積核大小為1×1 的卷積層和選取4 096 維作為融合后特征的維度數(shù)量能夠提升網絡對視頻幀的分類準確率。在此基礎上構建整體雙流網絡并設置視頻幀時域分類準確率實驗,實驗結果如表2 所示。與多種深度學習方法進行比較,本文所提方法具有更好的性能,所有評價指標均達到最高,全部幀的分類準確率達到99.52%。實驗結果與文獻[29]相比,PFACC 提高0.36%,F(xiàn)FACC提高0.43%,Precision 提高1.72%,F(xiàn)1 值提高1.07%,特別是在FFACC、Recall 和F1 值中提升明顯,這表明本文方法不僅對篡改幀分類有很高的準確率,并且對原始幀分類也有很高的準確率。
表2 不同方法檢測結果比較
本文提出了一種基于三維雙流網絡的視頻目標移除篡改取證方法。將連續(xù)的5 幀原始視頻幀作為網絡的輸入來預測中間幀的分類標簽。使用低頻信息流和高頻信息流分別從輸入中提取低頻和高頻信息,可以解決混合幀樣本輸入的問題。使用卷積核大小為1×1 的改進C3D 網絡作為提取器可以從連續(xù)視頻幀中更充分地提取時間信息。此外,使用CBP 融合特征向量可以融合低頻、高頻和時間信息,使分類更準確。本文提出的網絡是一個輕量級、具有較少參數(shù)的網絡,在硬件設備不足的情況下,可以使用較少的數(shù)據(jù)量和訓練時間,達到較好的分類準確率和穩(wěn)健性。然而,本文方法依賴不同的SRM 濾波參數(shù)以適應不同類型的視頻,缺乏穩(wěn)健性并且無法實現(xiàn)空域定位。尋找一個通用的篡改特征和實現(xiàn)篡改視頻幀空域定位是今后的主要工作。