杜 玲,陳 振
天津工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300387
感知哈希技術(shù)起源于數(shù)字水印技術(shù),借鑒了傳統(tǒng)密碼學(xué)哈希和多媒體認(rèn)證等相關(guān)領(lǐng)域的概念和理論,通過對多媒體感知信息的簡短摘要和基于摘要的匹配,來支持媒體感知內(nèi)容認(rèn)證。圖像感知哈希技術(shù)是感知哈希最重要的分支之一。基于感知哈希圖像認(rèn)證為圖像內(nèi)容認(rèn)證提供了安全可靠的技術(shù)支撐,認(rèn)證模型如圖1所示。在信息的發(fā)送端,哈希生成后可以通過伴隨或嵌入圖像數(shù)據(jù)方式傳輸,也可單獨傳輸。在接收端,接收圖像的感知哈希通過同樣的方法提取,并同接收的哈希進(jìn)行比較來完成認(rèn)證過程?,F(xiàn)有大多數(shù)文獻(xiàn)將感知哈希分成兩個階段:特征提取和量化壓縮。特征提取需要保證從圖像中提取出來的特征應(yīng)滿足在圖像經(jīng)過非惡意信號處理操作(不改變圖像感知內(nèi)容的操作)之后,仍然能夠提取出來這些特征,并且這些特征對圖像篡改操作敏感。而量化壓縮階段是為了保證感知哈希算法的摘要性,通常會把特征提取階段所提取的特征進(jìn)行壓縮編碼成二進(jìn)制向量以作為哈希值。
因此,圖像感知哈希是提取圖像I的感知特征,并將其映射成長度更短的比特序列h為感知摘要的一種技術(shù)。提取的感知特征,應(yīng)具有魯棒性和區(qū)分性,即能夠?qū)Ρ3謭D像內(nèi)容的操作魯棒,同時也能夠?qū)Ω淖儓D像感知內(nèi)容的惡意操作敏感。依據(jù)某種方法提取的感知特征,最終的感知摘要都反映了整體圖像的感知內(nèi)容,即描述圖像的總體感知特征,而當(dāng)圖像中存在人為的局部惡意篡改時,如增加物體、移除物體、改變顏色、改變背景等,這些篡改操作將會影響到圖像的感知內(nèi)容,相對于原始圖像的感知哈希h1,篡改圖像的感知哈希h2在某些比特位將會由于圖像感知內(nèi)容的變化而發(fā)生變化。因此,通過度量h1、h2兩者之間的感知距離,如漢明距離、歐式距離等,則可進(jìn)行篡改檢測。其次,在基于圖像感知哈希篡改區(qū)域定位問題上,一般采用圖像分塊設(shè)計方法。感知哈希能夠?qū)D像感知內(nèi)容映射成簡短的哈希摘要,通過對圖像進(jìn)行分塊,并提取圖像塊的感知特征進(jìn)行組合,形成最終的感知哈希。在篡改定位時,通過度量對應(yīng)圖像塊之間的感知距離,用于判定該圖像塊是否屬于篡改區(qū)域。因此,感知哈希不僅可以描述圖像的總體特征,而且在圖像局部區(qū)域提取感知哈希時,也能夠反映圖像的局部特征,從而實現(xiàn)篡改區(qū)域定位。
Fig.1 Image authentication model based on perceptual Hashing圖1 感知哈希認(rèn)證應(yīng)用模型
目前,針對基于感知哈希的圖像認(rèn)證,大多數(shù)哈希算法致力于基于魯棒的特征提取產(chǎn)生圖像哈希。主要包括:(1)基于不變特征變換的方法,如傅里葉-梅林變換(Fourier-Mellin transform,F(xiàn)MT)[1],離散余弦變換(discrete cosine transform,DCT)[2]等變換域方案。(2)基于局部特征點的方案,如基于end-stopped小波[3]和基于SIFT(scale-invariant feature transform,SIFT)[4],主要利用局部特征在幾何變換等圖像處理攻擊下的不變性產(chǎn)生哈希值。(3)基于降維的方案,如奇異值分解(singular value decomposition,SVD)[5]、非負(fù)矩陣分解(non-negativematrixfactorization,NMF)[6]和快速約翰遜-林登斯特拉斯變換(fast Johnson-Lindenstrauss transform,F(xiàn)JLT)[7]。事實上,在獲得魯棒的感知特征后,研究者們提出了很多哈希編碼方案完成特征空間到漢明空間的映射。1999年,Indyk等人[8]首次提出局部敏感哈希(locality sensitive Hashing,LSH),它是應(yīng)用最普遍的哈希方法之一,利用簡單的隨機線性映射將歐式空間中的高維數(shù)據(jù)映射為漢明空間中的低維數(shù)據(jù)。隨后研究者們將LSH擴展到核空間,比較典型的方法是核化局部敏感哈希(kernelized locality-sensitive Hashing,KLSH)及平移不變核化哈希(shift-invariant kernel Hashing,SIKH)。但是,這些方法不能充分挖掘數(shù)據(jù)的內(nèi)部信息,因此許多專家學(xué)者利用機器學(xué)習(xí)來產(chǎn)生更為有效的哈希編碼。
基于機器學(xué)習(xí)的哈希算法是將數(shù)據(jù)的屬性信息映射到目標(biāo)函數(shù)的建立中,通過對目標(biāo)函數(shù)的求解來得到哈希函數(shù)及哈希編碼。Lin等人[9]提出主成分分析哈希(principal components analysis Hashing,PCAH),將每一個樣本映射到訓(xùn)練數(shù)據(jù)的主成分方向上,然后對每個方向上的系數(shù)進(jìn)行二值化。Salakhutdinov等人[10]應(yīng)用受限的玻爾茲曼機(restricted Boltzman machine,RBM)產(chǎn)生緊湊的二值哈希編碼。Weiss等人[11]提出的譜哈希(spectral Hashing,SH)是另一種比較典型的哈希算法,它是在譜聚類的基礎(chǔ)上進(jìn)行的擴展,能夠保持?jǐn)?shù)據(jù)間的相似性,通過對哈希編碼加以平衡及不相關(guān)約束,得到緊湊的二值編碼。Liu等人[12]提出基于圖的哈希算法,自動挖掘數(shù)據(jù)間內(nèi)在的近鄰結(jié)構(gòu)來學(xué)習(xí)適當(dāng)?shù)木o湊的哈希碼。Wang等人[13]提出半監(jiān)督的哈希算法,將數(shù)據(jù)間的關(guān)系整合到語義哈希的問題中,建立目標(biāo)函數(shù)求得哈希碼。Zhang等人[14]提出基于多源信息的復(fù)合哈希,整合不同信息產(chǎn)生有效的哈希碼等?;跈C器學(xué)習(xí)的哈希算法由于其可充分挖掘數(shù)據(jù)內(nèi)容的信息取得了不錯的效果,但依然有兩個問題沒有解決。首先,大部分方法采用單一特征描述圖像內(nèi)容,缺乏廣泛的魯棒性。其次,哈希算法的魯棒性主要源于魯棒特征的提取,而忽略了量化器訓(xùn)練對哈希編碼的影響。
針對上述問題,研究者們提出了基于多視角的語義-量化器同時關(guān)聯(lián)學(xué)習(xí)的感知哈希編碼算法。然而,目前算法多數(shù)面向多模態(tài)大規(guī)模的圖像檢索應(yīng)用而開展。對現(xiàn)有算法的評價主要集中在語義的魯棒性、區(qū)分性兩項,這些測試基礎(chǔ)是傳統(tǒng)模式識別的類內(nèi)-類間分布理論,并不適用于認(rèn)證應(yīng)用領(lǐng)域。對于面向認(rèn)證的圖像感知哈希來說,與基于內(nèi)容的圖像檢索不同,感知魯棒性和安全性是其兩個非常重要的屬性。一方面,感知哈希編碼對非惡意信號處理攻擊,如內(nèi)容保持的JPEG壓縮、亮度變化等應(yīng)具有較好的魯棒性。而對于如對象的插入、刪除等惡意篡改應(yīng)具有較好的脆弱性(即區(qū)分能力)。另一方面,為保證安全性,感知哈希編碼應(yīng)是密鑰相關(guān)的。當(dāng)密鑰相同時,感知相同或相似的兩幅圖像要以較高的概率產(chǎn)生相同或相近的哈希值,而當(dāng)密鑰不同時即便兩幅圖像感知相同也要產(chǎn)生不同的哈希值。此外,對感知哈希應(yīng)用需求的誤區(qū)在于,一個適用于識別檢索應(yīng)用的哈希算法,可以區(qū)分與原始媒體內(nèi)容完全不同的偽造版本,但不一定能夠區(qū)分在原有媒體基礎(chǔ)上精心修改而得到的篡改版本,更不能保證惡意攻擊者避免從分析系統(tǒng)得到所使用的密鑰。認(rèn)證應(yīng)用中的新需求需要新的模型和算法支持,才能保證感知哈希技術(shù)的可用性和安全性。
近年來,基于感知哈希的圖像篡改檢測方向發(fā)展迅速,新算法層出不窮,算法性能不斷被刷新。本文重點關(guān)注基于感知哈希圖像篡改檢測的相關(guān)研究,并希望通過對相關(guān)研究現(xiàn)狀的梳理和提煉,為國內(nèi)外同行提供一個可靠、完整的參考。首先,在有關(guān)基于感知哈希圖像篡改檢測的研究綜述中,牛夏牧等人[15]在人類感知模型的基礎(chǔ)上,明確了圖像感知哈希的定義、性質(zhì)以及其一般性描述;甘艷芬等人[16]對圖像內(nèi)容的篡改方式以及對一些篡改技術(shù)進(jìn)行了研究,并進(jìn)行分類;林祥等人[17]則根據(jù)篡改圖像遺留痕跡對現(xiàn)有的圖像被動取證技術(shù)進(jìn)行分類研究。然而,在相關(guān)綜述研究中,卻鮮有見到對基于感知哈希的圖像篡改檢測技術(shù)的相關(guān)綜述研究,為此本文根據(jù)現(xiàn)有基于感知哈希的圖像篡改檢測技術(shù)做出總結(jié),并進(jìn)一步細(xì)致分類。其次,為能夠更好地對基于感知哈希的圖像篡改檢測這一研究方向的框架做出補充,詳細(xì)介紹了相關(guān)數(shù)據(jù)集與評測基準(zhǔn)。最后,通過實驗結(jié)果對現(xiàn)有經(jīng)典算法做出分析和比較。
根據(jù)是否需要進(jìn)行訓(xùn)練學(xué)習(xí),本文將基于感知哈希的圖像篡改檢測方法分為基于底層線索和基于學(xué)習(xí)提取感知哈希的兩類方法。其中,基于底層線索提取的感知哈希篡改檢測方法可以進(jìn)一步劃分為基于不變特征變換的方法、基于局部特征點的方法、基于特征降維的方法、基于統(tǒng)計特征的方法和其他方法五類?;趯W(xué)習(xí)的方法可以分為傳統(tǒng)學(xué)習(xí)方法和深度學(xué)習(xí)方法兩類,具體分類方案如圖2所示。本文第2章對基于底層線索的方法進(jìn)行介紹。第3章討論基于學(xué)習(xí)的方法。第4章介紹圖像篡改檢測常用的數(shù)據(jù)集、評價指標(biāo)以及四種算法的對比實驗。最后對基于感知哈希的圖像篡改檢測的關(guān)鍵問題進(jìn)行總結(jié),并對未來可能的研究方向進(jìn)行展望。
Fig.2 Classification chart of image tamper detection algorithms based on perceptual Hashing圖2 圖像感知哈希篡改檢測方法分類圖
從開始研究至今,基于底層線索提取的方法一直是圖像感知哈希生成的主流方法。該類方法根據(jù)圖像的底層線索,借助人眼視覺系統(tǒng)的特點,提取圖像中某些穩(wěn)定的重要特征進(jìn)行編碼,形成比較簡短的感知摘要?;诘讓泳€索的方法不需要進(jìn)行學(xué)習(xí)訓(xùn)練,直接對圖像進(jìn)行處理,操作簡單,在圖像篡改檢測中是一種常用的方法。根據(jù)算法提取底層特征方法的不同,將現(xiàn)有的方法大致分成五類,分別為基于不變特征變換的方法、基于局部特征點的方法、基于特征降維的方法、基于統(tǒng)計特征的方法和其他方法。下面將對這五類方法進(jìn)行具體介紹。
基于不變特征變換的方法是利用數(shù)學(xué)上的變換分析在變換域中提取圖像魯棒特征,構(gòu)造圖像哈希用于圖像的篡改檢測。常用的數(shù)學(xué)變換有傅里葉變換、離散余弦變換以及小波變換。在具體介紹提取圖像哈希的方法之前,先簡單介紹一下常用的數(shù)學(xué)變換。
小波變換(wavelet transform,WT)將圖像從時空域轉(zhuǎn)換到頻率域,具有較好的多分辨率特性,可以對圖像進(jìn)行不同尺度的分解,得到不同尺度下的小波分解系數(shù)。
傅里葉變換(Fourier transform,F(xiàn)T)是一種重要的數(shù)學(xué)分析方法和常用的數(shù)字信號處理工具,在多媒體信息處理中,可以將數(shù)字圖像看作是離散的二維信號,因此可以使用離散傅里葉變換來對圖像進(jìn)行處理,有:
其中,f(x,y)表示圖像在(x,y)處的像素值,M、N表示圖像的尺寸。
在傅里葉變換的基礎(chǔ)上,延伸出傅里葉梅林變換,首先在傅里葉變換域中用極坐標(biāo)的形式來表示像素,進(jìn)而可以將圖像的旋轉(zhuǎn)和縮放操作轉(zhuǎn)換成平移關(guān)系,再利用傅里葉變換的相位相關(guān)技術(shù)就可以獲得旋轉(zhuǎn)和縮放量,從而實現(xiàn)圖像的配準(zhǔn)。Ell等人[18]給出了四元數(shù)傅里葉變換(quaternion Fourier transform,QFT)的定義,將圖像的每一個像素值利用圖像的四個特征信息組成一個四元數(shù)來代替,使用四元數(shù)傅里葉變換提取圖像特征。
離散余弦變換是一種與傅里葉變換相關(guān)的數(shù)學(xué)變換,有:
Swaminathan等人[1]提出了一種基于傅里葉梅林變換的圖像哈希方法。該方法利用圖像像素值在空域與傅里葉變換域中值之間的關(guān)系,在極坐標(biāo)下進(jìn)行表示,可以將圖像的旋轉(zhuǎn)和縮放操作轉(zhuǎn)換為平移關(guān)系,根據(jù)傅里葉變換的相位相關(guān)技術(shù),可以由圖像的平移量得到旋轉(zhuǎn)量與縮放量。因此該方法對圖像的旋轉(zhuǎn)、縮放、平移等幾何處理具有良好的魯棒性。在算法特征提取的過程中,利用隨機密匙K輔助生成圖像哈希,增強算法的安全性。
Huang等人[2]提出基于圖像紋理與DCT變換的感知哈希算法。感知哈希由兩種特征組成,分別是由圖像紋理信息構(gòu)成的全局特征以及DCT系數(shù)構(gòu)成的局部特征。首先,提取圖像的紋理特征[19]并計算其統(tǒng)計信息,分別是對比度、相關(guān)性、能量以及同質(zhì)性,得到全局特征。其次,采用圖像分塊設(shè)計方法,對圖像分塊執(zhí)行DCT變換,提取DCT系數(shù)組成局部特征。最后,綜合圖像的全局特征與局部特征構(gòu)造圖像的感知哈希,該算法具有良好的魯棒性與區(qū)分性,同時圖像紋理信息的引入有利于提高算法的魯棒性。
Venkatesan等人[20]利用圖像小波變換系數(shù)的統(tǒng)計特性作為圖像特征。首先將圖像隨機分塊,再使用Haar小波函數(shù)用于圖像三級小波分解,并計算粗子帶系數(shù)的平均值及其他子帶系數(shù)的方差,得到一個統(tǒng)計特征向量。之后利用隨機的閾值對統(tǒng)計特征向量進(jìn)行量化,得到最終的圖像哈希。該算法對一定程度的旋轉(zhuǎn)、尺度縮放、JPEG壓縮以及中值濾波等操作具有魯棒性。
Qin等人[21]提出了一種基于離散傅里葉變換圖像篡改檢測的方法。首先,提取圖像在YCbCr顏色空間中的Y分量,同時為削弱圖像噪聲對最終感知哈希的影響,利用全變分(total variance,TV)圖像去噪方法對Y分量去噪,得到I。在特征提取階段,將I在不同的角度下進(jìn)行投影,得到一個同維度的次要圖像,如圖3所示,旋轉(zhuǎn)投影的目的是為了將圖像中可能存在旋轉(zhuǎn)操作轉(zhuǎn)換為平移操作。其次,在次要圖像上應(yīng)用離散傅里葉變換得到系數(shù)矩陣,進(jìn)而獲得傅里葉系數(shù)的幅度矩陣,該幅度矩陣對于圖像平移操作矩陣具有不變性。為構(gòu)造圖像感知哈希,利用非均勻采樣方法提取幅度矩陣中的低頻信息作為哈希。算法不足的是,如圖3所示,由于次要圖像是根據(jù)旋轉(zhuǎn)投影得到的,而當(dāng)圖像篡改區(qū)域位于圖像的四個角落的時候,檢測的正確率將會出現(xiàn)大幅下降。
Fig.3 Illustration of secondary image圖3 次要圖像
Yan等人[22]提出了一種基于四元數(shù)傅里葉變換[18]提取圖像感知哈希的方法。該方法將圖像篡改檢測分成兩個階段,分別是圖像對齊處理階段與篡改檢測階段。首先,在圖像對齊處理階段,Yan等人[22]計算傅里葉梅林矩(quaternion Fourier-Mellin moments,QFMMs)[23]提取圖像的幾何哈希,用于計算幾何攻擊的參數(shù)值,消除圖像在幾何攻擊下影響。圖像幾何對齊處理后,在圖像篡改檢測階段,構(gòu)造一個四元數(shù)圖像,之后進(jìn)行四元數(shù)傅里葉變換提取圖像的特征哈希,用于篡改檢測。具體地,首先構(gòu)造一個四元數(shù)圖像,四元數(shù)圖像指圖像中的所有元素都是四元數(shù),其中,每一個四元數(shù)由原圖像在該像素點的強度、顏色和邊緣強度特征組成。得到四元數(shù)圖像后,利用四元數(shù)傅里葉變換得到系數(shù)矩陣,并提取系數(shù)矩陣中的低頻信息用于表示圖像的全局特征,進(jìn)而構(gòu)造圖像哈希特征,通過計算測試圖像與原始圖像哈希的歐式距離用于圖像篡改檢測。該算法有較好的檢測性能,對多種圖像內(nèi)容保持操作類型的信號處理具有魯棒性和對多種類型的惡意的篡改攻擊具有敏感性。而且最終的哈希長度較短,滿足圖像感知哈希的摘要性。
Singh等人[24]提出了一種基于離散小波變換的圖像感知哈希算法。該算法通過計算幾何矩和中心矩對圖像進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,該操作能夠保留原始圖像中的相關(guān)特征信息。為提取圖像感知特征,對標(biāo)準(zhǔn)化圖像執(zhí)行離散小波變換,并利用奇異值分解得到圖像感知特征矩陣,對特征矩陣再次使用奇異值分解,從而生成感知哈希。該算法能夠?qū)ΤR姷谋3謭D像內(nèi)容操作具有魯棒性,如幾何處理中的縮放、旋轉(zhuǎn)、剪切等以及濾波、噪聲、JPEG壓縮等圖像處理操作。
基于圖像不變特征變換是一種常用的提取圖像感知哈希用于篡改檢測的手段,其他的研究工作中,如丁旭等人[25]提出了一種基于DCT變換并借助SURF(speeded up robust features)算法構(gòu)造圖像感知哈希的算法。
基于圖像局部特征點的方法是認(rèn)為從圖像中提取的特征點是圖像中的不變量,因此可以將特征點作為圖像特征用于圖像的篡改檢測。常用提取特征點的算法有end-stopped小波特征點檢測器、Harris角點檢測器和SIFT算法。由Lowe提出的SIFT算法對于圖像的幾何變換操作具有良好的魯棒性,因此許多算法都是在此基礎(chǔ)之上進(jìn)一步改進(jìn),在此基礎(chǔ)上改進(jìn)的算法能夠?qū)Χ喾N類型的保持圖像內(nèi)容的操作具有魯棒性。
Monga等人[3]提出了一種基于end-stopped小波特征點檢測器提取圖像感知哈希的算法。首先,將FDoG操作符應(yīng)用到Morlet小波上得到end-stopped小波,并對圖像執(zhí)行三級小波變換;其次,通過在一個圓形鄰域內(nèi)查找小波系數(shù)幅度的局部最大值來進(jìn)一步確定重要的特征點,并使用一個閾值過濾掉虛假的局部最大值,計算特征點小波系數(shù)的大小構(gòu)成圖像的特征向量;最后,使用概率量化的方法將提取的特征向量二值化,得到最終的圖像哈希。算法利用豪斯多夫距離計算兩張圖片的相似度,用于圖像的篡改檢測。同時,Monga等人[3]在該文章中提出了一種圖像取證的框架,分成兩個階段。第一個階段是特征提取階段,將給定二維圖片映射成一維的特征向量,提取的特征向量能夠獲取到圖像的感知品質(zhì)。圖像的感知品質(zhì)能夠符合人眼視覺系統(tǒng)的特點,即提取的特征向量利用某種距離度量方法后,則距離比較相近;而人眼感知內(nèi)容相差較大的圖像,其特征向量經(jīng)過距離度量后相差也比較大。第二個階段是感知哈希的安全性,將提取的特征向量進(jìn)行壓縮量化,并進(jìn)行加密,形成最終的哈希值。
Lv和Wang[4]提出了一種基于SIFT算法和圖像形狀上下文的感知哈希算法。SIFT算法提取圖像特征點能夠?qū)缀翁幚砭哂胁蛔冃裕钱?dāng)圖像經(jīng)過噪聲或者濾波的處理后,將會對特征點的提取的準(zhǔn)確性造成一定的影響。例如,由于噪聲的存在,將會使SIFT算法檢測的特征點的假正類個數(shù)增加,而如果將圖像經(jīng)過濾波處理,真實存在的特征點將不會被完整地提取到。因此,在使用SIFT算法提取特征點時,借助Harris標(biāo)準(zhǔn)獲取更加穩(wěn)定的局部特征點,使其更具魯棒性。Lv和Wang[4]提出的算法中,首先利用SIFT和Harris標(biāo)準(zhǔn)提取到更加魯棒的特征點,之后計算這些特征點的形狀上下文信息來構(gòu)造圖像哈希。考慮到圖像可能會受到幾何攻擊以及每一次提取的特征點不一定完全相同這兩種原因的影響,該算法借助位于圖像中心區(qū)域的特征點構(gòu)造圖像哈希,提出了兩種圖像哈希,徑向上下文哈希和角度上下文哈希(radial shape context Hashing and angular shape context Hashing)。該算法對旋轉(zhuǎn)、縮放、幾何攻擊以及噪聲、濾波、JPEG壓縮、伽馬校正具有一定的魯棒性。
Yan等人[26]提出了一種基于改進(jìn)的SIFT算法的圖像哈希篡改檢測算法。該算法提取哈希特征包括兩個階段,分別是圖像局部特征提取階段和圖像多尺度哈希特征構(gòu)造階段。首先,在提取圖像局部特征階段,Yan等人[26]提出一種改進(jìn)的SIFT算法用于提取圖像中更穩(wěn)定的特征點,并利用平穩(wěn)小波變換(stationary wavelet transform,SWT)對特征點提取圖像的局部特征,與傳統(tǒng)的SIFT算法相比,改進(jìn)的SIFT算法提取的局部特征點除了具有幾何不變性的特點外,而且能夠?qū)υ肼暋PEG壓縮和濾波等操作具有魯棒性。其次,多尺度哈希特征提取構(gòu)造階段,分別將圖像按照環(huán)狀和角度以不同的參數(shù)進(jìn)行分解,如圖4和圖5所示。Yan等人[26]提出了兩個哈希算法RLCH(round location-context Hashing)和ALCH(angual locationcontext Hashing)。提出的哈希方法能夠利用特征點的幾何分布和內(nèi)容信息以及特征點的局部特征構(gòu)造成一個緊湊的圖像哈希,用于圖像的篡改檢測。之后,Pun等人[27]在Yan等人[26]的基礎(chǔ)上進(jìn)行了修改。首先,Pun等人[27]利用Yan等人[26]改進(jìn)的SIFT算法提取圖像中穩(wěn)定的特征點,并結(jié)合特征點的結(jié)構(gòu)和顏色信息構(gòu)造圖像的局部特征。其次,提出了HLCH(horizontal location-context Hashing)和VLCH(vertical location-context Hashing)兩種哈希算法,將圖像的幾何分布和圖像內(nèi)容進(jìn)行編碼,構(gòu)造圖像的感知哈希,用于篡改檢測。與Yan等人[26]提出的算法相比,Pun等人[27]在構(gòu)造圖像哈希的過程中考慮了圖像的顏色特征,因此,對于圖像中顏色的改變更加敏感。
Fig.4 Round location-context Hashing圖4 環(huán)形位置-上下文哈希
Fig.5 Angual location-context Hashing圖5 角度位置-上下文哈希
Wang等人[28]提出了一種基于Harris角點檢測器提取圖像特征點用于圖像篡改檢測定位的哈希算法。首先,為減小噪聲對特征點提取的影響,對圖像進(jìn)行離散小波變換,提取低頻子帶系數(shù),并重構(gòu)圖像,從而減弱噪聲的影響。其次,得到重構(gòu)的圖像后,利用Zhang等人[29]提出的自適應(yīng)的Harris角點檢測算法提取圖像特征點,提取的特征點的分布比較均勻。之后,Wang等人[28]通過計算特征點周圍鄰域內(nèi)像素的統(tǒng)計信息,生成圖像哈希。最后,該算法為提高對保持內(nèi)容操作的魯棒性和惡意篡改攻擊的區(qū)分性,提出了一種基于費希爾準(zhǔn)則的分類器,從而能夠提供一種自適應(yīng)產(chǎn)生閾值的方法,提高篡改檢測的準(zhǔn)確率。
基于局部特征點的圖像感知哈希算法,能夠在圖像的幾何變換和一些信號處理的操作下具有魯棒性,同時特征點檢測器對圖像內(nèi)容變化具有敏感性,使這一研究方向更具吸引力。但是在特征點的提取過程中,容易產(chǎn)生錯位和數(shù)量的差異,會給檢測的結(jié)果帶來一定的影響。
基于特征降維的方法是將圖像在高維空間中的低維特征轉(zhuǎn)換到低維空間中。常見的降維方法有SVD、NMF以及FJLT等,下面將具體介紹。
Kozat等人[5]利用SVD提出了一種新的圖像哈希算法。首先對輸入的圖片隨機提取出一些可重疊的圖像塊,之后通過對這些圖像塊執(zhí)行SVD,每一個圖像塊生成一個特征向量,將得到的特征向量偽隨機地連接在一起得到一個次要圖像。對于得到的次要圖像,再一次地進(jìn)行分塊和奇異值分解,得到最終的特征哈希。在兩次使用奇異值分解的階段中,提出了其他的方法來代替該操作,如將第一次使用奇異值分解換成使用離散余弦變換或者平穩(wěn)小波變換,用來生成哈希。實驗表明利用矩陣分解的方法,可以近似地滿足對圖像幾何結(jié)構(gòu)具有不變性能的要求。Abbas等人[30]將SVD與LBP(local binary pattern)算法結(jié)合起來提出了一種感知哈希算法,采用分塊設(shè)計方法,將圖像進(jìn)行不重疊分塊,在每一個圖像塊上再一次進(jìn)行可重疊的分塊,之后在最小圖像塊上執(zhí)行SVD算法,得到正交向量組成的特征矩陣,最后采用由Ren等人提出的NPLBP[31](noise resistant local binary pattern)算法,得到最終的感知哈希。
Monga等人[6]受到降維方法QR(quantization of pseudorandom statistics)和SVD的啟發(fā),提出了一種非負(fù)性矩陣分解的圖像哈希算法。首先,輸入的圖像偽隨機地選擇p個子塊,之后對每一個子塊進(jìn)行非負(fù)性矩陣分解,再將得到的矩陣進(jìn)行偽隨機的排列,獲得一個次要圖像,對獲得的次要圖像,再一次地使用NMF,最后將分解得到的矩陣W的列和矩陣H的行,構(gòu)造最終的哈希向量。實驗表明NMF對不強烈改變圖像視覺感知的攻擊具有良好的魯棒性,能夠降低在視覺上相差較大圖像上的分類錯誤率。
Lv等人[7]提出基于快速約翰遜-林登斯特拉斯變換的降維方法,用于構(gòu)造圖像感知哈希。首先,獲取隨機的一些圖像塊,之后利用這些圖像塊構(gòu)造成一個特征矩陣,再利用FJLT降維方法得到一個特征哈希。實驗表明得到的圖像哈希對于輕微的處理如加性噪聲、圖像模糊、JPEG壓縮以及惡意的攻擊具有魯棒性與區(qū)分性,但是得到的圖像哈希對于圖像的幾何變換的魯棒性效果不理想,因此提出了一個旋轉(zhuǎn)FJLT(rotation invariant FJLT)哈希算法。首先對圖像進(jìn)行傅里葉梅林變換,得到一個特征圖像,之后再利用FJLT降維方法進(jìn)行提取最終的哈希,能夠進(jìn)一步對圖像的旋轉(zhuǎn)具有魯棒性。
Tang等人[32]提出了一種基于環(huán)分區(qū)(ring partition,RP)和NMF的哈希算法,該算法對旋轉(zhuǎn)的魯棒性具有更好的效果。如圖6所示,首先,將圖像分成一系列的同心圓,在每一個同心圓中提取對旋轉(zhuǎn)具有不變性的特征向量,將所有的向量組合成一個旋轉(zhuǎn)不變矩陣。隨后,對得到的旋轉(zhuǎn)不變矩陣進(jìn)行非負(fù)矩陣分解,得到其系數(shù)矩陣,并作為該算法最終的哈希。該算法尤其對旋轉(zhuǎn)具有良好的魯棒性,同時用于篡改檢測也有很好的效果。Khavare等人[33]在Tang的基礎(chǔ)之上,進(jìn)行了一些改進(jìn)。改進(jìn)之處在于,當(dāng)篡改區(qū)域比較小或者當(dāng)篡改區(qū)域位于圖像的四個角落時,這時的檢測效果將會大大地降低。因此,Khavare提出的算法在進(jìn)行環(huán)分區(qū)之前,先對圖像進(jìn)行擴展,將整個圖像都包含在同心圓的范圍內(nèi),之后以同樣的方式構(gòu)造一個旋轉(zhuǎn)不變矩陣,再利用NMF算法進(jìn)行矩陣分解,得到最終的哈希,用于篡改檢測。該算法同樣對旋轉(zhuǎn)具有良好的魯棒性,同時當(dāng)篡改區(qū)域較小或者篡改區(qū)域位于角落里時,也有良好的效果。
Fig.6 Schematic diagram of secondary image construction圖6 二次圖像構(gòu)造示意圖
除SVD、NMF降維方法外,LLE(locally linear embedding)算法也是一種常用的降維方法,能夠保留圖像原始特征中的相關(guān)信息,有較好的降維性能。Tang等人[34]提出了一種基于非線性LLE降維算法的感知哈希方法,算法中圖像經(jīng)過高斯低通濾波等預(yù)處理步驟后,計算圖像的顏色矢量矩陣,該顏色矢量矩陣能夠較好地反映圖像的顏色特征。為提取圖像感知特征,利用分塊DCT變換對圖像的顏色矢量矩陣提取DCT系數(shù),最后使用LLE算法進(jìn)行降維構(gòu)造感知哈希,包括k近鄰特征選擇、權(quán)重矩陣計算以及特征降維三個步驟。
基于統(tǒng)計特征的方法是利用圖像底層的統(tǒng)計信息構(gòu)造圖像哈希的篡改檢測算法,一般是利用一些先驗方法提取圖像特征,之后對提取的圖像特征計算統(tǒng)計特征向量,作為圖像哈希。圖像的統(tǒng)計信息包括:均值、方差、標(biāo)準(zhǔn)差、峰度、偏度等。
Tang等人[35]提出了一種對圖像進(jìn)行環(huán)狀分區(qū)并在環(huán)內(nèi)提取統(tǒng)計特征作為圖像哈希的算法。首先,對輸入的圖片在不同的顏色空間內(nèi)進(jìn)行了對比,最終選擇使用CIE Lab顏色空間,因為該顏色空間感知均勻,從該空間中提取的特征更加穩(wěn)定。其次,再利用環(huán)分區(qū)的思想對圖像進(jìn)行環(huán)狀劃分,并對每一個環(huán)提取圖像的統(tǒng)計特征,包括均值、方差、峰度、偏度,由四個統(tǒng)計特征構(gòu)成特征向量,該特征向量對圖像任意角度的旋轉(zhuǎn)有著良好的魯棒性。Tang等人[35]將每一個環(huán)提取的特征向量看作四維空間中的一個點,發(fā)現(xiàn)常規(guī)的信號處理操作對該點的位置以及向量之間的距離只有很輕微的擾動,因此該向量距離對于普通的信號處理操作具有不變性,在多種信號攻擊下具有魯棒性。之后,Tang等人[36]又提出計算圖像的顏色矢量角矩陣,并進(jìn)行環(huán)分區(qū)劃分,計算同心圓上邊緣像素的顏色矢量角度的方差,然后量化這些方差以產(chǎn)生感知哈希。Tang等人[35]提出的基于環(huán)分區(qū)提取圖像統(tǒng)計特征的感知哈希算法仍存在不足之處,即當(dāng)篡改區(qū)域位于圖像四個角落的時候,篡改區(qū)域?qū)⒉粫粰z測到,算法的正確率將會顯著降低。因此,Saikia等人[37]對Tang等人[35]的算法進(jìn)行改進(jìn),提出利用同心方形代替同心環(huán)形區(qū),在多個同心方形區(qū)域內(nèi)提取統(tǒng)計特征。因此,當(dāng)篡改區(qū)域位于圖像的角落時,仍可以被檢測到。
Srivastava等人[38]提出了一種在Radon變換和DCT變換的基礎(chǔ)上提取圖像統(tǒng)計特征的感知哈希算法,將輸入的圖像利用Radon變換得到一個二維的系數(shù)矩陣,再將系數(shù)矩陣的每一列進(jìn)行DCT變換并提取系數(shù)矩陣的交流系數(shù),得到一個行向量,之后計算該向量四個統(tǒng)計特征,包括均值、標(biāo)準(zhǔn)差、峰度系數(shù)以及偏度系數(shù),作為最終的哈希,通過度量測試圖像哈希與原始圖像哈希的漢明距離,用于圖像的篡改檢測。實驗結(jié)果表明該算法對常見的信號處理操作具有良好的魯棒性。
除了上述的四類方法之外,在圖像處理中的其他技術(shù),仍可以用于圖像感知哈希的篡改檢測中,如顏色空間不變特性[39]、Zernike矩[40-43]、Waston 視覺模型[44]、圖像分割技術(shù)[45]等,下面將具體介紹。
Tang等人[39]利用圖像不變性質(zhì)來構(gòu)造圖像哈希。該算法首先將彩色圖像從RGB轉(zhuǎn)換成YCbCr和HSI顏色空間,得到圖像的Y、Cb、Cr、H、I、S六個分量,利用這些分量計算七個不變特征,并構(gòu)成不變特征向量。該不變特征向量對于圖像的幾何變換具有魯棒性,最后利用L2范數(shù)度量待查詢圖像與原始圖像的距離。該方法能夠?qū)ΤR姷男盘柼幚聿僮骶哂恤敯粜浴?/p>
Zhao等人[40]提出了基于Zernike矩和圖像顯著性的圖像感知哈希算法。該算法利用Zernike矩提取圖像的全局特征,并利用圖像顯著性區(qū)域的位置和紋理信息來提取圖像的局部特征。在預(yù)處理階段,將圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間中,以Y分量和|Cb-Cr|分量分別表示圖像的亮度和色度特征,并計算兩者的Zernike矩,獲得圖像的全局特征。其次,對圖像進(jìn)行顯著性檢測并提取其位置、大小以及紋理特征,構(gòu)成圖像的局部特征。將全局特征和局部特征結(jié)合在一起,形成最終的圖像哈希。Ouyang等人[41]提出基于四元數(shù)Zernike矩的圖像感知哈希算法。其中,四元數(shù)是由圖像的R、G、B三個顏色通道組成,得到四元數(shù)圖像,提取Zernike矩。相比于四元數(shù)Zernike矩(quaternion Zernike moments,QZMs)算法,傳統(tǒng)的算法需要將彩色圖像轉(zhuǎn)換成灰度圖像,而四元數(shù)Zernike矩能夠包含圖像的所有顏色信息,且最終得到的哈希長度更短。之后,Ouyang等人[42]將四元數(shù)Zernike矩和SIFT算法結(jié)合到一起,提出了一種新的圖像感知哈希篡改檢測定位算法。提取四元數(shù)Zernike矩構(gòu)造圖像感知哈希用于篡改檢測,利用SIFT算法提取圖像中穩(wěn)定的特征點用于篡改區(qū)域定位。另外基于Zernike的工作,如羅嗣卿等人[43]依據(jù)Zernike矩對圖像旋轉(zhuǎn)具有不變性的特點,提出了以Zernike矩為圖像特征的感知哈希算法,能夠滿足對旋轉(zhuǎn)攻擊魯棒和區(qū)分不同圖像的技術(shù)要求。
Wang等人[44]提出了一種基于Waston的視覺感知模型和SIFT算法的圖像感知哈希算法,該算法分別對圖像特征點和圖像塊進(jìn)行提取特征。首先,利用SIFT算法提取圖像特征點,并借助小波變換對圖像進(jìn)行稀疏表示,從而獲得基于圖像關(guān)鍵點的特征。其次,對圖像分塊并提取其特征,利用Waston’s DCT視覺模型獲取系數(shù)矩陣,構(gòu)造圖像塊特征。提取特征之后,借助高斯隨機矩陣對特征進(jìn)行壓縮、映射,從而降低向量的維度,并經(jīng)過加密和編碼得到最終的圖像感知哈希。
Pun等人[45]提出了一種對象級別的篡改檢測哈希算法。首先,Pun等人[45]在圖像分割技術(shù)DC-Seg[46]的基礎(chǔ)上提出了一種新的自適應(yīng)圖像分割方法,該方法能夠?qū)D像分割成大量、具有感知意義的區(qū)域。其次,由于一些圖像內(nèi)容保持操作會造成圖像分割算法的不穩(wěn)定性,因此將每一區(qū)域內(nèi)的顏色和位置特征構(gòu)造一個特征哈希,該特征哈希在一定變化范圍內(nèi)對于圖像的分割是不敏感的。之后,利用輸入圖像的顏色特征和分割區(qū)域的數(shù)目形成的全局特征,用于圖像的篡改檢測。該方法不足之處是無法處理圖像平滑區(qū)域的篡改操作,因為提出的自適應(yīng)分割方法無法分割出圖像中較為平滑的區(qū)域。
Yan等人[47]提出了一種多尺度差值圖融合的圖像哈希算法。在圖像篡改檢測階段,利用傅里葉梅林矩(QFMMs)[23]提取幾何哈希用于圖像的對齊操作,之后利用基于局部二值編碼(local binary coding,LBC)的提取圖像二值哈希用于圖像的篡改檢測。首先,將圖像分割成一系列不重疊的圖像塊,對每一個圖像塊按照豎直方向和水平方向進(jìn)行分割,計算圖像塊在豎直方向和水平方向分割后的梯度,將兩個梯度進(jìn)行比較得到該圖像塊的LBC,所有圖像塊的LBC組成一個二值的圖像哈希;其次,為進(jìn)一步對圖像進(jìn)行篡改檢測,將得到的二值哈希轉(zhuǎn)換成一個二值矩陣,兩張圖片的二值矩陣相減得到SM(subtraction map),之后利用一個滑動窗口遍歷SM的到最終的DF(difference map),提取DF中的最大值,并與給定的閾值相比較,用于圖像篡改檢測的判定。
Hosny等人[48]提出了一種基于Gaussian-Hermite不變矩的感知哈希算法。該算法通過高斯低通濾波、彩色圖像灰度化等操作對圖像進(jìn)行預(yù)處理,預(yù)處理能夠使提取的特征對噪聲更魯棒以及降低圖像中的高頻元素。之后通過計算Gaussian-Hermite矩提取21種不同階的特征,最終編碼成8-bit的感知哈希,通過度量原始圖像與待檢測圖像感知哈希的歐氏距離,與給定閾值相比較用于篡改檢測。
Qin等人[49]提出將邊緣檢測和離散余弦變換結(jié)合在一起的圖像感知哈希算法。首先,在圖像預(yù)處理階段,將圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間中,并提取Y分量通過高斯低通濾波。其次,使用Canny算子進(jìn)行邊緣檢測,得到二值化的邊緣圖像R,對R進(jìn)行不重疊分塊,統(tǒng)計每一個塊區(qū)域內(nèi)包含的邊緣像素個數(shù)并進(jìn)行排序,取前p個圖像塊,并對每一個圖像塊執(zhí)行DCT變換,將其系數(shù)矩陣與圖像塊的位置信息綜合得到特征矩陣,經(jīng)過PCA降維操作與加密操作后得到最終的感知哈希。
綜上所述,基于圖像底層線索提取感知哈希一直是圖像篡改檢測的主流技術(shù),根據(jù)提取特征方式的不同,進(jìn)一步細(xì)致地將現(xiàn)有的方案分成了五類,不同類別的方法有著不同的優(yōu)勢。雖然不同方法之間提取特征的方式不同,但這五類之間并不是完全獨立,一般情況下,通過將多種技術(shù)以某種形式組合到一起,能夠發(fā)揮出更好的性能。如將圖像中的特征關(guān)鍵點與不變特征變換結(jié)合在一起,以及在提取圖像關(guān)鍵點的同時計算其統(tǒng)計特征,最終構(gòu)造的感知哈希在圖像篡改檢測上能夠表現(xiàn)出良好的性能。
除以上敘述的基于圖像底層線索的圖像感知哈希方法以外,基于學(xué)習(xí)的哈希方法也受到研究學(xué)者的廣泛關(guān)注。特別是近幾年來,深度神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,已有研究學(xué)者將深度學(xué)習(xí)的技術(shù)用于圖像的篡改檢測上,從而提高了算法的性能。本章將分別從傳統(tǒng)的學(xué)習(xí)方法和深度學(xué)習(xí)方法兩個方向?qū)D像篡改檢測技術(shù)進(jìn)行介紹。
基于傳統(tǒng)學(xué)習(xí)的哈希算法是將數(shù)據(jù)的特征屬性信息映射到目標(biāo)函數(shù)中,通過對目標(biāo)函數(shù)的求解來得到哈希函數(shù)及哈希編碼。基于傳統(tǒng)學(xué)習(xí)構(gòu)造圖像感知哈希主要包括魯棒特征提取、量化壓縮等操作,其一般框架如圖7所示。在提取感知哈希的過程中,特征提取和量化壓縮階段決定了最終哈希的性能,因此有許多研究者將解決問題主要的焦點放在這兩個階段,下面將具體介紹相關(guān)工作。
Fig.7 General framework of image Hashing圖7 圖像哈希的通用框架
Du等人[50]提出了一種基于多視角特征信息嵌入的感知哈希學(xué)習(xí)算法,并借助圖像感知顯著性進(jìn)行篡改檢測。算法由圖像預(yù)處理、映射函數(shù)學(xué)習(xí)、圖像感知顯著性以及篡改檢測四部分組成。在預(yù)處理階段,由于CIE Lab色彩空間相比于其他顏色空間更感知均勻,且L分量與人類對亮度的感知比較接近,同時又由于整數(shù)小波變換能夠?qū)Ρ3謭D像內(nèi)容的信號處理的操作具有魯棒性,因此在L分量上執(zhí)行一級小波變換。在映射函數(shù)學(xué)習(xí)階段,模型的目標(biāo)函數(shù)為:
其中,X=X1:X2:…:Xn表示包含n張圖片的數(shù)據(jù)集在多種視角下的特征矩陣;Xl表示數(shù)據(jù)集中l(wèi)個已知標(biāo)簽的圖像的特征矩陣,S表示l個圖像之間的相似度矩陣,W表示權(quán)重矩陣;圖像感知顯著圖提取階段,利用SMD(structured matrix decomposition)算法[51]獲取圖像中的感知顯著圖;最后在圖像篡改檢測階段,根據(jù)公式計算感知距離,判定待檢測圖像是否經(jīng)過惡意篡改。
其中,Ba、Bt分別表示原始圖像與待檢測圖像的感知哈希;λra、λrt分別表示每一個區(qū)域的感知顯著性權(quán)重。提出的感知哈希學(xué)習(xí)算法在多數(shù)保持內(nèi)容的操作上具有魯棒性以及對惡意篡改攻擊具有區(qū)分性,例如,加性噪聲、圖像濾波、JPEG壓縮以及增加物體、移除物體等操作。
算法的魯棒性主要取決于提取的圖像特征的好壞,因此大多數(shù)的研究主要的關(guān)注點在于圖像特征的提取階段。而圖像哈希的后處理步驟,目的是將圖像實值哈希壓縮成一個二值的哈希,該二值哈希僅使用較小的存儲空間以及能夠進(jìn)行快速的取證,一般采用的方法有量化和錯誤檢查糾正(errorcorrect coding,ECC)。Lv等人[52]假設(shè)在已知提取圖像特征方法的前提下,將研究的重點放在圖像哈希后處理階段。為此,Lv等人[52]提出了一種半監(jiān)督譜嵌入(semi-supervised spectral embedding,SSE)的學(xué)習(xí)方法,該方法用于將實值圖像哈希壓縮成一個二值哈希,同時能夠保證生成的二值哈希仍具有實值圖像哈希所具有的魯棒性,并使用漢明距離完成圖像的取證。具體訓(xùn)練過程,將原始圖像以及原始圖像經(jīng)過一系列信號處理和攻擊的圖像構(gòu)成一個訓(xùn)練集,并依據(jù)可獲得的特征哈希生成方法SCH(shape contexts based image Hashing)[4]和FJLTH(FJLT Hashing)[7]為數(shù)據(jù)集中的每一張圖片生成圖像哈希,從而構(gòu)造一個擴展的圖像特征空間VPAHS(virtual prior attacked Hash space),利用該訓(xùn)練集,學(xué)習(xí)到一個最優(yōu)的譜嵌入模型,能夠?qū)嵵祱D像哈希壓縮成一個二值哈希。該模型的目標(biāo)函數(shù)為:
其中,
該目標(biāo)函數(shù)的目的是為了得到譜嵌入的二值哈希B={yi}ni=1,yi∈{-1,1}k。w(i,j)表示特征向量xi和xj的歐氏距離。進(jìn)一步地,由于不同算法提取的圖像特征哈希對不同類型的信號處理和攻擊具有不同的魯棒性,為綜合多種方法的優(yōu)點,Lv等人[52]對提出的SSE方法進(jìn)行了修改,從而能夠提高生成的二值哈希的魯棒性。實驗表明,與使用量化、ECC以及單種特征哈希類型的SSE方法相比較,使用融合多種圖像特征類型的SSE方法學(xué)習(xí)到的壓縮模型,具有更好的魯棒性,并且能夠生成固定長度的二值哈希。
近年來,深度學(xué)習(xí)技術(shù)蓬勃發(fā)展,受到了來自學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,其技術(shù)也被應(yīng)用到圖像分類、檢測、識別、檢索、語音和文本處理等多個研究領(lǐng)域。目前,深度神經(jīng)元網(wǎng)絡(luò)有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)、反卷積網(wǎng)絡(luò)(deconvolution network,DN)、生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)等。其中最常用的卷積神經(jīng)網(wǎng)絡(luò),在計算機視覺領(lǐng)域熱門研究領(lǐng)域中被廣泛使用,例如AlexNet、GoogLeNet等網(wǎng)絡(luò),本節(jié)中主要介紹基于深度學(xué)習(xí)技術(shù)用于圖像篡改檢測的感知哈希算法。
Fig.8 Flowchart of method in Ref.[53]圖8 文獻(xiàn)[53]方法流程圖
Jiang等人[53]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像感知哈希算法,提出的圖像篡改檢測框架如圖8所示。圖像經(jīng)過預(yù)處理步驟后,輸入到預(yù)訓(xùn)練好的Alex網(wǎng)絡(luò)中,提取最后一層全連接層的輸出作為感知特征,之后經(jīng)過量化與二值化將特征向量轉(zhuǎn)換成感知哈希,通過度量原始圖像與待檢測圖像感知哈希之間的漢明距離,與給定的閾值相比較,判定待檢測圖像是否經(jīng)過惡意篡改攻擊。Jiang等人[53]從感知魯棒性、圖像內(nèi)容改變的敏感性、區(qū)分性對算法進(jìn)行分析比較,該深度感知哈希算法能夠?qū)Σ糠直3謭D像內(nèi)容的信號處理操作魯棒以及對惡意篡改攻擊具有區(qū)分性。
Bondi等人[54]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)提取相機型號特征[55]用于篡改檢測的學(xué)習(xí)算法。該算法主要解決了兩個問題:(1)訓(xùn)練得到的網(wǎng)絡(luò)模型可以識別該圖像所對應(yīng)的相機型號;(2)訓(xùn)練得到的模型可以用來進(jìn)行圖像的篡改檢測與篡改區(qū)域定位。首先,該算法提出了一種卷積神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)有11層,訓(xùn)練模型的輸入是圖像,經(jīng)過卷積、池化、全連接層、Relu層、Softmax層后,模型的輸出是一個特征向量,該向量表示的是該圖像對應(yīng)每種相機型號的概率。其次,用于圖像篡改檢測和定位的過程如圖9所示,先將輸入的圖像分成不重疊的圖像塊,將每一個圖像塊作為訓(xùn)練好的網(wǎng)絡(luò)模型的輸入,得到一個特征向量。為進(jìn)一步描述圖像塊的統(tǒng)計信息,設(shè)計了一個可信度Q:
其中,α、β、γ是常數(shù),μc、σc分別為平均值和標(biāo)準(zhǔn)差。之后再利用迭代的聚類技術(shù)對得到的特征向量進(jìn)行聚類,得到最終的Mask,用于圖像的篡改檢測和定位。該算法利用卷積神經(jīng)網(wǎng)絡(luò)提取相機型號的特征有較好的效果,對于不同圖像的拼接篡改有著較好的檢測效果。不足的是,該算法有一個前提假設(shè),是篡改的區(qū)域來自于不同相機型號拍攝的圖片,如果圖像中的篡改區(qū)域來自于同一種相機,可能會影響到最終檢測效果。另外,學(xué)習(xí)到的模型對于不在訓(xùn)練集中相機型號的圖片,效果有待商榷。
深度學(xué)習(xí)技術(shù)也被應(yīng)用到除圖像取證的其他領(lǐng)域,例如,Chen等人[56]和Qian等人[57]將卷積神經(jīng)網(wǎng)絡(luò)用于圖像中值濾波檢測和隱寫分析算法。Bayar等人[58]提出了一種利用深度學(xué)習(xí)技術(shù)檢測處理操作的通用取證方法,一個新的卷積層被用來抑制圖像內(nèi)容并能夠自適應(yīng)地學(xué)習(xí)圖像中的處理操作的特征。Yarlagadda等人[59]利用生成對抗網(wǎng)絡(luò)用于衛(wèi)星圖像的篡改檢測與定位,該網(wǎng)絡(luò)可以被用于提取原始衛(wèi)星圖像中的特征表示。最近,卷積神經(jīng)網(wǎng)絡(luò)也被用于偽造視頻檢測[60]和相機模型取證[55,61],并取得了一定的效果。
基于數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法可以得到高質(zhì)量的哈希。然而,在基于學(xué)習(xí)的圖像取證算法中,大多數(shù)強調(diào)的是特征學(xué)習(xí)。特征學(xué)習(xí)的過程是通過優(yōu)化目標(biāo)函數(shù)從而對訓(xùn)練集中的數(shù)據(jù)進(jìn)行擬合,從而產(chǎn)生較好的哈希碼保持訓(xùn)練集的局部相似性,而數(shù)據(jù)獨立的哈希方法在哈希生成的整個過程中,除提取圖像特征之外,哈希的安全性、碰撞性等性能也考慮在內(nèi)。此外,基于學(xué)習(xí)方法在訓(xùn)練模型的過程中需要消耗大量的時間,其時間復(fù)雜度仍高于數(shù)據(jù)獨立的哈希方法。因此,基于學(xué)習(xí)的方法在表現(xiàn)出良好性能的同時,仍存在著一些不足之處。
Fig.9 Flowchart of method in Ref.[54]圖9 文獻(xiàn)[54]方法流程圖
本章將從實驗的角度對四種篡改檢測算法進(jìn)行比較分析,首先對常用的篡改檢測數(shù)據(jù)集進(jìn)行介紹,然后給出算法性能的評價指標(biāo),最后在不同數(shù)據(jù)集上比較和分析四種篡改檢測算法的性能。
為了科學(xué)、有效地評價各類圖像篡改檢測算法的性能,提出了許多標(biāo)準(zhǔn)的圖像數(shù)據(jù)集供研究人員對算法進(jìn)行測試和對比,常用的數(shù)據(jù)集主要有:
4.1.1 CASIA數(shù)據(jù)集
CASIA數(shù)據(jù)集[62]包含兩個版本。中國科學(xué)院自動化研究所發(fā)布了CASIA v1.0數(shù)據(jù)集,該數(shù)據(jù)集主要用于檢測圖像拼接的任務(wù)。數(shù)據(jù)集中包含800張真實圖片和925張篡改圖片,圖片的格式為384×256的JPEG格式。真實圖片根據(jù)圖像的內(nèi)容主要分為八種類別,包括場景、動物、建筑、人物、植物、物品、自然和紋理;篡改圖片是通過圖像拼接完成的篡改操作。之后,又發(fā)布了CASIA v2.0數(shù)據(jù)集,與CASIA v1.0相比,數(shù)據(jù)集中圖像的大小具有不同的尺寸,從240×160到900×600像素不等。同時,對圖像中篡改的區(qū)域采用一些后處理的操作,使篡改的圖像更加逼真和更具挑戰(zhàn)性。
4.1.2 RTD數(shù)據(jù)集
RTD(realistic tampering dataset)數(shù)據(jù)集[63-64]是由Korus于2016年在其個人主頁上發(fā)布的用于圖像篡改檢測的數(shù)據(jù)集。該數(shù)據(jù)集中包含真實圖片、篡改圖片以及相對應(yīng)的真實篡改位置,分別使用四種不同的型號拍攝的圖片,其中Sony alpha57是Korus的數(shù)據(jù)集,Cannon 60D數(shù)據(jù)集來自于BinLi博士,Nikon D7000和D90來自于RAISE數(shù)據(jù)集,各有50張,圖片為1 920×1 080的TIFF格式。篡改類型主要包括物體插入和移除,同時數(shù)據(jù)集提供了相對應(yīng)的GroundTruth。
為了測試感知哈希篡改檢測算法的魯棒性,數(shù)據(jù)集在CASIA和RTD的基礎(chǔ)上,分別對數(shù)據(jù)集中原始圖像和篡改圖像加了多種類型的保護(hù)圖像內(nèi)容的處理操作。處理操作的類型包括:加性噪聲、圖像濾波、模糊、JPEG壓縮、幾何攻擊等16種處理類型,具體的處理類型以及參數(shù)設(shè)置如表1所示。
Table 1 Content-preserving manipulations and parameters setting表1 保持內(nèi)容操作以及參數(shù)設(shè)置
為了驗證算法的有效性,需利用評價指標(biāo)定量分析算法的性能。本節(jié)將介紹三種常用的評價指標(biāo)。
4.2.1 準(zhǔn)確率-召回率
通過對比檢測結(jié)果類別與圖像真實分類,可以計算出算法的準(zhǔn)確率(Precision,P)和召回率(Recall,R)。檢測結(jié)果有兩種類別:一種為篡改(tampered),表示該圖片經(jīng)過惡意篡改操作;另一種為相似(similar),則表示該圖片與原圖像相似,未經(jīng)過惡意篡改操作。通過算法對數(shù)據(jù)集中多張圖片的檢測結(jié)果可以計算出準(zhǔn)確率與召回率:
其中,將相似圖像表示正類,篡改圖像表示負(fù)類。TP、FP、FN、TN各標(biāo)記具體含義如表2分類結(jié)果混淆矩陣[65]所示。準(zhǔn)確率和召回率相互牽制,較高的準(zhǔn)確率表示在檢測出來相似的圖像中,真實分類仍為相似的概率比較高,較高的召回率則表示有較多的相似圖片被檢測出來。將召回率作為橫軸,準(zhǔn)確率作為縱軸,可以得到準(zhǔn)確率-召回率曲線(PR曲線),該曲線的位置越接近坐標(biāo)軸的右上方,則表示該算法的魯棒性性能越好。如果將篡改圖像表示正類,而相似圖像表示負(fù)類,繪制的PR曲線則可以表示該算法的區(qū)分性性能。
Table 2 Classification confusion matrix表2 分類結(jié)果混淆矩陣
4.2.2 F-measure
F-measure目的是為了能夠綜合考慮準(zhǔn)確率和召回率兩個評價指標(biāo),具體的定義為:
其中,通過調(diào)整β值來設(shè)置對兩個評價指標(biāo)不同的偏好,當(dāng)β<1時,對準(zhǔn)確率有更大影響;當(dāng)β>1時,對召回率有更大影響;當(dāng)β=1時,為標(biāo)準(zhǔn)的F1。
4.2.3 受試者工作特性曲線(ROC)
受試者工作特性曲線,即ROC(receiver operating characteristic curve)曲線是以假陽性概率(false positive rate,F(xiàn)PR)和真陽性概率(true positive rate,TPR)作為坐標(biāo)軸的橫軸和縱軸,繪制ROC曲線,TPR和FPR具體定義如下:
其中,各標(biāo)記具體含義如表2所示。FPR表示的是篡改圖片誤分類個數(shù)占總篡改圖片個數(shù)的比例,TPR表示的是相似圖片正確分類的個數(shù)占總相似圖片個數(shù)的比例。因此,該ROC曲線越接近于左上方則表示該算法性能越好。但是,當(dāng)比較兩種方法的性能時,ROC曲線可能會出現(xiàn)交叉的情況,這時難以明確兩種算法的優(yōu)劣,則較為合理的判斷依據(jù)是使用AUC(area under ROC curve),AUC表示ROC曲線下的面積,可以定量地比較算法的性能,AUC數(shù)值越大,表示性能越好。
上述三種評價指標(biāo),對算法性能的描述各有偏重。其中,準(zhǔn)確率-召回率曲線更偏向于描述魯棒性或區(qū)分性其中一種性能,如果將相似圖像看作正類,曲線則偏向于表示算法的魯棒性,而如果將篡改圖像看作正類,曲線則偏向于表示算法的區(qū)分性;F-measure是為了綜合考慮算法的準(zhǔn)確率和召回率;為了能夠綜合地描述算法的魯棒性和區(qū)分性,在篡改檢測算法性能分析比較的過程中,最常使用的是繪制ROC曲線,在下節(jié)算法的分析與比較中,將通過繪制算法在不同圖像內(nèi)容保持操作下的ROC曲線,來對比分析不同算法性能的差異。同時,為能夠定量地比較不同算法性能的差異,計算出了相對應(yīng)ROC曲線的AUC值。
本節(jié)主要在不同的數(shù)據(jù)集下對四種篡改檢測算法進(jìn)行分析和比較。實驗所使用的數(shù)據(jù)集包括CASIA數(shù)據(jù)集和RTD數(shù)據(jù)集。實驗對比了四種圖像感知哈希篡改檢測算法,包括小波變換特征哈希篡改檢測算法Wavelet[20]、特征降維檢測算法SVD[5]、統(tǒng)計特征檢測算法RPIVD(ring partition and invariant vector distance)[35]和四元數(shù)傅里葉變換特征檢測算法QFT[22]。
如圖10給出了四種算法在不同圖像內(nèi)容保持操作下的ROC曲線,第一、二行和第三、四行分別表示在數(shù)據(jù)集CASIA和數(shù)據(jù)集RTD上的結(jié)果。具體地在ROC曲線中,橫坐標(biāo)FPR以及縱坐標(biāo)TPR的詳細(xì)定義在4.2.3小節(jié),其中FPR表示假陽性概率,即篡改圖像誤分類個數(shù)占篡改圖像總數(shù)的比例,TPR表示真陽性概率,即相似圖片被正確分類的個數(shù)占相似圖像總數(shù)的比例。為定量地比較不同算法之間的差異,計算出相對應(yīng)ROC曲線的AUC值,如表3所示,從左到右依次為四種算法在數(shù)據(jù)集CASIA和RTD上的AUC的值,從上到下分別表示數(shù)據(jù)集經(jīng)過一些保護(hù)圖像內(nèi)容處理操作的類型。通過分析和比較圖10和表3,可以得到如下結(jié)論:
Fig.10 ROC curves comparisons of 4 algorithms on 2 datasets圖10 四種算法在兩個數(shù)據(jù)集下的ROC曲線比較
Table 3 Quantitative comparisons(AUC)with different methods on 2 datasets表3 兩個數(shù)據(jù)集下的不同方法的AUC值結(jié)果比較
(1)基于小波變換的篡改檢測算法不能有效地判別圖像是否被篡改。圖10中紅色曲線表示小波變換Wavelet[20]在不同類型圖像內(nèi)容保持操作下的實驗結(jié)果。如圖(e)、(k),在圖像銳化(image sharpening)和圖像照明校正(illumination correction)處理操作下,該方法不能判斷圖像是否存在惡意篡改操作。在加性噪聲、圖像濾波、圖像模糊處理操作下,該方法雖然有一定的判別能力,但是相比于其他檢測算法來說,其判別能力不強。
(2)圖10中藍(lán)色曲線表示基于特征降維的篡改檢測方法SVD[5]的檢測結(jié)果,可以發(fā)現(xiàn),該算法具有一定的篡改檢測能力,其中在JPEG壓縮的處理操作下,如圖(f)、(l),該方法取得了最優(yōu)的性能。但是在加性噪聲、濾波以及幾何攻擊處理下,該方法雖有一定的檢測能力,但相對于最優(yōu)算法,仍有一些差距。
(3)圖10中黑色曲線表示統(tǒng)計特征檢測方法RPIVD[35]的結(jié)果,算法在圖像銳化和照明校正處理下取得了較優(yōu)的性能。其他類型處理情況下,相比于其他算法,該方法性能略顯不足,其中幾何攻擊處理下(d)、(j),圖像裁剪(image cropping)和圖像剪切(image shearing)處理的情況下,該算法不能區(qū)分圖像是否被篡改。
(4)相比于其他算法,多種處理操作下,融合多種特征的QFT[22]篡改檢測算法取得了較好的結(jié)果。圖10中粉紅色曲線在各種處理類型下QFT算法[22]得到的ROC曲線,整體有著較好的性能。如圖(b)、(c)、(h)、(i),尤其是在圖像濾波(filtering)和圖像模糊(blurring)處理的情況下,該算法的ROC曲線逼近于坐標(biāo)軸的左上角,性能較高。
(5)表3給出了四種算法在兩個數(shù)據(jù)集上的性能定量分析結(jié)果,從表3整體來看,篡改檢測算法QFT[22]的AUC值在多種保護(hù)圖像內(nèi)容的處理類型下,取得較好的結(jié)果,其中圖像濾波(filtering)和圖像模糊(blurring)處理下,AUC的值達(dá)到了0.99,除圖像剪切(image shearing)處理以外,其他類型的處理,AUC的值達(dá)到了0.8以上。在圖像裁剪(image cropping)處理下,QFT[22]很好地保留了圖像的特征,檢測結(jié)果優(yōu)于其他算法。
由上述可知,相比于另外三種算法,QFT[22]算法的整體性能較優(yōu),具有良好的魯棒性和區(qū)分性。在考慮時間復(fù)雜度和空間復(fù)雜度的情況下,經(jīng)過實驗驗證,Wavelet[20]、SVD[5]與 RPIVD[35]三種算法的時間復(fù)雜度較低,基本能夠?qū)崟r檢測;相對來說,QFT[22]算法需要構(gòu)造四元數(shù)圖像與執(zhí)行四元數(shù)傅里葉變換,其時間復(fù)雜度較高。如表4所示,QFT[22]與RPIVD[35]兩種算法最終得到的哈希長度分別為86 digits和40 digits,與 Wavelet[20]和 SVD[5]算法相比,哈希長度較短,在存儲和傳輸上有著較高的效率。表4進(jìn)一步研究了不同算法之間的定性比較,其中包括哈希長度以及對不同信號處理攻擊如加性噪聲、濾波以及幾何攻擊魯棒性等的參數(shù)設(shè)置。
本文將現(xiàn)有的基于感知哈希的圖像篡改檢測算法進(jìn)行總結(jié)、分析,根據(jù)是否依賴數(shù)據(jù)進(jìn)行學(xué)習(xí)哈希函數(shù),將算法分為兩大類:第一類是基于圖像底層線索的方法,并進(jìn)一步依據(jù)提取圖像感知特征的方式不同分成五類;第二類是基于學(xué)習(xí)的方法,分為基于機器學(xué)習(xí)的方法與基于深度學(xué)習(xí)的方法。隨后,對四種典型的感知哈希算法進(jìn)行了大量實驗,并進(jìn)行分析、對比。
基于感知哈希的圖像篡改性檢測是多媒體取證領(lǐng)域的一項基礎(chǔ)研究工作,可以作為后續(xù)許多研究的先導(dǎo)性操作,具有十分重要的理論研究意義和實際應(yīng)用價值??傮w而言,基于圖像感知哈希的篡改檢測技術(shù)未來的研究趨勢和方向主要有以下幾方面:
(1)有效結(jié)合多特征信息構(gòu)建魯棒感知哈希。目前,大部分感知哈希算法僅采用單一特征描述圖像內(nèi)容,而僅能夠?qū)σ活惢驇最惞艟哂恤敯粜院蛥^(qū)分性,還遠(yuǎn)遠(yuǎn)不能滿足用戶的需求。因此,為了更好地描述圖像內(nèi)容,如何有效結(jié)合多視角特征信息(如基于圖像結(jié)構(gòu)信息、紋理信息、顏色信息等)來構(gòu)建魯棒哈希編碼的多視角哈希學(xué)習(xí),成為未來研究的一個重點內(nèi)容。
(2)感知哈希的量化器學(xué)習(xí)問題。目前存在的基于感知哈希的圖像篡改檢測方法中,很少有方案關(guān)注哈希的量化器學(xué)習(xí)問題。提取的圖像感知特征經(jīng)過特征量化階段得到比特序列的感知摘要,量化過程將會對感知哈希的魯棒性和區(qū)分性等性能產(chǎn)生一定的影響。因此,量化器的學(xué)習(xí)是一個重要研究方向。
(3)結(jié)合圖像的顯著性特征。在偽造圖像的過程中,必然會影響到圖像內(nèi)的顯著性物體,如增加物體、移除物體、更改物體顏色等操作,通過改變圖像中的顯著性內(nèi)容實現(xiàn)惡意篡改。因此,圖像篡改檢測過程中,結(jié)合圖像的顯著性圖像以及邊緣信息圖像,將有助于圖像篡改檢測算法的性能提升。因此,如何更有效地將顯著性圖像與感知哈希相結(jié)合,成為未來研究的重點內(nèi)容。
Table 4 Qualitative comparison results between different algorithms表4 不同算法之間的定性比較
(4)基于深度學(xué)習(xí)的感知哈希算法。近年來,在許多領(lǐng)域內(nèi)大量研究表明深度神經(jīng)網(wǎng)絡(luò)在圖像特征表示上取得了很好的效果,基于深度哈希的圖像篡改檢測成為重點研究方向。目前大多數(shù)方法提取圖像感知哈希的方法是基于圖像底層線索,而基于學(xué)習(xí)的方法尤其是基于深度學(xué)習(xí)的哈希技術(shù)用于圖像篡改檢測的方案很少,而多數(shù)深度哈希方法主要用于大規(guī)模的圖像檢索與識別。因此,將深度神經(jīng)網(wǎng)絡(luò)與感知哈希技術(shù)相結(jié)合,也是未來值得深入研究的方向。
(5)基于先驗信息的感知哈希生成。目前的基于感知哈希的圖像篡改檢測方法中,原始圖像及非惡意圖像處理攻擊下的圖像之間的先驗信息沒有得到有效的利用。事實上,這些先驗信息對區(qū)分改變圖像內(nèi)容篡改是非常重要的。這種原始圖像與對應(yīng)的圖像信號處理攻擊下的圖像的關(guān)系應(yīng)在感知哈希學(xué)習(xí)算法中得以學(xué)習(xí)。因此,圖像的先驗信息在感知哈希生成過程中也較為重要。
(6)基于后驗攻擊模型的特征選取。特征選取攻擊指攻擊者偽造一幅和原圖具有相同特征的圖像以通過認(rèn)證。特征選取攻擊的前提條件是設(shè)計者所選取的用來表達(dá)圖像內(nèi)容的特征并不能充分表達(dá)圖像的全部內(nèi)容。為保證感知哈希學(xué)習(xí)算法的安全性,結(jié)合多視角特征選擇與后驗攻擊模型選取算法設(shè)計中相對重要和充分表達(dá)能力的特征是未來研究的重點內(nèi)容。
(7)感知哈希協(xié)同認(rèn)證算法。為使得感知哈希圖像認(rèn)證算法具有更好的適應(yīng)性和應(yīng)用范圍,基于協(xié)同認(rèn)證算法提高篡改定位精度成為待研究的重點內(nèi)容。如研究基于特征點的圖像校準(zhǔn)哈希碼生成算法,并在此基礎(chǔ)上研究校準(zhǔn)-感知哈希協(xié)同的圖像認(rèn)證算法以用于圖像在大尺度變換下的幾何校準(zhǔn)。研究基于壓縮感知的感知索引哈希生成算法及基于恢復(fù)圖像與原始圖像的差值圖像上錯誤像素分布的篡改定位方法,并在此基礎(chǔ)上研究索引感知哈希協(xié)同的圖像認(rèn)證算法,以提升圖像的篡改檢測、定位結(jié)果的魯棒性。