王 欣, 黎 鑫, 胡 磊
(1.蚌埠汽車士官學(xué)校 運(yùn)輸指揮系,安徽 蚌埠 233011;2.蚌埠汽車士官學(xué)校 干部輪訓(xùn)大隊(duì),安徽 蚌埠 233011)
一種針對(duì)JPEG圖像的通用隱寫分析算法
王 欣1, 黎 鑫1, 胡 磊2
(1.蚌埠汽車士官學(xué)校 運(yùn)輸指揮系,安徽 蚌埠 233011;2.蚌埠汽車士官學(xué)校 干部輪訓(xùn)大隊(duì),安徽 蚌埠 233011)
提出了一種針對(duì)JPEG圖像的通用隱寫分析算法。該算法提取了15個(gè)具有良好分類特性的特征參數(shù),輸入構(gòu)建的LS-SVM分類器,以達(dá)到檢測載密圖像的目的。實(shí)驗(yàn)結(jié)果表明,該算法的檢測正確率較高,檢測速度快,能夠?qū)崿F(xiàn)針對(duì)各類JPEG載密圖像的有效檢測。
隱寫分析;DCT系數(shù);特征參數(shù);JPEG圖像
近幾年來,隨著信息隱藏技術(shù)[1]的迅速發(fā)展,越來越多的人開始關(guān)注隱寫分析技術(shù)[2]的研究。隱寫分析的目的是檢測數(shù)字載體中秘密信息的存在性,一方面,它可以促進(jìn)信息隱寫技術(shù)安全性的提高,推動(dòng)信息隱寫技術(shù)的實(shí)用化;另一方面,有助于發(fā)現(xiàn)不法分子的秘密通信,預(yù)防恐怖事件的發(fā)生,維護(hù)國家和社會(huì)公共安全。目前,各國學(xué)者都致力于研究具有通用檢測性能的隱寫分析算法,能夠針對(duì)某一類或幾種隱寫算法進(jìn)行檢測,但是通用隱寫分析算法存在提取特征難、檢測正確率低、實(shí)時(shí)檢測效果差等弊端。
文中在對(duì)原始圖像和載密圖像的DCT系數(shù)進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,提出了一種針對(duì)JPEG圖像的通用隱寫分析算法。該算法提取15個(gè)具有一定區(qū)分能力的特征參數(shù)組成特征向量,作為LS-SVM分類器的輸入,通過自學(xué)習(xí)的訓(xùn)練過程得到檢測載密圖像的分類器,以達(dá)到檢測載密圖像的目的。
JPEG是網(wǎng)絡(luò)和日常生活中使用最為普遍的圖像格式,以JPEG圖像為載體的信息隱寫算法(例如:Jsteg[3]、Outgess[4]、MB[5]、F3~F5[6]等)大多選擇將秘密信息嵌入到量化后的DCT系數(shù)中,來達(dá)到信息隱藏和提取秘密信息的目的。因此,JPEG圖像中DCT量化系數(shù)(以下簡稱DCT系數(shù))的統(tǒng)計(jì)分布問題一直為眾多學(xué)者所關(guān)注,也是各類通用隱寫分析算法提取特征參數(shù)的研究重點(diǎn)。
文中基于Fridrich的載體圖像預(yù)測理論,首先對(duì)解壓縮后的載密圖像進(jìn)行4×4的剪裁,再按壓縮時(shí)的量化表進(jìn)行量化,構(gòu)造出一幅統(tǒng)計(jì)特性與原始圖像相近的參考圖像(即預(yù)測圖像)[7],通過比較待測圖像及其預(yù)測圖像在DCT系數(shù)上的統(tǒng)計(jì)差異,提取15個(gè)具有一定區(qū)分能力的特征參數(shù),其中一階特征參數(shù)7個(gè),二階特征參數(shù)8個(gè),用于檢驗(yàn)待測圖像是否含有秘密信息。
1.1.1 一階統(tǒng)計(jì)特征參數(shù)
DCT系數(shù)的直方圖是最簡單的一階統(tǒng)計(jì)特征參數(shù),但是其運(yùn)算復(fù)雜、統(tǒng)計(jì)量大,一般很少直接使用。為了得到運(yùn)算簡單、分類性能良好的特征參數(shù),文中主要針對(duì)直方圖中重要的DCT系數(shù)進(jìn)行分析研究,并從中提取了以下7個(gè)一階統(tǒng)計(jì)特征參數(shù),它們分別是:5 個(gè)獨(dú)立直方圖參數(shù) ΔH-2、ΔH-1、ΔH0、ΔH1、ΔH2、1個(gè)局部直方圖參數(shù)ΔH和1個(gè)差分直方圖參數(shù)ΔHC。
1.1.1.1 獨(dú)立直方圖參數(shù)
令Hdl(J1)表示待測圖像J1中l(wèi)位置上值等于d的低頻系數(shù)的個(gè)數(shù),則Hdl(J2)表示預(yù)測圖像 J2中相應(yīng)的特征量,構(gòu)建出以下5個(gè)統(tǒng)計(jì)特征參數(shù):
其中,‖·‖表示其中包含的所有元素的絕對(duì)值之和。由于 d 值集中在 0 附近,所以取 d∈{-2,-1,0,1,2}。
1.1.1.2 局部直方圖參數(shù)
令 Hdl(J1)、Hdl(J2)分別表示待測圖像和預(yù)測圖像中 l位置上值等于d的低頻系數(shù)的個(gè)數(shù),根據(jù)下式計(jì)算:
可以得到局部直方圖參數(shù)ΔH。由于d的絕對(duì)值越大,其對(duì)應(yīng)的低頻系數(shù)出現(xiàn)的次數(shù)就越少,因此式(2)中僅針對(duì)-7≤d≤7范圍內(nèi)的低頻系數(shù)的個(gè)數(shù)進(jìn)行統(tǒng)計(jì)。
1.1.1.3 差分直方圖參數(shù)
生態(tài)破壞、氣候異常、環(huán)境污染是壓在我國環(huán)境頭上的“三座大山”。尤其是近年來的霧霾天氣增多,使環(huán)境受到很大污染。碭山縣機(jī)動(dòng)車輛和磚窯廠較多,尾氣、煙霧、灰塵等影響生物進(jìn)行光合作用,對(duì)酥梨的成長不利。寒潮帶來的低溫、大風(fēng)、霜凍等氣象災(zāi)害也會(huì)導(dǎo)致綠色酥梨產(chǎn)業(yè)損失嚴(yán)重。在酥梨的生長過程中,果農(nóng)對(duì)農(nóng)藥使用的習(xí)慣一時(shí)不易改變,酥梨的農(nóng)藥殘留還時(shí)有發(fā)生,這是綠色酥梨生產(chǎn)的大忌。
令Hd表示DCT系數(shù)值d的出現(xiàn)次數(shù) (DCT系數(shù)直方圖中 d對(duì)應(yīng)的柱條高度),取 H-5~H5共 11個(gè)值,以 H0為中心,向兩邊將每相鄰的兩個(gè)Hd做差分,并進(jìn)行歸一化。如式(3)所示:
定義差分直方圖參數(shù)如下:
1.1.2 二階統(tǒng)計(jì)特征參數(shù)
現(xiàn)有的一些隱寫算法在嵌入秘密信息后,可以保持載體圖像的一階統(tǒng)計(jì)特性不變,這使得一階統(tǒng)計(jì)特征參數(shù)可能無法檢測出使用該類型算法的載密圖像。針對(duì)這種情況,本文提取了DCT分塊特性參數(shù)ΔBDCT、DCT塊間相關(guān)性參數(shù)ΔV、以及引入共生矩陣 G(s,t)得到的 ΔS00、ΔS01、ΔS02、ΔS11、ΔS22和ΔS12共8個(gè)二階統(tǒng)計(jì)特征參數(shù)。
1.1.2.1 DCT分塊特性參數(shù)
DCT分塊特性參數(shù)是判斷JPEG圖像是否隱藏有信息的一個(gè)重要特征量。大多數(shù)的JPEG圖像隱寫算法都是將原始圖像分為8×8的小塊后,以塊為單位進(jìn)行秘密信息的嵌入,由于嵌入位置的不均勻,會(huì)引起DCT塊間的邊界產(chǎn)生不連續(xù)性,且嵌入信息越多不連續(xù)性越大。用BDCT表示DCT塊間的邊界不連續(xù)性的測度,計(jì)算公式如下:
分別從待測圖像和預(yù)測圖像中提取出 BDCT(J1)和 BDCT(J2),則DCT分塊特性參數(shù)為:
1.1.2.2 差分直方圖參數(shù)
令H(d)表示DCT系數(shù)值d的出現(xiàn)次數(shù)(DCT系數(shù)直方圖中 d對(duì)應(yīng)的柱條高度),取 H(-5)~H(5)共 11個(gè)值,以H(0)為中心,向兩邊將每相鄰的兩個(gè)做差分,并進(jìn)行歸一化。如式(7)所表示:
得到了DCT系數(shù)的差分直方圖分布頻率h(d)(-5≤d≤5,其中d≠0)。當(dāng)以某種隱寫算法嵌入秘密信息時(shí),會(huì)改變h(d)的分布特性,并且隨著嵌入信息比例的增大,改變的程度越嚴(yán)重?;谶@點(diǎn),定義差分直方圖參數(shù)如下:
1.1.2.3 共生矩陣參數(shù)
由于每個(gè)DCT塊主對(duì)角線左上方區(qū)域的系數(shù)值較大,常被選用于嵌入秘密信息,因此本文選取每個(gè)塊中l(wèi)=0,1,…,14上的DCT系數(shù)作為重要的研究對(duì)象,并引入共生矩陣G(s,t)來描述相鄰DCT塊的系數(shù)值對(duì)(s,t)的概率分布情況,定義如下:
由于DCT系數(shù)值大多集中在0附近,所以取s,t∈{-2,-1,…,2},可以得到5×5的共生矩陣。載體圖像的共生矩陣示意圖以(s,t)=(0,0)為中心具有近似的對(duì)稱性,但是秘密信息的嵌入改變了共生矩陣的這種特性,秘密信息的嵌入比例越大,改變的程度也越大,而且隨著隱寫算法的不同,改變這種特性的方式也不同。
因此,讓 Gs,t(J1)、Gs,t(J2)分別表示待檢測圖像裁剪前后J1、J2的 G(s,t),令 ΔGs,t=Gs,t(J1)-Gs,t(J2), 就 得 到 了 下 面 的 6個(gè)共生矩陣參數(shù):
最小二乘支持向量機(jī)(LeastSquaresSupportVectorMachine,LS-SVM)[8]由于在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢,已經(jīng)被廣泛應(yīng)用于構(gòu)建隱寫分析算法的檢測器之中。這不僅大大降低了計(jì)算的復(fù)雜度,而且在實(shí)際應(yīng)用中可以保持較高的分類準(zhǔn)確度。因此,文中選用LS-SVM來構(gòu)建算法中的分類器。
分類器的目的就是判斷待測圖像中是否含有秘密信息,即檢測識(shí)別載體圖像或載密圖像。實(shí)現(xiàn)的原理框圖如圖1所示,分為訓(xùn)練過程和檢測過程兩個(gè)部分。
圖1 分類器原理框圖Fig.1 Schematic diagram of the classifier
輸入選擇的訓(xùn)練樣本,設(shè)定LS-SVM的參數(shù),經(jīng)過機(jī)器的自學(xué)習(xí)過程,就可以訓(xùn)練得到能夠檢測載密圖像的LSSVM分類器。需要說明的是,分類器中參數(shù)r的σ2設(shè)定,訓(xùn)練樣本中載體圖像與載密圖像比例的選取,訓(xùn)練樣本中載密圖像的類型和信息嵌入比例等,都將直接影響到分類器的檢測性能。關(guān)于這些參數(shù)的優(yōu)化選取,文中也做了大量的相關(guān)實(shí)驗(yàn),由于篇幅所限,這里僅在實(shí)驗(yàn)部分直接使用最后的結(jié)論。
本文算法的實(shí)質(zhì)就是對(duì)每幅待測圖像進(jìn)行統(tǒng)計(jì)分析,提取上述的15個(gè)特征參數(shù),以特征向量的形式輸入到訓(xùn)練好的LS-SVM分類器中,實(shí)現(xiàn)針對(duì)JPEG圖像的檢測。
實(shí)驗(yàn)所用的測試圖像庫包含原始圖像庫和載密圖像庫兩部分。原始圖像庫由300幅原始數(shù)碼照片統(tǒng)一處理成大小為512×512、質(zhì)量因子為75的灰度JPEG圖像構(gòu)建而成。然后,以每幅圖像所能嵌入的最大數(shù)據(jù)長度為衡量標(biāo)準(zhǔn),采用Jsteg、Outgess、MB、F5 4種較為常見的JPEG圖像信息隱寫算法,分別嵌入最大數(shù)據(jù)長度10%,20%……100%比例的秘密信息,得到載密圖像庫。
根據(jù)大量的實(shí)驗(yàn)數(shù)據(jù),當(dāng)選取徑向基函數(shù)(RBF)作為分類器的核函數(shù),設(shè)定訓(xùn)練樣本與測試樣本的比例為4:1,且訓(xùn)練樣本中載密圖像的信息嵌入比例為40%時(shí),得到的LSSVM分類器檢測性能相對(duì)最好。因此,文中按照上述參數(shù)構(gòu)建LS-SVM分類器,每次實(shí)驗(yàn)選取300張?jiān)紙D像和某一算法(Jsteg、Outgess、MB 或 F5)在某種嵌入比例下(例如 20%)的載密圖像300張,研究4種隱寫算法在不同嵌入比例下的檢測性能。為測試算法的穩(wěn)定性,設(shè)定參數(shù)γ=1:1:10、σ=1:1:10,運(yùn)行得到不同參數(shù)組合下的100組實(shí)驗(yàn)數(shù)據(jù),根據(jù)以下公式:
計(jì)算出每組實(shí)驗(yàn)得到的檢測正確率,將所有的檢測正確率的數(shù)值相加并除以100,就得到了平均檢測正確率,平均每次運(yùn)算時(shí)間為1.78 s。實(shí)驗(yàn)結(jié)果如表1所示。
表1 針對(duì)不同隱寫方法在不同嵌入率下的平均檢測正確率(%)Tab.1 The average detection rate of three steganography with different embedding rates(%)
從表1中可以看出:該算法對(duì)原始圖像的檢測率較高;對(duì)于每一種特定的隱寫方法,隨著信息嵌入比例的增大,平均檢測正確率也都會(huì)增大;而當(dāng)信息嵌入率大于40%時(shí),針對(duì)4種隱寫算法的平均檢測正確率均可達(dá)到90%以上。由此可見,文中提出的算法具有較高的檢測率,能夠有效實(shí)現(xiàn)對(duì)載體圖像和各種JPEG載密圖像的正確檢測。
實(shí)驗(yàn)結(jié)果表明,算法中提取的15個(gè)特征參數(shù)具有良好的分類特性,構(gòu)建的LS-SVM分類器運(yùn)算速度快,計(jì)算復(fù)雜度低,針對(duì)各類JPEG圖像隱寫算法具有較高的檢測正確率,能夠達(dá)到通用檢測的目的,在實(shí)時(shí)檢測中具有重要的應(yīng)用價(jià)值。然而,圖像信息隱寫分析是多學(xué)科交叉融合的技術(shù),目前還有很多理論和實(shí)際技術(shù)問題需要完善和解決。如何在全局范圍內(nèi)對(duì)核函數(shù)的選取、最優(yōu)參數(shù)的設(shè)定進(jìn)行優(yōu)化,提高算法中LS-SVM分類器的正確率,將是下一步研究工作的重點(diǎn)。
[1]Petitcolas F A P,Anderson R J,Kuhn M G.Information hiding-a survey[J].Proceedings of IEEE,1999,87(7):1062-1078.
[2]Provos N,Honeyman P.Detecting steganographic content on the internet[C]//In Proceedings of Network and Distributed System Security Symposium,San Diego,CA,2002.
[3]Hsc C T,Wu J L.Hidden digital watermarks in images[C]//IEEE Trans.on Image Processing,1999:58-68.
[4]Provos N.Defending against statistical steganalysis[C]//In 10th USENIX Security Symposium,Washington DC.,2001.
[5]Cachin C.An information-theoretic model for steganography[C]//In Proceedings of 2nd International Workshop on Information Hiding,Berlin:Springer-Verlag,1998(1525):306-318.
[6]Westfeld A.F5-A steganography algorithm:high capacity despite better steganalysis[J].Lecture Notes in Computer Science,2001(2137):289-302.
[7]Fridrich J,Goljan M,Hogea D.Steganalysis of JPEG images:breaking the F5 algorithm[C]//In:Lecture Notes in Computer Science2578,Berlin:Springer-Verlag,2002:310-323.
[8]Suykens J A K,Gestel T V,Brahanter J D,et al.Least squares support vector machines[M].River Edge World Scientific,2002:71-148.
A blind steganalysis algorithm for JPEG images
WANG Xin1, LI Xin1, HU Lei2
(1.Dept.of Transportation Command,Automobile N.C.O Academy of PLA,Bengbu233011,China;2.Cadre Rotational Training Brigade,Automobile N.C.O Academy of PLA,Bengbu233011,China)
A blind steganalysis algorithm for JPEG images was proposed.The algorithm calculates a total of 15 characteristic parameters from each JPEG image, and using LS-SVM classifier to classify cover and stego images, which can apply to blind steganalysis.The experiments results show that,the algorithm has good performance in both detection rate and computation speed,and it is also reliable to steganalysis for all kinds of JPEG images steganography.
steganalysis; DCT coefficients; characteristic parameters; JPEG image
TP309.7
A
1674-6236(2012)05-0129-03
2012-01-12稿件編號(hào):201201052
王 欣(1985—),男,安徽蚌埠人,碩士,助教。研究方向:通信與信息系統(tǒng)。