陳艾倫,陳慶虎,鄢煜塵,熊海亞,周小丹
(武漢大學 電子信息學院,湖北 武漢 430072)
基于因子分析的打印文檔鑒定方法
陳艾倫,陳慶虎,鄢煜塵,熊海亞,周小丹
(武漢大學 電子信息學院,湖北 武漢 430072)
針對現(xiàn)有打印文檔鑒定方法在檢材和樣本中無相同字符時基本失效的問題,提出一種基于因子分離的打印文檔鑒定方法。該方法將字符圖像看作是融入了字符形態(tài)結(jié)構的殘缺紋理圖像,并建立基于灰度共生矩陣特征的2個因子模型,該特征可劃分為紋理因子和字符因子兩部分。通過因子分離方法獲得與字符無關的獨立紋理特征,并利用最小距離分類器來實現(xiàn)打印文檔的同機鑒定。選取35臺激光打印機參與測試,鑒別正確率達94.29%,證明了該方法的有效性。
打印文檔鑒定;因子分析;紋理特征;灰度共生矩陣
隨著數(shù)字技術的發(fā)展和打印機的普及應用,打印文檔逐漸取代手寫文檔成為承載信息的主要媒介。與之相伴的與打印文檔相關的民事糾紛、刑事案件等也越來越多,如篡改法律合同,散播非法傳單,偽造身份證、票據(jù)、護照等。因此,通過有效的文檔取證技術,檢驗文檔是否經(jīng)過編造,以及識別出問題打印材料的打印機類型,對司法和公安部門乃至普通群眾都非常有價值。
由于打印文檔直接來源于打印機,每臺打印機獨有的機械、電氣特性以及器件組合性能的不同通過打印過程均會反映到打印文檔中,因此不同打印機打印的文檔存在差異。Allen[1]在1990年的《國際物證檢驗》期刊上發(fā)表論文,首次分析了根據(jù)打印圖形的差異進行文檔鑒定的可能性,并利用某些明顯打印缺陷判斷源打印機。目前,國內(nèi)外已經(jīng)有很多關于打印文檔鑒定的研究,文獻[2-3]提出利用打印機齒輪傳動系統(tǒng)產(chǎn)生的條帶特征和字符的紋理特征進行打印機鑒別;文獻[4]通過檢測文本行傾斜的角度和兩端對齊的距離查找被篡改的文本行;文獻[5]通過提取多尺度DCT特征訓練支持向量機來識別源機;文獻[6]利用雙極性距離對字符形狀進行匹配來鑒定打印文檔;文獻[7]通過拼接打印字符內(nèi)部紋理的方法來進行文檔檢驗研究;文獻[8]提出利用圖像質(zhì)量評價特征追蹤打印機來源。
目前,大多數(shù)的打印機鑒定方法均是基于文檔中出現(xiàn)頻率較高的字母或者單詞,且檢材與樣本文檔中包含足量的相同字符,而在2份文檔中沒有相同字符的情況下,目前已有的方法基本失效,鑒別率極低。針對這一問題,本文提出一種基于因子分析的打印文檔鑒定方法,將字符圖像看作是融入了字符形態(tài)結(jié)構的殘缺紋理圖像,通過對灰度共生矩陣法獲得的特征進行分析,將影響特征的因素劃分為紋理因子和字符因子兩大類,并通過因子分離方法獲得獨立的紋理特征,從而消除了字符因子的影響,最后利用最小距離分類器來實現(xiàn)文檔鑒定。該方法不僅獲得了良好的鑒別正確率,還擺脫了對文檔內(nèi)容的依賴,擴大了打印文檔鑒定的適用范圍。
影響打印文檔墨粉紋理的因素復雜多樣,不僅包括傳動系統(tǒng)因素,還與墨粉的成分、硒鼓表面附著性能、打印機壓輥的定影性能,以及墨盒中墨粉存量等因素有關,這些因素為打印字符圖像帶來了豐富的紋理細節(jié)特征,使得紋理分析的方法能夠為打印機鑒定提供依據(jù)。為了能夠更好地獲得打印字符圖像的紋理信息,本文所用圖像均由本實驗室自主設計研發(fā)的“圖像整體高倍放大掃描系統(tǒng)”[9]采集獲得。
圖1a是HP-Scanjet-4850高性能掃描儀在4 800 dpi下掃描一個字符“e”的圖像,可以看到圖像整體輪廓十分模糊,而且細節(jié)特征也無法體現(xiàn);圖1b是本文裝置拍攝采集的同一個字符的等大圖像,不僅輪廓清晰分明,而且墨粉噴灑、內(nèi)部紋理等細節(jié)均可完整采集到。圖2是來自4臺不同打印機生成的紋理圖像,可以清楚地看到不同打印機的打印紋理在高倍放大條件下具有顯著差異。
圖1 掃描儀與本文裝置采集的字符圖像比較
圖2 4臺不同打印機生成的紋理圖像比較
2.1 灰度共生矩陣法特征提取
灰度共生矩陣法是由Haralick[10]提出的一種比較成熟有效的紋理描述方法。在圖像的空間位置上,各灰度反復交替變化形成紋理,因此,圖像中相隔一段距離的兩個像素間可能存在著某些灰度關系,這種關系也被稱作是圖像灰度的空間相關,灰度共生矩陣法的基本思想就是通過研究灰度的空間相關來表征紋理。
一幅由水平方向的N個像素、垂直方向的N個像素組成,像素的灰度級數(shù)為H的圖像可以用一個二維函數(shù)f(x,y)(x=1,2,…,N;y=1,2,…,N)來表示?;叶裙采仃囋氐亩x為從灰度值為i的像素沿θ方向出發(fā),統(tǒng)計與其距離為δ、灰度值為j的像素同時出現(xiàn)的頻率P(i,j,δ,θ),其數(shù)學表達式為
f(x,y)=i,f(x+Dx,y+Dy)=j}
(1)
式中:i和j分別表示兩個像素的灰度值,其取值范圍為[0,H-1];δ和θ是灰度共生矩陣的構造參數(shù),其中δ是生成步長,θ是生成方向,θ通常取0°(水平)、90°(垂直)、45°和135°;Dx和Dy是位置偏移量,η是計數(shù)函數(shù),R為相隔δ的2個像素總共有的點對數(shù)。
本文利用灰度共生矩陣法對打印字符圖像提取特征,其中矩陣生成方向取0°(水平)和90°(垂直)兩個方向,對應于打印機的掃描方向和走紙方向;矩陣的生成步長根據(jù)打印紋理粒度大小的估計取20;統(tǒng)計特征取能量、對比度、相關性和熵這4個常用參數(shù),Ulaby[11]等研究者發(fā)現(xiàn)這4個特征值分辨力最好且互不相關。因此特征總維數(shù)為2×20×4=160。
2.2 影響特征的因素
字符圖像可以看作是融入了字符形態(tài)結(jié)構的殘缺紋理圖像。利用灰度共生矩陣法提取特征,其中影響特征的因素主要分為兩類:打印機墨粉堆積紋理的差異(與打印機的型號有關,簡稱紋理因子);英文字母形態(tài)結(jié)構的差異(與打印文檔內(nèi)容有關,簡稱字符因子)。灰度共生矩陣法是經(jīng)典的紋理特征提取方法,因此紋理因子是打印文檔鑒定的基礎,而字符因子則不利于分類鑒別。劃分影響因子的目的就是要從特征中分離出字符因子,獲得獨立的紋理特征,從而在檢材與樣本中沒有相同字符的情況下也可以實現(xiàn)打印機鑒定,接下來對這兩類因子進行建模分析。
2.3 因子分析模型
首先分析紋理因子和字符因子對特征影響的顯著性。通過研究大量的打印文檔樣本,發(fā)現(xiàn)利用灰度共生矩陣法對英文字符提取的特征整體分布近似符合正態(tài)分布,因此可以利用2個因子模型分析特征值。
(2)
(3)
(4)
(5)
(6)
(7)
(8)
則有統(tǒng)計量為
(9)
(10)
(11)
(12)
直觀上,SS反映全體數(shù)據(jù)中的波動;SSA反映由于紋理因子A在各個水平下的不同作用而引起的波動,常數(shù)M表示每個水平Ai在各對水平搭配中出現(xiàn)了M次,SSB的意義與SSA類同;SSe反映由于隨機誤差作用而在數(shù)據(jù)中引起的波動。分別稱SS為總離差平方和,SSA為紋理因子A的離差平方和,SSB為字符因子B的離差平方和,SSe為誤差平方和。且可證
SS=SSA+SSB+SSe
(13)
取顯著性水平為α,可得到紋理因子A的檢驗統(tǒng)計量為
(14)
它在顯著性水平α下的檢驗拒絕域為
FA≥Fα(N-1,NM-N-M+1)
(15)
式中:Fα(N-1,NM-N-M+1)表示在水平α下自由度為(N-1,NM-N-M+1)的F分布。
字符因子B的檢驗統(tǒng)計量為
(16)
它在顯著性水平α下的檢驗的拒絕域為
FB≥Fα(M-1,NM-N-M+1)
(17)
式中:Fα(M-1,NM-N-M+1)表示在水平α下自由度為(M-1,NM-N-M+1)的F分布。即因子A,B顯著性假設成立的條件分別是式(15)和式(17)。
為了驗證紋理因子與字符因子的顯著性假設,本文選取9臺不同型號激光打印機的打印文檔進行實驗,對每份打印文檔抽取同樣的16個不同英文字符組成該文檔的字符集,其中字符圖像的尺寸大小為450×450像素。利用灰度共生矩陣法提取160維特征并進行方差分析。
取顯著性水平α=0.05,可知:Fα(N-1,NM-N-M+1)=F0.05(8,120)=2.02,F(xiàn)α(M-1,NM-N-M+1)=F0.05(15,120)=1.75。
2個因子方差分析結(jié)果如圖3所示。
圖3 兩因子實驗的方差分析結(jié)果
由圖3可知,在α=0.05水平下,利用灰度共生矩陣法所提取特征的FA值均大于Fα(N-1,NM-N-M+1),所以紋理因子對特征的影響是顯著的,這也是利用灰度共生矩陣法可以實現(xiàn)打印文檔鑒定的根據(jù);同時看到所提取特征的FB值也全部大于Fα(M-1,NM-N-M+1),因此字符因子對特征的影響也是顯著的,必須對特征進行因子分離,消除字符因子的影響,獲得獨立的紋理特征。
(18)
1)收集45臺不同型號激光打印機的打印文檔建立數(shù)據(jù)庫,記為p=1,2,…,45,基本涵蓋市場上占有率較高的打印機品牌,每份打印文檔有26個英文字符,記為j=1,2,…,26。
2)利用灰度共生矩陣法對每份打印文檔的每個字符圖像提取160維特征,對于第k維特征可以得到45×26的特征值矩陣。
為驗證上述分析,選取之前參與測試的9臺打印機的打印文檔,對160維特征因子分離后重新進行2個因子方差分析,計算結(jié)果如圖4所示。
圖4 因子分離后的方差分析結(jié)果圖
由圖4可知,經(jīng)過因子分離后,紋理因子對特征影響的顯著性無明顯變化,而FB值均小于Fα(M-1,NM-N-M+1),因此字符因子對特征的影響是不顯著的。
(19)
利用最小距離分類器,即街區(qū)距離最小的2份文檔屬于同一臺打印機。
本文提出的鑒定方法的流程見圖5。首先將整份文檔圖像分割為單個字符圖像,然后利用灰度共生矩陣法提取160維特征,并進行因子分離得到與字符無關的獨立紋理特征,再對文檔中所有字符求取均值獲得該文檔的特征向量,最后通過最小距離分類器來實現(xiàn)打印文檔的同機判定。
圖5 本文方法流程圖
為了測試本文方法的有效性,選取35臺不同型號激光打印機打印的英文文檔進行實驗,每臺打印機各2份,分別建立檢材集和樣本集,每份打印文檔有15個不同英文字符。將檢材集中的每份文檔依次與樣本集中的所有文檔作比對,利用灰度共生矩陣法提取160維特征。
對于同一份打印文檔,分別抽取1,5,10,15個英文字符,計算該文檔字符因子分離前后的特征均值向量,將街區(qū)距離最小的2份文檔判定是同機生成的。實驗鑒別結(jié)果如表1所示。
表1 打印機鑒定實驗結(jié)果
字符個數(shù)灰度共生矩陣法的正確率/%灰度共生矩陣+因子分離法的正確率/%145 7177 14551 4282 861057 1488 571562 8594 29
實驗結(jié)果表明,利用因子分離法對文檔鑒定有明顯的改善效果,在打印文檔中有15個不同英文字符的情況下,準確率為94.29%,達到了較為理想的水平。本文提出的鑒定方法在檢材和樣本無相同字符的情況下,依然可以比較精確地進行打印機同機鑒定,與現(xiàn)有方法的結(jié)果相比,獲得了接近于基于相同字符方法的準確率,大大拓寬了打印文檔鑒定的應用范圍。
傳統(tǒng)的打印文檔鑒定方法均是基于檢材與樣本文檔中的相同字符,當檢材與樣本中沒有相同字符時,鑒別正確率急劇下降。本文首先利用經(jīng)典灰度共生矩陣法提取特征,且通過兩因子方差分析模型驗證了紋理因子與字符因子對特征均具有顯著影響,然后提出一種因子分離方法,獲得與字符無關的獨立紋理特征,并利用最小距離分類器來實現(xiàn)打印機鑒定,取得了良好的識別效果。該方法在傳統(tǒng)方法無法應用的情況下,為打印文檔鑒定提供了一種新思路。
[1] ALLEN M J,HARDCASTLE R A. The distribution of damage defects among characters of printwheel typing elements[J].Forensic Science International, 1990,7(3):249-259.
[2] MIKKILINENI A K,CHIANG P J,ALI G N,et al. Printer identification based on graylevel co-occurrence features for security and forensic applications[C]//Proc. the SPIE International Conference on Security,Steganography,and Watermarking of Multimedia Contents VII. San Jose,CA:[s.n.],2005:430-440.
[3] MIKKILINENI A K,ARSLAN O,CHIANG P J,et al. Printer forensics using SVM techniques[C]//Proc. the IS&T's NIP21, International Conference on Digital Printing Technologies. Baltimore,MD:[s.n.],2005:223-226.
[4] BEUSEKOM J,SHAFAIT F,BREUEL T M. Text-line examination for document forgery detection[J].International Journal on Document Analysis and Recognition (IJDAR),2013,16(2):189-207.
[5] JIANG W,HO A T S,TREHARNE H,et al. A novel multi-size block Benford’s law scheme for printer identification[C]//Proc. Advances in Multimedia Information Processing-PCM 2010. Shanghai:[s.n.],2010:643-652.
[6] 涂巖愷,陳慶虎,鄧偉. 計算機激光打印文檔鑒別與檢索[J].電子與信息學報,2011,33(2):499-503.
[7] 鄧偉. 基于打印墨粉紋理分析的打印文件檢驗研究[J].電子測量技術,2014,37(2):70-74.
[8] 沈林杰,孔祥維,尤新剛. 基于字符圖像質(zhì)量評價的打印機取證[J].東南大學學報:自然科學版,2007,37(S1):92-95.
[9] 陳慶虎,鄧偉,涂巖愷. 圖像整體高倍放大掃描系統(tǒng):中國200920084691[P].2010-01-15.
[10] HARALICK R M,SHANGMUGAM K,DINSTEIN L. Textural features for image classification[J].IEEE Trans. Systems Man and Cybernetics,1973,3(6):610-621.
[11] ULABY F T,KOUYATE F,BRISCO B,et al. Textural information in SAR Images[J].IEEE Trans. Geoscience and Remote Sensing,1986,24(2):235-245.
[12] 盛驟,謝式千,潘承毅. 概率論與數(shù)理統(tǒng)計[M].4版.北京:高等教育出版社,2008.
陳艾倫(1991— ),碩士生,主研圖像處理與模式識別;
陳慶虎(1957— ),博士,教授,主要研究方向為圖像處理與模式識別;
鄢煜塵(1971— ),博士,講師,主要研究方向為圖像處理與模式識別;
熊海亞(1990— ),碩士生,主研圖像處理與模式識別;
周小丹(1992— ),碩士生,主研圖像處理與模式識別。
責任編輯:任健男
Identification Method of Printed Document Based on Factor Analysis
CHEN Ailun,CHEN Qinghu,YAN Yuchen,XIONG Haiya,ZHOU Xiaodan
(SchoolofElectronicInformation,WuhanUniversity,Wuhan430072,China)
A printed document identification method based on factor separation is proposed, since the existing printed document identification methods lose efficacy when there are no identical characters between test and training documents. In the proposed method, the character image is considered as an incomplete texture image integrated with character structure. A two-factor model based on gray-level co-occurrence matrix feature is established, and the feature is decomposed into texture factor and character factor. Thus, character-independent texture feature is obtained, and minimum distance classifier is applied to implement printed document identification. Thirty-five laser printers are selected for testing, and the accuracy can reach to 94.29%, which proves the effectiveness of the proposed method.
printed document identification; factor analysis; texture feature; gray-level co-occurrence matrix
文件檢驗鑒定公安部重點實驗室(中國刑事警察學院)基金資助項目(11KFKT002);公安部重大項目(2014JSYJA017)
TP391.4
A
10.16280/j.videoe.2015.18.022
2015-07-01
【本文獻信息】陳艾倫,陳慶虎,鄢煜塵,等.基于因子分析的打印文檔鑒定方法[J].電視技術,2015,39(18).