?
量化激光打印機(jī)打印文件墨跡形態(tài)微觀特征分析研究
牟小彬,王潔,程衛(wèi)國
(上海市公安局,上海200083)
摘要:目的探索區(qū)分不同激光打印機(jī)打印樣本的量化分析方法。方法運(yùn)用“圖像掃描分析系統(tǒng)”對打印件上由制造工藝等因素引起的,人眼無法辨識的微觀特征如打印字跡的灰度、背景噪聲點(diǎn)面積等相關(guān)參數(shù)進(jìn)行量化測量研究和數(shù)據(jù)分析。結(jié)果使用15項參數(shù)組合,能夠?qū)?8臺不同型號激光打印機(jī)3 600頁打印樣本中的3 596頁正確分類,正確率為99.8%。結(jié)論通過上述15項參數(shù)可區(qū)分不同類型的激光打印機(jī),此方法對于不同類型激光打印機(jī)中等打印量的打印樣本分類具有可行性。
關(guān)鍵詞:文件檢驗;激光打?。晃⒂^特征;量化
目前,司法鑒定中打印文件檢驗的主要依據(jù)是打印機(jī)具在文件頁面上留下的明顯故障性特征。隨著制造業(yè)工藝的日益精湛,明顯的故障特征在樣本上出現(xiàn)機(jī)率降低,傳統(tǒng)檢驗方法面臨困境。ImageXaminer圖像掃描分析系統(tǒng)可對打印文件的灰度、線條打印質(zhì)量、炭粉附著性、色間滲透等參數(shù)進(jìn)行測量,對打印文件質(zhì)量進(jìn)行量化分析。
決策樹算法(Decision Tree)是一種典型的分類方法,首先利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程,由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。通過決策樹算法分析,可以找出不同打印機(jī)打印樣本的分類規(guī)則,從而發(fā)現(xiàn)ImageXaminer圖像掃描分析系統(tǒng)中與打印機(jī)分類相關(guān)性較強(qiáng)的測量參數(shù),為打印機(jī)的鑒別提供新的檢驗思路。
本文運(yùn)用“圖像掃描分析系統(tǒng)”對打印件上由制造工藝等因素引起的,肉眼難以辨識的微觀特征,如打印字跡的灰度、背景噪聲點(diǎn)面積等相關(guān)參數(shù)開展量化研究。并結(jié)合決策樹算法對不同型號激光打印機(jī)打印樣本進(jìn)行分類,為不同激光打印機(jī)的鑒別提供依據(jù)。
1.1儀器
ImageXaminer圖像掃描分析系統(tǒng)(美國ImageX-pert公司),配置:EPSON Experssion 10000XL真實(shí)光學(xué)分辨率2400dpi掃描儀、EPSON A3 Automatic Doc-ument Feeder文件自動輸入儀、imac27英寸電腦、ImageXpert圖像專家軟件。掃描儀參數(shù)設(shè)置見表1。
1.2材料
選取市場上9個主流品牌共18種型號的激光打印機(jī)各1臺,將其分別編號為01~18號打印機(jī)(見表2)。使用同一電子文檔(文檔為案件中常用漢字“的、了、法、是、我”隨機(jī)組合而成),在同一品牌A4幅面紙張上打印文件200頁,分別編號為010001~010200、02000~020200、……180001~180200。
1.3數(shù)據(jù)分析軟件
本文選擇決策樹C4.5算法建立數(shù)學(xué)模型,使用數(shù)據(jù)挖掘軟件Weka作為模型建立工具,貝爾實(shí)驗室開發(fā)的Graphviz作為模型結(jié)果的呈現(xiàn)方法。
1.4測試條件
1.4.1灰度閾值設(shè)定
由于打印機(jī)品牌、型號、使用環(huán)境等相關(guān)因素的影響,打印件打印文字墨跡墨粉堆積感及底灰不同,即墨跡的灰度不同。在灰度圖象中的每個像素都是從0~255的亮度值,通常把0定義為“黑”,255定義為“白”。閾值就是臨界值,是基于圖片亮度的一個分界值,默認(rèn)值是50%中性灰(即128),也就是當(dāng)選擇灰度閾值為128時,亮度低于128即被認(rèn)為“黑”,在對打印件相關(guān)參量進(jìn)行測量時,可以自行定義閾值,而閾值的確定決定了準(zhǔn)入計算的亮度值。通過適當(dāng)?shù)拈撝翟O(shè)定,可以充分地識別文件上的墨點(diǎn):當(dāng)閾值過小時,無法識別筆畫中較淡的墨跡;反之,當(dāng)閾值過大時,會將紙纖維上的細(xì)微疵點(diǎn)計入在內(nèi)。為了全面反映各樣本的量化測量情況,實(shí)驗中選擇亮度較深的80、中間值117、默認(rèn)值128、亮度較淺的160四種閾值設(shè)置。
1.4.2最小準(zhǔn)入面積設(shè)定
打印機(jī)墨跡的連通區(qū)域測量過程中可以自定義參與計算的最小墨跡面積,該設(shè)置最小值為1,即1為最小的數(shù)量級,系統(tǒng)默認(rèn)最小值為100,可自行設(shè)定任意值。系統(tǒng)會根據(jù)最小測量面積選擇參與測量的墨點(diǎn),為了充分反映筆畫周圍的細(xì)微墨點(diǎn)分布情況,實(shí)驗中選擇最小測量面積為1。
1.4.3測試參數(shù)
ImageXaminer圖像掃描分析系統(tǒng)可實(shí)現(xiàn)圖像增強(qiáng)、圖像形態(tài)改變、目標(biāo)區(qū)域運(yùn)算、面積測量、灰度測量、線條、邊緣測量、連通區(qū)域測量、相關(guān)區(qū)域測量、霍夫變換算法、向量、文字識別、二維碼解碼、條紋測量等測量運(yùn)算。在實(shí)驗過程中對適用于打印文件整幅測量的參數(shù)進(jìn)行篩選,發(fā)現(xiàn)連通區(qū)域測量、灰度測量、面積測量三類參數(shù)適用于打印文件整幅測量(見表3)。
表1 掃描儀參數(shù)設(shè)置
表2 實(shí)驗用激光打印機(jī)品牌、型號
表3 測試參數(shù)
連通區(qū)域測量(connectivity)是根據(jù)設(shè)定的像素極性(polarity)、灰度閾值(threshold)、最小準(zhǔn)入面積(blob criteria)等測量條件,將待測目標(biāo)區(qū)域中的字符劃分為若干個連通區(qū)域,并對具有相同明暗極性的連通像素群(part)或由相同明暗極性像素群圍成的整塊像素群(包括該像素群中的明、暗兩類像素)(blob)的面積、周長、圓度、背景噪聲等微觀特征進(jìn)行量化測量。
灰度值測量(gray)是根據(jù)設(shè)定的像素極性(polarity)、灰度閾值(threshold)等測量條件,對明、暗像素的灰度、明暗線條數(shù)量、對比度等微觀特征進(jìn)行量化測量。
面積測量(area)是根據(jù)設(shè)定的像素極性(polarity)、灰度閾值(threshold)等測量條件,對明暗像素的面積、面積比值等微觀特征進(jìn)行量化測量。
1.5數(shù)據(jù)測量與分析
使用ImageXaminer圖像掃描分析系統(tǒng)對3 600份樣本進(jìn)行掃描錄入,并選取等大的目標(biāo)區(qū)域?qū)ι鲜?9種116項測量參數(shù)進(jìn)行整幅測量。通過決策樹C4.5算法建立數(shù)學(xué)模型,使用數(shù)據(jù)挖掘軟件Weka作為模型建立工具,貝爾實(shí)驗室開發(fā)的Graphviz作為模型結(jié)果呈現(xiàn)方法,訓(xùn)練模型見圖1。
圖1 決策樹模型
2.1閾值選擇對分類結(jié)果的影響
ImageXaminer圖像掃描分析系統(tǒng)會根據(jù)閾值選擇所測部分,閾值設(shè)定不同,同一參數(shù)的測量值會隨之變化。閾值設(shè)定為亮度較深的80,一些淺淡的筆畫不參與計算;設(shè)定為中間值117,筆畫周圍的散落墨粉點(diǎn)基本不參與計算;設(shè)定為默認(rèn)值128,筆畫周圍的散落墨粉點(diǎn)大部分參與計算;設(shè)定為亮度較淺的160,除筆畫周圍的散落墨粉外,頁面上的散落墨粉點(diǎn)和部分紙張纖維疵點(diǎn)也參與計算。研究發(fā)現(xiàn),連通區(qū)域測量時,閾值設(shè)定為160,部分樣本超出了其測量的閾值范圍,樣本無測量值,數(shù)值顯示為0,若出現(xiàn)這種情況,則舍棄該參數(shù)值?;叶乳撝颠x擇80、117、128、160四種閾值設(shè)置,可以較為全面反映各樣本的量化測量情況。此外,閾值設(shè)置不同,打印文件的分類情況也發(fā)生了變化,圖2中閾值為80的灰度標(biāo)準(zhǔn)差參數(shù)無法區(qū)分3號、12號打印機(jī),而圖3中閾值為117的灰度標(biāo)準(zhǔn)差參數(shù)則可區(qū)分3號、12號打印機(jī);圖3中閾值為117的灰度標(biāo)準(zhǔn)差參數(shù)無法區(qū)分10號、15號打印機(jī),而圖2中閾值為80的灰度標(biāo)準(zhǔn)差參數(shù)則可區(qū)分10號、15號打印機(jī)。
圖2 閾值為80的灰度標(biāo)準(zhǔn)差
圖3 閾值為117的灰度標(biāo)準(zhǔn)差
表4 最小測量面積為1時,閾值為128的字塊面積標(biāo)準(zhǔn)差值
根據(jù)決策樹分析篩選出的打印機(jī)分類強(qiáng)相關(guān)系數(shù),閾值為80的測量參數(shù)有7項,閾值為117的測量參數(shù)有5項,閾值為128的測量參數(shù)有2項,閾值為160的測量參數(shù)有1項,若需固定閾值,設(shè)定為低于默認(rèn)值128的灰度閾值會取得較好的分類效果。
2.2最小準(zhǔn)入面積對分類結(jié)果的影響
在連通區(qū)域測量時,ImageXaminer圖像掃描分析系統(tǒng)可自定義參與計算的最小墨跡面積,系統(tǒng)會根據(jù)最小測量面積選擇參與測量的墨點(diǎn),最小準(zhǔn)入測量面積不同,同一參數(shù)的測量值也會隨之變化。為確定最小準(zhǔn)入面積設(shè)定對分類結(jié)果的影響,抽取1~5號打印機(jī)各10頁樣本,將最小準(zhǔn)入面積分別設(shè)置為系統(tǒng)默認(rèn)值100和系統(tǒng)最小值1,比較其參數(shù)測量結(jié)果,發(fā)現(xiàn)最小準(zhǔn)入面積設(shè)置為1的打印機(jī)區(qū)分效果優(yōu)于最小準(zhǔn)入面積設(shè)置為100。如當(dāng)最小測量面積為1時,閾值為128的字塊面積標(biāo)準(zhǔn)差可區(qū)分1號、4號打印機(jī),而最小測量面積為100時,1號、4號打印機(jī)則無法區(qū)分,測量數(shù)值(見表4~5)。
2.3決策樹模型分類結(jié)果
從決策樹模型中可以看出:使用閾值為117、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差,閾值為117、最小準(zhǔn)入面積為1的字塊灰度平均值,閾值為80的灰度眾數(shù)值,閾值為80的中位灰度值,閾值為128、最小準(zhǔn)入面積為1的字塊灰度平均值,閾值為80的灰度標(biāo)準(zhǔn)差,閾值為128、最小準(zhǔn)入面積為1的字塊平均面積,閾值為80、最小準(zhǔn)入面積為1的字塊圓度標(biāo)準(zhǔn)差,閾值為117的灰度標(biāo)準(zhǔn)差,閾值為160、最小準(zhǔn)入面積為1的字塊圓度標(biāo)準(zhǔn)差,閾值為80、最小準(zhǔn)入面積為1的墨塊數(shù)量,閾值為80、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差,閾值為117、最小準(zhǔn)入面積為1的墨塊總周長,閾值為80的面積比值,閾值為117、最小準(zhǔn)入面積為1的字塊總周長等15項參數(shù)組合,能夠分類18臺激光打印機(jī)打印樣本,經(jīng)測試集測試3 600頁打印樣本中3 596頁分類正確,正確率為99.8%,并且得到的決策樹只有8層,結(jié)構(gòu)簡單。
2.4模型驗證與評價
選取辦公用激光打印機(jī)3臺,其中HP LaserJet P2015dn型2臺,編號分別為19、20號機(jī);FUJI Xerox P255d型1臺,編號為21號機(jī)。在相同實(shí)驗條件下,每臺打印機(jī)連續(xù)打印樣本3頁,1個月后再連續(xù)打印樣本3頁,收集樣本共計15頁(編號如下:1190001~1190003、2190001~2190003、1200001~1200003、2200001~2200003、1210001~1210003、2210001~2210003),使用ImageXaminer圖像掃描分析系統(tǒng)對上述15份樣本進(jìn)行掃描錄入,并選取等大的目標(biāo)區(qū)域?qū)Υ蛴∥募M(jìn)行整幅測量。決策樹模型篩選出的15項打印機(jī)分類強(qiáng)相關(guān)參數(shù)測量結(jié)果見表6。
續(xù)表6
通過上述測量結(jié)果發(fā)現(xiàn):
(1)21號機(jī)與19、20號機(jī)在上述15項參數(shù)值上均存在明顯差別;19、20號機(jī)由于品牌、型號相同,上述15項參數(shù)測量值比較接近。從19~21號機(jī)的測量結(jié)果與1~18號機(jī)的參數(shù)自身變化程度比較中可進(jìn)一步發(fā)現(xiàn),19、20號機(jī)與21號機(jī)在閾值為117、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差參數(shù)項上的差別程度分別為19.6%、19.1%,而18臺實(shí)驗用打印機(jī)自身變化的最大幅度為18.6 %;在閾值為117、最小準(zhǔn)入面積為1的字塊灰度平均值參數(shù)項上的差別分別為14.3%、17.2%,而18臺實(shí)驗用打印機(jī)自身變化的最大幅度為10.2 %;在閾值為80的灰度標(biāo)準(zhǔn)差參數(shù)項上的差別分別為9%、7.8 %,而18臺實(shí)驗用打印機(jī)自身變化的最大幅度為4.3%;在閾值為117的灰度標(biāo)準(zhǔn)差參數(shù)項上的差別分別為7.5 %、6.6 %,而18臺實(shí)驗用打印機(jī)自身變化的最大幅度為3.8%;在閾值為117、最小準(zhǔn)入面積為1的墨塊總周長參數(shù)項上的差別分別為7.6 %、10.3%,而18臺實(shí)驗用打印機(jī)自身變化的最大幅度為7.2%,5項參數(shù)的差別程度均大于18臺實(shí)驗用打印機(jī)自身變化的最大幅度,該決策樹模型篩選出的測量參數(shù)組合可為區(qū)分不同種類打印機(jī)提供判別依據(jù)。
(2)19、20號打印的參數(shù)測量值雖較為接近,但在打印量跨度較小的情況下,不同機(jī)臺打印樣本的參數(shù)測量值之間存在一定差別,如2190001~2190003 與1200001~1200003雖在閾值為80、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差上較為接近,但在閾值為80的灰度標(biāo)準(zhǔn)差上存在明顯差別,該模型篩選出的部分參數(shù)組合,可為區(qū)分打印量跨度較小的同品牌同型號不同打印機(jī)提供判別依據(jù)。
(3)同一打印機(jī)相隔一個月的樣本在閾值為117、最小準(zhǔn)入面積為1的字塊灰度平均值,閾值為128、最小準(zhǔn)入面積為1的字塊灰度平均值,閾值為80的灰度標(biāo)準(zhǔn)差,閾值為117的灰度標(biāo)準(zhǔn)差,閾值為80的面積比值等參數(shù)值上存在較為明顯的差別,且20號機(jī)的變化幅度較大。經(jīng)統(tǒng)計20號打印機(jī)一個月的打印量約為200頁,19、21號機(jī)一個月的打印量約為50頁,打印文件的參數(shù)測量值隨打印量發(fā)生變化,該模型篩選出的部分參數(shù)組合,可為區(qū)分同一打印機(jī)不同時期的打印樣本提供判別依據(jù)。
(1)通過決策樹模型分析,發(fā)現(xiàn)116項參數(shù)中閾值為117、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差,閾值為117、最小準(zhǔn)入面積為1的字塊灰度平均值,閾值為80的灰度眾數(shù)值,閾值為80的中位灰度值,閾值為128、最小準(zhǔn)入面積為1的字塊灰度平均值,閾值為80的灰度標(biāo)準(zhǔn)差,閾值為128、最小準(zhǔn)入面積為1的字塊平均面積,閾值為80、最小準(zhǔn)入面積為1的字塊圓度標(biāo)準(zhǔn)差,閾值為117的灰度標(biāo)準(zhǔn)差,閾值為160、最小準(zhǔn)入面積為1的字塊圓度標(biāo)準(zhǔn)差,閾值為80、最小準(zhǔn)入面積為1的墨塊數(shù)量,閾值為80、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差,閾值為117、最小準(zhǔn)入面積為1的墨塊總周長,閾值為80的面積比值,閾值為117、最小準(zhǔn)入面積為1的字塊總周長等15項參數(shù)對于激光打印機(jī)打印樣本分類具有較強(qiáng)的相關(guān)性,可以用于打印樣本區(qū)分。
(2)根據(jù)決策樹模型分類結(jié)果及19~21號機(jī)的測試結(jié)果,5號機(jī)(惠普P2055d)與6號機(jī)(惠普M401dn),9號機(jī)(兄弟HL-2250DN)與10號機(jī)(兄弟HL-2240D),11號機(jī)(理光SP310DN)與12號機(jī)(理光SP200),15號機(jī)(柯尼卡美能達(dá)MAGICOLOR 1650EN)與16號機(jī)(柯尼卡美能達(dá)MAGICOLOR 1700W)樣本在接近樹的底層才被區(qū)分開來,19、20號機(jī)(HP LaserJet P2015dn)的參數(shù)測量值差別較小。說明品牌相同、檔次接近的激光打印機(jī)在上述15項參數(shù)測量值上較為接近,在打印量跨度較大的情況下,同品牌同型號的激光打印機(jī)較難通過量化測量的方法區(qū)分。
(3)從19~21號打印機(jī)的測量結(jié)果可以看出,打印量對激光打印文件參數(shù)測量值的變化有著較大影響,可在打印量跨度較小的情況下,通過量化測量方法區(qū)分同品牌同型號不同打印機(jī)打印樣本以及同一打印機(jī)不同時期的打印樣本。
(4)本研究是對18臺打印機(jī)連續(xù)打印的200頁樣本建立數(shù)學(xué)模型,發(fā)現(xiàn)通過閾值為117、最小準(zhǔn)入面積為1的字塊面積標(biāo)準(zhǔn)差等15項參數(shù)組合可以區(qū)分18臺打印機(jī)打印樣本,并將該實(shí)驗結(jié)果應(yīng)用于3臺辦公用激光打印機(jī)的區(qū)分,發(fā)現(xiàn)通過上述15項參數(shù)可區(qū)分不同類型的激光打印機(jī),此方法對于不同類型激光打印機(jī)中等打印量的打印樣本分類具有可行性。
參考文獻(xiàn):
[1]梁政,韓星周,郝紅光.利用ImageXpress系統(tǒng)灰度特征區(qū)分激光打印復(fù)印一體機(jī)的打印及復(fù)印文件初探[J].刑事技術(shù),2013,38(4):36-40.
[2]韓星周,梁政,郝紅光.激光連續(xù)打印文件特征變化的實(shí)驗探究[C].北京:中國人民公安大學(xué)出版社,2013:91-93.
[3]王潔,牟小彬,程衛(wèi)國.噴墨類打印機(jī)打印文件量化分析研究初探[C].北京:中國人民公安大學(xué)出版社,2013:86-91.
[4]Tan PN,Steinbach M,Kumar V. Introduction to data mining[M]. New Jersey: Addison Wesley,2005:150-168.
[5]Rokach L,Maimon O. Data Mining with Decision Trees[M]. Singapore :World Scientific Publishing Company,2008:77-81.
(本文編輯:張清華)
鑒定制度
Forensic System
Quantitative Study on the Microscopic Morphological Characteristics of Laser Printed Documents
MU Xiao-bin,WANG Jie,CHENG Wei-guo
(Shanghai Municipal Public Security Bureau,Shanghai 200083,China)
Abstract:Objective To establish a quantitative method for the classification of printed samples produced by different laser printers. Method A quantitative measurement and data analysis of the gray scale of printed contents,background and other related parameter terms was conducted using the ImageXaminer. Results 3 596 out of 3 600 pages of printed samples produced by 18 different laser printers were correctly classified based on the comprehensive analysis of 15 parameter terms. The accuracy of classification was 99.8%. Conclusion These 15 parameter terms can be used to distinguish samples of different types of laser printers.
Key words:questioned document examination; laser printing; microscopic characteristics; quantification
作者簡介:牟小彬(1981—),女,高級工程師,碩士,主要從事文件檢驗研究。E-mail: gaomusihuo@163.com。
基金項目:上海市公安局科研項目(NO.2014002)
收稿日期:2015-03-06
文章編號:1671-2072-(2015)05-0056-07
doi:10.3969/j.issn.1671-2072.2015.05.011
文獻(xiàn)標(biāo)志碼:A
中圖分類號:DF794.2