趙克堅 廖海斌
(1.咸寧市中心醫(yī)院(湖北科技學院附屬第一醫(yī)院)計算機中心 咸寧 437100)
(2.湖北科技學院計算機科學與技術(shù)學院 咸寧 437100)
隨著現(xiàn)代科技的發(fā)展,人們的生活越來越數(shù)字化,打印機逐漸普及,與之相伴隨的打印文件相關的民事糾紛、刑事案件等也越來越多。如偽造合同、證件,傳播恐嚇、煽動性文書等。打印文件是重要的物證或線索,鑒定問題文檔是否被篡改或者辨別此打印問題文檔的打印機源能給案件偵破提供有價值的援助。此外,驗證印刷證件、打印票據(jù)等的真?zhèn)我矘O為重要。
針對一些特定的打印文檔,目前的鑒別技術(shù)已經(jīng)可以利用水印[1~2]、安全纖維、全息圖[3]或者特殊的墨水[4]等特征來識別真?zhèn)?,但是這類安全技術(shù)往往花費較大,需要特殊的設備來植入安全特征,對普通用戶來說成本太昂貴。因此,利用計算機圖像處理和人工智能方法來自動鑒定打印文檔具有重要的理論意義和應用價值。
計算機打印文件鑒定技術(shù)研究開始于21 世紀,目前研究者相對較少。J. Oliver 和J. Chen[5]利用計算機統(tǒng)計打印字符的面積特征,通過相同字符是否存在不同面積來判斷文件中是否有非法偽造的內(nèi)容。該方法簡單,計算速度較快,但是判斷的依據(jù)并不嚴密,效果并不理想。美國Purdue 大學2002 年成立了傳感器與打印機鑒定實驗室(PSAPF),其成果主要有:研究了激光打印機的齒輪傳動裝置的齒咬合誤差與大齒輪的離心率誤差對打印圖像造成的明暗間隔的條紋特征;通過提取字符“e”的灰度共生矩陣等來提取紋理特征,并分別利用5 近鄰分類器與SVM 方法進行分類[6~10]。Tsai 等提出利用離散小波變換和特征選擇方法來識別彩色激光打印機[11]。Akao 等通過最大熵方法估計正齒輪數(shù)目來識別噴墨打印機[12]。王寧、韓國強[13]等利用掃描采集的打印字符的筆畫總面積和筆畫輪廓總周長等特征值建立單字信息庫來識別文檔的來源機型。鄧偉、涂巖愷、陳慶虎等[14~17]設計并開發(fā)了圖像整體顯微放大系統(tǒng)來采集打印文檔的整體細節(jié)圖像信息,并采用圖形匹配算法、雙極性Hausdorff 距離、小尺度小波域特征的半影條紋特征提取方法等多種方法進行打印文檔的源機識別??偟恼f來利用計算機進行打印文件鑒定取得了一定的成果,但識別率仍需進一步提高。
國外學者利用計算機進行打印文件鑒定的研究時,訓練文件與識別文件常取相同的字符內(nèi)容,如出現(xiàn)頻率高的字母”e”或單詞”the”。國內(nèi)學者也往往是取相同字符內(nèi)容的樣本進行匹配分類。而對中文打印文件來說,很可能識別文件與訓練文件中的內(nèi)容存在很少相同字符甚至不存在相同字符,這樣顯著增加了識別的難度。這是因為相同字符的非同機距離明顯小于不同字符的同機距離。為了更好地研究訓練與識別文件字符內(nèi)容不一致時的打印機文檔鑒定問題,本文將影響打印字符形態(tài)特征的因素從來源上劃分為兩類,由打印機的不同如打印機部件的參數(shù)不一致、器件不同等引入的差異稱為打印機因素或打印機因子,是一種風格因子;由字符本身的文本內(nèi)容的不同引入的差異稱為文本因素或文本因子,是一種內(nèi)容因子。對打印文件鑒定來說,打印機因子是有效因子,而文本因子是干擾因子。本文提出將因子分析模型的方法用于打印字符的二次特征提取,通過雙線性方法進行因子分解,提取特征矩陣的打印機因子,降低文本因素對識別的干擾,從而提高了對打印文檔源機的識別率。
把內(nèi)容和風格看作影響一個事物的兩個互相獨立的因素[18],它們決定了事物的觀測。比如:語音信號中,表示語音文本即語義信息的是內(nèi)容因子,表示說話人的音色、說話語氣和聲調(diào)等信息的是風格因子;手寫筆跡中,表示這個樣本是哪個字符的信息是內(nèi)容因子,表示這個樣本是哪個人寫的是風格因子[19];多字體印刷字符中,表示字符文本信息的是內(nèi)容因子,表示字符字體信息的是風格因子;在人臉圖像中,正規(guī)人臉(正面,中性,光照歸一化)是內(nèi)容因子,而人臉的姿態(tài)、光照、表情等變化是風格因子[20]。同樣的,在打印文檔中,由打印機的不同引入的差異是風格因子,也可稱作打印機因子;由字符文本內(nèi)容的不同引入的差異是內(nèi)容因子,也可稱作文本因子。打印文檔鑒定的目的就是根據(jù)打印機風格信息識別出此文檔出自何臺打印機,如果能將影響打印字符特征的文本內(nèi)容信息分離出來,提取出內(nèi)容無關的特征,將有利于打印文檔鑒定?;诖怂枷?,本文提出基于因子分析模型的打印字符二次特征提取方法,通過雙線性方法分離出打印機因子和文本因子,從而提取近似文本獨立的打印字符特征。
如果打印字符內(nèi)容bj∈?J具有風格ai∈?I,那么打印字符的觀測y ∈?K可以用雙線性表示:其中,k ∈[1,K]表示打印字符觀察向量中第k 維特征,符號s 和c 分別標記風格和內(nèi)容,wijk表示內(nèi)容與風格的交互作用關系。為了使因子分析模型更具靈活性,假定交互作用項wijk隨著內(nèi)容變化而變化,設,則式(1)變?yōu)?/p>
設Bc表示K*I 維的矩陣,元素分別為,則式(2)可寫為更簡潔的因子分析模型形式:
例如,將雙線性模型應用到不同字體的印刷字符集中。則字體的信息為風格因子,字符本身是內(nèi)容因子,結(jié)果如圖1 所示。每一個字符都可以由基本內(nèi)容因子矩陣和字體因子系數(shù)的來表示,如果要重建一個特定字體下特定內(nèi)容的字符,只需要將基本矩陣進行字體系數(shù)加權(quán)線性組合即可。
因子分析模型的匹配求解目標是在訓練階段使所有樣本的總平方誤差最小化。設第t 次訓練觀測值為y(t),其中t=1,2,…,T 。 設指示變量為hsc(t),其中
因此,因子分析模型的全部訓練集的總平方誤差E為
如果訓練樣本中,對各種風格s和內(nèi)容c的觀測數(shù)量相等,那么利用奇異值分解(SVD)就可以得到因子分析模型的最優(yōu)擬合結(jié)果。
圖1 三種字體的雙線性模型分解圖
在打印機鑒定中,設打印機為s,文本為c的觀測均值為
明顯的,這些觀測矩陣是3 維的,為了利用標準的矩陣算法,把SC個K維行向量轉(zhuǎn)為S*(KC)維的二維矩陣,表示如下:其中為K維觀測均值向量。則式(3)可表示為更為簡潔的矩陣形式:其中,為S*I維矩陣,表示打印機因子的參數(shù)矩陣;為I*(KC)維矩陣,表示文本因子的參數(shù)矩陣。
為了得到打印機因子和文本因子參數(shù)的最小方差估計,利用SVD計算Yˉ=USVT,S的對角線元素按特征值的大小取降序排列。則A可取U矩陣的前I列,B可取SVT矩陣的前I行。模型的維數(shù)I的大小可以根據(jù)先驗知識或者實驗效果來定。
假設測試數(shù)據(jù)來自訓練數(shù)據(jù)中S臺打印機的某一臺,但是字符內(nèi)容與訓練數(shù)據(jù)不一樣。設打印機因子為as,新的文本因子為Bc?。假設打印機s的新文本c?的觀測數(shù)據(jù)y服從高斯分布,其均值為雙線性預測值,方差為σ2,則
y的整體概率密度分布則為
根據(jù)先驗知識,p(s,c?)為均勻分布。下面采用EM 算法循環(huán)迭代來得到新的文本因子Bc?和描述測試數(shù)據(jù)的最佳標簽
E-步:對打印機為s,文本為c?的觀測數(shù)據(jù)y計算概率密度函數(shù):
M-步:估計新的文本因子Bc?,使得對數(shù)似然概率最大。令
新的Bc?則可以由解出:
EM迭代具體算法如下:
1)初始化文本因子Bc?;
2)計算出式(11)E-步中觀測值y的后驗概率
3)根據(jù)式(13)更新文本因子Bc?的值;
4)重復步驟2)3),直至兩次計算得出p(s,c?|y)的差值小于閾值或迭代次數(shù)超出規(guī)定的最大次數(shù)。EM 算法收斂于L的局部最大值,測試數(shù)據(jù)就可以根據(jù)使得后驗概率最大的類別s來分類。對于EM 算法來說,初始化是非常重要的。由于本文主要關注的是識別性能,所以初始化采用最近鄰方法,即對于每個測試數(shù)據(jù)向量,文本因子取與之最相近字符的文本因子。
為了測試上述基于因子分析模型的打印文件鑒定的有效性,建立了包括40 臺激光打印機的打印文件數(shù)據(jù)庫。這些打印機包括一些常用品牌及多種型號,見表1。對40 臺打印機分別采樣,每臺打印機打印兩張文件,一張用作訓練,一張用作測試。每張文件的打印內(nèi)容是1100 個一級常用漢字,采用宋體、小四號打印。利用圖像整體高倍放大系統(tǒng)采集每張訓練文件的504 個字符和每張測試文件的另外504 個完全不同內(nèi)容的字符,經(jīng)過預處理,切割,字符內(nèi)容自動識別,這樣就構(gòu)成了40份樣本、每份樣本504個字的訓練庫和40份字符內(nèi)容與訓練庫完全不同的測試庫。
表1 實驗中打印機編號和型號
首先取一臺打印機的兩張文件,記為A1,A2,取另外一臺打印機的一張文件,記為B2。對3張文件中每個字符提取反映字符形狀的8 維矩特征,并求出A1與A2之間的距離,記為D1,求出A1與B2之間的距離,記為D2。則D1 表示同一臺打印機不同字符內(nèi)容的距離,如圖2 中星形點所示;D2 表示不同打印機同樣字符內(nèi)容的距離,如圖2 中菱形點所示。可以看出,同一臺打印機不同字符之間的距離遠大于不同打印機同樣字符之間的距離。即文本因子對字符特征的影響非常顯著,遠大于打印機因子。因此,打印機因素在字符形態(tài)特征中是一種弱信號,容易受到文本因素強信號與誤差因素的干擾,這也影響了打印文件鑒別的準確率。
采用本文提出的方法進行打印機因子和文本因子的分離后,對A1,A2 和B2 的打印機因子按上述方法分別求距離,如圖3 所示??梢钥闯?,同一臺打印機不同字符之間的距離已經(jīng)小于不同打印機同樣字符之間的距離。即文本因子對字符特征的影響顯著降低,打印機因子的影響更加顯著。
圖2 不同字符的同機距離和相同字符的非同機距離比較
下面進行識別實驗。采用矩特征(MF)、方向指數(shù)直方圖(DIH)和Wigner 特征(WF)這三種方法進行特征提取,對提取出來的特征矩陣分別用本文方法和歐式距離方法進行一對一的鑒別實驗,其中本文方法是將EM 算法后所得的后驗概率與閾值比較,歐式距離方法是將特征距離與閾值比較,若大于閾值則判斷為同機打印,統(tǒng)計正確鑒別數(shù),實驗結(jié)果如表2 所示。另外實驗結(jié)果也與文獻[18]所用方法(記為方法1)比較,其中方法1 的訓練庫和測試庫中每兩份文檔之間平均有50 個左右的相同字符,而本文實驗的訓練庫和測試庫完全無相同字符。3種方法列出的均為最優(yōu)閾值的實驗數(shù)據(jù)。
可以看出,特征矩陣經(jīng)過因子分析模型分離打印機因子和文本因子以后,文本因素的影響顯著降低,獲得近似文本獨立的特征,在檢材與樣本之間沒有任何相同字的情況下識別率顯著提高。但是相比有50 個相同字情況下的識別率仍然有一定差距,說明文本因子的挖掘并不徹底,分離以后的特征仍然殘留有部分的文本因子的影響,這可能是特征矩陣與雙線性模型之間不完全契合所導致的。下一步工作中,考慮將特征矩陣先進行變換處理,使之更符合雙線性模型,然后再進行變換。另外,會考慮采用新的模型進行因子估計與因子分離,比如非線性模型。
圖3 因子分離后不同字符的同機距離和相同字符的非同機距離比較
表2 歐氏距離方法、本文方法與方法1的識別結(jié)果
計算機打印機文檔鑒定是一個新的研究課題,在樣本和檢材文件中沒有相同字或相同字符極少的情況下,打印文檔鑒定相當困難。本文針對這個問題,提出了一種基于因子分析模型的打印機因子與文本因子分解方法,對特征矩陣采用雙線性模型進行因子分離,提取近似文本無關的特征,然后采用EM 算法迭代求得最大后驗概率進行分類,使得樣本與檢材文件中沒有相同字時的打印機鑒定正確率有了顯著的提高。