• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文書排版特征專家輔助識別系統(tǒng)之行列信息識別

      2014-04-25 09:34:21玲1楊進友1旻1
      中國司法鑒定 2014年5期
      關(guān)鍵詞:字體直方圖文書

      孫 婷,吳 玲1,,楊進友1,,易 旻1,

      (1.重慶高校物證技術(shù)工程研究中心,重慶 401120;2.西南政法大學,重慶 4011020)

      文書檢驗的根本目的不外乎兩個主要方面:文書內(nèi)容是否行為人真實意思表示;文書的制作與形成是否客觀真實。無論是手寫文書還是印刷文書,這兩個方面的鑒定與檢驗都與涂改、添加等變造文書檢驗相關(guān),只是在某些問題的處理思路及檢驗方法上不盡相同,比如文書格式的檢驗。

      1 印刷文書排版格式特征及檢驗

      即或是最簡單的文書,都會或多或少反映出一定的格式要素。對于現(xiàn)代辦公機具所形成的印刷文書,其格式要素體現(xiàn)在兩個方面,一是符合文字錄入、編輯軟件及打印機具要求的排版布局特征和打印特征,二是體現(xiàn)意思表達所具有的格式特征。

      排版布局特征由頁面布局、行間距、字間距、字符大小、字體字形、左右邊距、段落、縮進、對齊方式等要素組成;打印特征則是與打印機具直接關(guān)聯(lián)的包括顯色物質(zhì)成份、微觀痕跡等共同組成的特征組合。意思表達所要求的格式則是區(qū)分不同文種的基本特征,如通知、請示、決定、公告等公文;起訴狀、判決書等法律文書;借條、協(xié)議、合同等契約型文書等。雖然這兩方面的特征均是印刷文書檢驗應當關(guān)注的對象,但排版布局特征應當是每個印刷文書檢驗的基礎(chǔ)性環(huán)節(jié),尤如手寫文書檢驗必須首先判斷是否直接書寫形成之與其它進一步深入檢驗的基礎(chǔ)性作用一樣。

      通過印刷文書排版布局特征的檢驗,可以得到以下幾方面的基本信息:(1)印刷(通常為打?。┪臅目傮w排版布局特征概覽;(2)同頁間不同行字跡是否存在不能解釋的格式差異;(3)不同頁間是否存在格式差異。

      這些信息的獲取,雖然將其歸為基礎(chǔ)性檢驗環(huán)節(jié),但在涉及印刷文書鑒定的多數(shù)情況下足已奠定進一步檢驗的基礎(chǔ),有時甚至是構(gòu)成達到某些鑒定委托要求必然的手段之一,如抽換打印頁、添加打印等。司法部《印刷文件鑒定規(guī)范》(SF/Z JD0201004-2010)和《篡改污損文件鑒定規(guī)范》(SF/Z JD0201005-2010)對涉嫌作偽變造的現(xiàn)代印刷文件,也有需要對其各部分的排版格式進行檢驗的表述。

      目前在現(xiàn)代印刷文件檢驗中對文件各部分排版格式是否同源的檢驗,通常采用人工測量經(jīng)驗識別的方式,如利用直尺人工手動測量字間距、行間距、邊距,肉眼觀察字體、字號,進行逐字、逐行、逐段、逐頁對比,非常耗時費力。即或是利用計算機圖像處理技術(shù)將檢材掃描錄入后進行測量,也同樣存在效率低且較為繁瑣的弊端。同時,由于個人認知程度和經(jīng)驗的差異,也可能導致檢驗結(jié)果出現(xiàn)偏差。在避煩就簡的主觀思維支配下,放棄該步檢驗的情形并不少見。

      對于這種共性強、社會運用廣泛的印刷文書的基礎(chǔ)性檢驗,應當考慮針對性地研制方便、準確、易用的檢驗手段,既能在一定程度上促進行業(yè)技術(shù)進步,也可通過推廣使用避免一些不應當出現(xiàn)的失誤的產(chǎn)生。

      目前,實際環(huán)節(jié)多涉及文件圖像識別技術(shù),如為大家熟知的OCR(Optical Character Recognition光學字符識別)技術(shù)。該技術(shù)運用電子設(shè)備(例如掃描儀或數(shù)碼相機)對文本資料進行掃描,呈數(shù)字圖像模式錄入計算機,然后利用不同軟件對圖像文件進行分析處理,用字符識別方法將字符圖像形狀“翻譯”成電子文檔。OCR技術(shù)的目的在于將記錄于紙質(zhì)載體上、不可編輯的文書轉(zhuǎn)換為可編輯的電子文檔,但這種轉(zhuǎn)換過程重點獲取的目標是文字內(nèi)容,不是原文件的排版格式,即使部分廠家的軟件可以獲得一定的版面信息,那也是局限的、變形的,無法反映文件原貌,不能作為印刷文件排版格式識別的檢驗工具,難能滿足檢驗鑒定的需求。

      研制開發(fā)印刷文件排版格式檢驗專家輔助識別系統(tǒng),目的在于針對日益增多的檢驗鑒定需求,運用掃描及計算機自動輔助識別技術(shù)優(yōu)勢,對印刷文件排版布局格式進行快速識別,并預判出排版格式是否存在差異,作為進一步檢驗的基礎(chǔ)信息,以節(jié)省人力,提升檢驗效率并降低誤判率。

      本文僅側(cè)重介紹該專家輔助識別系統(tǒng)中對于行間距、字間距進行識別的設(shè)計思路及實現(xiàn)方式,提出基于直方圖判據(jù)結(jié)合計算機圖像處理技術(shù)進行印刷文書的行間距、字間距自動識別的技術(shù)路線。此方法應用于計算機軟件設(shè)計中,整個軟件系統(tǒng)開發(fā)基于.net平臺,以c#為主開發(fā)語言,具體應用將另文描述。

      2 印刷文書專家輔助識別系統(tǒng)的設(shè)計

      2.1 印刷(打?。┪淖值奶卣?/h3>

      計算機打印字體按技術(shù)要點主要分為矢量字體(Vector font或 Outline font)和點陣字體(Bitmap font)兩大類。矢量字體主要包括Type1、TrueType、Open-Type等字體;點陣字體又叫光柵字體和位圖字體。

      2.1.1 點陣字體

      點陣字體是把每一個字符都分成16×16或24×24個點,每個字形都以一組二維像素信息表示。由于其基于位圖概念,特定的點陣字體只能清晰地顯示在相應的字號下。點陣字體雖然具有顯示速度快的優(yōu)點,但放大顯示效果較差,一旦放大后就會在文字邊緣出現(xiàn)明顯的鋸齒邊緣。點陣字體的擴展名為FON。

      2.1.2 矢量字體

      其每一個字形是通過數(shù)學曲線來描述的,它包含了字形邊界上的關(guān)鍵點、連線的導數(shù)信息等,字體的渲染引擎通過讀取這些數(shù)學矢量,然后進行一定的數(shù)學運算來渲染。這類字體的優(yōu)點是字體實際尺寸可以任意縮放而不變形、變色。矢量字體文件擴展名為TTF。

      印刷文件中的打印文書一般是由電腦的辦公軟件編輯電子文檔后打印出來,使用的字體文件一般為點陣字體和矢量字體。不論是點陣字體還是矢量字體,同一字體同一字號下,文字的寬度和高度局限于某個范圍之內(nèi),縱橫方向上具有全尺寸筆畫的字符其邊界長寬尺寸是一致的。

      2.1.3 成文字體

      無論在顯示或打印時調(diào)用的是點陣字體還是矢量字體,一旦打印成文后,均會表現(xiàn)出其與打印機具及載體相關(guān)聯(lián)的記錄顯色狀態(tài)。這種狀態(tài)既包含有字體字形、字號等單字符信息,也包含有字間距、行間距、縮進、對齊等排版布局信息。這些信息均為隱含信息,并不在文檔中直接體現(xiàn),我們需要做的正是通過簡便的方法準確提取這些信息。

      2.2 文本文件預處理及直方圖投影

      要實現(xiàn)這種信息的提取,首先必須將文本文件按等比例的原則盡量少受干擾地錄入計算機。2.2.1文本文件的圖像采集

      掃描儀是最適合的錄入工具,普遍常見的A4幅面掃描儀就可以將絕大多數(shù)文本文檔按1︰1等大掃描為計算機圖片文檔。需要注意的是在正式檢驗之前,對所使用的掃描儀應當進行校正。用尺寸已知的標準物品進行掃描,測定掃描后的圖像大小是否與標準物品存在誤差,如果存在,則需引入校正因子對每一次錄入的圖像進行校正。

      (1)灰度化和二值化。圖片經(jīng)掃描后會帶有灰階,這種灰階在后期識別中并無價值,而在掃描時直接以二值方式進行,又可能遺失一些細節(jié)或引入噪聲。所以,在正常識別前需要對圖片進行二值化處理,將其處理為僅有黑白兩色而格式細節(jié)完整的圖片。

      (2)直方圖投影。將樣本圖的每一列(以垂直投影為例),投影到直方圖的某個坐標x上,樣本中的每一行(以水平投影為例),投影到直方圖的某個坐標y上稱為投影直方圖,如圖1所示。

      圖1 直方圖投影

      印刷文書掃描為圖片后,通過對每一個字的垂直投影,可獲得每個字與相鄰文字的距離;通過對每個字進行水平投影,可獲得字高,取字高的最大值作為行高,再以此為基礎(chǔ)可很容易獲得行與行的距離。

      實際上,上述正投狀態(tài)的直方圖投影并不能通過人工調(diào)整的方式直接獲取,必須在投影過程中引入最小值概念以確定是否達到正投影狀態(tài)。我們知道,對于打印文書,其行與行之間正常狀態(tài)下(即不考慮走紙機構(gòu)故障或紙張本身形變)應呈平行關(guān)系,在進行投影時,只有在正投狀態(tài)下,投影值為最小。

      2.2.2 軟件設(shè)計

      整個軟件基于.net平臺,以c#為主開發(fā)語言。

      (1)采集數(shù)據(jù)。按照上述設(shè)計思路,如圖2所示拓樸圖。

      (2)信息表達及解讀。通過直方圖投影可生成對應于文檔的數(shù)據(jù)表格,其中行信息為基準信息。

      ①行信息表達及解讀。行信息數(shù)據(jù)以縱列形式對應于各行生成于數(shù)據(jù)表之右側(cè),設(shè)定誤差范圍內(nèi)的同類數(shù)據(jù)以相同顏色標注于數(shù)據(jù)之上。

      之所以將行信息視為基準信息,在于:其一,文字錄入軟件及打印機的工作機理決定了行信息是最具規(guī)律性的排版信息。非特殊處理或意外發(fā)生,行與行呈平行關(guān)系是兩者共同具有的基本規(guī)律;其二,正常制作文書,多數(shù)情況下無論是否跨頁,其正文行間距及行高具有內(nèi)在布局與排版意義上的可比性,一旦出現(xiàn)偏差(無論跨頁還是同頁內(nèi)),其本身就是足以引起檢驗者關(guān)注的信息;其三,紙張局部折皺所引致的偏差,也可通過紙張整體尺寸變化加以校正,而列信息則可能受對齊方式及數(shù)字與字符混雜出現(xiàn)不能定位的困惑。

      ②列信息表達及解讀。列信息以單字位置以表格方式生成,行寬、左右邊距及縮進信息以縱列形式生成于數(shù)據(jù)表格左側(cè)。列信息關(guān)注的重點有:不屬于字體字號判斷對象的意外偏差;縮進信息偏差;左右邊距偏差。

      3 實現(xiàn)路徑與思考

      基于縱橫投影采取文檔布局基本信息,還原文檔排版特征,貌似簡單易行,容易實現(xiàn),但事實上并不如此簡單。

      首先,我們所針對的是紙質(zhì)文書材料,可能是直接打印形成,也可能是打印后復印形成,還可能受打印、傳真、復印多種手段交錯影響,其頁面內(nèi)容出現(xiàn)形變、噪聲(非文字內(nèi)容的可見痕跡,如墨點、墨斑、墨帶等)。這些形變和噪聲如果不進行預處理,進行投影變換時,對結(jié)果會有或多或少的影響。由于形變程度的不確定性、噪聲出現(xiàn)位置及大小形狀的隨機性,去噪效果取決于方法的合理性和有效性。

      關(guān)于形變,現(xiàn)代辦公機具的走紙結(jié)構(gòu),決定了形變引入最可能的方向,在于因傳動誤差所導致的走紙平行方向形變,這種形變對應的是水平投影。而在垂直投影方向產(chǎn)生明顯誤差的可能較小,故可基于垂直投影進行水平投影是否存在誤差的識別,并將識別結(jié)果生成一校正值,與原始數(shù)據(jù)一并給出用于判斷。

      相對于形變,噪聲處理在技術(shù)上更為復雜。所謂噪聲是指非文字內(nèi)容構(gòu)成部分的墨跡,在二值化時,并不能直接與構(gòu)成文字內(nèi)容的有意義符號區(qū)分開來。而且部分條件差的材料,有意義的字符與無意義的噪聲墨跡存在相互交錯和重疊,去噪環(huán)節(jié)的設(shè)計就顯得更為困難。所以,在軟件設(shè)計初期,我們在該環(huán)節(jié)設(shè)計為人工干預方式為主,以保證去噪的準確性。隨后逐步采取建立多處局部基準的分段式噪聲去除方式,結(jié)合人工節(jié)點監(jiān)控實現(xiàn)去噪。今后將以更多實驗進行非人工介入式自動去噪并二值化。

      圖2 拓樸圖

      其次,排版布局信息可用于鑒定使用的節(jié)點較多,包括行寬、行間距、字體、字型、字號、修飾、符號、段前段后、字間距、縮進、對齊方式等,這些節(jié)點在電子版可調(diào)取其細節(jié)。但經(jīng)掃描后進行識別,就會因這種變換而發(fā)生數(shù)值上的變化,影響最終的數(shù)值間的對接。以行間距為例,雖然常使用文字處理軟件(如WORD)的缺省默認值(單倍行距),但這一設(shè)置值是可隨意調(diào)整的,調(diào)整的范圍既可全篇、全頁,也可局部選擇后進行,調(diào)整的值也極為寬泛,如多倍行距(0.5倍及0.5倍之整數(shù)倍)、固定值(1磅及整數(shù)倍)、最小值(0磅及以上)。當我們通過預處理、二值化、投影后所獲取的客觀數(shù)值,在與文字處理軟件的設(shè)置值相對應,與其排版信息相匹配時形成了障礙。況且,受同樣影響的還有一系列的節(jié)點。

      第三,只有在解決了上述問題并獲得檢驗對象全面排版特征信息后,對非正常打印,如添加、換頁等異常特征的判斷,才可能“水落石出”。

      因此,基于以上考量,本項目雖然最終成果形式為軟件,但實際上是按照打印文書專家輔助系統(tǒng)進行設(shè)計和開發(fā)。其間,考慮了不同文字處理軟件、不同字體字型和字號的基礎(chǔ)性影響,采取了基礎(chǔ)數(shù)據(jù)庫作匹配基準庫的設(shè)計模式,既保證前期處理和識別的完整性,也支持可擴充性,最終形成完善的專家輔助系統(tǒng)。

      4 結(jié)語

      科學技術(shù)的快速發(fā)展對社會生活的影響深遠而廣泛,司法鑒定作為與社會活動密切相關(guān)的行業(yè),應當體現(xiàn)這種變化,并適時調(diào)整檢驗技術(shù)和方法。本項目的申報和研制正是基于這一理念,并力圖經(jīng)過進一步的完善,使之成為能夠普遍適用于現(xiàn)代辦公機具所形成印刷文件檢驗的標準工具,為行業(yè)發(fā)展盡綿薄之力。

      猜你喜歡
      字體直方圖文書
      統(tǒng)計頻率分布直方圖的備考全攻略
      符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
      太行山文書精品選(17)
      監(jiān)獄執(zhí)法文書規(guī)范探討
      字體的產(chǎn)生
      黑水城出土《宋西北邊境軍政文書》中“砲”類文書再討論
      西夏學(2019年1期)2019-02-10 06:22:40
      用直方圖控制畫面影調(diào)
      基于直方圖平移和互補嵌入的可逆水印方案
      計算機工程(2015年8期)2015-07-03 12:20:21
      組合字體
      關(guān)于回鶻文書中幾個詞的探討
      404 Not Found

      404 Not Found


      nginx
      花垣县| 松原市| 康乐县| 香格里拉县| 高淳县| 通化县| 达州市| 明星| 汝城县| 娱乐| 双辽市| 五莲县| 兴义市| 盐源县| 昭通市| 上思县| 泽普县| 平湖市| 巴东县| 小金县| 广水市| 德江县| 萨迦县| 连州市| 合阳县| 湖南省| 内乡县| 巴东县| 华阴市| 阿拉善盟| 肇州县| 西宁市| 镇康县| 广德县| 平阳县| 偏关县| 手机| 阜城县| 鄂托克前旗| 唐海县| 武宣县|