李霄霄
【摘 要】本文介紹了漢字OCR的原理、并對字符識別作了解釋與研究,提出一種基于OCR識別的文字識別方法,在對文字信息、圖像顯示以及校正過程提出了自己的算法,對文字結(jié)構(gòu)及讀寫方法進(jìn)行了分析。試驗表明該方法具有很快的計算速率,透過試驗可以使差錯率控制在很低。
【關(guān)鍵詞】OCR;文字處理;字符識別
Research and Implementation of Character Recognition Based on OCR
【Abstract】This paper introduces the principle of OCR in Chinese characters, and explains and studies the character recognition. It proposes a text recognition method based on OCR recognition. It puts forward its own algorithm for text information, image display and calibration process. And reading and writing methods were analyzed. Experiments show that the method has a very fast calculation rate, through the test can make the error rate is very low.
【Key words】OCR; Word processing; Character recognition
0 引言
印刷體漢字識別系統(tǒng)由三部分組成:輸入設(shè)備、漢字識別模塊和計算機(jī)硬件及軟件。漢字識別是主要部分,主要步驟為預(yù)處理、提取特征、匹配特征和后處理。本文預(yù)處理包括二值化、平滑去噪和文本行字切分。通過光電掃描儀,CCD器件等工具將漢字圖像處理成二維圖像信號,以圖片形式顯現(xiàn),再經(jīng)預(yù)處理,特征的提取與匹配及后處理實現(xiàn)漢字識別。
OCR(Optitcal Character Raeder)是光學(xué)字符閱讀機(jī),是一種自動讀入文字(手寫體或印刷體)的計算機(jī)。本文是基于OCR來做的一種字符識別的研究,極大降低了字符識別的錯誤率,提高了準(zhǔn)確度。
1 原理與識別方法
漢字OCR是通過光電輸入設(shè)備使文字內(nèi)容轉(zhuǎn)化成二維點(diǎn)陣信息,再用規(guī)定的識別法將其轉(zhuǎn)換成漢字。這一套轉(zhuǎn)換工作稱作漢字識別系統(tǒng)。
1.1 漢字識別系統(tǒng)的組成及各模塊的功能
漢字識別系統(tǒng)包括漢字圖形輸入設(shè)備、預(yù)處理儀器、識別儀器和后處理儀器。
漢字圖形輸入設(shè)備作用是完成文字原稿的輸入,是通過光電輸入設(shè)備,經(jīng)一定的閥值控制,將原文字轉(zhuǎn)換成為二維點(diǎn)陣圖形。
預(yù)處理由文稿頁成分析與理解、字符的分割、歸一化和去干擾組成。通過分析與理解對原文字整版面進(jìn)行數(shù)據(jù)分割,分割成圖像塊、文字塊等,理解和標(biāo)注其屬性及連接關(guān)系,準(zhǔn)確分割文字塊,最終分割成單個漢字圖像,再通過大小及位置的歸一化,進(jìn)行算法識別。識別前還要對漢字圖像去干擾。
后處理是有效運(yùn)用詞組和上下文聯(lián)系對識別的漢字圖像進(jìn)行糾錯。后期處理器還要完成文稿的輸出。
1.2 漢字識別方法
識別器質(zhì)量越高,識別系統(tǒng)的性能越好。識別漢字主要有統(tǒng)計模式識別和結(jié)構(gòu)模式識別。統(tǒng)計模式識別:提取待識別文本的一組特征值,按照統(tǒng)計函數(shù)進(jìn)行數(shù)值分析,這是有一定準(zhǔn)則的,根據(jù)分析所得結(jié)果確定漢字。此識別對單個漢字的辨認(rèn)率高,但是對不同字體,尤其是手寫文稿的識別,效果不太好。結(jié)構(gòu)模式識別:對漢字的結(jié)構(gòu)特征及組字的特定規(guī)律進(jìn)行有效提取,然后對漢字進(jìn)行識別。結(jié)構(gòu)識別是把漢字結(jié)構(gòu)當(dāng)作精簡的集合,即基元。固漢字識別是將漢字分開成多個基元的歸總。結(jié)構(gòu)模式適用與書體規(guī)整,結(jié)構(gòu)清晰的印刷體文稿漢字。中國漢字量很大,但漢字是圖片字符,含有豐富的結(jié)構(gòu)信息,所以比較統(tǒng)計模式,結(jié)構(gòu)識別使用更廣。
1.3 手寫體漢字單字識別
手寫體漢字單字識別主要解決手工輸入漢字的問題。雖然手工輸入方法種類很多,但都必須學(xué)習(xí)并記憶漢字拼法(結(jié)構(gòu)碼),記憶量不確定,且容易忘記。若將手寫體識別技術(shù)運(yùn)行到實際中,輸入漢字將不成問題,因為不需要在最初進(jìn)行一系列培訓(xùn)和記憶,漢字的輸入就如同平時手寫一般,簡單便捷。
2 字符特征提取系統(tǒng)圖像預(yù)處理
在字符識別前有一項重要步驟:字符圖像的預(yù)處理。其主要功能是消除字符圖像中的噪聲,對字符圖像斷線、粘連現(xiàn)象進(jìn)行修正;運(yùn)用各種歸一化方法,讓變換后圖像更穩(wěn)定,以便于分辨。
2.1 字符圖像去噪
字符圖像的噪聲可分為兩類:白色背景下的黑點(diǎn)噪聲和黑色背景中的白色噪聲。對字符的粘連現(xiàn)象,在進(jìn)行特征提取時應(yīng)選取對內(nèi)部結(jié)構(gòu)不敏感的特征,如“外圍輪廓特征”;對字符的斷線現(xiàn)象,特征提取的時應(yīng)選取對筆劃結(jié)構(gòu)不敏感的特征,如“模版匹配”;離散的黑象素噪聲主要對英文字符歸一化后造成一定偏移,導(dǎo)致識別失敗,可在歸一化過程中予以消除。
2.2 字符圖像歸一化
對字符圖像提取特征前需進(jìn)行歸一化處理,有大小歸一化、位置歸一化和筆劃粗細(xì)歸一化。實際中一般只采用大小和位置歸一化。
3 字符特征提取
字符識別中常用特征有穿越特征、外圍特征、網(wǎng)格特征等。
3.1 穿越特征
穿越特征從水平和豎直兩方面計算結(jié)構(gòu)特征,先計算水平方向:將32行圖像平分為8個區(qū)域,每個區(qū)域包括四行像素。逐一計算每行中從白像素到黑像素的變化次數(shù),統(tǒng)計8個區(qū)域中各行變化次數(shù)的總和即可得到前8維特征,再根據(jù)前8維特征利用公式計算,將結(jié)果作為第9至16維特征,得到水平方向的前16維特征。在豎直方向統(tǒng)計計算得后16維特征,最終構(gòu)成32維穿越特征。endprint
3.2 外圍特征
外圍特征在漢字識別中常作為粗分類特征,反映字符輪廓特征。
它的提取過程為:第一將64*64的圖像從四個方位等分成八份,從圖像四面分別向?qū)γ鎾呙?,假設(shè)從左向右逐一等分的八塊區(qū)域,每個區(qū)域包括八行像素,計算各行左邊框與最初字符筆劃遇到的部位所圈成的空白區(qū)域的面積,每個結(jié)果和該塊全部面積的比值當(dāng)作前八圍外圍特征。同上從其他方面都提取八維特征,最終得到32圍特征。
3.3 網(wǎng)格特征
網(wǎng)格特征是基于二值圖像,將64*64的圖像平均分成64個方塊,每塊大小為8*8,分開計算每個方塊的黑象素個數(shù),用向量作為64維的網(wǎng)格特征。
4 特征提取系統(tǒng)分類器設(shè)計
本文采用模板匹配法,先提取樣本的n維特征,再提取待識別字符的n維特征,對照產(chǎn)生結(jié)論。算法采用歐氏距離。即經(jīng)過計算待識別字符的特征向量與模板庫中提取的特征向量之間的歐氏距離,取模板中與計算出的歐氏距離最小的作匹配,將匹配字符輸出。
5 實驗結(jié)果分析
5.1 實驗環(huán)境
該算法基于Matlab仿真實現(xiàn)。實驗過程中使用字母、單詞、文檔三種,其中有宋體、仿宋等形式。在特征與分類器的交叉試驗及特征加權(quán)系數(shù)試驗中使用字母樣本,經(jīng)樣本整理,掃描文檔,然后運(yùn)用自動收集單詞的程序?qū)⑽臋n中的單詞保存為BMP圖片形式得到,文件名設(shè)置為單詞內(nèi)容的數(shù)字,這有助于在系統(tǒng)性能測試中測識別率。文檔樣本是利用掃描儀掃描英文文檔所得,分辨率為300dp。
5.2 實驗現(xiàn)象
matlab仿真實驗?zāi)軌驕?zhǔn)確的讀取BMP圖片中的數(shù)字及字母信息。分析可知當(dāng)輸入手寫體或正常字體的數(shù)字或字母時,該算法都能準(zhǔn)確識別出字體內(nèi)容,具有較高的精確度,且算法解讀時間短,比較快捷,適合推廣和應(yīng)用。
6 結(jié)論
因為現(xiàn)代有大量的文件和圖像讀取操作,對字符的識別主要需考慮它的計算速度和對資源的節(jié)省,盡可能使執(zhí)行更快速便捷。本文采用的方法不是對文件讀取,而是在內(nèi)存數(shù)組中進(jìn)行的;在定位數(shù)組時采取間接尋址方法,相比查找比較等方法,對計算效率有極大提高。另外在顯示圖像方面,也采取了一些策略,例如當(dāng)顯示上一屏圖像時,將下一屏的圖像計算出并放到內(nèi)存中,所以顯示圖像更迅速??偠c之,本文算法能滿足基本的圖片中文檔信息的讀取并實現(xiàn)信息方式的轉(zhuǎn)換。
【參考文獻(xiàn)】
[1]錢揖麗,鄭家恒.漢語語料詞性標(biāo)注自動校對方法的研究[J].中文信息學(xué)報,2004,(2):30-35.[2].
[2]駱衛(wèi)華,羅振聲,宮小瑾.中文文本自動校對技術(shù)的研究[J].計算機(jī)研究與發(fā)展,2004,(1):244-249.
[3]趙燁,王明磊,李新友.OCR在大數(shù)據(jù)量文檔系統(tǒng)中的應(yīng)用[J].計算機(jī)應(yīng)用, 2000,20(增):336-338.
[4]Alessandro Vinciarelli. A Surveyon Off- line Cursive Word Recognition[J].Pattern Recognition.2002,(35):1433-1446.
[5]荊濤,王仲.光學(xué)字符識別技術(shù)與展望[J].計算機(jī)工程.2003, 29(2):1- 2.
[責(zé)任編輯:張濤]endprint