安艷輝,陳韶霞,劉宗敏
(1.河北省工業(yè)和信息化廳,河北石家莊 050051;2.河北省農業(yè)區(qū)劃委員會辦公室,河北石家莊 050051)
基于字符類別的識別反饋混排字符切分方法
安艷輝1,陳韶霞1,劉宗敏2
(1.河北省工業(yè)和信息化廳,河北石家莊 050051;2.河北省農業(yè)區(qū)劃委員會辦公室,河北石家莊 050051)
字符切分是影響OCR系統(tǒng)識別的關鍵因素之一。對于中英文混排文檔,提出了基于字符類別的識別反饋混排字符切分方法,利用字符特征分類判別出文檔中的漢字類、英文、數(shù)字和標點符號類、部件類,對漢字類和部件類借助識別技術分別進行處理。該方法結構簡單,容易實現(xiàn),實驗結果表明該方法切分效果好,字符類別判斷準確。
字符切分;分類器設計;字符類別判斷;字符識別
字符識別技術經(jīng)過幾十年的發(fā)展,取得了長足的進步,目前,大多數(shù)字符識別是基于對單個字符的逐個識別,字符識別率的高低與字符切分的正確與否密切相關,尤其是在中英文混排的情況下,顯得更為重要,它直接影響到識別的正確率。脫機印刷體字符識別系統(tǒng)雖然已形成商業(yè)產(chǎn)品,隨著中英文混排文檔圖像的日益增多,實用性不是很理想。
當前字符切分技術主要有以下幾種方法[1]:
1)基于圖像分析的分割;
通過圖像分析尋找字符之間較為合理的分割點,主要采用靜態(tài)的投影分析方法。
2)基于識別的分割;
在實際的分割前借助于識別能力對各種存在的分割進行選擇合理的分割。
3)綜合了前面兩種技術的分割;
通過圖像分析產(chǎn)生較少的垂直分割的假設,并通過識別對假設進行篩選。
4)整體識別;
以整個詞為結識客體,根據(jù)詞的整體特征來識別,從而避免分割對字符的損傷,這種方法在一般識別有限的關鍵性詞匯時使用。
總結了近幾年[2,3]的字符切分技術后認為,字符切分主要綜合考慮兩種信息:基于局部的特征,字符形狀和結構等特征信息;基于整體的特征,切分出字符內容的信息。由于對字符形狀與結構,字符內容信息等描述較復雜,工作量較大,不易擴展。由實驗可知,單獨描述字符信息或使用某種切分方法,對于實際的中英文混排文檔的切分效果很不理想,因此采用基于字符類別的識別反饋混排字符切分方法。該方法結構簡單,容易實現(xiàn),實驗結果表明該方法切分效果好,字符類別判斷準確。
在自動錄入書籍及其它一些文獻時,會經(jīng)常遇到中文 、英文 、數(shù)字和標點符號混排的文檔,中文和英文在字符的形狀和結構上都存在著很大的差異,這些字符有各自比較明顯的特征,它們在印刷排版中也體現(xiàn)了不同的特性,針對實際的混排字符情況,應分別采用不同的字符切分方法。因此,首先應判斷待切分字符的類型,字符類型包括漢字、英文 、數(shù)字和標點。文獻[4]提出了一種印刷體字符類型判斷方法,本文定義字符分類規(guī)則如下:
規(guī)則1 沿字符區(qū)域塊從左向右逐列進行縱向掃描,記錄每一列經(jīng)過的白黑象素交換次數(shù)。如果白黑象素交換次數(shù)不低于4的列數(shù)與字符區(qū)域塊的寬度比高于閾值a1,同時規(guī)則排版中字符寬度和字符中心距均在一定范圍內且趨于一致,則認為該字符區(qū)域塊內字符為漢字。這里,閾值a1來自實驗值。
規(guī)則2 根據(jù)向上凹曲線的定義,求出區(qū)域塊的向上凹曲線的個數(shù),若個數(shù)不低于閾值b1,同時通過比較字符的高度、寬度、字符間距、字符中心距、字符所在位置和掃描線經(jīng)過英文數(shù)字的筆畫數(shù),若字符的高度均小于平均高則認為該字符區(qū)域塊內為英文和數(shù)字。這里,閾值b1來自實驗值。
規(guī)則3 若區(qū)域塊的方向比(寬度:長度)低于字符最小方向比閾值c1,若區(qū)域塊內的字符寬度 、高度與平均字符高度與寬度的差值的絕對值小于一定閾值d1時,且該字符與后一字符間距比較大時,則認為該區(qū)域塊內的字符為小標點;若區(qū)域塊內的字符寬度 、高度與平均字符高度與寬度的差值的絕對值小于一定閾值d2時,且該字符與后一字符間距比較大時,則認為該區(qū)域塊內的字符為大標點;這里c1、d1、d2來自實驗值 。
規(guī)則4 若區(qū)域塊的方向比位于單字區(qū)域塊最小方向比閾值e1和最大方向比閾值e2之間,并且區(qū)域內有效字符的方向比位于單字字符最小方向比閾值f1和最大方向比閾值f2之間,則認為該區(qū)域塊內的字符為漢字 。這里,閾值e1,e2,f1,f2來自實驗值。
規(guī)則5 對于左右結構之分的漢字被切分成左右部件的情況,依據(jù)字符的基本信息(字符高度、字符寬度、字符間距、字符中心距、字符所在位置、平均行高、字符高寬比等),判斷該區(qū)域塊內的字符是否為漢字部件;其合并過程借助于識別模塊來處理。
規(guī)則6 不滿足上述任何規(guī)則的區(qū)域塊,則認為是英文字符。
字符類別判斷與字符切分流程如圖1所示。
圖1 字符類別判斷與字符切分流程
字符切分過程主要分為以下三步:
第一步:傾斜矯正及行列切分,傾斜矯正的目的是為后面分類器設計進行正確的字符特征提取;
第二步:根據(jù)行列切分的結果,依據(jù)分類器進行字符類別判斷,分類判斷出漢字類 、英文 、數(shù)字 、標點符號類 、部件類;
第三步:根據(jù)分類結果進行識別,若是正確的漢字類則作為切分結果保存記錄;若為英文 、數(shù)字 、標點符號類直接保存記錄切分結果;若為部件類根據(jù)左右關系及合并算法進行合并,然后識別,若結果正確,則作為切分結果保存記錄,若不正確重新合并識別[5,6],直至為正確結果。
判斷文字類別及部件合并、識別過程如圖2所示。
圖2 判斷字符類別及合并識別過程
分類器設計原則:假定特征向量各分量間相對于決策變量是相對獨立的,對于特征向量X=[x1, x2,…xd]T的訓練樣本,它屬于Ci類的條件概率為:
對于漢字 、英文 、數(shù)字和標點字符類別都計算條件概率,最終的識別結果作為條件概率最大的那一字符類別,判別出相應的字符類別,依據(jù)字符類別進行單獨處理,保存切分結果。
在進行分類器設計時,用到兩種類型特征,一種是字符形狀和結構方面的特征,包括六種字符外形特征(字符高度、寬度、字間距離、覆蓋率、高寬比、縱向起始位置);另一種是字符內容特征,包括16維方面線素特征(提取出水平、垂直、45°、135°四個方向的方向像素特征),第一種特征里,除了覆蓋率和高寬比外,其他的四種特征需要特征歸一化[7]。因此,切分過程的第一步是傾斜矯正和估計漢字平均高和寬,依據(jù)這些特征和定義的6種規(guī)則,分類器完成字符類別判斷,然后調用識別過程[8]進行識別,若識別正確,最終保存切分結果。
筆者采用超星數(shù)字圖書館和國家圖書館掃描的書籍作為訓練和測試對象,從訓練圖像中挑選出三類字符(漢字類,英文 、數(shù)字 、標點符號類,部件類)作為訓練樣本,用訓練樣本的特征分布估計部件條件概率,完成分類器設計。
部件條件概率公式:
實驗結果表明該種切分方法能正確判斷出字符類別和對字符正確切分。實驗結果如圖3所示。
圖3 總體實驗結果
判斷為漢字類及部件類合并后再識別為正確結果的情況如圖4所示。
圖4 漢字類實驗結果
判斷為英文數(shù)字標點類的情況如圖5所示。
圖5 英文、數(shù)字、標點類實驗結果
我們從《求是》等雜志,《人民日報》《光明日報》等報紙及小說類的書籍作為樣張,各掃描100頁,統(tǒng)計結果如表1。
表1 字符分類前的切分統(tǒng)計結果
識別反饋后字符正確切分后的統(tǒng)計結果如表2。
表2 識別反饋后字符切分統(tǒng)計結果
對于中英文混排字符圖像,本文提出了一種基于字符類別的識別反饋混排字符切分方法。在該方法中,最佳閾值的選取需要大量的實踐來獲得,因此其可靠性以及魯棒性仍需在更多的具體實踐中得到驗證和提高。結合識別后處理過程、自然語言理解和利用字符的上下文關系[9],進行描述與分析,也是進一步的研究工作。
[1] Richard G.Case,Eric Lecolinet.A Survey of Methods and Strategies in Character Segmentation[C].IEEE Transactionson Pattern Analysis and Machine Intelligence,1996,18(7):690-706.
[2] YILU.Machine Printed Characters Segmentation-An Overview[C].IEEE Transactions Pattern Recognition,1995,28(1):67 -80.
[3] YILU,M.Shridhar.Characters Segmentation in Handw ritten Words-An Overview[C].IEEE Transaction Pattern Recognition, 1996,29(1):77-96.
[4] 黃冬萍.OCR預處理技術—從版面分析到字符切分[D].東北大學碩士學位論文,1998.
[5] 馬少平,夏瑩,朱小燕,等.漢字系統(tǒng)的誤識模型[J].清華大學學報,1999(38):108-111.
[6] 安艷輝,董五洲.粘連搭接字符切分方法研究[J].河北師范大學學報,2005,29(2):137-141.
[7] 徐蔚然,于武貴,郭軍.基于統(tǒng)計方法的混排文字切分與分類[C].紹興,第七屆全國漢字識別會議論文集,2002:123-128.
[8] 苗秀芬.漢子字體識別研究[D].河北大學碩士學位論文,2003.6.
[9] 沈清,湯霖.模式識別導論[M].國防科技大學出版社,1991.
The segmen tation of the m ixed arranging character based on the sort and recogn ition of characters
AN Yan-hui1,CHEN Shao-xia1,LIU Zong-min2
(1.Industry and Information Technology Department of Hebei Province,Shijiazhuang,Hebei050051,China;2.Hebei Scheme of A gricultural Pursuits Bureau,Shijiazhuang,Hebei050051,China)
The characters′segmentation is one of the key facto rs w hich affect character recognition in OCR system.Aimed at the document image w ith both Chinese characters and English characters.this paper p resent themethod w hich is the segmentation of themixed arranging character based on the sort and recognition of characters.Classifying by the characters characteristic,it is distinguished into Chinese character class,English and number and punctuation mark class,and component class.Then Chinese character class and component class is p rocessed respectively w ith recognition technique.The structure of thismethod is simple and easy to realize.The result of the experiment indicates that this method has good effect on segmentation and has high accurate rate in character classification discrimination.
Character segmentation;Classification design;Character classification discrimination;Character recognition
TP319
:A
1001-9383(2011)01-0015-06
2011-01-12
河北省自然科學基金資助項目(602127)
安艷輝(1972-),男,河北省樂亭縣人,高級工程師,碩士,主要從事計算機圖像處理和數(shù)據(jù)庫方面的研究.