公保杰 安見才讓
摘? 要: 印刷體藏文字符的準確切分是識別的關鍵,由于藏文字符結構的特殊性導致字符之間會出現(xiàn)重疊粘連的現(xiàn)象,使得切分很困難。文章提出多策略細化切分方法,首先用積分投影法實現(xiàn)行和單字的粗切分,再對重疊粘連的字符,根據(jù)連通域、藏文字符基線位置像素的統(tǒng)計、字符寬度等信息進行細切分。實驗表明,該切分方法提高了印刷體藏文字符切分的準確率,為提高印刷體藏文的識別效率提供基礎。
關鍵詞: 印刷體藏文; 積分投影; 切分
中圖分類號:TP319? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)09-24-03
Research on character segmentation method in recognition of printed Tibetan
Gong Baojie, Anjian Cairang
(College of Computer Science, Qinghai Nationalities University, Xining, Qinghai 810007, China)
Abstract: The accuracy of the segmentation is the key to identify printed Tibetan characters. Due to the particularity of Tibetan character structure that characters appear overlapping adhesion phenomenon in between, makes the segmentation difficult. This paper propose a multi-strategy refined segmentation method, which uses integral projection method for a coarse segmentation to separate the lines and words, then a fine segmentation is conducted to separate the overlapping conglutination characters according to the connected domain, and the information of Tibetan character baseline position pixel statistics and the character width. Experiment shows that this segmentation method improves the accuracy of printed Tibetan character segmentation, and provides a basis for improving the printed Tibetan recognition efficiency.
Key words: printed Tibetan; integral projection; segmentation
0 引言
相對于英、漢識別而言,藏文識別的研究起步較晚,識別水平也相對較低。藏文識別技術在很多方面可以借鑒英、漢文字識別的研究成果。目前最常用的藏文切分方法是積分投影法[5-6]和連通域搜索法[4],但在進行單字符切分時,這兩種方法不能很好的處理重疊粘連的情況。針對這種情況,本文提出了多策略細化切分方法。在初切分階段,通過垂直投影,得到粗切分結果,根據(jù)藏文字符寬度閾值判定粗切分結果中的重疊粘連段,然后對重疊粘連字符細化切分,針對不同重疊粘連段情況分別進行連通域和基線空隙寬度信息來細化切分處理,以達到好的切分效果,大大提升最終的識別率。
1 藏文字符結構及特征描述
藏文是一種以輔音字母為主要構成部分的拼音文字,由30個輔音字母和4個元音字母組成。藏文是以音節(jié)為構詞單位,音節(jié)拼寫的每一個橫向基本單位稱為一個字符。現(xiàn)代藏文共有592個字符[2]。從文字識別的角度總結藏文的特點如下。
⑴ 藏文字符縱向疊加,從字符中切分單個字母非常困難,所以在藏文識別處理中通常選取字符為基本識別單位。
⑵ 藏文中字符相似的現(xiàn)象相當普遍,在總共500多字符中,有37%的相似度。
⑶ 藏文字符高低不等,有很大的差別,但寬度上差別不大。
⑷ 基線是藏文字符的一個重要特征,兩個藏文字符基線之間有明顯空隙,基線上方只有元音符號和變音符號可以出現(xiàn)[3]。
⑸ 由于字符的字體大小、書寫風格、圖像質(zhì)量等因素,會在圖像中出現(xiàn)字符的粘連問題。根據(jù)字符粘連的具體情況,可以將粘連分為以下三種類型。
① 簡單粘連。指字符筆劃在某些點相互接觸有連接,但字符部件之間沒有重疊。
② 交錯粘連。從直觀上看,這種粘連的兩個相鄰字符黑像素區(qū)沒有連接,字符的連通區(qū)沒有重疊,但字符在投影圖上會出現(xiàn)黑像素的重疊。這種粘連很難用投影方法找到切分路徑。
③ 復合粘連。這種粘連比較復雜,字符之間既存在簡單粘連,同時又存在交錯粘連情況,一般的垂直切分可能引起筆劃的嚴重變形。
2 印刷體藏文字符切分方法
印刷體識別過程中字符的切分是一個重要環(huán)節(jié),目前印刷體藏文最常用的切分方法是積分投影法,該方法可以很好的對藏文文本行進行有效切分,但是在字符切分時不能對重疊粘連字符進行有效處理,容易出現(xiàn)漏切分的現(xiàn)象。針對這種情況本文提出細化切分重疊粘連字符的方法,從而達到有效的切分效果。
2.1 行切分
印刷體藏文圖像進行預處理之后得到的二值化圖像,對圖像中文字部分和空白間隙部分進行像素積分投影,按從上到下的順序逐行進行掃描,并同時計算當前掃描行的像素值之和,空白間隙部分投影值為0,而文字行的投影值不為0,以求得圖像的水平投影,并根據(jù)水平投影值對文字行進行切分。圖像f(i,j)的水平積分投影公式為:
[R(i)=j=1nf(i,j)]? ? ? (1)
當滿足公式(2)時,第i行為文本行的上界:
[Ri>q?Ri+1>q?????Ri+n-1>q]? ? ? ? ?(2)
當滿足公式(3)時,第i行為文本行的下界:
[Ri 2.2 字符切分 字符的切分采用垂直投影的方法,在行切分過程中記錄每一行文字的上下邊界分別為a、b,在a行與b行之間進行垂直投影。雖然,字符之間會出現(xiàn)不同類型的重疊粘連情況,但是從整體來看其占的比例較小。因此根據(jù)上述方法先對文本圖像中的字符進行粗切分,然后對重疊粘連字符進行細化切分(2.3中將詳細描述),從而得到更好的切分效果。垂直投影的切分公式: [H(j)=j=a+1bg(i,j)]? ? ? ? (4) (1) 字符左邊界確定 對行切分已經(jīng)切割出來的文本行按照像素從左向右的順序進行逐行搜索,有連續(xù)的n列滿足公式(5)時,取第一個滿足上述條件的像素列j作為本行的一個字符的左邊界列 [Hj>p?Hj+1>p?????Hj+n-1>p]? ? ? ? ?(5) (2) 字符右邊界確定 對行切分已經(jīng)切割出來的文本行按照像素從左向右的順序進行逐行搜索,有連續(xù)的m列滿足公式(6)時,取第一個滿足上述條件的像素列j作為本行的一個字符的右邊界列。 [Hj 2.3 重疊粘連字符的切分 通過垂直積分投影,得到獨立的藏文字符和重疊粘連段。其中對重疊粘連段需要進一步細化切分,根據(jù)對上述提到的不同類型重疊粘連類型的分析,可以總結出,針對重疊粘連類型采用不同的切分方法,復合粘連類型存在連通性,可通過搜索連通域來進行切分,而其余類型由于無法采用連通域來切分,可利用藏文字符的寬度信息和基線特征來進行切分。 ⑴ 連通域分析 盡管藏文字符會出現(xiàn)重疊粘連情況,但是經(jīng)過對不同粘連類型的分析,可以觀察到,交錯粘連類型具有明顯的連通性,因此可采用連通域搜索法來實現(xiàn)切分。具體算法流程如下。 在二值化圖像中,背景區(qū)域像素值為0,文字區(qū)域像素值為1。圖像B(i,j)從左向右,從上向下進行掃描。 Step1:掃描圖像,直到當前像素點B(x,y)=1,作其為種子(像素位置),并賦予其一個標簽T,然后將該種子相鄰的所有像素為1的都壓入棧中。 Step2:彈出棧頂像素,賦予其標簽為T,然后再將與該棧頂像素相鄰的所有像素為1的都壓入棧中。 Step3:重復1步驟,直到棧為空。此時,便找到了圖像B中的一個連通區(qū)域,然后對其進行切分。 ⑵ 根據(jù)藏文字符寬度信息及基線特征進行切分 對于上述重疊粘連類型中,簡單粘連和復合粘連無法用連通域的方法進行有效的切分,針對這種情況,可分析藏文字符其固有的特征,可得知,雖然藏文字符的高度起伏不定,但其寬度大小差別不大,而且兩個字符基線區(qū)域有明顯的空隙,粘連情況出現(xiàn)在基線的上下區(qū)域,基線之間的空隙就是兩字符的切分點。所以可根據(jù)藏文字符這固有的兩種特征信息,對簡單粘連和復合粘連類型進行切分,具體算法流程如下。 Step1:掃描圖像,求出其連通域,如果區(qū)域?qū)挾却笥谑孪仍O定的寬度閾值W則確定為簡單粘連或復合粘連類型。 Step2:根據(jù)基線位置進行圖像掃描,確定空隙區(qū)域:[G(i,j),(i=i+1,i+2,...i+n),(j=m)] Step3:通過寬度閾值W對確定切分點Q(n,m)。 Step4:如果Q(n,m)[∈] G(i,j),確定Q(n,m)為切分點,對粘連段進行切分。 3 實驗結果與分析 為了進一步驗證本文提出印刷體藏文文檔切分方法的可行性和準確性,本文對50幅文檔圖像,分別利用積分投影法、連通域搜索法和本文提出的切分方法進行了切分測試,為了具體表明這三種切分方法的效率,本文從測試結果中隨機選出5幅圖片進行分析,結果如表1所示。 通過觀察表1可以發(fā)現(xiàn),本文所采用的方法能較好地解決藏文字符粘連切分的問題。當然,本文設計的方法也存在漏切分現(xiàn)象,通過分析,主要原因是噪點、復雜版面等因素的影響。所以需要進一步解決和完善預處理過程。 4 結束語 本文討論了如何對二值化藏文文本圖像進行行切分、字符切分、重疊粘連字符切分的問題。通過分析研究不同切分方法的優(yōu)缺點,結合藏文自身的書寫與結構特點,提出采用積分投影法對印刷體藏文文本圖像進行粗切分,以此得到獨立的字符和重疊粘連段,然后針對重疊粘連類型,采用連通域搜索法和藏文寬度、基線信息分別進行切分。該方法較好的解決了切分重疊粘連字符這一難點問題。為提高印刷體藏文識別系統(tǒng)的識別率提供了基礎。 參考文獻(References): [1] 江荻.藏文識別原理與運用[M].商務印書館,2012. [2] 丁曉青,王言偉.文字識別原理、方法和實踐[M].清華大學出版社,2017. [3] 劉芳.文字識別系統(tǒng)中藏文字符切分算法研究[D].西藏大學,2011. [4] 歐珠,普次仁,大羅桑朗杰等.印刷體藏文文字識別技術研究[D].計算機工程與應用,2009. 45(24). [5] 吳剛,德熙嘉措,黃鶴鳴.印刷體藏文識別技術[J].青海師范大學學報,2006.1. [6] 王維蘭,丁小青.印刷體現(xiàn)代藏文識別研究[J].計算機工程,2003. [7] 王華,丁曉青.一種多字體印刷藏文字符的歸一化方法.計算機應用研究,2004.21(6):41-43