樊小超
【摘要】錫伯文是以單詞為單位進行書寫的黏連體文字,根據(jù)字母在單詞中的不同位置,字母具有多種變體形態(tài),目前錫伯文的字母切分和識別技術的研究剛剛起步。本文總結了黏連體文字的切分技術,主要包括行/列切分、單詞切分和字母切分,并重點探討了不同字母切分方法對黏連體文字識別的影響,從而為今后錫伯文的文字切分及識別提供必要的理論基礎和技術指導。
【關鍵詞】錫伯文切分技術;印刷體識別;字母識別
錫伯文記載著本民族的歷史記憶和眾多民俗文化,展示著錫伯族的特征和文化內(nèi)涵,更是錫伯族非物質(zhì)文化遺產(chǎn)的重要載體[1]。錫伯文是在滿文字符基礎上改革而形成的拼音文字,兩種文字之間存在著一脈相承的關系,而滿文曾經(jīng)是清朝政府的官方文字,留下了海量的滿文檔案及文獻資料,研究錫伯文的文字識別有利于珍貴歷史文獻的保護和考據(jù);錫伯文是新疆通用的六種民族語言文字之一,在錫伯族的交際活動中占主要地位,許多報紙、期刊仍使用錫伯文,研究錫伯文的文字切分識別技術有利于錫伯族群眾更好的融入現(xiàn)代化生活;錫伯族長期與漢民族共同生產(chǎn)生活,有逐漸失去本民族的語言文字的趨勢,錫伯文文字切分識別技術研究有利于錫伯族語言、文字等文化要素的保存、傳承和發(fā)揚,因此,錫伯文文字切分識別技術研究具有重要的理論價值和實際應用價值。本文的目的在于對現(xiàn)有的黏連體文字的切分技術進行梳理和總結,為今后的錫伯文識別算法提供理論基礎和技術指導。
一、錫伯文字母識別
如圖1所示,根據(jù)輸入的字符信號的形式,字符識別可分為聯(lián)機字符識別和脫機字符識別。脫機字符識別系統(tǒng)處理的是事先掃描好的書面文本圖像。脫機識別又可分為兩類:手寫體字符識別和印刷體字符識別。手寫體字符,可能由多個作者書寫,書寫沒有統(tǒng)一規(guī)范,樣式和大小各不相同。印刷體字符通常比較規(guī)范,采用統(tǒng)一的字體樣式和大小。錫伯文識別領域,更多的需求是對印刷體錫伯文進行識別,通常識別有兩種方式:不對錫
圖1錫伯文識別系統(tǒng)分類
伯文單詞進行切分,直接將單詞作為一個整體進行識別,另一種方式是先將單詞切分成字母,再識別出每個字母,根據(jù)識別出的字母及拼寫規(guī)則還原出對應的單詞。識別整個單詞省略了切分過程,避免了切分過程對單詞識別的影響,但是直接識別單詞的難度卻有所提升。切分后識別,識別的字母數(shù)量較少,對于字母的識別率較高,由識別出的字母還原單詞比較簡單,但是切分的質(zhì)量直接影響著識別的效果。
二、字母切分技術
錫伯文識別過程中需要將文本切分成單元,如行、單詞或字母,切分是一個重要的階段,切分的好壞對錫伯文的識別結果具有直接的影響。切分可以分為以下幾個階段:
列切分:經(jīng)過掃描的圖像需要經(jīng)過版面分析切分成多個部分,如文本、表格、圖像等,將不同的部分給予標記,然后對文字部分圖像進行段落劃分[2]。阿拉伯文通常采用水平投影[3]的方法進行行切分。而對于錫伯文,由于其書寫是自左到右,自上而下,所以不能采用水平投影的方法,可采用垂直投影法。
單詞切分:將行或列切分后,需要進一步將其分割成單詞。將一行/列分割成單詞取決于單詞之間的空間。錫伯文與中文不同,單詞之間存在明顯的空間,且印刷體較為規(guī)范,單詞間空隙長度一致。常用的采用分析連通分量之間的距離來進行單詞切分[4]。朱滿瓊等[5]對含有圖像背景的滿文圖片進行了單詞的提取,并進行了去燥、細化等處理。
字母切分:將單詞切分成對應的多個字母。由于印刷體錫伯文書寫時以單詞為單位,不同的單詞長度不同,單詞的長度取決于該單詞包含字母的數(shù)量,因此在進行錫伯文識別時,通常需要進行字母的切分。李偉等[6]提出了一種基于主干線的蒙古文切分方法。Lorigo等[7]提出了一種基于字母形狀特征來進行脫機手寫體阿拉伯文的字母切分和識別的算法。張廣淵等[8]根據(jù)滿文的文字結構特征提出了一種新的筆畫提取方法。趙驥等[9]首先將滿文單詞分解為筆畫基元,然后采用基于筆畫序列的方法對滿文進行識別。
錫伯文由于黏連的特性,字母的切分將是一項艱巨的任務,字母切分技術可以分為以下幾類:
基于直方圖:該方法將文本圖像沿不同方向進行投影,根據(jù)黑色像素點的分布,基線的位置,以及計算得到的直方圖的閾值進行圖像的切分。Liu[10]等將直方圖方法應用到阿拉伯文的圖像切分中取得了較好的效果。春花[11]提出了一種基于基線的蒙古文切分方法。
基于細化:該方法通過連接相鄰的聚類中心點從而生成字符的骨架,而字符骨架提供了關于字符形狀的基本信息。細化通常可以通過檢測字符的邊緣點、斷點和首尾點或進行模板匹配兩種方式實現(xiàn)[12]。Tellache等[13]提出平行細化方法用于阿拉伯文字母切分和識別。
基于輪廓跟蹤:該方法通過跟蹤單詞的外輪廓來切分單詞。Sari等[14]中提出了一種基于輪廓分析和拓撲規(guī)則的字符分割算法,首先找到輪廓的局部極小點,然后利用拓撲規(guī)則確定局部極小點是否為分割點。
基于形態(tài)學:該方法根據(jù)圖像的形態(tài)學特征選取合適的結構元素,然后對圖像進行數(shù)學形態(tài)學計算以達到圖像分割的目的。Albadr等[15]提出了一種基于符號形狀的形態(tài)學方法,對無噪聲的數(shù)據(jù)的識別準確率達到了99.4%,但該方法對有噪聲的數(shù)據(jù)效果較差。
基于神經(jīng)網(wǎng)絡:該方法通過神經(jīng)網(wǎng)絡對有效的分割點進行驗證。Hamid[16]提出了一種基于ANNs的手寫阿拉伯語文本分割技術,首先利用形態(tài)學特征對單詞進行預切分,然后用神經(jīng)網(wǎng)絡模型對預分割的分割點進行判定。Hongxi wei[17]等使用具有特定結構的BP神經(jīng)網(wǎng)絡對蒙古文進行切分和識別并取得了良好的性能。
然而,目前提出的大部分分割算法都不能解決錫伯文中字符重疊的問題。切分階段是識別中最困難的階段,也是錯誤的主要來源。因此,錫伯文的切分技術在錫伯文識別中仍然是最具挑戰(zhàn)的問題。
三、結語
錫伯族的語言文字被完整的保留至今,然而隨著時代的發(fā)展,錫伯語言文字受到了嚴重的威脅,亟待保護與傳承。錫伯文的文字的切分及識別研究剛剛起步,研究成果較少,本文梳理了與印刷體錫伯文相似的黏連體文字,如蒙古文、滿文及維吾爾文等的文字切分技術,主要包括列/行切分,單詞切分和字母切分技術。字母的切分是錫伯文等黏連體文字在識別過程中面臨的主要的問題與挑戰(zhàn),本文歸納總結了基于直方圖、基于細化、基于輪廓跟蹤、基于形態(tài)學和基于神經(jīng)網(wǎng)絡等多種方法進行的字母切分技術,為今后的錫伯文字母切分及識別技術的研究提供了理論基礎和技術指導。
參考文獻:
[1]李樹蘭,仲謙.錫伯語簡志[M].北京:民族出版社,1986.
[2]陳明,丁曉青,梁健.復雜中文報紙的版面分析、理解和重構[J].清華大學學報(自然科學版),2001,41(1):29~32.
[3]田學東,郭寶蘭.基于組合特征的中文版面分析方法[J].中文信息學報,1999,13(4):23~29.
[4]Aghbari Z A,Brook S. HAH manuscripts:A holistic paradigm for classifying and retrieving historical Arabic handwritten documents[J].Expert Systems with Applications,2009,36(8):10942~10951.
[5]朱滿瓊,李敏,許爽.圖像背景下的滿文文字提取[J].大連民族大學學報,2014,16(1):78~81.
[6]李偉,高光來,侯宏旭.印刷體蒙古文字識別技術中切分方法的設計與實現(xiàn)[J].內(nèi)蒙古大學學報(自然版),2003,34(3):357~360.
[7]Lorigo L,Govindaraju V. Segmentation and pre-recognition of Arabic handwriting[C].International Conference on Document Analysis & Recognition. IEEE,2005.
[8]張廣淵,李晶皎,王愛俠.脫機手寫滿文筆畫基元的提取和識別[J].計算機工程,2007,33(22):200~202.
[9]趙驥,李晶皎,張廣淵,等.脫機手寫體滿文文本識別系統(tǒng)的設計與實現(xiàn)[J].模式識別與人工智能,2006,19(6):801~805.
[10]Liu Zhi-Qiang,Jin-Hai Cai,Richard Buse.Handwriting recognition: soft computing and probabilistic approaches[J].Springer,2012(133).
[11]春花.印刷體蒙古文文字識別的研究[J].內(nèi)蒙古民族大學學報(自然科學版),2014(6):627~628.
[12]Altuwaijri M,Bayoumi M. A new thinning algorithm for Arabic characters using self-organizing neural network[C].IEEE International Symposium on Circuits & Systems. IEEE,1995.
[13]Tellache M,Sid-Ahmed M A,Abaza B. Thinning algorithms for Arabic OCR[C].IEEE Pacific Rim Conference on Communications,Computers & Signal Processing. IEEE,1993.
[14]Sari T,Souici L,Sellami M. Off-line handwritten Arabic character segmentation algorithm: ACSA[C].International Workshop on Frontiers in Handwriting Recognition.IEEE,2002.
[15]Albadr B,Haralick R M. Segmentation-free word recognition with application to Arabic[C].International Conference on Document Analysis & Recognition.IEEE,1995.
[16]Hamid A,Haraty R. A neuro-heuristic approach for segmenting handwritten Arabic text[C].IEEE International Conference on Computer Systems & Applications. IEEE,2001.
[17]Wei H,Gao G. Machine-Printed Traditional Mongolian Characters Recognition Using BP Neural Networks[C].International Conference on Computational Intelligence & Software Engineering.IEEE,2009.