摘 要:中國漢字博大精深,擁有著數(shù)千年的文化背景與歷史積淀,是世界上使用人數(shù)最多的文字。漢字與其他文字不同,它具有自己的拼音化系統(tǒng)和獨立文字結(jié)構(gòu),所以在目前以計算機(jī)信息技術(shù)化為主體的社會里,對印刷體漢字信息的處理也就成了信息化發(fā)展的關(guān)鍵。印刷體漢字識別后處理技術(shù)OCR的出現(xiàn)就解決了現(xiàn)如今海量文字信息所帶來的處理難題,它提高了印刷體文字的處理效率,也推動了信息社會的不斷發(fā)展。
關(guān)鍵詞:漢字識別;OCR;后處理;語言模型;信息社會
中圖分類號:TP391.43
由于中文漢字系統(tǒng)比較復(fù)雜,涉及到幾百種漢字輸入編碼方法和語言模型。所以中國人在處理漢字輸入和識別方面面臨多種難題,比如音碼或字碼重碼率過高、輸入效率低、學(xué)習(xí)識別困難、形碼不好掌握等等。而對于一些沒有標(biāo)準(zhǔn)鍵盤的通信設(shè)備來說,由于漢字信息錄入速度慢,更是影響了正常的工作效率。所以為了能夠彌補這些不足,漢字識別技術(shù)應(yīng)運而生。
1 印刷體漢字的識別原理
漢字識別也是模式識別領(lǐng)域中所研究的科學(xué)。漢字識別技術(shù)包羅萬象,它涵蓋了模式識別、圖像處理、人工智能、模糊數(shù)學(xué)、組合數(shù)學(xué)和心理學(xué)等等學(xué)科,是一門綜合性很強的信息處理技術(shù)。漢字識別技術(shù)簡單說就是為文字的識別、分類和讀取而存在的,傳統(tǒng)的漢字識別技術(shù)靠對漢字文字的特征識別和匹配來得以實現(xiàn),但是由于漢字結(jié)構(gòu)復(fù)雜且組合較多,所以會存在一定的辨識困難。在大量文字需要識別輸入的情況下,還可能出現(xiàn)漏字的現(xiàn)象,而重新檢查也是很麻煩的。
目前的漢字識別技術(shù)依照漢字輸出形式的不同主要分為兩類:印刷體漢字識別與手寫體漢字識別。其中印刷體漢字識別又可分為單體印刷體漢字識別和多體印刷體漢字識別。
印刷體漢字識別的原理就是將印刷在紙張上的漢字,利用掃描儀或者數(shù)碼相機(jī)等光學(xué)拍攝手段輸入并得到二值圖像和灰度圖像,將這些圖像通過識別模式計算方法對圖像中的漢字進(jìn)行圖像處理分析,從而提取漢字的特征,再將這些提取出來的字體特征與標(biāo)準(zhǔn)漢字進(jìn)行匹配和判定,最終識別漢字。具體來說,印刷體漢字的識別技術(shù)主要分為三個流程。
1.1 預(yù)處理。預(yù)處理是指利用光學(xué)設(shè)備作為漢字的輸入設(shè)備。但是由于光學(xué)設(shè)備在拍照時容易受到周圍環(huán)境光的影響,所以拍攝出來的圖像可能在明暗程度和色彩上出現(xiàn)偏差,不利于接下來的漢字識別。為了解決這個困擾,在識別處理原始漢字圖像之前,應(yīng)該盡量避免周圍環(huán)境因素的干擾,這就需要對原始圖像進(jìn)行預(yù)處理。預(yù)處理的主要手段有二值化、降噪、傾斜校正、平滑、歸一化等等。以上都是能提高光學(xué)設(shè)備對原始圖像輸出質(zhì)量的有效方法。
1.2 識別。印刷體漢字的識別過程是整個技術(shù)的核心部分。它利用自己獨有的計算系統(tǒng)對原始漢字圖像進(jìn)行計算。在經(jīng)過預(yù)處理后,我們會得到原始圖像的二值圖像。識別的對象就是二值圖像,在對二值圖像進(jìn)行計算分析和漢字特征提取后再與標(biāo)準(zhǔn)漢字特征進(jìn)行匹配,印刷體漢字的識別就基本完成了。
1.3 后處理。為了進(jìn)一步提高檢出漢字的識別率和適應(yīng)性,降低系統(tǒng)失誤率。后處理技術(shù)就是對識別后的文章進(jìn)行再檢查處理。通過文章的上下文,系統(tǒng)會識別出一些識別過程中遺漏的誤識字和拒識字。最后保證高正確率。
2 后處理
2.1 后處理概述。本文主要分析的就是印刷體漢字識別流程的最后一項——后處理技術(shù)。簡單講,后處理技術(shù)就是對識別后的漢字文本進(jìn)行進(jìn)一步的再處理,最后檢索并糾正誤識字和拒識字。后處理解決了傳統(tǒng)識別系統(tǒng)對文字進(jìn)行逐一修改識別的繁雜工序,也可以說后處理是傳統(tǒng)識別技術(shù)的一種進(jìn)化與完善。
漢字的后處理方法主要可以分為手工處理、計算機(jī)自動處理和交互式處理。其中手工處理較為傳統(tǒng),它是依靠人自身對文本的再編輯工作,將文本中出現(xiàn)的誤識字進(jìn)行糾正;交互式處理稍微先進(jìn)一些,它是將識別后所形成的文本交由處理程序進(jìn)行再識別,處理程序為文本提供一些候選方案,通過用戶與計算機(jī)的交互過程而進(jìn)行的文字識別糾錯工作;計算機(jī)自動處理最為先進(jìn),它僅通過一個設(shè)計好的自動處理程序,就能對文本中可能出現(xiàn)的錯誤進(jìn)行自動的識別和糾正。
2.2 具體的后處理方法。(1)詞匹配。后處理方法從簡單的詞匹配開始,它是利用文本中上下文的匹配關(guān)系和詞的使用頻率來進(jìn)行識別糾錯的一種方式。一旦處理程序檢索到文中的拒識字,就會為它提供一個候選字以便進(jìn)行調(diào)整糾正。后處理能夠做到這些,是因為在它的系統(tǒng)程序中有一個漢語詞條的數(shù)據(jù)庫。在這個數(shù)據(jù)庫中具有完善的詞條存儲和維護(hù)功能,它能夠應(yīng)對和反映文本中詞語文字的不同使用頻率,以最快的速度來進(jìn)行反應(yīng)從而為文本調(diào)出需要的詞條,這大大提高了漢字后處理的工作效率。(2)語義分析匹配。漢語不同于其他語言,它的語義深奧且語言法則復(fù)雜。每個人對一句話可能都有不同的理解。所以為了能夠盡可能的理解文本中語言的內(nèi)涵,后處理有一套內(nèi)容量龐大的語言組合法則信息庫,它主要為文本的語義和句法的識別糾正給出建議,利用詞法和語法的分析來進(jìn)行適合的匹配工作。目前依靠語法及語義的分析來識別漢字的系統(tǒng)是相對比較智能的,它進(jìn)一步的提高了文本糾正的精度,更加人性化。(3)人工神經(jīng)元網(wǎng)絡(luò)。人工神經(jīng)元網(wǎng)絡(luò)是美國在上世紀(jì)40年代提出的一種較為智能化的漢字識別后處理技術(shù),在80年代發(fā)明了相關(guān)語言模型,是一種非線性的文字識別網(wǎng)絡(luò)系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)為漢字的識別后處理提供了兩種方案:第一種就是將識別過程和后處理過程剝離開來,也就是雙層糾錯。首先通過網(wǎng)絡(luò)輸入即時糾正一些初級錯誤,再由網(wǎng)絡(luò)后處理來糾正一些前期不能確定的漢字或拒識字;相比于分開處理,另一種方法是前期初識別與后期網(wǎng)絡(luò)識別相結(jié)合的綜合性處理,初期在發(fā)現(xiàn)待識別字時就立刻通過網(wǎng)絡(luò)進(jìn)行檢索和識別,以雙線并行的方式快速找出符合漢語語法和語義的相關(guān)答案,最終確定待識別的漢字。這種方法更加高效率和實用。
3 OCR
OCR(Optical Character Recognition)簡單地說,對其進(jìn)行簡單定義,即為光學(xué)字符自動識別技術(shù)。隨著我國經(jīng)濟(jì)水平的不斷進(jìn)步,我國各行各業(yè)都得到了飛速發(fā)展,傳媒行業(yè)的發(fā)展推動了印刷識別技術(shù)的進(jìn)步。就目前而言,OCR技術(shù)被廣泛的應(yīng)用于我國傳媒印刷事業(yè),在此之余,對于稅務(wù)票據(jù)、金融票據(jù)等等各方面也應(yīng)用到這種技術(shù)。OCR能夠最大程度的確保文字的準(zhǔn)確性,能夠使其信息傳達(dá)更加精準(zhǔn)。OCR技術(shù)中的中心環(huán)節(jié)即為N-gram語言模型。
3.1 N-gram語言模型。N-gram語言模型在OCR技術(shù)應(yīng)用當(dāng)中起到至關(guān)重要的作用,能夠?qū)ζ浜笃谔幚砼c計算進(jìn)行整理。N-gram語言模型的本身是一種語言文字處理,其能夠?qū)φZ句中的文字、詞組并且還有比較重要的語句進(jìn)行相應(yīng)的處理。
目前,一般的統(tǒng)計語言模型都會將文本語句中的概率分解化,將其基本單位的各項條件概率進(jìn)行乘法計算。
P(s)=P(w1,w2,…Wn)=P(w1|w1,w2,…wi-1)
在此公式中,n是串長度,s是字符串,wi代表模型的基本單位,這些基本單位多為文本中的字和詞。
N-gram模型就是利用Markov的假設(shè)法,它為了能夠進(jìn)一步解析文本的上下文關(guān)系,認(rèn)為每一個被預(yù)測的基本單位的長度為n-1。
P(wi|w1,w2,…wi-1)=P(wi|wi(n-1),wi(n-2)…wi-1)
n是模型階數(shù)。在文本處理過程中,N-gram模型是基于語料集而建立的,它所采用的是最大似然估計法。似然估計法會對文本中的誤識字進(jìn)行條件概率的估計。n的數(shù)值越大,則模型的精度就越高。
3.2 基于字節(jié)的語言模型。針對于一般性的漢字編碼,通常兩個編碼能夠組成一個漢字,但是通過對其不斷的深入研究分析發(fā)現(xiàn),如果將語言模型單位一個單位編碼來進(jìn)行表示,其能夠最大程度的將語言模型簡易化,減少其復(fù)雜程度。針對這一問題的探究,人們將一個單位編碼作為語言模型的基本單位。
如果將漢字字串設(shè)定為S1。由于每兩個字節(jié)構(gòu)成一個漢字,那么它對應(yīng)的單位編碼串就是S2。這樣就可以建立基于基本編碼的長度為2和3的模型。
再根據(jù)漢字的編碼規(guī)律,去掉漢字編碼的“無效”漢字標(biāo)識位,則基于字詞的模型空間稀疏問題就會大幅降低。
3.3 具體試驗。本次試驗主要是針對常用詞來進(jìn)行后期處理與統(tǒng)計評估工作。其工作的主要內(nèi)容為,將常用詞本身的漢字等置于語言模型中,對其進(jìn)行后期處理,進(jìn)行文本評估識別工作,確保其準(zhǔn)確性。通過對關(guān)鍵詞進(jìn)行OCR技術(shù)的系統(tǒng)識別工作之后,其后期處理的識別率得到了較大幅度的提高,具體數(shù)值為96.67%以上。
4 結(jié)束語
印刷體漢字識別技術(shù)是一項極為復(fù)雜的信息文本處理技術(shù),特別是后處理技術(shù)難度更大。本文分析了一般性的漢字識別過程以及以O(shè)CR為背景的N-gram模型,該方法降低了數(shù)據(jù)處理的復(fù)雜程度、提高了數(shù)據(jù)處理速度,并通過實驗驗證了該方法的良好性能。
參考文獻(xiàn):
[1]張宏濤,龍翀,朱小燕等.印刷體漢字識別后處理方法的研究[J].中文信息學(xué)報,2009(06).
[2]聶玖星.印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究[D].大連理工大學(xué),2008.
[3]李元祥,劉長松,丁曉青等.一種利用校對信息的漢字識別自適應(yīng)后處理方法[J].中文信息學(xué)報,2001(01).
[4]梁瑩,肖健,李玥.多引擎印刷體漢字識別系統(tǒng)研發(fā)[A].廣西計算機(jī)學(xué)會25周年紀(jì)念會暨2011年學(xué)術(shù)年會論文集[C],2011.
[5]萬金娥,袁保社.基于字符歸一化雙投影互相關(guān)性匹配識別算法[J].計算機(jī)應(yīng)用,2013(03).
[6]朱程輝,曹敏,王建平. 基于過程神經(jīng)網(wǎng)絡(luò)的漢字特征提取方法的研究[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2013(10).
[7]訾興建,王建平.手寫體漢字八形態(tài)編碼識別方法的研究[J].淮北師范大學(xué)學(xué)報(自然科學(xué)版),2012(02).
[8]金連文,徐秉錚.基于多級神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手寫體漢字識別[J].通信學(xué)報,1997(05).
[9]王國胤,施鴻寶.漢字識別的并行神經(jīng)網(wǎng)絡(luò)方法[J].模式識別與人工智能,1996(01).
[10]王建平,金鐵江,邵威.基于過程神經(jīng)網(wǎng)絡(luò)的手寫體漢字識別方法研究[J].計算機(jī)應(yīng)用,2009(02).
作者簡介:柴晨陽(1975.12-),講師,研究生,碩士學(xué)位,研究方向:智能信息處理、會計信息化。
作者單位:江西財經(jīng)大學(xué)會計學(xué)院,南昌 330013
基金項目:江西省教育廳青年科學(xué)基金項目(項目編號:GJJ10121)。