手寫漢字識別系統(tǒng)的研究與應用

2014-09-30 11:26:39劉慶祥

武昌理工學院學報 2014年2期

關鍵詞：限定性模式識別人工神經(jīng)網(wǎng)絡

劉慶祥

摘要：本文在研究漢字識別理論的基礎上，介紹了手寫漢字識別系統(tǒng)研究的意義及其在實際中應用，并對當前手寫漢字識別的現(xiàn)狀及存在的問題進行了分析，提出了限定性脫機手寫漢字識別的研究方向。

關鍵詞：限定性；脫機手寫漢字；模式識別；人工神經(jīng)網(wǎng)絡

中圖分類號：TP391 文獻標識碼：A

一、引言

以計算機為基礎的現(xiàn)代信息處理技術已成為信息社會的重要標志，隨著信息時代的到來，如何用計算機對漢語信息進行處理已發(fā)展成為一門綜合性的交叉學科——中文信息處理。漢字信息的計算機處理技術對我國乃至世界信息事業(yè)的發(fā)展具有重要的意義，在以微電子與計算機技術為先導的信息化浪潮中，成為我國高新技術的一個熱點。

漢字信息的計算機處理技術包括漢字信息的輸入、處理和輸出。漢字是一種象形文字，它不像西方拼音文字那樣可以直接方便地輸入到計算機中，雖然現(xiàn)在已有數(shù)百種的漢字輸入編碼方案，但它們不是速度慢就是過于復雜不便學習，難以適應高速發(fā)展的中文信息處理技術的需要。漢字輸入問題成為漢字信息處理的“瓶頸”，影響了計算機在我國的推廣使用，成為我國乃至世界信息化進程的障礙。研究高速自動的漢字輸入方法是中文信息處理技術領域的一個重大課題。漢字自動錄入的關鍵是漢字的計算機自動識別問題。

二、漢字識別及其研究的領域

漢字識別是指讓計算機對經(jīng)由某些特定輸入設備得到的漢字圖象進行自動識別，從而得到相應的計算機內(nèi)碼表示的漢字文本的一種技術。它是智能計算機接口的一個重要組成部分，也是漢字高速、自動輸入計算機的重要手段。漢字識別系統(tǒng)有時也稱為“光學字符閱讀機”，簡記為OCR（Optical Character Reader）。

形象地來講，漢字識別就是在漢字圖象（或筆畫序列）與漢字的計算機內(nèi)碼之間建立一種關系，使得計算機能夠自動地將漢字圖象轉換為漢字內(nèi)碼。設G為漢字圖象的集合，C為漢字集合，則漢字識別問題可以看作一個映射（如公示一所示）：

公式一： f：G → C 或 c = f （ g ）

其中g ∈ G為一個漢字圖象，c ∈ C為其所對應的漢字內(nèi)碼。

但在現(xiàn)有的識別系統(tǒng)中，這種映射還不是一一對應的關系。其原因在于就現(xiàn)有的機器識別技術，還不能作到對識別結果的完全確定，存在誤識和拒識問題。

為了評價一個識別系統(tǒng)的性能，通常引入識別率、誤識率、拒識率和識別結果可信度的概念。

識別率指漢字識別系統(tǒng)能夠正確識別的字數(shù)與待識別的總字數(shù)的比率；

誤識率指漢字識別系統(tǒng)錯誤識別的字數(shù)與待識別的總字數(shù)的比率；

拒識率指漢字識別系統(tǒng)不能夠識別的字數(shù)與待識別的總字數(shù)的比率；

識別結果的可信度是指識別器輸出漢字C時的可信程度。若被識別器識別漢字C的總字數(shù)是Mc，對應Mc中輸入漢字C的個數(shù)為Nc，則C的可信度Bc用公式二表示。

公式二： Bc=（Nc/Mc）×100%

為了減小研究難度，集中研究精力，人們對漢字識別研究領域進行細致的劃分。依照待識別漢字的形成方式，漢字識別可分為印刷體漢字識別和手寫體漢字識別兩大類。手寫體漢字識別又可根據(jù)識別的實時性分為聯(lián)機手寫體漢字識別和脫機手寫體漢字識別。對脫機手寫體漢字識別又分為特定人非限定性脫機手寫體漢字識別、非特定人限定性脫機手寫體漢字識別和非特定人隨意性脫機手寫體漢字識別。

聯(lián)機識別指手寫體識別時，用光電書寫板邊輸入邊識別，各筆跡點的坐標被順序地輸入計算機內(nèi)，原始信號為一維序列；而脫機識別研究的對象是書寫在紙上經(jīng)由掃描儀輸入的點陣字符，原始信號為二維圖象。因此從識別的角度看，聯(lián)機手寫識別要比脫機手寫識別簡單，因為在聯(lián)機識別中容易抽取筆劃和筆順信息。

所謂“限定性”是指手寫印刷體識別時，要求人們工整書寫，例如書寫時要求橫平豎直；而“非限定性”是指人們在實際生活中那樣可以連筆地自由書寫。

目前印刷體漢字識別和聯(lián)機手寫體漢字識別己逐步實用化，而脫機手寫體漢字識別，因其自身的復雜性被視為漢字識別領域中“最難征服的領域”，成為國內(nèi)外學者研究的熱點。本文研究的對象是脫機手寫體識別中的非特定人限定性脫機手寫體漢字識別（以下簡稱脫機手寫體漢字識別）。

漢字識別在學科上屬于模式識別中的文字識別分支，是模式識別領域中的一個重要研究課題，漢字識別的研究涉及人工智能、模糊數(shù)學、人工神經(jīng)網(wǎng)絡、圖象識別、計算機科學、心理學、語言學等學科。

三、手寫體漢字識別研究的理論價值及應用前景

手寫體漢字識別研究的理論價值是多方面的。

（一）手寫體漢字識別的理論研究是為了認識高難度模式識別的一般規(guī)律，發(fā)展機器自動識別技術。傳統(tǒng)的模式識別理論和方法在手寫體漢字識別中有很大的局限性，手寫體漢字識別的研究有助于發(fā)展新的模式識別理論。

（二）漢字識別技術的研究是揭示人類智能奧秘的一個理想窗口，也是實現(xiàn)人工智能的良好平臺和環(huán)境。模式識別能力在人類智能行為中屬于較低層，相對獨立，對其研究需要的背景知識較少。但它也因為處于意識覺察的范圍之外，人類對其工作過程難以進行有意識的描述，所以迄今為止人類的基本模式識別能力中，仍然有許多待解之謎。而漢字由于其獨特的復雜結構，考察人認識漢字的過程成為研究人類認識能力的一個良好手段。這是因為人對具有豐富結構特征的漢字進行辯識時，不僅要應用模式識別能力，還要應用推理判斷能力。這樣人對漢字識別的過程既包括高層的以符號推理為主的“深思熟慮”型的智能，又包括底層的非推理的“本能反應”型的智能，使得它處于人類高層智能與低層智能的結合部，能夠部分為意識所覺察和描述。

（三）人類的習字與識字的過程是一個典型的學習訓練過程，對于機器學習算法的研究很有意義。

（四）由于手寫體漢字識別是一個涉及多學科的復雜性問題，各個學科從自身角度探索手寫體漢字識別問題，出現(xiàn)了大量新思想和新方法，促進了相關學科的深入發(fā)展，因此手寫體漢字識別在相關學科研究中，具有很高的理論探索價值和啟發(fā)創(chuàng)造作用。

手寫體漢字識別不僅具有重要的理論研究價值，而且具有廣闊的應用前景。手寫體漢字識別技術的應用是多方面的，它能使習慣漢語的計算機用戶保持傳統(tǒng)的書寫方式，又享受到計算機給人們帶來的快捷和便利，該技術的應用和發(fā)展必將徹底改變?nèi)藱C界面的傳統(tǒng)模式，加速計算機在使用漢語的國家和地區(qū)的普及。手寫體漢字識別技術有著很強的應用前景，綜合起來，主要有以下幾個方面：

（1）智能計算機

人能夠以自然的方式與計算機進行交互，是智能計算機的一個重要標志。漢字作為人類常用的主要交流方式之一，必將在未來的計算機人機接口中占有重要的地位，智能計算機必須能夠接收以各種形式提供的漢字信息。

（2）文獻檢索

資料庫的建立是文獻檢索的首要條件，漢字識別技術為資料庫提供了有效的方法。

（3）辦公自動化

在自動化辦公過程中，每天都要輸入大量的信息，雖然已經(jīng)有很多種編碼方案可以實現(xiàn)漢字的鍵盤輸入，但手寫輸入是最自然、最易被人接受的方式之一。

（4）筆記本計算機

對超小型筆記本式計算機，因體積的限制，不可能采用通常的鍵盤輸入，手寫輸入是其唯一可選的輸入方式。

（5）票據(jù)、表格錄入

在許多場合下，由于各種條件的限制，計算機要處理的信息必須首先書寫在紙張上，然后再輸入到計算機中處理。例如：財務單據(jù)，制度規(guī)定必須有手寫底單存檔：人口普查、工農(nóng)業(yè)普查等，因條件的限制，只能先填寫在紙上：還有其它的稅務報表、保險單據(jù)等。漢字識別（包括數(shù)字識別）技術的應用，可以極大地提高這些領域的工作效率。

（6）機器翻譯

漢字識別可以作為機器翻譯系統(tǒng)的一個組成部分提供給用戶，實現(xiàn)漢字的自動錄入。

（7）盲人閱讀機

與語音合成技術結合在一起，實現(xiàn)語音閱讀機，或者與相關的機械設備相結合，實現(xiàn)普通文字到盲文的自動轉換（翻譯）。

（8）郵政自動分揀系統(tǒng)

早期的郵政分揀系統(tǒng)只能對數(shù)字的郵政編碼進行識別，目前國外的分揀系統(tǒng)可以識別城市名、州名等。識別的手寫體可以是手寫印刷體、自由手寫體以及兩種字體的混合使用。地址的識別結合了自然語言理解中的上下文相關技術，這一技術多用于文字識別的后處理，目前在文字識別過程中也有采用。國內(nèi)有些大型郵政系統(tǒng)也采用了郵政編碼的分揀系統(tǒng)。

4 手寫體漢字識別研究存在的主要問題和難點

從1990年開始，我國專家組對漢字OCR已經(jīng)先后組織了五次評測，有力地推動了手寫體漢字識別技術的發(fā)展。評測表明，漢字識別技術已經(jīng)基本成熟，表現(xiàn)為識別率較高，簡繁印刷體漢字識別率都可以達到96—98%以上，手寫體單字識別率也可以達到90%左右，聯(lián)機識別率則在91-94%左右。目前的識別系統(tǒng)存在的主要問題是：

（1）識別結果受圖象質量影響較大；

（2）前、后處理在系統(tǒng)中的作用還需要不斷加強；

（3）對于自由書寫漢字的識別仍然不能令人滿意；

（4）學習能力普遍較弱，難以適應不同字型的變換。

從目前情況看，手寫體漢字識別的研究距實用還有一定差距，究其原因，漢字獨特的結構給計算機的自動識別造成了巨大的困難和障礙：

（1）第一個難點在于漢字的字量大，漢字類別多。國標一級漢字3755個，二級漢字3008個，兩級共計6763個，比西文字符高出兩個數(shù)量級，從而使得許多行之有效的模式識別方法難于直接應用。

（2）第二個難點在于漢字字形結構復雜，筆劃繁多。

（3）第三個難點在于漢字集合中相似字較多，手寫時變形的存在，產(chǎn)生較印刷體更多的相似字。

（4）第四個難點在于手寫體漢字的變形因人而異，差別很大，具體表現(xiàn)在以下方面：

基本筆劃變化多，橫不平，豎不直，直筆變彎，折筆的拐角變成圓弧等；

筆劃模糊，不規(guī)范，該連的不連，不該連的卻相連；

筆劃與筆劃之間、部位與部位之間的位置發(fā)生變化；

筆劃的傾斜角、筆劃的長短、部位的大小發(fā)生變化；

對于脫機手寫漢字，不同人使用不同的書寫筆可能造成筆劃的粗細變化。

這四個難點中，手寫漢字字形的變化是最難解決的問題。

就識別技術看，主要困難在于：手寫體漢字識別是涉及多學科的綜合技術，各個學科交叉領域的研究還是一個薄弱環(huán)節(jié)，特別是在心理學和生理學中人們對大腦認字原理的研究還不夠深入，使得手寫體漢字機器識別的研究缺乏相關理論的指導，具有很大的盲目性。因此，綜合運用相關學科的最新成果，如人工神經(jīng)網(wǎng)絡、模糊數(shù)學等理論，采取現(xiàn)有識別技術綜合集成的策略，是手寫體漢字識別研究的一個重要方向。

5 結論

通過綜合分析手寫體漢字識別研究的現(xiàn)狀，筆者認為對手寫體漢字識別的研究應該從下幾個方面進行突破：

針對手寫體漢字類別多，相似字難以識別的突出問題，應找出機器識別中相似字識別率低的原因，在相似字以及相似字集簇的概念的基礎上，研究在GB2312—80一級漢字范圍內(nèi)獲取相似字集簇的有效方法；

將人工神經(jīng)網(wǎng)絡理論引入手寫體漢字識別系統(tǒng)，采取系統(tǒng)集成策略，研究基于統(tǒng)計與人工神經(jīng)元網(wǎng)絡方法相結合的非特定人脫機手寫體漢字識別方法，以解決脫機手寫體漢字識別中相似字識別率低的問題；

用人工神經(jīng)網(wǎng)絡算法實現(xiàn)小集合手寫體相似漢字的分類識別，對網(wǎng)絡參數(shù)以及隱含層節(jié)點數(shù)目的選取進行研究。

參考文獻：

[1] 金連文，徐秉錚.基于多神經(jīng)網(wǎng)絡結構的手寫體漢字識別[J].通信學報，2012（8）.

[2] 聞新，周露，王丹力.神經(jīng)網(wǎng)絡應用設計[J].科學出版社，2012（6）.

（本文審稿肖潔）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

手寫漢字識別系統(tǒng)的研究與應用