廣州廣電運(yùn)通金融電子股份有限公司 王倩文 崔山領(lǐng) 徐 靖
試卷識別中的手寫體識別
廣州廣電運(yùn)通金融電子股份有限公司 王倩文 崔山領(lǐng) 徐 靖
傳統(tǒng)閱卷方式要耗費(fèi)大量的人力和物力、耗時(shí)長,管理也不方便。隨著科技的發(fā)展,自動化閱卷需求日益增多。自動化閱卷系統(tǒng)強(qiáng)烈依賴于圖像處理技術(shù),整個系統(tǒng)主要包括圖像采集、圖像傾斜校正、版面分析、圖像分割、在線閱卷和成績錄入等模塊,是一個龐大而復(fù)雜的系統(tǒng)。本文針對自動化閱卷系統(tǒng)中的一個重要環(huán)節(jié)在線閱卷模塊中涉及的手寫體識別,提出基于卷積神經(jīng)網(wǎng)絡(luò)的解決方案。
手寫體識別;卷積神經(jīng)網(wǎng)絡(luò);字符識別;自動閱卷
完整的自動閱卷系統(tǒng)包括:(1)掃描試卷的定位和糾正;(2)試卷的版面及內(nèi)容分類;(3)考生信息識別;(4)答案自動識別;(5)成績錄入與管理等。而在上述的(3)、(4)、(5)這三個模塊中,均涉及手寫體的識別。為此,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的手寫體識別的方法解決自動閱卷上的識別問題。
對于手寫體,不同的人群書寫習(xí)慣不同造成同一字符的形態(tài)、大小千變?nèi)f化。而且字符間筆畫也可能存在粘連。傳統(tǒng)的手寫體算法一般是對識別的區(qū)域進(jìn)行字符串定位、字符切割、提取字符特征、利用神經(jīng)網(wǎng)絡(luò)或者支持向量機(jī)等方法進(jìn)行字符識別等多個步驟進(jìn)行識別。但是手寫體的形態(tài)、大小變化多端,且存在字符的粘連,或部分筆畫的相互串?dāng)_,字符切割和字符的特征提取成為挑戰(zhàn)。為了解決此問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的無須進(jìn)行字符切割和字符特征提取的試卷手寫體識別方法。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,也是一種使用廣泛的深度學(xué)習(xí)架構(gòu),目前已成為語音分析和圖像識別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計(jì)的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
CNN能夠得出原始圖像的有效表征,這使得CNN能夠直接從原始像素中,經(jīng)過極少的預(yù)處理,識別視覺上面的規(guī)律,而不需利用特征描述子手動進(jìn)行特征提取。
圖1 LeNet5 結(jié)構(gòu)圖
CNN是一種深度學(xué)習(xí)的架構(gòu),基于此架構(gòu),可以演變?yōu)椴煌木W(wǎng)絡(luò)。但是CNN具備共性的基本組成單元。以 LeNet-5 為例,這個CNN 含有三種類型的神經(jīng)網(wǎng)絡(luò)層:
(1)卷積層:設(shè)定卷積核數(shù)目和大小,自動學(xué)會識別輸入數(shù)據(jù)的特性表征。如上述圖1中的C1,C3,C5均為卷積層。其中C1對應(yīng)的是6個28*28的特征圖,其每個神經(jīng)元與輸入中5*5的鄰域相連。C3同樣通過16個5x5的卷積核去卷積層S2,從而得到10x10個特征圖。C5層是一個卷積層,有120個特征圖。每個單元與S4層的全部16個單元的5*5鄰域相連。由于S4層特征圖的大小也為5*5(同濾波器一樣),故C5特征圖的大小為1*1:這構(gòu)成了S4和C5之間的全連接。
(2)池化層:典型的操作包括平均池化和最大化池化。每個卷積層后面跟著一個實(shí)現(xiàn)局部平均和子抽樣的計(jì)算層,由此特征映射的分辨率降低。這種操作具有使特征映射的輸出對平移和其他 形式的變形的敏感度下降的作用。LeNet-5中S2和S4均為平均池化層。
(3)全連接層:將卷積層和Pooling 層堆疊起來以后,在網(wǎng)絡(luò)的最后一般連接一層或多層全連接層,實(shí)現(xiàn)高階的推廣能力。 LeNet-5中F6即為全連接層。
CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。
在自動閱卷系統(tǒng)中,在前面的(1)掃描試卷的定位和糾正、(2)試卷的版面及內(nèi)容分類兩個模塊中已把待識別的區(qū)域精確定位出來。但是在待識別區(qū)域的手寫體字符、數(shù)字等由于書寫風(fēng)格各異,大小形狀各異,因此按照常規(guī)的字符串定位、字符切割、考卷表格線擦除、字符特征提取等傳統(tǒng)的處理方法,是無法達(dá)到好的識別效果的。在我們的系統(tǒng)實(shí)現(xiàn)中,我們對于待識別區(qū)域,定義一個字符的最大寬度為MAX_WIDTH,其最小寬度為MIN_WIDTH,從最小寬度逐步遞增的步長為dW。對于待識別區(qū)域Block(大小為block_ width, block_height):
1)從區(qū)域的左側(cè)(即橫坐標(biāo)為0)開始,選定MIN_WIDTH* block_height區(qū)域,在此區(qū)域通過水平投影,確定字符的上下邊界,從而得到待識別區(qū)域MIN_WIDTH*height_this。將其歸一化為32*32作為LeNet-5的輸入,從而得到相應(yīng)的網(wǎng)絡(luò)識別結(jié)果。
2)橫坐標(biāo)x增加dW,重復(fù)第1步,獲得LeNet-5網(wǎng)絡(luò)識別結(jié)果。
3)橫坐標(biāo)x若小于MAX_WIDTH,重復(fù)第2步。
4)綜合前3步得到一系列的識別結(jié)果,找出綜合置信度最高的作為最終識別結(jié)果。
5)橫坐標(biāo)繼續(xù)增加dW,重復(fù)1~4得出所有的識別結(jié)果。
通過上述方法,我們可以避免繁瑣的字符切割和特征提取過程,充分利用多次滑動中的識別結(jié)果綜合評判得到最終的識別結(jié)果,進(jìn)一步的提高了識別的準(zhǔn)確性。
[1]Y。LeCun,L。Bottou,Y。Bengio,and P。Haffner。Gradient-based learning applied to document recognition。Proceedings of the IEEE, november 1998.
[2]Y。LeCun,B。Boser,J。S。Denker,D。Henderson,R。E。Howard,W。 Hubbard,and L。D。Jackel。Handwritten digit recognition with a back-propagation network。In David Touretzky,editor,Advances in Neural Information Processing Systems 2(NIPS?89),Denver,CO,1990.Morgan Kaufman。
[3]沈茜?;谏窠?jīng)網(wǎng)絡(luò)與GPU的手寫數(shù)字識別及其試卷管理[D]。蘇州大學(xué),2011.
[4]高鵬,譚紅,杜華等?;谏窠?jīng)網(wǎng)絡(luò)方法的手寫體數(shù)字識別[J]。吉林工業(yè)大學(xué)學(xué)報(bào),1997(1):79-82.
[5]趙曉娟。手寫體數(shù)字及英文字符的識別研究[D]。東北師范大學(xué),2010.