試卷識別中的手寫體識別

2016-12-26 09:47:07廣州廣電運(yùn)通金融電子股份有限公司王倩文崔山領(lǐng)

電子世界 2016年21期

廣州廣電運(yùn)通金融電子股份有限公司王倩文崔山領(lǐng) 徐靖

試卷識別中的手寫體識別

廣州廣電運(yùn)通金融電子股份有限公司王倩文崔山領(lǐng) 徐靖

傳統(tǒng)閱卷方式要耗費(fèi)大量的人力和物力、耗時(shí)長,管理也不方便。隨著科技的發(fā)展,自動化閱卷需求日益增多。自動化閱卷系統(tǒng)強(qiáng)烈依賴于圖像處理技術(shù),整個系統(tǒng)主要包括圖像采集、圖像傾斜校正、版面分析、圖像分割、在線閱卷和成績錄入等模塊,是一個龐大而復(fù)雜的系統(tǒng)。本文針對自動化閱卷系統(tǒng)中的一個重要環(huán)節(jié)在線閱卷模塊中涉及的手寫體識別,提出基于卷積神經(jīng)網(wǎng)絡(luò)的解決方案。

手寫體識別;卷積神經(jīng)網(wǎng)絡(luò);字符識別;自動閱卷

1 前言

完整的自動閱卷系統(tǒng)包括:(1)掃描試卷的定位和糾正;(2)試卷的版面及內(nèi)容分類;(3)考生信息識別;(4)答案自動識別;(5)成績錄入與管理等。而在上述的(3)、(4)、(5)這三個模塊中,均涉及手寫體的識別。為此,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的手寫體識別的方法解決自動閱卷上的識別問題。

對于手寫體,不同的人群書寫習(xí)慣不同造成同一字符的形態(tài)、大小千變?nèi)f化。而且字符間筆畫也可能存在粘連。傳統(tǒng)的手寫體算法一般是對識別的區(qū)域進(jìn)行字符串定位、字符切割、提取字符特征、利用神經(jīng)網(wǎng)絡(luò)或者支持向量機(jī)等方法進(jìn)行字符識別等多個步驟進(jìn)行識別。但是手寫體的形態(tài)、大小變化多端,且存在字符的粘連,或部分筆畫的相互串?dāng)_,字符切割和字符的特征提取成為挑戰(zhàn)。為了解決此問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的無須進(jìn)行字符切割和字符特征提取的試卷手寫體識別方法。

2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,也是一種使用廣泛的深度學(xué)習(xí)架構(gòu),目前已成為語音分析和圖像識別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計(jì)的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。

CNN能夠得出原始圖像的有效表征,這使得CNN能夠直接從原始像素中,經(jīng)過極少的預(yù)處理,識別視覺上面的規(guī)律,而不需利用特征描述子手動進(jìn)行特征提取。

圖1 LeNet5 結(jié)構(gòu)圖

CNN是一種深度學(xué)習(xí)的架構(gòu),基于此架構(gòu),可以演變?yōu)椴煌木W(wǎng)絡(luò)。但是CNN具備共性的基本組成單元。以 LeNet-5 為例,這個CNN 含有三種類型的神經(jīng)網(wǎng)絡(luò)層:

(1)卷積層:設(shè)定卷積核數(shù)目和大小,自動學(xué)會識別輸入數(shù)據(jù)的特性表征。如上述圖1中的C1,C3,C5均為卷積層。其中C1對應(yīng)的是6個28*28的特征圖,其每個神經(jīng)元與輸入中5*5的鄰域相連。C3同樣通過16個5x5的卷積核去卷積層S2,從而得到10x10個特征圖。C5層是一個卷積層,有120個特征圖。每個單元與S4層的全部16個單元的5*5鄰域相連。由于S4層特征圖的大小也為5*5(同濾波器一樣),故C5特征圖的大小為1*1:這構(gòu)成了S4和C5之間的全連接。

(2)池化層:典型的操作包括平均池化和最大化池化。每個卷積層后面跟著一個實(shí)現(xiàn)局部平均和子抽樣的計(jì)算層,由此特征映射的分辨率降低。這種操作具有使特征映射的輸出對平移和其他形式的變形的敏感度下降的作用。LeNet-5中S2和S4均為平均池化層。

(3)全連接層:將卷積層和Pooling 層堆疊起來以后,在網(wǎng)絡(luò)的最后一般連接一層或多層全連接層,實(shí)現(xiàn)高階的推廣能力。 LeNet-5中F6即為全連接層。

CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。

3 系統(tǒng)實(shí)現(xiàn)

在自動閱卷系統(tǒng)中,在前面的(1)掃描試卷的定位和糾正、(2)試卷的版面及內(nèi)容分類兩個模塊中已把待識別的區(qū)域精確定位出來。但是在待識別區(qū)域的手寫體字符、數(shù)字等由于書寫風(fēng)格各異,大小形狀各異,因此按照常規(guī)的字符串定位、字符切割、考卷表格線擦除、字符特征提取等傳統(tǒng)的處理方法,是無法達(dá)到好的識別效果的。在我們的系統(tǒng)實(shí)現(xiàn)中,我們對于待識別區(qū)域,定義一個字符的最大寬度為MAX_WIDTH,其最小寬度為MIN_WIDTH,從最小寬度逐步遞增的步長為dW。對于待識別區(qū)域Block(大小為block_ width, block_height):

1)從區(qū)域的左側(cè)(即橫坐標(biāo)為0)開始,選定MIN_WIDTH* block_height區(qū)域,在此區(qū)域通過水平投影,確定字符的上下邊界,從而得到待識別區(qū)域MIN_WIDTH*height_this。將其歸一化為32*32作為LeNet-5的輸入,從而得到相應(yīng)的網(wǎng)絡(luò)識別結(jié)果。

2)橫坐標(biāo)x增加dW,重復(fù)第1步,獲得LeNet-5網(wǎng)絡(luò)識別結(jié)果。

3)橫坐標(biāo)x若小于MAX_WIDTH,重復(fù)第2步。

4)綜合前3步得到一系列的識別結(jié)果,找出綜合置信度最高的作為最終識別結(jié)果。

5)橫坐標(biāo)繼續(xù)增加dW,重復(fù)1～4得出所有的識別結(jié)果。

通過上述方法,我們可以避免繁瑣的字符切割和特征提取過程,充分利用多次滑動中的識別結(jié)果綜合評判得到最終的識別結(jié)果,進(jìn)一步的提高了識別的準(zhǔn)確性。

[1]Y。LeCun,L。Bottou,Y。Bengio,and P。Haffner。Gradient-based learning applied to document recognition。Proceedings of the IEEE, november 1998.

[2]Y。LeCun,B。Boser,J。S。Denker,D。Henderson,R。E。Howard,W。 Hubbard,and L。D。Jackel。Handwritten digit recognition with a back-propagation network。In David Touretzky,editor,Advances in Neural Information Processing Systems 2(NIPS?89),Denver,CO,1990.Morgan Kaufman。

[3]沈茜?；谏窠?jīng)網(wǎng)絡(luò)與GPU的手寫數(shù)字識別及其試卷管理[D]。蘇州大學(xué),2011.

[4]高鵬,譚紅,杜華等?；谏窠?jīng)網(wǎng)絡(luò)方法的手寫體數(shù)字識別[J]。吉林工業(yè)大學(xué)學(xué)報(bào),1997(1):79-82.

[5]趙曉娟。手寫體數(shù)字及英文字符的識別研究[D]。東北師范大學(xué),2010.