李怡軒
(渭南師范學(xué)院,渭南 714000)
手寫數(shù)字在人口普查、金融票據(jù)、郵件分揀等領(lǐng)域有著極其廣泛地應(yīng)用[1-2],手寫數(shù)字識(shí)別是當(dāng)前圖像處理和模式識(shí)別領(lǐng)域的一個(gè)重要研究分支,由于手寫數(shù)字的隨意性大,其識(shí)別準(zhǔn)確率易受字體大小、筆畫粗細(xì)和傾斜角度等因素的影響,因此進(jìn)行手寫數(shù)字識(shí)別方法和系統(tǒng)的設(shè)計(jì)具有重要的理論價(jià)值和實(shí)際意義。本文將機(jī)器學(xué)習(xí)方法應(yīng)用于手寫數(shù)字系統(tǒng)識(shí)別設(shè)計(jì),開發(fā)出一個(gè)小型的基于機(jī)器學(xué)習(xí)的手寫數(shù)字識(shí)別系統(tǒng)。
基于機(jī)器學(xué)習(xí)的手寫數(shù)字識(shí)別主要包括圖像預(yù)處理模塊、特征提取模塊、分類器設(shè)計(jì)模塊以及數(shù)字識(shí)別模塊。圖像預(yù)處理主要包括圖像降噪、二值化;特征提取主要根據(jù)手寫數(shù)字圖像的自身結(jié)構(gòu)特征,計(jì)算指定方向直線的交叉點(diǎn)、端點(diǎn)作為數(shù)字識(shí)別的特征向量;分類器設(shè)計(jì)最主要采用類中心的歐式距離分類器[3]、馬氏距離分類器[4]和貝葉斯分類器[5]。手寫數(shù)字識(shí)別系統(tǒng)框架,如圖1所示。
基于機(jī)器學(xué)習(xí)的手寫數(shù)字識(shí)別的流程如下:
圖1 手寫數(shù)字識(shí)別系統(tǒng)框架
(1)讀取手寫數(shù)字圖像,并將其歸一化和統(tǒng)一尺寸為24×24圖像塊;
(2)圖像降噪、二值化和細(xì)化操作;
(3)數(shù)字圖像特征提?。?/p>
(4)載入模板數(shù)據(jù)矩陣,進(jìn)行數(shù)字識(shí)別。
識(shí)別流程,如圖2所示。
預(yù)處理二值化和細(xì)化的手寫數(shù)字圖像,在行寬的5/12、1/2和7/12處生成三條垂直線[6],提取三條垂直線和手寫數(shù)字筆劃的交點(diǎn)數(shù)并保存。
圖2 手寫數(shù)字識(shí)別流程
預(yù)處理二值化和細(xì)化的手寫數(shù)字圖像,在列寬的1/3、1/2和2/3處生成三條水平線[7],提取三條水平線和手寫數(shù)字筆劃的交點(diǎn)數(shù)并保存。
預(yù)處理二值化和細(xì)化的手寫數(shù)字圖像,分別生成兩條對(duì)角線,提取兩條對(duì)角線和手寫數(shù)字筆劃的交點(diǎn)數(shù)并保存。
(1)目標(biāo)定位
二值化和細(xì)化之后的手寫數(shù)字圖像,針對(duì)行從上到下進(jìn)行順序掃描、針對(duì)列從左到右進(jìn)行順序掃描,定位選擇黑色像素點(diǎn)G作為手寫筆畫目標(biāo)。
(2)鄰域統(tǒng)計(jì)
計(jì)算黑色像素點(diǎn)G的8鄰域的像素值之和N;若像素值之和N等于1,則黑色像素點(diǎn)G為端點(diǎn),并且端點(diǎn)計(jì)數(shù)器counter=counter+1;反之,則舍棄該黑色像素點(diǎn)G。
(3) 遍歷圖像
遍歷整個(gè)手寫數(shù)字圖像,反復(fù)進(jìn)行目標(biāo)定位和鄰域統(tǒng)計(jì),提取手寫數(shù)字的端點(diǎn)特征。提取結(jié)果,如圖3所示。
根據(jù)水平交點(diǎn)、垂直交點(diǎn)和對(duì)角交點(diǎn)特征的提取,手寫數(shù)字可由特征值Feature表示,其可以表示為:
Feature=[F1,F(xiàn)2,F(xiàn)3,F(xiàn)4,F(xiàn)5,F(xiàn)6,F(xiàn)7,F(xiàn)8,F(xiàn)9]
其中,F(xiàn)1,F(xiàn)2,F(xiàn)3分別表示垂直5/12處、垂直1/2處和7/12處的交點(diǎn)數(shù);F4,F(xiàn)5,F(xiàn)6分別表示水平1/3處、水平1/2處和水平2/3處的交點(diǎn)數(shù);F7,F(xiàn)8,F(xiàn)9分別表示左對(duì)角線、右對(duì)角線的交點(diǎn)數(shù)和端點(diǎn)數(shù)。
對(duì)24×24樣本的每個(gè)格子,計(jì)算T=黑色像素總數(shù)量/每個(gè)格子像素總數(shù)量;若T大于閾值0.05,則特征值取1;反之,取0。如公式(1)。
(1)
假設(shè)h為猜測(cè)的概率,D為實(shí)際數(shù)據(jù)的概率[8],則為公式(2)。
P(h/D)=P(h)P(D/h)
(2)
其中,P(h)為先驗(yàn)概率,P(D/h)為似然概率。
然后,應(yīng)用Bayes公式求后驗(yàn)概率,后驗(yàn)概率最大值的類別就是手寫數(shù)字的所屬類別。
選擇Windows7.0操作系統(tǒng),Intel core i5處理器、內(nèi)存8G的Lenovo V310為系統(tǒng)環(huán)境,Matlab2015(a)為軟件平臺(tái)。選擇Minist手寫數(shù)字圖像庫(kù)為研究對(duì)象[9-10],提取0-9手寫數(shù)字圖像特征,每個(gè)數(shù)字樣本500個(gè),一共5000個(gè)樣本,數(shù)字特征9個(gè),構(gòu)成手寫數(shù)字模板矩陣5000x9。
系統(tǒng)主界面包括系統(tǒng)介紹模塊、軟件模塊、聯(lián)系方式模塊和退出模塊,其主界面如圖4所示。
圖4 系統(tǒng)主界面
系統(tǒng)介紹模塊主要介紹研究背景和研究意義;軟件模塊主要包括樣本庫(kù)識(shí)別和手寫板識(shí)別,如圖5-圖7所示。
圖5 軟件模塊
圖6 樣本庫(kù)識(shí)別
圖7 手寫板識(shí)別
5.3.1 不同訓(xùn)練集比例針對(duì)Minist手寫數(shù)字圖像數(shù)據(jù)集,分別運(yùn)用20%-40%的5000樣本數(shù)量進(jìn)行訓(xùn)練,剩余樣本進(jìn)行測(cè)試,貝葉斯手寫數(shù)字識(shí)別檢測(cè)準(zhǔn)確率,如圖8所示。
圖8 貝葉斯識(shí)別精度
由圖8可知,當(dāng)所用訓(xùn)練樣本的比例為40%時(shí),貝葉斯識(shí)別檢測(cè)準(zhǔn)確率高達(dá)97.7%,當(dāng)所用訓(xùn)練樣本的比例分別為30%和20%時(shí),貝葉斯分類識(shí)別的檢測(cè)準(zhǔn)確率分別為97.1%和95.2%。
5.3.2 不同算法對(duì)比
為了說(shuō)明歐式距離分類、馬氏距離分類和貝葉斯分類[11-12]分別在所用訓(xùn)練樣本的比例為20%、30%和40%的識(shí)別準(zhǔn)確率,其識(shí)別準(zhǔn)確率和,如表1所示。
表1 不同算法識(shí)別準(zhǔn)確率
通過(guò)表1識(shí)別結(jié)果對(duì)比可知,采用不同的機(jī)器學(xué)習(xí)方法,手寫數(shù)字識(shí)別精度不同,對(duì)比發(fā)現(xiàn),貝葉斯分類器進(jìn)行手寫數(shù)字識(shí)別的精度高達(dá)97.63%,從而證明采用機(jī)器學(xué)習(xí)方法進(jìn)行手寫數(shù)字識(shí)別具有一定優(yōu)越性,效果較好。
5.3.3 不同算法效率對(duì)比
不同算法效率,如表2所示。
表2 不同算法效率
由表2可知,本文貝葉斯算法的精度和耗費(fèi)時(shí)間分別為97.63%和5.12s,與神經(jīng)網(wǎng)絡(luò)和SVM相比較,精度分別提高了7.51%、4.16%,耗費(fèi)時(shí)間分別減少了5.23 s和3.30 s,同時(shí)本文算法對(duì)樣本數(shù)量的依賴性較小,算法結(jié)果穩(wěn)定較好,從而進(jìn)一步證明采用機(jī)器學(xué)習(xí)方法進(jìn)行手寫數(shù)字識(shí)別的優(yōu)越性。
針對(duì)傳統(tǒng)算法進(jìn)行手寫數(shù)字識(shí)別準(zhǔn)確率低的缺點(diǎn),將歐式距離、貝葉斯分類等機(jī)器學(xué)習(xí)方法引入手寫數(shù)字識(shí)別,提取數(shù)字圖像的水平交點(diǎn)、垂直交點(diǎn)和對(duì)角交點(diǎn)作為手寫數(shù)字圖像的特征向量,建立手寫數(shù)字模板矩陣,通過(guò)計(jì)算待識(shí)別圖像和模板矩陣的歐式距離和后驗(yàn)概率,從而實(shí)現(xiàn)手寫數(shù)字識(shí)別。研究結(jié)果表明,機(jī)器學(xué)習(xí)方法手寫數(shù)字識(shí)別的精度可以高達(dá)97.63%,效果較好,值得推廣應(yīng)用。