王曉娟,楊永昕,李 超(.四川外國語大學(xué)重慶南方翻譯學(xué)院,重慶 400;.中國兵器工業(yè)北方勘察設(shè)計研究院有限公司;.邯鄲市峰峰礦區(qū)滏陽東路街道辦事處,石家莊 0500)
?
基于BP網(wǎng)絡(luò)的手寫體數(shù)字圖片特征提取
王曉娟1,楊永昕2,李超3
(1.四川外國語大學(xué)重慶南方翻譯學(xué)院,重慶401120;2.中國兵器工業(yè)北方勘察設(shè)計研究院有限公司;3.邯鄲市峰峰礦區(qū)滏陽東路街道辦事處,石家莊050011)
摘要:本文主要研究了手寫體數(shù)字的識別問題,選用了300組像素為的手寫體圖片,對其先進行歸一化處理,之后提取了圖像的7個不變矩(Hu矩)特征、均值、方差以及圖像的字符勢能,以它們作為圖像的特性,用BP網(wǎng)絡(luò)進行識別,識別效率達到80%以上。
關(guān)鍵詞:歸一化;Hu矩;字符勢能;BP網(wǎng)絡(luò)
手寫體數(shù)字識別的研究,有助于考古學(xué)的發(fā)展,為考古某些缺失文字的識別奠定了一定基礎(chǔ)。識別效率的高低是我們最為關(guān)心的問題。本文為了提高識別的正確率,選用了識別性能很好的BP網(wǎng)絡(luò)。在圖片處理方面,先進行了歸一化,之后對歸一化的圖片提取了圖片的Hu矩[1]、字符勢能[2],用這些作為BP網(wǎng)絡(luò)的識別對象,而不是直接去識別圖像,縮小了識別對象的大小,并且掌握了對象的特征,識別更為快捷準確。
本文中,這些手寫體圖片都是在電腦XP系統(tǒng)的畫圖工具人為輸入的。圖像的大小都是。由于輸入時,圖片在所輸入?yún)^(qū)域的位置不一樣,圖片本身的大小也存在差別,這些都對識別的結(jié)果有直接的影響。所以,本文就這兩方面做了改進。具體的做法是,先提取圖片數(shù)字的邊緣,即數(shù)字的最左、最右、最上、最下的邊界點,這樣就把圖片的數(shù)字區(qū)域提取出來了,之后把它擴大成我們需要的尺寸。這樣數(shù)字的大小是一樣的。然后再將這些數(shù)字部分放在我們固定大小的模板上。對圖像做了這一系列的處理后,每個圖片的大小是一樣的,而且有數(shù)字的部分的大小也是一樣的。
BP網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)[3],是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存儲大量的輸入輸出—模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法[4],通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閥值,使網(wǎng)絡(luò)的誤差平方和最小。BP網(wǎng)絡(luò)模型拓撲結(jié)構(gòu)[5]包括輸入層、隱含層和輸出層。
4.1Hu矩
Hu矩主要用到了2個不變矩作為矩特征,矩特征主要表征了圖像區(qū)域的幾何特征,又稱為幾何矩,由于其具有旋轉(zhuǎn)、平移、尺度等特性的不變特征,所以又稱其為不變矩。在圖像處理中,幾何不變矩可以作為一個重要的特征來表示物體,可以據(jù)此特征來對圖像進行分類等操作。
由Hu矩組成的特征量對圖片進行識別,優(yōu)點就是速度很快,缺點是識別率比較低,我做過手勢識別,對于已經(jīng)分割好的手勢輪廓圖,識別率也就30%左右,對于紋理比較豐富的圖片,識別率更是不堪入眼,只有10%左右。這一部分原因是由于Hu不變矩只用到低階矩(最多也就用到三階矩),對于圖像的細節(jié)未能很好的描述出來,導(dǎo)致對圖像的描述不夠完整。
4.2字符勢能
投影能表現(xiàn)圖像的某種特征信息,指定方向上單條前景像素的個數(shù)。本文主要做了垂直方向的勢能和水平方向的勢能。
垂直方向的勢能,主要是記錄圖片的水平投影和垂直投影。本文所用的圖片是最簡單的黑白圖片,這樣的圖片用矩陣表示只有0、1兩種數(shù)字,黑色部分用1表示,白色部分為0.垂直方向的勢能,記錄的是圖片中1所在的行標,圖片中0的部分投影過來也用0表示。垂直方向的勢能中的水平投影是投影過來的矩陣每行的和,垂直投影則是每列元素的和。水平方向的勢能是記錄的是圖片中1所在的行標,圖片中0的部分投影過來也用0表示。水平方向的勢能中的水平投影是投影過來的矩陣每行的和,垂直投影則是每列元素的和。這樣我們就得到了圖片的字符勢能。
表1 各個數(shù)字的識別正確率
把圖像歸一中心化后,我們分別提取圖片的Hu矩、均值、方差、字符勢能,把這些量合到一起作為BP網(wǎng)絡(luò)的輸入量,用BP網(wǎng)絡(luò)進行識別,表1是我們統(tǒng)計的識別結(jié)果。
從表1中可以看出,識別的正確率還是不錯的。只有數(shù)字5的識別正確率較低
參考文獻:
[1]丁興號,鄧善熙.Hu矩和Zernike矩在字符識別中的應(yīng)用[J].工具技術(shù),2003(03).
[2]Bo Li, De-Shuang Huang, Chao Wang, Kun-Hong Liu. Feature extraction using constrained maximum variance mapping[M]. Pattern Recognition. 2008,Volume 41.Pages:3287-3294.
[3]魏國輝,孔英,李慶玲.反向傳播網(wǎng)絡(luò)與徑向基網(wǎng)絡(luò)函數(shù)逼近的仿真比較[J].濟寧醫(yī)學(xué)院學(xué)報,2011.
[4]從爽,面向MATLAB工具箱的神經(jīng)網(wǎng)絡(luò)理論與應(yīng)用.3版.合肥:中國科學(xué)技術(shù)大學(xué)出版社,2003:64-158.
[5]張敏,趙金成.全局優(yōu)化神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)及權(quán)值的遺傳算法[J].大連大學(xué)學(xué)報,1999.
DOI:10.16640/j.cnki.37-1222/t.2016.11.205
作者簡介:王曉娟(1985-),女,河北張家口人,研究生,助教,研究方向:神經(jīng)網(wǎng)絡(luò)。