戴 靜,胡釗政,白建川
(河北工業(yè)大學信息工程學院,天津300401)
一種基于交點特征的印刷體數(shù)字識別方法
戴 靜,胡釗政,白建川
(河北工業(yè)大學信息工程學院,天津300401)
為了進一步提高印刷體的數(shù)字識別準確率,提出了一種基于交點特征和徑向基函數(shù)神經(jīng)網(wǎng)絡的數(shù)字識別方法。首先利用交點特征對數(shù)字進行特征提取,即提取某一數(shù)字的劃水平線得到的交點數(shù)作為水平特征分量,提取劃垂直線得到的交點數(shù)作為垂直特征分量,將水平特征向量與垂直特征向量組合成數(shù)字的交點特征向量;然后利用徑向基函數(shù)神經(jīng)網(wǎng)絡學習不同模式類別中的學習樣本,學習過程完成后,利用此網(wǎng)絡對樣本進行識別。實驗結果表明,該數(shù)字識別方法在印刷體數(shù)字識別中正確率可達到100%,處理效果良好。
印刷體數(shù)字識別;交點特征;徑向基函數(shù)神經(jīng)網(wǎng)絡
模式識別是對表征事物的各種形式的信息進行分析和處理,以對事物進行描述、辨認、分類的過程[1]。印刷體數(shù)字識別是模式識別的一個分支,是指對0~9這10個印刷體數(shù)字進行識別的過程,它在信息處理、機器翻譯、身份證識別、車牌識別等高技術領域有著廣闊的應用前景。在實際應用的過程中,對印刷體數(shù)字的單字識別正確率的要求很高。此外,在對大批量數(shù)據(jù)進行識別處理時,還必須要考慮到對系統(tǒng)速度的要求[2]。因此,研究低錯誤率、高性能的數(shù)字識別算法是一個很有實際意義的研究任務。
傳統(tǒng)的印刷體數(shù)字識別方法存在識別正確率低、識別速度慢等缺點,因為傳統(tǒng)的特征提取方法需要對數(shù)字所包含的線段、弧、銳角、圈等進行大量的形狀分析與筆畫擬合,系統(tǒng)運行效率與準確率低[3]。由于印刷體數(shù)字具有結構簡單、字符集小等特點,為此本文提出基于交點特征的特征提取方法——僅對待識別的對象進行水平與垂直方向的若干次切分即可,快速且準確。另外,徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡具有學習速度快且能避免局部極小問題等優(yōu)點[4],本文則采用RBF神經(jīng)網(wǎng)絡來對數(shù)字進行訓練與識別。
一個完整的數(shù)字識別系統(tǒng)分為原始數(shù)字圖像采集、預處理、特征提取、模式識別與結果輸出5個模塊[5],如圖1所示。
圖1 數(shù)字識別過程模型
本課題研究對印刷體數(shù)字的識別,圖像采集的過程中所采集的數(shù)字圖片、位置、字體、顏色有所不同。
通過對圖像進行灰度化、二值化、邊緣檢測、歸一化等預處理過程,為接下來的特征提取做了充足的準備。
模式識別是使用特征來區(qū)分不同類別[6],為了能有效地實現(xiàn)分類識別,就要對原始數(shù)據(jù)進行變換,得到最能反映分類本質的特征[7]。對于數(shù)字的特征提取應既突出每個數(shù)字的形狀特點,又減少冗余信息量[8]。
對此,本文提出了一種新的特征提取方法——基于交點的特征提取方法,其中交點特征包括劃水平線得到的交點數(shù)和劃垂直線得到的交點數(shù)特征。采用此方法特征向量便于提取,算法比較簡便,運算速度較快。
該提取方法的具體步驟如下:
步驟1,讀取經(jīng)過預處理的圖像文件的高度h和寬度w。
步驟2,定義一維數(shù)組水平特征分量hsum[10]、垂直特征分量wsum[10]、交點特征向量sum[20]并初始化。
步驟3,從上到下對數(shù)字進行逐行掃描,將水平掃描線切分黑像素區(qū)域形成的發(fā)生像素從0~1或者從1~0改變的交點個數(shù)保存在數(shù)組hsum[10]中。
步驟4,從左到右對數(shù)字進行逐列掃描,將垂直掃描線切分黑像素區(qū)域形成的發(fā)生像素從0~1或者從1~0改變的交點個數(shù)保存在數(shù)組wsum[10]中。
步驟5,將水平方向提取的特征分量hsum[10]和垂直方向提取的特征分量wsum[10]合成數(shù)字的交點特征向量sum[20]。
經(jīng)過以上步驟形成的交點特征向量sum[20]即為將要作為神經(jīng)網(wǎng)絡輸入的數(shù)字的特征向量。
例如對數(shù)字“0”的特征提取,其水平交點特征如圖2所示,垂直交點特征如圖3所示。通過求單個水平方向或垂直方向上的過線交點數(shù),很難區(qū)分開數(shù)字。因為在不同類型的印刷體數(shù)字中單一方向的交點數(shù)有可能相等,因此需要將其兩個特征結合起來使用,這樣可以較好地識別數(shù)字。對于數(shù)字“0”的提取特征示意圖如圖4所示。
圖2 水平交點特征圖
圖3 垂直交點特征圖
圖4 數(shù)字“0”特征提取示意圖
此特征的提取方法為:用MATLAB編程使得10條水平線和10條垂直線分別均勻穿過數(shù)字圖像,求得水平方向和垂直方向的分割線和數(shù)字交點的個數(shù),所求得的20個交點個數(shù)即為反映數(shù)字特征的特征向量。數(shù)字“0”的特征向量如圖5所示。
圖5 數(shù)字“0”的特征向量
為了體現(xiàn)出對于不同數(shù)字所提取出來的特征向量各有不同,下面將對數(shù)字“1”進行特征提取的詳細過程列出,如圖6所示。
圖6 數(shù)字“1”的特征提取過程
對數(shù)字“1”進行特征提取后,所得的特征向量如圖7所示。
圖7 數(shù)字“1”的特征向量
對比圖5和圖7可知,對于不同數(shù)字以相同的方法進行特征提取后,所得的特征向量不同,而對于同一個數(shù)字進行特性提取后,所得的特征向量是相同的或極其相似的,則通過此種特征向量的提取方法可以很好地將數(shù)字0~9區(qū)分開來。
對于訓練樣本的其中一組圖片0~9進行特征提取后,提取的特征向量如表1所示。
表1 不同數(shù)字的特征向量表示
RBF網(wǎng)絡是一種三層前饋神經(jīng)網(wǎng)絡。第一層為輸入層,它由信號源節(jié)點組成,用來連接網(wǎng)絡與外界環(huán)境;第二層為隱含層,隱單元的變換函數(shù)是對中心點徑向對稱非負非線性的衰減函數(shù);第三層為輸出層,網(wǎng)絡的輸出是隱單元輸出的線性加權[9]。從輸入空間到隱含層空間的變換是非線性的,從隱含層空間到輸出層空間的變換是線性的[10]。圖8為RBF神經(jīng)網(wǎng)絡的拓撲結構圖,它具有n個輸入結點、h個隱層結點、m個輸出結點。
圖8 RBF神經(jīng)網(wǎng)絡拓撲結構圖
本文所使用的網(wǎng)絡是20個輸入、10個輸出,則輸入模式記為X,X=[x1,x2,…,x20]T,輸出模式記為Y,Y=[y0,y1,…,y9]T,本文取徑向基函數(shù)為Gauss函數(shù),則隱單元輸出為
式中:φj(x)為隱含層第j個神經(jīng)元的輸出值;cj為隱含層第j個神經(jīng)元的中心;δj為隱含層第j個神經(jīng)元的半徑;‖x-cj‖為歐氏范數(shù)。
輸出層神經(jīng)元的輸入輸出關系表達式為
式中:yk為輸出層第j個神經(jīng)元的輸出值;Wkj為輸出層第k個神經(jīng)元與隱含層第j個神經(jīng)元之間的權值。
由于對于數(shù)字識別問題可以預先知道期望輸出值的所有情況,故可利用提取的特征向量數(shù)據(jù)和期望輸出數(shù)據(jù)組成樣本空間,網(wǎng)絡的輸入是一個20×1的列向量,對應的期望輸出是一個10×1的列向量。對網(wǎng)絡進行訓練后能夠得出合適的網(wǎng)絡權值,然后將實際檢測的用于識別的數(shù)字特征向量輸入訓練好的RBF網(wǎng)絡進行識別,得出識別結果。
學習樣本個數(shù)定為200,每個數(shù)字選取1 000個樣本進行測試,比較不同的特征向量維數(shù)對識別結果的影響如表2所示。
表2 不同的特征向量維數(shù)對識別結果的影響 %
由表2知,當選取數(shù)字的特征向量維數(shù)增多時,識別結果的正確率增高了。實際測試過程中發(fā)現(xiàn)若特征向量維數(shù)過高,會增加機器開銷,降低運算速度。測試結果表明,當特征向量維數(shù)選定為20,學習樣本個數(shù)選定為200時,識別速度較快,對1 000×10個樣本進行測試,對于大多數(shù)數(shù)字的識別準確率可以達到100%。對于數(shù)字“4”和“9”的識別率有待提高。
隨著信息化技術的不斷發(fā)展,數(shù)字識別技術也得到了很大的提高。本文所提出的基于交點特征和徑向基函數(shù)神經(jīng)網(wǎng)絡的印刷體數(shù)字識別方法有著較高的識別率,較短的識別時間,能夠對數(shù)字進行正確高效的識別。
[1]陳展東,白寶興,韓成,等.數(shù)字識別算法研究[J].長春理工大學學報,2010,33(1):147-151.
[2]楊志華.利用Radon變換實現(xiàn)手寫數(shù)字識別的新方法[J].計算機工程與應用,2008,44(30):13-15.
[3]孔月萍,曾平,李智杰,等.基于組合特征的高效數(shù)字識別算法[J].計算機應用研究,2006(10):172-173.
[4]GONZALEZ-CAMACHO J,CAMPOS G,PEREZ P.Genome-enabled prediction of genetic values using radial basis function neural networks[J].Theoretical and Applied Genetics,2012,125(4):759-771.
[5]張陽.基于DSP的人民幣序列號識別系統(tǒng)的研究[J].電視技術,2012,36(15):140-143.
[6]夏國恩,金煒東,張葛祥.基于組合特征的手寫體數(shù)字識別方法[J].計算機應用研究,2006(6):170-172.
[7]雙小川,張克.基于統(tǒng)計和結構特征的手寫數(shù)字識別研究[J].計算機工程與設計,2012,33(4):1533-1537.
[8]閆雅楠,夏定元.結合邊緣檢測和區(qū)域分割的形狀特征提?。跩].電視技術,2007,31(3):12-15.
[9]LINA J,CHENB B,SZEA K.A new radial basis function for helmholtz problems[J].Engineering Analysis with Boundary Elements,2012,36 (12):1923-1930.
[10]王曄,吳小俊,王士同,等.基于改進人工魚群算法的RBF網(wǎng)絡及其在人臉表情識別中的應用[J].計算機應用研究,2008,25(9): 2643-2646.
Approach to Printed Digital Recognition w ith Intersection Features
DAIJing,HU Zhaozheng,BAIJianchuan
(School of Information Engineering,Hebei University of Technology,Tianjin 300401,China)
In order to further improve the accuracy rate of printed digital recognition,a new digital recognition approach which combined intersection features and Radial Basis Function(RBF)neuralnetwork is proposed.Firstly,the intersection features ofnumbers are extracted.Namely,the numbers of the intersection points of the number with some dividing lines in horizontal direction are extracted as the horizontal features and the numbers of the intersection points of the number with some dividing lines in vertical direction are extracted as the vertical features.And all of the horizontal features and the vertical features of the number are combined as the intersection features.Secondly,the samples in differentmodesare trained in the RBF neuralnetwork. After training,the samples are recognized in the RBF neural network.The results of experiment show that the recognition rate of printed numbers can achieve 100%.The treatment effect of this approach is good.
printed digital recognition;intersection features;RBF neural network
TN391.4
A
戴 靜(1988—),女,主研電子與通信技術;
?? 雯
2013-08-18
【本文獻信息】戴靜,胡釗政,白建川.一種基于交點特征的印刷體數(shù)字識別方法[J].電視技術,2014,38(13).
國家自然科學基金項目(60972106;51208168);天津市自然科學基金項目(11JCYBJC00900;13JCYBJC37700);河北省自然科學基金項目(F2013202254;F2013202102);河北省引進留學人員基金項目(C2012003038)
胡釗政,教授,博士生導師,主研電子與通信技術;
白建川,博士生,主研智能信息處理。