吉娃阿英
(四川大學(xué)計算機(jī)學(xué)院,成都 610065)
字符識別因為其較高的實(shí)際應(yīng)用價值,一直是模式識別領(lǐng)域的一個研究熱點(diǎn)。隨著計算機(jī)和相關(guān)學(xué)科的發(fā)展,文字識別的研究工作已經(jīng)取得了較大的成功,一些文字識別的產(chǎn)品相繼產(chǎn)生,并投入使用當(dāng)中。特別是針對漢字和英文的光學(xué)字符識別產(chǎn)品已經(jīng)比較成熟[1],在實(shí)際的應(yīng)用中表現(xiàn)良好。然而,對于一些少數(shù)民族語言文字的研究卻還剛剛起步甚至是空白。彝語是一門使用人數(shù)超過百萬的少數(shù)民族語言,而對于彝文字識別的研究還處在起步階段,還沒有統(tǒng)一或者成型的彝文字識別方法和工具出現(xiàn)[2]。
目前雖然有少數(shù)的相關(guān)研究者對彝文字符識別做了初步的探索和研究,但是大都使用的是一些傳統(tǒng)的人工設(shè)計規(guī)則來提取特征,再用模板匹配或者是分類的方法。這些傳統(tǒng)的研究方法雖然在一定的條件和特定的數(shù)據(jù)集上可以獲得比較良好的實(shí)驗結(jié)果,但是存在著不足和缺陷[3]。例如,手工構(gòu)造規(guī)則并提取特征對特定的數(shù)據(jù)集有效,但是在不同數(shù)據(jù)集或者實(shí)際應(yīng)用中它會出現(xiàn)泛化能力不足的現(xiàn)象。另外,不同的特征選擇算法和特征選擇,對識別的效果影響較大以及特征選擇困難,容易受數(shù)據(jù)集影響,算法對數(shù)據(jù)的噪聲敏感,從而對前期原始數(shù)據(jù)的預(yù)處理要求就很高[4]。鑒于此,本文探究了深度學(xué)習(xí)在彝文字符識別上的應(yīng)用,深度學(xué)習(xí)方法因能夠自主從數(shù)據(jù)中學(xué)習(xí)和提取特征,能夠大大彌補(bǔ)上述傳統(tǒng)方法的缺點(diǎn)。經(jīng)過實(shí)驗驗證,深度學(xué)習(xí)算法在彝文字符識別中具有良好的表現(xiàn)。
彝文字符識別是一個新起步的研究課題,目前為止相關(guān)的研究還比較少。王嘉梅等人使用基于圖像分割,手工構(gòu)造規(guī)則和特征字典匹配的方法研究了彝文字識別的應(yīng)用,并設(shè)計相關(guān)實(shí)驗來進(jìn)行仿真[4]。朱宗曉等人采用1024維周邊方向貢獻(xiàn)度作為彝文字符的統(tǒng)計特征,使用基于K-L變化的特征壓縮算法和三級字典快速匹配算法,來實(shí)現(xiàn)脫機(jī)印刷體彝文的識別[5]。朱龍華等人應(yīng)用彈性網(wǎng)格特征,方向線素特征,投影特征和筆畫密度特征以及結(jié)合彝文字型的結(jié)構(gòu)特征進(jìn)行特征提取,最后通過多分類器集成的方法來輸出識別結(jié)果[6]。賈曉棟初次提出了深度學(xué)習(xí)方法在脫機(jī)手寫彝文字上的研究工作,并使用卷積神經(jīng)網(wǎng)絡(luò)在自建的包含100個類的手寫體彝文字?jǐn)?shù)據(jù)集上訓(xùn)練和測試,在此100個類別的手寫體彝文數(shù)據(jù)集上獲得不錯的效果[3]。本文在更大的脫機(jī)印刷體彝文字符數(shù)據(jù)集上探索和驗證了深度學(xué)習(xí)在彝文印刷體文字識別上的應(yīng)用,實(shí)驗結(jié)果表明,深度學(xué)習(xí)在彝文脫機(jī)印刷體識別上是有效可行的。
圖1
本文收集了大量的脫機(jī)印刷體彝文字圖片和掃描件樣本,然后將彝文字圖片數(shù)據(jù)經(jīng)過文字切分,二值化和歸一化處理。最后形成包含全部1165個標(biāo)準(zhǔn)彝文字符,每個字符對應(yīng)20個不同圖片,樣本大小為23300張32×32小圖片的彝文印刷體字符集。示例樣本如圖2:
圖2
本實(shí)驗設(shè)計的彝文字識別方法屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法,需要讓神經(jīng)網(wǎng)絡(luò)模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)不同類別文字的模式,因此需要對彝文字符進(jìn)行數(shù)據(jù)標(biāo)注。本文采用Unicode彝文系統(tǒng)[7]的編碼順序來對彝文字進(jìn)行標(biāo)注,類別標(biāo)號從0開始。Unicode彝文系統(tǒng)中彝文字符的編碼范圍為0xA000-0xA4c6,而0xA000編碼對應(yīng)的是字,所以該字的類別標(biāo)號是0,同樣地字的類別標(biāo)號為10,依此類推。實(shí)驗時從數(shù)據(jù)集中隨機(jī)20000份樣本作為訓(xùn)練集,剩余的3300份作為測試集。
采用的網(wǎng)絡(luò)模型如圖3,包括多個卷積層和下采樣層,原始圖像數(shù)據(jù)輸入模型,經(jīng)過卷積層的處理產(chǎn)生多個輸出(特征圖),特征圖再經(jīng)過采樣層max-pooling采樣處理,最后特征圖作為全連接層的輸入來產(chǎn)生對應(yīng)的輸出。在此網(wǎng)絡(luò)模型當(dāng)中,卷積層經(jīng)過學(xué)習(xí)輸出多個特征圖,這是一個特征學(xué)習(xí)的過程,跟傳統(tǒng)算法的特征選擇相似,但是卷積層能夠通過多個卷積核對輸入圖像產(chǎn)生多個對應(yīng)的特征圖,相比傳統(tǒng)人工設(shè)計和選擇特征相比,能學(xué)習(xí)到更多更細(xì)微的特征,能夠適應(yīng)圖像的旋轉(zhuǎn)位移等變化[8]。下采樣層類似傳統(tǒng)方法中的特征降維處理,這樣能降低網(wǎng)絡(luò)模型參數(shù)的復(fù)雜度,提高模型的泛化能力。最后的全連接層類似傳統(tǒng)方法中的分類器,把卷積網(wǎng)絡(luò)學(xué)習(xí)到的高層特征作為模式輸入,學(xué)習(xí)輸出對應(yīng)的分類預(yù)測結(jié)果。
圖3
圖4
圖5
圖4和圖5訓(xùn)練和驗證誤差曲線,橫軸表示模型訓(xùn)練過程中的迭代次數(shù),縱軸是對應(yīng)準(zhǔn)確率和誤差。由圖可以看到,隨著訓(xùn)練迭代次數(shù)的增加準(zhǔn)確率逐漸提高,誤差逐漸減小,當(dāng)模型迭代次數(shù)到達(dá)400左右的時候,準(zhǔn)確率和誤差趨于穩(wěn)定。在驗證過程中,情況與訓(xùn)練過程類似。雖然隨著訓(xùn)練迭代次數(shù)的增加,模型預(yù)測的準(zhǔn)確率也會相應(yīng)地提高,但這可能會產(chǎn)生過擬合現(xiàn)象,為此,在本實(shí)驗中,迭代次數(shù)選擇350次,這樣能在一定程度上提高模型的泛化能力。
由于彝文字符識別的研究尚不成熟,標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)集沒有形成,目前為止很難做到相同條件下的實(shí)驗結(jié)果對比,本文從數(shù)據(jù)集、識別率,以及特征提取方法等角度來對不同方法的比較。如表1。
表1
從實(shí)驗結(jié)果中可以看到,基于特征字典匹配,基于組合特征多分類器集成和本文深度學(xué)習(xí)的方法在識別率上都表現(xiàn)出較好的性能。但是,由于深度學(xué)習(xí)的方法對前期數(shù)據(jù)預(yù)處理的要求比上文兩種方法低,也不需要人工構(gòu)造和提取特征,而是通過數(shù)據(jù)學(xué)習(xí)獲取相關(guān)特征。因此基于神經(jīng)網(wǎng)絡(luò)的方法不僅能提高識別的效率,其在不同數(shù)據(jù)集上的泛化能力也明顯優(yōu)于前者。
彝文字符識別是一個具有現(xiàn)實(shí)意義的研究工作,然而目前尚處在摸索探究的階段,大多數(shù)研究方法都還在沿用傳統(tǒng)的手工設(shè)計規(guī)則和特征提取的方法。鑒于深度學(xué)習(xí)方法現(xiàn)在圖像處理領(lǐng)域取得的巨大成就[8],本文探索了深度學(xué)習(xí)方法在彝文字符識別中的應(yīng)用,實(shí)驗結(jié)果表明,深度學(xué)習(xí)方法在彝文字符識別方面的應(yīng)用是可行的,并且相比一些傳統(tǒng)的方法,其具有一定的優(yōu)勢。
參考文獻(xiàn):
[1]孫華,張航.漢字識別方法綜述[J].計算機(jī)工程,2010,36(20):194-197.
[2]朱宗曉,吳顯禮.脫機(jī)印刷體彝族文字識別系統(tǒng)的原理與實(shí)現(xiàn)[J].計算機(jī)技術(shù)與發(fā)展,2012,22(2):85-88.
[3]賈曉棟.基于深度學(xué)習(xí)的手寫體彝文識別技術(shù)應(yīng)用研究.北京:中央民族大學(xué),2017.
[4]王嘉梅,文永華,李燕青.基于圖圖像分割的古彝文字識別系統(tǒng)研究[J].云南民族大學(xué)學(xué)報:自然科學(xué)版,2008,17(1):76–79
[5]朱宗曉,吳顯禮.脫機(jī)印刷體彝族文字識別系統(tǒng)的原理與實(shí)現(xiàn)[J].計算機(jī)技術(shù)與發(fā)展,2012,22(2):85-88.
[6]朱龍華,王嘉梅.基于組合特征的多分類器集成的脫機(jī)手寫體彝文字識別[J].云南民族大學(xué);自然科學(xué)版,2010,19(5):329-333.
[7]沙馬拉毅.計算機(jī)彝文信息處理[J].涼山大學(xué)學(xué)報,2001,3:4-7.
[8]Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton.ImageNet Classification with Deep Learning Convolutional Neural Networks.International Conference on Neural Information Processing Systems,2012,60(2):1097-1105.