朱世宇 孫令翠 張嶠 周建梅 王元瓏
摘 ?要:對于不完整的手寫體數(shù)字圖像識別,傳統(tǒng)識別方法并不具備魯棒性。本文所作研究主要針對不完整手寫體數(shù)字圖像進(jìn)行識別。本文首先用傳統(tǒng)方法進(jìn)行實驗分析,提出針對性的優(yōu)化策略。其次通過MNIST數(shù)據(jù)集對構(gòu)建的模型進(jìn)行訓(xùn)練,并在自建測試集上對模型進(jìn)行識別測試。實驗測試結(jié)果表明,針對性的優(yōu)化策略,對不完整手寫體數(shù)字圖像的識別率有顯著提高。
關(guān)鍵詞:手寫數(shù)字;識別;深度學(xué)習(xí)
中圖分類號:TP391 ??文獻(xiàn)標(biāo)識碼:A ???文章編號:2096-6903(2019)02-0000-00
1 背景
手寫數(shù)字識別(Handwritten Numeral Recognition,簡稱HNR)是光學(xué)字符識別的一個分支,它是通過計算機處理手寫阿拉伯?dāng)?shù)字(如0,1,2,....,9),讓計算機自動識別手寫數(shù)字,其在實際生活中,有著非常廣泛的應(yīng)用。國內(nèi)外研究人員對其做了大量研究,提出了很多算法。然而,在識別和預(yù)測未知數(shù)字的準(zhǔn)確率上仍有待進(jìn)一步提高。近幾年,將深度學(xué)習(xí)應(yīng)用于手寫體數(shù)字圖像的識別已成為當(dāng)前研究熱點,并已經(jīng)取得較好成績,通過深度卷積網(wǎng)絡(luò)對手寫數(shù)字集MNIST進(jìn)行識別,識別率已達(dá)到99.3%,且該項技術(shù)已在各個領(lǐng)域廣泛應(yīng)用。但當(dāng)手寫體數(shù)字圖像并不完整(如部分缺失或被遮擋)時,手寫體數(shù)字圖像識別的正確率就下降到70%左右。
2 基于AlexNet的不完整手寫數(shù)字識別研究
基于深度學(xué)習(xí)的手寫體圖像識別研究,已較為成熟,多個模型在手寫體圖像識別中都取得較好成績,其中應(yīng)用最為廣泛的是深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet。
AlexNet模型包含8層變換,其中有5層卷積層和2層全連接隱藏層,以及1個全連接輸出層,如圖1所示。
AlexNet將sigmoid激活函數(shù)替換成更為簡單有效的ReLU激活函數(shù),使得計算更簡單,并在不同參數(shù)初始化方法下使模型更容易訓(xùn)練。由于當(dāng)sigmoid激活函數(shù)輸出值接近0或1時,這些區(qū)域的梯度幾乎為0,從而造成反向傳播無法繼續(xù)更新部分模型參數(shù);而ReLU激活函數(shù)在正區(qū)間的梯度恒為1,因此若模型參數(shù)初始化不當(dāng),sigmoid函數(shù)可能在正區(qū)間得到幾乎為0的梯度,從而令模型無法得到有效訓(xùn)練。
AlexNet增大卷積通道數(shù),并使用2個巨大的全連接層,參數(shù)過多,造成訓(xùn)練時間過長,因此又通過丟棄法來控制全連接層的模型復(fù)雜度。
AlexNet模型參數(shù)梯度的計算方法是依據(jù)微積分中的鏈?zhǔn)椒▌t。沿著從輸出層到輸入層的順序,依次計算并存儲目標(biāo)函數(shù)有關(guān)的神經(jīng)網(wǎng)絡(luò)各層的中間變量以及參數(shù)的梯度。如為待優(yōu)化的參數(shù);
為模型
的輸出結(jié)果,即將輸入的手寫體數(shù)字圖像判斷為數(shù)字,以數(shù)組索引表示,且
。模型設(shè)計為判斷手寫體的圖像中的數(shù)字。判別器的目標(biāo)函數(shù)如公式1所示。
公式1中對的損失值取負(fù)的物理解釋為:將
判斷正確的不確定性越小越好,其最佳狀態(tài)為
;將所有判定的不確定性進(jìn)行求和,便得到熵。根據(jù)熵對模型的參數(shù)
進(jìn)行優(yōu)化。
本文基于AlexNet的通過對手寫體數(shù)字圖像的增強,達(dá)到識別不完整手寫體數(shù)字圖像的目的。因為手寫體數(shù)字在完整的情況下,通過訓(xùn)練,AlexNet能夠有很高的正確率,因此本文嘗試人為制造不完整的手寫體數(shù)字圖像,用于訓(xùn)練,期望通過訓(xùn)練,AlexNet也能夠捕捉到不完整手寫體數(shù)字的圖像特征。
3 實驗
本文使用MNIST手寫體數(shù)字?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練對AlexNet進(jìn)行訓(xùn)練。設(shè)置每次訓(xùn)練為64個小批量,每一個epoch共訓(xùn)練938次,一共完成12個epoch的訓(xùn)練。其訓(xùn)練過程和最終的loss值和準(zhǔn)確率如圖2所示。其中acc表示準(zhǔn)確率,loss表示損失值。
對訓(xùn)練好的模型,本文使用MNIST的測試集進(jìn)行測試,其準(zhǔn)確率達(dá)到了99.4%,截取部分預(yù)測圖像如圖3所示。
對訓(xùn)練好的模型,本文使用不完整的手寫體數(shù)字圖像進(jìn)行測試,準(zhǔn)確率下降到了74.3%。截取部分預(yù)測圖像如圖4所示。
本文設(shè)計了一種隨機干擾方法,加入到訓(xùn)練集中的手寫體數(shù)字圖像中,使得手寫體數(shù)字圖像能夠自動地生成不完整區(qū)域。該干擾方法為加入隨機的斜線和隨機的矩陣區(qū)域。通過該方法對數(shù)據(jù)集進(jìn)行增強后,對Alex模型進(jìn)行訓(xùn)練。對于完整手寫體的預(yù)測準(zhǔn)確率達(dá)到了94.5%。對于不完整手寫體的預(yù)測準(zhǔn)確率上升到92.2%。部分結(jié)果如圖5所示。
4 結(jié)語
本文研究主要針對不完整手寫體數(shù)字圖像,在深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet的基礎(chǔ)上設(shè)計了數(shù)據(jù)增強的手寫體數(shù)字識別系統(tǒng),該系統(tǒng)主要分為三部分:手寫體數(shù)字圖像的預(yù)處理;手寫體數(shù)字圖像的數(shù)據(jù)增強;分類器的分類與識別。建立并實現(xiàn)了一個基于卷積神經(jīng)網(wǎng)絡(luò)AlexNet的手寫體數(shù)字圖像的識別模型,通過MNIST數(shù)據(jù)集對網(wǎng)絡(luò)建立的分類器進(jìn)行訓(xùn)練,提升識別率。
本文通過設(shè)計一種干擾方法,完成對數(shù)據(jù)集的增強,使得Alex模型對于不完整圖像具備一定的魯棒性。本文研究思路具有較高的拓展性,例如在使用隨機位置斜線時,還能對斜線的長短粗細(xì)進(jìn)行隨機處理,矩陣的形狀也可以隨機變換。當(dāng)然干擾方法并非越繁復(fù)越好,如果不能與模型的復(fù)雜程度相匹配,模型在訓(xùn)練過程中就無法優(yōu)化參數(shù)達(dá)到目的。未來對于模型的魯棒性,提升數(shù)據(jù)集的多樣性,是一個非常值得研究的方向。
參考文獻(xiàn)
[1]邢遠(yuǎn).深度學(xué)習(xí)在手寫數(shù)字識別中的應(yīng)用[D].江蘇:蘇州大學(xué),2017.
[2]王梓橋,劉沛豐,郝峰,等.基于深度學(xué)習(xí)的手寫數(shù)字識別技術(shù)應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2018(11):88-89.
[3]Branson, Kristin. A deep (learning) dive into a cell[J]. Nature Methods, 2016,(4):253-254.
[4] Mao,Xudong,Li,Qing, Xie,Haoran. AlignGAN: Learning to Align Cross-Domain Images with Conditional Generative Adversarial Networks[J].2016,16,(17)65-68.
[5]白天毅.基于神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別關(guān)鍵技術(shù)研究[D].陜西:西安工業(yè)大學(xué),2014.
[6]李海濤.基于深度學(xué)習(xí)的圖像識別魯棒性研究[D].南京:南京郵電大學(xué),2018.
收稿日期:2019-05-16
▲基金項目:重慶工程學(xué)院校內(nèi)科研基金資助項目(項目編號:2018xcxcy06);重慶市教委科學(xué)技術(shù)研究項目(項目編號:KJQN201801901);重慶市教委科學(xué)技術(shù)研究項目(項目編號:KJQN201801902);重慶市大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目資助(項目編號:201912608011);重慶市大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目資助,(項目編號:201912608011)。
作者簡介:朱世宇(1984—),男,重慶人,碩士,副教授,研究方向:人工智能。
Incomplete Handwritten Digital Image Recognition Based On Deep learning
ZHU Shiyu,SUN Lingcui,ZHANG Qiao,ZHOU Jianmei,WANG Yuanlong
(Chongqing Institute of engineering, ??Chongqing ?400056)
Abstract: For incomplete handwritten digital image recognition, traditional method identification methods are not robust. The research in this paper mainly focuses on the identification of incomplete handwritten digital images. The main contents are as follows: the traditional method is used for experimental analysis, and the targeted optimization strategy is proposed. The constructed model is trained through the MNIST data set, and the model is identified and tested on the self-built test set line. The experimental test results show that the targeted optimization strategy has significantly improved the recognition rate of incomplete handwritten digital images.
Keywords: handwritten numbers; recognition; deep learning