• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的印刷體文檔字符識(shí)別的研究

      2020-12-23 04:33:21徐長(zhǎng)英賴偉財(cái)陳英
      現(xiàn)代電子技術(shù) 2020年23期
      關(guān)鍵詞:印刷體字符識(shí)別字符

      徐長(zhǎng)英 賴偉財(cái) 陳英

      摘 ?要: 針對(duì)傳統(tǒng)基于模板匹配光學(xué)識(shí)別效果存在不理想的狀態(tài),提出改進(jìn)的深度學(xué)習(xí)模型的印刷體文檔字符識(shí)別算法。首先,生成包括一級(jí)字庫(kù)、部分二級(jí)字庫(kù)、英文大小寫字母和標(biāo)點(diǎn)符號(hào)的圖片數(shù)據(jù)集,其數(shù)量大約為500萬(wàn)張;然后,在Lenet?5網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)和重新構(gòu)造,提出一種增強(qiáng)型的深度學(xué)習(xí)模型Lenet?5Pro,該模型可提高印刷體文檔的識(shí)別率;最后,對(duì)比實(shí)驗(yàn)結(jié)果表明,該模型可以更加有效地提高印刷體字符識(shí)別的準(zhǔn)確率,其字符識(shí)別準(zhǔn)確率達(dá)到98%以上。

      關(guān)鍵詞: 印刷體字符識(shí)別; 深度學(xué)習(xí); 圖片數(shù)據(jù)集; Lenet?5Pro; 字符增強(qiáng); 仿真分析

      中圖分類號(hào): TN911.73?34; TP391 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)23?0072?04

      Abstract: In view of the unsatisfactory effect of the traditional optical recognition based on template matching, a printed document character recognition algorithm based on improved deep learning model is proposed. A picture dataset including the first?level font library, part of the secondary font library, English upper and lower case letters, and punctuation marks is generated, in which about 5 million pieces of pictures are collected. An enhanced deep learning model Lenet?5Pro, by which the recognition rate of printed documents can be improved, is proposed based on the improvement and reconstruction of Lenet?5 network model. The comparative experimental results show that the accuracy of character recognition can be improved by the proposed model, and its character recognition accuracy is over 98%.

      Keywords: printed document character recognition; deep learning; image dataset; Lenet?5Pro; character enhancement; simulation analysis

      0 ?引 ?言

      印刷體文檔字符識(shí)別是光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)的重要組成部分,印刷體文檔的識(shí)別基本用途是把圖片輸入計(jì)算機(jī),計(jì)算機(jī)輸出識(shí)別字符,實(shí)現(xiàn)人與計(jì)算機(jī)信息的交互。文獻(xiàn)[1]利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了印刷體漢字識(shí)別模型,使用集成了傳統(tǒng)OCR識(shí)別技術(shù)的MODI(Microsoft Office Document Imaging)進(jìn)行身份證漢字識(shí)別。文獻(xiàn)[2]提出了一種基于深度信念網(wǎng)絡(luò)融合模型對(duì)手寫漢字識(shí)別的方法,簡(jiǎn)單的漢字使用基于SVM(Support Vector Machine)的二次判別函數(shù)分類器識(shí)別,使用深度信念網(wǎng)絡(luò)模型處理較為復(fù)雜的漢字圖像。文獻(xiàn)[3]使用基于神經(jīng)網(wǎng)絡(luò)反饋的方法對(duì)所提取的文本行基于像素點(diǎn)進(jìn)行判斷而進(jìn)行二值化,結(jié)合垂直投影方法對(duì)字符切分,提高OCR識(shí)別率。文獻(xiàn)[4]提出了一種無(wú)分割的端到端神經(jīng)模型,用于離線光學(xué)字符識(shí)別,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長(zhǎng)期短期記憶(Long Short Term Memory,LSTM)復(fù)發(fā)網(wǎng)絡(luò),使用CNN進(jìn)行特征提取,并使用堆疊的雙向 LSTM進(jìn)行序列建模。文獻(xiàn)[5]提出了一種基于前饋人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的OCR算法,使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的對(duì)象特征數(shù)據(jù)集改進(jìn)基于OCR的車牌識(shí)別技術(shù)。文獻(xiàn)[6]提出了STN?OCR,以半監(jiān)督方式從自然圖像中檢測(cè)和識(shí)別文本,STN?OCR是一個(gè)集成并共同學(xué)習(xí)的空間變換器網(wǎng)絡(luò),可以學(xué)習(xí)檢測(cè)圖像中的文本區(qū)域,以及識(shí)別文本區(qū)域并識(shí)別其文本內(nèi)容的文本識(shí)別網(wǎng)絡(luò)。文獻(xiàn)[7]提出一種CRNN模型,采用深度卷積神經(jīng)網(wǎng)絡(luò),并行密集層和基于分量連接的檢測(cè)流水線,采用連接時(shí)間分類,結(jié)合OCR技術(shù),通過(guò)賦值操作和計(jì)算公式識(shí)別更復(fù)雜的圖像。文獻(xiàn)[8]通過(guò)圖像處理從所需圖像中提取字符區(qū)域,并使用深度學(xué)習(xí)作為學(xué)習(xí)數(shù)據(jù)來(lái)提高韓文OCR的準(zhǔn)確性。文獻(xiàn)[9]提出了一種新的OCR加速方法和避免文本欠擬合的方法,建立了一個(gè)基于轉(zhuǎn)換傳遞學(xué)習(xí)的模型,以實(shí)現(xiàn)從文本到圖像的域適應(yīng),將字符順序關(guān)系從文本轉(zhuǎn)移到OCR。文獻(xiàn)[10]提出了深度卷積網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)的組合,并結(jié)合投票機(jī)制,在運(yùn)行時(shí)間相近時(shí)穩(wěn)定提高了OCR的準(zhǔn)確度。

      綜上所述,各種深度學(xué)習(xí)的框架和網(wǎng)絡(luò)模型的提出和建立為圖像識(shí)別和字符識(shí)別提供了一種更高效的方法,但是太復(fù)雜的網(wǎng)絡(luò)時(shí)間復(fù)雜度高,針對(duì)該情況,本文提出一種改進(jìn)型的深度學(xué)習(xí)模型,該模型屬于輕量級(jí),能夠在滿足提高識(shí)別準(zhǔn)確率的基礎(chǔ)上降低時(shí)間復(fù)雜度。

      1 ?基礎(chǔ)理論

      1.1 ?卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

      卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層和全連接層構(gòu)成,其中還有可能包含激勵(lì)函數(shù)層、正則化層。卷積層的主要作用是提取特征。相比于全連接層,卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的參數(shù)將減少許多,降低了網(wǎng)絡(luò)訓(xùn)練的難度,這個(gè)特征簡(jiǎn)稱為局部特征。卷積層參數(shù)多少和圖片的尺寸無(wú)關(guān),它只與卷積核大小、深度以及當(dāng)前輸入圖片的深度有關(guān)。池化層可以有效地減少矩陣的大小,從而減少最后全連接層中的參數(shù)。在卷積神經(jīng)網(wǎng)絡(luò)中池化層不是必須的,在有些特殊的卷積神經(jīng)網(wǎng)絡(luò)中,可以用卷積層代替池化層。Dropout是為了解決過(guò)擬合,它的主要思想在訓(xùn)練時(shí)以一定的概率切除輸入神經(jīng)元和輸出神經(jīng)元之間的關(guān)聯(lián),保留剩下神經(jīng)元之間的關(guān)聯(lián),輸入和輸出保持不變,使用Dropout減少了神經(jīng)元之間的關(guān)聯(lián),降低了權(quán)重連接,使網(wǎng)絡(luò)模型更具健壯性。

      1.2 ?Lenet?5

      Lenet?5網(wǎng)絡(luò)相對(duì)簡(jiǎn)單,只有7層,前5層卷積層和池化層交替,3層卷積層,2層池化層,最后2層是全連接層,卷積層使用的過(guò)濾器大小為5×5,步長(zhǎng)為1,池化層使用的過(guò)濾器大小為2×2,使用最大池化進(jìn)行池化操作,總的參數(shù)個(gè)數(shù)為61 706,步長(zhǎng)為2。Lenet?5網(wǎng)絡(luò)模型如圖1所示。

      2 ?改進(jìn)的Lenet?5

      本文在Lenet?5的基礎(chǔ)上進(jìn)行改進(jìn)(簡(jiǎn)稱為L(zhǎng)enet?5Pro),使用3×3的卷積核,卷積核個(gè)數(shù)逐層遞增,且網(wǎng)絡(luò)層數(shù)增至11層,其中第6層為池化層,第7和第8層為卷積層,第9層為池化層,最后兩層為全連接層,并且在網(wǎng)絡(luò)中加入了BN算法以加速訓(xùn)練。Lenet?5Pro網(wǎng)絡(luò)模型如圖2所示。

      在搭建網(wǎng)絡(luò)模型過(guò)程中,模型訓(xùn)練使用的損失函數(shù)是交叉熵?fù)p失函數(shù),優(yōu)化算法是BN算法和Adam算法。本文搭建的Lenet?5模型的設(shè)置如下:輸入圖片的分辨率為100×100,全連接層使用ReLu激活函數(shù),正則化層使用Dropout函數(shù)來(lái)防止過(guò)擬合,訓(xùn)練時(shí)的Dropout比率為0.8,驗(yàn)證時(shí)Dropout比率為1.0,使用BN算法和Adam算法加速訓(xùn)練,Batch_size設(shè)置為128,訓(xùn)練的次數(shù)為12 000步,每100步進(jìn)行一次交叉驗(yàn)證,每2 000步保存一次模型。Lenet?5Pro模型的設(shè)置與Lenet?5基本相同,但是訓(xùn)練的次數(shù)增至16 000步。

      3 ?生成帶標(biāo)注的印刷體字符圖像庫(kù)

      國(guó)家標(biāo)準(zhǔn)漢字庫(kù)定義了3 755個(gè)一級(jí)字庫(kù)漢字,3 008個(gè)二級(jí)字庫(kù)漢字。由于二級(jí)字庫(kù)中較少被日常使用,所以本文采用的數(shù)據(jù)集包括一級(jí)字庫(kù)3 755個(gè)漢字、二級(jí)字庫(kù)1 125個(gè)漢字、52個(gè)英文大小寫字母和38個(gè)標(biāo)點(diǎn)符號(hào),總共4 970類字符。

      3.1 ?生成字符

      生成字符的具體過(guò)程如下:

      1) 對(duì)本文所采用的4 970類字符進(jìn)行標(biāo)注,建立好每類生成字符和標(biāo)注文件的關(guān)聯(lián)性,生成標(biāo)注文件。

      2) 確定需要生成字符的字體種類。本文總共采用了黑體、楷體、仿宋體、mingliu體、思源黑體bold、思源黑體black、思源黑體light、思源黑體thin、思源黑體regular模式,總計(jì)9種字體。

      3) 利用Python中的PIL庫(kù)生成字體圖片。

      3.2 ?增強(qiáng)字符

      為了增大數(shù)據(jù)集,本文在原圖片的基礎(chǔ)上,采用數(shù)據(jù)增強(qiáng)的方式增大數(shù)據(jù)集,數(shù)據(jù)增強(qiáng)的主要方式包括傾斜、添加椒鹽噪聲點(diǎn)、膨脹和腐蝕等操作。

      傾斜的增強(qiáng)方式是以圖片中心為旋轉(zhuǎn)中心,首先進(jìn)行順逆時(shí)針旋轉(zhuǎn)30°。本文中,旋轉(zhuǎn)的步長(zhǎng)為1°,即旋轉(zhuǎn)的幅度由0°~30°以1°遞增,由0°~-30°遞減,然后從旋轉(zhuǎn)后的圖片以圖片中心切割出原圖片尺寸大小。通過(guò)數(shù)據(jù)增強(qiáng),每個(gè)字符的數(shù)據(jù)集從9張圖片增加到1 098張,擴(kuò)大了122倍。其中,圖片旋轉(zhuǎn)擴(kuò)大了61倍的數(shù)據(jù)集,添加噪聲是隨機(jī)的,膨脹和腐蝕是在添加噪聲點(diǎn)的基礎(chǔ)上進(jìn)行二選一的操作。以漢字“啊”為例,增強(qiáng)后的圖像如圖3所示。

      經(jīng)過(guò)上述增強(qiáng)操作后,總共生成的圖片總量為5 457 060張,字符樣本集統(tǒng)計(jì)如表1所示。

      4 ?實(shí)驗(yàn)結(jié)果及分析

      4.1 ?實(shí)驗(yàn)準(zhǔn)備說(shuō)明

      本文實(shí)驗(yàn)在深度學(xué)習(xí)框架TensorFlow上運(yùn)行,實(shí)驗(yàn)設(shè)備為32 GB內(nèi)存的英特爾酷睿i9?7900x CPU和11 GB內(nèi)存的英偉達(dá)1080Ti GPU。

      實(shí)驗(yàn)中,所采用的數(shù)據(jù)集是自采集的字符圖片數(shù)據(jù)集,采集的過(guò)程如前文所述,其中,數(shù)據(jù)集中約80%的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),剩下的20%作為驗(yàn)證集數(shù)據(jù)。另外,本文還使用了基于OpenCV程序裁剪的測(cè)試圖片集。本文所使用程序全部由Python語(yǔ)言編寫,主要包括5個(gè)模塊:數(shù)據(jù)傳輸模塊、網(wǎng)絡(luò)搭建模塊、模型訓(xùn)練模塊、模型驗(yàn)證模塊和測(cè)試模塊。數(shù)據(jù)傳輸模塊主要將數(shù)據(jù)從硬盤讀寫到內(nèi)存進(jìn)行訓(xùn)練;網(wǎng)絡(luò)搭建模塊主要搭建卷積神經(jīng)網(wǎng)絡(luò);模型訓(xùn)練模塊主要用于模型的訓(xùn)練與生成;模型驗(yàn)證模塊使用測(cè)試集進(jìn)行驗(yàn)證;測(cè)試模塊用于測(cè)試識(shí)別印刷體文檔圖片內(nèi)容。

      訓(xùn)練時(shí)采用GPU加速,每100步進(jìn)行交叉驗(yàn)證,模型訓(xùn)練完成后,進(jìn)行一次完整的驗(yàn)證,驗(yàn)證時(shí)分別計(jì)算Top1,Top5和總體識(shí)別準(zhǔn)確率。

      4.2 ?印刷體文檔的識(shí)別結(jié)果對(duì)比

      分別使用3個(gè)模型進(jìn)行測(cè)試,其中準(zhǔn)確率=正確個(gè)數(shù)/測(cè)試個(gè)數(shù),總字符指的是所有字符均被正確識(shí)別的結(jié)果,時(shí)間表示平均每個(gè)字符被識(shí)別的平均時(shí)間。驗(yàn)證模型的識(shí)別準(zhǔn)確率統(tǒng)計(jì)后如表2所示。

      為了進(jìn)一步評(píng)估Lenet?5Pro算法的性能,使用印刷體文檔圖片切割出來(lái)的完整單字圖片進(jìn)行測(cè)試,圖片數(shù)量為2 000張,即2 000個(gè)字符,其中包括了一二級(jí)中文字符、大小寫英文字符和標(biāo)點(diǎn)字符,故直接使用包含了C1+C2+C3+C4的模型進(jìn)行測(cè)試,對(duì)比結(jié)果如表3所示。

      從表3中可以看出,Lenet?5Pro的識(shí)別效果比其他兩個(gè)模型的效果要好。綜合表2和表3的結(jié)果可以看出,Lenet?5Pro模型無(wú)論在驗(yàn)證集還是測(cè)試集的準(zhǔn)確率都比其他兩個(gè)模型高,尤其是在測(cè)試集上的準(zhǔn)確率比其他兩個(gè)模型均要高,主要原因是這些模型在識(shí)別切割太碎的漢字時(shí),識(shí)別率下降,從而導(dǎo)致識(shí)別率整體偏低。同時(shí),VGG?16模型無(wú)論從卷積層的層數(shù)以及參數(shù)個(gè)數(shù)和訓(xùn)練難度上都比Lenet?5Pro模型要高,理論上VGG?16模型測(cè)試集準(zhǔn)確率應(yīng)該要比Lenet?5Pro要高,但實(shí)際效果有一定的差距,整體來(lái)說(shuō),Lenet?5Pro的識(shí)別效果達(dá)到了預(yù)期水平。

      5 ?結(jié) ?語(yǔ)

      本文從印刷體字符識(shí)別技術(shù)入手,提出了改進(jìn)的Lenet?5Pro模型對(duì)字符進(jìn)行識(shí)別,所做的工作包括:生成大量用于訓(xùn)練的印刷體漢字等字符的圖片集以滿足本文所改進(jìn)的深度學(xué)習(xí)模型,同時(shí),數(shù)據(jù)集可以擴(kuò)展到其他文字和其他語(yǔ)言,擴(kuò)展性強(qiáng)。對(duì)經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行了一定的改進(jìn),實(shí)驗(yàn)結(jié)果表明本文網(wǎng)絡(luò)模型的有效性和準(zhǔn)確性。但由于改進(jìn)后的網(wǎng)絡(luò)相對(duì)簡(jiǎn)單,針對(duì)較相似的字符識(shí)別容易發(fā)生錯(cuò)誤,今后將嘗試采用不同的網(wǎng)絡(luò)來(lái)訓(xùn)練,以達(dá)到更好的魯棒性。

      參考文獻(xiàn)

      [1] 劉冬民.基于深度學(xué)習(xí)的印刷體漢字識(shí)別[D].廣州:廣州大學(xué),2018.

      [2] 孫巍巍.基于深度學(xué)習(xí)的手寫漢字識(shí)別技術(shù)研究[D].哈爾濱:哈爾濱理工大學(xué),2017.

      [3] 汪一文.深度卷積神經(jīng)網(wǎng)絡(luò)在OCR問(wèn)題中的應(yīng)用研究[D].成都:電子科技大學(xué),2018.

      [4] RAWLS S, CAO H, KUMAR S, et al. Combining convolutional neural networks and LSTMs for segmentation?free OCR [C]// 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Kyoto, Japan: IEEE, 2017: 155?160.

      [5] KAKANI B V, GANDHI D, JANI S. Improved OCR based automatic vehicle number plate recognition using features trained neural network [C]// 2017 8th International Conference on Computing, Communication and Networking Technologies (ICCCNT). Delhi, India: IEEE, 2017: 1?6.

      [6] BARTZ C, YANG H J, MEINEL C. STN?OCR: a single neural network for text detection and text recognition [EB/OL]. [2017?07?27]. https://deeplearn.org/arxiv/11984/stn?ocr.

      [7] JIANG Y X, DONG H W, EI SADDIK A. Baidu Meizu deep learning competition: arithmetic operation recognition using end?to?end learning OCR technologies [J]. IEEE access, 2018, 6: 60128?60136.

      [8] KANG G H, KO J H, KWON Y J, et al. A study on improvement of Korean OCR accuracy using deep learning [C]// Proceedings of the Korean Institute of Information and Communication Sciences Conference?The Korea Institute of Information and Communication Engineering. [S.l.: s.n.], 2018: 693?695.

      [9] HE Yang, YUAN Jingling, LI Lin. Enhancing RNN based OCR by transductive transfer learning from text to images [C]// Thirty?second AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA: AAAI Press, 2018: 8083?8084.

      [10] WICK C, REUL C, PUPPE F. Improving OCR accuracy on early printed books using deep convolutional networks [EB/OL]. [2018?02?27]. https://www.researchgate.net/publication/323444203.

      猜你喜歡
      印刷體字符識(shí)別字符
      尋找更強(qiáng)的字符映射管理器
      西夏文楷書和草書手寫體探微
      淺談小學(xué)英語(yǔ)字母手寫體與印刷體的教學(xué)
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
      儀表字符識(shí)別中的圖像處理算法研究
      高考的時(shí)候,把字寫得像印刷體有用嗎
      基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
      奉节县| 鄂州市| 同江市| 金溪县| 祁连县| 临泽县| 塔河县| 红原县| 峡江县| 万源市| 酉阳| 洮南市| 土默特右旗| 民勤县| 镇赉县| 水富县| 垣曲县| 浙江省| 台江县| 阿勒泰市| 辛集市| 大城县| 交口县| 临江市| 宜州市| 博客| 双江| 乐东| 台州市| 桐城市| 鞍山市| 额尔古纳市| 顺昌县| 辉县市| 永春县| 舟山市| 邵阳县| 威海市| 乌兰察布市| 鞍山市| 榆树市|