摘要:基于深度學(xué)習(xí)的區(qū)域定位研究,對(duì)文本區(qū)域檢測(cè)進(jìn)行了介紹。同時(shí)為了提高財(cái)務(wù)系統(tǒng)效率,減少人為失誤率,實(shí)現(xiàn)良好的發(fā)票識(shí)別效果,對(duì)于發(fā)票識(shí)別算法進(jìn)行了研究。因此通過定額發(fā)票為識(shí)別主體,設(shè)計(jì)了基于深度學(xué)習(xí)的定額發(fā)票識(shí)別算法進(jìn)行訓(xùn)練和測(cè)試,最終準(zhǔn)確率達(dá)到96%。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)方法在實(shí)際應(yīng)用中能夠達(dá)到良好的效果,減少錯(cuò)誤率。
關(guān)鍵詞:深度學(xué)習(xí);區(qū)域定位;發(fā)票識(shí)別
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)11-0098-02
隨著國(guó)民經(jīng)濟(jì)健康發(fā)展與科學(xué)技術(shù)的提高,人類的經(jīng)濟(jì)活動(dòng)也變得更加頻繁。圖片以及文字成了記錄經(jīng)濟(jì)活動(dòng)的重要載體。近幾年隨著機(jī)器學(xué)習(xí)領(lǐng)域的深入研究,極大促進(jìn)了人工智能在各種現(xiàn)實(shí)場(chǎng)景的應(yīng)用。OCR技術(shù)的興起,給人們自動(dòng)化地信息提取提供了極大便利。場(chǎng)景文字識(shí)別具有很高的研究?jī)r(jià)值[1],在實(shí)際應(yīng)用的現(xiàn)實(shí)場(chǎng)景中,其應(yīng)用需求包含了諸多領(lǐng)域,例如野外設(shè)備代碼識(shí)別,財(cái)務(wù)審核等。因此,區(qū)域定位與字符識(shí)別技術(shù)的應(yīng)用研究具有重要意義。
發(fā)票識(shí)別是光學(xué)字符識(shí)別(Optical Character Recognition, OCR)技術(shù)[2]的一個(gè)應(yīng)用分支。OCR的識(shí)別流程主要是通過檢測(cè)感興趣區(qū)域的圖像,對(duì)區(qū)域中所含的字符進(jìn)行識(shí)別并輸出識(shí)別結(jié)果。隨著目標(biāo)檢測(cè)與文字識(shí)別技術(shù)的日益成熟,無接觸與無感的圖像識(shí)別成了主流,同時(shí)也節(jié)約了工作所需的人力成本,提高勞動(dòng)效率。高清攝像頭、無人機(jī)等智能終端的發(fā)展,可以隨時(shí)隨地進(jìn)行區(qū)域定位、識(shí)別,在設(shè)備前端進(jìn)行實(shí)時(shí)展示并存儲(chǔ),實(shí)現(xiàn)遠(yuǎn)距離無接觸辦公。在人文社會(huì)環(huán)境的影響下OCR識(shí)別技術(shù)研究前景廣闊,因此成了機(jī)器視覺領(lǐng)域和自然語言處理領(lǐng)域的研究熱點(diǎn)[3]。
1 基于深度學(xué)習(xí)的文字區(qū)域定位方法
文字區(qū)域檢測(cè)的傳統(tǒng)方法是根據(jù)字符之間的緊湊性以及其與背景像素具有互異性的特點(diǎn)定位文字區(qū)域,最終將其從初始圖像中提取出來。隨著深度學(xué)習(xí)的興起,坐標(biāo)回歸算法成了目標(biāo)檢測(cè)的主流,通過網(wǎng)絡(luò)模型學(xué)習(xí)回歸預(yù)測(cè)特征點(diǎn)的坐標(biāo)定位文本區(qū)域。
感興趣區(qū)域檢測(cè)方法早期由Wang等[4]提出,利用尺取法多尺度地掃描圖像,再通過神經(jīng)網(wǎng)絡(luò)對(duì)每一處掃描的圖像進(jìn)行劃分,定位出感興趣區(qū)域。2014年,Huang等[5]通過區(qū)域特征提取MSER提取出文字區(qū)域,再使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行感興趣區(qū)域的字符識(shí)別并進(jìn)行字符分割,提出了與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的字符區(qū)域檢測(cè)模型。
近年來,文字區(qū)域定位在深度學(xué)習(xí)算法的影響下精準(zhǔn)程度飛速提升。緊接著Faster R-CNN[6]和YOLO[7]等模型在學(xué)術(shù)界相繼提出,在保證字符提取準(zhǔn)確度的同時(shí),對(duì)感興趣區(qū)域進(jìn)行快速定位。Ma等[8]發(fā)表的旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)--RRPN,適用于多角度方向的區(qū)域。Liao等[9]以SSD模型為理論基礎(chǔ),提出了端到端訓(xùn)練的TextBoxes模型,為了解決不同多尺度文字區(qū)域的檢測(cè),該模型使用一個(gè)基于全連接的CNN。
為了深入文字區(qū)域定位領(lǐng)域的算法和網(wǎng)絡(luò),本文基于PSEnet[10]網(wǎng)絡(luò)模型,在原有Resnet50上加深網(wǎng)絡(luò)層到101層,即網(wǎng)絡(luò)結(jié)構(gòu)采用改進(jìn)后的Resnet101+fpn作為特征提取的網(wǎng)絡(luò)結(jié)構(gòu)。
2 數(shù)據(jù)預(yù)處理
2.1 目標(biāo)檢測(cè)標(biāo)注
LabelImg是基于Python的一個(gè)可視化的圖像標(biāo)注程序。主流的目標(biāo)檢測(cè)網(wǎng)絡(luò)(例如YOLO系列、SSD以及Faster R-CNN等) ,其訓(xùn)練數(shù)據(jù)集都要借助此工具標(biāo)注圖像中實(shí)驗(yàn)所需的目標(biāo)。
2.2 預(yù)處理流程
數(shù)據(jù)預(yù)處理流程如圖1所示。
3 實(shí)驗(yàn)結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)配置為Intel Xeon-Gold 5118 2.3GHz處理器,一塊Tesla V100 GPU,操作系統(tǒng)為L(zhǎng)INUX CentOS-7.8,采用touch1.4開源深度學(xué)習(xí)框架作為實(shí)驗(yàn)環(huán)境。數(shù)據(jù)集來源于運(yùn)營(yíng)商,主要類型為定額發(fā)票。
3.2 評(píng)價(jià)指標(biāo)
一個(gè)算法模型的優(yōu)劣主要通過相應(yīng)的評(píng)價(jià)指標(biāo)參數(shù)進(jìn)行評(píng)判,在本文的文字區(qū)域檢測(cè)中,使用了圖片像素、檢測(cè)時(shí)間以及準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
圖片像素,定義為longsize,根據(jù)不同的像素大小表示圖像最佳的檢測(cè)大小。
檢測(cè)時(shí)間是指程序運(yùn)行時(shí),檢測(cè)每張圖片的運(yùn)行時(shí)間。
準(zhǔn)確率是指在全部樣本的判斷中有多少判斷正確的,表示為正樣本定義為正,負(fù)樣本定義為負(fù)。公式為:
[P=PTPT+PF] (1)
3.3 實(shí)驗(yàn)結(jié)果分析
保持既定的研究環(huán)境和物理設(shè)備,在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,迭代過程中保存最優(yōu)模型參數(shù),僅在模型推理中改變圖片像素大小,實(shí)際數(shù)據(jù)如表1所示。
實(shí)驗(yàn)結(jié)果表明,在圖片像素大小為2200像素時(shí),在檢測(cè)時(shí)間和準(zhǔn)確率上均能達(dá)到最好效果。
4 結(jié)論
在傳統(tǒng)方法下,針對(duì)自然場(chǎng)景的區(qū)域定位問題,本文設(shè)計(jì)的基于深度學(xué)習(xí)區(qū)域定位方法具有更強(qiáng)的適用性和準(zhǔn)確性。當(dāng)然不僅僅局限于定額發(fā)票,發(fā)票有許多種類,其復(fù)雜度也并不相同。因此基于深度學(xué)習(xí)區(qū)域定位方法仍然有改進(jìn)空間,在面對(duì)復(fù)雜發(fā)票票面時(shí)進(jìn)一步提高對(duì)文字區(qū)域劃分的準(zhǔn)確性。
參考文獻(xiàn):
[1] 劉仁軍.基于神經(jīng)網(wǎng)絡(luò)的室內(nèi)場(chǎng)景的文字識(shí)別研究[D].武漢:武漢工程大學(xué),2017.
[2] 閆茹,孫永奇,朱衛(wèi)國(guó),等.基于CNN與有限狀態(tài)自動(dòng)機(jī)的手寫體大寫金額識(shí)別[J].計(jì)算機(jī)工程,2021,47(9):304-312.
[3] 楊飛.自然場(chǎng)景圖像中的文字檢測(cè)綜述[J].電子設(shè)計(jì)工程,2016,24(24):165-168.
[4] Wang T,Wu D J,Coates A,et al.End-to-end text recognition with convolutional neural networks[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012).November 11-15,2012,Tsukuba,Japan.IEEE,2012:3304-3308.
[5] Huang W L,Qiao Y,Tang X O.Robust scene text detection with convolution neural network induced MSER trees[C]//Computer Vision – ECCV 2014,2014:497-511.
[6] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[7] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:779-788.
[8] Ma J Q,Shao W Y,Ye H,et al.Arbitrary-oriented scene text detection via rotation proposals[J].IEEE Transactions on Multimedia,2018,20(11):3111-3122.
[9] Liao M H,Shi B G,Bai X,et al.TextBoxes:a fast text detector with a single deep neural network[J]. AAAI Conference on Artificial Intelligence,2017.
[10] Wang W H,Xie E Z,Li X,et al.Shape robust text detection with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:9328-9337.
收稿日期:2021-12-20
作者簡(jiǎn)介:劉奕杰(1996—) ,男,四川成都人,碩士,研究方向?yàn)樯疃葘W(xué)習(xí),計(jì)算機(jī)視覺。