潘煒 劉豐威
摘要:針對電力行業(yè),基于OCR技術(shù)和TensorFlow深度學(xué)習(xí)框架,設(shè)計(jì)了一種表格文本的識別模型,同時(shí)支持印刷、手寫字符的識別,模型使用了OpenCV中的形態(tài)學(xué)函數(shù),以及CTPN+CRNN算法,可實(shí)現(xiàn)電力營銷業(yè)務(wù)辦理過程中各類業(yè)務(wù)表格類工單的批量識別,實(shí)現(xiàn)海量掃描件、拍照件等圖像數(shù)據(jù)的檢索并返回營銷業(yè)務(wù)人員需要核查的信息。這種借助計(jì)算機(jī)輔助的新方式,相比人工核查,速度快,效率高,誤差低,有較好的應(yīng)用價(jià)值。
關(guān)鍵詞:電力營銷業(yè)務(wù);OCR技術(shù);深度學(xué)習(xí);表格文本識別模型
中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)07-0150-03
0 引言
互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息系統(tǒng)的廣泛應(yīng)用,給企業(yè)帶來更全面、及時(shí)的信息,但快速準(zhǔn)確核查信息也變得更加困難。特別是信息系統(tǒng)中上傳的各類掃描件、證照等附件,相比較傳統(tǒng)的人工查閱核查方式效率低,易錯漏的情況,采用基于深度學(xué)習(xí)的機(jī)器識別模型則可從海量附件數(shù)據(jù)中檢索并返回給用戶需要核查的信息。機(jī)器輔助的新方式,提高了工作效率,降低了錯漏率[1]。
1 研究現(xiàn)狀
1.1 背景和意義
日常生活中,我們每天都會接觸到數(shù)字表格,以電力行業(yè)為例,在辦理業(yè)擴(kuò)報(bào)裝業(yè)務(wù)時(shí),操作人員在收集了用戶提供的基本信息后,通過系統(tǒng)打印一份業(yè)務(wù)申請單,交給用戶簽字,之后掃描存檔,以為后續(xù)業(yè)務(wù)環(huán)節(jié)辦理提供材料支撐[2]。同時(shí),為保障用電業(yè)務(wù)開展的規(guī)范性、安全性,業(yè)務(wù)辦理人員還會對掃描件進(jìn)行核查,這項(xiàng)工作重要、繁雜且枯燥。所以,如果找到一種自動識別掃描后的表格文檔的方法,把數(shù)據(jù)的處理交給電腦來做,就能極大地節(jié)省時(shí)間,提高核查比對的工作效率,也可及時(shí)發(fā)現(xiàn)材料存在的相關(guān)問題[3]。
1.2 現(xiàn)狀及分析
表格的分析和字符識別在實(shí)際生活中有巨大的應(yīng)用意義,已成為近年來圖像處理應(yīng)用的研究的熱門。美國成立了一個專門研究表格字符識別的機(jī)構(gòu),即國家標(biāo)準(zhǔn)及技術(shù)研究所,我國在表格字符處理領(lǐng)域起步較早,處于一個較先進(jìn)的水平層次,1992年,重慶大學(xué)就設(shè)計(jì)開發(fā)出Av-100型表格自動閱讀機(jī)。
表格字符識別的核心技術(shù)就是表格內(nèi)字符的提取及識別[4]。目前人們對表格文檔類的自動識別系統(tǒng)的研究主要面向郵編識別、票據(jù)識別、考試成績識別等應(yīng)用領(lǐng)域,雖然表格文檔類自動識別已經(jīng)有一定研究,但是由于表格多樣性、復(fù)雜性、加上印刷體和手寫體在表格中時(shí)常混合存在,都加大了字符識別正確率提高的難度,能夠?qū)嵱玫南到y(tǒng)卻比較少,這一方面的理論有待完善。
2 模型設(shè)計(jì)
2.1 特征分析
以下是一張電力裝拆工作單的部分內(nèi)容截圖(如表1所示),混合表單的字符內(nèi)容存在以下特征:
(1)表單樣式有固定的設(shè)計(jì),多有嵌套的表格存在。(2)表單中存在印刷的內(nèi)容,也會有手寫的內(nèi)容。(3)表單有掃描,也有拍照的,其受噪聲干擾較嚴(yán)重,方向也可能存在傾斜,獲取到的字符信息存在不同程度的干擾。
2.2 模型設(shè)計(jì)及開發(fā)
一般情況下,通過OCR(光學(xué)字符識別)技術(shù)進(jìn)行圖形字符識別的基本流程可分為5步,如圖1所示。
第1步執(zhí)行版面分析,判斷頁面上的文本朝向;第2步預(yù)處理,做角度矯正和去噪;第3步行列切割,對每一行做行分割,再對每一行文本做列分割,切割出每個字符;第4步字符識別,該字符送入訓(xùn)練好的OCR識別模型進(jìn)行字符識別,得到結(jié)果;第5步后處理識別矯正,對其進(jìn)行識別結(jié)果的矯正和優(yōu)化。
在初期識別時(shí),先從表格中找到相匹配的表格模板,如找到,則直接進(jìn)行字符圖像的提取,如未找到,則將表格信息加入表格模板,再提取字符圖像,分割、細(xì)化、歸一化處理,得到正規(guī)的單個字符后進(jìn)行特征提取然后送入已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)去進(jìn)行識別。識別后根據(jù)識別結(jié)果提取單元格字符串的整體特征,訓(xùn)練整體識別的神經(jīng)網(wǎng)絡(luò)。
依據(jù)上述過程的設(shè)計(jì),對圖1的基本流程做優(yōu)化,得到表格的后期識別流程,如圖2所示。
根據(jù)上述流程,表格識別過程設(shè)計(jì)如下:
(1)對圖片做二值化處理,腐蝕和膨脹后得到表格線。這里利用OpenCV里面的形態(tài)學(xué)函數(shù)(cvErode、cvDilate)完整的識別出圖片中的表格。(2)由表格線獲取單元格交點(diǎn)坐標(biāo),按坐標(biāo)把表格分割為多個單元格圖片。(3)對圖片文字做檢測定位?;趖ensorflow框架,采用CTPN算法完成文本的檢測定位,并使用RNN提升文本檢測效果。(4)文本識別,輸出結(jié)果。基于pytorch+warp-ctc框架,采用CRNN(CNN+RNN+CTC)算法完成文本識別過程,其中CNN提取像素特征,RNN提取時(shí)序特征,由于手寫字符的隨機(jī)性,可以使用CTC確定哪些像素范圍對應(yīng)的字符[5]。
表格字符的識別,字符分割的處理很關(guān)鍵,為保證分割結(jié)果的準(zhǔn)確性[6],在分割過程中嵌入了一個BP識別神經(jīng)網(wǎng)絡(luò)計(jì)算其廣義置信度;其次,再利用統(tǒng)一的算法來反求出置信度。
根據(jù)當(dāng)多層前向神經(jīng)網(wǎng)絡(luò)在使用均方誤差或庫爾貝克(Kullback)鑒別熵做代價(jià)函數(shù)時(shí),其輸出的期望值是各個類別的后驗(yàn)概率。假設(shè)Oi是Ki類對應(yīng)的神經(jīng)網(wǎng)絡(luò)的輸出,則:
E{Oi}=P(Ki│x)
分類判決時(shí)可以取最大輸出對應(yīng)的分類,在某種程度上Oi輸出的最大可以作為置信度,但是,卻忽略了其他的輸出值,用這種方法會產(chǎn)生誤識。所以這里利用最大值和次大值的差值比作為置信度。先把Oi的輸出值做排序,得到最大值Omax,次大值為Osec,則置信度為:
c=(Omax-Osec)/Omax
判斷置信度c的值,值越大其識別結(jié)果的可靠性越高,這里取閾值為0.95,如果大于0.95,則判斷識別結(jié)果正確,否則錯誤。
圖像識別后輸出結(jié)果存在在數(shù)據(jù)庫中,其響應(yīng)參數(shù)設(shè)計(jì)如表2所示。
3 模型應(yīng)用
目前該模型已應(yīng)用在廣州供電局稽查業(yè)務(wù)中,對業(yè)務(wù)掃描件、拍照件進(jìn)行合規(guī)性檢查,提取各種表單數(shù)據(jù)中的關(guān)鍵信息[7](例如用電戶身份信息,用電類別、電能表計(jì)編號、型號等),并與營銷系統(tǒng)中錄入的數(shù)據(jù)做一致性比對。通過使用,機(jī)器識別相比人工識別,效率提升至少10倍以上,印刷手寫表單混合字符識別的準(zhǔn)確率可達(dá)到75%以上。
4 結(jié)語
本文以電力行業(yè)為例,針對業(yè)務(wù)辦理人員面對海量的表單掃描件、拍照件的信息收集、核查需求,基于深度學(xué)習(xí),研究了一種印刷手寫混合表單識別模型,經(jīng)過模型驗(yàn)證和實(shí)際應(yīng)用,較好的實(shí)現(xiàn)了機(jī)器輔助識別表單內(nèi)容的能力。相比人工核查,速度快,效率高,誤差低,亦可推廣至其他行業(yè),有較好的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 王科俊,陳卉.印刷體中文文檔識別系統(tǒng)的研究[C].北京圖像圖形學(xué)學(xué)會.圖像圖形技術(shù)研究與應(yīng)用2009——第四屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集.北京圖象圖形學(xué)學(xué)會,2009:311-316.
[2] 于伯峰.印刷體中文文檔中表格和漢字的識別研究[D].哈爾濱:哈爾濱工程大學(xué),2011.
[3] 馬然.基于深度學(xué)習(xí)的自然場景文本識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].長春:吉林大學(xué),2015.
[4] 吳畏,丁茂祥,郝紅衛(wèi).通用票據(jù)識別系統(tǒng)中的字符切分方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2004(1):19-21.
[5] 劉曉春.基于深度學(xué)習(xí)的手寫體圖像分類識別研究[J].江西通信科技,2016(04):35-39.
[6] 高學(xué),金連文,尹俊勛,等.一種基于支持向量機(jī)的手寫漢字識別方法[J].電子學(xué)報(bào),2002,30(5):651-654.
[7] 高學(xué),王有旺.基于CNN和隨機(jī)彈性形變的相似手寫漢字識別[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(1):78-82+89.
數(shù)字技術(shù)與應(yīng)用2020年7期