王澤強(qiáng) 陳義明
摘要:本文提出利用形態(tài)學(xué)函數(shù)進(jìn)行特征強(qiáng)化的數(shù)據(jù)預(yù)處理方法,結(jié)合一階段目標(biāo)檢測(cè)器YOLOv3進(jìn)行表格檢測(cè)。實(shí)驗(yàn)證明,在利用特征強(qiáng)化的方法后,本文的F1-Score的相對(duì)提升達(dá)到1%,優(yōu)于二階段的Faster R-CNN方法??紤]到本文的方法在模型訓(xùn)練和推斷中無須引入額外的計(jì)算量,因此本文的方法具有較強(qiáng)的推廣性。
關(guān)鍵詞:表格檢測(cè);圖像處理;深度學(xué)習(xí)
中圖分類號(hào): TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)03-0014-03
Abstract: In this paper, a data preprocessing method using morphological functions for feature enhancement was proposed, and a table detection was carried out by combining the YOLOv3 model of the one-stage target detector.Experiments show that the relative improvement of F1-SCORE in this paper reaches 1% after using the method of feature enhancement, and it is better than the two-stage Faster R-CNN method.Considering that the method in this paper does not need to introduce additional computation in model training and inference, the method in this paper has strong generalization.
Key words: table detection;image processing;deep learning
大量數(shù)據(jù)表格出現(xiàn)在紙質(zhì)文檔中,從中提取出表格數(shù)據(jù)具有十分重要的意義。手工提取的方法耗時(shí)費(fèi)力。一種更高效的方法是將表格文檔掃描為圖片,開發(fā)軟件程序從圖片中自動(dòng)提取表格數(shù)據(jù),將其電子化。從圖片中提取表格數(shù)據(jù)分為表格檢測(cè)和表格解析識(shí)別兩步,本文主要研究表格檢測(cè)的問題。
表格檢測(cè)的一種典型方法是使用以O(shè)penCV為代表的數(shù)字圖像處理工具,通過反復(fù)的膨脹、腐蝕等操作,消除圖片中的文字、圖片等信息,提取出表格的輪廓,從而檢測(cè)出表格的位置[1]。這種方法對(duì)有線表檢測(cè)非常有效,但由于沒有封閉邊框,無線表的檢測(cè)精度較低。
另一種比較典型的方法是手工提取表格特征,使用機(jī)器學(xué)習(xí)分類模型檢測(cè)表格。Anh提出一個(gè)混合方法,先對(duì)文檔圖片進(jìn)行分類,劃分文字與非文字區(qū)域,然后基于這種劃分尋找表格的候選區(qū)域[2]。Kasar提出了一種通過識(shí)別列和行分隔符來定位表的方法。該系統(tǒng)采用掃描法,從輸入圖像中檢測(cè)水平和垂直線。從每組水平和垂直線中,提取26個(gè)低級(jí)特征并將其傳遞給支持向量機(jī)(SVM)學(xué)習(xí)分類模型,完成表格檢測(cè)任務(wù)[3]。這種方法的主要問題在于沒有表格邊框線的情況下會(huì)失效。Jahan等使用字間距和行高的局部閾值來定位和提取文檔圖像中的表區(qū)域[4]。此方法的主要限制是它檢測(cè)表區(qū)域以及周圍的文本區(qū)域,它必須其他文本作為參照而不能僅用于一個(gè)單獨(dú)表的提取。這些常規(guī)表格分析技術(shù)通常以文件的布局分析為基礎(chǔ),大多數(shù)都無法泛化,因?yàn)樗鼈円蕾囉谑止?gòu)建的特征,對(duì)布局變化不具備魯棒性。
因此,本文嘗試?yán)蒙疃葘W(xué)習(xí)中強(qiáng)大的特征提取和泛化能力設(shè)計(jì)一種基于深度學(xué)習(xí)和形態(tài)學(xué)函數(shù)的表格檢測(cè)方法。論文的第二節(jié)詳細(xì)描述了模型和方法,第三節(jié)包括實(shí)驗(yàn)數(shù)據(jù)描述、實(shí)驗(yàn)方案和結(jié)果分析,最后是本文的結(jié)論。
1 方法
1.1 模型架構(gòu)
本文利用YOLOv3[5]網(wǎng)絡(luò)作為表格檢測(cè)的核心網(wǎng)絡(luò)是YOLO (You Only Look Once)系列目標(biāo)檢測(cè)算法中的第三版[6-8],相比之前的算法,精度和速度方面有著顯著的提升。模型的整體結(jié)構(gòu)概圖如圖1所示。
其中模型的基本單元稱為Darknetconv2d_BN_Leaky組件,由卷積(convolution,conv)、批歸一化(batch normalization,BN)和弱化線性整流單元(Leaky Relu)組成。利用DBL組件構(gòu)成了YOLOv3的特征提取的骨干網(wǎng)絡(luò)DarkNet53。通過輸出不同尺度上的特征圖(Feature Map)對(duì)不同尺度的目標(biāo)進(jìn)行檢測(cè),我們可以很直觀地認(rèn)識(shí)到在小尺度的特征圖上進(jìn)行大目標(biāo)的檢測(cè),在大尺度的特征圖上進(jìn)行小目標(biāo)的檢測(cè)。
其中YOLOv3的改進(jìn)部分在于邊框回歸方式(Bounding Box Prediction,BBox)的改進(jìn)。YOLOv3借鑒了Faster R-CNN[9]中區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network,RPN)采用的錨框(anchor)機(jī)制,但是這種anchor機(jī)制采用線性回歸帶來一定的不穩(wěn)定性,因?yàn)檫吙蚧貧w的偏移量(offset)可以偏移到任意位置。因此YOLOv3直接預(yù)測(cè)相對(duì)位置,預(yù)測(cè)出邊框回歸中心點(diǎn)對(duì)于網(wǎng)格左上角的相對(duì)坐標(biāo)。
1.2 形態(tài)學(xué)函數(shù)
本文利用形態(tài)學(xué)函數(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,在表格圖片中表格邊框特征作為檢測(cè)時(shí)的重要特征形態(tài)不明顯,特別是在復(fù)雜表格結(jié)構(gòu)中,周圍存在大量干擾因素。因此本文利用數(shù)字圖像處理中的形態(tài)學(xué)函數(shù)進(jìn)行處理,具體有如下幾種操作。
腐蝕(Erosion)操作:腐蝕是一種消除邊界點(diǎn),使邊界向內(nèi)部收縮的過程。可以用來消除小且無意義的物體。例如當(dāng)用3x3的結(jié)構(gòu)元素,掃描圖像的每一個(gè)像素,用結(jié)構(gòu)元素與其覆蓋的二值圖像做“與”操作 如果都為1,結(jié)果圖像的該像素為1。否則為0 ,最終使得使二值圖像減小一圈用公式表示為:
膨脹(Dilation)操作:膨脹是將與物體接觸的所有背景點(diǎn)合并到該物體中,使邊界向外部擴(kuò)張的過程??梢杂脕硖钛a(bǔ)物體中的空洞。例如當(dāng)用3x3的結(jié)構(gòu)元素,掃描圖像的每一個(gè)像素,用結(jié)構(gòu)元素與其覆蓋的二值圖像做“或”操作。如果都為0,結(jié)果圖像的該像素為0,否則為1,最終使二值圖像擴(kuò)大一圈。膨脹可以看作是腐蝕的對(duì)偶運(yùn)算。
通過上述幾種操作能夠充分的去除文字雜訊,具體效果見圖2,通過反復(fù)的開閉運(yùn)算最大限度地突出表格特征,弱化文字特征。
1.3 模型與形態(tài)學(xué)函數(shù)的結(jié)合
在模型訓(xùn)練時(shí),利用基礎(chǔ)的圖像增廣操作如翻轉(zhuǎn)、拉伸。在模型推斷過程中,利用形態(tài)學(xué)函數(shù)進(jìn)行數(shù)據(jù)預(yù)處理,獲得特征強(qiáng)化后的表格圖片,使得模型能夠更加聚焦于特征,從而獲得更好的實(shí)驗(yàn)結(jié)果。
2 實(shí)驗(yàn)
2.1 表格檢測(cè)
為了驗(yàn)證本文方案的有效性,我們?cè)O(shè)置兩個(gè)標(biāo)準(zhǔn):檢測(cè)準(zhǔn)確率,檢測(cè)召回率。檢測(cè)準(zhǔn)確率使用通常二元分類的綜合F值來衡量。用m張包含不少于一張表格的文檔圖片作為正例,不含表格的n張文檔圖片作為負(fù)例。假設(shè)正例中[m1]個(gè)被正確檢測(cè),[m2]個(gè)被錯(cuò)誤檢測(cè),即真陽(yáng)性數(shù)[TP=m1],假陰性數(shù)[FN=m2],而負(fù)例中有[n1]個(gè)被錯(cuò)誤地識(shí)別為正例,[n2]個(gè)被正確地檢測(cè),即假陽(yáng)性數(shù)[FP=n1],真陰性數(shù)[TN=n2],則準(zhǔn)確率、召回率和F1綜合分值分別定義如下:
檢測(cè)結(jié)果如表1:
實(shí)驗(yàn)結(jié)果證明,在沒有形態(tài)學(xué)特征增強(qiáng)的情況下YOLOv3的表現(xiàn)稍遜于Faster R-CNN模型,而通過形態(tài)學(xué)函數(shù)處理強(qiáng)化表格特征后YOLOv3模型的性能較Faster R-CNN更好,考慮到Y(jié)OLOv3作為一種一階段的檢測(cè)模型相較于二階段的檢測(cè)模型而言,運(yùn)行的速度更快。因此本文提供的方法更能夠在實(shí)際的生產(chǎn)環(huán)境中使用。
3 結(jié)論
在表格檢測(cè)任務(wù)中,傳統(tǒng)的表格檢測(cè)方法比如提取特征再利用SVM等分類器進(jìn)行表格檢測(cè)的方法,準(zhǔn)確性不高并且面對(duì)不同的問題域,通常不夠魯棒。因此本文設(shè)計(jì)一種基于形態(tài)學(xué)函數(shù)的數(shù)據(jù)預(yù)處理方法并結(jié)合深度學(xué)習(xí)進(jìn)行表格檢測(cè)。實(shí)驗(yàn)證明,本文方法效果較好,能夠廣泛地應(yīng)用到發(fā)票、單據(jù)等類似表格的任務(wù)中。
綜上所述,在較好地完成表格檢測(cè)這一任務(wù)后,我們希望能夠借助表格檢測(cè)的基礎(chǔ)進(jìn)行表格的結(jié)構(gòu)化識(shí)別和分類,這將會(huì)是我們未來的發(fā)展與思考方向。
參考文獻(xiàn):
[1] C. e Silva, “Learning rich Hidden Markov Models in document analysis: Table location,” in Document Analysis and Recognition, 2009. ICDAR09. 10th International Conference on. IEEE, 2009:843–847.
[2] T. T. Anh, N. In-Seop, and K. Soo-Hyung, “A hybrid method for table detection from document image,” in Pattern Recognition (ACPR), 2015 3rd IAPR Asian Conference on. IEEE, 2015:131-135.
[3] T. Kasar, P. Barlas, S. Adam, C. Chatelain, and T. Paquet, “Learning to detect tables in scanned document images using line information,” in Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. IEEE, 2013:1185-1189.
[4] M. A. Jahan and R. G. Ragel, “Locating tables in scanned documents for reconstructing and republishing,” in Information and Automation for Sustainability (ICIAfS), 2014 7th International Conference on. IEEE, 2014:1-6.
[5] Redmon J , Farhadi A . YOLOv3: An Incremental Improvement[J]. 2018.
[6] Redmon J , Divvala S , Girshick R , et al. You Only Look Once: Unified, Real-Time Object Detection[J]. 2015.
[7] Redmon J , Farhadi A . YOLO9000: Better, Faster, Stronger[J]. 2017:6517-6525.
[8] Bochkovskiy A , Wang C Y , Liao H Y M . YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. 2020.
[9] Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
【通聯(lián)編輯:唐一東】