摘要:為實(shí)現(xiàn)檔案信息的智能化管理,文章提出了一種輕量化的端到端檔案智能化收集系統(tǒng)。首先采用輕量化的目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò)PP-PicoDet作為布局檢測(cè)器,用于對(duì)檔案材料的版面分析;然后采用SLANet深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行表格的結(jié)構(gòu)化識(shí)別;最后使用開源的Paddle OCR引擎進(jìn)行文本識(shí)別。系統(tǒng)對(duì)表格識(shí)別的準(zhǔn)確度達(dá)到75.8%,印刷體文本識(shí)別準(zhǔn)確度達(dá)到98.3%,總推理時(shí)間少于0.85 s。該系統(tǒng)為實(shí)現(xiàn)端到端的檔案資料智能化收集,提高檔案資料整理的效率提出了一種有效解決方案。
關(guān)鍵詞:檔案智能化收集;深度學(xué)習(xí);光學(xué)字符識(shí)別;中文表格;手寫體識(shí)別
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
0 引言
目前許多存放在檔案館的歷史文檔都是以手寫形式存在,只有近十幾年來的資料才開始以圖片的形式保存。紙質(zhì)檔案在存儲(chǔ)中存在許多弊端,如易損壞、物理存儲(chǔ)空間需求大、檢索效率低等。隨著信息技術(shù)的不斷發(fā)展,大量的紙質(zhì)檔案資料須要進(jìn)行數(shù)字化整理以適應(yīng)數(shù)字化時(shí)代的需求。傳統(tǒng)的人工數(shù)據(jù)錄入方式效率低且成本高昂,而光學(xué)字符識(shí)別(OCR)技術(shù)能夠?qū)D像中的文字進(jìn)行自動(dòng)識(shí)別并轉(zhuǎn)換為可編輯的數(shù)字文本,更加方便快捷。自動(dòng)進(jìn)行文本分析、信息提取和挖掘?qū)O大地提高檔案資料整理的效率,有助于建立完善的檔案信息管理系統(tǒng),提升信息化水平。
OCR技術(shù)在識(shí)別印刷體和手寫體文本方面已經(jīng)取得了顯著進(jìn)展,但仍然存在一些問題:低分辨率圖像中,字體大小、扭曲、陰影等因素可能導(dǎo)致字符識(shí)別錯(cuò)誤;手寫文本質(zhì)量差異大,使得OCR識(shí)別難度增加;無法處理復(fù)雜的文檔格式和布局,容易導(dǎo)致識(shí)別錯(cuò)誤或丟失重要信息等。這些問題在檔案整理中都可能出現(xiàn)。因此,改進(jìn)當(dāng)前的OCR技術(shù)以提高識(shí)別準(zhǔn)確度和效率,是實(shí)aa4285e4d6ff36c151a265a315bd3897現(xiàn)檔案信息化管理的關(guān)鍵問題。
1 光學(xué)字符識(shí)別技術(shù)
OCR技術(shù)是一種將圖像中的文字轉(zhuǎn)換為可編輯文本的技術(shù)。在數(shù)字化時(shí)代,它在信息處理、文檔管理和自動(dòng)化任務(wù)中發(fā)揮著至關(guān)重要的作用。傳統(tǒng)的OCR方法主要依賴特征工程和模式匹配,效果容易受到圖像質(zhì)量、字體和大小等因素的影響。而基于深度學(xué)習(xí)的OCR方法不僅能自動(dòng)學(xué)習(xí)圖像中的文字特征,還具有更好的魯棒性和準(zhǔn)確性[1]。OCR技術(shù)的工作流程通常包括以下幾個(gè)關(guān)鍵步驟。
1.1 圖像預(yù)處理
圖像預(yù)處理是對(duì)輸入圖像進(jìn)行預(yù)處理,包括去除噪聲、調(diào)整圖像尺寸、灰度化等操作,以提高后續(xù)識(shí)別步驟的準(zhǔn)確性。
1.2 文本檢測(cè)
文本檢測(cè)是在預(yù)處理后的圖像中檢測(cè)出文本的位置和邊界框。常用的文本檢測(cè)算法可分為基于回歸的算法、基于分割的算法和二者結(jié)合的方法。基于回歸的算法改進(jìn)自一般的目標(biāo)檢測(cè)算法,在識(shí)別規(guī)則形狀的文本上表現(xiàn)良好,如TextBoxes、CTPN和EAST等?;诜指畹乃惴?,如PSENet和DBNet,借助Mask-RCNN目標(biāo)實(shí)例分割框架,在不同場(chǎng)景文本檢測(cè)中展現(xiàn)出更好的效果。但這些算法的后處理復(fù)雜,速度較慢。
1.3 文本識(shí)別
文本識(shí)別是在文本檢測(cè)切割出的文本區(qū)域中識(shí)別出文本內(nèi)容。對(duì)于印刷體這類排版規(guī)則的文本,常采用基于CTC的算法和基于Sequence2Sequence的算法。對(duì)于手寫體和場(chǎng)景文本等存在彎曲、覆蓋和模糊的不規(guī)則文本,會(huì)添加校正模塊或使用基于注意力機(jī)制的方法關(guān)注序列間的相關(guān)性,其中Transformer算法的各種變體取得了較好的效果。
1.4 后處理
后處理是對(duì)識(shí)別結(jié)果進(jìn)行后處理,包括糾正識(shí)別錯(cuò)誤、去除不必要的字符等,以提高最終的識(shí)別準(zhǔn)確性。
傳統(tǒng)的紙質(zhì)檔案資料以紙張作為載體,通過拍照、掃描等方式將其轉(zhuǎn)換為電子圖片,然后使用OCR技術(shù)實(shí)現(xiàn)對(duì)紙質(zhì)檔案的自動(dòng)化信息提取。對(duì)于清晰、標(biāo)準(zhǔn)字體的印刷體文本,當(dāng)前技術(shù)通常能夠?qū)崿F(xiàn)高準(zhǔn)確率的識(shí)別。然而,中文手寫體識(shí)別由于書寫個(gè)體差異大和中文結(jié)構(gòu)復(fù)雜,一直是OCR技術(shù)中的難題之一。表格數(shù)據(jù)的識(shí)別涉及結(jié)構(gòu)化信息的提取,包括表格的行列識(shí)別和單元格內(nèi)容的識(shí)別。相比于普通文本,表格數(shù)據(jù)的識(shí)別需要更復(fù)雜的算法和處理步驟。因此,中文表格與手寫體的識(shí)別是基于OCR技術(shù)實(shí)現(xiàn)檔案資料智能化管理的最大挑戰(zhàn)。
2 基于OCR技術(shù)的檔案智能化收集方法
本節(jié)主要介紹對(duì)檔案資料中常見的印刷體、表格和手寫體進(jìn)行智能化識(shí)別的OCR技術(shù)。通過與常見的OCR方法的比較,選擇識(shí)別準(zhǔn)確率高且輕量化的網(wǎng)絡(luò)模型,實(shí)現(xiàn)端到端的檔案智能化收集。整個(gè)端到端系統(tǒng)功能如圖1所示。
2.1 預(yù)處理
首先通過拍照、掃描等方式將紙質(zhì)檔案資料轉(zhuǎn)換為.jpg格式的電子圖片,并將圖片調(diào)整到統(tǒng)一大小(800×608像素)。由于本文重點(diǎn)關(guān)注檔案中文字信息的提取,因此使用自適應(yīng)閾值算法對(duì)圖片進(jìn)行二值化和歸一化處理,將其轉(zhuǎn)換為黑白圖像,從而更有效地將文本與背景分離,便于后續(xù)的文本檢測(cè)和識(shí)別。采集圖像時(shí)可能會(huì)出現(xiàn)模糊、扭曲、陰影等問題,也會(huì)遇到多種多樣的手寫文本場(chǎng)景。為了提高模型的魯棒性和泛化性能,須要進(jìn)行數(shù)據(jù)增強(qiáng)。通過隨機(jī)旋轉(zhuǎn)、縮放、彈性變換、模糊、添加高斯噪聲和裁剪等方法,可以增加樣本的數(shù)量和多樣性。本文使用Python中的OpenCV庫函數(shù)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。
2.2 布局分析
布局分析模塊將每個(gè)檔案文檔頁面劃分為不同的內(nèi)容區(qū)域,包括純文本、標(biāo)題、表格、圖片和列表等,便于后續(xù)對(duì)不同區(qū)域的識(shí)別,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該模塊采用輕量化的目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò)PP-PicoDet作為布局檢測(cè)器[2-3]。使用CSP-PAN模塊作為Neck層,采用SimOTA動(dòng)態(tài)標(biāo)簽分配策略并以PP-LCNet為主干網(wǎng)絡(luò)Backbone層。通過一次性神經(jīng)結(jié)構(gòu)搜索(One-shot Neural Architecture Search, One-shot NAS)算法,自動(dòng)找到目標(biāo)檢測(cè)的最優(yōu)結(jié)構(gòu)。與市面上流行的YOLO目標(biāo)檢測(cè)算法相比,PP-PicoDet具有輕量化和運(yùn)行速度快的優(yōu)勢(shì)[2-3]。在CPU上運(yùn)行時(shí),它可以達(dá)到與PP-YOLOv2相當(dāng)?shù)臋z測(cè)精度,但運(yùn)行速度快11倍。為進(jìn)一步壓縮目標(biāo)檢測(cè)模塊,并使模型更輕量化,使用知識(shí)蒸餾算法中的特征一致性蒸餾(Feature Consistency Distillation,F(xiàn)CD)算法[4],同時(shí)考慮局部和全局特征圖。局部蒸餾分離圖像的前景和背景,使學(xué)生網(wǎng)絡(luò)專注于教師網(wǎng)絡(luò)的關(guān)鍵像素和通道;全局蒸餾重建不同像素之間的關(guān)系,將其從教師網(wǎng)絡(luò)傳遞給學(xué)生網(wǎng)絡(luò),以補(bǔ)償局部蒸餾中缺失的全局信息。
2.3 表格識(shí)別
在檔案文檔頁面中劃分的表格區(qū)域,需要對(duì)表格結(jié)構(gòu)和單元格坐標(biāo)進(jìn)行預(yù)測(cè),以進(jìn)一步識(shí)別表格中的內(nèi)容和結(jié)構(gòu)化信息。為此,采用輕量化的SLANet(Structure Location Alignment Network)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行表格的結(jié)構(gòu)化識(shí)別[5]。具體來說,SLANet的Backbone層使用基于MKLDNN加速策略的輕量化卷積神經(jīng)網(wǎng)絡(luò)PP-LCNet,其預(yù)訓(xùn)練權(quán)重通過SSLD(Simple Semi-supervised Label Distillation)知識(shí)蒸餾算法在ImageNet數(shù)據(jù)集上訓(xùn)練得到,以提高模型精度。Neck層采用CSP-PAN模塊,對(duì)Backbone層提取的特征進(jìn)行多層融合,輸出通道為96。PAN 結(jié)構(gòu)用于獲取多層特征圖,CSP 網(wǎng)絡(luò)則進(jìn)行相鄰特征圖間的特征連接和融合,同時(shí)采用深度可分離卷積策略以降低計(jì)算代價(jià)。Head層為特征解碼模塊SLAHead,用于對(duì)齊表格的結(jié)構(gòu)與位置信息,輸出表格的結(jié)構(gòu)token和全部單元格的坐標(biāo)。在結(jié)構(gòu)序列中,每個(gè)位置的預(yù)測(cè)是一個(gè)多分類任務(wù),損失函數(shù)采用交叉熵。每個(gè)單元格的坐標(biāo)預(yù)測(cè)是一個(gè)回歸任務(wù),損失函數(shù)則采用smooth L1 函數(shù)。
2.4 文本識(shí)別
對(duì)檔案文檔頁面中的純文本區(qū)域和表格中的文本區(qū)域,系統(tǒng)使用開源的Paddle OCR引擎進(jìn)行文本識(shí)別。通過比較2種常用的OCR引擎Paddle OCR和Tesseract OCR,發(fā)現(xiàn)PaddleOCR提供了豐富的預(yù)訓(xùn)練模型,可以進(jìn)行遷移學(xué)習(xí),而Tesseract OCR需要單獨(dú)訓(xùn)練模型。此外,PaddleOCR的識(shí)別精度更高且更輕量化。因此,本文選擇Paddle OCR中的PP-OCRv3超輕量中文識(shí)別模型進(jìn)行文本識(shí)別。PP-OCRv3模型引入了SVTR-LCNet文本識(shí)別網(wǎng)絡(luò),融合了基于Transformer的SVTR算法和基于卷積神經(jīng)網(wǎng)絡(luò)的輕量化神經(jīng)網(wǎng)絡(luò)PP-LCNet[6]。該模型使用TextConAug數(shù)據(jù)增強(qiáng)策略、注意力引導(dǎo)的CTC(Connectionist Temporal Classification)訓(xùn)練方法、自監(jiān)督的預(yù)訓(xùn)練模型TextRotNet以及U-DML和UIM技術(shù),可以有效地提高模型效率和識(shí)別精度。
2.5 信息提取
信息提取模塊主要用于理解和識(shí)別文檔中的具體信息或信息之間的關(guān)系,包括語義實(shí)體識(shí)別(SER)和關(guān)系提?。≧E)2個(gè)子任務(wù)。本文采用飛槳 PaddleNLP推出的UIE-X(Unified Information Extraction-X)開源信息抽取模型。該模型采用結(jié)構(gòu)化抽取語言,對(duì)不同的抽取結(jié)構(gòu)進(jìn)行統(tǒng)一編碼,并通過基于模式的提示機(jī)制(Schema-based Prompt Mechanism)自適應(yīng)生成目標(biāo)抽取結(jié)果。UIE-X模型基于文心ERNIE-Layout跨模態(tài)布局增強(qiáng)預(yù)訓(xùn)練模型,經(jīng)過大規(guī)模數(shù)據(jù)的訓(xùn)練后,具備很強(qiáng)的遷移性能,僅須少量數(shù)據(jù)微調(diào)即可獲得較好的抽取性能。為實(shí)現(xiàn)系統(tǒng)端到端的功能并保證模型輕量化,本文選用UIE-mini模型。
3 結(jié)果與討論
3.1 數(shù)據(jù)集
由于檔案資料種類繁多,決定了檔案收集系統(tǒng)模型所使用的訓(xùn)練數(shù)據(jù)需要具有多樣性。本文采用文檔數(shù)據(jù)、手寫體數(shù)據(jù)、表格數(shù)據(jù)等多個(gè)公開數(shù)據(jù)集,分別對(duì)系統(tǒng)中布局分析模塊、表格識(shí)別模塊、文本識(shí)別模塊和信息提取模塊進(jìn)行了預(yù)訓(xùn)練,然后使用采集的檔案資料圖片對(duì)系統(tǒng)模型進(jìn)行微調(diào)。其中,印刷體文本數(shù)據(jù)集來自開源數(shù)據(jù)庫Text_Render生成的文檔式的合成文本圖像( https://github.com/Sanster/text_renderer),文本為印刷體文本。該數(shù)據(jù)集共包含500000個(gè)樣本,其中80%被隨機(jī)劃分為訓(xùn)練集,10%為驗(yàn)證集,10%為測(cè)試集。表格數(shù)據(jù)使用TableGeneration表格工具生成(https://github.com/WenmuZhou/TableGeneration),生成了20000張圖片,并按8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。合成文本和表格的語料庫均來源于維基百科、亞馬遜和百度百科。手寫文本數(shù)據(jù)來自飛槳 AI Studio(https://aistudio.baidu.com/datasetdetail/102884),包括公開數(shù)據(jù)集Chinese OCR、中國科學(xué)院自動(dòng)化研究所的手寫中文數(shù)據(jù)集CASIA-HWDB 2.x以及網(wǎng)上開源數(shù)據(jù)合并組合的數(shù)據(jù)集。其中,訓(xùn)練樣本共200000個(gè),測(cè)試樣本共10000個(gè)。本研究共采集了檔案圖片2000張,用于對(duì)系統(tǒng)模型進(jìn)行參數(shù)微調(diào),其中隨機(jī)選擇了1600張用于訓(xùn)練,400張進(jìn)行模型測(cè)試。
3.2 試驗(yàn)結(jié)果與分析
布局分析模塊采用了PP-PicoDet-LCNet 2.5x 模型作為教師網(wǎng)絡(luò),同時(shí)使用PP-PicoDet-LCNet 1.0x模型作為學(xué)生網(wǎng)絡(luò),采用FCD知識(shí)蒸餾算法。如表1所示,與YOLOv2目標(biāo)檢測(cè)算法相比,目標(biāo)檢測(cè)精度的平均精度均值(mean Average Precision,mAP)提高了0.5%。此外,推理時(shí)間方面,平均CPU耗時(shí)顯著減少至54 ms,同時(shí)模型大小僅有9.7 M。因此,模型在輕量化和性能方面均優(yōu)于YOLOv2。
本文還將表格識(shí)別模塊SLANet模型與最新的幾種效果較好的模型(TableMaster和飛槳表格識(shí)別模型PP-Structure的TableRec-RARE網(wǎng)絡(luò))進(jìn)行了對(duì)比。如表2所示,SLANet的預(yù)測(cè)時(shí)間最短,同時(shí)在準(zhǔn)確度和TEDS(Tree-Edit-Distance-based Similarity)方面都有所提高,超過了TableRec-RARE。盡管TableMaster在準(zhǔn)確度和TEDS指標(biāo)上略高于SLANet,但其模型規(guī)模大且參數(shù)多,是SLANet的27.5倍,推理時(shí)間是SLANet的2.8倍。因此,綜合考慮輕量化和預(yù)測(cè)性能,SLANet的優(yōu)勢(shì)更為明顯。
本文對(duì)印刷體文本和手寫體文本進(jìn)行了單獨(dú)識(shí)別,以測(cè)試系統(tǒng)的文本識(shí)別性能。通過與幾種表現(xiàn)較好的模型比較,發(fā)現(xiàn)由于印刷體文本排版較規(guī)則且字形規(guī)整,更容易被識(shí)別,其識(shí)別準(zhǔn)確率達(dá)到95%以上。而手寫體文本屬于易出現(xiàn)彎曲、覆蓋和模糊的不規(guī)則文本,因此其識(shí)別正確率較低,具體模型識(shí)別性能如表3所示。CRNN和PP-OCRv3的算法均采用了基于CTC注意力引導(dǎo)的方法,而TransOCR則基于Transformer的自注意力模塊作為解碼器。這些模型的識(shí)別準(zhǔn)確率均高于SEED,再次證實(shí)了自注意力機(jī)制在序列識(shí)別中的優(yōu)勢(shì)。CRNN和PP-OCRv3的模型更為輕量化,但PP-OCRv3的運(yùn)行時(shí)間更短,且識(shí)別準(zhǔn)確度更高。
與飛槳PP-Structure的Ⅵ-LayoutXLM模型相比,UIE-X信息提取模塊的F1 score提高了10%。尤其是對(duì)于文本行無序和含噪聲的文檔圖像,UIE-X識(shí)別效果更好。雖然UIE-X模型規(guī)模更大,但其具備強(qiáng)大的模型遷移能力,無須耗費(fèi)時(shí)間使用大量數(shù)據(jù)進(jìn)行訓(xùn)練,僅須對(duì)30個(gè)少量樣本進(jìn)行微調(diào),即可達(dá)到0.89的F1 score值。
4 結(jié)語
本文提出了一種輕量化的端到端檔案智能化收集系統(tǒng),通過與常見的OCR技術(shù)進(jìn)行比較,選擇了識(shí)別正確率高且輕量化的網(wǎng)絡(luò)模型,以實(shí)現(xiàn)端到端的檔案智能化收集。本文重點(diǎn)解決了當(dāng)前OCR技術(shù)在識(shí)別檔案資料中常見的表格、圖表或非線性文本等復(fù)雜的文檔格式和布局的問題。同時(shí),為了將系統(tǒng)部署到移動(dòng)設(shè)備前端,盡量平衡了模型精度和推理速度。系統(tǒng)對(duì)表格識(shí)別的準(zhǔn)確度達(dá)到了75.8%,印刷體文本識(shí)別準(zhǔn)確度達(dá)到了98.3%,而總推理時(shí)間不超過0.85 s。因此,本文系統(tǒng)可以實(shí)現(xiàn)端到端的檔案資料智能化收集,為提高檔案資料整理的效率提供了一種有效的解決方案。未來的工作將進(jìn)一步解決圖像采集中造成的低分辨率或低質(zhì)量掃描等噪聲的影響,提高手寫體4cac820ab21bae3716d5e87d2ea33bb4識(shí)別精度并提高大型文檔識(shí)別效率,以更好地服務(wù)于檔案信息智能化管理系統(tǒng)。
參考文獻(xiàn)
[1]王睿,林凱.基于神經(jīng)網(wǎng)絡(luò)的OCR技術(shù)在自動(dòng)閱卷系統(tǒng)中的應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2024(30):103-106.
[2]倪吳廣,汪朵拉,張卓.基于PP-PicoDet技術(shù)的智能垃圾分類[J].計(jì)算機(jī)測(cè)量與控制,2023(31):291-298.
[3]陳永祺,顧茜,林郁.基于PP-PicoDet的半自動(dòng)標(biāo)注煙絲異物檢測(cè)研究[J].中國煙草學(xué)報(bào),2023(29):11-21.
[4]YANG Z,LI Z,JIANG X,et al.Focal and global knowledge distillation for detectors:2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),June 18-19,2022[C].London:INSPEC,2022.
[5]陳雨,蔣三新.基于改進(jìn)結(jié)構(gòu)與位置對(duì)齊網(wǎng)絡(luò)的表結(jié)構(gòu)識(shí)別法[J].國外電子測(cè)量技術(shù),2023(42):57-62.
[6]DU Y K,CHEN Z N,JIA C Y,et al.SVTR:Scene text recognition with a single visual model:31st International Joint Conference on Artificial Intelligence(IJCAI 2022),July 23-29,2022[C].New York:EI,2022.
(編輯 沈 強(qiáng))
Research on intelligent collection method of archives based on OCR technology
ZHANG Tinglin1, CHEN Xiangben2*, DING Ye1, ZHANG Yong2
(1.Yancheng Institute of Technology, Yancheng 224051, China;
2.Yancheng Institute of Science and Technology Information, Yancheng 224002, China)
Abstract: In order to realize the intelligent management of file information, a lightweight end-to-end intelligent file collection system is proposed. Firstly, a lightweight object detection neural network PP-PicoDet is used as a layout detector to analyze the layout of archival materials. Then, SLANet deep learning neural network is used for structural recognition of the tables. Finally, the open source Paddle OCR engine is used for text recognition. The accuracy of the system for table recognition is 75.8%, the accuracy of printed text recognition is 98.3%, and the total reasoning time is less than 0.85s. This system brings forward an effective solution to realize the intelligent collection of file data from end to end and improve the efficiency of file data sorting.
Key words: intelligent collection of archives; deep learning; optical character recongnition; Chinese form; handwriting recognition