淺析OCR技術(shù)及其在檔案管理中的應(yīng)用

2020-11-28 07:39:56唐文博李瑜楊露左佳未劉濤張文娟

西部論叢 2020年11期

唐文博李瑜楊露左佳未劉濤張文娟

摘要：隨著現(xiàn)代編程技術(shù)的飛速發(fā)展，使得企業(yè)對紙質(zhì)檔案的管理方式向數(shù)字化和信息化轉(zhuǎn)變成為了必然的發(fā)展趨勢。檔案是在企業(yè)運(yùn)營發(fā)展過程中形成的重要資料，對企業(yè)未來的發(fā)展起到舉足輕重的作用。但是在檔案的日后使用中，紙質(zhì)檔案和掃描生成的圖像還是存在無法針對檔案的具體內(nèi)容進(jìn)行檢索和引用等操作，這對檔案的利用工作造成很大的不便?？紤]到日后的檔案管理利用需求，需要將紙質(zhì)檔案轉(zhuǎn)化為真正的文本形態(tài)的電子檔案，這樣才能更好的利用智能檔案管理系統(tǒng)進(jìn)行檔案管理工作。本文介紹了國內(nèi)外OCR研究現(xiàn)狀然后簡單的介紹了OCR技術(shù)的原理，最后介紹了OCR技術(shù)在檔案管理工作中的應(yīng)用。

關(guān)鍵詞：檔案管理;OCR;圖像處理;文字識別

緒論

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，電子設(shè)備的快速迭代進(jìn)步，信息技術(shù)對于大部分企業(yè)的現(xiàn)代信息化產(chǎn)業(yè)起到了巨大的推動(dòng)作用。為了適應(yīng)數(shù)字化進(jìn)程的飛速發(fā)展，企業(yè)需要將信息轉(zhuǎn)化為能被計(jì)算機(jī)接受和處理的形式，這樣一來企業(yè)首先面對的便是如何將紙質(zhì)信息數(shù)字化的難題?？v觀人類漫長的發(fā)展歷程，我們會發(fā)現(xiàn)大量對于人類文明的記錄都是出現(xiàn)在文字和記錄媒介之后，所以用文字來記錄信息對于人類的發(fā)展起到了至關(guān)重要的作用。即使現(xiàn)在計(jì)算機(jī)技術(shù)慢慢的在人們的生活中普及，但是在企業(yè)的生產(chǎn)運(yùn)作中產(chǎn)生的大量資料都還是儲存在紙質(zhì)檔案中。

對于大部分企業(yè)的檔案管理工作來說，都會面臨著將大量紙質(zhì)檔案信息化然后錄入計(jì)算機(jī)的難題。即使現(xiàn)在大力推行檔案信息化的發(fā)展，依然還有海量的歷史遺留檔案保存在檔案室中，僅僅只有部分的檔案通過簡單的拍照上傳方式處理，以照片的形式存在數(shù)據(jù)庫中并不利于后續(xù)生產(chǎn)工作任務(wù)中處理和維護(hù)，而且以這種形式存儲需要大量的存儲設(shè)備，耗費(fèi)財(cái)政收入。并且現(xiàn)階段采取人工檢核手工錄入成本非常高，工作量巨大且效率非常低。

國內(nèi)外研究現(xiàn)狀

光學(xué)字符識別（Optical Character Recognition）是指通過利用現(xiàn)代計(jì)算機(jī)編程技術(shù)，對紙質(zhì)文件的電子圖像副本進(jìn)行處理和分析，以獲取文件的原始文本信息等數(shù)據(jù)的過程。OCR識別技術(shù)其實(shí)是由計(jì)算機(jī)視覺系統(tǒng)研究領(lǐng)域的一個(gè)分支技術(shù)演變而來，和人工智能技術(shù)和識別模式方向有著不可分割的密切聯(lián)系，是現(xiàn)代計(jì)算機(jī)發(fā)展過程中的熱門技術(shù)。同時(shí)，OCR技術(shù)也是實(shí)現(xiàn)文字錄入技術(shù)向高速度和高精度的發(fā)展的必要技術(shù)條件。

在OCR 技術(shù)茁壯成長的生命周期中，最先誕生的成果便是對印刷體的數(shù)字識別技術(shù)，這項(xiàng)技術(shù)在當(dāng)時(shí)是眾多文字識別中最成熟的。OCR的首個(gè)專利早在1929年便被一位德國科學(xué)家取得。然后隨著社會的發(fā)展，歐美國家產(chǎn)生了大量有價(jià)值的書籍，報(bào)刊和鎮(zhèn)府文件等有存儲價(jià)值的資料，在大量信息存儲需求的推動(dòng)下，各國展開了對對常用語言如拉丁文、英文等語言的OCR識別技術(shù)的研究，意圖取代傳統(tǒng)的手工錄入模式。到了二十世紀(jì)末，伴隨計(jì)算機(jī)技術(shù)的蓬勃成長，拉丁文、英文等光學(xué)字符識別技術(shù)等到普及滲透于各個(gè)領(lǐng)域，將浩如煙海般的文字材料能夠便捷、迅速、節(jié)省人力財(cái)力并且及時(shí)錄入計(jì)算機(jī)中。

國內(nèi)對OCR算法的研發(fā)相比歐美國家起步較晚，從1970年開始，我國開始對OCR識別領(lǐng)域投入充足的科研經(jīng)費(fèi)和科學(xué)人才進(jìn)行支持，在這種環(huán)境下我國的識別技術(shù)獲得了飛躍式的進(jìn)步。

OCR技術(shù)簡介

從宏觀的角度來了解OCR技術(shù)的話，會發(fā)現(xiàn)主流OCR技術(shù)主要可以分為兩個(gè)階段，分別為圖像處理階段和文字識別階段。

圖像處理

在圖像處理這一階段，所做的工作就是對原始的圖片資料進(jìn)行一系列的加工處理，為揭曉來的文字識別階段做好準(zhǔn)備。本節(jié)會以圖1為例子，介紹說明圖像處理階段所需要進(jìn)行的工作。

1.灰度化

首先進(jìn)行的工作便是對圖片進(jìn)行灰度化處理如圖2所示，灰度化是將一張彩色圖片轉(zhuǎn)化為灰度圖片的過程，灰度化以后的圖片只有黑白灰三種顏色，但是仍然保存了圖片整體的色度以及高亮等級的分布特征，可以有效的降低后續(xù)的計(jì)算量。

2.二值化

對圖片進(jìn)行灰度化操作之后，圖片中仍然存在許多影響因素，所以需要再做進(jìn)一步進(jìn)行二值化處理，如圖3所示。

二值化最重要的操作就是為圖片選擇一個(gè)適合的閾值，這個(gè)閾值過高或者過低都會影響二值化最終的成果。然后根據(jù)這個(gè)閾值，我們可以將圖片中的所有圖像數(shù)據(jù)歸類到兩種截然不同的類型中去。最終，經(jīng)過二值化的灰度化圖片將不再包含灰色，僅僅剩下黑白兩種顏色，這就是二值化的最終效果。

3.圖像降噪

在現(xiàn)實(shí)中工作中，圖片會因?yàn)槭艿饺斯げ僮魇д`和成像設(shè)備內(nèi)部老化的干擾而產(chǎn)生意料之外的噪聲干擾，而為了減少圖片中的這些影響我們需要對圖片進(jìn)行降噪處理，降噪結(jié)果如圖4所示.

從二值化過后的圖片中，如果仔細(xì)觀察我們會發(fā)現(xiàn)有大量細(xì)小的墨點(diǎn)分布在圖片的每一個(gè)部分，這些墨點(diǎn)就是這張圖片中需要消除的噪聲，如何處理這些墨點(diǎn)對OCR識別的結(jié)果會起到?jīng)Q定性的影響，所以我們在這個(gè)階段需要進(jìn)行降噪處理。

4.傾斜矯正

在實(shí)際操作的時(shí)候，人們通過拍照或者掃描的生成的圖像資料不可能完全的水平，所以在切圖之前，我們需要通過算法對圖像資料進(jìn)行旋轉(zhuǎn)處理，只有當(dāng)圖像資料接近完全水平時(shí)，切圖工作才能準(zhǔn)確的分割圖像資料。

5.文字切分

目前，主流的資料都是多行文本的形式進(jìn)行保存的，在對這種形式的圖像資料進(jìn)行切割工作主要可以分為行切分和字符切分兩個(gè)步驟。文字切分的主要原理就是將上一步處理之后的文字投影到y(tǒng)軸上，并將所有的特偵知加在一起，這樣得到的就是一個(gè)關(guān)于行字符的特征直方圖，如圖5所示。

對于一段多行文本來講，文字切分包含了行切分與字符切分兩個(gè)步驟，傾斜矯正是文字切分的前提。我們將傾斜矯正后的文字投影到 Y軸，并將所有值累加，這樣就能得到一個(gè)在y軸上的直方圖。

在這個(gè)直方圖之中，越靠近y軸說明文字特征越少，當(dāng)圖像完全靠經(jīng)y軸就說明這一部分是背景區(qū)域，根據(jù)這個(gè)規(guī)律，我們就可以將每一行文字單獨(dú)識別出來，如圖6所示。

接下來的字符切分和行切分所使用的原理大致相同，只是將投影的方向從y軸變?yōu)閤軸，如圖7所示。

值得注意的是，當(dāng)兩個(gè)字符之間的距離較小時(shí)，程序可能不會將兩個(gè)字符分開，又或者有些左右結(jié)構(gòu)的漢字由于中間存在間隙，導(dǎo)致被切割為兩個(gè)字符，這些都會導(dǎo)致最終的識別結(jié)果出現(xiàn)偏差。對于這種情況，現(xiàn)在主流的處理方式就是在進(jìn)行字符切割時(shí)，提前為字符間距設(shè)置一個(gè)理想的期望值，這樣在對字符進(jìn)行切分時(shí)便會大大降低出現(xiàn)錯(cuò)誤切分的情況。

文字識別

通過文字切分對圖像資料中的文字進(jìn)行區(qū)域劃分后，就可以對區(qū)域內(nèi)的文字進(jìn)行識別，文字識別有以下幾個(gè)步驟。

1.特征提取和降維

每一種文字都會有自己獨(dú)有的特征，這種特征使對不同種類文字的識別具有了可行性，也是程序進(jìn)行識別工作的重要信息。就拿常用的幾種語言來進(jìn)行說明，英語和阿拉伯?dāng)?shù)字因?yàn)槠渥帜阜N類較少，分別為10和52個(gè)字符，所以他們的特征就容易提取。但是對于漢字來說，特征提取的難度就大幅增加，因?yàn)闈h字不僅擁有大量的總數(shù)，并且字體結(jié)構(gòu)相當(dāng)復(fù)雜，所以擁有極大的特征維度。

所以在確定識別對象是中文后，我們需要對識別對象的特征維度進(jìn)行降維，否則分類器的效率會受到非常大的影響。并且，降維的程度和很重要，既要降低維數(shù)提升識別要率，也要保證降維后的特征向量有足夠的信息量去識別不同的文字。

2.分類器設(shè)計(jì)、訓(xùn)練

分類器是在文字識別中，對樣本資料進(jìn)行分類的方法程序的統(tǒng)稱，我們的任務(wù)就是根據(jù)根據(jù)識別樣本然后設(shè)計(jì)出對應(yīng)的設(shè)計(jì)器，現(xiàn)在主流的設(shè)計(jì)方法會選擇模板匹配法和神經(jīng)網(wǎng)絡(luò)分類法。在設(shè)計(jì)好之后，設(shè)計(jì)器往往還不能直接使用，我們還需要用監(jiān)督學(xué)習(xí)的方法對設(shè)計(jì)器進(jìn)行訓(xùn)練之后才能投入使用。

3.后處理

分類器的處理結(jié)果僅僅相當(dāng)于一份草稿，我們還需要對對這份草稿進(jìn)行處理，這和自然語言理解有很大的關(guān)系。主要的處理內(nèi)容就是對形近字和文字排版進(jìn)行特殊處理。

OCR技術(shù)在檔案管理中的應(yīng)用方式

最近幾年，只能檔案管理系統(tǒng)開始逐漸應(yīng)用OCR技術(shù)來提高檔案管理的工作效率，實(shí)用的應(yīng)用方式有以下幾種：

1.提取檔案內(nèi)容

在閱讀紙質(zhì)檔案時(shí)，常常會出現(xiàn)需要使用檔案某一部分內(nèi)容的情況，這時(shí)使用OCR文字識別功能對目標(biāo)內(nèi)容進(jìn)行掃描識別操作，可以直接提供目標(biāo)文本的電子拷貝，可以有效的減少信息利用過程中的重復(fù)勞動(dòng)，提升工作效率。

2.制作電子檔案

檔案管理員可以在檔案新建，入庫時(shí)利用OCR技術(shù)制作對應(yīng)的電子檔案，在檔案利用者來申請檔案借閱等工作時(shí)優(yōu)先提供電子資料，減少檔案管理工作人員去檔案庫尋找檔案的次數(shù)，并且紙質(zhì)檔案丟失損壞問題也得以解決。

3.建立文本數(shù)據(jù)庫

通過OCR文字識別和區(qū)塊鏈技術(shù)建立一個(gè)和紙質(zhì)檔案一一對應(yīng)的電子檔案數(shù)據(jù)庫，可以為全文檢索提供對應(yīng)的條目數(shù)據(jù)。通過全文檢索來搜索檔案或者是目標(biāo)內(nèi)容可以在提高檢索效率的同時(shí)，降低檔案管理人員的工作量。

結(jié) 論

綜合上文所述，在檔案數(shù)字化的過程中，使用OCR技術(shù)可以有效地提高檔案錄入與輸出的速度與質(zhì)量，減少檔案管理工作所需的工作人員及其工作量，最大限度地降低了檔案管理工作中的人力消耗。然而，只有解決了OCR識別率方面存在的問題，該技術(shù)才能真正地促進(jìn)檔案數(shù)字化的發(fā)展。

參考文獻(xiàn)

[1] 馬澤. OCR文字識別技術(shù)在不動(dòng)產(chǎn)數(shù)據(jù)整合中的應(yīng)用——以廣東省清遠(yuǎn)市清新區(qū)為例

[2] 劉明英. 檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析

[3] 胡澤楓.基于OCR的批量發(fā)票識別系統(tǒng)研究與實(shí)現(xiàn)

[4] 陳小慶.基于Android平臺的OCR識別技術(shù)研究與實(shí)現(xiàn)

[5] 邱聯(lián)鵬. 非結(jié)構(gòu)化數(shù)據(jù)在社保行業(yè)中的應(yīng)用研究

[6] 宮天丞. 關(guān)于光學(xué)字符識別實(shí)現(xiàn)原理簡述