劉明英
摘要:在實現(xiàn)檔案數(shù)字化的過程中,OCR技術(shù)應(yīng)該最大限度地發(fā)揮自身的優(yōu)勢,使檔案信息能夠更好地服務(wù)于廣大用戶。然而,由于技術(shù)能力所限,OCR技術(shù)在使用的過程中并不是完美的,尤其是在識別率方面,很有可能受到圖像質(zhì)量、軟件質(zhì)量、掃描參數(shù)等因素的影響而導(dǎo)致其識別率下降。文章對檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用進行了分析。
關(guān)鍵詞:OCR技術(shù);檔案數(shù)字化;檔案管理;檔案信息;識別率 文獻標識碼:A
中圖分類號:G271 文章編號:1009-2374(2017)05-0055-02 DOI:10.13535/j.cnki.11-4406/n.2017.05.026
1 OCR技術(shù)的解析
OCR技術(shù)的中文全稱為光學(xué)字符識別技術(shù),是通過光學(xué)輸入方式將文字信息轉(zhuǎn)化為圖像信息,然后再利用文字識別技術(shù)將相關(guān)圖像信息轉(zhuǎn)化為可供計算機輸入的形式,便于檔案信息的錄入與使用。從目前的情況來看,OCR技術(shù)已經(jīng)成為了檔案技術(shù)領(lǐng)域不可或缺的重要技術(shù)水平之一,實現(xiàn)了全文字識別模式下的檔案掃描工作,有效地促進了我國檔案數(shù)字化的發(fā)展,并為其未來的發(fā)展與突破開啟了全新的篇章。不僅如此,OCR技術(shù)在檔案工作中的使用,既實現(xiàn)了檔案的數(shù)字化建設(shè),也為檔案信息數(shù)據(jù)的查詢工作提供了必要的技術(shù)支撐,是檔案數(shù)字化進程中的核心技術(shù)之一,也是不可或缺的一環(huán)。
2 OCR技術(shù)在檔案數(shù)字化工作中的實際應(yīng)用
2.1 OCR技術(shù)的工作流程
OCR技術(shù)在實際的工作中,主要是按照以下流程進行操作的,如圖1所示:
從流程圖上來看,OCR技術(shù)在使用的過程中,涉及到的工作流程較多。然而,從實際工作的情況來看,使用OCR技術(shù)進行圖像識別的時間通常只有零點幾秒,但是卻要重視其前期與后期的加工處理。尤其是影像輸入與前期處理工作的效果,直接決定了OCR軟件的最終識別率,前兩環(huán)節(jié)的處理質(zhì)量越好,OCR工作的效率就越高。而后期的人工校正環(huán)節(jié),主要是對前面各個流程工作的校驗與檢查,確保OCR工作的質(zhì)量不受影響。
2.2 OCR技術(shù)在錄入方式上的優(yōu)勢
2.2.1 OCR工作中的文字識別技術(shù)輸入檔案信息數(shù)據(jù)的過程中,在速度方面要優(yōu)于傳統(tǒng)的手工錄入方式。雖然使用OCR技術(shù)需要在識別前對信息數(shù)據(jù)進行一定的處理,但就總體所耗時間來看,依舊遠好于傳統(tǒng)的手工錄入,使檔案信息錄入方式獲得了質(zhì)的突破。
2.2.2 OCR文字識別的質(zhì)量要好于傳統(tǒng)的手工錄入。從OCR文字識別的準確率上來看,雖然無法達到100%的準確度,但與手工錄入相比,準確率還是很高的。
2.2.3 OCR文字識別技術(shù)在使用的過程中,通常只需單人操作即可,并且工作效率、質(zhì)量極高,極大程度上節(jié)省了人力資源的消耗,從而將這些剩余的人力資源分配到其他部門,實現(xiàn)資源的優(yōu)化配置。
2.3 在檔案數(shù)字化過程中使用OCR技術(shù)的特點與作用
檔案數(shù)字化過程便是實現(xiàn)數(shù)字化的檔案信息管理工作,OCR技術(shù)在檔案數(shù)字化過程中,除了具備上述優(yōu)勢以外,還具備一些其他的優(yōu)點,在實際的使用過程中,其優(yōu)勢便會逐漸體現(xiàn)出來。
2.3.1 OCR技術(shù)的使用,在著錄標引方法上取得了一定的突破。在傳統(tǒng)的檔案目錄創(chuàng)建中,其中的許多內(nèi)容都是通過手工錄入的方式,費時費力易出錯。OCR技術(shù)為檔案目錄的創(chuàng)建與錄入提供了一種全新的方式。在實際的工作中,工作人員可以直接從OCR中尋找著錄相關(guān)項目,使用基本的復(fù)制、粘貼操作將其放入到目錄數(shù)據(jù)庫中的相應(yīng)段落當(dāng)中即可。然而,由于OCR技術(shù)自身方面還存在著一些問題,導(dǎo)致了該方法在實際使用的過程中缺乏可行性。在OCR技術(shù)未來發(fā)展的過程中,必須要從可行性的方面入手,逐漸完善OCR技術(shù),確保OCR在技術(shù)方面的應(yīng)用能夠獲得突破。
2.3.2 OCR技術(shù)真正實現(xiàn)了全文檢索。在檔案數(shù)字化工作中,所謂的全文檢索主要可以分為兩種:一種是針對全文目錄的檢索,必須在目錄數(shù)據(jù)庫中找到相關(guān)的條目才能將所需的文檔打開;另一種則是真正意義上的全文檢索,該檢索方式可以對檔案全文進行逐字逐句的檢索,二者之間的工作效率與作用是十分明顯的,逐漸深入開發(fā)并利用檔案信息資源。
2.3.3 使雙層PDF技術(shù)的使用獲得支持。所謂雙層PDF,就是指PDF文件中包含了兩層文件。在實際的應(yīng)用中,PDF的上層文件主要是通過掃描圖像來獲得,而下層則是OCR進行文字識別產(chǎn)生的結(jié)果。隨著該技術(shù)在數(shù)據(jù)庫檢索中的廣泛運用,逐漸增加了檔案信息文件的原始性。滿足用戶對檔案信息數(shù)據(jù)的操作需求,使檔案數(shù)字化工作越來越受到廣大客戶的歡迎。然而若要實現(xiàn)雙層PDF技術(shù)的使用,必先以O(shè)CR技術(shù)為支撐。
2.3.4 拓寬用戶的檔案利用面。在過去,用戶在選擇與利用檔案信息文件的過程中,主要以其憑證價值作為其是否使用的判定標準。然而,部分檔案在使用過程中,對檔案的原真性具有較高的要求,例如結(jié)婚證、戶口薄、學(xué)生證、房產(chǎn)證等,只有使用紙質(zhì)檔案才能真正地發(fā)揮出起作用。檔案絕不僅僅擁有憑證價值,也具有一定的情報價值與參考價值。若要將其用于學(xué)術(shù)研究或決策參考,按照現(xiàn)行的工作方式,只能去檔案館使用印刷或手工摘錄的方式來獲取,不僅不便于實際工作中的使用,也會影響檔案信息的傳播速度,對其使用效果產(chǎn)生影響。使用OCR文字識別技術(shù),使用數(shù)字化檔案代替?zhèn)鹘y(tǒng)的紙質(zhì)檔案,使我國的檔案信息技術(shù)取得了全面性的突破,使其可以為用戶提供更加優(yōu)質(zhì)的服務(wù)。
3 提高檔案數(shù)字化過程中OCR識別率的方法
識別率的高低直接影響到OCR技術(shù)存在的意義,高識別率代表OCR技術(shù)可以準確地對相關(guān)信息進行掃描,不僅提高了檔案信息的錄入速度,還減輕了后期處理的工作量。然而,如果OCR識別率低于相關(guān)規(guī)定標準,為了確保檔案信息的準確性,就必須在后期處理過程中,加大人工校對的力度,如此一來,OCR在識別過程中制造出的優(yōu)勢便會就此抵消。在實現(xiàn)檔案數(shù)字化的過程中,OCR識別率的提高可以減少OCR工作所需消耗的人力與物力,降低了檔案數(shù)字化建設(shè)過程中消耗的成本。由此看來,提高檔案數(shù)字化過程中OCR識別率勢在必行。具體可以從以下方面入手,來制定提高檔案數(shù)字化OCR識別率的方法。
3.1 設(shè)置合適的掃描參數(shù)
3.1.1 分辨率。分辨率是影響OCR識別率的重要因素之一,OCR在識別圖像的過程中主要依靠掃描來進行,只有獲得足夠的圖像信息才能確保識別率的有效提高。然而,這并不意味著圖像的分辨率與OCR識別率是成正比的。圖像的分辨率過高也會導(dǎo)致掃描過程中出現(xiàn)失真的狀況,不僅無法提高OCR的識別率,還會導(dǎo)致圖像文件所占空間變大,不利于文件的儲存與傳輸。
3.1.2 色彩模式。在色彩模式的選擇方面,使用黑白兩種顏色掃描的圖像無論是速度還是正確率方面都遠遠高于其他顏色模式的掃描圖像。因此,在沒有特殊要求的情況下,通常使用這兩種顏色來完成圖像掃描。除此之外,灰度模式在OCR識別掃描的過程中有著較為廣泛的運用,例如紙張顏色發(fā)黃或者是對文字字跡要求較淡的檔案。
3.1.3 亮度與對比度。在現(xiàn)代化檔案管理系統(tǒng)出現(xiàn)以前,我國檔案儲存都是使用紙質(zhì)儲存的方式,由于一些檔案的儲存年份較差,紙張的底色會逐漸泛黃,字跡也會變得較為暗淡,采用灰度模式進行掃描已經(jīng)無法滿足實際的要求。因此,為了有效的提高OCR識別率,需對掃描的參數(shù)進行適當(dāng)?shù)母淖儯簿褪菍α炼纫约皥D像對比度的調(diào)節(jié)。如果在掃描結(jié)束以后,圖像中漢字的字跡較淺,可以適當(dāng)?shù)卣{(diào)低其亮度進行二次掃描;如果在掃描結(jié)束后,字體較小,筆劃也比較粗,則可以適當(dāng)?shù)卦黾悠淞炼?;如果在進行亮度調(diào)節(jié)的過程中,圖像的文字出現(xiàn)了變淡的情況,則需對圖像的對比度進行適當(dāng)?shù)恼{(diào)節(jié),加重原圖像文字的顏色,從而提高OCR識別率。
3.2 圖像的處理工作
原圖像中許多文字可能會以美工體或者是藝術(shù)體的形式出現(xiàn),這種非常規(guī)字體的出現(xiàn),大大降低了OCR識別率。除此之外,如果圖像中文字存在污點或者是污垢,也很有可能導(dǎo)致OCR軟件在識別過程中出現(xiàn)錯誤或失誤。因此為了避免這種情況的發(fā)生,在OCR識別以前,必須要對圖像中的字體進行糾正,并清除圖像上的污點與污漬,以此方式來有效地提高OCR識別率。但是,需要注意的是,圖像的糾偏與去污并不是因為OCR技術(shù)的使用才施行的,而是檔案掃描流程中必不可少的工作環(huán)節(jié)之一,即使不使用OCR技術(shù)也不能漏過這一環(huán)節(jié)。
3.3 強調(diào)人工校對的重要性
在實際的工作中,電腦會因為固定化的錯誤,在同一個地方始終出現(xiàn)問題,工作完全按照程序設(shè)定的內(nèi)容進行,缺乏靈活性。這也是人腦相較于電腦來說,最大的優(yōu)勢之一。從我國目前的情況來看,OCR識別率還無法達到100%,這也正是人工校對技術(shù)存在的原因。由此看來,人工校對是提高OCR識別率的最后一環(huán)。
從理論上來說,OCR軟件識別后,會將識別結(jié)果以不同的兩行呈現(xiàn)出來,其中一行是圖像,而另一行便是識別后的結(jié)果。OCR軟件對自身識別存在疑問的部分,通常會使用不同的顏色進行表明,便于用戶發(fā)現(xiàn)錯誤。然而,在實際的使用當(dāng)中,有些存在錯誤的部分,軟件卻并沒有對其進行變色處理,而進行變色處理的文字或語句也不一定是錯的。因此,工作人員在進行人工校驗的過程中,務(wù)必要針對此問題進行仔細檢查,不能按照提示改完便結(jié)束校驗工作,以免存在“漏網(wǎng)之魚”。
4 結(jié)語
綜合上文所述,在檔案數(shù)字化的過程中,使用OCR技術(shù)可以有效地提高檔案錄入與輸出的速度與質(zhì)量,減少檔案管理工作所需的工作人員及其工作量,最大限度地降低了檔案管理工作中的人力消耗。然而,只有解決了OCR識別率方面存在的問題,該技術(shù)才能真正地促進檔案數(shù)字化的發(fā)展。
參考文獻
[1] 吳軍.掃描文檔圖像的處理方法的研究和應(yīng)用[D].山東師范大學(xué),2015.
[2] 馮雪.紙質(zhì)檔案數(shù)字化中需要注意的幾點問題[J].辦公室業(yè)務(wù),2016,(8).
[3] 鄭鳳英.大數(shù)據(jù)環(huán)境下國土資源檔案數(shù)字化質(zhì)量管理初探[J].黑龍江史志,2015,(5).
[4] 任惠敏.國土資源檔案管理中信息化與數(shù)字化技術(shù)的運用淺析[J].辦公室業(yè)務(wù),2016,(23).
(責(zé)任編輯:蔣建華)