• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      對OCR識別技術(shù)在檔案管理應(yīng)用的一點思考

      2021-04-14 19:30:08
      卷宗 2021年4期
      關(guān)鍵詞:字符識別文字檔案管理

      王 瑜

      (中國電建集團北京勘測設(shè)計研究院有限公司,北京 100024)

      OCR(Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備(例如掃描儀或數(shù)相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進一步編輯加工的技術(shù)。

      在信息時代的檔案管理中,OCR識別是非常實用的工具。很多老舊的檔案在形成之初受年代限制沒有一開始就形成電子文件的條件,所以只能靠后期掃描完成數(shù)字化,這樣的文件在企業(yè)中依然有著龐大的數(shù)量,而這龐大數(shù)量的未數(shù)字化的檔案給檔案管理帶來了很大的難度,急需一種可以幫助檔案管理工作人員提高效率的方式來解決問題,這個時候OCR識別自然而然的被關(guān)注。OCR技術(shù)相對于傳統(tǒng)的手工錄入方式來說,具有強大的優(yōu)勢,首先OCR識別的速度遠(yuǎn)快于手工錄入。根據(jù)國際通行的打字速度評級標(biāo)準(zhǔn),即使是專業(yè)人員,每分鐘也僅能輸入150-240個字,而采用OCR技術(shù),即使算上前后期的處理環(huán)節(jié)所花的時間,其速度也比手工錄入快很多。其次,OCR識別的準(zhǔn)確率也遠(yuǎn)高于手工錄入,在檔案文本提取方面優(yōu)勢卓越,為后面的檔案全文檢索功能提供了基礎(chǔ),并且可以大大節(jié)省人力資源,優(yōu)化資源配置,使檔案人員可以從繁忙的錄入工作中解脫出來,把精力分配給更加有意義的工作。

      1 OCR識別在檔案管理的工作過程中的幾個難點

      OCR識別技術(shù)分為兩個具體步驟:文字的檢測和文字的識別,兩者缺一不可,尤其是文字檢測,是識別的前提條件,若文字都找不到,那何談文字識別文本檢測不是一件簡單的任務(wù),尤其是復(fù)雜的檔案數(shù)字化下的文本檢測,非常具有挑戰(zhàn)性。檔案信息化場景下的文本檢測有如下幾個難點:

      1.1 文本存在多種分布,難以提取有效信息

      早期的檔案的文本存在多種分布,許多檔案中包含圖片和文字,甚至多數(shù)情況下采用圖文混排的形式,老檔案紙面發(fā)黃,字跡模糊這就給OCR的掃描識別增加了難度。當(dāng)然除了檔案全文的文字識別,在檔案著錄環(huán)節(jié),OCR識別也很難提取有用信息。著錄時主要從需從檔案中提取文件題名、責(zé)任者、人名、密級、保密期限等信息,填寫到檔案系統(tǒng)的相應(yīng)位置。而這些信息因為早期檔案格式不規(guī)范,或者檔案種類的不同的原因,所在的位置也不同,很難總結(jié)出一個可以一套公式用到底的規(guī)律。

      1.2 系統(tǒng)兼容問題

      建立的檔案數(shù)字化系統(tǒng)必須與本單位的存儲和應(yīng)用系統(tǒng)兼容,否則會造成不必要的運行環(huán)境問題。引進OCR軟件也一定要與OCR軟件也一定要與本單位的存儲和應(yīng)用系統(tǒng)兼容,便于今后的數(shù)據(jù)管理與利用,這一點在需求分析中應(yīng)涉及。

      2 OCR識別技術(shù)應(yīng)用在檔案管理中的幾點思考

      2.1 輔助提高OCR識別的環(huán)境

      國家檔案局的《DA/T 77-2019 紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》中對檔案的OCR識別早有規(guī)定,按照T 77規(guī)定,OCR識別時首先掃描時就需要注意,紙質(zhì)數(shù)字復(fù)制件的圖片分辨率不應(yīng)低于200dpi,特殊情況下,如字體偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。圖像應(yīng)做降噪處理,處理中應(yīng)去除掃描過程中產(chǎn)生的污點、污線、黑邊等影響圖像質(zhì)量的雜種,去除檔案頁面原有的紙張褪變斑點、水漬、污點。裝訂孔等影響識別的地方。其次調(diào)節(jié)檔案的亮度、對比度。部分檔案由于年代久遠(yuǎn),很多會底色發(fā)黃、字跡變淡,若要提高OCR識別率,需要改變很多參數(shù),即調(diào)節(jié)亮度和對比度,且應(yīng)先調(diào)亮度再調(diào)對比度。

      2.2 選擇合適的OCR軟件

      要選擇好的OCR軟件,目前,市場上比較流行的OCR軟件很多,主要有百度文字、騰訊云、科大訊飛、清華紫光。漢王等品牌。各個品牌都有不同的特點,可以就檔案系統(tǒng)接口情況選擇。其次在著錄時無法提取有效信息的問題,可以通過人工框選的方式來解決。其次訓(xùn)練OCR識別軟件的機器學(xué)習(xí)功能,減少文字識別的誤差。只有OCR軟件和人工搭配工作,才能更好地完成檔案管理。

      3 結(jié)語

      檔案管理是一門相當(dāng)繁瑣又傳統(tǒng)的學(xué)問,他記錄著我們每個人、每個行業(yè)、甚至世界各民族的榮辱浮沉、盛衰興亡。而OCR技術(shù)的存在能讓檔案這門古老的學(xué)問煥發(fā)出光來。我相信只有深刻學(xué)習(xí)各種技術(shù),才可以使得我們管理的檔案在日后發(fā)揮更大的作用。

      猜你喜歡
      字符識別文字檔案管理
      文字的前世今生
      熱愛與堅持
      當(dāng)我在文字中投宿
      文苑(2020年12期)2020-04-13 00:55:10
      檔案管理中的電子檔案管理
      檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
      一種改進深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
      儀表字符識別中的圖像處理算法研究
      基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
      健康檔案管理的“云”前景
      機加工件點陣字符識別研究
      河南科技(2014年3期)2014-02-27 14:05:36
      监利县| 台北县| 邵武市| 西平县| 麟游县| 务川| 忻州市| 长沙市| 三亚市| 改则县| 建昌县| 电白县| 金堂县| 苏尼特右旗| 青神县| 文化| 朔州市| 东平县| 温州市| 灵山县| 永和县| 昭苏县| 客服| 通河县| 昆山市| 扬中市| 睢宁县| 敦化市| 赣州市| 封开县| 柳林县| 峨山| 湟中县| 黄陵县| 福贡县| 平乐县| 焉耆| 青川县| 大足县| 民县| 林芝县|