張秀常
我們在日常的信息化辦公過程當中,經常利用OCR(光學字符識別)技術,通過掃描儀或數(shù)碼相機檢查紙上打印的字符,并通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機數(shù)字化的文檔。但是,在實際的使用過程中,絕大多數(shù)的OCR軟件只能識別單一語言,若遇到中文、英文或其他多語言混合時就無法正確識別,甚至出現(xiàn)天書一樣的亂碼。此時,我們只有反復變換語言再識別,或將其分割為單一語言再整合成文檔,這樣不但操作步驟繁瑣,而且往往要影響我們的工作效率。為此,對于中英文混合識別的問題,有沒有一種更好的解決方案?下面推薦OCR軟件——ABBYY FineReader并結合具體的實例加以闡述。
● 新建ABBYY任務、掃描儀參數(shù)的設置
啟動軟件ABBYY FineReader (以10版本為例),在新建ABBYY任務對話框中選擇“掃描到MicrosoftWord”(如圖1)。
在掃描儀參數(shù)設置對話框中,我們可以根據紙質文件內容的復雜程度來決定你所需要的分辨率、色彩模式、亮度及紙張大小。一般的黑白普通文本的分辨率在300DPI以上、色彩模式為灰度(如圖2)。
● 手動創(chuàng)建新語言組
在軟件ABBYY FineReader的菜單中選擇“工具”下的“語言編輯器”,在“語言組屬性”對話框中,將創(chuàng)建的新語言組命名為“中英文”,并將“簡體中文”、“英語”復制到選定語言欄內(如圖3)。
● 實施讀取識別、檢查拼寫并導出
在軟件ABBYY FineReader的工具欄中選擇“讀取”,軟件將用中英文混合識別方式對左側掃描后的圖像進行分析、讀取并進行有效的識別,識別后的內容將在右側的文本區(qū)域進行預覽,同時軟件ABBYY FineReader將不確定的識別內容予以彩色顯示,以便于你進一步進行檢查拼寫,這樣可以有效地提高掃描內容的識別率。
最后,在軟件ABBYY FineReader的工具欄中選擇“保存”,我們可以將識別及檢查后的內容保存為Word文檔,以供數(shù)字化的保存、處理、共享及再修改。
軟件ABBYY FineReader的下載地址:寧波象山現(xiàn)代教育技術學會網站(http://et.xsedu.net.cn/)。