中英文混合識別的利器—ABBYY FineReader

2012-04-29 11:33:36張秀常

中國信息技術教育 2012年9期

張秀常

我們在日常的信息化辦公過程當中，經常利用OCR（光學字符識別）技術，通過掃描儀或數(shù)碼相機檢查紙上打印的字符，并通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機數(shù)字化的文檔。但是，在實際的使用過程中，絕大多數(shù)的OCR軟件只能識別單一語言，若遇到中文、英文或其他多語言混合時就無法正確識別，甚至出現(xiàn)天書一樣的亂碼。此時，我們只有反復變換語言再識別，或將其分割為單一語言再整合成文檔，這樣不但操作步驟繁瑣，而且往往要影響我們的工作效率。為此，對于中英文混合識別的問題，有沒有一種更好的解決方案?下面推薦OCR軟件——ABBYY FineReader并結合具體的實例加以闡述。

● 新建ABBYY任務、掃描儀參數(shù)的設置

啟動軟件ABBYY FineReader （以10版本為例），在新建ABBYY任務對話框中選擇“掃描到MicrosoftWord”（如圖1）。

在掃描儀參數(shù)設置對話框中，我們可以根據紙質文件內容的復雜程度來決定你所需要的分辨率、色彩模式、亮度及紙張大小。一般的黑白普通文本的分辨率在300DPI以上、色彩模式為灰度（如圖2）。

● 手動創(chuàng)建新語言組

在軟件ABBYY FineReader的菜單中選擇“工具”下的“語言編輯器”，在“語言組屬性”對話框中，將創(chuàng)建的新語言組命名為“中英文”，并將“簡體中文”、“英語”復制到選定語言欄內（如圖3）。

● 實施讀取識別、檢查拼寫并導出

在軟件ABBYY FineReader的工具欄中選擇“讀取”，軟件將用中英文混合識別方式對左側掃描后的圖像進行分析、讀取并進行有效的識別，識別后的內容將在右側的文本區(qū)域進行預覽，同時軟件ABBYY FineReader將不確定的識別內容予以彩色顯示，以便于你進一步進行檢查拼寫，這樣可以有效地提高掃描內容的識別率。

最后，在軟件ABBYY FineReader的工具欄中選擇“保存”，我們可以將識別及檢查后的內容保存為Word文檔，以供數(shù)字化的保存、處理、共享及再修改。

軟件ABBYY FineReader的下載地址：寧波象山現(xiàn)代教育技術學會網站（http://et.xsedu.net.cn/）。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

中英文混合識別的利器—ABBYY FineReader