國防科技大學電子對抗學院 琚 振 徐濟仁
73676部隊 劉同贊
安徽建筑大學電子學院 吳東升
合肥工業(yè)大學機汽學院 趙小蘭
底稿,俗稱草稿,原稿。從廣義上講是出版、印刷的原始根據(jù),在印刷的五大要素(原稿、印版、承印物、油墨、印刷機械)中居于首位。一般由客戶提供。文字原稿由作者和編輯決定,其社會效果取決于原稿的內(nèi)容,印刷質(zhì)量只與印刷技術和條件有關。
底稿的來源多種多樣,有的來自于出版社的書,有的來自于網(wǎng)絡,有的來源于廣告宣傳手冊,等等。出版書的書經(jīng)過作者的反復錘煉和修改,錯誤很少,所以書的內(nèi)容值得我們借鑒和使用。書里面的內(nèi)容可以通過掃描,然后使用ocr文字識別軟件,通常這些文字識別軟件識別正確率是非常高的,我們平時用的比較多的兩款軟件CAJViewer和Adobe Acrobat,都自帶ocr文字識別功能。
書是最重要的印刷品。
首先,第一步我們需要對書的內(nèi)容進行掃描,我們盡可能的把書貼近掃描儀的玻璃板,用力按住書。然后再在書的外面蓋上一塊黑色的布,不要漏光。最好能夠?qū)鸪梢豁撘豁摰剡M行掃描,這樣掃描的效果是最好的。
現(xiàn)在的書大部分都是黑白的,使用OCR文字識別軟件處理的時候,識別準確率非常高?;旧喜粫惺裁村e誤,或者錯誤很少。但是有的書里面有彩色的插頁,我們可以先把它轉(zhuǎn)成灰色圖像,然后在進行ocr文字識別。
有的書在印刷的時候。正文采用了白底黑字,注釋部分采用了其他的顏色背景,比方說淡黃色,如圖1所示。
圖1 書掃描效果截圖
我們這張掃描圖片是將書拆開之后單頁掃描的,掃描儀的分辨率是200dpi。分辨率不能太低,會影響OCR文字識別準確率的。分辨率如果低于100 dpi,文字識別準確率會受到影響。
我們將掃描頁面分成兩個明顯的區(qū)域,分別給予編號:1和2,編號1區(qū)塊,不是正文,相關鏈接類似于注釋,背景是淡黃色,OCR文字識別準確率非常低,編號2區(qū)塊是正文,白底黑字。Ocr文字識別率準確率非常高。
因為是單頁掃描。掃描的時候,掃描儀玻璃板上面有一個蓋板,完全可以把單頁紙蓋住,因為不漏光,所以掃描的效果非常好,沒有一點點的黑色(掃描的時候,漏光的部分都是黑色的)。這也是我們向大家推薦使用掃描儀掃描書的時候,要盡可能的把書拆成單頁進掃描的原因。
在正式掃描之前。需要使用圖像處理軟件ACDSEE對掃描圖片進行簡單的處理。
(1)觀察掃描圖片有無上下偏移,有的不是非常明顯的上下偏移,肉眼沒有辦法進行觀察,我們可以用acdsee打開這個掃描圖片,點擊ACDSEE左邊工具欄里面的“旋轉(zhuǎn)”按鈕,圖像處理軟件ACDSEE會顯示校正用的網(wǎng)格線,如圖2的的示。將文字和網(wǎng)絡線進行比對就可以看出,文字有沒有上下偏移。如果有偏移,可以通過這個旋轉(zhuǎn)操作功能,將文字調(diào)整成水平。
圖2 旋轉(zhuǎn)操作時顯示的網(wǎng)格線
(2)對掃描的圖片進行適當?shù)牟眉?。把不需要的部分統(tǒng)統(tǒng)去掉,包括頁眉、頁腳和頁碼等,把需要文字識別的正文和注釋部分以及其他需要識別的部分保留下來。
經(jīng)過旋轉(zhuǎn)和裁剪后的圖片,下一步進行OCR文字識別。
有的掃描儀隨機贈送ocr文字識別軟件。掃描一頁后,自動進行旋轉(zhuǎn)校正和裁剪,后然進行OCR文字識別;也可以手工進行旋轉(zhuǎn)校正和裁剪,然后進行OCR文字識別。
有的掃描儀沒有隨機贈送ocr文字識別軟件,或者功能一般,識別準確率不高,功能也一般。
無論掃描儀帶不帶OCR文字識別軟件,建議大家使用我們平時用的比較多的兩款軟件CAJViewer和Adobe Acrobat,都自帶ocr文字識別功能。因為,它們的識別準確率和擾干擾能力都非常強,而且通用性強。
具體操作方法如下:
(1)掃描圖片,經(jīng)過旋轉(zhuǎn)和裁剪之后,我們用acrobat將它們合并成一個PDF文件。
(2)點擊菜單欄里面的“視圖”->“工具”->“文本識別”,在窗口的右側彈出工具欄。點擊“文本識別”->“在本文件中”,系統(tǒng)彈出“識別文本”對話框,如圖3所示。
圖3 識別文木界面
點“確認”關閉“識別文本”對話框。隨后ACROBAT軟件,調(diào)用內(nèi)嵌的OCR文字識別軟件,對圖像進行旋轉(zhuǎn),糾偏,分解頁面,處理,后處理,如圖4所示。最后得到可編輯的文字。
圖4 Acrobat軟件對圖象的處理操作步驟圖
(3)點擊“編輯”->“全部選定”(快捷鍵CTRL+A),
如果是首次使用,會彈出“掃描頁面警告”對話框,如圖5所示。
圖5 首次使用提示對話框
點“確認”關閉對話框。
(4)點擊“編輯”->“復制”(快捷鍵CTRL+C),OCR文字識別的結果已經(jīng)在剪切板上。
(5)在WORD中新建文件,按CTRL+V,將剪切板上內(nèi)容粘貼在新文件上。
對照原文,注意觀察文字識別準確率,有的識別率非常高,可以直接使用。有的識別率非常底,需要重新處理。我們發(fā)現(xiàn)圖1中,編號1區(qū)塊文字識別準確率非常低,可能是黃色背景的原因。有的出版社為了防止盜版,專門加入一些特殊的背景,使用OCR文字識別軟件,文字識別準確率非常低。
處理方法非常簡單,在圖1中,將單頁分成二個區(qū)塊,編號2區(qū)塊識別率高,直接使用。編號1區(qū)塊識別率非常低。用ACDSEE圖像處理軟件將編號1區(qū)塊單獨剪輯出來,如圖6所示。
圖6 單獨剪輯效果圖
圖7 自動爆光效果圖
如果認可這種處理效果,點擊完成。
點擊菜單項上面的“修改“-》更改色深-》256階灰度,結果如圖8所示。
圖8 灰色圖象效果圖
圖9 曝光效果
如果認可這種處理效果,點擊完成。
這時,如果用OCR文字識別軟件來識別,識別率應該非常高。
我們來試一試,看識別率是多少?
①將圖片另存為一個圖片文件。
②將這個圖片文件轉(zhuǎn)換成一個單獨的PDF文件。
③點擊菜單欄里面的“視圖”->“工具”->“文本識別”,在窗口的右側彈出工具欄。點擊“文本識別”->“在本文件中”,等待系統(tǒng)識別結果。按CTRL+A鍵,按CTRL+C鍵,在WORD文件中,按CTRL+V鍵,將結果粘貼出來,看識別結果。
我們發(fā)現(xiàn)識準確率提高了非常多。
具體操作方法如下:
(1)掃描圖片,經(jīng)過旋轉(zhuǎn)和裁剪之后,我們用acrobat將它們合并成一個PDF文件。
(2)點擊“工具”->“文本選擇”。
將鼠標移動到圖像文本上,我們會發(fā)現(xiàn)鼠標箭頭變成了另外一種形狀,而不是編輯狀態(tài)。
(3)點擊“工具”->“文字識別”。鼠標箭頭變成十字絲,選中需要識別文字圖象,系統(tǒng)自動彈出“文字識別結果”對話框,文字識別結果顯示在編緝框內(nèi)。