圖像魔術(shù)師

2021-08-27 17:22劉宗凡

中國(guó)信息技術(shù)教育 2021年13期

劉宗凡

編者按：光學(xué)字符識(shí)別（OCR），是將圖像中的文字識(shí)別為可編輯的文字的技術(shù)。OCR技術(shù)極大地推動(dòng)了紙質(zhì)書籍?dāng)?shù)字化的進(jìn)程，使得浩如煙海的存量書籍轉(zhuǎn)化為數(shù)字版本成為可能，是數(shù)字化圖書館建立過程中當(dāng)之無(wú)愧的最大功臣。當(dāng)OCR技術(shù)插上人工智能的翅膀，更是將應(yīng)用拓展到很多行業(yè)，如場(chǎng)景文字識(shí)別、手寫識(shí)別、車牌識(shí)別、證件識(shí)別、汽車VIN碼識(shí)別、發(fā)票識(shí)別、智能交通……使相應(yīng)領(lǐng)域的工作方式和效率得到了前所未有的革新。因此，我們將分兩期探討光學(xué)字符識(shí)別（OCR）的發(fā)展以及使用。

OCR（Optical Character Recognition，光學(xué)字符識(shí)別）是指電子設(shè)備（如掃描儀或數(shù)碼相機(jī)）檢查字符，通過檢測(cè)暗、亮的模式確定其形狀，然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程，即采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件，并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式，供文字處理軟件進(jìn)一步編輯加工的技術(shù)。傳統(tǒng)的OCR技術(shù)已經(jīng)發(fā)展了幾十年，如今在人工智能（AI）的推動(dòng)下，OCR技術(shù)又煥發(fā)出了新的活力。

● 漢字OCR發(fā)展沿革

我國(guó)使用漢字的歷史源遠(yuǎn)流長(zhǎng)，漢字的識(shí)別遠(yuǎn)比數(shù)字、西文要棘手，主要體現(xiàn)在以下三個(gè)方面。

1.數(shù)量龐大

和10個(gè)數(shù)字、26個(gè)英文字母相比較，漢字的數(shù)量可以說是一個(gè)天文數(shù)字。1994年出版的《中華字?！肥珍浟?7019個(gè)漢字，目前計(jì)算機(jī)上最全的字庫(kù)，收錄了91251個(gè)漢字。國(guó)標(biāo)GB2312-80字符集有6763個(gè)漢字，其中一級(jí)漢字3755個(gè)，使用頻度已經(jīng)覆蓋99.7%的使用范圍，二級(jí)漢字3008個(gè)，兩級(jí)漢字總使用頻度達(dá)到了99.99%。所以，目前主要解決一級(jí)漢字的識(shí)別。即使這樣，漢字識(shí)別也屬于大類別數(shù)的模式識(shí)別問題。

2.結(jié)構(gòu)復(fù)雜

漢字的結(jié)構(gòu)性很強(qiáng)。漢字可以看作是部件的組合，稱之為偏旁、部首或字根，是筆畫的有意義的組合。筆畫和部首的排列組合，構(gòu)成了結(jié)構(gòu)異常復(fù)雜的漢字。

3.相似字多

很多漢字之間差別很小，有些僅表現(xiàn)為某一個(gè)筆畫位置或形態(tài)的微小變化。這些漢字即使由人來識(shí)別也容易出錯(cuò)，機(jī)器識(shí)別的難度可想而知。

正是由于這些原因，漢字的識(shí)別一直落后于西文。國(guó)際上最早展開對(duì)漢字識(shí)別的研究是在1966年，BIM公司發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文，利用簡(jiǎn)單的模板匹配法，能夠識(shí)別1000個(gè)印刷體漢字。

1977年?yáng)|芝綜合研究所研制出可以識(shí)別2000個(gè)單體印刷漢字的識(shí)別系統(tǒng);20世紀(jì)80年代初期，日本武藏野電氣研究所研制出可以識(shí)別2300個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng)，識(shí)別率達(dá)到99.88%，識(shí)別速度大于100字/秒。

我國(guó)對(duì)漢字識(shí)別的研究主要分為三個(gè)階段：①探索階段（1979—1985年）。我國(guó)對(duì)漢字的識(shí)別研究是從20世紀(jì)90年代開始的，研制出了模擬識(shí)別軟件和系統(tǒng)，發(fā)表了一些論文成果，為漢字的識(shí)別打下了堅(jiān)實(shí)的基礎(chǔ)。②研制階段（1986—1988年）。這三年是漢字識(shí)別技術(shù)研究的高潮期，總共有11個(gè)單位進(jìn)行了14次印刷體漢字識(shí)別的成果鑒定，識(shí)別率高達(dá)99.5%以上，識(shí)別速度達(dá)到10～14字/秒。由于印刷體文字形狀發(fā)生了變化，軟件的適應(yīng)性和抗干擾性比較差，實(shí)際上識(shí)別率是比較差的，還達(dá)不到實(shí)用的效果。③實(shí)用階段（1989年至今）。國(guó)家高技術(shù)研究發(fā)展計(jì)劃（863計(jì)劃）、國(guó)家重點(diǎn)科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金和軍事基礎(chǔ)研究基金都對(duì)印刷體漢字識(shí)別這一研究課題給予了極大的重視和大力的支持。目前，印刷體漢字識(shí)別和聯(lián)機(jī)手寫漢字識(shí)別走向?qū)嵱没?，其技術(shù)水平和當(dāng)前世界最高水平并駕齊驅(qū)。清華大學(xué)電子工程系研制由清華紫光集團(tuán)推出的TH-OCR、漢王集團(tuán)推出的漢王OCR、尚書OCR，是我國(guó)印刷體漢字識(shí)別領(lǐng)域的翹楚。

2016年，阿爾法狗與世界冠軍李世石在圍棋領(lǐng)域的驚世駭俗的一戰(zhàn)，極大地推動(dòng)了人工智能研究的熱潮，以深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為代表的人工智能思想，在各個(gè)領(lǐng)域都得到了研究和應(yīng)用。OCR技術(shù)在人工智能的推動(dòng)下，進(jìn)入了一個(gè)新的發(fā)展階段。和傳統(tǒng)OCR聚焦在印刷體漢字識(shí)別上不同，人工智能助推下的OCR對(duì)手寫體的識(shí)別更上一層樓，在各種不同復(fù)雜背景環(huán)境下的文字識(shí)別也進(jìn)入實(shí)用階段。iOS15剛剛推出的圖片識(shí)別文字（Live Text）功能，就是蘋果公司人工智能研究的成果。我國(guó)互聯(lián)網(wǎng)科技公司也扎堆人工智能跑道，百度、搜狗、騰訊、有道等都推出了OCR接口，可供我們使用或軟件調(diào)用?？梢灶A(yù)見，類似Live Text功能的軟件將很快普及，各種復(fù)雜環(huán)境下的文字識(shí)別（場(chǎng)景文字識(shí)別）將不斷提高識(shí)別率和識(shí)別速度，達(dá)到好用、易用的目的。

● 傳統(tǒng)漢字OCR原理

目前現(xiàn)存大量傳統(tǒng)漢字OCR軟件的技術(shù)線路如下圖所示。

1.文件管理

通過掃描儀、手機(jī)、相機(jī)等儀器采集需要識(shí)別的文字圖片。

2.圖像增強(qiáng)

圖像增強(qiáng)即是對(duì)圖像的成像進(jìn)行修正，特別是手機(jī)、相機(jī)拍攝的圖片，如果不進(jìn)行修正，將極大地影響文字識(shí)別率。處理過程包括灰度化、二值化、幾何變換（透視、扭曲、旋轉(zhuǎn)等）、畸變校正、圖像增強(qiáng)和光線校正、圖像平滑、行字切分等。

（1）灰度化

我們得到的文字圖片大多是彩色的，無(wú)疑會(huì)有很多干擾信息，對(duì)文字識(shí)別很不利。通過灰度化處理，將原本由三維描述的像素點(diǎn)映射為一維描述的像素點(diǎn)，可以排除多余的干擾。

（2）二值化

所謂二值化，就是把灰度值圖像信號(hào)轉(zhuǎn)化為只有黑和白的二值圖像信號(hào)，將漢字從圖像中分離出來。通常先確定像素的閾值，然后用像素的值和閾值比較，確定這個(gè)像素點(diǎn)為1或0。如果閾值太小，保留的信息過多，許多無(wú)用信息就會(huì)干擾以后的處理;如果閾值太大，則會(huì)丟失正常的信息，最終使得文字信息不完整，無(wú)法準(zhǔn)確識(shí)別。

（3）行字切分

傳統(tǒng)OCR主要采用模式匹配來進(jìn)行漢字識(shí)別，所以要將圖像中的文字首先切分成行（列），再將單個(gè)漢字摳出來，以和模式庫(kù)中的文字進(jìn)行比對(duì)。

3.漢字識(shí)別

漢字識(shí)別的關(guān)鍵是建立一個(gè)科學(xué)的特征庫(kù)，通過圖像預(yù)處理后，提取出漢字的特征，再和特征庫(kù)進(jìn)行比對(duì)，匹配上就完成了漢字的識(shí)別。漢字有哪些特征可供提取呢？

（1）結(jié)構(gòu)特征

結(jié)構(gòu)特征包括抽取筆畫法和松弛匹配法。抽取筆畫法是利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識(shí)別;松弛匹配法是基于全局特征的匹配方法，抽取邊界線段，將這些邊界線段組成臨近線段表，然后用松弛匹配操作，完成邊與邊的匹配。

（2）統(tǒng)計(jì)特征

①特征點(diǎn)：主要是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn)、白點(diǎn)作為特征來區(qū)分不同的字符。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)。這個(gè)方法能壓縮特征庫(kù)的容量，識(shí)別的適應(yīng)性強(qiáng)、直觀性好。

②筆段特征：漢字筆畫由筆段組成，筆段可以看作是一定方向、長(zhǎng)度和寬度的矩形段。利用筆段之間的關(guān)系組成特征對(duì)漢字進(jìn)行識(shí)別，對(duì)多體漢字的識(shí)別效果較好。

當(dāng)然，漢字的多樣性和圖像的不同特點(diǎn)決定了在漢字識(shí)別過程中，提取特征要根據(jù)實(shí)際情況來選擇或者組合幾個(gè)特征，以達(dá)到更好的效果。

4.編輯

目前的OCR都無(wú)法達(dá)到百分之百正確識(shí)別，通常識(shí)別完以后，都要提供一些方法對(duì)文字進(jìn)行編輯修改。一般OCR軟件都會(huì)提供對(duì)照修改或自動(dòng)修改功能。對(duì)照修改就是觀察識(shí)別錯(cuò)誤的文字，將光標(biāo)定位到錯(cuò)誤處，界面會(huì)同時(shí)顯示對(duì)應(yīng)的圖像位置，從而根據(jù)圖像來修改文字。自動(dòng)修改則是基于語(yǔ)義理解，結(jié)合上下文信息進(jìn)行校正。語(yǔ)義理解是人工智能領(lǐng)域一個(gè)亟待突破的難點(diǎn)，目前的自動(dòng)修改還只能作為一個(gè)參考來使用。

通過編輯的文字最終可以導(dǎo)出到文本文件（TXT）或RTF文檔中。如果只需要文字進(jìn)行排版，可以導(dǎo)出到文本文件中，如果想保留更多的格式信息，則RTF文檔是一個(gè)不錯(cuò)的選擇，從而可以在Word等軟件中進(jìn)一步編輯。

● PC機(jī)實(shí)用OCR軟件指南

傳統(tǒng)漢字OCR軟件，大多是收費(fèi)軟件，或者隨掃描儀隨機(jī)提供。其中清華文通TH-OCR、漢王PDF OCR是國(guó)產(chǎn)掃描儀自帶得最多的OCR軟件。需要注意的是，對(duì)傳統(tǒng)漢字OCR技術(shù)的研究從20世紀(jì)80年代末開始已經(jīng)非常成熟，文字識(shí)別率已經(jīng)非常高，所以，這些軟件已經(jīng)長(zhǎng)期沒有得到更新，但不影響它的實(shí)用性。在國(guó)際上聲譽(yù)最高的是ABBYY FineReader，它是一款功能最強(qiáng)大的OCR軟件，能將紙質(zhì)文檔、掃描件和PDF精確轉(zhuǎn)換為Word、Excel。在處理PDF文檔時(shí)，與數(shù)字方式生成的PDF文檔相同，使用內(nèi)嵌的OCR功能，可以無(wú)差別處理包含掃描件在內(nèi)的任何PDF文檔。它可以在同一工作流程中對(duì)各種文檔進(jìn)行數(shù)字化檢索、編輯、保護(hù)，共享和協(xié)作變得更加容易，已經(jīng)超出了普通OCR軟件的范疇。

隨著人工智能技術(shù)在OCR領(lǐng)域的普及，深度學(xué)習(xí)使得OCR從傳統(tǒng)的印刷體光學(xué)字符識(shí)別走向了場(chǎng)景文字識(shí)別。一些開源小軟件通過調(diào)用互聯(lián)網(wǎng)大公司提供的接口提供OCR服務(wù)，能非常方便地解決某些領(lǐng)域的難題。

1.漢王PDF OCR

漢王集團(tuán)除了OCR搭上了人工智能的快車，在手寫識(shí)別、自然語(yǔ)言識(shí)別、人臉及生物特征識(shí)別等方面也得到了很大的發(fā)展。OCR方面，除了印刷體字符識(shí)別外，還在手寫體字符識(shí)別、自然場(chǎng)景拍照識(shí)別、公式字符識(shí)別、復(fù)雜表格識(shí)別、卡片識(shí)別、票據(jù)識(shí)別等方面具有一定的優(yōu)勢(shì)。

如果我們需要把大量紙質(zhì)文件數(shù)字化，漢王PDF OCR還是非常快捷方便的。

①輸入：點(diǎn)擊“文件”菜單，可以直接打開圖像文件，或者選擇聯(lián)機(jī)的掃描儀掃描紙質(zhì)文件。

②圖像增強(qiáng)：如果掃描或拍照的文件有傾斜現(xiàn)象，可以在“編輯”菜單的“自動(dòng)傾斜校正”中進(jìn)行校正。如果效果不理想，“編輯”菜單下還提供“手工傾斜校正”。因?yàn)檐浖嗄隂]有更新，圖像增強(qiáng)方面提供的功能非常有限，特別是手機(jī)拍照產(chǎn)生的畸變無(wú)法校正，是這款軟件的遺憾。

③版面分析：在“識(shí)別”菜單下有“版面分析”功能（快捷鍵F5），對(duì)圖像中的文字進(jìn)行切片。如果識(shí)別有錯(cuò)誤，可以手工拖動(dòng)紅框進(jìn)行修改。如果版面比較復(fù)雜，可以點(diǎn)擊選中相應(yīng)的板塊，在“識(shí)別-修改欄屬性”中設(shè)置相應(yīng)的欄目為圖像、表格、橫排、豎排，為接下來的文字識(shí)別提供更好的識(shí)別率。

④文字識(shí)別：?jiǎn)螕舨藛巍白R(shí)別-開始識(shí)別”（快捷鍵F8），就會(huì)在中間欄顯示識(shí)別結(jié)果，速度很快。

⑤文字編輯：在識(shí)別結(jié)果中，系統(tǒng)判定可能有錯(cuò)誤的文字會(huì)用紅色顯示。點(diǎn)擊識(shí)別錯(cuò)誤的地方，相應(yīng)文字的上面一行會(huì)用黃色顯示掃描的這一行文字以作為對(duì)照，同時(shí)圖像也會(huì)自動(dòng)定位到相應(yīng)的位置，并用紅框框出正在修改的文字，以供修改時(shí)參考。同時(shí)，文本欄上方還會(huì)對(duì)光標(biāo)所在文字提供修改意見，如果有正確的字，單擊鼠標(biāo)可以將文本修改過來，非常方便、直觀。

⑥輸出：點(diǎn)擊“輸出-到指定格式文件”，有TXT、RTF、HTML、XLS四種格式可以選。如果要保留原來的排版，輸出成RTF格式，然后就可以用Word打開，繼續(xù)完成排版工作。比較遺憾的是，雖然版式能大體保留下來，但每一行文字會(huì)作為一個(gè)段落?？梢赃x中一個(gè)自然段，通過Word的“替換”功能（組合鍵Ctrl+H），在“查找內(nèi)容”輸入“^p”（或在下面的“特殊格式”中選中“段落標(biāo)記”，會(huì)自動(dòng)輸入“^p”），讓“替換為”留空，單擊“全部替換”，就會(huì)把本段中多余的換行去掉。

漢王PDF OCR雖然較長(zhǎng)時(shí)間沒有更新，但還是能滿足大量掃描文件識(shí)別的要求，如教材的數(shù)字化等。同時(shí)，軟件還提供直接打開PDF文件，并能直接將文字化的PDF轉(zhuǎn)化為RTF文件的功能，除了每行后會(huì)有一個(gè)段落標(biāo)記外基本上能比較完美地復(fù)原PDF文檔的版式。

2.天若OCR

天若OCR是一款開源軟件，它本身并不具備OCR功能，而是通過調(diào)用各大OCR公司提供的接口來進(jìn)行文字識(shí)別。因?yàn)橐{(diào)用網(wǎng)絡(luò)上提供的接口才能識(shí)別文字，所以它必須聯(lián)網(wǎng)才能工作。它的最大用處是將計(jì)算機(jī)屏幕上能顯示的文字識(shí)別出來，而不管這些文字是真正的文字（如各種網(wǎng)文、文庫(kù)）還是圖片、PDF文檔，只要屏幕上能顯示，都可以將其變?yōu)榭删庉嫷奈淖帧?/p>

天若OCR軟件非常簡(jiǎn)潔，啟動(dòng)后只有一個(gè)浮動(dòng)工具欄和一個(gè)類似空白記事本的界面。按“F4”鍵（或單擊浮動(dòng)工具欄的“T”），鼠標(biāo)變成一個(gè)“十”字，右下將放大鼠標(biāo)所在位置的圖像。按下鼠標(biāo)左鍵，拖動(dòng)鼠標(biāo)選中需要識(shí)別的文字，松開鼠標(biāo)以后，識(shí)別結(jié)果就出現(xiàn)在主界面中，可以進(jìn)一步修改。最后點(diǎn)擊“docx”按鈕，就能將文字導(dǎo)出到一個(gè)Word文檔中，印刷體的識(shí)別率幾乎達(dá)到百分之百。和漢王等傳統(tǒng)OCR軟件相比，天若能準(zhǔn)確進(jìn)行段落識(shí)別，再也不會(huì)在每行后面多出一個(gè)段落標(biāo)記。它的缺點(diǎn)是對(duì)排版格式保留得不是很好，不適合于紙質(zhì)文檔數(shù)字化。

有了這款軟件，我們可以解決幾個(gè)主要問題：

①?gòu)?fù)制某些不方便復(fù)制的文檔。我們?cè)诰W(wǎng)上找到某些有用的文字時(shí)，經(jīng)常被限制復(fù)制，需要注冊(cè)會(huì)員、VIP等。有了這款軟件，可以輕松完成復(fù)制文字任務(wù)。

②PDF轉(zhuǎn)文字。微軟Office 2013以后的版本都支持編輯PDF，可很多計(jì)算機(jī)還停留在Office 2007甚至Office 2003的版本。通過這款軟件，不管是文字還是圖片格式的PDF文檔，都可以輕松轉(zhuǎn)換成可編輯文本。

③圖片文字識(shí)別。這個(gè)是OCR軟件的基本功能，可以直接打開圖片進(jìn)行識(shí)別。

④表格、公式、豎排文本等復(fù)雜文本識(shí)別。復(fù)雜文本識(shí)別需調(diào)用收費(fèi)接口或?qū)Ｓ媒涌冢枰螺d天若專業(yè)版，收費(fèi)使用。

隨著人工智能技術(shù)的發(fā)展，深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的研究與各行各業(yè)的結(jié)合，OCR也插上了飛翔的翅膀。從傳統(tǒng)的漢字識(shí)別，到現(xiàn)在的圖文混排和多語(yǔ)種混排的版面分析、版面理解和版面恢復(fù)，復(fù)雜場(chǎng)景下文字的識(shí)別等，都得到了極大的發(fā)展。多種多樣專用識(shí)別系統(tǒng)的出現(xiàn)，標(biāo)志著印刷體漢字識(shí)別技術(shù)的應(yīng)用領(lǐng)域得到了廣闊的擴(kuò)展。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

圖像魔術(shù)師