馮麗娟 鄭中旭 袁玉霞
(鄭州科技學(xué)院電子與電氣工程學(xué)院,河南 鄭州 450064)
光學(xué)字符識(shí)別(OCR)是圖像處理和模式識(shí)別中最熱門(mén)的問(wèn)題之一,它需要對(duì)圖像中的符號(hào)進(jìn)行識(shí)別。這個(gè)問(wèn)題已經(jīng)存在了很長(zhǎng)時(shí)間,然而,即使是眾所周知的OCR系統(tǒng),在OCR的特殊情況下也不能很好地工作,以美國(guó)國(guó)會(huì)圖書(shū)館(LC)書(shū)號(hào)識(shí)別為例。本文的目標(biāo)是定義這一特定的問(wèn)題,并評(píng)估現(xiàn)有的OCR 系統(tǒng),分析哪種方法可以有效解決識(shí)別難的問(wèn)題[1-3]。
已經(jīng)有人嘗試使用新技術(shù),如RFID 或條形碼[4,5]來(lái)識(shí)別書(shū)籍。然而,這將需要重新標(biāo)簽每一本書(shū),購(gòu)買(mǎi)RFID 或條形碼閱讀器,天線和軟件許可證,這將導(dǎo)致非常高的初始和維護(hù)成本。此外,在讀取設(shè)備或系統(tǒng)出現(xiàn)故障的情況下,RFID 標(biāo)簽和條形碼無(wú)法被人類或用戶讀取。因此,有低成本自動(dòng)化系統(tǒng)的需求,可以檢測(cè)書(shū)籍的移動(dòng),如在[6]中提出的。在這類系統(tǒng)中,關(guān)鍵問(wèn)題之一是識(shí)別每個(gè)圖書(shū)館書(shū)籍上的標(biāo)簽中的書(shū)號(hào)。
OCR 已經(jīng)研究了很長(zhǎng)一段時(shí)間并取得了顯著的成功,但在本文中,通過(guò)大量的實(shí)驗(yàn),結(jié)果表明,目前的OCR 系統(tǒng)在這個(gè)特定的情況下并沒(méi)有產(chǎn)生令人滿意的結(jié)果。因?yàn)榇嬖谙聞澗€的問(wèn)題,導(dǎo)致了識(shí)別較差的結(jié)果,如許多圖書(shū)館標(biāo)簽褪色或磨損,特別是當(dāng)標(biāo)簽的背景是白色的,在上面的符號(hào)非常薄。另一個(gè)面臨的問(wèn)題是圖書(shū)館周圍的書(shū)架不均勻的照明,這經(jīng)常造成不均勻的亮度,在某些情況下,它不夠明亮,不足以閱讀什么是舊標(biāo)簽。這些問(wèn)題表明,在研究新的更有效的算法來(lái)解決這個(gè)特殊的圖書(shū)書(shū)號(hào)識(shí)別問(wèn)題之前,需要更徹底地研究這個(gè)問(wèn)題,更仔細(xì)地分析可用的OCR系統(tǒng)的性能。在本文中,進(jìn)行了一些實(shí)驗(yàn),在不同的情況下,OCR 算法的性能將被測(cè)試和分析[7]。
給定圖書(shū)館書(shū)架上書(shū)籍的圖像,每本書(shū)的書(shū)面上應(yīng)該有一個(gè)圖書(shū)館標(biāo)簽或貼紙,如圖1 所示,它通常在白色的背景上包含書(shū)的編號(hào)。需要一個(gè)OCR 軟件來(lái)提取給定圖像中所有圖書(shū)的每個(gè)標(biāo)簽中的圖書(shū)書(shū)號(hào)或圖書(shū)ID。問(wèn)題是需要清晰的識(shí)別圖像中的文本和符號(hào)。首先,它看起來(lái)很簡(jiǎn)單,而且也有很多令人滿意的OCR 識(shí)別應(yīng)用程序。但是,正如后面的實(shí)驗(yàn)結(jié)果所顯示,這仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
在光學(xué)字符識(shí)別問(wèn)題中,輸入圖像質(zhì)量對(duì)識(shí)別結(jié)果的成功起著很大的作用。對(duì)于這個(gè)特殊的OCR 問(wèn)題,我們需要檢查各種情況和環(huán)境,在什么時(shí)候和什么地方獲得書(shū)本的圖像。換句話說(shuō),需要確定在解決給定的圖書(shū)書(shū)號(hào)問(wèn)題時(shí),哪些參數(shù)可能會(huì)影響識(shí)別成功率。
書(shū)面背景:書(shū)面的顏色在識(shí)別通常為白色背景,對(duì)圖書(shū)標(biāo)簽上的文字和書(shū)號(hào)符號(hào)識(shí)別時(shí)會(huì)產(chǎn)生很大的影響。
1.標(biāo)簽質(zhì)量:書(shū)號(hào)印在書(shū)面上的標(biāo)簽上。標(biāo)簽的背景色通常是白色,而編號(hào)(由字母和數(shù)字混合而成,中間有點(diǎn))印得很薄,看起來(lái)是灰色而不是黑色。這些標(biāo)簽是在書(shū)籍被添加到圖書(shū)館目錄時(shí)第一次制作的。經(jīng)過(guò)多年,許多標(biāo)簽可能會(huì)磨損掉,因?yàn)樗鼈兪遣糠謩兟?,墨水褪色。不幸的是,這些標(biāo)簽不會(huì)立即被新的替換,因?yàn)闄z測(cè)、打印和替換標(biāo)簽需要很長(zhǎng)時(shí)間。因此,在圖書(shū)館看到的圖書(shū)標(biāo)簽可能會(huì)從非常清晰的黑色墨水標(biāo)簽到模糊的標(biāo)簽,其中圖書(shū)編號(hào)的符號(hào)是模糊的,不再清晰。
2.相機(jī)高度(燈光):眾所周知,燈光對(duì)OCR 的性能有很大的影響。光強(qiáng)的差異可能很難被人的眼睛檢測(cè)到,但對(duì)于OCR 軟件來(lái)說(shuō),這可能會(huì)導(dǎo)致識(shí)別成功率的巨大差異。在圖書(shū)館里,光線的主要來(lái)源通常來(lái)自天花板。因此,相機(jī)的位置越高,圖像就越亮,越清晰,反之,相機(jī)的位置越低,圖像就越暗。獲得不同光線強(qiáng)度的圖像最簡(jiǎn)單的方法是將相機(jī)從高到低放置在圖書(shū)館書(shū)架的不同書(shū)架上??梢栽跁?shū)架的頂層得到光線更多的圖像,或者是書(shū)架底層光線較少的圖片,如圖1 所示。
圖1 左:更多光下的頂部擱板;右:較少光下的底部擱板
由于相機(jī)位置的高度可以很容易地通過(guò)書(shū)柜的外表來(lái)量化。最低的光強(qiáng)度值是當(dāng)相機(jī)是在水平的低端時(shí)拍的。同樣的,最高光強(qiáng)值也會(huì)出現(xiàn)在相機(jī)在頂部的水平上。
為了測(cè)試OCR 軟件的性能,可以用于圖書(shū)館書(shū)號(hào)識(shí)別問(wèn)題,設(shè)計(jì)了一個(gè)測(cè)試系統(tǒng),它集成了幾種OCR 的技術(shù)。用相同的一組輸入數(shù)據(jù)運(yùn)行,如圖2 所示。
圖2 識(shí)別書(shū)號(hào)測(cè)試系統(tǒng)
在測(cè)試系統(tǒng)的引擎中包含以下內(nèi)容:Adobe Acrobat、CLARA、Google Cloud Vision、License Plate ALPR、Nuance OmniPage、Readlris、Tagun Receipt、Tesseract 等。引擎中的所有OCR 使用相同的輸入。在不同環(huán)境中,可能會(huì)遇到識(shí)別復(fù)雜圖書(shū)書(shū)號(hào)的問(wèn)題。輸入數(shù)據(jù)可以分為三組:書(shū)面背景、標(biāo)簽質(zhì)量、照明(或相機(jī)高度)。
用圖書(shū)館標(biāo)簽處理每一幅書(shū)面的圖片,圖像的輸出是文本文件中的圖書(shū)書(shū)號(hào)列表。然后,通過(guò)比較文本文件中的結(jié)果和相應(yīng)圖片中的圖書(shū)編號(hào),對(duì)每個(gè)OCR 系統(tǒng)的每個(gè)參數(shù)的性能進(jìn)行評(píng)分。
使用兩種不同分辨率的相機(jī):(i) 1.3 萬(wàn)像素的基本的網(wǎng)絡(luò)攝像頭和(ii) 12 萬(wàn)像素的高端智能手機(jī)攝像頭。由于給定的問(wèn)題需要解決在大型圖書(shū)館中的設(shè)備可能太昂貴,因此可能無(wú)法得到。因此,了解相機(jī)質(zhì)量對(duì)每個(gè)OCR 軟件性能的影響是很有用的。利用上述測(cè)試系統(tǒng),進(jìn)行了實(shí)驗(yàn)。
使用在第2 節(jié)中描述的參數(shù)范圍內(nèi)的不同輸入圖像集來(lái)測(cè)量所有OCR 系統(tǒng)的成功率。成功率由從1 到10 的分?jǐn)?shù)來(lái)定義,其中10 是最好的,或者識(shí)別100%的標(biāo)簽是正確的,而1 是最差的性能,即OCR 不能識(shí)別超過(guò)10%的書(shū)號(hào)。結(jié)果如表1、2、3所示。本實(shí)驗(yàn)中使用的圖像均為手機(jī)相機(jī)拍攝。
表1 標(biāo)簽質(zhì)量對(duì)測(cè)試結(jié)果的影響
表2 書(shū)面背景對(duì)測(cè)試結(jié)果的影響
表3 相機(jī)高度對(duì)測(cè)試結(jié)果的影響
在圖書(shū)館圖書(shū)圖像中識(shí)別圖書(shū)書(shū)號(hào)是一個(gè)非常具有挑戰(zhàn)性的OCR 問(wèn)題。即使使用目前先進(jìn)的OCR 系統(tǒng)和頂尖IT 公司的技術(shù),識(shí)別書(shū)面上標(biāo)簽圖片上的書(shū)號(hào)成功率也只有40%或更低??紤]到一個(gè)很好的解決方案對(duì)于這個(gè)OCR 的問(wèn)題會(huì)形成一個(gè)非常低成本自動(dòng)化的大圖書(shū)館的書(shū)位置跟蹤系統(tǒng),無(wú)需添加任何新標(biāo)簽的書(shū)或需要任何額外的人類勞動(dòng),這將對(duì)圖書(shū)館建設(shè)是非常重要的。在未來(lái),根據(jù)機(jī)器學(xué)習(xí)機(jī)制,如神經(jīng)網(wǎng)絡(luò)和模糊邏輯可以加入到目前的解決方案中,以取得更好的結(jié)果。更多地研究其他可能影響這個(gè)特定OCR 問(wèn)題結(jié)果的因素,也有助于為這個(gè)非常具有挑戰(zhàn)性的問(wèn)題制定更有效的解決方案。