機(jī)器視覺(jué)技術(shù)在圖書(shū)館書(shū)籍書(shū)號(hào)識(shí)別問(wèn)題中的研究

2021-12-06 10:13:48馮麗娟鄭中旭袁玉霞

魅力中國(guó) 2021年49期

馮麗娟鄭中旭袁玉霞

（鄭州科技學(xué)院電子與電氣工程學(xué)院，河南鄭州 450064）

一、引言

光學(xué)字符識(shí)別(OCR)是圖像處理和模式識(shí)別中最熱門(mén)的問(wèn)題之一，它需要對(duì)圖像中的符號(hào)進(jìn)行識(shí)別。這個(gè)問(wèn)題已經(jīng)存在了很長(zhǎng)時(shí)間，然而，即使是眾所周知的OCR系統(tǒng)，在OCR的特殊情況下也不能很好地工作，以美國(guó)國(guó)會(huì)圖書(shū)館(LC)書(shū)號(hào)識(shí)別為例。本文的目標(biāo)是定義這一特定的問(wèn)題，并評(píng)估現(xiàn)有的OCR 系統(tǒng)，分析哪種方法可以有效解決識(shí)別難的問(wèn)題[1-3]。

已經(jīng)有人嘗試使用新技術(shù)，如RFID 或條形碼[4,5]來(lái)識(shí)別書(shū)籍。然而，這將需要重新標(biāo)簽每一本書(shū)，購(gòu)買(mǎi)RFID 或條形碼閱讀器，天線和軟件許可證，這將導(dǎo)致非常高的初始和維護(hù)成本。此外，在讀取設(shè)備或系統(tǒng)出現(xiàn)故障的情況下，RFID 標(biāo)簽和條形碼無(wú)法被人類或用戶讀取。因此，有低成本自動(dòng)化系統(tǒng)的需求，可以檢測(cè)書(shū)籍的移動(dòng)，如在[6]中提出的。在這類系統(tǒng)中，關(guān)鍵問(wèn)題之一是識(shí)別每個(gè)圖書(shū)館書(shū)籍上的標(biāo)簽中的書(shū)號(hào)。

OCR 已經(jīng)研究了很長(zhǎng)一段時(shí)間并取得了顯著的成功，但在本文中，通過(guò)大量的實(shí)驗(yàn)，結(jié)果表明，目前的OCR 系統(tǒng)在這個(gè)特定的情況下并沒(méi)有產(chǎn)生令人滿意的結(jié)果。因?yàn)榇嬖谙聞澗€的問(wèn)題，導(dǎo)致了識(shí)別較差的結(jié)果，如許多圖書(shū)館標(biāo)簽褪色或磨損，特別是當(dāng)標(biāo)簽的背景是白色的，在上面的符號(hào)非常薄。另一個(gè)面臨的問(wèn)題是圖書(shū)館周圍的書(shū)架不均勻的照明，這經(jīng)常造成不均勻的亮度，在某些情況下，它不夠明亮，不足以閱讀什么是舊標(biāo)簽。這些問(wèn)題表明，在研究新的更有效的算法來(lái)解決這個(gè)特殊的圖書(shū)書(shū)號(hào)識(shí)別問(wèn)題之前，需要更徹底地研究這個(gè)問(wèn)題，更仔細(xì)地分析可用的OCR系統(tǒng)的性能。在本文中，進(jìn)行了一些實(shí)驗(yàn)，在不同的情況下，OCR 算法的性能將被測(cè)試和分析[7]。

二、圖書(shū)館書(shū)籍書(shū)號(hào)識(shí)別問(wèn)題分析

（一）問(wèn)題描述

給定圖書(shū)館書(shū)架上書(shū)籍的圖像，每本書(shū)的書(shū)面上應(yīng)該有一個(gè)圖書(shū)館標(biāo)簽或貼紙，如圖1 所示，它通常在白色的背景上包含書(shū)的編號(hào)。需要一個(gè)OCR 軟件來(lái)提取給定圖像中所有圖書(shū)的每個(gè)標(biāo)簽中的圖書(shū)書(shū)號(hào)或圖書(shū)ID。問(wèn)題是需要清晰的識(shí)別圖像中的文本和符號(hào)。首先，它看起來(lái)很簡(jiǎn)單，而且也有很多令人滿意的OCR 識(shí)別應(yīng)用程序。但是，正如后面的實(shí)驗(yàn)結(jié)果所顯示，這仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

（二）參數(shù)

在光學(xué)字符識(shí)別問(wèn)題中，輸入圖像質(zhì)量對(duì)識(shí)別結(jié)果的成功起著很大的作用。對(duì)于這個(gè)特殊的OCR 問(wèn)題，我們需要檢查各種情況和環(huán)境，在什么時(shí)候和什么地方獲得書(shū)本的圖像。換句話說(shuō)，需要確定在解決給定的圖書(shū)書(shū)號(hào)問(wèn)題時(shí)，哪些參數(shù)可能會(huì)影響識(shí)別成功率。

書(shū)面背景：書(shū)面的顏色在識(shí)別通常為白色背景，對(duì)圖書(shū)標(biāo)簽上的文字和書(shū)號(hào)符號(hào)識(shí)別時(shí)會(huì)產(chǎn)生很大的影響。

1.標(biāo)簽質(zhì)量：書(shū)號(hào)印在書(shū)面上的標(biāo)簽上。標(biāo)簽的背景色通常是白色，而編號(hào)（由字母和數(shù)字混合而成，中間有點(diǎn)）印得很薄，看起來(lái)是灰色而不是黑色。這些標(biāo)簽是在書(shū)籍被添加到圖書(shū)館目錄時(shí)第一次制作的。經(jīng)過(guò)多年，許多標(biāo)簽可能會(huì)磨損掉，因?yàn)樗鼈兪遣糠謩兟?，墨水褪色。不幸的是，這些標(biāo)簽不會(huì)立即被新的替換，因?yàn)闄z測(cè)、打印和替換標(biāo)簽需要很長(zhǎng)時(shí)間。因此，在圖書(shū)館看到的圖書(shū)標(biāo)簽可能會(huì)從非常清晰的黑色墨水標(biāo)簽到模糊的標(biāo)簽，其中圖書(shū)編號(hào)的符號(hào)是模糊的，不再清晰。

2.相機(jī)高度（燈光）：眾所周知，燈光對(duì)OCR 的性能有很大的影響。光強(qiáng)的差異可能很難被人的眼睛檢測(cè)到，但對(duì)于OCR 軟件來(lái)說(shuō)，這可能會(huì)導(dǎo)致識(shí)別成功率的巨大差異。在圖書(shū)館里，光線的主要來(lái)源通常來(lái)自天花板。因此，相機(jī)的位置越高，圖像就越亮，越清晰，反之，相機(jī)的位置越低，圖像就越暗。獲得不同光線強(qiáng)度的圖像最簡(jiǎn)單的方法是將相機(jī)從高到低放置在圖書(shū)館書(shū)架的不同書(shū)架上?？梢栽跁?shū)架的頂層得到光線更多的圖像，或者是書(shū)架底層光線較少的圖片，如圖1 所示。

圖1 左：更多光下的頂部擱板；右：較少光下的底部擱板

由于相機(jī)位置的高度可以很容易地通過(guò)書(shū)柜的外表來(lái)量化。最低的光強(qiáng)度值是當(dāng)相機(jī)是在水平的低端時(shí)拍的。同樣的，最高光強(qiáng)值也會(huì)出現(xiàn)在相機(jī)在頂部的水平上。

三、本文的識(shí)別測(cè)試系統(tǒng)

為了測(cè)試OCR 軟件的性能，可以用于圖書(shū)館書(shū)號(hào)識(shí)別問(wèn)題，設(shè)計(jì)了一個(gè)測(cè)試系統(tǒng)，它集成了幾種OCR 的技術(shù)。用相同的一組輸入數(shù)據(jù)運(yùn)行，如圖2 所示。

圖2 識(shí)別書(shū)號(hào)測(cè)試系統(tǒng)

在測(cè)試系統(tǒng)的引擎中包含以下內(nèi)容：Adobe Acrobat、CLARA、Google Cloud Vision、License Plate ALPR、Nuance OmniPage、Readlris、Tagun Receipt、Tesseract 等。引擎中的所有OCR 使用相同的輸入。在不同環(huán)境中，可能會(huì)遇到識(shí)別復(fù)雜圖書(shū)書(shū)號(hào)的問(wèn)題。輸入數(shù)據(jù)可以分為三組：書(shū)面背景、標(biāo)簽質(zhì)量、照明（或相機(jī)高度）。

用圖書(shū)館標(biāo)簽處理每一幅書(shū)面的圖片，圖像的輸出是文本文件中的圖書(shū)書(shū)號(hào)列表。然后，通過(guò)比較文本文件中的結(jié)果和相應(yīng)圖片中的圖書(shū)編號(hào)，對(duì)每個(gè)OCR 系統(tǒng)的每個(gè)參數(shù)的性能進(jìn)行評(píng)分。

四、實(shí)驗(yàn)及結(jié)果分析

使用兩種不同分辨率的相機(jī)：(i) 1.3 萬(wàn)像素的基本的網(wǎng)絡(luò)攝像頭和(ii) 12 萬(wàn)像素的高端智能手機(jī)攝像頭。由于給定的問(wèn)題需要解決在大型圖書(shū)館中的設(shè)備可能太昂貴，因此可能無(wú)法得到。因此，了解相機(jī)質(zhì)量對(duì)每個(gè)OCR 軟件性能的影響是很有用的。利用上述測(cè)試系統(tǒng)，進(jìn)行了實(shí)驗(yàn)。

使用在第2 節(jié)中描述的參數(shù)范圍內(nèi)的不同輸入圖像集來(lái)測(cè)量所有OCR 系統(tǒng)的成功率。成功率由從1 到10 的分?jǐn)?shù)來(lái)定義，其中10 是最好的，或者識(shí)別100%的標(biāo)簽是正確的，而1 是最差的性能，即OCR 不能識(shí)別超過(guò)10%的書(shū)號(hào)。結(jié)果如表1、2、3所示。本實(shí)驗(yàn)中使用的圖像均為手機(jī)相機(jī)拍攝。

表1 標(biāo)簽質(zhì)量對(duì)測(cè)試結(jié)果的影響

表2 書(shū)面背景對(duì)測(cè)試結(jié)果的影響

表3 相機(jī)高度對(duì)測(cè)試結(jié)果的影響

五、結(jié)論

在圖書(shū)館圖書(shū)圖像中識(shí)別圖書(shū)書(shū)號(hào)是一個(gè)非常具有挑戰(zhàn)性的OCR 問(wèn)題。即使使用目前先進(jìn)的OCR 系統(tǒng)和頂尖IT 公司的技術(shù)，識(shí)別書(shū)面上標(biāo)簽圖片上的書(shū)號(hào)成功率也只有40%或更低?？紤]到一個(gè)很好的解決方案對(duì)于這個(gè)OCR 的問(wèn)題會(huì)形成一個(gè)非常低成本自動(dòng)化的大圖書(shū)館的書(shū)位置跟蹤系統(tǒng)，無(wú)需添加任何新標(biāo)簽的書(shū)或需要任何額外的人類勞動(dòng)，這將對(duì)圖書(shū)館建設(shè)是非常重要的。在未來(lái)，根據(jù)機(jī)器學(xué)習(xí)機(jī)制，如神經(jīng)網(wǎng)絡(luò)和模糊邏輯可以加入到目前的解決方案中，以取得更好的結(jié)果。更多地研究其他可能影響這個(gè)特定OCR 問(wèn)題結(jié)果的因素，也有助于為這個(gè)非常具有挑戰(zhàn)性的問(wèn)題制定更有效的解決方案。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

機(jī)器視覺(jué)技術(shù)在圖書(shū)館書(shū)籍書(shū)號(hào)識(shí)別問(wèn)題中的研究

一、引言

二、圖書(shū)館書(shū)籍書(shū)號(hào)識(shí)別問(wèn)題分析