曹海青, 王丹煜, 姚志英, 程 玥, 鄭博一
1(首都經(jīng)濟貿(mào)易大學 信息學院,北京 100070)
2(北京物資學院 物流學院,北京 101149)
近年來隨著信息技術的迅猛發(fā)展,圖書館圖書自動存取技術得到快速發(fā)展. Suthakorn J等提出了通過機器人實現(xiàn)圖書館的自動化管理[1],此后諸多學者開始研究圖書館自動存取書機器人及其相關技術,其中圖書書脊和索書號的識別就是一個研究熱點. Spemcer G.Fowers等人利用書脊的顏色特征建立數(shù)據(jù)庫,在使用時通過提取所拍攝到的圖書書脊圖像顏色特征,然后與數(shù)據(jù)庫中顏色特征進行比對,從而進行書脊定位和索書號定位[2]. 胡小鋒等利用字符上下輪廓的凹凸特征檢測字符的近似寬度形成索書號字符切分路徑,并根據(jù)筆畫寬度對切分后的筆畫進行修復,實現(xiàn)對圖書索書號粘連字符的切分[3]. 方建軍等應用Canny算子進行書脊邊緣檢測,采用霍夫變換法查找書脊邊緣線段,實現(xiàn)索書號圖像的提取與分割,后來他們又應用小波分析和概率Hough變換進行書脊視覺識別[4,5]. 劉汝翠設計了一種結合深度學習中的SoftMax回歸算法和書脊圖像特征識別相結合的亂架檢測算法,實現(xiàn)自動高效的圖書亂架檢測[6]. XianZhi Du,Wael Abdalmageed和David Doermann應用M超平面和局部敏感哈希算法實現(xiàn)簽名的快速識別[7]. Hong Shao,Tianshu Yu和Mengjia Xu基于局部敏感哈希算法研究了一種快速的大規(guī)模簽名識別算法[8]. 綜上可知基于圖像和視覺處理技術的書脊檢測和索書號識別是目前圖書館自動存取書機器人中應用較為廣泛的技術,但這種技術的處理效果和效率受使用的環(huán)境、圖像容量和圖像質(zhì)量的影響較大,影響了書脊和索書號識別的使用和推廣. 本文將研究一種簡單的投影算子,將其應用于書脊和索書號的識別,旨在改善書脊和索書號識別的效率和準確率,促進圖書館圖書自動存取技術的應用和推廣.
圖書館自動存取書機器人實現(xiàn)從書架上自動存取圖書的前提條件是能書架上的成排書中準確識別出每一個書. 本文將應用投影算子實現(xiàn)對圖書書脊的識別.
在高等代數(shù)中投影算子是從向量空間映射到自身的一種線性變換,投影變換將整個向量空間映射到它的一個字空間,并且在這個字空間中是恒等變換. 用數(shù)學語言描述如下:
若空間V有一個子空間W,算子P將所有V中的元素都映射到W中,且P在W上是恒等變換,即,使得,并且,則稱算子P是投影算子.
目前投影算子已經(jīng)被廣泛應用于圖像處理、幾何圖形識別和圖形壓縮等領域[9-11]. 本文中將以二值化圖像為研究對象,以二值化圖像的內(nèi)容為基礎構建一組n(n≥1)維的向量,定義投影算子P將n維向量的元素求和映射為一維向量. 用數(shù)學語言表述如下,設一個長為L寬為W的二值化圖像,將其分別定義為L個W維的列向量C(i,j)(i=1,2,…,L;j=1,2,…,W)和W個L維的行向量R(j,i)(i=1,2,…,L;j=1,2,…,W),本文分別設計列投影算子Pc和行投影算子Pr,其中列投影算子對列向量求和,行投影算子對行向量求和,即:
圖書館自動存取書機器人利用視頻設備抓圖書彩色圖片經(jīng)二值化處理結果如圖1所示,本文將圖1所示的二值化圖其長為130像素,寬為170像素,將二值化圖內(nèi)容轉(zhuǎn)化為130個170維列向量C(i,j)(i=1,2,…,130;j=1,2,…,170),則列向量的元素由0和1組成,具體取值情況如式(3)所示.
其中source(i,j)表示二值化圖中第(i,j) 個像素點的像素值. 應用列投影算子Pc對列向量C(i,j)進行運算后所得的列投影向量為Ac(i)(i=1,2,…,130),列投影向量Ac(i)的取值情況如圖2所示,由圖可知曲線在AB段、BC段和CD段列投影向量Ac(i)的值也是經(jīng)歷了由大變小再變大的過程,經(jīng)研究分析可知造成列投影向量Ac(i)如此變化的原因是由于在AB、BC和CD段分別屬于不同圖書的書脊內(nèi)容的投影,由于書與書之間以及書架和書之間的相互影響造成明顯的邊界效應,即在圖像進行二值化處理時書與書的邊界、書與書架的邊界處容易造成黑色集中的情況發(fā)生,而且在這些邊界點處列投影向量A的值呈現(xiàn)出由中間的最大值分別向其左右兩邊減少,在曲線中列投影向量的局部最大值點一般就是書與書之間的分界點,根據(jù)上述分析思路進行算法設計并對圖1所示的圖書圖片進行處理后定位到書脊的切分線如圖3所示,按照圖3所示的切分線間的區(qū)域即為圖書書脊區(qū)域,按照切分線進行書籍切分即可切分出圖中所包含的每一本圖書.
圖1 書架上圖書的二值化圖片
圖2 列投影向量Ac的變化情況
通過上述研究我們應用列投影算子成功地識別出圖書的書脊,但在圖書管自動存取書機器人應用中,不僅要準確識別書脊,而且還需要精確識別出書籍所對應的索書號才能實現(xiàn)存取書的自動化. 接著我們將通過行投影算子和列投影算子進行圖書索書號的定位和切分,然后應用模板匹配的方法進行索書號的識別.
圖3 基于列投影的書脊檢測結果
為了確定書脊圖像中索書號的位置,需分別確定索書號在圖像中行位置信息和列位置信息,接著我們將應用投影算子分別研究圖像內(nèi)容中索書號的行位置和列位置信息.
圖4為某一本圖書經(jīng)過書脊定位后切分、二值化和區(qū)域去噪后的結果,圖4所示的圖像的長為42像素,寬為170像素,以此二值化圖內(nèi)容為基礎構建170個42 維的行向量R(j,i)(i=1,2,…,42;j=1,2,…,170),向量的取值情況如式4所示,
其中source(j,i)表示二值化圖中第(j,i) 個像素點的像素值,則行投影向量Br(j)為:
圖4 含索書號的書脊二值化圖
行投影向量Br(j)的變化情況如圖5所示,在圖5曲線中BC、DE、FG、HI、JK、LM段內(nèi)行投影向量Br(j)的值變化均從0增加到一定的值后又減少到0,經(jīng)分析研究發(fā)現(xiàn)造成曲線如此變化的原因是由于索書號中內(nèi)容在二值化圖中為黑色,不同內(nèi)容間有明顯的白色間隙所造成的,為此可以根據(jù)行投影向量Br(j)的取值情況確定索書號在圖像中行位置信息. 圖4所示的圖書圖像中索書號的行信息定位情況如圖6所示,由圖6可知行投影算子可以很好地實現(xiàn)索書號行位置信息的定位.
圖5 行投影向量Br的變化曲線
圖6 索書號行位置信息的定位結果
以圖4所示的圖書書脊二值化圖為基礎構建為42個170維的列向量C(i,j)(i=1,2,…,42;j=1,2,…,170),向量的取值情況如式6所示,
其中source(i,j)表示二值化圖中第(i,j)個像素點的像素值,則列投影向量Ac(i)為:
列向量Ac(i)的變化情況如圖7所示,由圖可知曲線在AB段和CD段列向量Ac(i)的值為零,在BC段列向量Ac(i)的值不為零,造成曲線產(chǎn)生上述變化的原因是由于BC段是由于圖書索書號的內(nèi)容在二值化圖中為黑色才導致列投影向量Ac(i)的值才從零變化到大于零的某一個值,又從大于這個值變化到零,為此可以根據(jù)列投影向量Ac(i)的取值變化情況確定索書號的列位置信息. 圖4所示的圖書圖像中索書號的列信息定位情況如圖8所示,由圖8可知列投影算子可以很好地實現(xiàn)索書號列位置信息的定位.
在確定索書號的行位置信息和列位置信息后,根據(jù)行位置信息和列位置信息畫出包含索書號每一個元素的矩形框,具體如圖9所示,按照圖9種所示的矩形框個數(shù),計算出索書號中所包含的元素的個數(shù),并按照矩形框的位置將索書號內(nèi)容切分成一個一個圖片實現(xiàn)索書號內(nèi)容的切分.
圖7 列投影向量A的變化情況
圖8 索書號列位置信息的定位結果
圖9 索書號內(nèi)容劃分結果
通過研究圖書索書號的內(nèi)容發(fā)現(xiàn)索書號的組成元素包括26大寫英文字母、0到9共10個數(shù)字和諸如“.”、“/”和“-”等共 20 個符號. 由于本文采用的是基于圖像處理的方法進行索書號的識別,為此在研究中為這些字符構建了長為32個像素寬為16個像素的二值化圖像,作為識別中的標準模板字符,圖10中有元素F、元素U、元素3、元素1、元素8、元素、元素4、元素5和元素2的標準模板字符樣例.
圖10 字符模板樣例
根據(jù)上述研究所切分的索書號元素的圖片因各個圖書管索書號采用的印刷字體、字體大小、是否加粗、印刷是否傾斜以及時間流逝印刷字的老化等原因,導致切分后所得索書號元素的圖片大小各不相同,為此在進行模板匹配之前需對切分所得索書號元素圖片進行歸一化處理,使歸一化后元素圖片的幾何尺寸為長32像素,寬16像素. 圖11為切分所得未進行歸一化處理的元素圖片和歸一化后元素圖片.
圖11 切分所得索書號圖片歸一化處理結果
論文在研究過程中構建了56個組成索書號內(nèi)容的元素字符模板二值化圖作為研究的字符標準模板庫,在圖書索書號識別時通過計算切分且歸一化處理的圖書索書號元素二值化圖與字符模板庫中所有模板的匹配度,取其中匹配度最大的字符模板對應的字符為最終的識別結果. 具體數(shù)學解釋如下: 首先在索書號識別系統(tǒng)中將根據(jù)每一個字符標準模板二值化圖內(nèi)容構建16個32維的向量M(i,j,k) (i=1,2,…,56;j=1,2,…,16;k=1,2,…,32); 接著將以每個切分且歸一化處理待識別的索書號元素對應的二值化圖構建16個32維的向量N(j,k)(j=1,2,…,16;k=1,2,…,32),設d(i)為待識別的索書號元素二值化圖與第i個字符標準模塊的歐氏距離,則:
然后計算帶識別索書號元素二值化圖與字符標準模板的匹配度e(i),其中e(i) 表示與第i個字符標準模板的匹配度,且:
當d(i)=0時,; 當時,待識別的索書號元素即為第j個字符標準模板所對應的字符; 根據(jù)如上所述的方法即可識別出索書號的所有元素.
為了檢驗本文的研究成果,我們規(guī)范如圖12所示的索書號識別流程. 通過進行大量案例測試發(fā)現(xiàn)基于投影算子的圖書書脊定位準確率達99.86%,索書號內(nèi)容識別的準確率達99.73%,對于成排書架上單本圖書書脊的定位時間僅需0.1 s,索書號內(nèi)容單個元素識別時間僅為0.02 s,與其他方法相比基于投影算子的書脊識別準確率、索書號識別準確性和性能均有極大的提高.
圖12 索書號識別流程
為了進一步驗證本文的研究成功,應用參考文獻[5]中方法測試本文方法對書脊的定位情況,其測試結果如表1所示,由表可知本文所研究的基于投影的書脊定位方法的準確定位率高于文獻[5]中的方法,且耗時平均不達文獻[5]中方法的1/10,值得進一步的研究和探索.
本文研究了一種簡單的投影算子,將其應用于圖書書脊識別和索書號的識別. 本文以書架圖書的二值化圖像為基礎構建了列向量,應用列投影算子對列向量進行處理,分析列投影向量曲線的變化情況進行圖書書脊識別; 以單本圖書書脊二值化內(nèi)容為基礎分別構建行向量和列向量,應用行投影算子對行向量進行處理得到行投影向量,根據(jù)行投影向量曲線的變化情況識別出索書號的行位置信息,應該列投影算子對列向量進行處理得到投影列向量,根據(jù)列投影向量曲線的變化情況識別出索書號的列位置信息,根據(jù)行、列位置信息切分出索書號元素圖片,對切分所得元素圖片進行歸一化處理; 計算待識別元素圖片和每一個字符標準模板的歐氏距離和匹配度,則匹配度最大的字符模板所對應的字符即為識別結果; 經(jīng)實驗驗證基于投影算子的圖書書脊識別和索書號識別的準確率高,識別速度快,可以改善圖書館自動存取書機器人的效率,促進圖書館自動化水平的提高.
表1 書脊定位性能比較
1Suthakorn J,Lee S,Zhou Y,et al. A robotic library system for an off-site shelving facility. IEEE International Conference on Robotics and Automation. Washington,DC,USA. 2002. 3589-3594.
2Fowers SG,Lee DJ. An effective color addition to feature detection and description for book spine image matching.ISRN Machine Vision,2012,2012: 945973.
3胡小鋒,陳超,葉慶泰. 圖書索書號粘連字符的切分. 上海交通大學學報,2005,39(4): 553-556,560.
4方建軍,趙強強. 圖書館在架圖書的索書號圖像提取與分割. 北京聯(lián)合大學學報,2015,29(1): 87-92.
5方建軍,杜明芳,龐睿. 基于小波分析和概率Hough變換的書脊視覺識別. 計算機工程與科學,2014,36(1):126-131.
6劉汝翠. 基于自動智能分類器的圖書館亂架圖書檢測. 現(xiàn)代商貿(mào)工業(yè),2016,37(25): 172-174.
7Du XZ,Abdalmageed W,Doermann D. Large-scale signature matching using multi-stage hashing. 12th International Conference on Document Analysis and Recognition (ICDAR). Washington,DC,USA. 2013.976-980.
8Shao H,Yu TS,Xu MJ,et al. Image region duplication detection based on circular window expansion and phase correlation. Forensic Science International,2012,222(1-3):71-82. [doi: 10.1016/j.forsciint.2012.05.002]
9趙峰,楊健. 結合投影算子與小波變換的人臉識別方法. 計算機應用,2013,33(S1): 230-232.
10段汕,謝英華. 一種基于傾斜投影的圖像分析方法. 中南民族大學學報(自然科學版),2015,34(4): 103-108.
11趙知勁,張滇華. 基于斜投影算子的壓縮采樣匹配追蹤算法. 杭州電子科技大學學報,2014,34(1): 30-33.