●周 敏(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶400054)
數(shù)字圖書館的圖像檢索模型研究
●周 敏(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶400054)
數(shù)字圖書館;圖像檢索;分布式;模型
為了提高數(shù)字圖書館圖像檢索的效率,建立了一種新的圖像檢索模型,而且為了模擬圖像檢索模型在數(shù)字圖書館中的實(shí)際使用效果,還設(shè)計(jì)了一個(gè)圖像檢索原型系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的圖像檢索原型系統(tǒng)具有較高的相似圖像查準(zhǔn)率。
圖像是一種直觀、信息豐富、易于理解的常見數(shù)據(jù)形式,圖像信息比文本信息的結(jié)構(gòu)要復(fù)雜得多,在信息的表達(dá)和特征提取上,圖像信息也比文本信息更加困難。因此,與文本信息的檢索相比,圖像的檢索更有挑戰(zhàn)性。在圖像的檢索方式中,基于關(guān)鍵詞的傳統(tǒng)圖像檢索方式已遠(yuǎn)遠(yuǎn)不能滿足用戶越來越高的圖像檢索需求,如用戶想檢索一幅圖像的出處或想檢索到一幅與原圖像相似的圖像。由于以關(guān)鍵詞為導(dǎo)向的圖像檢索方式存在明顯的局限性,基于內(nèi)容的圖像檢索方式逐漸得到重視并逐步發(fā)展起來,[1]一些知名的搜索引擎公司相繼使用了基于內(nèi)容的圖像檢索技術(shù),然而這種圖像檢索技術(shù)尚處在測(cè)試階段,圖像檢索的效果離理想要求還差得太遠(yuǎn)?;趦?nèi)容的圖像檢索技術(shù)包含較多關(guān)鍵問題,除了要對(duì)圖像的內(nèi)容進(jìn)行有效提取外,還要充分考慮實(shí)際檢索過程的檢索效率問題。一方面,檢索系統(tǒng)因?yàn)橐嫦虼罅康挠脩?,就必須搜集大量的圖像來組建圖像數(shù)據(jù)庫(kù);另一方面,當(dāng)圖像數(shù)據(jù)庫(kù)大到一定程度時(shí),滿足用戶要求的圖像就很有可能根本無法在給定的時(shí)間內(nèi)被檢索系統(tǒng)處理到,這時(shí),圖像特征提取得再準(zhǔn)確也沒有意義。目前,圖像檢索的研究主要集中在四個(gè)方面:(1)尋找描述圖像的合適特征以及研究圖像特征的比較匹配方法;(2)提取圖像的局部特征來描述整幅圖像(圖像分割技術(shù));(3)在圖像檢索時(shí)加入用戶反饋,根據(jù)用戶的反饋實(shí)時(shí)調(diào)整相關(guān)準(zhǔn)則,讓評(píng)價(jià)相似性的標(biāo)準(zhǔn)更加貼近用戶期望;(4)研究如何提取諸如語義信息等圖像的高級(jí)特征。[2-8]為了在有限的檢索時(shí)間內(nèi)提高相似圖像的檢索效率,本文建立了一個(gè)分布式的圖像檢索模型,并設(shè)計(jì)了一個(gè)基于該模型的圖像檢索原型系統(tǒng),可以在原型系統(tǒng)上進(jìn)一步開發(fā)用于數(shù)字圖書館的圖像檢索系統(tǒng)。
本文設(shè)計(jì)了一種新的圖像檢索模型,基于該模型的圖像檢索系統(tǒng)包括以下幾個(gè)部分:(1)終端,是用戶和系統(tǒng)進(jìn)行交互的關(guān)鍵設(shè)備;(2)接收服務(wù)器,主要功能是接收用戶終端的檢索請(qǐng)求,根據(jù)存儲(chǔ)在其上的資源分布信息,把檢索請(qǐng)求分發(fā)給對(duì)應(yīng)的檢索服務(wù)器,由檢索服務(wù)器執(zhí)行具體的圖像檢索任務(wù);(3)檢索服務(wù)器,接收來自接收服務(wù)器的檢索請(qǐng)求并執(zhí)行圖像檢索任務(wù)、把檢索到的相似圖像有關(guān)信息記錄下來;(4)備份服務(wù)器。如果因檢索服務(wù)器忙而不能響應(yīng)檢索請(qǐng)求時(shí),接收服務(wù)器會(huì)將檢索請(qǐng)求發(fā)向備份服務(wù)器,由備份服務(wù)器代替檢索服務(wù)器執(zhí)行圖像檢索任務(wù)。通常,圖像檢索任務(wù)會(huì)由多個(gè)檢索服務(wù)器上同時(shí)執(zhí)行,檢索任務(wù)完成后將得到的結(jié)果返回給終端。
在該圖像檢索模型中,每個(gè)檢索服務(wù)器上存儲(chǔ)的圖像會(huì)有不同的概率分布,和理想概率分布完全不同,必須先用合適的概率估計(jì)方法進(jìn)行估計(jì)。
1.1 圖像存放位置估計(jì)
圖像存放位置估計(jì)是指對(duì)圖像存儲(chǔ)在什么地方的概率估計(jì)。先對(duì)圖像進(jìn)行聚類處理,再把圖像按類別分別存儲(chǔ)到某類數(shù)據(jù)庫(kù)中,同時(shí)統(tǒng)計(jì)出每個(gè)數(shù)據(jù)庫(kù)中圖像的數(shù)量。設(shè)數(shù)據(jù)庫(kù)n中的圖像數(shù)量是Bn,計(jì)算每個(gè)數(shù)據(jù)庫(kù)的類中心,設(shè)數(shù)據(jù)庫(kù)n的類中心為Xn,把該數(shù)據(jù)庫(kù)里存儲(chǔ)的所有圖像和類中心進(jìn)行逐一比較,得出距離后再映射到對(duì)應(yīng)的各個(gè)區(qū)間上(如果圖像和類中心的距離為6,就會(huì)被映射到6個(gè)區(qū)間上)。各個(gè)數(shù)據(jù)庫(kù)不但要存儲(chǔ)圖像本身,還要存儲(chǔ)圖像的附加信息,如圖像數(shù)量、圖像類中心(以向量形式存儲(chǔ))、劃分成多少個(gè)區(qū)間、每幅圖像分別屬于哪個(gè)區(qū)間、每個(gè)區(qū)間分別有多少幅圖像等,這些附加信息可以幫助估計(jì)概率分布。設(shè)某幅圖像與數(shù)據(jù)庫(kù)n中的類中心相比的距離為p,它被映射到區(qū)間p,設(shè)區(qū)間p中圖像數(shù)量為Yp,這樣,區(qū)間p及其相鄰區(qū)間的圖像一共就有Cn幅圖像,見(1)式。
如果p為1或J,那么只加范圍內(nèi)的區(qū)間,若超出J則按J計(jì)算。Cn為在數(shù)據(jù)庫(kù)n中和某幅圖像相似的圖像數(shù)量,這時(shí)用來估計(jì)目標(biāo)圖像在數(shù)據(jù)庫(kù)n中的概率P(n),見(2)式。
這種概率估計(jì)方法只需充分利用圖像數(shù)據(jù)的一些先驗(yàn)知識(shí),不需要基礎(chǔ)的訓(xùn)練過程,就算缺乏訓(xùn)練還是能夠正常工作。
1.2 圖像所屬類別估計(jì)
圖像類別估計(jì)是指對(duì)圖像所屬類別進(jìn)行初步的概率估計(jì)。為了確定檢索圖像的類別,首先要為每個(gè)類別作資源分配,然后在此基礎(chǔ)上作進(jìn)一步的資源分配。針對(duì)圖像類別進(jìn)行的分配需要先對(duì)初始概率分布進(jìn)行估計(jì),這種估計(jì)不能依照?qǐng)D像的內(nèi)容特征作出,因?yàn)閳D像的內(nèi)容特征往往不能充分反映圖像的所屬類別信息。如果不同類別的圖像之間沒有十分明顯的差異,那么,僅僅根據(jù)圖像內(nèi)容所作出的概率估計(jì)就會(huì)出現(xiàn)相當(dāng)大的偏差,這時(shí)不得不用到語義信息。本文在圖像類別的估計(jì)上,用支持向量機(jī)作分類器,為了處理每一類問題,使用與圖像的類別相同數(shù)量的分類器,每個(gè)分類器會(huì)根據(jù)經(jīng)過的圖像特征計(jì)算出決策函數(shù)值,這個(gè)函數(shù)值可以用于判斷某幅圖像與每個(gè)類別的相似度,從而基本估計(jì)出概率分布。進(jìn)行圖像分類時(shí),需要對(duì)分類器進(jìn)行訓(xùn)練,即選擇徑向基內(nèi)積核函數(shù)(具有很強(qiáng)的分類能力、只需少量的確定參數(shù)),訓(xùn)練樣本是從每一類圖像里選取的30張圖像,輸入向量是提取的32維顏色直方圖。進(jìn)行訓(xùn)練時(shí),以鳥圖像為正例,其余圖像為反例,部分訓(xùn)練結(jié)果為:鳥類準(zhǔn)確度85%,牛類準(zhǔn)確度94%,風(fēng)景類準(zhǔn)確度65%,房屋類準(zhǔn)確度98%。
如果對(duì)圖像的類別進(jìn)行判斷時(shí)出現(xiàn)了錯(cuò)誤,就會(huì)因?yàn)樵趫D像的錯(cuò)誤類別上投入了檢索資源,而導(dǎo)致檢索資源的嚴(yán)重浪費(fèi)。為了避免這種錯(cuò)誤的發(fā)生,先用支持向量機(jī)算出決策函數(shù)值,再根據(jù)決策函數(shù)值來判斷圖像屬于哪個(gè)類別的概率分布。設(shè)第j個(gè)類別對(duì)應(yīng)的支持向量機(jī)返回一個(gè)分類結(jié)果fj,則fx圖像屬于第j個(gè)類別的概率P(j)可用(3)式進(jìn)行估計(jì)。
本文設(shè)計(jì)了一個(gè)圖像檢索原型系統(tǒng),它包括了圖像檢索系統(tǒng)的主要功能模塊。用戶通過系統(tǒng)界面輸入待檢索的圖像、設(shè)置有關(guān)的檢索參數(shù)。圖像檢索系統(tǒng)先從用戶輸入的圖像及相關(guān)參數(shù)中提取出圖像的內(nèi)容特征,再利用有效的搜索算法對(duì)檢索資源進(jìn)行分配,然后系統(tǒng)按照檢索資源的分配方案向相關(guān)檢索服務(wù)器提交圖像檢索請(qǐng)求,最后檢索服務(wù)器在圖像數(shù)據(jù)庫(kù)中查找出所有的相似圖像,同時(shí)將這些相似圖像按照與待檢索圖像的特征相似度從高到低的順序排列后返回給用戶。[9-11]圖像檢索原型系統(tǒng)的主要模塊由系統(tǒng)界面模塊、圖像特征提取模塊、資源分配模塊、數(shù)據(jù)存儲(chǔ)模塊、圖像檢索模塊組成。原型系統(tǒng)的模塊圖如圖所示。
圖原型系統(tǒng)主要模塊
(1)系統(tǒng)界面模塊。主要為用戶提供可視化的操作界面,用戶可以在系統(tǒng)界面上選擇檢索時(shí)使用圖像的哪些特征,還可以方便地設(shè)置其中每一個(gè)特征的權(quán)重。同時(shí),用戶也可以選擇使用什么樣的檢索方式(是一般檢索方式還是優(yōu)化檢索方式),如果用戶選擇了優(yōu)化檢索方式,就需要再輸入用戶所能接受的檢索時(shí)間。系統(tǒng)檢索完成后,用戶還要對(duì)檢索出的圖像與輸入的待檢索圖像是否相似進(jìn)行評(píng)判并作出標(biāo)記,同時(shí)將用戶的意見通過界面上的反饋按鈕返回給系統(tǒng);原型系統(tǒng)中,程序的設(shè)計(jì)和界面的實(shí)現(xiàn)是分開的,因此,系統(tǒng)實(shí)現(xiàn)的模塊和檢索算法都可以在以后的實(shí)驗(yàn)中被重用,系統(tǒng)的擴(kuò)展性好。
(2)圖像特征提取模塊。包括圖像特征的表示和圖像特征的提取,本文的系統(tǒng)中,圖像的特征用一個(gè)N維向量來表示,如(X1,X2,X3,……,XN),圖像特征的提取由相關(guān)的類來完成。
(3)資源分配模塊。該模塊主要完成基于優(yōu)化搜索理論的概率估計(jì)(估計(jì)圖像存儲(chǔ)的位置、估計(jì)圖像所屬的類別),以及探測(cè)函數(shù)的確定和使用參數(shù)的設(shè)置,并按照優(yōu)化分配方式分配檢索資源,具體的檢索任務(wù)由檢索模塊執(zhí)行。
(4)數(shù)據(jù)存儲(chǔ)模塊。每一類圖像的數(shù)據(jù)信息存儲(chǔ)在數(shù)據(jù)庫(kù)中,每一類圖像都有一個(gè)總數(shù)據(jù)表,存放圖像本身的信息(包括圖像的id、圖像的長(zhǎng)寬、圖像的像素等數(shù)據(jù)),見表1。首先為該類圖像的每種特征建立一個(gè)總索引,總索引之下又建立多個(gè)子索引,便于對(duì)圖像進(jìn)行適當(dāng)?shù)姆诸?;然后根?jù)本文建立的模型,聚類的中心、離聚類中心最遠(yuǎn)的距離、離聚類中心最近的距離等信息也存儲(chǔ)在數(shù)據(jù)庫(kù)中,見表2。
表1 圖像的信息表
表2 聚類的信息表
(5)圖像檢索模塊。該模塊主要功能是檢索到存儲(chǔ)在數(shù)據(jù)庫(kù)中的圖像數(shù)據(jù),通常按照優(yōu)化分配模塊提供的分配方案來進(jìn)行檢索,即只在分配方案規(guī)定的檢索時(shí)間里執(zhí)行針對(duì)某一類圖像或是某一個(gè)聚類的檢索,而不像一般檢索方式那樣把所有的圖像都從頭到尾檢索一遍。檢索完成后,先按照用戶事先設(shè)置的每個(gè)特征的權(quán)重來加權(quán),再把結(jié)果按照從高到低的相似度排序后返回給用戶。本文設(shè)計(jì)的圖像檢索模塊中,不同類別的圖像被存放在不同的區(qū)間,系統(tǒng)認(rèn)為比較相似的圖像才被存放在相同的區(qū)間里,那些差別越大的圖像也就被存放在相距越遠(yuǎn)的區(qū)間里,所以,該模塊在檢索圖像時(shí)每次都從該圖像在聚類中的初始區(qū)間開始并依次擴(kuò)展到相鄰區(qū)間和其他更遠(yuǎn)的區(qū)間的話,在初始區(qū)間里找到相似圖像的概率最大、在相鄰區(qū)間里找到相似圖像的概率次之、在其他區(qū)間里找到相似圖像的概率隨距離增加而遞減直至最后為零。采用這種檢索方式可以保證在較短時(shí)間內(nèi)檢索到相似圖像。
圖像數(shù)據(jù)庫(kù)里一共有4類圖像,分別為鳥、牛、風(fēng)景、房屋,每類圖像200幅。當(dāng)用戶選擇了檢索某類圖像并確定了所采用的檢索方式時(shí),圖像檢索原型系統(tǒng)將進(jìn)行檢索。在用戶選擇用優(yōu)化檢索方式檢索圖像時(shí),由于用于實(shí)驗(yàn)的圖像數(shù)量還不夠多,所以,事先設(shè)置了每秒鐘處理1條數(shù)據(jù)的圖像檢索速度。也就是說,如果設(shè)定檢索時(shí)間為10秒就會(huì)檢索到10幅圖像。如果用戶選擇了檢索所有的圖像,那么,所有種類的圖像都會(huì)被列入檢索范圍。首先,檢索系統(tǒng)會(huì)在圖像的類別上作最優(yōu)分配,然后檢索系統(tǒng)繼續(xù)在所有類別上進(jìn)行最優(yōu)分配,最后檢索系統(tǒng)把圖像按照相似度由高到低排序后返回給用戶。共選取鳥、牛、風(fēng)景、房屋4種類別的圖像進(jìn)行實(shí)驗(yàn),在每種類別的圖像里隨機(jī)選取10幅不同的圖像進(jìn)行實(shí)驗(yàn)測(cè)試,分別對(duì)每種類別的圖像執(zhí)行10次檢索,并將10次檢索查詢的平均查準(zhǔn)率作為檢索系統(tǒng)的檢索準(zhǔn)確率,最后的統(tǒng)計(jì)結(jié)果如下:鳥類18.8%、牛類28.9%、風(fēng)景類43.6%,房屋類16.9%。而一般檢索方式得到的檢準(zhǔn)率分別為鳥類11.2%,牛類24.5%,風(fēng)景類33.2%,房屋類11.3%。
實(shí)驗(yàn)結(jié)果表明,本文采用的優(yōu)化檢索方式的平均查準(zhǔn)率明顯高于一般的檢索方式。
[1]Zaheer Y.Content-based image retrieval[C]//Second International Conference on Digital Image Processing.InternationalSocietyforOpticsandPhotonics,2010.
[2]Flickner M,et al.Query by image and video content: The QBIC system[J].Computer,1995,28(9): 23-32.
[3]Carlson B.Taking on visual recognition's tough on-line test:Web still&video image content search&retrieval[J].Advancedimaging,1997,12(4):3.
[4]Bach J R,et al.The virage image search engine:an open framework for image management[C]//SPIE Storage and Retrieval for Image and Video Databases IV. 1996:76-87.
[5]Pentland A,et al.Photobook:Content-based manipulation of imagedatabases[J].InternationalJournalofComputerVision,1996,18(3):233-254.
[6]Smith J R,Chang S F.VisualSEEk:a fully automated content-based image query system[C]//Proceedings of the fourth ACM international conference on Multimedia,ACM,1997:87-98.
[7]Ma W Y,Manjunath B S.Netra:A toolbox for navigating large image databases[C]//Image Processing, InternationalConference on IEEE,1997(1):568-571.
[8]Mehrotra S,et al.Multimedia analysis and retrieval system[C]//Proc.of The 3rd Int.Workshop on InformationRetrievalSystems,1997.
[9]何蕾.基于對(duì)稱性和GC矩的數(shù)字圖書館圖像檢索技術(shù)[J].圖書情報(bào)工作,2012(7):135-139.
[10]賈偉,等.一種基于改進(jìn)的CS—LBP算子紋理圖像自適應(yīng)檢索方法[J].微電子學(xué)與計(jì)算機(jī),2013(9):75-78.
[11]徐朝輝,等.一種基于加權(quán)顏色聚合向量的圖像檢索方法[J].微電子學(xué)與計(jì)算機(jī),2014(2):31-34,38.
G250.76
B
1005-8214(2015)06-0106-04
周敏(1971-),女,重慶理工大學(xué)計(jì)算機(jī)學(xué)院講師,研究方向:信息安全。
2014-10-10[責(zé)任編輯]閻秋娟
本研究獲2014國(guó)家社科基金項(xiàng)目“數(shù)字圖書館的智能圖像檢索系統(tǒng)研制”(項(xiàng)目編號(hào):14BTQ053)支持。