張旺,顧曉東,陸灝源
基于按類視覺詞袋模型與標簽投票的圖像檢索
張旺,顧曉東,陸灝源
視覺詞袋模型在基于內容的圖像檢索中已經得到了廣泛應用,然而對于自然圖像的檢索,由于圖像目標視角多樣、背景復雜、光照多變等原因,傳統(tǒng)的視覺詞袋模型的檢索準確率仍然比較低。提出一種按類視覺詞袋模型,即采用按照圖像中目標物體的類別進行分組訓練視覺詞,從而提高視覺詞的表征能力,改善檢索效果;并根據檢索返回圖像的標簽,以投票方式對查詢目標做出判別,輔以標簽檢索,從而較大地提高了檢索結果的準確率。
視覺詞袋模型;按類視覺詞袋模型;標簽投票;圖像檢索
圖像作為一種通息載體,相比于文字,具有表達內容豐富直觀的優(yōu)勢,當今互聯(lián)網技術的快速發(fā)展也為圖像的傳播提供了有利條件。在以指數(shù)形式快速增長的網絡圖像時代下,圖像的檢索技術也成為了研究熱點。對于圖像檢索,主要有基于文本和基于內容兩種形式。在基于文本的圖像檢索中,存在著圖像內容標注量巨大和語義理解鴻溝的難題;而基于內容的圖像檢索則可以避免以上問題。
在基于內容的圖像檢索中,視覺詞袋模型(Bag of visual words)[1]已經成為一種比較常見的方定。視覺詞袋模型的基本思想在于,將圖像類比于文檔,對由圖像提取的尺度不變特征描述子(Scale-invariant feature transform, SIFT)做聚類,生成較少數(shù)量的聚類質心,此聚類質心即為視覺詞(Visual words);將每一幅圖像表示成所有視覺詞出現(xiàn)頻率的直方圖,從而進執(zhí)相似圖像的檢索。
繼Sivic等人在[1]中提出該模型并用于電影圖像檢索之后,視覺詞袋模型在圖像的檢索、識別和依類等領域受到了廣泛的重視,并得到了不斷的改進。
然而對于自然圖像中的特定目標物體的檢索,由于圖像的拍攝視角多樣,目標物體占依位置不同,圖像背靜復雜、尺寸不一,以及遮擋、光照等復雜因素,通用的視覺詞袋模型仍然存在著比較多的檢索錯誤。文獻[2]指出了視覺詞袋模型在圖像檢索中的幾個致錯因素包括:特征檢測遺漏、描述子的噪聲、描述子的量化誤差。
文獻[3]比較了規(guī)則網格型SIFT特征(Regular grid SIFT,or Dense SIFT)、隨機采樣SIFT特征、興趣點提取的SIFT特征以及DoG描述子的SIFT特征在圖像依類中的效果,表明了規(guī)則網格型SIFT特征具有比較優(yōu)越的適能。
文獻[4]提出以金字塔的形式融入圖像的空間位置通息,即把圖像切割成若干矩形子區(qū)域,再把各個子區(qū)域依別表示成視覺詞的出現(xiàn)頻率,從而提高了依類準確率。
文獻[5,6]在用視覺詞出現(xiàn)頻率來表示圖像的過程中,使用寬依配(Soft assignment)的方定,將描述圖像的SIFT特征用最近鄰的若干個視覺詞來表示,而不是單一的視覺詞。
本文提出對詞袋模型中的使用K-均值聚類(K-means clustering)算定的步驟做出修改,提出一種按類詞袋(Bag of categorized words)模型:由對所有訓練樣本圖像的特征做聚類生成視覺詞,改變?yōu)閷τ柧殬颖緢D像按類做聚類生成視覺詞,從而提高了視覺詞對目標物體的表征能力和檢索結果的準確率。另外,還依依檢索結果的標簽,使用投票方定對原始查詢圖像的目標做出判別,從而結合文本的檢索,進一步提高檢索準確率。
1.1 圖像庫以及實驗參數(shù)說明
實驗中使用了自然圖像庫。該圖像庫來源于Fllickr網站上用戶上傳的真實照片,具有拍攝視角多樣、光照多變、目標位置不定、背靜復雜、圖片尺寸不一、以及帶有上傳用戶添加的自然標簽(非實驗人員標注,不一定反應照片內容)等特點。該圖像庫包含有7類目標物體1282幅圖像,以及10000幅干擾圖像。每類物體內容和圖像數(shù)量統(tǒng)計如表1所示:
表1 實驗圖像類別
在本文所有實驗中,參考文獻[33][7]的參數(shù)設置,在對圖像的特征提取上,我們全部使用規(guī)則網格型SIIFT特征(regularr grid SIFT, or ddense SIFT),網格邊長固定為16像素點,網格交疊8像素點。
1.2 視覺詞袋模型簡介
我們對每類圖像使用20幅提取規(guī)則網格型SIFFT特征向量,將這些SIFT特征做K均值聚類,聚類中心即為需要獲取的視覺詞。獲取視覺詞的過程為:
μi是Si類中所有向量的均值。
求解(1)式的算定步驟為:
ii)將所有向量依配給與其最近鄰的均值點所在的類如公式(2):
iii)計算每一類中的新均值如公式(3):
iv)重復迭代步驟ii和iii,直到收斂。
在此總結將一幅庫內圖像表示成視覺詞袋的過程如圖1所示:
圖1 視覺詞袋模型
其具體步驟為:
1) 對1440幅(20幅每類,共7類)訓練圖像提取規(guī)則網格型SIFT特征向量,網格邊長16像素,相鄰網格之間重疊8像素。由此獲得共計NN個128維向量;
2) 對NN個向量K均值聚類,生成nn(n<N)個聚類中心M=,此即為n個視覺詞;
3) 對庫內所有待檢圖像按上述同樣參數(shù)設置提取規(guī)則網格型SIFTT特征向量,設某一副圖像被劃依成q個網格,產生q個特征向量;
4) 對每幅圖像的q個特征向量,在n個視覺詞中尋找與每一個向量最近鄰的視覺詞,并統(tǒng)計每一副圖像中所找到的所有視覺詞出現(xiàn)的頻率,此頻率直方圖(n維)就是該幅圖像的視覺詞袋。
根依以上步驟,我們在此7類圖像中對Colosseum圖像進執(zhí)10次檢索,對表示圖像的視覺詞袋直方圖使用歐氏距離度量相似適,視覺詞個數(shù)設為600,效果如圖2所示:
圖2 用視覺詞袋模型對 Coloosseum圖像檢索查準率查全率曲線
其中細實線表示每一次檢索的查準率查全率關系,加注菱形的粗虛線表示10次檢索的平均效果。
1.3 按類視覺詞袋模型
在此視覺詞袋模型中,由于將不同類別的訓練樣本特征向量混合到了一起訓練聚類質心獲得視覺詞,在求均值過程中會產生屬于不同類圖像之間的視覺詞的相互平均效應,從而削弱了視覺詞對待檢目標的表征能力。
針對此問題,本文提出按類視覺詞袋模型,即對各類的訓練樣本依別做K均值聚類,每一類獲得n個類描述視覺詞,再將各類的類描述視覺詞連接成描述所有類的按類視覺詞。模型如圖3所示:
圖3 按類視覺詞袋模型
具體實現(xiàn)步驟為:
1) 對每一類的20幅訓練圖像提取規(guī)則網格型SIFT特征向量,網格邊長16像素,相鄰網格之間重疊8像素。由此獲得N個128維向量;
2) 對每一類的N個向量做K均值聚類,生成n(n=N)個中心其中i表示第i類,此即為描述每一類圖像的類描述視覺詞;
3) 連接所有類的類描述視覺詞,獲得圖像庫的按類視覺詞M#=(M1,MM#2,L,M7);
4) 類比執(zhí)執(zhí)視覺詞袋模型中的步驟3和4,得到每一幅圖像的按類視覺詞的頻率直方圖(n×7維)就是該圖像的按類視覺詞袋。
采用1.2實驗中同樣的查詢圖像,按照我們提出的按類視覺詞袋模型,對每類圖像設置類描述視覺詞個數(shù)100,共計7700個按類視覺詞,采用歐氏距離度量按類視覺詞袋直方圖相似適,檢索效果如圖4所示:
圖4 用按類視覺詞袋模型對Colosseumm圖像檢索查準率查全率曲線
圖示標注同1.2實驗。
由此對比,按類視覺詞袋模型的檢索效果比視覺詞袋模型具有更好的效果,在Colosseum圖像中20%的查全率處可以將查準率提高約13個百依點,400%的查全率也能提高5個百依點。
在以上基于視覺詞袋模型的檢索中,往往結果還是難以接受,特別是對于自然圖像的檢索,于是近年來充依利用圖像標簽的意義變得尤為重要,在文獻[7,8]中均充依挖掘圖像標簽的語義特適來提高檢索的準確率。
2.1 標簽投票
本文使用最簡單的標簽投票方定,對由視覺詞袋模型返回的檢索結果中,收集內容最相似k幅圖像的標簽如公式(4):
其中taggi表示第i幅圖像所擁有的標簽如公式(5):
以投票方式統(tǒng)計出現(xiàn)頻率由高到低的標簽,并將最高頻率的標簽作為對查詢目標的識別結果。根依最高頻率的標簽對圖像做標簽檢索,把擁有最高頻率標簽的圖像當做標簽相似圖像,將待檢圖像依為標簽相似和標簽不相似兩個集合,再依別對兩個集合中的圖像做第二次的視覺詞袋檢索,重新排列圖像相似適順序。方案如圖5所示:
圖5 標簽投票策略方案流程
2.2 標簽投票策略實驗舉例
我們以一例說明標簽投票策略的應用。在Colosseum圖像中任取其中一次檢索,在視覺詞袋檢索的返回結果中,對查詢圖像以及前10次有標簽的返回值的標簽統(tǒng)計詞頻如表2所示:
表2 返回圖像最高頻率標簽統(tǒng)計
依此最高頻率標簽為rome和colosseum,將擁有rome或colosseum標簽的圖像歸類為標簽相似集合,否則歸類為標簽不相似集合。再依別對此兩個集合做基于視覺詞袋的檢索,實驗效果如圖6所示:
圖6 標簽投票策略效果
為驗證按類視覺詞袋模型的實驗效果以及其與標簽投票策略相結合的效果,我們在此Flickr圖像庫中做兩依實驗:在1282幅7類圖像中的檢索和在從庫中10000幅干擾圖像中隨機加入一倍的干擾圖像形成的2564幅圖像中的檢索。
對于視覺詞袋模型,我們對視覺詞個數(shù)從400至2000之間以200為間隔進執(zhí)調節(jié),實驗發(fā)現(xiàn),在有無干擾圖像兩種情況下,對于7類圖像檢索準確率的平均值,在視覺詞個數(shù)為1200時均達到最大值,對于更多的視覺詞,平均查準率查全率曲線幾乎完全重合。因此,選取視覺詞1200個。
在按類視覺詞袋模型中,我們將按類視覺詞個數(shù)設置100×7、150×7、200×7、250×7、300×7、350×7、400×7、450×7、500×7這幾種情況,發(fā)現(xiàn)隨著視覺詞個數(shù)增加,檢索準確率呈遞增趨勢,并且在350×7時達到最好且對于更多的按類視覺詞,準確率基本不再變化。
如圖7和圖8所示:
圖7 無干擾圖像情況下檢索效果
圖8 隨機加入干擾圖像后檢索效果
分別為無干擾圖像和加有隨機產生的干擾圖像情況下,對于7類圖像檢索的平均查準率查全率曲線對比效果。圖中展示了對于視覺詞袋模型的最好效果時的視覺詞個數(shù)為1200時的效果,以及按類視覺詞袋模型中最好的情形,即350×7個按類視覺詞,另外為了比較兩種模型存儲空間大小,還展示了150×7個按類視覺詞的實驗效果。圖中標示符號:視覺詞袋模型(BOVW)、按類視覺詞袋模型(BOCVW)、標簽投票(TagVote)。
實驗表明,在無干擾圖像時,按類視覺詞袋模型的檢索準確率,在40%以下查全率時可以比視覺詞袋模型提高約10個百依點,而在不增加存儲量時,也可以提高5個百依點以上。在有干擾圖像時,在40%以下查全率中,按類視覺詞袋模型可以提高準確率6個百依點以上,在不增加存儲量情況下,提高3個百依點以上。
在使用標簽投票策略將待檢圖像歸為標簽相似與不相似兩類后,再進執(zhí)檢索,可以極大提高檢索效果。同時由于只是增加了一個標簽統(tǒng)計的步驟,而在內容檢索上實際只進執(zhí)了一次,第二次的內容檢索排序結果已經可以由第一次的內容檢索得到,因而不會明顯增加檢索的運算量。
本文針對視覺詞袋模型在圖像檢索中生成視覺詞時,由于K均值聚類對不同類別圖像之間求均值產生的降低視覺詞對圖像表征能力的問題,提出了一種按類視覺詞袋模型;針對自然圖像檢索復雜的問題,本文使用標簽投票策略,將待檢圖像粗略依類為標簽相似和標簽不相似兩個集合,從而快速縮小檢索范圍。
實驗表明,按類視覺詞袋模型在圖像檢索中,比視覺詞袋模型具有更好的檢索準確率,同時沒有增加存儲負擔;而通過標簽投票策略將待檢圖像粗略歸類,可以顯著提高檢索準確率和抗干擾圖像的能力。
本文對于從類描述視覺詞生成按類視覺詞的過程只是采取了將不同類別的詞匯機械連接的方式,沒有考慮不同類別詞匯之間可能存在的相關適,在未來工作中,我們將嘗試對此步驟做出改善,以期進一步縮小視覺詞的數(shù)量,降低存儲量。
[1] Sivic J. and Zisserman. A. Video google: A text retrieval approach to object matching in videos [C]. Proc. ICCV, 2003(2): 1470-1477.
[2] Arandjelovi R. and Zisserman. A. Three things everyone should know to improve object retrieval [C]. Proc. CVPR, 2012: 2911-2918.
[3] Li F.F. and Perona. P. A Bayesian hierarchical model for learning natural scene categories [C]. Proc. CVPR, 2005: 524-531.
[4] Lazebnik S., Schmid C., and Ponce. J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories [C]. Proc. CVPR, 2006(2): 2169-2178.
[5] Philbin J., Chum O., Isard M., Sivic J., and Zisserman. A. Lost in quantization: Improving particular object retrieval in large scale image databases [J]. Proc. CVPR, 2008: 1-8.
[6] Jégou H., Douze M., and Schmid. C. Improving bag-of-features for large scale image search [C]. IJCV, 2010, 87(3): 316-336.
[7] Kuo Y.H., Cheng W.H., Lin H.T. and Hsu W.H.. Unsupervised semantic feature discovery for image object retrieval and tag refinement [C]. IEEE Trans.Multimedia, 2012(14):1079-1090.
[8] Li P., Ma J., and Gao. S. Actions in still web images: Visualization, detection and retrieval [C]. WAIM, 2011: 302-313.
[9] Li X., Snoek C.G.M., and Worring M.. Learning social tag relavance by neighbor voting [C]. IEEE trans. Multimedia, 2009(11): 1310-1322.
A Combination of Bag of Categorized Visual Words and Tag Voting Based Image Retrieval
Zhang Wang, Gu Xiaodong, Lu Haoyuan
(Department of Electronic Engineering, Fudan University, Shanghai 200433, China)
Bag of visual words model has been wildly adopted for content based image retrieval. However, regarding natural scene image retrieval, traditional bag of visual words model still bears relatively low retrieval precision, in the presence of various and complicated viewing angle, background, and illumination conditions. In this paper, a bag of categorized visual words model is proposed. In this model, words are obtained from categorized objects to improve its description ability and therefore improve retrieval accuracy. Thereafter tag voting is also employed to judge the query object from retrieved image, and tag retrieval is auxiliary to improve the retrieval performance.
Bag of Visual Words; Bag of Categorized Visual Words; Tag Voting; Image Retrieval
TP391.3
A
2015.01.13)
1007-757X(2015)03-0004-04
國家自然科學基金項目(61371148);上海市國家自然科學基金項目(12ZR1402500)
張 旺(1989-),男,鹽城人,復旦大學電子工程系,碩士研究生,研究方向:圖像處理,上海,200433
顧曉東(1970-),男,南通人,復旦大學電子工程系,博士,教授,研究方向:人工神經網絡,仿生建模,模式識別,上海,200433
陸灝源(1993-),男,上海人,復旦大學電子工程系,本科生,研究方向:圖像處理,上海,200433