胡屹群,周紹光,岳 順,王 莎
(河海大學(xué)地球科學(xué)與工程學(xué)院,江蘇 南京 211100)
利用視覺(jué)詞袋模型和顏色直方圖進(jìn)行遙感影像檢索
胡屹群,周紹光,岳 順,王 莎
(河海大學(xué)地球科學(xué)與工程學(xué)院,江蘇 南京 211100)
基于內(nèi)容的遙感影像檢索已經(jīng)成為遙感領(lǐng)域的研究熱點(diǎn),因此,本文提出了一種綜合視覺(jué)詞袋模型和顏色直方圖的遙感影像檢索方法,利用尺度不變特征算子提取影像的局部不變特征,通過(guò)視覺(jué)詞袋模型組合局部特征,生成每幅影像的金字塔直方圖,接著結(jié)合每幅影像的顏色直方圖生成更有區(qū)分性的特征向量,利用新的特征向量集訓(xùn)練支持向量機(jī)分類(lèi)器,通過(guò)分類(lèi)器輸出與查詢(xún)屬于一類(lèi)的影像,完成遙感影像檢索。試驗(yàn)結(jié)果表明,本文方法不僅提高了影像檢索的查準(zhǔn)率和查全率,并且驗(yàn)證了該方法能有效克服影像光照、噪聲、方向等變化,魯棒性較好。
局部不變特征;視覺(jué)詞袋模型;顏色直方圖;支持向量機(jī)分類(lèi)器;影像檢索
隨著空間探測(cè)技術(shù)的發(fā)展,遙感影像因其特有的優(yōu)勢(shì)廣泛應(yīng)用于國(guó)土資源、城市規(guī)劃、環(huán)境安全等多個(gè)領(lǐng)域[1]。因此深入研究基于內(nèi)容的遙感影像檢索技術(shù),發(fā)展該技術(shù)在各個(gè)領(lǐng)域中的應(yīng)用具有極其重要的意義[2]?;趦?nèi)容的影像檢索的關(guān)鍵技術(shù)是特征提取和相似性匹配算法。顏色特征是基于內(nèi)容遙感影像檢索提取的特征之一[3],每個(gè)物體有其獨(dú)特的顏色特征,一類(lèi)物體的顏色特征往往相似,可以作為區(qū)分其他類(lèi)別物體的特征,并且顏色特征對(duì)圖像的尺度、形狀、方向等的變化具有較好的魯棒性。但是,如果圖像的檢索僅僅使用顏色特征進(jìn)行低層特征描述,則檢索結(jié)果的準(zhǔn)確率和查全率不高,泛化性不太好。針對(duì)這一不足,相關(guān)研究者提出了局部不變特征[4],局部不變特征是從影像細(xì)節(jié)紋理結(jié)構(gòu)中提取出的特征。這種特征對(duì)圖像的位移、旋轉(zhuǎn)、尺度、光照等變化有非常好的魯棒性,并且局部不變特征非常適用于復(fù)雜背景中特定目標(biāo)的提取。為進(jìn)一步克服低層特征和高層語(yǔ)義[5]的差異,有研究者提出了中層特征建模方法[6],中層特征是對(duì)低層特征的重新組合。視覺(jué)詞袋(bag of visual words model,BOVW)模型就是這樣的中層特征,基于視覺(jué)詞袋模型可以獲取圖像的金字塔直方圖,即全局特征向量,可以通過(guò)計(jì)算兩個(gè)特征向量的直方圖距離確定兩張影像的相似度。該模型已在遙感影像檢索的應(yīng)用中取得了巨大成功,成為一種新的、有效的影像內(nèi)容特征表示方法。但是,基于視覺(jué)詞袋模型的影像檢索也存在問(wèn)題,加入空間金字塔匹配(spatial pyramid matching kernel,SPM)[7]算法的視覺(jué)詞袋模型雖然改變了傳統(tǒng)視覺(jué)詞袋模型的“無(wú)序”,提供了影像的空間結(jié)構(gòu)信息,但也失去了視覺(jué)詞袋模型本身的優(yōu)勢(shì),抗旋轉(zhuǎn)性不及傳統(tǒng)視覺(jué)詞袋模型。
在基于內(nèi)容的遙感影像檢索研究領(lǐng)域里,針對(duì)紋理特征、顏色特征和局部不變特征的研究較多[8]。但是由于遙感圖像的紋理特征比較接近,存在圖像檢索準(zhǔn)確性不高的缺點(diǎn),而局部不變特征和顏色特征因具備直觀、簡(jiǎn)單及較強(qiáng)的魯棒性的優(yōu)勢(shì)獲得遙感研究者的關(guān)注,并且顏色直方圖具備抗旋轉(zhuǎn)的優(yōu)勢(shì),因此本文選擇局部不變特征和顏色特征作為特征提取的內(nèi)容,結(jié)合視覺(jué)詞袋模型和顏色直方圖生成一幅影像新的全局特征向量,利用特征向量集和支持向量機(jī)(support vector machine,SVM)[9]訓(xùn)練分類(lèi)模型,分類(lèi)模型訓(xùn)練完畢,向分類(lèi)器輸入大數(shù)量的未知影像,分類(lèi)器就會(huì)輸出與查詢(xún)影像類(lèi)似的影像,從而實(shí)現(xiàn)遙感影像檢索。
綜合利用視覺(jué)詞袋模型與顏色直方圖進(jìn)行遙感數(shù)據(jù)檢索,可以實(shí)現(xiàn)更多、更好的影像檢索功能,幫助相關(guān)研究者便捷地獲取遙感數(shù)據(jù)。該方法在目標(biāo)檢測(cè)、影像檢索及影像分類(lèi)的應(yīng)用上具有很大的研究?jī)r(jià)值。
1.1 局部不變特征和視覺(jué)詞袋模型
基于局部不變特征的圖像表示通常需要兩個(gè)步驟[10]:①檢測(cè)步驟往往根據(jù)某些顯著點(diǎn)來(lái)表示圖像興趣區(qū)域,這些顯著點(diǎn)被稱(chēng)為興趣點(diǎn);②計(jì)算每個(gè)以興趣點(diǎn)為中心創(chuàng)建的圖斑[11]的描述子。本文選擇文獻(xiàn)[12]提出的尺度不變特征變換(scale invariant feature trans form,SIFT)算法檢測(cè)特征點(diǎn)和描述每塊圖斑。SIFT的實(shí)質(zhì)可以歸納為在不同尺度空間查找關(guān)鍵點(diǎn)的問(wèn)題,而關(guān)鍵點(diǎn)的坐標(biāo)位置和對(duì)應(yīng)的尺度是圖像在不同尺度空間進(jìn)行高斯差分濾波和降采樣得到的局部極值。高斯差分圖像是由兩個(gè)尺度不同的高斯模糊圖像相減得到的
D(x,y,σ)=L(x,y,kσ)-L(x,y,σ)
(1)
其中,L(x,y,σ)是指由原始圖像與帶有標(biāo)準(zhǔn)差σ的高斯核函數(shù)卷積生成的圖像序列表達(dá)式;k為尺度倍率因子。
視覺(jué)詞袋模型是目前比較成熟和成功的圖像檢索模型,包含圖像局部特征提取、視覺(jué)詞匯表生成、局部特征編碼生成加權(quán)直方圖,以及生成圖像直方圖后進(jìn)行圖像檢索等環(huán)節(jié)。視覺(jué)詞袋模型將所有的圖像集表示成維數(shù)相同的特征向量,解決了描述圖像局部不變特征數(shù)量多和不同圖像的特征向量維數(shù)不一致問(wèn)題。但是傳統(tǒng)的視覺(jué)詞袋模型并沒(méi)有較好地利用局部特征在特征空間的結(jié)構(gòu)信息,并且計(jì)算復(fù)雜度高,耗時(shí)更多。2005年,Grauman等首次提出了金字塔匹配核(pyramid match kernel,PMK)的概念,金字塔匹配核[13]具有較好的匹配性能,但是并不適用高維特征。為了有效利用局部特征在圖像的空間位置信息,Lazebnik等提出了空間金字塔匹配核函數(shù)[14],在生成加權(quán)直方圖的過(guò)程中,引入圖像的空間位置信息。這種算法可以豐富局部特征描述模型的描述能力,減少了混淆背景對(duì)視覺(jué)物體識(shí)別的影響,增加了局部特征描述模型的魯棒性??臻g金字塔算法是一種常用的以多分辨率來(lái)表示圖像的有效結(jié)構(gòu),它在圖像的原始空間進(jìn)行金字塔式劃分,將圖像分割成不斷精細(xì)的子塊,再把表示每個(gè)子塊的直方圖加權(quán)連接,生成整幅圖像的金字塔直方圖。空間金字塔匹配核的計(jì)算公式為
(2)
式中,Xm和Ym分別為兩幅圖像中第m個(gè)通道的二維描述子集合,分別為描述子的橫坐標(biāo)和縱坐標(biāo);M為通道數(shù)目,即視覺(jué)詞匯大小;L為金字塔分層的層數(shù)。最后根據(jù)式(3)對(duì)每個(gè)空間直方圖進(jìn)行加權(quán),得到特征向量的維數(shù)
(3)
1.2 顏色直方圖
顏色直方圖具備計(jì)算簡(jiǎn)單、運(yùn)行效率高及旋轉(zhuǎn)不變性等優(yōu)點(diǎn),并且對(duì)其歸一化后還具備尺度不變性,因此在圖像檢索中應(yīng)用相對(duì)廣泛[15]。顏色直方圖反映了一幅圖像在顏色上的全局信息,統(tǒng)計(jì)像素顏色出現(xiàn)的概率為像素概率的估計(jì),每幅圖像都有與之對(duì)應(yīng)的顏色直方圖。
給定一幅遙感數(shù)字影像f,此影像的顏色直方圖歸一化計(jì)算公式為
(4)
式中,h[ck]為影像中第k種顏色在此數(shù)字影像中出現(xiàn)的頻率數(shù)值
(5)
式中,N1和N2分別表示數(shù)字影像的行數(shù)和列數(shù);fi,j表示數(shù)字影像中坐標(biāo)為i,j處的像素值。
本文提出的遙感影像檢索原理是結(jié)合視覺(jué)詞袋模型和顏色直方圖生成新的全局影像直方圖,檢索的流程大致可以分為特征提取、特征建模和分類(lèi)器訓(xùn)練3個(gè)步驟。
2.1 特征提取
數(shù)據(jù)庫(kù)中遙感影像大小為M×N像素,以a×a像素的網(wǎng)格大小劃分影像,一幅影像有(M/a)×(N/a)個(gè)網(wǎng)格。設(shè)置影像圖斑(patch)大小為(2a)×(2a)像素,一個(gè)圖斑計(jì)算一個(gè)描述子,即一個(gè)特征向量。計(jì)算時(shí),每個(gè)圖斑劃分為(a/2)×(a/2)個(gè)方塊(bin),每個(gè)方塊可以提取8維的局部不變特征,因此每個(gè)圖斑獲取的特征向量的維數(shù)為(a/2)×(a/2)×8=2a2。接著每個(gè)圖斑向左移動(dòng)一個(gè)網(wǎng)格就獲得新的圖斑。以此類(lèi)推,移動(dòng)到影像邊緣,然后往下移動(dòng)。最終一幅遙感影像由(M/a-1)×(N/a-1)個(gè)2a2維特征向量表示。
2.2 特征建模
將一幅影像描述為一個(gè)局部區(qū)域的無(wú)序集合,接著采用K-means聚類(lèi)法將局部區(qū)域或圖斑進(jìn)行聚類(lèi),每個(gè)聚類(lèi)中心看作視覺(jué)詞典中一個(gè)視覺(jué)詞匯(visual word),視覺(jué)詞匯由聚類(lèi)中心對(duì)應(yīng)特征形成的碼字(code word)來(lái)表示,這就是特征量化過(guò)程。所有視覺(jué)詞匯形成的視覺(jué)詞典(visual vocabulary)就對(duì)應(yīng)一本碼書(shū)(code book),詞典大小由詞匯的個(gè)數(shù)決定。本文選擇M個(gè)詞匯,每個(gè)單詞表示2a2維特征向量。影像中每個(gè)特征都被影射到視覺(jué)詞典中某個(gè)詞匯上,這種映射通過(guò)計(jì)算特征的距離去實(shí)現(xiàn)。然后通過(guò)統(tǒng)計(jì)每個(gè)視覺(jué)單詞在一幅影像特征里出現(xiàn)的次數(shù),獲取每幅影像的特征袋(bag of features,BOF)。利用視覺(jué)詞袋模型獲得影像集的全局金字塔直方圖,接著分別求出每張影像的3個(gè)顏色分量歸一化直方圖,即顏色直方圖,將全局金字塔直方圖與顏色直方圖組合,生成每幅影像的新的直方圖,該直方圖更具有區(qū)分性。
2.3 分類(lèi)器訓(xùn)練
基于歐氏距離的圖像檢索是傳統(tǒng)圖像檢索的基本手段,本文選擇使用支持向量機(jī)分類(lèi)器進(jìn)行檢索。首先由上述步驟獲取了遙感影像集的每幅影像的特征向量,根據(jù)這些特征向量訓(xùn)練分類(lèi)器,當(dāng)分類(lèi)精度較高時(shí),完成分類(lèi)器的訓(xùn)練。分類(lèi)器訓(xùn)練結(jié)束,向其輸入大量的未知圖像,分類(lèi)器會(huì)輸出需要檢索的目標(biāo)影像類(lèi),完成最終的遙感影像檢索過(guò)程。
本文試驗(yàn)選擇Merced Land Use Dataset數(shù)據(jù)庫(kù),包含21類(lèi)場(chǎng)景遙感衛(wèi)星影像分類(lèi)(每個(gè)類(lèi)別100張圖片),每張圖像的大小均為256×256像素。為了更能突出本文提出的遙感影像檢索方法的魯棒性較強(qiáng)的性能,優(yōu)先選取發(fā)生光照、平移、縮放或旋轉(zhuǎn)變化的地物作為遙感影像檢索的影像集。因此,試驗(yàn)選擇具有代表性的建筑物、森林、道路和水體4類(lèi)影像作為試驗(yàn)的查詢(xún)影像,如圖1所示。
圖1 Merced Land Use Dataset數(shù)據(jù)集4類(lèi)地物遙感影像
為了客觀評(píng)價(jià)本文方法的檢索效果,試驗(yàn)采用查準(zhǔn)率、查全率曲線(xiàn)圖對(duì)試驗(yàn)結(jié)果進(jìn)行分析,其中查準(zhǔn)率(precision)和查全率(recall)的計(jì)算公式為
(6)
式中,M為返回的影像數(shù)目;N為返回影像中與查詢(xún)影像屬于同一類(lèi)別的影像數(shù)目;P為影像集中與查詢(xún)影像屬于同一類(lèi)別的影像數(shù)目。
為了驗(yàn)證本文提出的遙感影像檢索方法查準(zhǔn)率和查全率相對(duì)較高、魯棒性較強(qiáng)的優(yōu)勢(shì),本文又進(jìn)行了基于局部不變特征的影像檢索方法和綜合紋理特征及顏色特征的影像檢索方法的兩個(gè)試驗(yàn)對(duì)比,以查準(zhǔn)率和查全率作為檢索性能的評(píng)價(jià)指標(biāo)。試驗(yàn)結(jié)果如圖2、圖3所示。
圖2是3種方法影像檢索方法的查準(zhǔn)率對(duì)比圖,圖3則是查全率對(duì)比圖。從圖2可以看出本文提出的方法正確率更高,其余兩種方法總體上都略低于本文方法,并且針對(duì)4種包含100張的影像類(lèi),說(shuō)明本文提出的方法具有較好的魯棒性和泛化性。從圖3可以看出本文方法的查全率也比較高,而基于紋理和顏色的影像檢索的查全率相對(duì)很低,這是由于遙感影像的紋理特征比較接近,導(dǎo)致圖像檢索準(zhǔn)確性不高。綜上所述,本文提出的影像檢索方法的查全率和查準(zhǔn)率都高于傳統(tǒng)的基于局部不變特征的影像檢索方法,也高于綜合紋理特征和顏色特征的檢索方法,從而驗(yàn)證了本文方法能有效克服圖像光照、噪聲、方向等變化,其魯棒性較好。
圖2 查準(zhǔn)率對(duì)比
圖3 查全率對(duì)比
本文提出了基于視覺(jué)詞袋模型和顏色直方圖的遙感影像檢索方法,使用SIFT算法實(shí)現(xiàn)影像局部不變特征提取,通過(guò)視覺(jué)詞袋模型組合局部特征生成全局金字塔直方圖,綜合金字塔直方圖和顏色直方圖生成一幅影像的全局特征向量。再將訓(xùn)練影像集的全局特征向量集輸入分類(lèi)器進(jìn)行訓(xùn)練,向訓(xùn)練好的分類(lèi)器輸入大量的測(cè)試影像集,獲取與查詢(xún)影像屬于同一類(lèi)別的影像,完成影像檢索過(guò)程。觀察不同地物和不同影像檢索方法的查準(zhǔn)率和查全率結(jié)果圖,可以看出本文提出的基于視覺(jué)詞袋模型和顏色直方圖的遙感影像檢索方法,魯棒性較強(qiáng),總體性能較好,為遙感影像檢索提供了一定的參考。
[1] 李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘[J]. 測(cè)繪學(xué)報(bào), 2014,43(12): 1211-1216.
[2] PEIJUN D, YUNHAO C, HONG T, et al. Study on Content-Based Remote Sensing Image Retrieval[C]∥ Geoscience and Remote Sensing Symposium. Seoul: IEEE International Geoscience and Remote Sensing Symposium, 2005.
[3] ZHIYONG A, FENG Z, PING D, et al. Image Retrieval Based on the Color-Spatial Distribution Feature of Generalized Images[C]∥Education Technology and Computer Science (ETCS). Chongqing: 2010 Second International Workshop on IEEE, 2010.
[4] YANG Y, NEWSAM S. Geographic Image Retrieval Using Local Invariant Features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013,51(2): 818-832.
[5] 陶超,譚毅華,彭碧發(fā),等.一種基于概率潛在語(yǔ)義模型的高分辨率遙感影像分類(lèi)方法[J]. 測(cè)繪學(xué)報(bào), 2011, 40(2): 156-162.
[6] 周維勛,邵振峰,侯繼虎.利用視覺(jué)注意模型和局部特征的遙感影像檢索方法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2015, 40(1): 46-52.
[7] LAZEBNIK S, SCHMID C, PONCE J. Spatia-l Pyramid Matching[J]. Object Categorization Computer and Human Vision Perspectives, 2009, 3(4):37-42.
[8] 趙銀娣,蔡燕.紋理特征在高空間分辨率遙感影像分類(lèi)中的應(yīng)用探討[C]∥測(cè)繪科學(xué)前沿技術(shù)論壇摘要集.武漢: [s.n.],2008.
[9] RAHMAN M M, DESAI B C, BHATTACHARYA P. Medical Image Retrieval with Probabilistic Multi-class Support Vector Machine Classifiers and Adaptive Similarity Fusion[J]. Computerized Medical Imaging and Graphics, 2008, 32(2): 95-108.
[10] 孫浩,王程,王潤(rùn)生.局部不變特征綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2011, 16(2):141-151.
[11] 賴(lài)祖龍,申邵洪,程新文,等.基于圖斑的高分辨率遙感影像變化檢測(cè)[J]. 測(cè)繪通報(bào),2009(8):17-20.
[12] LOWE D G. Distinctive Image Features from Scale Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[13] 厲心剛.基于SPM特征提取的面向?qū)ο筮b感影像分類(lèi)研究[D]. 武漢:武漢理工大學(xué),2011.
[14] LAZEBNIK S, SCHMID C, PONCE J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). [S.l.]: IEEE, 2006.
[15] GIRGIS M R, REDA M S.Content-based Image Retrieval Using Image Partitioning with Color Histogram and Wave-let-based Color Histogram of the Image[J]. International Journal of Computer Applications, 2014, 104(3): 17-24.
RemoteSensingImageRetrievalUsingBagofVisualWordsModelandColorHistogram
HU Yiqun,ZHOU Shaoguang,YUE Shun,WANG Sha
(College of Earth Science and Engineering, Hohai University, Nanjing 211100, China)
Content-based remote sensing image retrieval has become a research hotspot in remote sensing field. In view of this, a new method based on this bag of visual words model and color histogram is proposed for remote sensing image retrieval. The method extracts image local invariant features with scale invariant feature descriptor, combines local features by bag of visual words model, and generates pyramid histogram for each image. Then a more distinctive feature vector is achieved by combining the color histogram of each image, the support vector machine classifier is trained using the feature vector set generated last step, and the images classified into one category with the query image then to be output through the classifier. Finally remote sensing image retrieval procedures are completed. The experimental results show that the proposed method not only improves the precision and recall of image retrieval, but also verifies that the method can efficiently overcome the changes of illumination, noise and direction, and has better robustness.
local invariant features; bag of visual words model; color histogram; support vector machine classifier; image retrieval
P237
A
0494-0911(2017)01-0053-05
胡屹群,周紹光,岳順,等.利用視覺(jué)詞袋模型和顏色直方圖進(jìn)行遙感影像檢索[J].測(cè)繪通報(bào),2017(1):53-57.
10.13474/j.cnki.11-2246.2017.0012.
2016-04-10;
2016-07-18
國(guó)家自然科學(xué)基金(41271420/D010702)
胡屹群(1990—),女,碩士生,主要研究方向?yàn)閿z影測(cè)量與遙感。E-mail:1174679344@qq.com
周紹光。E-mail: zhousg1966@126.com