,,
(1.常熟市第五人民醫(yī)院,江蘇 常熟 215500; 2.中國(guó)礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116;3.國(guó)防科技大學(xué),長(zhǎng)沙 410073)
多媒體和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,帶來了海量的圖像資源,如何從海量圖像數(shù)據(jù)中挖掘有用信息是一個(gè)具有挑戰(zhàn)的研究課題。其中,研究基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)技術(shù)是挖掘有用圖像信息的有效手段之一[1]。CBIR的基本思想是提取圖像中具有鑒別能力的特征,然后通過相似性測(cè)度或者分類器來實(shí)現(xiàn)圖像的檢索[2]。基于紋理特征的檢索是最常用的圖像檢索方法,此類方法常提取圖像的灰度共現(xiàn)矩陣特征、小波變換特征等紋理特征,然后采用歐氏距離等相似性測(cè)度來實(shí)現(xiàn)圖像的檢索[3-5]。為了提高特征的鑒別能力,提出了許多多特征融合的圖像檢索方法,包括融合紋理、顏色、邊緣等特征。還有許多新的特征描述子用于圖像檢索領(lǐng)域,如線性判別分析特征、高層語義特征、詞袋特征等。近些年,隨著深度學(xué)習(xí)方法的深入研究,采用深度學(xué)習(xí)思想自動(dòng)提取鑒別能力強(qiáng)的特征也是CBIR領(lǐng)域常用的特征提取方式之一,包括提取圖像的卷積神經(jīng)網(wǎng)絡(luò)特征(CNN)等[6-10]。除了特征提取之外,特征的分類也是圖像檢索技術(shù)的重要環(huán)節(jié)之一。歐氏距離、卡方距離、相關(guān)系數(shù)、余弦測(cè)度等都是測(cè)量特征相似性的有效手段,還有支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法也常用來進(jìn)行特征分類[11-13]。理論上講,特征分類方法本身并沒有明顯的優(yōu)劣之分,其分類性能主要與應(yīng)用場(chǎng)景相關(guān),包括特征的表達(dá)能力、數(shù)據(jù)集的構(gòu)建以及應(yīng)用中偏重的評(píng)價(jià)指標(biāo)等。就圖像檢索而言,目前在一些簡(jiǎn)單的測(cè)試數(shù)據(jù)集上已經(jīng)達(dá)到了很高的檢索指標(biāo)。然而對(duì)于一些復(fù)雜的測(cè)試數(shù)據(jù)集,誤檢現(xiàn)象還是過于頻繁。為了降低誤檢現(xiàn)象,本文源于二次檢索的思路,提出了一種基于有向圖模型的圖像檢索方法。設(shè)計(jì)思想是在傳統(tǒng)圖像檢索方法的基礎(chǔ)上,增加一級(jí)基于有向圖距離測(cè)度的二次檢索環(huán)節(jié),降低誤檢現(xiàn)象。其核心是依據(jù)圖像之間的距離測(cè)度和相關(guān)特性構(gòu)建有向圖模型,借助圖像之間的相關(guān)性質(zhì)降低單純依賴距離造成的誤檢現(xiàn)象,提高圖像檢索性能。
本文提出的圖像檢索方法的核心是構(gòu)建圖像數(shù)據(jù)集的有向圖模型,依據(jù)有向圖模型描述圖像之間的相關(guān)特性以及特征之間的距離關(guān)系,通過距離測(cè)度的初次檢索和有向圖距離的二次判斷,來降低圖像檢索可能出現(xiàn)的誤檢現(xiàn)象。下面首先介紹有向圖模型的元素組成以及構(gòu)建方法,然后再介紹基于有向圖模型的圖像檢索方法。
令S={Ii|i=0,1,…,n}表示一個(gè)圖像集合,其中,n表示集合中圖像中的數(shù)量。
令φ表示一個(gè)圖像映射函數(shù),用于提取圖像特征,圖像Ii對(duì)應(yīng)的特征向量vi可以表示為:
vi=φ(Ii)
(1)
令D表示一個(gè)距離測(cè)度函數(shù),用于計(jì)算兩個(gè)特征向量之間的距離。特征向量vi和vj之間的距離可以表示為:
dij=D(vi,vj)
(2)
本文將圖像映射函數(shù)φ和距離測(cè)度函數(shù)D組成一個(gè)二元組Ψ=[φ,D],作為圖像的描述子。
在圖像查詢時(shí),對(duì)于查詢圖像Iq而言,可以計(jì)算該圖像與數(shù)據(jù)庫(kù)中各個(gè)圖像之間的距離測(cè)度,然后按照距離由小到大的順序給出查詢排序列表,表示為:
τq=(In1,In2,…,Ins)
(3)
其中:ns表示查詢到的圖像總數(shù),滿足條件ns=n,于是有τq?S。
本文采用有向圖模型描述圖像之間的關(guān)聯(lián)特性,記為:
G=(V,E)
(4)
其中,頂點(diǎn)集合V由圖像集合S代替,也即V=S。這樣,每一幅圖像都是有向圖模型中的一個(gè)頂點(diǎn)。邊集合E用于定義圖像之間的相關(guān)性。令c(q,nj)表示圖像Iq和Inj之間的相關(guān)測(cè)度,兩幅圖像的相關(guān)測(cè)度得分越大,說明兩幅圖像之間的關(guān)聯(lián)特性越強(qiáng)。當(dāng)兩幅圖像之間的相關(guān)測(cè)度得分超過給定閾值tc,且測(cè)試圖像Inj處于查詢圖像Iq的查詢排序列表τq的前ns個(gè)位置時(shí),本文認(rèn)為圖像Iq到Inj的方向上存在一條邊,可以表示為:
E={(Iq,Inj)|τq(nj)≤ns,c(q,nj)≥tc}
(5)
其中:τq(nj)表示排序列表τq中圖像Inj的排列位置。很明顯,相關(guān)測(cè)度閾值tc越小,得到的有向圖模型越稠密。反之,得到的有向圖模型越稀疏。
綜上所述,用于圖像檢索的有向圖模型構(gòu)建涉及三個(gè)關(guān)鍵環(huán)節(jié),包括圖像映射函數(shù)φ、距離測(cè)度D和相關(guān)測(cè)度c。詳細(xì)介紹如下。
1)圖像映射函數(shù):圖像映射函數(shù)用于提取圖像的特征。對(duì)于圖像檢索而言,常用的特征有紋理特征、顏色特征、邊緣特征等。選擇具有顯著性和穩(wěn)健性的特征對(duì)于圖像檢索而言意義重大。然而,對(duì)于不同的圖像類別,其顯著性和穩(wěn)健性特征可能存在較大差異。因此,需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)的不同有針對(duì)性的選擇圖像映射函數(shù),提取圖像特征。在圖像特征提取方面目前已經(jīng)有很多成熟的方法,這不是本文的研究重點(diǎn)。在本文的仿真實(shí)驗(yàn)中,根據(jù)本文所選的兩個(gè)數(shù)據(jù)集的不同,本文結(jié)合文獻(xiàn)[10]所述方法以及本文的實(shí)驗(yàn)結(jié)果,選擇不同的紋理、邊緣和顏色特征,具體在實(shí)驗(yàn)部分詳細(xì)介紹。
2)距離測(cè)度:距離測(cè)度用于測(cè)量?jī)蓚€(gè)特征向量之間的相似程度,常用的距離測(cè)度有歐氏距離、街區(qū)距離、明氏距離、馬氏距離、卡方距離等。本文選擇歐氏距離作為距離測(cè)度,原因是該距離測(cè)度兼顧了運(yùn)算效率和度量精度,是目前應(yīng)用最廣的距離測(cè)度。于是有
D(vi,vj)=‖vi-vj‖
(6)
3)相關(guān)測(cè)度:相關(guān)測(cè)度是本文在構(gòu)建有向圖模型的過程中,結(jié)合距離測(cè)度與夾角余弦測(cè)度設(shè)計(jì)的,對(duì)于有向圖模型的構(gòu)建影響很大。圖像檢索領(lǐng)域通常采用距離測(cè)度來定義兩幅圖像之間的相關(guān)性,對(duì)于圖像Iq和Ij而言,兩幅圖像越相似,通常其距離越小。換言之,相鄰圖像之間的距離是相關(guān)的。因此,本文結(jié)合k近鄰和距離測(cè)度構(gòu)建圖像的相關(guān)測(cè)度。詳細(xì)描述如下。
令Nk(q)表示一個(gè)包含了給定查詢圖像Iq的k個(gè)最近鄰距離的圖像集合。令Nk(q,j)表示一個(gè)包含了圖像Iq和Ij的k個(gè)最近鄰距離的圖像集合,也即有:
Nk(q,j)=Nk(q)∪Nk(j)
(7)
對(duì)于圖像集合Nk(q,j)中的第i個(gè)圖像Ii,其與圖像Iq的距離可以表示為:
xi=D(φ(Iq),φ(Ii))
(8)
同樣地,圖像Ii與圖像Ij的距離可以表示為:
yi=D(φ(Ij),φ(Ii))
(9)
本文采用夾角余弦測(cè)度來計(jì)算圖像Iq和與圖像Ij之間的相關(guān)測(cè)度得分,可以表示為:
(10)
其中:
X=[x1,x2,…,x2k]
(11)
Y=[y1,y2,…,y2k]
(12)
相關(guān)測(cè)度得分越大,說明對(duì)應(yīng)圖像之間的相關(guān)性越強(qiáng)。
本文結(jié)合有效圖模型來進(jìn)行圖像檢索,設(shè)計(jì)思想是:先用傳統(tǒng)的距離測(cè)度進(jìn)行初次檢索,縮小圖像檢索范圍。然后再依據(jù)有效圖距離進(jìn)行二次判斷,降低誤檢現(xiàn)象。具體實(shí)現(xiàn)方法是,首先,對(duì)于數(shù)據(jù)庫(kù)中的每一幅圖像Ii,提取特征向量vi=φ(Ii),并計(jì)算任意兩幅圖像對(duì)應(yīng)的兩特征向量vi和vj之間的距離dij=D(vi,vj),存儲(chǔ)在特征數(shù)據(jù)庫(kù)中。然后,對(duì)于查詢圖像,構(gòu)建有向圖模型,計(jì)算有向圖距離,依據(jù)有向圖距離選擇圖像檢索結(jié)果,具體實(shí)現(xiàn)步驟描述如下。
Step1,對(duì)于查詢圖像Iq,提取特征向量vq=φ(Iq),并計(jì)算其與數(shù)據(jù)庫(kù)中任一圖像Ii對(duì)應(yīng)的兩特征向量之間的距離dqi=D(vq,vi)。
Step2,按照距離值從小到大的順序進(jìn)行排序,得到排在前ns位的查詢排序列表τq=(In1,In2,…,Ins)。
Step3,給定初始相關(guān)測(cè)度閾值tc=ts,計(jì)算圖像Iq與查詢排序列表τq中任意一幅圖像Ij之間的相關(guān)測(cè)度c(q,j),構(gòu)建有向圖模型G1=(V,E1)。其中,頂點(diǎn)集合V由數(shù)據(jù)庫(kù)中所有圖像再加上查詢圖像構(gòu)成。
Step4,相關(guān)測(cè)度閾值增加Δt(即tc+=Δt),重復(fù)Step3,構(gòu)建有向圖模型Gi=(V,Ei)。其中,序號(hào)i表示構(gòu)建的第i個(gè)有向圖模型。該過程重復(fù)執(zhí)行,直到tc≥1。
Step5,計(jì)算有向圖距離。
本文將有向圖距離作為圖像二次檢索的依據(jù)??紤]到圖像越相似,其相關(guān)性越強(qiáng)。因此,本文依據(jù)不同相關(guān)測(cè)度閾值下有向圖模型中邊的數(shù)量來計(jì)算有向圖距離,具體實(shí)現(xiàn)步驟描述如下。
首先,定義一個(gè)一維的圖像對(duì)連接權(quán)重向量,記為:
W=[wn1,wn2,…,wns]
(13)
其中:wni表示查詢圖像Iq與圖像Ini之間的連接權(quán)重。本文只對(duì)查詢排序列表中的圖像計(jì)算其與查詢圖像之間的連接權(quán)重,因?yàn)榱斜碇獾膱D像與查詢圖像之間的距離太大,不可能是相似圖像。在初始化階段,將該權(quán)重向量的各個(gè)元素的初始值置為0。
然后,遍歷有向圖模型集合{Gi=(V,Ei)|i=0,1,…,m}中的每一個(gè)有向圖模型,其中,m表示前面構(gòu)建的有向圖模型的總數(shù)。對(duì)于任意一個(gè)有向圖模型Gi=(V,Ei),遍歷其中的每一條邊,依據(jù)邊是否存在以及對(duì)應(yīng)的相關(guān)測(cè)度值對(duì)權(quán)重向量中的各個(gè)元素執(zhí)行累加操作,具體可以表示為:
(14)
這樣,待遍歷完畢所有有向圖模型中的所有邊之后,可以得到最終的權(quán)重向量。
最后,計(jì)算查詢圖像與查詢排序列表τq=(In1,In2,…,Ins)中各個(gè)圖像之間的有向圖距離。其中,查詢圖像Iq與圖像Inj之間的有向圖距離可以表示為:
(15)
其中:上式的分母項(xiàng)所加的小數(shù)是為了避免分母為零。
下面進(jìn)行圖像檢索實(shí)驗(yàn),將本文方法與圖像檢索領(lǐng)域目前性能較好的方法進(jìn)行對(duì)比分析,定量評(píng)價(jià)本文方法的圖像檢索性能。首先,介紹本文使用的圖像檢索數(shù)據(jù)集;然后,介紹圖像檢索領(lǐng)域常用的定量評(píng)價(jià)指標(biāo);接著,結(jié)合實(shí)驗(yàn)結(jié)果選擇本文方法適用的參數(shù)和特征;最后,對(duì)比分析不同方法的圖像檢索結(jié)果,評(píng)價(jià)本文方法的圖像檢索性能。
圖像檢索領(lǐng)域的公開測(cè)試數(shù)據(jù)集較多,本文與文獻(xiàn)[10]一樣,選擇COREL和ImageCLEF兩個(gè)數(shù)據(jù)集,簡(jiǎn)要介紹如下。
1)COREL數(shù)據(jù)集:該數(shù)據(jù)集包含50個(gè)不同的類別的圖像集合,每一個(gè)類別有100幅圖像,共5000幅圖像。每一個(gè)類別代表了不同的語義,如花、貓、狗等。圖像存儲(chǔ)為24位彩色圖像。部分圖像樣本示例如圖1所示。
圖1 COREL數(shù)據(jù)集樣本示例
2)ImageCLEF數(shù)據(jù)集:該數(shù)據(jù)集為醫(yī)學(xué)圖像數(shù)據(jù)集,包含20個(gè)不同類別的圖像集合,每一個(gè)類別至少有100幅圖像,共6157幅圖像。每一個(gè)類別代表了不同的語義,如手部、胸部、腳部等。圖像存儲(chǔ)為256色灰度圖像。部分圖像樣本示例如圖2所示。
圖2 ImageCLEF數(shù)據(jù)集樣本示例
直觀地講,圖像檢索算法所檢索到的相關(guān)圖像越多,不相關(guān)圖像越少,則圖像檢索算法的性能越好?;诖耍瑘D像檢索領(lǐng)域常用的性能評(píng)價(jià)指標(biāo)有兩個(gè):一是平均精確度(average precision,AP)指標(biāo),二是平均召回率(average recall,AR)指標(biāo),分別定義為:
(16)
(17)
平均精確度指標(biāo)越高,說明檢索結(jié)果中干擾越少。平均召回率越高,說明檢索結(jié)果越有效。兩個(gè)指標(biāo)的值越高,對(duì)應(yīng)的圖像檢索算法的性能越好。
2.3.1 特征選擇
對(duì)于COREL數(shù)據(jù)集,由于圖像是彩色圖像,可以利用顏色信息輔助圖像檢索,參考文獻(xiàn)[10]的實(shí)驗(yàn)結(jié)果,本文選擇顏色、邊緣和紋理三類特征,對(duì)于每一幅圖像,顏色特征向量為6維,包含圖像H、S和V三個(gè)顏色通道的均值和方差。邊緣特征的提取方法是,先將彩色圖像轉(zhuǎn)換為灰度圖像,再采用Canny算子求取圖像邊緣,接著計(jì)算邊緣方向直方圖,其中,邊緣方向直方圖按20°一個(gè)方向進(jìn)行量化,最后得到一個(gè)18維的邊緣特征向量。紋理特征的求取方法是,在灰度圖像上,執(zhí)行5個(gè)尺度和8個(gè)方向的Gabor小波變換,得到40個(gè)子圖像,然后計(jì)算每一幅子圖像的均值、方差,得到一個(gè)80維的紋理特征向量。最終,將顏色特征向量、邊緣特征向量和紋理特征向量串聯(lián)在一起,每一幅圖像可以得到一個(gè)104維的特征向量。
對(duì)于ImageCLEF數(shù)據(jù)集,由于圖像是灰度圖像,本文僅選擇邊緣和紋理兩類特征,邊緣和紋理特征的提取方法如前所述,這樣,每一幅圖像可以得到一個(gè)98維的特征向量。
2.3.2 參數(shù)選擇
本文涉及的參數(shù)主要有5個(gè),包括初次查詢圖像數(shù)量ns、最近鄰圖像集合數(shù)量k、查詢余量T、相關(guān)測(cè)度閾值的初始值ts和增量Δt。其中,為了便于對(duì)比不同方法的性能,所有對(duì)比方法的查詢余量必須一致,都設(shè)為T=20。相關(guān)測(cè)度閾值的初始值ts和增量Δt取經(jīng)驗(yàn)值,具體為ts=0.3、Δt=0.01。其他參數(shù)依據(jù)實(shí)驗(yàn)結(jié)果來設(shè)置最優(yōu)的值。
圖3給出了參數(shù)ns取不同值時(shí)的平均精確度和平均召回率曲線(數(shù)據(jù)集選用的是COREL數(shù)據(jù)集),其中,參數(shù)k取25。為了避免在初次查詢時(shí)遺漏查詢目標(biāo),初次查詢圖像數(shù)量應(yīng)當(dāng)遠(yuǎn)大于最終查詢的圖像數(shù)量,因此,實(shí)驗(yàn)時(shí)參數(shù)ns的初始值設(shè)置為查詢余量的5倍,也即ns=100,然后每間隔20進(jìn)行一次實(shí)驗(yàn),從圖3所示的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),隨著ns的增大,平均精確度和平均召回率都有所增加,當(dāng)ns大于160之后,平均精確度和平均召回率都趨于穩(wěn)定??紤]到ns越大,圖像檢索效率越低,因此,本文取ns=160。
圖3 參數(shù)ns取值不同時(shí)的實(shí)驗(yàn)結(jié)果
圖4給出了參數(shù)k取不同值時(shí)的平均精確度和平均召回率曲線(數(shù)據(jù)集仍選用COREL數(shù)據(jù)集),其中,參數(shù)ns=160。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)參數(shù)k取25時(shí),平均精確度和平均召回率都達(dá)到峰值。因此,本文取k=25。
圖4 參數(shù)k取值不同時(shí)的實(shí)驗(yàn)結(jié)果
下面在COREL和ImageCLEF兩個(gè)數(shù)據(jù)集下進(jìn)行圖像檢索實(shí)驗(yàn),其中,本文方法所使用的參數(shù)如前所述,對(duì)比方法所使用的參數(shù)出自對(duì)應(yīng)文獻(xiàn)。圖5和圖6分別給出了COREL和ImageCLEF兩個(gè)數(shù)據(jù)集下圖像檢索的平均精確度和平均召回率對(duì)比結(jié)果。
圖5 COREL數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖6 ImageCLEF數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
結(jié)合兩幅實(shí)驗(yàn)結(jié)果圖像可以發(fā)現(xiàn),在COREL數(shù)據(jù)集下,本文方法平均精確度和平均召回率兩個(gè)指標(biāo)高于其他三種對(duì)比方法2.4%和5.5%以上。在ImageCLEF數(shù)據(jù)集下,本文方法平均精確度和平均召回率兩個(gè)指標(biāo)高于其他三種對(duì)比方法2.1%和4.2%以上。尤其是與文獻(xiàn)[10]所述方法相比,兩者所使用的圖像特征基本相同,但本文方法通過有向圖距離的二次搜索大幅降低了誤檢現(xiàn)象,平均精確度和平均召回率兩個(gè)指標(biāo)都明顯高于文獻(xiàn)[10]所述方法。綜上所述,本文方法的圖像檢索性能優(yōu)于其他三種對(duì)比方法,是一種有效的圖像檢索方法。
為了提高圖像檢索性能,本文提出了一種基于有向圖模型的圖像檢索方法。該方法依據(jù)圖像之間的特征距離和相關(guān)特性,設(shè)計(jì)圖像數(shù)據(jù)集的有向圖模型。在圖像檢索時(shí),先采用傳統(tǒng)的歐氏距離測(cè)度初步檢測(cè)符合圖像檢索條件的查詢圖像集合。在此基礎(chǔ)上,采用有向圖距離測(cè)度進(jìn)行二次檢索,對(duì)歐氏距離排序的查詢圖像列表進(jìn)行二次排序,降低誤檢現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,本文方法在圖像檢索實(shí)驗(yàn)中得到的平均精確度和平均召回率高,是一種有效的圖像檢索方法。目前該技術(shù)主要可以應(yīng)用在信息識(shí)別等相關(guān)領(lǐng)域。
參考文獻(xiàn):
[1] Thenkalvi B, Murugavalli S. Review on CBIR trends and techniques to upgrade image retrieval[J]. International Review on Computers & Software, 2014, 9(7):1227-1240.
[2] Gong Y, Lazebnik S, Gordo A, et al. Iterative quantization: a procrustean approach to learning Binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2916-2929.
[3] 許元飛. 基于紋理的圖像檢索算法研究[J]. 西安科技大學(xué)學(xué)報(bào), 2013, 33(4):470-474.
[4] 李玥靈, 吳國(guó)平, 耿秀秀,等. 基于LBP-GLCM紋理特征提取的服裝圖像檢索[J]. 電視技術(shù), 2015, 39(12):99-103.
[5] 葛 蕓, 江順亮, 葉發(fā)茂,等. 視覺詞袋和Gabor紋理融合的遙感圖像檢索[J]. 光電工程, 2016(2):76-81.
[6] Liu G H, Yang J Y. Content-based image retrieval using color difference histogram[J]. Pattern Recognition, 2013, 46(1):188-198.
[7] Hu R, Collomosse J. A performance evaluation of gradient field HOG descriptor for sketch based image retrieval[J]. Computer Vision & Image Understanding, 2013, 117(7):790-806.
[8] Wang X, Wang Z. A novel method for image retrieval based on structure elements’ descriptor[J]. Journal of Visual Communication & Image Representation, 2013, 24(1):63-74.
[9] Yang Y, Newsam S. Geographic Image Retrieval Using Local Invariant Features[J]. IEEE Transactions on Geoscience & Remote Sensing, 2013, 51(2):818-832.
[10] Niu B, Cheng J, Bai X, et al. Asymmetric propagation based batch mode active learning for image retrieval[J]. Signal Processing, 2013, 93(6):1639-1650.
[11] Sarafis I, Diou C, Delopoulos A. Building effective SVM concept detectors from clickthrough data for large-scale image retrieval[J]. International Journal of Multimedia Information Retrieval, 2015, 4(2):129-142.
[12] Son J E, Ko B C, Nam J Y. Medical Image Classification and Retrieval Using BoF Feature Histogram with Random Forest Classifier[J]. Translator, 2013, 2(4):273-280.
[13] Lowanshi V K, Shrivastava S, Richhariya V, et al. An efficient approach for content based image retrieval using SVM, KNN-GA as multilayer classifier[J]. International Journal of Computer Applications, 2014, 107(21):43-48.