特征傳導(dǎo)神經(jīng)反應(yīng)在圖像檢索中的應(yīng)用

2016-11-10 09:37:19胡政發(fā)

廈門理工學(xué)院學(xué)報(bào) 2016年3期

關(guān)鍵詞：子塊矩形傳導(dǎo)

甄　新，胡政發(fā)

(1.廈門理工學(xué)院應(yīng)用數(shù)學(xué)學(xué)院，福建廈門 361024；2.湖北汽車工業(yè)學(xué)院理學(xué)院，湖北十堰 442002)

特征傳導(dǎo)神經(jīng)反應(yīng)在圖像檢索中的應(yīng)用

甄新1，胡政發(fā)2

(1.廈門理工學(xué)院應(yīng)用數(shù)學(xué)學(xué)院，福建廈門 361024；2.湖北汽車工業(yè)學(xué)院理學(xué)院，湖北十堰 442002)

提出一種新的圖像特征表示方法-特征傳導(dǎo)神經(jīng)反應(yīng)(FCNR)，并用于基于內(nèi)容的圖像檢索(CBIR).該方法的核心思想是通過(guò)建立一個(gè)模擬人類視覺(jué)感知系統(tǒng)的分層結(jié)構(gòu),在對(duì)圖像的局部特征進(jìn)行深度學(xué)習(xí)的同時(shí)將圖像的語(yǔ)義成分引入到特征表示中.通用圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,無(wú)論是與經(jīng)典的NR算法還是與某些專門用于CBIR的其它圖像特征描述子相比,基于FCNR的圖像檢索方法都表現(xiàn)出較好的檢索效率和效果.

圖像檢索；神經(jīng)反應(yīng)；局部特征；分層結(jié)構(gòu)；特征傳導(dǎo)

受搜索服務(wù)市場(chǎng)需求的驅(qū)使,基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)方法,成為多年來(lái)模式識(shí)別和人工智能領(lǐng)域研究的熱點(diǎn)問(wèn)題之一.近年來(lái)受人類視覺(jué)皮層神經(jīng)科學(xué)的啟發(fā)而提出的分層學(xué)習(xí)方法為研究這一問(wèn)題提供了一個(gè)新的方向.為了在捕捉圖像的高級(jí)語(yǔ)義特征的同時(shí)提高檢索效率,本文針對(duì)CBIR的特點(diǎn),在神經(jīng)反應(yīng)的有關(guān)理論的基礎(chǔ)上提出了特征傳導(dǎo)神經(jīng)反應(yīng)(feature conduction neural response,FCNR)的概念及算法.

1　特征傳導(dǎo)神經(jīng)反應(yīng)

1.1相關(guān)概念與記號(hào)

在神經(jīng)反應(yīng)的計(jì)算中總是默認(rèn)下面的性質(zhì)自行滿足[1].

公理1設(shè)f∈ISq,hv∈Hv,則f通過(guò)變換hv在v上的限制f°hv∈Iv,即圖像f中任取大小為v的子塊一定是Iv中的元素.類似地,fv°hu∈Iu.

1.2特征傳導(dǎo)神經(jīng)反應(yīng)算法

構(gòu)造特征傳導(dǎo)神經(jīng)反應(yīng)的第一步是對(duì)整個(gè)圖像進(jìn)行簡(jiǎn)單地分割,與其它基于區(qū)域的特征提取方法所采用的分割技術(shù)不同,這里只是用互相垂直的直線網(wǎng)將圖像分割成一些大小相同的矩形小區(qū)域.然后在每一個(gè)小區(qū)域上提取諸如顏色、紋理、形狀等特征,并將這些特征用一個(gè)向量來(lái)表示.這樣一幅圖像就可以表示為一個(gè)三維特征數(shù)組.特征傳導(dǎo)神經(jīng)反應(yīng)算法就是在這個(gè)三維數(shù)組的背景下,將這些底層的局部特征按照神經(jīng)反應(yīng)的模式逐級(jí)傳導(dǎo),最終得出圖像的特征傳導(dǎo)神經(jīng)反應(yīng),下面給出具體的過(guò)程.

對(duì)任意的f?ISq,用相互垂直的直線網(wǎng)將f分割成大小相等的M×N個(gè)矩形子塊fij(i=1,2,…,M;j=1,2,…,N),即

(1)

在每個(gè)矩形子塊fij上以相同的方式提取一些視覺(jué)特征,將這些特征組成的向量歸一化后記為wij,這樣得到圖像f的局部特征數(shù)組表示wf,即

(2)

其中wij(i=1,2,…,M;j=1,2,…,N)本身也是一個(gè)向量,其中的每一個(gè)分量代表一個(gè)特征.歸一化的一個(gè)明顯的作用是使得這種表示對(duì)圖像的亮度變化具有不變性.如果每個(gè)矩形圖像塊提取P個(gè)特征,則wf就是一個(gè)M×N×P的三維數(shù)組.因此wf可以簡(jiǎn)單的表示為

(3)

其中wijk表示f的第i行第j列的圖像塊的第k個(gè)特征.

(4)

現(xiàn)在來(lái)定義特征傳導(dǎo)神經(jīng)反應(yīng).設(shè)wv∈Wv,對(duì)任意的hu∈Hu,根據(jù)公理1可知wv°hu∈Wu,任取模板tu∈Tu,稱

(5)

(6)

(7)

其中〈·,·〉表示通常意義下的兩個(gè)向量的內(nèi)積.

(8)

(9)

(10)

下面對(duì)上述概念做幾點(diǎn)說(shuō)明:

說(shuō)明1特征傳導(dǎo)神經(jīng)反應(yīng)是一個(gè)向量,其維數(shù)等于二級(jí)模板的個(gè)數(shù),與圖像本身的維數(shù)無(wú)關(guān).在研究圖像時(shí),無(wú)論圖像大小是否相同,都可以轉(zhuǎn)化為相同維數(shù)的向量統(tǒng)一處理.

說(shuō)明2由于在底層使用了圖像的低級(jí)視覺(jué)特征,FCNR模型有效地克服了NR模型像素對(duì)像素的窮竭算法的缺點(diǎn):不僅可以大幅度減小計(jì)算量,而且和其他特征提取方法一樣，能夠在一定程度上縮小圖像低級(jí)特征和高級(jí)語(yǔ)義的差距.FCNR是圖像的底層視覺(jué)特征經(jīng)過(guò)神經(jīng)反應(yīng)傳導(dǎo)而得出含有高級(jí)語(yǔ)義成分的特征.因此,從某種意義上講,FCNR可以看成是圖像的“特征的特征”.

說(shuō)明3從學(xué)習(xí)理論的觀點(diǎn)來(lái)看,上述FCNR的提取方法屬于非監(jiān)督學(xué)習(xí)的范疇,而分層結(jié)構(gòu)的引入則是為了對(duì)低層視覺(jué)特征進(jìn)行深度學(xué)習(xí)[2].

2　基于FCNR的CBIR系統(tǒng)

對(duì)于給定的圖像庫(kù),首先對(duì)庫(kù)中的圖像進(jìn)行簡(jiǎn)單分割,將每一幅圖像劃分為大小相同的矩形子塊,在每一個(gè)矩形子塊上按相同的方式提取特征,由此得到原始圖像的局部特征表示.在此基礎(chǔ)上利用如前所述的算法計(jì)算出所有圖像的特征傳導(dǎo)神經(jīng)反應(yīng),進(jìn)而用這些特征傳導(dǎo)神經(jīng)反應(yīng)作為最終的圖像的特征表示,建立一個(gè)與原始圖像庫(kù)相對(duì)應(yīng)的FCNR特征庫(kù).接下來(lái)在特征空間上定義一個(gè)恰當(dāng)?shù)南嗨菩远攘?基于這種相似性度量就可以進(jìn)行圖像檢索了.

2.1局部低層特征提取

在將圖像用相互垂直的直線網(wǎng)分割成規(guī)格相同的矩形子塊以后,就開(kāi)始在每一個(gè)子塊上提取相應(yīng)的低層特征.圖像可以提取的特征主要包括顏色特征、紋理特征和形狀特征等,每種特征的提取方法有很多.本文用簡(jiǎn)單、穩(wěn)健的方法提取圖像顏色和紋理方面的十四個(gè)基本特征.

類似于許多CBIR相關(guān)文獻(xiàn)中所采用的方法,在提取顏色特征時(shí),利用眾所周知的YCbCr色彩空間.在這種色彩空間中,亮度信息用單個(gè)分量Y來(lái)存儲(chǔ),彩色信息用兩個(gè)色差分量Cb和Cr來(lái)存儲(chǔ).我們?cè)诿恳粋€(gè)子塊上計(jì)算出Y,Cb和Cr的均值和標(biāo)準(zhǔn)差,其中均值記為g1,g2,g3,標(biāo)準(zhǔn)差記為g4,g5,g6，獲得六個(gè)顏色方面的特征(對(duì)于單色圖像,只需提取兩個(gè)亮度特征).接下來(lái)利用Haar小波變換從圖像的Y分量中提取紋理特征.首先將矩形圖像塊再進(jìn)一步分解為一些互相鄰接但不重疊的4×4的子塊,對(duì)每一個(gè)子塊進(jìn)行一級(jí)Haar小波變換,一個(gè)4×4圖像塊被分解成四個(gè)頻帶,每個(gè)頻帶對(duì)應(yīng)一個(gè)2×2的矩陣,分別表示一個(gè)下取樣近似和三個(gè)方向(水平、豎直和對(duì)角線) 的細(xì)節(jié)矩陣.設(shè)三個(gè)細(xì)節(jié)矩陣分別為

令

(11)

則矩形圖像塊中的每一個(gè)4×4的子塊都對(duì)應(yīng)著這三個(gè)變量,然后在每個(gè)矩形子塊上分別求這三個(gè)變量的均值與方差,其中均值記為g7,g8,g9,標(biāo)準(zhǔn)差記為g10,g11,g12,這樣又可以得到矩形圖像塊的六個(gè)特征.

接下來(lái)的兩個(gè)特征按下述方式提取.注意前面已經(jīng)求出了矩形圖像塊的Y分量的標(biāo)準(zhǔn)差g4,選擇圖像的平滑度作為第十三個(gè)特征,記為g13,即

(12)

該值反映了區(qū)域中亮度的相對(duì)平滑度.最后一個(gè)特征取為矩形圖像塊Y分量的熵,記為g14,即

(13)

其中p(z)為矩形圖像塊的Y分量的灰度級(jí)直方圖,L是可能的灰度級(jí)數(shù).熵是圖像元素隨機(jī)性的度量.

這樣,將上述十四個(gè)特征組合在一起,得到了矩形圖像塊的一個(gè)特征表示,記為g,即有

(14)

對(duì)每一個(gè)矩形按相同的方式提取特征后就可以得到整個(gè)圖像的局部低層特征表示.在得到圖像庫(kù)中所有圖像的局部特征表示以后,利用前述特征傳導(dǎo)神經(jīng)反應(yīng)的算法就可以計(jì)算出圖像庫(kù)中所有圖像的特征傳導(dǎo)神經(jīng)反應(yīng).

2.2相似性度量

(15)

定義圖像f,f*∈ISq的相似度為

(16)

3　試驗(yàn)結(jié)果及分析

通過(guò)仿真實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的算法在圖像檢索中的表現(xiàn).實(shí)驗(yàn)中用到的數(shù)據(jù)庫(kù)為Corel-1 000圖像庫(kù)[3].該圖像庫(kù)包括1 000幅圖像,這些圖像選自Corel圖像庫(kù),這是一個(gè)用于圖像檢索實(shí)驗(yàn)的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)庫(kù).

圖像庫(kù)中的1 000幅圖像分十個(gè)類別,每個(gè)類別包含100幅圖像.每一類都有一個(gè)高級(jí)的語(yǔ)義,如非洲人及其村落、建筑物、海濱、公交車、花、大象等.這些圖像的像素為384×256或256×384,統(tǒng)一按“JPG”格式保存.為了方便處理,在實(shí)驗(yàn)中首先將384×256圖像通過(guò)旋轉(zhuǎn)轉(zhuǎn)化為規(guī)格為256×384的圖像,然后將每一幅圖像分割成大小為16×16的正方形子塊,共計(jì)16×24塊.從每一小塊上提取局部特征以后得到一個(gè)16×24×14的三維數(shù)組.實(shí)驗(yàn)選用的測(cè)試環(huán)境如下:CPU為Intel(R)Core(TM)i5-3230M2.60GHz,4G內(nèi)存.實(shí)驗(yàn)中的代碼由MATLAB軟件實(shí)現(xiàn),其間調(diào)用了圖像處理工具箱函數(shù).

此外,對(duì)檢索效果的評(píng)價(jià),本文采用最常用的方式,即通過(guò)查準(zhǔn)率(precision)和查全率(recall)的關(guān)系圖(PR曲線)來(lái)反映.查準(zhǔn)率

(18)

其中k是輸出圖像數(shù),nk表示輸出的結(jié)果中包含的與查詢圖像相關(guān)的圖像數(shù).相應(yīng)地,查全率

(19)

其中N為圖像庫(kù)中所含相關(guān)圖像的總數(shù).一般情況下，隨著查全率升高,查準(zhǔn)率會(huì)下降.限定查全率,對(duì)一系列隨機(jī)選取的查詢圖像對(duì)應(yīng)的查準(zhǔn)率取平均值,就可得到平均查準(zhǔn)率.高的平均查準(zhǔn)率和高的查全率,意味著算法有好的表現(xiàn).這意味著在PR曲線圖中越靠近右上方的曲線對(duì)應(yīng)的算法表現(xiàn)越好.除此以外,由于CBIR實(shí)時(shí)性的要求,查詢速度也是衡量算法優(yōu)劣的一個(gè)重要指標(biāo),查詢時(shí)間越短意味著算法表現(xiàn)越好.

在實(shí)驗(yàn)中,u的規(guī)格取為7×7,v的規(guī)格取為11×11時(shí).圖3示例了兩個(gè)查詢的結(jié)果,其中排在最前面的為輸入的查詢圖像,后面是輸出結(jié)果中排在最前面的20幅圖像.從圖3可以看出,基于FCNR的CBIR方法在Corel圖像庫(kù)上有不俗的表現(xiàn).其中查詢主題為“花”的輸出結(jié)果中全是花的圖像,而且花的顏色、大小、背景各不相同,形態(tài)各異.這表明“花”的高級(jí)語(yǔ)義能被系統(tǒng)正確識(shí)別.查詢主題為“大象”的輸出結(jié)果中前13幅都是和查詢主題一致的,輸出的20幅圖像中有四幅是和查詢圖像不一致的(圖3中加邊框的圖像).

將基于特征傳導(dǎo)神經(jīng)反應(yīng)(FCNR-based)的CBIR方法與基于神經(jīng)反應(yīng)(NR-based)和基于局部神經(jīng)反應(yīng)(LNR-based)的CBIR方法進(jìn)行了比較.局部神經(jīng)反應(yīng)是神經(jīng)反應(yīng)的一個(gè)改進(jìn)版本,該方法在圖像及其子塊的表示上利用了稀疏化技術(shù)[2-4].在計(jì)算NR及LNR之前,需要對(duì)圖像做一個(gè)預(yù)處理.為了相對(duì)公平,采用相關(guān)文獻(xiàn)中報(bào)告的使得算法表現(xiàn)最佳的做法:將圖片轉(zhuǎn)化為60×90的灰度圖像,u的尺寸為15×15,v的尺寸為21×21.在模板選取上,三種方法采用類似的方式,即隨機(jī)截取258個(gè)一級(jí)模板和172個(gè)二級(jí)模板.表1給出了三種不同方法在不同過(guò)程中的時(shí)間消耗,而檢索效果則展示在圖4中.

從表1可以看出,基于FCNR的檢索方法在學(xué)習(xí)時(shí)間和總時(shí)間上都顯著低于基于NR和LNR的方法,這主要是因?yàn)楹髢烧呤褂玫亩际侵鹣袼仄揭频母F竭算法.特別是LNR方法,由于其間引入了二次優(yōu)化問(wèn)題的求解,使得該方法費(fèi)時(shí)最多[5].因此,盡管基于FCNR的檢索方法會(huì)在局部特征提取上花費(fèi)一定的時(shí)間,但學(xué)習(xí)時(shí)間得以大大的減少.

表1　3種不同方法的時(shí)間消耗

方法局部特征提取學(xué)習(xí)時(shí)間/s查詢時(shí)間/s總時(shí)間/sNR-based0437.421.62439.04LNR-baed0367.251.54368.79FCNR-baed321.4613.501.38336.34

另一方面,從圖4不難看出,基于FCNR的CBIR系統(tǒng)在檢索效果上也明顯優(yōu)于基于NR和LNR的檢索方法.這主要是因?yàn)榛贔CNR的方法有效克服了NR和LNR方法在底層圖像塊上像素對(duì)像素進(jìn)行比較的缺點(diǎn),同時(shí)顏色信息的丟失也在一定程度上影響了NR和LNR的表現(xiàn).順便指出,基于LNR的檢索效果要優(yōu)于基于NR的檢索效果,這主要是因?yàn)長(zhǎng)NR方法的局部化的稀疏編碼方式使得圖像上目標(biāo)出現(xiàn)的位置具有較高的神經(jīng)反應(yīng)值.

以上實(shí)驗(yàn)結(jié)果表明,與基于經(jīng)典的NR算法及其改進(jìn)的LNR算法相比,基于本文所提出的FCNR的圖像檢索算法在該圖像數(shù)據(jù)庫(kù)中表現(xiàn)出更好的檢索效果和效率.

4　結(jié)論

本文提出了FCNR這一新的圖像特征表示以用于基于內(nèi)容的檢索.該算法首先對(duì)圖像的空間域進(jìn)行簡(jiǎn)單的劃分,然后在圖像的局部區(qū)域上提取顏色、紋理、輪廓等一些基礎(chǔ)特征,得到圖像的局部特征表示.接下來(lái)對(duì)圖像的局部特征表示建立一個(gè)分層結(jié)構(gòu),同時(shí)為每一層構(gòu)造一個(gè)局部特征表示的模板集.在這一分層結(jié)構(gòu)的一級(jí)子塊上利用圖像局部特征構(gòu)造神經(jīng)反應(yīng)并通過(guò)神經(jīng)反應(yīng)歸一化的內(nèi)積將這些特征逐層傳導(dǎo)到高級(jí)子塊,最終將圖像表達(dá)為一個(gè)稱之為FCNR的向量.在這一過(guò)程中,利用分層結(jié)構(gòu)實(shí)現(xiàn)對(duì)底層特征的深度學(xué)習(xí),并通過(guò)圖像各級(jí)子塊和模板集的交互作用將圖像的高級(jí)語(yǔ)義成分引入到圖像的特征表示中.這樣,在繼承NR算法優(yōu)良的辨識(shí)性和對(duì)圖像變換的不變性的同時(shí),FCNR擺脫了像素對(duì)像素的窮竭算法的困境.一方面FCNR繼承了NR的一些優(yōu)良特性,例如可以對(duì)目標(biāo)進(jìn)行深度學(xué)習(xí),在圖像表示中融入語(yǔ)義成分等,另一方面由于拋棄了NR中像素對(duì)像素的窮竭算法,使得該方法在大型圖像庫(kù)和高分辨率的圖像處理中切實(shí)可行.同時(shí),由于在分層結(jié)構(gòu)的底層使用了圖像的視覺(jué)特征而不是像素值,使得FCNR在對(duì)復(fù)雜場(chǎng)景圖像的理解和對(duì)圖像高級(jí)語(yǔ)義的抽象和概括上能有更好的表現(xiàn).盡管理論分析和實(shí)驗(yàn)結(jié)果均表明FCNR是一種適用于CBIR的圖像特征表示,但本文在模板的選取上采用的是隨機(jī)方式,模板數(shù)量通過(guò)交叉驗(yàn)證的方式確定,這給檢索結(jié)果帶來(lái)了不確定因素.對(duì)模板選取的有效性和代表性進(jìn)行定量分析仍然是值得進(jìn)一步研究的.

[1]SMALE S,ROSASCO L,BOUVRIE J,et al.Mathematics of the neural response[J].Foundations of Computational Mathematics,2010,10(1):67-91.

[2]LI H,WEI Y,LI L C.Hierarchical feature extraction with local neural response for image recognition[J].IEEE Transactions on Cybernetics,2013,43(2):412-424.

[3]TANG Y Y,XIA T,WEI Y,et al.Hierarchical kernel-based rotation and scale invariant similarity[J].Pattern Recognition,2014,47(4):1 674-1 688.

[4]WEI Y.Research on object recognition based on manliford learning and derived kernel model[D].Wuhan:Huazhong University of Science and Technology,2012.

[5]LI L,WEI Y,YUAN Y.Similarity learning for object recognition based on derived kernel[J].Neurocomputing,2012,83:110-120.

(責(zé)任編輯李寧)

Image Retrieval Using Features Conduction of Neural Response

ZHEN Xin1，HU Zhengfa2

(1.School of Applied Mathematics,Xiamen University of Technology,Xiamen 361024,China; 2.School of Sciences,Hubei University of Automotive Technology,Shiyan 442002,China)

In this paper,a novel feature extraction method is proposed for content-based image retrieval (CBIR).The core idea of the proposed method was to make a thorough study of the low-lever visual features of image and to blend semantic component into the feature representation through a hierarchical architecture which was built to simulate human visual perception system.A new image feature descriptor of feature conduction of neural response (FCNR) was then constructed.The results of experiments on commonly used image databases demonstrate that,compared with classical NR algorithms or other image descriptors previously developed for CBIR,the proposed method has better performance and effect on retrieval efficiency.

image retrieval;neural response;local feature;hierarchical architecture;feature conduction

2016-01-03

2016-05-28

廈門理工學(xué)院高層次人才項(xiàng)目 (YKJ12017R)

甄新(1974-)，女，副教授，碩士，研究方向?yàn)閼?yīng)用數(shù)學(xué).E-mail： 2011111003@xmut.edu.cn

TP391

1673-4432(2016)03-0099-07

特征傳導(dǎo)神經(jīng)反應(yīng)在圖像檢索中的應(yīng)用

1 特征傳導(dǎo)神經(jīng)反應(yīng)

2 基于FCNR的CBIR系統(tǒng)

3 試驗(yàn)結(jié)果及分析

4 結(jié)論

1　特征傳導(dǎo)神經(jīng)反應(yīng)

2　基于FCNR的CBIR系統(tǒng)

3　試驗(yàn)結(jié)果及分析

4　結(jié)論