黃曉冬,孫亮,劉勝藍
(1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,450001,鄭州;2.大連理工大學(xué)電子信息與電氣工程學(xué)部,116024,大連)
?
一種判別極端學(xué)習(xí)的相關(guān)反饋圖像檢索方法
黃曉冬1,孫亮1,劉勝藍2
(1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,450001,鄭州;2.大連理工大學(xué)電子信息與電氣工程學(xué)部,116024,大連)
針對基于支持向量機(SVM)的相關(guān)反饋圖像檢索方法計算復(fù)雜度高、缺乏判別能力以及圖像特征提取不充分的問題,提出一種基于判別極端學(xué)習(xí)的相關(guān)反饋圖像檢索(DELM)方法。在圖像特征提取階段,通過連接圖像的顏色、紋理及邊緣直方圖實現(xiàn)圖像的特征提取,解決了以往多數(shù)檢索方法僅使用單一圖像特征造成的圖像描述不充分的問題;在檢索的反饋階段,將最大邊際準則(MMC)引入到極端學(xué)習(xí)機中,通過分析極端學(xué)習(xí)機隱層空間的類內(nèi)離散度和類間離散度得到包含判別信息的分類模型,并給出降維和不降維兩種形式,以提高相關(guān)反饋圖像檢索系統(tǒng)的檢索能力。DELM方法能有效應(yīng)用于基于內(nèi)容的圖像檢索中,并顯著提高圖像檢索的性能。實驗結(jié)果表明,DELM方法和采用SVM、ELM和最小類別方差ELM的方法相比,在Corel-1K數(shù)據(jù)集下檢索平均準確率分別提高了11.06%、5.28%和6.40%。
圖像檢索;相關(guān)反饋;支持向量機;極端學(xué)習(xí)機;判別信息
近年來,隨著電子信息技術(shù)及互聯(lián)網(wǎng)圖像資源的迅速發(fā)展,人們對圖像檢索的需求越來越強烈?;趦?nèi)容的圖像檢索方法(content-based image retrieval,CBIR)主要包含特征提取、高維特征向量降維、相似度匹配以及檢索結(jié)果分類等幾個環(huán)節(jié),往往存在維度災(zāi)難和語義鴻溝等問題。目前主要通過維數(shù)約簡方法來解決維度災(zāi)難問題,而針對語義鴻溝問題,目前主流的方法是采用相關(guān)反饋技術(shù)(relevance feedback,RF),利用人的主觀認知能力提高CBIR系統(tǒng)檢索的準確性。
區(qū)別于傳統(tǒng)的CBIR只進行一次分類,RF-CBIR系統(tǒng)需要根據(jù)反饋回來的信息進行再學(xué)習(xí)。目前已有大量的相關(guān)反饋方法用于改善圖像檢索的性能。He等人提出一種半監(jiān)督學(xué)習(xí)方法[1],在相關(guān)反饋中較好地保持了查詢圖像的局部空間信息。為解決排序問題,Kundu等人提出了一種基于圖的相關(guān)反饋圖像檢索機制[2],提高了檢索準確率。此外,基于支持向量機(support vector machine,SVM)的主動學(xué)習(xí)算法也被用于RF-CBIR中,如半監(jiān)督的SVM批處理主動學(xué)習(xí)算法[3]、集成的SVM學(xué)習(xí)機[4]等。然而,由于RF-CBIR中有標簽的樣本數(shù)量很少,因此基于SVM的算法很難獲得令人滿意的分類結(jié)果。
近年來,基于極端學(xué)習(xí)機(extreme learning machine,ELM)的方法在高維數(shù)據(jù)的處理分類中得到了廣泛應(yīng)用。Huang等人證明了通過隨機增加激活函數(shù)作為節(jié)點,SLFNs可以近似于任意的連續(xù)目標函數(shù)[5]?;诖?他們又提出了增量ELM算法[6]和凸增量ELM算法[7]。文獻[8]提出的魯棒的ELM算法改善了離群點問題對ELM算法精度的影響,但是沒有充分利用未標記樣本。文獻[9]提出了一種基于圖的半監(jiān)督ELM算法,提高了ELM的泛化能力。除了上述關(guān)于ELM的理論改進之外,一些基于ELM方法的應(yīng)用也相繼提出。文獻[10]提出一種魯棒的激活函數(shù)(robust activation function,RAF),該方法將Gaussian核函數(shù)中的歐氏距離轉(zhuǎn)化為余弦度量,避免了離群點對核函數(shù)的影響,提高了ELM算法的性能,并應(yīng)用于人臉識別中。文獻[11]提出一種基于ELM的RF-CBIR系統(tǒng)框架,檢索性能明顯優(yōu)于基于SVM的算法,但是該方法沒有利用數(shù)據(jù)的類判別信息。為處理人體運動識別中的分類問題,最小類別方差ELM算法(minimum class variance ELM,MCVELM)[12]將線性判決分析(linear discriminant analysis,LDA)引入到ELM隱層的特征值降維中,保證類內(nèi)離散度最小來實現(xiàn)降維。基于此方法的啟發(fā),并考慮到LDA容易出現(xiàn)小樣本問題,本文將最大邊際準則(maximum margin criterion,MMC)[13]引入到ELM中,提出一種包含判別信息的ELM算法(discriminative ELM,DELM)。該算法通過分析ELM隱層特征空間中的類內(nèi)離散度和類間離散度得到了一種判別分類模型,增強了分類器的判別能力。實驗結(jié)果表明,本文算法能夠有效應(yīng)用于圖像檢索,取得了較好的檢索結(jié)果,同時避免了小樣本問題。
(1)
式中:vj=[vj1,vj2,…,vjN]T為連接網(wǎng)絡(luò)第j個隱層節(jié)點和輸入節(jié)點的輸入權(quán)值;βj=[βj1,βj2,…,βjm]T為連接網(wǎng)絡(luò)第j個隱層節(jié)點和輸出節(jié)點的輸出權(quán)值;bj為第j個隱層節(jié)點的偏置值。
式(1)可以寫成矩陣形式O=Gβ,則網(wǎng)絡(luò)隱層輸出矩陣為
圖1 單隱層前饋神經(jīng)網(wǎng)絡(luò)
(2)
(3)
(4)
式(4)可以利用梯度下降算法求解。由式(4)可知,SLFNs網(wǎng)絡(luò)的解可通過線性系統(tǒng)T=Gβ的最小二乘解得到β。
當網(wǎng)絡(luò)輸出節(jié)點選擇一個線性激活函數(shù)時,β可以通過β=G?T計算,其中G?=(GTG)-1GT是GT的MP廣義逆矩陣。G?可以利用奇異值分解法和最小二乘法計算。同時,為防止過擬合現(xiàn)象,希望求解的權(quán)值盡可能小,因此ELM的優(yōu)化模型可以用下式表示
(5)
式中:ξi=[ξi,1,ξi,2,…,ξi,m]T是m個輸出節(jié)點關(guān)于訓(xùn)練樣本xi的訓(xùn)練誤差向量。式(5)可以通過拉格朗日方法轉(zhuǎn)化為無約束最優(yōu)化問題求解β。
ELM算法可以概述如下:
(2)根據(jù)激活函數(shù)計算隱層輸出矩陣G;
(3)計算網(wǎng)絡(luò)輸出權(quán)值β=G?T。
2.1 LDA及MMC的優(yōu)化模型
(6)
MMC中2個不同類的距離d(mi,mj)定義為
(7)
(8)
2.2 判別極端學(xué)習(xí)機(DELM)
傳統(tǒng)的ELM直接利用隱層輸出矩陣G計算輸出權(quán)值β。實際上,在ELM的隱層特征空間中有許多非常重要的結(jié)構(gòu)。MCVELM算法[12]在ELM空間中只對訓(xùn)練數(shù)據(jù)的類內(nèi)離散度矩陣求最小化,與此對應(yīng),本文同時考慮最小化類內(nèi)離散度,最大化類間離散度來構(gòu)造一個基于ELM的分類器。
(9)
(10)
根據(jù)式(10)得到DELM分類器的輸出函數(shù)為
(11)
(12)
根據(jù)式(12)得到帶降維的DELM分類器的輸出函數(shù)為
(13)
2.3 基于DELM的反饋算法
在CBIR系統(tǒng)中基于SVM的相關(guān)反饋方法已經(jīng)得到廣泛應(yīng)用,然而,當SVM中特征維數(shù)非常大時引起的過擬合問題卻使系統(tǒng)性能不令人滿意。此外,SVM需要產(chǎn)生大量的支持向量,導(dǎo)致分類的時間復(fù)雜度增加。為了解決上述問題,本文針對CBIR系統(tǒng)提出了基于DELM的相關(guān)反饋方法。
在RF-CBIR系統(tǒng)中,用戶可以對上一步的檢索圖像進行標記。通過將檢索圖像作為訓(xùn)練樣本再學(xué)習(xí),可以得到一個基于DELM分類器的二分類學(xué)習(xí)算法。給定一個反復(fù)變換的樣本集(xi,ti),xi∈RD表示包含一幅圖像的顏色、紋理、形狀特征的特征向量,ti是xi的標簽,ti∈[1,-1],DELM分類器的輸出函數(shù)為f(xi)=(f1(xi),…,fm(xi))。然后,構(gòu)造一個基于DELM算法的分類器,把剩余圖像分成相關(guān)類和不相關(guān)類?;诖嗽?經(jīng)過幾次反饋后,依據(jù)與查詢圖像的關(guān)聯(lián)度將圖像進行排序可以得到更好的結(jié)果。具體步驟如下:
(1)利用傳統(tǒng)的圖像檢索算法對查詢樣例進行檢索,得到前N幅圖像;
(2)通過用戶標注,將這N幅圖像分為兩類,相關(guān)的標記為正例集合U+,不相關(guān)的標記為負例集合U-;
(4)利用式(11)或(13)構(gòu)造基于DELM算法的分類器;
(5)計算數(shù)據(jù)集中每幅圖像的輸出向量,通過選擇分類器f(xi)中輸出向量的第一個值得到與查詢圖像的相似距離,因此,每幅圖像的得分Ii可以表示為Ii=f1(xi);
(6)依據(jù)圖像的得分進行排序,并返回最新的檢索結(jié)果。
選擇Sigmoid函數(shù)作為ELM的激活函數(shù)。上述算法過程與基于SVM的相關(guān)反饋框架[15]十分相似,但是由于利用了ELM分類器,該算法比基于SVM的相關(guān)反饋要快幾千倍,并且在完成相同的任務(wù)時性能表現(xiàn)更好。實驗結(jié)果闡明了算法的有效性。圖2給出了基于DELM的RF-CBIR系統(tǒng)工作流程圖。
圖2 基于DELM的RF-CBIR系統(tǒng)工作流程圖
3.1 實驗設(shè)置
本實驗采用的圖像數(shù)據(jù)集為Corel-1K、Corel-5K和Corel-10K。Corel-1K包含10類總計1 000張圖片,有汽車、恐龍、食物等等。Corel-5K和Corel-10K數(shù)據(jù)集比Corel-1K更大。這3個數(shù)據(jù)集的基本信息如表1所示。
表1 實驗數(shù)據(jù)集分布
表2 圖像特征描述子的維數(shù)
3.2 實驗結(jié)果及分析
本實驗的數(shù)據(jù)集中的所有圖片都輪流作為查詢圖片。用于評價數(shù)據(jù)集的查準率和查全率的定義與文獻[18]一致。
表3為N=20時采用4種方法對2種特征在Corel-1K數(shù)據(jù)集上的檢索準確率比較。通過表3可以看到,在Corel-1K數(shù)據(jù)集中,多數(shù)情況下DELM要比SVM、ELM和MCVELM的性能更好,這主要是因為在DELM空間中圖像的類別能保持較好的結(jié)構(gòu)。本文發(fā)現(xiàn)一個比較有意思的結(jié)果是MSD的檢索結(jié)果要優(yōu)于FD1,這說明一個好的特征描述子對提高圖像檢索性能十分重要,達到較高的查準率所需要的反饋次數(shù)也更少。由于基于MSD的檢索結(jié)果非常相似,因此很難對基于MSD特征的相關(guān)反饋方法給進行評價,所以表4和表5只列出FD1特征的檢索結(jié)果來評價不同的相關(guān)反饋算法。
通過表3~5可以看到,第一次相關(guān)反饋的結(jié)果更利于評價相關(guān)反饋方法的性能。因此,在N為20、30、40、50,反饋次數(shù)為1時,給出不同數(shù)據(jù)集上基于FD1特征的不同方法的查準-查全率曲線,如圖3所示。從圖3可以看出:由于查找范圍與查全率是正相關(guān)的,因此隨著查全率的增加,參與反饋的樣本數(shù)增多,相關(guān)反饋效果越來越好,但是檢索平均準確率降低,這是因為檢索準確率和查全率成反比;DELM的效率和MCVELM相似,主要原因是這2種方法在實現(xiàn)降維時都有著相似的處理過程。DELM中降維的時間復(fù)雜度為O(D3),這是比ELM多出的額外時間,因此DELM需要花費更多的時間來得到反饋函數(shù),但是這一點在圖像特征的維數(shù)不大(小于500)時的影響非常小。
表3 N=20時采用2種特征對4種方法在Corel-1K數(shù)據(jù)集上的檢索準確率比較
注:P、P1、P2、P3、P4分別表示原始圖像檢索準確率和經(jīng)過1、2、3、4次相關(guān)反饋后的檢索準確率;黑體數(shù)據(jù)為比較最優(yōu)值。
表4N=20時采用4種方法對FDI特征在Corel-5K數(shù)據(jù)集上的檢索準確率比較
方法P/%P1/%P2/%P3/%P4/%SVM24.7827.1229.1029.9330.35ELM24.7830.2634.1736.8139.41MCVELM24.7830.0433.7536.6638.83DELM24.7830.5134.1737.1439.73
表5N=20時采用4種方法對FDI特征在Corel-10K數(shù)據(jù)集上的檢索準確率比較
方法P/%P1/%P2/%P3/%P4/%SVM23.9025.8326.8427.2727.56ELM23.9027.1230.9233.2935.68MCVELM23.9026.5830.1133.3035.77DELM23.9027.1230.8633.2635.68
(a)Corel-1K
(b)Corel-5K
(c)Corel-10K圖3 反饋次數(shù)為1時在不同數(shù)據(jù)集上基于FD1特征的不同方法的查準-查全率曲線
本文深入分析了ELM特征空間的分類結(jié)構(gòu),并針對CBIR系統(tǒng)的相關(guān)反饋提出了一種判別極端學(xué)習(xí)的相關(guān)反饋圖像檢索方法-DELM。該方法的主要優(yōu)點如下:①DELM包含了隱層特征空間的類內(nèi)離散度和類間離散度,增強了基于ELM的相關(guān)反饋算法的判別能力;②DELM可以根據(jù)用戶需求選擇是否包含降維方法,避免了小樣本問題?;跇藴蕯?shù)據(jù)集下的實驗結(jié)果表明,ELM的相關(guān)方法比基于SVM的方法更有效。此外,第一次的反饋結(jié)果也說明了圖像特征的提取在圖像檢索過程中的重要性。
[1] HE X. Incremental semi-supervised subspace learning for image retrieval [C]∥Proceedings of the 12th Annual ACM International Conference on Multimedia. New York, USA: ACM, 2004: 2-8.
[2] KUNDU M K, CHOWDHURY M, BULS R. A graph-based relevance feedback mechanism in content-based image retrieval [J]. Knowledge-Based Systems, 2015, 73: 254-264.
[3] HOI S C H, JIN R, ZHU J, et al. Semi-supervised SVM batch mode active learning for image retrieval [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2008: 1-7.
[4] WANG X Y, CHEN J W, YANG H Y. A new integrated SVM classifiers for relevance feedback content-based image retrieval using EM parameter estimation [J]. Applied Soft Computing, 2011, 11(2): 2787-2804.
[5] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1): 489-501.
[6] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes [J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.
[7] HUANG G B, CHEN L. Convex incremental extreme learning machine [J]. Neurocomputing, 2007, 70(16): 3056-3062.
[8] HORATA P, CHIEWCHANWATTAN S, SUNAT K. Robust extreme learning machine [J]. Neurocomputing, 2013, 102: 31-44.
[9] LIU S, FENG L, XIAO Y, et al. Robust activation function and its application: semisupervised kernel extreme learning method [J]. Neurocomputing, 2014, 144: 318-328.
[10]馮林, 劉勝藍, 張晶, 等. 高維數(shù)據(jù)中魯棒激活函數(shù)的極端學(xué)習(xí)機及線性降維 [J]. 計算機研究與發(fā)展, 2014, 51(6): 1331-1340. FENG Lin, LIU Shenglan, ZHANG Jing, et al. Robust activation function of extreme learning machine and linear dimensionality reduction in high-dimensional data [J]. Journal of Computer Research and Development, 2014, 51(6): 1331-1340.
[11]LIU S, WANG H, WU J, et al. Incorporate extreme learning machine to content-based image retrieval with relevance feedback [C]∥Proceeding of the 11th World Congress on Intelligent Control and Automation. Piscataway, NJ, USA: IEEE, 2014: 1010-1013.
[12]IOSIFIDIS A, TEFAS A, PITAS I. Minimum class variance extreme learning machine for human action recognition [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(11): 1968-1979.
[13]LI H, JIANG T, ZHANG K. Efficient and robust feature extraction by maximum margin criterion [J]. IEEE Transactions on Neural Networks, 2006, 17(1): 157-165.
[14]HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multiclass classification [J]. IEEE Transactions on Systems, Man, and Cybernetics: Part B Cybernetics, 2012, 42(2): 513-529.
[15]張磊, 林福宗. 基于支持向量機的相關(guān)反饋圖像檢索算法 [J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2002, 42(1): 80-83. ZHANG Lei, LIN Fuzong. Support vector machine based relevance feedback algorithm in image retrieval [J]. Journal of Tsinghua University (Science and Technology), 2002, 42(1): 80-83.
[16]OJALA T, PIETIKINEN M, MENPT. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[17]LIU G H, LI Z Y, ZHANG L, et al. Image retrieval based on micro-structure descriptor [J]. Pattern Recognition, 2011, 44(9): 2123-2133.
[18]LIU G H, YANG J Y, LI Z Y. Content-based image retrieval using computational visual attention model [J]. Pattern Recognition, 2015, 48(8): 2554-2566.
[本刊相關(guān)文獻鏈接]
周遠,周玉生,劉權(quán),等.一種適用于圖像拼接的DSIFT算法研究.2015,49(9):84-90.[doi:10.7652/xjtuxb201509015]
毛彥斌,張選平,楊曉剛.偽DNA密碼圖像加密算法研究.2015,49(9):91-98.[doi:10.7652/xjtuxb201509016]
劉凱,張立民,孫永威,等.利用深度玻爾茲曼機與典型相關(guān)分析的自動圖像標注算法.2015,49(6):33-38.[doi:10.7652/xjtuxb201506006]
符均,牟軒沁,季文博.亮色分離的飽和圖像校正方法.2014,48(10):101-107.[doi:10.7652/xjtuxb201410016]
岳桂華,滕奇志,何小海,等.巖心三維圖像修復(fù)算法.2014,48(9):37-42.[doi:10.7652/xjtuxb201409007]
任茂棟,梁晉,唐正宗,等.數(shù)字圖像相關(guān)法中的優(yōu)化插值濾波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]
靳峰,馮大政.利用空間序列描述子的快速準確的圖像配準算法.2014,48(6):19-24.[doi:10.7652/xjtuxb201406004]
張琳彥,朱利.以多幅圖像非幾何約束線段匹配重建建筑物外立面三維線段模型.2014,48(4):15-19+25.[doi:10.7652/xjtuxb201404003]
袁飛,朱利,張磊.利用超圖圖割的圖像共分割算法.2014,48(2):20-24.[doi:10.7652/xjtuxb201402004]
王芳梅,范虹,YiWANG.利用改進CV模型連續(xù)水平集算法的核磁共振乳腺圖像分割.2014,48(2):38-43.[doi:10.7652/xjtuxb201402007]
馬元魁,張樹生,白曉亮.用球面混合曲率圖像比較三角網(wǎng)格模型的相似性.2012,46(5):97-101.[doi:10.7652/xjtuxb 201205017]
史金鋼,齊春.一種雙約束稀疏模型圖像修復(fù)算法.2012,46(2):6-10.[doi:10.7652/xjtuxb201202002]
吳攀超,王宗義,林欣堂.采用局部差分模型描述的彩色圖像配準技術(shù).2011,45(10):30-37.[doi:10.7652/xjtuxb201110 006]
徐勝軍,韓九強,趙亮,等.用于圖像分割的局部區(qū)域能量最小化算法.2011,45(8):7-12.[doi:10.7652/xjtuxb201108 002]
羅濤,牟軒沁.一種胸部X射線攝影圖像中結(jié)節(jié)檢測的多尺度匹配濾波器.2011,45(4):30-35.[doi:10.7652/xjtuxb 201104006]
趙海峰,姚麗莎,羅斌.改進的人工魚群算法和Powell法結(jié)合的醫(yī)學(xué)圖像配準.2011,45(4):46-52.[doi:10.7652/xjtuxb201104009]
陳蓉,孫劍,徐宗本.彩色圖像分割中基于圖上半監(jiān)督學(xué)習(xí)算法研究.2011,45(2):11-14.[doi:10.7652/xjtuxb201102003]
(編輯 劉楊)
A Retrieval Method of Relevance Feedback Images Based on Discriminative Extreme Learning
HUANG Xiaodong1,SUN Liang1,LIU Shenglan2
(1. Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450001, China; 2. Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116024, China)
A novel retrieval method of relevance feedback images based on discriminative extreme learning, named DELM, is proposed to concern the high computational complexity, low discriminant ability and insufficient image feature extraction of content-based image retrieval (CBIR) with the relevance feedback (RF) methods based on support vector machine (SVM). The proposed method extracts image features in the phase of image feature extraction through color, texture and edge histogram of the image to solve the problem that image feature extraction of the existing methods that based on single feature is insufficient. A maximum margin criterion (MMC) is introduced to extreme learning machine (ELM) in the phase of retrieval feedback. A classification model including discriminative information is obtained through analyzing discrete degrees within and between scatters of feature space in ELM hidden layer, and two versions of DELM are proposed to improve the retrieval performance of RF based image retrieval system, that is, a dimension reduction free based version and a dimension reduction based version. The DELM method is effectively applied to CBIR, and significantly improves the quality of retrieval performance. Experimental results on Corel-1K dataset and comparisons with the methods using SVM, ELM, and minimum class variance ELM (MCVELM) show that the average retrieval precision of the DELM method increases by about 11.06%, 5.28% and 6.40%, respectively.
image retrieval; relevance feedback; support vector machine; extreme learning machine; discriminative information
10.7652/xjtuxb201608016
2016-03-20。 作者簡介:黃曉冬(1991—),男,碩士生;孫亮(通信作者),男,教授。 基金項目:國家自然科學(xué)基金資助項目(61372172)。
時間:2016-06-28
http:∥www.cnki.net/kcms/detail/61.1069.T.20160628.2026.002.html
TP391
A
0253-987X(2016)08-0096-07