孫遜之 王月海
摘要:針對(duì)現(xiàn)有的RGB-D物體識(shí)別方法存在特征學(xué)習(xí)不全面導(dǎo)致物體識(shí)別準(zhǔn)確率不高的問(wèn)題,結(jié)合分層匹配追蹤算法(Hierarchical matching pursuit,HMP)和特征級(jí)融合提出一種改進(jìn)的物體識(shí)別算法。該算法首先利用稀疏編碼和池化技術(shù)分別從RGB-D圖像(RGB圖像和深度圖像兩種模態(tài))中提取RGB特征和深度特征,然后根據(jù)不同模態(tài)的特征對(duì)物體識(shí)別率的貢獻(xiàn)進(jìn)行特征級(jí)融合得到多模態(tài)融合特征,最后送入SVM分類器進(jìn)行分類識(shí)別,并調(diào)整融合參數(shù)尋求最優(yōu)識(shí)別率。在RGB-D數(shù)據(jù)集上進(jìn)行分類識(shí)別實(shí)驗(yàn),結(jié)果表明該方法的物體分類識(shí)別率能夠達(dá)到83.6%,比其他方法提高了1%-2%。
關(guān)鍵詞:分層匹配追蹤;特征級(jí)融合;多模態(tài)融合;SVM分類器;識(shí)別率
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0180-03
RGB-D Object recognition based on Multimodal Fusion
SUN Xun-zhi,WANG Yue-hai
(The Academy of Electronic Information Engineering, North China University of Technology, Beijing 100144, China)
Abstract: For the problem that insufficient feature learning lead to lower accuracy of object recognition for the existing RGB-D object recognition methods, an improved object recognition method base on a combination of hierarchical pursuit pursuit algorithm (HMP) and feature level fusion was proposed. The algorithm firstly combines sparse coding with pooling techniques to extract distinctive RGB feature and depth feature from RGB-D images (two modes of RGB image and depth image ), and then adopt feature level fusion method to obtain multimodal fusion feature according to the contribution of different modal feature to object recognition rate. Finally, send the multimodal fusion feature to SVM classifier for classification recognition, and adjust the fusion parameters for the best recognition rate. The classification recognition experiment on RGB-D dataset shows that the object recognition rate of this method can reach 83.6%, which is 1%-2% higher than other methods.
Key words: HMP;feature level fusion;multimodal fusion;SVM classifier;recognition accuracy
1 引言
物體識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究課題之一,在家庭服務(wù)機(jī)器人、智能監(jiān)控、工業(yè)生產(chǎn)和軍事偵察等領(lǐng)域具有廣泛的應(yīng)用,研究物體識(shí)別的準(zhǔn)確率提升問(wèn)題具有很大的學(xué)術(shù)意義和應(yīng)用價(jià)值。
物體識(shí)別按照數(shù)據(jù)的來(lái)源進(jìn)行分類,可以分為兩大類:基于二維圖像的物體識(shí)別和基于三維信息的物體識(shí)別,RGB-D物體識(shí)別就屬于基于三維信息的物體識(shí)別。微軟研發(fā)的Kinect攝像機(jī),可以同時(shí)獲取物體的RGB圖像和深度圖像(RGB-D圖像),彌補(bǔ)了基于二維圖像的識(shí)別方法缺少空間位置等信息的不足,對(duì)于物體識(shí)別的研究具有里程碑的意義。
近年來(lái),研究者們提出了很多基于RGB-D的物體識(shí)別算法,如深度核描述子方法[1]、卷積K均值描述子方法[2]、原始HMP算法[3]、HMP算法[4]、卷積遞歸神經(jīng)網(wǎng)絡(luò) (CNN-RNNs)深度學(xué)習(xí)算法[5]和多層卷積神經(jīng)網(wǎng)絡(luò)(CNN)深度學(xué)習(xí)模型[6]等。上述方法中,文獻(xiàn)[1][2][3]方法僅僅使用彩色信息和深度信息,未能充分利用物體的全部特征,存在一定局限。文獻(xiàn)[3]方法能夠充分利用RGB-D信息(RGB、灰度、深度和曲面法線),而且不僅提取底層特征,還提取高層特征,在特征提取方面具有較大優(yōu)勢(shì),但在提取到RGB特征和深度特征后,沒(méi)有對(duì)這些不同模態(tài)的特征區(qū)別對(duì)待,而直接進(jìn)行級(jí)聯(lián)得到最后特征,忽略了不同模態(tài)特征對(duì)物體識(shí)別的貢獻(xiàn)差異性,存在一定局限。文獻(xiàn)[5][6]方法結(jié)構(gòu)相對(duì)復(fù)雜,計(jì)算復(fù)雜度高,耗時(shí)長(zhǎng)。以上方法雖然可以有效提升物體識(shí)別準(zhǔn)確率,但仍然存在局限性。
本文針對(duì)物體的特征信息利用不全面、得到不同模態(tài)特征后不加區(qū)分而直接級(jí)聯(lián)的缺陷,提出了一種基于HMP和特征級(jí)融合的RGB-D物體識(shí)別改進(jìn)算法,實(shí)驗(yàn)驗(yàn)證表明了該算法的有效性。
2算法描述
本文算法的框架圖如圖1所示,主要包括特征提取、特征融合和特征識(shí)別三個(gè)重要過(guò)程。特征提取過(guò)程運(yùn)用HMP算法從RGB圖像和深度圖像中分別提取出RGB特征和深度特征。特征融合過(guò)程采用特征級(jí)融合方法將RGB特征和深度特征進(jìn)行融合得到高效的融合特征。分類識(shí)別過(guò)程運(yùn)用SVM分類器對(duì)融合特征進(jìn)行訓(xùn)練和識(shí)別,得到最終識(shí)別率。
2.1 特征提取
特征提取的關(guān)鍵算法是文獻(xiàn)[4]中的兩層HMP算法,該算法能夠充分利用物體的RGB-D信息:先從RGB圖像和深度圖像生成灰度圖像和曲面法線,然后分別提取對(duì)應(yīng)的底層特征向量和高層特征向量。HMP算法提取過(guò)程簡(jiǎn)述如下:
(1)首先輸入圖像,然后采用滑窗對(duì)圖像進(jìn)行采樣得到采樣數(shù)據(jù),再通過(guò)KSVD算法[7]得到第一層的特征字典,接著利用OMP算法[8]得到字典特征圖,隨后通過(guò)最大值池化得到圖像的池化表示。
(2)對(duì)第一層的字典特征圖進(jìn)行采樣得到采樣數(shù)據(jù),再通過(guò)KSVD算法得到第二層的特征字典,接著利用OMP算法得到字典特征圖,隨后通過(guò)空間金字塔最大池化得到圖像的最終特征表示。
2.2 特征融合與分類識(shí)別
特征融合階段采用了一種特征級(jí)加權(quán)融合算法,將經(jīng)過(guò)特征提取過(guò)程得到的不同模態(tài)的RGB特征和深度特征區(qū)別對(duì)待,根據(jù)它們對(duì)物體識(shí)別的貢獻(xiàn)差異性將RGB特征和深度特征進(jìn)行加權(quán)融合。該算法首先采用SVM分類器分別對(duì)RGB特征和深度特征進(jìn)行分類實(shí)驗(yàn),得到每個(gè)類別中不同實(shí)例物體的RGB特征識(shí)別準(zhǔn)確率ARi及其對(duì)應(yīng)的深度特征識(shí)別準(zhǔn)確率ADi,然后通過(guò)比較同一實(shí)例物體的ARi和ADi調(diào)整該實(shí)例物體在融合特征中的權(quán)重參數(shù)WRi和WDi,控制每個(gè)實(shí)例物體中各種特征之間的相對(duì)重要性。
(1)融合形式
假設(shè)RGB特征向量和深度特征向量分別表示為Rgbfea和 Depthfea,賦予它們的權(quán)重參數(shù)分別為WR和WD。將RGB特征和深度特征融合后得到綜合特征RgbDfea:
[RgbDfea=WR*Rgbfea+WD*Depthfea]
其中,[WR=(wR1,...,wRi,...,wRn)]
[WD=(wD1,...,wDi,...,wDn)]
[Rgbfea=(Rgbfea1,...,Rgbfeai,...,Rgbfean)] (1)
[Depthfea=(Depthfea1,...,Depthfeai,...,Depthfean)]
[1≤i≤n]
n表示實(shí)例物體的個(gè)數(shù);
Rgbdfeai和Depthfeai分別表示第i個(gè)實(shí)例物體的彩色特征和深度特征。
wRi和wDi分別表示第i個(gè)實(shí)例物體的彩色特征和深度特征的權(quán)重參數(shù),代表其對(duì)最終識(shí)別結(jié)果的貢獻(xiàn)程度。
(2)權(quán)重參數(shù)求解
根據(jù)RGB特征和深度特征對(duì)最終識(shí)別結(jié)果的貢獻(xiàn)差異性為其權(quán)重參數(shù)wRi和wDi賦予不同的值,貢獻(xiàn)差異性由每個(gè)實(shí)例物體的識(shí)別準(zhǔn)確率來(lái)體現(xiàn)。假設(shè)每個(gè)實(shí)例物體的RGB特征的識(shí)別準(zhǔn)確率和深度特征的識(shí)別準(zhǔn)確率分別為aRi和aDi([1≤i≤n])。
對(duì)于某一個(gè)例的物體而言,若基于RGB圖像的識(shí)別準(zhǔn)確率aRi高于基于深度圖像的識(shí)別準(zhǔn)確率aDi,則說(shuō)明對(duì)于此種物體,RGB特征比深度特征更有區(qū)別力,在特征融合時(shí)給予RGB特征對(duì)應(yīng)的權(quán)值參數(shù)wRi一個(gè)較大的值,給予深度特征對(duì)應(yīng)的權(quán)值參數(shù)wDi一個(gè)較小的值。同樣,如果某一個(gè)例的物體基于深度圖像的識(shí)別準(zhǔn)確率aDi高于基于RGB圖像的識(shí)別準(zhǔn)確率aRi,說(shuō)明對(duì)于此類物體,深度特征比RGB特征有區(qū)別力,給wDi一個(gè)較大的值,給wRi一個(gè)較小的值。
由此,引入?yún)?shù)s([s≥0.5]),使識(shí)別率較高的特征對(duì)應(yīng)的權(quán)重較大。根據(jù)公式(2)調(diào)整權(quán)重參數(shù)WR和WD,尋求最優(yōu)的分類識(shí)別結(jié)果。
[wRi=s] [wDi=1-s], [aRi≥aDi] (2)
[wRi=1-s] [wDi=s], [aRi (3)參數(shù)s確定與分類識(shí)別 自動(dòng)調(diào)整參數(shù)s的值,讓s分別為[0.5,0.6,0.7,0.8,0.9,1](以0.1遞增),將融合特征后的綜合特征RgbDfea分別送入SVM分類器進(jìn)行分類識(shí)別,取識(shí)別結(jié)果的最大值為次優(yōu)分類識(shí)別結(jié)果。在RGB-D數(shù)據(jù)集上進(jìn)行的20次實(shí)驗(yàn)發(fā)現(xiàn),識(shí)別率accuracy隨著參數(shù)s的增加而先增大后減小。 參數(shù)s確定方法如下:假設(shè)[s=s1]時(shí),accuracy的值最大。則accuracy的實(shí)際最大值應(yīng)該在區(qū)間[[s1-0.1,s1+0.1]]內(nèi)。自動(dòng)調(diào)整參數(shù)s,讓s在區(qū)間[[s1-0.1,s1+0.1]]以0.01遞增,將融合特征后的綜合特征RgbDfea再次分別送入SVM分類器進(jìn)行分類識(shí)別,取accuracy的最大值為最終分類識(shí)別結(jié)果。實(shí)際上,后續(xù)還可以在更小精度(0.001,0.0001,......)的區(qū)間范圍里進(jìn)行實(shí)驗(yàn),但是綜合衡量實(shí)驗(yàn)時(shí)間代價(jià)和識(shí)別率,0.01的精度最為合適。 2.3 算法詳細(xì)步驟及形式化描述 本文算法的實(shí)現(xiàn)過(guò)程如圖1所示,其詳細(xì)步驟介紹如下: (1)從數(shù)據(jù)庫(kù)中獲取RGB圖像和深度圖像,分別生成灰度圖像和曲面法線,分別記為原始數(shù)據(jù)向量[Irgb]、[Igray]、[Idepth]、[Inor]。 (2)將[Irgb]和[Igray]通過(guò)HMP算法提取出RGB特征向量Rgbfea。 (3)將Rgbfea作為特征輸入,送入到SVM分類器進(jìn)行預(yù)分類,得到每個(gè)實(shí)例物體RGB特征的識(shí)別準(zhǔn)確率aRi。 (4)將[Idepth]和[Inor]通過(guò)HMP算法提取出深度特征向量Depthfea。 (5)將Depthfea作為特征輸入,送入到SVM分類器進(jìn)行預(yù)分類,得到每個(gè)實(shí)例物體深度特征的識(shí)別準(zhǔn)確率aDi。 (6)通過(guò)特征級(jí)融合算法,將RGB特征和深度特征進(jìn)行有效融合,得到綜合特征RgbDfea。 (7)將融合特征RgbDfea作為輸入向量,送入SVM分類器進(jìn)行分類識(shí)別,并實(shí)時(shí)調(diào)整融合參數(shù),尋求最優(yōu)的最終識(shí)別率。
算法的形式化描述如表1所示:
3 實(shí)驗(yàn)及結(jié)果分析
為了驗(yàn)證本文所提出的RGB-D物體識(shí)別算法的有效性,本文采用數(shù)據(jù)庫(kù)RGB-D Object Dataset來(lái)進(jìn)行實(shí)驗(yàn)驗(yàn)證。
3.1 實(shí)驗(yàn)設(shè)置
本文重點(diǎn)研究物體的分類識(shí)別問(wèn)題,選取RGB-D Object Dataset中水果和蔬菜的14個(gè)類別進(jìn)行實(shí)驗(yàn)。這14個(gè)類別的物體一共有72個(gè)實(shí)例,9952張RGB圖像和相應(yīng)的深度圖像。如圖2所示,為RGB-D Object Dataset中用于實(shí)驗(yàn)的部分物體的RGB圖像和深度圖像。
為了與其他方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,本文的實(shí)驗(yàn)設(shè)置與文獻(xiàn)[4 ]相同。每次實(shí)驗(yàn),將實(shí)驗(yàn)數(shù)據(jù)集隨機(jī)地分為訓(xùn)練樣本和測(cè)試樣本。劃分規(guī)則為隨機(jī)地從每個(gè)類別中選擇1個(gè)實(shí)例物體作為測(cè)試樣本,剩下的作為訓(xùn)練樣本。如此重復(fù)實(shí)驗(yàn)10次,取10次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。
3.2 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)中依照2.2節(jié)所述,自動(dòng)調(diào)整參數(shù)s的值,先讓s分別為0.5,0.6,0.7,0.8,0.9,1(以0.1遞增),后讓s在區(qū)間[[s1-0.1,s1+0.1]]以0.01遞增,可以得到s為不同值時(shí)對(duì)應(yīng)的識(shí)別準(zhǔn)確率accuracy。
當(dāng)[s=0.78]時(shí),[accuracy=83.5%]有最大值,即最優(yōu)識(shí)別率。
表2列出了本文方法與先前常規(guī)方法在RGB-D數(shù)據(jù)集上的識(shí)別結(jié)果比較。可以看出,本文方法比常規(guī)方法的識(shí)別準(zhǔn)確率約高1%~2%,在一定程度上提高了物體分類識(shí)別的準(zhǔn)確性,確認(rèn)了該方法的有效性。
4 結(jié)語(yǔ)
本文針對(duì)RGB-D物體識(shí)別中特征學(xué)習(xí)不全面導(dǎo)致識(shí)別準(zhǔn)確率不高的問(wèn)題,提出了一種基于HMP和特征級(jí)融合的RGB-D物體識(shí)別改進(jìn)方法。該方法能夠充分利用RGB-D物體的多模態(tài)信息,獲取更有表達(dá)能力的融合特征。在RGB-D數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法的物體分類識(shí)別率能夠達(dá)到83.6%,較其他方法高1%-2%,能夠在一定程度上提高RGB-D物體的識(shí)別準(zhǔn)確率。在以后的研究中,將對(duì)文中的特征級(jí)融合算法進(jìn)行優(yōu)化,進(jìn)一步提高RGB-D物體的識(shí)別準(zhǔn)確率。
參考文獻(xiàn):
[1] Blum M, Springenberg J T, Wulfing J, et al. A learned feature descriptor for object recognition in RGB-D data[C]// IEEE International Conference on Robotics and Automation. IEEE, 2012:1298-1303.
[2] Bo L, Ren X, Fox D. Depth kernel descriptors for object recognition[C]// Ieee/rsj International Conference on Intelligent Robots and Systems. IEEE, 2011:821-826.
[3] Bo L, Ren X, Fox D. Hierarchical matching pursuit for image classification: architecture and fast algorithms[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2011:2115-2123.
[4] Bo L, Ren X, Fox D. Unsupervised Feature Learning for RGB-D Based Object Recognition[M]// Experimental Robotics. Springer International Publishing, 2013:387-402.
[5] Richard Socher, Brody Huval, Bharath Bath, Christopher D Manning, and Andrew Y Ng. Convolutional-recursive deep learning for 3d object classification. In Advances in Neural Information Processing Systems, 2012: 665-673, .
[6] Schwarz M, Schulz H, Behnke S. RGB-D object recognition and pose estimation based on pre-trained convolutional neural network features[C]// IEEE International Conference on Robotics and Automation. IEEE, 2015:1329-1335.
[7] Aharon M, Elad M, Bruckstein A. K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11):4311-4322.
[8] Rubinstein R, Zibulevsky M, Elad M. Efficient Implementation of the K-SVD Algorithm Using Batch Orthogonal Matching Pursuit[J]. Cs Technion, 2008, 40.
[9] Deng J, Zhang Z, Marchi E, et al. Sparse Autoencoder-Based Feature Transfer Learning for Speech Emotion Recognition[C]// Affective Computing and Intelligent Interaction. IEEE, 2013:511-516.