戴天虹 楊曉云 宋潔綺
摘要:針對(duì)現(xiàn)有的視覺位置識(shí)別方法在圖像外觀變化和視角變化時(shí)準(zhǔn)確性和魯棒性表現(xiàn)不佳的問題,提出了一個(gè)與注意力機(jī)制結(jié)合的視覺位置識(shí)別方法。首先,采用在大型位置數(shù)據(jù)集上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)HybridNet提取特征。然后,運(yùn)用上下文注意力機(jī)制對(duì)圖像不同區(qū)域分配權(quán)重值,構(gòu)建基于多層卷積特征的注意力掩碼。最后,將掩碼與卷積特征結(jié)合,構(gòu)建融合注意力機(jī)制的圖像特征描述符,從而提高特征的魯棒性。在兩個(gè)典型位置識(shí)別數(shù)據(jù)集上做測試實(shí)驗(yàn),結(jié)果表明結(jié)合注意力機(jī)制的方法可以有效區(qū)分圖像中與位置識(shí)別有關(guān)的區(qū)域和無關(guān)的區(qū)域,提高在外觀變化和視角變化場景中識(shí)別的準(zhǔn)確性和魯棒性。
關(guān)鍵詞:圖像處理;位置識(shí)別;注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
DOI:10.15938/j.jhust.2022.02.008
中圖分類號(hào): TP391.41
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2022)02-0063-06
Visual Place Recognition Method Based on Attention Mechanism
DAI Tian-hong,YANG Xiao-yun,SONG Jie-qi
(School of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin Heilongjiang 150040, China)
Abstract:Aiming at the problem of poor accuracy and robustness of the existing visual place recognition methods when the image appearance changes and the viewing angle changes, a visual place recognition method combined with the attention mechanism is proposed. Firstly, we use the convolutional neural network HybridNet pre-trained on a large location dataset to extract features. Then, we use the context attention mechanism to assign weight values to different regions of the image to construct an attention mask based on multi-layer convolution features. Finally, we combine the mask with the convolution feature to construct the image feature descriptor fused with the attention mechanism so as to improve the robustness of the feature. Testing experiments on two typical place recognition datasets show that the method combined with the attention mechanism can effectively distinguish between the regions related to place recognition and the unrelated regions in the image, and it can improve the accuracy and robustness of recognition in scenes with changes in appearance and viewpoints.
Keywords:image processing; place recognition; attention mechanism; convolutional neural network; deep learning
0引言
視覺位置識(shí)別技術(shù)(visual place recognition,VPR)主要是指采用圖像識(shí)別技術(shù),判斷當(dāng)前圖像是否是之前曾訪問過的場景[1],目前廣泛應(yīng)用于機(jī)器人同步定位與構(gòu)圖(simultaneous localization and mapping, SLAM)的閉環(huán)檢測和重定位環(huán)節(jié)中,可以消除機(jī)器人系統(tǒng)運(yùn)動(dòng)過程中的累計(jì)誤差。
視覺位置識(shí)別算法主要包括對(duì)當(dāng)前圖像和曾經(jīng)訪問過的圖像提取特征,對(duì)提取到的特征進(jìn)行編碼,計(jì)算當(dāng)前圖像和曾經(jīng)訪問過的圖像之間的相似度,確定是否匹配等步驟。早期的視覺位置識(shí)別技術(shù)都是對(duì)圖片提取手工特征描述符實(shí)現(xiàn),比如局部特征SURF(speeded up robust features)[2]、SIFT(scale-invariant feature transform)[3]、ORB(oriented FAST and rotated BRIEF)[4],全局特征Gist[5]等,但是手工設(shè)計(jì)的特征在長時(shí)間的大型場景識(shí)別中無法做出較好的性能表現(xiàn)。近年來,由于深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺等領(lǐng)域得到了廣泛的應(yīng)用和發(fā)展[6-11],越來越多的研究人員開始通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)提取特征來實(shí)現(xiàn)視覺位置識(shí)別。
文[12]采用在場景數(shù)據(jù)集上預(yù)訓(xùn)練的CNN模型進(jìn)行位置識(shí)別,實(shí)驗(yàn)證明在光照發(fā)生變化的場景下CNN提取的特征顯著優(yōu)于傳統(tǒng)人工設(shè)計(jì)的特征。文[13]利用CNN在外觀變化和視角變化的數(shù)據(jù)集分析不同層提取的特征在位置識(shí)別中的性能表現(xiàn),實(shí)驗(yàn)證明中間層和高層特征的性能表現(xiàn)較好。文[14]和文[15]針對(duì)位置識(shí)別任務(wù)分別設(shè)計(jì)訓(xùn)練了專用的CNN。但是,直接利用CNN提取的全局特征在視角變化的數(shù)據(jù)集上性能表現(xiàn)不佳,因?yàn)榕c位置識(shí)別技術(shù)相關(guān)的視覺線索通常不會(huì)均勻地分布在整幅圖像中,圖像中與位置識(shí)別無關(guān)的線索會(huì)影響識(shí)別的準(zhǔn)確性,比如圖像中的一些動(dòng)態(tài)物體,如汽車、行人等。因此,文[16]、文[17]和文[18]提出識(shí)別圖像中的顯著區(qū)域,證明直接關(guān)注圖像中的區(qū)域特征可以有效提高視角變化時(shí)的識(shí)別魯棒性,但是這些方法都是通過生成局部區(qū)域探測器來檢測圖像中的地標(biāo)性特征,容易忽略圖像中的隱藏信息。
注意力來源于認(rèn)知科學(xué),指人類視覺在學(xué)習(xí)圖像時(shí),能快速判斷并集中于與任務(wù)有關(guān)的重點(diǎn)目標(biāo)區(qū)域,而忽略無關(guān)區(qū)域的過程。與深度學(xué)習(xí)結(jié)合的注意力機(jī)制一般指學(xué)習(xí)訓(xùn)練一個(gè)新的網(wǎng)絡(luò),通過學(xué)習(xí)圖像中哪些區(qū)域?qū)ψR(shí)別任務(wù)貢獻(xiàn)大,哪些區(qū)域與識(shí)別任務(wù)無關(guān),對(duì)圖像中不同區(qū)域建立響應(yīng)機(jī)制,從而達(dá)到有效識(shí)別的目的。
另外,通過CNN對(duì)圖像提取特征,低層次的卷積特征圖側(cè)重于圖像邊緣、輪廓等信息,而高層次的卷積特征圖含有較豐富語義信息。如果僅針對(duì)某個(gè)卷積層學(xué)習(xí)訓(xùn)練注意力,則可能造成圖像信息丟失或不全。
綜上所述,本文提出利用一個(gè)多尺度卷積濾波器建立上下文注意力機(jī)制,通過提取圖像中隱藏信息,生成預(yù)測圖像各區(qū)域響應(yīng)的注意力掩碼,并且針對(duì)不同卷積層提取特征的差異性,融合從多層卷積特征學(xué)習(xí)到的注意力掩碼,最后將掩碼直接與卷積特征加權(quán),相比其他采用卷積神經(jīng)網(wǎng)絡(luò)的方法,可以生成更具魯棒性的特征表示。
1基于注意力機(jī)制的視覺位置識(shí)別方法
融合注意力機(jī)制的視覺位置識(shí)別方法流程如圖1所示。首先使用HybridNet[15]提取圖像卷積特征,經(jīng)注意力機(jī)制處理生成圖像最終表示,最后采用余弦距離判斷查詢圖像和參考圖像之間是否發(fā)生匹配。
1.1卷積神經(jīng)網(wǎng)絡(luò)
HybridNet網(wǎng)絡(luò)[15]模型結(jié)構(gòu)如圖2所示,輸入圖像大小為227×227×3,Conv、ReLu、Norm、Pool、FC分別代表卷積層、激活層、歸一化層、最大池化層和全連接層。第一個(gè)卷積層的卷積核大小為11×11,第二個(gè)卷積層的卷積核大小為5×5,第三個(gè)到第六個(gè)卷積層的卷積核大小均為3×3。該網(wǎng)絡(luò)的初始化是通過AlexNet網(wǎng)絡(luò)[19]參數(shù)實(shí)現(xiàn),然后在大型位置識(shí)別數(shù)據(jù)集SPED上訓(xùn)練。
SPED數(shù)據(jù)集收集來自世界各地2543臺(tái)相機(jī)采集的總共大約250萬張圖片,分別在2014年2月和2014年8月2個(gè)不同的季節(jié)每隔半小時(shí)拍攝。相比其他用于場景訓(xùn)練的數(shù)據(jù)集,涵蓋了更多的戶外場景,比如城市建筑物、郊外森林等,并且每個(gè)位置的外觀條件變化非常明顯,同一個(gè)位置的數(shù)據(jù)由一年中不同的季節(jié)和一天中不同的時(shí)間點(diǎn)采集。
1.2上下文注意力機(jī)制
HybridNet提取到第l層的卷積特征用X表示,X∈R代表特征圖中W×H位置一組C維向量。受啟發(fā)于文[20],如圖3所示,首先對(duì)提取的特征圖Xlx使用3種不同大小的卷積濾波器提取上下文信息,尺寸分別為3×3,5×5,7×7,每個(gè)濾波器產(chǎn)生一個(gè)特征圖,比如共有32個(gè)3×3大小的卷積濾波器,則產(chǎn)生32個(gè)W×H大小的特征圖。按照通道方向串聯(lián)所有的特征圖形成X。
為了計(jì)算上下文注意力掩碼,對(duì)X做CNN參數(shù)化處理,在X后面使用一個(gè)單通道輸出的卷積層:
1.3多層注意力融合
1.4多分類訓(xùn)練
1.5相似度計(jì)算
2實(shí)驗(yàn)結(jié)果分析
在兩個(gè)公開的位置識(shí)別數(shù)據(jù)集上進(jìn)行測試實(shí)驗(yàn)。Synthesized Nordland數(shù)據(jù)集[22]包含攝像機(jī)在4個(gè)不同季節(jié)捕捉到的同一火車行駛軌跡的沿途風(fēng)景圖像,本文選取了夏季和冬季,含有明顯的季節(jié)條件變化。Gardens Point數(shù)據(jù)集[13]在昆士蘭大學(xué)校園內(nèi)采集,包含2個(gè)白天的子數(shù)據(jù)集分別在人行道的左邊和右邊拍攝,還有1個(gè)晚上的數(shù)據(jù)集在人行道的右邊采集,本文采用了白天左邊拍攝和晚上右邊拍攝2個(gè)子集,圖像存在明顯的視角和光照條件變化。
首先采用精確率-召回率曲線以及曲線與坐標(biāo)軸圍成的面積AUC(area under the curve)評(píng)價(jià)算法性能,AUC越接近于1,則算法性能越好。精確率(precision, P)和召回率(recall, R)計(jì)算公式如下:
將本文提出的算法與AlexNet[19]、AMOSNet[15]、HybridNet、Region-VLAD[18]4個(gè)算法比較。AlexNet網(wǎng)絡(luò)是目前應(yīng)用最廣泛的卷積神經(jīng)網(wǎng)絡(luò)之一,位置識(shí)別算法的特征提取部分也大多采用該網(wǎng)絡(luò)完成。AMOSNet網(wǎng)絡(luò)結(jié)構(gòu)與HybridNet相同,但是沒有初始化過程,全部網(wǎng)絡(luò)參數(shù)均是直接在SPED數(shù)據(jù)集上訓(xùn)練得到。Region-VLAD方法使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,然后識(shí)別圖像顯著區(qū)域構(gòu)建視覺詞典,在識(shí)別中擁有優(yōu)秀的準(zhǔn)確性和實(shí)時(shí)性表現(xiàn)。本文還與僅在Conv5層使用注意力的方法(one layer-attention)做了比較。
如圖4所示,在季節(jié)條件變化明顯的Nordland數(shù)據(jù)集上,AlexNet、AMOSNet、HybridNet 和Region-VLAD算法的AUC分別為0.56、0.72、0.82、0.80,而本文所提算法AUC為0.89,說明本文所提算法在外觀條件變化時(shí)能優(yōu)于其他4類算法,取得較好的識(shí)別效果。在含有視角變化和外觀條件變化的Gardens Point數(shù)據(jù)集上,AlexNet、AMOSNet、 HybridNet和Region-VLAD算法的準(zhǔn)確率都有所下降,AUC分別為0.49、0.58、0.62、0.75,而本文所提算法準(zhǔn)確率變化較小,AUC變化也較小,說明本文所提算法的魯棒性較好,克服了光照條件和視角變化帶來的影響。本文使用多層注意力的識(shí)別方法相比單層注意力方法的AUC有一定提高,說明多層注意力的有效性。
視覺位置識(shí)別中,算法實(shí)時(shí)性也是需要考慮的一個(gè)重要因素。本文采用單張圖像特征提取和特征匹配平均用時(shí)作為評(píng)價(jià)算法實(shí)時(shí)性的依據(jù)。具體結(jié)果如表1所示,可以看出,由本文算法完成特征提取用時(shí)相比基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)AMOSNet和HybridNet較長,這是因?yàn)橐胱⒁饬C(jī)制后網(wǎng)絡(luò)層數(shù)加深。特征匹配用時(shí)相比AMOSNet和HybridNet差別不大,這是因?yàn)楸疚臉?gòu)造的特征描述符維度與AMOSNet和HybridNet一致。同時(shí)也可以看出,本文相比采用地標(biāo)探測器的Region-VLAD算法的實(shí)時(shí)性表現(xiàn)較佳,因?yàn)镽egion-VLAD算法提取圖像顯著性區(qū)域特征構(gòu)造視覺詞典,查詢時(shí)交叉對(duì)比區(qū)域特征,用時(shí)較長。綜上所述,本文算法在實(shí)時(shí)性方面可以滿足位置識(shí)別的要求。
3注意力機(jī)制的優(yōu)越性
為了更好地說明結(jié)合注意力機(jī)制的視覺位置識(shí)別算法在提取圖像有效信息上的優(yōu)越性,本文還在同一位置不同視角和不同光照條件下的3張圖像上可視化了注意力圖(Attention Map),圖片示例和實(shí)驗(yàn)結(jié)果如圖5所示。注意力圖中的白色區(qū)域代表了神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別時(shí)更關(guān)注的特征區(qū)域,越靠近白色區(qū)域中心代表對(duì)識(shí)別結(jié)果貢獻(xiàn)越大。
如圖5所示,采用HybridNet的注意力圖的白色區(qū)域集中在圖像中的樹木或者草地上,當(dāng)視角條件和外觀條件發(fā)生變化時(shí),HybridNet注意力圖的白色區(qū)域也發(fā)生了很大變化,而經(jīng)過本文算法處理后的注意力圖的白色區(qū)域能保持集中在建筑物上,證明無論是視角條件變化還是光照條件變化,圖像經(jīng)過注意力機(jī)制處理后,在關(guān)鍵區(qū)域都能有較高的響應(yīng),從而能在識(shí)別中表現(xiàn)出良好的性能。
4結(jié)語
本文提出一個(gè)與注意力機(jī)制結(jié)合的視覺位置識(shí)別算法,在Synthesized Nordland數(shù)據(jù)集和Gardens Point數(shù)據(jù)集上做測試實(shí)驗(yàn)說明,相比于其他算法,本文算法的準(zhǔn)確性和魯棒性表現(xiàn)較好,同時(shí)可以滿足實(shí)時(shí)性要求。通過Attention Map可視化,融合注意力機(jī)制的位置識(shí)別方法能對(duì)圖片中的有用區(qū)域產(chǎn)生較高的響應(yīng),并且當(dāng)存在外觀條件和視角條件變化時(shí),高響應(yīng)區(qū)域幾乎沒有發(fā)生改變,從而能保證識(shí)別的魯棒性。
參 考 文 獻(xiàn):
[1]LOWRY S, SUNDERHAUF N, NEWMAN P, et al. Visual Place Recognition: A Survey[J]. Robotics, IEEE Transactions on, 2016, 32(1): 1.
[2]BAY H, TUYTELAARS T, GOOL L V. SURF: Speeded up robust features[J]. Computer Vision-ECCV, 2006, 3951: 404.
[3]LOWE D. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 20: 91.
[4]RUBLEE E, RABAUD V, KONOLIGE K, et al.? ORB: An efficient alternative to SIFT or SURF[C]//Computer Vision. IEEE, 2011: 2564.
[5]OLIVA A. Building the Gist of a Scene: the Role of Global Image Features in Recognition[J]. Progress in Brain Research, 2006, 155(2): 23.
[6]BENGIO Y, COURVILLE A, VINCENT P. Representation Learning: A Review and New Perspectives[J]. IEEE Transactions on Pattern Analysis&Machine Intelligence, 2012, 35(8): 1798.
[7]RAZAVIAN A S, SULLIVAN J, CARLSSON S, et al. Visual Instance Retrieval with Deep Convolutional Networks[J]. Ite Transactions on Media Technology & Applications, 2014, 4.
[8]BABENKO A, SLESAREV A, CHIGORIN A, et al. Neural Codes for Image Retrieval[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 584.
[9]WAN J, WANG D, HOI S C H, et al. Deep Learning for Content-Based Image Retrieval: A Comprehensive Study[C]//Acm International Conference on Multimedia. ACM, 2014: 157.
[10]丁博, 伊明. 基于卷積神經(jīng)網(wǎng)絡(luò)的三維CAD模型分類[J].哈爾濱理工大學(xué)學(xué)報(bào),2020,25(1):66.
DING Bo, YI Ming. 3D CAD model classification based on Convolutional Neural Network[J]. Journal of Harbin University of Science and Technology, 2020, 25(1): 66.
[11]于舒春,佟小雨.基于CNN特征提取的粒子濾波視頻跟蹤算法研究[J].哈爾濱理工大學(xué)學(xué)報(bào),2020,25(4):78.
YU Shuchun, TONG Xiaoyu. Research on Particle Filter Video Tracking Algorithms Based on CNN Feature Extraction[J]. Journal of Harbin University of Science and Technology, 2020, 25(1):66.
[12]HOU Y, ZHANG H, ZHOU S. Convolutional Neural Networkbased Image Representation for Visual Loop Closure Detection[C]//IEEE International Conference on Information & Automation, 2015: 2238.
[13]SUNDERHAUF N, DAYOUB F, SHIRAZI S, et al. On the Performance of ConvNet Features for Place Recognition[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).? IEEE, 2015: 4297.
[14]MERRILL N, HUANG G. Lightweight Unsupervised Deep Loop Closure[C]//Robotics: Science and Systems, 2018, 40(1): 223.
[15]CHEN Z, JACOBSON A, SUNDERHAUF N, et al. Deep Learning Features at Scale for Visual Place Recognition[C]//IEEE International Conference on? Robotics and Automation (ICRA), 2017: 3223.
[16]SUNDERHAUF N, SHIRAZI S, JACOBSON A, et al. Place Recognition with ConvNet Landmarks:? Viewpointrobust, Condition-robust, Training-free[C]//Robotics: Science and Systems, 2015.
[17]CHEN Z, MAFFRA F, SA I, et al. Only Look once, Mining Distinctive Landmarks from ConvNet for Visual Place Recognition[C]//IEEE/RSJ International Conference on Intelligent Robots & Systems. IEEE, 2017: 9.
[18]KHALIQ A, EHSAN S, CHEN Z, et al. A Holistic Visual Place Recognition Approach Using Lightweight CNNs for Significant ViewPoint and Appearance Changes[J]. IEEE Transactions on Robotics, 2019, PP(99): 1.
[19]KRIAHEVSKY A, SUTSKEVER I, HINTON G. ImageNet Classification with Deep Convolutional Neural Networks[C]//NIPS. Curran Associates Inc, 2012: 1097.
[20]WANG T T, ZHANG L H, WANG S, et al. Detect Globally, Refine Locally: A Novel Approach to Saliency Detection[C]//Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 3127.
[21]ZHOU B, LAPEDRIZA A, KHOSLA A, et al. Places: A 10 Million Image Database for Scene Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2018: 1.
[22]NEUBERT P, SUNDERHAUF N, PROTZEL P. Superpixel-based Appearance Change Prediction for Long-Term Navigation Across Seasons[J]. Robotics and Autonomous Systems, 2015, 69(1): 15.
(編輯:溫澤宇)