高 貴,伍宣衡,王忠美,鄭 良
1.湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412000
2.西南交通大學(xué) 地球科學(xué)與環(huán)境工程學(xué)院,成都 610000
3.中國(guó)電子科技集團(tuán)公司 第十五研究所,北京100083
在過(guò)去幾十年科技發(fā)展過(guò)程中,移動(dòng)機(jī)器人的研究與應(yīng)用技術(shù)愈發(fā)成熟,同步定位與建圖(simultaneous localization and mapping,SLAM)是指搭載特定傳感器的移動(dòng)載體在無(wú)環(huán)境先驗(yàn)信息的條件下,在移動(dòng)的過(guò)程中將環(huán)境模型建立出來(lái)并估計(jì)出所移動(dòng)軌跡,故SLAM技術(shù)旨在將移動(dòng)機(jī)器人放在未知位置和環(huán)境中能實(shí)現(xiàn)精準(zhǔn)定位并同時(shí)建立起與環(huán)境相一致的地圖[1],這也是實(shí)現(xiàn)移動(dòng)機(jī)器人完全自主的核心所在。經(jīng)典SLAM系統(tǒng)架構(gòu)主要由傳感器數(shù)據(jù)的讀取、視覺里程設(shè)計(jì)(visual odometry,VO)、后端優(yōu)化、閉環(huán)檢測(cè)和地圖構(gòu)建五個(gè)部分組成[2],通過(guò)所搭載攝像頭傳感器來(lái)感知外界環(huán)境的SLAM系統(tǒng)稱之為視覺SLAM(visual-SLAM,V-SLAM),其在自動(dòng)駕駛、家用掃地機(jī)器人和物流倉(cāng)庫(kù)移動(dòng)小車等場(chǎng)景中都有廣泛的應(yīng)用[3],閉環(huán)檢測(cè)作為V-SLAM中的重要一環(huán),其作用是在移動(dòng)機(jī)器人的定位過(guò)程中可以正確識(shí)別之前所訪問(wèn)的地方,且當(dāng)傳感器晃動(dòng)或運(yùn)動(dòng)過(guò)程中的突發(fā)情況等導(dǎo)致軌跡丟失時(shí),正確的閉環(huán)檢測(cè)可以對(duì)SLAM系統(tǒng)進(jìn)行重定位并減少在前端視覺里程所帶來(lái)的的漂移誤差[4],從而提高地圖精度。在SLAM中影響閉環(huán)檢測(cè)性能的因素有很多,如環(huán)境條件、光照、季節(jié)、機(jī)器視點(diǎn)和移動(dòng)的過(guò)程中動(dòng)態(tài)目標(biāo)導(dǎo)致特征遮擋等都有可能對(duì)閉環(huán)檢測(cè)產(chǎn)生影響。
傳統(tǒng)閉環(huán)檢測(cè)都依賴于人工設(shè)計(jì)的特征,其實(shí)質(zhì)是將當(dāng)前圖像與先前位置的圖像進(jìn)行匹配,相似圖像常用特征點(diǎn)來(lái)進(jìn)行匹配,例如采用SIFT(scale invariant feature transform)[5]、SURF(speeded up robust features)[6]、FAST(features from accelerated segment test)[7]和ORB(oriented FAST and rotated BRIEF)[8]等算法提取圖像局部特征。為減少圖像匹配間的計(jì)算量,有研究學(xué)者開發(fā)出了基于視覺單詞包(bag of visual word,BoVW)[9]和費(fèi)希爾向量(Fisher vector,F(xiàn)V)等[10-11]的閉環(huán)檢測(cè)方法?;贐oVW的閉環(huán)檢測(cè)分為兩種:一種是離線訓(xùn)練詞匯模式用來(lái)生成固定大小的詞匯[12]在已知的環(huán)境中移動(dòng),這種方式盡管可以降低計(jì)算的成本,但閉環(huán)檢測(cè)的實(shí)時(shí)性不強(qiáng),故另一種方式是在線訓(xùn)練BoVW的詞匯[13],使其可在真實(shí)環(huán)境中工作。同時(shí)在閉環(huán)檢測(cè)中也可以利用圖像的全局特征來(lái)進(jìn)行檢測(cè),例如使用圖像的GIST(generalized search tree)[14]來(lái)提取圖像的全局特征等。傳統(tǒng)閉環(huán)檢測(cè)中對(duì)于圖像特征提取后的匹配有多種方式,例如在FAB-MAP(fast appearance-based mapping)[15]中引入BoVW,由于對(duì)局部圖像特征的提取中所用的SIFT和SURF等描述子具有尺度不變性,因此FAB-MAP在閉環(huán)檢測(cè)中有較好的性能。Zhang等人提出一種在線學(xué)習(xí)二值圖像特征的方法用來(lái)改進(jìn)基于BoVW的閉環(huán)檢測(cè)[16],通過(guò)線性判別分析出最小和最大化類內(nèi)間距來(lái)優(yōu)化二值圖像特征。梁志偉等人提出一種利用混合高斯模型所建立的視覺詞典的概率模型[17],將基于BoVW的圖像用概率向量表示,并利用貝葉斯濾波器[18]來(lái)提高閉環(huán)檢測(cè)的準(zhǔn)確率和特征匹配的速度。Cummins等人[19-20]提出在FAB-MAP方法中應(yīng)用Chow-Liu樹[21]描述詞與詞之間的相關(guān)性來(lái)提高閉環(huán)檢測(cè)的搜索速度。在Cummins等人研究的基礎(chǔ)上Maddern等人[22]提出了基于FAB-MAP的CAT-SLAM(continuous appearance-based trajectory simultaneous localisation and mapping)方法,與FAB-MAP相比較,其CAT-SLAM的閉環(huán)檢測(cè)效果更好??偨Y(jié)并分析多數(shù)學(xué)者的研究,發(fā)現(xiàn)傳統(tǒng)閉環(huán)檢測(cè)算法有以下幾個(gè)缺點(diǎn):
(1)基于傳統(tǒng)方式的BoVW等算法完全依賴于外觀,沒有使用到幾何信息,故在閉環(huán)檢測(cè)過(guò)程中容易將相似圖像誤判為閉環(huán)。
(2)傳統(tǒng)方式的閉環(huán)檢測(cè)算法對(duì)特征點(diǎn)的提取和匹配較為耗時(shí),而SLAM系統(tǒng)所輸入數(shù)據(jù)是一個(gè)時(shí)間序列圖像,若在圖像的特征點(diǎn)提取和匹配上花費(fèi)較多時(shí)間,則會(huì)導(dǎo)致整個(gè)SLAM系統(tǒng)行動(dòng)緩慢。
(3)在特征缺失或無(wú)明顯紋理信息的場(chǎng)景中,由于特征點(diǎn)數(shù)的急劇缺失可能導(dǎo)致閉環(huán)檢測(cè)失效。
(4)在復(fù)雜環(huán)境中容易受到光照季節(jié)、機(jī)器視點(diǎn)變化和動(dòng)態(tài)目標(biāo)等影響,從而使得移動(dòng)機(jī)器人閉環(huán)檢測(cè)的精確度大為下降。
隨著深度學(xué)習(xí)技術(shù)在圖像識(shí)別、分類等各種計(jì)算機(jī)視覺和機(jī)器視覺領(lǐng)域的不斷發(fā)展[23],在SLAM中的應(yīng)用也得到廣泛關(guān)注,主要體現(xiàn)在三個(gè)方面:基于深度學(xué)習(xí)的前端視覺里程設(shè)計(jì)運(yùn)用、基于深度學(xué)習(xí)的閉環(huán)檢測(cè)和基于語(yǔ)義信息的地圖構(gòu)建。許多學(xué)者開始在移動(dòng)機(jī)器人的閉環(huán)檢測(cè)上也采用深度學(xué)習(xí)方法進(jìn)行了探索,在V-SLAM的閉環(huán)檢測(cè)中,將當(dāng)前幀與之前所有幀進(jìn)行圖像相似度匹配對(duì)比的工作也可以在深度學(xué)習(xí)中理應(yīng)有所運(yùn)用,但目前深度學(xué)習(xí)在SLAM的閉環(huán)檢測(cè)上并沒有得到廣泛應(yīng)用。在復(fù)雜環(huán)境中影響閉環(huán)檢測(cè)的因素主要有:光照、季節(jié)的變化、機(jī)器視點(diǎn)的變化和動(dòng)態(tài)目標(biāo)對(duì)特征的遮擋等,因此本文根據(jù)所解決的三個(gè)主要方向問(wèn)題,對(duì)于現(xiàn)有應(yīng)用在閉環(huán)檢測(cè)中的不同深度學(xué)習(xí)方法進(jìn)行梳理總結(jié),具體包括基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[24]的閉環(huán)檢測(cè)、基于無(wú)監(jiān)督式自動(dòng)編碼器[25]的閉環(huán)檢測(cè)和基于語(yǔ)義信息的閉環(huán)檢測(cè)[26]三種,如圖1所示為近些年基于深度學(xué)習(xí)的閉環(huán)檢測(cè)方法。
圖1 基于深度學(xué)習(xí)的閉環(huán)檢測(cè)方法Fig.1 Loop closure detection method based on deep learning
基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)主要是使用多個(gè)卷積層來(lái)提取圖像特征,并使用池化層對(duì)選取的特征進(jìn)行降維,經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)所提取出的圖像特征相比于傳統(tǒng)的人工視覺特征提取更能有效表示圖像的語(yǔ)義特征。如圖2所示為基于卷積神經(jīng)網(wǎng)絡(luò)的閉環(huán)檢測(cè)結(jié)構(gòu)示意圖。
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)閉環(huán)檢測(cè)示意圖Fig.2 Schematic diagram of loop closure detection based on convolutional neural network
CNN的研究最早是圍繞圖像分類問(wèn)題所展開的,并在ILSVRC(ImageNet large scale visual recognition challenge)-2010上取得巨大的突破,在閉環(huán)檢測(cè)方面,Hou等人將CNN用于V-SLAM的閉環(huán)檢測(cè)算法中[27],后有研究者將其稱之為PlaceCNN(place convolutional neural network,PlaceCNN)的V-SLAM閉環(huán)檢測(cè)算法,該算法使用一個(gè)開放性的深度學(xué)習(xí)框架Caffe(convolutional architecture for fast feature embedding)[28]提取基于CNN的圖像深度特征,并在Places數(shù)據(jù)集[29]上得到驗(yàn)證,與傳統(tǒng)方法相比,其對(duì)光照敏感性更弱、魯棒性更強(qiáng),由于所提取的場(chǎng)景特征維度高,難以滿足V-SLAM閉環(huán)檢測(cè)的實(shí)時(shí)性要求。
基于PlaceCNN的閉環(huán)檢測(cè)是結(jié)合深度學(xué)習(xí)與V-SLAM閉環(huán)檢測(cè)的一個(gè)開創(chuàng)性的初步方式,在此基礎(chǔ)上Xia等人提出利用主成分分析網(wǎng)絡(luò)(principal component analysis network,PCANet)提取圖像特征[30]的閉環(huán)檢測(cè)方法,PCANet是一個(gè)基于CNN的簡(jiǎn)化深度學(xué)習(xí)模型[31],主要是由主成分分析(principal component analysis,PCA)、二進(jìn)制哈希編碼和分塊直方圖三部分組成。經(jīng)驗(yàn)證后與CNN相比,在特征提取時(shí)間上強(qiáng)于CNN,并且由于該網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單和訓(xùn)練時(shí)間短特點(diǎn),可以在V-SLAM的實(shí)時(shí)上有所突破,但在一個(gè)場(chǎng)景中訓(xùn)練的圖像數(shù)量不夠時(shí),CNN的魯棒性強(qiáng)于PCANet。
針對(duì)PlaceCNN的V-SLAM閉環(huán)檢測(cè)算法的實(shí)時(shí)性差的問(wèn)題,何元烈等人提出了一種快速、精簡(jiǎn)的卷積神經(jīng) 網(wǎng) 絡(luò)(fast and lightweight convolution neural,F(xiàn)LCNN)[32]。FLCNN使用修正線性單元(rectified linear unit,Relu)作為激活函數(shù)。由于閉環(huán)檢測(cè)中每幀圖像都是帶有時(shí)間序列標(biāo)簽,使得相鄰兩幀圖像中相似度較高,很容易造成錯(cuò)誤的閉環(huán)檢測(cè),為了解決相鄰幀圖像的相似性所引起的干擾,F(xiàn)LCNN設(shè)置一個(gè)閾值來(lái)限定圖像間的相似度,該網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖3所示。
圖3 FLCNN模型結(jié)構(gòu)圖Fig.3 FLCNN model structure diagram
在該網(wǎng)絡(luò)模型中,所使用的數(shù)據(jù)集是Places365-Standard[33],且與PlaceCNN相比在特征匹配上速度快,算法的時(shí)間復(fù)雜度遠(yuǎn)小于PlaceCNN,其V-SLAM的閉環(huán)檢測(cè)時(shí)間也有所提高,但是當(dāng)閉環(huán)檢測(cè)場(chǎng)景存在大量分散目標(biāo)時(shí),其平均準(zhǔn)確度低于PlaceCNN,且對(duì)視點(diǎn)變化敏感。
基于卷積神經(jīng)網(wǎng)絡(luò)的閉環(huán)檢測(cè)方法普遍使用了圖像的全局特征,雖然在復(fù)雜光環(huán)境下對(duì)閉環(huán)檢測(cè)有較強(qiáng)的魯棒性,但在移動(dòng)機(jī)器人實(shí)際運(yùn)動(dòng)場(chǎng)景中的視角變化明顯情況下,閉環(huán)檢測(cè)魯棒性較差。為了提高閉環(huán)檢測(cè)算法對(duì)場(chǎng)景中外觀和視角變化的魯棒性,潘錫英等人提出基于圖像感興趣區(qū)域(region proposal of interest,RPOI)的移動(dòng)機(jī)器人閉環(huán)檢測(cè)算法[34],該算法的特征提取主要是經(jīng)過(guò)兩個(gè)步驟,先是利用多尺度感興趣算法得到圖像的RPOI,然后利用CNN提取RPOI的圖像特征。對(duì)RPOI的匹配時(shí)采用了粗匹配和細(xì)匹配兩種匹配方式,粗匹配的對(duì)象是從改進(jìn)的CNN最后兩個(gè)全連接層之間的隱藏層中提取出一個(gè)48位的二值特征向量,該過(guò)程使用了漢明距離來(lái)匹配小范圍的感興趣區(qū)域,縮短了閉環(huán)檢測(cè)算法的時(shí)間。細(xì)匹配是在粗匹配的基礎(chǔ)上通過(guò)雙向匹配原則計(jì)算出感興趣區(qū)域中的余弦相似性,該算法可以在光照和視角變化的情況下對(duì)于移動(dòng)機(jī)器人的閉環(huán)檢測(cè)具有一定的魯棒性,但在復(fù)雜場(chǎng)景規(guī)模較大時(shí),實(shí)時(shí)性不好。
隨著移動(dòng)機(jī)器人運(yùn)動(dòng)時(shí)長(zhǎng)的增加,傳感器所傳入的幀數(shù)不斷累積,卷積神經(jīng)網(wǎng)絡(luò)在閉環(huán)檢測(cè)中的計(jì)算時(shí)間也逐漸增長(zhǎng)。為了解決該問(wèn)題,張學(xué)典等人將VGG16(visual geometry group16)網(wǎng)絡(luò)模型用于閉環(huán)檢測(cè)上提取圖像的全局特征,并提出一種改進(jìn)的自適應(yīng)粒子濾波器方法來(lái)解決計(jì)算時(shí)間增長(zhǎng)問(wèn)題[35]。原VGG(visual geometry group)模型所輸出的結(jié)果是圖像分類[36],故不適合用來(lái)描述圖像的特征,因此選取VGG16網(wǎng)絡(luò)中最后的池化層作為閉環(huán)檢測(cè)中圖像的全局特征描述子,并將所提取的特征向量用PCA進(jìn)行降維處理,其VGG16結(jié)構(gòu)如圖4所示。
圖4 VGG16模型結(jié)構(gòu)圖Fig.4 VGG16 model structure diagram
在閉環(huán)檢測(cè)中,機(jī)器人的位置移動(dòng)和相機(jī)鏡頭遠(yuǎn)近的調(diào)節(jié)使得圖像具有豐富的尺度特征,而普通的卷積神經(jīng)網(wǎng)絡(luò)缺少對(duì)尺度特征的提取。針對(duì)這個(gè)問(wèn)題,Chen等人提出了多尺度深度特征融合的閉環(huán)檢測(cè)[37],在AlexNet模型的基礎(chǔ)上,使用了空間金字塔池(spatial pyramid pooling,SPP)[38]來(lái)提取多尺度特征。SPP彌補(bǔ)前期對(duì)輸入圖像的切割或壓縮等處理所引起的圖像信息丟失現(xiàn)象,解決了輸入圖像大小不一所造成的缺陷并把每一個(gè)特征圖都從不同的角度進(jìn)行特征提取后再聚合,顯示了算法的魯棒性特點(diǎn),SPP層作為特征融合的結(jié)構(gòu)如圖5所示。
圖5 SPP作為特征融合層結(jié)構(gòu)圖Fig.5 SPP as a feature fusion layer structure diagram
最后由于考慮到每個(gè)特征在閉環(huán)檢測(cè)具有不同的效應(yīng),因此定義了特征的可區(qū)分性權(quán)重,根據(jù)特征點(diǎn)對(duì)場(chǎng)景的可區(qū)分性來(lái)對(duì)每個(gè)特征點(diǎn)賦予一個(gè)權(quán)重,并在決策層中計(jì)算相似度用來(lái)對(duì)閉環(huán)檢測(cè)進(jìn)行檢驗(yàn),提高了閉環(huán)檢測(cè)的精確度。經(jīng)驗(yàn)證表明基于多尺度深度特征融合的閉環(huán)檢測(cè)算法具有更高的準(zhǔn)確率和召回率,并對(duì)光照變化具有較強(qiáng)的魯棒。郭紀(jì)志等人通過(guò)對(duì)DarkNet網(wǎng)絡(luò)框架的損失函數(shù)改進(jìn)[39],得到一個(gè)提取區(qū)分度好且維度更低的特征描述子,提升大規(guī)模復(fù)雜場(chǎng)景下視覺閉環(huán)檢測(cè)的性能,通過(guò)自編碼器的降維處理提高了執(zhí)行效率,并在光照變化明顯的場(chǎng)景下提高了閉環(huán)檢測(cè)的速度。
對(duì)于上述的幾種基于卷積神經(jīng)網(wǎng)絡(luò)的V-SLAM閉環(huán)檢測(cè)方法性能比較分析如表1所示。
表1 基于卷積神經(jīng)網(wǎng)絡(luò)的閉環(huán)檢測(cè)方法比較Table 1 Comparison of loop closure detection methods based on convolutional neural network
通過(guò)對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)V-SLAM閉環(huán)檢測(cè)的研究,可以發(fā)現(xiàn)所解決的方向都是關(guān)于復(fù)雜環(huán)境中的光照變化較為明顯的因素,這是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)通常由多層構(gòu)成,可以學(xué)習(xí)輸入圖像的抽象表示特征,但是每層對(duì)于光照變化下閉環(huán)檢測(cè)的精確度各不相同,因此需要經(jīng)過(guò)實(shí)驗(yàn)找到適合的卷積和池化層。但是由于在閉環(huán)及檢測(cè)的過(guò)程中,需要預(yù)先對(duì)模型進(jìn)行訓(xùn)練,且所用場(chǎng)景數(shù)據(jù)都是需要進(jìn)行大量的人工標(biāo)注,倘若在預(yù)先訓(xùn)練數(shù)據(jù)中的閉環(huán)數(shù)量不夠時(shí),閉環(huán)檢測(cè)的精度則會(huì)下降。
深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)在移動(dòng)機(jī)器人的視覺閉環(huán)檢測(cè)中依賴于有監(jiān)督學(xué)習(xí),需要大量的人工標(biāo)記數(shù)據(jù),于是Gao等人提出了一種應(yīng)用在V-SLAM閉環(huán)檢測(cè)中深度神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)方式[40],利用堆疊式自動(dòng)編碼器(stacked denoising auto-encoder,SDA)以無(wú)監(jiān)督的學(xué)習(xí)方式訓(xùn)練,方法如圖6所示。該自動(dòng)編碼器是一種不利用類標(biāo)簽的非線性特征的提取方法,由于閉環(huán)檢測(cè)的數(shù)據(jù)是通過(guò)前端的攝像頭傳感器實(shí)時(shí)傳入,為了訓(xùn)練閉環(huán)檢測(cè)的結(jié)構(gòu),因此對(duì)傳統(tǒng)的自動(dòng)編碼器進(jìn)行了改進(jìn)。
圖6 方法結(jié)構(gòu)示意圖Fig.6 Schematic diagram of method structure
堆疊式自動(dòng)編碼器把每一層當(dāng)作一個(gè)簡(jiǎn)單的自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練和堆疊,可大幅度提高訓(xùn)練的效率。在TUM公共數(shù)據(jù)[41]集上進(jìn)行實(shí)驗(yàn),得到的實(shí)際移動(dòng)機(jī)器人的軌跡如圖7(a)所示,在真實(shí)軌跡的基礎(chǔ)上提取111個(gè)關(guān)鍵幀,其中正確的閉環(huán)檢測(cè)如圖7(b)用紅線表示。
圖7 真實(shí)移動(dòng)軌跡和閉環(huán)檢測(cè)Fig.7 Real movement trajectory and loop closure detection
在開放的數(shù)據(jù)集上測(cè)試驗(yàn)證了該方法的可行性,在視覺閉環(huán)檢測(cè)中能達(dá)到一個(gè)較高的精確度,為可視化SLAM系統(tǒng)提供了一種替代方法。但是Gao等人所提出的方法中使用暴力似匹配方法[42]在對(duì)關(guān)鍵幀進(jìn)行圖像匹配比較時(shí)耗時(shí)嚴(yán)重,且存在感知混疊的問(wèn)題,這樣可能會(huì)導(dǎo)致錯(cuò)誤的循環(huán)和不正確的地圖估計(jì)。與經(jīng)典的閉環(huán)檢測(cè)方法FAB-MAP 2.0[43]相比,堆疊式自動(dòng)編碼器的性能與之相當(dāng),但是提取特征的速度慢,且所使用的模型學(xué)習(xí)重建一個(gè)改變隨機(jī)像素的圖像,在定位位置時(shí),必須要求視點(diǎn)不變,因此通過(guò)訓(xùn)練一個(gè)無(wú)監(jiān)督的模型來(lái)重建一個(gè)已經(jīng)被改變的圖像并模擬該模型在實(shí)際中所遇到的視點(diǎn)變化可能在閉環(huán)檢測(cè)中更加有作用。
對(duì)于圖像的空間局部特性上,張?jiān)浦薜热瞬捎脳J骄矸e自動(dòng)編碼器(stacked convolutional autoencoder,CAEs)[44],在該模型中對(duì)于編碼器部分采用卷積神經(jīng)網(wǎng)絡(luò)類似的方式,解碼則是一個(gè)反卷積操作的過(guò)程,這樣在以較低維度的向量表征圖像特征的同時(shí),提高了閉環(huán)檢測(cè)的精度,但是在閉環(huán)搜索的過(guò)程中,需要逐一比較閉環(huán)與非閉環(huán)之間的特征差異,在對(duì)閉環(huán)搜索上需要耗費(fèi)較長(zhǎng)的時(shí)間,且對(duì)于差異性較小的非閉環(huán)容易造成誤判。
針對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的閉環(huán)檢測(cè)存在特征提取慢和閉環(huán)檢測(cè)時(shí)間久問(wèn)題,Merrill等人[45]在自動(dòng)編碼器的基礎(chǔ)上,利用單應(yīng)性的多視圖幾何[46]和HOG(histogram of oriented gradient)[47]的不變性設(shè)計(jì)一種應(yīng)用在嵌入式視覺閉環(huán)檢測(cè)中新的無(wú)監(jiān)督深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)自動(dòng)編碼器緩解光照對(duì)檢測(cè)的影響。該方法在Places數(shù)據(jù)集中表現(xiàn)良好,隨著更多數(shù)據(jù)的傳入可以對(duì)模型進(jìn)行調(diào)整,局限性在于對(duì)相似物體的區(qū)分能力較弱,位置定位精度低,但對(duì)場(chǎng)景的識(shí)別能力較好。
目前也有研究學(xué)者在深度學(xué)習(xí)中使用基于語(yǔ)義對(duì)象和場(chǎng)景分類進(jìn)行閉環(huán)檢測(cè),語(yǔ)義分割根據(jù)可用的對(duì)象類別對(duì)每個(gè)圖像像素進(jìn)行分類,圖像中具有相同對(duì)象類別標(biāo)簽的所有像素被分在一起,并用相同的顏色表示,因此帶有語(yǔ)義信息的地圖使得移動(dòng)機(jī)器人能夠?qū)Νh(huán)境有一個(gè)高層次的理解[48]。
在實(shí)際中移動(dòng)機(jī)器人是時(shí)時(shí)運(yùn)動(dòng)的,絕大多數(shù)時(shí)刻都是處于一個(gè)動(dòng)態(tài)的場(chǎng)景中。在移動(dòng)機(jī)器人運(yùn)動(dòng)的過(guò)程中,有物體從攝像頭前經(jīng)過(guò),在一定程度上會(huì)給移動(dòng)機(jī)器人的視覺閉環(huán)檢測(cè)帶來(lái)干擾,導(dǎo)致在同一場(chǎng)景下的相似度降低。故為了提高在動(dòng)態(tài)場(chǎng)景中移動(dòng)機(jī)器人的閉環(huán)檢測(cè)的精確度和檢測(cè)速度,Hu等人提出了一種融合語(yǔ)義信息的閉環(huán)檢測(cè)[49],針對(duì)基于BoVW模型的傳統(tǒng)閉環(huán)檢測(cè)方法的不足,利用Faster R-CNN模型[50]來(lái)提取場(chǎng)景的語(yǔ)義信息,語(yǔ)義信息與BoVW模型的融合方法可以解決BoVW模型不匹配的問(wèn)題。這里的融合是BoVW模型中的特征點(diǎn)相似度與Faster R-CNN模型提取的語(yǔ)義相似度加權(quán)和,之所以使用語(yǔ)義信息是因?yàn)榭梢愿侠淼貦z查兩幀圖像之間的相似關(guān)系。直接使用余弦公式來(lái)計(jì)算語(yǔ)義相似度和特征相似度是比較難直接融合處理,故Hu等人是采用閾值法先對(duì)語(yǔ)義信息相似度進(jìn)行過(guò)濾處理,再將語(yǔ)義相似度進(jìn)行二值化。然后利用融合公式對(duì)語(yǔ)義相似度進(jìn)行融合,如式(1)所示即為語(yǔ)義融合公式:
其中,Q A,B代表語(yǔ)義信息融合后的A和B圖像相似度,Y A,B是用閾值法過(guò)濾后的語(yǔ)義相似度,S A,B是基于BoVW模型的特征相似度。
基于BoVW模型的特征向量在特征點(diǎn)層面可以衡量?jī)蓭瑘D像的相似性,而語(yǔ)義信息相似度主要可以在動(dòng)態(tài)環(huán)境中提高整體相似度,魯棒性好,因此用加權(quán)后的語(yǔ)義向量可以從更宏觀的語(yǔ)義層面來(lái)評(píng)估兩幅圖像的相似度,兩種方法的結(jié)合充分利用了目標(biāo)對(duì)象的幾何外觀信息,使得閉環(huán)檢測(cè)在不影響準(zhǔn)確率的基礎(chǔ)上提高了召回率,并且該方法應(yīng)用在非閉環(huán)場(chǎng)景中,融合后的語(yǔ)義相似度與僅使用特征點(diǎn)的相似度差異不大,使得閉環(huán)和非閉環(huán)場(chǎng)景的區(qū)分度增強(qiáng),這樣在閉環(huán)檢測(cè)中提高其準(zhǔn)確率。但是隨著移動(dòng)機(jī)器人的運(yùn)動(dòng),其軌跡也會(huì)增加,從而導(dǎo)致閉環(huán)檢測(cè)的時(shí)間會(huì)延長(zhǎng),故對(duì)于大規(guī)模場(chǎng)景地圖的構(gòu)建這塊,可以考慮采用語(yǔ)義信息,縮減閉環(huán)檢測(cè)的時(shí)間。
由于在動(dòng)態(tài)環(huán)境中閉環(huán)檢測(cè)存在著檢測(cè)失效并且語(yǔ)義地圖信息使用不充分問(wèn)題,在SLAM的地圖構(gòu)建中的閉環(huán)檢測(cè)可以減少累計(jì)誤差和起到重定位的功能,除此之外,關(guān)于在動(dòng)態(tài)室內(nèi)環(huán)境下的閉環(huán)檢測(cè)時(shí)易出現(xiàn)感知混疊的檢測(cè)問(wèn)題,所謂的感知混疊就是在不同的地方出現(xiàn)相似的特征,感知混疊是基于外觀的閉環(huán)檢測(cè)方法失效的主要原因之一,許多基于BoVW的方法只考慮真實(shí)的閉環(huán)檢測(cè)的相似特征,故鄭冰清等人提出了一種在視覺SLAM中采用融合語(yǔ)義信息應(yīng)用在閉環(huán)檢測(cè)和語(yǔ)義地圖構(gòu)建上[51],先使用YOLOv3深度神經(jīng)網(wǎng)絡(luò)[52]對(duì)閉環(huán)檢測(cè)中的關(guān)鍵幀進(jìn)行二維圖像的語(yǔ)義標(biāo)注,然后在此基礎(chǔ)上對(duì)隨機(jī)場(chǎng)景模型中的語(yǔ)義標(biāo)注信息與場(chǎng)景分割的聚類信息進(jìn)行融合并構(gòu)建語(yǔ)義地圖,閉環(huán)檢測(cè)是基于關(guān)鍵幀的語(yǔ)義標(biāo)注信息,通過(guò)將運(yùn)動(dòng)特征點(diǎn)去除的思路對(duì)BoVW模型進(jìn)行改進(jìn),從而在動(dòng)態(tài)環(huán)境中去除特定動(dòng)態(tài)目標(biāo)實(shí)現(xiàn)高精度的閉環(huán)檢測(cè)。在該方法中使用YOLOv3目標(biāo)檢測(cè)算法對(duì)關(guān)鍵幀的場(chǎng)景目標(biāo)進(jìn)行檢測(cè)和邊框提取,通過(guò)關(guān)鍵幀的位姿、語(yǔ)義標(biāo)注信息和特征點(diǎn)向量集進(jìn)行場(chǎng)景的閉環(huán)檢測(cè),如圖8所示為基于融合語(yǔ)義信息的閉環(huán)檢測(cè)算法流程圖。
圖8 基于融合語(yǔ)義信息的閉環(huán)檢測(cè)算法流程圖Fig.8 Flow chart of loop closure detection algorithm based on fusion of semantic information
雖然Hu等人提出的融合語(yǔ)義信息的閉環(huán)檢測(cè)是在BoVW模型和Faster R-CNN模型中采用權(quán)重調(diào)整的方式,但在關(guān)鍵幀的跟蹤和地圖的構(gòu)建上所實(shí)現(xiàn)的計(jì)算量較大,故考慮到在室內(nèi)的運(yùn)動(dòng)物體單一且都是以人為主,這樣可以針對(duì)特定環(huán)境中的目標(biāo)進(jìn)行語(yǔ)義檢測(cè)并通過(guò)去除運(yùn)動(dòng)目標(biāo)從而提高閉環(huán)檢測(cè)的魯棒性,值得注意的是在低動(dòng)態(tài)或靜態(tài)場(chǎng)景下,該方法的閉環(huán)檢測(cè)效果與傳統(tǒng)BoVW方法效果相似,甚至在某些數(shù)據(jù)集上沒有傳統(tǒng)方法好,這是因?yàn)樵谀承?shù)據(jù)集的場(chǎng)景中不包括動(dòng)態(tài)物體出現(xiàn)在閉環(huán)中。因此在動(dòng)態(tài)環(huán)境下使用語(yǔ)義信息融合的閉環(huán)檢測(cè)比靜態(tài)加權(quán)的閉環(huán)檢查算法好且可以起到重定位的效果。
通過(guò)總結(jié)和比較基于自動(dòng)編碼的無(wú)監(jiān)督深度神經(jīng)網(wǎng)絡(luò)和基于融合語(yǔ)義信息的V-SLAM閉環(huán)檢測(cè)方法,可以發(fā)現(xiàn)這兩類方法多數(shù)是解決機(jī)器視點(diǎn)變化和應(yīng)用在動(dòng)態(tài)環(huán)境中,具體的方法比較性能如表2所示。
表2 兩類相關(guān)V-SLAM閉環(huán)檢測(cè)方法的性能比較Table 2 Performance comparison of two kinds of correlated V-SLAM loop closure detection methods
多數(shù)基于語(yǔ)義信息的閉環(huán)檢測(cè)采用與信息融合的方式,通過(guò)對(duì)動(dòng)態(tài)環(huán)境中的移動(dòng)目標(biāo)進(jìn)行語(yǔ)義標(biāo)注,然后進(jìn)行特定的預(yù)訓(xùn)練,主要是依賴于所檢測(cè)的場(chǎng)景數(shù)據(jù)之間的關(guān)聯(lián)和場(chǎng)景描述。但是通過(guò)比較發(fā)現(xiàn),該類型的動(dòng)態(tài)環(huán)境主要是適用在單一移動(dòng)目標(biāo),一旦出現(xiàn)若干個(gè)移動(dòng)目標(biāo),則對(duì)閉環(huán)檢測(cè)的魯棒性會(huì)造成較大影響。
綜上所述對(duì)于每種不同的深度學(xué)習(xí)算法應(yīng)用在VSLAM閉環(huán)檢測(cè)中各有優(yōu)缺點(diǎn),表3所示為基于卷積神經(jīng)網(wǎng)絡(luò)、基于自動(dòng)編碼器和基于語(yǔ)義信息的閉環(huán)檢測(cè)三類方法的總結(jié)表。
表3 基于三類方式的閉環(huán)檢測(cè)表Table 3 Loop closure detection table based on three types of methods
可以發(fā)現(xiàn)基于深度學(xué)習(xí)的閉環(huán)檢測(cè)算法都是針對(duì)解決復(fù)雜環(huán)境中某一類型的影響因素,目前還沒有哪種算法可以將所有影響因素都可以更好地解決,這個(gè)也是后續(xù)值得關(guān)注的地方所在。
在閉環(huán)檢測(cè)中對(duì)于其性能指標(biāo)的評(píng)價(jià)主要有:準(zhǔn)確率-召回率、計(jì)算時(shí)間。由于在閉環(huán)檢測(cè)中會(huì)出現(xiàn)感知混疊的問(wèn)題,例如可能會(huì)出現(xiàn)同一個(gè)地方拍攝的照片在不同時(shí)刻由于受到光照等影響導(dǎo)致圖像看起來(lái)不一樣,這個(gè)就是假陰性(false negative)[53],另一個(gè)是兩個(gè)不同的地方所拍攝的照片看起來(lái)相似即假陽(yáng)性(false positive)。如圖9所示為兩個(gè)例子圖像。
圖9 兩個(gè)假陽(yáng)性與假陰性示例圖Fig.9 Two examples of false positive and false negative graphs
故在閉環(huán)檢測(cè)中對(duì)此的分類結(jié)果如表4所示。
表4 閉環(huán)檢測(cè)分類結(jié)果Table 4 Loop closure detection classification results
因此在閉環(huán)檢測(cè)中,存在真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,F(xiàn)P)、假陰性(false negative,F(xiàn)N)和真陰性(true negative,TN)這四個(gè)指標(biāo),故在閉環(huán)檢測(cè)中的數(shù)據(jù)集統(tǒng)計(jì)這四個(gè)值并希望TP和TN的值高,F(xiàn)P和FN的值盡量低,故對(duì)此用準(zhǔn)確率(Precision)來(lái)計(jì)算其TP在TP和FP中的概率,召回率(Recall)來(lái)計(jì)算TP在TP和FN中的概率。
在閉環(huán)檢測(cè)中的準(zhǔn)確性就是在檢測(cè)出所有的閉環(huán)中真實(shí)的閉環(huán)概率,召回率即在所有真實(shí)的閉環(huán)中能夠正確地被檢測(cè)出來(lái)的閉環(huán)概率。這兩者之間存在一種矛盾的關(guān)系,即當(dāng)隨著閉環(huán)檢測(cè)召回率增大時(shí),其準(zhǔn)確率會(huì)隨之下降,這是因?yàn)楫?dāng)提高閉環(huán)檢測(cè)算法中的某個(gè)閾值時(shí),使得檢測(cè)算法變得更為嚴(yán)謹(jǐn),這樣所檢測(cè)出的閉環(huán)個(gè)數(shù)會(huì)減少,準(zhǔn)確率得以提高,但是正因?yàn)樗鶛z測(cè)的閉環(huán)個(gè)數(shù)下降,可能導(dǎo)致原來(lái)是閉環(huán)的地方有被遺漏,導(dǎo)致其召回率下降。如果選擇寬松的算法配置環(huán)境,這樣算法所檢測(cè)出來(lái)的閉環(huán)的個(gè)數(shù)會(huì)增加,故其召回率會(huì)提高,但是這很容易出現(xiàn)一些不是閉環(huán)的情況也被算法檢測(cè)出來(lái),所以準(zhǔn)確率下降。值得注意的是在VSLAM中,研究者所注重的更多的是閉環(huán)檢測(cè)的準(zhǔn)確率,對(duì)召回率相對(duì)來(lái)說(shuō)寬松些,希望在召回率較大的同時(shí)其準(zhǔn)確率可以保持好的表現(xiàn),故采用準(zhǔn)確率—召回率曲線來(lái)反應(yīng)閉環(huán)檢測(cè)中的綜合性能指標(biāo),且對(duì)于數(shù)據(jù)集的使用如表5所示。
表5 閉環(huán)檢測(cè)中不同深度學(xué)習(xí)方法數(shù)據(jù)集Table 5 Data sets of different deep learning methods in loop closure detection
每種數(shù)據(jù)集都是針對(duì)不同的適用環(huán)境,例如Nordland數(shù)據(jù)集由四個(gè)通過(guò)挪威的火車旅行的時(shí)間同步視頻組成。每段時(shí)長(zhǎng)約9 h的序列中每一個(gè)都對(duì)應(yīng)于不同的季節(jié),除了季節(jié)性變化之外,圖像還包含由于火車的飛快速度所造成的圖像極度模糊。而Gardens Point數(shù)據(jù)集則是包括三次穿越澳大利亞布里斯班的QUT校園。在這個(gè)數(shù)據(jù)集中,有兩個(gè)白天遍歷和一個(gè)夜晚遍歷校園的圖像數(shù)據(jù),主要是針對(duì)不同光照變化場(chǎng)景下的校園圖像。
深度學(xué)習(xí)在閉環(huán)檢測(cè)上的應(yīng)用絕大多數(shù)做的實(shí)驗(yàn)都是與傳統(tǒng)的人工設(shè)計(jì)特征方法做比較,例如BoVW、GIST和FAB-MAP等,極少數(shù)會(huì)將其所提出方法與其他深度學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn)比較,少數(shù)會(huì)在之前深度學(xué)習(xí)的方法基礎(chǔ)進(jìn)行改進(jìn)后比較,正如在PlaceCNN的基礎(chǔ)上Xia等人提出用PCANet來(lái)提取閉環(huán)檢測(cè)的圖像特征,在City Centre和New College這兩個(gè)公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),如圖10所示為基于PCANet方法的閉環(huán)檢測(cè)準(zhǔn)確率-召回率曲線圖。
從圖10中可以看出基于PCANet的閉環(huán)檢測(cè)方法不僅與傳統(tǒng)的人工設(shè)計(jì)特征BoVW和GIST進(jìn)行比較,還與基于PlaceCNN和自動(dòng)編碼器的深度學(xué)習(xí)方法做了對(duì)比研究,通過(guò)兩種數(shù)據(jù)集表明,隨著召回率的增加,基于PCANet的閉環(huán)檢測(cè)準(zhǔn)確率要優(yōu)于其他幾種閉環(huán)檢測(cè)算法。除此之外在計(jì)算效率上,根據(jù)Xia等人的實(shí)驗(yàn)結(jié)果顯示基于PCANet的閉環(huán)檢測(cè)計(jì)算效率要快于其他的算法。在對(duì)深度卷積網(wǎng)絡(luò)應(yīng)用在閉環(huán)檢測(cè)中,Xia等人曾經(jīng)還將所流行的數(shù)種卷積網(wǎng)絡(luò)應(yīng)用在閉環(huán)檢測(cè)中并進(jìn)行了相互間的對(duì)比,例如:AlexNet、CaffeNet和GoogLeNet[60]等,所用的實(shí)驗(yàn)平臺(tái)是搭載Intel Xeon E5-2603 1.8 GHz處理器和39 GB內(nèi)存,發(fā)現(xiàn)在City Centre和New College兩個(gè)公共數(shù)據(jù)集所得的特征準(zhǔn)確率和平均處理時(shí)間如表6所示[61]。
表6 部分閉環(huán)檢測(cè)特征準(zhǔn)確率和平均處理時(shí)間Table 6 Feature accuracy and average processing time of partially loop closure detection
圖10 兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率-召回率曲線圖Fig.10 Accuracy-recall rate curve on two data sets
在研究閉環(huán)檢測(cè)中的所有算法無(wú)外乎是圍繞感知偏差和感知變異兩方面來(lái)處理,因此在對(duì)閉環(huán)檢測(cè)的算法實(shí)現(xiàn)上主要是考慮處理的哪個(gè)方面,正如鄭冰清等人所提出在視覺SLAM閉環(huán)檢測(cè)使用融合語(yǔ)義信息[51]、張括嘉等人將語(yǔ)義信息和拓?fù)潢P(guān)系相結(jié)合的方法[62],這樣的處理目的是為了使得移動(dòng)機(jī)器人可以在動(dòng)態(tài)環(huán)境中的閉環(huán)檢測(cè)有更好的魯棒性。與目前所提出的一些進(jìn)步的開源V-SLAM系統(tǒng),例如基于BoVW和PlaceCNN等更多的是依賴于靜態(tài)環(huán)境假設(shè),相比較起來(lái)可能在靜態(tài)環(huán)境中其魯棒性沒有前者強(qiáng)或與之相平,但是在室內(nèi)中動(dòng)態(tài)環(huán)境下其準(zhǔn)確率-召回率和系統(tǒng)算法運(yùn)行的時(shí)間都要遠(yuǎn)優(yōu)于前者。閉環(huán)檢測(cè)的目的是減少系統(tǒng)誤差,使之對(duì)于后端優(yōu)化方法可以更好地配合起來(lái),故如何設(shè)計(jì)一個(gè)合理的閉環(huán)檢測(cè)依舊是一個(gè)值得研究的問(wèn)題所在。表7所示為各類基于深度學(xué)習(xí)方式的V-SLAM閉環(huán)檢測(cè)比較。
表7 各類基于深度學(xué)習(xí)方式的V-SLAM閉環(huán)檢測(cè)比較Table 7 Comparison of various types of V-SLAM loop closure detection based on deep learning methods
表7中√的個(gè)數(shù)越多,對(duì)應(yīng)算法的閉環(huán)檢測(cè)時(shí)間越快。通過(guò)比較各種基于深度學(xué)習(xí)的閉環(huán)檢測(cè)算法,發(fā)現(xiàn)絕大多數(shù)算法都會(huì)與基于PlaceCNN和基于SDA的閉環(huán)檢測(cè)算法進(jìn)行性能比較,主要比較閉環(huán)檢測(cè)精確度、特征提取速度和閉環(huán)搜索三個(gè)方面,且大多數(shù)算法都會(huì)用到City Centre和New College兩個(gè)公共數(shù)據(jù)集。因此本文將基于PlaceCNN和基于SDA的閉環(huán)檢測(cè)算法作為基準(zhǔn),對(duì)本文提到的部分閉環(huán)檢測(cè)算法進(jìn)行性能等級(jí)劃分,劃分的結(jié)果如表7所示?;赟DA的閉環(huán)檢測(cè)算法的閉環(huán)搜索時(shí)間比PlaceCNN快。但是值得注意的是并排比較不同論文的結(jié)果不是最佳的方式,因?yàn)檫@些實(shí)驗(yàn)是在不同的配置環(huán)境下完成的。盡管如此,考慮到參考文獻(xiàn)中提出的算法與基準(zhǔn)算法比較的環(huán)境相同,因此本文還是采用這種通用基準(zhǔn)比較方式對(duì)閉環(huán)檢測(cè)算法進(jìn)行性能比較,以便讀者對(duì)它們的大致情況有一個(gè)粗略的了解。從表7可以看出在特征提取上采用YOLOv3的時(shí)間較快,而使用基于VGG16的閉環(huán)檢測(cè)使用了自適應(yīng)粒子濾波器算法,只需計(jì)算與粒子數(shù)量相應(yīng)的余弦距離,速度基本不受傳感器輸入數(shù)據(jù)量增加的影響,故在閉環(huán)搜索上速度較快。
移動(dòng)機(jī)器人的閉環(huán)檢測(cè)從傳統(tǒng)方法到深度學(xué)習(xí)的過(guò)程中,目前研究的難點(diǎn)問(wèn)題主要集中在以下三個(gè)方面:
(1)在自然環(huán)境變化中提高閉環(huán)檢測(cè)的魯棒性。閉環(huán)檢測(cè)不僅受到自然環(huán)境中的光照、季節(jié)等變化的影響,還面臨惡劣環(huán)境中的大霧或者下雨等其他自然因素所造成的感知混疊的難點(diǎn)問(wèn)題,感知混疊是引起基于外觀的閉環(huán)檢測(cè)失效的主要因素之一。如何緩解基于深度學(xué)習(xí)的閉環(huán)檢測(cè)方法中存在的感知混疊難點(diǎn)問(wèn)題是一個(gè)開放性課題。目前采用多傳感器融合的方式來(lái)提高自然變化中閉環(huán)檢測(cè)的精確度和穩(wěn)定性是一個(gè)趨勢(shì)所在。
(2)在動(dòng)態(tài)環(huán)境中有效處理多種視覺目標(biāo)所造成的閉環(huán)檢測(cè)失效的影響。在動(dòng)態(tài)場(chǎng)景中,如果移動(dòng)目標(biāo)的特征點(diǎn)過(guò)大并在關(guān)鍵幀中占據(jù)較大比重,那么一旦在不同場(chǎng)景中再次檢測(cè)到相同的移動(dòng)目標(biāo),將會(huì)很容易被誤判為閉環(huán)。其次,若多個(gè)目標(biāo)在不同場(chǎng)景中所出現(xiàn)的次數(shù)不同,會(huì)引起關(guān)鍵幀中的特征點(diǎn)不匹配,從而導(dǎo)致在相同場(chǎng)景中漏判為閉環(huán)。這些都是在實(shí)際環(huán)境中多視覺目標(biāo)檢測(cè)對(duì)閉環(huán)檢測(cè)造成的難點(diǎn)問(wèn)題。
(3)將SLAM閉環(huán)檢測(cè)算法嵌入到移動(dòng)機(jī)器人的SLAM系統(tǒng),并要求達(dá)到移動(dòng)機(jī)器人的實(shí)時(shí)性操作。SLAM不是各部分算法的簡(jiǎn)單拼接,而是一個(gè)完整的系統(tǒng),其中移動(dòng)機(jī)器人一直處于實(shí)時(shí)運(yùn)行狀態(tài),雖然VSLAM中的閉環(huán)檢測(cè)和地圖構(gòu)建是并行運(yùn)行的,但隨著移動(dòng)機(jī)器人的運(yùn)動(dòng)時(shí)長(zhǎng)增加,視覺傳感器所傳輸?shù)膱D像數(shù)據(jù)增加,構(gòu)建的地圖尺度也擴(kuò)大,因此閉環(huán)檢測(cè)的幀與幀之間的對(duì)比消耗時(shí)間增多,這對(duì)閉環(huán)檢測(cè)算法的時(shí)間復(fù)雜度和空間復(fù)雜度都是一個(gè)考驗(yàn)。
雖然目前對(duì)閉環(huán)檢測(cè)在自然環(huán)境變化、多目標(biāo)和實(shí)時(shí)性等難點(diǎn)問(wèn)題的研究頗多,但是在實(shí)際作用中的效果還有待提升。隨著對(duì)移動(dòng)機(jī)器人應(yīng)用要求的不斷提高,機(jī)器人系統(tǒng)的協(xié)同運(yùn)作、系統(tǒng)輕量化和高性能計(jì)算將成為未來(lái)關(guān)注的課題。在移動(dòng)機(jī)器的未來(lái)應(yīng)用中,多移動(dòng)機(jī)器人系統(tǒng)的協(xié)同運(yùn)作的研究對(duì)移動(dòng)機(jī)器人的應(yīng)用具有重要意義。協(xié)同運(yùn)作的多移動(dòng)機(jī)器人系統(tǒng)可在大型、危險(xiǎn)和較為復(fù)雜的場(chǎng)景中代替人執(zhí)行關(guān)鍵性的特殊任務(wù)。如何將SLAM的閉環(huán)檢測(cè)運(yùn)用到移動(dòng)機(jī)器人的協(xié)同系統(tǒng)中也是未來(lái)的一種研究趨勢(shì)。由于SLAM的閉環(huán)檢測(cè)所接受到的輸入數(shù)據(jù)是一種視頻流的方式,因此要想高效處理輸入數(shù)據(jù),且不應(yīng)占用較大的計(jì)算資源,則需要利用高性能的計(jì)算設(shè)備來(lái)實(shí)現(xiàn)更高精度的閉環(huán)檢測(cè)。此外對(duì)于SLAM系統(tǒng)應(yīng)該朝著輕量化方向發(fā)展,可以運(yùn)用到各種設(shè)備中。
本文以基于深度學(xué)習(xí)的V-SLAM閉環(huán)檢測(cè)為背景,首先闡述現(xiàn)有的V-SLAM閉環(huán)檢測(cè)深度學(xué)習(xí)方法,通過(guò)梳理發(fā)現(xiàn)每種不同的深度學(xué)習(xí)方法都是針對(duì)于傳統(tǒng)方法的局限性進(jìn)行解決,例如對(duì)于光照和季節(jié)變化敏感所導(dǎo)致的檢測(cè)失效等。
從所回顧的文獻(xiàn)中可以發(fā)現(xiàn)基于深度學(xué)習(xí)的閉環(huán)檢測(cè)方法具有較強(qiáng)的魯棒性,但是否是真實(shí)的閉環(huán)檢測(cè)依舊是一個(gè)開發(fā)性問(wèn)題,同時(shí)基于深度學(xué)習(xí)的算法計(jì)算量較大,在真實(shí)環(huán)境中可能還存有移動(dòng)機(jī)器人的視角變化等因素,因此在閉環(huán)檢測(cè)的研究中未來(lái)還存在許多方法。
最后隨著深度學(xué)習(xí)的快速發(fā)展,利用深度學(xué)習(xí)解決SLAM中的閉環(huán)檢測(cè)已然是一個(gè)新興的研究方向,在移動(dòng)機(jī)器人上可能不只有一種傳感器,還可能利用多種傳感器來(lái)進(jìn)行多源信息融合,這樣可以提高SLAM閉環(huán)檢測(cè)的魯棒性,目前在理論上的實(shí)現(xiàn)是遠(yuǎn)超于實(shí)踐,故SLAM的閉環(huán)檢測(cè)在未來(lái)發(fā)展中具有更多的意義,要想展示出真正意義上的自主定位和地圖構(gòu)建,在解決現(xiàn)實(shí)方案中有著巨大的發(fā)展空間。