• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      單目視覺慣性的同時(shí)定位與地圖構(gòu)建綜述

      2020-07-26 14:23:53瑚琦蔡文龍盧定凡姜敏
      軟件導(dǎo)刊 2020年7期
      關(guān)鍵詞:深度學(xué)習(xí)濾波

      瑚琦 蔡文龍 盧定凡 姜敏

      摘 要:在機(jī)器人領(lǐng)域,同時(shí)定位與地圖構(gòu)建(SLAM)是導(dǎo)航定位的關(guān)鍵技術(shù)。單目視覺傳感器由于結(jié)構(gòu)簡單、成本低且能獲取豐富的視覺信息,被廣泛應(yīng)用于SLAM。隨著無人機(jī)、AR設(shè)備以及自動(dòng)駕駛汽車技術(shù)的快速發(fā)展,視覺慣性SLAM(VI-SLAM)技術(shù)得到了越來越多人的關(guān)注。針對(duì)VI-SLAM,從濾波與非線性優(yōu)化的角度出發(fā),首先介紹相關(guān)算法理論框架,然后分析幾種具有代表性的單目VI-SLAM算法創(chuàng)新點(diǎn)及實(shí)現(xiàn)方案,并通過EuRoC MAV數(shù)據(jù)集評(píng)估各算法優(yōu)劣,最后結(jié)合深度學(xué)習(xí)與語義SLAM,對(duì)SLAM未來發(fā)展趨勢進(jìn)行探討。

      關(guān)鍵詞:視覺慣性SLAM;濾波;非線性優(yōu)化;深度學(xué)習(xí)

      DOI:10. 11907/rjdk. 192271 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)007-0275-06

      Survey on Monocular Visual Inertial SLAM Algorithms

      HU Qi1,2,CAI Wen-long1,2,LU Ding-fan1,2,JIANG Min1,2

      (1.School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology;

      2.Shanghai Key Lab of Modern Optical System, Shanghai 200093, China)

      Abstract:In the field of robotics, simultaneous localization and mapping (SLAM) is the key technology for navigation and positioning. Monocular vision sensors are widely used in SLAM due to their simple structure, low cost, and access to rich visual information. With the rapid development of drones, AR equipment and self-driving cars, visual inertial SLAM (VI-SLAM) technology has received more and more attention. For VI-SLAM, from the filtering-based and optimization-based perspective, the basic theory of algorithm implementation is introduced first. Secondly, the innovation points and implementation schemes of several representative monocular VI-SLAM algorithms are analyzed. Then, the advantages and disadvantages of each algorithm are evaluated through the EuRoC MAV dataset. Finally, combined with deep learning and semantic SLAM, the future development trend of SLAM is discussed.

      Key Words:VI-SLAM; filter; nonlinear optimization; deep learning

      0 引言

      同時(shí)定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM)是指搭載特定傳感器的主體在未知環(huán)境中移動(dòng),對(duì)自身進(jìn)行定位并構(gòu)建增量式地圖的技術(shù)[1]。根據(jù)傳感器的不同,分為激光SLAM和視覺SLAM。激光SLAM使用的激光雷達(dá)結(jié)構(gòu)單一,且價(jià)格昂貴,一般需要結(jié)合其它傳感器才能有效工作?;谝曈X的同時(shí)定位與地圖構(gòu)建(Vision-based Simultaneous Localization and Mapping,VSLAM)利用視覺傳感器獲取圖像數(shù)據(jù),通過多視圖幾何對(duì)其進(jìn)行處理,得到機(jī)器人位置。VSLAM有多種視覺傳感器方案,一般以RGB-D深度傳感器、雙目傳感器與單目傳感器為主。其中,單目傳感器在過去30多年中對(duì)SLAM的研究起到了重要的推動(dòng)作用,MonoSLAM[2]是第一個(gè)實(shí)時(shí)單目VSLAM,LSD-SLAM[3]是直接法第一次成功應(yīng)用于單目VSLAM,ORB-SLAM[4]是現(xiàn)有VSLAM中功能最完善、易用的。然而,隨著無人機(jī)、人工智能以及自動(dòng)駕駛技術(shù)在機(jī)器人領(lǐng)域的快速發(fā)展,僅采用單一傳感器的VSLAM由于在動(dòng)態(tài)環(huán)境下容易出現(xiàn)誤匹配問題而無法勝任復(fù)雜場景,于是VI-SLAM應(yīng)運(yùn)而生。視覺慣性SLAM(Visual-Inertial SLAM,VI-SLAM)是一種結(jié)合視覺傳感器和慣性測量單元(Inertial Measurement Unit,IMU)估計(jì)移動(dòng)平臺(tái)位姿(位置和姿態(tài))變化的技術(shù),該技術(shù)主要分為濾波和非線性優(yōu)化兩種。本文重點(diǎn)研究單目VI-SLAM,首先系統(tǒng)分析幾種具有代表性的濾波VI-SLAM和非線性優(yōu)化VI-SLAM,然后通過實(shí)驗(yàn)評(píng)估各算法性能,最后探討SLAM未來發(fā)展趨勢。

      1 濾波法

      濾波法在早期SLAM研究中占據(jù)主要地位,基于濾波的VI-SLAM一般使用EKF[5]。EKF在假設(shè)馬爾可夫性的前提下,通過維護(hù)狀態(tài)量均值和協(xié)方差確定最大后驗(yàn)概率分布,從而解決非線性系統(tǒng)模型的估計(jì)問題。

      1.1 EKF框架

      基于EKF框架的VI-SLAM分為預(yù)測和更新兩部分。IMU能夠得到三軸加速度和三軸角速度,根據(jù)式(1)的運(yùn)動(dòng)方程,用上一時(shí)刻的狀態(tài)[xt-1]預(yù)測當(dāng)前時(shí)刻的狀態(tài)[xt]。

      其中,[ut]是已知的輸入變量,噪聲[ωt]滿足零均值的高斯分布[ωt~Ν(0,Rt)],[Rt]為協(xié)方差,待估計(jì)的狀態(tài)變量[xt]是一個(gè)16維向量。

      其中,[IWq]為從世界坐標(biāo)系到IMU坐標(biāo)系的四元數(shù),[WpI]、[WvI]對(duì)應(yīng)于世界坐標(biāo)系的旋轉(zhuǎn)和速度,[bg]、[ba]分別為陀螺儀和加速度計(jì)的偏差(bias)。

      由于受到噪聲干擾,隨著時(shí)間的增加,預(yù)測階段得到狀態(tài)變量的準(zhǔn)確性會(huì)不斷下降,而視覺傳感器通過式(3)的觀測方程對(duì)預(yù)測結(jié)果進(jìn)行更新,能夠有效減少誤差。

      其中,[xt]為待優(yōu)化的狀態(tài)變量,觀測過程中的噪聲[vt]滿足零均值的高斯分布[vt~Ν(0,Qt)],[Qt]為協(xié)方差。

      完整的預(yù)測及更新過程如下:

      (1)預(yù)測:

      (2)更新:

      其中,[F]、[H]為雅克比矩陣,[Pt]為后驗(yàn)概率。

      1.2 單目濾波VI-SLAM

      視覺傳感器與IMU在進(jìn)行數(shù)據(jù)融合時(shí),按照將圖像特征信息加入狀態(tài)向量的方式分為松耦合和緊耦合。松耦合雖然運(yùn)行速度快,但是無法糾正視覺測量引入的尺度漂移,在視覺定位困難的地方魯棒性不強(qiáng);緊耦合是指將IMU狀態(tài)變量與相機(jī)狀態(tài)變量合并在一起,共同構(gòu)建運(yùn)動(dòng)方程和觀測方程,然后進(jìn)行狀態(tài)估計(jì)。緊耦合具有定位精度高、魯棒性強(qiáng)的優(yōu)點(diǎn),因而被廣泛應(yīng)用于單目濾波VI-SLAM中[6-9]。其中,MSCKF[8]、ROVIO[9]是當(dāng)下最流行的。

      1.2.1 MSCKF

      MSCKF是一個(gè)基于多狀態(tài)EKF約束的VI-SLAM,該算法應(yīng)用于谷歌Tango,至今尚未開源。傳統(tǒng)EKF-SLAM進(jìn)行數(shù)據(jù)融合時(shí),狀態(tài)向量保存當(dāng)前圖像幀的位姿、速度及地圖點(diǎn)(Map Points),然后用IMU作預(yù)測,再通過視覺傳感器的觀測誤差進(jìn)行更新。MSCKF預(yù)測過程與傳統(tǒng)EKF-SLAM相同,其創(chuàng)新點(diǎn)在于更新過程。在更新之前每接收到一幀圖像信息,便將狀態(tài)向量加入到按時(shí)間排序的滑動(dòng)窗口中,只有當(dāng)?shù)貓D點(diǎn)被多個(gè)圖像幀同時(shí)觀測到才進(jìn)行更新。從2007年提出MSCKF至今,該算法因具有計(jì)算復(fù)雜度低及魯棒性強(qiáng)等優(yōu)點(diǎn),被廣泛應(yīng)用于智能手機(jī)、掃地機(jī)器人等小型化場景中。

      1.2.2 ROVIO

      ROVIO是蘇黎世大學(xué)Ethz ASL實(shí)驗(yàn)室于2015年提出的基于EKF框架的單目VI-SLAM算法。該算法通過IMU預(yù)測狀態(tài)向量,利用視覺的光度誤差約束對(duì)狀態(tài)向量進(jìn)行更新。ROVIO的獨(dú)到之處在于將地圖點(diǎn)的空間位置信息拆分成兩項(xiàng),一項(xiàng)是由方向角和傾斜角組成的二維向量(bearing vector),另一項(xiàng)是逆深度(inverse depth)。這種構(gòu)造方式使得獲取的數(shù)據(jù)在初始化階段不會(huì)產(chǎn)生延遲,從而能夠有效提高系統(tǒng)的魯棒性和精度。

      當(dāng)獲取到一組最新的加速度計(jì)數(shù)據(jù)和陀螺儀數(shù)據(jù)時(shí),ROVIO通過卡爾曼預(yù)測對(duì)得到的數(shù)據(jù)進(jìn)行處理??柭A(yù)測(Kalman prediction)需要完成3項(xiàng)工作:一是預(yù)測當(dāng)前時(shí)刻的狀態(tài)變量[x],得到均值的先驗(yàn)[x-],使用多次迭代的EKF得到更準(zhǔn)確的狀態(tài)向量[xiter],并結(jié)合相機(jī)模型計(jì)算特征點(diǎn)在當(dāng)前幀上的像素坐標(biāo)[pi],用于計(jì)算下一幀圖像的像素位置;二是預(yù)測協(xié)方差的先驗(yàn)[p-],并將[x-]和[p-]傳遞給視覺更新過程,當(dāng)接收到一幀最新的圖像時(shí),需要對(duì)狀態(tài)向量進(jìn)行更新,并剔除異常點(diǎn);三是更新Warping Matrix,用來校正不同視角下的圖像映射變化,得到第i個(gè)地圖點(diǎn)的[Di]在當(dāng)前時(shí)刻的增量。最后通過地圖點(diǎn)[Di]和像素坐標(biāo)[pi]得到當(dāng)前幀的光度誤差[e],通過多次迭代求解雅克比矩陣和誤差項(xiàng),得到位姿的最優(yōu)估計(jì)。

      2 非線性優(yōu)化

      基于非線性優(yōu)化的VI-SLAM主要依靠多視圖幾何技術(shù)[10]對(duì)視覺傳感器采集的數(shù)據(jù)進(jìn)行處理,而當(dāng)相機(jī)因快速移動(dòng)得不到清晰圖像時(shí),可以利用IMU測得的數(shù)據(jù)作為先驗(yàn)信息對(duì)整個(gè)系統(tǒng)進(jìn)行校正。計(jì)算非線性優(yōu)化的單目VI-SLAM主要包括初始化、前端、后端和回環(huán)檢測4部分。

      2.1 初始化

      初始化主要為系統(tǒng)提供一個(gè)精確的尺度信息,而該尺度信息估計(jì)的好壞直接決定了SLAM能否正常運(yùn)行。由于單目相機(jī)不能直接得到深度信息,所以估計(jì)出來的位移與周圍環(huán)境相差一個(gè)尺度,這種現(xiàn)象稱為單目的尺度不確定性(Scale Ambiguity)。針對(duì)這種問題有多種解決方法,VI-SLAM的解決思路是對(duì)IMU進(jìn)行預(yù)積分[11],利用運(yùn)動(dòng)學(xué)方程估計(jì)出相對(duì)運(yùn)動(dòng)距離,并通過非線性優(yōu)化求解出環(huán)境地圖的真實(shí)尺度,該方法由于精度高而被廣泛應(yīng)用于單目VI-SLAM。其它方法如文獻(xiàn)[12]通過不同角度觀測環(huán)境中的同一點(diǎn),利用三角測量的方法確定該點(diǎn)距離,但該方法對(duì)視差選取要求嚴(yán)格;文獻(xiàn)[13]提出逆深度(Inverse Depth)方法,將深度的倒數(shù)加入狀態(tài)變量中進(jìn)行更新,該方法雖然能夠得到一個(gè)比較精確的結(jié)果,但會(huì)占用更多的計(jì)算資源;文獻(xiàn)[14]采用速度傳感器和GPS直接得到尺度信息的方案,但該方案不適用于室內(nèi)等場景。

      2.2 前端

      前端稱為視覺里程計(jì),它根據(jù)相鄰圖像信息粗略估計(jì)出相機(jī)運(yùn)動(dòng),給后端提供位姿初始值。其中,待估計(jì)的位姿[T∈SE(3)]包括旋轉(zhuǎn)矩陣[R]和平移向量[t]。

      [T=Rt01,R∈SO(3),t∈R3] (6)

      前端按是否需要提取特征,分為特征點(diǎn)法和直接法。特征點(diǎn)由關(guān)鍵點(diǎn)與描述子組成,關(guān)鍵點(diǎn)是特征點(diǎn)在圖像中的位置,描述子描述了該關(guān)鍵點(diǎn)周圍像素的位置。特征點(diǎn)法如圖1所示。

      由圖1可知,特征點(diǎn)法利用式(7)的針孔相機(jī)投影模型將三維世界地圖點(diǎn)[pu]映射到二維圖像平面。

      其中,[u0]、[v0]為主點(diǎn)坐標(biāo),[fu]、[fv]為焦距。當(dāng)從兩幀連續(xù)的圖像之間得到匹配好的特征點(diǎn)時(shí),通過八點(diǎn)法[15]求得位姿T。當(dāng)?shù)玫教卣鼽c(diǎn)[u]與對(duì)應(yīng)的深度[du]時(shí),通過式(8)的反投影模型得到3D地圖點(diǎn)[pu],用PNP求得位姿T。

      直接法如圖2所示,直接法以第一幀圖像C1為參考,通過光度不變?cè)眍A(yù)測上一幀像素點(diǎn)P1在當(dāng)前圖像幀C2的位置P2。當(dāng)?shù)玫狡ヅ浜玫南袼攸c(diǎn)之后,采取與特征點(diǎn)相同的方式求取位姿。

      直接法根據(jù)地圖點(diǎn)P的來源不同,分為稀疏直接法、半稠密直接法與稠密直接法3類。

      (1) 在稀疏直接法中,P來自稀疏關(guān)鍵點(diǎn),一般使用幾百至上千個(gè)關(guān)鍵點(diǎn),不計(jì)算描述子,同時(shí)假設(shè)關(guān)鍵點(diǎn)周圍像素是不變的。

      (2) 在半稠密直接法中,P來自部分像素,由于像素梯度為0的地圖點(diǎn)不會(huì)對(duì)運(yùn)動(dòng)估計(jì)有任何貢獻(xiàn),因此只考慮帶有梯度的像素點(diǎn),舍棄像素梯度不明顯的地方。

      (3)在稠密直接法中,需要對(duì)所有地圖點(diǎn)P進(jìn)行計(jì)算。

      2.3 后端

      由于位姿T在李群SE(3)下的奇異性,進(jìn)行后端優(yōu)化需要將其轉(zhuǎn)換為李代數(shù)[se(3)]下的[ξ]。

      式(10)表示以特征點(diǎn)為前端的代價(jià)函數(shù),誤差項(xiàng)為重投影誤差,式(11)表示以直接法為前端的代價(jià)函數(shù),誤差項(xiàng)為光度誤差。通過對(duì)式(10)、式(11)進(jìn)一步構(gòu)建最小二乘目標(biāo)函數(shù),使用高斯牛頓法或Levenberg-Marquardt法迭代估計(jì)位姿T的最優(yōu)解。

      其中,[ei]是特征點(diǎn)[p1]、[p2]之間的光度誤差。

      其中,[z]是測量值,[z]是估計(jì)值,[z]是兩者的重投影誤差。

      2.4 回環(huán)檢測

      雖然后端能夠估計(jì)最大后驗(yàn)誤差,但其誤差會(huì)隨著時(shí)間一直疊加,使得整個(gè)SLAM估計(jì)結(jié)果的可靠性不斷降低,而回環(huán)檢測提供兩種思路解決該問題:一方面,由于累計(jì)誤差的影響,遞推得到的位姿差別很大,而回環(huán)檢測能夠提供當(dāng)前數(shù)據(jù)與所有歷史數(shù)據(jù)的關(guān)聯(lián),當(dāng)系統(tǒng)兩次經(jīng)過同一位置時(shí),可以認(rèn)為這兩次的位姿相等,然后校正其它圖像幀的位姿,以此降低累計(jì)誤差的影響;另一方面,在視覺傳感器跟蹤地圖點(diǎn)丟失之后,還可以利用回環(huán)檢測進(jìn)行重定位。因此,回環(huán)檢測能夠有效提高SLAM算法的精度和魯棒性。

      2.5 非線性優(yōu)化VI-SLAM

      在基于非線性優(yōu)化的VI-SLAM算法中,捆集調(diào)整(Bundle Adjustment,BA)[16]是極其重要的一部分。BA利用圖優(yōu)化技術(shù),沿著目標(biāo)函數(shù)梯度下降方向[Δx]對(duì)狀態(tài)向量的估計(jì)值進(jìn)行優(yōu)化,使得整體誤差下降到一個(gè)極小值。在以上優(yōu)化過程中,關(guān)鍵在于如何通過求解線性增量方程[HΔx=g]得到[Δx]。由于BA需要計(jì)算大量特征點(diǎn)和位姿,因此對(duì)H矩陣直接求逆將十分耗費(fèi)資源。主流處理方法是:利用H矩陣的稀疏性對(duì)當(dāng)前圖像幀的無用信息進(jìn)行邊緣化(Marginalization)處理,并通過滑動(dòng)窗口(Sliding Window)減少累積誤差。

      近年來,機(jī)器人領(lǐng)域出現(xiàn)了許多單目非線性優(yōu)化VI-SLAM算法[17-21],其中,OKVIS[19]、VI-ORB[20]、VINS[21]是最常見的。

      2.5.1 OKVIS

      OKVIS是Leutenegger等提出的基于非線性優(yōu)化的VI-SLAM,其特點(diǎn)在于選擇關(guān)鍵幀及邊緣化準(zhǔn)則。算法基本思想是盡可能保存當(dāng)前關(guān)鍵幀的有用信息,對(duì)信息量少的圖像幀進(jìn)行邊緣化,并保留其與關(guān)鍵幀之間的約束,進(jìn)而通過兩幀圖像之間的特征匹配與IMU采樣數(shù)據(jù)積分估計(jì)相機(jī)位姿和地圖點(diǎn)。

      2.5.2 VI-ORB

      VI-ORB是在ORB-SLAM2[22]基礎(chǔ)上融合IMU的定位算法,其計(jì)算過程包括跟蹤(Tracking)、局部建圖(Local Mapping)和回環(huán)檢測(Loop Closing)3部分。與ORB-SLAM2相比,VI-ORB的主要特點(diǎn)在于局部地圖中優(yōu)化方式不一樣。整個(gè)局部地圖中需要優(yōu)化的狀態(tài)量包括固定的N幀圖像以及由N幀圖像共同觀測到的地圖點(diǎn)(Map Poings)。其中,ORB-SLAM2只優(yōu)化包含視覺誤差的關(guān)鍵幀,而VI-ORB根據(jù)局部地圖是否更新優(yōu)化視覺重投影誤差和IMU測量誤差,且存在以下兩種情況:

      (1)當(dāng)局部地圖進(jìn)行更新時(shí),首先構(gòu)建整體優(yōu)化狀態(tài)向量,包括旋轉(zhuǎn)、平移速度、位移、加速度計(jì)偏置和陀螺儀偏置,然后通過視覺重投影誤差和IMU測量誤差優(yōu)化當(dāng)前幀狀態(tài)向量,上一幀圖像的狀態(tài)量和地圖點(diǎn)不會(huì)進(jìn)行優(yōu)化,而是作為約束項(xiàng)優(yōu)化當(dāng)前幀狀態(tài)向量。

      (2)當(dāng)局部地圖沒有更新時(shí),地圖點(diǎn)不會(huì)進(jìn)行優(yōu)化,而是作為約束項(xiàng)優(yōu)化下一時(shí)刻的狀態(tài)量,將優(yōu)化結(jié)果作為先驗(yàn)數(shù)據(jù)邊緣化當(dāng)前時(shí)刻的狀態(tài)量。

      2.5.3 VINS

      VINS是香港科技大學(xué)沈劭劼團(tuán)隊(duì)提出的單目實(shí)時(shí)VI-SLAM,是目前非常先進(jìn)的單目VI-SLAM算法。VINS主要分為5部分:數(shù)據(jù)預(yù)處理、初始化、后端、回環(huán)檢測及全局位姿優(yōu)化。

      (1)數(shù)據(jù)預(yù)處理與初始化為系統(tǒng)提供初始地圖和尺度信息。數(shù)據(jù)預(yù)處理包括對(duì)圖像和IMU的預(yù)處理。其中,在圖像處理層面,前端提取圖像Harris角點(diǎn),利用金字塔光流跟蹤相鄰幀,通過RANSAC[23]去除奇異點(diǎn),并通知后端進(jìn)行處理;在IMU預(yù)處理層面,將IMU數(shù)據(jù)進(jìn)行積分,得到當(dāng)前時(shí)刻的位姿和速度,同時(shí)計(jì)算相鄰幀的預(yù)積分增量、預(yù)積分誤差的雅克比矩陣和協(xié)方差項(xiàng)。初始化利用SFM進(jìn)行純視覺估計(jì)滑動(dòng)窗口內(nèi)所有圖像幀的位姿及3D點(diǎn)逆深度,并與IMU預(yù)積分進(jìn)行對(duì)齊,求解初始化參數(shù)。

      (2)后端對(duì)狀態(tài)向量[χ]進(jìn)行非線性優(yōu)化,為系統(tǒng)提供一個(gè)可靠的位姿估計(jì)。

      其中,[xk]表示第k幀圖像時(shí)刻的IMU狀態(tài),包括位置、速度、世界坐標(biāo)系下的IMU方向以及IMU坐標(biāo)系下的加速度計(jì)與陀螺儀偏移。n表示關(guān)鍵幀數(shù)目,m表示滑動(dòng)窗口中的特征總數(shù),λm是第m個(gè)特征的逆深度,[xbc]表示相機(jī)在IMU坐標(biāo)系下的位姿。

      后端通過最小化先驗(yàn)誤差和所有觀測誤差的馬氏距離之和得到最大后驗(yàn)估計(jì),求解滑動(dòng)窗口內(nèi)所有幀的狀態(tài)變量。

      其中:

      式(13)中第一項(xiàng)來自邊緣化后的先驗(yàn)誤差,第二項(xiàng)來自IMU觀測誤差,第三項(xiàng)來自視覺誤差。

      (3)回環(huán)檢測及全局位姿優(yōu)化為系統(tǒng)構(gòu)建全局一致的軌跡和地圖?;丨h(huán)檢測使用BoW模型挑選回環(huán)候選圖像幀,通過匹配BRIEF描述子建立局部滑動(dòng)窗口關(guān)鍵幀與回環(huán)候選圖像幀之間的聯(lián)系。當(dāng)回環(huán)檢測成功后,對(duì)整個(gè)系統(tǒng)的運(yùn)動(dòng)軌跡進(jìn)行全局位姿優(yōu)化。

      3 算法評(píng)估

      VI-SLAM已應(yīng)用于眾多領(lǐng)域的狀態(tài)估計(jì)問題,為了與現(xiàn)有開源算法的效率和精度進(jìn)行對(duì)比,挑選4種被廣泛使用的單目VI-SLAM算法OKVIS、ROVIO、VI-ORB、VINS進(jìn)行實(shí)驗(yàn),通過對(duì)比均方根誤差(Root Mean Square Error,RMSE)評(píng)估各算法優(yōu)劣。該實(shí)驗(yàn)在配置為Intel Xeon E5-2609 V2 × 4 @2.50 GHz 16 Gb RAM的計(jì)算機(jī)上運(yùn)行,使用EuRoC MAV數(shù)據(jù)集[24]對(duì)上述單目VI-SLAM算法進(jìn)行測試,測試結(jié)果通過evo工具(https://github.com/MichaelGrupp/evo)進(jìn)行評(píng)估。EuRoC MAV數(shù)據(jù)集分為Machine Hall(MH)、Vicon Room 1(V1)、Vicon Room 2(V2) 3個(gè)場景,共有11個(gè)序列,序列數(shù)字大小代表算法執(zhí)行難度。

      對(duì)表1中各VI-SLAM算法實(shí)驗(yàn)結(jié)果進(jìn)行分析可以得到:

      (1)OKVIS可以完成各序列的測試要求,總體精度與魯棒性能夠滿足實(shí)際需求。

      (2)ROVIO沒有表現(xiàn)出很好的性能,其在運(yùn)行過程中產(chǎn)生的RMSE平均值最大,相比其它算法,該算法的準(zhǔn)確性和效率都有待提高。

      (3)VI-ORB雖然在V2_03_diff序列中無法正常運(yùn)行,但該算法在其它序列中表現(xiàn)出很好的精度與效率。

      (4) VINS的性能是4種算法中最好的,該算法在運(yùn)行過程中產(chǎn)生的RMSE平均值只有0.116 9m,但需要占用很高的計(jì)算資源。

      4 發(fā)展趨勢

      4.1 深度學(xué)習(xí)與SLAM

      深度學(xué)習(xí)作為一種端到端的方法,可以應(yīng)用于SLAM的前端和回環(huán)檢測?;谏疃葘W(xué)習(xí)的SLAM前端無需特征提取,使得整個(gè)計(jì)算過程更加簡潔、直觀[25]。Costante等[26]利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像數(shù)據(jù)的最優(yōu)特征,在應(yīng)對(duì)相機(jī)快速運(yùn)動(dòng)造成的圖像模糊問題中表現(xiàn)出很好的魯棒性。回環(huán)檢測本質(zhì)上是場景識(shí)別問題,傳統(tǒng)方法使用BoW模型進(jìn)行回環(huán)檢測,而基于深度學(xué)習(xí)的SLAM通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像中的深層特征,因此具有更高的識(shí)別率[27]。Hou[28]利用caffe框架下的AlexNet模型進(jìn)行特征提取,在光照變化明顯的環(huán)境下,使用深度學(xué)習(xí)的特征描述能夠迅速提取特征信息,并大幅提升精度。但目前深度學(xué)習(xí)只能應(yīng)用于SLAM的某些子模塊,如何將深度學(xué)習(xí)技術(shù)應(yīng)用于整個(gè)SLAM系統(tǒng)是未來發(fā)展的主要趨勢。

      4.2 語義SLAM

      語義SLAM是指SLAM在建圖過程中從幾何和內(nèi)容兩個(gè)層次感知世界,對(duì)地圖內(nèi)容進(jìn)行抽象理解。Li等[29]利用DeepLab-v2中的CNN架構(gòu)預(yù)測像素級(jí)的物體類別標(biāo)簽,結(jié)合條件隨機(jī)場對(duì)生成的單目半稠密三維語義地圖進(jìn)行正則化。地圖的語義生成與SLAM過程是相互促進(jìn)的兩部分,語義可以幫助SLAM緩解特征依賴,獲得更高層次的感知,SLAM可以幫助語義在移動(dòng)機(jī)器人場景下進(jìn)行目標(biāo)識(shí)別[30]。語義與SLAM的結(jié)合使得機(jī)器人能夠獲取更高層次的感知,從而能夠處理更復(fù)雜的任務(wù)。

      5 結(jié)語

      VI-SLAM是一種結(jié)合視覺傳感器與慣性測量單元估計(jì)移動(dòng)平臺(tái)位置和姿態(tài)變化的技術(shù),由于VI-SLAM使用的傳感器具有結(jié)構(gòu)簡單、成本低的優(yōu)點(diǎn),因此在定位和建圖領(lǐng)域有著廣泛應(yīng)用,包括移動(dòng)機(jī)器人、自動(dòng)駕駛汽車、無人駕駛飛行器及自主水下航行器等。然而,VI-SLAM為了獲得較高的準(zhǔn)確性與更強(qiáng)的魯棒性,需要耗費(fèi)大量計(jì)算資源,從而限制了其在小型化和輕量化場景中的應(yīng)用。因此,在未來的發(fā)展中,VI-SLAM需要在現(xiàn)有框架基礎(chǔ)上作進(jìn)一步完善與拓展,為資源受限的系統(tǒng)提供一些有效策略以解決以上問題。

      參考文獻(xiàn):

      [1] 周彥,李雅芳,王冬麗,等. 視覺同時(shí)定位與地圖創(chuàng)建綜述[J]. 智能系統(tǒng)學(xué)報(bào),2018,13(1):97-106.

      [2] DAVISON A J,REID I D,MOLTON N D,et al. MonoSLAM:real-time single camera SLAM[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1052-1067.

      [3] ENGEL J, SCH?PS T, CREMERS D. LSD-SLAM: large-scale direct monocular SLAM [C]. European Conference on Computer Vision. Springer, Cham, 2014: 834-849.

      [4] MUR-ARTAL R,MONTIEL J M M, TARDOS J D. ORB-SLAM: a versatile and accurate monocular SLAM system [J].? IEEE Trans on Robotics, 2015, 31(5): 1147-1163.

      [5] BAILEY T,NIETO J,GUIVANT J,et al. Consistency of the EKF-SLAM algorithm [C]. Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems,2006: 3562-3568.

      [6] LYNEN S,SATTLER T,BOSSE M, et al. Get out of my lab: large-scale, real-time visual-inertial localization [C]. Robotics: Science and Systems,2015.

      [7] SCHNEIDER T, DYMCZYK M, FEHR M, et al. Maplab: an open framework for research in visual-inertial mapping and localization [J]. IEEE Robotics and Automation Letters,2018,3(3):1418-1425.

      [8] MOURIKIS A I,ROUMELIOTIS S I. A multi-state constraint Kalman filter for vision-aided inertial navigation [C]. Proceedings of IEEE International Conference on Robotics and Automation,2007:3565-3572.

      [9] BLOESCH M,OMARI S,HUTTER M,et al. Robust visual inertial odometry using a direct EKF-based approach [C]. IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS). IEEE,2015: 298-304.

      [10] HARTLEY R,ZISSERMAN A.Multiple view geometry in computer vision [M]. Cambridge: Cambridge University Press, 2004.

      [11] FORSTER C,CARLONE L, Dellaert F, et al. IMU preintegration on manifold for? efficient visual-inertial maximum-a-posteriori estimation [C]. Robotics Science and Systems,2015.

      [12] Davison A J. Real-time simultaneous localisation and mapping with a single camera[C]. IEEE International Conference on Computer Vision (ICCV),IEEE, 2003.

      [13] MONTIEL J,CIVERA J,DAVISON A J. Unified inverse depth parametrization for monocular SLAM [C].? Robotics: Science and Systems, 2006.

      [14] AGRAWAL M, KONOLIGE K. Real-time localization in outdoor environments using stereo vision and inexpensive GPS [C]. The 18th International Conference on Pattern Recognition (ICPR 06),2006.

      [15] HARTLEY R I. In defense of the eight-point algorithm [J].? IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(6): 580-593.

      [16] TRIGGS B, MCLAUCHLAN P F, HARTLEY R I, et al. Bundle adjustment—a modern synthesis [C]. International Workshop on Vision Algorithms.Springer, Berlin, Heidelberg,1999:298-372.

      [17] CONCHA A, LOIANNO G,KUMAR V,et al.Visual-inertial direct SLAM[C]. IEEE International Conference on Robotics and Automation (ICRA). IEEE,2016:1331-1338.

      [18] KEIVAN N,PATRON-PEREZ A,SIBLEY G. Asynchronous adaptive conditioning for visual-inertial SLAM [C]. Experimental Robotics. Springer, Cham, 2016: 309-321.

      [19] LEUTENEGGER S,LYNEN S, BOSSE M,et al. Keyframe-based visual-inertial odometry using nonlinear optimization [J]. The International Journal of Robotics Research, 2015, 34(3): 314-334.

      [20] MURARTAL R, TARDOS J D. Visual-inertial monocular SLAM with map reuse [J].? International Conference on Robotics and Automation, 2017, 2(2): 796-803.

      [21] QIN T, LI P, SHEN S, et al. VINS-Mono: a robust and versatile monocular visual-inertial state estimator [J].? IEEE Trans on Robotics, 2018, 34(4): 1004-1020.

      [22] MURARTAL R,TARDOS J D.ORB-SLAM2:An open-source SLAM system for monocular,stereo,and RGB-D cameras [J]. IEEE Trans on Robotics,2017,33(5):1255-1262.

      [23] FISCHLER M A, BOLLES R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography [J].? Communications of The ACM, 1981, 24(6): 381-395.

      [24] BURRI M, NIKOLIC J, GOHL P, et al. The EuRoC micro aerial vehicle datasets [J].? The International Journal of Robotics Research, 2016, 35(10): 1157-1163.

      [25] 趙洋,劉國良,田國會(huì),等. 基于深度學(xué)習(xí)的視覺SLAM綜述[J]. 機(jī)器人,2017,39(6):889-896.

      [26] COSTANTE G, MANCINI M, VALIGI P, et al. Exploring representation learning with CNNs for frame-to-frame ego-motion estimation [J].? IEEE Robotics and Automation Letters, 2015(1): 18-25.

      [27] 羅順心,張孫杰. 基于深度學(xué)習(xí)的回環(huán)檢測算法研究[J]. 計(jì)算機(jī)與數(shù)字工程,2019,47(3):497-502.

      [28] HOU Y, ZHANG H, ZHOU S. Convolutional neural network-based image representation for visual loop closure detection [C]. IEEE International Conference on Information and Automation. IEEE, 2015: 2238-2245.

      [29] LI X, BELAROUSSI R. Semi-dense 3D semantic mapping from monocular slam[DB/OL].? https://arxiv.org/pdf/1611.04144.pdf.

      [30] 白云漢. 基于SLAM算法和深度神經(jīng)網(wǎng)絡(luò)的語義地圖構(gòu)建研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2018,35(1):183-190.

      (責(zé)任編輯:黃 ?。?/p>

      猜你喜歡
      深度學(xué)習(xí)濾波
      一種新的InSAR干涉相位濾波方法
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于自適應(yīng)Kalman濾波的改進(jìn)PSO算法
      RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
      基于線性正則變換的 LMS 自適應(yīng)濾波
      遙測遙控(2015年2期)2015-04-23 08:15:18
      布尔津县| 万宁市| 理塘县| 美姑县| 怀化市| 大石桥市| 德清县| 扎兰屯市| 普兰店市| 马尔康县| 龙川县| 鲁山县| 彭山县| 丹寨县| 固阳县| 仁怀市| 九江市| 黄石市| 合作市| 黄浦区| 伊金霍洛旗| 茌平县| 浦东新区| 苍南县| 商都县| 利辛县| 丹阳市| 九江市| 黑水县| 渝北区| 随州市| 南昌市| 巴彦县| 共和县| 修水县| 荆州市| 汾阳市| 腾冲县| 方城县| 长兴县| 宜黄县|