• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Transformer的3D點(diǎn)云場(chǎng)景識(shí)別研究與實(shí)現(xiàn)

      2024-01-24 14:36:59胡麗娜曹政
      電腦知識(shí)與技術(shù) 2023年34期
      關(guān)鍵詞:回環(huán)描述符深度

      胡麗娜 曹政

      摘要:場(chǎng)景識(shí)別是智能機(jī)器人實(shí)現(xiàn)回環(huán)檢測(cè)、定位任務(wù)的關(guān)鍵,該方法通過(guò)分析、提取場(chǎng)景中特征從而推測(cè)所處位置是否已到訪過(guò)。由于視覺(jué)傳感器視場(chǎng)范圍小、易受光照影響的缺點(diǎn),基于3D點(diǎn)云的場(chǎng)景識(shí)別方法成為計(jì)算機(jī)視覺(jué)研究領(lǐng)域的熱點(diǎn)。文章首先對(duì)研究背景和一些主流場(chǎng)景識(shí)別方法進(jìn)行介紹。隨后,文章對(duì)提出算法的主要步驟進(jìn)行介紹,包括數(shù)據(jù)編碼模塊、Transformer模塊以及NetVLAD描述符生成模塊。最后,文章在公開(kāi)數(shù)據(jù)集KITTI上定量地對(duì)比了該文方法和其他開(kāi)源算法。結(jié)果表明,文章提出的方法達(dá)到了SOTA(state-of-the-art) 水準(zhǔn)。

      關(guān)鍵詞:機(jī)器人;自動(dòng)駕駛;場(chǎng)景識(shí)別;回環(huán)檢測(cè);3D點(diǎn)云

      中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2023)34-0001-03

      開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :

      0 引言

      場(chǎng)景識(shí)別技術(shù)[1]涉及計(jì)算機(jī)視覺(jué)與機(jī)器人環(huán)境感知技術(shù)。它旨在通過(guò)機(jī)器人對(duì)當(dāng)前環(huán)境的掃描數(shù)據(jù)進(jìn)行特征提取,完成對(duì)環(huán)境的分析與識(shí)別,對(duì)是否曾經(jīng)訪問(wèn)過(guò)該場(chǎng)景做出判斷。它可以用于同時(shí)定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM) 的回環(huán)檢測(cè)環(huán)節(jié)[1-2]。若當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)之間被檢測(cè)出存在回環(huán),將這兩數(shù)據(jù)之間的變換矩陣加入里程計(jì)的優(yōu)化當(dāng)中,可有效地消除里程計(jì)因相鄰數(shù)據(jù)匹配帶來(lái)的累積誤差。此外,它還可以應(yīng)用于基于地圖的定位任務(wù)。通過(guò)當(dāng)前數(shù)據(jù)與地圖數(shù)據(jù)之間的回環(huán)檢測(cè),可以快速地定位機(jī)器人在地圖中的位置,實(shí)現(xiàn)機(jī)器人全局位置的初始化,為下游規(guī)劃、導(dǎo)航任務(wù)提供起點(diǎn)信息。對(duì)該技術(shù)進(jìn)行研究不僅能提升SLAM方法建圖的準(zhǔn)確性,還能在GPS拒止條件下為機(jī)器人的自主定位提供一種備選的方案。因此,具備理論價(jià)值和實(shí)際應(yīng)用價(jià)值。

      基于3D點(diǎn)云的場(chǎng)景識(shí)別技術(shù)大體上可分為兩個(gè)方向[1]:基于手工特征的場(chǎng)景識(shí)別與基于深度學(xué)習(xí)的場(chǎng)景識(shí)別。手工特征方法首先通過(guò)直方圖、體素化、投影等方式生成描述符,隨后通過(guò)描述符之間的相似度來(lái)判斷場(chǎng)景之間的相似度。例如,Scan Context[3]是典型的投影方式手工特征方法,它沿直徑方向和中心角方向?qū)Ⅻc(diǎn)云分割為20[×]60大小的子區(qū)域,通過(guò)記錄每個(gè)區(qū)域內(nèi)點(diǎn)云的最大高度生成20[×]60的矩陣(即沿z軸方向?qū)Ⅻc(diǎn)云投影成一個(gè)平面描述符),隨后通過(guò)暴力匹配的方式計(jì)算描述符之間的相似性;LiDAR IRIS構(gòu)建描述符的方式和Scan Context相類似,區(qū)別在于LiDAR IRIS[4]將虹膜間的相似度計(jì)算方法引入描述符中,提高了計(jì)算效率與準(zhǔn)確性。深度學(xué)習(xí)方法則是通過(guò)事先標(biāo)注好的訓(xùn)練數(shù)據(jù)對(duì)深度模型進(jìn)行訓(xùn)練,當(dāng)模型擬合后通過(guò)輸入測(cè)試數(shù)據(jù)便能知曉是否發(fā)現(xiàn)回環(huán)。OverlapNet[5]是一個(gè)典型的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 構(gòu)建的深度模型,它利用深度、灰度、語(yǔ)義等信息作為輸入,能夠在復(fù)雜環(huán)境中估計(jì)回環(huán)信息。本文將計(jì)算機(jī)視覺(jué)領(lǐng)域現(xiàn)階段比較火熱的Transformer[6]模塊引入傳統(tǒng)CNN結(jié)構(gòu)當(dāng)中,隨后利用NetVLAD模塊對(duì)特征進(jìn)行整合,并生成一維向量描述符用于計(jì)算描述符間的相似性。

      1 算法設(shè)計(jì)

      1.1 算法流程概述

      本文算法的整體流程如圖1所示,以KITTI 08序列中點(diǎn)云數(shù)據(jù)(第1幀和第1511幀)為例,數(shù)據(jù)編碼模塊首先將3D點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為深度圖像(見(jiàn)圖1中[1×64×90]0大小的藍(lán)色條狀部分)。隨后,Vgg16網(wǎng)絡(luò)從輸入的深度圖像中提取特征。接著,Transformer模塊利用注意力機(jī)制對(duì)特征圖進(jìn)行進(jìn)一步的學(xué)習(xí),對(duì)特征進(jìn)行深度提取。最后,NetVLAD模塊將Vgg16網(wǎng)絡(luò)和Transformer模塊的輸出轉(zhuǎn)換為具有旋轉(zhuǎn)不變的一維向量(全局描述符,圖1中藍(lán)綠黃間隔的條形圖所示)。通過(guò)計(jì)算描述符之間的相似程度完成場(chǎng)景的識(shí)別。

      1.2 數(shù)據(jù)編碼模塊

      由于單幀點(diǎn)云內(nèi)點(diǎn)的數(shù)量眾多,影響訓(xùn)練效率。因此在送入深度網(wǎng)絡(luò)訓(xùn)練之前,會(huì)將其轉(zhuǎn)換為深度圖像、灰度圖像或語(yǔ)義圖像,對(duì)數(shù)據(jù)進(jìn)行壓縮以減小計(jì)算量。本文使用深度圖像作為輸入數(shù)據(jù),深度圖像中每一個(gè)坐標(biāo)位置[(u, v)]與點(diǎn)云中每個(gè)點(diǎn)[pi(x,y,z)]間的轉(zhuǎn)換關(guān)系如式(1) 所示:

      [uv=12[1-arctan(y,x)?π-1]?w[1-(arcsin(z?r-1)+fup)?f-1]?h] (1)

      其中,[r]是每個(gè)點(diǎn)到原點(diǎn)的距離,[fup]是傳感器是視場(chǎng)角的上界,[f=fup+fdown]是傳感器的垂直視場(chǎng)角,[w]和[h]分別是生成深度圖像的寬度和高度。此外,深度圖像中每一個(gè)位置的像素值[I(u,v)=r]。

      1.3 Transformer模塊

      與卷積神經(jīng)網(wǎng)絡(luò)不同,Transformer并不需要通過(guò)堆疊多層卷積核以擴(kuò)大感受野,而是通過(guò)注意力(Attention) 機(jī)制對(duì)整張深度圖像進(jìn)行特征提取,以更好地捕捉全局信息,使得深度模型有更好的魯棒性,也更適合于處理時(shí)間較長(zhǎng)的場(chǎng)景識(shí)別任務(wù)。

      本文提出的Transformer結(jié)構(gòu)如圖2所示,整體上分為空間注意力機(jī)制部分和通道注意力機(jī)制兩部分。從Vgg16輸出的特征圖中并不是所有區(qū)域?qū)?chǎng)景識(shí)別任務(wù)都同樣重要,只有任務(wù)相關(guān)區(qū)域才是重心,空間注意力模型的作用則是針對(duì)這部分重心進(jìn)行處理。通道注意力模型則是對(duì)空間注意力模塊的輸出進(jìn)行建模,評(píng)估其各個(gè)特征通道的重要程度,并針對(duì)任務(wù)類型增強(qiáng)或抑制這些通道。每種注意力模型具體使用的操作見(jiàn)圖2虛框中內(nèi)容。

      1.4 NetVLAD模塊

      NetVLAD是由傳統(tǒng)VLAD算法改進(jìn)而來(lái),以使其能夠參與深度網(wǎng)絡(luò)訓(xùn)練。該算法的實(shí)現(xiàn)分為四個(gè)步驟:

      1) 通過(guò)深度網(wǎng)絡(luò)模型將Transformer模塊輸出的[N]個(gè)[D]維特征描述子[xi]劃分為[k]個(gè)聚類中心[ck];

      2) 計(jì)算分配矩陣[ak(xi)],其公式如式(2):

      [akxi=e-αxi-ck2j=1ke-αxi-cj2]? ? ? ?(2)

      當(dāng)[xi]和[ck]越接近,[ak(xi)]趨近于1,反之越趨近于0;

      3) 通過(guò)分配矩陣將特征描述子到聚類中心的殘差進(jìn)行累加,求取加權(quán)殘差向量和,即獲取一個(gè)[K×D]維的全局特征,其公式為(3):

      [V(k)=i=1Nak(xi)(xi-ck)]? ? ? ? ?(3)

      4) 將對(duì)全局特征[V(k)]通過(guò)多層感知機(jī)(Multi-layer Perceptron,MLP) 進(jìn)行通道維度的降維操作,得到最終所需要的一維向量描述符。

      2 實(shí)驗(yàn)與評(píng)估

      本文使用公開(kāi)數(shù)據(jù)集KITTI[7]來(lái)評(píng)估本文方法的性能,并和兩個(gè)傳統(tǒng)手工方法Scan Context、LiDAR IRIS以及兩個(gè)深度學(xué)習(xí)方法OverlapNet、MinkLoc3D進(jìn)行比較。本文在KITTI數(shù)據(jù)集的03-10序列上對(duì)提出模型進(jìn)行訓(xùn)練,并將02序列用作驗(yàn)證集,最終在00序列上對(duì)各個(gè)算法的性能進(jìn)行評(píng)估。實(shí)驗(yàn)中具體設(shè)定如下,64線雷達(dá)點(diǎn)云數(shù)據(jù)被編碼為[1×64×900]的深度圖像。此外,NetVLAD模塊的聚類中心數(shù)量[k]被設(shè)定為64。對(duì)于評(píng)價(jià)標(biāo)準(zhǔn),本文使用了深度學(xué)習(xí)相關(guān)方法常用的Recall@1和Recall@1%作為指標(biāo)。本文提出方法與對(duì)比方法的結(jié)果如表1所示:

      從表1中可以看出,本文方法在KITTI 00序列上的表現(xiàn)要優(yōu)于所有對(duì)比方法。其中召回率Top1(Recall@1) 為0.891,這說(shuō)明檢索到的正樣本數(shù)量占數(shù)據(jù)中所有正樣本數(shù)量的89.1%,查全率接近9成。比第二名MinkLoc3D高出1.5%。此外,如果將檢索范圍從Top1變?yōu)門op1%,即對(duì)于每一幀數(shù)據(jù)選出總幀數(shù)1%數(shù)量的候選幀,只要結(jié)果之中有一幀與該檢索數(shù)據(jù)的回環(huán)真值一致則判定檢索成功,則本文提出方法的查全率為95.2%。實(shí)驗(yàn)結(jié)果表明,將Transformer模塊引入深度學(xué)習(xí)的場(chǎng)景識(shí)別方法之中有助于提升算法的性能,也表明本文方法達(dá)到了現(xiàn)有方法的水準(zhǔn)。

      圖3展示了所提出算法在KITTI 00序列上的場(chǎng)景識(shí)別效果,其中粉色線條代表00序列的整體軌跡,黃色線條代表已走過(guò)的路徑,黑色代表當(dāng)前位置。在黑點(diǎn)所在的T形路口上,車輛兩次經(jīng)過(guò)該路口,本文算法都能夠成功地檢索到了這兩次回環(huán)。這意味著無(wú)論從路口的哪個(gè)方向進(jìn)入該位置,該算法都能夠準(zhǔn)確地識(shí)別出該位置已到訪過(guò)。說(shuō)明該算法同時(shí)具備旋轉(zhuǎn)不變性和準(zhǔn)確性。

      3 結(jié)束語(yǔ)

      本文基于深度學(xué)習(xí)網(wǎng)絡(luò)和Transformer模塊設(shè)計(jì)了一種新的場(chǎng)景識(shí)別方法,并在公開(kāi)數(shù)據(jù)集KITTI上將提出方法與幾種前沿方法進(jìn)行了對(duì)比。定量的實(shí)驗(yàn)結(jié)果表明,該算法具備較高的回環(huán)檢測(cè)性能,實(shí)現(xiàn)了較高的召回率(Recall@1 0.891和Recall@1% 0.952) 。實(shí)驗(yàn)也表明該算法尚存在提升的空間,在一些特殊情況下檢索不到回環(huán)數(shù)據(jù)或找不到正確的回環(huán)。在未來(lái),可以通過(guò)設(shè)計(jì)新的卷積神經(jīng)網(wǎng)絡(luò)對(duì)Vgg16進(jìn)行替換以獲得更好的圖像特征。此外,還可以設(shè)計(jì)多層的Transformer結(jié)構(gòu),通過(guò)特征級(jí)融合的方式提升網(wǎng)絡(luò)的性能。

      參考文獻(xiàn):

      [1] 趙夢(mèng)成,黎昱宏,張宏宇.ROS的服務(wù)類移動(dòng)機(jī)器人SLAM導(dǎo)航的研究[J].電腦知識(shí)與技術(shù),2020,16(9):274-276.

      [2] 劉煥釗,蔣林,郭宇飛,等.基于三維點(diǎn)云轉(zhuǎn)換視覺(jué)圖像的回環(huán)檢測(cè)算法[J].組合機(jī)床與自動(dòng)化加工技術(shù),2023(4):91-95,99.

      [3] KIM G,KIM A.Scan context:egocentric spatial descriptor for place recognition within 3D point cloud map[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).ACM,2018:4802-4809.

      [4] WANG Y,SUN Z Z,XU C Z,et al.LiDAR iris for loop-closure detection[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).IEEE,2020:5769-5775.

      [5] CHEN X,L?BE T,MILIOTO A,et al.OverlapNet:loop closing for LiDAR-based SLAM[C]//Robotics:Science and Systems XVI.Robotics:Science and Systems Foundation,2020.

      [6] 張瑋智,于謙,蘇金善,等.從U-Net到Transformer:深度模型在醫(yī)學(xué)圖像分割中的應(yīng)用綜述[J] 計(jì)算機(jī)應(yīng)用.[2023-10-27]. https://kns.cnki.net/kcms2/article/abstract?v=QGW0A_jem_lpuq_w9i3Oshuspl1mJthja0UXxm2oilNlHLcukmxPOS2rH 5DHDd_0vfZPw5c3HSQjZHuGWbwu-tvtfYt5ssfoMd0R_0O_jC eBtiOCF4cw==&uniplatform=NZKPT.

      [7] GEIGER A,LENZ P,URTASUN R.Are we ready for autonomous driving?The KITTI vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012:3354-3361.

      [8] KOMOROWSKI J.MinkLoc3D:point cloud based large-scale place recognition[C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV).IEEE,2021:1789-1798.

      【通聯(lián)編輯:光文玲】

      猜你喜歡
      回環(huán)描述符深度
      基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
      深度理解一元一次方程
      嘟嘟闖關(guān)記
      深度觀察
      深度觀察
      深度觀察
      透 月
      寶藏(2018年3期)2018-06-29 03:43:10
      Linux單線程并發(fā)服務(wù)器探索
      利用CNN的無(wú)人機(jī)遙感影像特征描述符學(xué)習(xí)
      學(xué)習(xí)“騎撐前回環(huán)”動(dòng)作的常見(jiàn)心理問(wèn)題分析及對(duì)策
      汝南县| 阿拉善右旗| 晋宁县| 昭苏县| 静乐县| 邳州市| 锦州市| 永丰县| 疏勒县| 洛宁县| 米泉市| 平远县| 南平市| 泸州市| 临猗县| 浦东新区| 东安县| 灌阳县| 广州市| 达拉特旗| 册亨县| 莱芜市| 昌邑市| 乌海市| 吕梁市| 特克斯县| 保亭| 芦山县| 万载县| 武穴市| 平武县| 当雄县| 沭阳县| 阳江市| 大埔县| 酒泉市| 交口县| 余庆县| 东港市| 巴林左旗| 介休市|