• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度估計(jì)網(wǎng)絡(luò)SS-Net的SLAM系統(tǒng)

      2022-12-22 11:47:36王振明于劍峰
      關(guān)鍵詞:深度圖算子卷積

      王 恒,吳 波,王振明,于劍峰

      1.中國(guó)科學(xué)院 上海高等研究院,上海 201210

      2.中國(guó)科學(xué)院大學(xué),北京 100049

      同時(shí)定位與地圖繪制(simultaneous localization and mapping,SLAM)是各個(gè)學(xué)科、各方面知識(shí)交織融合的一個(gè)產(chǎn)物,是緊密地聯(lián)合數(shù)學(xué)理論、系統(tǒng)理論、計(jì)算機(jī)視覺(jué)、電子信息科學(xué)等各個(gè)方面的綜合體。SLAM概念最早是在舊金山舉行的機(jī)器人會(huì)議上被Smith等人[1]提出。進(jìn)入21世紀(jì),Davison等人[2]提出了第一個(gè)實(shí)時(shí)的單目SLAM系統(tǒng)(MonoSLAM)。隨后,Klein等人提出了并行SLAM系統(tǒng)(parallel tracking and mapping,PTAM)[3],是第一個(gè)使用束調(diào)整(bundle adjustment,BA)完成實(shí)時(shí)SLAM的系統(tǒng),首次把SLAM系統(tǒng)中區(qū)分出前后端,實(shí)現(xiàn)跟蹤與建圖線程并行化。Raul等人提出了一種基于稀疏特征點(diǎn)的單目ORB-SLAM系統(tǒng)[4],它突破性地使用了三個(gè)線程,分別是跟蹤線程、局部建圖以及回環(huán)檢測(cè)。這之后,SLAM系統(tǒng)的基本框架趨于成熟,即傳感器模塊、前端視覺(jué)里程計(jì)模塊、后端非線性優(yōu)化模塊、回環(huán)檢測(cè)模塊,建圖模塊組成。

      單目SLAM系統(tǒng)因?yàn)槌上裨谏疃染嚯x的測(cè)算上沒(méi)有確定性,需要運(yùn)動(dòng)起來(lái)才能有前后幀間的估算深度,這使得其定位精度較低。同時(shí)期,利用深度學(xué)習(xí)方式進(jìn)行深度估計(jì)的方法越來(lái)越多。隨著深度學(xué)習(xí)算法的創(chuàng)新以及硬件計(jì)算力的突破,深度學(xué)習(xí)獲得了突破性的發(fā)展與進(jìn)步,有越來(lái)越多的人使用深度學(xué)習(xí)網(wǎng)絡(luò)的方法來(lái)進(jìn)行單目深度估計(jì)。Eigen等人[5]提出了一種采用兩段式編碼器-解碼器(Encoder-Decoder)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行單目深度估計(jì)的監(jiān)督學(xué)習(xí)方法,前者獲得低分辨率深度圖作為中間產(chǎn)品,而后者獲得具有原始分辨率的最終深度圖,成為大多數(shù)網(wǎng)絡(luò)的基礎(chǔ)框架。為了獲得平滑和精確的深度,Hu等人[6]添加多層邊界融合模塊(bottom-up boundary fusion,BUBF)利用了多級(jí)特征和多任務(wù)損失。Chen等人[7]添加金字塔模塊到網(wǎng)絡(luò)中,逐漸細(xì)化到網(wǎng)絡(luò)最后的深度。還有一些網(wǎng)絡(luò)[8-10]等結(jié)合深度、語(yǔ)義分割等來(lái)預(yù)測(cè)單目深度。

      本文提出的一種基于SS-Net的SLAM系統(tǒng)方案,僅依靠單目獲取的信息,利用深度估計(jì)網(wǎng)絡(luò)預(yù)測(cè)幀序列,有效提升單目SLAM系統(tǒng)的性能,提高系統(tǒng)精度。本文基于ORB-SLAM系統(tǒng)進(jìn)行改進(jìn),提供了一種采用深度學(xué)習(xí)實(shí)現(xiàn)預(yù)測(cè)同一場(chǎng)景的深度信息,并基于此提高ORB-SLAM性能的方案,內(nèi)容如下:本改進(jìn)和創(chuàng)新現(xiàn)有的網(wǎng)絡(luò)進(jìn)行單目深度估計(jì)的方法,使用邊界引導(dǎo)和場(chǎng)景聚合網(wǎng)絡(luò)(boundary-induced and scene-aggregated net‐work,BS-Net)[10],并在其基礎(chǔ)上添加ED,修改SR,提出基于Sobel的邊界引導(dǎo)和場(chǎng)景聚合網(wǎng)絡(luò)(sobel-boundaryinduced and scene-aggregated network,SS-Net)。新的網(wǎng)絡(luò)可以處理單幀圖像,從而獲得整個(gè)序列的深度估計(jì)。在深度估計(jì)網(wǎng)絡(luò),提出了邊界提取模塊。在網(wǎng)絡(luò)中添加邊界提取、深度相關(guān)模塊提取易丟失圖片的細(xì)節(jié)特征,來(lái)防止邊界在向下采樣過(guò)程中丟失過(guò)多的邊界信息,使網(wǎng)絡(luò)達(dá)到高準(zhǔn)確性。最后,將改進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用在SLAM系統(tǒng)中,通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證其精度,證明其有效性。

      在接下來(lái)會(huì)詳細(xì)地講解基于深度估計(jì)網(wǎng)絡(luò)SS-Net的SLAM系統(tǒng)的特性與功能,最后本文通過(guò)驗(yàn)證原網(wǎng)絡(luò)與改進(jìn)后的網(wǎng)絡(luò)定位效果,來(lái)證明本系統(tǒng)的有效性。

      1 系統(tǒng)設(shè)計(jì)

      本文所提出的基于深度估計(jì)網(wǎng)絡(luò)SS-Net的SLAM系統(tǒng),其整體設(shè)計(jì)思路是基于ORB-SLAM所構(gòu)建,系統(tǒng)的框架為6部分構(gòu)成,單目傳感器模塊、深度估計(jì)模塊、前端視覺(jué)里程計(jì)模塊、后端非線性優(yōu)化模塊、回環(huán)檢測(cè)模塊、建圖模塊。在ORB-SLAM中,前端視覺(jué)里程計(jì)和后端非線性優(yōu)化模塊合并至跟蹤線程中,局部建圖與回環(huán)檢測(cè)模塊與跟蹤線程同時(shí)運(yùn)行。

      如圖1所示,系統(tǒng)工作流程為:攝像頭(單目傳感器)將采集的環(huán)境信息傳到系統(tǒng);深度估計(jì)模塊利用訓(xùn)練好的網(wǎng)絡(luò),利用深度學(xué)習(xí)的方式從RGB圖中生成深度圖,獲取具體的深度信息;前端視覺(jué)里程計(jì)根據(jù)圖片幀估計(jì)幀間相機(jī)運(yùn)動(dòng),進(jìn)而估計(jì)出相機(jī)的姿態(tài)[11],并采用三角測(cè)量法得到相關(guān)點(diǎn)的深度信息,并與深度估計(jì)模塊的深度信息融合優(yōu)化;后端優(yōu)化模塊會(huì)對(duì)系統(tǒng)計(jì)算得到的相機(jī)姿態(tài)和深度信息進(jìn)行全局優(yōu)化;建圖模塊會(huì)根據(jù)優(yōu)化后的姿態(tài)和深度信息對(duì)周圍環(huán)境進(jìn)行三維重建,從而實(shí)現(xiàn)即時(shí)定位與建圖的功能;與此同時(shí)閉環(huán)檢測(cè)模塊會(huì)不斷地對(duì)輸入圖片進(jìn)行檢測(cè),判斷是否存在閉環(huán)。

      圖1 融合深度估計(jì)網(wǎng)絡(luò)SS-Net的SLAM系統(tǒng)框架Fig.1 Framework of SLAM system integrating depth estimation network SS-Net

      本文的基于深度估計(jì)網(wǎng)絡(luò)的SLAM系統(tǒng)將分為兩個(gè)部分在后續(xù)章節(jié)進(jìn)行介紹,即SS-Net深度估計(jì)模塊和ORB-SLAM系統(tǒng)。

      2 SS-Net深度估計(jì)模塊

      有監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)大多采用深度編碼器-深度解碼器(Encoder-Decoder)的基礎(chǔ)結(jié)構(gòu),同樣,本文的深度估計(jì)模塊也采用了這樣的基礎(chǔ)結(jié)構(gòu)。如圖2所示,本文設(shè)計(jì)的網(wǎng)絡(luò)采用了一種最新的深度預(yù)測(cè)網(wǎng)絡(luò)BS-Net[10],BS-Net以基礎(chǔ)的Encoder-Decoder框架和多層邊界融合模塊(bottom-up boundary fusion,BUBF)為基礎(chǔ),融合了深度相關(guān)模塊(depth correlation encoder,DCE)和細(xì)化模塊(stripe refinement,SR)。本文在此網(wǎng)絡(luò)基礎(chǔ)上,添加了邊界提取模塊(edge detection,ED)和新的細(xì)化模塊(stripe refinement,SR),將原圖像的邊緣信息融入到輸出中。

      圖2 深度估計(jì)模塊(SS-Net)Fig.2 Depth estimation model(SS-Net)

      多數(shù)的深度估計(jì)網(wǎng)絡(luò)主要是解決兩個(gè)問(wèn)題[10],一是網(wǎng)絡(luò)估計(jì)RBG圖像中各物體之間相對(duì)深度的準(zhǔn)確性低,二是網(wǎng)絡(luò)得到的深度圖物體的邊緣細(xì)節(jié)準(zhǔn)確性低。SS-Net中,DCE模塊利用空洞卷積和金字塔場(chǎng)景編碼器兩個(gè)分支獲得不同區(qū)域之間深度相關(guān)性。ED模塊跳過(guò)Encoder-Decoder過(guò)程,直接獲取邊緣信息特征,傳遞到SR中;BUBF模塊可以保存Encoder過(guò)程中網(wǎng)絡(luò)細(xì)節(jié)特征不斷丟失的問(wèn)題,與ED模塊優(yōu)化邊緣細(xì)節(jié)特征。SR融合所有模塊輸出。SS-Net保留了BS-Net對(duì)深度相關(guān)性估計(jì)的優(yōu)勢(shì),同時(shí)提出ED模塊跳過(guò)了傳統(tǒng)網(wǎng)絡(luò)中較長(zhǎng)的下采樣與上采樣過(guò)程,使得預(yù)測(cè)的深度圖邊緣會(huì)有較好效果。

      2.1 深度編碼器與深度解碼器

      在以往的研究中[9,12-14],大多數(shù)深度預(yù)測(cè)網(wǎng)絡(luò)均采用Encoder-Decoder的基礎(chǔ)結(jié)構(gòu)。本文選擇用經(jīng)典ResNet50網(wǎng)絡(luò)作為Encoder。如圖2所示,Encoder會(huì)分成Down 1~Down 5這5個(gè)階段進(jìn)行下采樣。在過(guò)去的研究中[15],發(fā)現(xiàn)了空洞卷積能獲得一個(gè)更大的感受野,被證明在網(wǎng)絡(luò)中會(huì)保留更多的信息。因?yàn)椋W(wǎng)絡(luò)中加入池化層(Pooling)后往往會(huì)損失部分傳遞的信息。但不加Pooling會(huì)使感受野變小,而純粹的擴(kuò)大卷積核勢(shì)必導(dǎo)致計(jì)算量的增大,因此使用空洞卷積,如圖3所示。因此將Encoder中的Down4和Down5替換為空洞卷積。

      圖3 空洞卷積Fig.3 Dilated convolution

      Decoder會(huì)放大Encoder和DCE的輸出,利用所學(xué)習(xí)的特征來(lái)預(yù)測(cè)深度特征,同時(shí)減少信道數(shù),生成分辨率更高的特征,結(jié)合其他模塊最終生成最后的圖片。如圖2所示,Decoder會(huì)分成5個(gè)過(guò)程,Up1~Up5。Decoder的Up塊是由上采樣塊和大卷積核強(qiáng)化塊(large-kernel refinement blocks,L-RB)組成。L-RB部分在提升分辨率的同時(shí),壓縮了通道。如圖4所示,L-RB有兩個(gè)平行分支,第一個(gè)分支是由5×5 Conv和3×3 Conv構(gòu)成。第二個(gè)分支是由5×5 Conv構(gòu)成。這兩個(gè)分支匯聚在一起后輸出。

      圖4 L-RB結(jié)構(gòu)圖Fig.4 Framework of L-RB

      Decoder將網(wǎng)絡(luò)編碼處理過(guò)特征重新放大并保留其預(yù)測(cè)的深度信息,并傳遞出來(lái)。

      2.2 多層邊界融合模塊

      在以往的研究中[6,10],BUBF用于保存多層網(wǎng)絡(luò)的邊緣細(xì)節(jié)信息和深度信息,并傳遞到SR層。BUBF將Encoder中的Down2~Down5在每次下采樣中深度變化信息以及高分辨率中存在的信息提取出來(lái)。BUBF可以提取深度的突然變化邊界并移除深度的平滑變化的非邊界像素。因?yàn)闇\層網(wǎng)絡(luò)特征富含邊緣位置信息但缺乏深度信息和語(yǔ)義信息,深層網(wǎng)絡(luò)特征富含深度信息和語(yǔ)義信息,所以這個(gè)模塊是淺層輸出和深層輸出的互補(bǔ)。BUBF將淺層位置信息逐層傳遞到深層,融合相鄰兩層的特征以獲得準(zhǔn)確的邊界。最終,將這些信息融合,為最后的SR提供輸入。

      整個(gè)模塊由4部分組成,同時(shí)BUBF中加入了強(qiáng)化塊(refinement block,RB),如圖5所示。Encoder的所有輸出都被RB強(qiáng)化。其次,為了對(duì)齊多層深度網(wǎng)絡(luò)的特征,特征通過(guò)Up上采樣為57×76×64的特征,并通過(guò)RB進(jìn)一步強(qiáng)化。該操作中的Up模塊與本文Decoder和文獻(xiàn)[12]中的Up相同。緊接著,每個(gè)級(jí)別的輸出與其相鄰的深一級(jí)的網(wǎng)絡(luò)相連接,用于后面更深的融合。依次類推,利用同樣的方式融合了其他深度的網(wǎng)絡(luò)。BUBF將從Down2到Down5的特征融合起來(lái),使得深度邊界被更精確地定位。

      圖5 BUBF結(jié)構(gòu)圖Fig.5 Framework of BUBF

      2.3 深度相關(guān)模塊

      BS-Net[10]創(chuàng)新性地提出DCE來(lái)感知整個(gè)圖像中不同區(qū)域之間的深度相關(guān)性,即物體之間的相對(duì)深度,同時(shí)DCE估計(jì)最遠(yuǎn)的距離,把不同層次網(wǎng)絡(luò)的多個(gè)特征進(jìn)行相關(guān)性的融合,并為Decoder提供輸入。

      一方面,利用前四個(gè)分支來(lái)提取獨(dú)立的像素之間的相關(guān)性,在此基礎(chǔ)上建立不同獨(dú)立像素之間的相對(duì)深度。另一方面,后四個(gè)分支(PSE)提取多尺度區(qū)域中的主要特征并將它們?nèi)诤蠟橐?,從而獲得不同區(qū)域之間的相關(guān)性。

      Down5的輸出是DCE輸入,該模塊通過(guò)8個(gè)平行分支捕獲相關(guān)性,如圖6所示。前三個(gè)分支都是3×3Conv,但擴(kuò)張速率不同,最大速率的卷積核具有整個(gè)圖像的視野感,而最小速率的卷積核僅覆蓋整個(gè)圖像的大約1/9。第四個(gè)分支為1×1Conv。這編碼了輸入圖像的兩個(gè)遙遠(yuǎn)區(qū)域之間的相關(guān)性。在這4個(gè)通道后,1×1Conv來(lái)整合不同通道的信息以及消除網(wǎng)格陰影。

      圖6 DCE結(jié)構(gòu)圖Fig.6 Framework of DCE

      后面四個(gè)分支構(gòu)建了金字塔場(chǎng)景編碼器(pyramid scene encoder,PSE)[16],對(duì)不同深度網(wǎng)絡(luò)區(qū)域之間的相關(guān)性進(jìn)行編碼,并通過(guò)考慮相關(guān)性來(lái)定位最遠(yuǎn)的區(qū)域。這4個(gè)分支分別對(duì)Down5輸出Pooling操作,下采樣成為4個(gè)大小,接著1×1Conv來(lái)融合每個(gè)通道的特征,并被上采樣到29×38×512大小。由于pooling的操作,不同尺度區(qū)域的特征在不同區(qū)域中的主要特征會(huì)融合。網(wǎng)絡(luò)的最后是3×3Conv。通過(guò)考慮不同尺度區(qū)域的深度信息及其相關(guān)性,PSE提取了區(qū)域之間的相對(duì)深度變化。最終,DCE的所有5個(gè)分支被連接,通過(guò)3×3Conv,融合了不同深度網(wǎng)絡(luò)輸出的特征的相關(guān)性,并且信道仍保持在2 048。文獻(xiàn)[10]顯示了BS-Net中的DCE的有效性。

      2.4 邊界提取模塊

      為提升深度圖物體邊緣預(yù)測(cè)的準(zhǔn)確性,本文提出邊界提取模塊(edge detection,ED),該模塊將原圖像中的物體邊界信息保留,并經(jīng)過(guò)卷積操作后,在SR與Decoder、BUBF的輸出融合,如圖2所示。

      在過(guò)去的研究中[17],邊緣是圖像本質(zhì)的特征,其包含了圖像的絕大部分信息。利用邊緣檢測(cè)常檢測(cè)出圖片中反映了圖像局部變化較大(突變)的地方,即圖像中灰度變化比較劇烈的地方。邊緣檢測(cè)中算子有多種類型,常用的有Sobel算子、Canny算子等。圖7中,Canny算子對(duì)邊緣敏感,容易產(chǎn)生間斷,使得整個(gè)邊緣不連續(xù),而Sobel算子對(duì)邊緣不敏感,產(chǎn)生的邊緣有強(qiáng)有弱,抗噪性強(qiáng),同時(shí)計(jì)算量小。SLAM系統(tǒng)需要準(zhǔn)確的深度圖邊緣信息,若網(wǎng)絡(luò)生成的深度圖參雜過(guò)多的噪點(diǎn)信息,ORB特征結(jié)合錯(cuò)誤信息來(lái)建圖,導(dǎo)致錯(cuò)誤率高,會(huì)影響SLAM建圖準(zhǔn)確性。Sobel算子對(duì)噪聲也具有很好的平滑作用,對(duì)物體邊界檢測(cè)有很好的效果,本文選擇的是Sobel算子。

      圖7 不同算子處理的結(jié)果Fig.7 Results operated by different operators

      Sobel算子是基于一階微分的邊緣檢測(cè)方法,其檢測(cè)方法有一定的特點(diǎn),即按照特定的方向檢測(cè)。Sobel算子常用的檢測(cè)方向?yàn)?5°方向、90°方向、180°方向、315°方向,這些算子如圖8所示。

      圖8 不同方向的Sobel算子Fig.8 Sobel operators in different direction

      與大多數(shù)的Sobel算子相似,本文所選用Sobel算子檢測(cè)方向是90°與180°,這可以挑選出水平與垂直的邊緣。使用多個(gè)方向的Sobel算子能夠包含豐富的邊緣細(xì)節(jié)信息,提供給網(wǎng)絡(luò)更多可訓(xùn)練的特征,但算子較多會(huì)增加復(fù)雜程度,同時(shí)包含了過(guò)多的冗余信息,如:噪聲點(diǎn)等。使用單個(gè)方向Sobel算子能減小算子的復(fù)雜度,但算子提供的信息會(huì)減少,無(wú)法提供更能準(zhǔn)確可靠的信息。綜合以上兩點(diǎn)的考慮,選擇用水平與垂直方向的算子作為本文的方案。

      本文設(shè)計(jì)了ED模塊,其結(jié)構(gòu)圖如圖9所示。具體內(nèi)容為整個(gè)模塊主要由兩部分組成,分別為檢測(cè)算子(Detect-Operator)和基礎(chǔ)操作部分(Base-Operator)。由于輸入的圖像為三通道,為保證每個(gè)通道的信息,首先,選擇用detect-operator模塊分別處理三層通道,并讓這些產(chǎn)生不同通道的邊緣。之后選擇給每個(gè)分支首先會(huì)通過(guò)一個(gè)5×5 Conv的模塊。然后,不同通道處理結(jié)束后,各個(gè)模塊產(chǎn)生的特征會(huì)被融合在一起。Base-Operator會(huì)經(jīng)過(guò)兩個(gè)5×5 Conv,再經(jīng)過(guò)一個(gè)5×5 Conv,并最終將通道擴(kuò)展輸出到128的維度,同時(shí)將特征分辨率縮至114×152。

      圖9 ED結(jié)構(gòu)圖Fig.9 Framework of ED

      Detect-Operator提取淺層圖像的邊緣特征,并將特征傳遞下去,Base-Operator對(duì)邊界特征進(jìn)行提取與處理,得到準(zhǔn)確的邊緣信息,傳遞給下一層網(wǎng)絡(luò)。相對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)的不確定性,Detect-Operator的Sobel算子作為數(shù)字圖像處理的成熟技術(shù),可以提取準(zhǔn)確的邊界信息。因此,Base-Operator并沒(méi)有搭建較深的網(wǎng)絡(luò)結(jié)構(gòu),這樣,豐富的邊界特征會(huì)減少損失,并將更多有效準(zhǔn)確特征傳遞給下一層網(wǎng)絡(luò)。

      ED利用Sobel算子來(lái)對(duì)圖像中有用的邊界信息提取處理,再進(jìn)行卷積、歸一化、激活等操作輸出,如圖2所示。ED會(huì)將最淺層的網(wǎng)絡(luò)信息保留下來(lái),并跳過(guò)容易丟失邊界信息的Encoder和Decoder的網(wǎng)絡(luò),最終將特征輸出到SR中。

      2.5 細(xì)化模塊

      本文提出一種新的細(xì)化模塊(stripe refinement,SR),該模塊將BUBF、ED和Decoder的輸出融合,生成并強(qiáng)化高分辨率深度圖。

      BUBF的輸出的特征大小為114×152×64,Decoder的輸出的特征大小為114×152×64,而ED的輸出的特征大小為114×152×128。首先,本文設(shè)計(jì)模塊融合BUBF的輸出特征與Decoder的輸出特征;然后經(jīng)過(guò)通道合并融合ED的輸出特征。

      如圖10所示,SR網(wǎng)絡(luò)框架由3部分組成。首先,SR利用兩個(gè)條帶卷積(stripe convolutions),分別為3×11和11×3的卷積核,在垂直和水平方向的大范圍內(nèi)聚集邊界附近的像素。由于沿正交方向的全局上下文對(duì)指示相對(duì)深度有重要貢獻(xiàn),因此可以更好地識(shí)別對(duì)象及其背景之間的深度變化。本文沒(méi)有像文獻(xiàn)[6]利用三個(gè)5×5卷積來(lái)預(yù)測(cè)Decoder的最終深度圖。因?yàn)樾『司矸e由于其有限的感受野而產(chǎn)生問(wèn)題。它只聚集局部特征,使得深度預(yù)測(cè)中的局部混淆不可避免。同時(shí),可能未能充分利用邊界和全球背景特征。其次,采用3×3 Conv、BatchNorm和ReLU融合兩個(gè)條帶卷積提取的特征。第三,采用3個(gè)5×5 Conv來(lái)細(xì)化最終的深度圖。為了更精確地預(yù)測(cè)深度圖,5×5卷積之前的融合特征通過(guò)跳躍連接被傳遞到最后一個(gè)5×5的卷積。

      圖10 SR結(jié)構(gòu)圖Fig.10 Framework of SR

      這種方法解決了Hu[6]的網(wǎng)絡(luò)中5×5小卷積帶來(lái)的兩個(gè)問(wèn)題:只在每個(gè)像素處聚集局部特征,使得深度預(yù)測(cè)中的局部混淆不可避免;未能充分利用邊界和全局上下文特征。最終通過(guò)SR得到了預(yù)測(cè)的深度圖。

      2.6 損失函數(shù)

      本文使用了BS-Net中的損失函數(shù)。為了訓(xùn)練網(wǎng)絡(luò),訓(xùn)練數(shù)據(jù)中的地面真實(shí)深度圖被表示為G,并且其對(duì)應(yīng)的預(yù)測(cè)被表示為P。地面真實(shí)深度圖中的每個(gè)像素被表示為gi∈G,并且pi∈P用于預(yù)測(cè)。

      損失函數(shù)主要由三部分組成,像素深度差ldepth,梯度差lgrad,表面法線差lnormal。假設(shè)?x()和?y()表示像素在x和y方向上的空間梯度,地面真實(shí)深度圖的表面法線及其預(yù)測(cè)深度圖表示為npi=[ -?x(pi),-?y(pi),1]和=[ -?x(gi),-?y(gi),1]。那么這三個(gè)損失函數(shù)分別為:

      其中,lfinal是總損失函數(shù)。由于邊界周圍的像素具有較大的深度梯度,梯度差lgrad會(huì)引導(dǎo)BUBF學(xué)習(xí)邊界。

      3 ORB-SLAM系統(tǒng)

      傳統(tǒng)的視覺(jué)SLAM系統(tǒng)分為以下幾個(gè)部分:傳感器(sensor)、前端視覺(jué)里程計(jì)(visual odometry,VO)、后端非線性優(yōu)化(optimization)、回環(huán)檢測(cè)(loop closing)和建圖(mapping)五個(gè)模塊組成,ORB-SLAM系統(tǒng)包含三個(gè)并行運(yùn)行的線程:跟蹤線程(tracking)、局部建圖線程(local mapping)和回環(huán)檢測(cè)線程(loop closing)。與傳統(tǒng)的系統(tǒng)架構(gòu)一致,ORB-SLAM系統(tǒng)中跟蹤線程包含了傳統(tǒng)模塊中傳感器、前端視覺(jué)里程計(jì)和后端優(yōu)化模塊。

      ORB-SLAM系統(tǒng)主要以攝像頭作為傳感器,用來(lái)感知周圍環(huán)境的信息。如圖11所示,整個(gè)系統(tǒng)的大致工作流程可以概括為:Tracking負(fù)責(zé)處理相機(jī)的每一幀,計(jì)算與提取ORB特征,并決定何時(shí)插入新的關(guān)鍵幀。系統(tǒng)執(zhí)行與前一幀的初始特征匹配,并使用BA來(lái)優(yōu)化姿態(tài)。一旦系統(tǒng)初始化相機(jī)姿態(tài)和特征匹配成功,就使用由的關(guān)鍵幀的相關(guān)圖(covisibility graph)來(lái)持續(xù)計(jì)算。最后通過(guò)重投影來(lái)搜索與局部地圖點(diǎn)的匹配,并且利用所有匹配來(lái)再次優(yōu)化相機(jī)姿態(tài)。Local Mapping處理新的關(guān)鍵幀,并執(zhí)行局部BA,以實(shí)現(xiàn)相機(jī)姿態(tài)周圍的最佳重建。Loop Closing搜索每個(gè)新關(guān)鍵幀的循環(huán)。如果檢測(cè)到一個(gè)循環(huán),系統(tǒng)會(huì)計(jì)算一個(gè)相似性轉(zhuǎn)換,告知循環(huán)中累積的漂移。然后循環(huán)的兩邊對(duì)齊,并融合重復(fù)的點(diǎn)。最后,對(duì)相似性約束進(jìn)行姿態(tài)圖優(yōu)化,以實(shí)現(xiàn)全局一致性。

      圖11 ORB-SLAM系統(tǒng)框架Fig.11 ORB-SLAM system overview

      跟蹤線程。首先跟蹤線程會(huì)提取ORB特征。特征是圖像的一種數(shù)字化的表達(dá)形式,計(jì)算機(jī)視覺(jué)領(lǐng)域產(chǎn)生很多穩(wěn)定的局部圖像特征,如SIFT[18]、ORB[19]等。ORB的關(guān)鍵點(diǎn)對(duì)FAST角點(diǎn)[20]進(jìn)行了改進(jìn),使特征點(diǎn)具有了旋轉(zhuǎn)不變性和尺度不變性。ORB采用的描述子為BRIEF[21],這是一種二進(jìn)制的描述子。在實(shí)際使用ORB特征進(jìn)行特征匹配時(shí),ORB保證了特征點(diǎn)具有旋轉(zhuǎn)不變性和尺度不變性,而且速度非??臁=酉聛?lái)是地圖與初始姿態(tài)估計(jì)。系統(tǒng)使用對(duì)極幾何估計(jì)相機(jī)姿態(tài)。對(duì)極幾何的代數(shù)表示被稱為基礎(chǔ)矩陣:pT2·F·p1=0。如果矩陣是滿秩的,就可以通過(guò)解方程的方法求解得到矩陣F。之后,就可以得到相機(jī)姿態(tài)R和T。在實(shí)際使用時(shí),得到的匹配點(diǎn)的數(shù)量有很多,但是有一些誤匹配的情況存在,為了選取最好的匹配點(diǎn)對(duì)去求解準(zhǔn)確的R和T,系統(tǒng)采用隨機(jī)采樣一致性算法(random sample consensus,RANSAC)[11]來(lái)消除特征誤匹配所帶來(lái)的誤差。初始化成功后,跟蹤線程開(kāi)始跟蹤當(dāng)前地圖并實(shí)時(shí)進(jìn)行局部的建圖模塊。最后,跟蹤線程可以實(shí)時(shí)決定當(dāng)前幀是否可以成為關(guān)鍵幀。

      局部建圖線程。該線程會(huì)實(shí)現(xiàn)局部的地圖構(gòu)建。首先,局部建圖會(huì)插入一個(gè)關(guān)鍵幀,更新相關(guān)圖,然后,該線程會(huì)結(jié)合相近的關(guān)鍵幀生成的點(diǎn)進(jìn)行驗(yàn)證,并進(jìn)行篩選,去除不合格的地圖點(diǎn),接著產(chǎn)生新的地圖點(diǎn),使用局部BA優(yōu)化,最后再對(duì)插入的關(guān)鍵幀進(jìn)行篩選,去除多余的關(guān)鍵幀。

      回環(huán)檢測(cè)。這一部分主要分為兩個(gè)過(guò)程,分別是閉環(huán)探測(cè)和閉環(huán)校正:閉環(huán)檢測(cè)首先會(huì)檢測(cè)其他幀的相關(guān)性,如果檢測(cè)到相似性得分較高,就通過(guò)Sim3算法計(jì)算相似變換;閉環(huán)校正主要是將兩段不連貫的地圖融合在一起,同時(shí),再進(jìn)行整個(gè)地圖的優(yōu)化,沿著圖形分布循環(huán)消除誤差,以校正尺度漂移。

      4 實(shí)驗(yàn)結(jié)果與分析

      實(shí)驗(yàn)基礎(chǔ)環(huán)境:本文實(shí)驗(yàn)的計(jì)算機(jī)基本硬件參數(shù)為AMD Ryzen7 3700X 8-Core Processor 3.60 GHz CPU,NVIDIA GeForce RTX 2080Ti 11 GB顯 卡,16 GB內(nèi)存。實(shí)驗(yàn)的計(jì)算機(jī)為Win10系統(tǒng)環(huán)境?;谠撓到y(tǒng)裝有Anaconda、CUDA 11.1、Pytorch 1.7.1等深度學(xué)習(xí)類軟件;基于此裝有VMWare16虛擬機(jī),并安裝了Ubuntu16.04系統(tǒng),在此基礎(chǔ)上裝有SLAM算法及測(cè)試相關(guān)軟件。

      4.1 深度預(yù)測(cè)實(shí)驗(yàn)

      使用由各種室內(nèi)場(chǎng)景組成的NYUDepthV2數(shù)據(jù)集。NYU-Depth V2數(shù)據(jù)集是由具有RGB和Depth拍攝功能的Microsoft Kinect攝像機(jī)記錄的各種室內(nèi)場(chǎng)景的視頻序列組成。NYU-Depth V2數(shù)據(jù)集總共有51 342對(duì)(共4 GB左右)的數(shù)據(jù)集組成,該數(shù)據(jù)集由284個(gè)不同場(chǎng)景組成。NYU-Depth V2數(shù)據(jù)集的RGB圖與Depth圖大小均為640×480,所帶有的RGB圖與Depth圖是相互對(duì)齊的,每一幅RGB圖可以對(duì)應(yīng)一幅深度圖。在以前的研究[5,13,22]中,NYU-Depth V2數(shù)據(jù)集是最廣泛地用于單視角深度預(yù)測(cè)任務(wù)。

      深度實(shí)驗(yàn)軟件環(huán)境為Pytorch網(wǎng)絡(luò)架構(gòu)。采用ResNet-50作為基礎(chǔ)網(wǎng)絡(luò),并在ILSVRC[23]上通過(guò)與訓(xùn)練模型進(jìn)行初始化,ResNet原有的輸出的分類成被移除。選擇20個(gè)epoch訓(xùn)練本文的模型,并將batchsize設(shè)置為8。Adam優(yōu)化器采用參數(shù)(β1,β2)=(0.9,0.999)。權(quán)重衰減(weight decay)為1×10-4。初始學(xué)習(xí)率(learn‐ing rate)設(shè) 為0.000 05,每5個(gè)epoch降 低 為 原 來(lái) 的10%。

      繼之前的工作[6-7]之后,考慮654對(duì)RGB-D圖像集進(jìn)行測(cè)試,5萬(wàn)對(duì)圖像集進(jìn)行訓(xùn)練。以與文獻(xiàn)[6,10]相同的方式對(duì)訓(xùn)練圖像進(jìn)行數(shù)據(jù)增強(qiáng)。為了訓(xùn)練模型,使用雙線性插值將所有圖像和標(biāo)簽從原始尺寸640×480下采樣到320×240像素,然后從中心部分裁剪到304×228像素。為了與網(wǎng)絡(luò)輸出保持一致,裁剪后的標(biāo)簽被下采樣到152×114像素。此外,在測(cè)試過(guò)程中,網(wǎng)絡(luò)的輸出被上采樣到304×228像素以評(píng)估模型。

      NYUD v2數(shù)據(jù)集包括由微軟Kinect攝像頭捕獲的12萬(wàn)對(duì)RGB和深度圖,并被分成訓(xùn)練集(249個(gè)場(chǎng)景)和測(cè)試集(215個(gè)場(chǎng)景)。該數(shù)據(jù)集中的圖像分辨率為640×480。

      在本文的實(shí)驗(yàn)環(huán)境中,多次運(yùn)行了原BS-Net[10]網(wǎng)絡(luò),其網(wǎng)絡(luò)參數(shù)與文獻(xiàn)[10]中一致。同時(shí),也運(yùn)行了本文提出的SS-Net,實(shí)驗(yàn)結(jié)果如表1。

      表1中前三個(gè)參數(shù)越高表示網(wǎng)絡(luò)的準(zhǔn)確度越高,表格中后三個(gè)參數(shù)越低表示網(wǎng)絡(luò)性能越好。由表1可得,網(wǎng)絡(luò)在Delta=1.25,1.252時(shí)表現(xiàn)略好于BS-Net,同時(shí)在參數(shù)REL表現(xiàn)略好于原網(wǎng)絡(luò)BS-Net。受限于硬件的性能,訓(xùn)練的batchsize最大只能為4,BS-Net提升不大,但整體來(lái)看,網(wǎng)絡(luò)性能仍略好于BS-Net。

      表1 本文實(shí)驗(yàn)環(huán)境下BS-Net與SS-Net實(shí)驗(yàn)結(jié)果Table 1 Experimental results of BS-Net and SS-Net in this article environment

      同時(shí),本文對(duì)該數(shù)據(jù)集進(jìn)行了定量和定性分析,并與幾種先進(jìn)的方法進(jìn)行了比較,如表2。表2中前三個(gè)參數(shù)越大證明網(wǎng)絡(luò)性能越好,后三個(gè)參數(shù)越大表面網(wǎng)絡(luò)誤差越小,性能越好。由表2可得,比較多個(gè)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果顯示,相對(duì)于Resnet50這類淺層網(wǎng)絡(luò),更深層的網(wǎng)絡(luò)往往有更好的表現(xiàn),類似ResNet-101、SENet-154等網(wǎng)絡(luò)。但更深層的網(wǎng)絡(luò)結(jié)構(gòu)所帶有的參數(shù)更多,網(wǎng)絡(luò)訓(xùn)練量更大,對(duì)硬件的要求高。本文因?yàn)橛布南拗疲x擇了網(wǎng)絡(luò)結(jié)構(gòu)較小的框架。

      表2 各網(wǎng)絡(luò)在NYUD v2圖像集測(cè)試結(jié)果Table 2 Depth accuracy and error of different methods on NYUD v2 dataset

      SS-Net獲得的實(shí)驗(yàn)結(jié)果,比其中一些方法[5,22,27-29]有更好的精度,因?yàn)樗岢龅木W(wǎng)絡(luò)將DCE等模塊的輸出與各種核大小和擴(kuò)展速率相結(jié)合,這有效地保留了全局深度布局的上下文信息。本文網(wǎng)絡(luò)也并沒(méi)有達(dá)到足夠好,這受限于所用的硬件顯卡設(shè)備,訓(xùn)練的batchsize為4。因此,盡量用較小的batchsize去擬合網(wǎng)絡(luò)。同樣,相比于在本文環(huán)境下的實(shí)驗(yàn)結(jié)果,BS-Net在文獻(xiàn)[10]中表現(xiàn)更好,因?yàn)槠溆?xùn)練環(huán)境的硬件設(shè)備更好,因此設(shè)計(jì)了表1的實(shí)驗(yàn)來(lái)證明本文網(wǎng)絡(luò)效果是更好的。

      SS-Net網(wǎng)絡(luò)接近400層,整體參數(shù)較大,因此需要較高的存儲(chǔ)與運(yùn)行硬件實(shí)現(xiàn),不利于一般設(shè)備的應(yīng)用。但網(wǎng)絡(luò)整體的實(shí)時(shí)性較高,SS-Net平均處理單張圖片的時(shí)間為0.026 s,SLAM圖片幀速率為25~30 frame/s,可以滿足實(shí)時(shí)性的要求。

      SS-Net網(wǎng)絡(luò)能夠考慮不同區(qū)域的相關(guān)性,并具有準(zhǔn)確的不同區(qū)域深度預(yù)測(cè)能力。具體分析,對(duì)于大的、完整的物體,網(wǎng)絡(luò)預(yù)測(cè)效果更好。圖12(a)、12(b)中床和墻分別作為兩個(gè)完整的物體估計(jì)深度,較小的物體(如:墻上的畫(huà)、書(shū)架的書(shū))能夠作為完整的物體一部分預(yù)測(cè)其深度。網(wǎng)絡(luò)可以預(yù)測(cè)墻與床之間的相對(duì)深度關(guān)系,床相對(duì)在前,而墻在后。圖12(c)中走廊的效果也極佳,網(wǎng)絡(luò)預(yù)測(cè)了左前方的柜子在更近的位置,走廊的盡頭是更遠(yuǎn)的位置。這展示了本文網(wǎng)絡(luò)深度預(yù)測(cè)的準(zhǔn)確性。

      圖12 不同區(qū)域的深度預(yù)測(cè)效果Fig.12 Depth estimation results in different regions

      SS-Net網(wǎng)絡(luò)對(duì)于存在較多物體,背景復(fù)雜的場(chǎng)景,也有較準(zhǔn)確的相對(duì)深度預(yù)測(cè)能力。圖13中背景是一排書(shū)架,書(shū)架中有數(shù)量非常多的書(shū)籍,網(wǎng)絡(luò)能夠?qū)⒍啾緯?shū)籍與書(shū)架作為同一深度的整體來(lái)預(yù)測(cè)深度。

      圖13 背景復(fù)雜的深度預(yù)測(cè)效果Fig.13 Depth estimation results in messy background

      SS-Net網(wǎng)絡(luò)可以準(zhǔn)確邊緣預(yù)測(cè)。具體的對(duì)較大、完整、與周圍色差大的物體,網(wǎng)絡(luò)效果更好。圖14的深度預(yù)測(cè)圖中的座椅邊緣非常準(zhǔn)確。而深度真值圖中,桌子與座椅的邊緣有非常多的噪點(diǎn),與原圖中差距較大。SS-Net所預(yù)測(cè)的深度圖,桌子與座椅的邊緣沒(méi)有噪點(diǎn),整個(gè)圖片邊緣非常干凈。

      圖14 邊緣預(yù)測(cè)效果Fig.14 Edge estimation results

      本網(wǎng)絡(luò)在嵌入整體的物體識(shí)別會(huì)存在一定問(wèn)題,網(wǎng)絡(luò)對(duì)過(guò)小物體也會(huì)存在問(wèn)題。如圖15(a)、(b)所示,墻面左側(cè)分別有一幅較大的白板與海報(bào),在真實(shí)的深度圖15(a)、(b)中,墻面是一個(gè)完整的物體,深度是一個(gè)漸變過(guò)程。本文預(yù)測(cè)的圖片,白板與海報(bào)作為一個(gè)單獨(dú)物體去估計(jì)深度,整個(gè)圖像的估計(jì)出現(xiàn)較大誤差。實(shí)際上,海報(bào)與白板應(yīng)該與墻面作為同一深度的物體進(jìn)行預(yù)測(cè)。同樣,圖15(b)中桌上的小物體會(huì)被作為桌子的一個(gè)整體預(yù)測(cè)深度,較小的物體難以在細(xì)節(jié)上描述清楚。

      圖15 嵌入物體和較小物體圖片預(yù)測(cè)效果Fig.15 Estimation results in embedded objects and small objects image

      SS-Net對(duì)在嵌入整體的物體(或背景)識(shí)別會(huì)存在一定問(wèn)題,使用時(shí)應(yīng)盡量減少這類數(shù)據(jù)集的使用。數(shù)據(jù)集中存在多個(gè)小物體時(shí),本網(wǎng)絡(luò)預(yù)測(cè)結(jié)果不夠理想。這類數(shù)據(jù)集不建議使用,特別在實(shí)際應(yīng)用中,小物體起到關(guān)鍵作用。

      SS-Net在Encoder模塊下采樣的過(guò)程,會(huì)把分辨率較高的圖像壓縮為29×38大小的分辨率,即使SS-Net使用了BUBF保存圖像細(xì)節(jié)特征,但在不同深度逐漸提取特征的過(guò)程中,原始圖像的細(xì)節(jié)仍會(huì)丟失,或者與周圍其他物體融合。這些導(dǎo)致了在上采樣過(guò)程中無(wú)法找到細(xì)節(jié)的源頭,從而生成多個(gè)較小物體的整體。解決這類問(wèn)題,可以考慮兩類方法:減小下采樣過(guò)程,壓縮Encoder-Decoder的過(guò)程,不過(guò),這樣可能對(duì)不同區(qū)域深度的相關(guān)性有影響;或者改變Encoder輸出,使其生成為較大分辨率圖像,不過(guò),這會(huì)帶來(lái)更多的網(wǎng)絡(luò)參數(shù),對(duì)硬件提出了更高的要求。

      深度預(yù)測(cè)網(wǎng)絡(luò)的精確度是服務(wù)于定位實(shí)驗(yàn),為驗(yàn)證能否更好提升SLAM定位精度,進(jìn)行了下一個(gè)實(shí)驗(yàn)。

      4.2 定位精度實(shí)驗(yàn)

      本文測(cè)試基于深度估計(jì)網(wǎng)絡(luò)SS-Net的SLAM系統(tǒng)(以下簡(jiǎn)稱本文系統(tǒng))定位精度。使用VMWare16中的Ubuntu16虛擬機(jī)作為實(shí)驗(yàn)的環(huán)境,在虛擬機(jī)環(huán)境中搭建了ORB-SLAM中的環(huán)境,同時(shí)在虛擬機(jī)環(huán)境中安裝了定位精度測(cè)試軟件EVO。

      在使用NYU Depth V2數(shù)據(jù)集測(cè)試網(wǎng)絡(luò)后,本文使用了不同的數(shù)據(jù)集——TUM數(shù)據(jù)集。TUM數(shù)據(jù)集采集于不同的室內(nèi)場(chǎng)景,TUM數(shù)據(jù)集有RGB圖像數(shù)據(jù)與深度圖像數(shù)據(jù),可以給網(wǎng)絡(luò)提供穩(wěn)定的可靠的深度圖訓(xùn)練。TUM大多用于SLAM系統(tǒng)的數(shù)據(jù)輸入,定位精度的測(cè)試等,為提供訓(xùn)練的比較,TUM數(shù)據(jù)集提供了每一份數(shù)據(jù)集的定位真值(Groundtruth),可以為不同SLAM算法提供定位效果的參考。使用搭建好的虛擬機(jī)中EVO工具RPE進(jìn)行相對(duì)姿位評(píng)估,可以給出局部精度,例如SLAM系統(tǒng)誤差。

      假定第i時(shí)刻,坐標(biāo)的真值為xi(即Groundtruth中的值),通過(guò)SLAM系統(tǒng)計(jì)算出來(lái)的坐標(biāo)值為xi,此時(shí)的誤差為ei,所有時(shí)刻的平均誤差為在該實(shí)驗(yàn)中,定位測(cè)試的參數(shù)有平均值誤差(mean error,MEAN)、中值誤差(median error,MEDIAN)、最 大 值 誤 差(max error,MAX)、最小誤差(min error,MIN)、均方根誤差(RMSE)、和方差(sum of squares due to error,SSE)、標(biāo)準(zhǔn)差(standard deviation,STD),其計(jì)算方法為:

      本文首先使用單目ORB-SLAM系統(tǒng)去實(shí)現(xiàn)定位,將其記錄的定位結(jié)果與真值進(jìn)行計(jì)算,其結(jié)果記錄在下表中。其次,使用本文系統(tǒng)去實(shí)現(xiàn)定位,將其記錄的定位結(jié)果與真值進(jìn)行計(jì)算,其結(jié)果同樣記錄在表3中。綜合以上的測(cè)試指標(biāo),實(shí)施了實(shí)驗(yàn),從上面的指標(biāo)中,獲得實(shí)驗(yàn)結(jié)果,如表3所示。

      本節(jié)所提供的指標(biāo)均越小越好,由表3可以看出,本文方法的表現(xiàn)極好。本文系統(tǒng)的實(shí)驗(yàn)各項(xiàng)參數(shù),最小誤差提升了很大,即部分SLAM定位位置預(yù)測(cè)準(zhǔn)確;最大誤差減少了95%,平均誤差與中值誤差縮小了99%。同時(shí),RMSE縮小了98.6%,SSE縮小了99.9%,STD縮小了97.7%。本文各項(xiàng)指標(biāo)驗(yàn)證本文算法具有較高的精度和較好的穩(wěn)定性。

      表3 ORB-SLAM與本文系統(tǒng)性能對(duì)比Table 3 Performance comparison between proposed system and ORB-SLAM

      圖16展示了EVO評(píng)估工具對(duì)ORB-SLAM、本文系統(tǒng)的軌跡估計(jì)圖,同時(shí)圖中放入軌跡真值作為參考。本文系統(tǒng)與ORB-SLAM系統(tǒng)都能形成較為完整的閉環(huán)軌跡,兩個(gè)系統(tǒng)在直線運(yùn)動(dòng)中與真值有較高的擬合度,但本文系統(tǒng)相比較于ORB-SLAM系統(tǒng)擬合效果更好,本文系統(tǒng)具有高的準(zhǔn)確性。

      圖16 ORB-SLAM、本文系統(tǒng)與真值軌跡Fig.16 ORB-SLAM,proposed system and groundtruth trajectory

      圖17 展示了單位時(shí)間兩系統(tǒng)的誤差情況。圖17(a)中展示了ORB-SLAM系統(tǒng)的誤差,其單位時(shí)間誤差上下浮動(dòng)較大,同時(shí),整個(gè)相機(jī)軌跡的偏移量與真值相比較大,偏差的最大值超過(guò)了0.02;圖17(b)中展示了本文系統(tǒng)的誤差,本文系統(tǒng)有較大的誤差存在,但系統(tǒng)的誤差整體偏差較小,整個(gè)系統(tǒng)的誤差幾乎都維持在一個(gè)較低水平,這同樣證明本文系統(tǒng)的定位更加精確。

      圖17 單位時(shí)間兩個(gè)系統(tǒng)的誤差Fig.17 Error of two systems at different times

      5 總結(jié)

      本文提出了基于深度估計(jì)網(wǎng)絡(luò)SS-Net的SLAM系統(tǒng)。其主要是基于傳統(tǒng)ORB-SLAM的系統(tǒng)、融合SSNet網(wǎng)絡(luò)框架的系統(tǒng)?;诒疚奶岢龅挠糜谏疃裙烙?jì)的SS-Net,它考慮了不同區(qū)域的深度關(guān)系和邊界在深度預(yù)測(cè)中的重要作用。為了更好地估計(jì)深度,在傳統(tǒng)Encoder-Decoder和BUBF的網(wǎng)絡(luò)結(jié)構(gòu)中,引入了DCE模塊,并提出了ED模塊,改進(jìn)了SR模塊,這些模塊能夠考慮不同區(qū)域之間的深度相關(guān)性,提取重要的邊緣,并融合不同層次下面的網(wǎng)絡(luò)特征。在NYUD v2數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,受限于硬件原因,本文的方法并不是最優(yōu)秀的,但該方法仍實(shí)現(xiàn)了較好的預(yù)測(cè)性。最后,將TUM數(shù)據(jù)集應(yīng)用在SLAM系統(tǒng),結(jié)果表明采用SLAM系統(tǒng)可以極大改善ORB-SLAM的定位精度。

      猜你喜歡
      深度圖算子卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      擬微分算子在Hp(ω)上的有界性
      各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應(yīng)用
      基于深度圖的3D-HEVC魯棒視頻水印算法
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      一類Markov模算子半群與相應(yīng)的算子值Dirichlet型刻畫(huà)
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      Roper-Suffridge延拓算子與Loewner鏈
      一種基于局部直方圖匹配的深度編碼濾波算法
      疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
      科技視界(2016年2期)2016-03-30 11:17:03
      曲阳县| 揭阳市| 新安县| 永和县| 镇康县| 太原市| 佛山市| 青铜峡市| 富锦市| 新巴尔虎右旗| 察隅县| 奉化市| 洪泽县| 嘉定区| 突泉县| 沁阳市| 杂多县| 台安县| 大田县| 灌南县| 绥阳县| 沁水县| 龙井市| 远安县| 惠水县| 西安市| 崇信县| 隆尧县| 娱乐| 印江| 镇坪县| 镇远县| 神农架林区| 隆回县| 汤阴县| 吉林省| 特克斯县| 聊城市| 新民市| 襄垣县| 宜宾市|