• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種用于深度補(bǔ)全的雙分支引導(dǎo)網(wǎng)絡(luò)

      2023-11-15 18:27:58秦曉飛胡文凱班東賢郭宏宇于景
      光學(xué)儀器 2023年5期
      關(guān)鍵詞:注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)

      秦曉飛 胡文凱 班東賢 郭宏宇 于景

      摘要:深度信息在機(jī)器人、自動(dòng)駕駛等領(lǐng)域中有著重要作用,通過深度傳感器獲取的深度圖較為稀疏,研究人員為了補(bǔ)全缺失的深度信息提出了大量方法。但現(xiàn)有方法大多是針對不透明對象,基于卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表征能力,設(shè)計(jì)了一個(gè)雙分支引導(dǎo)的編解碼結(jié)構(gòu)網(wǎng)絡(luò)模型,通過針對透明物體的以掩碼圖為引導(dǎo)的編碼分支,提升網(wǎng)絡(luò)對透明物體特征信息的提取能力,并且使用譜殘差塊連接編解碼部分,提高了網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性及獲取物體結(jié)構(gòu)信息的能力,除此之外,還加入了注意力機(jī)制以提升網(wǎng)絡(luò)空間和語義信息的特征建模能力。該網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上都達(dá)到了領(lǐng)先的效果。

      關(guān)鍵詞:深度補(bǔ)全;多數(shù)據(jù)引導(dǎo);卷積神經(jīng)網(wǎng)絡(luò);譜殘差塊;注意力機(jī)制

      中圖分類號: TP 391.4 文獻(xiàn)標(biāo)志碼: A

      A dual-branch guided network for depth completion

      QIN Xiaofei,HU Wenkai,BAN Dongxian ,GUO Hongyu,YU Jing

      (School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

      Abstract: Depth information plays an important role in the fields of robotics and autonomous driving. The depth map obtained by the depth sensor is relatively sparse. Researchers have proposed a large number of methods to complement the missing depth values. However, most of the existing methods aim at opaque objects. Based on the powerful representation ability of convolution neural network, this paper designed a dual-branch-guided encoder-decoder structure network. Through mask-guided branch for transparent objects, it improves the ability of the network to extract feature information of transparent objects. And spectral residual blocks improves the stability of network in training process and the ability to obtain object structure information. In addition, attention mechanism is added to improve the feature modeling ability of network space and semantic information. The network achieves state-of-the-art results on all two datasets.

      Keywords: depth completion ; multiple data guidance ; convolution neural network ; spectral residual block ;attention mechanism

      引 言

      深度信息在計(jì)算機(jī)視覺領(lǐng)域有著廣泛的應(yīng)用,例如場景理解、自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、移動(dòng)機(jī)器人等[1-5]。這些應(yīng)用依賴于對物體準(zhǔn)確的深度預(yù)測,例如機(jī)器人抓取要求視覺傳感器獲取到物體準(zhǔn)確的深度信息,從而計(jì)算出物體相對于機(jī)械夾爪的位置,進(jìn)而實(shí)施抓取。深度圖是通過深度傳感器來獲得的,如激光雷達(dá)等傳感器,但是由于物體表面反光,或者光發(fā)生折射、透射,會(huì)使得深度信息缺失,特別是對于透明物體?,F(xiàn)代工業(yè)中有很多透明的材料,所以機(jī)器人抓取存在需要處理透明物體的場景,但是目前的方法大多比較依賴深度傳感器獲取的深度信息,因此很少能直接應(yīng)用于有透明物體的場景。透明物體的物理特性會(huì)導(dǎo)致光路因反射和折射而失真,從而產(chǎn)生有噪聲的深度圖,因此,許多基于深度信息的算法無法處理日常生活中隨處可見的透明物體,如塑料瓶、玻璃容器等。

      深度圖是一種表達(dá)三維場景信息的表現(xiàn)形式,在三維圖形中,深度圖在視覺上體現(xiàn)為灰度圖。在不考慮硬件、環(huán)境等外在因素的影響下,深度圖中的每個(gè)像素值代表了傳感器到場景中各點(diǎn)距離的等比例放縮,所以它可以直接反映物體朝向傳感器面的幾何形狀。對于 RGB-D 相機(jī)而言,一般情況下, RGB 圖像和深度圖像是被校準(zhǔn)的,所以彩色通道和深度通道的像素點(diǎn)是一一對應(yīng)的。

      深度補(bǔ)全是一種將稀疏的深度圖中的深度值空洞補(bǔ)全的技術(shù)。早期對于深度圖的補(bǔ)全,有基于傳統(tǒng)的圖像濾波器,例如, Chen 等[6]提出使用自適應(yīng)雙邊濾波器來補(bǔ)全 Kinect 相機(jī)拍攝的稀疏的深度圖,消除不匹配的邊界區(qū)域。 Liu 等[7]提出的三邊濾波器,可以在保留深度圖像邊緣的同時(shí)抑制其他模態(tài)數(shù)據(jù)引導(dǎo)信息中的偽影。 Alhwarin 等[8]利用不同立體相機(jī)獲取的視圖差與 RGB-D 相機(jī)獲取的深度圖相融合,來填充深度圖中由對象的透明或反射光干擾造成的深度缺失區(qū)域。 Chiu 等[9]提出了一種通過加權(quán)通道的早期融合與晚期融合的方案,對稀疏的深度圖進(jìn)行補(bǔ)全。 Chen 等[10]利用 RGB-D 相機(jī)獲取到的圖像的上下文語義信息為約束,補(bǔ)全稀疏的深度圖。

      隨著深度學(xué)習(xí)技術(shù)的發(fā)展,并且得益于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network , CNN)的表征能力,近些年來提出了大多基于 CNN 的深度補(bǔ)全算法。就輸入數(shù)據(jù)模態(tài)而言,深度補(bǔ)全網(wǎng)絡(luò)分為兩大類:單模態(tài)數(shù)據(jù)的深度補(bǔ)全網(wǎng)絡(luò),即僅有稀疏的深度圖作為網(wǎng)絡(luò)的輸入;多模態(tài)數(shù)據(jù)的深度補(bǔ)全網(wǎng)絡(luò),即除深度圖外,還有其他模態(tài)的數(shù)據(jù)作為引導(dǎo)。對于多模態(tài)數(shù)據(jù)的算法,例如使用相同場景下彩色相機(jī)獲取的高質(zhì)量彩色圖像和深度相機(jī)獲取的稀疏深度圖作為網(wǎng)絡(luò)的輸入。Zhang 等[11]使用 VGG-16為 backbone 的編解碼網(wǎng)絡(luò),通過建立物體表面法向量和深度信息之間的聯(lián)系,從而使用彩色圖像的表面法向量來補(bǔ)全稀疏的深度圖。 Qiu 等[12]也將類似的表面法線作為引導(dǎo)信息擴(kuò)展到室外環(huán)境,從 LiDAR傳感器獲取的稀疏深度圖中補(bǔ)全缺失的深度值。上述兩種方法,都是將物體表面的法向量與稀疏深度圖信息進(jìn)行融合,從而利用了物體表面法線作為另一種引導(dǎo)信息來補(bǔ)全稀疏的深度圖。Ma 等[13]提出了一種自監(jiān)督的網(wǎng)絡(luò),通過彩色圖像及深度圖的視頻幀之間的一致性,來建立從稀疏深度圖到密集深度圖之間的映射關(guān)系。 Eldesokey等[14]提出了一種新的標(biāo)準(zhǔn)在 CNN 層之間傳播置信度,并與 RGB 信息相結(jié)合補(bǔ)全稀疏深度圖。Cheng 等[15]使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)像素之間的親和力,協(xié)助補(bǔ)全缺失的深度值。 Huang 等[16]使用一種自注意力機(jī)制和邊界一致性的端到端網(wǎng)絡(luò)進(jìn)行深度圖補(bǔ)全。

      但是,大多數(shù)的深度補(bǔ)全的方法都是針對室內(nèi)的家具以及室外的街景,忽略了日常生活常見及現(xiàn)代工業(yè)中的透明物體。對于標(biāo)準(zhǔn)的3D 傳感器,如何掃描透明物體是個(gè)難題,傳統(tǒng)的雙目、結(jié)構(gòu)光或 ToF RGB-D 鏡頭對透明物體難以產(chǎn)生準(zhǔn)確的深度估計(jì),在大多數(shù)情況下,透明物體會(huì)顯示為一堆無效的噪點(diǎn)或失真的近似平面。原因是傳統(tǒng)的3D 傳感器算法是假設(shè)物體的表面符合完全漫反射,即所有方向上的光都是均勻的,但是對于透明物體來說,該假設(shè)是不成立的。Sajjan 等[17]為了將深度補(bǔ)全方法適用于透明物體,提出了 ClearGrasp,該方法預(yù)測物體表面法線,透明物體的掩膜和遮擋邊界,并使用這些輸出優(yōu)化和完善透明表面的稀疏深度圖。Zhu 等[18]提出了一種兩階段方法,其中包含學(xué)習(xí)局部隱式深度函數(shù)(LIDF)的網(wǎng)絡(luò)和自校正完善模型,用來針對透明物體的深度補(bǔ)全。

      由于僅使用彩色圖引導(dǎo)的深度補(bǔ)全方法容易受到圖像中物體的陰影和表面的反射影響,受 PENet[19]啟發(fā),本文采用一種雙分支輸入的編解碼結(jié)構(gòu)網(wǎng)絡(luò),其中一個(gè)分支旨在提取以彩色圖為主導(dǎo)的特征信息,另一個(gè)分支用于提升網(wǎng)絡(luò)對透明物體特征信息的提取能力,加入了透明物體的掩膜圖作為另一種引導(dǎo)信息,將多尺度兩種模態(tài)特征信息進(jìn)行融合,從而補(bǔ)全稀疏的深度圖。受 DepthGrasp[20]啟發(fā),本文使用譜殘差塊堆疊形成的模塊來連接編碼和解碼模塊,并且在網(wǎng)絡(luò)中加入一種注意力機(jī)制,從而提高網(wǎng)絡(luò)對空間和語義信息的特征提取能力。

      本文的貢獻(xiàn)主要體現(xiàn)在兩個(gè)方面:首先是設(shè)計(jì)了一種雙分支輸入引導(dǎo)的編解碼結(jié)構(gòu)的深度補(bǔ)全網(wǎng)絡(luò),其中包括利用透明對象的掩膜圖為引導(dǎo)的輸入提升網(wǎng)絡(luò)對透明物體特征信息提取能力和不同模態(tài)數(shù)據(jù)特征顯著性的方法;除此以外,本文還提出了將注意力機(jī)制用于提升網(wǎng)絡(luò)對數(shù)據(jù)空間信息和語義信息的建模能力。

      1 網(wǎng)絡(luò)結(jié)構(gòu)和原理

      本文設(shè)計(jì)了一個(gè) Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡(luò),該網(wǎng)絡(luò)使用不同模態(tài)數(shù)據(jù)引導(dǎo)從而補(bǔ)全稀疏的深度圖。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,整體結(jié)構(gòu)包括編碼器部分、解碼器部分,以及使用譜殘差塊(spectral residual block, SRB)進(jìn)行兩部分的連接,同時(shí)還加入了注意力機(jī)制以提高特征表達(dá)能力。對于編碼器部分,包括兩個(gè)分支分別提取以不同數(shù)據(jù)模態(tài)為引導(dǎo)的特征信息,其中一個(gè)分支以彩色圖作為主導(dǎo),用于提取主要依賴于 RGB信息的深度特征圖,另一個(gè)分支主要以掩碼圖作為主導(dǎo),用于提取針對透明物體的深度特征圖,并且可以提供更可靠的物體邊界。對于譜歸一化殘差塊部分,包含提高網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性的譜歸一化操作,以及用于獲取物體結(jié)構(gòu)信息和區(qū)分物體幾何形狀的殘差塊。輸入解碼器部分的特征是經(jīng)過注意力模塊后的融合特征。

      1.1 編碼器模塊

      對于編碼器部分,兩分支輸入的目的是從各自的分支中徹底利用彩色圖和掩碼圖為主的信息,并且使得兩種模態(tài)的特征信息能夠有效的融合。

      以彩色圖為主導(dǎo)的分支主要目的在于從RGB 圖像中提取物體結(jié)構(gòu)及幾何形狀的特征信息,從而有助于預(yù)測密集深度圖。為了更加有效且準(zhǔn)確地進(jìn)行稀疏深度圖的補(bǔ)全,本文將對齊的稀疏深度圖與彩色圖合并輸入到彩色圖為主導(dǎo)的分支中,以幫助對齊的稀疏深度圖進(jìn)行深度預(yù)測。在兩分支中,解碼器具有3個(gè)2D 卷積塊,每個(gè)卷積塊中包含有卷積層、批歸一化層(BN)和一個(gè) ReLU 激活層。并且輸入圖像或特征圖每經(jīng)過1個(gè)卷積塊,分辨率大小降為原來的1/4。針對彩色圖引導(dǎo)分支,由于輸入的是 RGB-D 數(shù)據(jù),故編碼器模塊的第1個(gè)卷積層輸入 channel 數(shù)為4通道,64個(gè)卷積核,卷積核大小(kernel size)為3,步長(stride)為2,padding 為1。針對掩膜圖引導(dǎo)分支,由于輸入是二值掩膜圖和灰度圖,所以編碼器模塊的第一個(gè)卷積層輸入 channel 數(shù)為2通道,其余參數(shù)都一致。在進(jìn)入連接模塊前,兩個(gè)分支輸出的通道數(shù)一致,經(jīng)過逐元素相加后將兩分支的特征信息進(jìn)行融合。

      雖然顏色圖和稀疏的深度圖都用作輸入,但是該分支提取了深度預(yù)測的顏色優(yōu)勢特征信息,從而可以便于利用顏色圖像中的對象結(jié)構(gòu)信息來學(xué)習(xí)物體邊界周圍的深度信息。以掩碼圖為主導(dǎo)的分支目的有兩個(gè):首先為了使得網(wǎng)絡(luò)能夠?qū)τ谕该魑矬w的深度補(bǔ)全效果更好,本文加入了針對透明物體的掩碼圖,以此讓解碼器可以更加關(guān)注透明物體的特征信息;除此之外,加入掩碼圖主導(dǎo)的分支可以幫助更好的學(xué)習(xí)場景中的語義線索,有助于預(yù)測具有可靠性邊界物體的深度信息,從而減少稀疏深度圖中出現(xiàn)的偽影。

      1.2 編解碼連接模塊

      本文使用譜殘差塊堆疊形成的模塊連接編碼器與解碼器部分,譜殘差塊的作用是有效地捕捉物體結(jié)構(gòu)信息及區(qū)分幾何形狀,模塊中的譜歸一化操作可以提高網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。

      在網(wǎng)絡(luò)的訓(xùn)練過程中,由于兩個(gè)分支提取的不同模態(tài)數(shù)據(jù)的特征信息,數(shù)據(jù)分布的密度在高維空間中不夠準(zhǔn)確,所以網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)分布的多模數(shù)據(jù)結(jié)構(gòu)的能力比較弱,從而導(dǎo)致訓(xùn)練的不穩(wěn)定性。因此,本文引入譜歸一化的方法以穩(wěn)定網(wǎng)絡(luò)的訓(xùn)練。此外, SRB 模塊中的殘差塊有助于特征圖的傳遞,從而利于網(wǎng)絡(luò)獲取物體的結(jié)構(gòu)信息以及區(qū)分物體的幾何形狀;也有助于阻止網(wǎng)絡(luò)梯度消失的情況,從而利于網(wǎng)絡(luò)的訓(xùn)練。如圖2所示,本文設(shè)計(jì)的 SRB 模塊,包含了卷積塊,譜歸一化操作[21]以及 LeakyReLU 激活函數(shù)。其中使用譜歸一化操作代替批歸一化操作的原因是,批歸一化操作需要通過兩次輸入數(shù)據(jù)來計(jì)算最小批次的統(tǒng)計(jì)值,然后再將輸出標(biāo)準(zhǔn)化,因此對于大型網(wǎng)絡(luò)來說,可能會(huì)消耗超過1/4的總訓(xùn)練時(shí)長。但對于譜歸一化而言,不需要額外訓(xùn)練參數(shù),并且在實(shí)際操作中不受內(nèi)存帶寬的限制。輸入 SRB 模塊的特征是來自兩個(gè)分支融合后的特征圖,給定特征圖 M,SRB 模塊的輸出特征圖定義為

      S out = M SN(C(LeakyReLU(C(M)))) (1)式中: C 表示2D卷積塊; SN 表示譜歸一化操作;LeakyReLU 是一種激活函數(shù),與 ReLU 激活函數(shù)的區(qū)別在于 ReLU 輸入小于0的部分值都為0,而 LeakyReLU 輸入小于0的部分,值為負(fù),且有微小的梯度;⊕表示逐元素相加操作。

      1.3 注意力模塊和解碼器模塊

      注意力機(jī)制一經(jīng)提出后,在各種應(yīng)用場景得到了廣泛的應(yīng)用,近年來也出現(xiàn)了各種不同結(jié)構(gòu)的注意力機(jī)制變體。從本質(zhì)上看,注意力機(jī)制的原理是將特征圖上的特征值看作是所有特征值的加權(quán)和,可以用公式簡單表示為

      式中 Similarity 是一個(gè)計(jì)算相似度權(quán)重的函數(shù),是通過網(wǎng)絡(luò)學(xué)習(xí)得到的。本文設(shè)計(jì)的網(wǎng)絡(luò)中使用到的注意力模塊,是受 CBAM[22]的啟發(fā),并且針對當(dāng)前的任務(wù)做了相應(yīng)的改進(jìn)。首先如果將CBAM 直接遷移到當(dāng)前任務(wù),可以得到如圖3所示的實(shí)現(xiàn)方法。

      對于原始的注意力模塊,在給定輸入維度為 C×H× W 的特征圖 F 時(shí),該注意力模塊依次得到維度為 C×1×1的通道注意力圖 Mc 和維度為1×H× W 的空間注意力圖 Ms。整體的注意力機(jī)制的運(yùn)行流程可以簡單表示為

      式中:Fim 是經(jīng)過通道注意力模塊后的中間特征圖; Ffo 是最終特征。

      如圖3所示,將編碼器與解碼器中相同分辨率的特征圖按通道進(jìn)行拼接后的的特征圖送入通道注意力模塊,將得到的通道注意力圖與輸入特征圖進(jìn)行逐元素相乘后得到中間特征圖,再將中間特征圖送入空間注意力模塊中,最終再將得到的空間注意力圖與中間特征圖進(jìn)行逐元素相乘后得到最終的特征圖。如圖1所示,再將經(jīng)過 CBAM 后的特征圖輸入到解碼器部分的下一個(gè)反卷積塊中,每個(gè)反卷積塊中包括有2D 反卷積層、批歸一化層(BN)和 ReLU 激活層。對于反卷積層,輸入通道數(shù)與注意力模塊的輸出通道數(shù)對齊,反卷積核數(shù)為64,kernel size 為3,stride 為2,padding 為1,output padding 為1。最終輸出會(huì)經(jīng)過一個(gè)卷積層,輸入通道數(shù)與最后一層反卷積層的輸出通道數(shù)對齊,輸出通道數(shù)為1, kernel size 為2。

      由于在網(wǎng)絡(luò)的淺層,即編碼器部分,特征圖數(shù)據(jù)中包含的空間信息更加豐富,而在網(wǎng)絡(luò)的深層,即解碼器部分,特征圖數(shù)據(jù)中蘊(yùn)含的語義信息更加豐富。因此如圖4所示,本文將空間注意力模塊僅用于處理編碼器部分的輸出特征圖,從而提升網(wǎng)絡(luò)對圖像數(shù)據(jù)中的物體結(jié)構(gòu)細(xì)節(jié)信息的建模能力,而將通道注意力模塊僅用于處理解碼器部分的輸出特征圖,從而提升網(wǎng)絡(luò)對特征中語義信息的建模能力。經(jīng)過實(shí)驗(yàn)對比,圖4所示的處理編解碼輸出特征的方法,能更好地補(bǔ)全稀疏深度圖。

      1.4 損失函數(shù)

      在網(wǎng)絡(luò)訓(xùn)練時(shí),本文采用均方誤差(meansquared error, MSE)計(jì)算損失值,損失函數(shù)定義為

      式中: G 和 P 分別表示基準(zhǔn)深度圖和預(yù)測的深度圖; Qv 表示在基準(zhǔn)深度圖中有效的深度值像素集合; m 表示有效的深度值像素的數(shù)量。

      2 實(shí)驗(yàn)

      2.1 數(shù)據(jù)集及評估標(biāo)準(zhǔn)

      ClearGrasp[17]是一個(gè)包含虛擬合成和真實(shí)透明物體的數(shù)據(jù)集。有9類包含透明物體的合成圖像,有10類包含真實(shí)世界中的透明物體圖像,其中有7類存在透明物體類型的重疊。除了RGB-D 圖像外,數(shù)據(jù)集還提供了透明物體的表面法線圖、分割掩碼圖、遮擋邊界圖。本文使用其中5個(gè)重疊類的圖像作為訓(xùn)練集,使用其中5個(gè)真實(shí)透明物體類的圖像作為測試集。

      TransCG[23]是一個(gè)大規(guī)模的用于透明物體深度補(bǔ)全的真實(shí)物體數(shù)據(jù)集。數(shù)據(jù)集總共包含51類透明對象的57715張 RGB-D 圖像,以及從現(xiàn)實(shí)世界設(shè)置下的130個(gè)場景的不同角度拍攝的許多不透明物體。并且數(shù)據(jù)集還提供了透明對象的3D 網(wǎng)格模型。

      對于本文深度補(bǔ)全任務(wù),采用如文獻(xiàn)[16]、[17]中的一些常用評估指標(biāo),包括 RMSE 、REL、 MAE 及 Threshold δ。各評估指標(biāo)描述如下。

      RMSE 為算法預(yù)測的深度圖與基準(zhǔn)深度圖之間的根均方誤差。公式如下

      式中:G 表示深度圖的基準(zhǔn)值;P 表示經(jīng)過算法補(bǔ)全后的深度圖;p 表示物體的像素; obj 表示圖中物體所在區(qū)域的全部像素。

      REL 為相對誤差。絕對誤差與深度圖的基準(zhǔn)值相比所得。公式為

      MAE 為平均絕對誤差,公式為

      Threshold δ為帶有閾值的精度。δt 表示誤差范圍在 t 以內(nèi)的像素百分比,公式為

      其中,根據(jù)先前的方法[17-18],t 可被設(shè)為1.05,1.10,1.25。

      2.2 實(shí)驗(yàn)細(xì)節(jié)

      本文設(shè)計(jì)的算法是基于 PyTorch[24]實(shí)現(xiàn)的,并且是在兩塊 NVIDIA A30卡上進(jìn)行訓(xùn)練,使用一塊 A30卡進(jìn)行測試的。在實(shí)驗(yàn)過程中并未使用任何預(yù)訓(xùn)練模型權(quán)重,本文采用 Adam優(yōu)化器[25]并設(shè)置初始學(xué)習(xí)率為0.001,網(wǎng)絡(luò)訓(xùn)練了40個(gè) epoch,并且分別在5,15,25,35個(gè) epoch時(shí)將學(xué)習(xí)率衰減為原來的1/10,權(quán)重衰減系數(shù)設(shè)置為0.0001。在訓(xùn)練過程中每種數(shù)據(jù)集的 batchsize 設(shè)置為64。

      2.3 消融分析

      本文提出的方法有兩個(gè)分支的輸入,其中以掩碼圖為主導(dǎo)的分支,目的是讓網(wǎng)絡(luò)關(guān)注透明物體的特征信息,從而對透明物體有更好的深度補(bǔ)全效果。因此,為了檢驗(yàn)以掩碼圖為主導(dǎo)的分支對于透明物體的深度補(bǔ)全效果,首先使用 ClearGrasp數(shù)據(jù)集來驗(yàn)證加入該分支的有效性。

      因?yàn)樵谝圆噬珗D為主導(dǎo)的輸入分支上加上了注意力模塊,但是以掩碼圖為主導(dǎo)的輸入分支并未加入注意力模塊,所以為了保證對比實(shí)驗(yàn)不受注意力模塊的影響,在對比實(shí)驗(yàn)時(shí),將注意力模塊去除,并且 SRB 模塊堆疊數(shù)為5。Image-Guided 表示網(wǎng)絡(luò)中只有一個(gè)以彩色圖引導(dǎo)的輸入分支,Mask-Guided表示網(wǎng)絡(luò)中只有一個(gè)以掩碼圖引導(dǎo)的輸入分支, Joint-Guided 表示網(wǎng)絡(luò)中包含雙分支輸入。

      從表1可以看出,如果只使用 Mask-Guided的輸入分支,效果相較于只使用 Image-Guided的輸入分支差,而對于 Joint-Guided 時(shí),深度補(bǔ)全的效果從得到了較大提升。所以即便是對于透明對象而言,對象本身也是具有一定的色彩和結(jié)構(gòu)信息,如果只使用 Mask-Guided 的輸入分支,網(wǎng)絡(luò)對于透明物體的深度補(bǔ)全效果較差。但Joint-Guided 的網(wǎng)絡(luò)對于透明對象的深度補(bǔ)全效果比只有 Image-Guided 要好,因此,加入 Mask-Guided 的分支,可以有效地提高網(wǎng)絡(luò)對透明對象的深度補(bǔ)全效果。

      對于注意力機(jī)制和譜殘差塊的分析,將使用 TransCG 數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)對比,因?yàn)樵摂?shù)據(jù)集中既包含透明對象也包含不透明對象,所以為了驗(yàn)證本文設(shè)計(jì)算法的通用性,采用該數(shù)據(jù)集來進(jìn)行檢驗(yàn)。其中對于譜殘差塊堆疊個(gè)數(shù)對網(wǎng)絡(luò)性能的影響如表2所示,此時(shí)網(wǎng)絡(luò)中并未加入注意力模塊。當(dāng) SRB 堆疊得越深,網(wǎng)絡(luò)的性能越來越好。但是當(dāng) N 大于5時(shí),測試集的性能不再提升,反而有所下降。這應(yīng)該是網(wǎng)絡(luò)太復(fù)雜,過度擬合訓(xùn)練集所導(dǎo)致的。

      對于注意力模塊的分析,如表3所示,此時(shí)的網(wǎng)絡(luò)除了注意力模塊之外,編碼部分采用雙分支輸入,而 SRB 的堆疊數(shù)量為5,以下 Joint- Guided 簡寫為 JG。從表3中可以看出,將常規(guī)的 CBAM 的注意力機(jī)制設(shè)計(jì)方法遷移到本文設(shè)計(jì)的網(wǎng)絡(luò)中時(shí),相較于沒有注意力模塊的網(wǎng)絡(luò)有一定的提升。而本文針對網(wǎng)絡(luò)特性改進(jìn)的注意力機(jī)制使用方法,具有更大的提升。

      2.4 對比先前的方法

      本部分主要為了檢驗(yàn)本文設(shè)計(jì)的算法在兩個(gè)公共數(shù)據(jù)集上的效果,并與之前的方法進(jìn)行對比。如表4所示,對于 ClearGrasp 數(shù)據(jù)集來說,本文的方法得益于譜殘差塊以及以掩碼圖為引導(dǎo)的輸入分支,從而提升獲取透明對象的結(jié)構(gòu)信息的能力,并提高網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,使得網(wǎng)絡(luò)對透明對象的深度補(bǔ)全效果相較于之前的方法有所提升。

      本文單獨(dú)對 TransCG 數(shù)據(jù)集做了測試,如表5所示,由于現(xiàn)有對透明對象的深度補(bǔ)全算法較少,但相較于其他方法,本文方法的性能評估參數(shù)大多優(yōu)于其他方法。為了檢驗(yàn)網(wǎng)絡(luò)的泛化性,本文將設(shè)計(jì)的網(wǎng)絡(luò)使用 ClearGrasp 數(shù)據(jù)集和 TransCG 數(shù)據(jù)集進(jìn)行交叉訓(xùn)練和測試,比如使用前者訓(xùn)練,后者測試。結(jié)果如表6所示,可以看出本文設(shè)計(jì)的算法有良好的泛化性。

      2.5 自采深度圖補(bǔ)全

      本部分主要是對使用 RealSense D435i 深度相機(jī)采集的稀疏深度圖進(jìn)行補(bǔ)全后的結(jié)果進(jìn)行分析,如圖5所示。彩色圖中下方的裝置是機(jī)械夾爪,數(shù)據(jù)是由安裝于機(jī)械臂末端的深度相機(jī)進(jìn)行采集的。進(jìn)行深度補(bǔ)全的訓(xùn)練模型并未用圖中的數(shù)據(jù)進(jìn)行 fine tuning ,圖5中第二行深度信息是直接使用上述相機(jī)進(jìn)行拍攝獲取的稀疏深度圖,圖5最后一行是經(jīng)過深度補(bǔ)全后的密集深度圖,由于機(jī)械夾爪裝置的存在,使得獲取的稀疏深度圖下方的深度信息嚴(yán)重缺失,這種情況其實(shí)是因?yàn)?RealSense D435i 相機(jī)的深度信息獲取的有效距離是大于一定閾值的,所以距離相機(jī)過近時(shí),深度信息缺失嚴(yán)重。圖中的物體由于物體表面反光或者物體邊緣隆起部分非常纖細(xì),導(dǎo)致深度信息的缺失或深度信息的錯(cuò)誤。經(jīng)過算法模型的深度補(bǔ)全后,可以得到如圖5(a)、(b)、(d)、(e)列不錯(cuò)的補(bǔ)全效果,但是對于這些圖補(bǔ)全后的結(jié)果,補(bǔ)全圖的底部可能是由于深度缺失,導(dǎo)致訓(xùn)練的模型并未“見”過此深度信息,所以對這一部分的補(bǔ)全效果差,甚至還有一些誤補(bǔ)全的部分,其次由于模型也并未“見”過這些對象以及背景,所以對深度圖進(jìn)行錯(cuò)誤的補(bǔ)全操作,如(c)列對老虎鉗的深度補(bǔ)全效果不如直接使用深度相機(jī)獲取的深度圖。因此,可以看出算法模型的泛化性還有待提高。

      3 結(jié) 論

      深度信息在機(jī)器人抓取,三維環(huán)境重建,自動(dòng)駕駛等領(lǐng)域有著越來越重要的作用。而由于深度傳感器的缺陷,獲取到的原始深度圖往往是比較稀疏的,導(dǎo)致使用原始深度圖無法滿足現(xiàn)實(shí)任務(wù)的需求。許多研究人員基于卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表征能力,提出了多種深度補(bǔ)全算法,然而先前大部分方法針對的是不透明對象。本文設(shè)計(jì)了一種雙分支輸入的 Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡(luò),通過以掩碼圖為引導(dǎo)的輸入分支,使得網(wǎng)絡(luò)能夠更加理解在場景中的透明對象的幾何特征,使用 SRB 堆疊形成的模塊連接編碼與解碼部分,使網(wǎng)絡(luò)有效的捕捉物體信息及區(qū)分幾何形狀,并提高網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。并且將改進(jìn)后的注意力機(jī)制使用方法添加到網(wǎng)絡(luò)中,進(jìn)一步提升網(wǎng)絡(luò)對圖像中物體細(xì)節(jié)信息和特征中語義信息的建模能力。通過實(shí)驗(yàn)驗(yàn)證了算法的有效性。

      深度補(bǔ)全網(wǎng)絡(luò)的作用是構(gòu)建一種原始稀疏深度圖與高質(zhì)量稠密深度圖之間的映射關(guān)系,然而要將深度補(bǔ)全算法應(yīng)用到實(shí)際落地項(xiàng)目中,對算法的實(shí)時(shí)性能和精度的要求較高,所以如何設(shè)計(jì)一個(gè)高效的深度補(bǔ)全網(wǎng)絡(luò)仍是一項(xiàng)挑戰(zhàn)。由于機(jī)器人抓取這類實(shí)時(shí)性要求比較高的任務(wù),需要追求算法的實(shí)時(shí)性能,未來需要在對精度影響不大的情況下,盡量將深度補(bǔ)全網(wǎng)絡(luò)的推理時(shí)間提升,從而更加適用于抓取類任務(wù)。

      參考文獻(xiàn):

      [1] JARITZ M, DE CHARETTE R, WIRBEL E, et al. Sparse and dense data with CNNs: depth completion and ?semantic ?segmentation[C]//International Conference on 3D Vision (3DV). Verona: IEEE, 2018:52?60.

      [2] SONG Z B, LU J F, YAO Y Z, et al. Self-supervised depth completion from direct visual-LiDAR odometry in autonomous driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(8):11654–11665.

      [3] DU R F, TURNER E, DZITSIUK M, et al. DepthLab: real-time 3D interaction with depth maps for mobile augmented reality[C]//Proceedings of the 33rd Annual ACM Symposium on User Interface Software and Technology. ACM, 2020:829?843.

      [4] MA F C, CARLONE L, AYAZ U, et al. Sparse depth sensing for resource-constrained robots[J]. The International Journal of Robotics Research, 2019, 38(8):935–980.

      [5] TEIXEIRA L, OSWALD M R, POLLEFEYS M, et al. Aerial single-view depth completion with image-guided uncertainty estimation[J]. IEEE Robotics and Automation Letters, 2020, 5(2):1055–1062.

      [6] CHEN L, LIN H, LI S T. Depth image enhancement forKinect using region growing and bilateralfilter[C]//Proceedings of the 21st InternationalConference on Pattern Recognition. Tsukuba: IEEE,2012:3070?3073.

      [7] LIU S J, LAI P L, TIAN D, et al. Joint trilateralfiltering for depth map compression[C]//Proceedings ofSPIE 7744, Visual Communications and ImageProcessing 2010. Huangshan: SPIE, 2010:77440F.

      [8] ALHWARIN F, FERREIN A, SCHOLL I. IR stereoKinect: improving depth images by combiningstructured light with IR stereo[C]//13th Pacific RimInternational Conference on Artificial Intelligence.Gold Coast: Springer, 2014:409?421.

      [9] CHIU W W C, BLANKE U, FRITZ M. Improving theKinect by cross-modal stereo[C]//British MachineVision Conference. Dundee: BMVC, 2011:1?10.

      [10] CHEN K, LAI Y K, WU Y X, et al. Automaticsemantic modeling of indoor scenes from low-qualityRGB-D data using contextual information[J]. ACMTransactions on Graphics, 2014, 33(6):208.

      [11] ZHANG Y D, FUNKHOUSER T. Deep depthcompletion of a single RGB-D image[C]//Proceedingsof the 2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition. Salt Lake City: IEEE,2018:175?185.

      [12] QIU J X, CUI Z P, ZHANG Y D, et al. DeepLiDAR:Deep surface normal guided depth prediction foroutdoor scene from sparse LiDAR data and single colorimage[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. LongBeach: IEEE, 2019:3308?3317.

      [13] MA F C, CAVALHEIRO G V, KARAMAN S. Self-supervised sparse-to-dense: self-supervised depthcompletion from LiDAR and monocular camera[C]//2019 International Conference on Robotics andAutomation (ICRA). Montreal: IEEE, 2019:3288?3295.

      [14] ELDESOKEY A, FELSBERG M, KHAN F S.Confidence propagation through CNNs for guidedsparse depth regression[J]. IEEE TransactionsonPattern Analysis and Machine Intelligence, 2020,42(10):2423–2436.

      [15] CHENG X J, WANG P, YANG R G. Depth estimationvia affinity learned with convolutional spatialpropagation network[C]//Proceedings of the 15thEuropean Conference on Computer Vision (ECCV).Munich: Springer, 2018:108?125.

      [16] HUANG Y K, WU T H, LIU Y C, et al. Indoor depth completion with boundary consistency and self- attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision Workshop. Seoul: IEEE, 2019:1070?1078.

      [17] SAJJAN S, MOORE M, PAN M, et al. Clear grasp:3D shape estimation of transparent objects for manipulation[C]//2020 IEEE International Conference on Robotics and Automation (ICRA). Paris: IEEE, 2020:3634?3642.

      [18] ZHU L Y, MOUSAVIAN A, XIANG Y, et al. RGB-D local implicit function for depth completion of transparent objects[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021:4647?4656.

      [19] HU M, WANG S L, LI B, et al. PENet: towards precise and efficient image guided depth completion[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). Xi'an: IEEE, 2021: 13656 ?13662.

      [20] TANG Y J, CHEN J H, YANG Z G, et al. DepthGrasp: depth completion of transparent objects using self- attentive adversarial network with spectral residual for grasping[C]//2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Prague: IEEE, 2021:5710?5716.

      [21] MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[C]//6th International Conference on LearningRepresentations. Vancouver: ICLR, 2018.

      [22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the 15th European Conference on Computer Vision(ECCV). Munich: Springer, 2018:3?19.

      [23] FANG H J, FANG H S, XU S, et al. TransCG: a large-scale real-world dataset for transparent object depthcompletion and a grasping baseline[J]. IEEE Roboticsand Automation Letters, 2022, 7(3):7383–7390.

      [24] PASZKE A, GROSS S, MASSA F, et al. PyTorch: animperative style, high-performance deep learninglibrary[C]//Proceedings of the 33rd InternationalConference on Neural Information Processing Systems.Vancouver: NeurIPS, 2019:721.

      [25] KINGMA D P, BA J. Adam: a method for stochasticoptimization[C]//3rd International Conference onLearning Representations. San Diego: ICLR, 2014.

      [26] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoorsegmentation and support inference from RGBDimages[C]//12th European Conference on ComputerVision. Florence: Springer, 2012:746?760.

      [27] HARRISON A, NEWMAN P. Image and sparse laserfusion for dense scene reconstruction[C]//7thInternational Conference on Field and ServiceRobotics. Cambridge: Springer, 2010:219?228.

      [28] LIU J Y, GONG X J. Guided depth enhancement viaanisotropic diffusion[C]//14th Pacific-Rim Conferenceon Advances in Multimedia Information Processing.Nanjing: Springer, 2013:408?417.

      [29] SENUSHKIN D, ROMANOV M, BELIKOV I, et al.Decoder modulation for indoor depthcompletion[C]//2021 IEEE/RSJ InternationalConference on Intelligent Robots and Systems (IROS).Prague: IEEE, 2021:2181?2188.

      [30] ALHASHIM I, WONKA P. High quality monoculardepth estimation via transfer learning[J]. arXiv:, 1812,11941:2018.

      (編輯:張磊)

      猜你喜歡
      注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)
      面向短文本的網(wǎng)絡(luò)輿情話題
      基于自注意力與動(dòng)態(tài)路由的文本建模方法
      基于深度學(xué)習(xí)的問題回答技術(shù)研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個(gè)基于知識庫的問答系統(tǒng)
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      巧家县| 峨山| 阿尔山市| 盐边县| 桂林市| 屏东市| 临沭县| 马边| 利辛县| 资阳市| 泊头市| 郯城县| 丹巴县| 大厂| 聂荣县| 东乌珠穆沁旗| 宣汉县| 新乐市| 亳州市| 饶平县| 岑巩县| 乌什县| 涿鹿县| 凤城市| 红原县| 崇阳县| 济阳县| 东海县| 德州市| 理塘县| 阿城市| 舒兰市| 凤城市| 板桥市| 清涧县| 巧家县| 满洲里市| 曲阳县| 花莲市| 铜陵市| 景谷|