• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于非對稱融合和關(guān)聯(lián)上下文的RGBD語義分割算法研究

      2022-04-14 06:48:30張靜怡
      現(xiàn)代計算機(jī) 2022年1期
      關(guān)鍵詞:深度圖池化編碼器

      張靜怡

      (四川大學(xué)電子信息學(xué)院,成都 610065)

      0 引言

      隨著RGBD傳感器的迅速發(fā)展,深度圖數(shù)據(jù)的獲取變得越來越容易了。深度圖信息具有3D圖像的幾何信息,能夠映射真實世界中的物體,因此可以作為具有色彩和紋理的RGB圖像的補(bǔ)充。然而,如何利用深度圖信息并且將其融入到其他信息流,仍是沒有解決的問題。

      早期的研究試圖使用雙通路網(wǎng)絡(luò),分別提取RGB和深度圖的特征,然后在最后一層融合它們,再取得分割結(jié)果。這種晚期融合的策略融合兩個模態(tài)的時機(jī)太晚,導(dǎo)致RGB分支不能在早期階段取得它所需要的幾何信息作為引導(dǎo)。后來,研究者設(shè)法在多個階段將深度圖特征融入到RGB分支中,具體做法是在編碼器網(wǎng)絡(luò)的多個階段,將深度圖特征加到RGB分支。實驗表明,這種策略使得幾何信息被更早、更有效地利用,可以提高語義分割的精度。

      然而,現(xiàn)有研究中的融合模塊普遍采用對稱融合方式,諸如按元素相加或者特征圖堆疊等,這種以同等方式處理深度圖和RGB彩色圖像的方式,存在兩個問題。第一,由于采樣設(shè)備精度的原因,原始深度圖中含有大量噪聲,直接利用將會帶來不精確性,產(chǎn)生的負(fù)面影響將抵消引入深度圖帶來的積極影響。第二,顯而易見,深度圖和RGB彩色圖像的信息差異性很大,對語義分割的貢獻(xiàn)也有主次之分,采用對稱融合的方式會融入過多深度圖中的信息,盡管它對語義分割僅有輔助作用。

      另外,在語義分割領(lǐng)域,人們開始關(guān)注上下文信息的利用。上下文信息有全局上下文、多尺度上下文,還有將特征圖像素之間的關(guān)聯(lián)信息充分利用的關(guān)聯(lián)上下文。全局上下文的提取主要是通過類似全局池化的全局操作,將特征圖的大小壓縮,得到一個表征全局信息的特征。這種信息對于圖片級的任務(wù)——如圖片分類——可以提升語義判別能力,然而,對于像語義分割這種像素級的任務(wù),全局信息不一定對所有像素都適用,因此,還需使用更細(xì)粒度的信息。后來,研究者通過池化操作將特征圖轉(zhuǎn)換到不同尺度,分別進(jìn)行操作,再進(jìn)行合成,這種做法保留了全局上下文優(yōu)勢的同時,融合了更多空間細(xì)節(jié),更適用于語義分割任務(wù)。而這些研究中,雖然融合上下文有助于提取語義信息,但是無法獲取不同位置之間的關(guān)聯(lián)信息。較新研究中,基于自注意力機(jī)制來捕獲空間維度和通道維度的特征依賴關(guān)系,可以捕獲特征圖在任意兩個位置之間的空間依賴關(guān)系,然后通過加權(quán)和來對所有位置的特征進(jìn)行更新。實驗證明,這種關(guān)聯(lián)上下文自適應(yīng)地利用并加強(qiáng)了相似特征,對語義分割效果有明顯的提升。

      而現(xiàn)有的關(guān)聯(lián)上下文的提取方法,雖然充分利用了逐點特征間的依賴關(guān)系,但是頻繁進(jìn)行高維矩陣乘法消耗大量資源。相鄰像素之間的特征往往是相似的,沒必要提取每兩點之間的關(guān)聯(lián)性。

      針對上述問題,本文提出了基于非對稱融合的關(guān)聯(lián)上下文網(wǎng)絡(luò)。其中,非對稱融合模塊考慮了深度圖和RGB圖像的差異性,深度圖的噪聲信號被過濾后,再與RGB特征圖融合。而關(guān)聯(lián)上下文模塊在自注意力機(jī)制的思想的基礎(chǔ)上,將特征圖壓縮成塊,選擇性地聚合具有相似特征的塊,提取了區(qū)域與區(qū)域之間的依賴關(guān)系,在增加少量復(fù)雜度的前提下,顯著提高語義分割準(zhǔn)確性。

      1 算法實現(xiàn)

      本文提出的用于RGBD圖像分割的網(wǎng)絡(luò)——基于非對稱融合的關(guān)聯(lián)上下文網(wǎng)絡(luò)(asymmetric fusion and associated context network,

      AFACNet)結(jié)構(gòu)如圖1所示。該結(jié)構(gòu)受到由Swift?Net改進(jìn)并融入深度圖的ESANet的啟發(fā)——整體網(wǎng)絡(luò)結(jié)構(gòu)由經(jīng)過預(yù)訓(xùn)練的編碼器ResNet34主干網(wǎng)絡(luò)、多次降采樣、編碼器解碼器之間的用于提取上下文的模塊、有由編碼器部分跳躍連接的解碼器,以及最后的上采樣組成。其中,AFACNet使用兩個編碼器,分別編碼RGB彩色圖像和深度圖。深度圖編碼器用來提取幾何信息,并在編碼器的多個階段使用非對稱融合模塊(asymmetric fusion module,AFM)將特征融入到RGB編碼器中。解碼器模塊(decoder module,DM)由若干卷積和上采樣組合而成,在每個DM的模塊使用按元素相加操作融入來自編碼器的特征。在編碼器和解碼器之間,有一個用于提取關(guān)聯(lián)上下文的上下文模塊(context module,CM),可以獲取區(qū)域之間的依賴關(guān)系,更好地組織語義信息。最后,在網(wǎng)絡(luò)的末端將特征圖映射成要判別的類別,再通過上采樣操作將輸出轉(zhuǎn)換成與網(wǎng)絡(luò)輸入分辨率相同的圖像。

      下面,將對網(wǎng)絡(luò)的每個結(jié)構(gòu)的細(xì)節(jié)展開討論。圖1(下)展示了網(wǎng)絡(luò)模塊的具體結(jié)構(gòu)。

      圖1 AFACNet網(wǎng)絡(luò)整體結(jié)構(gòu)(上)及模塊具體結(jié)構(gòu)(下)

      1.1 編碼器

      RGB圖像和深度圖都使用了殘差網(wǎng)絡(luò)(ResNet)作為主干網(wǎng)絡(luò)。隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,梯度消失和梯度爆炸等問題隨之產(chǎn)生,而ResNet的提出,使用殘差連接的方式解決了上述的退化問題。另外,輸入通過跨層鏈接,能更快地向前傳播數(shù)據(jù),或者向后傳播梯度。共有五種ResNet網(wǎng)絡(luò),分別為ResNet18、ResNet34、ResNet50、ResNet101和ResNet152。它們的結(jié)構(gòu)大致相同,差異主要表現(xiàn)在網(wǎng)絡(luò)深度上。隨著網(wǎng)絡(luò)深度加深,參數(shù)也會隨之增加,為了減少網(wǎng)絡(luò)參數(shù)從而增加訓(xùn)練速度,在較深的ResNet結(jié)構(gòu)(ResNet50及更深的網(wǎng)絡(luò))中采用了瓶頸結(jié)構(gòu),壓縮模型的同時卻對精度損失不大。為了權(quán)衡模型參數(shù)和分割準(zhǔn)確性,實驗中使用了ResNet34和ResNet50作為主干網(wǎng)絡(luò)。

      1.2 解碼器

      網(wǎng)絡(luò)的解碼器采用了ESANet中提出的解碼器結(jié)構(gòu),每個DM由一個卷積層、若干個堆疊的Non-bt-1D(Non-Bottleneck-1D-block)模 塊、上采樣堆疊而成,然后由按元素相加操作融入來自編碼器的特征。實驗表明,采用Non-bt-1D模塊取代傳統(tǒng)的帶有殘差連接的卷積模塊,不僅可以壓縮模型,還可以提高網(wǎng)絡(luò)的精度。

      1.3 RGBD非對稱融合

      AFM由鏈?zhǔn)綒埐畛鼗–hained Residual Pooling,CRP)和對稱融合模塊(Fusion Module,FM)兩部分組成。深度圖先經(jīng)過CRP處理,再與RGB特征圖一起輸入FM進(jìn)行融合。其中,CRP模塊由多個堆疊的池化、卷積操作組合而成,并由殘差塊相連。經(jīng)過池化的深度圖,在一定程度上過濾掉了噪聲信號,又有殘差連接與沒經(jīng)過過濾的深度圖融合,使網(wǎng)絡(luò)自適應(yīng)地選擇過濾或者保留原始的深度圖。這種非對稱融合的方式,考慮了深度圖與RGB特征的差異性,而由于池化操作的存在,減弱深度圖對網(wǎng)絡(luò)預(yù)測的影響,突出其作為輔助信息的地位,使得兩種模態(tài)的信息得到更合理的利用和整合。

      1.4 關(guān)聯(lián)上下文模塊

      CM由三個分支組成。在第一個分支中,代表經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net?work,CNN)編碼器處理后得到的特征圖。經(jīng)過全連接層(Fully Connected Layer,F(xiàn)C)生成大小不變而通道數(shù)為的特征圖,同時,通過自適應(yīng)池化操作生成大小被壓縮為×而通道數(shù)為的特征圖。在第一個分支中,()代表全局信息,是由通過全局平均池化操作得到的。與全局信息()通過殘差連接,然后經(jīng)過矩陣變維,生成大小為×的特征圖,其中,=×。在第二、三個分支中的操作是類似的,首先將輸入FC層,分別生成和,然后將和進(jìn)行矩陣變維得到和。下面,對、和進(jìn)行自注意力(Attention)操作,得到大小為×的特征圖。公式(1)如下所示:

      其中,和的點乘表示和的相似程度,但是它不是歸一化的,因此需要使用softmax()操作進(jìn)行歸一化,得到的矩陣數(shù)值在0~1之間,產(chǎn)生注意力圖。而表示輸入特征圖線性變換后的特征,將注意力圖作用于上,即可得到過濾后的的特征圖。最后,將×的特征圖進(jìn)行矩陣變維,復(fù)原為大小為××的特征圖,與該模塊的輸入具有相同的大小。

      2 實驗

      本文在常用的RGBD室內(nèi)數(shù)據(jù)集NYUv2上做了實驗,與現(xiàn)有其他RGBD語義分割方法比較,并且進(jìn)行了消融實驗來驗證網(wǎng)絡(luò)中提出的模塊的有效性。

      2.1 實驗細(xì)節(jié)及數(shù)據(jù)集

      實驗采用了PyTorch深度學(xué)習(xí)框架,迭代次數(shù)為500次,批大?。╞atch-size)為8,使用的優(yōu)化器是SGD優(yōu)化器。同時,采用了PyTorch單周期學(xué)習(xí)率調(diào)度程序來自動調(diào)整學(xué)習(xí)率。為了增加實驗數(shù)據(jù),采取了隨機(jī)放縮、切割和反轉(zhuǎn)等數(shù)據(jù)增強(qiáng)的方式。另外,在訓(xùn)練時加載了ResNet的預(yù)訓(xùn)練模型,來提升模型訓(xùn)練的速度。網(wǎng)絡(luò)輸入圖片的分辨率使用的是640×480,由于32倍降采樣,輸入CM的特征圖大小為20×15,CM中自適應(yīng)池化大小為5×5。

      NYUv2數(shù)據(jù)集:NYUv2包含了1449張室內(nèi)RGBD圖像,其中795張用于訓(xùn)練,而654中用于測試。實驗中使用了40類標(biāo)簽的設(shè)置。

      2.2 實驗結(jié)果

      實驗主干網(wǎng)絡(luò)采用ResNet50,與其他在NYUv2數(shù)據(jù)集上的RGBD語義分割的網(wǎng)絡(luò)相對比,結(jié)果如表1所示。

      表1 實驗結(jié)果對比

      其中,表格中的Res是ResNet的縮寫。

      由表1可見,本文采用的主干網(wǎng)絡(luò)參數(shù)量較小,但是同樣可以取得有競爭力的效果。由此可見,為了提升網(wǎng)絡(luò)的性能,不能一味地增加網(wǎng)絡(luò)的深度;好的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計可以在不大量增加模型參數(shù)的前提下提高語義分割的效果。

      2.3 消融實驗

      我們基于ResNet34和ResNet50主干網(wǎng)絡(luò)分別做了消融實驗。表2展示了網(wǎng)絡(luò)結(jié)構(gòu)中AFM和CM兩個模塊的消融實驗的結(jié)果。其中,基本網(wǎng)絡(luò)將AFM替換為普通的按元素相加的融合操作,并且去掉了CM。

      表2 消融實驗

      對于AFM,在ResNet34上和ResNet50上分別為mIOU帶來了0.58%和0.46%的提升;而對于CM,分別帶來了1.44%和0.18%的提升。從而證明了模塊的有效性。

      3 結(jié)語

      本文提出了一種新型的RGBD語義分割網(wǎng)絡(luò)結(jié)構(gòu),針對RGB與深度圖的融合方式,以及上下文信息的捕獲方式進(jìn)行了探討,提出了非對稱融合模塊和關(guān)聯(lián)上下文模塊,解決了對稱融合不能合理整合RGB與深度圖信息的問題,另外采用自注意力機(jī)制獲取特征塊之間的依賴關(guān)系的同時卻不帶來過大的額外資源消耗。通過消融實驗,驗證了兩個模塊的采用分別為模型帶來了一定程度的性能提升。與同類型模型相比,本文提出的網(wǎng)絡(luò)模型參數(shù)量較少,占據(jù)資源較少,卻具有更好的效果,因此具有一定的實際應(yīng)用價值。

      猜你喜歡
      深度圖池化編碼器
      面向神經(jīng)網(wǎng)絡(luò)池化層的靈活高效硬件設(shè)計
      基于Sobel算子的池化算法設(shè)計
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于深度圖的3D-HEVC魯棒視頻水印算法
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測的8B/IOB編碼器設(shè)計
      一種基于局部直方圖匹配的深度編碼濾波算法
      疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
      科技視界(2016年2期)2016-03-30 11:17:03
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
      電子器件(2015年5期)2015-12-29 08:42:24
      东丽区| 台北县| 隆昌县| 长寿区| 香港| 中超| 盐城市| 西宁市| 诏安县| 江安县| 北辰区| 台东市| 昌图县| 津市市| 永靖县| 乌拉特后旗| 雷波县| 芷江| 临湘市| 新田县| 新兴县| 越西县| 房产| 贺兰县| 内丘县| 朔州市| 珲春市| 无锡市| 大安市| 都安| 利辛县| 建宁县| 孙吴县| 伊金霍洛旗| 寿光市| 方正县| 夹江县| 和平区| 美姑县| 杨浦区| 定日县|