摘 要: 為克服細(xì)節(jié)區(qū)域精細(xì)立體匹配問題,本文提出了基于引導(dǎo)優(yōu)化的立體匹配網(wǎng)絡(luò). 首先,構(gòu)建基于引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化模塊,不同于可變形卷積,該模塊對(duì)額外輸入的引導(dǎo)特征進(jìn)行偏移量和調(diào)制標(biāo)量學(xué)習(xí),增強(qiáng)可變形卷積的變形參數(shù)學(xué)習(xí)能力. 其次,設(shè)計(jì)基于引導(dǎo)優(yōu)化模塊的引導(dǎo)優(yōu)化立體匹配網(wǎng)絡(luò),該網(wǎng)絡(luò)提出了基于3D 代價(jià)聚合和2D 引導(dǎo)優(yōu)化聚合的三級(jí)串聯(lián)代價(jià)聚合模塊,逐步優(yōu)化細(xì)節(jié)區(qū)域的配準(zhǔn)精度. 實(shí)驗(yàn)結(jié)果顯示,在SceneFlow、KITTI等標(biāo)準(zhǔn)數(shù)據(jù)集中,與先進(jìn)算法相比,該算法可實(shí)現(xiàn)細(xì)節(jié)區(qū)域的高精度配準(zhǔn). 其中,引導(dǎo)優(yōu)化模塊適用性測(cè)試結(jié)果顯示,在KITTI2015 數(shù)據(jù)集中,增加引導(dǎo)優(yōu)化模塊后GwcNet、AANet 等先進(jìn)算法的D1-noc、D1-all 值均產(chǎn)生20% 左右的提升.
關(guān)鍵詞: 立體匹配; 引導(dǎo)可變形卷積; 引導(dǎo)聚合; 多特征提??; 邊緣保持
中圖分類號(hào): TP391. 41 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 043007
1 引言
立體匹配旨在對(duì)雙目相機(jī)捕獲的雙目圖像進(jìn)行深度信息計(jì)算[1,2]. 它在低空遙感[3,4]、自主導(dǎo)航[5]、探測(cè)成像[6]等計(jì)算機(jī)視覺領(lǐng)域中起著至關(guān)重要的作用. 隨著MC-CNN 首次將卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)用于解決立體匹配問題[7],近年來,基于學(xué)習(xí)的立體匹配方法已經(jīng)取得了許多高質(zhì)量的研究成果,但針對(duì)細(xì)節(jié)區(qū)域的高精度立體匹配計(jì)算仍是挑戰(zhàn)性問題.
為了處理該問題,現(xiàn)有的立體匹配網(wǎng)絡(luò)通常從特征提取、代價(jià)體構(gòu)建、代價(jià)聚合、視差回歸及視差優(yōu)化等5 個(gè)步驟進(jìn)行優(yōu)化[8]. 其中,代價(jià)聚合在提升算法精度上有著重要的作用. 近年來,面向立體匹配代價(jià)聚合的相關(guān)工作大致可以分為2 類:一類是2D 代價(jià)聚合;另一類是3D 代價(jià)聚合.
最初的基于學(xué)習(xí)的立體匹配架構(gòu)采用2D 聚合方式,其結(jié)構(gòu)簡(jiǎn)單、快速高效,甚至在不考慮立體匹配中的幾何約束的情況下能夠回歸高精度視差[9]. 在網(wǎng)絡(luò)架構(gòu)方面,基于2D 卷積的代價(jià)聚合一般采用大型U 形編碼器-解碼器網(wǎng)絡(luò)來實(shí)現(xiàn)[10,11],將多層特征圖通過卷積壓縮到1 層得到視差圖.另一方面,它可將對(duì)回歸視差圖有幫助的特征層進(jìn)行串聯(lián)用于輔助聚合,如EdgeStereo[12]將相關(guān)代價(jià)體、左圖像特征、邊緣特征串聯(lián)進(jìn)行聚合,從而實(shí)現(xiàn)邊緣感知的立體匹配.
為了進(jìn)一步提升匹配算法的精度,3D 卷積逐漸被應(yīng)用到代價(jià)聚合中. Kendall 等[13]首次提出了基于3D 卷積的立體匹配網(wǎng)絡(luò)GCNet,該結(jié)構(gòu)根據(jù)對(duì)極幾何原理構(gòu)建連結(jié)代價(jià)體,并使用3D 卷積來聚合. 此后大部分研究主要圍繞3D 卷積展開,Chang 等[14]提出了沙漏聚合網(wǎng)絡(luò),提高了匹配精度;Guo 等[15]對(duì)沙漏結(jié)構(gòu)進(jìn)行優(yōu)化,進(jìn)一步改進(jìn)了沙漏結(jié)構(gòu)的性能. 3D 代價(jià)聚合通常在低分辨率下進(jìn)行特征匹配與聚合,如PSMNet 采用原圖像1/4的寬高下進(jìn)行,GANet[16]采用原圖像1/3 的寬高下進(jìn)行,最終低分辨率代價(jià)體線性上采樣到全分辨率代價(jià)體從而回歸視差. 該策略對(duì)于提升算法的計(jì)算速度有出色的效果,同時(shí)也表現(xiàn)出優(yōu)于2D 立體匹配算法的精度,但隨著分辨率的降低,使得原始圖像中細(xì)節(jié)區(qū)域的特征損失、邊緣區(qū)域特征模糊等問題逐步顯現(xiàn),從而造成匹配視差圖細(xì)節(jié)、邊緣區(qū)域匹配誤差較大,如圖1 所示(a 為左輸入圖像;b 為a 的局部視圖;c 為算法ACVNet[17]對(duì)應(yīng)的b視圖的視差圖;d 為本文算法對(duì)應(yīng)的b 視圖的視差圖,e 為b 視圖的真實(shí)視差圖). 而基于全分辨率的3D 立體匹配算法,易產(chǎn)生極大的計(jì)算量和內(nèi)存消耗,因此一般不會(huì)被采用.
綜上,基于低分辨率的3D 卷積立體匹配算法可以有效回歸高精度視差圖,但是損失了細(xì)節(jié)信息;基于2D 卷積的立體匹配可以補(bǔ)充細(xì)節(jié)信息輔助聚合,并在全分辨率上進(jìn)行聚合,但是精度不如3D 聚合. 基于此,首先,本文提出了融合3D 代價(jià)聚合與2D 引導(dǎo)優(yōu)化代價(jià)聚合的三級(jí)串聯(lián)的引導(dǎo)優(yōu)化代價(jià)聚合網(wǎng)絡(luò)架構(gòu)(guided refinement stereomatching network,GRNet)實(shí)現(xiàn)高精度、細(xì)節(jié)完整的立體匹配,通過3D 代價(jià)聚合來提高匹配精度,通過構(gòu)建2D 引導(dǎo)優(yōu)化代價(jià)聚合來恢復(fù)出細(xì)節(jié)信息. 其次,為了進(jìn)一步解決細(xì)節(jié)區(qū)域匹配混亂、邊緣區(qū)域匹配誤差較大的問題,本文根據(jù)可變形卷積[18]思想提出引導(dǎo)可變形卷積(guided deformableconvolution,GDCN). 相對(duì)于傳統(tǒng)可變形卷積,GDCN 更適應(yīng)于局部細(xì)節(jié)區(qū)域代價(jià)聚合. 此外,2D 引導(dǎo)優(yōu)化代價(jià)聚合模塊可在全分辨率下引導(dǎo)代價(jià)體進(jìn)行細(xì)化聚合,通過添加原始圖像等額外的輔助信息來引導(dǎo)恢復(fù)細(xì)節(jié)以及邊緣區(qū)域的代價(jià)值,且具有較低的成本開銷.
2 方法
2. 1 引導(dǎo)可變形卷積
可變形卷積通過對(duì)輸入特征進(jìn)行偏移量和調(diào)制標(biāo)量的學(xué)習(xí),打破卷積結(jié)構(gòu)固定位置采樣的局限,可以有效適應(yīng)物體在尺度、姿態(tài)和局部形態(tài)等特征上的變化. 但是可變形卷積強(qiáng)調(diào)自適應(yīng)性學(xué)習(xí),對(duì)幾何變換的建模能力與傳統(tǒng)卷積相似,都依賴大量數(shù)據(jù)學(xué)習(xí)以及更深層的網(wǎng)絡(luò)結(jié)構(gòu). 為了進(jìn)一步增強(qiáng)可變形卷積網(wǎng)絡(luò)對(duì)立體匹配任務(wù)的建模能力,本文提出具有引導(dǎo)先驗(yàn)學(xué)習(xí)能力的可變形卷積結(jié)構(gòu)——引導(dǎo)可變形卷積(GDCN).
不同于可變形卷積的單輸入結(jié)構(gòu),本文增加了額外引導(dǎo)特征輸入通道,構(gòu)建雙通道輸入結(jié)構(gòu)( 如圖2 中“guide feature map”和“input featuremap”). 其中,引導(dǎo)特征和輸入特征的分辨率相同. 與可變形卷積通過對(duì)輸入特征直接進(jìn)行偏移量和調(diào)制標(biāo)量學(xué)習(xí)不同,本文引導(dǎo)可變形卷積首先針對(duì)引導(dǎo)特征進(jìn)行偏移量和調(diào)制標(biāo)量學(xué)習(xí);其次通過偏移量和調(diào)制標(biāo)量對(duì)輸入特征進(jìn)行可變形卷積引導(dǎo)計(jì)算. 在引導(dǎo)可變形卷積中,引導(dǎo)特征加強(qiáng)了可變形卷積的偏移量和調(diào)制標(biāo)量的學(xué)習(xí)能力,可針對(duì)不同的學(xué)習(xí)目標(biāo)設(shè)置不同的引導(dǎo)特征靈活處理不同的視覺任務(wù).
對(duì)于引導(dǎo)可變形卷積結(jié)構(gòu),首先,對(duì)輸入的引導(dǎo)特征(如圖2 中“guide feature map”)進(jìn)行卷積計(jì)算,學(xué)習(xí)偏移量和調(diào)制標(biāo)量,其卷積計(jì)算如式(1)所示.
其中,K 為卷積核采樣點(diǎn)數(shù)量,x ( p ) 表示卷積前p位置的特征值,y ( p ) 表示卷積后p 位置的特征值,pk 表示第k 個(gè)卷積采樣點(diǎn)的設(shè)定偏移量,ωk 表示第k 個(gè)卷積采樣點(diǎn)的權(quán)重.
偏移量和調(diào)制標(biāo)量通過式(1)對(duì)引導(dǎo)特征進(jìn)行1 次卷積計(jì)算獲取,其輸出通道數(shù)為3N,N 為聚合采樣點(diǎn)的數(shù)量. 其中,前2N 通道為偏移量Δpn,其范圍為任意實(shí)數(shù);后N 通道進(jìn)一步輸入sigmoid層得到調(diào)制標(biāo)量Δmn,其范圍為[0,1].
其次,將式(1)習(xí)得的偏移量和調(diào)制標(biāo)量應(yīng)用于輸入特征的卷積核引導(dǎo)可變形卷積進(jìn)行卷積計(jì)算. 其中,偏移量Δpn 作用于卷積核采樣點(diǎn)的采樣位置,使其改變?yōu)椴蓸狱c(diǎn)位置不固定的卷積核,調(diào)制標(biāo)量Δmn 為采樣點(diǎn)額外的權(quán)重. 引導(dǎo)可變形卷積計(jì)算公式如式(2)所示.
其中,C ( p ) 表示聚合前p 位置的代價(jià)值,C? ( p ) 表示聚合后p 位置的代價(jià)值,pn 表示第n 個(gè)聚合采樣點(diǎn)的設(shè)定偏移量,ωn 表示第n 個(gè)聚合采樣點(diǎn)的權(quán)重.
2. 2 GRNet 網(wǎng)絡(luò)架構(gòu)
基于引導(dǎo)可變形卷積結(jié)構(gòu),本文提出基于引導(dǎo)優(yōu)化的立體匹配網(wǎng)絡(luò)GRNet,其總體網(wǎng)絡(luò)架構(gòu)如圖3 所示. 本文主要從多特征提取、代價(jià)體構(gòu)建、代價(jià)聚合和視差回歸等4 個(gè)方面對(duì)該網(wǎng)絡(luò)總體結(jié)構(gòu)進(jìn)行闡述. 其中,代價(jià)聚合由3D 聚合和2D 引導(dǎo)優(yōu)化聚合三級(jí)串聯(lián)構(gòu)成,可以分為2 個(gè)步驟:首先,進(jìn)行3D 代價(jià)聚合,提升整體精度;其次,分別進(jìn)行基于顏色引導(dǎo)和基于誤差引導(dǎo)的兩級(jí)串聯(lián)2D引導(dǎo)優(yōu)化聚合,逐步細(xì)化局部細(xì)節(jié).
2. 2. 1 多特征提取
在特征提取步驟中,為了提高算法的效率,首先采用2 個(gè)步長(zhǎng)為2 的卷積來減小分辨率得到原圖像1/4 的特征圖.
隨后,由于低擴(kuò)張率的擴(kuò)張卷積有著較小的感受野,可提取細(xì)節(jié)區(qū)域特征,較高的擴(kuò)張率可提取大尺度特征. 因此,采用不同感受野的特征相結(jié)合的方式具有兼顧不同尺度區(qū)域匹配的優(yōu)勢(shì),也可以避免單一尺度特征帶來的匹配誤差問題. 基于此,本文基于不同擴(kuò)張率的擴(kuò)張卷積架構(gòu)構(gòu)建多特征提取結(jié)構(gòu),如圖4 所示. 該結(jié)構(gòu)具有2 層分支:第1 層分支結(jié)構(gòu)為擴(kuò)張率分別為1、2、3 的三分支結(jié)構(gòu)(如圖4 藍(lán)色分支層),第2 層分支結(jié)構(gòu)為擴(kuò)張率分別為2、4 的二分支結(jié)構(gòu)( 如圖4 黃綠分支層).
2. 2. 2 代價(jià)體構(gòu)建
代價(jià)體反映左右視圖像素點(diǎn)間的匹配關(guān)系,本文構(gòu)建方法采用GwcNet[15]中組相關(guān)代價(jià)體,該方法可以避免在構(gòu)建單個(gè)代價(jià)體時(shí)的信息損失. 但不同于GwcNet 中的組相關(guān)體構(gòu)建,本文通過多特征提取結(jié)構(gòu)(如圖4 所示)捕獲的不同感受野的多組特征構(gòu)建多層組相關(guān)體,可以更好地反應(yīng)左右視圖像素點(diǎn)的匹配關(guān)系. 同時(shí),本文保留了GwcNet 中連結(jié)代價(jià)體,其特征是通過對(duì)多層組特征進(jìn)行串聯(lián)并應(yīng)用2 次卷積計(jì)算獲得.最終,本文的代價(jià)體由多層組相關(guān)代價(jià)體與連結(jié)代價(jià)體串聯(lián)組成.
其中,Vgwc 表示組相關(guān)代價(jià)體,Vconcat 表示連結(jié)代價(jià)體,Vcombine 表示最終代價(jià)體;Nc 為提取的特征層數(shù),Ng 為劃分的組數(shù), f gl ,f gr 為對(duì)左右匹配特征進(jìn)行內(nèi)積計(jì)算,f ( x,y ) 表示( x,y ) 位置的特征值,g 表示組相關(guān)的序號(hào),d 表示視差值,f 表示提取連接特征的特征通道數(shù).
最后,構(gòu)建得到( Ng + 2f )× D/4 × H/4 ×W/4 的代價(jià)體,其中,組相關(guān)代價(jià)體維度為Ng ×D/4 × H/4 × W/4,連結(jié)代價(jià)體維度為2f ×D/4 × H/4 × W/4,D 為最大視差搜索范圍,H 和W 為提取到的特征的高和寬.2. 2. 3 代價(jià)聚合 GRNet 代價(jià)聚由3D 代價(jià)聚合和2D 引導(dǎo)優(yōu)化代價(jià)聚合三級(jí)串聯(lián)構(gòu)成(如圖3 藍(lán)色虛線方框和橙色虛線方框):首先,3D 代價(jià)聚合提升整體精度;其次,2D 引導(dǎo)優(yōu)化代價(jià)聚合分別通過顏色引導(dǎo)、誤差引導(dǎo)兩步級(jí)聯(lián)優(yōu)化逐步細(xì)化計(jì)算精度.
在3D 代價(jià)聚合部分(如圖3 藍(lán)色虛線方框).本文采用與GwcNet[15]相似的處理方法,考慮到網(wǎng)絡(luò)的高效性,本文采用1 個(gè)預(yù)處理結(jié)構(gòu)和2 個(gè)沙漏結(jié)構(gòu),并分別在預(yù)處理結(jié)構(gòu)和2 個(gè)沙漏結(jié)構(gòu)后分別接1 個(gè)輸出單元,每個(gè)輸出單元得到1×D/4×H/4×W/4 的代價(jià)體. 注意:該代價(jià)體可以直接回歸視差圖作為中間監(jiān)督,使網(wǎng)絡(luò)在淺層學(xué)習(xí)到較為準(zhǔn)確的代價(jià)體,提高算法整體精度. 最后1 層輸出單元的代價(jià)體作為2D 代價(jià)聚合的輸入.
在2D 引導(dǎo)優(yōu)化代價(jià)聚合部分(如圖3 橙色虛線方框). 為了恢復(fù)出細(xì)節(jié)完整的全分辨率代價(jià)體,本文基于引導(dǎo)可變形卷積提出引導(dǎo)優(yōu)化聚合模塊,如圖5 所示. 該結(jié)構(gòu)可以在3D 代價(jià)聚合的基礎(chǔ)上,根據(jù)顏色、誤差引導(dǎo)先驗(yàn)進(jìn)行卷積核學(xué)習(xí),進(jìn)而實(shí)現(xiàn)引導(dǎo)優(yōu)化聚合.
2D 引導(dǎo)優(yōu)化代價(jià)聚合模塊具體實(shí)施步驟為:首先,對(duì)低分辨率代價(jià)體進(jìn)行線性插值使其還原到全分辨率代價(jià)體. 考慮到小的視差搜索范圍不僅可以回歸到精確的視差值,也可以減少計(jì)算量及內(nèi)存消耗,所以不在視差維度進(jìn)行線性插值,插值得到D/4×H×W 的代價(jià)體作為粗略代價(jià)體.其次,通過引導(dǎo)優(yōu)化代價(jià)聚合模塊對(duì)粗略代價(jià)體進(jìn)行兩步級(jí)聯(lián)引導(dǎo)代價(jià)體優(yōu)化. 兩步級(jí)聯(lián)2D 引導(dǎo)優(yōu)化代價(jià)聚合分別為:1)基于顏色引導(dǎo)的優(yōu)化聚合(如圖3 Color-based 2D aggregation 方框),它根據(jù)原圖像信息對(duì)代價(jià)體進(jìn)行細(xì)節(jié)區(qū)域細(xì)化;2)基于誤差引導(dǎo)的優(yōu)化聚合(如圖3 Error-based 2D aggregation方框),構(gòu)建誤差圖進(jìn)一步對(duì)誤差區(qū)域進(jìn)行優(yōu)化.
對(duì)于基于顏色引導(dǎo)的優(yōu)化聚合,根據(jù)相同顏色區(qū)域代價(jià)值相似的假設(shè),本文將左視圖作為引導(dǎo)輸入特征圖. 根據(jù)引導(dǎo)輸入特征圖的引導(dǎo)先驗(yàn),引導(dǎo)可變形卷積對(duì)每個(gè)像素的顏色相近區(qū)域的采樣點(diǎn)進(jìn)行聚合,從而實(shí)現(xiàn)平緩區(qū)域中顏色相近的區(qū)域有著相近的代價(jià)值,邊緣區(qū)域得到有效識(shí)別,細(xì)節(jié)區(qū)域不完整匹配得到恢復(fù). 在本次引導(dǎo)優(yōu)化模塊中,第1 層引導(dǎo)可變形卷積采用的擴(kuò)張率為4,它可以在較大范圍內(nèi)尋找到顏色相近的采樣點(diǎn)進(jìn)行聚合;第2 層引導(dǎo)可變形卷積采用的擴(kuò)張率為2,它可以使得每個(gè)點(diǎn)在附近顏色相近的區(qū)域進(jìn)行聚合,進(jìn)一步優(yōu)化代價(jià)體.
對(duì)于基于誤差引導(dǎo)的優(yōu)化聚合,通過誤差圖引導(dǎo)先驗(yàn)進(jìn)行殘差代價(jià)體學(xué)習(xí). 首先,根據(jù)顏色引導(dǎo)聚合回歸得到的視差圖對(duì)原始右視圖進(jìn)行warp計(jì)算獲得誤差圖. 隨后,將誤差圖、左視圖、第1 級(jí)引導(dǎo)優(yōu)化視差圖進(jìn)行串聯(lián),并作為第2 級(jí)引導(dǎo)優(yōu)化聚合模塊的引導(dǎo)先驗(yàn)特征,通過將誤差圖作為引導(dǎo)輸入可以有效針對(duì)匹配誤差較大的區(qū)域進(jìn)行代價(jià)體的優(yōu)化聚合. 與顏色引導(dǎo)優(yōu)化計(jì)算過程相似,該優(yōu)化模塊兩次引導(dǎo)可變形卷積擴(kuò)張率分別設(shè)置為4 和2. 該模塊通過學(xué)習(xí)殘差代價(jià)體的方式實(shí)現(xiàn)對(duì)匹配存在誤差的區(qū)域進(jìn)行優(yōu)化.
2. 2. 4 視差回歸
本文采用soft argmin 回歸視差圖. 對(duì)3D 和2D 聚合后的代價(jià)體均進(jìn)行線性插值還原到全分辨率全視差搜索范圍的代價(jià)體,進(jìn)而回歸視差圖. 其計(jì)算模型如式(4)所示.
其中,d?為預(yù)測(cè)視差,Dmax 為最大視差,σ ( c ) 為softmax函數(shù),cd 為視差候選對(duì)象d 的代價(jià)值.
為了提高算法測(cè)試推理效率,本文在訓(xùn)練階段訓(xùn)練完整的網(wǎng)絡(luò),測(cè)試推理階段則不對(duì)3D 卷積中前2 個(gè)輸出單元進(jìn)行計(jì)算. 將經(jīng)過兩級(jí)2D 引導(dǎo)優(yōu)化后的代價(jià)體作為最終精確代價(jià)體進(jìn)行視差圖回歸.
2. 2. 5 損失函數(shù)
GRNet 網(wǎng)絡(luò)中最終的損失L通過式(5)進(jìn)行計(jì)算.
其中,d gt 為真實(shí)視差圖,di 為3D 代價(jià)聚合輸出的視差圖,λi 為3D 代價(jià)聚合的權(quán)重,d refi 為2D 優(yōu)化聚合輸出的視差圖,ηi 為2D 代價(jià)聚合的權(quán)重.
3 實(shí)驗(yàn)
3. 1 數(shù)據(jù)集與評(píng)估指標(biāo)
為了詳細(xì)說明本文算法的有效性,本文在多個(gè)立體匹配標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行測(cè)試,分別為SceneFlow[9]、KITTI2012[19]、KITTI2015[20].
Scene Flow: Scene Flow 是合成立體匹配標(biāo)準(zhǔn)數(shù)據(jù)集,提供35 454 對(duì)訓(xùn)練圖像和4370 對(duì)測(cè)試圖像. 該數(shù)據(jù)集提供了密集的視差圖作為標(biāo)準(zhǔn)視差圖(Ground Truth).
KITTI 2012: KITTI 2012 包含194 對(duì)訓(xùn)練圖像和195 對(duì)測(cè)試圖像. 該數(shù)據(jù)集通過激光雷達(dá)獲得稀疏標(biāo)準(zhǔn)視差圖. 本文對(duì)194 對(duì)訓(xùn)練圖像進(jìn)行劃分,采用隨機(jī)抽樣抽取34 對(duì)圖像對(duì)作為驗(yàn)證集,剩余160 對(duì)圖像作為訓(xùn)練集.
KITTI 2015: KITTI 2015 包含200 對(duì)訓(xùn)練圖像和200 對(duì)測(cè)試圖像. 該數(shù)據(jù)集同樣通過激光雷達(dá)獲得稀疏標(biāo)準(zhǔn)視差圖. 本文對(duì)200 對(duì)訓(xùn)練圖像對(duì)進(jìn)行劃分,隨機(jī)抽取20% 對(duì)圖像作為驗(yàn)證集,剩余80% 對(duì)圖像對(duì)為訓(xùn)練集.
3. 2 實(shí)驗(yàn)細(xì)節(jié)
本文基于Pytorch 環(huán)境,在單個(gè)NVIDIAA100 GPU 進(jìn)行網(wǎng)絡(luò)訓(xùn)練. 對(duì)于此次實(shí)驗(yàn),本文采用Adam 優(yōu)化器,設(shè)置參數(shù)β1 = 0. 9,β2 = 0. 999,分別設(shè)置5 個(gè)預(yù)測(cè)視差圖的權(quán)重分別為λ0 = 0. 5,λ1 = 0. 7,λ 2 = 0. 8,η1 = 0. 8,η2 = 1. 0.
實(shí)驗(yàn)在Scene Flow 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,迭代次數(shù)為50 次,初始學(xué)習(xí)率為0. 001,并且分別在迭代次數(shù)為20、32、40、44、47 次后將學(xué)習(xí)率降低1/2. 預(yù)訓(xùn)練的訓(xùn)練批次為12,測(cè)試批次為8. 經(jīng)過在Scene Flow 數(shù)據(jù)集上的訓(xùn)練得到預(yù)訓(xùn)練模型后,在KITTI 數(shù)據(jù)集上進(jìn)行微調(diào),來對(duì)真實(shí)場(chǎng)景進(jìn)行立體匹配.
3. 3 消融實(shí)驗(yàn)
3. 3. 1 多特征提取模塊
為了驗(yàn)證多特征提取模塊的有效性,本文以GwcNet[15]為基準(zhǔn),設(shè)置多特征提取模塊替換GwcNet 中的特征提取模塊的實(shí)驗(yàn),表示為GRNet-0,并分別設(shè)置了堆疊沙漏網(wǎng)絡(luò)結(jié)構(gòu)個(gè)數(shù)為×2 和×3 的實(shí)驗(yàn)與GwcNet 進(jìn)行對(duì)比,如表1 所示. 實(shí)驗(yàn)結(jié)果顯示:在相同的實(shí)驗(yàn)環(huán)境下,相較于GwcNet 中級(jí)聯(lián)的特征提取結(jié)構(gòu),本文多特征提取模塊在Scene Flow 數(shù)據(jù)集中EPE 誤差從0. 76 px 降低到0. 55 px;在KITTI2012、KITTI2015 驗(yàn)證集中均提高20% 左右的精度;此外,采用2 層沙漏網(wǎng)絡(luò)的GRNet-0 在各項(xiàng)誤差指標(biāo)中均達(dá)到超過原始GwcNet 的效果. 通過數(shù)據(jù)對(duì)比分析,可以驗(yàn)證通過對(duì)初始特征圖采用分支結(jié)構(gòu)的多特征提取結(jié)構(gòu)優(yōu)于GwcNet 中級(jí)聯(lián)特征提取結(jié)構(gòu). 驗(yàn)證了通過多特征提取結(jié)構(gòu)可以提取更全面的匹配信息,對(duì)立體匹配整體的精度有著明顯的提升作用.
3. 3. 2 引導(dǎo)優(yōu)化模塊
為了驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)中兩次級(jí)聯(lián)2D 引導(dǎo)優(yōu)化模塊在配準(zhǔn)精度提升方面的有效性,本文分別設(shè)置去引導(dǎo)優(yōu)化聚合模塊的網(wǎng)絡(luò)GRNet-0,基于顏色的引導(dǎo)優(yōu)化網(wǎng)絡(luò)GRNet-c 以及基于顏色和誤差的網(wǎng)絡(luò)GRNet-ce(為了減少網(wǎng)絡(luò)可學(xué)習(xí)參數(shù),減少內(nèi)存消耗和提高算法效率,本文GRNet 采用2 層的沙漏結(jié)構(gòu),如表1 所示). 由實(shí)驗(yàn)數(shù)據(jù)可知:1)GRNet 在沒有任何優(yōu)化的情況下(即GRNet-0)可以達(dá)到比GwcNet 更高的精度;2)在加入兩次級(jí)聯(lián)2D 引導(dǎo)優(yōu)化模塊后,Scene Flow驗(yàn)證集中EPE 誤差可以達(dá)到0. 48;3)KITTI2012、KITTI2015 數(shù)據(jù)集中相對(duì)于GwcNet 精度均提高30% 左右. 圖6 展示了經(jīng)過兩次級(jí)聯(lián)優(yōu)化后的GRNet 的可視化對(duì)比結(jié)果,GwcNet 在細(xì)小邊緣區(qū)域均存在匹配模糊、不完整等問題,而GRNet 有效緩解了該類問題,實(shí)驗(yàn)證明了GRNet 中的兩次級(jí)聯(lián)引導(dǎo)優(yōu)化聚合的有效性.
同時(shí),本文評(píng)估了3 種不同的引導(dǎo)優(yōu)化聚合模塊構(gòu)建方式,如圖5 所示. 圖5a m1 結(jié)構(gòu)為不提取引導(dǎo)特征,直接對(duì)引導(dǎo)圖像進(jìn)行1 次卷積作為輸入;圖5b m2 結(jié)構(gòu)為對(duì)引導(dǎo)圖像提取引導(dǎo)特征,其引導(dǎo)特征提取過程為添加卷積和殘塊堆疊;圖5cm3 結(jié)構(gòu)為對(duì)引導(dǎo)圖像提取引導(dǎo)特征,同時(shí)采用兩級(jí)引導(dǎo)可變形卷積,實(shí)驗(yàn)結(jié)果如表2 所示. 由實(shí)驗(yàn)數(shù)據(jù)可知,采用m3 結(jié)構(gòu)的引導(dǎo)優(yōu)化聚合結(jié)構(gòu)可以達(dá)到更好的效果,證明本文基于雙層引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化聚合模塊(m3 結(jié)構(gòu))對(duì)提升算法精度的有效性.
3. 3. 3 引導(dǎo)可變形卷積
為了驗(yàn)證引導(dǎo)可變形卷積對(duì)算法精度的提升作用,實(shí)驗(yàn)分別用傳統(tǒng)卷積結(jié)構(gòu)和可變形卷積結(jié)構(gòu)(DCN-v2[21])來替換GRNet 中的引導(dǎo)可變形卷積,分別與無優(yōu)化結(jié)構(gòu)的實(shí)驗(yàn)進(jìn)行對(duì)比,如表3 所示. 實(shí)驗(yàn)結(jié)果表明,相對(duì)于無優(yōu)化測(cè)試結(jié)果,基于可變形卷積結(jié)構(gòu)的優(yōu)化模塊僅可以產(chǎn)生微弱的精度提升;基于傳統(tǒng)卷積結(jié)構(gòu)的優(yōu)化模塊甚至?xí)档蛯?shí)驗(yàn)精度;基于引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化模塊卻顯著提升了實(shí)驗(yàn)精度(如EPE 誤差降低了21. 3%). 實(shí)驗(yàn)驗(yàn)證了引導(dǎo)可變形卷積在立體匹配任務(wù)中高性能的建模能力.
3. 3. 4 損失權(quán)重
對(duì)不同的輸出模塊的視差圖采用不同的損失權(quán)重對(duì)整體網(wǎng)絡(luò)精度有著一定影響,為了實(shí)現(xiàn)更高的匹配精度,本文設(shè)置了不同的權(quán)重系數(shù)在Scene Flow 數(shù)據(jù)集上進(jìn)行對(duì)比試驗(yàn),如表4 所示. 實(shí)驗(yàn)結(jié)果顯示:僅對(duì)最終的視差圖計(jì)算損失和對(duì)所有的視差圖采用同樣的損失權(quán)重都會(huì)網(wǎng)絡(luò)精度產(chǎn)生較大的影響,采用遞增式的損失權(quán)重會(huì)提升網(wǎng)絡(luò)精度. 在采用損失權(quán)重分別為0. 5、0. 7、0. 8、0. 8、1. 0 時(shí),其EPE 誤差達(dá)到最小,誤差為0. 48 px.
3. 3. 5 引導(dǎo)優(yōu)化模塊的適用性
本文引導(dǎo)優(yōu)化模塊同樣可以應(yīng)用到目前先進(jìn)的立體匹配網(wǎng)絡(luò)中,本節(jié)實(shí)驗(yàn)將基于顏色的引導(dǎo)優(yōu)化聚合模塊添加到3 個(gè)先進(jìn)的網(wǎng)絡(luò)中,即PSMNet[14]、GwcNet[15]和AANet[22]. 添加引導(dǎo)優(yōu)化模塊后的網(wǎng)絡(luò)分別表示為PSMNet-GR、GwcNet-GR 和AANet-GR,將原始網(wǎng)絡(luò)與使用引導(dǎo)優(yōu)化聚合模塊后的網(wǎng)絡(luò)性能進(jìn)行比較測(cè)試,測(cè)試結(jié)果如表5 所示. 從實(shí)驗(yàn)數(shù)據(jù)對(duì)比可知,相較于先進(jìn)立體匹配網(wǎng)絡(luò),如PSMNet、GwcNet、AANet 等,融合本文引導(dǎo)優(yōu)化模塊后的網(wǎng)絡(luò)精度均得到明顯提升,其中PSMNet-GR 的EPE 誤差降低了46. 8%,GwcNet-GR 的EPE 誤差降低了34. 2%,AANet-GR 的EPE 誤差降低了20. 7%;在KITTI2015 數(shù)據(jù)測(cè)試數(shù)據(jù)集中測(cè)試指標(biāo)D1-noc 及D1-all 均產(chǎn)生20% 左右的精度提升.此外,本文對(duì)ACVNet 及ACVNet-GR 在Scene?Flow 數(shù)據(jù)集上的進(jìn)行了定量對(duì)比驗(yàn)證,其ACVNet-GR 的測(cè)試結(jié)果中EPE 誤差為0. 47 px,優(yōu)于ACVNet 文中實(shí)驗(yàn)結(jié)果0. 48 px,驗(yàn)證了本文引導(dǎo)優(yōu)化模塊的適用性.
3. 4 GRNet 性能表現(xiàn)
為了驗(yàn)證GRNet 的細(xì)節(jié)區(qū)域的匹配效果,本文將GRNet 圖像測(cè)試結(jié)果與目前高精度網(wǎng)絡(luò)ACVNet[17]、邊緣保持網(wǎng)絡(luò)AANet[22]的測(cè)試結(jié)果進(jìn)行定性對(duì)比. 如圖7 所示,第1 行展示了測(cè)試圖像全局效果對(duì)比,第2、3、4 行展示了全局視圖中A、B、C 位置局部細(xì)節(jié)視圖中細(xì)小葉片、自行車把手、像素級(jí)細(xì)小結(jié)構(gòu)等具有挑戰(zhàn)性的局部細(xì)節(jié)匹配效果. 實(shí)驗(yàn)結(jié)果顯示:ACVNet 在邊緣區(qū)域誤差較大,難以實(shí)現(xiàn)細(xì)節(jié)區(qū)域的匹配;AANet 可以實(shí)現(xiàn)一定的邊緣保持效果,但在邊緣區(qū)域精度誤差較大,細(xì)節(jié)區(qū)域同樣難以實(shí)現(xiàn)匹配;GRNet 則可以在細(xì)節(jié)區(qū)域達(dá)到完整的邊緣保持效果,且細(xì)節(jié)區(qū)域清晰,實(shí)現(xiàn)像素級(jí)的匹配.
在定量對(duì)比上GRNet 也可以達(dá)到先進(jìn)的匹配精度. 本文將GRNet 在Scene Flow 上的測(cè)試結(jié)果與近年來先進(jìn)立體匹配算法進(jìn)行對(duì)比,如表6 所示. 實(shí)驗(yàn)數(shù)據(jù)顯示:GRNet 在Scene Flow 上的EPE 誤差可以達(dá)到0. 48,能夠取得與ACVNet 一致的精度;但由圖1 和圖7 中定性對(duì)比可知,GRNet 在細(xì)節(jié)區(qū)域、邊緣區(qū)域等具有挑戰(zhàn)性區(qū)域的匹配效果遠(yuǎn)優(yōu)于ACVNet 的效果. 此外,GRNet在可學(xué)習(xí)參數(shù)上比ACVNet 要少1. 54×107,證明了GRNet 高效的學(xué)習(xí)能力. 本節(jié)通過定性及定量的實(shí)驗(yàn)對(duì)比分析,驗(yàn)證了GRNet 可以實(shí)現(xiàn)高精度、高度邊緣保持、細(xì)節(jié)區(qū)域清晰的立體匹配.
3. 5 KITTI 基準(zhǔn)測(cè)試
為了驗(yàn)證GRNet 在實(shí)際場(chǎng)景的匹配計(jì)算性能,我們將GRNet 的測(cè)試結(jié)果提交至KITTI2012、KITTI2015 標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)測(cè),表7 展示了GRNet 與目前先進(jìn)的立體匹配網(wǎng)絡(luò)的定量對(duì)比數(shù)據(jù). 在KITTI2012 基準(zhǔn)測(cè)試中,實(shí)驗(yàn)結(jié)果顯示GRNet 達(dá)到了先進(jìn)的精度,其中在誤差指標(biāo)gt;4、gt;5 中均實(shí)現(xiàn)了比高精度立體匹配網(wǎng)絡(luò)ACVNet更好的結(jié)果. 在KITTI2015 基準(zhǔn)測(cè)試中,GRNet測(cè)試結(jié)果達(dá)到了優(yōu)于先進(jìn)立體匹配算法Acf?Net[23]、CFNet[24]的精度,但與ACVNet 相比,GRNet 在各項(xiàng)數(shù)據(jù)上與之存在約0. 2% 的差距.主要原因是,受KITTI 數(shù)據(jù)集真實(shí)視差圖的稀疏性影響,本文預(yù)訓(xùn)練網(wǎng)絡(luò)在KITTI 數(shù)據(jù)集上進(jìn)行微調(diào)時(shí)會(huì)損失部分邊緣保持效果,從而對(duì)精度產(chǎn)生影響.
相較于其他立體匹配網(wǎng)絡(luò),本文GRNet 也保持了較高的邊緣保持特性,圖8 展示了GRNet 在KITTI 測(cè)試數(shù)據(jù)集上的代表性的定性對(duì)比結(jié)果.實(shí)驗(yàn)結(jié)果顯示:ACVNet 在細(xì)節(jié)區(qū)域中的細(xì)節(jié)區(qū)域匹配存在邊緣肥大的問題,AANet 則難以實(shí)現(xiàn)細(xì)節(jié)區(qū)域的匹配,而GRNet 實(shí)現(xiàn)了細(xì)節(jié)區(qū)域的匹配,最大限度的還原了細(xì)節(jié)區(qū)域的邊緣,證明了GRNet 在真實(shí)場(chǎng)景下的有效性.
4 討論
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的算法被大量應(yīng)用于立體匹配研究,本節(jié)主要從特征提取、代價(jià)聚合及可變形卷積等方面的相關(guān)工作進(jìn)行綜述.
特征提?。禾卣魈崛∈橇Ⅲw匹配過程的關(guān)鍵步驟之一. 目前,主流立體匹配算法通常采用卷積層和堆疊的殘差塊來提取特征. Chang 等[14]將金字塔池化應(yīng)用到特征提取;Chabra 等[25]提出了Vortex池化,進(jìn)一步提升了實(shí)驗(yàn)效果. 然而該類算法都采用了單一尺度的特征提取,難以處理不同區(qū)域的具體匹配情況. 為了提高匹配精度,大量網(wǎng)絡(luò)架構(gòu)進(jìn)行了多尺度的特征提取改進(jìn),Xu 等[22]將金字塔特征應(yīng)用到特征提取,提取到3 個(gè)不同尺度的特征;Tankovich 等[26]同樣提取多尺度特征,實(shí)現(xiàn)了由粗到細(xì)的立體匹配;Shen 等[24]提取多尺度特征處理不同領(lǐng)域的立體匹配. 此外,擴(kuò)張卷積[27]也具備類似多尺度特征提取的特性,且具備在不降低分辨率的同時(shí)擴(kuò)大感受野的優(yōu)勢(shì),已在很多視覺任務(wù)中發(fā)揮了較好的作用[28,29].
為了實(shí)現(xiàn)不同區(qū)域的高精度匹配計(jì)算,本文構(gòu)建多特征提取結(jié)構(gòu),采用不同擴(kuò)張率的擴(kuò)張卷積作為分支結(jié)構(gòu)進(jìn)行特征提取. 該結(jié)構(gòu)的優(yōu)勢(shì)在于它可以保持同一尺度,提取不同感受野特征,兼顧圖像中不同尺寸區(qū)域的匹配,使得不同感受野的匹配結(jié)果進(jìn)行互補(bǔ),實(shí)現(xiàn)更全面的配準(zhǔn)計(jì)算.
代價(jià)聚合:基于2D 卷積的代價(jià)聚合通常有著高效的特性. Mayer 等[9]將相關(guān)層等作為代價(jià)聚合的輸入,通過編碼器-解碼器網(wǎng)絡(luò)直接回歸視差圖;Xu 等[22]提出了跨尺度的代價(jià)聚合和尺度內(nèi)代價(jià)聚合進(jìn)行互補(bǔ)計(jì)算,實(shí)現(xiàn)了高效的匹配計(jì)算. 隨著3D 卷積被引入立體匹配,大量研究通過對(duì)低分辨率的4D 代價(jià)體進(jìn)行聚合. Chang 等[14]提出了沙漏聚合網(wǎng)絡(luò),該結(jié)構(gòu)在提升立體匹配精度上有著出色的表現(xiàn),并被廣泛沿用到后續(xù)基于學(xué)習(xí)的高精度立體匹配算法中;Zhang 等[16]根據(jù)傳統(tǒng)半全局算法提出了半全局聚合層和局部引導(dǎo)聚合層,該聚合層可以取代3D 卷積進(jìn)行聚合實(shí)現(xiàn)更高精度;Chabra 等[25]將擴(kuò)張卷積引入到代價(jià)聚合過程,提升了聚合速度并實(shí)現(xiàn)了更高的匹配精度.
為實(shí)現(xiàn)局部細(xì)節(jié)區(qū)域完整的配準(zhǔn)計(jì)算,綜合3D 卷積立體匹配能夠有效回歸高精度視差圖和2D 卷積立體匹配可補(bǔ)充細(xì)節(jié)信息的優(yōu)勢(shì),基于交叉代價(jià)聚合算法[30]中顏色相近的區(qū)域往往有著接近代價(jià)值的假設(shè),本文在GRNet 網(wǎng)絡(luò)架構(gòu)中,提出了基于3D 聚合和2D 引導(dǎo)優(yōu)化聚合模塊的三級(jí)串聯(lián)的引導(dǎo)優(yōu)化代價(jià)聚合. 首先,通過3D 聚合模塊獲得粗略的低分辨率代價(jià)體;其次,分別采用基于顏色引導(dǎo)和基于誤差引導(dǎo)的兩級(jí)2D 引導(dǎo)優(yōu)化聚合模塊對(duì)全分辨率的代價(jià)體進(jìn)行像素級(jí)的細(xì)化,最終獲取高精度、細(xì)節(jié)完整的代價(jià)體.
可變形卷積(DCN):卷積神經(jīng)網(wǎng)絡(luò)在大量視覺任務(wù)中取得了巨大的成就,但是受限于卷積單元在固定位置對(duì)輸入特征圖進(jìn)行采樣,缺乏處理幾何變換的內(nèi)部機(jī)制,對(duì)于在空間位置上編碼語義的深層卷積神經(jīng)網(wǎng)絡(luò)來說是不可取的. 基于此,為了提高卷積對(duì)幾何變換的建模能力,適應(yīng)物體在尺度、姿態(tài)、視點(diǎn)和局部形態(tài)等特征上的變化,可變形卷積提出在卷積的基礎(chǔ)上為卷積核學(xué)習(xí)偏移量,并添加調(diào)節(jié)機(jī)制[21]. 可變形卷積已在目標(biāo)檢測(cè)[31]和語義分割[32]任務(wù)中取得了顯著的效果. 近年來,可變形卷積逐步被引入立體匹配研究,Xu等[22]采用可變形卷積自適應(yīng)學(xué)習(xí)卷積核以實(shí)現(xiàn)自適應(yīng)聚合;Li 等[33]將可變形卷積引用到相關(guān)性計(jì)算中.
不同于傳統(tǒng)可變形卷積,本文提出基于引導(dǎo)先驗(yàn)的可變形卷積,據(jù)我們所知,到目前為止基于引導(dǎo)先驗(yàn)的可變形卷積架構(gòu)鮮有被應(yīng)用于立體匹配任務(wù). 該結(jié)構(gòu)通過引導(dǎo)先驗(yàn)學(xué)習(xí)可變形卷積核,提升邊緣、細(xì)節(jié)區(qū)域的細(xì)粒度建模能力. 同時(shí)該結(jié)構(gòu)具有靈活的建模特性,根據(jù)引導(dǎo)層的不同可以應(yīng)用于多種視覺任務(wù).
5 小結(jié)
本文主要貢獻(xiàn)如下:1)本文首次將引導(dǎo)先驗(yàn)融入立體匹配可變形卷積學(xué)習(xí)任務(wù),提出了引導(dǎo)可變形卷積,以增強(qiáng)可變形卷積的可變形參數(shù)學(xué)習(xí)能力;2)構(gòu)建了基于引導(dǎo)可變形卷積的引導(dǎo)優(yōu)化聚合模塊,將額外的輔助信息添加到代價(jià)聚合中,以引導(dǎo)代價(jià)體進(jìn)行聚合計(jì)算;3)提出了融合3D聚合全局優(yōu)勢(shì)和2D 引導(dǎo)優(yōu)化聚合局部?jī)?yōu)勢(shì)的三級(jí)串聯(lián)引導(dǎo)優(yōu)化代價(jià)聚合立體匹配網(wǎng)絡(luò),以實(shí)現(xiàn)細(xì)節(jié)區(qū)域高精度立體匹配. 此外,相較于現(xiàn)有先進(jìn)算法,本文算法在KITTI2012[19]、KITTI2015[20]等標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試中都有著先進(jìn)的表現(xiàn).
參考文獻(xiàn):
[1] Li J, Liu Y G. High precision and fast disparity estimationvia parallel phase correlation hierarchicalframework [J]. J Real-Time Image Pr, 2020,18: 463.
[2] Li J, Liu Y G, Du S L, et al. Hierarchical and adaptivephase correlation for precise disparity estimationof UAV images [J]. IEEE T Geosci Remote, 2016,54: 7092.
[3] Wu P F, Liu Y G, Li J, et al. Fast and adaptive 3Dreconstruction with extensively high completeness[ J]. IEEE T Multimedia, 2017, 19: 266.
[4] Li J, Li Y X, Wu T S, et al. Fast, low-power andhigh-precision 3D reconstruction of UAV imagesbased on FPGA [J]. Journal of Beijing University ofAeronautics and Astronautics, 2021, 47: 486.[李杰, 李一軒, 吳天生, 等. 基于FPGA 無人機(jī)影像快速低功耗高精度三維重建[J]. 北京航空航天大學(xué)學(xué)報(bào), 2021, 47: 486.]
[5] Patil V, Sakaridis C, Liniger A, et al. P3Depth:Monocular depth estimation with a piecewise planarityprior [C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. NewOrleans: IEEE, 2022: 1600.
[6] Xu Y, Zhu X, Shi J, et al. Depth completion fromsparse LiDAR data with depth-normal constraints[C]//Proceedings of the IEEE InternationalConference on Computer Vision. Seoul: IEEE,2019: 2811.
[7] Zbontar J, Lecun Y. Computing the stereo matchingcost with a convolutional neural network [C]//Proceedingsof the IEEE Conference on Computer Visionand Pattern Recognition. Boston: IEEE, 2015: 1592.
[8] Liang Z F, Feng Y L, Guo Y L, et al. Learning fordisparity estimation through feature constancy [C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City:IEEE, 2018: 2811.
[9] Mayer N, Ilg E, Hausser P, et al. A large dataset totrain convolutional networks for disparity, opticalflow, and scene flow estimation [C]//Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Las Vegas: IEEE, 2016: 4040.
[10] Pang J H, Sun W X, Ren J S, et al. Cascade residuallearning: a two-stage convolutional neural networkfor stereo matching [C] //Proceedings of theIEEE International Conference on Computer Vision.Venice: IEEE, 2017: 887.
[11] Duggal S, Wang S, Ma W C,et al. DeepPruner:Learning efficient stereo matching via differentiablepatchmatch [C]//Proceedings of the IEEE internationalconference on computer vision. Seoul: IEEE,2019: 4384.
[12] Song X, Zhao X, Hu H W, et al. EdgeStereo: Acontext integrated residual pyramid network for stereomatching [C]//Proceedings of the EuropeanConference on Computer Vision. Munich: Springer,2018: 20.
[13] Kendall A, Martirosyan H, Dasgupta S, et al. Endto-end learning of geometry and context for deep stereoregression [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. Hawaii:IEEE, 2017: 66.
[14] Chang J R, Chen Y S. Pyramid stereo matching network[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Salt LakeCity: IEEE, 2018: 5410.
[15] Guo X Y, Yang K, Yang W K, et al. Group-wisecorrelation stereo network [C]//Proceedings of theIEEE conference on computer vision and pattern recognition.Long Beach: IEEE, 2019: 3273.
[16] Zhang F H, Prisacariu V, Yang R G, et al. GANet:Guided aggregation net for end-to-end stereomatching [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. LongBeach: IEEE, 2019: 185.
[17] Xu G W, Cheng J D, Guo P, et al. Attention concatenationvolume for accurate and efficient stereomatching [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition. New Orleans:IEEE, 2022: 12981.
[18] Dai J F, Qi H Z, Xiong Y W, et al. Deformable convolutionalnetworks [C]//Proceedings of the IEEEinternational conference on computer vision. Venice:IEEE, 2017: 764.
[19] Geiger A, Lenz P, Urtasun R. Are we ready for autonomousdriving? The kitti vision benchmarksuite [C]//Proceedings of the IEEE Conference oncomputer vision and pattern recognition. Providence:IEEE, 2012: 3354.
[20] Menze M, Heipke C, Geiger A. Joint 3d estimationof vehicles and scene flow [J]. ISPRS Annals of thePhotogrammetry Remote Sensing and Spatial InformationSciences, 2015, 2: 427.
[21] Zhu X Z, Hu H, Lin S, et al. Deformable convnetsv2: more deformable, better results [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Long Beach: IEEE, 2019:9308.
[22] Xu H F, Zhang J Y. AANet: Adaptive aggregationnetwork for efficient stereo matching [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Seattle: IEEE, 2020: 1959.
[23] Zhang Y M, Chen Y M, Bai X, et al. Adaptive unimodalcost volume filtering for deep stereo match?ing [C]//Proceedings of the AAAI conference on artificialintelligence. New York: AAAI, 2020: 12926.
[24] Shen Z L, Dai Y C, Rao Z B. CFNet: Cascade andfused cost volume for robust stereo matching [C]//Proceedings of the IEEE conference on computer visionand pattern recognition. Nashville: IEEE,2021: 13906.
[25] Chabra R, Straub J, Sweeney C, et al. Stereo?DRNet: Dilated residual stereonet [C]//Proceedingsof the IEEE conference on computer vision andpattern recognition. Long Beach: IEEE, 2019:11786.
[26] Tankovich V, Hane C, Zhang Y D, et al. HITNet:Hierarchical iterative tile refinement network for realtimestereo matching [C]//Proceedings of the IEEEconference on computer vision and pattern recognition.Nashville: IEEE, 2021: 14362.
[27] Yu F, Koltun V. Multi-scale context aggregation bydilated convolutions[ C]//Proceedings of the internationalConference on learning representations. PuertoRico: ICLR, 2016.
[28] Yu F, Koltun V, Funkhouser T. Dilated residual networks[C] //Proceedings of the IEEE conference oncomputer vision and pattern recognition. Hawaii:IEEE, 2017: 636.
[29] Chen L C, Papandreou G. DeepLab: Semantic imagesegmentation with deep convolutional nets,atrous convolution, and fully connected crfs [J].IEEE T Pattern Anal, 2018, 40: 834.
[30] Zhang K, Lu J B, Lafruit G. Cross-based local stereomatching using orthogonal integral images [J].IEEE T Circ Syst Vid, 2017, 19: 1073.
[31] Zhou L Q, Sun P, Li D, et al. A novel object detectionmethod in city aerial image based on deformableconvolutional networks [J]. IEEE Access, 2022,10: 31455.
[32] Yu B Q, Jiao L C, Liu X, et al. Entire deformableconvnets for semantic segmentation [J]. Knowl-Based Syst, 2022, 250: 1.
[33] Li J K, Wang P S, Xiong P F, et al. Practical stereomatching via cascaded recurrent network with adaptivecorrelation [C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.New Orleans: IEEE, 2022: 16263.
(責(zé)任編輯: 白林含)
基金項(xiàng)目: 國(guó)家自然科學(xué)基金項(xiàng)目(61801279); 山西省基礎(chǔ)研究計(jì)劃自然科學(xué)研究項(xiàng)目(202203021211333); 山西省高等學(xué)校哲學(xué)社會(huì)科學(xué)研究項(xiàng)目(2021W058); 山西省基礎(chǔ)研究計(jì)劃青年科學(xué)研究項(xiàng)目(202103021223308); 西安碑林區(qū)應(yīng)用技術(shù)研發(fā)項(xiàng)目(GX2244)