張 博,張美靈,李 雪,朱 磊
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
雙目立體視覺是計算機(jī)視覺領(lǐng)域的重要研究分支之一,該技術(shù)基于視差原理恢復(fù)物體三維幾何信息,在三維重建、自動駕駛、工業(yè)檢測等諸多領(lǐng)域具有廣泛應(yīng)用。立體匹配是實現(xiàn)雙目感知的核心技術(shù),旨在為一對左右視圖查找同名像素點。
立體匹配方法可分為傳統(tǒng)立體匹配方法和基于深度學(xué)習(xí)的立體匹配方法[1]。傳統(tǒng)立體配方法通常包含匹配代價計算、代價聚合、視差計算和視差優(yōu)化4個步驟[2]。一般采用手工設(shè)計的特征比較同名點的差異性,缺乏上下文信息,且經(jīng)驗參數(shù)的設(shè)置存在一定局限性,導(dǎo)致其在無紋理、重復(fù)紋理、反射等復(fù)雜場景下的匹配效果不盡人意?;谏疃葘W(xué)習(xí)的立體匹配方法根據(jù)是否直接端到端輸出視差圖被劃分為非端到端方法和端到端方法,其中非端到端方法專注于將傳統(tǒng)立體匹配方法4個步驟中的某個步驟或某幾個步驟用深度神經(jīng)網(wǎng)絡(luò)替代,本質(zhì)上仍舊使用傳統(tǒng)方法的框架,未解決視差后處理、圖像上下文信息缺乏等問題[3]。端到端方法以左右視圖作為輸入,利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力直接學(xué)習(xí)原始數(shù)據(jù)而后輸出視差圖,不需要任何后處理。該種方法在立體匹配任務(wù)中呈現(xiàn)出巨大的潛力,研究者們致力于從特征提取、代價聚合等不同角度提升網(wǎng)絡(luò)性能以獲得更加準(zhǔn)確的視差估計。
圖像多尺度特征已被廣泛應(yīng)用于多種任務(wù)中[4-6]。在立體匹配方面,特征提取網(wǎng)絡(luò)獲得的特征圖質(zhì)量直接決定了初始代價體的精度,而飽含豐富上下文信息的圖像特征不僅可以驅(qū)動網(wǎng)絡(luò)更好地學(xué)習(xí)目標(biāo)對象與其子區(qū)域的隸屬關(guān)系(如汽車與窗戶、輪胎等子區(qū)域間的關(guān)系),還可以動態(tài)減小搜索范圍,有利于匹配估計。為了捕獲上下文信息,文獻(xiàn)[7]在特征提取階段引入空間金字塔池化模塊(spatial pyramid pooling, SPP)提取不同尺度和不同位置的區(qū)域級特征,探索對象和子區(qū)域的上下文關(guān)系。文獻(xiàn)[8]提出了一種淺層編碼器-解碼器結(jié)構(gòu)融合網(wǎng)絡(luò)不同層的輸出,從而獲得具有較大感受野和不同級別的多尺度特征,提高特征區(qū)分性。文獻(xiàn)[9]構(gòu)建具有跳躍連接的類似于U-Net的編碼器-SPP-解碼器金字塔特征提取架構(gòu),提取多尺度圖像特征并合并不同層次的上下文信息,有效增強(qiáng)特征表示。利用左右特征圖構(gòu)建的4D初始代價體通常缺乏全局信息,在遮擋、無紋理等區(qū)域誤匹配率較高。為了解決此問題,文獻(xiàn)[10-13]提出不同的代價聚合網(wǎng)絡(luò)對初始代價體進(jìn)行全局優(yōu)化。文獻(xiàn)[10]利用3D編碼器-解碼器結(jié)構(gòu)聚合代價體,以推理全局場景的幾何信息,端到端輸出預(yù)測視差。在此基礎(chǔ)上,文獻(xiàn)[7,11]設(shè)計了新穎的堆疊式沙漏結(jié)構(gòu),學(xué)習(xí)更多的上下文信息以正則化代價體,展示了出色的匹配效果。文獻(xiàn)[12]基于可變形卷積構(gòu)建了2種不同的自適應(yīng)代價體聚合結(jié)構(gòu),有效利用了多尺度代價體之間的互補(bǔ)關(guān)系。為了提高模型性能,文獻(xiàn)[13]將特征提取網(wǎng)絡(luò)獲取的圖像特征與代價體共同輸入至代價聚合網(wǎng)絡(luò),利用注意力機(jī)制計算初始圖像特征的權(quán)重激勵代價體通道,顯著提高視差預(yù)測精度。
文獻(xiàn)[7-9]在提取多尺度特征時使用SPP模塊,但池化操作損失了空間分辨率,導(dǎo)致其在細(xì)節(jié)和邊緣區(qū)域匹配效果不佳;文獻(xiàn)[7,11]在代價聚合時創(chuàng)新性地使用堆疊沙漏結(jié)構(gòu),雖使精度有一定的提升,但未考慮參考圖像特征與代價體之間的交互性。文獻(xiàn)[13]已經(jīng)意識到圖像特征引導(dǎo)代價聚合的重要性,然而該方法通常為代價體與初始圖像特征之間建立聯(lián)系,忽略了多尺度上下文信息。為了充分挖掘圖像多尺度特征,同時探索圖像多尺度特征和代價體之間的相互作用性,本文提出一種基于PSMNet的改進(jìn)立體匹配網(wǎng)絡(luò)DGNet。在特征提取階段,構(gòu)建密集多尺度特征提取(Dense Multi-scale feature Extraction,DME)模塊捕獲包含多尺度信息和語義信息的圖像特征,改進(jìn)用于立體匹配的特征表示;在代價聚合階段,提出密集多尺度特征引導(dǎo)代價聚合(Dense multi-scale features guided cost aggregation,DGCA)結(jié)構(gòu),使代價體在多尺度圖像特征的幫助下自適應(yīng)聚合有效的上下文信息,有利于解碼出更加準(zhǔn)確的立體幾何信息。
DGNet整體結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)主要包括密集多尺度特征提取、密集多尺度特征引導(dǎo)代價聚合以及視差回歸3部分。基本流程如下:首先,將標(biāo)準(zhǔn)左右圖像輸入到具有共享權(quán)重的初始特征提取網(wǎng)絡(luò)獲得初始特征圖;接著通過密集連接的空洞空間金字塔池化結(jié)構(gòu)(Dense Atrous Spatial Pyramid Pooling, DenseASPP),在擴(kuò)大特征點感受野的同時獲得像素采樣密集的多尺度特征以增強(qiáng)特征顯著性表示。其次,對含有多尺度信息的左右特征圖以像素為單位逐個錯位串聯(lián)構(gòu)成初始串聯(lián)代價體,并在改進(jìn)的代價聚合網(wǎng)絡(luò)中融合串聯(lián)代價體和密集多尺度上下文特征,獲得高質(zhì)量的代價體幾何信息;最后,通過雙線性插值和視差回歸獲得視差圖。
圖 1 DGNet結(jié)構(gòu)Fig.1 The structure of DGNet
本文基于初始特征提取網(wǎng)絡(luò)和DenseASPP[14]構(gòu)建DME模塊,初始特征提取網(wǎng)絡(luò)用于提取初始圖像特征,DenseASPP依賴于不同膨脹率的空洞卷積和密集連接方式提取,整合多尺度信息。
1.1.1 初始特征提取
首先將一對左右視圖輸入至權(quán)值共享的類似于ResNet的初始特征提取網(wǎng)絡(luò)。不同的是,為了獲得較大感受野,第一個卷積層使用3個3×3卷積代替7×7卷積獲得淺層特征,隨后經(jīng)過包含3個殘差塊、16個殘差塊、3個殘差塊、3個殘差塊的4個殘差結(jié)構(gòu),輸出大小為B×H/4×W/4×4C的初始特征圖f,以此作為DenseASPP結(jié)構(gòu)的輸入。其中B是批量大小,H、W分別是左右視圖的高和寬,4C是特征通道數(shù)128。
1.1.2 密集連接的空洞空間金字塔池化結(jié)構(gòu)
DenseASPP結(jié)合ASPP[15]的多尺度生成方式與DenseNet的密集連接方式獲取密集多尺度特征。本文設(shè)計的DenseASPP結(jié)構(gòu)包含5個不同膨脹率(d≤24)的空洞卷積層,每層空洞卷積的輸出為
yl=Hk,dl([yl-1,yl-2,…,y0])
(1)
式中:yl表示第l層空洞卷積的輸出,l∈{1,2,3,4,5};Hk,dl表示膨脹率為dl,大小為K×K的卷積核,其中膨脹率dl分別為d1=3,d2=6,d3=12,d4=18,d5=24;y0表示初始特征;…表示特征在通道上進(jìn)行拼接操作。
將當(dāng)前空洞卷積層提取到的特征傳遞到后續(xù)所有未訪問的卷積層中,因此中間的每層空洞卷積均能編碼不同尺度的圖像特征,包含大量語義信息。每層空洞卷積設(shè)置相同的輸出通道數(shù)w,具體步驟如下:將初始特征f輸入至d1=3的第1層空洞卷積,緊接著將輸出結(jié)果與輸入特征圖在通道維度上進(jìn)行拼接作為第1層空洞卷積的輸出特征,則第1層空洞卷積的輸入特征通道數(shù)為128,輸出特征通道數(shù)為128+w;d2=6的第2層空洞卷積的輸入特征通道數(shù)為128+w,輸出特征通道數(shù)為128+2w。以此類推,第l層空洞卷積層的輸入特征通道數(shù)為128+(l-1)·w,輸出特征通道數(shù)為128+l·w。經(jīng)DenseASPP模塊獲取的密集多尺度特征包含更密集的像素采樣、更大的感受野。
當(dāng)并行式放置空洞卷積層時,膨脹率為6的空洞卷積只采樣下層特征中的9個像素。因此,當(dāng)采用更大膨脹率時其采樣的像素點更為稀疏。如圖2所示,在二維情況下,DenseASPP中堆疊式放置空洞卷積層且膨脹率逐層增加,上層的卷積層可以對底層特征進(jìn)行更加密集的采樣,膨脹率為6的空洞卷積層可以采樣49個像素,獲得的信息連續(xù)性更強(qiáng),有助于提升視差預(yù)測的準(zhǔn)確性。
在擴(kuò)大感受野方面,每層空洞卷積的感受野Rk,d計算公式為
Rk,d=(d-1)×(K-1)+K
(2)
式中:d為膨脹率;K為卷積核大小。由此可知,膨脹率為24的空洞卷積層最大感受野為R3,24=49,本文中DenseASPP最大的感受野計算公式為
Rmax=R3,3+R3,6+R3,12+R3,18+
R3,24-4=128
(3)
圖 2 像素采樣二維示意圖Fig.2 Two-dimensional diagram of pixel sampling
小膨脹率的空洞卷積層和大膨脹率的空洞卷積層相互依賴,產(chǎn)生更大的感受野感知圖像上下文信息,這有助于提高算法在無紋理、重復(fù)紋理等不適定區(qū)域的匹配精度。
文獻(xiàn)[16]通過計算左右特征圖的互相關(guān)來構(gòu)建相關(guān)代價體,該方法在視差通道下將特征向量轉(zhuǎn)換為余弦相似度,具有較低內(nèi)存使用率和較快運行時間的優(yōu)點。然而,在每個視差下僅生成一個單通道相關(guān)圖,會損失大量特征信息,導(dǎo)致模型性能較差。本文對DenseASPP輸出的密集多尺度特征,在每個視差等級下將左特征圖與其對應(yīng)的右特征圖逐像素錯位拼接,形成大小為B×H/4×W/4×D/4×4C的初始串聯(lián)代價體,使代價體保留更多的圖像幾何信息和上下文信息,其中D是最大視差,4C是通道數(shù)128。
由特征圖錯位拼接形成初始代價體的過程如圖3所示。其中紅色長方形和藍(lán)色長方形分別表示由多尺度特征提取模塊獲取的1/4左圖像特征圖和1/4右圖像特征圖,白色部分為不同的錯位長度,即視差等級0~D/4。
本文提出的密集多尺度特征引導(dǎo)代價聚合結(jié)構(gòu)主要由3個自上而下、自下而上的沙漏網(wǎng)絡(luò)和6個代價體融合上下文特征(context and geometry fusion,CGF)模塊構(gòu)成,旨在聚合代價體的同時自適應(yīng)融合DME模塊的多尺度上下文特征,輸出全局優(yōu)化后的代價體。
1.3.1 3D堆疊沙漏結(jié)構(gòu)
如圖1所示,DGCA結(jié)構(gòu)的2個輸入是初始串聯(lián)代價體和密集多尺度特征,3個相同的沙漏網(wǎng)絡(luò)均包括編碼器、2個CGF模塊和解碼器。首先利用預(yù)沙漏模塊聚合上下文信息,增加特征感受野;接著依次使用2個下采樣模塊獲得大小為B×H/8×W/8×D/8×2C的代價體和B×H/16×W/16×D/16×4C的代價體,每個下采樣模塊由一個步幅為2的3×3×3的3D卷積和一個步幅為1的3×3×3的3D卷積組成;然后交替使用CGF模塊和步幅為2的3×3×3轉(zhuǎn)置卷積,依次上采樣出大小為B×H/8×W/8×D/8×2C的代價體和B×H/4×W/4×D/4×C的高分辨率代價體。將上采樣后的高分辨率代價體作為第2個沙漏結(jié)構(gòu)的輸入,其輸出的代價體作為第3個沙漏結(jié)構(gòu)的輸入,捕獲全局信息,獲得最終的高質(zhì)量代價體。此外,在每個沙漏網(wǎng)絡(luò)中使用2個1×1×1的3D卷積添加快捷連接(如圖1中虛線所示),整合相同分辨率的代價體,在不顯著增加計算成本的情況下提高性能。在預(yù)沙漏模塊后增加一個輸出模塊構(gòu)成4個輸出和4個損失,額外的輔助損失使網(wǎng)絡(luò)更好地學(xué)習(xí)較低層特征,有助于最終的視差預(yù)測。
1.3.2 代價體融合上下文特征模塊
本文在代價聚合階段融合代價體與密集多尺度特征以得到更精確的立體幾何信息。需要說明的是,二者融合時需要保持相同的分辨率和通道數(shù)量,因此設(shè)計2個不同的下采樣模塊調(diào)整密集多尺度特征的分辨率及相應(yīng)的通道數(shù)量。第一個下采樣模塊采用2個步幅為2的3×3卷積將密集多尺度特征下采樣至B×H/16×W/16×4C。另外一個下采樣模塊采用一個步幅為2的3×3卷積和步幅為1的1×1卷積將其下采樣至B×H/8×W/8×2C。將下采樣后的密集多尺度上下文特征C∈RB×C0×H0×W0和相同分辨率、相同通道數(shù)量的代價體G∈RB×C0×D0×H0×W0(C0:通道數(shù),4C或2C;D0:視差,D/16或D/8;H0:高,H/16或H/8;W0:寬,W/16或W/8)共同輸入至CGF模塊。圖4為代價體融合上下文特征模塊。
圖 4 代價體融合上下文特征模塊Fig.4 Cost volum fused context featurest model
圖4中先將C在視差維度擴(kuò)展至B×C0×D0×H0×W0獲得C′,其次求和C′和G,接著將其輸入到卷積核大小為1×5×5的3D卷積層中,最后運用Sigmoid函數(shù)生成空間注意力掩膜MS∈RB×C0×D0×H0×W0以自適應(yīng)強(qiáng)調(diào)“重要”區(qū)域,抑制“不重要”區(qū)域,該過程可表示為
MS=σ[f5×5(G+C′)]
(4)
式中:σ為sigmoid函數(shù),f5×5為卷積核大小為1×5×5的3D卷積層。密集多尺度上下文特征和代價體的融合過程可表示為
GC=f5×5(G+MS⊙C′)
(5)
式中:⊙為Hadamard乘積;GC為融合密集多尺度上下文特征后的代價體。
(6)
式中:k為視差等級;Pk為每個視差等級下的概率;Dmax為最大視差。采用SmoothL1損失函數(shù)訓(xùn)練網(wǎng)絡(luò),因為相比于L2損失函數(shù),它不易受異常值的影響,具有更好的魯棒性[15]。損失函數(shù)計算公式為
(7)
4個輸出模塊均會生成預(yù)測視差圖,其損失分別用L0、L1、L2、L3表示,最終的損失函數(shù)由L0、L1、L2、L3加權(quán)和構(gòu)成,其計算公式為
(8)
式中:λi為Li的權(quán)重系數(shù)。
2.1.1 實驗環(huán)境
整個網(wǎng)絡(luò)使用Pytorch框架構(gòu)建,在2臺NVIDIA RTX3060 GPU上對模型執(zhí)行訓(xùn)練。所有實驗,采用Adam優(yōu)化器(β1=0.9,β2=0.999)端到端訓(xùn)練,訓(xùn)練時將圖像隨機(jī)裁剪為H=256,W=512,最大視差Dmax設(shè)置為192,4個輸出模塊的權(quán)重系數(shù)設(shè)置為λ0=0.5,λ1=0.5,λ2=0.7,λ3=1.0。所提算法在SceneFlow、KITTI 2015和KITTI 2012三大立體數(shù)據(jù)集上進(jìn)行實驗。對于SceneFlow,首先訓(xùn)練20個周期,然后對其微調(diào)20個周期,初始學(xué)習(xí)率為0.001,在第10、14、16、18周期學(xué)習(xí)率依次降低一半。對于KITTI,在混合KITTI 2012和KITTI 2015的訓(xùn)練集上使用SceneFlow的預(yù)訓(xùn)練模型微調(diào)600個周期,初始學(xué)習(xí)率為0.001,在第300個周期學(xué)習(xí)率調(diào)至0.000 1。
2.1.2 評價指標(biāo)
對于KITTI 2015數(shù)據(jù)集,通常采用所有(All)像素與非遮擋(Noc)像素2種情況下的背景區(qū)域(D1-bg)、前景區(qū)域(D1-fg)以及所有區(qū)域(D1-all)的三像素誤差百分比作為評價指標(biāo)。對于KITTI 2012數(shù)據(jù)集,常采用非遮擋(x-Noc)和所有(x-All)像素中大于x像素的錯誤像素百分比以及非遮擋(EPE-Noc)和所有像素端點誤差(EPE-All)作為評價指標(biāo)。對于SceneFlow數(shù)據(jù)集,常采用端點誤差(End Point Error, EPE)以及視差異常值D1的百分比作為評價指標(biāo)。
為了驗證DME模塊與DGCA結(jié)構(gòu)的有效性,在SceneFlow數(shù)據(jù)集上進(jìn)行4種情形的對比實驗。采取D1、EPE評估各模塊對網(wǎng)絡(luò)模型性能的貢獻(xiàn),消融結(jié)果如表1所示。
表 1 消融實驗結(jié)果
由表1可知,與實驗1相比,實驗2中使用DME模塊,可使EPE和D1分別下降至0.81 px和3.15%;實驗3使用DGCA結(jié)構(gòu)效果更好,EPE和D1分別下降至0.60 px和2.03%;由實驗4可以發(fā)現(xiàn),同時使用本文提出的兩模塊時效果最好,EPE最低至0.56 px,相比于實驗1下降了36.4%,實驗指標(biāo)均呈優(yōu)化趨勢。
由此可見,2個模塊均對模型有顯著改進(jìn),DME模塊有助于網(wǎng)絡(luò)獲得增強(qiáng)的特征表示和具有引導(dǎo)作用的密集多尺度特征,DGCA模塊上采樣出的高分辨率代價體在密集多尺度上下文信息的指導(dǎo)下使網(wǎng)絡(luò)對立體幾何特征產(chǎn)生更準(zhǔn)確的理解,2個模塊相輔相成,共同改善視差預(yù)測結(jié)果。
2.3.1 KITTI 2015實驗結(jié)果
對于KITTI 2015數(shù)據(jù)集,將所提網(wǎng)絡(luò)在測試集上的視差預(yù)測結(jié)果提交至KITTI官網(wǎng),與其他先進(jìn)立體匹配網(wǎng)絡(luò)的測試集定量比較,結(jié)果如表2所示(所有數(shù)據(jù)均取自KITTI官方排行榜)。
表 2 不同網(wǎng)絡(luò)在KITTI 2015數(shù)據(jù)集上的對比結(jié)果
由表2可知,本文模型在精度指標(biāo)中均取得了最優(yōu)結(jié)果,值得注意的是,所有像素下的D1-all誤差百分比是官方排行榜的主要排名依據(jù),本文模型在該項指標(biāo)中取得了1.76的結(jié)果,相比PSMNet、GWCNet、CPOP-Net分別提升了24.1%、16.6%、5.4%。然而,本文模型預(yù)測一組圖像的時間為0.47 s,說明本文模型的規(guī)模更大,在提升精度的同時需要更多的計算資源。
KITTI2015部分測試集的可視化結(jié)果如圖5所示??梢钥闯?本文模型產(chǎn)生了更穩(wěn)健的結(jié)果。設(shè)計的DME模塊避免使用池化操作從而保留了更多細(xì)節(jié)信息,因此在輪廓結(jié)構(gòu)及物體邊緣產(chǎn)生了更精細(xì)的視差結(jié)果,如視差圖中白色方框標(biāo)出區(qū)域。此外,DGCA模塊使代價體在多尺度特征的引導(dǎo)下,將匹配信息正確聚合到反射、重復(fù)紋理等不適定性區(qū)域,從而提高了視差預(yù)測的準(zhǔn)確性,如視差圖中藍(lán)色方框標(biāo)出區(qū)域。誤差圖中紅色像素表示錯誤估計像素。觀察誤差圖可知,本文模型的錯誤估計像素明顯減少。實驗結(jié)果表明,在重復(fù)紋理和邊緣等不適定區(qū)域,DGNet的視差預(yù)測精度相較于其他算法有了明顯的提升,表現(xiàn)出較優(yōu)越的匹配性能。然而,第1組圖像中車反光處與車邊鐵鏈處的匹配效果不理想。這是由于受反光和左右圖透視變換的影響,其表觀特性可能發(fā)生改變,導(dǎo)致卷積提取的特征無法有判別性地描述物體。在未來的研究中,考慮引入局部相似性模塊[21]獲取結(jié)構(gòu)信息,對卷積提取到的表觀特征進(jìn)行補(bǔ)充以有效應(yīng)對光照變化及透視變換的影響。
圖 5 KITTI 2015測試圖像的視差可視化結(jié)果Fig.5 The result of disparity visualization of KITTI 2015 test image
2.3.2 KITTI 2012實驗結(jié)果
對于KITTI 2012數(shù)據(jù)集,將所提網(wǎng)絡(luò)在測試集上的視差預(yù)測結(jié)果提交至KITTI網(wǎng)站,與其他立體匹配網(wǎng)絡(luò)的測試集定量比較結(jié)果如表3所示。
由表3可知,本文網(wǎng)絡(luò)在KITTI 2012數(shù)據(jù)集上表現(xiàn)良好,在主要排行依據(jù)—3px-Noc誤匹配率低至1.24%,相比PSMNet、Coex、GWCNet分別提升了16.8%、20.0%和6.1%。
表 3 不同網(wǎng)絡(luò)在KITTI 2012數(shù)據(jù)集上的對比結(jié)果
圖6為KITTI 2012測試圖像的視差可視化結(jié)果。比較KITTI 2012部分測試集的可視化結(jié)果,所提網(wǎng)絡(luò)預(yù)測的視差圖整體更加清晰平滑,特別是目標(biāo)邊緣輪廓和遮擋區(qū)域,見圖6中白色方框所示。此外,在代表重復(fù)紋理區(qū)域的欄桿、代表反射區(qū)域的玻璃窗上也獲得了較穩(wěn)健的結(jié)果,如圖中黃色方框所示。誤差圖中紅色像素表示遮擋區(qū)域的錯誤估計像素,白色像素表示非遮擋區(qū)域的錯誤估計像素。觀察誤差圖可知,由本文模型得到的誤差圖中,紅色區(qū)域和白色區(qū)域范圍明顯減小。說明DGNet在挑戰(zhàn)性區(qū)域可以提供更加精準(zhǔn)的視差預(yù)測。
圖 6 KITTI 2012測試圖像的視差可視化結(jié)果Fig.6 The result of disparity visualization of KITTI 2012 test image
2.3.3 SceneFlow實驗結(jié)果
本網(wǎng)絡(luò)與其他先進(jìn)立體匹配網(wǎng)絡(luò)在SceneFlow測試集上的EPE進(jìn)行定量比較,結(jié)果見表4。
表 4 不同網(wǎng)絡(luò)在SceneFlow數(shù)據(jù)集上的EPE對比
由表4可知,本文模型 EPE為0.56 px, 相比于 PSMNet、 GWCNet、 MGNet 分別提升了46.2%、27.3%、15.2%,且相較于其他先進(jìn)網(wǎng)絡(luò)均有不同程度的提升,其視差預(yù)測精度顯著提高。將 ScenFlow 部分測試集的視差預(yù)測結(jié)果可視化, 如圖7所示。 可以看出, 本文模型所輸出的視差圖明顯優(yōu)于 PSMNet 的預(yù)測視差圖,稠密且清晰,特別是在重疊、精細(xì)結(jié)構(gòu)等區(qū)域,其預(yù)測的視差更接近真實視差圖。
圖 7 SceneFlow測試圖像的視差可視化結(jié)果Fig.7 The result of disparity visualization of SceneFlow test image
本文提出的改進(jìn)立體匹配網(wǎng)絡(luò)DGNet,通過密集連接具有不同膨脹率的空洞卷積層來構(gòu)建多尺度特征提取模塊,從而強(qiáng)化網(wǎng)絡(luò)對不同尺度特征的感知能力。在代價聚合階段自適應(yīng)融合代價體和密集多尺度特征,在代價體全局優(yōu)化的同時嵌入豐富的多尺度上下文信息,實現(xiàn)有效的代價體正則化,從而回歸出更加精確的視差圖。相比于基準(zhǔn)網(wǎng)絡(luò)PSMNet,本文模型顯著提升視差預(yù)測精度,同時在重復(fù)紋理、遮擋、邊緣等不適定區(qū)域具有很高的魯棒性。在未來的工作中,將致力于對DGNet進(jìn)行輕量化處理。此外,考慮引入結(jié)構(gòu)信息應(yīng)對光照變化和透視變換的影響,在提升算法實時性的同時保持精度,使其更加適用于自動駕駛等領(lǐng)域。