• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于視差優(yōu)化的立體匹配網(wǎng)絡(luò)

      2022-03-12 05:56:22劉建國顏伏伍沈建宏孫云飛
      計算機工程 2022年3期
      關(guān)鍵詞:視差概率分布代價

      劉建國,紀(jì) 郭,顏伏伍,沈建宏,孫云飛

      (1.先進能源科學(xué)與技術(shù)廣東省實驗室佛山分中心(佛山仙湖實驗室),廣東 佛山 528200;2.武漢理工大學(xué) 現(xiàn)代汽車零部件技術(shù)湖北省重點實驗室,武漢 430070;3.汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心,武漢 430070;4.湖北省新能源與智能網(wǎng)聯(lián)車工程技術(shù)研究中心,武漢 430070;5.寧波華德汽車零部件有限公司,浙江 寧波 315000)

      0 概述

      隨著圖像處理技術(shù)的發(fā)展,基于視覺的深度估計逐漸發(fā)展成為無人駕駛、機器人等領(lǐng)域的重要測距方法之一,其中基于立體匹配的雙目測距方法以兼顧精度、速度和成本的優(yōu)勢受到廣泛關(guān)注,該方法通過匹配同一場景的左右視點兩幅圖像中的相應(yīng)像素點來計算視差,并根據(jù)相似三角形原理計算深度距離。傳統(tǒng)的立體匹配算法將匹配過程劃分為匹配代價計算、代價聚合、視差計算和視差優(yōu)化4 個部分[1],并基于代價函數(shù)的約束范圍及搜索策略分為局部、全局和半全局立體匹配算法[2]。但傳統(tǒng)算法采用手工設(shè)計的特征描述符,缺乏全局上下文信息,且受經(jīng)驗參數(shù)的影響,算法魯棒性較差,不適合在復(fù)雜環(huán)境下應(yīng)用[3]。

      近年來,隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域中的發(fā)展,研究人員開始基于深度學(xué)習(xí)方法解決立體匹配問題。LECUN 等[4]引入卷積神經(jīng)網(wǎng)絡(luò)提取左右圖特征,通過學(xué)習(xí)兩者的相似性計算匹配代價,有效提高了算法魯棒性,但該方案仍然需要配合傳統(tǒng)算法中的十字交叉代價聚合[5]、半全局優(yōu)化[6-7]及濾波操作等完成立體匹配。LUO 等[8]在此基礎(chǔ)上將匹配代價計算轉(zhuǎn)化為多分類問題,訓(xùn)練網(wǎng)絡(luò)直接輸出所有潛在視差值下的匹配代價,大大提高算法效率。

      上述方法利用卷積神經(jīng)網(wǎng)絡(luò)計算匹配代價減少了傳統(tǒng)算法中手工設(shè)計特征的誤差,但仍需結(jié)合傳統(tǒng)算法中的其他步驟求解視差圖,運行速度較低。因此基于卷積神經(jīng)網(wǎng)絡(luò)的端到端立體匹配算法應(yīng)運而生。MAYER 等[9]提出以左右圖像為輸入,以視差圖為輸出的端到端立體匹配網(wǎng)絡(luò)DispNet,并發(fā)布一個帶有真實視差圖的大型合成數(shù)據(jù)集用于訓(xùn)練網(wǎng)絡(luò)。在此基礎(chǔ)上,KENDALL 等[10]提出GCNet,首次通過級聯(lián)不同視差值下的特征圖構(gòu)建匹配代價卷,并通過3D 卷積進行代價聚合,最終通過視差回歸的方式計算視差圖,為后續(xù)算法發(fā)展提供重要思路。PANG 等[11]提出一種兩階段網(wǎng)絡(luò)結(jié)構(gòu),第1 階段學(xué)習(xí)初始視差,第2 階段學(xué)習(xí)修正初始視差的殘差,最終將兩階段的和作為結(jié)果輸出,有效提高匹配精度。CHANG 等[12]提出PSMNet 網(wǎng)絡(luò),利用空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊[13]融合不同尺度特征,同時采用堆疊的編碼解碼結(jié)構(gòu)進行代價聚合,有效提高了視差預(yù)測精度。ZHANG 等[14]基于傳統(tǒng)的半全局匹配算法提出GANet,設(shè)計了半全局,引導(dǎo)聚合層從不同方向?qū)Υ鷥r卷進行聚合取代3D 卷積,并結(jié)合局部引導(dǎo)聚合層,有效提升立體匹配的性能。MA 等[15]結(jié)合光流、視差估計及實例分割3 種任務(wù),將各個實例的光流、視差及語義線索編碼成能量函數(shù)進行最小化求解,實現(xiàn)多任務(wù)間互相融合,但運行時間過長。XU 等[16]采用3D 代價卷并設(shè)計尺度內(nèi)及尺度間代價聚合模塊代替3D 卷積,有效提高算法實時性,但匹配精度相對較低。ZHU 等[17]基于多尺度特征,設(shè)計十字形空間金字塔模塊以不同的比例和位置聚合上下文信息構(gòu)建代價卷,并設(shè)計多尺度3D 特征匹配和融合模塊聚合代價卷,有效提高算法在不適定區(qū)域的匹配精度。

      隨著高性能計算平臺的發(fā)展,立體匹配的網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,特征提取及代價聚合網(wǎng)絡(luò)不斷加深。深層網(wǎng)絡(luò)有助于提取更加抽象的特征,對于目標(biāo)檢測、語義分割等對語義信息要求較高的視覺任務(wù)具有重要意義。但立體匹配作為低層級視覺任務(wù),除了依賴深層特征完成前景物體的基本匹配,還需要淺層特征和局部上下文信息細(xì)化小物體、邊緣等區(qū)域的匹配。而大多數(shù)立體匹配網(wǎng)絡(luò)采用深層特征提取網(wǎng)絡(luò)和堆疊的編碼解碼結(jié)構(gòu),在反復(fù)上下采樣過程中造成淺層特征中的細(xì)節(jié)信息丟失。同時,傳統(tǒng)的代價卷構(gòu)造方式對每個像素的完整視差范圍都構(gòu)建匹配代價進行計算,雖然通過稀疏化視差的方式可以降低計算量,但是仍然造成代價卷在非真實視差處的計算冗余。

      針對上述問題,本文引入視差優(yōu)化思想,基于PSMNet 構(gòu)建一種改進網(wǎng)絡(luò)CTFNet。采用特征提取網(wǎng)絡(luò)分別提取下采樣程度不同的淺層和深層特征,基于深層特征構(gòu)建所有潛在視差值范圍內(nèi)的全局稀疏代價卷,并通過代價聚合和視差計算預(yù)測初始視差圖。此外,基于局部上下文信息豐富的淺層特征和初始視差圖,對每個像素點構(gòu)建初始預(yù)測視差鄰域范圍內(nèi)的局部稠密代價卷,并通過簡單的代價聚合和視差計算進行視差優(yōu)化。在損失函數(shù)部分,本文基于文獻(xiàn)[18]引入softmax 操作后的概率分布損失函數(shù),在預(yù)測初始視差圖過程中通過限制每個像素點處視差值概率,使其分布在真實視差值附近,形成高斯分布,提高初始視差圖精度,保證視差優(yōu)化階段利用初始視差圖構(gòu)造局部稠密代價卷的可靠性,從而優(yōu)化視差圖精度。

      1 網(wǎng)絡(luò)結(jié)構(gòu)

      本文以PSMNet 作為骨干網(wǎng)絡(luò)進行改進,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1(a)所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。PSMNet 采用殘差網(wǎng)絡(luò)和空間金字塔池化(SPP)模塊提取特征,其中殘差網(wǎng)絡(luò)由3 個3×3 卷積層和4 個殘差塊共53 層卷積層構(gòu)成,配合SPP 模塊可以得到多尺度深層特征,基于左右特征圖構(gòu)建的匹配代價卷通過3 個相同的編碼-解碼結(jié)構(gòu)進行聚合并實現(xiàn)多級監(jiān)督,最終視差回歸得到預(yù)測視差圖。PSMNet 的特征提取網(wǎng)絡(luò)相對復(fù)雜,計算成本高,且三次編碼-解碼結(jié)構(gòu)始終對完整視差范圍的代價卷進行聚合,造成計算冗余?;谏鲜鰡栴},本文提出一種改進后的立體匹配網(wǎng)絡(luò)CTFNet,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示,由特征提取、初始視差圖預(yù)測和視差優(yōu)化3 部分構(gòu)成。

      圖1 PSMNet 與CTFNet 網(wǎng)絡(luò)結(jié)構(gòu)對比Fig.1 Comparison of PSMNet CTFNet network structures

      1.1 特征提取

      相對于目標(biāo)檢測、語義分割等視覺任務(wù),立體匹配對于特征的抽象程度要求相對較低,而且更加注重全局信息與局部細(xì)節(jié)信息的結(jié)合,全局信息有利于保證前景物體匹配精度和視差的連續(xù)性,局部細(xì)節(jié)信息對于提高不適應(yīng)區(qū)域如小物體、邊緣等區(qū)域的匹配精度具有重要作用。因此與PSMNet 網(wǎng)絡(luò)所采用的復(fù)雜特征提取結(jié)構(gòu)不同,本文采用深淺層特征兩階段輸出的特征提取網(wǎng)絡(luò)。具體來說,由淺層特征提取結(jié)構(gòu)和深層特征提取結(jié)構(gòu)組成,如圖2所示。

      圖2 特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of feature extraction network

      淺層特征提取結(jié)構(gòu)由3 個卷積核尺寸為3×3 的卷積層構(gòu)成,每個卷積層后都跟隨著批標(biāo)準(zhǔn)化層和ReLU 激活函數(shù)層,其中第1 個卷積層步長為2,將圖像下采樣尺寸設(shè)置為原圖尺寸的1/2,其他卷積層步長均為1,以保留更多的空間細(xì)節(jié)信息。將淺層特征提取模塊輸出的初始特征圖用來繼續(xù)提取深層多尺度特征,同時也經(jīng)過卷積核尺寸為3×3 卷積層對通道進行調(diào)整,并將得到的淺層特征圖輸出到視差優(yōu)化階段,從而構(gòu)建局部稠密代價卷。

      將深層特征提取結(jié)構(gòu)引入多孔空間金字塔池化(ASPP)結(jié)構(gòu)[19],以提取多尺度空間信息,并分別通過卷積核尺寸為1×1 的卷積操作實現(xiàn)跨通道信息整合。每個卷積操作后面都同樣跟隨批標(biāo)準(zhǔn)化層和激活函數(shù)層,最終采用級聯(lián)的方式將包含不同尺度信息的特征圖級聯(lián)起來。ASPP 結(jié)構(gòu)的使用可以保證使用較少的卷積層實現(xiàn)較大的感受野,有利于匹配對全局信息要求較高的前景物體。級聯(lián)后的多尺度特征經(jīng)過卷積核尺寸為3×3 及1×1 的卷積層后與初始特征圖級聯(lián),再通過卷積核尺寸為3×3 及1×1 的卷積層以及一個卷積核大小為3、步長為2 的卷積層下采樣得到最終輸出的1/4 原圖大小的深層特征圖,并用作初始視差圖預(yù)測。

      1.2 初始視差圖預(yù)測

      經(jīng)過共享權(quán)重的特征提取網(wǎng)絡(luò)得到左右特征圖后,本文將每個潛在視差值下的左圖特征和對應(yīng)右圖下的特征級聯(lián)起來,封裝成一個4 維的匹配代價卷。針對4 維代價卷,本文采用3D 卷積來聚合上下文信息并通過編碼-解碼結(jié)構(gòu)聚合匹配代價卷。如圖3 所示,通過4 個3D 卷積層對匹配代價卷進行初步的代價聚合,為了補充淺層特征信息,將第2 次卷積的結(jié)果與第4 次卷積的結(jié)果進行跳躍連接。接著,采用基于3D 卷積的編碼-解碼結(jié)構(gòu)對代價卷進行聚合。編碼-解碼結(jié)構(gòu)如圖3 中虛線框所示,編碼與解碼階段分別使用2 個步長為2 的3D 卷積與3D反卷積進行下/上采樣,提高對全局信息的利用程度并降低計算量。為彌補上下采樣引起的局部上下文信息的損失,在反卷積時將編碼階段對應(yīng)尺寸大小的代價卷通過跳躍連接與解碼階段的代價卷進行連接。本文采用2 個編碼-解碼結(jié)構(gòu)串聯(lián)使用進行代價聚合和多級監(jiān)督,將每個編碼-解碼結(jié)構(gòu)輸出的匹配代價卷,通過線性插值的方式上采樣到原圖尺寸,用作視差回歸。

      圖3 初始視差圖預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of initial disparity map prediction network

      本文采用完全可微的Soft Argmin[10]操作進行視差回歸,將預(yù)測的匹配代價Cd取負(fù),把匹配代價轉(zhuǎn)化為匹配可能性(匹配代價越高,可能性越低),然后使用softmax 操作進行歸一化,輸出每個像素在不同視差值d下的概率,最終基于概率對視差進行加權(quán)求和得到預(yù)測視差值,如式(1)所示:

      其中:d表示預(yù)測視差值;Dmax表示最大視差;Cd表示在視差d下的匹配代價;soft max(·)表示softmax 操作,其數(shù)學(xué)表達(dá)式如下:

      1.3 視差優(yōu)化

      網(wǎng)絡(luò)采用左右特征圖構(gòu)造全局稀疏視差值(0,4,…,Dmax,Dmax=192)下的代價卷,經(jīng)過2 個沙漏結(jié)構(gòu)聚合后通過上采樣和視差回歸得到與原圖分辨率相同的初始視差圖。代價聚合過程中,用于視差回歸的代價卷需要通過插值的方式恢復(fù)到原圖尺寸和完整稠密視差值范圍(0,1,…,Dmax,Dmax=192),這就使最終的視差結(jié)果在目標(biāo)邊緣、小物體等細(xì)節(jié)區(qū)域引入大量誤差。同時,由于特征圖經(jīng)過多次編碼-解碼結(jié)構(gòu),其特征隨著網(wǎng)絡(luò)的加深不斷抽象,最終的結(jié)果在前景物體的匹配精度指標(biāo)上表現(xiàn)良好,但是針對背景物體或小物體,由于其對上下文細(xì)節(jié)信息要求較高,因此匹配誤差率會顯著增大?;谏鲜鰡栴},本文提出基于淺層特征和局部稠密代價卷的視差優(yōu)化模塊。

      為降低反復(fù)上下采樣對局部細(xì)節(jié)信息造成的損失,本文在視差優(yōu)化階段采用特征提取階段的1/2 原圖尺寸的淺層特征圖構(gòu)造新代價卷。為減少冗余計算,提高視差回歸精度,本文利用初始視差圖預(yù)測階段輸出的原圖尺寸的視差圖構(gòu)造局部稠密代價卷,僅針對預(yù)測視差值附近的視差范圍求解詳細(xì)的概率分布?;诔跏碱A(yù)測的視差圖,本文將每個像素的預(yù)測視差值線性擴展為其鄰域內(nèi)的2n個視差從而構(gòu)造預(yù)測視差卷,其中n為超參數(shù)。假設(shè)某像素點初始預(yù)測視差為d′,則以[d′-n,d′+n]作為該點的局部視差范圍,并限制其不超出[0,Dmax]。然后將該視差范圍平均劃分為2n個視差值作為候選視差。由于初始視差值是亞像素級的,而傳統(tǒng)構(gòu)造方式只能對視差值為整數(shù)的情況進行代價卷構(gòu)造,因此本文采用一種新的代價卷構(gòu)造方式,如圖4 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。

      圖4 新代價卷構(gòu)造方式示意圖Fig.4 Schematic diagram of construction mode of new price volume

      如圖4 所示,假設(shè)左右特征圖組通道數(shù)均為C,以同為C0通道的左右特征圖為例,由于特征圖尺寸為原圖的1/2,因此首先需要將視差卷下采樣至原圖的1/2 尺寸,同時所有視差值相應(yīng)除以2。然后將C0通道的左特征圖復(fù)制2n次作為第C0通道的代價卷,將右特征圖基于視差卷進行warp 翹曲操作[20]得到第C+C0通道的代價卷。其中warp 翹曲操作如圖5所示。首先,根據(jù)視差圖計算得到1 個與左特征圖尺寸相同的坐標(biāo)網(wǎng)格,網(wǎng)格中每一點(x,y)的值為左特征圖中(x,y)處的像素點在右特征圖中的對應(yīng)匹配點的坐標(biāo)(x-d,y),其中d代表該點候選視差值。然后,利用坐標(biāo)網(wǎng)格將右特征圖中匹配點(x-d,y)處的像素值全部填充到左特征圖的(x,y)處,從而產(chǎn)生1 張新的特征圖。由于視差值d為亞像素級,則計算得到的坐標(biāo)(x-d,y)不一定是整數(shù)值,因此要用插值的方式從(x-d,y)鄰域的像素值得到(x-d,y)處的像素值。將第C0通道的右特征圖基于所有候選視差產(chǎn)生的2n個特征圖作為第C+C0通道的代價卷。最終對所有特征通道的特征圖構(gòu)造代價卷即可得到1 個的4 維代價卷,其中H和W分別代表原圖尺寸的高和寬。

      圖5 warp 翹曲操作示意圖Fig.5 Sketch mapnew of warp operation

      為保存細(xì)節(jié)信息,本文僅使用1 次編碼-解碼結(jié)構(gòu)對新代價卷進行聚合,聚合后的代價卷僅需通過1 次上采樣即可恢復(fù)成原圖尺寸。對于聚合后的代價卷,本文同樣采用Soft Argmin 操作進行視差回歸,輸出每個像素在不同視差值d下的概率,但由于此時代價卷代表的不再是全局范圍的視差,而是基于初始視差圖構(gòu)造的鄰域局部范圍內(nèi)的視差。因此,本文利用事先構(gòu)造的視差卷,針對每個像素,僅在預(yù)測視差值d′鄰域范圍[d′-n,d′+n]內(nèi)進行視差回歸,達(dá)到視差優(yōu)化的目的。

      1.4 損失函數(shù)

      本文的損失函數(shù)由2 部分構(gòu)成,如式(3)所示,一部分是基于多級監(jiān)督的視差損失,另一部分是初始視差圖預(yù)測階段的softmax 后概率分布損失。

      1.4.1 視差損失

      本文采用兼具魯棒性和穩(wěn)定性的Smooth L1函數(shù)作為網(wǎng)絡(luò)的基礎(chǔ)視差損失函數(shù),如式(4)所示:

      其中:N表示有效像素點個數(shù);dn表示真實視差值;表示預(yù)測視差值;Smooth L1(·)表示平滑的L1 損失,其表達(dá)式如下:

      本文采用多級監(jiān)督的訓(xùn)練方式,對網(wǎng)絡(luò)每個編碼-解碼結(jié)構(gòu)輸出的代價卷進行視差回歸并計算損失,最終通過加權(quán)求和的方式計算總的視差損失,從而實現(xiàn)視差逐級細(xì)化,如式(6)所示:

      其中:wi表示不同階段輸出的視差損失的權(quán)重;M表示視差結(jié)果受監(jiān)督的層級數(shù);和參考文獻(xiàn)[12]相同,i取3;各視差結(jié)果對應(yīng)權(quán)重參數(shù)分別為w1=0.5,w2=0.7,w3=1。

      1.4.2 softmax 后概率分布損失

      由于新代價卷的構(gòu)造對初始預(yù)測的視差圖精度提出較高的要求,即需要初始預(yù)測視差圖中每個像素的預(yù)測視差值能夠在真實視差值鄰域范圍內(nèi)。為約束初始視差圖,本文引入softmax 操作后的概率分布損失。匹配代價卷被用以反映候選匹配像素對之間的相似度,代價卷經(jīng)過softmax 操作后輸出每個像素在不同視差值d下的概率,其中真實視差值具有最高概率,且概率值應(yīng)隨與真實視差值的距離增大而迅速下降。根據(jù)該屬性,本文基于真實視差值,采用高斯分布構(gòu)建真實視差概率分布,對代價卷softmax 后的概率分布進行監(jiān)督,約束預(yù)測視差值概率在真實視差值附近成單峰分布。基于真實視差值構(gòu)建的真實視差概率分布如下:

      其中:d表示候選視差值,d∈[0,Dmax];dgt表示真實視差值;σ表示方差,用來控制視差概率分布的離散程度,σ越小則視差概率分布越集中于真實視差值附近,σ>0,基于參考文獻(xiàn)[18],本文σ取1.2。

      根據(jù)真實視差值構(gòu)建真實視差概率分布P(d),同時在視差預(yù)測階段,計算softmax 后的概率分布,通過交叉熵定義分布損失,如式(8)所示:

      其中:N表示有效像素點個數(shù);d表示候選視差值;H(·)表示交叉熵?fù)p失函數(shù)。H(·)的表達(dá)式如式(9)所示:

      為防止過擬合,本文中softmax 后概率分布損失僅針對初始視差預(yù)測階段的初始視差圖進行計算。

      2 實驗與結(jié)果分析

      為測試算法的性能,本文基于PyTorch 深度學(xué)習(xí)架構(gòu)實現(xiàn)提出的CTFNet 模型,使用NVIDIA 1080Ti GPU訓(xùn)練及測試網(wǎng)絡(luò),研究網(wǎng)絡(luò)各組成部分不同參數(shù)配置對視差圖預(yù)測的影響,并將其與參考算法進行比較。

      2.1 數(shù)據(jù)集

      采用SceneFlow 數(shù)據(jù)集[9]和KITTI 2015 數(shù)據(jù)集[21]對網(wǎng)絡(luò)進行訓(xùn)練和測試,其中SceneFlow 數(shù)據(jù)集為合成數(shù)據(jù)集,包含圖像尺寸為960×540 像素分辨率的立體圖像對,其中35 454 張用于訓(xùn)練,4 370 張用于測試,所有圖片提供稠密視差圖作為真實值。KITTI 2015 數(shù)據(jù)集為真實道路場景下采集的數(shù)據(jù)集,包含200 張訓(xùn)練集圖片和200 張驗證集圖片,圖像尺寸為1 240×376 像素,其中訓(xùn)練集提供稀疏視差圖作為真實值,驗證集僅提供左右圖像對,預(yù)測視差圖精度需將圖片上傳至KITTI網(wǎng)站進行評估。對于KITTI 數(shù)據(jù)集,本文隨機選取訓(xùn)練集中的160 個圖像對進行訓(xùn)練,剩余40 個圖像對用于測試。

      2.2 實施細(xì)節(jié)

      CTFNet 的訓(xùn)練過程包含2 個步驟,首先在SceneFlow 數(shù)據(jù)集上預(yù)訓(xùn)練模型,在輸入網(wǎng)絡(luò)之前,對每個原始圖像對進行歸一化處理,將圖像RGB 值歸一化到[-1,1]區(qū)間內(nèi),并隨機裁剪成512×256 分辨率的圖像補丁輸入到網(wǎng)絡(luò)。網(wǎng)絡(luò)使用Adam 優(yōu)化器,優(yōu)化參數(shù)β1、β2的值分別為0.90、0.99,批尺寸和最大視差(Dmax)分別設(shè)置為3 和192,學(xué)習(xí)率固定為0.001,訓(xùn)練10 個周期。在得到SceneFlow 數(shù)據(jù)集上的預(yù)訓(xùn)練模型后,利用KITTI2015 數(shù)據(jù)集對模型進行優(yōu)化微調(diào),模型訓(xùn)練300 個周期,其中前200 個周期的學(xué)習(xí)率為0.001,之后學(xué)習(xí)率調(diào)整為0.000 1。

      2.3 測試及評價指標(biāo)

      為評估網(wǎng)絡(luò)性能,本文基于真實視差值,分別計算SceneFlow 數(shù)據(jù)集的每個訓(xùn)練周期的終點誤差及KITTI2015 訓(xùn)練集的三像素誤差。完成訓(xùn)練后,使用誤差最低的訓(xùn)練參數(shù)預(yù)測KITTI2015 驗證集的視差圖,并將結(jié)果提交至KITTI 網(wǎng)站進行評估。

      對于SceneFlow 數(shù)據(jù)集,本文計算所有像素點的預(yù)測視差值與真實視差值之間的歐氏距離并求取平均值作為終點誤差(End-Point Error,EPE),誤差越小則匹配精度越高。終點誤差的定義如下:

      其中:N表示總像素點個數(shù);di表示第i個像素點處的真實視差值;表示第i個像素點處的預(yù)測視差值。

      對于KITTI2015 數(shù)據(jù)集,本文采用三像素誤差(3px Error)表征匹配的準(zhǔn)確率,三像素誤差是指預(yù)測視差值與真實視差值之間差值的絕對值超過3 的像素點的數(shù)量占整幅圖像的比例,比例越高說明誤匹配點的數(shù)量越多,匹配準(zhǔn)確率越低。三像素誤差的定義如式(11)所示:

      其中:

      其中:N表示總像素點個數(shù);di表示第i個像素點處的真實視差值;表示第i個像素點處的預(yù)測視差值。

      2.4 實驗對比

      針對CTFNet 各組成部分對視差圖預(yù)測的影響進行研究,并測試不同網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)配置對于視差精度及運行速度的影響。本文在SceneFlow 和KITTI2015 數(shù)據(jù)集上評估CTFNet 網(wǎng)絡(luò),并在最終實驗中,與本文網(wǎng)絡(luò)相似的PSMNet 進行對比。分別針對特征提取結(jié)構(gòu)、局部稠密代價卷、視差優(yōu)化結(jié)構(gòu)、softmax 操作后的概率分布損失函數(shù)等進行實驗,分析其對視差結(jié)果的影響。

      2.4.1 特征提取結(jié)構(gòu)實驗

      針對構(gòu)造局部代價卷時所用特征圖的輸出位置進行實驗,結(jié)果如表1 所示。在表1 中,特征圖輸出位置代表構(gòu)建局部代價卷所用的淺層特征圖的輸出位置,其中淺層表示圖2 中淺層分支的最后1 層卷積層,深層表示圖2 中特征提取網(wǎng)絡(luò)的倒數(shù)第2 層卷積層。

      表1 特征圖輸出位置的實驗結(jié)果Table 1 Experimental results of the output location of the feature map

      由表1 可知,使用淺層特征構(gòu)造局部代價卷使視差圖的誤匹配率在SceneFlow 數(shù)據(jù)集上降低了12.0%,在KITTI 數(shù)據(jù)集上降低了9.7%,說明淺層特征能夠保留更多細(xì)節(jié)信息,在視差優(yōu)化過程中能夠有效地改善局部細(xì)節(jié)區(qū)域的匹配結(jié)果。

      本文還針對特征提取結(jié)構(gòu)輸出的2 組特征圖的尺寸大小對視差圖的影響進行實驗,通過添加步長為2、卷積核尺寸為3×3 的卷積層配合批標(biāo)準(zhǔn)化層和ReLU激活函數(shù)層實現(xiàn)特征圖尺寸的調(diào)節(jié),結(jié)果如表2 所示。表2 中深層和淺層特征圖的尺寸分別代表用來構(gòu)造稀疏代價卷和稠密代價卷的特征圖尺寸與原圖尺寸的比例。通過對比表2 中實驗結(jié)果可知,不論對于構(gòu)造稀疏代價卷還是稠密代價卷,用作構(gòu)造代價卷的特征圖尺寸越大,局部細(xì)節(jié)信息越豐富,視差估計的誤差越小。但一味增大特征圖尺寸會造成代價聚合階段的計算量過大,訓(xùn)練無法正常進行。通過結(jié)合視差優(yōu)化的方法,采用1/4 原圖尺寸的特征圖構(gòu)造初始代價卷,同時采用1/2 原圖尺寸的特征圖構(gòu)造稠密代價卷既能保證網(wǎng)絡(luò)正常訓(xùn)練,也能有效提高預(yù)測視差圖精度。

      表2 不同特征圖尺寸的實驗結(jié)果Table 2 Experimental results of different feature map sizes

      2.4.2 對局部稠密代價卷的實驗

      為減少冗余計算及細(xì)化視差概率計算,在視差優(yōu)化階段針對每個像素,以其初始視差鄰域內(nèi)的2n個視差值構(gòu)造局部稠密代價卷,其中2n是需要人為確定的超參數(shù)。為實現(xiàn)最優(yōu)化,針對此局部視差范圍參數(shù)進行實驗,結(jié)果如表3 所示。

      表3 對局部視差范圍的實驗結(jié)果Table 3 Experimental results of the local disparity range

      由表3 可知,初始視差鄰域范圍2n對視差估計和網(wǎng)絡(luò)運行速度有一定影響。如果用于構(gòu)造局部稠密代價卷的視差鄰域范圍過小,則經(jīng)過多次上下采樣,會引入過大的誤差。如果視差鄰域范圍過大,最終沙漏結(jié)構(gòu)進行代價聚合所需的計算時間就會增加,且對于誤差率的改善收效甚微。由實驗結(jié)果可知,本文選擇基于初始視差構(gòu)造鄰域范圍為24 的局部稠密代價卷。

      2.4.3 視差優(yōu)化結(jié)構(gòu)實驗

      為驗證視差優(yōu)化方案的可行性,本文通過采用相同的特征提取結(jié)構(gòu),對比視差優(yōu)化方案與傳統(tǒng)的通過3 個編碼-解碼結(jié)構(gòu)直接預(yù)測視差圖方案間的匹配誤差率,結(jié)果如表4 所示。由表4 可知,使用視差優(yōu)化結(jié)構(gòu)相對傳統(tǒng)方案,視差圖的誤匹配率在SceneFlow 數(shù)據(jù)集上降低了10.3%,在KITTI 數(shù)據(jù)集上降低了11.9%。由此可知,本文提出的視差優(yōu)化方案對視差圖預(yù)測具有一定的提升作用。

      表4 對視差優(yōu)化結(jié)構(gòu)的實驗結(jié)果Table 4 Experimental results of the disparity optimization structure

      2.4.4 softmax 后概率分布損失函數(shù)實驗

      為探究本文損失函數(shù)的改進對視差預(yù)測結(jié)果的影響,對CTFNet 網(wǎng)絡(luò)進行測試,驗證添加和去除softmax 后的概率分布損失函數(shù)對網(wǎng)絡(luò)預(yù)測精度的影響。由表5 可知,添加概率分布損失函數(shù)后,網(wǎng)絡(luò)的視差預(yù)測精度得到了一定程度的提升。

      表5 損失函數(shù)的實驗結(jié)果Table 5 Experimental results of loss function

      通過softmax 操作,代價卷被計算成每個潛在視差值的概率,所有概率和為1。本文對特征不明顯區(qū)域的不同像素點在視差回歸過程中計算的視差概率分布進行可視化,結(jié)果如圖6 所示。圖中橫坐標(biāo)表示所有潛在視差值,縱坐標(biāo)表示對應(yīng)預(yù)測概率,虛線表示真實視差值。由圖6 可知,添加softmax 后的概率分布損失函數(shù),其視差預(yù)測的概率分布會傾向于在真實視差值附近呈現(xiàn)單峰分布,有效降低了其他視差值的干擾,這對于部分特征不明顯區(qū)域的視差預(yù)測具有良好的改善作用。

      圖6 視差值概率分布圖Fig.6 Probability distribution of disparity

      2.5 KITTI2015 排名結(jié)果

      將CTFNet 網(wǎng)絡(luò)對KITTI 驗證集生成的視差圖上傳至KITTI 評測網(wǎng)站,表6 展示了KITTI2015 數(shù)據(jù)集上本文網(wǎng)絡(luò)及其他主流網(wǎng)絡(luò)的實驗結(jié)果對比。其中,D1表示視差圖中誤匹配點所占的比例,bg 表示背景區(qū)域,fg 表示前景區(qū)域,all表示整個區(qū)域。由表6 可知,本文所提網(wǎng)絡(luò)與之前的網(wǎng)絡(luò)[10-12,15-17]相比在精度上有一定提高。與同樣基于兩階段進行視差優(yōu)化的CRL 算法相比,誤匹配率降低了17.6%。與算力要求相近的PSMNet網(wǎng)絡(luò)相比,整體的誤匹配率由2.32%下降至2.20%。在運行時間方面,為保證數(shù)據(jù)的準(zhǔn)確性,本文在Nvidia 1080Ti GPU 上測試PSMNet 和CTFNet 網(wǎng)絡(luò)的運行時間,PSMNet的運行時間為0.52 s,所提網(wǎng)絡(luò)的計算時間為0.43 s,降低了約17%。

      表6 KITTI2015 立體匹配排名Table 6 KITTI2015 stereo matching ranking

      圖7 中第1 列和第2 列分別展示了本文所提CTFNet 與PSMNet 針對同一組圖片預(yù)測視差圖的對比,第3 列為第4 列的局部位置放大圖。誤差圖中藍(lán)色點表示正確匹配點,黃色點表示錯誤匹配點,黑色點表示忽略的點(彩色效果見《計算機工程》官網(wǎng)HTML 版)。通過觀察2 種算法在圖中黑色橢圓標(biāo)記位置處的視差結(jié)果可以發(fā)現(xiàn),與PSMNet 網(wǎng)絡(luò)相比,CTFNet 網(wǎng)絡(luò)能夠準(zhǔn)確預(yù)測圖中細(xì)鐵索處的視差,同時在預(yù)測交通標(biāo)志邊緣處的視差時更加精確。實驗結(jié)果表明,通過淺層特征和視差優(yōu)化的方式能夠有效改善特征不明顯區(qū)域的匹配結(jié)果,提高小物體及邊緣等病態(tài)區(qū)域的匹配精度。

      圖7 視差圖結(jié)果對比Fig.7 Comparison of disparity map results

      3 結(jié)束語

      本文設(shè)計一個基于淺層特征的立體匹配網(wǎng)絡(luò)CTFNet,通過構(gòu)建稠密代價卷進行視差優(yōu)化。由于深層特征網(wǎng)絡(luò)的感受野較大,能夠獲取更多全局信息,從而構(gòu)建全局稀疏代價卷以獲取前景物體的初始視差圖。淺層結(jié)構(gòu)的特征提取網(wǎng)絡(luò)減少了圖像的上下采樣,保留了更加完整的局部上下文信息,配合基于預(yù)測視差值構(gòu)建的稠密代價卷,能夠進一步細(xì)化視差。此外,softmax 操作后概率分布損失函數(shù)的引入,能夠?qū)σ暡罡怕史植歼M行監(jiān)督,有效提高了算法的魯棒性。實驗結(jié)果表明,與PSMNet 網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)在部分病態(tài)區(qū)域如邊緣及小物體處匹配效果更好,匹配精度得到一定提升。下一步將通過采用多任務(wù)網(wǎng)絡(luò)及引入邊緣檢測或語義分割任務(wù),提高算法對邊緣及弱紋理區(qū)域的匹配能力,同時,還將進一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)參數(shù)和計算量,以實現(xiàn)算法在TX2 等嵌入式設(shè)備上的穩(wěn)定運行。

      猜你喜歡
      視差概率分布代價
      基于自適應(yīng)窗的立體相機視差圖優(yōu)化方法研究
      離散型概率分布的ORB圖像特征點誤匹配剔除算法
      基于梯度域引導(dǎo)濾波的視差精煉迭代算法
      愛的代價
      海峽姐妹(2017年12期)2018-01-31 02:12:22
      關(guān)于概率分布函數(shù)定義的辨析
      科技視界(2016年19期)2017-05-18 10:18:46
      代價
      基于概率分布的PPP項目風(fēng)險承擔(dān)支出測算
      基于分割樹的視差圖修復(fù)算法研究
      立體視差對瞳孔直徑影響的研究
      成熟的代價
      辛集市| 双牌县| 如东县| 广元市| 灵丘县| 顺义区| 日土县| 六安市| 城市| 定远县| 重庆市| 彭水| 中阳县| 长武县| 宜阳县| 门头沟区| 安塞县| 宝应县| 班戈县| 靖宇县| 竹山县| 县级市| 会同县| 休宁县| 庐江县| 博湖县| 东乌珠穆沁旗| 定襄县| 安远县| 贵港市| 屯门区| 鸡东县| 南丰县| 平度市| 汝阳县| 永顺县| 阿克苏市| 澳门| 手游| 三明市| 柳河县|