張 瑩,黃影平,郭志陽(yáng),張 沖
基于點(diǎn)云與圖像交叉融合的道路分割方法
張 瑩,黃影平*,郭志陽(yáng),張 沖
上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093
道路檢測(cè)是車輛實(shí)現(xiàn)自動(dòng)駕駛的前提。近年來(lái),基于深度學(xué)習(xí)的多源數(shù)據(jù)融合成為當(dāng)前自動(dòng)駕駛研究的一個(gè)熱點(diǎn)。本文采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)激光雷達(dá)點(diǎn)云和圖像數(shù)據(jù)加以融合,實(shí)現(xiàn)對(duì)交通場(chǎng)景中道路的分割。本文提出了像素級(jí)、特征級(jí)和決策級(jí)多種融合方案,尤其是在特征級(jí)融合中設(shè)計(jì)了四種交叉融合方案,對(duì)各種方案進(jìn)行對(duì)比研究,給出最佳融合方案。在網(wǎng)絡(luò)構(gòu)架上,采用編碼解碼結(jié)構(gòu)的語(yǔ)義分割卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),將點(diǎn)云法線特征與RGB圖像特征在不同的層級(jí)進(jìn)行交叉融合。融合后的數(shù)據(jù)進(jìn)入解碼器還原,最后使用激活函數(shù)得到檢測(cè)結(jié)果。實(shí)驗(yàn)使用KITTI數(shù)據(jù)集進(jìn)行評(píng)估,驗(yàn)證了各種融合方案的性能,實(shí)驗(yàn)結(jié)果表明,本文提出的融合方案E具有最好的分割性能。與其他道路檢測(cè)方法的比較實(shí)驗(yàn)表明,本文方法可以獲得較好的整體性能。
自動(dòng)駕駛;道路檢測(cè);語(yǔ)義分割;數(shù)據(jù)融合
道路檢測(cè)是自動(dòng)駕駛中環(huán)境辨識(shí)的重要內(nèi)容,是車輛實(shí)現(xiàn)自動(dòng)駕駛的前提。目前,自動(dòng)駕駛車輛大多采用多傳感器數(shù)據(jù)融合的方式實(shí)現(xiàn)對(duì)道路的檢測(cè)。其中最為常見的是將激光雷達(dá)數(shù)據(jù)與RGB圖像數(shù)據(jù)進(jìn)行融合,現(xiàn)有的研究表明將這兩種傳感器的數(shù)據(jù)進(jìn)行融合,可以提高道路檢測(cè)精度。最新的融合方法是采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為融合工具對(duì)兩種模態(tài)的數(shù)據(jù)進(jìn)行融合,采用語(yǔ)義分割的方式實(shí)現(xiàn)對(duì)道路的檢測(cè)。然而,如何將兩種傳感器數(shù)據(jù)更好地融合仍是本研究領(lǐng)域亟待解決的問題。針對(duì)上述問題,本文提出了像素級(jí)、特征級(jí)和決策級(jí)多種融合方案,尤其是在特征級(jí)融合中設(shè)計(jì)了四種交叉融合方案,對(duì)各種方案進(jìn)行對(duì)比研究,得到最佳的融合方案。在網(wǎng)絡(luò)構(gòu)架上,采用編碼解碼結(jié)構(gòu)的語(yǔ)義分割卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),將點(diǎn)云深度圖以法線圖的方式來(lái)表示,法線圖特征與RGB圖像特征在不同的層級(jí)進(jìn)行交叉融合。此方法可以更好地學(xué)習(xí)到激光雷達(dá)點(diǎn)云信息與相機(jī)圖像信息的關(guān)聯(lián)性,交叉補(bǔ)充點(diǎn)云和圖像信息以及減少特征信息的丟失。
本文主要貢獻(xiàn)如下:1) 提出了基于CNN的點(diǎn)云與圖像數(shù)據(jù)融合的像素級(jí)、特征級(jí)和決策級(jí)多種融合方案,實(shí)現(xiàn)對(duì)交通場(chǎng)景中道路的檢測(cè)。尤其是在特征級(jí)融合中設(shè)計(jì)了四種交叉融合方案,對(duì)各種方案進(jìn)行對(duì)比研究,得到最佳的融合方案。2) 使用KITTI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估,并對(duì)多種融合方式的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,本文提出的最佳融合方法(交叉融合方案E)可以顯著提高道路的分割效果。
傳統(tǒng)的路面檢測(cè)方法是依據(jù)場(chǎng)景中的幾何性質(zhì)將路面與直立目標(biāo)加以區(qū)分,以實(shí)現(xiàn)路面檢測(cè)的目的。近年來(lái),CNN強(qiáng)大的特征提取能力與表征能力使其成為路面分割的主流方式。深度學(xué)習(xí)CNN的道路分割方法又分為基于圖像的語(yǔ)義分割方法和基于激光雷達(dá)?圖像融合的語(yǔ)義分割方法。
1) 基于圖像的語(yǔ)義分割方法
基于圖像的語(yǔ)義分割是將道路檢測(cè)看做一個(gè)語(yǔ)義分割任務(wù)。語(yǔ)義分割網(wǎng)絡(luò)多采用編碼器?解碼器結(jié)構(gòu)。編碼器提取有效特征,解碼器對(duì)特征進(jìn)行復(fù)原,再通過(guò)全連接層綜合所有特征及優(yōu)化函數(shù)實(shí)現(xiàn)對(duì)道路的分割(分類)。U-Net[1]是編碼器?解碼器結(jié)構(gòu)中常見的一種分割模型,現(xiàn)如今已經(jīng)有許多基于U-Net[1]結(jié)構(gòu)而設(shè)計(jì)的新型卷積神經(jīng)網(wǎng)絡(luò)。U-Net++[2]針對(duì)U-Net中解碼器的連接方式作出改進(jìn),增加了類似于DenseNet[3]中的密集連接機(jī)制,對(duì)精度的提升有所貢獻(xiàn)。理論上增加網(wǎng)絡(luò)深度,可以進(jìn)行更加復(fù)雜的特征提取,分割性能也會(huì)變得更好。但是網(wǎng)絡(luò)的加深往往會(huì)帶來(lái)退化問題,并且會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。Res-UNet[4]受到ResNet[5]原理的啟發(fā),通過(guò)短路機(jī)制加入殘差單元,極大地消除了深層神經(jīng)網(wǎng)絡(luò)所帶來(lái)的退化過(guò)擬合問題。Chen 等人[6]使用DeepLabv3作為編碼器模塊和一個(gè)簡(jiǎn)單有效的解碼器模塊細(xì)化分割結(jié)果,并將深度可分卷積應(yīng)用于ASPP模塊和解碼器模塊中,得到一個(gè)更快、更強(qiáng)的編解碼器網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割。SegNet[7]在解碼器中使用編碼器中進(jìn)行最大池化的像素索引來(lái)進(jìn)行反池化,從而省去學(xué)習(xí)上采樣的需要,節(jié)省了計(jì)算時(shí)間,并用Softmax分類對(duì)每個(gè)像素輸出一個(gè)類別的概率。
OFA Net[8]使用一種"1-N替代"的策略進(jìn)行訓(xùn)練,探討了檢測(cè)任務(wù)和語(yǔ)義分割之間的相互增強(qiáng)效果,極大地解決了數(shù)據(jù)集過(guò)少帶來(lái)的一系列問題。MultiNet[9]提出了一種將分類、檢測(cè)和語(yǔ)義分割聯(lián)合起來(lái)的方法,三個(gè)任務(wù)的編碼器階段是共享的,利用深層的CNN產(chǎn)生能夠在所有任務(wù)中使用的豐富共享特征。這些特征再被三個(gè)以任務(wù)為導(dǎo)向的解碼器使用,解碼器實(shí)時(shí)產(chǎn)生結(jié)果,共享計(jì)算降低了執(zhí)行所有任務(wù)所耗時(shí)長(zhǎng),性能方面還有待提高。RBNet[10]同時(shí)進(jìn)行道路檢測(cè)和道路邊界檢測(cè),研究道路之間的語(yǔ)境關(guān)系結(jié)構(gòu)及其邊界排列,然后通過(guò)貝葉斯模型同時(shí)估計(jì)圖像上像素的概率屬于道路和道路的邊界,消除了邊界以外的潛在誤判。Multi-task CNN[11]提出了緊湊的多任務(wù)CNN架構(gòu),在嵌入式系統(tǒng)的計(jì)算資源約束下,有效檢測(cè)和估計(jì)物體以及基本汽車環(huán)境模型的可干燥地形,并引入了基于檢測(cè)解碼器和分析幾何的簡(jiǎn)單擴(kuò)展的3D邊界框估計(jì)方案。
2) 基于激光雷達(dá)與圖像融合方法
多傳感器融合是對(duì)多源的信息數(shù)據(jù)利用一定的方法、準(zhǔn)則進(jìn)行處理,以實(shí)現(xiàn)所需要的估計(jì)決策。在自動(dòng)駕駛領(lǐng)域,大多采用激光雷達(dá)傳感器、相機(jī)等數(shù)據(jù)信息進(jìn)行融合,以感知周圍環(huán)境。Schlosser等人[12]將激光雷達(dá)的3D點(diǎn)云數(shù)據(jù)預(yù)處理成了HHA(水平視差、地面高度、角度)數(shù)據(jù),與RGB圖像一同輸入,在CNN網(wǎng)絡(luò)的不同特定層采用像素相加的融合方式,證明了在網(wǎng)絡(luò)的中間層融合會(huì)得到最強(qiáng)的效果。LidCamNet[13]采用了特征融合的方式,采用可訓(xùn)練的線性疊加,將實(shí)驗(yàn)結(jié)果與前期、后期融合的結(jié)果進(jìn)行對(duì)比。可訓(xùn)練的參數(shù)在數(shù)據(jù)融合時(shí)有一定的靈活性,較為良好的分割結(jié)果進(jìn)一步驗(yàn)證了該思路在語(yǔ)義分割領(lǐng)域的可行性。Chen等人[14]采用了漸進(jìn)式激光雷達(dá)自適應(yīng)級(jí)聯(lián)融合結(jié)構(gòu),用激光雷達(dá)數(shù)據(jù)去輔助圖像數(shù)據(jù)進(jìn)行道路分割,使用可訓(xùn)練參數(shù)的同時(shí)將激光雷達(dá)特征與RGB特征進(jìn)行自適應(yīng)處理,在強(qiáng)光或者強(qiáng)陰影條件下達(dá)到更好的融合效果。Neven等人[15]提出了以RGB圖像為指導(dǎo),利用其目標(biāo)信息去糾正點(diǎn)云信息的預(yù)測(cè)的融合方式,降低了點(diǎn)云的誤判概率。Wang等人[16]利用激光雷達(dá)傳感器和立體雙目相機(jī),用兩種增強(qiáng)技術(shù)的立體匹配網(wǎng)絡(luò)來(lái)估計(jì)深度,而不是直接融合,一定程度上提高了檢測(cè)精度。
Zhang等人[17]采用了基于深度學(xué)習(xí)的RGB-D深度圖補(bǔ)全的方法,輸入RGB-D圖去預(yù)測(cè)RGB圖中所有平面的表面法線和物體邊緣遮擋,用深度圖作為正則化,求解全局線性優(yōu)化問題,最終得到補(bǔ)全的深度圖,為自動(dòng)駕駛環(huán)境感知提供了更好的數(shù)據(jù)信息。文獻(xiàn)[18]為了能夠同時(shí)提取RGB圖像和深度圖特征,將兩者融合,并將融合后的圖像變成HHG圖像。文獻(xiàn)[19]提出了一種基于雙傳感器信息融合的三維物體姿態(tài)估計(jì)?視錐體PointNet目標(biāo)定位算法,進(jìn)一步證明了多數(shù)據(jù)融合的可行性。SNE-RoadSeg[20]采用編碼器?解碼器結(jié)構(gòu),在編碼器部分對(duì)雙傳感器數(shù)據(jù)輸入進(jìn)行特征融合,實(shí)現(xiàn)精準(zhǔn)的自由空間檢測(cè)。并提出了將點(diǎn)云深度圖轉(zhuǎn)換為法線特征圖的方法,將表面法線估計(jì)問題轉(zhuǎn)化為最小二乘平面擬合估計(jì)問題,對(duì)三維曲面上的每個(gè)點(diǎn)估計(jì)法線,難點(diǎn)在于道路和人行道上三維點(diǎn)具有非常相似的表面法線。
網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)如圖1所示,由采用殘差網(wǎng)絡(luò)(ResNet[5])的編碼器、采用密集連接的跳躍連接的解碼器(如圖2所示)、表面法線估計(jì)器(surface normal estimator,SNE,如圖3所示)組成。輸入圖像為RGB-D圖,激光雷達(dá)深度圖經(jīng)過(guò)表面法線估計(jì)器處理為法線圖;兩路輸入信號(hào)經(jīng)兩路編碼器提取特征,解碼器還原特征,最后使用sigmoid激活函數(shù)生成道路分割結(jié)果。
法線的作用在于豐富特征信息并矯正光源產(chǎn)生的陰影和其他視覺效果,深度圖只有單層的少量深度特征信息,處理得到的法線圖根據(jù)每個(gè)點(diǎn)所處平面不同、表面法線方向也不同的原理,更好地區(qū)分路面與非路面。RGB編碼器和表面法線編碼器的主干為ResNet[5],它們的結(jié)構(gòu)彼此相同。如圖1所示,輸入數(shù)據(jù)先經(jīng)過(guò)一個(gè)初始?jí)K(由卷積核7′7、步長(zhǎng)2的卷積層,批量規(guī)范化層(BN)和ReLU激活層組成),然后依次使用一個(gè)最大池化層和四個(gè)Res-layer來(lái)逐漸降低分辨率并增加特征圖通道的數(shù)量,四個(gè)Res-layer分別由個(gè)bottleneck block構(gòu)成,bottleneck block由卷積核分別為1′1、3′3、1′1的三個(gè)卷積層組成。ResNet[5]有多種體系結(jié)構(gòu),本文采用ResNet-152,特征映射通道的數(shù)量c_0~c_4分別為64、256、512、1024、2048,四個(gè)Res-layer的bottleneck block數(shù)目分別為3、8、36、3,代表圖像輸入的分辨率。
圖1 網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)圖
圖2 解碼器結(jié)構(gòu)圖
圖3 表面法線估計(jì)器
解碼器(圖1中decoder方形塊)如圖2所示,由兩種不同類型的模塊組成——特征提取器和上采樣層,對(duì)編碼后的特征圖進(jìn)行解碼,以恢復(fù)特征映射的分辨率。在解碼器的每一層分別引入相應(yīng)的編碼階段產(chǎn)生的特征層,它們緊密連接以實(shí)現(xiàn)靈活的特征融合。曲面箭頭表示跳躍連接,自下而上的直箭頭表示引入編
碼階段產(chǎn)生的特征圖。利用特征提取器提取特征,并確保特征圖分辨率不變,利用上采樣層提高分辨率和減少特征圖的通道數(shù)。特征提取器和上采樣層共有的矩形框由卷積核為3′3、步長(zhǎng)1、padding1的卷積層、BN層和ReLU層組成。
曲面法線是幾何表面的重要屬性,是指經(jīng)過(guò)曲面上一點(diǎn)并與該點(diǎn)的切平面垂直的直線(即向量)。曲面法線在三維建模中應(yīng)用較為廣泛,可以矯正光源產(chǎn)生的陰影和其他視覺效果。將深度圖處理成法線圖,可以更好地區(qū)分不同平面不同高度的物體。
曲面法線的計(jì)算,可以通過(guò)對(duì)逆深度圖像或視差圖像執(zhí)行三個(gè)濾波操作,即兩個(gè)圖像梯度濾波器(分別在水平和垂直方向)和一個(gè)平均/中值濾波器。表面法線估計(jì)器(surface normal estimator,SNE)如圖3所示,由3F2N[21]的方法發(fā)展而來(lái),文獻(xiàn)[20]中多次實(shí)驗(yàn)證明采用這種深度數(shù)據(jù)處理方式可以得到更好的分割效果。而對(duì)表面法線的估計(jì),可以轉(zhuǎn)化為最小二乘平面擬合估計(jì)問題,對(duì)三維曲面上的每個(gè)點(diǎn)估計(jì)在該位置與表面相切的平面的法線。
在多傳感器信息融合中,按其在融合系統(tǒng)中信息處理的抽象程度可分為三個(gè)層次:像素級(jí)融合、特征級(jí)融合和決策級(jí)融合。針對(duì)采用怎樣的方式以及在什么階段融合能得到更優(yōu)效果的問題,本文設(shè)計(jì)并實(shí)驗(yàn)了多種融合策略(如圖4所示)。
像素級(jí)融合屬于底層數(shù)據(jù)融合方法(如融合A),將兩路傳感器的原始觀測(cè)信息在數(shù)據(jù)預(yù)處理結(jié)束后直接進(jìn)行通道融合,以六通道觀測(cè)數(shù)據(jù)進(jìn)入編碼器?解碼器結(jié)構(gòu),提取特征并進(jìn)行判斷識(shí)別。
特征級(jí)融合屬于中間層次級(jí)融合(如融合B、C、D、E),先從兩路傳感器的原始觀測(cè)信息中提取代表性特征,選擇合適的特征進(jìn)行交叉融合:
融合B:將原始數(shù)據(jù)分別進(jìn)入編碼器結(jié)構(gòu)中提取特征,然后將編碼后的兩路特征數(shù)據(jù)進(jìn)行融合,再將融合后的數(shù)據(jù)送進(jìn)解碼器部分得出分割結(jié)果;
融合C:將原始數(shù)據(jù)分別進(jìn)入編解碼網(wǎng)絡(luò)結(jié)構(gòu),在編碼器五個(gè)階段采用交叉方法1(圖4中的菱形框),如圖5中的(a)所示,對(duì)RGB特征圖進(jìn)行信息補(bǔ)充;
融合D:將原始數(shù)據(jù)分別進(jìn)入編解碼網(wǎng)絡(luò)結(jié)構(gòu),在編碼器五個(gè)階段采用交叉方法2(圖4中的橢圓框),如圖5中的5(b)所示,對(duì)RGB特征圖進(jìn)行信息補(bǔ)充。
融合E:將原始數(shù)據(jù)分別進(jìn)入編解碼網(wǎng)絡(luò)結(jié)構(gòu),在編碼器五個(gè)階段采用交叉方法3(圖4中的圓角矩形框),如圖5中的5(c)所示。該融合方法是方案C,D的綜合,單從一路數(shù)據(jù)講就是將法線特征與RGB特征通道拼接,通過(guò)訓(xùn)練學(xué)習(xí)到、兩個(gè)參數(shù),根據(jù)這兩個(gè)參數(shù)得到轉(zhuǎn)換后的法線數(shù)據(jù)特征圖,與RGB特征圖疊加得到轉(zhuǎn)換后的RGB特征圖,同理得到轉(zhuǎn)換后的法線特征圖。然后將轉(zhuǎn)換后的法線特征圖與可訓(xùn)練參數(shù)b再次相乘,最后與轉(zhuǎn)換后的RGB特征圖再次疊加得到新RGB特征圖。另一路同理可得融合后的新法線特征圖。然后將兩路融合數(shù)據(jù)均送入解碼器結(jié)構(gòu)還原,最后在Sigmoid層再次進(jìn)行融合。
決策級(jí)融合屬于高層次級(jí)融合(如融合F),輸出是一個(gè)聯(lián)合決策結(jié)果,理論上這種聯(lián)合決策比基于單傳感器的決策要更優(yōu)。將兩路傳感器數(shù)據(jù)信息分別進(jìn)入編解碼網(wǎng)絡(luò),在解碼后拼接,然后在sigmoid層進(jìn)行融合,得出分割結(jié)果。
圖4 采用不同融合策略的網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自KITTI的道路數(shù)據(jù)集,包含三個(gè)子集:訓(xùn)練集(289張圖像),驗(yàn)證集(32張圖像),測(cè)試集(290張圖像)。
驗(yàn)證集是訓(xùn)練集中留出的用于模型驗(yàn)證的圖像集,KITTI提供真值,用于調(diào)整模型的超參數(shù)和評(píng)估模型的能力。
測(cè)試集僅用于評(píng)估最終模型的性能,KITTI不提供真值,需要研究者提供檢測(cè)結(jié)果,由KITTI將檢測(cè)結(jié)果與真值進(jìn)行比較,這樣可以保證不同方法比較的公正性。KITTI圖像序列包含三種場(chǎng)景:UU(城市無(wú)標(biāo)記)、UM(城市標(biāo)記)、UMM(城市多條標(biāo)記車道)。實(shí)驗(yàn)結(jié)果采用KITTI的評(píng)價(jià)方法,性能評(píng)估有五個(gè)常用的指標(biāo):準(zhǔn)確率(Accuracy,cc),精確度(Precision,),召回率(Recall,),F(xiàn)1值(F1-score,1),PR曲線():
, (8)
此外,采用隨機(jī)梯度下降動(dòng)量(stochastic gradient descent with momentum,SGDM)優(yōu)化器最小化損失函數(shù),初始學(xué)習(xí)率設(shè)置為0.1。在驗(yàn)證子集上采用了早期停止機(jī)制,以避免過(guò)度擬合,然后使用測(cè)試子集對(duì)性能進(jìn)行量化。
實(shí)驗(yàn)主要分兩個(gè)部分:第一,在同一基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)上比較不同的融合方式的分割結(jié)果,確定最佳融合方法。第二,比較本文方法與其他道路分割方法的分割效果,驗(yàn)證本文提出的方法對(duì)道路分割性能的提升。
各種融合方案的比較是在驗(yàn)證集圖像上進(jìn)行的,由我們自己與真值進(jìn)行比較得到各項(xiàng)指標(biāo)。網(wǎng)絡(luò)的輸入數(shù)據(jù)均為相機(jī)采集的RGB圖像和激光雷達(dá)得到的深度圖像,在數(shù)據(jù)預(yù)處理中實(shí)現(xiàn)了對(duì)深度數(shù)據(jù)的表面法線估計(jì),采用不同的融合方式,對(duì)特征信息進(jìn)行補(bǔ)充,利用編碼器?解碼器結(jié)構(gòu)提取特征并進(jìn)行道路分割。
表1給出了采用不同融合方式在驗(yàn)證集上得到的實(shí)驗(yàn)結(jié)果性能指標(biāo)和loss值。對(duì)比像素級(jí)融合(融合A)和決策級(jí)融合(融合F),融合A的accuracy、precision、F1-score及IoU分別比融合F高0.2%、2.5%、0.6%、1%,僅recall低了1.4%。在所有的特征級(jí)融合方法中,融合E各方面性能指標(biāo)均有非常不錯(cuò)的表現(xiàn),Loss只有0.022,Accuracy提升至99.4%,Precision提升至97.9%,Recall提升了1.9%,F(xiàn)1-score提升了2.8%,IoU值提升至96.8%。
表1 不同融合方式之間的性能比較
現(xiàn)有的2D道路分割方法多采用激光雷達(dá)的數(shù)據(jù)信息去補(bǔ)充RGB圖像信息,交叉方法3可以對(duì)兩路特征信息都進(jìn)行補(bǔ)充,將兩路傳感器數(shù)據(jù)置于同等重要的地位。原始特征的組合形式特征增加了特征維數(shù),提高目標(biāo)分割的準(zhǔn)確率,解決了像素級(jí)融合易受環(huán)境噪聲干擾的不穩(wěn)定以及算法實(shí)現(xiàn)的費(fèi)時(shí)。決策級(jí)融合有很好的糾錯(cuò)性,可以消除單個(gè)傳感器造成的誤差,同時(shí)具有很好的分割速度。將兩者結(jié)合,提高分割的準(zhǔn)確率,同時(shí)有很好的糾錯(cuò)性。
圖6為同一張道路圖不同融合方式的分割結(jié)果示例。通過(guò)多組圖片對(duì)比,可以看出本文提出的融合E分割結(jié)果與真值圖最為接近,道路輪廓分割較為完整,并沒有過(guò)多的誤檢區(qū)域。對(duì)于處于同一水平面的人行道、遠(yuǎn)處的路口區(qū)域以及車輛周圍的區(qū)域,融合E對(duì)于非道路區(qū)域的剔除最干凈。
圖6 不同融合方式實(shí)驗(yàn)結(jié)果示例
4.2.1 定性分割結(jié)果比較
圖7給出了對(duì)于KITTI數(shù)據(jù)集中幾個(gè)典型場(chǎng)景的測(cè)試結(jié)果,將本文提出的最佳融合方法(融合E)與OFA Net[8]、MultiNet[9]、RBNet[10]、multi-task CNN[11]、SNE-RoadSeg[20]進(jìn)行比較。其中第一列為OFA Net[8]的分割結(jié)果圖,第二列為RBNet[10]的分割結(jié)果圖,第三列為multi-task CNN[11]的分割結(jié)果,第四列為SNE-RoadSeg[20]的分割結(jié)果圖,第五列為L(zhǎng)idCamNet[13]的分割結(jié)果,第六列為融合方案E的方法的分割結(jié)果圖。圖7(a)、7(b)為UM場(chǎng)景,圖7(c)、7(d)為UMM場(chǎng)景,圖7(e)、7(f)為UU場(chǎng)景,綠色區(qū)域?yàn)檎_的駕駛區(qū)域(真陽(yáng)性),藍(lán)色區(qū)域?qū)?yīng)于缺失駕駛區(qū)域(假陽(yáng)性,即錯(cuò)檢區(qū)域),紅色區(qū)域表示假駕駛區(qū)域(假陰性,即誤檢區(qū)域)。
對(duì)比UM場(chǎng)景,對(duì)于圖7(a),OFA Net[8]檢測(cè)出綠色區(qū)域更為完整,紅色誤檢區(qū)域很少,但是道路邊緣有一圈藍(lán)色錯(cuò)檢區(qū)域;SNE-RoadSeg[20]藍(lán)色錯(cuò)檢區(qū)域最少,有少量紅色誤檢區(qū)域;融合E在陰影處有少量藍(lán)色錯(cuò)檢區(qū)域,在接近車輛位置有少量紅色誤檢區(qū)域,綠色區(qū)域較為完整。對(duì)于圖7(b),雖然融合E對(duì)于車輛下方的人行區(qū)域產(chǎn)生了誤判,但是綠色區(qū)域是最為完整,與右邊車輛交界處處理得也很好,其他方法都有少量紅色或者藍(lán)色區(qū)域。對(duì)比UMM場(chǎng)景,對(duì)于圖7(c),各方法檢測(cè)結(jié)果都較為理想,誤檢與錯(cuò)檢區(qū)域都非常少。而對(duì)于圖7(d),融合E、OFA Net[8]、RBNet[10]、LidCamNet[13]檢測(cè)結(jié)果最好,對(duì)于鐵軌區(qū)域基本完全剔除。
對(duì)比UU場(chǎng)景,對(duì)于圖7(e),可以看出融合E對(duì)于車輛與道路交界位置處理非常好,綠色道路區(qū)域繞著車輛的邊緣,基本沒有紅色誤檢區(qū)域;其他方法或多或少存在一些誤檢區(qū)域或者錯(cuò)檢區(qū)域。對(duì)于圖7(f)是同樣的,右邊部分檢測(cè)較為完整,雖然左邊有少量人行區(qū)域的錯(cuò)檢。而multi-task CNN[11]的每次檢測(cè)結(jié)果雖然也比較完整,但是藍(lán)色錯(cuò)檢區(qū)域太多。綜合考慮,融合E對(duì)于道路與車輛交界處處理非常好。
圖7 KITTI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果示例
融合方案E采用可訓(xùn)練參數(shù)交叉融合,對(duì)圖像和法線數(shù)據(jù)進(jìn)行特征級(jí)融合,綜合利用圖像數(shù)據(jù)密集紋理信息和法線數(shù)據(jù)的方向信息,對(duì)兩路傳感器分割信息進(jìn)行融合,有效降低了道路分割的誤檢率。
4.2.2 定量比較
與其他方法的定量比較是在測(cè)試集圖像上進(jìn)行的,將我們對(duì)測(cè)試集圖像的分割結(jié)果提交KITTI,由KITTI與真值進(jìn)行比較得到各項(xiàng)指標(biāo)。將本文提出的最佳融合方法(融合E)與KITTI road基準(zhǔn)上發(fā)布的OFA Net[8]、MultiNet[9]、RBNet[10]、multi-task CNN[11]、SNE-RoadSeg[20]、LidCamNet[13]在不同的場(chǎng)景下進(jìn)行比較,輸入數(shù)據(jù)均為深度數(shù)據(jù)、RGB圖像數(shù)據(jù)、融合數(shù)據(jù)。表2中給出了幾種方法在測(cè)試集上的定量比較。其中,OFA Net[8]、MultiNet[9]、RBNet[10]、multi-task CNN[11]屬于單純基于圖像的分割方法,SNE-RoadSeg[20]、LidCamNet[13]和我們的融合E方法屬于點(diǎn)云與圖像融合的方法。
Precision表示模型檢測(cè)出的目標(biāo)有多大比例是真正的目標(biāo)物體,Recall代表所有真實(shí)的目標(biāo)有多大比例被模型檢測(cè)出。由表中數(shù)據(jù)可看出,基于圖像分割的OFA Net[8]、multi-task CNN[11]在recall方面很高,UMM場(chǎng)景下可達(dá)百分之九十八點(diǎn)幾,而precision方面卻不盡人意,說(shuō)明基于圖像的分割方法檢測(cè)正確的道路像素?cái)?shù)很多,但出現(xiàn)了很多誤判情況;而基于點(diǎn)云?圖像融合的分割方法在MaxF(max F1-score)、AP(average precision平均精度)、Precision等方面均有不錯(cuò)的表現(xiàn),Recall方面略有遜色,說(shuō)明多數(shù)據(jù)融合模型檢測(cè)出的道路是真實(shí)道路的比例更高,存在少量漏檢情況。結(jié)果對(duì)比,證明了多數(shù)據(jù)融合對(duì)于道路的誤判有顯著降低。
在基于點(diǎn)云?圖像融合的分割方法中,對(duì)比使用特征融合的LidCamNet[13],我們的融合E(交叉方法3)UM和UU場(chǎng)景下各方面性能均有所提升,而在UMM場(chǎng)景下AP提升了0.28%,Recall提升了0.22%,Precision降低了0.95%,MaxF降低了0.37%;對(duì)比SNE-RoadSeg[20],我們的融合E方法在各場(chǎng)景的AP值均為最高,在UU場(chǎng)景下recall方面不相上下,其他方面均有不足。Precision反映了被模型判定為道路的正例中真實(shí)道路的比重,體現(xiàn)了檢測(cè)的準(zhǔn)確度。融合E的precision低于SNE-RoadSeg[20],說(shuō)明被判斷為道路的像素中有不少誤判的情況。Recall反映了被正確判斷為道路的正例占總的真實(shí)道路的比重,體現(xiàn)了檢測(cè)的完整性。兩個(gè)方法均為95.83%,說(shuō)明被正確判斷為道路的像素?cái)?shù)基本一致。對(duì)于道路檢測(cè)任務(wù)而言,Precision和recall往往是此消彼長(zhǎng)的,AP是兩者的結(jié)合,AP越高代表檢測(cè)失誤越少。Precision的降低,說(shuō)明我們的融合E方法出現(xiàn)了道路誤檢的情況。從圖7(a)、7(b)可以看出,在UM(城市標(biāo)記)場(chǎng)景下,高度與道路一致的非道路區(qū)域出現(xiàn)車輛的情況,檢測(cè)結(jié)果出現(xiàn)了嚴(yán)重偏差。從圖7(c)、7(d)可以看出,在UMM(城市多條標(biāo)記道路)場(chǎng)景下,路面情況較為復(fù)雜時(shí),檢測(cè)結(jié)果較為良好。而且融合E在AP方面有所提高,說(shuō)明交叉方法3對(duì)于模型性能有所改善,但對(duì)于個(gè)別道路與人行道高度一致且有混淆因素(車輛)的情況仍有不足。
表2 KITTI道路基準(zhǔn)測(cè)試結(jié)果
本文研究基于點(diǎn)云與圖像數(shù)據(jù)融合的道路分割方法,設(shè)計(jì)了像素級(jí)、特征級(jí)和決策級(jí)多種融合方案,尤其是在特征級(jí)融合中設(shè)計(jì)了四種交叉融合方案。采用KITTI數(shù)據(jù)集進(jìn)行多種融合方式的實(shí)驗(yàn)驗(yàn)證,融合方案E能夠更好地獲取圖像和法線的特征信息,具有最佳的道路分割效果。對(duì)比其他多種道路檢測(cè)方法,本文提出的最佳融合方法表現(xiàn)出平均檢測(cè)精度上的優(yōu)勢(shì),具有較好的整體性能。
[1] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//, 2015.
[2] Zhou Z W, Siddiquee M R, Tajbakhsh N,. UNet++: a nested U-Net architecture for medical image segmentation[C]//, 2018.
[3] Huang G, Liu Z, van der Maaten L,. Densely connected convolutional networks[C]//, 2017.
[4] Xiao X, Lian S, Luo Z M,. Weighted Res-UNet for high-quality retina vessel segmentation[C]//, 2018.
[5] He K M, Zhang X Y, Ren S Q,. Deep residual learning for image recognition[C]//, 2016.
[6] Chen L C, Zhu Y K, Papandreou G,. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//, 2018.
[7] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]., 2017, 39(12): 2481–2495.
[8] Zhang S C, Zhang Z, Sun L B,. One for all: a mutual enhancement method for object detection and semantic segmentation[J]., 2020, 10(1): 13.
[9] Teichmann M, Weber M, Z?llner M,. MultiNet: real-time joint semantic reasoning for autonomous driving[C]//, 2018.
[10] Chen Z, Chen Z J. RBNet: a deep neural network for unified road and road boundary detection[C]//, 2017.
[11] Oeljeklaus M, Hoffmann F, Bertram T. A fast multi-task CNN for spatial understanding of traffic scenes[C]//, 2018.
[12] Schlosser J, Chow C K, Kira Z. Fusing LIDAR and images for pedestrian detection using convolutional neural networks[C]//, 2016.
[13] Caltagirone L, Bellone M, Svensson L,. LIDAR–camera fusion for road detection using fully convolutional neural networks[J]., 2019, 111: 125–131.
[14] Chen Z, Zhang J, Tao D C. Progressive LiDAR adaptation for road detection[J]., 2019, 6(3): 693–702.
[15] van Gansbeke W, Neven D, de Brabandere B,. Sparse and noisy LiDAR completion with RGB guidance and uncertainty[C]//, 2019.
[16] Wang T H, Hu H N, Lin C H,. 3D LiDAR and stereo fusion using stereo matching network with conditional cost volume normalization[C]//, 2019.
[17] Zhang Y D, Funkhouser T. Deep depth completion of a single RGB-D image[C]//, 2018.
[18] Deng G H. Object detection and semantic segmentation for RGB-D images with convolutional neural networks[D]. Beijing: Beijing University of Technology, 2017.
鄧廣暉. 基于卷積神經(jīng)網(wǎng)絡(luò)的RGB-D圖像物體檢測(cè)和語(yǔ)義分割[D]. 北京: 北京工業(yè)大學(xué), 2017.
[19] Cao P. Dual sensor information fusion for target detection and attitude estimation in autonomous driving[D]. Harbin: Harbin Institute of Technology, 2019.
曹培. 面向自動(dòng)駕駛的雙傳感器信息融合目標(biāo)檢測(cè)及姿態(tài)估計(jì)[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2019.
[20] Fan R, Wang H L, Cai P D,. SNE-RoadSeg: incorporating surface normal information into semantic segmentation for accurate freespace detection[C]//, 2020.
[21] Fan R, Wang H L, Xue B H,. Three-filters-to-normal: an accurate and ultrafast surface normal estimator[J]., 2021, 6(3): 5405–5412.
Point cloud-image data fusion for road segmentation
Zhang Ying, Huang Yingping*, Guo Zhiyang, Zhang Chong
School of Optical-Electronic and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
Fusion scheme E detection results(right side)
Overview:Road detection is an important content of environmental identification in the field of automatic driving, and it is an important prerequisite for vehicles to realize automatic driving. Multi-source data fusion based on deep learning has become a hot topic in the field of automatic driving. RGB data can provide dense texture and color information, LiDAR data can provide accurate spatial information, and multi-sensor data fusion can improve the robustness and accuracy of detection. The latest fusion method uses convolutional neural network (CNN) as a fusion tool to fuse the LiDAR data and RGB image data, and semantic segmentation to realize road detection and segmentation. In this paper, different fusion methods of LiDAR point cloud and image data are adopted by encoder-decoder structure to realize road segmentation in traffic scenes. Aiming at the fusion methods of point cloud and image data, this paper proposes a variety of fusion schemes at pixel level, feature level, and decision level. In particular, four kinds of cross-fusion schemes are designed in feature level fusion. Various schemes are compared and studied to give the best fusion scheme. As for the network architecture, we use the encoder with residual network and the decoder with dense connection and jump connection as the basic network. The input image is RGB-D, and the LiDAR depth map is processed into a normal map by a surface normal estimator. The normal map features and RGB image features are fused at different levels of the network. The features are extracted through two input signals generated by two encoders, restored by a decoder, and finally road detection results are obtained by using sigmoid activation function. KITTI data set is used to verify the performances of various fusion schemes. The contrast experiments show that the proposed fusion scheme E can better learn the LiDAR point cloud information, the camera image information, the correlation of cross added point cloud, and image information. Also, it can reduce the loss of characteristic information, and thus has the best road segmentation effect. Through quantitative analysis of the average accuracy (AP) of different road detection methods, the optimal fusion method proposed in this paper shows the advantages of average detection accuracy, and has good overall performance. Through qualitative analysis of the performance of different detection methods in different scenarios, the results show that the fusion scheme E proposed in this paper has good detection results for the boundary area between vehicles and roads, and could effectively reduce the false detection rate of road detection.
Zhang Y, Huang Y P, Guo Z Y,Point cloud-image data fusion for road segmentation[J]., 2021, 48(12): 210340; DOI:10.12086/oee.2021.210340
Point cloud-image data fusion for road segmentation
Zhang Ying, Huang Yingping*, Guo Zhiyang, Zhang Chong
School of Optical-Electronic and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
Road detection is the premise of vehicle automatic driving. In recent years, multi-modal data fusion based on deep learning has become a hot spot in the research of automatic driving. In this paper, convolutional neural network is used to fuse LiDAR point cloud and image data to realize road segmentation in traffic scenes. In this paper, a variety of fusion schemes at pixel level, feature level and decision level are proposed. Especially, four cross-fusion schemes are designed in feature level fusion. Various schemes are compared, and the best fusion scheme is given. In the network architecture, the semantic segmentation convolutional neural network with encoding and decoding structure is used as the basic network to cross-fuse the point cloud normal features and RGB image features at different levels. The fused data is restored by the decoder, and finally the detection results are obtained by using the activation function. The substantial experiments have been conducted on public KITTI data set to evaluate the performance of various fusion schemes. The results show that the fusion scheme E proposed in this paper has the best segmentation performance. Compared with other road-detection methods, our method gives better overall performance.
autonomous driving; road detection; semantic segmentation; data fusion
10.12086/oee.2021.210340
TP391.41
A
the Shanghai Natural Science Foundation of Shanghai Science and Technology Commission, China (20ZR14379007), and National Natural Science Foundation of China (61374197)
* E-mail: huangyingping@usst.edu.cn
張瑩,黃影平,郭志陽(yáng),等. 基于點(diǎn)云與圖像交叉融合的道路分割方法[J]. 光電工程,2021,48(12): 210340
Zhang Y, Huang Y P, Guo Z Y,Point cloud-image data fusion for road segmentation[J]., 2021, 48(12): 210340
2021-10-30;
2021-12-13
上海市自然科學(xué)基金資助項(xiàng)目(20ZR1439007);國(guó)家自然科學(xué)基金資助項(xiàng)目(61374197)
張瑩(1996-),女,碩士研究生,主要從事計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)的研究。E-mail:192420365@st.usst.edu.cn
黃影平(1966-),男,教授,主要從事汽車電子、計(jì)算機(jī)視覺的研究。E-mail:huangyingping@usst.edu.cn