龐彥偉,修宇璇
?
基于邊緣特征融合和跨連接的車(chē)道線(xiàn)語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)
龐彥偉,修宇璇
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
無(wú)人駕駛中的車(chē)道線(xiàn)檢測(cè)任務(wù)需要同時(shí)確定車(chē)道線(xiàn)的位置、顏色和線(xiàn)型,而現(xiàn)有方法通常僅識(shí)別車(chē)道線(xiàn)的位置,不識(shí)別車(chē)道線(xiàn)的類(lèi)型.為了端到端地解決這一問(wèn)題,設(shè)計(jì)了一種語(yǔ)義分割神經(jīng)網(wǎng)絡(luò),將一幅圖像中不同車(chē)道線(xiàn)分割為不同區(qū)域,用每個(gè)區(qū)域的類(lèi)別標(biāo)簽表示其對(duì)應(yīng)的車(chē)道線(xiàn)類(lèi)型.首先,在主流的編碼器-解碼器框架下,構(gòu)建了一個(gè)結(jié)構(gòu)較為簡(jiǎn)單的基礎(chǔ)網(wǎng)絡(luò).考慮到邊緣特征是車(chē)道線(xiàn)檢測(cè)中的重點(diǎn),為基礎(chǔ)網(wǎng)絡(luò)的編碼器并聯(lián)了一個(gè)邊緣特征提取子網(wǎng)絡(luò),通過(guò)逐層融合邊緣特征圖和原始特征圖增強(qiáng)車(chē)道線(xiàn)的特征.邊緣特征提取子網(wǎng)絡(luò)的結(jié)構(gòu)與基礎(chǔ)網(wǎng)絡(luò)的編碼器相同,其輸入是對(duì)車(chē)道線(xiàn)圖像進(jìn)行Sobel濾波的結(jié)果.此外,編碼器和解碼器對(duì)稱(chēng)位置的卷積層輸出的特征圖尺寸相同,但具有不同的語(yǔ)義層級(jí).為了更好地利用這一特性,建立從編碼器到解碼器對(duì)稱(chēng)位置的跨連接,在解碼器逐層上采樣的過(guò)程中融合編碼器對(duì)應(yīng)尺寸的特征圖.在TSD-Lane車(chē)道線(xiàn)檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,相比于基礎(chǔ)網(wǎng)絡(luò),基于邊緣特征融合和跨連接的神經(jīng)網(wǎng)絡(luò)的分割性能得到了較為顯著的提高.該網(wǎng)絡(luò)具有較好的車(chē)道線(xiàn)分割性能,能夠在確定車(chē)道線(xiàn)位置的同時(shí),區(qū)分黃線(xiàn)或白線(xiàn)、虛線(xiàn)或?qū)嵕€(xiàn).在計(jì)算資源充足的前提下,該網(wǎng)絡(luò)能夠達(dá)到實(shí)時(shí)的檢測(cè)速度.
車(chē)道線(xiàn)檢測(cè);語(yǔ)義分割;邊緣特征;跨連接;神經(jīng)網(wǎng)絡(luò)
車(chē)道線(xiàn)檢測(cè)是無(wú)人駕駛汽車(chē)的關(guān)鍵任務(wù)之一.車(chē)道線(xiàn)規(guī)定了無(wú)人駕駛汽車(chē)的行駛規(guī)范,是路徑規(guī)劃和智能決策的重要依據(jù).當(dāng)車(chē)輛沿當(dāng)前車(chē)道行駛時(shí),車(chē)道線(xiàn)的位置確定了路徑規(guī)劃的搜索邊界;當(dāng)無(wú)人車(chē)執(zhí)行避障和超車(chē)等任務(wù)時(shí),黃色和白色車(chē)道線(xiàn)用于區(qū)分對(duì)向和同向車(chē)道,車(chē)道線(xiàn)的虛實(shí)決定了車(chē)輛能否壓線(xiàn)或越線(xiàn)行駛.因此,準(zhǔn)確地識(shí)別車(chē)道線(xiàn)的位置、顏色(黃色或白色)和線(xiàn)型(虛線(xiàn)或?qū)嵕€(xiàn)),對(duì)無(wú)人駕駛汽車(chē)的安全、可靠行駛起著重要的作用.
目前,車(chē)道線(xiàn)檢測(cè)算法主要分為兩類(lèi):①基于手工設(shè)計(jì)特征的方法[1-2];②基于深度學(xué)習(xí)的方法[3-4].其中,基于手工設(shè)計(jì)特征的方法通常采用某種變換(如逆透視變換[1]、時(shí)空?qǐng)D[2]等),將車(chē)道線(xiàn)從交匯變?yōu)槠叫谢蚪咏叫?,使用一維霍夫變換檢測(cè)平行于車(chē)身的直線(xiàn),通過(guò)樣條曲線(xiàn)(spline curves)擬合或求解車(chē)道線(xiàn)模型的參數(shù)方程,獲得車(chē)道線(xiàn)的位置信息.
Aly[1]提出的基于逆透視變換的方法,有效地降低了搜索直線(xiàn)的參數(shù)空間,加快了檢測(cè)速度.基于該方法設(shè)計(jì)的車(chē)道線(xiàn)檢測(cè)模塊,在天津大學(xué)無(wú)人駕駛汽車(chē)系統(tǒng)上進(jìn)行了測(cè)試.在實(shí)際應(yīng)用中,發(fā)現(xiàn)該方法對(duì)于相機(jī)參數(shù)的變化較為敏感,同時(shí),要求車(chē)道線(xiàn)較為平直,且平行于車(chē)身.此類(lèi)方法在車(chē)身顛簸,車(chē)輛航向與車(chē)道線(xiàn)夾角較大,以及車(chē)道坡度較大等情況下都較易失效;同時(shí),該方法不能區(qū)分車(chē)道線(xiàn)的顏色和?虛實(shí).
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,國(guó)內(nèi)外學(xué)者提出了多種基于深度學(xué)習(xí)的車(chē)道線(xiàn)檢測(cè)方法.Li等[3]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)結(jié)合起來(lái),將待探測(cè)區(qū)域分成若干小塊,卷積神經(jīng)網(wǎng)絡(luò)按照是否包含車(chē)道線(xiàn)對(duì)每塊圖像進(jìn)行二分類(lèi),循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)包含車(chē)道線(xiàn)的圖像塊進(jìn)行回歸,以獲得車(chē)道線(xiàn)的方向和位置.Gurghian等[4]通過(guò)在車(chē)輛側(cè)面安裝的俯視攝像頭獲取車(chē)道線(xiàn)圖像,提出了一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò),直接估計(jì)車(chē)道線(xiàn)的位置.在檢測(cè)車(chē)道線(xiàn)的位置方面,這些方法取得了很好的效果,但不能識(shí)別車(chē)道線(xiàn)的類(lèi)型(如顏色、虛實(shí)等).
語(yǔ)義分割是將一幅圖像分割為不同區(qū)域并識(shí)別出每個(gè)區(qū)域?qū)?yīng)的類(lèi)別標(biāo)簽.基于深度學(xué)習(xí)的語(yǔ)義分割算法[5-7]在交通場(chǎng)景認(rèn)知和可行駛區(qū)域檢測(cè)等方面取得了很好的性能.本文考慮在車(chē)道線(xiàn)檢測(cè)任務(wù)中應(yīng)用語(yǔ)義分割,將一幅圖像中的不同車(chē)道線(xiàn)分割為不同區(qū)域,其類(lèi)別標(biāo)簽即為不同的車(chē)道線(xiàn)類(lèi)型(包括黃色實(shí)線(xiàn)、黃色虛線(xiàn)、白色實(shí)線(xiàn)和白色虛線(xiàn)),用于同時(shí)檢測(cè)車(chē)道線(xiàn)的位置和類(lèi)型.
基于上述思想,本文提出了一種基于邊緣特征融合和跨連接的車(chē)道線(xiàn)語(yǔ)義分割神經(jīng)網(wǎng)絡(luò),在編碼器-解碼器結(jié)構(gòu)的基礎(chǔ)上,為編碼端并聯(lián)一個(gè)邊緣檢測(cè)子網(wǎng)絡(luò),同時(shí)建立從編碼端到解碼端的跨連接,以融合不同語(yǔ)義層級(jí)的特征圖.本文所提網(wǎng)絡(luò)能夠同時(shí)識(shí)別車(chē)道線(xiàn)的位置、顏色和線(xiàn)型,在TSD-Lane車(chē)道線(xiàn)檢測(cè)數(shù)據(jù)集上取得了很好的實(shí)驗(yàn)結(jié)果.
圖像的語(yǔ)義分割可以視為對(duì)圖像進(jìn)行像素級(jí)別的分類(lèi),一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn).深度學(xué)習(xí)具有強(qiáng)大的特征表達(dá)能力,泛化能力強(qiáng),魯棒性好,不僅能很好地完成圖像分類(lèi)任務(wù),而且在圖像的語(yǔ)義分割方面也取得了很大的進(jìn)展.Long等[5]提出了全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),用卷積層替換了傳統(tǒng)分類(lèi)網(wǎng)絡(luò)中的全連接層,并用反卷積進(jìn)行上采樣,將端到端的卷積神經(jīng)網(wǎng)絡(luò)推廣到圖像的語(yǔ)義分割任務(wù)中.
SegNet[6]和U-Net[7]兩種語(yǔ)義分割網(wǎng)絡(luò)采用逐層降采樣-逐層上采樣的編碼器-解碼器(encoder-decoder)結(jié)構(gòu).其中,SegNet結(jié)構(gòu)保存了編碼器中池化層激活的位置,降低了上采樣過(guò)程中的信息損失,在語(yǔ)義分割方面取得了良好的性能.
在語(yǔ)義分割中,有效地利用邊緣信息,有助于精確恢復(fù)分割區(qū)域的邊界.DeepLab[8]采用條件隨機(jī)場(chǎng)(conditional random field,CRF)對(duì)神經(jīng)網(wǎng)絡(luò)的分割結(jié)果進(jìn)行優(yōu)化,以獲得更準(zhǔn)確的邊緣.針對(duì)CRF計(jì)算復(fù)雜度較高的問(wèn)題,Chen等[9]使用域變換(domain transform,DT)保留圖像中的邊緣信息,在不降低分割精度的前提下,提升了網(wǎng)絡(luò)的計(jì)算速度.在可行駛區(qū)域檢測(cè)方面,Wang等[10]將局部先驗(yàn)信息引入全卷積網(wǎng)絡(luò),利用邊緣檢測(cè)引導(dǎo)語(yǔ)義分割,提升了網(wǎng)絡(luò)的收斂速度,在KITTI路面檢測(cè)數(shù)據(jù)集上達(dá)到了93.26%的準(zhǔn)確率.
在深度神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,每層輸出特征圖的語(yǔ)義層次逐漸提高,分辨率逐漸降低.淺層特征圖中的語(yǔ)義信息較少,但目標(biāo)的位置和邊緣輪廓信息較為準(zhǔn)確;深層特征圖的語(yǔ)義信息較為豐富,但損失了目標(biāo)的位置和邊緣輪廓信息.因此,各層特征圖可以視為一個(gè)自然形成的特征金字塔.有效地利用各層特征圖中不同語(yǔ)義層級(jí)的信息,是提升基于深度學(xué)習(xí)算法性能的一個(gè)重要方法.
許多基于深度學(xué)習(xí)的方法顯性或隱性地用到了神經(jīng)網(wǎng)絡(luò)中的特征金字塔,其中很重要的一種方法就是建立跨層的連接,融合不同層次的語(yǔ)義信息.Pinheiro等[11]提出的SharpMask結(jié)構(gòu),在傳統(tǒng)的自下而上計(jì)算的卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,建立了一個(gè)自上而下的通路,使信息反向傳遞,起到了利用低層次語(yǔ)義特征的作用.Stacked Hourglass網(wǎng)絡(luò)[12]和Recombinator網(wǎng)絡(luò)[13]均采用了跨連接的網(wǎng)絡(luò)結(jié)構(gòu),分別在人體姿態(tài)分析和人臉識(shí)別方面取得了很好的效果.Lin等[14]提出的特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)同樣采用跨連接的方式,在不同的特征層獨(dú)立預(yù)測(cè)目標(biāo)的位置和類(lèi)別.
圖1 ?網(wǎng)絡(luò)結(jié)構(gòu)
本文所提網(wǎng)絡(luò)以語(yǔ)義分割中廣泛應(yīng)用的編碼器-解碼器結(jié)構(gòu)為基礎(chǔ),如圖2所示.與傳統(tǒng)語(yǔ)義分割任務(wù)相比,車(chē)道線(xiàn)的語(yǔ)義分割任務(wù)較為簡(jiǎn)單.因此,本文設(shè)計(jì)的基礎(chǔ)網(wǎng)絡(luò)與DeconvNet[15],U-Net[7]和SegNet[6]等網(wǎng)絡(luò)結(jié)構(gòu)相比采用了更少的卷積層.其中,編碼器由4組“卷積-池化”塊結(jié)構(gòu)組成,每個(gè)卷積層包含64個(gè)7×7大小的卷積核,采用最大池化進(jìn)行降采樣.解碼器由4組“上采樣-卷積”塊結(jié)構(gòu)組成,選擇反卷積(deconvolution)層實(shí)現(xiàn)解碼器中的上采樣.
圖2 ?基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
Wang等[10]指出,F(xiàn)CN等語(yǔ)義分割網(wǎng)絡(luò)難以提取圖像中的空間結(jié)構(gòu)和邊緣輪廓信息.由于Sobel邊緣檢測(cè)算子已經(jīng)在車(chē)道線(xiàn)檢測(cè)任務(wù)上取得了較好的效果,本文考慮在基礎(chǔ)網(wǎng)絡(luò)上融合Sobel邊緣檢測(cè)的結(jié)果.首先利用兩個(gè)并列的子網(wǎng)絡(luò)分別提取RGB圖像和邊緣圖像中的特征,然后對(duì)兩個(gè)子網(wǎng)絡(luò)中對(duì)應(yīng)尺寸的特征圖進(jìn)行逐像素運(yùn)算,得到融合邊緣特征的特?征圖.
2.2.1?基于Sobel算子的邊緣檢測(cè)
在RGB圖像轉(zhuǎn)換為灰度圖像的過(guò)程中,遵循式(1)進(jìn)行顏色空間的轉(zhuǎn)換.
2.2.2?編碼器的特征提取與融合
編碼器由兩個(gè)并列的子網(wǎng)絡(luò)構(gòu)成,分別提取RGB圖像和邊緣圖像的特征.其中,RGB圖像對(duì)應(yīng)的子網(wǎng)絡(luò)由4組“卷積-池化”塊結(jié)構(gòu)級(jí)聯(lián)形成.池化層采用步長(zhǎng)為2的2×2最大池化.卷積層首先用64個(gè)7×7的卷積核提取特征,然后進(jìn)行批規(guī)范化(batch normalization,BN)[17],最后通過(guò)ReLU[18]函數(shù)進(jìn)行激活,如式(5)所示.
(7)
通過(guò)引入邊緣特征融合策略,編碼器在逐層降采樣的過(guò)程中很好地保留了車(chē)道線(xiàn)的邊緣信息.然而,在基礎(chǔ)網(wǎng)絡(luò)的解碼器中,上采樣是通過(guò)反卷積實(shí)現(xiàn)的,沒(méi)有引入額外的邊緣信息,因此難以恢復(fù)車(chē)道線(xiàn)的邊緣和輪廓,甚至可能使得邊緣特征進(jìn)一步衰減和模糊.為了更加充分地保留和利用邊緣信息,在邊緣特征融合的編碼器的基礎(chǔ)上為解碼器建立了跨連接,通過(guò)在上采樣的過(guò)程中逐層融合對(duì)應(yīng)尺寸的邊緣增強(qiáng)特征圖,進(jìn)一步提升邊緣特征融合的效果.
在基礎(chǔ)網(wǎng)絡(luò)中,解碼器通過(guò)4組與編碼器完全對(duì)稱(chēng)的“反卷積-卷積”塊結(jié)構(gòu)逐步恢復(fù)特征圖的大小,直到與輸入圖像相同.這種網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)稱(chēng)性,使得編碼器和解碼器中對(duì)稱(chēng)位置的特征圖的尺寸恰好相同.同時(shí),這些對(duì)稱(chēng)位置上的特征圖具有不同的語(yǔ)義層級(jí).編碼器的特征圖的語(yǔ)義層級(jí)較低,包含了豐富的邊緣信息,但不能顯著地區(qū)分車(chē)道線(xiàn)與非車(chē)道線(xiàn)區(qū)域.解碼器的特征圖具有較高的語(yǔ)義層級(jí),能夠顯著地區(qū)分車(chē)道線(xiàn)與非車(chē)道線(xiàn)區(qū)域,但其邊緣和輪廓?jiǎng)t通常較為模糊.
為了更好地利用這種語(yǔ)義層級(jí)的互補(bǔ)性,采用類(lèi)似FPN的結(jié)構(gòu)建立跨連接,融合編碼器和解碼器中對(duì)稱(chēng)位置上尺寸相同的特征圖.與FPN不同的是,每層融合得到的特征圖不是單獨(dú)進(jìn)行預(yù)測(cè),而是直接向下一層傳遞.如圖5所示,每個(gè)跨連接通過(guò)1×1的卷積層對(duì)編碼器輸出的特征圖進(jìn)行選擇;采用逐像素相加的方法,融合編碼器和解碼器中對(duì)應(yīng)分辨率的特征圖.
圖6說(shuō)明了跨連接特征融合的作用.在解碼器逐層上采樣的過(guò)程中,隨著語(yǔ)義層次逐漸提高,獲得的特征圖丟失了車(chē)道線(xiàn)的部分位置和邊緣信息.而編碼器中語(yǔ)義層次較低的特征圖,對(duì)車(chē)道線(xiàn)的位置和邊緣信息保存得較好.跨層信息融合后,特征圖在保留豐富的高層語(yǔ)義信息的同時(shí),邊緣和細(xì)節(jié)信息也得到了增強(qiáng).
圖5? 編解碼器對(duì)應(yīng)特征圖融合方法
圖6? 特征融合前后特征圖的比較
為了驗(yàn)證提出方法的有效性,基于“中國(guó)智能車(chē)未來(lái)挑戰(zhàn)賽”離線(xiàn)測(cè)試的車(chē)道線(xiàn)檢測(cè)數(shù)據(jù)集(TSD-Lane)進(jìn)行了實(shí)驗(yàn),選擇平均交并比(mean intersection over union,mIoU)作為網(wǎng)絡(luò)性能的評(píng)價(jià)標(biāo)準(zhǔn).
TSD-Lane車(chē)道線(xiàn)檢測(cè)數(shù)據(jù)集由西安交通大學(xué)人工智能與機(jī)器人研究所提供,是TSD-max交通場(chǎng)景數(shù)據(jù)集的一部分.該數(shù)據(jù)集的車(chē)道線(xiàn)圖像由交通場(chǎng)景視頻截取得到,分辨率為1280×1024.每段視頻對(duì)應(yīng)的標(biāo)注數(shù)據(jù)由一個(gè)xml文件給出,其中包括車(chē)道線(xiàn)數(shù)量、車(chē)道線(xiàn)類(lèi)型和車(chē)道線(xiàn)位置.車(chē)道線(xiàn)類(lèi)型由字符串標(biāo)明,有“黃色實(shí)線(xiàn)”、“白色實(shí)線(xiàn)”、“黃色虛線(xiàn)”、“白色虛線(xiàn)”4種.車(chē)道線(xiàn)位置由車(chē)道線(xiàn)左右邊緣上的有序點(diǎn)表示.
為了適應(yīng)實(shí)驗(yàn)的實(shí)際情況,首先將圖像和標(biāo)注同時(shí)降采樣到分辨率為640×512.此外,對(duì)數(shù)據(jù)集的標(biāo)注方式進(jìn)行了改進(jìn),使用xml標(biāo)簽為每幀圖像生成車(chē)道線(xiàn)語(yǔ)義分割的標(biāo)簽.車(chē)道線(xiàn)類(lèi)型用顏色標(biāo)注,“黃色實(shí)線(xiàn)”、“白色實(shí)線(xiàn)”、“黃色虛線(xiàn)”、“白色虛線(xiàn)”4種車(chē)道線(xiàn)類(lèi)型分別以紅色、藍(lán)色、黃色和綠色顯示.實(shí)驗(yàn)采用的數(shù)據(jù)集如圖7所示,其中(a)為車(chē)道線(xiàn)圖像;(b)為xml格式的標(biāo)注數(shù)據(jù);(c)為原始的車(chē)道線(xiàn)標(biāo)注;(d)為改進(jìn)的車(chē)道線(xiàn)標(biāo)注.
選用視頻編號(hào)為00~44的樣本作為訓(xùn)練集(共5149張圖像);視頻編號(hào)為45~49的樣本作為驗(yàn)證集(共450張圖像).采用2017年“中國(guó)智能車(chē)未來(lái)挑戰(zhàn)賽”離線(xiàn)測(cè)試數(shù)據(jù)集作為測(cè)試集(視頻編號(hào)為51、52、56~58、65、68、74、76和96,共910張圖像).
考慮到交通場(chǎng)景圖像中車(chē)道線(xiàn)所占區(qū)域很小,車(chē)道線(xiàn)像素?cái)?shù)量遠(yuǎn)小于非車(chē)道線(xiàn)像素?cái)?shù)量,選取如式(9)和式(10)所示的加權(quán)熵函數(shù)作為訓(xùn)練的損失函數(shù).
算法?中位數(shù)頻率均衡算法.
圖7? TSD-Lane數(shù)據(jù)集示例
實(shí)驗(yàn)采用2017年“中國(guó)智能車(chē)未來(lái)挑戰(zhàn)賽”離線(xiàn)測(cè)試數(shù)據(jù)集提供的910張樣本圖像及類(lèi)別標(biāo)簽作為測(cè)試集,選擇mIoU作為評(píng)價(jià)指標(biāo).
表1比較了逐像素相乘和逐像素相加兩種特征融合策略,可以看出,逐像素相加的性能稍?xún)?yōu)于逐像素相乘,因此本文最終選用逐像素相加作為特征融合的方法.
為了分析邊緣特征融合編碼器和跨連接解碼器對(duì)網(wǎng)絡(luò)性能的影響,表2比較了基礎(chǔ)網(wǎng)絡(luò)在引入這兩種結(jié)構(gòu)前后的分割性能.
表1?兩種特征融合方法mIoU的比較
Tab.1 Comparison of the two feature merging methods’ mIoU
表2 ?4種網(wǎng)絡(luò)的mIoU比較
Tab.2? Comparison of the four networks’ mIoU
實(shí)驗(yàn)表明,在沒(méi)有跨連接的情況下,引入邊緣特征融合編碼器之后,網(wǎng)絡(luò)的性能比基礎(chǔ)網(wǎng)絡(luò)有所提升,但沒(méi)有顯著的提高.采用跨連接解碼器能夠較為顯著地提高網(wǎng)絡(luò)的分割能力.而在跨連接的基礎(chǔ)上引入邊緣特征融合編碼器,能夠進(jìn)一步提高網(wǎng)絡(luò)的分割能力.這可能是因?yàn)閱为?dú)使用邊緣特征融合編碼器雖然能夠增強(qiáng)特征圖中的邊緣和細(xì)節(jié)信息,但是這些信息又會(huì)在逐層上采樣的過(guò)程中逐漸衰減.建立從編碼端到解碼端的跨連接,能夠在上采樣的過(guò)程中利用低語(yǔ)義層級(jí)特征圖補(bǔ)充高層特征圖的細(xì)節(jié)信息,因此能夠更好地利用邊緣特征融合的結(jié)果.
在Tesla P40、TITAN X以及Tesla K40三種主流深度學(xué)習(xí)顯卡上測(cè)試了基礎(chǔ)網(wǎng)絡(luò)和本文所提網(wǎng)絡(luò)的速度,對(duì)單張圖像的測(cè)試時(shí)間如表3所示.實(shí)驗(yàn)表明,在計(jì)算資源充足的前提下,本文所提方法能夠達(dá)到實(shí)時(shí)的檢測(cè)速度.
上述實(shí)驗(yàn)證明了本文所提網(wǎng)絡(luò)的性能相比于基礎(chǔ)網(wǎng)絡(luò)有了較為顯著的提升.然而,通過(guò)觀察發(fā)現(xiàn),與其他類(lèi)型車(chē)道線(xiàn)相比,實(shí)驗(yàn)結(jié)果中黃色虛線(xiàn)的分割效果較差.經(jīng)分析,這是由于數(shù)據(jù)集的樣本分布不平衡造成的.?dāng)?shù)據(jù)集的全部6509張圖像中共包含19621條車(chē)道線(xiàn),而其中黃色虛線(xiàn)僅有697條.為了改善這一問(wèn)題,采用數(shù)據(jù)增強(qiáng)(data augmentation)擴(kuò)充黃色虛線(xiàn)的樣本,通過(guò)進(jìn)一步訓(xùn)練微調(diào)(finetune)上文所述已訓(xùn)練好的模型.部分測(cè)試結(jié)果如圖8所示,其中前6列為數(shù)據(jù)增強(qiáng)前的分割效果,后2列為數(shù)據(jù)增強(qiáng)后的分割效果.第1行為原始的車(chē)道線(xiàn)圖像;第2行為人工標(biāo)注的真實(shí)車(chē)道線(xiàn)標(biāo)簽(ground truth),由測(cè)試集提供,作為評(píng)價(jià)車(chē)道線(xiàn)識(shí)別算法準(zhǔn)確程度的參照.第3、4行分別為基礎(chǔ)網(wǎng)絡(luò)和本文所提方法的分割結(jié)果.白色矩形框標(biāo)注的區(qū)域?qū)Ρ攘吮疚乃峋W(wǎng)絡(luò)和基礎(chǔ)網(wǎng)絡(luò)對(duì)車(chē)道線(xiàn)的分割效果.可以看出,這兩種基于語(yǔ)義分割的神經(jīng)網(wǎng)絡(luò)都能夠同時(shí)識(shí)別車(chē)道線(xiàn)的位置、顏色和虛實(shí).與基礎(chǔ)網(wǎng)絡(luò)相比,基于邊緣特征融合和跨連接的語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)提高了車(chē)道線(xiàn)的分割精度,能夠更好地區(qū)分顏色相同的虛線(xiàn)和實(shí)線(xiàn),尤其能夠更好地識(shí)別磨損的車(chē)道線(xiàn)、距離較遠(yuǎn)而不清晰的車(chē)道線(xiàn)、前方較遠(yuǎn)處的轉(zhuǎn)彎等復(fù)雜情況,在無(wú)人駕駛和輔助駕駛等方面有較高的應(yīng)用價(jià)值.
表3? 兩種網(wǎng)絡(luò)對(duì)單張圖像的測(cè)試時(shí)間
Tab.3 ?Testing time of the two networks on single image
圖8? 兩種網(wǎng)絡(luò)語(yǔ)義分割結(jié)果的比較
本文提出了一種基于邊緣特征融合和跨連接的車(chē)道線(xiàn)語(yǔ)義分割神經(jīng)網(wǎng)絡(luò),以編碼器-解碼器結(jié)構(gòu)為基礎(chǔ),通過(guò)一個(gè)并聯(lián)的子網(wǎng)絡(luò)提取Sobel邊緣檢測(cè)結(jié)果的特征圖,與原始特征圖逐像素相加,增強(qiáng)車(chē)道線(xiàn)分割結(jié)果的邊緣和細(xì)節(jié).為了進(jìn)一步利用語(yǔ)義層級(jí)較低的特征圖,通過(guò)跨連接實(shí)現(xiàn)了特征融合,在保留高層語(yǔ)義信息的同時(shí),優(yōu)化了分割結(jié)果的邊緣和細(xì)節(jié).實(shí)驗(yàn)結(jié)果表明,本文所提方法能夠較為準(zhǔn)確地識(shí)別車(chē)道線(xiàn)的位置和類(lèi)型,在計(jì)算資源充足的前提下,能夠做到實(shí)時(shí)的車(chē)道線(xiàn)檢測(cè).
[1] Aly M. Real time detection of lane markers in urban streets[C]//Proceedings of IEEE International Vehicles Symposium. Eindhoven,Netherlands,2008:7-12.
[2] Jung S,Youn J,Sull S. Efficient lane detection based on spatiotemporal images[J]. IEEE Transactions on Intelligent Transportation Systems,2015,17(1):289-295.
[3] Li J,Xue M,Prokhorov D,et al. Deep neural network for structural prediction and lane detection in traffic scene[J]. IEEE Transactions on Neural Networks & Learning Systems,2017,28(3):690-703.
[4] Gurghian A,Koduri T,Bailur S V,et al. DeepLanes:End-to-end lane position estimation using deep neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas,USA,2016:38-45.
[5] Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston,USA,2015:3431-3440.
[6] Badrinarayanan V,Kendall A,Cipolla R. SegNet:A deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(12):2481-2495.
[7] Ronneberger O,F(xiàn)ischer P,Brox T. U-Net:Convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich,Germany,2015:234-241.
[8] Chen L C,Papandreou G,Kokkinos I,et al. DeepLab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2018,40(4):834-848.
[9] Chen L C,Barron J T,Papandreou G,et al. Semantic image segmentation with task-specific edge detection using CNNs and a discriminatively trained domain transform[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:4545-4554.
[10] Wang Q,Gao J,Yuan Y. Embedding structured contour and location prior in siamesed fully convolutional networks for road detection[J]. IEEE Transactions on Intelligent Transportation Systems,2018,19(1):230-241.
[11] Pinheiro P O,Lin T Y,Collobert R,et al. Learning to refine object segments[C]//Proceedings of European Conference on Computer Vision. Amsterdam,Nether-lands,2016:75-91.
[12] Newell A,Yang K,Deng J. Stacked Hourglass networks for human pose estimation[C]//Proceedings of European Conference on Computer Vision. Amsterdam,Netherlands,2016:483-499.
[13] Honari S,Yosinski J,Vincent P,et al. Recombinator networks:Learning coarse-to-fine feature aggregation [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:5743-5752.
[14] Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:936-944.
[15] Noh H,Hong S,Han B. Learning deconvolution network for semantic segmentation[C]//Proceedings of International Conference on Computer Vision. Santiago,Chile,2015:1520-1528.
[16] Li Q,Zheng N,Cheng H. Springrobot:A prototype autonomous vehicle and its algorithms for lane detection [J]. IEEE Transactions on Intelligent Transportation Systems,2004,5(4):300-308.
[17] Ioffe S,Szegedy C. Batch normalization:Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of International Conference on Machine Learning. Lille,F(xiàn)rance,2015:448-456.
[18] Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural net-works[C]//Proceedings of Advances in Neural Information Processing Systems. Lake Tahoe,USA,2012:1097-1105.
[19] Eigen D,F(xiàn)ergus R. Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture[C]//Proceedings of International Conference on Computer Vision. Santiago,Chile,2015:2650-2658.
Lane Semantic Segmentation Neural Network Based on Edge Feature Merging and Skip Connections
Pang Yanwei,Xiu Yuxuan
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
In autonomous driving,the lane detection task is required to detect the color,the type and the position of each lane. However,most existing methods usually detect the lane positions only,without recognizing the color and the type of each lane. To find an end-to-end solution to this problem,a semantic segmentation neural network is designed.In an image,different lanes are segmented into different regions.The label of each region represents the type of the corresponding lane. First,a rather simple base network is constructed basing on the main-stream encoder-decoder framework. Considered that edge features are important in lane detection,an edge feature extracting subnetwork is parallel connected to the encoder of the base network,enhancing lane features by merging original feature maps with edge feature maps layer by layer. The results of applying the Sobel filter to lane images are fed into the edge feature extracting subnetwork,which shares an identical architecture to the original encoder of the base network. Besides,the feature maps from the symmetrical convolutional layers of the encoder and the decoder have the same size,but their semantic levels are different. In order to make better use of this property,skip connections from the encoder to the decoder are implemented symmetrically,merging the corresponding encoder feature maps to the decoder feature maps in the procedure of upsampling. Experiments on TSD-Lane lane detection dataset demonstrate that the performance of the neural network based on edge feature merging and skip connections is improved rather significantly,compared with the base network. The proposed network provides good performance on lane segmentation,and it is able to detect the color,the type and the position of each lane simultaneously. Under the condition of having enough computational resources,the proposed network can achieve real-time detection.
lane detection;semantic segmentation;edge features;skip connections;neural networks
TP391
A
0493-2137(2019)08-0779-09
10.11784/tdxbz201802018
2018-02-08;
2018-04-16.
龐彥偉(1976—??),男,博士,教授.
龐彥偉,pyw@tju.edu.cn.
國(guó)家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(61632081).
the Key Program of the National Natural Science Foundation of China(No.61632081).
(責(zé)任編輯:王曉燕)