遲旭然,裴 偉,朱永英,王春立,史良宇,李錦峰
1(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
2(大連海事大學(xué) 環(huán)境科學(xué)與工程學(xué)院,遼寧 大連 116026)
3(大連海洋大學(xué) 海洋與土木工程學(xué)院,遼寧 大連 116026)
4(北陸先端科學(xué)技術(shù)大學(xué)院大學(xué),日本 石川 9231292)
E-mail:peiwei@dlmu.edu.cn
隨著智能機(jī)器人、無(wú)人駕駛等產(chǎn)業(yè)的飛速發(fā)展[1],對(duì)環(huán)境感知技術(shù)提出了新的挑戰(zhàn)[2].激光雷達(dá)是復(fù)雜多變未知場(chǎng)景三維目標(biāo)檢測(cè)的首選[3].但激光雷達(dá)成本高,目標(biāo)識(shí)別率低,多與視覺(jué)方案融合識(shí)別目標(biāo),限制了激光雷達(dá)的應(yīng)用和普及.而以低成本、高性能為特征的基于視覺(jué)的三維目標(biāo)檢測(cè)則承擔(dān)起產(chǎn)業(yè)發(fā)展的重任,引領(lǐng)產(chǎn)業(yè)變革,促建“千帆競(jìng)發(fā),百舸爭(zhēng)流”的生態(tài).
Chen等人在2016年提出了Mono3D[4]目標(biāo)檢測(cè)算法,該方法分兩步進(jìn)行目標(biāo)檢測(cè),第1步根據(jù)先驗(yàn)假設(shè)密集采樣,生成三維候選框.第2步三維候選框投影生成二維檢測(cè)框,F(xiàn)aster-RCNN[5]提取特征,依據(jù)語(yǔ)義、上下文、先驗(yàn)信息計(jì)算檢測(cè)框的損失函數(shù),精確提取三維檢測(cè)框.Mono3D用復(fù)雜的先驗(yàn)信息提取三維檢測(cè)框,存在損失函數(shù)誤差累計(jì)問(wèn)題,平均檢測(cè)精度為2.38%.候選框密集采樣與多個(gè)先驗(yàn)特征融合計(jì)算量大,檢測(cè)速度為3秒/幀.
Li等人在2019年提出了基于Faster-RCNN的Stereo-RCNN[7]三維目標(biāo)檢測(cè)算法.Stereo-RCNN將雙目圖像作為網(wǎng)絡(luò)的輸入,取代了網(wǎng)絡(luò)的深度輸入,兩個(gè)FPN(Feature Pyramid Networks)[8]以及RPN(Region Proposal Network)[5]網(wǎng)絡(luò)同時(shí)對(duì)左右圖像進(jìn)行候選框的生成,Mask-RCNN[9]關(guān)鍵點(diǎn)檢測(cè)粗略計(jì)算三維檢測(cè)框,經(jīng)由左右目標(biāo)感興趣區(qū)域配準(zhǔn)精確確定三維檢測(cè)框,在KITTI數(shù)據(jù)集上的檢測(cè)效果提升了近30%,平均檢測(cè)精度達(dá)到了40.61%,檢測(cè)速度為0.3秒/幀.
Sun等人在2020年提出了Disp-RCNN[10]算法,設(shè)計(jì)了一個(gè)實(shí)例視差估計(jì)網(wǎng)絡(luò),僅對(duì)感興趣物體上的像素進(jìn)行雙目視差預(yù)測(cè),事先要學(xué)習(xí)一個(gè)特定類(lèi)別的形狀模型,以便準(zhǔn)確估計(jì)視差.同時(shí)針對(duì)訓(xùn)練中視差標(biāo)注不足的問(wèn)題,用統(tǒng)計(jì)形狀模型生成密集視差來(lái)實(shí)現(xiàn)地面仿真,這種方式不需要激光雷達(dá)點(diǎn)云,使算法有更廣泛的適用性,同時(shí)該算法在KITTI數(shù)據(jù)集上的平均檢測(cè)精度達(dá)到了43.62%,雖然檢測(cè)精度有所提升,但由于其要對(duì)雙目視差進(jìn)行預(yù)測(cè),增加了額外的計(jì)算量,檢測(cè)速度為0.42秒/幀.
Chen等人在2020年提出了DSGN[11]算法,在平面掃描體中建立相對(duì)應(yīng)的立體約束,并轉(zhuǎn)化為三維幾何體,用于三維規(guī)則空間的預(yù)測(cè).同時(shí)設(shè)計(jì)了一個(gè)單一的網(wǎng)絡(luò),提取用于立體匹配的像素級(jí)特征和用于目標(biāo)識(shí)別的高級(jí)特征,其在KITTI上的平均檢測(cè)精度達(dá)到了57.48%,已高于一些基于激光雷達(dá)的算法,但模型較復(fù)雜,計(jì)算量大,檢測(cè)速度為0.67秒/幀.
綜上所述,在產(chǎn)業(yè)需求和科研工作者的共同推動(dòng)下,基于視覺(jué)的三維目標(biāo)檢測(cè)算法的性能有了大幅提升,精度從2.38%提升到57.48%,直逼激光雷達(dá).但檢測(cè)速度離產(chǎn)業(yè)實(shí)時(shí)性需求還有較大差距,成為目前基于視覺(jué)的三維目標(biāo)檢測(cè)算法瓶頸之一.鑒于此,本文提出一種基于Stereo-RCNN的Fast Stereo-RCNN算法,致力于提高檢測(cè)精度的同時(shí)大幅度提高檢測(cè)速度,為基于視覺(jué)的三維目標(biāo)檢測(cè)產(chǎn)業(yè)應(yīng)用提供技術(shù)支撐.
Stereo-RCNN將左右視覺(jué)圖像分別輸入到左右兩個(gè)支路中,左支路用于目標(biāo)三維關(guān)鍵點(diǎn)檢測(cè),左右支路提取的特征圖融合后用于檢測(cè)車(chē)輛的二維檢測(cè)框、航向角、三維尺寸等信息.雙支路分別進(jìn)行特征提取計(jì)算成本高,檢測(cè)速度慢.單支路Stereo-RCNN三維檢測(cè)算法只使用一個(gè)支路,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.輸入圖像經(jīng)過(guò)resnet101[12]初步特征提取,在金字塔網(wǎng)絡(luò)中特征融合,再送入?yún)^(qū)域生成網(wǎng)絡(luò)提取候選框,向特征圖像上做映射,送入關(guān)鍵點(diǎn)檢測(cè)分支與三維信息回歸分支,最終聯(lián)合兩個(gè)分支的三維關(guān)鍵點(diǎn)信息與三維尺寸、二維框、航向角等信息進(jìn)行三維中心點(diǎn)重構(gòu).單分支網(wǎng)絡(luò)結(jié)構(gòu)會(huì)削弱特征提取能力,因此要保持原檢測(cè)精度,需提升網(wǎng)絡(luò)特征提取能力和三維關(guān)鍵點(diǎn)檢測(cè)能力.Fast Stereo-RCNN將從特征融合、關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò)3個(gè)方面進(jìn)行優(yōu)化.
圖1 單支路Stereo-RCNN三維目標(biāo)檢測(cè)算法Fig.1 Single branch Stereo-RCNN three-dimensional target detection algorithm
Stereo-RCNN使用FCN(Fully Convolutional Networks for Semantic Segmentation)[13]進(jìn)行車(chē)輛底盤(pán)的關(guān)鍵點(diǎn)檢測(cè)、車(chē)體三維中心點(diǎn)重構(gòu).因此關(guān)鍵點(diǎn)檢測(cè)精度將直接影響后續(xù)三維檢測(cè)精度.在進(jìn)行關(guān)鍵點(diǎn)檢測(cè)時(shí),區(qū)別于回歸方法、heatmap[14]方法,Stereo-RCNN使用分類(lèi)方法,將車(chē)輛底盤(pán)關(guān)鍵點(diǎn)分為4個(gè)類(lèi)別,如圖2所示,二維框約束可減少計(jì)算量[7].雖然質(zhì)量較高的候選框的二維坐標(biāo)對(duì)關(guān)鍵點(diǎn)的約束會(huì)提升關(guān)鍵點(diǎn)提取質(zhì)量,但區(qū)域生成網(wǎng)絡(luò)會(huì)生成300個(gè)候選框,數(shù)量過(guò)多,質(zhì)量參差不齊,其中一些質(zhì)量較差的候選框,對(duì)關(guān)鍵點(diǎn)提取的影響較大.而過(guò)少的候選框不足以支撐車(chē)輛較多、遮擋嚴(yán)重等的復(fù)雜場(chǎng)景.針對(duì)這一問(wèn)題需要在使用少量高質(zhì)量候選框的同時(shí)強(qiáng)化關(guān)鍵點(diǎn)檢測(cè)分支的關(guān)鍵點(diǎn)提取能力.
圖2 關(guān)鍵點(diǎn)分類(lèi)Fig.2 Convolution structure
原關(guān)鍵點(diǎn)檢測(cè)分支使用的是全卷積網(wǎng)絡(luò)(FCN),如圖3(a)所示,沒(méi)有充分考慮像素與像素之間的關(guān)系,容易引發(fā)前景背景辨識(shí)錯(cuò)誤的問(wèn)題.針對(duì)該問(wèn)題,引入一全連接分支對(duì)前景背景進(jìn)行區(qū)分[15],銳化目標(biāo)辨識(shí)能力.具體做法如圖3(b)所示,使用兩個(gè)卷積層C1_FC,C2_FC,其中第2個(gè)卷積層將通道數(shù)減半以減少計(jì)算量,在兩個(gè)卷積層后面接上全連接層FC,形成增強(qiáng)分支.
圖3 二分支關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)Fig.3 Two branch key point detection network
本節(jié)針對(duì)輕量區(qū)域生成網(wǎng)絡(luò)的候選框難以應(yīng)對(duì)復(fù)雜場(chǎng)景下的檢測(cè)任務(wù)的問(wèn)題,對(duì)FPN進(jìn)行改進(jìn).
近日,浩鯨科技攜手南京市公安局交通管理局打造的智慧交通綜合應(yīng)用平臺(tái)二期項(xiàng)目正式通過(guò)初驗(yàn)。該平臺(tái)整合一期項(xiàng)目數(shù)據(jù)和“一標(biāo)三實(shí)”信息采集會(huì)戰(zhàn)數(shù)據(jù),可廣泛用于開(kāi)展路況擁堵態(tài)勢(shì)分析、道路擁堵分析及大隊(duì)工作監(jiān)管等,助力南京市公安局交通管理局推進(jìn)以大數(shù)據(jù)研判為支撐,信息主導(dǎo)警務(wù)的智慧新交管建設(shè),幫助交警在面對(duì)日益復(fù)雜的道路狀況和出行場(chǎng)景時(shí),有效提升交通管理效能。
在FPN后增加一個(gè)自底向上的金字塔(PAN),增強(qiáng)定位能力[15].如圖4所示,(a)為原FPN結(jié)構(gòu),(b)為新增的反向增強(qiáng)結(jié)構(gòu).
圖4 雙層特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Two-layer feature fusion network architecture
圖4中每一層之間的特征融合都采用卷積核大小為3×3,步長(zhǎng)為2的卷積結(jié)構(gòu),每次卷積后圖大小都縮小為原來(lái)的一半.這種反向增強(qiáng)后的FPN可提供更加準(zhǔn)確的定位信息及強(qiáng)語(yǔ)義信息.
在車(chē)輛較多、遮擋嚴(yán)重等復(fù)雜場(chǎng)景下,期望得到強(qiáng)定位信息,但進(jìn)行特征融合時(shí)使用1×1的卷積核會(huì)丟失一些定位信息.因此,本文把進(jìn)行3×3卷積后的N2保留,將包含底層強(qiáng)定位信息的P2與N2進(jìn)行融合,以增強(qiáng)N2的定位能力.
原來(lái)的特征金字塔網(wǎng)絡(luò)最終的輸出是經(jīng)3×3卷積之后的4個(gè)特征圖.但是進(jìn)入RPN網(wǎng)絡(luò)的還有池化后的P5,如圖4(c)所示,它在RPN中的作用主要是擴(kuò)大網(wǎng)絡(luò)的感受野以及增加局部上下文信息.本文將圖4(a)中語(yǔ)義信息最強(qiáng)的P5與圖4(b)中語(yǔ)義信息最強(qiáng)的N5融合、池化作為RPN的感受野,進(jìn)一步增加局部上下文信息.
Fast Stereo-RCNN網(wǎng)絡(luò)結(jié)構(gòu)圖5(b)與原算法圖5(a)對(duì)比如圖5所示.resnet101提取的特征進(jìn)入雙層特征融合網(wǎng)絡(luò)進(jìn)行高層級(jí)與低層級(jí)特征融合,得到的4種分辨率特征圖在輕量區(qū)域生成網(wǎng)絡(luò)中生成候選框.在訓(xùn)練時(shí)使用nms(Efficient non-maximum suppression)[16]取IOU(Intersectionover Union)從高到低排序的前512個(gè)候選框,而在檢測(cè)時(shí)僅取前10的候選框,經(jīng)過(guò)ROIAlign[9]層將候選框與特征圖進(jìn)行映射,固定特征圖的尺寸.使用固定尺寸的特征圖分別做三維關(guān)鍵點(diǎn)檢測(cè)以及車(chē)體尺寸、朝向角、二維框的檢測(cè).相較于原始網(wǎng)絡(luò),使用雙層特征融合網(wǎng)絡(luò)來(lái)縮短特征融合的傳遞路徑,避免在傳遞的過(guò)程中丟失過(guò)多的語(yǔ)義信息,增強(qiáng)定位能力,同時(shí)為輕量區(qū)域生成網(wǎng)絡(luò)提供多層級(jí)感受野;輕量區(qū)域生成網(wǎng)絡(luò)生成少量候選框,在減少檢測(cè)時(shí)間的同時(shí)固化了三維關(guān)鍵點(diǎn);使用二分支關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)銳化目標(biāo)的辨識(shí)能力.
圖5 Fast Stereo-RCNN三維目標(biāo)檢測(cè)算法與原算法網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
本節(jié)共分4部分,第1部分介紹實(shí)驗(yàn)環(huán)境以及評(píng)估指標(biāo);第2部分為關(guān)鍵點(diǎn)檢測(cè)增強(qiáng)分支的對(duì)比實(shí)驗(yàn),第3部分為前置網(wǎng)絡(luò)、雙層特征融合網(wǎng)絡(luò)、輕量區(qū)域生成網(wǎng)絡(luò)之間的對(duì)比實(shí)驗(yàn).第4部分為Fast Stereo-RCNN與近幾年提出的三維目標(biāo)檢測(cè)算法精度速度對(duì)比.
本章節(jié)實(shí)驗(yàn)運(yùn)行環(huán)境中使用的CPU為Intel(R) Core(TM) i-9700k,顯卡為GeForce RTX 2080,腳本語(yǔ)言為Python 3.6.7.
本文使用mAP[17]作為算法的評(píng)估指標(biāo).IOU為預(yù)測(cè)的邊框與真實(shí)的邊框的交集和并集的比值,本節(jié)中的mAP值均為IOU為0.7下的預(yù)測(cè)值.
本文所用的數(shù)據(jù)集來(lái)自KITTI[18](包括行人和車(chē)輛的左右視覺(jué)圖像共24.7G),分為汽車(chē)、卡車(chē)、行人、自行車(chē)4個(gè)類(lèi)別,訓(xùn)練時(shí)只針對(duì)汽車(chē)這一個(gè)類(lèi)別進(jìn)行訓(xùn)練,訓(xùn)練樣本如圖6所示.數(shù)據(jù)集場(chǎng)景分為3個(gè)難度easy,mode,hard.場(chǎng)景難度越高,車(chē)輛的種類(lèi)、數(shù)量越多,遮擋情況越嚴(yán)重.其中訓(xùn)練樣本為6378枚,測(cè)試樣本為3769枚,隨機(jī)選取,無(wú)交集.
圖6 訓(xùn)練圖像示例Fig.6 Training image sample
為了驗(yàn)證二分支關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)的性能,本小節(jié)分別選取了resnet18與resnet101作為前置網(wǎng)絡(luò),實(shí)驗(yàn)數(shù)據(jù)如表1所示.以resnet18作為前置網(wǎng)絡(luò)時(shí),加上增強(qiáng)分支后檢測(cè)精度提升近1%.以resnet101為前置網(wǎng)絡(luò)時(shí),檢測(cè)精度提升近0.8%.實(shí)驗(yàn)數(shù)據(jù)表明在關(guān)鍵點(diǎn)檢測(cè)分支中引入全連接層可以有效的進(jìn)行像素級(jí)的前景背景區(qū)分,能夠在不增加檢測(cè)時(shí)間的前提下銳化目標(biāo)辨識(shí)能力,提升三維檢測(cè)精度.
表1 關(guān)鍵點(diǎn)檢測(cè)增強(qiáng)前后檢測(cè)精度和速度對(duì)比Table 1 Comparison of detection accuracy and speed before and after key point detection enhancement
為了驗(yàn)證網(wǎng)絡(luò)的特征提取能力與不同特征融合手段對(duì)三維檢測(cè)速度和精度的影響,本小節(jié)選取resnet18與resnet101作為前置網(wǎng)絡(luò),F(xiàn)PN和雙層特征融合網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征融合,如表2所示.不同深度的前置網(wǎng)絡(luò)都會(huì)出現(xiàn)底層特征到高層特征傳遞路徑過(guò)長(zhǎng)的問(wèn)題.使用雙層特征融合網(wǎng)絡(luò)雖然會(huì)增加0.01s的檢測(cè)時(shí)間,但是可以縮短特征傳遞路徑,保留語(yǔ)義信息,增強(qiáng)定位能力,提升三維檢測(cè)精度.resnet18作為前置網(wǎng)絡(luò)時(shí)由于層數(shù)較少,特征提取能力較弱,三維檢測(cè)精度較低.
表2 不同前置網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)的三維檢測(cè)精度和速度對(duì)比Table 2 Comparison of 3D detection accuracy and speed between different front networks and feature fusion networks
為了驗(yàn)證在檢測(cè)過(guò)程中區(qū)域生成網(wǎng)絡(luò)生成過(guò)多的候選框不僅會(huì)顯著增加計(jì)算量,而且大量質(zhì)量參差不齊的候選框?qū)θS關(guān)鍵點(diǎn)的約束有負(fù)面影響這一觀點(diǎn),本小節(jié)基于上小節(jié)的實(shí)驗(yàn),分別選擇不同數(shù)量的候選框以及不同前置網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)來(lái)進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表3所示,使用10個(gè)候選框而不使用雙層特征融合網(wǎng)絡(luò)可大幅度縮短檢測(cè)時(shí)間,但僅在簡(jiǎn)單場(chǎng)景下小幅度的提升了精度,而在中等和復(fù)雜場(chǎng)景下檢測(cè)精度都會(huì)下降.使用10個(gè)候選框同時(shí)使用雙層特征融合網(wǎng)絡(luò)會(huì)同時(shí)提升檢測(cè)速度以及3個(gè)場(chǎng)景復(fù)雜度下的檢測(cè)精度.實(shí)驗(yàn)數(shù)據(jù)表明,在簡(jiǎn)單場(chǎng)景下檢測(cè)時(shí)選取過(guò)多的候選框,會(huì)存在質(zhì)量較差的候選框?qū)θS關(guān)鍵點(diǎn)進(jìn)行約束,導(dǎo)致三維檢測(cè)精度下降,使用數(shù)量較少質(zhì)量較高的候選框不僅會(huì)提升檢測(cè)速度,也會(huì)提升其在簡(jiǎn)單場(chǎng)景下的三維檢測(cè)精度.復(fù)雜場(chǎng)景下由于車(chē)輛較多、候選框過(guò)少會(huì)導(dǎo)致檢測(cè)精度下降,此時(shí)在特征融合部分使用雙層融合特征網(wǎng)絡(luò),縮短底層特征到高層特征的傳遞路徑來(lái)保留語(yǔ)義信息的同時(shí)增強(qiáng)底層的強(qiáng)定位能力,使其在復(fù)雜場(chǎng)景下的特征融合與特征提取能力得到進(jìn)一步增強(qiáng).綜合數(shù)據(jù)對(duì)比,最終Fast Stereo-RCNN使用特征提取能力較強(qiáng)的resnet101作為前置網(wǎng)絡(luò),使用雙層特征融合網(wǎng)絡(luò)進(jìn)行特征融合,檢測(cè)時(shí)選取輕量區(qū)域生成網(wǎng)絡(luò)以生成數(shù)量較少質(zhì)量較高的候選框來(lái)約束三維關(guān)鍵點(diǎn),使用二分支關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)提升其目標(biāo)辨識(shí)能力,增強(qiáng)三維關(guān)鍵點(diǎn)檢測(cè)能力.
表3 不同特征融合網(wǎng)絡(luò)與候選框數(shù)量的三維檢測(cè)精度和速度對(duì)對(duì)比
Fast Stereo-RCNN與近幾年其它三維目標(biāo)檢測(cè)算法的速度與精度對(duì)比如表4所示,在提升檢測(cè)精度的同時(shí)檢測(cè)速度是Stereo-RCNN的2.72倍,F(xiàn)ast Stereo-RCNN與近幾年其它基于視覺(jué)的三維目標(biāo)檢測(cè)算法相比,在同精度水平上速度占優(yōu)勢(shì).
表4 Fast Stereo-RCNN與其他三維目標(biāo)檢測(cè)算法的精度和速度對(duì)比Table 4 Comparison of accuracy and speed between F Stereo-RCNN and other 3D target detection algorithms
針對(duì)基于視覺(jué)的三維目標(biāo)檢測(cè)算法實(shí)時(shí)性較差這一問(wèn)題,本文在Stereo-RCNN三維目標(biāo)檢測(cè)算法的基礎(chǔ)上,改用單支路的網(wǎng)絡(luò)結(jié)構(gòu)以縮短檢測(cè)時(shí)間;使用雙層特征融合網(wǎng)絡(luò)提升復(fù)雜場(chǎng)景下的特征融合與特征提取能力;在三維關(guān)鍵點(diǎn)檢測(cè)分支中引入全連接層來(lái)銳化其目標(biāo)辨識(shí)能力,進(jìn)一步的提升關(guān)鍵點(diǎn)提取能力;在區(qū)域生成網(wǎng)絡(luò)中使用更少的候選框來(lái)固化三維關(guān)鍵點(diǎn).算法的平均檢測(cè)精度達(dá)到了41.82%,比Stereo-RCNN算法提高了1.21%,同時(shí)速度達(dá)到了0.11秒/幀,是Stereo-RCNN算法的2.72倍.