趙亞男,王顯才,高利,劉語(yǔ)佳,戴鈺
(1. 北京理工大學(xué) 機(jī)械與車輛學(xué)院,北京 100081;2. 天津航海儀器研究所,天津 300130)
環(huán)境感知是智能車輛關(guān)鍵性技術(shù),通過(guò)車載傳感器獲取周圍環(huán)境信息,然后對(duì)信息做出分析反饋,主要任務(wù)之一是進(jìn)行目標(biāo)檢測(cè). 目標(biāo)檢測(cè)主要包含兩個(gè)階段:感興趣區(qū)域生成階段;三維包圍框回歸階段,主要進(jìn)行感興趣區(qū)域提煉,劃分目標(biāo)類別及尺寸[1?2].
目前普遍采用多傳感器融合的方式進(jìn)行目標(biāo)檢測(cè),主要有決策級(jí)融合與特征級(jí)融合兩種方式. FpointNet[3]是一種典型的基于決策級(jí)融合二維區(qū)域建議網(wǎng)絡(luò),從圖像中提取二維感興趣區(qū)域,投影到三維激光雷達(dá)點(diǎn)云中獲得三維視錐,之后輸送到Point-Net 為基礎(chǔ)的目標(biāo)檢測(cè)網(wǎng)絡(luò),進(jìn)行三維包圍框預(yù)測(cè).ASVADI[4]等利用YOLOv3 網(wǎng)絡(luò),將RGB 圖像和點(diǎn)云深度圖與反射強(qiáng)度圖結(jié)合,進(jìn)行特征層融合. 姚鉞等[5]利用Pointnet++提取特征并進(jìn)行目標(biāo)分類與包圍框回歸. VORA 等[6]提出了PointPainting 特征融合模式,將激光雷達(dá)點(diǎn)云數(shù)據(jù)投影到圖像坐標(biāo),將圖像上的分類關(guān)聯(lián)到激光雷達(dá)點(diǎn)云,被賦予分類權(quán)重的激光雷達(dá)點(diǎn)云作為不同目標(biāo)檢測(cè)網(wǎng)絡(luò)(如Point RCNN[7],Second[8],VoxelNet[9],PointPillar[10]等)的輸入,增強(qiáng)分類性能.CHEN 等[11]提出一種多視圖多模態(tài)融合模型-MV3D 網(wǎng)絡(luò),在激光雷達(dá)點(diǎn)云鳥瞰圖上提取三維區(qū)域建議,投影到激光雷達(dá)前視圖與圖像平面,提取感興趣特征,通過(guò)多次融合回歸得到目標(biāo)類別與三維包圍框. SINDAGI 等[12]提出了MVX-Net 網(wǎng)絡(luò),將激光雷達(dá)點(diǎn)云數(shù)據(jù)投影到圖像特征空間并體素化,非空的體素投影到圖像特征空間后獲得體素特征,輸入到VoxelNet 網(wǎng)絡(luò)中. SONG 等[13]將圖像顏色信息擴(kuò)展到體素通道,引入3D 離散卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò).
基于多傳感器的目標(biāo)檢測(cè)方法雖然可以改善單一種類傳感器局限[14],但是當(dāng)前檢測(cè)方法多集中于決策級(jí)融合,并且不同傳感器信息分支在訓(xùn)練中容易退化,導(dǎo)致信息不能完全利用,并且對(duì)小尺度目標(biāo)檢測(cè)精度都有待提升.
文中提出一種基于圖像和激光雷達(dá)點(diǎn)云數(shù)據(jù)的聯(lián)合多視角目標(biāo)檢測(cè)方法,利用包含特征級(jí)和決策級(jí)融合的AVOD 網(wǎng)絡(luò),通過(guò)對(duì)多視角信息標(biāo)注損失函數(shù)的優(yōu)化,避免圖像分支網(wǎng)絡(luò)在訓(xùn)練時(shí)退化. 通過(guò)互投影池化層對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行特征級(jí)融合,對(duì)網(wǎng)絡(luò)目標(biāo)檢測(cè)性能有所提高,尤其對(duì)小尺度如行人和騎車人目標(biāo)檢測(cè)精度提高顯著.
網(wǎng)絡(luò)使用來(lái)自激光雷達(dá)點(diǎn)云鳥瞰圖數(shù)據(jù)和相機(jī)前視圖RGB 圖像數(shù)據(jù),在兩個(gè)階段均進(jìn)行融合操作,融合與檢測(cè)在網(wǎng)絡(luò)內(nèi)不斷交替進(jìn)行,是包含特征級(jí)和決策級(jí)融合的深度融合網(wǎng)絡(luò). 文中整體框架如圖1 所示.
圖1 三維目標(biāo)檢測(cè)網(wǎng)絡(luò)框架Fig.1 3D object detection network framework
聯(lián)合多視角目標(biāo)檢測(cè)網(wǎng)絡(luò)(AVOD)利用激光雷達(dá)和圖像的信息進(jìn)行融合,包括兩個(gè)階段:初始預(yù)測(cè)和檢測(cè)回歸. 分別包含數(shù)據(jù)預(yù)處理、特征提取、候選框推理、候選框融合、候選框篩選;候選框投影、特征融合、推理航向角、三維包圍框尺寸、目標(biāo)類別.其框架如圖2 所示.
圖2 聯(lián)合多視角目標(biāo)檢測(cè)深度融合網(wǎng)絡(luò)系統(tǒng)架構(gòu)Fig.2 The architecture of deep fusion network system for joint multi-view target detection
AVOD 網(wǎng)絡(luò)第一階段由特征提取網(wǎng)絡(luò)和區(qū)域建議網(wǎng)絡(luò)組成,初步完成精度較低、召回率較高候選框的生成,盡量避免漏檢.
1.1.1 多尺度特征提取網(wǎng)絡(luò)
特征提取網(wǎng)絡(luò)綜合了VGG-16 網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)[15]. 選定原型為VGG-16 的特征提取器,將各自模態(tài)信息進(jìn)行特征提取. 網(wǎng)絡(luò)層數(shù)加深后,僅VGG-16 特征提取器得到的特征圖分辨率會(huì)越來(lái)越低,對(duì)于小尺度目標(biāo)而言,其特征隨著不斷的下采樣而丟失,使得網(wǎng)絡(luò)丟失小尺度目標(biāo)檢測(cè)能力,因此引入特征金字塔以解決多尺度目標(biāo)特征提取問(wèn)題.特征金字塔的結(jié)構(gòu)可以獲得所需的深層次網(wǎng)絡(luò)蘊(yùn)含的語(yǔ)義信息,同時(shí)保留淺層網(wǎng)絡(luò)蘊(yùn)含的原始細(xì)節(jié)信息.
特征金字塔是編碼器加上解碼器結(jié)構(gòu),編碼由VGG-16 完成,解碼是一個(gè)通過(guò)逐步分層恢復(fù)分辨率的過(guò)程,利用反卷積對(duì)上一特征圖進(jìn)行上采樣,保證提升分辨率的同時(shí)保留高層語(yǔ)義信息.
1.1.2 空間3D 候選框生成
首先進(jìn)行空間3D 先驗(yàn)框的構(gòu)建. 先驗(yàn)框是一系列被預(yù)設(shè)好具有不同尺寸、寬高比的框,旨于盡快對(duì)目標(biāo)定位,提高召回率,引入3D 先驗(yàn)框?qū)す饫走_(dá)點(diǎn)云鳥瞰圖進(jìn)行目標(biāo)先驗(yàn)框的處理. 通過(guò)K-means聚類得到樣本先驗(yàn)框尺寸,以軸對(duì)齊的方式編碼獲得6 個(gè)參數(shù)(cx,cy,cz,dx,dy,dz)表示的先驗(yàn)框,其中(cx,cy,cz) 為中心點(diǎn)坐標(biāo),(dx,dy,dz)為先驗(yàn)框各維度尺寸. (cx,cz) 在x、z平面上采樣,間隔為0.5 m,cy取決于傳感器與地面垂向距離.
該網(wǎng)絡(luò)將車輛聚類為兩種尺寸,將行人與騎車人聚類為一種尺寸,每種尺寸設(shè)置兩個(gè)角度(0°、90°)的位姿,粗略表示目標(biāo)的不同航向角. 需要篩選并移除稀疏激光雷達(dá)點(diǎn)云得到的空白先驗(yàn)框,保證每幀數(shù)據(jù)10 k~100 k 個(gè)有效框. 根據(jù)空間3D 先驗(yàn)框獲取不同模態(tài)下的特征圖區(qū)域,并將有效框通過(guò)坐標(biāo)轉(zhuǎn)換分別投影到鳥瞰圖和RGB 圖像上,經(jīng)過(guò)裁剪及雙邊濾波調(diào)整分辨率為3×3,便于進(jìn)行區(qū)域融合.
對(duì)于復(fù)雜場(chǎng)景而言,先驗(yàn)框數(shù)量可能保留到100 k,需要使用1×1 卷積核對(duì)特征圖降維以減輕后續(xù)網(wǎng)絡(luò)運(yùn)算負(fù)擔(dān),其作用體現(xiàn)在保留不同維度信息的同時(shí)大幅減少運(yùn)算量,同時(shí)實(shí)現(xiàn)不同模態(tài)特征圖跨通道特征級(jí)融合. 拼接不同模態(tài)的同一先驗(yàn)框中特征圖進(jìn)行拼接,再利用1×1 卷積對(duì)新張量進(jìn)行卷積運(yùn)算.
式中: ωi為待學(xué)習(xí)的權(quán)重;fo為特征圖每個(gè)通道包含像素值;b為偏移量.
之后將融合后的特征圖送到兩個(gè)全連接層,進(jìn)行前背景推理和三維包圍框回歸,得到規(guī)范化后的參數(shù)( ?tx,?ty,?tz,?dx,?dy,?dz) ,其中( ?tx,?ty,?tz)是規(guī)范化后的中心偏移量,( ?dx,?dy,?dz)為規(guī)范化后的尺寸縮放量.
損失函數(shù)計(jì)算采用Smooth L1 與交叉熵函數(shù)的多任務(wù)策略,對(duì)三維包圍框和目標(biāo)二元分類分別進(jìn)行計(jì)算,損失函數(shù)為
式中:i為先驗(yàn)框序號(hào);pi為此先驗(yàn)框被判定為目標(biāo)的概率;ti為 先驗(yàn)框尺寸參數(shù)向量;Nobj為先驗(yàn)框數(shù)目,個(gè);Lobj為 交叉熵?fù)p失函數(shù);為先驗(yàn)框正負(fù)樣本標(biāo)志(1 為正樣本,0 為負(fù)樣本); λ為超參數(shù),是用于平衡二元分類任務(wù)和包圍框回歸任務(wù)權(quán)重的參數(shù),其值默認(rèn)為 λ =5;Nreg為目標(biāo)框數(shù)目;Lreg為Smooth L1損失函數(shù);是此先驗(yàn)框?qū)?yīng)樣本值.
對(duì)背景框判定,以鳥瞰圖先驗(yàn)框和樣本2D 交并比(IoU)[16]為判據(jù),具體如表1 所示,被判定為背景框的先驗(yàn)框不加入計(jì)算,既不是目標(biāo)框也不是背景框的不參與訓(xùn)練,達(dá)到初步篩選的目的. 利用二維非極大值抑制算法進(jìn)一步剔除冗余目標(biāo),保留IoU 閾值為0.8 且最多不超過(guò)前1 024 個(gè)的目標(biāo)框,以便提高召回率,降低漏檢.
表1 樣本2D IoU 判定指標(biāo)Tab.1 Sample 2D IoU judgment indicators
在得到粗略估計(jì)的候選框三維尺寸之后,進(jìn)行候選框尺寸的精細(xì)回歸,計(jì)算航向角與目標(biāo)類別判斷,同時(shí)進(jìn)行特征第二次融合.
對(duì)三維包圍框尺寸估計(jì)時(shí)首先考慮編碼方式.主要有兩種常用編碼方式:利用六面體的8 個(gè)頂點(diǎn)編碼和軸對(duì)齊方式編碼. 第一種方式能獲得準(zhǔn)確的尺寸估計(jì),但是所需參數(shù)量較多;第二種利用中心點(diǎn)坐標(biāo)和沿3 個(gè)坐標(biāo)軸的棱長(zhǎng)編碼(第一階段使用),所需參數(shù)量較小,但是不能編碼航向角信息. 本階段采用新的編碼方式對(duì)三維包圍框尺寸編碼,使用底面4 點(diǎn)以及2 個(gè)高度值(底面、頂面與地平面高度)的方式編碼六面體,不僅可以獲得準(zhǔn)確的尺寸估計(jì),而且所需參數(shù)量較小,編碼方式如圖3 所示.
圖3 三維包圍框編碼方式Fig.3 Encoding method of 3D bounding box
回歸后的目標(biāo)共10 個(gè)參數(shù),相比于8 個(gè)角點(diǎn)編碼方式所需的24 個(gè)參數(shù)大幅減少,回歸后10 個(gè)參數(shù)包 括8 個(gè) 角 點(diǎn) 偏 移 量 ?x,?y和 2 個(gè) 高 度 偏 移 量?h(?x1,···,?x4,?y1,···,?y4,?h1,?h2). 維護(hù)得到的角點(diǎn),并約束4 個(gè)角點(diǎn)構(gòu)成一個(gè)矩形,選擇各邊中點(diǎn),將對(duì)邊中點(diǎn)連線,取較長(zhǎng)邊作為坐標(biāo)軸基準(zhǔn),具體實(shí)現(xiàn)如圖4.
圖4 4 個(gè)角點(diǎn)確定方法Fig.4 Determination method of four corner points
AVOD 網(wǎng)絡(luò)航向角編碼方式如圖5 所示,計(jì)算方法基于一個(gè)二元向量隱式表達(dá)航向角,即(xor,yor)=(cosθ ,sinθ ),使[? π,π]中的每一角度都有唯一單位向量相對(duì)應(yīng),保證航向角唯一性.
圖5 航向角編碼方式示意圖Fig.5 Schematic diagram of the heading angle coding method
損失函數(shù)由三維包圍框尺寸計(jì)算、航向角估計(jì)與目標(biāo)類別三個(gè)任務(wù)損失函數(shù)構(gòu)成. 使用原始的256 通道特征圖,將來(lái)自區(qū)域建議網(wǎng)絡(luò)的候選框投影到特征圖上獲得候選特征,對(duì)投影后的特征圖調(diào)整分辨率到7×7 像素,并對(duì)元素取平均后融合. 融合后的特征通過(guò)三個(gè)每層2 048 個(gè)節(jié)點(diǎn)的全連接層,分別輸出三維包圍框、航向角估計(jì)、目標(biāo)類別,其中目標(biāo)類別使用交叉熵代價(jià)函數(shù)來(lái)計(jì)算,其余兩個(gè)使用Smooth L1 損失函數(shù)計(jì)算. 最后對(duì)包圍框篩選,利用2D 非極大值抑制算法輸出檢測(cè)結(jié)果. 得到AVOD 網(wǎng)絡(luò)的損失函數(shù)計(jì)算式(5):
式中:Lcls為 交叉熵函數(shù);Lreg為3D 包圍框的Smooth L1 損失函數(shù);Lang為航向角估計(jì)的Smooth L1 損失函數(shù);Ncls為先驗(yàn)框數(shù)目;Nreg為目標(biāo)框總數(shù)目. 根據(jù)鳥瞰圖中IoU 來(lái)判別候選框類型,對(duì)于車輛目標(biāo),鳥瞰圖IoU>0.65 時(shí)為正樣本;對(duì)于行人和騎車人,IoU>0.55 為正樣本,并參與到計(jì)算之中.
優(yōu)化網(wǎng)絡(luò)檢測(cè)頭部分損失函數(shù)計(jì)算:將圖像前視圖與激光雷達(dá)點(diǎn)云鳥瞰特征圖作為兩個(gè)分支,以各模態(tài)樣本標(biāo)注為基準(zhǔn)監(jiān)督學(xué)習(xí),計(jì)算各自損失函數(shù),針對(duì)性地優(yōu)化特征提取網(wǎng)絡(luò),防止圖像特征提取網(wǎng)絡(luò)退化,框架如圖6 所示.
圖6 多視角標(biāo)注信息聯(lián)合損失函數(shù)Fig.6 Joint loss function of multi-view annotation information
對(duì)不同模態(tài)信息處理中加入全連接層,首先進(jìn)行包圍框尺寸和目標(biāo)類別的預(yù)判,之后將預(yù)判結(jié)果與標(biāo)注信息對(duì)比,計(jì)算各模態(tài)損失函數(shù).
式中:Lsub-cls為分類模塊損失函數(shù);Lsub-reg為包圍框尺寸計(jì)算損失函數(shù);N為目標(biāo)框的總數(shù)量,為前視圖正樣本數(shù)量,為鳥瞰圖正樣本數(shù)量,單位(個(gè));I為選出正樣本目標(biāo)框的篩選函數(shù),為正值;、分別為圖像和鳥瞰圖分支對(duì)第i目標(biāo)框的分類估計(jì)值;和為圖像和鳥瞰圖的標(biāo)注信息;、為包圍框尺寸偏移量和伸縮量;和為對(duì)應(yīng)的標(biāo)注信息.
對(duì)于正樣本的判定,基于包圍框與標(biāo)注信息框的交并比來(lái)劃分. 在鳥瞰圖中,車輛類別的交并比大于0.65 為正樣本,小于0.55 為負(fù)樣本,行人與騎車人類別的交并比大于0.45 為正樣本,小于0.4 為負(fù)樣本;在前視圖中,車輛類別的交并比大于0.7 為正樣本,小于0.5 為負(fù)樣本,行人和騎車人類別交并比大于0.6 為正樣本,小于0.4 為負(fù)樣本. 對(duì)于不屬于正負(fù)樣本的目標(biāo)框來(lái)說(shuō),不參與損失函數(shù)統(tǒng)計(jì). 最終得到多視角標(biāo)注信息網(wǎng)絡(luò)的聯(lián)合損失函數(shù)AVOD-MLI(multi-view label information):
三維包圍框的尺寸偏移和航向角的損失函數(shù)利用Smooth L1 函數(shù)實(shí)現(xiàn),目標(biāo)分類的損失函數(shù)利用交叉熵函數(shù)實(shí)現(xiàn), λ作為超參數(shù)來(lái)權(quán)衡各任務(wù)損失函數(shù)權(quán)重.
AVOD 網(wǎng)絡(luò)的數(shù)據(jù)融合發(fā)生在特征層,通過(guò)拼接后按元素求平均的方式進(jìn)行融合,為了保證拼接時(shí)特征圖分辨率一致,經(jīng)由池化層進(jìn)行裁剪. 這種融合方式可能會(huì)使不同模態(tài)數(shù)據(jù)相互干擾,從而削弱特征.
文中通過(guò)加入互投影池化層來(lái)改進(jìn)網(wǎng)絡(luò)的融合階段,改進(jìn)后的網(wǎng)絡(luò)可以優(yōu)化不同模態(tài)數(shù)據(jù)特征融合,充分利用了激光雷達(dá)點(diǎn)云的稀疏性,將互投影池化層插入到VGG 特征提取網(wǎng)絡(luò)之后,即特征金字塔的編碼器之后,解碼器之前,改進(jìn)后的網(wǎng)絡(luò)稱為AVOD-MPF(mutual projection fusion,MPF)網(wǎng)絡(luò),局部網(wǎng)絡(luò)結(jié)構(gòu)如圖7.
通過(guò)坐標(biāo)互投影,將激光雷達(dá)點(diǎn)云變換到圖像前視圖,并將圖像變換到激光雷達(dá)點(diǎn)云鳥瞰圖,從而獲得激光雷達(dá)點(diǎn)云在前視圖的特征圖以及圖像在激光雷達(dá)點(diǎn)云鳥瞰圖上的特征圖,結(jié)構(gòu)如圖8 所示. 通過(guò)相機(jī)與激光雷達(dá)的坐標(biāo)轉(zhuǎn)換矩陣P∈R3×4進(jìn)行前視圖與鳥瞰圖之間的轉(zhuǎn)換,如下式:
圖8 互投影池化層融合Fig.8 Mutual projection pooling layer fusion
式中:(x,y) 為鳥瞰圖像素坐標(biāo);(u,v)為圖像的像素坐標(biāo);f(x,y)和g(u,v)為 兩個(gè)特征圖;k(u,v)為運(yùn)算核;X=[x y z1]T,P12是P前兩行的子矩陣.
通過(guò)上述轉(zhuǎn)換會(huì)造成一個(gè)(u,v) 對(duì)應(yīng)多個(gè)(x,y)的狀況,并且多個(gè)(x,y) 點(diǎn)近似為直線( λx,λy),影響運(yùn)算,因此依據(jù)激光雷達(dá)點(diǎn)云的稀疏性進(jìn)行稀疏化,進(jìn)行非齊次轉(zhuǎn)換. 假定前視圖尺寸Lf×Wf,鳥瞰圖尺寸Hb×Wb, 激光點(diǎn)云記為({xi,yi,zi),i=1,2,···N},則得到轉(zhuǎn)換方程式為
由多模態(tài)數(shù)據(jù)的對(duì)應(yīng)性,可以將式(11)轉(zhuǎn)化為
其中,
多傳感器數(shù)據(jù)投影是雙向進(jìn)行的,可以在不同視角下形成特征圖. 在拼接前對(duì)每一特征圖進(jìn)行歸一化處理,利用批正則化層來(lái)實(shí)現(xiàn);將前視圖特征圖與稀疏矩陣相乘并與鳥瞰圖數(shù)據(jù)的特征圖相拼接融合,類似的鳥瞰圖的特征圖以同樣方式與前視圖特征圖相拼接融合. 其中稀疏矩陣X尺寸為L(zhǎng)fWf×HbWb, 尺寸為Hb×Wb×A的特征圖轉(zhuǎn)化后為尺寸HbWb×A的矩陣F. 最終得到特征圖T=MF,其尺寸為L(zhǎng)fWf×A.
KITTI 數(shù)據(jù)集[17]本身根據(jù)各種狀況將目標(biāo)進(jìn)行劃分,三種難度級(jí)別為:簡(jiǎn)單(最小包圍框高度≥40像素,目標(biāo)完全可見(jiàn),截?cái)唷?5%)、中等(最小包圍框高度≥25 像素,目標(biāo)部分可見(jiàn),截?cái)唷?0%)、困難(困難:最小包圍框高度≥25 像素,目標(biāo)難以看見(jiàn),截?cái)唷?0%),劃分依據(jù)主要是目標(biāo)大小、遮擋以及截?cái)嗲闆r.
文中網(wǎng)絡(luò)主要針對(duì)車輛、行人、騎車人進(jìn)行目標(biāo)檢測(cè),并在驗(yàn)證集上統(tǒng)計(jì)標(biāo)注樣本和目標(biāo)檢測(cè)結(jié)果,利用三維平均精度AP3D來(lái)評(píng)價(jià)目標(biāo)檢測(cè)網(wǎng)絡(luò)在三維尺度的檢測(cè)精度.
對(duì)于目標(biāo)檢測(cè)任務(wù),KITTI 數(shù)據(jù)集擁有大量的圖像和激光雷達(dá)點(diǎn)云數(shù)據(jù)用于訓(xùn)練,針對(duì)不同尺度的目標(biāo)訓(xùn)練了兩種模型,分別對(duì)應(yīng)車輛、行人以及騎車人,為了確保網(wǎng)絡(luò)改進(jìn)結(jié)果的合理性與有效性,分別對(duì)原AVOD 網(wǎng)絡(luò)、AVOD-MLI 網(wǎng)絡(luò)、AVOD-MPF 網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練并進(jìn)行結(jié)果對(duì)比.
文中所用的訓(xùn)練機(jī)配置為:32 GB 內(nèi)存,11 G 顯存,Nvidia 1080Ti 顯卡,IntelCore i7-8700K @3.70 GHz ×12 的CPU,在Ubuntu 16.04 操作系統(tǒng)下進(jìn)行,深度學(xué)習(xí)框架為Tensorflow.
3.3.1 AVOD 網(wǎng)絡(luò)訓(xùn)練及結(jié)果
使用ADAM 優(yōu)化器對(duì)模型參數(shù)進(jìn)行優(yōu)化,設(shè)定初始學(xué)習(xí)率為0.000 1,指數(shù)衰減,共120 k 次迭代訓(xùn)練,每100 k 次訓(xùn)練進(jìn)行一次衰減,衰減系數(shù)定為0.1.全連接層引入dropout 方法,并利用批正則化方法.區(qū)域建議網(wǎng)絡(luò)中設(shè)定建議框樣本為512 個(gè),第2 階段的檢測(cè)網(wǎng)絡(luò)1 024 個(gè)樣本,正負(fù)樣本各一半,并將此兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練.
網(wǎng)絡(luò)訓(xùn)練的總損失值由兩部分:檢測(cè)網(wǎng)絡(luò)損失(AVOD 損失)以及區(qū)域建議網(wǎng)絡(luò)損失(RPN 損失)構(gòu)成,如圖9 (a)所示. 其中AVOD 損失包含AVOD 回歸損失與AVOD 分類損失,如圖9 (b)所示,回歸損失為主要影響要素,占據(jù)AVOD 損失極大比例,且趨勢(shì)與之相似. 對(duì)AVOD 回歸損失進(jìn)行分析,如圖9 (c)所示,包含回歸定位損失與回歸航向角損失. 模型在訓(xùn)練中損失值隨迭代次數(shù)增加而呈下降和收斂之勢(shì),最后訓(xùn)練損失到達(dá)0.615 2.
圖9 AVOD 網(wǎng)絡(luò)訓(xùn)練過(guò)程中損失函數(shù)值的變化Fig.9 Changes in loss function values during AVOD network training
選取F-pointNet 網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果如表2 所示.
表2 AVOD 網(wǎng)絡(luò)在驗(yàn)證集上的AP3DTab.2 AP3D of AVOD network on validation set
表中可以看出AVOD 網(wǎng)絡(luò)具有更好的車輛目標(biāo)檢測(cè)精度,對(duì)于困難和中等類別的車輛檢測(cè)精度分別提高了8.37%、5.34%,處理有遮擋和截?cái)嗄繕?biāo)的效果較好,但是對(duì)于小尺度目標(biāo)的檢測(cè)精度較低.
3.3.2 AVOD-MLI 網(wǎng)絡(luò)訓(xùn)練及結(jié)果
使用ADAM 優(yōu)化器,初始學(xué)習(xí)率0.000 1,指數(shù)衰減,每100 k 次迭代進(jìn)行一次衰減,衰減因子0.1.使用最小批尺寸為1 的Xavier 對(duì)鳥瞰圖特征提取網(wǎng)絡(luò)初始化,圖像數(shù)據(jù)特征提取網(wǎng)絡(luò)加入預(yù)訓(xùn)練的ImageNet 權(quán)重. 區(qū)域建議網(wǎng)絡(luò)仍設(shè)定512 個(gè)建議框樣本,第二階段的檢測(cè)網(wǎng)絡(luò)1 024 個(gè)樣本,正負(fù)樣本各一半.
AVOD-MLI 網(wǎng)絡(luò)訓(xùn)練時(shí)損失值如圖10 所示.AVOD-MLI 網(wǎng)絡(luò)的AP3D,與AVOD 網(wǎng)絡(luò)對(duì)比如 表3 所示.
圖10 AVOD-MLI 網(wǎng)絡(luò)訓(xùn)練損失值變化曲線Fig.10 AVOD-MLI network training loss value change curve
表3 AVOD-MLI 網(wǎng)絡(luò)在KITTI 數(shù)據(jù)集上的AP3DTab.3 AP3D of AVOD-MLI network on KITTI dataset
從表3 可以看出AVOD-MLI 網(wǎng)絡(luò)對(duì)于車輛目標(biāo)效果不明顯,可能是由于對(duì)于車輛目標(biāo)而言,較大的尺寸差異造成激光雷達(dá)點(diǎn)云特征圖的分支占據(jù)了較大比例,圖像分支未能帶來(lái)顯著提升. 對(duì)于小尺度目標(biāo)來(lái)說(shuō),激光雷達(dá)點(diǎn)云特征反而被削弱,圖像特征能夠帶來(lái)更多的紋理信息,因此對(duì)于行人目標(biāo)和騎車人目標(biāo)而言,提升更為明顯,對(duì)于行人目標(biāo),不同難度目標(biāo)分別提高了1.18%,1.79%,2.75%.
3.3.3 AVOD-MPF 網(wǎng)絡(luò)訓(xùn)練及結(jié)果
引入ADAM 優(yōu)化器,初始學(xué)習(xí)率0.000 1,指數(shù)衰減,每30k 次迭代進(jìn)行一次衰減,衰減因子0.8.使用最小批尺寸為1 的Xavier 對(duì)鳥瞰圖特征提取網(wǎng)絡(luò)初始化,圖像數(shù)據(jù)特征提取網(wǎng)絡(luò)加入預(yù)訓(xùn)練的ImageNet 權(quán)重. 區(qū)域建議網(wǎng)絡(luò)仍設(shè)定512 個(gè)建議框樣本,第2 階段的檢測(cè)網(wǎng)絡(luò)1 024 個(gè)樣本,正負(fù)樣本各一半.
AVOD-MPF 網(wǎng)絡(luò)訓(xùn)練時(shí)損失值如圖11 所示. 隨著迭代次數(shù)增加,網(wǎng)絡(luò)總損失逐漸收斂,終值為0.269 5,如圖10(a)所示,AVOD-MPF 檢測(cè)網(wǎng)絡(luò)變化值與AVOD-MPF 回歸損失分別如圖11(b)、11(c)所示,學(xué)習(xí)率如圖12 所示.
圖11 AVOD-MPF 網(wǎng)絡(luò)訓(xùn)練損失值變化曲線Fig.11 AVOD-MPF network training loss value change curve
圖12 AVOD-MPF 網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率Fig.12 AVOD-MPF network training learning rate
行人和車輛檢測(cè)如圖13 和圖14 所示,其中13(a)和14(a)為最終3D 目標(biāo)檢測(cè)結(jié)果;圖13(b)和14(b)為第1 階段網(wǎng)絡(luò)處理結(jié)果,實(shí)線框?yàn)榻ㄗh框,虛線框?yàn)闄z測(cè)框;圖13(c)和14(c)為整體網(wǎng)絡(luò)回歸結(jié)果,虛線框?yàn)闃?biāo)注框,實(shí)線框?yàn)闄z測(cè)框.
圖13 行人檢測(cè)示例Fig.13 Example of pedestrian detection
圖14 車輛檢測(cè)示例Fig.14 Vehicle detection example
AVOD-MPF 網(wǎng)絡(luò)的AP3D與AVOD 網(wǎng)絡(luò)對(duì)比如表4 所示.
表3 和表4 數(shù)據(jù)顯示加入互投影池化層的 AVODMPF 網(wǎng)絡(luò)保留了AVOD 網(wǎng)絡(luò)本身對(duì)于車輛目標(biāo)檢測(cè)的優(yōu)勢(shì),相比于F-pointNet 網(wǎng)絡(luò),對(duì)遮擋嚴(yán)重的車輛目標(biāo)檢測(cè)精度提高了8.62%. 同時(shí)提高了AVOD 網(wǎng)絡(luò)對(duì)小尺度目標(biāo)的檢測(cè)精度,對(duì)于中等難度目標(biāo)來(lái)說(shuō),AVOD-MPF 網(wǎng)絡(luò)將行人檢測(cè)精度提高了2.03%,騎車人檢測(cè)精度提高了2.34%,說(shuō)明加入的互投影池化層能夠提升網(wǎng)絡(luò)性能,改善了原AVOD 網(wǎng)絡(luò)小尺度目標(biāo)檢測(cè)精度不高的問(wèn)題.
表4 AVOD-MPF 網(wǎng)絡(luò)在KITTI 數(shù)據(jù)集上的AP3DTab.4 AP3D of AVOD-MPF network on KITTI dataset
提出一種基于視覺(jué)與激光雷達(dá)的多視角互投影融合的三維目標(biāo)檢測(cè)方法,改進(jìn)對(duì)車輛檢測(cè)精度較高的AVOD 網(wǎng)絡(luò),通過(guò)互投影的方式加強(qiáng)不同模態(tài)信息數(shù)據(jù)關(guān)聯(lián)并進(jìn)行特征級(jí)融合. 相比于其他算法以及原網(wǎng)絡(luò)來(lái)說(shuō),文中使用的AVOD-MPF 網(wǎng)絡(luò)方法具有明顯優(yōu)勢(shì),實(shí)驗(yàn)數(shù)據(jù)和結(jié)果表明,本方法不僅能夠?qū)崿F(xiàn)三維目標(biāo)檢測(cè)時(shí)特征級(jí)和決策級(jí)融合,而且在保留AVOD 網(wǎng)絡(luò)對(duì)車輛目標(biāo)檢測(cè)優(yōu)勢(shì)的同時(shí),也提升了對(duì)行人和騎車人等小尺度目標(biāo)的檢測(cè)精度,對(duì)于有遮擋的目標(biāo)復(fù)雜場(chǎng)景也有較好的適應(yīng)性,為小尺度目標(biāo)檢測(cè)提供了一種新的思路.
北京理工大學(xué)學(xué)報(bào)2022年12期