張吳冉,胡春燕,陳澤來,李菲菲
基于多級(jí)特征融合的體素三維目標(biāo)檢測(cè)網(wǎng)絡(luò)
張吳冉a,胡春燕a,陳澤來a,李菲菲b
(上海理工大學(xué) a.光電信息與計(jì)算機(jī)工程學(xué)院 b.醫(yī)療器械與食品學(xué)院,上海 200093)
為精確分析點(diǎn)云場(chǎng)景中待測(cè)目標(biāo)的位置和類別信息,提出一種基于多級(jí)特征融合的體素三維目標(biāo)檢測(cè)網(wǎng)絡(luò)。以2階段檢測(cè)算法Voxel?RCNN作為基線模型,在檢測(cè)一階段,增加稀疏特征殘差密集融合模塊,由淺入深地對(duì)逐級(jí)特征進(jìn)行傳播和復(fù)用,實(shí)現(xiàn)三維特征充分的交互融合。在二維主干模塊中增加殘差輕量化高效通道注意力機(jī)制,顯式增強(qiáng)通道特征。提出多級(jí)特征及多尺度核自適應(yīng)融合模塊,自適應(yīng)地提取各級(jí)特征的關(guān)系權(quán)重,以加權(quán)方式實(shí)現(xiàn)特征的強(qiáng)融合。在檢測(cè)二階段,設(shè)計(jì)三重特征融合策略,基于曼哈頓距離搜索算法聚合鄰域特征,并嵌入深度融合模塊和CTFFM融合模塊提升格點(diǎn)特征質(zhì)量。實(shí)驗(yàn)于自動(dòng)駕駛數(shù)據(jù)集KITTI中進(jìn)行模擬測(cè)試,相較于基線網(wǎng)絡(luò),在3種難度等級(jí)下,一階段檢測(cè)模型的行人3D平均精度提升了3.97%,二階段檢測(cè)模型的騎行者3D平均精度提升了3.37%。結(jié)果證明文中方法能夠顯著提升目標(biāo)檢測(cè)性能,且各模塊具有較好的移植性,可靈活嵌入到體素類三維檢測(cè)模型中,帶來相應(yīng)的效果提升。
三維目標(biāo)檢測(cè);殘差融合;自適應(yīng)融合;特征增強(qiáng);三重特征融合
隨著無人駕駛、室內(nèi)移動(dòng)機(jī)器人等技術(shù)的發(fā)展,大量研究人員開始關(guān)注三維目標(biāo)檢測(cè)領(lǐng)域。基于三維目標(biāo)檢測(cè)可獲取目標(biāo)物體類別、位置、三維尺寸及姿態(tài)等更加詳細(xì)的信息,借助檢測(cè)結(jié)果可實(shí)現(xiàn)對(duì)周圍環(huán)境的精確感知,保證設(shè)備安全運(yùn)行。
目前,三維目標(biāo)檢測(cè)算法主要分為2類:基于點(diǎn)云表示[1-4]的方法和基于點(diǎn)云和圖像多模態(tài)融合[5-7]的方法。其中基于點(diǎn)云表示的方法又可分為體素[8-11]方式(Voxel-Based)和原始點(diǎn)[12-14]方式(Point-Based)。其中體素網(wǎng)絡(luò)以較快的推理速度廣受歡迎。此類算法在點(diǎn)云采樣階段采用網(wǎng)格化處理,將離散的點(diǎn)云均勻分割成立體體素。但此種方法在采樣過程中會(huì)導(dǎo)致信息丟失,影響目標(biāo)檢測(cè)效果。原始點(diǎn)的方式直接從初始點(diǎn)云數(shù)據(jù)中提取特征,相較于網(wǎng)格化的方式保留更多目標(biāo)細(xì)粒度信息,但是逐點(diǎn)特征提取帶來高昂的計(jì)算代價(jià)?;诙嗄B(tài)融合的方法則通過增加圖像數(shù)據(jù)處理分支,對(duì)點(diǎn)云分支進(jìn)行信息補(bǔ)充,緩解小目標(biāo)物體漏檢問題,但異構(gòu)數(shù)據(jù)融合困難,計(jì)算復(fù)雜度較高,網(wǎng)絡(luò)推理速度較低。文中為平衡網(wǎng)絡(luò)精度和實(shí)時(shí)化性能,選取體素檢測(cè)算法Voxel–RCNN[15]作為基線網(wǎng)絡(luò),并在此網(wǎng)絡(luò)上進(jìn)行分析和改進(jìn),實(shí)現(xiàn)對(duì)中小目標(biāo)檢測(cè)效果的提升。Voxel–RCNN網(wǎng)絡(luò)第1階段和SECOND[16]結(jié)構(gòu)雷同,主要由3個(gè)部分組成:體素特征編碼模塊、三維稀疏特征提取模塊、二維主干網(wǎng)絡(luò)。其中,體素特征編碼模塊對(duì)輸入點(diǎn)云進(jìn)行均勻采樣和特征處理,得到體素級(jí)特征表示。三維稀疏特征提取模塊對(duì)輸入的體素特征進(jìn)行稀疏化及卷積運(yùn)算等相關(guān)操作,實(shí)現(xiàn)對(duì)淺層特征的深層抽象。二維主干網(wǎng)絡(luò)于二維鳥瞰圖上進(jìn)行最終檢測(cè),生成三維檢測(cè)框。然而,SECOND網(wǎng)絡(luò)在稀疏卷積特征提取模塊僅使用簡(jiǎn)單的卷積塔結(jié)構(gòu)對(duì)特征進(jìn)行下采樣抽象,忽略了多層特征之間的信息補(bǔ)充。二維主干網(wǎng)絡(luò)由下采樣層、上采樣層組成,雖然在上采樣層進(jìn)行特征堆疊實(shí)現(xiàn)特征粗略的融合,但是忽略了多級(jí)特征之間的相關(guān)性。Voxel–RCNN第2階段的精化模塊僅對(duì)最高級(jí)的體素稀疏特征進(jìn)行小范圍特征搜索,忽視了低級(jí)特征和多范圍鄰域特征的重要性。為了解決以上不足之處,文中對(duì)Voxel–RCNN網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計(jì)基于多級(jí)特征融合的體素三維目標(biāo)檢測(cè)網(wǎng)絡(luò)。
提出的基于多級(jí)特征融合的體素三維目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)見圖1,主要包含4個(gè)部分:稀疏特征殘差密集融合模塊、殘差輕量化高效通道注意力機(jī)制、多級(jí)特征及多尺度核自適應(yīng)融合模塊和三重特征融合策略。文中主要改進(jìn)點(diǎn)如下。
1)在三維稀疏特征提取部分設(shè)計(jì)稀疏特征殘差密集融合模塊(Sparse Feature Residual Dense Fusion Module,SFRDFM)。為了高效地處理三維特征,使用三維稀疏卷積[17]和子流形卷積[18]算法,設(shè)計(jì)稀疏特征殘差半密集融合層,混合疊加此卷積層形成主干,緩解特征冗余的同時(shí)加強(qiáng)逐層特征之間的信息交流補(bǔ)充。
2)在二維主干網(wǎng)絡(luò)模塊中,通過降低特征通道數(shù)量以降低計(jì)算量,同時(shí)增加殘差輕量化高效通道注意力機(jī)制(Residual Light-Weight Efficient Channel Attention Mechanism,RL-ECA)對(duì)損失的通道信息進(jìn)行補(bǔ)充增強(qiáng),減少計(jì)算量的同時(shí)提升了檢測(cè)器性能。
3)在二維主干網(wǎng)絡(luò)上采樣階段增加了多級(jí)特征及多尺度核自適應(yīng)融合模塊(Module of Multi-Level Feature And Multi-Scale Kernel Adaptive Fusion,MFMKAF),通過編碼多級(jí)特征依賴關(guān)系,自適應(yīng)地融合低層空間特征,中層復(fù)合特征和高層語義特征,實(shí)現(xiàn)多級(jí)特征之間的交流融合,進(jìn)一步提升特征表達(dá)能力。
4)在第二階段精化模塊部分,設(shè)計(jì)三重特征融合策略(Triple Feature Fusion Strategy,TFFS),包含多級(jí)特征融合、多范圍分組聚合和多尺度格點(diǎn)采樣策略,組合以上3種策略用于二次搜索聚合體素稀疏特征。并設(shè)計(jì)2種不同的格點(diǎn)特征融合模塊:深度融合模塊(Deep Fusion Module,DFM)對(duì)輸入特征進(jìn)行多重提取壓縮融合;由細(xì)粒度到粗粒度的融合模塊(Coarse to Fine Fusion Module,CTFFM)自適應(yīng)地融合輸入特征,生成更具區(qū)分性的格點(diǎn)特征,進(jìn)一步精化三維建議框。
圖1 文中提出的三維目標(biāo)檢測(cè)網(wǎng)絡(luò)框架圖
圖2 稀疏特征殘差密集融合模塊
接下來使用卷積算法對(duì)特征進(jìn)行深層處理。
在點(diǎn)云體素化過程中有超過90%體素為空值體素,傳統(tǒng)三維稠密[19]卷積會(huì)遍歷所有區(qū)域,加大計(jì)算代價(jià)和內(nèi)存負(fù)擔(dān)的同時(shí),還會(huì)導(dǎo)致稠密數(shù)據(jù)失真。為了進(jìn)一步的提升體素特征提取算法的實(shí)時(shí)性,Graham等[17]提出稀疏卷積(SC)和子流形卷積算法[18](SSC)替換稠密卷積,保證稀疏算法僅在稀疏化數(shù)據(jù)上運(yùn)行,核心思想是通過輸入數(shù)據(jù)的稀疏性限制輸出數(shù)據(jù)的稀疏性,降低三維卷積操作的計(jì)算量和內(nèi)存占用。為緩解稀疏卷積(SC)隨著網(wǎng)絡(luò)深度的擴(kuò)展出現(xiàn)稀疏性弱化的問題,增加子流形卷積(SSC)算法處理數(shù)據(jù),此算法僅對(duì)輸入的非空值區(qū)域進(jìn)行相應(yīng)運(yùn)算,且只對(duì)非空值區(qū)域賦值,最大程度保持?jǐn)?shù)據(jù)稀疏性。對(duì)于深層特征提取網(wǎng)絡(luò)而言,多層特征圖包含多尺度詳細(xì)信息,這些信息對(duì)于場(chǎng)景中目標(biāo)的檢測(cè)是非常有用的。Voxel-RCNN的三維骨架是經(jīng)典的由淺入深式稀疏卷積下采樣結(jié)構(gòu),考慮到此結(jié)構(gòu)忽視了各層特征之間的信息交流,損失大量的細(xì)粒度信息。為緩解以上問題,文中在此基礎(chǔ)上設(shè)計(jì)了稀疏特征殘差密集融合模塊(Sparse Feature Residual Dense Fusion Module,SFRDFM),模塊結(jié)構(gòu)見圖2。由于子流形卷積(SSC)對(duì)有值位置作強(qiáng)制限制導(dǎo)致一定程度的信息丟失,稀疏卷積(SC)帶來位置信息失真的缺點(diǎn),文中采用稀疏卷積和子流形卷積混用的結(jié)構(gòu)平衡兩種算法帶來的問題。首先疊加5層子流形卷積對(duì)輸入的稀疏體素?cái)?shù)據(jù)進(jìn)行特征處理,再疊加一層稀疏卷積(SC)和4層子流形卷積(SSC)繼續(xù)提取特征。密集融合前3層和后3層稀疏特征,這里稱為稀疏特征殘差半密集融塊(Sparse feature Residual Semi-Dense fusion Block,SRSDFB),以半數(shù)融合5層特征方式,防止過多特征疊加冗余,影響檢測(cè)效果。區(qū)別于文獻(xiàn)[20]通道堆疊(Concatenation)方式,模塊使用逐元素相加進(jìn)行融合,達(dá)到穩(wěn)定網(wǎng)絡(luò)訓(xùn)練、降低計(jì)算代價(jià)、復(fù)用淺層特征的作用。通過使用步長(zhǎng)為2的稀疏卷積和ReLU激活函數(shù)進(jìn)行特征下采樣,得到3組不同尺度的稀疏特征,起到特征由低到高的抽象、增大感受野和降低特征維度的作用。理論上可以對(duì)SRSDFB疊加更多子流形卷積層設(shè)計(jì)更深的特征提取模塊,但考慮到推理時(shí)間的消耗和參數(shù)復(fù)雜度提升,僅使用5層疊加形式。
如果在三維特征圖上生成錨框(Anchor)將出現(xiàn)數(shù)量過多的空三維框,導(dǎo)致計(jì)算資源的負(fù)擔(dān)和正負(fù)錨框不平衡的問題。而在自動(dòng)駕駛場(chǎng)景中,目標(biāo)物體基本處于地面上,目標(biāo)空間位置相對(duì)固定,位于軸的高度信息變化較小,為了進(jìn)一步降低計(jì)算復(fù)雜度,將三維特征圖沿著軸方向向下投影得到二維鳥瞰特征圖表示,再基于鳥瞰圖進(jìn)行三維框的估計(jì)。文中二維主干網(wǎng)絡(luò)模塊見圖3,此模塊在基線網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),在初始的2層卷積塔結(jié)構(gòu)上增加第3層卷積塊,并增加殘差輕量化高效通道注意力機(jī)制和多級(jí)特征及多尺度核自適應(yīng)融合模塊。
1.2.1 二維卷積塔模塊
本模塊由常規(guī)的特征下采樣和上采樣結(jié)構(gòu)組成,模塊架構(gòu)圖如圖3中左框圖所示。文中在基線網(wǎng)絡(luò)Voxel-RCNN的第1階段卷積下采樣模塊增加一組卷積塊得到3層卷積塔結(jié)構(gòu),加深網(wǎng)絡(luò)特征提取能力和尺度變化,此3組卷積塊均是常規(guī)的5層二維卷積堆疊組成,用作提取鳥瞰圖的語義信息。文中將自上而下的3組卷積塊命名為卷積塊_0,卷積塊_1,卷積塊_2。將卷積塊_0的步長(zhǎng)設(shè)置為1,輸出通道數(shù)為64,卷積塊_1和卷積塊_2的步長(zhǎng)設(shè)置為2,輸出通道遞增為128和256,此操作對(duì)特征進(jìn)行提取抽象的同時(shí)起到縮減特征尺度和增大感受野的功能。
其中卷積塊_0可以保留更細(xì)節(jié)的目標(biāo)位置信息,卷積塊_1可提取到相對(duì)細(xì)節(jié)的位置信息和語義信息,卷積塊_2提取得到更加抽象的語義信息。上采樣結(jié)構(gòu)則使用轉(zhuǎn)置卷積操作對(duì)下采樣模塊中輸出的不同尺度的特征圖進(jìn)行尺度恢復(fù),并且固定3組特征通道數(shù)為128,相比于原網(wǎng)絡(luò),此操作加深卷積層的同時(shí)降低了通道數(shù)量,雖然損失了一些有效信息,但是增加了小尺度的特征計(jì)算,能夠提升大目標(biāo)的檢測(cè)性能,而且通過壓縮特征通道數(shù)量去降低計(jì)算代價(jià),維持計(jì)算量的平衡。
1.2.2 殘差輕量化高效通道注意力機(jī)制
由于在上采樣階段減少了特征通道數(shù)量,雖然降低了計(jì)算復(fù)雜度,但是會(huì)損失一些有效信息導(dǎo)致特征質(zhì)量降低,為緩解此問題,在該模塊中增加殘差輕量化高效通道注意力機(jī)制(Residual Light-weight Efficient Channel Attention Mechanism,RL-ECA)對(duì)以上3組特征的通道信息進(jìn)行特征增強(qiáng)。該模塊的網(wǎng)絡(luò)架構(gòu)見圖4。沿用文獻(xiàn)[21]的網(wǎng)絡(luò)框架,此文獻(xiàn)中注意力模塊首重輕量化及高效性,通過使用一維卷積實(shí)現(xiàn)跨通道的信息交互來降低計(jì)算復(fù)雜度。區(qū)別于其他注意力模塊在特征提取階段的維度壓縮操作,此模塊通過保持通道數(shù)量恒定的方式,保留更多通道信息。文中在此基礎(chǔ)上進(jìn)行簡(jiǎn)單修改,移除自適應(yīng)卷積核提取函數(shù),固定一維卷積提取核的尺寸為3,增加殘差融合操作對(duì)輸出特征進(jìn)行有效補(bǔ)償,詳細(xì)過程見式(2)。
圖3 多級(jí)特征及多尺度核自適應(yīng)融合模塊
式中:為輸入特征;為全局平均池化;為sigmoid函數(shù)。
1.2.3 多級(jí)特征及多尺度核自適應(yīng)融合模塊
在卷積塔結(jié)構(gòu)中獲取了3種不同級(jí)別的特征,分別是低層空間特征、中層復(fù)合特征和高層語義特征?;€網(wǎng)絡(luò)中作者僅對(duì)多級(jí)特征進(jìn)行簡(jiǎn)單的堆疊融合(這里稱為弱融合操作),沒有充分利用不同級(jí)別特征的依賴關(guān)系??紤]到多級(jí)特征對(duì)于目標(biāo)精確定位和分類的重要性[22-23],文中設(shè)計(jì)了多級(jí)特征及多尺度核自適應(yīng)融合模塊(Module of Multi-Level Feature And Multi-Scale Kernel Adaptive Fusion,MFMKAF)對(duì)3種級(jí)別的特征進(jìn)行深層的融合。此模塊的網(wǎng)絡(luò)框架如圖3右半部分a、b、c 3個(gè)框圖所示。首先使用多尺度的卷積核將3組特征圖壓縮成1維通道,對(duì)其空間信息進(jìn)行自適應(yīng)的特征提取。如模塊a所示,使用1×1尺寸卷積核對(duì)多級(jí)特征分別處理,然后在通道維度上對(duì)3組1維的權(quán)重圖進(jìn)行堆疊拼接(Concatenation),并使用Softmax函數(shù)歸一化建立三組特征之間的關(guān)聯(lián)性得到空間權(quán)重,詳細(xì)過程見式(3)。
式中:表示堆疊融合(Concatenation);表示Softmax函數(shù);表示卷積算子。
將3組權(quán)重和相應(yīng)的輸入特征逐元素相乘后逐通道堆疊融合(Concatenation),再增加殘差融合塊(Residual Fusion Block,RFB)將輸入特征以加和的方式融合到新特征上,從而實(shí)現(xiàn)多級(jí)特征自適應(yīng)的強(qiáng)融合,詳細(xì)過程見式(4)。
模塊b整體流程似模塊a,詳細(xì)過程見式(5)。
二者區(qū)別在于不同尺度的核操作,模塊a采用1×1核,能夠提取更詳細(xì)的小目標(biāo)位置信息,模塊b采用3×3核,能夠提取較大目標(biāo)位置信息,交替使用模塊a、b能夠讓網(wǎng)絡(luò)擬合不同的任務(wù)要求。模塊c則是將模塊a、b輸出的特征進(jìn)一步的相加融合,從而得到更具表達(dá)能力的新特征,詳細(xì)過程見式(6)。
體素化三維檢測(cè)網(wǎng)絡(luò)分為單階段和兩階段三維檢測(cè)器[24],兩者主要區(qū)別在于兩階段算法增加了區(qū)域建議模塊(RPN)和精化模塊。其中,精化模塊的主要作用是對(duì)區(qū)域建議模塊得到的三維建議框進(jìn)一步的細(xì)化處理,一定程度上增加了計(jì)算量,但對(duì)精度提升較大。
一階段檢測(cè)器將特征處理成二維鳥瞰特征表達(dá),降低了計(jì)算代價(jià),但忽略了三維空間結(jié)構(gòu)信息。Voxel–RCNN通過增加二階段精化模塊,對(duì)具有完整三維結(jié)構(gòu)的體素稀疏特征進(jìn)行相關(guān)操作,恢復(fù)特征的三維結(jié)構(gòu)上下文信息。首先基于RPN網(wǎng)絡(luò)對(duì)鳥瞰特征進(jìn)行處理,生成大量三維建議框(3D Region Proposals)。然后將三維框進(jìn)行網(wǎng)格分割,將分割格點(diǎn)作為關(guān)鍵點(diǎn)保存并映射回稀疏體素特征空間,基于關(guān)鍵點(diǎn)對(duì)鄰域內(nèi)的體素特征進(jìn)行二次采集,獲取的格點(diǎn)特征用于進(jìn)一步精化三維框。
1.3.1 多級(jí)特征融合
對(duì)于稀疏的點(diǎn)云場(chǎng)景而言,低級(jí)特征具備更多的細(xì)粒度信息,為進(jìn)一步獲取信息量豐富的格點(diǎn)特征,Voxel–RCNN采用多級(jí)特征融合策略。具體結(jié)構(gòu)見圖5中的模塊a。通過對(duì)各個(gè)級(jí)別的稀疏體素特征進(jìn)行曼哈頓距離搜索,將采集的L2、L3和L4級(jí)體素特征進(jìn)行堆疊(Concatenate)融合,然后進(jìn)行三維候選框的進(jìn)一步精化。
1.3.2 多范圍分組聚合
對(duì)于場(chǎng)景檢測(cè)任務(wù)而言,目標(biāo)局部鄰域的范圍大小選取尤為重要,搜索范圍越小,能采集到的有效信息越少,相反,搜索范圍越大,能采集的信息越多,但過大范圍會(huì)引入更多的背景噪聲,影響檢測(cè)性能。文中對(duì)曼哈頓距離搜索算法設(shè)置2種大小不同的度量距離,分別為和2,同時(shí)作用于特征空間進(jìn)行信息采集,獲取基于格點(diǎn)的多范圍鄰域特征,最后將兩種范圍內(nèi)的鄰域特征進(jìn)行堆疊(Concatenate)融合。詳細(xì)結(jié)構(gòu)見圖5中的模塊b。
1.3.3 多尺度格點(diǎn)采樣
圖5 三重特征融合策略
圖6 格點(diǎn)特征融合模塊
為優(yōu)化網(wǎng)絡(luò),文中使用和文獻(xiàn)[4]相同的錨框設(shè)置和損失函數(shù),對(duì)于每個(gè)錨框(Anchors),使用7維向量表示框的位置,1維向量表示類別信息。本網(wǎng)絡(luò)需要預(yù)測(cè)汽車、行人、騎行者三種類別,不同類別需要匹配不同的IOU閾值來篩選正負(fù)錨框,分別計(jì)算出3種類別的錨框和真實(shí)框的交并比。對(duì)于汽車而言,如果交并比大于0.6則被認(rèn)為是正錨框,小于0.45則被認(rèn)為是負(fù)錨框,其他錨框不做訓(xùn)練使用,行人和騎行者的設(shè)定閾值為[0.35, 0.5]。
文中損失函數(shù)設(shè)置主要分為2個(gè)部分。
第1部分為RPN損失函數(shù),詳細(xì)見式(7)。
第2部分為檢測(cè)頭損失,詳細(xì)見式(8)。
文中網(wǎng)絡(luò)使用的服務(wù)器硬件配置為:Linux64位操作系統(tǒng):Ubuntu 18.04,英偉達(dá)RTX 3080 10 GB顯卡。
環(huán)境配置為:Pytorch1.8.0、python3.7.2、CUDA11.3、CUDNN11.3。
網(wǎng)絡(luò)參數(shù)設(shè)置:將點(diǎn)云數(shù)據(jù)進(jìn)行范圍切割,范圍為[0, 70.4],[?40, 40],[?3, 1](單位:米),對(duì)切割好的點(diǎn)云數(shù)據(jù)進(jìn)行體素化,其中單個(gè)體素的分辨率為[0.05, 0.05, 0.1]。設(shè)置3種類別的錨框(Anchors)尺寸:汽車為[1.9, 3.6, 1.56]、行人為[0.6, 0.8, 1.73]、騎行者為[0.6, 1.76, 1.73],計(jì)算錨框和真實(shí)框的交并比(IOU)并根據(jù)設(shè)定閾值篩選正負(fù)錨框。在訓(xùn)練時(shí)使用初始學(xué)習(xí)率為0.003的Adam[29]優(yōu)化器,優(yōu)化動(dòng)量參數(shù)為0.9,該實(shí)驗(yàn)在單個(gè)GPU上訓(xùn)練,batch_size設(shè)置為2,一共訓(xùn)練80個(gè)epochs。
實(shí)驗(yàn)使用KITTI[30]數(shù)據(jù)集,使用不同的傳感器對(duì)市區(qū)、鄉(xiāng)村、高速公路等主要場(chǎng)景進(jìn)行數(shù)據(jù)采集,其中三維點(diǎn)云數(shù)據(jù)由64線激光雷達(dá)掃描獲得,根據(jù)數(shù)據(jù)場(chǎng)景中目標(biāo)遮擋程度,目標(biāo)尺寸,截?cái)喑潭鹊纫蛩?,將目?biāo)難易度劃分為3個(gè)等級(jí):簡(jiǎn)單、中等、困難。根據(jù)訓(xùn)練和測(cè)試要求劃分,獲取7 481個(gè)樣本的訓(xùn)練集和7518個(gè)樣本的測(cè)試集,再將訓(xùn)練集被進(jìn)一步的劃分為3 712個(gè)訓(xùn)練樣本和3 769個(gè)驗(yàn)證樣本。參考文獻(xiàn)[11,16]的測(cè)試和驗(yàn)證標(biāo)準(zhǔn),文中對(duì)目標(biāo)中汽車(Car)、行人(Pedestrians)、騎行者(Cyclist)3種主要類別進(jìn)行評(píng)估。
為驗(yàn)證文中算法性能,實(shí)驗(yàn)結(jié)果將和當(dāng)前的主流網(wǎng)絡(luò)進(jìn)行對(duì)比。使用平均精度(Average Precision)作為評(píng)估指標(biāo),設(shè)置汽車(Car)交并比的閾值為0.7,行人(Pedestrians)和騎行者(Cyclist)閾值為0.5,并對(duì)簡(jiǎn)單、中等、困難等級(jí)的目標(biāo)分別進(jìn)行驗(yàn)證。
該小結(jié)將網(wǎng)絡(luò)驗(yàn)證結(jié)果和當(dāng)前的主流三維目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)果進(jìn)行比較,表1、表2分別展示了汽車(Car)、騎行者(Cyclist)、行人(Pedestrian)在3D和鳥瞰圖指標(biāo)下的檢測(cè)精度。并且對(duì)簡(jiǎn)單(Easy)、中等(Moderate)、困難(Hard)3個(gè)等級(jí)的目標(biāo)分別進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果如上圖表1和表2所示,其中*表示基線網(wǎng)絡(luò)(baseline),由表1和表2結(jié)果可知,增加了SFRDFM、RL–ECA和MKMKAF的一階段網(wǎng)絡(luò)和SECOND網(wǎng)絡(luò)比較,在3D指標(biāo)下行人類別的3種難度等級(jí)檢測(cè)精度分別提升了6.37%、3.26%和2.28%,在鳥瞰圖指標(biāo)下分別提升了5.02%、2.84%和2.22%,并且在汽車和騎行者兩種中大型目標(biāo)類別均有小幅提升。
在一階段結(jié)構(gòu)基礎(chǔ)上增加TFFS和CTFFM的二階段網(wǎng)絡(luò)和Voxel-RCNN比較,在3D指標(biāo)下騎行者類別的3種難度等級(jí)檢測(cè)精度分別提升了3.2%、3.92%和3%,在鳥瞰圖指標(biāo)下提升了1.81%、3.07%和2.99%,并且在汽車和騎行者均有不同程度的提升和下降。由此可證明提出的方法能夠有效提升檢測(cè)器性能。
表1 KITTI數(shù)據(jù)集中不同類別在3D指標(biāo)下和主流網(wǎng)絡(luò)結(jié)果對(duì)比
Tab.1 Comparison of the results of pedestrians, cars and cyclists in the KITTI data set with the mainstream network under 3D indicators
注:L+C表示激光雷達(dá)和相機(jī)多模態(tài)融合方法;*表示基線網(wǎng)絡(luò);加粗?jǐn)?shù)字表示最優(yōu)效果。
表2 KITTI數(shù)據(jù)集中不同類別在鳥瞰圖指標(biāo)下和主流網(wǎng)絡(luò)結(jié)果對(duì)比
Tab.2 Comparison of the results of pedestrian, car and cyclist in KITTI data set with the mainstream network under aerial view indicators
注:L+C表示激光雷達(dá)和相機(jī)多模態(tài)融合方法;*表示基線網(wǎng)絡(luò);加粗?jǐn)?shù)字表示最優(yōu)效果。
此章節(jié)對(duì)上文一階段的三組模塊和二階段的2組模塊分別進(jìn)行組合實(shí)驗(yàn)。
一階段:表3中,組合1、2和3可知,SFRDFM模塊、RL–ECA模塊和MFMKAF單模塊均提升了3種類別目標(biāo)的檢測(cè)效果,證明了3種模塊的有效性。組合4使用2種模塊,中等難度下,行人類別目標(biāo)檢測(cè)精度有較高上升,其他類別有所下降。組合5、6和7是3種模塊的組合實(shí)驗(yàn),從組合7的實(shí)驗(yàn)結(jié)果來看,小尺度核的模塊a能夠顯著提升行人類的小目標(biāo)效果,由組合6的實(shí)驗(yàn)結(jié)果可知,中尺度核的模塊b能夠提升騎行者此類中型目標(biāo)檢測(cè)效果,組合5實(shí)驗(yàn)結(jié)果可知融合模塊c能夠提升目標(biāo)檢測(cè)綜合性能,但單一類別檢測(cè)性能方面有所降低。綜合以上實(shí)驗(yàn)證明改進(jìn)網(wǎng)絡(luò)能夠更好地學(xué)習(xí)小目標(biāo)的特征信息,并且靈活的模塊搭配能夠應(yīng)對(duì)更多的任務(wù)要求。
二階段:表4中,組合1和組合2表示三重融合策略中第3個(gè)多尺度格點(diǎn)采樣策略的分解實(shí)驗(yàn),格點(diǎn)尺度分別為3和6的二階段網(wǎng)絡(luò)檢測(cè)結(jié)果,尺度為3時(shí),行人效果較好,尺度為6時(shí),汽車和騎行者效果提升顯著。組合3是融合2種尺度格點(diǎn)特征的檢測(cè)結(jié)果,相較組合1和組合2,3種目標(biāo)類別精度均有提升。組合4表示在三重融合策略基礎(chǔ)上增加了深度融合模塊(DFM),結(jié)果表明此模塊能較高提升騎行者指標(biāo)。組合5在三重特征融合策略基礎(chǔ)上增加了CTFFM模塊,相較于深度融合模塊,此模塊能夠進(jìn)一步提升騎行者指標(biāo),且在汽車類別也有小幅提升。
表3 SFRDFM、RL–ECA和MFMKAF 3組模塊組合對(duì)比實(shí)驗(yàn)(一階段)
Tab.3 Comparison experiment of three sets of module combination of SFRDFM, RL-ECA and MFMKAF (the first stage)
表4 TFFS和GFFM 2組模塊組合對(duì)比實(shí)驗(yàn)(二階段)
Tab.4 Comparison experiment of two sets of module combination of TFFS and GFFM (the second stage)
對(duì)改進(jìn)網(wǎng)絡(luò)的檢測(cè)結(jié)果進(jìn)行可視化,一共處理了6組場(chǎng)景,每組場(chǎng)景分別由原始圖像、基線網(wǎng)絡(luò)和文中網(wǎng)絡(luò)(一階段)和(二階段)可視化結(jié)果4張圖像組成。
可視化圖見圖7。從圖7a的點(diǎn)云可視化實(shí)例分析可知,文中檢測(cè)網(wǎng)絡(luò)均可很好的學(xué)習(xí)到汽車類別信息,并有效提升了汽車精度。圖7b—e場(chǎng)景中,基線網(wǎng)絡(luò)出現(xiàn)大量的誤檢結(jié)果,如圖7中矩形框所示,將雜物識(shí)別成汽車行人等類別,而文中檢測(cè)網(wǎng)絡(luò)誤檢結(jié)果逐漸變少。圖7f場(chǎng)景下,文中網(wǎng)絡(luò)能夠很好的檢測(cè)行人目標(biāo),且遮擋問題情況下,依然能夠正確分類汽車目標(biāo),而基線網(wǎng)絡(luò)錯(cuò)把汽車識(shí)別成行人。以上可視化結(jié)果可直觀表明文中算法的有效性。
文中以體素兩階段網(wǎng)絡(luò)為基礎(chǔ),于一階段框架中增加稀疏特征密集融合模塊,對(duì)稀疏特征逐層進(jìn)行半密集融合,加強(qiáng)淺層小目標(biāo)特征復(fù)用的同時(shí)減少特征冗余。使用輕量化殘差高效通道注意力機(jī)制穩(wěn)定計(jì)算量的同時(shí)對(duì)通道特征進(jìn)行增強(qiáng)。提出多級(jí)特征及多尺度核自適應(yīng)融合模塊,以不同尺度的卷積核自適應(yīng)編碼多級(jí)特征之間的依賴關(guān)系,設(shè)置3種不同的融合模塊以適應(yīng)不同的任務(wù)要求。在2階段,設(shè)計(jì)了三重特征融合策略,對(duì)三維體素稀疏特征空間進(jìn)行密集的鄰域信息搜索聚合,并提出深度融合模塊(DFM),使用3組雙層卷積塊對(duì)格點(diǎn)特征進(jìn)行多層次的深度特征抽象融合。另外,還設(shè)計(jì)CTFFM模塊分析2組格點(diǎn)特征的依賴關(guān)系,有區(qū)分性地融合2組特征以提升特征表達(dá)能力,從而進(jìn)一步提升了檢測(cè)框的輸出質(zhì)量。
[1] MEYER G P, LADDHA A, KEE E, et al. LaserNet: An Efficient Probabilistic 3d Object Detector for Autonomous Driving[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 12677-12686.
[2] QI C R, SU H, MO K, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 652-660.
[3] QI C R, YI L, SU H, et al. PointNet++: Deep Hierarchical Feature Learning on Point Sets in A Metric Space[J]. Advances in neural information processing systems, 2017: 30-39.
[4] BELTRáN J, GUINDEL C, MORENO F M, et al. BirdNet: A 3d Object Detection Framework from Lidar Information[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3517-3523.
[5] Ku J, Mozifian M, Lee J, et al. Joint 3D Proposal Generation and Object Detection from View Aggregation[C]// Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2018: 1-8.
[6] Liang M, Yang B, Chen Y, et al. Multi-task and Multi-sensor Fusion for 3D Object Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 7345-7353.
[7] Paigwar A, Erkent O, Wolf C, et al. Attentional PointNet for 3D Object Detection in Point Clouds[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019: 1357-1369.
[8] Yan Y, Mao Y, Li B. SECOND: Sparsely Embedded Convolutional Detection[J]. Sensors, 2018, 1: 3337-3344.
[9] Shi W, Rajkumar R. Point-GNN: Graph Neural Network for 3D Object Detection in A Point Cloud[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1711-1719.
[10] Zhou Y, Tuzel O. Voxelnet: End-to-end Learning for Point Cloud Based 3D Object Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4490-4499.
[11] Lang A H, Vora S, Caesar H, et al. PointPillars: Fast Encoders for Object Detection from Point Clouds[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 12697-12705.
[12] Liu Z, Zhao X, Huang T, et al. TANet: Robust 3D Object Detection from Point Clouds with Triple Attention[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11677-11684.
[13] Deng J, Shi S, Li P, et al. Voxel-RCNN: Towards High Performance Voxel-Based 3D Object Detection[C]// Proceedings of the AAAI Conference on Artificial Intelligence, 2021: 1201-1209.
[14] Shi S, Wang X, Li H. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 770-779.
[15] 李文舉, 儲(chǔ)王慧, 崔柳,等. 結(jié)合圖采樣和圖注意力的3D目標(biāo)檢測(cè)方法[J/OL]. 計(jì)算機(jī)工程與應(yīng)用, 2022: 1-9. http://kns.cnki.net/kcms/detail/11.2127.TP.20220422. 1214.006.html
LI Wen-ju, CHU Wang-hui, CUI Liu, et al. 3D Object Detection Method Combining on Graph Sampling and Graph Attention[J/OL]. Computer Engineering and Applications, 2022: 1-9. http://kns.cnki.net/ kcms/detail/11. 2127.TP.20220422.1214.006.html.
[16] Ding Z, Han X, Niethammer M. Votenet: A Deep Learning Label Fusion Method for Multi-Atlas Segmentation[C]// Proceedings of the International Conference on Medical Image Computing and Computer-Assisted Intervention, 2019: 202-210.
[17] Graham B. Sparse 3D Convolutional Neural Networks[C]// Proceedings of the British Machine Vision Conference, 2015: 356-368.
[18] Graham B, Engelcke M, Van Der Maaten L. 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 9224-9232.
[19] Yan C, Salman E. Mono3D: Open Source Cell Library For Monolithic 3D Integrated Circuits[J]. IEEE Transactions on Circuits and Systems I, 2017, 65(3): 1075-1085.
[20] Huang G, Liu Z, Van Der Maaten L, et al. Densely Connected Convolutional Networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4700-4708.
[21] Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11534-11542.
[22] Yoo J H, Kim Y, Kim J, et al. 3D-CVF: Generating Joint Camera and Lidar Features Using Cross-View Spatial Feature Fusion for 3D Object Detection[C]// Proceedings of 16th European Conference on Computer Vision (ECCV), 2020: 720-736.
[23] Zheng W, Tang W, Chen S, et al. CIA-SSD: Confident IoU-aware Single-Stage Object Detector from Point Cloud [C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(4): 3555-3562.
[24] Shi S, Guo C, Jiang L, et al. PV-RCNN: Point-voxel Feature Set Abstraction for 3D Object Detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10529-10538.
[25] Chen X, Ma H, Wan J, et al. Multi-View 3D Object Detection Network for Autonomous Driving[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1907-1915.
[26] Qi C R, Liu W, Wu C, et al. Frustum Pointnets for 3D Object Detection from RGB-D Data[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 918-927.
[27] Liang M, Yang B, Wang S, et al. Deep Continuous Fusion for Multi-sensor 3D Object Detection[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 641-656.
[28] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]// Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[29] Kingma D P, Ba J. Adam: A Method for Stochastic Optimization[J]. International Conference for Learning Representations, 2014, 21(12): 6980-6995.
[30] Geiger A, Lenz P, Stiller C, et al. Vision Meets Robotics: The KITTI Dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
Voxel-based 3D Object Detection Network Based on Multi-level Feature Fusion
ZHANG Wu-rana, HU Chun-yana,CHEN Ze-laia,LI Fei-feib
(a. School of Optical-electrical and Computer Engineering b. School of Medical Instrument and Food Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)
The work aims to accurately analyze the location and classification information of the object to be tested in the point cloud scene, and propose a voxel-based 3D object detection network based on multi-level feature fusion. The two-stage Voxel-RCNN was used as the baseline network. In the first stage, the Sparse Feature Residual Dense Fusion Module (SFRDFM) was added to propagate and reuse the level-by-level features from shallow to deep, to achieve full interactive fusion of 3D features. The Residual Light-weight and Efficient Channel Attention (RL-ECA) mechanism was added to the 2D backbone network to explicitly enhance channel feature representation. A multi-level feature and multi-scale kernel adaptive fusion module was proposed to adaptively extract the weight information of the multi-level features, to achieve a strong fusion with a weighted manner. In the second stage, a Triple Feature Fusion Strategy (TFFS) was designed to aggregate neighborhood features based on the Manhattan distance search algorithm, and a Deep Fusion Module (DFM) and a Coarse to Fine Fusion Module (CTFFM) were embedded to improve the quality of grid features. The algorithm in this paper was tested in the autonomous driving data set KITTI. Compared with the baseline network at three difficulty levels, the average 3D accuracy of pedestrians in the first stage detection model was improved by 3.97%, and the average 3D accuracy of cyclists in the second stage detection model was improved by 3.37%. The experimental results prove that the proposed method can effectively improve the performance of object detection, each module has superior portability, and can be flexibly embedded into the voxel-based 3D detection model to bring corresponding improvements.
3D object detection; residual fusion; adaptive fusion; feature enhancement; triple feature fusion
TP311
A
1001-3563(2022)15-0042-12
10.19554/j.cnki.1001-3563.2022.15.005
2022–05–16
上海市高校特聘教授(東方學(xué)者)崗位計(jì)劃(ES2015XX)
張吳冉(1995—),男,上海理工大學(xué)碩士生,主攻計(jì)算機(jī)視覺與目標(biāo)檢測(cè)。
胡春燕(1976—),女,碩士,上海理工大學(xué)講師,主要研究方向?yàn)閳D像處理與模式識(shí)別、計(jì)算機(jī)視覺等。
責(zé)任編輯:曾鈺嬋