劉威莉,朱德利,駱華昊,李益
(1 重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院, 重慶 401331)
(2 重慶市數(shù)字農(nóng)業(yè)服務(wù)工程技術(shù)研究中心, 重慶 401331)
(3 重慶市畜牧科學(xué)院信息中心, 重慶 401331)
隨著深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測已經(jīng)在二維計(jì)算機(jī)視覺任務(wù)中取得了顯著的成就,然而實(shí)際場景中存在的光照變化、天氣條件、深度缺失等問題,僅僅依靠二維視覺感知無法解決[1]。由激光雷達(dá)獲取的三維數(shù)據(jù)不依賴自然光等條件,彌補(bǔ)了二維視覺領(lǐng)域存在的一些缺陷。三維目標(biāo)檢測作為三維場景感知中一個(gè)重要領(lǐng)域被廣泛研究[2],自動(dòng)駕駛領(lǐng)域的三維目標(biāo)檢測是實(shí)現(xiàn)自動(dòng)駕駛路徑規(guī)劃和安全避障的重要研究內(nèi)容[3]。隨著激光雷達(dá)技術(shù)的不斷進(jìn)步,以激光點(diǎn)云作為輸入的深度學(xué)習(xí)檢測器[4]也逐漸成熟,然而點(diǎn)云數(shù)據(jù)通常是稀疏和無序的,如何從不規(guī)則的點(diǎn)云中提取關(guān)鍵特征成為了三維目標(biāo)檢測任務(wù)中的一個(gè)關(guān)鍵性挑戰(zhàn)[5]。
輸入的LiDAR 數(shù)據(jù)以點(diǎn)云的形式來表示,但由于點(diǎn)云非結(jié)構(gòu)化和非固定大小的特征,使其不能直接被3D 目標(biāo)檢測器處理,必須通過某種表達(dá)形式將其編碼為更緊湊的結(jié)構(gòu),目前主要分為兩種類型的表達(dá)形式:基于點(diǎn)(point-based)的方法和基于體素(voxel-based)的方法。QI C R 等[6]首先提出pointnet 網(wǎng)絡(luò)直接對(duì)無序點(diǎn)云進(jìn)行特征的學(xué)習(xí),隨后使用Max-pooling 聚合為全局特征。沿用pointnet 的思想,為了提取更有鑒別性的高維特征,pointnet++[7]采用球查詢半徑內(nèi)的領(lǐng)域點(diǎn),隨后每個(gè)局部點(diǎn)通過集合抽象(Set Abstraction,SA)層進(jìn)行多層次的特征提取。SHI S 等[8]提出的PointRCNN 算法是通過PointNet++進(jìn)行特征的提取,基于提取到的特征進(jìn)行前景和背景的分割,在每個(gè)前景點(diǎn)上進(jìn)行3D 框的預(yù)測,然后在提取到的目標(biāo)的基礎(chǔ)上進(jìn)一步細(xì)化。3DSSD[9]網(wǎng)絡(luò)則是利用SA 層對(duì)輸入的點(diǎn)云進(jìn)行降采樣后,利用Backbone 等網(wǎng)絡(luò)提取關(guān)鍵點(diǎn)的特征,并用其中的一部分來進(jìn)行投票,投票結(jié)果進(jìn)一步用SA 層進(jìn)行特征提取,最后利用該特征對(duì)檢測框的種類和位置進(jìn)行預(yù)測。此類方法在處理點(diǎn)云的過程中可以充分利用點(diǎn)云的幾何特征,以此來獲得更好的檢測性能,但在特征提取過程中消耗了大量的時(shí)間和計(jì)算資源。在基于體素的方法中,考慮到點(diǎn)云的稀疏性(即大約90%的體素都沒有點(diǎn))。VoxelNet[10]算法將點(diǎn)云劃分為等間距的規(guī)則體素,然后使用體素特征編碼(Voxel Feature Encoder, VFE)層將體素內(nèi)點(diǎn)的特征量化統(tǒng)一,再使用3D 卷積神經(jīng)網(wǎng)絡(luò)對(duì)體素進(jìn)行特征提取,最終使用RPN 網(wǎng)絡(luò)生成檢測框[11],但該算法由于體素?cái)?shù)量龐大,特征提取速度極慢。YAN Y 等[12]提出的SECOND 網(wǎng)絡(luò)將點(diǎn)云轉(zhuǎn)化為規(guī)則的體素并使用3D 稀疏卷積進(jìn)行提取特征,相比于VoxelNet 網(wǎng)絡(luò)加快了對(duì)點(diǎn)云特征的提取速度。LANG A H 等[13]提出的PointPillars 網(wǎng)絡(luò)則是將點(diǎn)云立柱化后轉(zhuǎn)化偽圖像,在保留三維特征的同時(shí)進(jìn)一步采用二維卷積提取高維特征,極大地加快了算法的運(yùn)行速度。基于體素的方法具有更高的檢測效率,但是檢測精度低于基于原始點(diǎn)云的方法。如何在保證檢測效率的基礎(chǔ)上,提高基于體素方法的檢測精度成為近年來的研究熱點(diǎn)。
基于Pillar 編碼點(diǎn)云的三維目標(biāo)檢測算法中存在一定細(xì)粒度信息的丟失,而這些丟失的局部幾何信息對(duì)于檢測目標(biāo)是非常關(guān)鍵的[14]。王忠全[15]在PointPillars 的2D CNN 主干網(wǎng)絡(luò)上增加了4 個(gè)改進(jìn)后的有效通道注意力(Efficient Channel Attention, ECA)模塊提高三維目標(biāo)檢測精度。詹為欽等[16]引入2 種注意力機(jī)制,實(shí)現(xiàn)對(duì)偽圖中特征信息的放大和抑制。上述研究都是針對(duì)點(diǎn)云偽圖像高維特征提取模塊進(jìn)行的改進(jìn),未考慮在點(diǎn)云柱內(nèi)的特征學(xué)習(xí)機(jī)制?;诖?,本文基于PointPillars 提出了一種融合逐點(diǎn)空間注意力機(jī)制[17]和跨階段局部網(wǎng)絡(luò)(Cross Stage Partial Network, CSPNet)[18]的三維目標(biāo)檢測算法,以有效提高網(wǎng)絡(luò)的特征提取能力,保留深層次點(diǎn)云特征,提升網(wǎng)絡(luò)檢測目標(biāo)的準(zhǔn)確率。
PointPillars 是一種單階段的3D 點(diǎn)云目標(biāo)檢測算法,使用原始點(diǎn)云作為輸入,通過在鳥瞰圖上劃分柵格,實(shí)現(xiàn)立柱形式的體素的劃分,隨后經(jīng)過降維處理生成偽圖像,利用二維卷積對(duì)特征進(jìn)行提取,極大地提高了檢測效率。針對(duì)KITTI 中car 類目標(biāo),PointPillars 很好地做到了在檢測性能和效率之間的平衡。算法的整體框架如圖1。
圖1 PointPillars 算法整體框架Fig. 1 Overall framework of PointPillars algorithm
該算法主要由三個(gè)核心模塊組成,1)支柱特征網(wǎng)絡(luò)(Pillar Feature Net, PFN)層:負(fù)責(zé)將三維點(diǎn)云轉(zhuǎn)換為稀疏偽圖像;2)2D BackBone 主干網(wǎng)絡(luò)層:通過二維卷積對(duì)點(diǎn)云偽圖像進(jìn)行特征提?。?)Detection Head(SSD)檢測頭層:預(yù)測目標(biāo)類別以及三維邊界框等信息。
算法具體流程為:首先在支柱特征網(wǎng)絡(luò)層中將輸入的點(diǎn)云數(shù)據(jù)劃分為Pillars,每個(gè)Pillar 中的點(diǎn)云由包含坐標(biāo)、反射強(qiáng)度、幾何中心和相對(duì)位置等信息的10 維向量表示,之后用一個(gè)簡化版的PointNet 從D維原始數(shù)據(jù)中學(xué)習(xí)得到C維特征,得到一個(gè)(C,P,N)的張量,再使用maxpool 操作提取每個(gè)pillar 中最能代表該pillar 的點(diǎn),得到(C,P)維度數(shù)據(jù),之后利用scatter 算子,根據(jù)對(duì)應(yīng)位置關(guān)系將數(shù)據(jù)映射到相應(yīng)位置,實(shí)現(xiàn)三維數(shù)據(jù)向二維偽圖像的轉(zhuǎn)換;然后2D BackBone 主干網(wǎng)絡(luò)層對(duì)支柱特征網(wǎng)絡(luò)生成的點(diǎn)云偽圖像進(jìn)行高維特征提取,包括兩個(gè)分支,一支為自上而下的漸進(jìn)式下采樣分支,另一支為上采樣分支,通過反卷積將多尺度的特征圖上采樣到統(tǒng)一大小,并進(jìn)行拼接,得到最終的融合特征圖;最后在檢測頭層采用了類似SSD 的檢測頭來實(shí)現(xiàn)3D 目標(biāo)檢測,回歸3D 框的中心、尺寸和朝向角。具體為使用2D 聯(lián)合交叉(IoU)將先驗(yàn)框與地面真值相匹配,在2D 網(wǎng)絡(luò)中進(jìn)行目標(biāo)檢測,并通過回歸的方式得到Z軸坐標(biāo)和高度。
原始PointPillars 網(wǎng)絡(luò)中Pillar 編碼的點(diǎn)云數(shù)據(jù)存在一定程度的信息丟失,沒有考慮到點(diǎn)云空間分布的局部幾何信息,對(duì)目標(biāo)檢測精度不高。本文在支柱特征網(wǎng)絡(luò)層中融入逐點(diǎn)空間注意力機(jī)制,抑制點(diǎn)云支柱中的噪聲,放大重要特征信息,提高對(duì)點(diǎn)云的特征提取能力;另外在降采樣模塊中使用可以分割梯度流的CSPNet 替換原降采樣中普通卷積塊,使梯度流在不同的網(wǎng)絡(luò)路徑中傳播,在減少計(jì)算量的同時(shí)提升網(wǎng)絡(luò)的檢測性能。改進(jìn)之后的整體網(wǎng)絡(luò)架構(gòu)如圖2。
圖2 改進(jìn)后的PointPillars 算法整體框架Fig. 2 The overall framework of the improved PointPillars algorithm
注意力機(jī)制是通過計(jì)算輸入數(shù)據(jù)的權(quán)重,提高某個(gè)重要因素對(duì)結(jié)果的影響力,抑制不重要因素的影響[19]。逐點(diǎn)空間注意力遵循自注意力的基本結(jié)構(gòu),從局部點(diǎn)圖的點(diǎn)空間捕捉更多形狀相關(guān)特征和長距離相關(guān)性。此外,該機(jī)制還應(yīng)用跳躍連接來加強(qiáng)輸入和輸出之間的關(guān)系,提高對(duì)特征的學(xué)習(xí),加強(qiáng)高層的語義信息。逐點(diǎn)空間注意力模塊整體結(jié)構(gòu)如圖3,使用兩個(gè)多層感知機(jī)(Multilayer Perceptron,MLP)將局部特征F轉(zhuǎn)換為特征X和Y,其中X,Y∈RC1,與文獻(xiàn)[20]中不同的是,用X和Y的轉(zhuǎn)置來進(jìn)行計(jì)算不同點(diǎn)云之間的關(guān)系,不需要對(duì)矩陣進(jìn)行重構(gòu),保持了原來的空間分布。最后利用softmax 對(duì)關(guān)系圖進(jìn)行歸一化,達(dá)到大小為N×N的空間注意圖S(N表示點(diǎn)的個(gè)數(shù)),表示為
圖3 逐點(diǎn)空間注意力模塊結(jié)構(gòu)Fig. 3 Structure of point-wise spatial attention module
式中,i和j分別表示點(diǎn)在X和Y中的位置,Sij是ith點(diǎn)對(duì)jth點(diǎn)的影響,· 表示矩陣乘法。當(dāng)兩個(gè)點(diǎn)的特征具有相似的語義信息時(shí),他們具有很強(qiáng)的相關(guān)性。同時(shí)局部特征F轉(zhuǎn)化為新特征Z∈RC2,通過MLP 層,然后是S和Z之間的矩陣乘法,并與特征F求和得到輸出Ffinal∈RN×C',表示為
得到的Ffinal具有長距離相關(guān)性,并通過逐點(diǎn)空間注意力圖S有選擇性地聚合上下文,捕獲全局相關(guān)性。
在PointPillars 的支柱特征網(wǎng)絡(luò)層中,由D維原始數(shù)據(jù)學(xué)習(xí)得到C維特征的感受野受限,過濾特征的各個(gè)單元不能利用其局部區(qū)域之外的上下文信息。為了解決這一問題,本文將重點(diǎn)放在全局空間關(guān)系上,捕獲深層次信息?;诖巳谌胍粋€(gè)逐點(diǎn)空間注意力模塊,它通過在點(diǎn)集中建立特征之間的關(guān)聯(lián)來捕捉全局依賴性。將Pillar 編碼后通過簡化版PointNet 提取特征的點(diǎn)云輸入至逐點(diǎn)空間注意力模塊中,增強(qiáng)了對(duì)點(diǎn)云特征提取的能力,同時(shí)可以有效避免冗余點(diǎn)云或噪聲點(diǎn)對(duì)特征的影響,加強(qiáng)了對(duì)點(diǎn)云覆蓋較少的特征描述,在一定程度上解決了基于Pillar 編碼點(diǎn)云的信息丟失問題,提高了三維目標(biāo)檢測的精度。
CSPNet 是將上一層得到的特征圖分割成兩部分,然后通過跨階段分層結(jié)構(gòu)進(jìn)行合并來實(shí)現(xiàn)的,主要概念是通過分割梯度流,使梯度流在不同的網(wǎng)絡(luò)路徑中傳播[21]。這樣的策略會(huì)大量減少計(jì)算量,加快模型的推理速度,有效增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,提高模型檢測精度。
PointPillars 中點(diǎn)云經(jīng)過體素特征編碼后通過Scatter 算子生成偽圖像,隨后對(duì)多尺度偽圖像提取特征。針對(duì)網(wǎng)絡(luò)對(duì)偽圖像特征提取能力不足的問題,選擇CSPNet 作為對(duì)點(diǎn)云偽圖像進(jìn)行高維特征提取的下采樣特征提取網(wǎng)絡(luò),進(jìn)行特征融合以有效增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,提高模型的準(zhǔn)確率。整體二維主干網(wǎng)絡(luò)如圖4,CSP1、CSP2、CSP3 均為CSPNet 網(wǎng)絡(luò)結(jié)構(gòu)。CSPNet 和BottleNeck 網(wǎng)絡(luò)結(jié)構(gòu)如圖5,CSPNet 由多個(gè)1×1 的卷積組成,首先通過將偽圖像特征分成兩部分,一部分用普通卷積提取特征信息,另一部分通過1×1 的卷積和BottleNeck 層。具體做法是先進(jìn)行1×1 卷積將通道數(shù)減小一半,再通過3×3 卷積將通道數(shù)加倍,保證其輸入與輸出的通道數(shù)不發(fā)生改變,然后使用add 進(jìn)行特征融合,使得融合后的特征數(shù)不變。最后將兩部分的特征圖進(jìn)行Concat 拼接操作,使得融合前后的通道數(shù)不變,使用Silu 激活函數(shù),通道數(shù)等數(shù)據(jù)如表1。實(shí)驗(yàn)結(jié)果表明,CSPNet 有效增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力,并且提升了網(wǎng)絡(luò)檢測目標(biāo)的準(zhǔn)確率,此外,CSPNet 網(wǎng)絡(luò)的不同特征層的拼接重用還提高了模型對(duì)目標(biāo)的泛化性。
表1 本文CSPNet 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 CSPNet network structure of this paper
圖4 二維主干網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 2D backbone network structure
圖5 CSPNet、BottleNeck 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 CSPNet, BottleNeck network structure
在KITTI 數(shù)據(jù)集[22]上對(duì)算法進(jìn)行驗(yàn)證,KITTI 數(shù)據(jù)集是目前自動(dòng)駕駛領(lǐng)域最重要的數(shù)據(jù)集之一[23],數(shù)據(jù)集內(nèi)包含市區(qū)、鄉(xiāng)村和高速公路等真實(shí)駕駛場景的數(shù)據(jù)圖像。KITTI 共有7 481 套訓(xùn)練樣本和7 518 個(gè)測試樣本,其中每個(gè)樣本場景中約包含16 384 個(gè)點(diǎn)。采用Chen[24]等對(duì)訓(xùn)練數(shù)據(jù)劃分的方式,將訓(xùn)練樣本又分為訓(xùn)練集3 712 套,驗(yàn)證集3 769 套。主要類別有車輛、行人和自行車三類。因?yàn)檐囕v類別數(shù)量較多且是樣本中最大的類別,并且擬應(yīng)用的場景為高速公路,所以本文只在車輛類別上進(jìn)行訓(xùn)練和測試。KITTI 結(jié)果統(tǒng)計(jì)時(shí),根據(jù)檢測目標(biāo)被遮擋情況、與當(dāng)前視點(diǎn)距離以及框的高度等參量,將結(jié)果分為簡單、中等和困難三種場景進(jìn)行統(tǒng)計(jì),具體數(shù)據(jù)劃分如表2。
表2 三種場景下的數(shù)據(jù)劃分Table 2 Data division in three scenarios
按照KITTI 官方評(píng)價(jià)指標(biāo),以平均精度(Average Precision, AP)評(píng)價(jià)3D 和BEV 場景下的檢測結(jié)果,作為檢測性能的評(píng)估指標(biāo)。采用的交并比(Intersection Over Union, IOU)閾值為0.7,使用40 個(gè)召回位置計(jì)算平均精度,計(jì)算表達(dá)式為
改進(jìn)算法基于OpenPCDet 框架實(shí)現(xiàn),訓(xùn)練時(shí)超參數(shù)設(shè)置如下:采用Adam 優(yōu)化器訓(xùn)練160 個(gè)epoch,batch size 為4,學(xué)習(xí)率為0.003。實(shí)驗(yàn)使用的點(diǎn)云范圍沿x、y、z軸,分別是W=[0 m,-39.68 m],H=[-3 m,69.12 m],D=[39.68 m,1 m]。體素尺度設(shè)置為vw=0.16,vh=0.16,vd=4。將MAX_POINT_PER_VOXEL 設(shè)置為32,作為每個(gè)體素中的最大點(diǎn)數(shù),同時(shí)MAX_NUMBER_OF_VOXELLS 訓(xùn)練時(shí)設(shè)置成16 000,測試時(shí)設(shè)置為40 000,作為最小批量中的最大非空體素?cái)?shù)。具體實(shí)驗(yàn)環(huán)境配置如表3。
表3 實(shí)驗(yàn)環(huán)境配置Table 3 Experimental environment configuration
3.3.1 對(duì)比實(shí)驗(yàn)
為了評(píng)估改進(jìn)的網(wǎng)絡(luò)模型在KITTI 測試集上的精度性能,選擇F-PointNet、VoxelNet、SECOND、PointPillars、SegVoxelNet、TANet、PointRCNN、Part-A2算法進(jìn)行對(duì)比,表4 為在KITTI 測試集Car 類下,本文算法與其他算法的平均精度對(duì)比。
表4 不同算法的AP 對(duì)比(%)Table 4 Comparison of AP for different methods(%)
本文算法在簡單、中等、困難情況下的3D 平均檢測精度為88.52%、79.02%、76.22%,BEV 平均檢測精度為92.63%、88.53%、87.16%,均達(dá)到了最優(yōu)。改進(jìn)后的算法有較優(yōu)的檢測性能,尤其是在困難情況下的弱感知目標(biāo)樣本中有著較高的平均檢測精度并取得了最為顯著的精度提升幅度。同時(shí),表5 給出了本文算法和現(xiàn)有的其他幾種表現(xiàn)優(yōu)異的三維點(diǎn)云目標(biāo)檢測算法的推理速度,對(duì)比可知,本文算法在有效提升基準(zhǔn)網(wǎng)絡(luò)檢測精度的同時(shí)也保證了高效的推理速度,KITTI 數(shù)據(jù)采集設(shè)備的64 線激光雷達(dá)工作頻率是10 Hz,即1 s 處理獲取10 幀點(diǎn)云數(shù)據(jù),本文提出的算法每秒處理的點(diǎn)云數(shù)據(jù)大于10 幀,推理速度為0.037 2 frame·s-1,滿足實(shí)時(shí)性檢測的要求[29]。
表5 不同算法的推理速度對(duì)比Table 5 Inference speed comparison among different methods
3.3.2 消融實(shí)驗(yàn)
為了驗(yàn)證所提出的兩個(gè)模塊對(duì)網(wǎng)絡(luò)性能的影響程度,通過消融實(shí)驗(yàn)來進(jìn)行說明。以下所有模型都在KITTI 數(shù)據(jù)集上進(jìn)行訓(xùn)練并測試,表6 和表7 分別給出了KITTI 驗(yàn)證集中消融實(shí)驗(yàn)的3D 和BEV 場景下的檢測性能數(shù)據(jù)。消融實(shí)驗(yàn)是以單獨(dú)模塊,兩個(gè)模塊結(jié)合來展示改進(jìn)點(diǎn)的貢獻(xiàn),PPPA 為融合了逐點(diǎn)空間注意力模塊,PPCSP 為CSPNet 改進(jìn)的偽圖像下采樣模塊。PPCSP+PPPA 為融合了逐點(diǎn)空間注意力機(jī)制和CSPNet 的三維目標(biāo)檢測算法。
表6 在KITTI 測試集中消融實(shí)驗(yàn)的3D 檢測平均精度(%)Table 6 Average precision of 3D detection for ablation experiments in the KITTI test set(%)
表7 在KITTI 測試集中消融實(shí)驗(yàn)的BEV 場景下檢測平均精度(%)Table 7 Average precision of detection in the BEV scenario of the KITTI test focused ablation experiment(%)
消融實(shí)驗(yàn)結(jié)果表明:在PointPillars 網(wǎng)絡(luò)中加入逐點(diǎn)空間注意力模塊,可以捕獲全局相關(guān)性,有效抑制點(diǎn)云支柱中的噪聲,放大重要特征信息,增強(qiáng)對(duì)點(diǎn)云的特征提取能力,提高檢測精度;在網(wǎng)絡(luò)中使用CSPNet 對(duì)偽圖像下采樣進(jìn)行改進(jìn),使梯度流在不同的路徑中傳播,增強(qiáng)了算法的特征提取能力;PPCSP+PPPA 為加入兩個(gè)模塊后的檢測結(jié)果,在簡單、中等和困難級(jí)別下的3D 檢測精度分別為88.52%、79.02%和76.22%,與基準(zhǔn)網(wǎng)絡(luò)相比分別提升了2.23%,2.25% 和2.30%,BEV 場景下的平均檢測精度為92.63%,88.53%,87.16%,均高于基準(zhǔn)網(wǎng)絡(luò)。結(jié)果表明改進(jìn)后模型的檢測性能得到了顯著的提升,說明所使用的兩種改進(jìn)方法均具有有效性。
3.3.3 結(jié)果可視化
為了更加直觀地驗(yàn)證改進(jìn)網(wǎng)絡(luò)對(duì)于車輛檢測的有效性,圖6 給出了PointPillars 和改進(jìn)后網(wǎng)絡(luò)在KITTI測試集中目標(biāo)檢測的可視化對(duì)比結(jié)果。
圖6 PointPillars 與本文算法的可視化結(jié)果對(duì)比Fig.6 Comparison of the visualization results of PointPillars and the algorithm in this paper
圖6分別給出了四個(gè)不同場景下的PointPillars 目標(biāo)樣本(車輛)與本文算法目標(biāo)樣本的可視化結(jié)果對(duì)比圖,其中用紅色線圈標(biāo)識(shí)目標(biāo)車輛被誤檢的情況,用黃色線圈標(biāo)識(shí)目標(biāo)車輛被漏檢的情況,從中可以看出改進(jìn)算法在點(diǎn)云圖中誤檢率和錯(cuò)檢率更低。這是由于融合了逐點(diǎn)空間注意力機(jī)制和CSPNet 網(wǎng)絡(luò)的三維目標(biāo)檢測算法更加關(guān)注全局特征,減少了點(diǎn)云編碼過程中造成的信息丟失,并改善了降采樣模塊特征提取能力不足的問題。因此改進(jìn)后的PointPillars 比改進(jìn)前效果更好,在一定程度上消除了誤檢漏檢的情況,提升了網(wǎng)絡(luò)檢測的性能。
本文基于PointPillars 提出一種融合逐點(diǎn)空間注意力機(jī)制和CSPNet 網(wǎng)絡(luò)的三維目標(biāo)檢測算法來實(shí)現(xiàn)對(duì)車輛的檢測。首先在簡化版PointNet 提取點(diǎn)云特征后,融入逐點(diǎn)空間注意力機(jī)制進(jìn)行有選擇地聚合上下文信息,捕獲全局相關(guān)性,進(jìn)一步提高點(diǎn)云特征學(xué)習(xí)的能力。其次將點(diǎn)云偽圖像進(jìn)行高維特征提取的降采樣模塊中普通卷積替換為CSPNet 網(wǎng)絡(luò),有效提高了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,保留了深層次點(diǎn)云特征。
在高速公路的應(yīng)用場景下,以KITTI 中car 類作為檢測對(duì)象,在簡單、中等和困難級(jí)別下的3D 檢測精度分別為88.52%、79.02%和76.22%,與基準(zhǔn)網(wǎng)絡(luò)相比分別提升了2.23%,2.25%和2.30%。另外,采用消融實(shí)驗(yàn)分析驗(yàn)證了所提模塊的改進(jìn)能夠有效提高三維目標(biāo)檢測的性能。最后將算法與VoxelNet、SECOND、PointRCNN 等經(jīng)典三維目標(biāo)檢測算法的性能進(jìn)行了對(duì)比,本文所提算法性能較優(yōu),同時(shí)檢測速度也達(dá)到了實(shí)時(shí)檢測水平,對(duì)自動(dòng)駕駛技術(shù)的進(jìn)一步優(yōu)化和完善具有一定的積極意義。