吳岳敏 孫圣鑫 王小龍 馬彬 程香平
摘要:針對(duì)現(xiàn)有全精度自動(dòng)駕駛目標(biāo)檢測(cè)方法難以在車載計(jì)算資源受限平臺(tái)實(shí)時(shí)部署等問題,提出了一種基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法.該方法通過重構(gòu)殘差網(wǎng)絡(luò)單元和加寬每階段通道數(shù)改進(jìn)Faster R-CNN主干網(wǎng)絡(luò),以增強(qiáng)主干網(wǎng)絡(luò)特征提取的能力.此外,該方法通過修改卷積核改進(jìn)特征金字塔網(wǎng)絡(luò)和區(qū)域提議網(wǎng)絡(luò),增強(qiáng)表征和預(yù)測(cè)能力.通過在兩種常用目標(biāo)檢測(cè)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,該方法能夠大幅度減小模型內(nèi)存,提高檢測(cè)速度,并取得與全精度模型相近的檢測(cè)精度.該方法相比于其他先進(jìn)的二值化目標(biāo)檢測(cè)算法,取得了最優(yōu)秀的檢測(cè)性能;相比全精度模型,平均參數(shù)量減少1.89倍,平均推理速度提高了6.10倍,而檢測(cè)精度mAP在兩數(shù)據(jù)集上分別僅下降0.2%和2.4%.
關(guān)鍵詞:自動(dòng)駕駛; 目標(biāo)檢測(cè); 二值化; 特征金字塔網(wǎng)絡(luò)
中圖分類號(hào):U461.91文獻(xiàn)標(biāo)志碼: A
Automatic driving object detection method based on binary network
WU Yue-min SUN Sheng-xin WANG Xiao-long MA Bin CHENG Xiang-ping(1.School of Electrical and Information Engineering, Hubei University of Automotive Technology, Shiyan 442002, China; 2.Haoteng (Hubei) Intelligent Technology Co., Ltd., Shiyan 442000, China; 3.School of Electronic Information Engineering, Beihang University, Beijing 100191, China; 4.Institute of Applied Physics, Jiangxi Academy of Sciences, Nanchang 330029, China)
Abstract:Aiming at the problem that the existing full precision automatic driving detection methods are difficult to deploy in real time on the platform with limited computing resources,an object detection method based on binary network is proposed.This method improves the backbone network of Faster R-CNN by reconstructing residual network units and widening the number of channels in each stage,so as to enhance the capability of backbone network feature extraction.In addition,this method improves FPN and RPN by modifying the convolution kernel to enhance the representation and prediction capability.Extensive experiments on two target detection datasets show that this method can greatly reduce the model memory,improve the detection speed,and achieve the accuracy similar to the full accuracy model.Compared with other advanced binary target detection algorithms,this method has achieved the best detection performance; Compared with the full accuracy model,the average parameter quantity is reduced by 1.89 times,and the average reasoning speed is increased by 6.10 times,while mAP is only reduced by 0.2% and 2.4% on the two datasets,respectively.
Key words:automatic driving; object detection; binarization; feature pyramid network
0引言
自動(dòng)駕駛目標(biāo)檢測(cè)是當(dāng)今汽車領(lǐng)域的研究重點(diǎn)之一,主要處理來自車載雷達(dá)和視覺檢測(cè)傳感器的觀測(cè)數(shù)據(jù).目前基于車載雷達(dá)的檢測(cè)技術(shù)已經(jīng)相對(duì)成熟,但基于視覺檢測(cè)的檢測(cè)技術(shù)還需進(jìn)一步研究.隨著深度卷積網(wǎng)絡(luò)的發(fā)展,在視覺目標(biāo)檢測(cè)領(lǐng)域,已經(jīng)出現(xiàn)了眾多高精度的檢測(cè)網(wǎng)絡(luò),例如一階段檢測(cè)算法SSD[1]、YOLO[2]、RetinaNet[3]等,二階段檢測(cè)算法Fast R-CNN[4]、Faster R-CNN[5]等.Lin等[6]提出了一個(gè)具有自上而下架構(gòu)、可以實(shí)現(xiàn)多維度特征提取的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN),結(jié)合現(xiàn)有檢測(cè)網(wǎng)絡(luò)能夠顯著增強(qiáng)檢測(cè)網(wǎng)絡(luò)檢測(cè)性能.但目前來看,這些檢測(cè)網(wǎng)絡(luò)通常擁有數(shù)百萬的參數(shù),要求數(shù)以億計(jì)的浮點(diǎn)數(shù)運(yùn)算,難以有效的在資源受限設(shè)備中進(jìn)行實(shí)時(shí)應(yīng)用.
為了實(shí)現(xiàn)檢測(cè)網(wǎng)絡(luò)有效嵌入資源受限設(shè)備的同時(shí)保證目標(biāo)檢測(cè)網(wǎng)絡(luò)的推理速度和檢測(cè)精度,工業(yè)界和學(xué)術(shù)界提出了輕量化網(wǎng)絡(luò)設(shè)計(jì)[7]、網(wǎng)絡(luò)剪枝[8]、低秩分解[9]、量化[10]和知識(shí)蒸餾[11]等多種方法.李彥辰等[12]提出一種基于Efficientdet的單階段目標(biāo)檢測(cè)框架來應(yīng)對(duì)自動(dòng)駕駛計(jì)算資源受限和小目標(biāo)檢測(cè)精度問題;黃鴻勝[13]研究了基于融合的感興趣區(qū)域特征的蒸餾學(xué)習(xí)機(jī)制,加快了用于自動(dòng)駕駛的輕量級(jí)模型的訓(xùn)練與推理速度;白士磊[14]對(duì)改進(jìn)的YOLOv3網(wǎng)絡(luò)進(jìn)行模型剪枝,模型精度下降可接受的情況下,減少模型對(duì)硬件資源的消耗,進(jìn)而保證實(shí)時(shí)性.量化憑借減少網(wǎng)絡(luò)參數(shù)和激活值的比特寬度,能夠?qū)崿F(xiàn)高效的推理和模型壓縮.二值網(wǎng)絡(luò)是一種極端的量化形式.它將卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重和激活值壓縮到1比特,并使用XNOR位運(yùn)算和位計(jì)數(shù)操作代替32比特浮點(diǎn)數(shù)的乘法來實(shí)現(xiàn)卷積操作,從而節(jié)省了大量的內(nèi)存和計(jì)算資源.Rastegar等[15]將激活和權(quán)重量化至1比特,取得了較好的性能;Lin等[16]通過增加權(quán)重參數(shù)來增強(qiáng)檢測(cè)器的性能.但由于二值化網(wǎng)絡(luò)的表達(dá)能力有限,其模型精度一直遠(yuǎn)低于全精度模型.
為了降低自動(dòng)駕駛場(chǎng)景下計(jì)算資源的同時(shí)滿足檢測(cè)精度的要求,本文選取當(dāng)前主流的二階段目標(biāo)檢測(cè)方法Faster R-CNN為基準(zhǔn)模型,改進(jìn)了作為主干網(wǎng)絡(luò)的深度殘差網(wǎng)絡(luò)[17](Deep residual network,ResNet)以及特征金字塔網(wǎng)絡(luò)FPN與區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network,RPN).本文提出的二值化模型可通過更少的參數(shù)實(shí)現(xiàn)接近32比特全精度模型的檢測(cè)精度,并優(yōu)于其他先進(jìn)的二值化檢測(cè)方法,在自動(dòng)駕駛目標(biāo)檢測(cè)領(lǐng)域中具有重要的應(yīng)用價(jià)值.
1算法原理
1.1Faster R-CNN網(wǎng)絡(luò)框架
Faster R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,可分為特征提取、區(qū)域提議網(wǎng)絡(luò)和Fast-RCNN檢測(cè)網(wǎng)絡(luò)三個(gè)部分.
1.1.1算法流程
Faster R-CNN摒棄了以往二階段檢測(cè)模型[5]中帶來巨大的時(shí)間成本滑動(dòng)窗口和selective Search方法,而是通過RPN網(wǎng)絡(luò)來生成目標(biāo)區(qū)域候選框,極大程度上縮減了待檢測(cè)目標(biāo)區(qū)域的生成成本,使得二階段算法時(shí)間復(fù)雜度大大降低.如圖1所示,待檢測(cè)圖像經(jīng)過預(yù)處理后,輸入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征提取,RPN與Fast R-CNN部分共享該特征.本研究將特征圖對(duì)應(yīng)的尺寸映射到原圖可以得到錨點(diǎn)坐標(biāo),再以錨點(diǎn)為中心在原圖上設(shè)定不同尺寸和比例的候選框,并根據(jù)候選框與真實(shí)圖像的目標(biāo)邊框的交并比(Intersection over Union,IOU)設(shè)定正負(fù)標(biāo)簽.
RPN網(wǎng)絡(luò)部分使用3×3卷積對(duì)特征進(jìn)行進(jìn)一步提取,再將卷積結(jié)果分別使用兩個(gè)1×1卷積分成兩條支路,每條支路用通道數(shù)對(duì)應(yīng)每個(gè)錨點(diǎn)對(duì)應(yīng)候選框的分類概率值與位置坐標(biāo)數(shù)目.然后,F(xiàn)ast R-CNN網(wǎng)絡(luò)部分濾除不符合要求的候選框,將剩下的候選框按存在目標(biāo)的概率進(jìn)行排序,提取前N個(gè)提議區(qū)域并進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS),最終篩選出M個(gè)感興趣區(qū)域(Regions of interest,ROIs)與共享特征一起輸入到ROI池化層.其中,ROI池化層根據(jù)特征提取部分的下采樣倍數(shù)在共享特征上摘取每個(gè)ROI所對(duì)應(yīng)的大小不一的特征轉(zhuǎn)換為長(zhǎng)度相等的特征向量送入到全連接層.最后利用Softmax函數(shù)來計(jì)算特征向量對(duì)應(yīng)候選框所包含目標(biāo)類別,以及利用回歸函數(shù)精確回歸最終檢測(cè)框的坐標(biāo).
Faster R-CNN可以總結(jié)為特征提取、目標(biāo)區(qū)域候選框生成和目標(biāo)位置坐標(biāo)與種類的概率的計(jì)算三個(gè)步驟,從而實(shí)現(xiàn)端到端訓(xùn)練.
1.1.2損失函數(shù)
1.2標(biāo)準(zhǔn)1比特卷積神經(jīng)網(wǎng)絡(luò)
2二值化目標(biāo)檢測(cè)
2.1更寬的主干卷積神經(jīng)網(wǎng)絡(luò)
本文選取Faster R-CNN為基準(zhǔn)模型,提出了一種二值化自動(dòng)駕駛目標(biāo)檢測(cè)方法.其中,本研究選用了ResNet18作為主干卷積神經(jīng)網(wǎng)絡(luò),其采用了殘差網(wǎng)絡(luò)單元結(jié)構(gòu),如圖3(a)所示.該結(jié)構(gòu)有效的解決了深度網(wǎng)絡(luò)的深度增加導(dǎo)致模型準(zhǔn)確度出現(xiàn)飽和甚至下降的情況,即深度網(wǎng)絡(luò)的退化問題.
為了提高主干網(wǎng)絡(luò)提取語義特征的能力,本研究首先將其通道數(shù)加寬了一倍,結(jié)構(gòu)對(duì)比如表1所示.此外,本研究對(duì)殘差單元內(nèi)部的卷積及批歸一化操作前后使用了跳躍連接,以降低過擬合的風(fēng)險(xiǎn),如圖3(b)所示的全精度殘差網(wǎng)絡(luò)單元.
為了將設(shè)計(jì)的全精度殘差網(wǎng)絡(luò)單元進(jìn)行二值化,本研究首先引入了一種歸納偏置來微調(diào)輸入特征,然后利用二值化激活函數(shù)將全精度激活值輸入進(jìn)行1比特量化.本研究還設(shè)計(jì)了二值化卷積操作替代傳統(tǒng)卷積操作,實(shí)現(xiàn)了網(wǎng)絡(luò)參數(shù)的二值化,并利用批歸一化操作使訓(xùn)練過程更快更穩(wěn)定,具體過程如公式(5)所示.然后,本研究再次引入了歸納偏置優(yōu)化卷積操作的輸出,并用非線性激活函數(shù)PRelu增強(qiáng)二值神經(jīng)網(wǎng)絡(luò)的非線性表征能力.此外,本研究在二值化殘差網(wǎng)絡(luò)單元中額外引入了跳躍連接,與輸入的全精度激活值進(jìn)行累加,增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性.本文二值化網(wǎng)絡(luò)殘差單元整體結(jié)構(gòu)如圖3(c)所示.
2.21比特FPN 網(wǎng)絡(luò)
在FPN網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)前,傳統(tǒng)目標(biāo)檢測(cè)網(wǎng)絡(luò)在多尺度目標(biāo)檢測(cè)任務(wù)上依然表現(xiàn)不佳.這是因?yàn)橐酝蠖鄶?shù)的目標(biāo)檢測(cè)網(wǎng)絡(luò)只采用了卷積神經(jīng)網(wǎng)絡(luò)的頂層特征做預(yù)測(cè),盡管高層的特征所包含的語義信息較為豐富,但是定位位置會(huì)比較粗略,相反底層特征包含語義信息較少,但定位位置準(zhǔn)確.FPN充分利用了不同分辨率層的特征圖所含有的多尺度語義信息,使得模型能夠檢測(cè)較大尺度差異的不同目標(biāo),大大提升了小目標(biāo)檢測(cè)水平.
2.2.1FPN算法流程
如圖4所示,F(xiàn)PN網(wǎng)絡(luò)結(jié)構(gòu)包含2個(gè)部分,分別是一個(gè)自底向上的路徑,一個(gè)自頂向下和橫向連接的路徑.
自底向上路徑對(duì)應(yīng)圖4左側(cè)部分,也代表圖1中的特征提取部分.對(duì)于FPN,本研究定義每個(gè)網(wǎng)絡(luò)階段為一個(gè)金字塔級(jí)別,并抽取每個(gè)階段的最后一層來搭建特征金字塔.因?yàn)槊總€(gè)階段的最后一層包含該階段最豐富的語義信息.自頂向下的路徑如圖4右側(cè)所示,通過從更高層的金字塔特征進(jìn)行空間上采樣得到語義更強(qiáng)的特征圖,從而產(chǎn)生更高分辨率的特征.
簡(jiǎn)單來說,當(dāng)給定任意尺寸大小的單張圖片作為輸入,通過FPN網(wǎng)絡(luò),本研究可以得到不同層級(jí)上不同大小比例的具有更豐富語義信息的特征圖.
2.2.2結(jié)合1比特FPN網(wǎng)絡(luò)的Faster R-CNN
為了增加1比特特征金字塔所包含的語義信息和增強(qiáng)其表征能力,本研究做了兩點(diǎn)改進(jìn).其一是將自頂向下過程中特征圖的通道數(shù)加寬一倍,由256調(diào)整為512;其二是將橫向連接過程中的1×1卷積調(diào)整為3×3卷積.
本研究將改進(jìn)FPN網(wǎng)絡(luò)分別用在Faster R-CNN的RPN階段來生成提議框和Fast R-CNN階段來檢測(cè)目標(biāo),整體框架如圖5所示.針對(duì)RPN,結(jié)合FPN的Faster R-CNN使用FPN代替單尺度頂層特征圖來改進(jìn)RPN.與Faster R-CNN相同,它使用一個(gè)相同的頭部網(wǎng)絡(luò)(由3×3卷積和兩個(gè)1×1卷積支路組成)附加到特征金字塔的每一層.這樣本研究就可以得到多尺度特征所對(duì)應(yīng)的特征區(qū)域.
此外,傳統(tǒng)Faster R-CNN使用ROI池化層將不同尺度的特征區(qū)域轉(zhuǎn)換為相同尺度的特征向量,以進(jìn)行分類預(yù)測(cè)和邊界框回歸.但是,ROI池化層中的取整操作會(huì)加大特征圖的轉(zhuǎn)化偏差.本文使用ROI Align替換ROI池化來減輕其導(dǎo)致的誤差.ROI Align是一種區(qū)域特征聚集算法,其使用雙線性插值算法來確定候選框坐標(biāo),而不是簡(jiǎn)單的取整操作,從而有效提升檢測(cè)模型的檢測(cè)性能.
2.3二值化的目標(biāo)檢測(cè)網(wǎng)絡(luò)
本研究將結(jié)合改進(jìn)FPN網(wǎng)絡(luò)的Faster R-CNN作為最終的目標(biāo)檢測(cè)模型.根據(jù)前文描述,本研究將其二值化過程分為3個(gè)部分,分別是更寬的ResNet18主干神經(jīng)網(wǎng)絡(luò)量化、改進(jìn)FPN網(wǎng)絡(luò)量化和RPN網(wǎng)絡(luò)量化.
更寬的ResNet18網(wǎng)絡(luò)主要由通道數(shù)加寬的全精度殘差網(wǎng)絡(luò)單元組成,如圖3(b)所示.本研究將其進(jìn)行二值化,如圖3(c)所示.對(duì)于網(wǎng)絡(luò)殘差層,輸入為32比特全精度x,隨后按照公式(5)對(duì)x和32比特全精度的卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重wr進(jìn)行1比特量化得到1比特激活ab和1比特權(quán)重wb.
對(duì)于改進(jìn)FPN網(wǎng)絡(luò)的量化,同樣可分為自底向上和自頂向下與橫向連接兩條路徑.自底向上的過程也就是主干網(wǎng)絡(luò)的量化過程,詳見2.3節(jié).自頂向下的過程中,本研究對(duì)來自更高層的二值化特征進(jìn)行上采樣.同時(shí),本研究將橫向連接過程中用到的32比特全精度3×3卷積按照公式(5)量化為1比特3×3卷積來調(diào)整本層金字塔特征通道數(shù).之后再將其與來自更高層上采樣后的二值化特征合并,最終得到不同比例大小的特征映射.
RPN網(wǎng)絡(luò)的作用是對(duì)FPN網(wǎng)絡(luò)得到的候選框進(jìn)行初步篩選和坐標(biāo)微調(diào),這里本研究將RPN網(wǎng)絡(luò)用到的32比特全精度3×3卷積和兩路1×1卷積都調(diào)整并量化為1比特3×3卷積.隨后的Reshape操作與Softmax函數(shù)遵循32比特全精度網(wǎng)絡(luò)模型的做法.
Fast R-CNN預(yù)測(cè)分類類別和邊界框坐標(biāo)回歸所用到的全連接層保留全精度模型的權(quán)重和激活.
2.4訓(xùn)練及推理過程
本研究的目標(biāo)監(jiān)測(cè)網(wǎng)絡(luò)在訓(xùn)練時(shí)的前向傳播與梯度反傳過程依舊保持32比特全精度的權(quán)重與激活,并使用連續(xù)優(yōu)化方式即隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)來訓(xùn)練網(wǎng)絡(luò).其中主干卷積神經(jīng)網(wǎng)絡(luò)使用的是在ImageNet大型數(shù)據(jù)集上預(yù)訓(xùn)練好的ResNet18網(wǎng)絡(luò)模型,激活函數(shù)使用的是PRelu非線性函數(shù).損失函數(shù)與32比特全精度模型一致,按照公式(4)計(jì)算.推理過程中,本研究按照2.1及2.2節(jié)所描述流程對(duì)32比特全精度Faster R-CNN+FPN網(wǎng)絡(luò)進(jìn)行二值化,利用該1比特二值化模型進(jìn)行推理.
3實(shí)驗(yàn)與分析
本文在公開數(shù)據(jù)集PASCAL VOC[18]和COCO[19]上進(jìn)行了全面且充足的實(shí)驗(yàn),來驗(yàn)證本文提出的基于二值網(wǎng)絡(luò)的自動(dòng)駕駛目標(biāo)檢測(cè)方法的性能.此外,本研究在自動(dòng)駕駛場(chǎng)景數(shù)據(jù)集KITTI[20]上進(jìn)行了檢測(cè)結(jié)果的可視化,進(jìn)一步驗(yàn)證了本文方法在自動(dòng)駕駛場(chǎng)景的有效性.
3.1數(shù)據(jù)集介紹
PASCAL VOC數(shù)據(jù)集共有20個(gè)類別的目標(biāo),包含行人、自行車、摩托車、公交車、轎車等自動(dòng)駕駛場(chǎng)景下常見的目標(biāo)類型.遵循其他檢測(cè)算法的做法,本研究在PASCAL VOC2007 trainval和PASCAL VOC2012 trainval上訓(xùn)練模型,在VOC test2007進(jìn)行測(cè)試.訓(xùn)練集大概含有16 k張圖片,測(cè)試集含有4 952張圖片.
COCO數(shù)據(jù)集共有80個(gè)種類的目標(biāo),包含行人、自行車、摩托車、轎車、卡車、公交車、交通信號(hào)燈、停車標(biāo)志、停車計(jì)時(shí)器等自動(dòng)駕駛場(chǎng)景下常見的目標(biāo)類型.本研究的訓(xùn)練集由80 k張COCO train2014的圖像與35 k張從COCO val采樣的圖像(即COCO trainval35 k)組成,測(cè)試集為COCO minival里的5 k張圖片.
KITTI數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等真實(shí)的交通場(chǎng)景采集的圖像數(shù)據(jù),是目前國(guó)際上最通用的自動(dòng)駕駛場(chǎng)景算法評(píng)測(cè)數(shù)據(jù)集之一.
3.2實(shí)驗(yàn)結(jié)果
遵循LWS-Det[21]檢測(cè)算法的做法,本研究使用均值平均精度(mean Average Precision,mAP)作為目標(biāo)檢測(cè)性能評(píng)測(cè)指標(biāo),使用參數(shù)量(Parameters)和浮點(diǎn)運(yùn)算次數(shù)FLOPs(Floating Point of Operations)作為基于二值網(wǎng)絡(luò)的檢測(cè)算法內(nèi)存量和計(jì)算量的評(píng)測(cè)指標(biāo).
3.2.1檢測(cè)性能分析
本研究首先在通用數(shù)據(jù)集PASCAL VOC驗(yàn)證本文方法的有效性,并與其他先進(jìn)的基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示,其中所有方法都以Faster-RCNN模型為基礎(chǔ)模型,其主干網(wǎng)絡(luò)均為ResNet-18,W/A(bit)表示權(quán)重和激活函數(shù)的比特位數(shù).結(jié)果表明,與其他先進(jìn)的二值化目標(biāo)檢測(cè)算法相比,本文方法取得了十分顯著的檢測(cè)性能提升,在mAP指標(biāo)上比第二名的LWS-Det方法提升了3.0%.實(shí)驗(yàn)表明了本文方法能夠在減小計(jì)算量和參數(shù)量的同時(shí),取得更好的檢測(cè)性能.即便與全精度目標(biāo)檢測(cè)網(wǎng)絡(luò)相比,本文方法幾乎沒有檢測(cè)性能上的損失,在mAP指標(biāo)上僅降低了0.2%.
本研究還在含有大量自動(dòng)駕駛相關(guān)場(chǎng)景的COCO數(shù)據(jù)集上做了充足的實(shí)驗(yàn)以進(jìn)一步驗(yàn)證本文方法的有效性,并與其他先進(jìn)的基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表3所示,其中所有方法都以ResNet-18為主干網(wǎng)絡(luò).與PASCAL VOC數(shù)據(jù)集上的結(jié)果類似,本文方法取得了優(yōu)于其他先進(jìn)的二值檢測(cè)算法的表現(xiàn),在mAP指標(biāo)上比第二名的LWS-Det方法提升了2.9%,同時(shí)超越了4比特FQN檢測(cè)方法1.7%的mAP.
總的來說,相比于其他先進(jìn)的二值目標(biāo)檢測(cè)算法,本文方法在基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)任務(wù)上取得了最優(yōu)的性能.本文方法還達(dá)到了接近于全精度目標(biāo)檢測(cè)算法的性能,充分證明了本文方法的有效性.
3.2.2參數(shù)量與計(jì)算量分析
參數(shù)量對(duì)比結(jié)果如表4所示,本研究對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)的每個(gè)部分都進(jìn)行了單獨(dú)統(tǒng)計(jì).表4表明了本文方法相比于全精度的目標(biāo)檢測(cè)算法,參數(shù)量節(jié)省了1.89倍.值得注意的是,因?yàn)闄z測(cè)頭部多為全連接部分,而全連接層并沒有進(jìn)行二值化,僅量化了其中的卷積部分,所以該部分參數(shù)量相對(duì)于全精度網(wǎng)絡(luò)并沒有明顯的減少.
類似地,在計(jì)算量方面,本研究同樣分別對(duì)比了網(wǎng)絡(luò)的各個(gè)模塊的計(jì)算量,結(jié)果如表5所示.表5表明了本研究的方法相比于全精度的目標(biāo)檢測(cè)算法,計(jì)算量大大減少,速度提升了6.10倍.值得注意的是,檢測(cè)頭部雖然參數(shù)量降低程度不大,但由于卷積網(wǎng)絡(luò)的參數(shù)共享的特性,其能夠用更少的參數(shù)完成更多的計(jì)算量,所以量化后頭部網(wǎng)絡(luò)的計(jì)算量有了十分明顯的下降.
綜上所述,相比于全精度網(wǎng)絡(luò),本文方法很大程度上降低了檢測(cè)算法的參數(shù)量與計(jì)算量,同時(shí)保證了優(yōu)秀的檢測(cè)性能.
3.2.3自動(dòng)駕駛場(chǎng)景目標(biāo)檢測(cè)可視化
目前,基于COCO數(shù)據(jù)訓(xùn)練的全精度Faster-RCNN模型已能滿足實(shí)際目標(biāo)檢測(cè)需求,而本研究提出的二值化檢測(cè)模型在大大提高模型效率的基礎(chǔ)上,僅有極小的性能損失,因此同樣滿足于自動(dòng)駕駛場(chǎng)景下的目標(biāo)檢測(cè)要求.為了更直白地表明本算法的實(shí)用性,本研究在KITTI測(cè)試集上進(jìn)行測(cè)試并可視化,結(jié)果如圖6所示.從圖6中可以看出,在自動(dòng)駕駛場(chǎng)景中,很多場(chǎng)景包含密集目標(biāo),且存在著大量的小目標(biāo),例如遠(yuǎn)處的車輛、行人和自行車等,這對(duì)目標(biāo)檢測(cè)算法是一個(gè)極大的挑戰(zhàn).
圖6中的檢測(cè)結(jié)果表明,本文方法在自動(dòng)駕駛場(chǎng)景目標(biāo)檢測(cè)中,對(duì)密集場(chǎng)景以及多尺度目標(biāo),都取得了優(yōu)秀的檢測(cè)效果.因此,本文提出的基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法能夠在大大減小現(xiàn)有目標(biāo)檢測(cè)算法參數(shù)量和計(jì)算量的基礎(chǔ)上,同時(shí)保證在自動(dòng)駕駛場(chǎng)景下有著優(yōu)秀的目標(biāo)檢測(cè)性能.
4結(jié)論
為了實(shí)現(xiàn)高效且準(zhǔn)確的自動(dòng)駕駛目標(biāo)檢測(cè),本文提出了一種基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法.具體地,本研究基于現(xiàn)有Faster-RCNN目標(biāo)檢測(cè)框架,二值化改進(jìn)更寬的ResNet18主干網(wǎng)絡(luò),并設(shè)計(jì)了一種二值化的FPN特征金字塔網(wǎng)絡(luò).相比于全精度模型,本文提出的檢測(cè)模型平均參數(shù)量減少1.89倍,平均推理速度提高了6.10倍,并且同時(shí)保持了接近全精度模型的檢測(cè)性能,這對(duì)目標(biāo)檢測(cè)算法在自動(dòng)駕駛場(chǎng)景下的應(yīng)用有著十分重要的意義.此外,通過大量的實(shí)驗(yàn)表明,相比于其他先進(jìn)的基于二值網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法,本文提出的1比特方法取得了最優(yōu)秀的目標(biāo)檢測(cè)性能,甚至優(yōu)于4比特的目標(biāo)檢測(cè)算法.因此,本文方法對(duì)自動(dòng)駕駛目標(biāo)檢測(cè)算法的部署有著極為重要的實(shí)用價(jià)值及研究意義.
參考文獻(xiàn)
[1] Yi J,Wu P,Metaxas D N .ASSD:Attentive single shot multibox detector[J].Computer Vision and Image Understanding,2019,189(1):102 827.
[2] Sun Z,Leng X,Lei Y,et al.BiFA-YOLO:A novel YOLO-based method for arbitrary-oriented ship detection in high-resolution SAR images[J].Remote Sensing,2021,13(21):4 209.
[3] 劉潔瑜,趙彤,劉敏.基于RetinaNet的SAR圖像艦船目標(biāo)檢測(cè)[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,47(2):85-91.
[4] Arora N,Kumar Y,Karkra R,et al.Automatic vehicle detection system in different environment conditions using fast R-CNN[J].Multimedia Tools and Applications,2022,81(13):18 715-18 735.
[5] Rens Q,He K,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1 137-1 149.
[6] Lin T,Dollar P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii:IEEE,2017:2 117-2 125.
[7] 丁瑞敏,田軍委,劉雪松,等.輕量化卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)算法研究[J].西安工業(yè)大學(xué)學(xué)報(bào),2022,42(2):188-194.
[8] 孫文宇,曹健,李普,等.基于全局信息的卷積神經(jīng)網(wǎng)絡(luò)模型剪枝微調(diào)優(yōu)化方法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,57(4):790-794.
[9] Lin S,Ji R,Chen C,et al.Holistic CNN compression via low-rank decomposition with knowledge transfer[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(12):2 889-2 905.
[10] 馮鵬程,禹龍,田生偉,等.基于均方誤差的8位深度神經(jīng)網(wǎng)絡(luò)量化[J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(5):1 258-1 264.
[11] 褚晶輝,史李棟,井佩光,等.適用于目標(biāo)檢測(cè)的上下文感知知識(shí)蒸餾網(wǎng)絡(luò)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2022,56(3):503-509.
[12] 李彥辰,張小俊,張明路,等.基于改進(jìn)Efficientdet的自動(dòng)駕駛場(chǎng)景目標(biāo)檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(6):183-191.
[13] 黃鴻勝.自動(dòng)駕駛場(chǎng)景下的車輛檢測(cè)技術(shù)研究[D].廣州:廣東工業(yè)大學(xué),2018.
[14] 白士磊.基于深度學(xué)習(xí)的交通標(biāo)志檢測(cè)與識(shí)別算法研究[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2020.
[15] Rastegari M,Ordonez V,Redmon J,et al.Xnor-net:Imagenet classification using binary convolutional neural networks[C]//European Conference on Computer Vision.Amsterdam:Springer,2016:525-542.
[16] Lin X,Zhao C,Pan W.Towards accurate binary convolutional neural net work[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:NeurIPS,2017:344-352.
[17] 王海燕,張渺,劉虎林,等.基于改進(jìn)的ResNet網(wǎng)絡(luò)的中餐圖像識(shí)別方法[J].陜西科技大學(xué)學(xué)報(bào),2022,40(1):154-160.
[18] Everingham M,Eslami S M,Van Gool L,et al.The pascal visual object classes challenge:A retrospective[J].International Journal of Computer Vision,2015,111(1):98-136.
[19] Lin T Y,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//European Conference on Computer Vision.Zurich:Springer,2014:740-755.
[20] Wang X,Zhang H.Deep monocular visual odometry for ground vehicle[J].IEEE Access,2020,8:175 220-175 229.
[21] Xu S,Zhao J,Lu J,et al.Layer-wise searching for 1-bit detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Virtual:IEEE,2021:5 682-5 691.
[22] Liu Z,Luo W,Wu B,et al.Bi-real net:Binarizing deep network towards real-network performance[J].International Journal of Computer Vision,2020,128(1):202-219.
[23] Wang Z,Wu Z,Lu J,et al.Bidet:An efficient binarized object detector[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE,2020:2 046-2 055.
[24] Liu Z,Shen Z,Savvides M,et al.ReActNet:Towards precise binary neural network with generalized activation functions[C]//European Conference on Computer Vision.Glasgow:Springer,2020:143-159.
[25] Li R,Wang Y,Liang F,et al.Fully quantized network for object detection[C]//Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:2 810-2 819.
【責(zé)任編輯:陳佳】