基于改進(jìn)YOLOv3 的ETC 車(chē)輛檢測(cè)算法研究*

2022-02-16 08:33:00趙加坤

計(jì)算機(jī)與數(shù)字工程 2022年1期

趙加坤韓睿孫俊金舉

（西安交通大學(xué)軟件學(xué)院西安 710049）

1 引言

隨著高速公路的迅速發(fā)展，ETC 通道車(chē)輛違規(guī)行為卻日漸嚴(yán)重，出現(xiàn)各種各樣的跟車(chē)闖關(guān)、大車(chē)小標(biāo)、偷換標(biāo)簽等情況［1］，這些龐大數(shù)量的違規(guī)車(chē)輛不但造成收費(fèi)站重大的經(jīng)濟(jì)損失，而且也嚴(yán)重阻礙了我國(guó)智慧高速公路的健康發(fā)展。在這種情況下，傳統(tǒng)的車(chē)型管理方法慢慢被社會(huì)所淘汰，需要一種更智能化的、能夠基于車(chē)牌以外的其他車(chē)輛特征來(lái)對(duì)監(jiān)控視頻中的車(chē)輛進(jìn)行自動(dòng)、準(zhǔn)確地識(shí)別技術(shù)［2］。目前已有的車(chē)輛檢測(cè)算法大致可以分為兩類(lèi)：基于車(chē)輛特征信息的傳統(tǒng)檢測(cè)算法和基于深度學(xué)習(xí)的檢測(cè)算法。傳統(tǒng)車(chē)輛實(shí)時(shí)檢測(cè)算法主要是依據(jù)車(chē)輛的邊緣和幾何特征來(lái)識(shí)別汽車(chē)，目前主流的算法主要分為光流法［3］、幀差法［4］、背景差分法［5］等。在實(shí)際的ETC應(yīng)用場(chǎng)景中，車(chē)輛的識(shí)別比較復(fù)雜，傳統(tǒng)車(chē)輛識(shí)別算法存在著很多局限性，例如：光流法很容易受到光源、噪聲等因素的影響而降低檢測(cè)率；幀差法不容易檢測(cè)到運(yùn)動(dòng)速度緩慢的車(chē)輛；背景差分法對(duì)場(chǎng)景變換比較敏感，而在ETC場(chǎng)景中存在天氣、光照等復(fù)雜多變的不同場(chǎng)景，這會(huì)在很大程度上影響檢測(cè)結(jié)果。

針對(duì)傳統(tǒng)檢測(cè)算法存在抗噪能力差，計(jì)算復(fù)雜，準(zhǔn)確率低等缺點(diǎn)。在大量的車(chē)輛檢測(cè)算法中，基于深度學(xué)習(xí)的車(chē)輛檢測(cè)算法引起了學(xué)者極大的關(guān)注并被廣泛使用。目前基于深度學(xué)習(xí)的車(chē)輛檢測(cè)算法主要有R-CNN［6］、Fast R-CNN［7］、SSD［8］、YOLOv3［9］。R-CNN 通過(guò)一些傳統(tǒng)圖像處理方法實(shí)現(xiàn)候選區(qū)域的選取，再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取對(duì)應(yīng)的車(chē)輛特征向量，最后使用SVM［10］對(duì)區(qū)域進(jìn)行分類(lèi)，使用線(xiàn)性回歸損失來(lái)校正邊界框，以實(shí)現(xiàn)車(chē)輛分類(lèi)并得到車(chē)輛的檢測(cè)框。Fast R-CNN 在R-CNN 的基礎(chǔ)上進(jìn)行改進(jìn)，取代R-CNN 原本的串行特征提取方式，直接采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)全圖提取特征，同時(shí)利用金字塔池化層的思想［11］，解決了R-CNN 輸入圖像尺寸固定的問(wèn)題。相對(duì)傳統(tǒng)的目標(biāo)檢測(cè)算法，R-CNN 和Fast R-CNN 在車(chē)輛特征提取方面有了較大的提升，但是依舊存在計(jì)算量大，沒(méi)有實(shí)現(xiàn)端到端的訓(xùn)練與測(cè)試等問(wèn)題，無(wú)法滿(mǎn)足在ETC 場(chǎng)景下車(chē)輛實(shí)時(shí)檢測(cè)的需求。SSD 基于VGG16［12］網(wǎng)絡(luò)融合不同卷積層的特征圖來(lái)增強(qiáng)系統(tǒng)的特征表征能力，在保證實(shí)時(shí)的同時(shí)，大幅度提升檢測(cè)精度，但是SSD融合多個(gè)卷積特征時(shí)沒(méi)有考慮卷積層之間的相互關(guān)系，從而導(dǎo)致檢測(cè)精度并不是很高［13］。相比于SSD 和Fast R-CNN，YOLOv3 算法借鑒了殘差神經(jīng)網(wǎng)絡(luò)［14］的思想，并實(shí)現(xiàn)了多尺度預(yù)測(cè)，在保證實(shí)時(shí)檢測(cè)的同時(shí)獲得了目前最好的檢測(cè)精度。

為了提高算法在車(chē)輛檢測(cè)方面的適用性和準(zhǔn)確性，我們采用GIOU［15］來(lái)替換邊框回歸損失函數(shù)的思想對(duì)YOLOv3 進(jìn)行改進(jìn)，同時(shí)分析數(shù)據(jù)集中目標(biāo)的分布情況修正anchor box，使得anchor box更加符合目標(biāo)尺寸，增強(qiáng)收斂效果。通過(guò)ETC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果，可以發(fā)現(xiàn)改進(jìn)的YOLOv3 在達(dá)到實(shí)時(shí)性要求的同時(shí)依然能夠保持著較高的準(zhǔn)確度。

2 YOLOv3算法模型

2.1 YOLOv3介紹

YOLOv3 借鑒了殘差網(wǎng)絡(luò)的思想，提出了全新的特征提取網(wǎng)絡(luò)Darknet53，作為骨干網(wǎng)絡(luò)提取車(chē)輛的特征。Darknet53 主要有卷積層和殘差層組成。殘差層如圖1 所示，其中帶加號(hào)的標(biāo)志是一個(gè)相加的操作，公式表示為

圖1 殘差網(wǎng)絡(luò)塊

其中xt和xt+1是第t 個(gè)殘差層的輸入與輸出向量，F(xiàn)t(xt)是xt經(jīng)過(guò)兩次卷積操作后得到的結(jié)果，兩次卷積操作的卷積核尺寸分別為1×1和3×3，步長(zhǎng)均為1。Darknet53 在每層卷積后都添加了批量歸一化層和線(xiàn)性單元的激活函數(shù)，這樣組成的殘差網(wǎng)絡(luò)易于特征提取且更易于收斂。

通過(guò)特征提取網(wǎng)絡(luò)Darknet53的特征提取，YOLO 卷積層會(huì)得到大小為52×52、26×26、13×13 的特征圖，但是在特征圖預(yù)測(cè)結(jié)果之前，卷積層會(huì)將提取到的特征進(jìn)行特征融合，將淺層的低語(yǔ)義高分辨率特征與深層的高語(yǔ)義特征進(jìn)行結(jié)合，采用上采樣和融合的做法，融合了三個(gè)尺度（13*13、26*26 和52*52），在多個(gè)尺度的融合特征圖上分別獨(dú)立檢測(cè)，最終使得高分辨的車(chē)輛特征也包含了豐富的語(yǔ)義信息。對(duì)于輸出預(yù)測(cè)的三個(gè)特征圖，特征圖上每個(gè)像素點(diǎn)格子預(yù)測(cè)三個(gè)框，每個(gè)框都預(yù)測(cè)中心點(diǎn)坐標(biāo)x、y，高寬h、w，存在物體的置信度p 和k 個(gè)類(lèi)別的得分值。最終通過(guò)非極大抑制算法篩選出的預(yù)測(cè)框作為車(chē)輛的最終檢測(cè)框。

原始的YOLOv1 中，網(wǎng)絡(luò)會(huì)直接預(yù)測(cè)檢測(cè)目標(biāo)的中心點(diǎn)坐標(biāo)x，y 和檢測(cè)框的寬高w，h，但是預(yù)測(cè)結(jié)果的微小變換會(huì)導(dǎo)致檢測(cè)框的波動(dòng)較大，預(yù)測(cè)結(jié)果不準(zhǔn)確。YOLOv2 對(duì)預(yù)測(cè)值進(jìn)行了改進(jìn)，其公式為

其中tx、ty、tw、th均為網(wǎng)絡(luò)預(yù)測(cè)值；cx、cy為當(dāng)前cell距離左上角的偏移量；pw，ph代表與真實(shí)框重合度最大的anchor box 的寬高；σ函數(shù)是sigmoid 函數(shù)，其目的是將預(yù)測(cè)偏移量縮放到0～1之間。

2.2 對(duì)YOLOv3損失函數(shù)的改進(jìn)

損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)用來(lái)評(píng)估模型的預(yù)測(cè)值與真實(shí)值之間的差異程度，可以在很大程度上影響模型收斂的效果。在YOLOv3 中，原始的損失函數(shù)Loss為［16］

主要的損失函數(shù)分為三大部分，坐標(biāo)損失，置信度損失及分類(lèi)損失，λobj在預(yù)測(cè)框檢測(cè)到目標(biāo)車(chē)輛時(shí)為1，其他時(shí)候?yàn)?。

YOLOv3 的損失函數(shù)采用誤差平方和的計(jì)算方式，整合了預(yù)測(cè)框定位誤差、有無(wú)目標(biāo)的IOU 誤差以及分類(lèi)誤差，其中預(yù)測(cè)框定位誤差的計(jì)算采用的都是邊框回歸損失的計(jì)算方式，這些計(jì)算損失值的方式都是檢測(cè)框的“代理屬性”——距離，而忽略了檢測(cè)框本身最顯著的性質(zhì)——IOU。

如圖2所示，在L1及L2范數(shù)取到相同的值時(shí)，實(shí)際上檢測(cè)效果卻是差異巨大的，直接表現(xiàn)就是預(yù)測(cè)和真實(shí)檢測(cè)框的IOU 值變化較大，這說(shuō)明L1 和L2 范數(shù)不能很好的反映檢測(cè)效果。但是直接用IOU 作為損失函數(shù)來(lái)反映預(yù)測(cè)檢測(cè)框與真實(shí)檢測(cè)框的檢測(cè)效果，我們會(huì)發(fā)現(xiàn)檢測(cè)框與真實(shí)框之間沒(méi)有重合時(shí)，IOU為0。而在優(yōu)化損失函數(shù)時(shí)，梯度為0，意味著無(wú)法優(yōu)化，且在檢測(cè)框與真實(shí)框之間IOU相同時(shí)，檢測(cè)的效果也具有較大差異，如圖2所示。

圖2 同一L2范數(shù)的不同IOU，GIOU對(duì)比圖

基于IOU 的優(yōu)良特性和其作為損失函數(shù)時(shí)的缺點(diǎn)，我們引入GIOU的概念：

假如現(xiàn)在有兩個(gè)任意性質(zhì)A，B，我們找到一個(gè)最小的封閉形狀C，讓C 可以把A，B 包含在內(nèi)；計(jì)算C 中沒(méi)有覆蓋A 和B 的面積占C 總面積的比值；用A 與B 的IOU 減去這個(gè)比值；相比于IOU 會(huì)出現(xiàn)梯度為0 的問(wèn)題，GIOU 引入了包含A，B 兩個(gè)形狀的C，所以當(dāng)A，B 不重合時(shí)，依然可以進(jìn)行優(yōu)化，且以GIOU 為邊框回歸的損失函數(shù)，可以直接反映模型的檢測(cè)效果。

1）計(jì)算BP的面積公式如下：

2）計(jì)算Bg的面積公式如下：

3）計(jì)算BP，Bg的重疊面積公式如下：

4）計(jì)算可以包含BP，Bg的最小邊框Bc公式如下：

5）計(jì)算Bc的面積公式如下：

6）計(jì)算IOU的公式如下：

7）計(jì)算GIOU的公式如下：

8）計(jì)算改進(jìn)的YOLOv3 邊界框損失函數(shù)公式如下：

2.3 基于ETC場(chǎng)景數(shù)據(jù)集的anchors改進(jìn)

YOLOv3 采用維度聚類(lèi)的方法得到一般化的anchor box。即采用K-means［17］的方法在VOC 2007和COCO 數(shù)據(jù)集上得到9 個(gè)anchor box。每個(gè)尺度預(yù)測(cè)三個(gè)檢測(cè)框，與YOLOv2 相比，YOLOv3 采用了多個(gè)不同的尺度的特征圖，每一張?zhí)卣鲌D上均采用三個(gè)候選框。如圖3所示。

圖3 原始anchors尺寸圖

現(xiàn)有的YOLOv3采用的是COCO數(shù)據(jù)集上得到的9 種聚類(lèi)結(jié)果：（10，13），（16，30），（33，23），（30，61），（62，45），（59，119），（116，90），（156，198），（373，326）。

根據(jù)高速公路車(chē)型的固有特點(diǎn)，本文確定目標(biāo)先驗(yàn)框數(shù)量和對(duì)應(yīng)寬高值；其次根據(jù)聚類(lèi)結(jié)果優(yōu)化網(wǎng)絡(luò)anchor 參數(shù)，我們對(duì)anchors 的大小進(jìn)行了改進(jìn)?；贓TC 場(chǎng)景下的數(shù)據(jù)集，我們重新計(jì) 算了anchors 的聚類(lèi) 結(jié) 果：（162.66666667，96.53333333），（114，219.2），（84.6，86.4），（74.3，123.7），（133.6，304.），（87.6，170.6），（104.，123.7），（204.3，371.7），（57，62.9），為邊界框的預(yù)測(cè)提供更優(yōu)化的初始值，使訓(xùn)練網(wǎng)絡(luò)在車(chē)輛檢測(cè)和識(shí)別方面具有一定的針對(duì)性。

3 實(shí)驗(yàn)結(jié)果與討論

3.1 數(shù)據(jù)集

首先按照高速公路收費(fèi)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集類(lèi)別進(jìn)行劃分：7 座以及7 座以下轎車(chē)為car1，8 座到19 座客車(chē)為car2，20 座到39 座客車(chē)為car3，40 座以及40座以上為car4，卡車(chē)為其他類(lèi)別。其次由于訓(xùn)練模型需要大量的訓(xùn)練樣本，在數(shù)據(jù)集的收集過(guò)程中，通過(guò)ETC 收費(fèi)站的攝像頭視角收集到了可供定位和識(shí)別訓(xùn)練車(chē)輛圖片訓(xùn)練集數(shù)據(jù)共有規(guī)整圖片7984 張，車(chē)輛21204 輛。其中car1 類(lèi)客車(chē)15030輛，car2 類(lèi)客車(chē)1500 輛，car3 類(lèi)客車(chē)160 輛，car4 類(lèi)客車(chē)800 輛，卡車(chē)共3714 輛，涵蓋各種主要的場(chǎng)景（例如：夜晚，白天）車(chē)型條件（普通客車(chē)，大面包車(chē)，依維柯全順，柯斯達(dá)，大型客車(chē)等），車(chē)輛品牌（東風(fēng)，大眾，豐田，本田，寶馬，奔馳等），車(chē)身的遠(yuǎn)近視角，車(chē)身的平視視角和俯視視角，車(chē)身的傾斜程度等。

在實(shí)際的ETC 場(chǎng)景下，小型巴士（即20座到39座客車(chē)）的數(shù)據(jù)樣本較少，通過(guò)對(duì)小型巴士的樣本進(jìn)行隨機(jī)的旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪、隨機(jī)設(shè)置圖片的亮度和對(duì)比度以及對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化（數(shù)據(jù)的均值為0，方差為1）［18］，如圖4 所示。通過(guò)這些操作，可以獲得更多的圖片樣本，原來(lái)的一張圖片可以變?yōu)槎鄰垐D片，擴(kuò)大了樣本容量，對(duì)于提高模型的準(zhǔn)確率和提升模型的泛化能力非常有幫助。

圖4 原始數(shù)據(jù)和增強(qiáng)之后的樣本數(shù)據(jù)

3.2 實(shí)驗(yàn)平臺(tái)

實(shí)驗(yàn)主要在PC 端完成的。PC 主要配置為i5處理器，GPU（GTX-1080ti）和16G 內(nèi)存。SSD 和YOLOv3 使用了Pytorch 框架，使用的編程語(yǔ)言為Python。

3.3 實(shí)驗(yàn)結(jié)果及有效性分析

本文使用改進(jìn)的YOLOv3可以得到如圖5所示的檢測(cè)結(jié)果。

圖5 檢測(cè)效果

我們使用均值平均精度（mAP）與傳輸速率兩項(xiàng)指標(biāo)作為評(píng)估標(biāo)注，結(jié)果如表1所示。

表1 實(shí)驗(yàn)結(jié)果對(duì)比

表1 顯示了目前主流的目標(biāo)檢測(cè)算法SSD、YOLOv3、YOLOv2、Fast R-CNN、R-CNN 與本文提出的改進(jìn)的YOLOv3 方法的實(shí)驗(yàn)結(jié)果。這些方法均使用本文收集的ETC 場(chǎng)景數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。從表中可以看出，改進(jìn)的YOLOv3 獲得了90.2%的mAP，在精度方面優(yōu)于所有其他方法，并且以34f/s 的速度實(shí)現(xiàn)了ETC 場(chǎng)景下實(shí)時(shí)檢測(cè)。相比于基于回歸思想的SSD 與YOLO 系列，基于區(qū)域的目標(biāo)檢測(cè)算法的實(shí)時(shí)性太低，無(wú)法達(dá)到實(shí)時(shí)檢測(cè)的要求。YOLOv2 的檢測(cè)速度較快，但對(duì)于一些復(fù)雜場(chǎng)景車(chē)輛的特征提取較少，導(dǎo)致檢測(cè)精度有所欠缺。

1）為了驗(yàn)證改進(jìn)的YOLOv3相比于SSD在ETC場(chǎng)景下的車(chē)輛檢測(cè)更具有優(yōu)勢(shì)，我們收集了五個(gè)車(chē)輛類(lèi)別的mAP 數(shù)據(jù)，如圖6 所示，我們將改進(jìn)的YOLOv3定義為G-YOLOv3。

圖6 各類(lèi)別車(chē)輛mAP對(duì)比結(jié)果

從圖6中可以看出改進(jìn)的YOLOv3算法與目前主流的車(chē)輛識(shí)別算法SSD 相比，改進(jìn)的YOLOv3 算法對(duì)各種類(lèi)別的車(chē)輛，有著更高的mAP。

通過(guò)對(duì)檢測(cè)結(jié)果的分析，我們發(fā)現(xiàn)對(duì)于近處的車(chē)輛，SSD 基本上可以滿(mǎn)足檢測(cè)的要求，但是對(duì)于遠(yuǎn)處的車(chē)輛略顯不足。相比于SSD，改進(jìn)的YOLOv3 通過(guò)借鑒特征金字塔的思想，采用多尺度對(duì)不同尺寸大小的車(chē)輛進(jìn)行檢測(cè)，可以達(dá)到很好的檢測(cè)效果。

2）為了驗(yàn)證GIOU相比于原有的回歸損失在收斂速度方面所獲得的優(yōu)勢(shì)，采取每個(gè)epochs保存一次模型的方式，收集了100 個(gè)epochs 的不同損失函數(shù)的數(shù)據(jù)，如圖7、8所示。

圖7 原始YOLOv3在驗(yàn)證集上的收斂效果圖

與原始的YOLOv3 相比，改進(jìn)的YOLOv3 的邊界回歸損失函數(shù)、有無(wú)目標(biāo)的IOU損失函數(shù)的收斂速度更快，收斂的曲線(xiàn)也更加平緩。相對(duì)于原始YOLOv3而言，改進(jìn)的YOLOv3用GIOU 作為邊界回歸的損失函數(shù)，生成的檢測(cè)框可以更好地適應(yīng)不同角度的車(chē)輛，在ETC復(fù)雜多變場(chǎng)景下的車(chē)輛識(shí)別也有著更好的檢測(cè)效果。

圖8 改進(jìn)的YOLOv3在驗(yàn)證集上的收斂效果圖

4 結(jié)語(yǔ)

目前針對(duì)ETC場(chǎng)景下復(fù)雜多變的車(chē)輛視角，本文采用改進(jìn)的YOLOv3 實(shí)現(xiàn)車(chē)輛檢測(cè)，取得了較高的檢測(cè)準(zhǔn)確率與實(shí)時(shí)的檢測(cè)速度，基本上達(dá)到了ETC 場(chǎng)景對(duì)車(chē)輛檢測(cè)的要求。對(duì)于擁堵場(chǎng)景導(dǎo)致的車(chē)輛遮擋問(wèn)題以及夜晚?xiàng)l件下光照不足導(dǎo)致的車(chē)輛識(shí)別問(wèn)題，會(huì)在后續(xù)的工作中繼續(xù)研究與改進(jìn)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看