摘要:針對(duì)高速公路行車速度快的特點(diǎn),文章分析了YOLOv3算法的優(yōu)勢(shì),并利用YOLOv3算法對(duì)目標(biāo)車輛跟蹤的兩個(gè)步驟進(jìn)行改進(jìn):在車輛檢測(cè)階段利用YOLOv3算法模型及Resnet-18算法模型構(gòu)建雙線性分類模型,提高目標(biāo)車輛檢測(cè)準(zhǔn)確性及檢測(cè)速度;在車輛跟蹤階段則引入深度分類的方法,能有效減少目標(biāo)車輛標(biāo)識(shí)跳變的問題,改善目標(biāo)車輛跟蹤效果。通過實(shí)驗(yàn)表明,所提出的基于YOLOv3的高速公路多目標(biāo)車輛跟蹤算法具有較高的識(shí)別速度及跟蹤準(zhǔn)確性。
關(guān)鍵詞:YOLOv3;車輛檢測(cè);車輛跟蹤;深度分類
0 引言
根據(jù)交通部數(shù)據(jù)顯示,截至2018年年底,全國(guó)高速公路交通視頻監(jiān)控設(shè)施(含路段互通、收費(fèi)站、橋隧、服務(wù)區(qū))總規(guī)模達(dá)到21.4萬套,平均布設(shè)密度達(dá)4 km/套,如何合理挖掘豐富的高速公路視頻監(jiān)控?cái)?shù)據(jù)資源成為急需解決的問題。利用多目標(biāo)車輛跟蹤技術(shù)能夠?qū)崿F(xiàn)對(duì)高速公路上行駛的車輛自動(dòng)檢測(cè)并對(duì)車輛進(jìn)行跟蹤,從而將高速公路監(jiān)控?cái)?shù)據(jù)變?yōu)橛杏眯畔?,是近年來重點(diǎn)研究的方向之一。
多目標(biāo)車輛跟蹤一般分為兩步:第一步是進(jìn)行車輛檢測(cè),即識(shí)別出視頻初始幀中所有的車輛;第二步是進(jìn)行目標(biāo)車輛跟蹤,即在之后的視頻幀中對(duì)識(shí)別出來的目標(biāo)車輛進(jìn)行跟蹤。由于高速公路車輛行駛速度較快,導(dǎo)致傳統(tǒng)的多目標(biāo)車輛跟蹤算法識(shí)別效果不理想,會(huì)產(chǎn)生誤檢、漏檢、目標(biāo)丟失等問題。因此,本文基于YOLOv3算法從目標(biāo)車輛跟蹤的兩個(gè)步驟進(jìn)行改進(jìn),有效提升算法識(shí)別速度和跟蹤效果。
1 YOLOv3算法介紹
目前,目標(biāo)檢測(cè)算法按照實(shí)現(xiàn)步驟分為兩類。第一類算法是將目標(biāo)識(shí)別和目標(biāo)定位分為兩個(gè)步驟分別完成,典型代表是R-CNN、fastR-CNN、faster-RCNN等。這類算法是通過提取候選區(qū)域,并對(duì)相應(yīng)區(qū)域進(jìn)行深度學(xué)習(xí)的方法[1]。第二類算法是將目標(biāo)識(shí)別和目標(biāo)定位在一個(gè)步驟中完成,典型代表是YOLO、SSD、YOLOv2、YOLOv3等。這類算法使用了回歸的思想,將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)換成一個(gè)回歸問題,實(shí)現(xiàn)端到端的識(shí)別[2]。第一類算法是目前主流的目標(biāo)檢測(cè)算法,但是這類算法存在一個(gè)很明顯的問題——檢測(cè)速度很慢,不能滿足實(shí)時(shí)的目標(biāo)檢測(cè)需求。高速公路行車速度快,視頻監(jiān)控場(chǎng)景中對(duì)實(shí)時(shí)檢測(cè)要求高,因此本項(xiàng)目選擇第二類端到端識(shí)別算法中的YOLOv3算法來進(jìn)行車輛檢測(cè)[3]。
YOLOv3算法的核心思想是首先將輸入視頻的某一幀進(jìn)行N*N(本項(xiàng)目是13*13)的柵格化得到N*N個(gè)網(wǎng)格單元,最終將該幀圖片中車輛位置的預(yù)測(cè)任務(wù)交給車輛中心位置所在網(wǎng)格單元的回歸邊框來完成。上述過程可以認(rèn)為是一種很粗糙的區(qū)域推薦,通過網(wǎng)格單元的方式告訴模型,視頻某一幀中目標(biāo)車輛是由該目標(biāo)車輛中心落在網(wǎng)格單元的某些范圍內(nèi)的某些像素組成。模型接收到這些信息后就在中心網(wǎng)格單元周圍以一定范圍去尋找所有滿足目標(biāo)車輛特征的像素,最終完成車輛檢測(cè)。
從縱向的角度考慮,由于基于區(qū)域的目標(biāo)檢測(cè)方法在候選區(qū)域提取階段計(jì)算相對(duì)復(fù)雜,想要實(shí)現(xiàn)實(shí)時(shí)檢測(cè)仍面臨巨大挑戰(zhàn)。從橫向的角度考慮,YOLOv3借鑒了殘差網(wǎng)絡(luò)結(jié)構(gòu)形成更深的網(wǎng)絡(luò)層次,并實(shí)現(xiàn)多尺度檢測(cè),相比YOLO、YOLOv2提升了識(shí)別精準(zhǔn)度及小物體檢測(cè)效果??偟膩碚f,YOLOv3在不損失太多精度的同時(shí),速度有了極大的提升,適合在高速公路的視頻監(jiān)控場(chǎng)景中做目標(biāo)檢測(cè)。
2 車輛檢測(cè)
經(jīng)過上述YOLOv3算法,我們已經(jīng)完成了目標(biāo)的粗粒度分類,即把不同種類的目標(biāo)進(jìn)行區(qū)分,比如可以區(qū)分有著顯著差異的摩托車與汽車。但是如果我們想?yún)^(qū)分貨車還是轎車等車輛類型,YOLOv3算法則容易出現(xiàn)誤檢的問題,由此引出了細(xì)粒度分類。細(xì)粒度分類是把同一類物體繼續(xù)細(xì)分成確切子類,由于不同子類之間的視覺差異很小,往往只能借助微小的局部差異才能分出不同的子類,使得細(xì)粒度分類十分具有挑戰(zhàn)性[4]。
第一步車輛檢測(cè)是第二步車輛跟蹤的前提,因此本文在車輛檢測(cè)時(shí)提出構(gòu)建基于弱監(jiān)督的分類模型——雙線性分類模型進(jìn)行細(xì)粒度分類,即用上述YOLOv3算法模型及Resnet-18算法模型這兩個(gè)并列的模型進(jìn)行局部建模(如圖1所示)。兩個(gè)算法模型相互協(xié)調(diào)作用,提高車輛檢測(cè)準(zhǔn)確性,為下一步車輛跟蹤提供有力支撐。
雙線性分類模型的優(yōu)勢(shì)主要在于它可以根據(jù)類抽象遞減的順序多個(gè)輸出層預(yù)測(cè)分類結(jié)構(gòu),簡(jiǎn)化了梯度計(jì)算。同時(shí),雙線性分類模型采用新型訓(xùn)練策略——分支訓(xùn)練策略,即使用粗級(jí)標(biāo)簽先學(xué)習(xí)低級(jí)特征激活卷積神經(jīng)網(wǎng)絡(luò)的淺層,平衡了先驗(yàn)的嚴(yán)格性和調(diào)整輸出層參數(shù)的自由度,以最大限度減少損失。另外,雙線性分類模型與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型一樣簡(jiǎn)單,僅使用了現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)的組件作為構(gòu)建塊,訓(xùn)練策略與修改學(xué)習(xí)速率一樣容易。
3 多目標(biāo)車輛跟蹤
完成第一步車輛檢測(cè)后,我們需要在之后的視頻幀中對(duì)識(shí)別出來的目標(biāo)車輛進(jìn)行跟蹤。為了達(dá)到高速公路車輛監(jiān)控的實(shí)時(shí)性要求,同時(shí)兼顧跟蹤的準(zhǔn)確性,本項(xiàng)目基于YOLOv3算法引入深度分類的方法來進(jìn)行多目標(biāo)車輛跟蹤。
具體的跟蹤流程為:首先將YOLOv3算法檢測(cè)到的結(jié)果作為對(duì)象輸入,然后判斷上一次檢測(cè)到的每一個(gè)目標(biāo)車輛與當(dāng)前檢測(cè)到的目標(biāo)車輛是否匹配。如果匹配則認(rèn)為目標(biāo)車輛跟蹤成功;如果長(zhǎng)時(shí)間沒有匹配,則認(rèn)為該目標(biāo)車輛跟蹤過程結(jié)束。
是否匹配的判斷使用深度分類的方法,即使用運(yùn)動(dòng)信息匹配與表觀特征匹配結(jié)合的方法來進(jìn)行匹配判斷,其由以下三個(gè)步驟來完成:第一步是運(yùn)動(dòng)信息匹配,即使用基于常量速度模型和線性觀測(cè)模型的標(biāo)準(zhǔn)卡爾曼濾波器對(duì)目標(biāo)車輛的運(yùn)動(dòng)狀態(tài)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與當(dāng)前檢測(cè)結(jié)果之間的馬氏距離d(1)(i,j)表示匹配度度量:
d(1)(i,j)=(dj-yi)TSi-1(dj-yi) (5)
其中,dj——當(dāng)前檢測(cè)到目標(biāo)車輛的狀態(tài)(u,v,r,h);
yi——卡爾曼濾波器對(duì)目標(biāo)車輛的預(yù)測(cè)狀態(tài)(u,v,r,h);
Si——當(dāng)前檢測(cè)到目標(biāo)車輛的位置與卡爾曼濾波器預(yù)測(cè)的目標(biāo)車輛位置之間協(xié)方差矩陣。
單獨(dú)使用馬氏距離為匹配度度量會(huì)導(dǎo)致標(biāo)識(shí)跳變情形嚴(yán)重,特別是當(dāng)視頻畫面存在抖動(dòng)時(shí)可能會(huì)導(dǎo)致馬氏距離度量失效。因此,第二步引入了表觀特征匹配:利用深度網(wǎng)絡(luò)提取每一個(gè)目標(biāo)車輛最近成功匹配的k幀中的每一幀的特征向量,并組成特征向量集r(i)k。本項(xiàng)目中k取100,則用當(dāng)前檢測(cè)結(jié)果的特征向量與特征向量集r(i)k間的最小余弦距離d(2)(i,j)表示匹配度度量:
d(2)(i,j)=min{1-rjTr(i)k|r(i)k∈Ri}(6)
最后一步是將運(yùn)動(dòng)信息匹配與表觀特征匹配結(jié)合的匹配度度量進(jìn)行線性加權(quán)得到的ci,j作為最終的匹配度度量:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (7)
其中λ是超參數(shù),用于調(diào)整不同項(xiàng)的權(quán)重,本項(xiàng)目中λ取0.1。若ci,j小于特定閾值時(shí),則表示匹配成功??紤]到運(yùn)動(dòng)的連續(xù)性,本項(xiàng)目使用卡方分布的0.95分位點(diǎn)作為閾值t,則匹配的最終公式為bi,j[7]:
bi,j=∏[JB([]ci,j≤t[JB)]] (8)
在實(shí)時(shí)目標(biāo)追蹤過程中,深度分類的方法采用運(yùn)動(dòng)信息匹配與表觀特征匹配結(jié)合的方法,從而減少了45%的標(biāo)號(hào)交換的數(shù)量,避免產(chǎn)生目標(biāo)標(biāo)識(shí)跳變的問題,可以提高有遮擋情況下的目標(biāo)追蹤效果。而且,深度分類的方法將大部分計(jì)算復(fù)雜性放入離線的預(yù)訓(xùn)練階段,解決了在高幀率下的整體競(jìng)爭(zhēng)性能不影響整個(gè)監(jiān)控過程的實(shí)時(shí)性問題。
4 算法實(shí)驗(yàn)
本項(xiàng)目以G80廣昆高速公路南壇段的高速公路監(jiān)控錄像作為算法數(shù)據(jù)集,對(duì)算法進(jìn)行訓(xùn)練,并以該路段實(shí)時(shí)監(jiān)控視頻作為實(shí)驗(yàn)對(duì)象進(jìn)行400次實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為英偉達(dá)1080Ti GPU,評(píng)價(jià)標(biāo)準(zhǔn)為多目標(biāo)跟蹤(MOT)性能評(píng)價(jià)指標(biāo),具體實(shí)驗(yàn)結(jié)果如表1所示。從實(shí)驗(yàn)結(jié)果來看,本項(xiàng)目提出的基于深度學(xué)習(xí)的高速公路目標(biāo)車輛識(shí)別及跟蹤算法具有較高的識(shí)別速度及準(zhǔn)確性。
5 結(jié)語
本文從目標(biāo)車輛跟蹤的兩個(gè)步驟進(jìn)行算法改進(jìn):在車輛檢測(cè)階段利用YOLOv3算法模型及Resnet-18算法模型構(gòu)建基于弱監(jiān)督的雙線性分類模型實(shí)現(xiàn)目標(biāo)車輛檢測(cè),該方法在簡(jiǎn)化了梯度計(jì)算的同時(shí)也獲得了較高的準(zhǔn)確率;在車輛跟蹤階段則利用YOLOv3算法模型及深度分類的方法,有效減少目標(biāo)車輛標(biāo)識(shí)跳變的問題,改善目標(biāo)車輛跟蹤效果。通過實(shí)驗(yàn)表明,本文提出的基于YOLOv3的高速公路多目標(biāo)車輛跟蹤算法在高速公路車輛行駛速度較快的情況下,仍能實(shí)現(xiàn)實(shí)時(shí)識(shí)別并具有較高的識(shí)別速度及跟蹤效果。目前,本項(xiàng)目用于算法模型訓(xùn)練的樣本資源有限,下一步計(jì)劃擴(kuò)充樣本庫,進(jìn)一步訓(xùn)練本文算法。
參考文獻(xiàn):
[1]韓 凱,張紅英,王 遠(yuǎn),等.一種基于Faster R-CNN的車輛檢測(cè)算法[J].西南科技大學(xué)學(xué)報(bào),2017,32(4):65-70,94.
[2]阮 航.基于卷積神經(jīng)網(wǎng)絡(luò)的車輛識(shí)別[D].南京:南京航空航天大學(xué),2018.
[3]周曉彥,王 珂,李凌燕.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述[J].電子測(cè)量技術(shù),2017,40(11):89-93.
[4]吳 凡.基于深度學(xué)習(xí)的車型細(xì)粒度識(shí)別研究[D].廈門:廈門大學(xué),2017.
[5]楊 興.基于B-CNN模型的細(xì)粒度分類算法研究[D].北京:中國(guó)地質(zhì)大學(xué),2017.
[6]Lin,TsungYu,RoyChowdhury,et al.Bilinear CNN Models for Finegrained Visual Recognition[EB/OL].https://arxiv.org/abs/1504.07889,2015-04-29.
[7]Nicolai Wojke,Alex Bewley,Dietrich Paulus,Simple Online And Realtime Traltime With a Deep Association Metric[EB/OL].https://arxiv.org/abs/1703.07402,2017-03-21.
作者簡(jiǎn)介:覃蔣圣(1990—),助理工程師,研究方向:交通信息化。