衛(wèi)星 樂越 韓江洪 陸陽
摘 要:高級輔助駕駛裝置采用機(jī)器視覺技術(shù)實(shí)時(shí)處理攝錄的行車前方車輛視頻,動態(tài)識別并預(yù)估其姿態(tài)和行為。針對該類識別算法精度低、延遲大的問題,提出一種基于長短期記憶(LSTM)的車輛行為動態(tài)識別深度學(xué)習(xí)算法。首先,提取車輛行為視頻中的關(guān)鍵幀;其次,引入雙卷積網(wǎng)絡(luò)并行對關(guān)鍵幀的特征信息進(jìn)行分析,再利用LSTM網(wǎng)絡(luò)對提取出的特性信息進(jìn)行序列建模;最后,通過輸出的預(yù)測得分判斷出車輛行為類別。實(shí)驗(yàn)結(jié)果表明,所提算法識別準(zhǔn)確率可達(dá)95.6%,對于單個(gè)視頻的識別時(shí)間只要1.72s;基于自建數(shù)據(jù)集,改進(jìn)的雙卷積算法相比普通卷積網(wǎng)絡(luò)在準(zhǔn)確率上提高8.02%,與傳統(tǒng)車輛行為識別算法相比準(zhǔn)確率提高6.36%。
其中改進(jìn)的雙卷積網(wǎng)絡(luò)算法相比普通卷積網(wǎng)絡(luò)在準(zhǔn)確率上提高8.02%,基于本文摘要中不能出現(xiàn)“本文”字樣,請調(diào)整語句描述。英文摘要處作相應(yīng)修改。請參照現(xiàn)在的改過的PDF文檔英文摘要進(jìn)行修改,而不是原修改稿數(shù)據(jù)集,與傳統(tǒng)車輛行為識別算法相比準(zhǔn)確率提高6.36%。
同基于本文數(shù)據(jù)集的傳統(tǒng)車輛行為識別算法相比準(zhǔn)確率提高6.36%
關(guān)鍵詞:車輛行為;長短期記憶網(wǎng)絡(luò);高級輔助駕駛;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
Abstract:In the advanced assisted driving device, machine vision technology was used to process the video of vehicles in front in real time to dynamically recognize and predict the posture and behavior of vehicle. Concerning low precision and large delay of this kind of recognition algorithm, a deep learning algorithm for vehicle behavior dynamic recognition based on Long Short-Term Memory (LSTM) was proposed. Firstly, the key frames in vehicle behavior video were extracted. Secondly, a dual convolutional network was introduced to analyze the feature information of key frames in parallel, and then LSTM network was used to sequence the extracted characteristic information. Finally, the output predicted score was used to determine the behavior type of vehicle. The experimental results show that the proposed algorithm has an accuracy of 95.6%, and the recognition time of a single video is only 1.72s. The improved dual convolutional network algorithm improves the accuracy by 8.02% compared with ordinary convolutional network and increases by 6.36% compared with traditional vehicle behavior recognition algorithm based on a self-built dataset.
Key words: vehicle behavior; Long Short-Term Memory (LSTM) network; advanced assisted driving; deep learning; Convolutional Neural Network (CNN)
0 引言
隨著智能汽車行業(yè)的蓬勃發(fā)展,無人駕駛技術(shù)的運(yùn)用在各個(gè)領(lǐng)域中所占的比重也越來越大。其中,高級輔助駕駛系統(tǒng)(Advanced Driving Assistant System, ADAS)是以與未來科技互連的無人駕駛技術(shù)為基礎(chǔ),通過應(yīng)用感知技術(shù)探測車輛周圍行駛環(huán)境,依據(jù)獲得的車輛行為信息執(zhí)行相應(yīng)操作從而保障駕駛員的人身安全[1]。對前方行駛車輛的行為姿態(tài)分析是ADAS技術(shù)的重要手段之一,功能的主要實(shí)現(xiàn)是通過安裝在車輛內(nèi)的前置攝像頭對前方車輛進(jìn)行拍攝,對其直行、左轉(zhuǎn)、右轉(zhuǎn)、變道、掉頭等動態(tài)姿態(tài)行為進(jìn)行識別,從而對駕駛員進(jìn)行預(yù)警和提示(如圖1)。
目前,在車輛行為識別領(lǐng)域,已經(jīng)有許多基于傳統(tǒng)機(jī)器視覺算法的研究。如:2012年,Kasper等[2]使用貝葉斯網(wǎng)絡(luò)對高速公路場景中車輛典型行為進(jìn)行分類;2014年Gadepally等[3]等使用隱馬爾可夫模型(Hidden Markov Model, HMM)對車輛行為進(jìn)行分析;2018年,黃鑫等[4]使用視覺背景提?。╒isual Background extractor, ViBe)算法得到車輛的前景圖像,利用金字塔光流法(Lucas-Kanada, L-K)和均值漂移算法,再通過運(yùn)動特征熵和運(yùn)動特征標(biāo)量到聚類中心的歐氏距離這兩種方法判斷車輛有無異常行為;黃慧玲等[5]提出一種基于車輛行為識別的汽車前方碰撞預(yù)警方法,通過梯度方向直方圖(Histograms of Oriented Gradients, HOG)和支持向量機(jī)(Support Vector Machine, SVM)來訓(xùn)練檢索前方車輛,再結(jié)合卡爾曼濾波對車輛跟蹤,最后使用HMM算法對車輛行為進(jìn)行建模,識別前方車輛行為。但是,很多傳統(tǒng)算法的視頻都是在路口高位定點(diǎn)拍攝,更加適合對背景相對固定的車輛行為進(jìn)行識別,并且傳統(tǒng)算法的檢測和識別精度無法達(dá)到實(shí)際需求。近些年,深度學(xué)習(xí)已經(jīng)在各個(gè)領(lǐng)域取得重大進(jìn)展,解決了許多傳統(tǒng)技術(shù)無法解決的難題。在視頻識別和分類這一任務(wù)上,Donahue等[6]在2015年提出了采用長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)來解決視頻流時(shí)序分類這一難題。LSTM由Hochreiter等[7]在1997年提出,是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)。由于存在梯度消失和梯度爆炸等問題,標(biāo)準(zhǔn)的循環(huán)網(wǎng)絡(luò)在長序列上的學(xué)習(xí)效果不佳。相比之下,LSTM使用記憶單元來訪問、修改、存儲內(nèi)部狀態(tài),能夠更好地探尋長序列之間的聯(lián)系,因此在自然語言、語音、動作姿態(tài)等序列領(lǐng)域有驚人的表現(xiàn)[8-9]。Graves[10]于2013年對LSTM進(jìn)行了改良和推廣,使其能更好地學(xué)習(xí)序列特征。2017年,曹晉其等[11]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和LSTM相結(jié)合的方式對人體行為進(jìn)行識別,利用圖像中的RGB數(shù)據(jù)識別視頻人體動作,使用現(xiàn)有的CNN模型從圖像中提取特征,并采用長短記憶遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練分類;同時(shí),采用雙卷積和關(guān)鍵幀選取的方法,可以大幅度提高人體行為分類的正確率[12-14]。目前,尚未有利用LSTM網(wǎng)絡(luò)解決類似于車輛行為動態(tài)識別方面的研究。
綜上所述,針對傳統(tǒng)車輛行為識別算法準(zhǔn)確率較低和實(shí)用性差等問題,為了有效檢測前方車輛并對其運(yùn)動狀態(tài)進(jìn)行理解和識別,本文提出了一種基于長短期記憶的車輛行為動態(tài)識別網(wǎng)絡(luò),該模型對于車輛行為的動態(tài)識別非常有效,且模型收斂的速度很快。
1 網(wǎng)絡(luò)結(jié)構(gòu)
本文網(wǎng)絡(luò)模型如圖2所示,主要訓(xùn)練過程如下:
第一步 對輸入的解幀后的視頻流進(jìn)行關(guān)鍵幀提取,并依據(jù)關(guān)鍵幀數(shù)量和關(guān)鍵幀所在子視頻中的位置因素等進(jìn)行對比實(shí)驗(yàn)。
第二步 使用雙CNN模型提取出關(guān)鍵幀中的車輛特征,其中雙CNN模型參數(shù)是由ImageNet數(shù)據(jù)集[15]訓(xùn)練得到。根據(jù)分類結(jié)果與車輛和環(huán)境特征的多元性及特殊性,提出的雙網(wǎng)絡(luò)結(jié)構(gòu)將分別專注于常規(guī)特征以及細(xì)微特征變化。雙CNN模型的選擇對最終的動態(tài)行為分類結(jié)果起著至關(guān)重要的作用,本文會在稍后的實(shí)驗(yàn)中進(jìn)行討論。
第三步 將雙CNN模型提取出的車輛行為特征融合后輸入到LSTM網(wǎng)絡(luò)框架中,進(jìn)而分析序列間特征得到各類車輛行為預(yù)判得分,最終得到視頻車輛的行為分類。
2 視頻幀提取
3 雙卷積特征提取
3.1 ResNet基本原理
根據(jù)萬能近似定理(Universal Approximation Theorem,UAT),當(dāng)單層的前饋網(wǎng)絡(luò)有足夠大的容量的時(shí)候,它可以表示任何函數(shù);但是,由于單層網(wǎng)絡(luò)在結(jié)構(gòu)上過于龐大,容易造成過擬合等現(xiàn)象。在卷積神經(jīng)網(wǎng)絡(luò)中,隨著層數(shù)的增多,可以提取不同level的特征,從而使得整個(gè)網(wǎng)絡(luò)表達(dá)的特征更加豐富,并且,越深的神經(jīng)網(wǎng)絡(luò)提取出的特征會越抽象,更加具有語義信息,但是,神經(jīng)網(wǎng)絡(luò)深度的提升不能單單通過層與層的簡單堆疊來實(shí)現(xiàn),并且由于存在梯度消失等問題,深層神經(jīng)網(wǎng)絡(luò)往往難以訓(xùn)練,因此需要構(gòu)建結(jié)構(gòu)合理的多層網(wǎng)絡(luò)來更好地提取圖像的信息特征。
深度殘差網(wǎng)絡(luò)(deep Residual Network, ResNet)在2015年被提出[16],在ImageNet分類任務(wù)上獲得比賽第一名,因?yàn)樗?dú)有的特性,可以允許網(wǎng)絡(luò)盡可能地深。ResNet中引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)(圖3(a)所示),相比其他卷積網(wǎng)絡(luò)增加了網(wǎng)絡(luò)層數(shù)和深度,不僅能有效避免梯度彌散或梯度爆炸,同時(shí)也能很好地解決網(wǎng)絡(luò)的退化問題。其核心思想是引入一個(gè)恒等快捷連接,將原始所需要學(xué)習(xí)的函數(shù)H(x)轉(zhuǎn)換成F(x)+x(如式(2)),這兩種表達(dá)的效果相同,但是優(yōu)化的難度卻并不相同,假設(shè)F(x)的優(yōu)化會比H(x)簡單得多。為了方便計(jì)算,達(dá)到更好優(yōu)化訓(xùn)練的效果,可以把式(1)轉(zhuǎn)換為學(xué)習(xí)一個(gè)殘差函數(shù),如式(3)所示:
當(dāng)F(x)=0,構(gòu)成了一個(gè)恒等映射H(x)=x,同時(shí)可以更方便擬合殘差。用σ表示非線性函數(shù)ReLU(Rectified Linear Unit請補(bǔ)充ReLU的英文全稱),W1,W2,Wa,Wb表示權(quán)重,F(xiàn)(x)和H(x)分別表示為:
當(dāng)輸入輸出兩者維度不同,需要給x執(zhí)行一個(gè)線性映射來匹配維度:
ResNet使用兩種殘差單元,如圖3(b)、(c)所示,圖3(b)對應(yīng)的是淺層網(wǎng)絡(luò),而圖3(c)對應(yīng)的是深層網(wǎng)絡(luò)。對于短路連接這種方式,當(dāng)輸入和輸出的維度相同時(shí),可以直接將輸入加到輸出上。當(dāng)維度不一致時(shí)(通常是維度會增加一倍)就不能直接相加。第一種方法是使用補(bǔ)零法來增加維度,進(jìn)行下采樣,使用步長為2的池化層,這種方式不會增加額外的參數(shù)。第二種方法是采用新的映射,通過1×1的卷積來增加維度,較為方便穩(wěn)定。本文使用的是第二種方法。
3.2 雙提取機(jī)制
本文對于視頻的特征提取,設(shè)計(jì)雙深度卷積網(wǎng)絡(luò)來對視頻幀中的車輛特征進(jìn)行學(xué)習(xí)和提取。圖2中的CNN1和CNN2分別使用ResNet-50和改進(jìn)的ResNet-34網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。為了保持精度同時(shí)減少相應(yīng)的計(jì)算量,本文的CNN1網(wǎng)絡(luò)(ResNet-50)采用圖2(c)所示的殘差結(jié)構(gòu),結(jié)構(gòu)中的中間3×3的卷積層首先在一個(gè)降維1×1卷積層下減少了計(jì)算,然后在另一個(gè)1×1的卷積層下做了還原。由于在車輛行為檢測過程中,視頻幀中的轉(zhuǎn)向燈、紅綠燈等特征(車輛變道轉(zhuǎn)向等行為)不明顯,因此,考慮對ResNet-34網(wǎng)絡(luò)模型進(jìn)行相應(yīng)改進(jìn)來作為本實(shí)驗(yàn)的CNN2網(wǎng)絡(luò)模型。實(shí)驗(yàn)中,針對圖像中相對較小的特征,本文采用擴(kuò)大卷積核的方式來增大感受野從而獲取更多的細(xì)節(jié)特征,具體做法是將ResNet-34前5層卷積核大小由原始的7×7與3×3的組合改為7×7,6到15層卷積核將原來的3×3改為5×5。
請補(bǔ)充這個(gè)的名稱,是統(tǒng)計(jì)項(xiàng)嗎?也請補(bǔ)充名稱,沒有數(shù)值或空白,也需說明一下,否則無法理解。表格的規(guī)范是按照列名來補(bǔ)充相關(guān)數(shù)據(jù)項(xiàng)
這是何意?需明確。
回復(fù):可以看清每列,但是排版需要把線去掉。建議把這一行刪除,因?yàn)檫@個(gè)表描述網(wǎng)絡(luò)參數(shù),核心內(nèi)容已經(jīng)表達(dá)。
此外,在兩個(gè)CNN訓(xùn)練完成后,用1×1×512的卷積網(wǎng)絡(luò)來代替CNN1和CNN2中的全連接層及之后softmax層,用卷積提取的方式使兩個(gè)卷積網(wǎng)絡(luò)輸出為1×1×512維度特征;然后再使用首尾相接的融合方法對CNN1和CNN2的輸出進(jìn)行融合,作為LSTM神經(jīng)網(wǎng)絡(luò)的輸入。
4 基于LSTM序列
車輛行為視頻的連續(xù)關(guān)鍵幀是隨著時(shí)間進(jìn)行演變的過程,針對這一特性本文選擇LSTM網(wǎng)絡(luò)框架對車輛行為進(jìn)行建模。LSTM相比循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),其算法中加入了一個(gè)判斷信息篩選的“處理器”記憶單元,如圖4所示。每個(gè)單元中設(shè)置了三扇門,分別為輸入門It、輸出門QtOt是Q,還是O,公式中是O,請明確。和遺忘門Ft,它們分別對應(yīng)著車輛運(yùn)動姿態(tài)數(shù)據(jù)序列的寫入、讀取和先前狀態(tài)的重置操作。假設(shè)xt表示在時(shí)間t下的輸入,Wi,Wf,Wo,Wc表示權(quán)重矩陣;bi,bf,bo,bc是偏置向量,σ表示為logistic sigmoid函數(shù),Ht為單元t時(shí)刻的輸出。Ct表示記憶單元在t時(shí)刻的狀態(tài),則LSTM單元在t時(shí)刻的更新過程如下:
為了抓取車輛動態(tài)行為的語義信息,提高結(jié)果的分類準(zhǔn)確率,決定采用一種雙層深度LSTM表示模型,可以挖掘更深層的序列之間的特征。網(wǎng)絡(luò)模型如圖5所示,把本文第3章介紹的雙卷積網(wǎng)絡(luò)所提取出m個(gè)特征值按序輸入雙層結(jié)構(gòu)的LSTM序列模型中,每個(gè)記憶單元學(xué)習(xí)當(dāng)時(shí)輸入的車輛特征,并通過單元的遺忘門以及其前后狀態(tài)對車輛行為狀態(tài)進(jìn)行分析。采用many to one(即多對一)的輸入輸出方式,每個(gè)輸入都是1×1×1024的向量,在經(jīng)過雙層的LSTM網(wǎng)絡(luò)后,輸出為1×1×6(6對應(yīng)著直行、左轉(zhuǎn)、右轉(zhuǎn)、左變道、右變道、掉頭)的分類向量并將其通過softmax函數(shù),最后得出車輛行為類別的預(yù)測得分。
5 實(shí)驗(yàn)及結(jié)果分析
5.1 數(shù)據(jù)集
本文用于特征提取的雙卷積網(wǎng)絡(luò)使用ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練,ImageNet數(shù)據(jù)集有1400多萬幅圖片,涵蓋2萬多個(gè)類別。本文把數(shù)據(jù)集中的卡車、轎車標(biāo)簽統(tǒng)一換成了車輛標(biāo)簽。本文使用合作項(xiàng)目中的大量視頻數(shù)據(jù)以及自行搭建的車載實(shí)驗(yàn)平臺所采集的視頻數(shù)據(jù)來訓(xùn)練LSTM網(wǎng)絡(luò)模型。車輛視頻數(shù)據(jù)歸分為6個(gè)類,分別為直行、左變道、右變道、調(diào)頭、左轉(zhuǎn)、右轉(zhuǎn),每個(gè)類中有300多個(gè)視頻,視頻集中包含白天、傍晚、陰天、雨天等多種不同天氣環(huán)境及不同路況下拍攝的數(shù)據(jù)。視頻拍攝過程中將攝像頭固定于車輛前玻璃正前方,對車輛正前方目標(biāo)車輛的行駛行為進(jìn)行拍攝,數(shù)據(jù)采集真實(shí)可靠。在本文實(shí)驗(yàn)中,車輛數(shù)據(jù)如圖6所示,將數(shù)據(jù)集中的2218個(gè)視頻隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集,其中訓(xùn)練集視頻數(shù)量為1330,驗(yàn)證集視頻數(shù)量為443,測試集視頻數(shù)量為445。
5.2 網(wǎng)絡(luò)環(huán)境配置及訓(xùn)練
實(shí)驗(yàn)使用的服務(wù)器基于Ubuntu 16.04,64位操作系統(tǒng),使用的深度學(xué)習(xí)框架是tensorflow,GPU為GeForce GTX 1080Ti。首先用ImageNet數(shù)據(jù)集對雙卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后在用訓(xùn)練好的雙卷積網(wǎng)絡(luò)對關(guān)鍵幀進(jìn)行特征提取以便于訓(xùn)練LSTM神經(jīng)網(wǎng)絡(luò)。每個(gè)關(guān)鍵幀都降采樣到224×224大小,LSTM網(wǎng)絡(luò)隱含層的維度為1024。在訓(xùn)練LSTM神經(jīng)網(wǎng)絡(luò)中,本文使用Adam優(yōu)化器中的隨機(jī)梯度下降算法來學(xué)習(xí)參數(shù),學(xué)習(xí)率設(shè)置為10-5,訓(xùn)練的批處理大小Batch為12,權(quán)重衰減(decay)為0.0001,數(shù)據(jù)集迭代次數(shù)為50。
5.3 結(jié)果分析
5.3.1 m取值不同關(guān)鍵幀的實(shí)驗(yàn)結(jié)果
由圖7可知,在車右轉(zhuǎn)這一類車輛行為中,在提取數(shù)據(jù)幀方式相同的情況下,m值由6到10之間,識別正確率迅速上升并達(dá)到峰值,之后開始趨于穩(wěn)定,當(dāng)m取值大于12時(shí),準(zhǔn)確率開始略微下降;針對3種不同的子序列取幀方式,識別的正確率隨著m值變化的總體趨勢相同,差距較小。綜合而言,選取子視頻的中間幀,識別效果最優(yōu),整體識別最好。
5.3.2 行為識別結(jié)果
本實(shí)驗(yàn)將拆分出來的訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于評估模型,預(yù)測車輛行為識別結(jié)果的好壞,并驗(yàn)證模型選擇的合理性及模型參數(shù)的最優(yōu)性。最后采用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型及權(quán)重參數(shù),預(yù)測測試集中的視頻數(shù)據(jù)最后采用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型來預(yù)測測試集中的視頻數(shù)據(jù),得出測試車輛不同行為的準(zhǔn)確率,不同車輛行為類別在數(shù)據(jù)測試集上的準(zhǔn)確率如表2所示。
由表2可知,在各種天氣環(huán)境及不同路況,當(dāng)車輛行為是直行、左轉(zhuǎn)、右轉(zhuǎn)以及調(diào)頭的準(zhǔn)確率較高,可以達(dá)到95%以上;而左變道、右變道準(zhǔn)確率略低,僅有93%左右。
實(shí)驗(yàn)將數(shù)據(jù)集按比例隨機(jī)抽取,進(jìn)行多次交叉驗(yàn)證,行為識別準(zhǔn)確率結(jié)果如圖8(a),損失函數(shù)趨勢曲線如圖8(b)。
由圖8(a)可見,在整個(gè)訓(xùn)練過程中,訓(xùn)練集和驗(yàn)證集準(zhǔn)確率一直處于上升的趨勢,數(shù)據(jù)經(jīng)過10次迭代后,驗(yàn)證集與訓(xùn)練集準(zhǔn)確率相差較大,經(jīng)過20次迭代后基本趨于穩(wěn)定。由此說明,前期10次迭代過程存在一定的過擬合,但在后期的迭代中進(jìn)行了一定的修正,從而致使識別率逐步提高。由圖8(b)可知,損失值在迭代到10次之前,驗(yàn)證集的損失值下降幅度比訓(xùn)練集大,之后訓(xùn)練集損失值繼續(xù)緩慢下降,驗(yàn)證集損失值趨于穩(wěn)定。
方案序號特征提取序列建模準(zhǔn)確率/%識別時(shí)間此處原為識別速度,單位是s,是否應(yīng)該為識別時(shí)間,這樣更恰當(dāng)些,請明確。正文中的其他處是否也可以這樣修改
從表3中可以看出,檢測車輛行為的準(zhǔn)確率在各種模型方案下顯示不同。通過對比方案1和方案2,可以看出多一個(gè)卷積網(wǎng)絡(luò)進(jìn)行特征提取,準(zhǔn)確率提高了4.3個(gè)百分點(diǎn),但是對于單個(gè)視頻行為識別速度相近。再對ResNet-34網(wǎng)絡(luò)進(jìn)行2.2節(jié)中所述的改進(jìn)后,準(zhǔn)確率又在原來基礎(chǔ)上提高了2.8個(gè)百分點(diǎn)。實(shí)驗(yàn)過程中發(fā)現(xiàn),對ResNet-34網(wǎng)絡(luò)進(jìn)行改進(jìn)后,直行、左變道、右變道的識別準(zhǔn)確率上升更為明顯,說明采用雙卷積網(wǎng)絡(luò)泛化能力強(qiáng),性能更高,能提取更為細(xì)微的特征。方案3、方案4和方案5,都保持了特征提取部分網(wǎng)絡(luò)不變,但是方案3不使用LSTM網(wǎng)絡(luò)的,這種情況下準(zhǔn)確率明顯降低很多,但是識別速度提高了一倍單個(gè)視頻的識別時(shí)間減少了一半若改為識別時(shí)間,此處應(yīng)為識別時(shí)間減少了一半,請確認(rèn)。方案4使用了單層的LSTM網(wǎng)絡(luò)來做序列間的特征學(xué)習(xí),準(zhǔn)確率比方案5使用雙層深度LSTM網(wǎng)絡(luò)的低2個(gè)百分點(diǎn),但是網(wǎng)絡(luò)權(quán)重也小了20%左右。
為了證明本文網(wǎng)絡(luò)模型在車輛行為識別上的優(yōu)勢,基于本文視頻流數(shù)據(jù)集,與現(xiàn)有的一些車輛行為識別的算法進(jìn)行對比實(shí)驗(yàn)。
從表4中可以看出,針對視頻中車輛特征檢測這一角度,本文提出的車輛特征檢測方法可以有效地解決傳統(tǒng)方法的某些問題,比傳統(tǒng)的方法更加滿足實(shí)際中的需求,且雙卷積網(wǎng)絡(luò)結(jié)構(gòu)檢測性能更強(qiáng),更能發(fā)現(xiàn)細(xì)小的特征。
本文算法雙卷積網(wǎng)絡(luò)不同條件很強(qiáng)
由表5所示,在直行、右轉(zhuǎn)、左轉(zhuǎn)、掉頭這幾個(gè)車輛行為識別中,相比傳統(tǒng)車輛行為識別算法,本文提出的識別網(wǎng)絡(luò)在各個(gè)類別中準(zhǔn)確率均是最高,且平均準(zhǔn)確率相比次好的文獻(xiàn)[4]中的模型提高了6.36%,獲得了更好的分類效果。
6 結(jié)語
針對視頻中前方的車輛行為研究這一問題,提出了基于長短期記憶的車輛行為動態(tài)識別網(wǎng)絡(luò)算法。在車輛行為識別網(wǎng)絡(luò)設(shè)計(jì)中,采用雙卷積網(wǎng)絡(luò)模型對視頻中車輛特征進(jìn)行檢測和提取。針對車輛運(yùn)動狀態(tài)這一時(shí)序問題,使用LSTM網(wǎng)絡(luò)進(jìn)行序列特征深度挖掘,最終得到行為分類結(jié)果。通過對比傳統(tǒng)機(jī)器視覺的車輛行為分析研究,本文提出的算法不需要基于先驗(yàn)知識建立車輛姿態(tài)模型,同時(shí)可以自適應(yīng)地學(xué)習(xí)姿態(tài)特征,并且不受外界因素影響,對于車輛后方拍攝視角準(zhǔn)確率更能滿足實(shí)際需求,但是,本文的研究不能實(shí)時(shí)有效地識別前方多臺車輛的行為,所以下一步的研究重點(diǎn)主要是在保證準(zhǔn)確率的情況下同時(shí)識別前方多輛車的動態(tài)行為。
參考文獻(xiàn) (References)
[1] 陳放.高級駕駛輔助系統(tǒng)ADAS淺談[J].各界,2018(1):188-191.(CHEN F. A dissertation on advanced driver assistance system[J].All Circles, 2018(1): 188-191.)
[2] KASPER D, WEIDL G, DANG T, et al. Object-oriented Bayesian networks for detection of lane change maneuvers[J]. IEEE Intelligent Transportation Systems Magazine, 2012, 4(3): 19-31.
[3] GADEPALLY V, KRISHNAMURTHY A, OZGUNER U. A framework for estimating driver decisions near intersections [J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 637-646.
[4] 黃鑫,肖世德,宋波.監(jiān)控視頻中的車輛異常行為檢測[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(2):125-131.(HUANG X, XIAO S D, SONG B. Detection of vehicles abnormal behaviors in surveillance video[J]. Computer Systems and Applications, 2018, 27(2): 125-131.)
[5] 黃慧玲,楊明,王春香,等.基于前方車輛行為識別的碰撞預(yù)警系統(tǒng)[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(s1):117-121.(HUANG H L, YANG M, WANG C X, et al. Collision warning system based on forward vehicle behavior recognition[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2015, 43(s1): 117-121.)
[6] DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634.
[7] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[8] 殷昊,李壽山,貢正仙,等.基于多通道LSTM的不平衡情緒分類方法[J].中文信息學(xué)報(bào),2018,32(1):139-145.(YIN H, LI S S, GONG Z X, et al. Imbalanced emotion classification based on multi-channel LSTM[J]. Journal of Chinese Information Processing, 2018,32(1):139-145.)
[9] 鄭毅,李鳳,張麗,等.基于長短時(shí)記憶網(wǎng)絡(luò)的人體姿態(tài)檢測方法[J].計(jì)算機(jī)應(yīng)用,2018,38(6):1568-1574.(ZHENG Y, LI F, ZHANG L, et al. Pose detection and classification with LSTM network[J]. Journal of Computer Applications, 2018, 38(6): 1568-1574.)
[10] GRAVES A. Supervised Sequence Labelling with Recurrent Neural Networks[M]. Berlin: Springer, 2012:385.
[11] 曹晉其,蔣興浩,孫錟鋒.基于訓(xùn)練圖CNN特征的視頻人體動作識別算法[J].計(jì)算機(jī)工程,2017,43(11):234-238.(CAO J Q, JIANG X H, SUN T F. Video human action recognition algorithm based on trained image CNN features[J]. Computer Engineering, 2017, 43(11): 234-238.)
[12] SIMONYAN K, ZISSERMAN A. Two-stream convolutional net-works for action recognition in videos[C]// Proceedings of the 2014 International Conference on Neural Information Processing Systems. Montréal: [s.n.], 2014: 568-576.
[13] NG J.Y, MATTHEW H, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4694-4702.
[14] CHEN H F, CHEN J, HU R M, et al. Action recognition with temporal scale-invariant deep learning framework[J]. China Communications, 2017, 14(2): 163-172.
[15] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the 2009 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 248-255.
[16] HE K M, ZHANG X Y, REN S Q, et. al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.