汪梓豪,蔡英鳳,王海,陳龍,熊曉夏
(1.江蘇大學(xué)汽車工程研究院,鎮(zhèn)江212013;2.江蘇大學(xué)汽車與交通工程學(xué)院,鎮(zhèn)江212013)
智能汽車已成為全球汽車產(chǎn)業(yè)發(fā)展的戰(zhàn)略方向,也是我國(guó)汽車強(qiáng)國(guó)建設(shè)的歷史機(jī)遇,是新一代信息技術(shù)、高端裝備制造、新材料、新能源等戰(zhàn)略性新興產(chǎn)業(yè)的創(chuàng)新集成載體。環(huán)境感知是實(shí)現(xiàn)汽車智能化的重要基礎(chǔ),也是智能汽車實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛的瓶頸所在。軌跡預(yù)測(cè)是建立在目標(biāo)檢測(cè)和跟蹤基礎(chǔ)上的高層行為感知技術(shù),能夠?yàn)橹悄芷嚨臎Q策控制提供有效信息,提高行駛軌跡規(guī)劃的安全性和合理性。特別是在十字路口、高速公路匯入匝道等復(fù)雜的交通場(chǎng)景下,有效的軌跡預(yù)測(cè)對(duì)于提升汽車行駛駕駛安全性具有重要作用。
目前,國(guó)內(nèi)外學(xué)者針對(duì)軌跡預(yù)測(cè)技術(shù)進(jìn)行了深入的研究。其中,基于鳥瞰視角的軌跡預(yù)測(cè)技術(shù),研究的熱點(diǎn)和難點(diǎn)在于如何構(gòu)建車輛行駛過程中與周邊多交通主體之間的交互關(guān)系模型。其出發(fā)點(diǎn)在于駕駛員在不同交通場(chǎng)景下進(jìn)行超車、換道和任何其他行為時(shí),均充分考慮當(dāng)前交通場(chǎng)景下與其他交通主體的相對(duì)位置和速度等信息,進(jìn)而對(duì)車輛實(shí)施合理的操縱行為。Deo等將LSTM編碼的車輛軌跡向量嵌入到占據(jù)柵格圖中相對(duì)應(yīng)的位置來構(gòu)建卷積社交池張量,該張量可以用來表示周圍車輛歷史軌跡在空間中與被觀測(cè)車輛的交互作用;還將車輛未來軌跡視為基于車輛機(jī)動(dòng)多峰值的概率分布,并使用模型預(yù)測(cè)法預(yù)測(cè)概率分布的參數(shù)值。Messaoud等對(duì)文獻(xiàn)[1]中的卷積社交池進(jìn)行優(yōu)化,提出了增加注意力機(jī)制的非本地-卷積社交池。Zhao等提出了多智能體張量融合模型,通過其全卷積模塊(UNet)概括了交通場(chǎng)景內(nèi)各車輛的LSTM編碼向量和CNN編碼的車輛場(chǎng)景圖,使用生成對(duì)抗網(wǎng)絡(luò)(GAN)生成出多個(gè)智能體的未來運(yùn)動(dòng)軌跡。Jeon等提出的軌跡預(yù)測(cè)模型將同一場(chǎng)景內(nèi)的所有智能體間構(gòu)成的關(guān)系網(wǎng)絡(luò)視為由非歐幾里得距離表達(dá)的圖結(jié)構(gòu),并使用圖神經(jīng)網(wǎng)絡(luò)來獲取由圖結(jié)構(gòu)中各個(gè)節(jié)點(diǎn)之間的交互特征。此類軌跡預(yù)測(cè)方法需要建立在目標(biāo)檢測(cè)、跟蹤、定位和地圖匹配基礎(chǔ)上,完成一定范圍內(nèi)與周邊車輛相對(duì)運(yùn)動(dòng)關(guān)系的建模,這對(duì)自車環(huán)境感知系統(tǒng)的要求極高,并且推理速度較慢,在一定程度上制約了該類方法的實(shí)際應(yīng)用。
針對(duì)鳥瞰視角下軌跡預(yù)測(cè)方法存在的不足,本文基于低成本的智能汽車單目感知系統(tǒng),開發(fā)了自車視角下的周邊多目標(biāo)軌跡預(yù)測(cè)技術(shù)。與鳥瞰視角相比,由于自車視角下車載相機(jī)捕獲到的目標(biāo)邊界框的位置變化不僅來自于目標(biāo)的運(yùn)動(dòng),而且與自車運(yùn)動(dòng)密切相關(guān),如何進(jìn)行目標(biāo)運(yùn)動(dòng)與自車運(yùn)動(dòng)的解耦是新的問題,其核心在于單目視角下目標(biāo)的深度識(shí)別和自車的位姿估計(jì)。其中,單目深度估計(jì)方法能夠提供必要的周邊目標(biāo)距離信息,目前基于自監(jiān)督訓(xùn)練模型的方法在單目深度估計(jì)以及視覺里程計(jì)建模等文獻(xiàn)中已得到廣泛應(yīng)用。Zhou等首先提出了深度估計(jì)網(wǎng)絡(luò)和位姿估計(jì)網(wǎng)絡(luò)(6-DoF)結(jié)合的模型結(jié)構(gòu),通過圖像重構(gòu)的方法來形成自監(jiān)督訓(xùn)練。文獻(xiàn)[9]~文獻(xiàn)[12]中對(duì)該自監(jiān)督模型結(jié)構(gòu)進(jìn)行了改進(jìn)。Godard等通過對(duì)視頻中被遮擋的與靜止的目標(biāo)和背景進(jìn)行建模,并計(jì)算多個(gè)尺度重構(gòu)圖像的加權(quán)損失,提高了單目深度估計(jì)的準(zhǔn)確性。另一方面,大部分自車視角下的軌跡預(yù)測(cè)方法都基于深度學(xué)習(xí),使用神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖像與預(yù)測(cè)軌跡進(jìn)行建模。Bhattacharyya等使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行里程計(jì)的預(yù)測(cè)(速度和轉(zhuǎn)向角),然后使用單獨(dú)的RNN進(jìn)行行人軌跡預(yù)測(cè),該方法使用當(dāng)前幀的圖像信息來預(yù)測(cè)車輛未來的運(yùn)動(dòng),但該模型只預(yù)測(cè)兩個(gè)標(biāo)量,沒有考慮自車視角的變化。Rasouli等在上述方法中額外添加了RNN模塊,該RNN提取行人圖像序列之間的相關(guān)性并預(yù)測(cè)行人的意圖。但這種方法的缺點(diǎn)是,在訓(xùn)練時(shí)每個(gè)行人都需要進(jìn)行標(biāo)簽的預(yù)標(biāo)注,這耗費(fèi)較大的時(shí)間成本。由于每一幀圖像中行人的位置框都是相對(duì)于自車坐標(biāo)系而標(biāo)注的,所以自車運(yùn)動(dòng)方向的變化導(dǎo)致該模型同樣不能通過視覺圖像信息來捕捉場(chǎng)景中的行人的實(shí)際運(yùn)動(dòng)軌跡。Yao等使用多流RNN來提取行人位置、自車運(yùn)動(dòng)和光流估計(jì)等特征信息。然而,該方法中建模的自車運(yùn)動(dòng)僅表示為2D像素空間中的旋轉(zhuǎn)和平移,這種表示方式并不嚴(yán)謹(jǐn),不能完全表達(dá)出車載相機(jī)坐標(biāo)系在運(yùn)動(dòng)中的變化。并且該模型不包含檢測(cè)到的目標(biāo)的視覺特征。Yao等在后續(xù)工作中對(duì)其所提出的多流RNN模型進(jìn)行了改進(jìn),包括添加了條件變分自編碼器(CVAE)來預(yù)測(cè)多模態(tài)未來軌跡。
整體來說,現(xiàn)有關(guān)于自車視角下的周邊多目標(biāo)軌跡預(yù)測(cè)研究,在自車運(yùn)動(dòng)建模和預(yù)測(cè)精度方面存在較大不足,且對(duì)周邊多目標(biāo)軌跡分析時(shí)缺乏相對(duì)于自車相機(jī)視角的轉(zhuǎn)換處理,極大影響了多目標(biāo)軌跡預(yù)測(cè)的精度和可用性。為此,本文中提出一種基于單目視覺運(yùn)動(dòng)估計(jì)的周邊多目標(biāo)軌跡預(yù)測(cè)方法。主要?jiǎng)?chuàng)新如下:(1)建立了一種由自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)和自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)構(gòu)成的交互計(jì)算模型,前者提供自車完整的視覺里程計(jì),后者建立相機(jī)坐標(biāo)系的變換推理模型,從而完成目標(biāo)運(yùn)動(dòng)與自車運(yùn)動(dòng)的解耦,實(shí)現(xiàn)自車運(yùn)動(dòng)狀態(tài)的有效預(yù)測(cè);(2)基于位姿變換矩陣,利用原視角下目標(biāo)預(yù)測(cè)位置與當(dāng)前時(shí)刻目標(biāo)真實(shí)位置的變化關(guān)系,完成目標(biāo)歷史邊界框序列在當(dāng)前時(shí)刻自車相機(jī)視角下的歸一化處理;(3)針對(duì)圖像信息和目標(biāo)軌跡序列,提出了LSTM和ConvLSTM聯(lián)合編碼的自車視角多目標(biāo)軌跡預(yù)測(cè)網(wǎng)絡(luò)模型,同時(shí)采用了多階段的模型訓(xùn)練方法,提升了運(yùn)動(dòng)估計(jì)和軌跡預(yù)測(cè)的效果。
本文所提低成本軌跡預(yù)測(cè)方法不依賴場(chǎng)景高精度地圖和定位信息,廣泛適用于各類結(jié)構(gòu)化和非結(jié)構(gòu)化道路場(chǎng)景,能夠?yàn)楦呒?jí)別自動(dòng)駕駛系統(tǒng)提供高精度的周邊多目標(biāo)軌跡預(yù)測(cè)信息。
本文提出的軌跡預(yù)測(cè)方法包含了自車運(yùn)動(dòng)估計(jì)與預(yù)測(cè)、目標(biāo)軌跡初始化和未來軌跡預(yù)測(cè)3部分。首先,自車運(yùn)動(dòng)估計(jì)與預(yù)測(cè)部分建立了完整車輛視覺里程計(jì),完成了對(duì)目標(biāo)運(yùn)動(dòng)與自車運(yùn)動(dòng)的解耦,實(shí)現(xiàn)對(duì)自車運(yùn)動(dòng)的獨(dú)立建模。其次,目標(biāo)軌跡初始化方法基于所建立的視覺里程計(jì)和深度圖信息,將不同時(shí)刻的目標(biāo)邊界框坐標(biāo)歸一化到當(dāng)前時(shí)刻。最后,未來軌跡預(yù)測(cè)部分使用歸一化的軌跡坐標(biāo),在自車當(dāng)前相機(jī)視角下完成對(duì)目標(biāo)未來軌跡的預(yù)測(cè)。模型各階段訓(xùn)練時(shí)所需數(shù)據(jù)包括車載相機(jī)拍攝的視頻序列以及該序列內(nèi)各目標(biāo)的位置信息和身份信息。以上方法所使用模型包括了自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)、自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)和多目標(biāo)軌跡預(yù)測(cè)網(wǎng)絡(luò)。
(1)自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)
自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)是由深度估計(jì)網(wǎng)絡(luò)和位姿估計(jì)網(wǎng)絡(luò)構(gòu)成的自監(jiān)督訓(xùn)練模型,該模型通過輸入完整的自車過去與未來圖像序列來計(jì)算自車運(yùn)動(dòng)的視覺里程計(jì)。兩種網(wǎng)絡(luò)均使用編解碼器結(jié)構(gòu),其中編碼器可以為任意層數(shù)較深的卷積神經(jīng)網(wǎng)絡(luò)模型,提取低維大尺度的圖像特征,將其轉(zhuǎn)化為高維小尺度的特征圖。該網(wǎng)絡(luò)能夠有效解決現(xiàn)有預(yù)測(cè)方法未充分考慮自車運(yùn)動(dòng)狀態(tài)的不足,并將與自車運(yùn)動(dòng)相關(guān)聯(lián)的周邊目標(biāo)的像素坐標(biāo)轉(zhuǎn)換到歸一化的靜態(tài)相機(jī)坐標(biāo)系中。
(2)自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)
自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)在實(shí)際場(chǎng)景中進(jìn)行推理時(shí),只能通過車載相機(jī)獲取到歷史時(shí)刻圖像信息。因而此時(shí),該模型只能計(jì)算出自車歷史運(yùn)動(dòng)過程中各相機(jī)坐標(biāo)系之間的位姿變換矩陣,而無法直接計(jì)算出自車未來運(yùn)動(dòng)過程中的位姿變換矩陣。為了解決上述問題,本方法增加了一個(gè)新的自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)引入了由長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)構(gòu)成的編解碼器模型來預(yù)測(cè)自車未來的位姿變化,網(wǎng)絡(luò)輸入僅包含了由自車估計(jì)網(wǎng)絡(luò)輸出的歷史各幀間的位姿變換參數(shù)。自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)與自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)相結(jié)合,構(gòu)成了一種交互計(jì)算模型,實(shí)現(xiàn)了對(duì)自車完整視覺里程計(jì)的計(jì)算。
(3)多目標(biāo)軌跡預(yù)測(cè)網(wǎng)絡(luò)
本方法所提出的軌跡預(yù)測(cè)網(wǎng)絡(luò)同樣采用編解碼器結(jié)構(gòu)。編碼器分為兩個(gè)部分:第1部分為運(yùn)動(dòng)特征編碼器,使用長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)模型,其作用是提取歸一化后的歷史目標(biāo)邊界框信息;第2部分為區(qū)域特征編碼器,它使用卷積LSTM(ConvLSTM)網(wǎng)絡(luò)對(duì)目標(biāo)在當(dāng)前時(shí)刻所處位置的像素塊以及該位置在過去圖像中的像素塊序列進(jìn)行編碼。ConvLSTM是一種將卷積運(yùn)算和LSTM的門控機(jī)制結(jié)合的神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在使用卷積提取圖像特征的同時(shí)也控制了當(dāng)前圖像特征信息的輸入比例和歷史圖像特征信息的保留比例。本文所提出的軌跡預(yù)測(cè)網(wǎng)絡(luò)建立了計(jì)算目標(biāo)圖像和邊界框位置序列與未來軌跡之間映射關(guān)系的網(wǎng)絡(luò)模型,該模型預(yù)測(cè)的未來軌跡以極小的像素誤差達(dá)到了與真實(shí)軌跡接近的程度。
解耦自車運(yùn)動(dòng)和周邊目標(biāo)運(yùn)動(dòng)的首要步驟是通過車載相機(jī)拍攝的視頻建立自車運(yùn)動(dòng)過程的視覺里程計(jì),完成對(duì)自車運(yùn)動(dòng)的獨(dú)立建模。如果將視頻分解為由多幀圖像組成的圖像序列,則每一幀圖像中拍攝到的目標(biāo)均處于當(dāng)前時(shí)刻自車的相機(jī)坐標(biāo)系中。車輛在行駛過程中,車輛運(yùn)動(dòng)方向和位置的改變會(huì)造成相機(jī)坐標(biāo)系的連續(xù)變換,即車輛位姿變換。相機(jī)坐標(biāo)系的軸(即鏡頭所對(duì)的方向)指向汽車行駛方向。如圖1所示,自車運(yùn)動(dòng)估計(jì)的目的就是計(jì)算自車所處的歷史幀-,…,-1與當(dāng)前幀之間的位姿變換,并預(yù)測(cè)自車所處的未來幀+1,…,+與之間的位姿變換。幀間變換過程可視作兩幀的相機(jī)坐標(biāo)系繞軸旋轉(zhuǎn),該過程可用變換矩陣T表示:
圖1 第t幀與第t'幀自車位姿變換
式 中:T∈R,∈[-,-1]∪[+1,+];∈(3)是旋轉(zhuǎn)矩陣,且∈R;∈R是相機(jī)坐標(biāo)軸原點(diǎn)的偏移量;為全零向量的轉(zhuǎn)置。
1.2.1 自車運(yùn)動(dòng)估計(jì)
本研究使用由深度估計(jì)網(wǎng)絡(luò)和位姿估計(jì)網(wǎng)絡(luò)構(gòu)成的自監(jiān)督訓(xùn)練模型來完成自車運(yùn)動(dòng)估計(jì),網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)整體結(jié)構(gòu)
首先,利用深度估計(jì)網(wǎng)絡(luò)輸出當(dāng)前幀圖像I的深度D∈R、位姿估計(jì)網(wǎng)絡(luò)預(yù)測(cè)的變換矩陣T和車載相機(jī)的內(nèi)參矩陣∈R,可以將時(shí)刻的圖像I中的所有像素投影到時(shí)刻像素坐標(biāo)系中對(duì)應(yīng)的位置,從而重建出時(shí)刻的圖像I:
式中:為重投影操作;p和p分別為和時(shí)刻圖像中各像素坐標(biāo)。
具體地,深度估計(jì)網(wǎng)絡(luò)為編解碼器結(jié)構(gòu)。其中深度編碼器輸入為當(dāng)前幀圖像I,通過ResNet-18結(jié)構(gòu)提取出圖像特征信息F。將F輸入到深度解碼器中,將計(jì)算出當(dāng)前幀圖像中各像素位置的深度,的值域?yàn)椋?.1,100),0.1為一個(gè)深度單位,深度值上限為100,該過程表示為
位姿估計(jì)網(wǎng)絡(luò)同為編解碼器結(jié)構(gòu),位姿編碼器與使用相同的ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取器。但是與不同的是,的輸入為時(shí)刻和+1、-1時(shí)刻圖像組成的圖像序列={I,I}{I,I}。首先,通過級(jí)聯(lián)操作將的通道維進(jìn)行合并,得到與匹配于輸入維度的?。模型輸出為32倍下采樣后的高維度特征圖F∈R。位姿解碼器由多層卷積與激活函數(shù)ReLU堆疊而成,解碼器輸出通道數(shù)為6,分別代表軸角φ∈(3),R和偏移量∈R。分解φ得到旋轉(zhuǎn)軸和旋轉(zhuǎn)角度:
根據(jù)羅德里格斯公式來計(jì)算(3)到(3)之間的指數(shù)映射,再結(jié)合偏移量得到位姿變換矩陣:
式中:^是反對(duì)稱符號(hào);為單位矩陣。最終得到的位姿變換矩陣表示I的相機(jī)坐標(biāo)系到I的相機(jī)坐標(biāo)系之間的變換。
在實(shí)際模型訓(xùn)練過程中,從歷史時(shí)刻-+1到未來時(shí)刻+-1之間的圖像序列將與相鄰幀共同輸入到多個(gè)共享權(quán)重的位姿估計(jì)編解碼器中進(jìn)行計(jì)算,最終得到該序列完整的視覺里程計(jì)={T,…,T}
1.2.2 自車運(yùn)動(dòng)預(yù)測(cè)
自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)由LSTM編解碼器結(jié)構(gòu)構(gòu)成,如圖3所示。其中LSTM編碼器的輸入為輸 出 的 歷 史 時(shí) 刻 部 分 的(,)序 列Seq=
圖3 自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)整體結(jié)構(gòu)
式中:為線性層,該層作為嵌入層(embedding),目的是將輸入序列的低維特征映射到高維;是激活函數(shù),=0.1。該部分取最后一個(gè)時(shí)步的隱藏狀態(tài)H作為總結(jié)歷史位姿的特征向量。
LSTM解碼器采用非自回歸(NAR)的方式對(duì)H進(jìn)行解碼,輸出預(yù)測(cè)的未來自車運(yùn)動(dòng):
式中為線性層,該層輸出即為預(yù)測(cè)的未來各時(shí)步的旋轉(zhuǎn)軸和原點(diǎn)偏移量(,)={(φ,d),…,(φ,d)},最 后 使 用 式(9)將(,)轉(zhuǎn)化為位姿變換矩陣。
根據(jù)自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)輸出的視覺里程計(jì),可以計(jì)算出當(dāng)前時(shí)刻的相機(jī)坐標(biāo)系與其他所有時(shí)刻的相機(jī)坐標(biāo)系之間的位姿變換矩陣集合{T,∈[-,+]}。最終預(yù)測(cè)目標(biāo)未來軌跡預(yù)測(cè)的視角將是時(shí)刻相機(jī)所處的視角,因此,在將任意時(shí)刻的目標(biāo)歷史邊界框B輸入到預(yù)測(cè)模型之前,須先將邊界框B中角點(diǎn)像素坐標(biāo)(,)轉(zhuǎn)換到時(shí)刻的像素坐標(biāo),構(gòu)成新的邊界框B。
時(shí)刻邊界框B中的任意角點(diǎn)坐標(biāo)p向時(shí)刻的坐標(biāo)p轉(zhuǎn)換可表示為
式中:(B)是邊界框B區(qū)域內(nèi)的平均深度;h和w為B的高和寬;D為深度圖中單個(gè)像素位置的深度,∈[,],∈[,]。在自 車運(yùn)動(dòng)估 計(jì)網(wǎng)絡(luò)中已經(jīng)預(yù)測(cè)了I到I之間的位姿變換矩陣,因此將任意歷史幀的相機(jī)坐標(biāo)系轉(zhuǎn)換到時(shí)刻時(shí)的相機(jī)坐標(biāo)系時(shí),可以通過矩陣乘法得到變換矩陣:T=TT。
經(jīng)過目標(biāo)軌跡初始化過程后,歷史時(shí)刻的目標(biāo)邊界框已被轉(zhuǎn)換到當(dāng)前時(shí)刻,得到邊界框B。因此在預(yù)測(cè)未來軌跡時(shí),目標(biāo)的歷史運(yùn)動(dòng)過程將全部在靜止相機(jī)視角內(nèi)進(jìn)行,而預(yù)測(cè)的未來軌跡也將位于該視角內(nèi)。為了更好地表征目標(biāo)歷史運(yùn)動(dòng)過程,本網(wǎng)絡(luò)將通過歷史邊界框序列來計(jì)算更多的特征信息。另外,本網(wǎng)絡(luò)也關(guān)注了圖像序列中目標(biāo)所處區(qū)域內(nèi)的像素變換過程,使用裁剪的方式來獲取目標(biāo)相應(yīng)區(qū)域內(nèi)的圖像信息。最后,通過任意神經(jīng)網(wǎng)絡(luò)模型計(jì)算目標(biāo)歷史特征序列與未來目標(biāo)運(yùn)動(dòng)學(xué)參數(shù)之間的映射關(guān)系,如圖4所示。
圖4 多目標(biāo)軌跡預(yù)測(cè)網(wǎng)絡(luò)整體結(jié)構(gòu)
1.4.1 目標(biāo)運(yùn)動(dòng)特征編碼
靜止視角內(nèi)的任意目標(biāo)由于運(yùn)動(dòng)方向和運(yùn)動(dòng)速度的不同,其邊界框的高和寬將呈現(xiàn)不同的變化規(guī)律。初始邊界框坐標(biāo)不能直接表示這對(duì)參數(shù)的變化,因此須通過邊界框角點(diǎn)坐標(biāo)(,)來計(jì)算和,并將其加入初始訓(xùn)練參數(shù)。綜上所述,最終網(wǎng)絡(luò)輸入的歷史運(yùn)動(dòng)信息={,,,}∈R。中的所有參數(shù)都將對(duì)圖像尺寸進(jìn)行歸一化,保證輸入?yún)?shù)都在(0,1)區(qū)間之內(nèi)。
然后,將歷史運(yùn)動(dòng)信息序列={x,…,x,x}輸入到LSTM編碼器中:
最后使用第個(gè)輸出的隱藏狀態(tài)H作為總結(jié)目標(biāo)運(yùn)動(dòng)序列特征的特征向量。
1.4.2 區(qū)域圖像特征編碼
當(dāng)前幀圖像I中觀測(cè)目標(biāo)所處區(qū)域?qū)?yīng)的背景像素塊在歷史視角中存在連續(xù)的變化過程。以I中的目標(biāo)邊界框中心點(diǎn)為中心,用式(2)把投影到歷史視角的坐標(biāo)系中,使用統(tǒng)一尺寸(,)對(duì)目標(biāo)周邊區(qū)域進(jìn)行裁剪,得到裁剪圖像序列{C,…,C,C},區(qū)域圖像編碼器輸入特征可表示為
式中為級(jí)聯(lián)操作,對(duì)圖像的通道維度進(jìn)行合并。
將輸入到中,網(wǎng)絡(luò)輸出H作為該區(qū)域圖像序列特征:
同文獻(xiàn)[20]一樣,將H視為由多個(gè)包含高維特征的整齊排布的節(jié)點(diǎn),使用最大池化操作(MaxPooling)來聚合該區(qū)域的整體特征F。
1.4.3 未來軌跡預(yù)測(cè)
在復(fù)雜交通場(chǎng)景下,不同類別目標(biāo)的運(yùn)動(dòng)模式和自身屬性存在較大的差異,因此使用單個(gè)模型對(duì)所有類別的目標(biāo)進(jìn)行建模是不合理的。本預(yù)測(cè)網(wǎng)絡(luò)使用LSTM解碼器接收不同各目標(biāo)的編碼信息=(H,F),LSTM解碼器均為NAR解碼方式。最后通過多層感知機(jī)MLP,預(yù)測(cè)時(shí)刻視角內(nèi)目標(biāo)邊界框的中心點(diǎn)沿、軸的移動(dòng)速度和加速度等運(yùn)動(dòng)學(xué)參數(shù)={v,v,a,a}:
式中M為預(yù)測(cè)的未來目標(biāo)運(yùn)動(dòng)學(xué)參數(shù),={m,…,m}。M中預(yù)測(cè)的參數(shù)計(jì)算的目標(biāo)邊界框處于靜態(tài)視角中,因此在計(jì)算訓(xùn)練Loss之前,需要將其轉(zhuǎn)換為相應(yīng)未來時(shí)刻的邊界框位置和大?。?/p>
同樣地,利用式(2)和1.2.2節(jié)預(yù)測(cè)的未來自車運(yùn)動(dòng)的位姿變換矩陣,把視角的邊界框序列投影到其所處的視角,∈{+1,…,+},最終得到預(yù)測(cè)邊界框中心點(diǎn)坐標(biāo)序列B。
1.5.1 第1階段
自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)的主要目的是準(zhǔn)確計(jì)算圖像之間的位姿變換,因此模型訓(xùn)練第1階段的目的是保留圖像特征提取網(wǎng)絡(luò)的權(quán)重,微調(diào)輸出深度和位姿的解碼器網(wǎng)絡(luò)。深度估計(jì)網(wǎng)絡(luò)采用monodepth2中使用KITTI RAW數(shù)據(jù)集訓(xùn)練的圖像尺寸為640×192的模型作為預(yù)訓(xùn)練模型。
自車估計(jì)網(wǎng)絡(luò)使用KITTI Tracking數(shù)據(jù)集進(jìn)行訓(xùn)練,在訓(xùn)練過程中凍結(jié)深度估計(jì)編碼器和位姿估計(jì)編碼器的參數(shù),不參與梯度下降法更新,僅對(duì)解碼器和進(jìn)行訓(xùn)練。與現(xiàn)有自監(jiān)督深度估計(jì)方法相同,本模型通過最小化平均光度重投影損失函數(shù)L來訓(xùn)練位姿估計(jì)網(wǎng)絡(luò):
式中是光度重建損失(photometric reconstruction error),該損失函數(shù)由結(jié)構(gòu)相似性損失(SSIM)和損失加權(quán)相加得到,其中=0.85。
1.5.2 第2階段
在整體模型訓(xùn)練的第2個(gè)階段,自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)將加載第1階段中微調(diào)過程中驗(yàn)證集損失最小的epoch保存的模型權(quán)重,并且在本輪不進(jìn)行訓(xùn)練。
自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)在訓(xùn)練過程中,以自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)輸出的歷史幀間的軸角和偏移量序列Seq作為網(wǎng)絡(luò)的輸入。模型使用預(yù)測(cè)的未來幀間的(,)與自車運(yùn)動(dòng)估計(jì)模塊輸出的未來幀間(,)計(jì)算MSE損失函數(shù)來訓(xùn)練網(wǎng)絡(luò):
式中:表示序列長(zhǎng)度;表示輸出數(shù)據(jù)維度。
1.5.3 第3階段
軌跡預(yù)測(cè)網(wǎng)絡(luò)使用KITTI Tracking數(shù)據(jù)集進(jìn)行訓(xùn)練,計(jì)算軌跡預(yù)測(cè)誤差時(shí)將考慮預(yù)測(cè)坐標(biāo)點(diǎn)與真實(shí)坐標(biāo)點(diǎn)的歐式距離誤差:
式中是當(dāng)前圖像中包含的目標(biāo)個(gè)數(shù)。
本研究使用KITTI數(shù)據(jù)集進(jìn)行模型訓(xùn)練和驗(yàn)證。KITTI數(shù)據(jù)集由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院共同研究制作,是目前最大規(guī)模的多場(chǎng)景自動(dòng)駕駛算法評(píng)測(cè)數(shù)據(jù)集之一。KITTI數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),每張圖像中最多達(dá)15輛車和30個(gè)行人,以10 Hz的頻率采樣。本研究使用了KITTI跟蹤數(shù)據(jù)集(KITTI Tracking)為軌跡預(yù)測(cè)提供所需要的目標(biāo)位置信息和身份信息。該數(shù)據(jù)集包含了20個(gè)場(chǎng)景下的視頻數(shù)據(jù)以及每個(gè)視頻中序列形式的目標(biāo)位置信息和身份信息,并且給定了各車載相機(jī)的內(nèi)參矩陣。本文提出的方法在訓(xùn)練時(shí)以車輛為目標(biāo),使用單幀檢索序列的方式提取訓(xùn)練數(shù)據(jù)。整體數(shù)據(jù)集共包含4 041條車輛軌跡,使用數(shù)據(jù)集的70%作為訓(xùn)練集,10%作為驗(yàn)證集,其余20%作為測(cè)試集。
在模型訓(xùn)練過程中,第1階段的損失函數(shù)為L,選用Adam優(yōu)化器作為參數(shù)更新優(yōu)化器,采用學(xué)習(xí)率=10進(jìn)行20個(gè)epoch訓(xùn)練,其中在第10個(gè)epoch后降低為原來的1/10。第2階段訓(xùn)練參數(shù)與第1階段相同,初始學(xué)習(xí)率=10。第3階段的訓(xùn)練優(yōu)化器和學(xué)習(xí)率保持不變,共訓(xùn)練30個(gè)epoch,=1×10每過10個(gè)epoch降低為原來的1/2。
本研究劃分的測(cè)試集共包含789條目標(biāo)軌跡。在試驗(yàn)中,共使用兩種模型作為基線與本文提出的模型進(jìn)行對(duì)比。第1種線性模型Linear包含3層線性層,前兩層后均包含激活函數(shù)leakyReLU,=0.1。第2種Seq2Seq為L(zhǎng)STM編解碼器模型,類似文獻(xiàn)[25]中提出的序列到序列的軌跡預(yù)測(cè)模型結(jié)構(gòu),該模型同樣采用NAR解碼方式,LSTM編碼器的隱藏狀態(tài)將作為解碼器的輸入向量。
測(cè)試共分析了模型的4個(gè)指標(biāo),每個(gè)指標(biāo)分別取預(yù)測(cè)時(shí)步為0.5 s/1.0 s/1.5 s的測(cè)試結(jié)果,對(duì)比結(jié)果如表1所示。指標(biāo)1為目標(biāo)預(yù)測(cè)邊界框與邊界框真值兩個(gè)角點(diǎn)的均方誤差,單位為像素;指標(biāo)2為目標(biāo)預(yù)測(cè)邊界框與邊界框真值中心點(diǎn)的均方誤差;指標(biāo)3為完整預(yù)測(cè)序列(15幀)中目標(biāo)預(yù)測(cè)邊界框與邊界框真值中心點(diǎn)的均方誤差;指標(biāo)4為預(yù)測(cè)目標(biāo)邊界框與邊界框真值的IoU值,該指標(biāo)能直觀描述預(yù)測(cè)的目標(biāo)邊界框與實(shí)際邊界框的接近程度。
表1 所提模型在KITTI Tracking數(shù)據(jù)集的對(duì)比測(cè)試
對(duì)比表明,本文所提模型在3項(xiàng)誤差指標(biāo)都小于其他模型,而交并比都大于其他模型。其中,線性模型對(duì)輸入特征序列與未來軌跡之間映射關(guān)系的建模精度最低。
特別是,所提模型在和兩個(gè)重要指標(biāo)上較基線模型達(dá)到了更優(yōu)異的效果。其中指標(biāo)在0.5 s(第5幀)時(shí)預(yù)測(cè)的中心均方誤差僅為43像素,在1.5 s(第15幀)預(yù)測(cè)的誤差僅為321像素;指標(biāo)中所展示的3個(gè)時(shí)步的都在0.5以上,在現(xiàn)有各數(shù)據(jù)集目標(biāo)預(yù)測(cè)方法評(píng)價(jià)指標(biāo)中,=0.5為最低檢出值。結(jié)果表明,基于自車位姿預(yù)測(cè),在自車視角下實(shí)現(xiàn)目標(biāo)軌跡序列的歸一化處理,能夠很好地提升預(yù)測(cè)精度,所提模型在車輛和行人目標(biāo)的軌跡預(yù)測(cè)方面均具有較優(yōu)的性能。
表2為文獻(xiàn)中幾種模型在包含行人目標(biāo)的JAAD數(shù)據(jù)集上進(jìn)行軌跡預(yù)測(cè)的結(jié)果。其中,的3個(gè)數(shù)值與預(yù)測(cè)時(shí)步為0.5 s/1.0 s/1.5 s相對(duì)應(yīng)。表中順便附上本研究所提模型在KITTI Tracking數(shù)據(jù)集上的測(cè)試結(jié)果,但僅供參考對(duì)照。因?yàn)楸M管JADD和KITTITracking兩個(gè)數(shù)據(jù)集皆為視頻數(shù)據(jù)集,且其預(yù)測(cè)軌跡亦皆以像素為單位,但畢竟是兩個(gè)不同的數(shù)據(jù)集,不宜做嚴(yán)格意義上的對(duì)比。
表2 幾種模型在JAAD數(shù)據(jù)集上測(cè)試結(jié)果的對(duì)比
所提模型不同訓(xùn)練階段的消融試驗(yàn)結(jié)果如表3所示。第1種為一階段訓(xùn)練,即從自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)到自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)以及最后的軌跡預(yù)測(cè)網(wǎng)絡(luò)直接進(jìn)行端到端的訓(xùn)練,使用的損失函數(shù)為∑(,,)。第2種為二階段訓(xùn)練,該訓(xùn)練過程為首先微調(diào)自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò),然后凍結(jié)自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)的模型權(quán)重,將自車運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)和軌跡預(yù)測(cè)網(wǎng)絡(luò)放在一起進(jìn)行訓(xùn)練。最后則為本研究提出的完整三階段訓(xùn)練方式,將3個(gè)網(wǎng)絡(luò)分別訓(xùn)練。
表3 所提模型在不同訓(xùn)練階段的指標(biāo)對(duì)比
結(jié)果表明,多階段訓(xùn)練對(duì)模型預(yù)測(cè)精度的提升是正相關(guān)的。對(duì)比一階段試驗(yàn)結(jié)果與兩個(gè)基線網(wǎng)絡(luò)的試驗(yàn)結(jié)果的各項(xiàng)指標(biāo),可以看出如果自車運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)輸出的視覺里程計(jì)信息存在誤差,則該誤差將累計(jì)到后續(xù)網(wǎng)絡(luò)中,導(dǎo)致預(yù)測(cè)結(jié)果產(chǎn)生較大的誤差。因此,使用三階段的訓(xùn)練方式能夠有效提高整體模型的軌跡預(yù)測(cè)效果。
圖5為本文所提模型在不同場(chǎng)景下測(cè)試效果,包含周邊單車和周邊多車場(chǎng)景。在單車輛場(chǎng)景中,目標(biāo)車輛與自車保持較小的相對(duì)運(yùn)動(dòng),所提模型在3個(gè)關(guān)鍵幀上均具有精準(zhǔn)的預(yù)測(cè)效果;在多車場(chǎng)景中,各車輛均與自車保持一定速度的相對(duì)運(yùn)動(dòng),其中第2列的目標(biāo)車輛處于運(yùn)動(dòng)狀態(tài),第3列的目標(biāo)車輛處于靜止?fàn)顟B(tài),表征真值的綠色框和表征預(yù)測(cè)值的紅色框重合率高,體現(xiàn)了所提方法較好的預(yù)測(cè)精度。另一方面,所提方法在對(duì)周邊處于靜止?fàn)顟B(tài)車輛的預(yù)測(cè)誤差相對(duì)比處于運(yùn)動(dòng)狀態(tài)車輛大,其原因可能在于靜止車輛與自車相對(duì)運(yùn)動(dòng)速度較大且方向相反,對(duì)模型預(yù)測(cè)產(chǎn)生了影響。
圖5 KITTI Tracking數(shù)據(jù)集下的典型測(cè)試結(jié)果(綠色為真實(shí)邊界框,紅色為預(yù)測(cè)框)
本文中提出了自車視角下的周邊多目標(biāo)軌跡預(yù)測(cè)方法,利用車載單目視覺建立視覺里程計(jì),實(shí)現(xiàn)自車運(yùn)動(dòng)狀態(tài)的預(yù)測(cè),據(jù)此,將周邊多目標(biāo)運(yùn)動(dòng)序列在自車視角下進(jìn)行歸一化處理,消除了現(xiàn)有方法因忽略自車位姿導(dǎo)致的預(yù)測(cè)誤差,基于公開數(shù)據(jù)集的對(duì)比測(cè)試驗(yàn)證了所提方法的優(yōu)越性。未來,將圍繞復(fù)雜交通場(chǎng)景下不同類別目標(biāo)的運(yùn)動(dòng)模式和交互關(guān)系開展深入研究,進(jìn)一步提升長(zhǎng)時(shí)域預(yù)測(cè)的精度。