張雪翔 吳訓成 史訓昂 侍俊
摘? 要: 為了在復雜的城市交通環(huán)境中安全且舒適的導航,自動駕駛汽車必須對周圍交通代理(車輛,自行車,行人等)的未來軌跡做出負責任的預測。為此,我們提出了一種基于分層時空圖結構的異構交通代理軌跡預測模型LSTGHP,模型由以下三部分組成:(1)分層時空圖模塊;(2)Ego-agent Motion模塊;(3)軌跡預測模塊,其可以學習到場景中具有不同語義類別的交通代理未來軌跡的多模態(tài)分布。為了評估模型的性能,我們在由一個時變、高動態(tài)的城市交叉路口環(huán)境下收集異構交通代理的軌跡數據集,其中車輛,自行車和行人在場景中彼此交互運動。實驗結論表明,我們的模型可以提高代理在近距離交互時的預測準確性。通過模型在新數據集上的性能評估,與先前的預測方法相比,模型在異構交通代理軌跡預測中具有較低的預測誤差。
關鍵詞: 交叉路口;分層時空圖;LSTGHP;異構交通代理;軌跡預測
中圖分類號: TP391.41? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.09.010
本文著錄格式:張雪翔,吳訓成,史訓昂,等. LSTGHP:基于分層時空圖的異構代理軌跡分布預測[J]. 軟件,2020,41(09):3642
【Abstract】: In order to navigate safely and comfortably in a complex urban traffic environment, autonomous vehicles must make responsible predictions about the future trajectories of surrounding traffic agents (vehicles, bicycles, pedestrians, etc.). To this end, we propose a heterogeneous traffic agent trajectory prediction model LSTGHP based on a layered spatiotemporal graph structure. The model consists of the following three parts: (1) Layered Spatio-Temporal Graph module; (2) Ego-agent Motion module; (3) Trajectory Prediction module, which can learn the multimodal distribution of the future trajectories of traffic agents with different semantic categories in the scene. To evaluate the performance of the model, we collected trajectory data sets of heterogeneous traffic agents in a time-varying, highly dynamic urban intersection environment in which vehicles, bicycles, and pedestrians interacted with each other in the scene. The experimental results show that our model can improve the prediction accuracy of agents in close interaction. Through the performance evaluation of the model on the new data set, compared with the previous prediction methods, the model has a lower prediction error in the trajectory prediction of heterogeneous traffic agents.
【Key words】: Intersection; Layered spatio-temporal graph; LSTGHP; Heterogeneous transportation agents; Trajectory prediction
0? 引言
自動駕駛作為人機交互的典型場景之一,其任務是使車輛在感知周圍環(huán)境的同時,預測相鄰交通代理的行為意圖,從而實現自我車輛的路徑規(guī)劃和運動決策。目前,挑戰(zhàn)主要是出現在人口稠密、交通流量大、車道結構復雜的城市交叉路口環(huán)境中,其交通是由不同形狀、動力學、行為和類型的交通代理組成,包括汽車、自行車、行人等。已有大量研究致力于預測城市交叉路口交通參與者的未來狀態(tài)。一些研究采用LSTM網絡對交通代理運動的時序關系進行建模,根據其自身的歷史和當前狀態(tài)來預測未來軌跡的分布[1-4],局限性在于只能預測單一類型的交通代理(例如,汽車、行人或自行車),無法學習到復雜環(huán)境中異構交通代理之間的交互關系。而Lambert等人的結果和分析表明在環(huán)境對車輛未來移動軌跡的約束中,車道結構的約束可能占主導地位[5-6]。目前,大多數研究方法僅僅是把道路結構信息看作是歐幾里得數據[7],無法捕獲其對于代理未來運動軌跡的實質影響,特別是在道路結構復雜的交叉路口環(huán)境中。
針對于當前代理軌跡預測模型普遍存在的問題,我們在本文中提出的LSTGHP異構代理軌跡預測模型主要由以下三部分組成:(1)分層時空圖模塊:利用時空圖分別學習代理與動靜態(tài)環(huán)境之間的時空交互關系,更新異構代理的隱藏狀態(tài)表示;(2)自我代理運動模塊:考慮到周圍代理對自我代理運動的響應,編碼自我代理的未來行為來提高代理近距離交互時的預測精度;(3)軌跡預測模塊:我們將軌跡預測問題轉化為重構問題,通過最小化模型的重構損失和散度損失來訓練模型。在代理未來軌跡重構上,我們通過對潛在變量的次采樣來生成代理多個未來軌跡。最后,我們利用聯(lián)合概率密度函數對生成的軌跡進行排序來求出異構代理最可能的未來軌跡。
1? 方法
1.1? 問題定義
為了在高度動態(tài)的場景中生成異構代理合理的軌跡分布,我們假設場景中時變代理數量,其交互代理的集合表示為。每一個代理都有一個語義類別(車輛、自行車、或行人),在時刻上的代理狀態(tài)表示為,其中則表示代理在時間步長上的歷史軌跡位置??紤]到異構代理在交叉路口附近的未來運動會受到道路環(huán)境的約束,我們假定在固定時間步長內,單個代理周圍的靜態(tài)環(huán)境由條車道和一條人行橫道組成。
與其它先前的工作不同,為了進一步提高代理在近距離交互時的預測精度,我們充分考慮了異構代理對自我代理未來計劃運動的響應。因此,我們假設自我代理在時間步長內的運動計劃為,其可以從自我代理先前的運動規(guī)劃或當前運動假設獲得。
在訓練期間,我們采用CVAE生成模型將軌跡預測問題轉化為生成重構問題,在未來真實軌跡已知的前提下,通過比較代理的預測軌跡和的重構損失、KL-divergence loss損失來訓練我們提出的模型,從而能從采樣的條生成軌跡中選出最可能的代理軌跡? 。
1.2? LSTGHP
為了解決現有方法的局限性,充分考慮多異構代理與動靜態(tài)環(huán)境之間的時空交互演化。在較高的層次上,我們根據交叉路口場景的交互拓撲結構創(chuàng)建代理-道路交互時空圖、代理-代理交互時空圖,并結合深度生成模型CVAE來預測異構代理的節(jié)點屬性演化。我們的模型LSTGHP如圖1所示,其主要由三部分組成:(1)分層時空圖模塊;(2)自我代理運動模塊;(3)軌跡預測模塊。
1.2.1? 分層時空圖模塊
(1)靜態(tài)交互層
靜態(tài)交互圖建立。為了顯式的描述單一異構代理與車道、人行橫道的成對交互關系,我們建立了一個靜態(tài)交互圖:,其中交互圖節(jié)點的集合是,時間邊的集合是,空間邊的集合是。
其中包含兩種類型的結點:給定時間內,代表任一異構代理結點類型,則代表被預測代理周圍的車道數,節(jié)點和節(jié)點之間的成對關系組成了靜態(tài)交互圖的空間邊。圖的時間邊則是由代理的狀態(tài)演變和代理-道路關系隨時間的變化組成。簡而言之,它可以被看作是任一代理的運動歷史,以及它與周圍道路的時空變化關系而形成的靜態(tài)交互時空圖,如圖2所示。
道路-代理關系演化。異構代理的運動除了受到自身固有結構和動力學約束以外,更多的是由代理的運動意圖所決定的,比如在交叉路口處,行人和自行車
過馬路時大多會把注意力放在人行橫道上,而車輛則會遵循一個或幾個車道來避免與周圍代理發(fā)生碰撞。因此,我們通過LSTM網絡去捕獲不同語義類型的代理與其周圍道路的變化關系來推斷異構代理的運動意圖。
首先,我們將代理在時間上的新位置投影到每一個車道上以獲得投影點的狀態(tài)表示。然后,我們利用MLP去嵌入代理位置與其對應多投影點之間的差值向量:(2)。最后,如公式(3)所示,此嵌入向量與先前隱藏狀態(tài)通過LSTM模塊更新時間邊上代理-道路成對關系的隱藏狀態(tài),從而學習代理與第個車道的時間演化關系。
道路-代理關系聚合。為了聚合代理與其周圍車道、人行橫道的演化關系,并將其作為代理結點的特征之一來預測代理的狀態(tài)演化。對于每一條車道和人行橫道,我們使用MLP網絡對其相對于異構代理的當前位置、未來的形態(tài)進行了編碼,如公式(4)和(5)所示,公式(6)則使用concat操作連接編碼向量和隱藏狀態(tài)來編碼每條車道和人行橫道對異構代理的影響:
為了有效匯總道路與異構代理之間的關系編碼,考慮到場景中的車道數是可變的,并且車道或人行橫道在異構代理的未來運動中扮演的角色是不同的。在這里我們假設代理類型代表行人,代表車輛,代表自行車,在匯總行人、自行車代理的道路編碼時,我們選擇最接近代理的單車道編碼;而在匯總車輛代理的道路編碼時,我們考慮到駕駛員對每條車道或人行橫道的關注不同,根據和來計算每條車道或人行橫道的注意力得分并加權求和,道路匯總編碼如下所示:
(2)動態(tài)交互層
動態(tài)交互圖建立。對于代理軌跡預測問題,除了考慮代理與靜態(tài)環(huán)境之間的交互外,我們還需要去描述在觀察序列內代理與代理之間的交互關系。為此,我們建立一個有向動態(tài)交互圖: ,交互圖的節(jié)點集合表示場景中的異構代理數量,時間邊表示代理在時間序列上的狀態(tài)演變,空間邊則表示異構代理間的空間交互,如圖所示,其中在具有相同語義類型的節(jié)點和邊緣之間共享參數,這使得模型可以容納其他節(jié)點代理而無需增加參數大小,只需為每種類型的節(jié)點和邊緣學習一組參數即可。
代理-代理關系演化。為了形象的描述周圍節(jié)點代理對被預測節(jié)點代理的影響,我們利用邊緣LSTM去學習動態(tài)交互圖時間邊和空間邊的狀態(tài)表示。每一個邊緣LSTM都是以在時刻相連接的兩個節(jié)點代理的特征差值作為輸入,對于空間邊,表示為在時間步長上一組節(jié)點的空間距離;對于時間邊,特征差值則表示為單一節(jié)點在相鄰時間上的相對距離變化,我們利用MLP嵌入邊緣輸入,其節(jié)點空間邊的隱藏狀態(tài)如下所示:
代理-代理關系聚合。為了減少模型的計算開銷,在這里我們用兩個節(jié)點間的距離來判斷節(jié)點之間是否會產生影響,從而確定被預測代理周圍的相鄰結點數量()。然后,我們利用注意力模塊來匯總所有相鄰結點的輸入,此模塊將所有相鄰節(jié)點的時間邊緣隱藏狀態(tài)和空間邊緣隱藏狀態(tài)作為輸入,并對異構代理類型使用相同的權重和來使輸入線性轉化為長度為的向量。最后,通過計算被轉換的和之間的Scaled dot product attention得到加權后的所有相鄰節(jié)點代理的空間邊緣狀態(tài):
異構代理狀態(tài)表示。在異構節(jié)點的隱藏狀態(tài)表示上,我們合并了道路匯總編碼、異構代理在當前時間步長上的節(jié)點編碼向量、相鄰節(jié)點時間邊和空間邊的聯(lián)合狀態(tài)編碼向量,并將此傳遞給權重為的LSTM單元。其異構代理的隱藏狀態(tài)為:
1.2.2? 自我代理運動模塊
為了模擬當自我代理采取不同的未來行為時,周圍代理可能會做出的運動響應,從而提高在近距離交互時代理軌跡的預測精度??紤]到bi-directional LSTM在序列匯總任務上的優(yōu)異表現,我們使用一個具有256個隱藏單元的bi-directional LSTM模塊去編碼自我代理在時刻的運動計劃。最后,我們通過合并編碼所得的隱藏狀態(tài)和異構代理的隱藏狀態(tài)來生成單個節(jié)點的表示向量。
1.2.3? 軌跡預測模塊
在模型的訓練期間,我們同樣使用具有512個隱藏單元的bi-directional LSTM模塊來對節(jié)點未來的真實軌跡進行編碼,其表示向量為。之后,我們分別將和送入帶有ReLU激活函數的全連接層(FC)進行特征融合,其輸出被分別定義為和。為了學習潛在變量的分布,我們將代理歷史軌跡的特征表示和代理未來真實軌跡的特征表示進行合并,并將其作為全連接層的輸入特征去學習變量的均值和方差分布。最后,我們合并和被采樣的潛在變量,并將其送入解碼器來重構代理的預測軌跡。模型中的解碼器是由一個全連接層和一個256維的LSTM序列預測模塊組成。
1.3? 模型訓練和軌跡排序
模型訓練。我們利用CVAE模型僅僅通過一個輸入變量即可生成多個輸出變量的機制,將異構代理的歷史軌跡和未來真實軌跡編碼為訓練中的一組潛在變量,并且通過對潛在變量的采樣來重構異構代理的未來軌跡:
等式(12)表示軌跡的重構過程,其目標就是通過最小化軌跡重構損失和 散度損失來最大化條件概率,從而使得代理的重構軌跡盡可能接近真實值和潛在變量符合高斯分布,變量參數化表示為(服從高斯分布)。
考慮到異構代理軌跡分布的多模態(tài),我們對潛在變量進行次采樣來生成異構代理的條未來軌跡,具體公式如下:
軌跡排序。為了在條重構軌跡中找出最可能的軌跡,我們利用二元高斯分布對代理預測的多軌跡進行排序。首先,我們把預測代理的未來狀態(tài)定義為,其預測的位置被用來擬合一個二元高斯分布。最后,我們用聯(lián)合概率密度函數對代理生成的軌跡進行排序來求:
2? 實驗
2.1? 數據集
我們提出了一個新的異構代理軌跡數據集IVBP,其目的是為了研究城市交叉路口附近異構代理軌跡的預測、自主規(guī)劃和仿真任務。IVBP數據集的采集方式主要是通過多種傳感器,包括前置攝像頭、雷達、GPS,采樣周期是0.1秒,并通過深度學習的檢測和跟蹤算法提取多代理的軌跡、類別信息和其周圍的車道信息??傮w而言,IVBP數據集每幀大約包含19輛車輛、4輛自行車、6名行人等,其每幀的分辨率為1920×1080,每幀中的注釋均是以米為單位的代理空間坐標、代理和道路的ID、類別組成。下面我們會在表一中將我們提出的數據集與現有的混合交通場景數據集進行對比。
2.2? 實施細節(jié)
對于分層時空圖模塊中的LSTM單元,在靜態(tài)交互層中,我們選擇64維隱藏單元的LSTM模塊來表示
代理與道路的成對交互關系;在動態(tài)交互層中,當兩個代理節(jié)點的距離小于25英尺時,我們則考慮代理間的交互并利用16維隱藏單元的LSTM模塊來表示代理與代理之間的成對交互關系。最后,對于被預測代理自身隱藏狀態(tài)的描述,則使用256維的LSTM模塊來聚合動靜態(tài)環(huán)境對其的影響。對于模型的訓練和測試,我們的方法是使用代理3秒內的歷史軌跡來采樣預測其未來5秒空間坐標的可能分布,其潛在變量的維度是16。我們模型的主要架構是基于Tensorflow深度學習框架,其是在單個Nvidia Titan-V GPU上進行訓練。我們使用初始學習率為0.001的Adam優(yōu)化器對模型進行優(yōu)化,其主要是通過每隔3個批次乘以0.1來降低學習率直到模型損失收斂。
3? 結果分析
本論文將現有的軌跡預測模型RNN-ED(ED)、Social-GAN[8](SGAN)、SS-LSTM[9](SSL)、TraPHic[10](TP)和本文提出的模型LSTGHP及其變體進行定量和定性分析,其模型變體如下所示:
(1)LSTGHP-NoSI:我們方法的一種沒有靜態(tài)交互層的版本,其不考慮道路結構環(huán)境對于交通代理的運動約束。
(2)LSTGHP-NoEM:我們方法的一種沒有自我代理運動模塊的版本。在本方法中,我們雖然考慮了靜態(tài)場景對代理未來運動的影響,但是在代理近距離交互時,沒有考慮其他代理對自我代理未來計劃運動的響應。
(3)LSTGHP:作為我們主要的方法,其不僅考慮了交通異構代理的動態(tài)和靜態(tài)交互,而且編碼自我代理的未來運動計劃來描述其在未來預測上的影響。
3.1? 定量分析
在圖4-5中我們對比了所有現有方法和我們提出的算法在不同混合交通數據集上的性能。我們分別計算了不同預測方法針對于異構交通代理的平均位移誤差(ADE)和最終位移誤差(FDE),其誤差是以米為單位來度量的。相比于ApolloScape數據集,我們的IVBP數據集有較高的稠密性,在其上訓練的預測模型,都具有較低的預測誤差。相比于確定性的軌跡預測模型,我們的基線模型LSTGHP的性能優(yōu)于所有預測單一軌跡的方法,其預測準確率提高了將近40%。這意味著我們的模型有效的學習到了異構交通代理未來的運動模式,其更適用于異構的交通條件。
而針對于代理軌跡生成的分布預測,我們的基線模型和其兩種變體在每個數據集上都普遍優(yōu)于Social-GAN模型,其中LSTGHP-NoSI與Social-GAN模型有較為接近的預測誤差,并且我們的基線方法的誤差分布(如圖4-5中的黃色方框圖所示)通常也較低且更集中。同時,我們對于每一個軌跡分布預測模型都采集了200多條預測軌跡,我們發(fā)現我們的基線模型表現得更好,其代理軌跡的輸出緊緊圍繞未來軌跡的真實值,如圖6所示。
3.2? 定性分析
我們基于現有的RNN-ED(ED)、Social-GAN(SGAN)、SS-LSTM(SSL)、TraPHic(TP)和提出的LSTGHP預測方法,對異構交通代理未來的2D行駛軌跡進行了預測,其預測結果如圖7所示。從定性分析結果中,我們發(fā)現我們的模型對城市中異構交通代理未來軌跡的預測是有效的,相比于其他方法,其預測出的代理軌跡是最接近真實值的,特別是在交叉路口處,由于代理的轉彎,有許多軌跡曲線是高曲率的,但我們的模型依舊能夠計算出代理精確的未來軌跡,而且如果我們有一個較長時間的歷史軌跡,預測精度會進一步提高。我們也發(fā)現盡管我們的方法能夠正確地預測代理的軌跡,但是隨著時間的推移,預測的彈道會發(fā)生很大的變化,其間接證明了我們模型的有效性。由于在長期預測中代理未來運動的不確定性越來越大,因此預測多個可能軌跡的能力在本論文中具有十分重要的意義。
4? 總結
在這篇論文中,我們提出了LSTGHP預測模型對城市中復雜異構交通代理的未來軌跡進行了預測。我們在模型中使用動靜態(tài)交互層分別捕獲了交通代理與道路結構、交通代理之間的時空交互關系,并將其編碼之后使用LSTM模塊進行了傳遞。為了進一步分析代理在近距離交互時所受的影響,我們編碼自我代理未來的運動行為并與被預測代理的隱藏狀態(tài)進行聯(lián)合預測,從而有效的提高了代理在近距離交互時的預測精度。從實驗中可知,我們的方法在新收集的混合交通數據集IVBP上的軌跡預測精度方面優(yōu)于以往的最新方法,并且我們的算法是實時的。
我們的方法也有一些局限性。對于代理-代理和代理-道路之間交互的考慮,我們的算法使用的是兩兩交互的方式,其會極大地增加計算的消耗,我們今后會探索全局交互的方式來進一步增加算法的實時性。在未來,我們也會考慮更多的約束條件,如異構代理的運動學約束、交通信號和交通規(guī)則,從而進一步提高預測的精度。此外,我們也希望在更加密集的混合交通場景中評估模型的性能。
參考文獻
[1]H Cui, V Radosavljevic, F -C Chou, et al. Multimodal trajectory predictions for autonomous driving using deep convolutional networks. In 2019 International Conference on Robotics and Automation (ICRA), pages 2090-2096. IEEE, 2019.
[2]N. Deo and M. M. Trivedi. Multi-modal trajectory prediction of surrounding vehicles with maneuver based lstms. In 2018 IEEE Intelligent Vehicles Symposium (IV), pages 1179-1184. IEEE, 2018.
[3]F. Altché and A. de La Fortelle. An lstm network for high way trajectory prediction. In 2017 IEEE 20th Inte rnational Conference on Intelligent Transportation Systems (ITSC), pages 353-359. IEEE, 2017.
[4]賈朝龍, 王雪純, 曾友渝, 等. 不確定交通流實時可視化及短時預測方法研究[J]. 軟件, 2018, 39(8): 01-04.
[5]Lambert J, Chang M -F, Sangkloy P, et al. Argoverse: 3D tracking and forecasting with rich maps. In IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2019.
[6]姜雪原. 基于動態(tài)規(guī)劃算法的軌跡地圖匹配軟件設計與實現[J]. 軟件, 2015, 36(5): 108-112.
[7]Djuric N, Radosavljevic V, Cui H, et al, J. Motion prediction of traffic actors for autonomous driving using deep convolutional networks. 2018.
[8]Agrim Gupta, Justin Johnson, Li Fei-Fei, et al. Social GAN: Socially acceptable trajectories with generative adversarial networks. In IEEE Conf. on Computer Vision and Pattern Recognition, 2018.
[9]Xue H, Huynh D Q, Reynolds M. SS-LSTM: A hierarchical LSTM model forpedestrian trajectory prediction. In IEEE Winter Conf. on Applications of Computer Vision (WACV). 2018.
[10]Rohan Chandra, Uttaran Bhattacharya, Aniket Bera, et al. Traphic: Trajectory prediction in dense and heterogeneous traffic using weighted interactions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recog nition, pages 8483-8492, 2019.