孫亞圣 姜奇 胡潔 戚進(jìn) 彭穎紅
摘 要:針對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)在行人軌跡預(yù)測(cè)問題中孤立考慮單個(gè)行人,且無法進(jìn)行多種可能性預(yù)測(cè)的問題,提出基于注意力機(jī)制的行人軌跡預(yù)測(cè)生成模型(AttenGAN),來對(duì)行人交互模式進(jìn)行建模和概率性地對(duì)多種合理可能性進(jìn)行預(yù)測(cè)。AttenGAN包括一個(gè)生成器和一個(gè)判別器,生成器根據(jù)行人過去的軌跡概率性地對(duì)未來進(jìn)行多種可能性預(yù)測(cè),判別器用來判斷一個(gè)軌跡是真實(shí)的還是由生成器偽造生成的,進(jìn)而促進(jìn)生成器生成符合社會(huì)規(guī)范的預(yù)測(cè)軌跡。生成器由一個(gè)編碼器和一個(gè)解碼器組成,在每一個(gè)時(shí)刻,編碼器的LSTM綜合注意力機(jī)制給出的其他行人的狀態(tài),將當(dāng)前行人個(gè)體的信息編碼為隱含狀態(tài)。預(yù)測(cè)時(shí),首先用編碼器LSTM的隱含狀態(tài)和一個(gè)高斯噪聲連接來對(duì)解碼器LSTM的隱含狀態(tài)初始化,解碼器LSTM將其解碼為對(duì)未來的軌跡預(yù)測(cè)。在ETH和UCY數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,AttenGAN模型不僅能夠給出符合社會(huì)規(guī)范的多種合理的軌跡預(yù)測(cè),并且在預(yù)測(cè)精度上相比傳統(tǒng)的線性模型(Linear)、LSTM模型、社會(huì)長(zhǎng)短期記憶網(wǎng)絡(luò)模型(S-LSTM)和社會(huì)對(duì)抗網(wǎng)絡(luò)(S-GAN)模型有所提高,尤其在行人交互密集的場(chǎng)景下具有較高的精度性能。對(duì)生成器多次采樣得到的預(yù)測(cè)軌跡的可視化結(jié)果表明,所提模型具有綜合行人交互模式,對(duì)未來進(jìn)行聯(lián)合性、多種可能性預(yù)測(cè)的能力。
關(guān)鍵詞:軌跡預(yù)測(cè);長(zhǎng)短期記憶網(wǎng)絡(luò);生成對(duì)抗網(wǎng)絡(luò);注意力機(jī)制;行人交互
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2019)03-0668-07
Abstract: Aiming at that Long Short Term Memory (LSTM) has only one pedestrian considered in isolation and cannot realize prediction with various possibilities, an attention mechanism based generative model for pedestrian trajectory prediction called AttenGAN was proposed to construct pedestrian interaction model and predict multiple reasonable possibilities. The proposed model was composed of a generator and a discriminator. The generator predicted multiple possible future trajectories according to pedestrians past trajectory probability while the discriminator determined whether the trajectories were really existed or generated by the discriminator and gave feedback to the generator, making predicted trajectories obtained conform social norm more. The generator consisted of an encoder and a decoder. With other pedestrians information obtained by the attention mechanism as input, the encoder encoded the trajectories of the pedestrian as an implicit state. Combined with Gaussian noise, the implicit state of LSTM in the encoder was used to initialize the implicit state of LSTM in the decoder and the decoder decoded it into future trajectory prediction. The experiments on ETH and UCY datasets show that AttenGAN can provide multiple reasonable trajectory predictions and can predict the trajectory with higher accuracy compared with Linear, LSTM, S-LSTM (Social LSTM) and S-GAN (Social Generative Adversarial Network) models, especially in scenes of dense pedestrian interaction. Visualization of predicted trajectories obtained by the generator indicated the ability of this model to capture the interaction pattern of pedestrians and jointly predict multiple reasonable possibilities.
Key words: trajectory prediction; Long Short Term Memory (LSTM); Generative Adversarial Network (GAN); attention mechanism; pedestrian interaction
0 引言
行人軌跡預(yù)測(cè)是指根據(jù)行人過去一段時(shí)間的軌跡,預(yù)測(cè)其未來的軌跡,該技術(shù)在自動(dòng)駕駛[1]和服務(wù)機(jī)器人導(dǎo)航[2-3]中都有著廣泛的應(yīng)用。行人在決策的過程中比較靈活主觀,甚至完全相同的場(chǎng)景,不同的人都會(huì)采取不同的決策,其機(jī)動(dòng)性和靈活性大大增加了該問題的難度,其具體的難點(diǎn)可以概括為以下幾個(gè)方面:
1)如何預(yù)測(cè)出既符合物理約束,又符合社會(huì)規(guī)范的軌跡。符合物理約束指預(yù)測(cè)出的軌跡應(yīng)該是物理可行的,例如一個(gè)人不能穿過另一個(gè)人等。符合社會(huì)規(guī)范指行人的一些社會(huì)學(xué)行為,例如結(jié)伴而行、相互禮讓等。
2)如何對(duì)多個(gè)行人之間的相互影響進(jìn)行建模。行人在作決策時(shí)不是獨(dú)立的,而是存在例如躲避、追趕、跟隨、超過等交互性的行為。
3)如何預(yù)測(cè)出多個(gè)合理的軌跡。在實(shí)際場(chǎng)景中,往往不只有一種軌跡符合條件,通常有多個(gè)軌跡都是合理的。
目前行人軌跡預(yù)測(cè)方法主要有4類:基于社會(huì)力模型、基于馬爾可夫模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)和基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)的方法。
基于社會(huì)力模型[4]的方式根據(jù)引力與斥力的方式對(duì)行人進(jìn)行建模,認(rèn)為行人的目標(biāo)會(huì)對(duì)行人產(chǎn)生引力進(jìn)而吸引他們向目標(biāo)走,行人之間產(chǎn)生斥力進(jìn)而防止行人之間發(fā)生碰撞。該類模型具有模型簡(jiǎn)單直觀、復(fù)雜性低的優(yōu)點(diǎn);但存在模型對(duì)模型參數(shù)過于敏感,模型能力不夠強(qiáng),泛化能力差,無法對(duì)于行人一些社會(huì)性的行為如結(jié)隊(duì)而行等進(jìn)行描述的缺陷。在基于社會(huì)力模型思想的基礎(chǔ)上,為了可以概率性地預(yù)測(cè)軌跡而不是給出單一的軌跡,Trautman等[5]提出了交互式高斯過程IGP,利用高斯過程對(duì)每一個(gè)行人的軌跡進(jìn)行預(yù)測(cè),并根據(jù)社會(huì)力模型的勢(shì)函數(shù)計(jì)算該預(yù)測(cè)的概率,進(jìn)而在預(yù)測(cè)的過程中考慮了行人之間的相互影響,同時(shí)能夠概率性地預(yù)測(cè)未來的軌跡。
Morris等[6]使用基于隱含馬爾可夫模型的方法對(duì)不同類別行人的軌跡進(jìn)行時(shí)空的概率性建模。Kitani等[7]使用基于隱含馬爾可夫過程的方式對(duì)行人進(jìn)行建模,并使用反向強(qiáng)化學(xué)習(xí)的方式訓(xùn)練模型參數(shù),進(jìn)而學(xué)習(xí)外界靜態(tài)的物理環(huán)境對(duì)行人的影響。
近年來隨深度學(xué)習(xí)的發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的建模方式成為研究熱點(diǎn),由于行人軌跡預(yù)測(cè)本質(zhì)上是一個(gè)時(shí)序序列,故其主要以循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)為代表性的建模方式。但RNN無法進(jìn)行高層次的空間關(guān)系建模,為刻畫行人在空間的交互,Alahi等[8]提出了社會(huì)長(zhǎng)短期記憶網(wǎng)絡(luò)模型(Social Long Short Term Memory, S-LSTM),首先對(duì)空間進(jìn)行網(wǎng)格化,并根據(jù)網(wǎng)格直接對(duì)每個(gè)個(gè)體附近網(wǎng)格中的其他個(gè)體的隱含特征池化,利用該池化結(jié)果對(duì)個(gè)體進(jìn)行符合物理原理和社會(huì)規(guī)范的軌跡預(yù)測(cè)。但其假設(shè)對(duì)該個(gè)體的影響是由與該個(gè)體的位置遠(yuǎn)近決定的,而在實(shí)際中,一個(gè)個(gè)體的行為決策不僅與空間位置有關(guān),還與其他個(gè)體的運(yùn)動(dòng)方向、運(yùn)動(dòng)速度有關(guān),例如一個(gè)個(gè)體可能會(huì)提前行動(dòng)躲避前面一位比較遠(yuǎn)的與他相對(duì)而行的個(gè)體,而對(duì)于他后面距離比較近的個(gè)體并不會(huì)采取什么行動(dòng)。因此,Vemula等[9]中使用了結(jié)構(gòu)化RNN對(duì)各個(gè)個(gè)體建模,并利用時(shí)空關(guān)系圖來描述各個(gè)個(gè)體的隨時(shí)間和空間的軌跡變化規(guī)律,時(shí)空關(guān)系圖的每個(gè)節(jié)點(diǎn)代表每一個(gè)行人個(gè)體,每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)用空間邊相連,與自己用時(shí)間邊相連,空間邊和時(shí)間邊都用RNN來描述其隨時(shí)間的變化,最后在每個(gè)節(jié)點(diǎn)更新時(shí)使用注意力機(jī)制來融合與其相鄰的邊的信息,該方法較好地對(duì)時(shí)空進(jìn)行建模,但其計(jì)算復(fù)雜度相對(duì)較高。
Gupta等[10]將生成對(duì)抗網(wǎng)絡(luò)引入行人軌跡預(yù)測(cè)中,提出了社會(huì)對(duì)抗網(wǎng)絡(luò)(Social Generative Adversarial Network, S-GAN)模型,該模型提出了一種新的池化策略來描述該行人之間的影響,并利用了生成對(duì)抗網(wǎng)絡(luò)的思想進(jìn)一步強(qiáng)迫軌跡預(yù)測(cè)模塊預(yù)測(cè)出符合社會(huì)規(guī)范的軌跡。
鑒于基于生成對(duì)抗網(wǎng)絡(luò)方法預(yù)測(cè)的軌跡更加符合物理約束和社會(huì)規(guī)范,且通過生成器的采樣可以產(chǎn)生多個(gè)合理的軌跡。 故本文借助生成對(duì)抗網(wǎng)絡(luò)的思想,并使用注意力機(jī)制來融合行人之間的相對(duì)位置信息進(jìn)而對(duì)人群交互進(jìn)行建模。實(shí)驗(yàn)表明該方法可以有效地提高預(yù)測(cè)的精度,并且可以對(duì)多種合理的可能性進(jìn)行預(yù)測(cè)。
1 相關(guān)理論
1.1 注意力機(jī)制
注意力機(jī)制最早被用于圖像處理的領(lǐng)域[11],而后也被廣泛應(yīng)用在自然語言處理方向[12]。注意力機(jī)制的本質(zhì)是對(duì)于一組感興趣的特征中的每一個(gè)特征進(jìn)行softmax打分,例如這一組感興趣的特征可能是一幅圖片,那么就是對(duì)圖片中的每一個(gè)像素進(jìn)行打分,例如這一組感興趣的特征是一個(gè)句子,那么就是對(duì)該句子中的每一個(gè)單詞進(jìn)行打分。通常注意力機(jī)制的輸入為當(dāng)前狀態(tài)ht和感興趣的一組特征f=(f 1, f 2,…, f n),輸出為對(duì)這n個(gè)特征的softmax打分s=(s1,s2,…,sn),在后續(xù)處理中可以利用該打分對(duì)特征進(jìn)行過濾[13]或重新整合輸入到系統(tǒng)中。
1.2 生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(GAN)[14]由一個(gè)生成器(Generator, G)和一個(gè)判別器(Discriminator, D)組成。生成器的輸入為符合某種先驗(yàn)分布的噪聲,如高斯分布、均勻分布等,生成器學(xué)著把該分布變化為與樣本分布一致的分布;判別器的輸入為來自生成器中的樣本和來自訓(xùn)練集的樣本,判別器學(xué)著分辨一個(gè)樣本是由生成器生成的還是訓(xùn)練集中的。通過同時(shí)對(duì)生成器和判別器的博弈訓(xùn)練,生成器最終可以生成類似訓(xùn)練集的樣本。由于生成器學(xué)到的是一個(gè)和訓(xùn)練集類似的概率分布,每次采樣都會(huì)給出一個(gè)不同的合理樣本,故可以被用來對(duì)多種可能性進(jìn)行預(yù)測(cè)。
1.3 長(zhǎng)短期記憶網(wǎng)絡(luò)模塊
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被廣泛用來對(duì)時(shí)序序列建模,每一個(gè)時(shí)刻,RNN根據(jù)上一個(gè)時(shí)刻的狀態(tài)ht-1和當(dāng)前的輸入xt計(jì)算出當(dāng)前時(shí)刻的狀態(tài)ht,故每一個(gè)時(shí)刻狀態(tài)ht包含了它之前時(shí)刻的所有有用信息。
為了解決傳統(tǒng)RNN訓(xùn)練時(shí)后向傳播存在的梯度彌散的問題,長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)[15]被提出。通過加入輸入門、遺忘門和輸出門來在每個(gè)時(shí)刻有選擇地遺忘,有選擇地加入新的信息給當(dāng)前狀態(tài)ht,該策略使得后向誤差可以向前傳播很多步不消失。類似于RNN,LSTM網(wǎng)絡(luò)也可以表示為:
2 行人軌跡生成模型
2.1 問題定義
2.2 整體網(wǎng)絡(luò)結(jié)構(gòu)
2.3 注意力模塊
行人個(gè)體的行為決策不僅與他自己當(dāng)前的位置信息Xti和過去的狀態(tài)ht-1i有關(guān),也與他周圍的行人個(gè)體有關(guān)。為了刻畫他周圍的行人個(gè)體對(duì)他的影響,使用注意力機(jī)制來選擇對(duì)當(dāng)前行人有用的其他行為個(gè)體的位置信息Hti輸入到編碼器LSTM模塊。
2.4 編碼器模塊
編碼器模塊LSTM的輸入為注意力模塊提取的對(duì)當(dāng)前行人有用的周圍行人的位置信息Hti和當(dāng)前行人的位置信息Xti。
2.5 解碼器模塊
解碼器模塊LSTM的初始隱含狀態(tài)htdi由編碼器最后時(shí)刻t=tobs的狀態(tài)htei和高斯噪聲z決定。我們將htei經(jīng)過一個(gè)多層感知機(jī)模塊MLP(·)并與噪聲z連接得到htdi。
2.6 判別器
2.8 模型訓(xùn)練過程
對(duì)抗訓(xùn)練過程中,生成器G根據(jù)過去的軌跡Xi以及從先驗(yàn)噪聲分布中采樣的z偽造出未來可能的軌跡G(Xi,z),該軌跡輸入到判別器后得到D(G(Xi,z)),生成器盡力使其接近1,但判別器盡量使其接近0,在這樣的博弈訓(xùn)練過程中,最終兩者達(dá)到平衡,由此達(dá)到讓生成器預(yù)測(cè)出符合物理約束和社會(huì)規(guī)范的軌跡的目的。具體的訓(xùn)練過程見以下偽代碼。
為保證生成器生成軌跡的多樣性,在計(jì)算位置偏移損失時(shí),我們本文會(huì)進(jìn)行k次采樣,并選用損失最小的那組數(shù)據(jù)的對(duì)網(wǎng)絡(luò)進(jìn)行反向傳播優(yōu)化。由于訓(xùn)練時(shí)誤差回傳使用的是效果最好的一種猜測(cè),該種方式可以促進(jìn)模型大膽地對(duì)各種可能性進(jìn)行猜測(cè),而不是給出一個(gè)相對(duì)保險(xiǎn)的軌跡預(yù)測(cè),該策略可以有效地避免生成器預(yù)測(cè)的軌跡大都相似的問題[17]。本文中取k=10,在對(duì)模型評(píng)價(jià)的時(shí)候,同理也是隨機(jī)進(jìn)行k次采樣選用最小的偏移誤差作為模型在偏移誤差指標(biāo)上的最終表現(xiàn)。模型訓(xùn)練過程如GAN_LOOP所示。
網(wǎng)絡(luò)訓(xùn)練過程GAN_LOOP:
3 實(shí)驗(yàn)仿真與結(jié)果分析
本文在數(shù)據(jù)集ETH[18]和UCY[19]上驗(yàn)證所提出的AttenGAN模型,這兩個(gè)數(shù)據(jù)集包含五個(gè)不同的真實(shí)的行人交互的場(chǎng)景,ETH數(shù)據(jù)集包含ETH和Hotel兩個(gè)場(chǎng)景,UCY數(shù)據(jù)集包含Zara1、Zara2和Univ三個(gè)場(chǎng)景。實(shí)驗(yàn)運(yùn)行在Ubuntu 16.04 LTS 的操作系統(tǒng)上,GPU為NVIDIA GTX 1080TI,CPU為i7700k,采用Pytorch 0.4的深度學(xué)習(xí)框架,CUDA toolkit 8.0的運(yùn)行環(huán)境。
為驗(yàn)證本文提出的模型的有效性,選取了經(jīng)典的線性回歸模型Linear、樸素的長(zhǎng)短期記憶網(wǎng)絡(luò)模型LSTM以及最近提出的社會(huì)長(zhǎng)短期記憶網(wǎng)絡(luò)模型(S-LSTM)和社會(huì)對(duì)抗網(wǎng)絡(luò)模型(S-GAN)作對(duì)比。
3.1 模型參數(shù)與訓(xùn)練過程
網(wǎng)絡(luò)訓(xùn)練采用批量訓(xùn)練的方式,每一批包含64組數(shù)據(jù),每一組數(shù)據(jù)包含若干個(gè)行人,觀測(cè)序列長(zhǎng)度tobs=8,預(yù)測(cè)序列長(zhǎng)度tpred=8,訓(xùn)練和預(yù)測(cè)階段生成器采樣次數(shù)k=8。使用Adam優(yōu)化算法對(duì)生成器和判別器進(jìn)行同時(shí)訓(xùn)練降低其損失函數(shù)。訓(xùn)練迭代次數(shù)設(shè)為8000,生成器和判別器的學(xué)習(xí)速率都設(shè)為1×10-3,每隔4000次將學(xué)習(xí)速率減小為原來的0.1倍,Adam優(yōu)化器中的權(quán)重衰減系數(shù)設(shè)為1×10-5。
測(cè)試集與訓(xùn)練集的劃分方式與文獻(xiàn)[9-10]類似,每個(gè)場(chǎng)景中劃分70%的數(shù)據(jù)為訓(xùn)練集,30%的數(shù)據(jù)為驗(yàn)證集。采用五折交叉驗(yàn)證的方式,用其他4個(gè)場(chǎng)景中的訓(xùn)練數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),選用在驗(yàn)證集上表現(xiàn)最好的網(wǎng)絡(luò)在目標(biāo)場(chǎng)景進(jìn)行測(cè)試和精度計(jì)算,在5個(gè)場(chǎng)景中重復(fù)這樣的操作。模型訓(xùn)練過程中生成損失,判別損失和位置偏移損失如圖2所示。
由圖2可知,隨著訓(xùn)練過程迭代次數(shù)的增加,生成損失和位置偏移損失呈現(xiàn)緩慢下降趨勢(shì),判別損失呈現(xiàn)緩慢上升趨勢(shì),但可以看到最終都波動(dòng)減小,趨于平緩。綜合損失函數(shù)的變化趨勢(shì),實(shí)驗(yàn)中將訓(xùn)練的迭代次數(shù)設(shè)為8000。
3.2 預(yù)測(cè)精度性能比較
類似于文獻(xiàn)[20],選用平均偏移誤差(Average Differential Error, ADE)和最終偏移誤差(Final Differential Error, FDE)作為評(píng)價(jià)指標(biāo)來刻畫預(yù)測(cè)軌跡的準(zhǔn)確性。
其中:平均偏移誤差A(yù)DE用來刻畫預(yù)測(cè)序列的在所有預(yù)測(cè)時(shí)刻t平均的準(zhǔn)確性,最終偏移誤差FDE用來刻畫預(yù)測(cè)序列累計(jì)在最后時(shí)刻tpred的準(zhǔn)確性。
各種軌跡模型的結(jié)果在平均偏移誤差A(yù)DE上的對(duì)比結(jié)果如表1的ADE部分,在最終偏移誤差FDE上的對(duì)比結(jié)果如表1的FDE部分,表中單位為米(m),表中每行描述一個(gè)方法在不同場(chǎng)景下的計(jì)算偏移誤差。ADE和FDE數(shù)值越小表示模型預(yù)測(cè)與真實(shí)偏移越小,模型預(yù)測(cè)越準(zhǔn)確,表中用粗體下劃線標(biāo)明了在每個(gè)場(chǎng)景上表現(xiàn)性能最好的模型。
從表1中可以看出,考慮平均偏移誤差A(yù)DE時(shí),所提的AttenGAN模型在Univ、Zara1和Zara2的場(chǎng)景上的預(yù)測(cè)精度性能均是最好的。相對(duì)于基于網(wǎng)格劃分與“社會(huì)池化”的S-
LSTM模型,S-GAN和AttenGAN使用了對(duì)抗機(jī)制,因此預(yù)測(cè)精度更高。而S-GAN所提的基于“池化模塊”融合的方式需要在觀測(cè)序列結(jié)束的時(shí)刻tobs來融合周圍行人的信息,AttenGAN則可以在每一個(gè)時(shí)刻t均進(jìn)行信息融合,并且,不同于S-GAN在“池化模塊”對(duì)于所有行人作全局性的最大池化操作,AttenGAN“有選擇”地融合對(duì)當(dāng)前行人有用的那些信息,因此模型具有更強(qiáng)的表現(xiàn)能力,進(jìn)而可以精確地對(duì)行人交互模式進(jìn)行刻畫。故相比于S-GAN,AttenGAN的預(yù)測(cè)精度得以進(jìn)一步的提高。
從表1的FDE部分可以看出,考慮最終偏移誤差FDE時(shí),所提的AttenGAN模型在ETH、Univ和Zara2的場(chǎng)景中預(yù)測(cè)精度性能均是最好的。
但是注意到在Hotel場(chǎng)景中,線性回歸Linear模型在ADE和FDE指標(biāo)上都表現(xiàn)最好,我們猜測(cè)這可能與Hotel場(chǎng)景中行人交互較少,大多為線性化的軌跡有一定關(guān)系。
綜合表1可以看出,基于神經(jīng)網(wǎng)絡(luò)的模型比傳統(tǒng)的線性Linear模型預(yù)測(cè)精度更高,這是由于神經(jīng)網(wǎng)絡(luò)模型更加復(fù)雜,表現(xiàn)能力更強(qiáng);基于生成對(duì)抗網(wǎng)絡(luò)GAN的模型如S-GAN和AttenGAN比直接對(duì)偏移誤差優(yōu)化的LSTM和S-LSTM預(yù)測(cè)精度高,這是由于生成對(duì)抗的訓(xùn)練方式提高了模型對(duì)概率分布的刻畫性能,進(jìn)一步優(yōu)化了性能。由于注意力機(jī)制的引入,相比S-GAN本文提出的AttenGAN模型在預(yù)測(cè)精度性能上有進(jìn)一步的提升,其預(yù)測(cè)精度性能在ADE和FDE指標(biāo)上的平均水平均為最高平均ADE和平均FDE更低。
圖3中給出了Linear、S-LSTM和AttenGAN在ETH數(shù)據(jù)集的Hotel場(chǎng)景上的預(yù)測(cè)軌跡對(duì)比,虛線為模型可觀測(cè)的過去的軌跡,最后2張圖為AttenGAN表現(xiàn)不好的情況。模型根據(jù)觀測(cè)的8個(gè)時(shí)刻(3.2s)的軌跡,向前預(yù)測(cè)8個(gè)時(shí)刻(3.2s)。由于AttenGAN每次會(huì)預(yù)測(cè)10條軌跡,這里展示位置偏移誤差最小的一條軌跡。從圖3中可以看出,AttenGAN能夠預(yù)測(cè)出與真實(shí)軌跡相近的軌跡。在圖3(a)中AttenGAN成功地預(yù)測(cè)出該行人將前面的人超過并且又回到原路線的行為,Linear則無法對(duì)這樣的場(chǎng)景進(jìn)行較好的預(yù)測(cè),而S-LSTM卻給出了超過前面行人然后“向右”避讓另一個(gè)行人的預(yù)測(cè)軌跡。在圖3(c)中,AttenGAN預(yù)測(cè)出了兩個(gè)行人并排行走面對(duì)沖突時(shí),選擇保持原方向等待對(duì)方讓路的行為,而S-LSTM則預(yù)測(cè)該行人會(huì)采取“避讓”的方式。這在一定程度上體現(xiàn)了AttenGAN可以進(jìn)行多種可能性的預(yù)測(cè)的優(yōu)勢(shì),如在上述情況S-LSTM預(yù)測(cè)的路線也是有可能的,但由于其預(yù)測(cè)的單一性,無法對(duì)真實(shí)情況正確建模。圖3(e)(f)為AttenGAN預(yù)測(cè)失敗的情形,在圖3(e)中該行人向右轉(zhuǎn)走向公交車,AttenGAN則預(yù)測(cè)其會(huì)繼續(xù)向前走,在圖3(f)中行人斜向穿過了人行道,AttenGAN則預(yù)測(cè)其會(huì)減速跟隨前面的行人繼續(xù)在人行道上行走,失敗的情形說明AttenGAN缺乏對(duì)行人某些有目的的特定行為進(jìn)行建模的能力,但AttenGAN仍然給出了較為合理的預(yù)測(cè)軌跡。
3.3 模型效率比較
本節(jié)對(duì)比基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方式的各種軌跡預(yù)測(cè)模型的時(shí)間性能,訓(xùn)練所用參數(shù)均和3.1節(jié)中的模型參數(shù)一致,每個(gè)模型訓(xùn)練的迭代次數(shù)都設(shè)為8000。為反映模型的實(shí)時(shí)性能,各個(gè)模型的預(yù)測(cè)時(shí)間平均為預(yù)測(cè)一組數(shù)據(jù)所需要的時(shí)間。
從表2中可以看出,從上到下,所提模型的復(fù)雜程度逐漸增加,模型訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間均增加。S-LSTM“社會(huì)池化”層需要融合網(wǎng)格中的多個(gè)隱含狀態(tài),故時(shí)間開銷要大于LSTM。相比基于LSTM的方法,基于GAN方法的S-GAN和AttenGAN需要訓(xùn)練生成模型和判別模型兩個(gè)模型,且要進(jìn)行多次采樣,而每一次采樣生成器都會(huì)進(jìn)行一次前向傳播,故訓(xùn)練所用時(shí)間更長(zhǎng)。同理,S-GAN與AttenGAN模型在預(yù)測(cè)時(shí)間方面相比其他方法更久也是由于其每次會(huì)預(yù)測(cè)多個(gè)合理序列而不是一個(gè)平均性的序列。相比S-GAN,AttenGAN訓(xùn)練時(shí)間更長(zhǎng)一些,這是由于AttenGAN引入的注意力機(jī)制在每一個(gè)時(shí)刻都進(jìn)行信息融合,而S-GAN只在觀測(cè)了完整觀測(cè)序列后進(jìn)行一次全局池化,故AttenGAN時(shí)間花費(fèi)更大。綜上,AttenGAN犧牲了部分時(shí)間性能來保證其預(yù)測(cè)精度以及所生成軌跡的多樣性,但模型的實(shí)時(shí)性能依舊可以保證。
3.4 定性分析
給定一個(gè)場(chǎng)景,根據(jù)過去的軌跡未來可能會(huì)有多種合理性的預(yù)測(cè),不同于傳統(tǒng)模型給出一個(gè)平均化的軌跡預(yù)測(cè),得益于生成對(duì)抗的思想,每一次生成器從噪聲取樣AttenGAN都會(huì)給出一種合理性的預(yù)測(cè)。圖4中為UCY數(shù)據(jù)集中Zara2場(chǎng)景在4分40秒時(shí),AttenGAN給出的3種預(yù)測(cè)可能性,模型向前預(yù)測(cè)8個(gè)時(shí)刻(3.2s),其中實(shí)線是真實(shí)的行人軌跡,虛線是模型預(yù)測(cè)的行人軌跡,箭頭方向指示行人的運(yùn)動(dòng)方向,箭頭位置代表行人最終所在位置。圖4(a)為模型預(yù)測(cè)行人之間保持原行走速度和方向不發(fā)生碰撞的情形;圖4(b)為模型預(yù)測(cè)的右邊行人通過減慢速度并改變方向來與避免與左邊行人發(fā)生碰撞的情形;圖4(c)為模型預(yù)測(cè)的行人之間采用“靠右”的社會(huì)規(guī)范進(jìn)行避讓的情形,該預(yù)測(cè)與真實(shí)的行人軌跡比較貼合。
可以看出,模型可以預(yù)測(cè)出的多種行人之間相互避讓情形的合理軌跡,能夠基本滿足物理約束和社會(huì)規(guī)范。
4 結(jié)語
為對(duì)行人的交互性運(yùn)動(dòng)模式進(jìn)行建模,本文提出了基于注意力機(jī)制的軌跡預(yù)測(cè)生成模型,并引入生成對(duì)抗網(wǎng)絡(luò)對(duì)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明注意力機(jī)制可以很好地描述行人之間的交互性運(yùn)動(dòng)模式,并可以對(duì)行人軌跡進(jìn)行聯(lián)合性的預(yù)測(cè),在預(yù)測(cè)精度性能方面上優(yōu)于Linear、LSTM、S-LSTM和S-GAN模型。同時(shí),基于生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練方式該模型可以對(duì)未來多種合理的可能性軌跡進(jìn)行預(yù)測(cè),而非僅僅預(yù)測(cè)一個(gè)平均的軌跡。
由于模型復(fù)雜程度的提高,可以看出,該模型在時(shí)間性能上與其他模型相比較差,且在行人交互較少的場(chǎng)景中表現(xiàn)欠佳,推測(cè)可能在用注意力機(jī)制進(jìn)行信息融合時(shí)引入了部分噪聲。
通過注意力機(jī)制,可以將其他模態(tài)信息例如圖片等信息加入到該模型中,進(jìn)而進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性。后續(xù)研究會(huì)考慮將其他模態(tài)的信息例如圖片,視頻信息融合到模型中來刻畫外界物理環(huán)境對(duì)行人的影響,以此進(jìn)一步提高模型的預(yù)測(cè)精度。
參考文獻(xiàn) (References)
[1] LARGE F, VASQUEZ D, FRAICHARD T, et al. Avoiding cars and pedestrians using velocity obstacles and motion prediction [J]. IEEE Intelligent Vehicles Symposium, 2004: 375-379.
LARGE F, VASQUEZ D, FRAICHARD T, et al. Avoiding cars and pedestrians using velocity obstacles and motion prediction [EB/OL]. [2018-07-01]. https://www.researchgate.net/publication/29642615_Avoiding_Cars_and_Pedestrians_using_V-Obstacles_and_Motion_Prediction.
[2] THOMPSON S, HORIUCHI T, KAGAMI S. A probabilistic model of human motion and navigation intent for mobile robot path planning [C]// Proceedings of the 2009 4th International Conference on Autonomous Robots and Agents. Piscataway, NJ: IEEE, 2009: 663-668.
[3] BENNEWITZ M. Learning motion patterns of people for compliant robot motion [J]. The International Journal of Robotics Research, 2005, 24(1): 31-48.
[4] HELBING D, MOLNR P. Social force model for pedestrian dynamics [J]. Physical Review E: Statistical Physics Plasmas Fluids and Related Interdisciplinary Topics, 1995, 51(5): 4282-4286.
[5] TRAUTMAN P, KRAUSE A. Unfreezing the robot: navigation in dense, interacting crowds [C]// Proceedings of the 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2010: 797-803.
[6] MORRIS B T, TRIVEDI M M. Trajectory learning for activity understanding: unsupervised, multilevel, and long-term adaptive approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2287-2301.
[7] KITANI K M, ZIEBART B D, BAGNELL J A, et al. Activity forecasting [C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 201-214.
[8] ALAHI A, GOEL K, RAMANATHAN V, et al. Social LSTM: human trajectory prediction in crowded spaces [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 961-971.
[9] VEMULA A, MUELLING K, OH J. Social attention: modeling attention in human crowds [EB/OL]. [2017-10-12] ?[2018-03-25]. https://arxiv.org/pdf/1710.04689.pdf.
[10] GUPTA A, JOHNSON J, LI F-F, et al. Social GAN: socially acceptable trajectories with generative adversarial networks [EB/OL]. [2018-03-29] [2018-05-04]. https://arxiv.org/abs/1803.10892.pdf.
[11] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014, 2: 2204-2212.
[12] CHEN H, SUN M, TU C, et al. Neural sentiment classification with user and product attention [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: [s. n.], 2016: 1650-1659.
[13] 盧玲,楊武,王遠(yuǎn)倫,等.結(jié)合注意力機(jī)制的長(zhǎng)文本分類方法[J].計(jì)算機(jī)應(yīng)用,2018,38(5):1272-1277.(LU L, YANG W, WANG Y L, et al. Long text classification combined with attention mechanism [J]. Journal of Computer Applications, 2018, 38(5):1272-1277.)
[14] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.
[15] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [M]// GRAVES A. Supervised Sequence Labelling with Recurrent Neural Networks. Berlin: Springer, 2012: 37-45.
[16] XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention [J]. International conference on machine learning. 2015: 2048-2057.
XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention [EB/OL]. [2018-07-01]. https://arxiv.org/pdf/1502.03044v2.pdf.
[17] FAN H, SU H, GUIBAS L. A point set generation network for 3D object reconstruction from a single image [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2463-2471.
[18] PELLEGRINI S, ESS A, van GOOL L. Improving data association by joint modeling of pedestrian trajectories and groupings [C]// Proceedings of the 2010 European Conference on Computer Vision, LNCS 6311. Berlin: Springer, 2010: 452-465.
[19] LERNER A, CHRYSANTHOU Y, LISCHINSKI D. Crowds by example [J]. Computer Graphics Forum, 2007, 26(3): 655-664.
[20] LEE N, CHOI W, VERNAZA P, et al. DESIRE: Distant future prediction in dynamic scenes with interacting Agents [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2165-2174.