張龍妹 陸偉
摘 要:針對(duì)基于模型和直接匹配的城市交通時(shí)間預(yù)測(cè)方法很難有效整合影響預(yù)測(cè)的多重因素問題,提出一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(Conv1d)-長(zhǎng)短期記憶單元(LSTM)-殘差網(wǎng)絡(luò)(ResNet)的混合神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型CLRTT。模型利用CNN和LSTM網(wǎng)絡(luò)提取軌跡的空間和時(shí)間相關(guān)性,將影響交通時(shí)間的外部特征轉(zhuǎn)化為低維向量,級(jí)聯(lián)到時(shí)間預(yù)測(cè)組件的輸入,通過在損失函數(shù)中引入權(quán)重系數(shù)的方法結(jié)合軌跡局部和整體預(yù)測(cè)結(jié)果,通過3層殘差全連接網(wǎng)絡(luò)得到整段路徑的預(yù)測(cè)時(shí)間。針對(duì)原始軌跡的路網(wǎng)匹配修正能夠有效提升模型預(yù)測(cè)精度,誤差平均減小11%;不同時(shí)段和不同長(zhǎng)度的軌跡預(yù)測(cè)實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的AVG和KNN類算法的模型相比,CLRTT模型預(yù)測(cè)誤差MAPE在不同測(cè)度平均降低10%以上;CLRTT模型具有較好的平穩(wěn)性,MAPE振幅小于15%,對(duì)較長(zhǎng)軌跡時(shí)間預(yù)測(cè)精度提升明顯。關(guān)鍵詞:軌跡預(yù)測(cè);位置數(shù)據(jù);神經(jīng)網(wǎng)絡(luò);殘差網(wǎng)絡(luò);路網(wǎng)匹配中圖分類號(hào):TP 391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1672-9315(2021)05-0921-08
DOI:10.13800/j.cnki.xakjdxxb.2021.0520開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Urban traffic time prediction model based
on hybrid neural networks
ZHANG Longmei1,LU Wei2
(1.College of Communication and Information? Engineering,Xian University of Science and Technology,Xian 710054,China;
2.College of Information,Xian University of Finance and Economics,Xian 710100,China)
Abstract:Aiming at the problem that traditional model-based and direct matching methods are difficult to effectively integrate multiple factors affecting urban traffic time prediction,a hybrid neural network prediction model CLRTT based on one-dimensional convolutional neural network(CONV1d)-long short term memory unit(LSTM)-residual network(RESNET)is proposed.In this model,CNN and LSTM networks are used to extract the spatio-temporal correlation of trajectories,and the external features that affect the traffic time are transformed into low dimensional vectors,which are cascaded to the input of the time prediction component.Finally,the weight coefficient is introduced into the loss function to determine the prediction time of the whole path on the local and overal prediction results of trajectories and through the three-layer residual fully connected network.The experimental results on the data set of the actual track of 25 day taxi in Chengdu show that the road network matching correction for the original track can effectively improve the prediction accuracy of the model,with an average error of 11% decrease.Prediction experiment results in different periods and at different lengths of trajectories show that the CLRTT model has higher accuracy and prediction error MAPE is reduced by more than 10% in different measures.In addition,CLRTT model has good stability,and MAPE amplitude is less than 15%,especially for long track time prediction accuracy.Key words:trajectory prediction;location data;neural network;residual network;map matching
0 引 言
交通時(shí)間預(yù)測(cè)一直是基于位置的服務(wù)(location based services,LBS)和智能交通系統(tǒng)(intelligent transportation system,ITS)的重要研究?jī)?nèi)容之一。城市交通時(shí)間預(yù)測(cè)可以歸結(jié)為軌跡預(yù)測(cè)問題,當(dāng)前研究人員對(duì)軌跡預(yù)測(cè)的研究方法總體可以分為2大類:一類是基于理論模型的方法,另一類是基于數(shù)據(jù)驅(qū)動(dòng)的方法?;诶碚撃P偷姆椒ㄍǔP枰⒁粋€(gè)虛擬的道路網(wǎng)絡(luò)模型,并利用動(dòng)態(tài)交通分配的原理對(duì)模型進(jìn)行仿真。例如,
HANS等人基于變分理論以及充分變分圖精確計(jì)算干線入口出口的累計(jì)計(jì)數(shù),并由此推導(dǎo)出動(dòng)態(tài)條件下的軌跡時(shí)間分布[1];CASTILLO等人考慮交叉口之間的交通信號(hào)協(xié)調(diào),建立了一個(gè)考慮交叉口隨機(jī)交通過程的鏈路出行時(shí)間分布分析模型[2]。隨著實(shí)際交通狀況越來(lái)越復(fù)雜,實(shí)際交通路網(wǎng)的建模越來(lái)越困難,使得該方法在實(shí)際交通時(shí)間預(yù)測(cè)中精度較低,對(duì)不同交通場(chǎng)景的適應(yīng)性較差。基于數(shù)據(jù)驅(qū)動(dòng)方法通常使用歷史軌跡路線、軌跡速度、道路容量、出發(fā)時(shí)間等相關(guān)變量,通過軌跡序列匹配對(duì)當(dāng)前軌跡進(jìn)行預(yù)測(cè)。例如,
HADACHI等人基于城市稀疏軌跡數(shù)據(jù),使用粒子濾波法以及路段的時(shí)間概率分布預(yù)測(cè)軌跡的行程時(shí)間[3];WEDIN等人對(duì)歷史軌跡數(shù)據(jù)進(jìn)行分析,建立具有歷史交通模式的數(shù)據(jù)庫(kù)并記錄下不同道路在不同時(shí)間的平均速度,后續(xù)通過從歷史數(shù)據(jù)中找到期望的交通模式,進(jìn)而對(duì)軌跡進(jìn)行預(yù)測(cè)[4];SINGH等人基于軌跡起始時(shí)間和目的地位置對(duì)歷史軌跡進(jìn)行聚類,在此基礎(chǔ)上通過挖掘頻繁的子軌跡對(duì)交通時(shí)間進(jìn)行建模并預(yù)測(cè)[5]。在宏觀上,歷史軌跡可能存在周期相似性,但微觀上,具體到不同日期、時(shí)段和道路的交通狀態(tài),軌跡相似度將大大降低,該方法預(yù)測(cè)效果和效率也隨之下降。此外,歷史軌跡分布一般具有偏態(tài)分布的特征,這將進(jìn)一步影響該方法對(duì)于交通稀疏路段和較長(zhǎng)里程軌跡的預(yù)測(cè)。隨著深度學(xué)習(xí)研究的興起及其在計(jì)算機(jī)視覺、語(yǔ)音和自然語(yǔ)言處理方面的廣泛應(yīng)用,該方法在軌跡時(shí)間預(yù)測(cè)方面的應(yīng)用也得到相關(guān)研究人員關(guān)注。以機(jī)器學(xué)習(xí)為基礎(chǔ)的預(yù)測(cè)方法分為參數(shù)模型和非參數(shù)模型2種思路。貝葉斯模型[6-7]和時(shí)空隱馬爾可夫模型[8-9]是參數(shù)模型的典型代表;非參數(shù)模型主要包括K近鄰算法模型[10]、支持向量機(jī)模型[11]和神經(jīng)網(wǎng)絡(luò)模型[12]。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要研究方向,非常適合于非線性系統(tǒng)建模,并成為近幾年的一個(gè)研究熱點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是軌跡預(yù)測(cè)中應(yīng)用較為普遍的2種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。部分研究將軌跡數(shù)據(jù)劃分為網(wǎng)格數(shù)據(jù)使用CNN進(jìn)行處理,以提升路段行駛速度與流量預(yù)測(cè)精度[13]。RNN是一種適合處理時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型[14]。例如,DONG等人使用RNN構(gòu)建了一個(gè)自編碼器,用以提取軌跡序列中的時(shí)間依賴特征,在軌跡分類方面取得了較高的準(zhǔn)確率[15]。但傳統(tǒng)的RNN模型僅由一個(gè)隱層記錄歷史信息,在輸入序列過長(zhǎng)情況下會(huì)產(chǎn)生梯度消失或爆炸問題。長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory network,LSTM network)模型通過引入記憶單元保存相關(guān)的歷史數(shù)據(jù),能有效緩解難以獲取的長(zhǎng)序列數(shù)據(jù)間的依賴問題[16]。對(duì)交通流的預(yù)測(cè)研究結(jié)果進(jìn)一步表明,深度神經(jīng)網(wǎng)絡(luò)的非線性變換和特征提取更有利于時(shí)間預(yù)測(cè)中的時(shí)空相關(guān)性提取,從而提高軌跡時(shí)間預(yù)測(cè)準(zhǔn)確率[17-20]。文中在當(dāng)前研究基礎(chǔ)上,提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(Conv1d)-長(zhǎng)短期記憶單元(LSTM)-殘差網(wǎng)絡(luò)(ResNet)的混合神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)框架(convld-LSTM-resNet travel time estimation framework,CLRTT),并通過城市實(shí)際交通數(shù)據(jù)分析所提出框架的預(yù)測(cè)效果。
1 CLRTT模型整體框架CLRTT模型框架包括4個(gè)部分:原始軌跡預(yù)處理、外部特征提取、時(shí)空特征提取和時(shí)間預(yù)測(cè),模型整體框架如圖1所示。
軌跡預(yù)處理階段主要任務(wù)是將原始軌跡數(shù)據(jù)映射到城市道路路網(wǎng)數(shù)據(jù)之上,并經(jīng)過排序、采樣、分段和匹配等步驟,得到符合實(shí)際交通路網(wǎng)的修正軌跡序列,該軌跡序列作為后續(xù)時(shí)空特征提取組件的輸入。外部特征提取組件負(fù)責(zé)提取影響交通時(shí)間的司機(jī)駕駛習(xí)慣、時(shí)間、天氣和里程等因素,并將其轉(zhuǎn)換為低維實(shí)時(shí)向量,以適應(yīng)神經(jīng)網(wǎng)絡(luò)輸入要求。時(shí)空特征提取組件負(fù)責(zé)提取軌跡序列的空間相關(guān)性以及時(shí)間依賴性,分別采用CNN和RNN實(shí)現(xiàn)。時(shí)間預(yù)測(cè)組件負(fù)責(zé)融合外部特征提取和時(shí)空特征提取組件輸出,并融合局部路徑時(shí)間預(yù)測(cè)結(jié)果,預(yù)測(cè)最終軌跡時(shí)間。
2 模型描述
2.1 原始軌跡預(yù)處理在目標(biāo)對(duì)象實(shí)際移動(dòng)過程中,基于GPS或北斗等定位技術(shù)的位置數(shù)據(jù)存在一定誤差,并且這些位置數(shù)據(jù)按時(shí)間序列直接相連無(wú)法反映道路特征,因此,基于位置數(shù)據(jù)的原始軌跡與城市道路實(shí)況不能很好吻合,直接使用原始軌跡數(shù)據(jù)作為模型輸入進(jìn)行預(yù)測(cè)將會(huì)導(dǎo)致較大的誤差,路網(wǎng)匹配是解決這一問題的有效方法[21]。路網(wǎng)匹配是指將移動(dòng)目標(biāo)的有序位置數(shù)據(jù)序列根據(jù)算法匹配到電子地圖中路網(wǎng)上的過程,基于隱馬爾科夫模型(hidden markov model,HMM)[22]的路網(wǎng)匹配算法是當(dāng)前應(yīng)用較為廣泛的一類算法。文中采用基于HMM的軌跡修正方法,主要流程如圖2所示。
2.2 外部特征提取影響軌跡時(shí)間的外部因素有多種,比如不同司機(jī)有著不同的駕駛習(xí)慣,在同一時(shí)段同一路段上駕駛速度不一,進(jìn)而導(dǎo)致軌跡行駛時(shí)間不同。此外,軌跡行駛時(shí)間也具有明顯的以周為單位的周期性。使用外部特征擬合影響時(shí)間預(yù)測(cè)的主要外部因素,包括:駕駛員編號(hào)(driverId)、時(shí)間段(time)、星期(week)、天氣(weather)、距離(distance)。
2.3 時(shí)空特征提取時(shí)空特征提取組件包含2個(gè)部分:一部分是Conv1d層;另一部分是RNN層。Conv1d層使用CNN一維卷積提取空間相關(guān)性,將軌跡第一維度設(shè)置為批大小,第二維度設(shè)置為軌跡長(zhǎng)度,第三維度設(shè)置為通道數(shù),卷積過程如圖3所示。
首先使用更細(xì)的粒度將四維軌跡點(diǎn)pi(經(jīng)緯度、時(shí)間以及載客狀態(tài)信息)通過公式(1)非線性映射到16維度的向量中。其中,pi.lat為軌跡點(diǎn)緯度;pi.lng為軌跡點(diǎn)經(jīng)度;pi.time為軌跡點(diǎn)時(shí)間;pi.lod為載客狀態(tài);為連接操作;wloc為可學(xué)習(xí)的權(quán)重矩陣。
loci=tanh(wloc·
[pi.latpi.lngpi.timepi.lod])
(1)然后使用c個(gè)大小為f的卷積核對(duì)每個(gè)局部路徑進(jìn)行卷積(局部路徑之間的滑動(dòng)窗口是1)后通過激活函數(shù)ELU得到初步的特征圖??紤]到局部路徑的長(zhǎng)度對(duì)于局部路徑時(shí)間預(yù)測(cè)的影響,再級(jí)聯(lián)每一個(gè)局部路徑歸一化后的距離向量,最終得到locf特征圖,該特征圖捕捉了所有局部路徑之間的空間相關(guān)性。對(duì)于RNN層,使用雙層的LSTM模型。從外部因素特征提取組件中輸出的屬性向量展開級(jí)聯(lián)到Conv1d輸出所得到的特征圖locf中作為L(zhǎng)STM的輸入數(shù)據(jù),使用記憶單元記錄時(shí)間序列中的歷史信息,提取局部路徑的時(shí)間依賴性,前向傳播后訓(xùn)練模型得到每一個(gè)時(shí)間步的隱藏層參數(shù)H作為輸出。
2.4 時(shí)間預(yù)測(cè)時(shí)間預(yù)測(cè)組件融合前面2個(gè)部分的輸出,預(yù)測(cè)最終的旅行時(shí)間。CLRTT模型結(jié)合局部預(yù)測(cè)和整理預(yù)測(cè)2種方法。對(duì)于局部路徑預(yù)測(cè),輸入為L(zhǎng)STM層傳來(lái)的參數(shù),即隱藏層單元特征序列H
[h1,h2,…]。對(duì)每一個(gè)hi再經(jīng)過一個(gè)單元數(shù)分別為64和1的全連接層,將hi轉(zhuǎn)化為數(shù)值,進(jìn)而得到每個(gè)局部路徑的預(yù)測(cè)時(shí)間;對(duì)于整體路徑預(yù)測(cè),輸入仍為H,由于隱藏層單元H分量長(zhǎng)度不同,因此需要使用均勻池化(mean pooling)操作,使得每一個(gè)局部路徑的權(quán)重都相同。此外,一段路徑預(yù)測(cè)準(zhǔn)確率低主要是由于某些局部路徑之間存在較多交叉路口以及交通信號(hào)燈等導(dǎo)致的交通擁堵被忽略而導(dǎo)致。為了解決這一問題,模型引入注意力機(jī)制,把外部因素特征提取組件中得到的輸出屬性數(shù)據(jù),經(jīng)線性映射σ后轉(zhuǎn)為與隱層狀態(tài)相同維度的向量X,經(jīng)Softmax變換后得到特征矩陣H的權(quán)重向量α,最后通過加權(quán)求和實(shí)現(xiàn)對(duì)特征矩陣自適應(yīng)關(guān)注,使模型能夠更加準(zhǔn)確地提取出軌跡序列的時(shí)空特征,得到更準(zhǔn)確的軌跡時(shí)間預(yù)測(cè)。變換過程見式(2)。
xi=hi*tanh(σattr)
αi=
e-xi
∑len-f+1i=1
e-xi
hetr=∑len-f+1i=1
e-xiαi*hi
(2)模型分別獲得局部路徑的預(yù)測(cè)時(shí)間和整體路徑的預(yù)測(cè)時(shí)間后,使用3層的殘差全連接網(wǎng)絡(luò)得到最終整段路徑的預(yù)測(cè)時(shí)間E。
2.5 損失函數(shù)與激活函數(shù)模型在訓(xùn)練階段使用平均絕對(duì)百分比誤差MAPE作為整體和局部的目標(biāo)函數(shù),計(jì)算方法見式(3)。其中
為局部路徑或者整體路徑預(yù)測(cè)時(shí)間;t為路徑真實(shí)時(shí)間。
MAPE=1n∑ni=1
-tt×100%
(3)局部路徑使用每條訓(xùn)練軌跡上的局部路徑的平均絕對(duì)百分比誤差Llocal作為損失函數(shù),整體路徑使用所有訓(xùn)練軌跡的平均絕對(duì)百分比誤差Letr作為損失函數(shù),以(β*Llocal+(1-β)*Letr)作為最終的全局損失函數(shù),其中β作為權(quán)重系數(shù)。模型使用ReLU、Tanh、ELU這3種激活函數(shù)。其中,在Conv1d中,卷積后使用ELU激活函數(shù);在雙層LSTM模型和注意力機(jī)制網(wǎng)絡(luò)中,使用Tanh激活函數(shù);在殘差全連接網(wǎng)絡(luò)中,使用ReLU激活函數(shù)。
3 仿真實(shí)驗(yàn)
3.1 數(shù)據(jù)集與預(yù)處理實(shí)驗(yàn)所用軌跡數(shù)據(jù)選擇2014年8月3日到30日之間成都市約
13 600輛出租車的每日浮動(dòng)車GPS位置數(shù)據(jù)。為防止出現(xiàn)軌跡的稀疏性問題,軌跡時(shí)間范圍取為每日的6:00至24:00,空間范圍覆蓋成都市的整個(gè)市區(qū)。為了得到適合模型輸入的短軌跡序列,基于載客訂單將一天的軌跡分割為較小的軌跡序列,并且對(duì)軌跡點(diǎn)進(jìn)行采樣,使2個(gè)連續(xù)點(diǎn)之間的距離差距在200 m到400 m左右。為加快模型訓(xùn)練速度,實(shí)驗(yàn)中抽樣選取3 600條軌跡作為訓(xùn)練數(shù)據(jù),1 400條軌跡作為測(cè)試數(shù)據(jù)。
3.2 模型參數(shù)模型CLRTT基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn),所選數(shù)據(jù)集包含24 000輛出租車,在模型的外部因素特征提取組件中,將driverID從24 000維降維至16維;將每日以分鐘為劃分,6:00為起始點(diǎn),劃分為1 440個(gè)維度,將timeID從1440維降維至8維;將出發(fā)日期的星期由7天降為3維。在時(shí)空特征提取組件中,Conv1d層卷積核大小kernel-size設(shè)為3*1,使用32個(gè)卷積核進(jìn)行Conv1d運(yùn)算,LSTM雙層網(wǎng)絡(luò)隱藏層單元參數(shù)H的大小為128。在整體路徑時(shí)間預(yù)測(cè)組件中,使用注意力網(wǎng)絡(luò)將外部屬性轉(zhuǎn)換為維度128維的權(quán)重加到隱藏層單元參數(shù)上,最后殘差全連接層的固定層數(shù)為3,每層單元數(shù)為128,以權(quán)重參數(shù)β設(shè)為0.3得到實(shí)際最終的損失函數(shù)對(duì)模型進(jìn)行訓(xùn)練。模型訓(xùn)練過程中,迭代次數(shù)epoch設(shè)為100,mini-batch設(shè)為50,使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為1e-3,模型中用正態(tài)分布N(0,1)來(lái)初始化參數(shù)。
3.3 對(duì)比算法AVG和KNN是軌跡時(shí)間預(yù)測(cè)最常見的2種方法,并且對(duì)于不同數(shù)據(jù)集具有相對(duì)較好的穩(wěn)定性;而當(dāng)前基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法,數(shù)據(jù)集不同、數(shù)據(jù)集預(yù)處理方法不同以及模型參數(shù)不同都會(huì)導(dǎo)致預(yù)測(cè)結(jié)果相差較大。因此文中選取AVG算法和KNN算法作為基準(zhǔn)進(jìn)行對(duì)比分析。對(duì)于AVG算法,實(shí)驗(yàn)中將一天的時(shí)間從早上6:00到晚上24:00分割為144個(gè)時(shí)段,每個(gè)時(shí)段10分鐘,根據(jù)歷史軌跡前18天的軌跡計(jì)算每個(gè)時(shí)段的平均速度。對(duì)于KNN算法,實(shí)驗(yàn)中選取k=10作為實(shí)驗(yàn)參數(shù),對(duì)于一個(gè)待預(yù)測(cè)軌跡,在歷史數(shù)據(jù)中查詢與其起點(diǎn)和終點(diǎn)近似的歷史軌跡,以其跟待測(cè)軌跡的距離作為權(quán)重,根據(jù)歷史軌跡時(shí)間的加權(quán)和預(yù)測(cè)待測(cè)軌跡時(shí)間。
3.4 實(shí)驗(yàn)結(jié)果分析為了全面準(zhǔn)確地度量不同參數(shù)或者其他因素對(duì)模型預(yù)測(cè)軌跡時(shí)間的影響,實(shí)驗(yàn)中使用均方根誤差RMSE、平均絕對(duì)誤差MAE以及平均絕對(duì)百分比誤差MAPE作為評(píng)估標(biāo)準(zhǔn)對(duì)結(jié)果進(jìn)行分析。
3.4.1 權(quán)重參數(shù)β的影響分析模型內(nèi)部參數(shù)往往會(huì)影響所訓(xùn)練出模型的泛化能力,整體路徑和局部路徑時(shí)間預(yù)測(cè)的權(quán)重β是最直接的可變參數(shù),在其他參數(shù)不變的條件下,調(diào)整β從區(qū)間[0,1]變化,得到模型預(yù)測(cè)結(jié)果誤差的MAPE變化情況如圖4所示。
從圖4可以看出,當(dāng)β設(shè)置為0.4時(shí),模型預(yù)測(cè)誤差MAPE達(dá)到最小,約為12.63%,從整體上看,模型預(yù)測(cè)誤差隨β變化波動(dòng)并不是很大。
3.4.2 數(shù)據(jù)集質(zhì)量對(duì)預(yù)測(cè)結(jié)果影響分析為了分析數(shù)據(jù)集質(zhì)量對(duì)預(yù)測(cè)模型的影響,本文分別采用原始軌跡數(shù)據(jù)和經(jīng)過路網(wǎng)匹配修正之后的軌跡數(shù)據(jù)作為輸入,進(jìn)行模型訓(xùn)練和驗(yàn)證。在epoch=50,β=0.4情況下,驗(yàn)證集損失函數(shù)隨訓(xùn)練迭代次數(shù)增大的變化如圖5所示。從圖5可以看出,對(duì)原始軌跡數(shù)據(jù)集進(jìn)行路網(wǎng)匹配修正后,模型預(yù)測(cè)誤差明顯減小,證實(shí)采用路網(wǎng)匹配方法對(duì)軌跡數(shù)據(jù)進(jìn)行預(yù)處理的有效性。
在同等條件下,軌跡數(shù)據(jù)集路網(wǎng)匹配處理前后模型各項(xiàng)表現(xiàn)見表1。
3.4.3 對(duì)比實(shí)驗(yàn)
1)不同算法模型預(yù)測(cè)誤差對(duì)比。采取路網(wǎng)匹配處理后數(shù)據(jù)集前18天的數(shù)據(jù)進(jìn)行模型訓(xùn)練,后7天的數(shù)據(jù)進(jìn)行驗(yàn)證,在相同的數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境下,提出的模型與2種常用的軌跡時(shí)間預(yù)測(cè)模型預(yù)測(cè)結(jié)果對(duì)比見表2。由表2可知,相比基于AVG算法和KNN算法的預(yù)測(cè)模型,文中所提出的預(yù)測(cè)模型CLRTT在相同條件下的預(yù)測(cè)精度有了大幅提升。
2)模型對(duì)不同影響因素的敏感性分析。城市交通環(huán)境下,軌跡長(zhǎng)度和時(shí)間段對(duì)軌跡耗時(shí)具有較大影響。為了分析預(yù)測(cè)模型對(duì)軌跡長(zhǎng)度的敏感性,將測(cè)試集中的軌跡以5 km為單位分組,不同算法預(yù)測(cè)誤差對(duì)比情況如圖6(a)和圖6(b)所示。
根據(jù)圖6(a)中的dist-MAPE對(duì)比結(jié)果,隨著軌跡距離在0~20 km間增大,CLRTT模型的預(yù)測(cè)誤差MAPE總體趨勢(shì)是減小,在20~25 km時(shí)MAPE達(dá)到最低點(diǎn)12.63%;根據(jù)圖6(b)中的dist-MAE對(duì)比結(jié)果,隨著軌跡距離在0~20 km間增大,基于AVG與KNN這2種算法的模型預(yù)測(cè)誤差MAE快速增加,尤其對(duì)于大于20 km的長(zhǎng)軌跡,預(yù)測(cè)效果較差,而CLRTT模型的預(yù)測(cè)誤差MAE隨軌跡長(zhǎng)度增加緩慢增長(zhǎng),而對(duì)于大于20 km的長(zhǎng)軌跡出現(xiàn)小幅下降。這說明相比于AVG和KNN算法模型,文中提出的CLRTT模型預(yù)測(cè)誤差隨軌跡長(zhǎng)度的波動(dòng)相對(duì)較小,表現(xiàn)出較好的穩(wěn)定性。為了分析預(yù)測(cè)模型對(duì)軌跡時(shí)間段的敏感性,實(shí)驗(yàn)中以一天作為一個(gè)周期,模型對(duì)測(cè)試集中不同起始時(shí)間(包括從早上6:00到晚上24:00)的軌跡時(shí)間預(yù)測(cè)誤差情況如圖7所示。其中,“Label”點(diǎn)的縱坐標(biāo)代表的是該軌跡的真實(shí)行駛時(shí)間,“Prediction”點(diǎn)縱坐標(biāo)表示的是軌跡的預(yù)測(cè)行駛時(shí)間。
從圖7可以看出,CLRTT預(yù)測(cè)模型在不同時(shí)段的預(yù)測(cè)誤差MAE大部分在230 s以下,普遍低于400 s,這說明CLRTT模型對(duì)于不同時(shí)間段的軌跡時(shí)間預(yù)測(cè)具有較好的穩(wěn)定性和精度。選取測(cè)試集中6:00到24:00之間的18個(gè)小時(shí),以小時(shí)為時(shí)間分段,3種算法模型誤差MAPE和MAE對(duì)比情況如圖8(a)和圖8(b)所示。其中橫坐標(biāo)如“06”表示出發(fā)時(shí)間在6:00到7:00之間。
從圖8可以看出,以一天為周期,3種預(yù)測(cè)模型在20:00后的誤差都較低,而在7:00至9:00、14:00至16:00、18:00至20:00之間,誤差都有一個(gè)較大的起伏,產(chǎn)生這一現(xiàn)象的主要原因是:在早中晚高峰期中,城市人流量大,路段中的信息變化迅速,而模型并沒有把交通管制類路況信息等作為外部因素加入到模型中,因而模型無(wú)法響應(yīng)這類變化。3種模型預(yù)測(cè)誤差隨時(shí)段變化趨勢(shì)大體一致,但文中CLRTT模型誤差相對(duì)更加平穩(wěn)。
4 結(jié) 論1)基于一維卷積神經(jīng)網(wǎng)絡(luò)(Conv1d)-長(zhǎng)短期記憶單元(LSTM)-殘差網(wǎng)絡(luò)(ResNet)的混合神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型CLRTT,主要由原始軌跡預(yù)處理、外部特征提取、時(shí)空特征提取和時(shí)間預(yù)測(cè)4個(gè)部分構(gòu)成。2)實(shí)際城市出租車運(yùn)行軌跡數(shù)據(jù)上的仿真實(shí)驗(yàn)結(jié)果表明,采用的原始軌跡預(yù)處理方法能夠有效提升模型預(yù)測(cè)精度。對(duì)于不同時(shí)段和不同長(zhǎng)度的軌跡預(yù)測(cè),提出的CLRTT預(yù)測(cè)模型相比于常用的AVG和KNN類算法模型,具有較高的精度和平穩(wěn)性,尤其在較長(zhǎng)軌跡時(shí)間預(yù)測(cè)方面,預(yù)測(cè)精度提升明顯。3)通過實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),所有模型對(duì)于交通高峰期預(yù)測(cè)精度均會(huì)下降,主要原因在于交通高峰期的交通管制以及突發(fā)交通事故影響,而這些因素具有突發(fā)性和不確定性,目前很難有效融入模型之中,這一問題值得后續(xù)進(jìn)一步研究。
參考文獻(xiàn)(References):
[1] HANS E,CHIABAUT N,LECLERCQ L.Applying variational theory to travel time estimation on urban arterials[J].Transportation Research Part B,2015,78:169-181.
[2]CASTILLO E,NOGAL M,MENENDEZ J M,et al.Stochastic demand dynamic traffic models using generalized beta-gaussian bayesian networks[J].IEEE Transactions on Intelligent Transportation Systems,2012,13(2):565-581.
[3]HADACHI A,MOUSSET S,BENSTHAIR A.Approach to estimate travel time using sparsely sampled GPS data in urban networks[J].Electronics Letters,2013,49(15):957-958.
[4]WEDIN D.Travel time estimation in stockholm using historical GPS data
[D].Uppsala:Uppsala University,2015.
[5]SINGH A D,WU W,XIANG S,et al.Taxi trip time prediction using similar trips and road network data
[C]//IEEE International Conference on Big Data.Santa Clara,CA,USA,Oct.29 Nov.01,2015:2892-2894.
[6]WESTGATE B S,WOODARD D B,MATTESON D S,et al.Travel time estimation for ambulances using Bayesian data augmentation[J].Annals of Applied Statistics,2013,7(2):1139-1161.
[7]HOFLEITNER A,HERRING R,ABBEEL P,et al.Learning the dynamics of arterial traffic from probe data using a dynamic bayesian network[J].IEEE Transactions on Intelligent Transportation Systems,2012,13(4):1679-1693.
[8]YANG B,GUO C,JENSEN C S.Travel cost inference from sparse,spatio-temporally correlated time series using Markov models[J].Proceedings of the VLDB Endowment,2013,6(9):769-780.
[9]喬少杰,李天瑞,韓楠,等.大數(shù)據(jù)環(huán)境下移動(dòng)對(duì)象自適應(yīng)軌跡預(yù)測(cè)模型[J].軟件學(xué)報(bào),2015,26(11):2869-2883.
QIAO Shaojie,LI Tianrui,HAN Nan,et al.Self-adaptive trajectory prediction model for moving objects in big data environment[J].Journal of Software,2015,26(11):2869-2883.
[10]WANG H,KUO Y,KIFER D,et al.A simple baseline for travel time estimation using large-scale trip data[J].ACM Transactions on Intelligent Systems & Technology,2019,10(1):1-22.
[11]WANG Z,F(xiàn)U K,YE J,et al.Learning to estimate the travel time
[C]//Knowledge discovery and data mining.London,United Kingdom,Aug.19-23,2018:858-866.
[12]JINDAL I,TONY,CHEN X,et al.A unified neural network approach for estimating travel time and distance for a taxi trip
[Z].arXiv:1710.04350.2017.
[13]WANG J,GU Q,WU J,et al.Traffic speed prediction and congestion source exploration:A deep learning method
[C]//In:Proc.of the IEEE Intl Conf.on Data Mining.Barcelona,Spain,Dec.12-15,2016:499-508.
[14]JOZEFOWICZ R,ZAREMBA W,SUTSKEVER I.An empirical exploration of recurrent network architectures
[C]// In:Proc.of the Int'l Conf.on Machine Learning.Lille,F(xiàn)rance,July 6-11,2015:2342-2350.
[15]DONG W,YUAN T,YANG K,et al.Autoencoder regularized network for driving style representation learning
[C]//In:Proc.of the Int'l Joint Conf.on Artificial Intelligence.Melbourne,Australia,Aug.19-25,2017:1603-1609.
[16]MA X L,TAO Z M,WANG Y H,et al.Long short-term memory neural network for traffic speed prediction using remote microwave sensor data[J].Transportation Research Part C:Emerging Technologies,2015,54c(May):187-197.
[17]ZHANG J,ZHENG Y,QI D,et al.Deep spatio-temporal residual networks for citywide crowd flows prediction
[C]//In:Proc.of the National Conf.on Artificial Intelligence.Phoenix,Arizona,USA,F(xiàn)eb.12-17,2016:1655-1661.
[18]POLSON N G,SOKOLOV V.Deep learning for short-term traffic flow prediction[J].Transportation Research Part C:Emerging Technologies,2017,79(June 2017):1-17.
[19]LV Y,DUAN Y,KANG W,et al.Traffic flow prediction with big data:a deep learning approach[J].In IEEE Transactions on Intelligent Transportation Systems,2015,16(2):865-873.
[20]LIU Y,ZHENG H,F(xiàn)ENG X,et al.Short-term traffic flow prediction with Conv-LSTM
[C]//International Conference on Wireless Communications and Signal Processing.Nanjing,China,Oct.11-13,2017:1-6.
[21]高文超,李國(guó)良,塔娜.路網(wǎng)匹配算法綜述[J].軟件學(xué)報(bào),2018,29(2):225-250.
GAO Wenchao,LI Guoliang,TA Na.Survey of map matching algorithms[J].Journal of Software,2018,29(2):225-250.
[22]HU Y,LU B.A Hidden markov model-based map matching algorithm for low sampling rate trajectory data[J].IEEE Access,2019(7):178235-178245.