崔毓偉, 卜世衍
(中遠(yuǎn)海運科技股份有限公司,上海 200135)
隨著我國撤銷高速公路省界收費站工作順利完成,自由流開放制式收費系統(tǒng)得到了廣泛應(yīng)用,極大地提高了車輛的通行效率,降低了物流成本,加快了全國高速公路一體化管理進(jìn)程。2018年,交通運輸部辦公廳發(fā)布了《關(guān)于加快推進(jìn)新一代國家交通控制網(wǎng)和智慧公路試點的通知》,其中“基于大數(shù)據(jù)的路網(wǎng)綜合管理”專題提出構(gòu)建基于大數(shù)據(jù)的高速公路運營與服務(wù)智能化管理決策平臺,并將其應(yīng)用到區(qū)域路網(wǎng)綜合信息采集、運營調(diào)度、收費、資產(chǎn)運維養(yǎng)護(hù)、公眾信息服務(wù)和應(yīng)急指揮等領(lǐng)域中。將大數(shù)據(jù)分析技術(shù)應(yīng)用到高速公路管理、運營和服務(wù)領(lǐng)域中,是智慧高速公路建設(shè)的一個重要體現(xiàn)。本文從新收費體制下高速公路通行流量預(yù)測的應(yīng)用場景出發(fā),提出高速公路通行流量的分析尺度和以時間序列預(yù)測技術(shù)為基礎(chǔ),適合多場景、流數(shù)據(jù)的高速公路收費站通行流量預(yù)測方法。
交通大數(shù)據(jù)分析技術(shù)是構(gòu)建我國智慧高速公路技術(shù)體系采用的關(guān)鍵技術(shù)之一[1],在高速公路通行流量統(tǒng)計預(yù)測中得到廣泛應(yīng)用。全面、準(zhǔn)確地進(jìn)行通行流量分析和預(yù)測,不僅有助于制訂收費站和車道運營養(yǎng)護(hù)方案,及時向駕駛員發(fā)布道路擁堵信息,而且能為進(jìn)一步規(guī)劃或升級高速公路監(jiān)控、收費等機(jī)電系統(tǒng)建設(shè),判斷投資回收期提供重要依據(jù),是發(fā)揮大數(shù)據(jù)輔助決策功能的重要基礎(chǔ)。省界收費站撤銷之后,不停車電子收費系統(tǒng)(Electronic Toll Collection,ETC)的普及率大幅提升,城際和省際交流更加便捷,車流量進(jìn)一步增加,給流量預(yù)測的應(yīng)用場景帶來了很大的變化。引起該變化的原因主要體現(xiàn)在以下3個方面:
1)增加了門架等新的數(shù)據(jù)制造節(jié)點;
2)ETC的普及有助于有效分析流量背后綁定的車輛和駕駛員行為信息;
3)適應(yīng)性更強、更適合海量流數(shù)據(jù)的預(yù)測算法給通行流量預(yù)測帶來了新的需求和應(yīng)用契機(jī)。
對比新舊收費體制下高速公路通行流量分析和預(yù)測的不同,結(jié)果見表1。
表1 新收費體制下高速公路通行流量分析和預(yù)測的變化
由表1可知,做好高速公路通行流量預(yù)測分析工作,是在新收費體制下實現(xiàn)大數(shù)據(jù)分析和輔助決策的基礎(chǔ)。
高速公路通行流量預(yù)測的尺度由業(yè)務(wù)需求決定,不同應(yīng)用場景需要不同維度和不同粒度的預(yù)測數(shù)據(jù)。例如:根據(jù)收費站進(jìn)出口總流量和分車型流量的預(yù)測結(jié)果制訂站級運營管理方案,或發(fā)布擁堵預(yù)警;根據(jù)門架系統(tǒng)的通行流量數(shù)據(jù)制訂不同路段的養(yǎng)護(hù)作業(yè)計劃,測算投資回報時間。在分析區(qū)域經(jīng)濟(jì)協(xié)同和車輛使用規(guī)律時,需通過車牌識別數(shù)據(jù)來預(yù)測城際間的路徑通行流量。為滿足不同的應(yīng)用需求,從時間趨勢、空間分布和特征屬性等3個尺度把握交通流量數(shù)據(jù)預(yù)測。表2為高速公路通行流量預(yù)測的尺度。
表2 高速公路通行流量預(yù)測的尺度
分析尺度根據(jù)研究目標(biāo)劃分,實踐中不同分析尺度的差別主要體現(xiàn)在對數(shù)據(jù)的預(yù)處理上,根據(jù)不同的觀測目標(biāo)將數(shù)據(jù)融合為需要的分析尺度,從而給出多維度、多粒度的輔助決策信息。但是,不論何種尺度,流量數(shù)據(jù)在本質(zhì)上都是關(guān)于時間的函數(shù),因此時間序列分析方法是處理該問題的基本方法。
時間序列預(yù)測方法大體上可分為2類:
1)以差分自回歸移動平均((Auto-Regressive Integrated Moving Average,ARIMA)模型為代表的經(jīng)典線性回歸模型;
2)可反映非線性關(guān)系的有監(jiān)督機(jī)器學(xué)習(xí)方法,如長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)等模型。
3.1.1 經(jīng)典線性預(yù)測模型
線形預(yù)測模型的理論基礎(chǔ)為:對于平穩(wěn)非白噪聲序列(或差分處理為平穩(wěn)序列),可建立一個線性模型來擬合其發(fā)展,提取其中蘊含的有用信息[2]。對于平穩(wěn)序列{xt},其自回歸移動平均(Auto-Regressive and Moving Average,ARMA)模型可表示為
(1)
ARMA系列模型最大的特點是要求時間序列是平穩(wěn)的,序列的均值和方差不隨時間發(fā)生變化。盡管差分可將非平穩(wěn)的序列平穩(wěn)化,但在實踐中對誤差項方差不變的假設(shè)很難達(dá)到[3]。GARCH模型雖然能弱化誤差項方差不變的假設(shè),但這類模型在本質(zhì)上還是擬合序列的線性變化隨機(jī)過程,難以反映隨時間發(fā)生的非線性變化。
通行流量具有明顯的周期性波動特征,可視其為時間的函數(shù),但前后時刻到達(dá)流量的關(guān)聯(lián)程度差異很大。在完全自由流狀態(tài)下,車輛到達(dá)過程是相互獨立的,是類似泊松過程的離散隨機(jī)過程。隨著交通流量的增大,不同時刻的交通流的關(guān)聯(lián)性增強。這與下一時刻完全建立在當(dāng)前時刻的基礎(chǔ)上的其他類型時間序列不同,流量時間序列演化的非線性特征更明顯。因此,針對實踐中需獲得多尺度的流量預(yù)測結(jié)果,應(yīng)選擇一種適應(yīng)性更強的預(yù)測方法。深度學(xué)習(xí)方法LSTM相比經(jīng)典的ARIMA方法能展現(xiàn)出更好的性能[3]。
3.1.2 機(jī)器學(xué)習(xí)預(yù)測模型
機(jī)器學(xué)習(xí)是使計算機(jī)根據(jù)數(shù)據(jù)自動學(xué)習(xí),從中得到某種知識或規(guī)律的一門學(xué)科,即從觀測的數(shù)據(jù)中尋找規(guī)律,并利用該規(guī)律對未知的數(shù)據(jù)或無法觀測的數(shù)據(jù)進(jìn)行預(yù)測。神經(jīng)網(wǎng)絡(luò)是一種強大的非線性機(jī)器學(xué)習(xí)模型,能很好地實現(xiàn)輸入與輸出之間的非線性映射[4]。在神經(jīng)網(wǎng)絡(luò)系統(tǒng)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能對時間維度建模是其標(biāo)志性特征。RNN的每個輸入向量都對應(yīng)1個時間步和多個特征,通過在網(wǎng)絡(luò)中創(chuàng)建循環(huán)來對數(shù)據(jù)的時間維度建模[5]。本文采用時間序列預(yù)測中最常用的LSTM網(wǎng)絡(luò)對收費站通行流量進(jìn)行預(yù)測。LSTM模型獨特的門結(jié)構(gòu)允許信息在跨多個時間步之后仍保留或遺棄,同時能克服其他多數(shù)RNN模型存在的梯度消失問題[5]。
LSTM網(wǎng)絡(luò)是RNN最常用的變體,其主要特點是隱藏層通過門機(jī)制控制信息傳遞的累積速度,有選擇地從前期時間狀態(tài)中遺忘或加入新的信息,改善原始RNN的長程依賴問題,增強數(shù)據(jù)擬合的效果。LSTM的循環(huán)單元結(jié)構(gòu)[5]由遺忘門、輸入門和輸出門組成(見圖1),當(dāng)前時刻的序列xt與上一時刻的輸出ht-1共同構(gòu)成當(dāng)前時刻循環(huán)單元的輸入,經(jīng)過遺忘門的叉乘和輸入門的求和運算,將狀態(tài)ct-1更新到狀態(tài)ct,并將當(dāng)前時刻的輸出ht作為下一時刻的輸入。
通過遺忘門ft將上一時刻的輸出ht-1與當(dāng)前時刻的數(shù)據(jù)xt拼接之后,經(jīng)過sigmod激活函數(shù)運算,可得
ft=σ(Wf(ht-1,xt)+bf)
(2)
輸入門包括sigmod變換(即it決定哪些值需更新)和tanh變換,生成的新向量為
it=σ(Wi(ht-1,xt)+bi)
(3)
(4)
經(jīng)過遺忘門和輸入門之后,即可將狀態(tài)ct-1更新為狀態(tài)ct,即
(5)
輸出門與輸入門類似,通過一個sigmod變換來決定輸出哪些信息,得到ot為
ot=σ(Wo(ht-1,xt)+bo)
(6)
輸出的信息為當(dāng)前狀態(tài)經(jīng)過一個tanh變換之后與ot的向量點乘,即
ht=ot⊙tanh(ct)
(7)
本文采用TensorFlow2.1版本中的keras.layers.LSTM模塊引入LSTM層,實現(xiàn)基于LSTM網(wǎng)絡(luò)的通行流量預(yù)測。LSTM的門機(jī)制可在一定程度上將非規(guī)律信息屏蔽,避免訓(xùn)練數(shù)據(jù)中的偶發(fā)信息影響測試數(shù)據(jù)的擬合精度。
為說明基于LSTM網(wǎng)絡(luò)的流量預(yù)測模型的有效性,以廣東省某高速公路收費站某年9—11月(共計91 d)的交通流量數(shù)據(jù)為基礎(chǔ),建立短時流量預(yù)測和趨勢預(yù)測模型。流量統(tǒng)計時間間隔為15 min,將前81 d的流量數(shù)據(jù)劃分為訓(xùn)練集,將后10 d的流量數(shù)據(jù)劃分為驗證集。圖2為該收費站某年11月的15 min通行流量變化趨勢。
圖1 LSTM神經(jīng)網(wǎng)絡(luò)的循環(huán)單元結(jié)構(gòu)
圖2 廣東省某高速公路收費站某年11月的15 min通行流量變化趨勢
從圖2中可看出,日通行流量分布呈現(xiàn)出規(guī)律性波動特征。由于LSTM神經(jīng)元特殊的門結(jié)構(gòu)可有效解決長程依賴問題,為能更好地捕捉通行流量的變化趨勢,模型輸入層采用過去12 h的15 min通行流量數(shù)據(jù)作為時間窗,即使用過去0.5 d的48維輸入向量預(yù)測下一個15 min的通行流量。由于實例訓(xùn)練數(shù)據(jù)集的規(guī)模有限,為避免出現(xiàn)過擬合問題,隱藏層包括1個LSTM層和1個全連接層。考慮到通行流量預(yù)測是一個回歸問題,模型訓(xùn)練的損失函數(shù)采用均方誤差(EMS)的形式,可更快地收斂。同時,由于通行流量本身具有隨機(jī)性,EMS對離群數(shù)據(jù)的兼容性優(yōu)于其他損失函數(shù)。
(8)
模型優(yōu)化器采用參數(shù)自適應(yīng)學(xué)習(xí)率的Adam方法,梯度更新的數(shù)據(jù)批量(即batch_size)設(shè)定為256。對于模型訓(xùn)練次數(shù),文獻(xiàn)[3]通過研究時間序列預(yù)測問題,認(rèn)為訓(xùn)練次數(shù)epoch對訓(xùn)練結(jié)果沒有明顯的影響。測試結(jié)果表明,訓(xùn)練次數(shù)過多會導(dǎo)致訓(xùn)練集過擬合,在測試集上效果不佳,當(dāng)epoch設(shè)定為10次時,能達(dá)到較好的擬合效果。
以11月21日06:00開始的時間序列(時間序列1)和11月28日08:00開始的時間序列(時間序列2)為例,給出12 h之后的15 min通行流量預(yù)測結(jié)果示意見圖3。模型預(yù)測結(jié)果在整個測試集上的平均準(zhǔn)確率為0.85。
在圖3所示預(yù)測結(jié)果的基礎(chǔ)上,給出未來4 h的通行流量擬合結(jié)果見圖4。從圖4中可看出,預(yù)測結(jié)果基本上能反映流量的實際變化趨勢。
a)時間序列1
b)時間序列2
a)時間序列1
b)時間序列2
本文分析了新收費制式下高速公路通行流量預(yù)測問題的新變化,并從時間序列的角度提出了通行流量分析尺度和預(yù)測方法,指出了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法能更好地擬合數(shù)據(jù)中的非線性特征,具有極強的適應(yīng)性和可擴(kuò)展性,能在海量數(shù)據(jù)的訓(xùn)練下完成更多維度、更精細(xì)粒度的預(yù)測任務(wù)。此外,以高速公路收費站為例,采用LSTM網(wǎng)絡(luò)預(yù)測了未來通行流量的變化趨勢。