王博文,王景升,朱 茵,王統(tǒng)一,張澤有
(1.中國(guó)人民公安大學(xué) 交通管理學(xué)院,北京 100038; 2.山東科技大學(xué) 電氣信息學(xué)院, 山東 濟(jì)南 250000)
交通流量預(yù)測(cè)是智能交通系統(tǒng)(Intelligent Traffic System, ITS)的重要組成部分,準(zhǔn)確的交通流量預(yù)測(cè)模型可以輔助交通信號(hào)配時(shí)、擁堵疏導(dǎo)等任務(wù),是智能交通領(lǐng)域研究的熱點(diǎn)問(wèn)題。
早期的交通流預(yù)測(cè)任務(wù)通常采用傳統(tǒng)統(tǒng)計(jì)模型,通過(guò)使用線性模型挖掘交通流序列中存在的線性關(guān)系[1-3]。如EMAMI等[4]研發(fā)了一種卡爾曼濾波器對(duì)交通流進(jìn)行了有效的預(yù)測(cè),為短期交通流量預(yù)測(cè)提供了一種低成本手段。KUMAR等[5]提出季節(jié)性自回歸移動(dòng)平均(Autoregressive Integrated Moving Average, ARIMA)模型,利用歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)對(duì)早晚高峰時(shí)段的交通流量進(jìn)行短期預(yù)測(cè),得到了良好的預(yù)測(cè)效果。但是,隨著居民出行需求的提高,交通流所具備的非線性特征愈發(fā)明顯,許多機(jī)器學(xué)習(xí)的算法,如支持向量機(jī),及深度學(xué)習(xí)算法,如等及長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNN)及其改進(jìn)算法,被應(yīng)用于短時(shí)交通流預(yù)測(cè)[6-18],這類模型多為非線性模型,以期望充分挖掘交通流序列的非線性關(guān)系。鄒宗民等[19]使用粒子群算法對(duì)支持向量回歸(Support Vector Regression, SVR)進(jìn)行參數(shù)尋優(yōu),并將優(yōu)化后的模型用于交通流預(yù)測(cè)任務(wù)中。相較于傳統(tǒng)統(tǒng)計(jì)算法,提高了模型的預(yù)測(cè)準(zhǔn)確性,相較于深度學(xué)習(xí)算法,SVR在小樣本交通流序列預(yù)測(cè)中表現(xiàn)較好。溫惠英等[20]引入雙長(zhǎng)短期記憶網(wǎng)絡(luò),將基準(zhǔn)模型拆分為兩個(gè)方向,并通過(guò)試驗(yàn)證明了模型對(duì)于非線性交通流數(shù)據(jù)具備良好的預(yù)測(cè)和泛化能力。李磊等[21]提出一種CNN和LSTM的結(jié)合方法,有效提取了交通流的時(shí)空特征,并通過(guò)大量試驗(yàn)證明了非線性模型對(duì)于交通流序列的預(yù)測(cè)情況較為良好。GUO等[22]構(gòu)建一種基于注意力機(jī)制的時(shí)空?qǐng)D卷積網(wǎng)絡(luò),對(duì)交通流序列進(jìn)行了準(zhǔn)確的預(yù)測(cè)。單一的傳統(tǒng)統(tǒng)計(jì)模型或淺層機(jī)器學(xué)習(xí)模型不能夠同時(shí)挖掘交通流序列中存在的線性及非線性關(guān)系。基于深度學(xué)習(xí)的模型,尤其是基于GNN及其改進(jìn)算法的模型,對(duì)于試驗(yàn)樣本為大樣本量的依賴性較高,數(shù)據(jù)計(jì)算成本高,并且時(shí)間復(fù)雜度相較于傳統(tǒng)統(tǒng)計(jì)模型及淺層機(jī)器學(xué)習(xí)算法高。短時(shí)交通流預(yù)測(cè)任務(wù)作為輔助ITS進(jìn)行決策的關(guān)鍵工作,需要預(yù)測(cè)模型對(duì)道路情況進(jìn)行快速、準(zhǔn)確的判斷,對(duì)于預(yù)測(cè)實(shí)時(shí)性的要求極高。
因此,為解決小樣本、快速短時(shí)交通流預(yù)測(cè)問(wèn)題,并充分挖掘交通流序列中存在線性與非線性關(guān)系,本研究將對(duì)于線性數(shù)據(jù)具備良好擬合效果,并且時(shí)間復(fù)雜度較低的自回歸滑動(dòng)平均(Auto Regressive Moving Average,ARMA)模型與對(duì)于非線性、小樣本數(shù)據(jù)的處理具有計(jì)算準(zhǔn)確率高、時(shí)間復(fù)雜度低等優(yōu)勢(shì)的SVR模型進(jìn)行組合,達(dá)到提高交通流預(yù)測(cè)模型預(yù)測(cè)準(zhǔn)確率及降低模型時(shí)間復(fù)雜度的目的。
1.1.1 ARMA模型
ARMA模型是目前應(yīng)用最廣的線性平穩(wěn)時(shí)間序列預(yù)測(cè)模型,模型的形式為:
(1)
式中,yt為被預(yù)測(cè)變量;yt-1為與被預(yù)測(cè)變量相關(guān)的滯后階;c為常數(shù);εt為白噪聲序列,服從均值為0的正態(tài)分布;αi為自相關(guān)系數(shù)(i=1,2,…,p);θi為移動(dòng)平均系數(shù)(i=1,2,…,q);p,q分別為自回歸、移動(dòng)平均過(guò)程中的滯后階數(shù)。
參數(shù)p,q的選擇決定了ARMA模型的擬合效果。當(dāng)樣本量n固定時(shí),使赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)達(dá)到最小值的(p,q)即為最佳參數(shù)組合,AIC的計(jì)算公式為:
A=2n-2lnL,
(2)
式中,n為樣本個(gè)數(shù);L為似然函數(shù)。
1.1.2 SVR模型
SVR是將支持向量機(jī)(Support Vector Machine,SVM)應(yīng)用于回歸問(wèn)題,目的在于建立一個(gè)最優(yōu)的超平面,使訓(xùn)練樣本距離最優(yōu)超平面的誤差最小,此時(shí)模型達(dá)到最佳擬合效果。
對(duì)于非線性數(shù)據(jù)集(i=1,2,…,m),xi,yi分別為輸入和輸出。把樣本從低維空間映射到高維空間,超平面公式表示為:
f(xi)=ωTΦ(xi)+b,
(3)
式中,ω為超平面的法向量;Ф(xi)為xi映射到高維空間后的特征向量;b為位移項(xiàng)。
模型的訓(xùn)練過(guò)程即參數(shù)ω,b的尋優(yōu)過(guò)程,最終得到一組參數(shù)ω,b使f(xi)最接近yi,將問(wèn)題轉(zhuǎn)化為凸二次規(guī)劃問(wèn)題,表示為:
(4)
使用拉格朗日乘子法計(jì)算得到:
(5)
使用核函數(shù)代替線性方程中的線性項(xiàng)可以使原來(lái)的線性算法非線性化,即能做非線性回歸,此時(shí)引進(jìn)核函數(shù)達(dá)到了提升維度的目的,也可以有效地控制過(guò)擬合。不同的核函數(shù)會(huì)對(duì)SVR的性能產(chǎn)生影響。徑向基核函數(shù)(RBF)的抗干擾能力及適應(yīng)能力較強(qiáng),表示為:
K(X,X′)=exp(-γ‖X-X′‖2),
(6)
式中,K(X,X′)為滿足Mercer條件的核函數(shù);γ為核參數(shù),決定映射樣本在特征空間的分布;X為輸入樣本構(gòu)成的特征向量;X′為RBF核函數(shù)的中心。
計(jì)算得到SVR回歸模型為:
(7)
RBF的參數(shù)C(懲罰項(xiàng))和g(核函數(shù)方差)的選取對(duì)于模型的結(jié)果存在較大影響。
1.2.1 ARMA-SVR加權(quán)組合模型
CRITIC法是一種比熵權(quán)法和標(biāo)準(zhǔn)離差法更好的客觀權(quán)重賦權(quán)法,它基于評(píng)價(jià)指標(biāo)的對(duì)比強(qiáng)度和指標(biāo)之間的沖突性來(lái)綜合衡量指標(biāo)的客觀權(quán)重。
假設(shè)有n個(gè)待評(píng)價(jià)樣本,p項(xiàng)評(píng)價(jià)指標(biāo),形成原始指標(biāo)數(shù)據(jù)矩陣:
(8)
式中xij為第i個(gè)樣本的第j項(xiàng)評(píng)價(jià)指標(biāo)的值。
指標(biāo)的對(duì)比強(qiáng)度以標(biāo)準(zhǔn)差的形式來(lái)表現(xiàn):
(9)
式中,xj為第j項(xiàng)指標(biāo)的均值;Sj為第j項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差。
在CRITIC法中使用標(biāo)準(zhǔn)差來(lái)表示各指標(biāo)的內(nèi)取值的差異波動(dòng)情況,標(biāo)準(zhǔn)差越大表示該指標(biāo)的數(shù)值差異越大,越能反映出更多的信息,該指標(biāo)本身的評(píng)價(jià)強(qiáng)度也就越強(qiáng),應(yīng)該給該指標(biāo)分配更多的權(quán)重。
指標(biāo)的沖突性用相關(guān)系數(shù)進(jìn)行表示:
(10)
式中rij為評(píng)價(jià)指標(biāo)i和j之間的相關(guān)系數(shù)。
使用相關(guān)系數(shù)來(lái)表示指標(biāo)間的相關(guān)性,與其他指標(biāo)的相關(guān)性越強(qiáng),則該指標(biāo)就與其他指標(biāo)的沖突性越小,反映出相同的信息越多,所能體現(xiàn)的評(píng)價(jià)內(nèi)容就越有重復(fù)之處,一定程度上也就削弱了該指標(biāo)的評(píng)價(jià)強(qiáng)度,應(yīng)該減少對(duì)該指標(biāo)分配的權(quán)重。
第j個(gè)評(píng)價(jià)指標(biāo)所包含的信息量Cj表示為:
(11)
所以第j個(gè)指標(biāo)的客觀權(quán)重Wj為:
(12)
ARMA-SVR加權(quán)組合模型原理如圖1所示。
圖1 ARMA-SVR加權(quán)組合模型的建模流程Fig.1 Modeling process of ARMA-SVR weighted composite model
(1)使用ARMA模型對(duì)樣本進(jìn)行建模,得到預(yù)測(cè)結(jié)果PARMA。
(2)使用SVR模型對(duì)樣本進(jìn)行建模,得到預(yù)測(cè)結(jié)果PSVR。
(3)使用CRITIC賦權(quán)法對(duì)ARMA與SVR模型的預(yù)測(cè)結(jié)果進(jìn)行客觀賦權(quán),分別得到權(quán)重WARMA和WSVR。
(5)將ARMA模型預(yù)測(cè)結(jié)果PARMA與SVR模型預(yù)測(cè)結(jié)果PSVR進(jìn)行加權(quán)相加,得到ARMA-SVR加權(quán)組合模型的預(yù)測(cè)結(jié)果表示為:
(13)
1.2.2 ARMA-SVR殘差優(yōu)化組合模型
交通流存在線性和非線性的特性,而ARMA和SVR模型分別對(duì)線性模型和非線性模型的處理上具備優(yōu)勢(shì),理論上將兩個(gè)模型的優(yōu)勢(shì)相結(jié)合,能夠達(dá)到提高模型效果的目的。假設(shè)時(shí)間序可視為線性自相關(guān)部分與非線性殘差相結(jié)合的結(jié)果,表示為:
Pt=Lt+Rt,
(14)
式中,Lt為線性自相關(guān)部分;Rt為非線性殘差。
ARMA-SVR殘差優(yōu)化組合模型原理如圖2所示。
圖2 ARMA-SVR殘差優(yōu)化組合模型的建模流程Fig.2 Modeling process of ARMA-SVR residual optimization composite model
由圖2得,ARMA-SVR殘差優(yōu)化組合模型的基本原理為:
(1)使用ARMA模型對(duì)樣本的線性部分進(jìn)行建模,得到預(yù)測(cè)結(jié)果ARMA,進(jìn)而得出殘差序列R。
(2)以特定的輸入步長(zhǎng)對(duì)殘差序列進(jìn)行重構(gòu)。
(3)將重構(gòu)后的殘差序列R*作為SVR模型的輸入。
(4)使用SVR模型對(duì)殘差序列的非線性部分進(jìn)行建模,得到殘差序列預(yù)測(cè)結(jié)果。
(5)將殘差序列預(yù)測(cè)結(jié)果與ARMA模型預(yù)測(cè)結(jié)果相加,得到ARMA-SVR殘差優(yōu)化組合模型的預(yù)測(cè)結(jié)果。
回歸模型中,常用均方誤差(Mean Absolute Error,MAE)、平均絕對(duì)誤差(Mean Squared Error,MSE)、均方根誤差(Root Mean Squard Error,RMSE)作為模型的評(píng)價(jià)指標(biāo),本研究使用MAE和RMSE作為評(píng)價(jià)指標(biāo),模型的MAE和RMSE越小,預(yù)測(cè)效果越好。
本試驗(yàn)采用內(nèi)蒙古包頭市某路段2020年9月的地磁交通流量數(shù)據(jù),每組數(shù)據(jù)的單次采樣時(shí)間間隔為5 min,包括單向所有車道的交通流量總和,樣本總量為8 640。
將數(shù)據(jù)分別處理為以5,10,15 min為時(shí)間間隔的數(shù)據(jù)。3個(gè)樣本集的樣本數(shù)量分別為8 640個(gè),4 320個(gè),2 880個(gè)。將3個(gè)樣本集分別按照8∶2的比例劃分訓(xùn)練集與測(cè)試集。處理后的交通流量變化趨勢(shì)如圖3所示。
圖3 不同樣本時(shí)間間隔下的交通流量的變化趨勢(shì)Fig.3 Variation trends of traffic volume at different sample time intervals
2.3.1 ARMA模型
平穩(wěn)性及白噪聲檢驗(yàn)。對(duì)樣本進(jìn)行平穩(wěn)性檢驗(yàn)及白噪聲檢驗(yàn)詳見(jiàn)表1。
表1 交通流量序列的平穩(wěn)性檢驗(yàn)Tab.1 Stationarity test of traffic volume sequence
由表2得,平穩(wěn)性檢驗(yàn)的t統(tǒng)計(jì)量值小于1%,5%,10%這3個(gè)水平的值,且P值小于0。白噪聲檢驗(yàn)的P值小于0,所以3個(gè)樣本集均為平穩(wěn)非白噪聲序列。
ARMA模型參數(shù)確定。多次試驗(yàn)得到,當(dāng)樣本的時(shí)間間隔分別為5,10,15 min時(shí)p=4,q=3,AIC值達(dá)到最小,最佳參數(shù)組合為(4,3)。
對(duì)3個(gè)ARMA模型的參數(shù)進(jìn)行顯著性檢驗(yàn),詳見(jiàn)表2。由表2可得,3個(gè)模型均滿足顯著性小于0.05,說(shuō)明參數(shù)的取值具備合理性。上述建模流程得到ARMA模型預(yù)測(cè)結(jié)果。
表2 ARMA模型參數(shù)的顯著性檢驗(yàn)Tab.2 Significance test of ARMA model parameters
2.3.2 SVR模型
數(shù)據(jù)歸一化。使用SVR模型之前,將數(shù)據(jù)做歸一化操作,以此提高模型的收斂速度和預(yù)測(cè)能力。本研究采用Rescaling,即Min-Max歸一化,將交通流量數(shù)據(jù)歸一化至[0,1]區(qū)間,表示為:
(9)
式中,x′為歸一化后的交通流量數(shù)據(jù);x為原始交通流量數(shù)據(jù);xmin為樣本的最小值;xmax為樣本的最大值。
(10)
本研究中SVR模型的建立均基于sklearn機(jī)器學(xué)習(xí)庫(kù),模型的參數(shù)為默認(rèn)值。使用訓(xùn)練好的SVR模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),對(duì)SVR預(yù)測(cè)結(jié)果進(jìn)行反歸一化后,上述建模流程得到SVR模型預(yù)測(cè)結(jié)果。
2.3.3 ARMA-SVR加權(quán)組合預(yù)測(cè)模型
在模型相互補(bǔ)償?shù)倪^(guò)程中,需要確定各個(gè)模型輸出結(jié)果的權(quán)重,使用CRITIC權(quán)重法對(duì)ARMA和SVR預(yù)測(cè)的交通流量進(jìn)行融合。模型的權(quán)重詳見(jiàn)表3。
表3 CRITIC權(quán)重法賦予模型的權(quán)重Tab.3 Weights given to model by the CRITIC weighting method
將ARMA模型預(yù)測(cè)結(jié)果與SVR模型預(yù)測(cè)結(jié)果進(jìn)行加權(quán)組合,得到ARMA-SVR加權(quán)組合預(yù)測(cè)模型的預(yù)測(cè)結(jié)果。
2.3.4 ARMA-SVR殘差優(yōu)化組合模型
ARMA模型得到的殘差如圖4所示。
圖4 不同樣本時(shí)間間隔下ARMA模型得到的殘差Fig.4 Residues obtained by ARMA model at different sample time intervals
首先對(duì)通過(guò)ARMA模型得到殘差進(jìn)行歸一化處理,將殘差值規(guī)約在[0,1]。然后按照8∶2的比例劃分訓(xùn)練集與測(cè)試集。最后使用SVR對(duì)重構(gòu)后的殘差序列進(jìn)行預(yù)測(cè)。
使用SVR模型以2個(gè)時(shí)間步長(zhǎng)讀取訓(xùn)練集的殘差序列進(jìn)行訓(xùn)練,然后使用訓(xùn)練好的ARMA-SVR殘差優(yōu)化組合模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。對(duì)殘差預(yù)測(cè)結(jié)果進(jìn)行反歸一化后,將SVR模型殘差預(yù)測(cè)結(jié)果與ARMA模型預(yù)測(cè)結(jié)果相加,得到ARMA-SVR殘差優(yōu)化組合模型的預(yù)測(cè)結(jié)果。
為驗(yàn)證ARMA-SVR殘差優(yōu)化組合模型的優(yōu)越性,將ARMA模型、SVR模型、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)模型、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)模型及ARMA-SVR加權(quán)組合模型作為對(duì)照組進(jìn)行模型評(píng)價(jià)。
LSTM和ANN模型的建立均基于Keras深度學(xué)習(xí)網(wǎng)絡(luò)框架,激活函數(shù)均為線性整流函數(shù)Relu,損失函數(shù)為MSE,優(yōu)化器為Adam,默認(rèn)神經(jīng)網(wǎng)絡(luò)隱層數(shù)設(shè)置為1,神經(jīng)元數(shù)量為8,通過(guò)compile方法完成學(xué)習(xí)過(guò)程的配置,訓(xùn)練的迭代次數(shù)為100,當(dāng)監(jiān)測(cè)到loss停止改進(jìn)時(shí),結(jié)束訓(xùn)練。
使用Min-Max歸一化,將交通流量數(shù)據(jù)歸一化至[0,1]區(qū)間,分別使用訓(xùn)練好的LSTM和ANN模型以t-1及t時(shí)刻的交通流量值預(yù)測(cè)t+1時(shí)刻的交通流量值。
不同模型在樣本的時(shí)間間隔分別為5,10,15 min 時(shí)對(duì)于測(cè)試集的擬合評(píng)價(jià)結(jié)果詳見(jiàn)表4。
表4 交通流量預(yù)測(cè)模型的評(píng)價(jià)結(jié)果Tab.4 Evaluation result of traffic volume forecasting model
由表4得,在預(yù)測(cè)準(zhǔn)確率方面,對(duì)于小樣本數(shù)據(jù),相較于傳統(tǒng)統(tǒng)計(jì)模型及機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率較低。當(dāng)采樣間隔為5 min時(shí),ARMA-SVR加權(quán)組合模型的RMSE,MAE值均低于ARMA,SVR,LSTM,ANN的單一模型,模型擬合效果較4個(gè)單一模型好。在不同的采樣時(shí)間間隔下,ARMA-SVR殘差優(yōu)化組合預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率和穩(wěn)定性較其他模型均有所提升,RMSE降低約0.378~7.063,MAE降低約0.054~0.802,可以為不同采樣時(shí)間間隔下交通流量預(yù)測(cè)提供方法參考。除此之外,通過(guò)大量試驗(yàn)得到,在時(shí)間復(fù)雜度方面,ARMA和SVR的兩種組合模型的時(shí)間復(fù)雜度及設(shè)備的配置遠(yuǎn)遠(yuǎn)低于深度學(xué)習(xí)模型ANN及LSTM。相關(guān)研究人員可將模型的預(yù)測(cè)結(jié)果用于ITS的短期決策任務(wù)中,如交叉口的信號(hào)配時(shí)。
不同模型在樣本的時(shí)間間隔分別為5,10,15 min 時(shí),在測(cè)試集上的擬合情況如圖5所示。
圖5 不同時(shí)間間隔下交通流量預(yù)測(cè)模型在測(cè)試集上的擬合情況Fig.5 Fitting condition of traffic volume prediction model on test set at different time intervals
本研究將對(duì)于線性數(shù)據(jù)具備良好擬合效果的ARMA模型與對(duì)于非線性數(shù)據(jù)處理具有優(yōu)勢(shì)的SVR模型進(jìn)行組合,充分挖掘了交通流序列中的線性及非線性關(guān)系,提高了模型預(yù)測(cè)的準(zhǔn)確率。并通過(guò)試驗(yàn)證明,對(duì)比ARMA,SVR,LSTM,ANN及ARMA-SVR加權(quán)組合預(yù)測(cè)模型,ARMA-SVR殘差優(yōu)化組合模型在小樣本的短時(shí)交通流預(yù)測(cè)任務(wù)中表現(xiàn)出預(yù)測(cè)精度高、計(jì)算速度快及數(shù)據(jù)計(jì)算成本低的優(yōu)勢(shì)。并且在樣本的時(shí)間間隔分別為5,10,15 min時(shí)ARMA-SVR殘差優(yōu)化組合模型均能較好地反映交通流量序列中的線性及非線性關(guān)系,可以滿足基于不同樣本時(shí)間間隔的交通流流量預(yù)測(cè)的需要,將該模型應(yīng)用于支持ITS的決策需求,可以提升ITS決策速度及精確度,同時(shí)能夠降低ITS決策系統(tǒng)的建設(shè)成本。因?yàn)榻煌餍蛄型芏嘁蛩氐挠绊?,本研究未考慮多因素對(duì)預(yù)測(cè)目標(biāo)的影響,之后的研究可以通過(guò)擴(kuò)展數(shù)據(jù)獲取的范圍,將速度、占有率、天氣狀況、能見(jiàn)度及事故信息等因素納入預(yù)測(cè)模型。