朱新遠(yuǎn),李大龍,田云強(qiáng),朱 爽,孫 鋒,于文琪
(1.山東理工大學(xué) 交通與車輛工程學(xué)院,山東 淄博 255049;2.濟(jì)南市公安局交通警察支隊(duì),山東 濟(jì)南 250013;3.淄博市公安局交通警察支隊(duì) 張店大隊(duì),山東 淄博 255000)
精確高效的短時交通流量預(yù)測是交通管控和交通誘導(dǎo)的前提,此方面的研究一直是智能交通領(lǐng)域的熱點(diǎn)問題[1]。近年來,為了提高短時交通流預(yù)測的精度,專家和學(xué)者們建立了大量的預(yù)測模型,大致分為兩類:參數(shù)方法和非參數(shù)方法。其中,參數(shù)方法研究已較為成熟,如時間序列法、歷史平均法、Kalman濾波法等[2-5];非參數(shù)方法目前展現(xiàn)出巨大的潛力,主要包括非參數(shù)回歸法、神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)等[6-7]。其中,人工神經(jīng)網(wǎng)絡(luò)由于其較強(qiáng)的并行信息處理能力以及魯棒性,在復(fù)雜多變的短時交通流預(yù)測中被廣泛應(yīng)用[8]。
Tsai等[9]利用多時間單位和并行組合的神經(jīng)網(wǎng)絡(luò)進(jìn)行短時預(yù)測,結(jié)果表明,與傳統(tǒng)模型相比,該模型具有更高的預(yù)測精度;Wei等[10]在預(yù)測中采用了經(jīng)驗(yàn)?zāi)B(tài)分解法和反向傳播神經(jīng)網(wǎng)絡(luò)混合法,預(yù)測結(jié)果表明,該方法在預(yù)測短期數(shù)據(jù)方面表現(xiàn)良好且穩(wěn)定;吳志周等[11]將灰色預(yù)測模型和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)相結(jié)合,建立了一種基于灰色神經(jīng)網(wǎng)絡(luò)的點(diǎn)速度預(yù)測模型;喻丹等[12]將粒子群算法和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了結(jié)合,結(jié)果表明該方法在預(yù)測偶發(fā)性擁堵情況下具有更好表現(xiàn);胡楓[13]將BP神經(jīng)網(wǎng)絡(luò)和馬爾科夫模型相結(jié)合,證明組合模型相較于單一模型具有更高的預(yù)測精度;劉芳[14]通過分析研究BP神經(jīng)網(wǎng)絡(luò)與NARX神經(jīng)網(wǎng)絡(luò)的機(jī)理,發(fā)現(xiàn)在對時間序列預(yù)測方面,NARX神經(jīng)網(wǎng)絡(luò)更具優(yōu)越性。本文基于NARX神經(jīng)網(wǎng)絡(luò),提出一種針對交叉口的短時交叉口流量預(yù)測模型。
本文研究基于濟(jì)南市交叉口地磁數(shù)據(jù),選取某十字型交叉口連續(xù)30日的地磁數(shù)據(jù),以5 min為間隔對7:00-19:00的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,并最終選定工作日的流量數(shù)據(jù)進(jìn)行實(shí)例分析及評價(jià)。
在短時交通流預(yù)測中,原始數(shù)據(jù)的完整性與準(zhǔn)確性對預(yù)測結(jié)果的精度起著至關(guān)重要的作用。交通地磁數(shù)據(jù)的采集過程中,受數(shù)據(jù)傳輸丟失、數(shù)據(jù)儲存異常等因素影響,異常數(shù)據(jù)時有發(fā)生。異常數(shù)據(jù)大致分為3種情況:丟失數(shù)據(jù)、不確定數(shù)據(jù)、錯誤數(shù)據(jù)。其中不確定數(shù)據(jù)中包含因交通特性而必然存在的正常波動數(shù)據(jù),所以在數(shù)據(jù)甄別過程中,應(yīng)盡可能地將正常波動數(shù)據(jù)與其他異常數(shù)據(jù)相分離。4種異常數(shù)據(jù)的取值范圍如圖1所示。
圖1 異常數(shù)據(jù)分類圖
藍(lán)色區(qū)域內(nèi)的丟失數(shù)據(jù)和紅色區(qū)域內(nèi)的錯誤數(shù)據(jù)存在明顯異常,較容易甄別;黃色區(qū)域內(nèi)的不確定數(shù)據(jù)和正常波動數(shù)據(jù)與常規(guī)數(shù)據(jù)偏離較小且符合實(shí)際情況,在數(shù)據(jù)甄別過程中應(yīng)定義為保留數(shù)據(jù);綠色區(qū)域內(nèi)的不確定數(shù)據(jù)與常規(guī)數(shù)據(jù)偏離較大,且通常難以直接區(qū)分,該區(qū)域是數(shù)據(jù)控制的重點(diǎn)與難點(diǎn)。
根據(jù)異常數(shù)據(jù)產(chǎn)生的原因和特征,異常數(shù)據(jù)的識別方法主要包含以下3種:
1)數(shù)值判斷法 數(shù)值判斷法指直接判斷交通量的異常數(shù)值(如空值),并結(jié)合交通流的機(jī)理判斷數(shù)據(jù)的狀態(tài)是否異常。該方法是數(shù)據(jù)識別過程的基礎(chǔ)方法,一般僅適合于對原始數(shù)據(jù)的初步判定。
2)閾值分析法 該方法的原理是確保一定時段內(nèi)的檢測數(shù)據(jù)值不應(yīng)超過該路段最大通行能力。由于本文數(shù)據(jù)來源于交叉口地磁數(shù)據(jù),所以數(shù)據(jù)值應(yīng)符合交叉口放行規(guī)律與歷史極限值。
3)離散數(shù)據(jù)檢驗(yàn)法 該方法利用統(tǒng)計(jì)學(xué)思想,通過對小概率事件的隨機(jī)性檢驗(yàn),對異常數(shù)據(jù)進(jìn)行甄別。離散數(shù)據(jù)的具體識別方法是比較上一周期與當(dāng)前周期的數(shù)據(jù)差值,若差值超過正常波動區(qū)間,則判定該數(shù)據(jù)為異常數(shù)據(jù)。
交通數(shù)據(jù)預(yù)處理的關(guān)鍵在于挖掘數(shù)據(jù)內(nèi)在的規(guī)律特性,考慮交通流的時間連續(xù)性、隨機(jī)性、波動性等因素,結(jié)合閾值設(shè)定和質(zhì)量控制對異常數(shù)據(jù)進(jìn)行篩選[15]。經(jīng)過數(shù)據(jù)篩選后,將時間序列數(shù)據(jù)中的異常數(shù)據(jù)給予剔除并進(jìn)行恢復(fù),數(shù)據(jù)恢復(fù)技術(shù)應(yīng)具有簡單、穩(wěn)定、精準(zhǔn)等優(yōu)點(diǎn)?,F(xiàn)有數(shù)據(jù)恢復(fù)方法均有弊端,本文從維持時間序列的波動性和準(zhǔn)確性角度出發(fā),采用基于歷史數(shù)據(jù)和時間序列數(shù)據(jù)相結(jié)合的恢復(fù)方法,即
(1)
式中:gi表示恢復(fù)值;k表示平滑采用寬度;xi(i)表示實(shí)際檢測數(shù)據(jù);xi(i-7)表示上周同一天的歷史數(shù)據(jù);?表示權(quán)重系數(shù),一般可取為0.5。
圖2所示為某一天數(shù)據(jù)處理過程中具有代表性的幾組數(shù)據(jù),如在20、40、56等時刻存在異常數(shù)據(jù),根據(jù)此方法,對異常數(shù)據(jù)進(jìn)行恢復(fù),結(jié)果如圖3所示。
圖2 原始數(shù)據(jù)
圖3 恢復(fù)數(shù)據(jù)
NARX神經(jīng)網(wǎng)絡(luò)與其他神經(jīng)網(wǎng)絡(luò)相比,具有動態(tài)回歸的特性,是一種具有記憶功能的神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)的輸出不僅與當(dāng)前的輸入相關(guān),而且受過去的輸出影響,因此在處理非線型問題上,特別是在時間序列預(yù)測上具有良好的預(yù)測能力[16]。有學(xué)者在研究過程中發(fā)現(xiàn),NARX神經(jīng)網(wǎng)絡(luò)的收斂速度和歸一性均優(yōu)于其他神經(jīng)網(wǎng)絡(luò),這在一定程度上緩解了神經(jīng)網(wǎng)絡(luò)運(yùn)算耗時長的缺點(diǎn),滿足交通流預(yù)測需求的精確性與高效性,因此本文選取該方法進(jìn)行城市交通短時交通流預(yù)測。
本文所用的經(jīng)典NARX神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示,其表達(dá)式為
圖4 NARX神經(jīng)網(wǎng)絡(luò)
y(t)=f(x(t-1),…,x(t-d),y(t-1),
…,y(t-d))
(2)
式中:y(t)表示神經(jīng)網(wǎng)絡(luò)的輸出值;x(t-1),…,x(t-d)表示過去輸入值;y(t-1),…,y(t-d)表示過去輸出值;f(·)表示非線性模糊函數(shù),d表示反饋延時。
NARX神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱含層和輸出層及輸入和輸出延時構(gòu)成,在應(yīng)用模型前應(yīng)首先確定隱含層、輸入和輸出的延時階數(shù)、隱含層神經(jīng)元等相關(guān)參數(shù)[17]。
根據(jù)研究學(xué)者經(jīng)驗(yàn),輸入層的節(jié)點(diǎn)數(shù)應(yīng)根據(jù)動態(tài)系統(tǒng)方程的輸入來確定,若動態(tài)系統(tǒng)方程的輸入不明確時,也可以采用逐步測試的方法,最終確定網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù);隱含層參數(shù)設(shè)定時主要考慮誤差曲面梯度的穩(wěn)定性以及神經(jīng)網(wǎng)絡(luò)性能等因素,參數(shù)值通常設(shè)定為1;神經(jīng)元參數(shù)的設(shè)定需根據(jù)預(yù)測樣本進(jìn)行多次驗(yàn)證,如果參數(shù)值設(shè)定太小,則無法挖掘數(shù)據(jù)的潛在規(guī)律,而參數(shù)值設(shè)定過大則會造成信息重疊,從而產(chǎn)生較大偏差。
根據(jù)本次研究的數(shù)據(jù)規(guī)模,并進(jìn)行反復(fù)測試,最終確定了模型的網(wǎng)絡(luò)結(jié)構(gòu)為:輸入層節(jié)點(diǎn)數(shù)為1,隱含層數(shù)為1,隱含層神經(jīng)元數(shù)量為20,延遲數(shù)為3,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 NARX神經(jīng)網(wǎng)絡(luò)圖
考慮均方誤差和訓(xùn)練速度,本文選取LM(Levenberg-Marquardt)算法對網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,將所有樣本數(shù)據(jù)的70%作為訓(xùn)練數(shù)據(jù),15%作為驗(yàn)證數(shù)據(jù),最后15%作為測試數(shù)據(jù),直至網(wǎng)絡(luò)訓(xùn)練效果良好再進(jìn)行預(yù)測。
訓(xùn)練結(jié)束后,根據(jù)誤差自相關(guān)函數(shù)和輸入-輸出相關(guān)函數(shù)對網(wǎng)絡(luò)泛化能力進(jìn)行檢驗(yàn)。誤差自相關(guān)函數(shù)反映的是數(shù)據(jù)與數(shù)據(jù)之間的相關(guān)性,理想狀態(tài)下的模型只在0時刻存在零延遲,即完全不相關(guān)。通常誤差自相關(guān)函數(shù)除零延遲外,其他均落在95%的置信區(qū)間內(nèi),則表明網(wǎng)絡(luò)訓(xùn)練效果良好,具有良好的預(yù)測能力。本文模型訓(xùn)練過程中誤差自相關(guān)函數(shù)值如圖6所示。
圖6 誤差自相關(guān)函數(shù)值
輸入-輸出相關(guān)函數(shù)反映的是輸入?yún)?shù)與誤差之間的相關(guān)性,理想狀態(tài)下誤差值均為0時,誤差對輸入?yún)?shù)無影響。同樣,該指標(biāo)落在95%的置信區(qū)間內(nèi),才表明網(wǎng)絡(luò)性能較優(yōu)。訓(xùn)練效果如圖7所示。
圖7 輸入-輸出誤差相關(guān)函數(shù)值
經(jīng)過訓(xùn)練、驗(yàn)證和測試誤差,網(wǎng)絡(luò)輸出的預(yù)測擬合優(yōu)度圖如圖8所示,預(yù)測效果誤差圖如圖9所示。
網(wǎng)絡(luò)訓(xùn)練時,相關(guān)系數(shù)R值越接近1,訓(xùn)練效果越佳。而圖8中,訓(xùn)練數(shù)據(jù)的R值為0.974 91,驗(yàn)證數(shù)據(jù)的R值為0.978 97,測試數(shù)據(jù)的R值為0.953 10,整體數(shù)據(jù)的R值為0.971 92,4項(xiàng)R值均較為理想。通過上述分析可知,網(wǎng)絡(luò)訓(xùn)練的效果良好,滿足預(yù)測要求,可用于實(shí)際交通流的短時預(yù)測。
(a)訓(xùn)練 (b)驗(yàn)證
圖9 的誤差線分布情況表明,模型訓(xùn)練誤差值較小,僅在個別時間點(diǎn)出現(xiàn)誤差偏大的情況。
圖9 預(yù)測效果誤差圖
基于上述訓(xùn)練后的NARX神經(jīng)網(wǎng)絡(luò)模型,對單個工作日的交通流(以5 min為時間間隔尺度)進(jìn)行了預(yù)測。模型預(yù)測結(jié)果(5 min)對比圖如圖10所示,誤差分布曲線如圖11所示。顯然,基于NARX神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果在大多數(shù)時間點(diǎn)上和實(shí)際流量較為吻合。
圖10 預(yù)測結(jié)果對比圖
圖11 誤差分布曲線圖
為了更好地反映預(yù)測值與實(shí)際情況之間的關(guān)系,本文采用相對誤差δ、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)評價(jià)預(yù)測效果,即
(3)
(4)
(5)
式中:y(t)表示真實(shí)值;y′(t)表示預(yù)測值。其中,平均絕對誤差說明預(yù)測值的總體偏離程度,數(shù)值越大說明預(yù)測偏離越大;平均絕對百分比誤差說明預(yù)測值的平均偏離程度,數(shù)值在0~5之間說明預(yù)測精度極高,在10以內(nèi)說明預(yù)測精度高。
分析可知,該模型在短時交通流預(yù)測方面達(dá)到了預(yù)期的效果,精度較高,平均絕對誤差僅為4.035,平均絕對百分比誤差為8.41%。通過相對誤差可以看出,在交通流變化相對平穩(wěn)時段,相對誤差值大部分集中在0.15以內(nèi),只有極少數(shù)時段超過了0.25。如圖11所示,相對誤差較大的時段均發(fā)生在交通流量突變時,例如時刻20和120。分析其原因是由于流量突變期間,數(shù)據(jù)相對分散且呈隨機(jī)性,NARX神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)特征的提取能力有所下降,交通流量突變時段的預(yù)測精度還有待提高。
綜上所述,本文建立的NARX神經(jīng)網(wǎng)絡(luò)預(yù)測模型能夠前瞻性地掌握交通流動態(tài)的變化規(guī)律,實(shí)現(xiàn)交叉口短時交通流量的精準(zhǔn)預(yù)測。