李志成,王 珂
(1.安徽交通職業(yè)技術(shù)學(xué)院城市軌道交通與信息工程系,安徽 合肥 230001;2.蘭州交通大學(xué)交通運(yùn)輸學(xué)院,甘肅 蘭州 730070)
近年來,我國城市化不斷發(fā)展,機(jī)動車保有量和公路里程逐年增加,與此同時(shí),我國的交通事故數(shù)量也在不斷增加,其中事故死亡人數(shù)是大家的關(guān)注點(diǎn)之一.交通事故的發(fā)生具有隨機(jī)性和不確定性,同時(shí)在特定的時(shí)空區(qū)域內(nèi)又呈現(xiàn)出一定的規(guī)律性.基于此特性,為了進(jìn)一步提高交通事故死亡人數(shù)的預(yù)測精度,國內(nèi)外很多學(xué)者從不同角度對交通事故的各項(xiàng)指標(biāo)進(jìn)行分析和建模[1].
目前常用的交通事故預(yù)測方法有時(shí)間序列法、灰色預(yù)測、人工神經(jīng)網(wǎng)絡(luò)預(yù)測等[2].任英和王軍雷等[3-4]分別建立交通事故面板模型,通過宏觀和微觀層面較全面的分析驗(yàn)證了該模型可以很好的應(yīng)用于交通事故的相關(guān)因素分析中.王揚(yáng)等[5]采用灰色系統(tǒng)理論對我國交通事故總量進(jìn)行了預(yù)測.杜曉燕等[1]剖析事故次數(shù)和相關(guān)致因,并采用灰色度法求解其之間的關(guān)聯(lián)度.張嘉琦和Xiao Kun Miao等[6-7]建立GM(1,1)模型預(yù)測了遠(yuǎn)期交通事故的數(shù)量.馬國忠等[8]通過實(shí)例分析說明灰色-周期外延組合模型可用于交通事故死亡人數(shù)的動態(tài)預(yù)測.李相勇等[9]建立基于灰色預(yù)測方法的灰色馬爾可夫預(yù)測模型提高道路事故的預(yù)測精度.喬向明[10]運(yùn)用線性回歸的方法建立11種預(yù)測方程模型,通過模型尋優(yōu)預(yù)測31個(gè)省2004~2007年的交通事故死亡人數(shù)和直接經(jīng)濟(jì)損失的最優(yōu)預(yù)測結(jié)果.沈坤和裘晨璐等[11-12]采用多元線性回歸分析方法分別對交通事故影響要素進(jìn)行了分析,建立交通事故預(yù)測回歸模型,為國家宏觀戰(zhàn)略層次相關(guān)決策、預(yù)測提供參考.王祥等[13]利用非線性回歸的方法預(yù)測全國道路交通事故發(fā)展形勢,結(jié)果表明該方法簡單易行且預(yù)測精度較高.朱茵[2]從公安交通管理的實(shí)際出發(fā),提出基于非參數(shù)回歸的道路交通安全趨勢預(yù)測方法.Fagoyinbo等[14]利用最小二乘法來預(yù)測拉各斯州的道路交通事故總數(shù)和總?cè)藛T死亡人數(shù).孫浩和袁偉等[15-16]分別以我國機(jī)動車保有量、公路里程、人口、國民總收入等為參數(shù),以我國交通事故死亡人數(shù)為基數(shù)建立最優(yōu)組合預(yù)測模型,為提高預(yù)測精度提供理論依據(jù).
此外,針對交通事故時(shí)間序列預(yù)測,國內(nèi)外學(xué)者已開展了多方面研究,同時(shí)也頗有成效[17].例如:盧毅等[18]建立基于脈沖響應(yīng)的城市交通協(xié)整模型,分析城市化與公共交通發(fā)展的內(nèi)在聯(lián)系,結(jié)果表明兩者之間存在某種長期均衡關(guān)系.蔣宏等[19]針對北方某城市交通事故統(tǒng)計(jì)數(shù)據(jù)建立季節(jié)性時(shí)間序列模型,結(jié)果表明該模型能夠充分利用歷史數(shù)據(jù)從而減少誤差,具有良好的適用性.邴其春等[20]構(gòu)建的向量誤差修正模型在預(yù)測交通事故時(shí)具有較好的預(yù)測效果.季彥婕等[21]建立道路交通事故多因素時(shí)間序列宏觀預(yù)測模型,結(jié)果表明該模型具有數(shù)據(jù)資料少,建模簡單,計(jì)算便捷的優(yōu)點(diǎn),能夠很好的應(yīng)用于道路交通事故預(yù)測.劉淼[22]選取2007~2012年的某城市交通事故四項(xiàng)指標(biāo)數(shù)據(jù),采用時(shí)間序列模型和灰色理論對道路交通事故次數(shù)和死亡人數(shù)進(jìn)行了具體的預(yù)測,表明其結(jié)果是可信的.王文博等[23]從時(shí)間序列出發(fā),構(gòu)建了基于相關(guān)向量機(jī)(RVM)的交通事故預(yù)測模型,較好驗(yàn)證了1951~2013年的交通事故數(shù).Chabok等[24]使用SARIMA模型分析評估過去幾年的事故死亡趨勢并預(yù)測未來4年的事故趨勢,該模型被認(rèn)為是預(yù)測死亡趨勢的最佳擬合模型.Mutangi和Avuglah等[25-26]對于城市交通事故統(tǒng)計(jì)數(shù)據(jù)應(yīng)用自回歸綜合移動平均(ARIMA)時(shí)間序列模型預(yù)測未來可能發(fā)生的年度交通事故數(shù)量.
綜上所述,交通事故在時(shí)間序列上是具有一定的可預(yù)測性.因此,本文將以我國交通事故死亡人數(shù)為基數(shù),采用VAR模型、ARMA模型、VEC模型分別進(jìn)行預(yù)測,為提高交通事故的預(yù)測精度提供合理有效的理論依據(jù).
當(dāng)VAR模型對于相互聯(lián)系的平穩(wěn)時(shí)間序列變量是有效的預(yù)測模型,既可以做變量的指標(biāo)分析,也可以做數(shù)據(jù)預(yù)測[27].
對于一個(gè)包含n個(gè)變量的p階向量自回歸模型,記為VAR(p),其公式為:
Yt=c+A1Yt-1+…+ApYt-p+BXt+εt
(1)
式(1)中,Yt是k維內(nèi)生變量向量,εt是k維擾動向量,Xt是d維外生變量向量,T是樣本數(shù)量,k×k維矩陣A1,A2,…Ap和k×d維矩陣B是要被估系數(shù)矩陣,p為滯后階數(shù).
對于不平穩(wěn)變量,可以將數(shù)據(jù)取對數(shù)差分變?yōu)槠椒€(wěn)變量,但這會改變其經(jīng)濟(jì)意義;若數(shù)據(jù)滿足協(xié)整檢驗(yàn)條件,用原始變量建立誤差修正模型(VEC模型).VEC模型是VAR模型的一種,其建模一般是含有協(xié)整關(guān)系的非平穩(wěn)時(shí)間序列[27].
向量誤差修正模型可以表述為:
(2)
ARMA(p,q)模型是自回歸滑動平均模型英文簡稱,該模型應(yīng)用于單個(gè)平穩(wěn)時(shí)間序列建模,模型包含了p個(gè)自回歸項(xiàng)和q個(gè)移動平均項(xiàng),其核心思想是要確定p和q這兩個(gè)參數(shù)[28-29].其中,p決定了我們要用幾個(gè)滯后時(shí)期的數(shù)據(jù),而q決定了我們要用幾個(gè)滯后時(shí)期的預(yù)測誤差.ARMA(p,q)模型可以表示為:
Yt=φ1Yt-1+φ2Yt-2+…+φpYt-p+μt-θ1μt-1-θ2μt-2-…-θqμt-q
(3)
式(3)中,實(shí)參數(shù)φ1,φ2,…,φp稱為自回歸系數(shù),θ1,θ2,…,θq稱為移動平均系數(shù),均為模型的待估參數(shù).
簡單平均法和加權(quán)平均法是目前而言較為常見的綜合集成預(yù)測方法.其中,簡單平均法是以平均數(shù)為基礎(chǔ)來確定數(shù)據(jù)預(yù)測值的方法,計(jì)算簡便,適用于觀測對象變化較小且沒有明顯趨勢的情況.該方法表述為[28]:
(4)
但是簡單平均預(yù)測法給每個(gè)預(yù)測模型分配相同的權(quán)重,對于模型的預(yù)測效果好壞并沒有顯示出明顯的差異性,為了彌補(bǔ)該弊端,有些學(xué)者就提出了加權(quán)平均預(yù)測法.該方法根據(jù)每個(gè)預(yù)測模型的歷史數(shù)據(jù)的優(yōu)劣分配相應(yīng)的權(quán)重,很好的體現(xiàn)了每個(gè)模型預(yù)測效果的好壞程度.該方法表述為:
(5)
(6)
式(6)中,|xi|為第i個(gè)模型的擬合誤差或者預(yù)測誤差的絕對值.
根據(jù)已有文獻(xiàn)和數(shù)據(jù)的可獲得性,本文選取中國1987~2017年的交通事故四項(xiàng)指標(biāo)之一的事故死亡人數(shù)為研究對象.國民生產(chǎn)總值、總?cè)丝跀?shù)、公路里程、機(jī)動車保有量分別為解釋變量y1、y2、y3、y4,交通事故死亡人數(shù)為被解釋變量y,變量均選取年度數(shù)據(jù).圖1描述了我國1987~2017年的交通事故死亡人數(shù)變化趨勢,圖2是交通事故死亡人數(shù)影響因素的變化趨勢.文中各變量均來源于歷年的國家統(tǒng)計(jì)局中國統(tǒng)計(jì)年鑒.
圖1 我國1987~2017年的交通事故死亡人數(shù)圖 圖2 交通事故死亡人數(shù)影響因素圖
2.2.1 單位根檢驗(yàn)
本文利用Eviews軟件對原序列進(jìn)行單位根檢驗(yàn).單位根檢驗(yàn)發(fā)現(xiàn)原序列t統(tǒng)計(jì)量的P值均大于0.05,這表明原序列為非平穩(wěn)序列;所以對原序列進(jìn)行ADF檢驗(yàn),結(jié)果如表1所示.可以得出,二階差分后序列平穩(wěn),且為二階單整.
表1 平穩(wěn)性檢驗(yàn)表
2.2.2 確定最佳滯后階數(shù)并建立VAR模型
在確定VAR模型的最佳滯后期時(shí),綜合考慮評價(jià)指標(biāo)LR、FPE、AIC、SC和HQ的值,結(jié)果如表2所示.從表2可以得出,滯后階數(shù)為2時(shí)評價(jià)指標(biāo)的“*”號最多,因此將模型的最優(yōu)滯后階數(shù)選擇為2,即建立VAR(2)模型.
表2 VAR模型滯后期的5個(gè)指標(biāo)評價(jià)值
2.2.3 VAR模型檢驗(yàn)
由圖3可以得出,VAR(2)模型的特征根全部落在單位圓曲線內(nèi),這表明建立的VAR(2)模型是穩(wěn)定.
圖3 VAR(2)模型單位圓曲線圖 圖4 VAR(2)模型對交通事故死亡人數(shù)擬合預(yù)測和實(shí)際值對比圖
2.2.4 VAR模型預(yù)測結(jié)果
由圖4可以得出,1990~2000年之間預(yù)測值在原序列附近上下浮動,2000~2008年兩序列差值較大,之后又趨于近似.
2.3.1 Johansen協(xié)整檢驗(yàn)
若序列非平穩(wěn),存在協(xié)整關(guān)系,且為同階單整,則可以建立VEC模型.根據(jù)表1得出y1、y2、y3、y4這四個(gè)因素的時(shí)間序列值二階差分經(jīng)ADF單位根檢驗(yàn)是平穩(wěn)的,可以采用VEC模型.
Johansen協(xié)整檢包括跡檢驗(yàn)(Trace test)和最大特征根檢驗(yàn)(Max-eigenvalue),目的是為了防止偽回歸現(xiàn)象的出現(xiàn).從表3可以得出,這兩種檢驗(yàn)結(jié)果均顯示在5%顯著水平下存在2個(gè)協(xié)整關(guān)系,表明y和y1、y2、y3、y4之間存在長期均衡關(guān)系,因此可以通過y1、y2、y3、y4對y未來的變動趨勢進(jìn)行預(yù)測.
表3 Johansen協(xié)整檢驗(yàn)
2.3.2 VEC模型建立
經(jīng)過協(xié)整關(guān)系檢驗(yàn),發(fā)現(xiàn)存在協(xié)整關(guān)系,對交通事故死亡人數(shù)進(jìn)行VEC建模,模型擬合效果一般, 1990~2017年的交通事故死亡人數(shù)VEC建模預(yù)測的擬合效果如圖5所示.
圖5 VEC模型對交通事故死亡人數(shù)擬合預(yù)測和實(shí)際值對比圖 圖6 自相關(guān)及偏自相關(guān)圖
可以得出,1990~2000年之間預(yù)測值與實(shí)際值具有相同的發(fā)展趨勢,預(yù)測效果較好,2000~2017年之間預(yù)測值波動較大,預(yù)測效果較低.
2.4.1 平穩(wěn)化處理
為判斷交通事故死亡人數(shù)的數(shù)據(jù)的平穩(wěn)性,將1987~2017年的歷史數(shù)據(jù)定義為隨機(jī)序列y,且序列y是一個(gè)不平穩(wěn)的時(shí)間序列,結(jié)果如表4所示,ADF檢驗(yàn)表明,一階差分序列平穩(wěn),因此可以對其構(gòu)建ARMA模型.
表4 交通事故死亡人數(shù)平穩(wěn)化處理
2.4.2 模型識別與建立
根據(jù)圖6自相關(guān)和偏自相關(guān)圖觀察ACF和PACF,發(fā)現(xiàn)偏自相關(guān)系數(shù)截尾,自相關(guān)系數(shù)緩慢遞減且基本位于2倍標(biāo)準(zhǔn)差范圍內(nèi).為了進(jìn)一步確定ARMA模型,通過建立相應(yīng)的估計(jì)方程,根據(jù)ACI,SIC最小準(zhǔn)則確認(rèn)建立AR(2)模型,并得到模型AR(2)的擬合結(jié)果如表5所示.擬合結(jié)果中,AR(1)和AR(2)的P值遠(yuǎn)小于0.05,證明該模型的擬合效果最為理想.
表5 AR(2)模型擬合結(jié)果
2.4.3 模型檢驗(yàn)
通過殘差分析試驗(yàn)來檢驗(yàn)?zāi)P?,本文基于AR(2)模型擬合結(jié)果的ACF和PACF確定殘差序列的獨(dú)立性,結(jié)果見表6.表6中殘差診斷滯后一階,Q-stat的P值=0.324 0> 0.05,擬合模型殘留誤差接受于白噪聲,殘差無序列相關(guān),表明無遺漏變量.這在一定程度上體現(xiàn)了AR(2)模型交通事故死亡人數(shù)信息的充分性,因此該模型是適合的模型.
表6 AR(2)模型殘差診斷
2.4.4 模型預(yù)測
為檢驗(yàn)?zāi)P偷念A(yù)測效果,采用靜態(tài)預(yù)測的方法,預(yù)測1990~2017年的交通事故死亡人數(shù),并與實(shí)際情況比較,如圖7所示.可見,短期預(yù)測值與實(shí)際值的趨勢基本一致,預(yù)測結(jié)果良好,但整體還有一定的偏差,在預(yù)測精度上仍有很大的提升空間.
圖7 ARMA模型對交通事故死亡人數(shù)擬合預(yù)測和實(shí)際值對比圖
用VAR模型,VEC模型,ARMA模型分別對交通事故死亡人數(shù)進(jìn)行預(yù)測,結(jié)果如表7所示,可見,VAR模型在三年的預(yù)測中表現(xiàn)出較高的穩(wěn)定性,其平均誤差為-1.71%.而VEC模型預(yù)測效果最差,2015年誤差較大,為19.9%,其三年平均誤差高達(dá)16.48%.ARMA模型雖然在2016年的預(yù)測中達(dá)到-7.87%的誤差,但其三年平均誤差在10%以內(nèi),預(yù)測效果良好.整體而言,三種模型預(yù)測2015~2017年的交通事故死亡人數(shù)呈現(xiàn)平穩(wěn)上升的趨勢,這與實(shí)際趨勢相符合.不過,單個(gè)預(yù)測模型的誤差仍然相對較大,容易出現(xiàn)不可靠因素,因此對我國交通事故死亡人數(shù)提出綜合集成預(yù)測的方法.
表7 三種模型預(yù)測結(jié)果與實(shí)際值的誤差率
由表7得出VEC模型預(yù)測誤差較大,不宜加入綜合集成預(yù)測,對VAR和ARMA模型進(jìn)行集成,通過計(jì)算,兩種模型的集成預(yù)測權(quán)重結(jié)果如表8所示.根據(jù)1.4節(jié)提出的綜合集成預(yù)測方法計(jì)算出2015~2017年的交通事故死亡人數(shù),結(jié)果及誤差如表9所示.
表8 集成結(jié)果權(quán)重分配
可以看出,綜合集成預(yù)測誤差較低,誤差波動較小,預(yù)測效果較好,很好的避免了單個(gè)模型預(yù)測的局限性.此外,為了比較樣本外模型的預(yù)測效果,采用動態(tài)預(yù)測的方法分別預(yù)測了2018~2020年的交通事故死亡人數(shù)如表9所示.從整體上看,事故死亡人數(shù)仍然呈現(xiàn)出穩(wěn)定上升趨勢.
表9 交通事故死亡人數(shù)預(yù)測值及集成結(jié)果
本文分別建立VAR,VEC,ARMA三類模型來預(yù)測我國交通事故死亡人數(shù).其中,VAR和ARMA模型的預(yù)測效果良好,而VEC模型有待改進(jìn).最后提出交通事故死亡人數(shù)的VAR和ARMA模型的綜合集成預(yù)測,通過計(jì)算得出,綜合集成預(yù)測的精度和穩(wěn)定性較高.因此,綜合集成預(yù)測能夠有效提高我國交通事故死亡人數(shù)的預(yù)測精度,這對于交通預(yù)測有著很重要的借鑒意義.