李曉磊 肖進(jìn)麗 劉明俊
(武漢理工大學(xué)航運(yùn)學(xué)院1) 武漢 430063) (湖北省內(nèi)河航運(yùn)技術(shù)重點(diǎn)實(shí)驗(yàn)室2) 武漢 430063)
基于SARIMA模型的船舶交通流量預(yù)測(cè)研究*
李曉磊1,2)肖進(jìn)麗1,2)劉明俊1,2)
(武漢理工大學(xué)航運(yùn)學(xué)院1)武漢 430063) (湖北省內(nèi)河航運(yùn)技術(shù)重點(diǎn)實(shí)驗(yàn)室2)武漢 430063)
為提高船舶月交通流量預(yù)測(cè)精度,更合理地為港口規(guī)劃和發(fā)展提供決策依據(jù),選用季節(jié)性差分自回歸滑動(dòng)平均(seasonal autoregressive integrated moving average,SARIMA)模型對(duì)船舶月交通流量建立了預(yù)測(cè)模型,并利用Eviews軟件,以2007年1月-2015年12月荊州港船舶交通流月均流量統(tǒng)計(jì)數(shù)據(jù)為樣本進(jìn)行了實(shí)證分析.對(duì)船舶月交通流量時(shí)間序列樣本數(shù)據(jù)進(jìn)行平穩(wěn)化預(yù)處理,消除其趨勢(shì)成分和季節(jié)因素;基于平穩(wěn)化后的數(shù)據(jù)建立了SARIMA模型并對(duì)模型進(jìn)行參數(shù)檢驗(yàn)及最優(yōu)模型選取;并利用所獲得的最優(yōu)模型SARIMA(2,0,0)(1,1,1)12對(duì)2008年1月-2016年3月荊州港船舶交通流月均流量進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果與AR(1)模型、季節(jié)指數(shù)模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析.對(duì)比分析結(jié)果表明,SARIMA的預(yù)測(cè)精度更高,更能反映船舶月交通流量的變化情況,利用該模型對(duì)船舶月交通流量進(jìn)行建模預(yù)測(cè)具有較好的實(shí)用性.
船舶交通流;時(shí)間序列;SARIMA模型;預(yù)測(cè)
船舶交通流量的預(yù)測(cè)主要有年交通流量預(yù)測(cè)和月交通流量預(yù)測(cè)兩種.對(duì)于月交通流量預(yù)測(cè),受氣候條件、通航水位等因素的影響,船舶交通流量量統(tǒng)計(jì)會(huì)存在一定的周期性和季節(jié)性特征.目前交通流量預(yù)測(cè)方法主要有神經(jīng)網(wǎng)絡(luò)法、時(shí)間序列預(yù)測(cè)法、支持向量機(jī)預(yù)測(cè)法、組合預(yù)測(cè)法等[1-5],許多文獻(xiàn)也基于上述方法對(duì)船舶年交通流量和月交通流量進(jìn)行了預(yù)測(cè)[6-8],但大多數(shù)有關(guān)船舶月交通流量預(yù)測(cè)的研究未考慮季節(jié)性影響,從而導(dǎo)致預(yù)測(cè)結(jié)果誤差較大.SARIMA模型是一種改進(jìn)的差分自回歸滑動(dòng)平均(autoregressive integrated moving average model,ARIMA)模型,對(duì)于周期性或季節(jié)性的時(shí)間序列具有較高的預(yù)測(cè)精度,因此,文中基于SARIMA模型,選取實(shí)例通過(guò)EVIEWS軟件進(jìn)行月度船舶交通流量統(tǒng)計(jì)數(shù)據(jù)的模型識(shí)別、檢測(cè)及參數(shù)選取[9],完成船舶月交通流量預(yù)測(cè)與分析.
SARIMA模型是隨機(jī)季節(jié)模型與ARIMA 模型的組合[10].如果時(shí)間序列具有平穩(wěn)性,則可直接建立ARMA(p,q)模型,但對(duì)于具有某種趨勢(shì)的非平穩(wěn)時(shí)間序列,就需先對(duì)其進(jìn)行平穩(wěn)化處理.若采用差分方法對(duì)非平穩(wěn)時(shí)間序列進(jìn)行平穩(wěn)化處理[11],則一個(gè)d階單整時(shí)間序列ARIMA(p,d,q)模型可建立為
(1)式中:?(B)=1-?B-?2B2-…-?pBp是自回歸算子;p為自回歸階數(shù);θ(B)=1-θ1B-θ2B2-…-θqBq為移動(dòng)平均算子;q為移動(dòng)平均階數(shù);d為非平穩(wěn)時(shí)間序列成為平穩(wěn)時(shí)間序列所需做的差分次數(shù).
對(duì)于非平穩(wěn)時(shí)間序列進(jìn)行平穩(wěn)化處理,要判斷時(shí)間序列的趨勢(shì)是否消除,可觀察經(jīng)過(guò)d階差分處理后序列的自相關(guān)分析圖中自相關(guān)系數(shù)是否快速趨于零.
SARIMA模型對(duì)具有季節(jié)性波動(dòng)的時(shí)間序列有較高的預(yù)測(cè)精度.SARIMA模型又稱ARIMA(p,d,q)(P,D,Q)S模型,其一般形式
式中:S為季節(jié)性周期長(zhǎng)度;φP(Bs)和ΘQ(Bs)分別為季節(jié)P階自回歸算子和Q階移動(dòng)平均算子;P為季節(jié)性自回歸階數(shù);Q為季節(jié)性移動(dòng)平均階數(shù),D為季節(jié)性差分階數(shù).當(dāng)P=Q=D=0時(shí),SARIMA模型變?yōu)榉羌竟?jié)性ARIMA模型.
SARIMA模型具體建模過(guò)程如下[13].
1) 序列平穩(wěn)性預(yù)處理 通過(guò)時(shí)序圖和序列相關(guān)圖判斷序列是否具有趨勢(shì)性和周期性,進(jìn)一步確定是否需進(jìn)行逐期差分和季節(jié)性差分,從而確定d和D的值,最后用ADF或pp檢驗(yàn)逐期差分和季節(jié)性差分處理后的序列是否已經(jīng)平穩(wěn).
2) 模型初步定階 依據(jù)逐期差分和季節(jié)性差分處理后平穩(wěn)序列的自相關(guān)函數(shù)和偏自相關(guān)系數(shù)特點(diǎn),以及其出現(xiàn)周期性滯后顯著不為0的位置選擇合適的p,q,P,Q.
3) 最優(yōu)模型選擇 通過(guò)AIC準(zhǔn)則、SC準(zhǔn)則對(duì)p,q,P和Q的可能取值進(jìn)行比選,最后確定最優(yōu)SARIMA模型的p,q,P和Q的取值.
4) 模型診斷與檢驗(yàn) 根據(jù)序列t檢驗(yàn)或殘差的Q-統(tǒng)計(jì)量的值判斷殘差序列是否為白噪聲序列,從而確定模型的合理性.
5) 預(yù)測(cè) 利用確定的最優(yōu)SARIMA模型對(duì)時(shí)間序列進(jìn)行預(yù)測(cè).
為驗(yàn)證SARIMA模型在船舶交通流量預(yù)測(cè)中的有效性,選取2007年1月—2015年12月荊州長(zhǎng)江公路大橋斷面船舶流月均流量統(tǒng)計(jì)數(shù)據(jù)為樣本建立SARIMA模型,并基于Eviews對(duì)2008年1月—2016年3月船舶交通流月均流量進(jìn)行預(yù)測(cè),并與ARIMA模型、季節(jié)指數(shù)平滑模型的預(yù)測(cè)結(jié)果以及實(shí)際值進(jìn)行對(duì)比分析.
3.1 樣本時(shí)間序列平穩(wěn)性預(yù)處理
對(duì)選取的樣本數(shù)據(jù)繪制時(shí)序圖(見(jiàn)圖1),由圖1可見(jiàn),該時(shí)間序列并未有持續(xù)上升或下降的趨勢(shì),但含有某種周期性.根據(jù)ADF檢驗(yàn)(見(jiàn)圖2),t統(tǒng)計(jì)值小于顯著性水平為1%的臨界值,拒絕存在單位根的原假設(shè),表明序列是平穩(wěn)的,不需要進(jìn)行逐期差分處理.
圖1 樣本時(shí)間序列圖
圖2 時(shí)間序列ADF檢驗(yàn)圖
對(duì)選取的樣本序列做自相關(guān)圖和偏自相關(guān)分析,觀察獲得的自相關(guān)和偏自相關(guān)分析圖(見(jiàn)圖3),可見(jiàn)自相關(guān)系數(shù)和偏相關(guān)系數(shù)在12階、24階等位置出現(xiàn)最大峰值,表明序列有周期為12個(gè)月的波動(dòng).對(duì)序列進(jìn)行1階季節(jié)差分并做相關(guān)性分析,見(jiàn)圖4.
圖3 序列自相關(guān)圖和偏自相關(guān)圖
圖4 序列1階季節(jié)差分后的自相關(guān)和偏相關(guān)圖
根據(jù)圖4中序列1階季節(jié)差分自相關(guān)和偏自相關(guān)系數(shù)特點(diǎn),PAC(partial correlation)函數(shù)在二階截尾,AC(autocorrelation)函數(shù)呈現(xiàn)快速衰減且在一階截尾,但樣本的自相關(guān)系數(shù)和偏相關(guān)系數(shù)仍滯后12期周期性的顯著不為0,可知季節(jié)性依然存在.經(jīng)試驗(yàn),對(duì)序列進(jìn)行2階季節(jié)差分后發(fā)現(xiàn)季節(jié)性并沒(méi)有顯著改善,故只做1階季節(jié)差分即可.
通過(guò)對(duì)序列1階季節(jié)差分的ADF檢驗(yàn)(見(jiàn)圖5),t統(tǒng)計(jì)值小于顯著性水平為1%的臨界值,拒絕存在單位根的原假設(shè),表明序列仍平穩(wěn),可進(jìn)行SARIMA建模.
圖5 序列1階季節(jié)差分ADF檢驗(yàn)圖
3.2 SARIMA模型定階與檢驗(yàn)
由于樣本時(shí)間序列不需進(jìn)行逐期差分處理,故d取值為0,而樣本序列進(jìn)行了1階季節(jié)差分后季節(jié)性基本消除,故D取值也為1.同時(shí),由樣本序列的自相關(guān)圖和偏自相關(guān)圖,可供選擇的(p,q)組合有(1,1),(2,0),(2,1)和(3,0).此外,由于樣本序列進(jìn)行季節(jié)差分后,序列的自相關(guān)和偏自相關(guān)系數(shù)周期性滯后12期,且在12期時(shí)顯著不等于0,則P=Q=1.
據(jù)此,選擇不同(p,q)組合,建立SARIMA(1,0,1)(1,1,1)12,SARIMA(2,0,0)(1,1,1)12,SARIMA(2,0,1)(1,1,1)12及SARIMA(3,0,0)(1,1,1)12四種SARIMA模型并對(duì)2008年1月-2016年3月數(shù)據(jù)進(jìn)行試預(yù)測(cè),其相關(guān)檢驗(yàn)結(jié)果見(jiàn)表1.
表1 四種SARIMA模型相關(guān)檢驗(yàn)結(jié)果
由表1可知,(p,q)組合為(2,0)時(shí)所構(gòu)建的SARIMA(2,0,0)(1,1,1)12模型的AIC值、SC值以及試預(yù)測(cè)的平均絕對(duì)百分誤差(MAPE)都是最小;此外,通過(guò)對(duì)該模型殘差序列進(jìn)行白噪聲檢驗(yàn)(見(jiàn)圖6),ACF和PACF都沒(méi)有顯著異于零,Q統(tǒng)計(jì)量的P值都遠(yuǎn)遠(yuǎn)大于0.05,故殘差序列可認(rèn)為白噪聲序列,表明該模型提取的序列信息比較充分,選擇SARIMA(2,0,0)(1,1,1)12模型為預(yù)測(cè)模型是合理的.
圖6 殘差白噪聲檢驗(yàn)圖
3.3 ARIMA模型與季節(jié)指數(shù)模型建模
1) ARIMA模型建模 根據(jù)樣本序列自相關(guān)和偏相關(guān)圖(見(jiàn)圖3),可看到樣本序列的自相關(guān)函數(shù)拖尾且偏相關(guān)函數(shù)一階截尾,符合AR(1)模型的特點(diǎn),且考慮到AR(1)模型是線性方程估計(jì),相對(duì)于ARIMA模型的非線性估計(jì)容易,故實(shí)際建模時(shí)用AR(1)模型替換掉相對(duì)應(yīng)的ARIMA(1,0,0)模型,與SARIMA(2,0,0)(1,1,1)12進(jìn)行對(duì)比.AR(1)模型的t檢驗(yàn)結(jié)果見(jiàn)圖7,此模型的回歸系數(shù)通過(guò)了顯著性t檢驗(yàn),且絕對(duì)誤差較小,AR特征根絕對(duì)值小于1,表明該模型基本穩(wěn)定,擬合準(zhǔn)確度也在可接受的范圍內(nèi).
圖7 非季節(jié)性AR模型的檢驗(yàn)結(jié)果圖
2) 季節(jié)指數(shù)模型建模 季節(jié)指數(shù)平滑模型有Holt-Winters乘法模型和 Holt-Winters 加法模型兩種,利用這兩種模型對(duì)原樣本時(shí)間序列進(jìn)行建模預(yù)測(cè),其模型檢驗(yàn)結(jié)果見(jiàn)表2.
表2 季節(jié)指數(shù)平滑模型相關(guān)檢驗(yàn)結(jié)果
由表2可知,Holt-Winters 加法模型預(yù)測(cè)結(jié)果的均方根誤差和殘差平方和均較小,故本文選擇擬合較好的Holt-Winters 加法模型與SARIMA模型進(jìn)行船舶交通流預(yù)測(cè)比較.
3.4 預(yù)測(cè)結(jié)果與對(duì)比分析
根據(jù)建立的SARIMA(2,0,0)(1,1,1)12模型、AR(1)模型和Holt-Winters 加法模型對(duì)船舶交通流量數(shù)據(jù)進(jìn)行預(yù)測(cè)對(duì)比分析,圖8~9分別為SARIMA(2,0,0)(1,1,1)12模型與AR(1)模型和Holt-Winters 加法模型交通流量預(yù)測(cè)對(duì)比,表3則為這3種模型于2016年1—3月期間的預(yù)測(cè)結(jié)果與此期間真實(shí)數(shù)據(jù)的比較結(jié)果.
圖8 SARIMA(2,0,0)(1,1,1)12和 AR(1) 模型預(yù)測(cè)對(duì)比圖
圖9 SARIMA(2,0,0)(1,1,1)12和 Holt-Winters加法模型預(yù)測(cè)對(duì)比圖
模型時(shí)間預(yù)測(cè)值/(艘次)實(shí)際值/(艘次)誤差/(艘次)相對(duì)誤差/%AR(1)2016-0156775739-62-1.02016-025260392713334.02016-0342155703-148-26.0加法模型2016-0156215739-118-2.02016-0240813927154 3.92016-0351735703-5309.3SARIMA(2,0,0)(1,1,1)122016-0153985739-341-5.92016-0239923927651.62016-0353365703-367-6.4
從表3可知,AR(1)模型和Holt-Winters 加法模型預(yù)測(cè)的相對(duì)誤差較大,而SARIMA(2,0,0)(1,1,1)12模型預(yù)測(cè)的相對(duì)誤差控制在7%內(nèi),較AR(1)模型和Holt-Winters 加法模型有更高的準(zhǔn)確度且預(yù)測(cè)結(jié)果更貼合實(shí)際,擬合度較好,適用性更強(qiáng).
文中給出了利用SARIMA模型對(duì)船舶月交通流量進(jìn)行預(yù)測(cè)的方法,并與ARIMA模型和Holt-Winters 加法模型進(jìn)行了實(shí)證對(duì)比分析.對(duì)比分析結(jié)果表明,SARIMA模型能夠有效地將船舶月交通流量的季節(jié)相關(guān)性表達(dá)出來(lái),比ARIMA模型和季節(jié)指數(shù)平滑模型的預(yù)測(cè)精度更高,更能反映船舶月交通流量的變化情況,因此利用該模型對(duì)船舶月交通流量進(jìn)行建模預(yù)測(cè)具有較好的實(shí)用性.但是,由于該模型的建模過(guò)程完全依賴于數(shù)據(jù)本身,不考慮外界影響因子,是一種完全數(shù)據(jù)驅(qū)動(dòng)的方法,因此具有一定的局限性,需進(jìn)一步深入研究.
[1]梁德陽(yáng).基于SARIMA和BP神經(jīng)網(wǎng)絡(luò)的時(shí)間序列組合預(yù)測(cè)模型研究[D].蘭州:蘭州大學(xué),2014.
[2]毛玉鳳.基于時(shí)間序列分析的電力需求預(yù)測(cè)及季節(jié)調(diào)整模型的研究[D].北京:北京工業(yè)大學(xué),2013.
[3]XIAO X P, ZHENG R J. Multi-level recursive method of short-term traffic flow forecast based on PGAGOGM(1,1) model[J]. Management Science and Engineering,2011,53:55-58.
[4]魏杏.基于指數(shù)平滑法和ARIMA的交通量組合預(yù)測(cè)模型應(yīng)用研究[D].鄭州:鄭州大學(xué),2014.
[5]CONG Y L, WANG J W, LI X L. Traffic flow forecasting by a least squares support vector machine with a fruit fly optimization algorithm[J]. Procedia Engineering,2016,137:157-162.
[6]黃智仟.基于神經(jīng)網(wǎng)絡(luò)的船舶交通流量預(yù)測(cè)研究[D].大連:大連海事大學(xué),2015.
[7]薛潔,史忠科.基于混沌時(shí)間序列分析法的短時(shí)交通流預(yù)測(cè)研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2008,8(5):69-72.
[8]YIN Y, SHANG P J. Forecasting traffic time series with multivariate predicting method[J].Applied Mathematics and Computation,2016(1):5-11.
[9]羅媛媛.基于EVIEWS的短時(shí)交通流分析及預(yù)測(cè)[D].成都:西南交通大學(xué),2009.
[10]黃毅.SARIMA模型在月平均溫度時(shí)間序列中的應(yīng)用[D].北京:北京郵電大學(xué),2012.
[11]郝勇,朱海燕.基于客流n日均量的地鐵客流量的時(shí)間序列分析[J].鐵道運(yùn)輸與經(jīng)濟(jì),2009(10):42-50.
[12]張輝,劉嘉琨,柳湘月,等.交通流的季節(jié)ARIMA模型與預(yù)報(bào)[J].天津大學(xué)學(xué)報(bào),2005,38(9):838-841.
[13]王瑩,韓寶明,張琦,等.基于SARIMA模型的北京地鐵進(jìn)站客流量預(yù)測(cè)[J].交通運(yùn)輸系統(tǒng)工程與信息,2015,15(6):205-210.
Vessel Traffic Flow Prediction Based on the SARIMA Model
LI Xiaolei1,2)XIAO Jinli1,2)LIU Mingjun1,2)
(SchoolofNavigation,WuhanUniversityofTechnology,Wuhan430063,China)1)(HubeiKeyLaboratoryofInlandShippingTechnology,Wuhan430063,China)2)
To improve the predictive accuracy of vessel traffic flow and provide more reasonable decision-making basis for port planning and development, Seasonal Autoregressive Integrated Moving Average (SARIMA) model is put forward to predict the monthly traffic flow of vessel. Based on the software Eviewsis, empirical analysis is carried out for the vessel traffic flow monthly statistical data of Jingzhou port during January 2007-December 2015. Firstly, the sample data from the vessel traffic flow monthly statistics of Jingzhou port is executed stationary pre-process, in order to eliminate the trend component and seasonal factors of the statistical data. Afterwards, the SARIMA model based on the data through stationary pre-treatment is set up. Then the model parameters are test and the optimal model SARIMA(2,0,0) (1,1,1)12is validated. Finally, the prediction of the vessel traffic flow during January 2008-March 2016 of Jingzhou port is made, and the prediction results are compared with the those using AR (1) model and seasonal exponential model. The comparison results show that the SARIMA prediction accuracy is higher, and can reflect the monthly change characteristics of vessel traffic flow more accurately.
vessel traffic flow; time series; SARIMA model; prediction
2017-01-13
*湖北省自然科學(xué)基金面上項(xiàng)目資助(2015CFB282)
U491.14
10.3963/j.issn.2095-3844.2017.02.030
李曉磊(1993—):男,碩士生,主要研究領(lǐng)域?yàn)榻煌ㄐ畔⑻幚砑敖煌ò踩U霞夹g(shù)