陳傳鐘,汪文俊,繆光美
(海南師范大學 數(shù)學與統(tǒng)計學院,海南 海口 571158)
隨著旅游業(yè)在世界各地的迅猛發(fā)展,有關旅游業(yè)可持續(xù)發(fā)展的研究越來越受到人們的重視,近年來,定量分析及統(tǒng)計方法被廣泛應用到旅游發(fā)展研究中,本文擬采用時間序列的方法對含缺失值的海南旅游總收入數(shù)據(jù),統(tǒng)計建模,并對海南旅游收入的具體情況進行分析討論.
時間序列分析是一種對動態(tài)數(shù)據(jù)處理的時域參數(shù)方法,目的是研究所給的動態(tài)數(shù)據(jù)序列的統(tǒng)計規(guī)律,以用于解決實際問題.海南旅游收入變化趨勢受到季節(jié)影響,每年7月-9月,10-12月、1月都是高峰期,然而并沒有文獻對變化的趨勢具體研究,本文考慮利用“海南省旅游政務網”[1]提供的可靠數(shù)據(jù),對海南省旅游總收入進行處理和預測.
由于2011年1月和2011年2月數(shù)據(jù)缺失,首先考慮序列均值、臨近點的均值、臨近點的中位數(shù)、線性插值法、點處的線性趨勢五種不同方法對缺失值進行處理.通過先期的計算比較,最終選定臨近點的中位數(shù)、線性插值法兩種方法[2].
臨近點的中位數(shù)表示缺失值鄰近的幾個點的中位數(shù),具體幾個點由附近點的跨度來決定.臨近點中值彌補缺失值前后對比見圖1、圖2.
線性插值法表示應用線性插值法填補缺失值,即缺失值前一個數(shù)據(jù)和后一個數(shù)據(jù)建立插值直線,然后找到缺失點在線性插值函數(shù)的函數(shù)值作為該缺失值,線性插值法彌補缺失值前后對比見圖3、圖4.
從以上對比圖可以看到,臨近點的中位數(shù)插值法和線性插值法都能很好的擬合原始數(shù)據(jù)的變化趨勢.下節(jié)我們將利用此兩種方法獲得的完整數(shù)據(jù)進行統(tǒng)計建模.
圖1 彌補缺失值前的序列圖Fig.1 Graph of time series without imputation for missing values
圖2 彌補缺失值后的序列圖Fig.2 Graph of time series with imputation for missing values
圖3 彌補前的序列圖Fig.3 Graph of time series without imputation for missing values
圖4 彌補后的序列圖Fig.4 Graph of time series with imputation for missing values
從圖2和圖4中觀察到數(shù)據(jù)具有明顯的周期性(以12個月為一周期),和趨勢性,因此可以嘗試時間序列的季節(jié)ARIMA(p,d,q)(P,D,Q)s(可乘季節(jié)ARIMA)[3-4]進行擬合.
一個一般的具有非平穩(wěn)(通常的)階數(shù)p,d,q,季節(jié)階數(shù)P,D,Q及周期s可乘季節(jié)ARIMA(SARIMA)模型為
具體結構如下:
1、根據(jù)圖2的趨勢性和周期性,對數(shù)據(jù)做一次季節(jié)性差分和一階逐期差分,觀察自相關圖和偏自相關圖,確定ARIMA模型的相關系數(shù)(見圖5、圖6).
圖5 自相關圖Fig.5 ACP
圖6 偏自相關圖Fig.6 PACP
從自相關圖(ACP)中,看到自第二個延遲數(shù)目開始,自相關落在虛線內,一階以后函數(shù)值明顯趨于0,呈拖尾性,因此取q=2.同時,第13階顯著不為0,因此取Q=2.
偏自相關圖中,前兩階函數(shù)顯著不為0,之后趨于0并呈拖尾性,因此取p=3,而第12階顯著不為0,取P=1.
因為以上討論的是一階季節(jié)性差分和一階逐期差分,所以取D=1,d=1.又從圖7中可以看到,序列圖穩(wěn)定,所以可以構建模型ARIMA(3,1,2)(1,1,2),S是季節(jié)周期,它的取值為4式12.
圖7 一次逐期差分和一次季節(jié)性差分后的序列圖Fig.7 Graph of time series with first order successive and first order seasonal difference
圖8 模型擬合圖Fig.8 Model fitting diagram
2)按照所求參數(shù)進行建模,得到圖形見圖8.
明顯看到ARIMA(3,1,2)(1,1,2)擬合的效果尚佳.
線性差值法的數(shù)據(jù)處理步驟同上,相關圖形數(shù)據(jù)見圖9、圖10、圖11.
以上的圖表中得到的線性插值法的模型為ARIMA(3,1,2)(1,1,2).
從表1、表2,觀察到,線性插值法的平穩(wěn)R方0.651>0.519(臨近點中值法),p值0.582>臨近點中值的0.286,而正態(tài)化的BIC模型值小于臨近點中值,因此判斷線性插值法所得的模型更佳,其模型為ARIMA(3,1,2)(1,1,2).
圖9 自相關圖Fig.9 ACP
圖10 偏自相關圖Fig.10 PACP
圖11 模型擬合圖Fig.11 Model fitting diagram
表1 臨近點中值的模型統(tǒng)計量Tab.1 Model statistics with near median value
表2 線性插值法的模型統(tǒng)計量Tab.2 Model statistics with linear interpolation
從表中可以看到預測較實際值誤差較小,但是從2012年10月到2012年12月預測值偏高,根據(jù)2011年同期數(shù)據(jù)的比較,在表5中發(fā)現(xiàn),2012年整體數(shù)據(jù)上升趨勢并沒有2011年那么明顯,說明目前國內海南游人數(shù)出現(xiàn)一定的疲軟狀況.因此該模型按照趨勢擬合具有一定的誤差,但是在允許的范圍內.
表3 實際值與預測值的對比Tab.3 Comparison of actual and predicted values
表4 海南入境游人數(shù)表Tab.4 The number of inbound in Hainan
表5 入境游人數(shù)對比Tab.5 Contrast of the number of inbound
表6 文章所用的數(shù)據(jù)Tab.6 The data
海南旅游總收入受到季節(jié)的影響,本文基于線性插值法處理缺失值的數(shù)據(jù),建立的季節(jié)ARIMA(3,1,2)(1,1,2)模型,較為準確的擬合海南省旅游總收入的變化趨勢,其預測值亦可以為研究海南旅游變化動態(tài)提供參考意見.
[1]海南省旅游發(fā)展委員會[EB/OL].[2013-10-04]http://tourism.hainan.gov.cn/goverment/govPrePic/govBelow -Pic1/.
[2]薛薇.spss統(tǒng)計分析方法及應用[M].2版.北京:電子工業(yè)出版社,2011:454-462.
[3]王燕.應用時間序列[M].3版.北京:中國人民大學出版社,147-148.
[4]吳喜之.復雜數(shù)據(jù)統(tǒng)計方法-基于R的應用[M].北京:中國人民大學出版社,2012:176-181.