陶 青
(西藏民族大學(xué)財經(jīng)學(xué)院 陜西咸陽 712082)
西藏有著悠久的歷史文化資源和優(yōu)異的自然資源稟賦,在全世界是獨一無二的,是世界十大旅游目的地之一。西藏旅游業(yè)也在西藏經(jīng)濟(jì)發(fā)展中扮演著越來越重要的角色。旅游對經(jīng)濟(jì)的貢獻(xiàn)也成為西藏制定經(jīng)濟(jì)發(fā)展政策的重要因素,尤其在中央第五次西藏工作座談會確立把西藏建設(shè)成為“中華民族特色文化保護(hù)地和重要的世界旅游目的地”的戰(zhàn)略定位以來,西藏對旅游業(yè)發(fā)展提出了更高要求。因此,開展旅游收入預(yù)測研究,有利于我們定量認(rèn)識旅游業(yè)發(fā)展水平,為政府決策提供參考,促進(jìn)西藏經(jīng)濟(jì)更好更快地發(fā)展。
本文以1981-2016年西藏旅游收入數(shù)據(jù)為研究對象。數(shù)據(jù)均來自于《西藏統(tǒng)計年鑒2017》,以下所建模型的訓(xùn)練集均為1981-2014年數(shù)據(jù),測試集為2015-2016兩年數(shù)據(jù)(見表1)。
為了初步判斷西藏旅游收入序列特征和趨勢性,作出序列圖(如圖1所示)。從圖中可以看出,西藏旅游收入存在明顯上升趨勢,除2008年較2007年有明顯下降外,其余年份均環(huán)比增長,且增速不斷擴(kuò)大。
根據(jù)時序圖趨勢判斷,西藏旅游收入數(shù)據(jù)類似一條指數(shù)曲線,因此將1981-2014年數(shù)據(jù)作為測試集試建立指數(shù)曲線模型:
其中,yt為西藏旅游收入取值,t為年份,a、b為待估參數(shù),e為自然對數(shù)。為估計模型,首先對(1)式兩邊取對數(shù),變換為:
表1:1981-2016年西藏旅游收入數(shù)據(jù)(單位:萬元)
表2:指數(shù)曲線模型的擬合值及擬合誤差(單位:萬元)
根據(jù)模型得到的預(yù)測曲線及預(yù)測區(qū)間如圖2所示,由于西藏旅游收入數(shù)據(jù)的量級發(fā)生了很大改變,導(dǎo)致從圖形上看,曲線擬合狀況尚可,但平均絕對百分比誤差(MAPE)較大,為46.39%。
圖1:西藏旅游收入1981-2016年時序圖
圖2:曲線模型擬合線及估計區(qū)間
指數(shù)曲線回歸是非局部回歸,是在整個數(shù)據(jù)集上進(jìn)行擬合,單個觀測值會對整條曲線擬合產(chǎn)生影響。由于西藏旅游收入數(shù)據(jù)變化較大,這種非局部回歸模型效果不甚理想。一種可行的改進(jìn)方法是將數(shù)據(jù)分成多個連續(xù)區(qū)間,在每個區(qū)間上用單獨模型擬合,即回歸樣條法。
1、光滑樣條法簡介
首先根據(jù)定義域[a,b]內(nèi)的觀測點t1……tn將其分成多個區(qū)間,(a<t1<t2<……<tn<b),模型g(t)采用分段的三次多項式
其中定義t0=a,tn+1=b,i=0,1,2……n
然后求解最優(yōu)的g(t)。最優(yōu)模型應(yīng)該同時滿足以下兩個條件:(1)估計誤差盡可能??;(2)曲線盡可能光滑,曲線越光滑,模型泛化能力越強(qiáng)。衡量曲線光滑性有多種辦法,比如拐點個數(shù),二階導(dǎo)數(shù)值等,此處采用二階導(dǎo)數(shù)積分(∫(g'')2dt),二階導(dǎo)數(shù)對應(yīng)的是斜率變化程度,其積分(∫(g'')2dt)則代表了g'(t)在整個取值區(qū)域內(nèi)整體的變化情況。曲線越光滑,其取值越小。綜上,使式(4)最小的g(t)為最佳估計。
2、λ的選取
上述模型中采用“誤差+懲罰項”形式選擇模型,λ∫(g'')2dt是對模型g(t)波動性懲罰,λ衡量懲罰項所起作用大小。λ=0時,懲罰項不起作用,模型結(jié)果波動性會很大,當(dāng)λ=∝時,模型結(jié)果很穩(wěn)定,趨于一條直線。我們通過交叉驗證法,選出使得誤差RSS盡可能小的λ。交叉驗證誤差為
3、模型結(jié)果
和指數(shù)曲線模型類似,采用1981-2014年西藏旅游收入數(shù)據(jù)作為訓(xùn)練集擬合模型,2015-2016兩年數(shù)據(jù)作為驗證集計算模型準(zhǔn)確率。圖3是應(yīng)用光滑樣條擬合結(jié)果,虛線是應(yīng)用交叉驗證法選擇λ后得到光滑樣條,實線是自主選擇λ得到結(jié)果。圖中可以明顯得看出,交叉驗證法擬合得更佳,表3給出了訓(xùn)練集內(nèi)擬合值以及擬合誤差。
圖3:光滑樣條法估計結(jié)果
表3:光滑樣條法的擬合值及擬合誤差
1、序列的平穩(wěn)化處理
從圖1可以看出西藏旅游收入的序列存在顯著上升趨勢,屬于非平穩(wěn)時間序列。根據(jù)序列特點,采用差分方式提取數(shù)據(jù)所蘊(yùn)含的確定性信息。從時序圖4可以清楚看出,一階差分只提取原始序列中部分信息,其仍蘊(yùn)含著向上趨勢。因此對差分后序列再做一次差分運算,得到二階差分序列。二階差分序列確定性趨勢基本消除。
圖4:一階差分與二階差分序列圖
為判斷二階差分序列是否為平穩(wěn)性序列,對其進(jìn)行ADF單位根檢驗,計算得到其ADF統(tǒng)計量的值為-3.5378對應(yīng)的PT值為0.05,即在5%顯著性水平下,二階差分序列平穩(wěn)。
2、ARIMA(p,d,q)模型估計和檢驗
由序列平穩(wěn)化過程可知,d=2。為確定p、q取值,畫出二階差分序列自相關(guān)系數(shù)和偏自相關(guān)系數(shù)圖,如圖5所示,該序列自相關(guān)系數(shù)一階截尾,偏自相關(guān)系數(shù)2階截尾,初步確認(rèn)滯后階數(shù)為:p=2,q=1。
圖5:二階差分序列的自相關(guān)與偏相關(guān)系數(shù)圖
為進(jìn)一步確認(rèn)自回歸階數(shù)p和移動平均階數(shù)q取值,現(xiàn)計算不同p和q(最大p和q均設(shè)置為5)取值下相應(yīng)BIC值,其結(jié)果如圖6所示,
圖6:對于不同的p和q計算相應(yīng)的BIC值
從圖6可以看出,自回歸滯后一階,移動平均滯后1階或者三階,BIC值均較小。試分別做ARIMA(1,2,1)和ARIMA(1,2,3)模型,估計結(jié)果如表4和表5所示,可明顯看出,ARIMA(1,2,3)模型系數(shù)的標(biāo)準(zhǔn)誤差較大,系數(shù)基本不顯著,因此該模型屬于過渡擬合模型。ARIMA(1,2,1)模型系數(shù)均顯著,AIC的值相比ARIMA(1,2,3)模型略小,因此,最終模型考慮選擇ARIMA(1,2,1)。
表4:ARIMA(1,2,3)模型的回歸結(jié)果
表5:ARIMA(1,2,1)模型的回歸結(jié)果
圖7:殘差診斷圖
表6:ARIMA模型擬合值及擬合誤差
模型檢驗是為了檢驗殘差是否為白噪聲,診斷圖如圖8所示。Ljung-Box的原假設(shè)是序列獨立(和某階滯后相比),p值很小說明存在相關(guān)性,對于不相關(guān)的序列,p值很大。Ljung-Box檢驗(診斷圖左上)的p值均在0.6以上。從Ljung-Box檢驗、acf和pacf圖可以看出,這個模型的殘差是一個隨機(jī)過程。從Q-Q圖(診斷圖右上)來看,散點基本在一條直線附近,說明模型的殘差分布近似正態(tài)。綜上,基本可以斷定模型的殘差序列是白噪聲序列。
3、擬合值與擬合誤差
根據(jù)1981-2014年數(shù)據(jù)建立的ARIMA(1,2,1)模型,計算擬合值和擬合誤差如表6所示。
現(xiàn)將三個模型應(yīng)用于測試集,即用西藏2015-2016年兩年旅游收入數(shù)據(jù)對模型進(jìn)行測試,判斷模型應(yīng)用效果。計算每個模型平均絕對百分比誤差
表7:三個模型的平均絕對百分比誤差
由表7可知,從測試集預(yù)測誤差來看,光滑樣條法優(yōu)于ARIMA模型,優(yōu)于指數(shù)模型。指數(shù)模型和ARIMA模型訓(xùn)練集平均絕對百分比誤差均在45%左右,測試集在15%左右,這兩個模型都是以模擬所有數(shù)據(jù),從中找到經(jīng)濟(jì)活動變化規(guī)律為主要技術(shù)手段。西藏旅游收入這一經(jīng)濟(jì)變量,在1990和2008年出現(xiàn)大幅度下滑,環(huán)比下降81%和53%。在1986年和1999年急速上漲,環(huán)比增長664%和115%。對于這種缺乏明顯模式的數(shù)據(jù),這兩個模型捕捉到的信息量有限。光滑樣條法通過采用分段擬合方式克服這種缺點,提取信息量更大,測試集的平均絕對百分比誤差只有10.9%。光滑樣條法所需要的假定要比ARIMA模型和指數(shù)模型弱得多,尤其沒有假設(shè)變量的函數(shù)形式(指數(shù)曲線模型假設(shè)數(shù)據(jù)來自于指數(shù)分布),使其對西藏旅游收入這一數(shù)據(jù)的擬合更有效。另一方面,西藏是一個邊疆民族地區(qū),由于其民族、宗教問題的特殊性,西藏地區(qū)的穩(wěn)定問題是重中之重。旅游產(chǎn)業(yè)發(fā)展,除了市場的因素外,政策因素影響也不可忽略,在建模過程中,政策影響很難量化,這也是指數(shù)模型和ARIMA模型擬合結(jié)果不理想的原因。
表8:ARIMA模型和光滑樣條法的估計結(jié)果
雖然指數(shù)模型和ARIMA模型的預(yù)測精度不如光滑樣條法高,但指數(shù)模型和ARIMA模型可以估計預(yù)測區(qū)間,而光滑樣條法只能做點值預(yù)測。因此,為了更全面預(yù)測未來5年西藏旅游收入,建議采用ARIMA模型和光滑樣條法對西藏2017-2022年西藏旅游收入進(jìn)行預(yù)測,結(jié)果如表8所示:給出了95%置信水平下旅游收入的預(yù)測區(qū)間,和光滑樣條法的預(yù)測值。