江雨兮
(上海理工大學(xué) 中英國(guó)際學(xué)院,上海 200000)
隨著人們生活水平的提高,旅游業(yè)得到高速發(fā)展。為了優(yōu)化配置旅游行業(yè)的市場(chǎng)和資源,精確預(yù)測(cè)旅游人數(shù),把握旅游業(yè)發(fā)展趨勢(shì)是有必要的[1]。
目前,我國(guó)旅游市場(chǎng)趨勢(shì)的預(yù)測(cè)研究主要采用定量分析的方法來(lái)預(yù)測(cè)旅游業(yè)的發(fā)展趨勢(shì)。國(guó)內(nèi)學(xué)者關(guān)于旅游業(yè)發(fā)展研究的文獻(xiàn)分析,對(duì)旅游客流量的研究大多是從時(shí)間或空間的角度進(jìn)行的[2]。主要使用方法是傳統(tǒng)的統(tǒng)計(jì)模型,如引力模型[3],灰色模型[4]。
從國(guó)際研究的角度看,國(guó)外旅游業(yè)發(fā)展趨勢(shì)的研究主要集中在定量分析統(tǒng)計(jì)數(shù)據(jù)上,再與定性方法相結(jié)合來(lái)預(yù)測(cè)。在人工智能模型得到廣泛應(yīng)用之前,主要用傳統(tǒng)的回歸模型預(yù)測(cè)旅游業(yè)的發(fā)展趨勢(shì);如運(yùn)用時(shí)間序列、神經(jīng)網(wǎng)絡(luò)、計(jì)量經(jīng)濟(jì)模型等方法對(duì)旅游業(yè)發(fā)展趨勢(shì)的預(yù)測(cè)[5-6]。隨著近年來(lái)先進(jìn)技術(shù)的飛速發(fā)展,越來(lái)越多的研究集中在具有更高預(yù)測(cè)精度的測(cè)量技術(shù)上[7-8]。模型逐漸由單一化向多樣化發(fā)展。Wong等[9]對(duì)香港入境游客分別采用ARIMA、ADLM、ECM和VAR四種不同的單一模型以及三種不同方法的組合模型(平均分配權(quán)重法;方差——協(xié)方差法;折現(xiàn)均方預(yù)測(cè)誤差法)進(jìn)行預(yù)測(cè),比較指標(biāo),獲得組合模型對(duì)于預(yù)測(cè)旅游人數(shù)具有較高的預(yù)測(cè)精度的結(jié)論。
一般來(lái)說(shuō),無(wú)論在國(guó)內(nèi)還是國(guó)外,由于旅游市場(chǎng)本身是一個(gè)復(fù)雜的系統(tǒng),具有許多不確定的、不可控的影響因素,僅僅使用單一模型來(lái)預(yù)測(cè)難以取得較為精確的預(yù)測(cè)結(jié)果。因此國(guó)內(nèi)外學(xué)者開(kāi)始嘗試將模型組合的預(yù)測(cè)方法,使用新的組合模型來(lái)提高預(yù)測(cè)的精度。而在此之前還未有人對(duì)福建省入境游客人數(shù)變化趨勢(shì)進(jìn)行研究。游客人數(shù)數(shù)據(jù)的動(dòng)態(tài)性和非線性性,該數(shù)據(jù)是非平穩(wěn)的、復(fù)雜的難以預(yù)測(cè)的時(shí)間序列。因此,本文考慮將ARIMA模型與SVR模型組合來(lái)預(yù)測(cè),將通過(guò)ARIMA-SVR組合模型分析研究福建省入境游客人數(shù)的變化趨勢(shì),對(duì)線性預(yù)測(cè)模型與非線性預(yù)測(cè)模型的關(guān)系進(jìn)行探討。
本文收集了福建省1979-2020年的旅游人數(shù)數(shù)據(jù)。主要采用ARIMA模型以及SVR模型分別研究福建省入境游客人數(shù)變化趨勢(shì)的線性、非線性部分。接著將線性建模結(jié)果與非線性預(yù)測(cè)得到的殘差相結(jié)合,得到的結(jié)果即采用ARIMA-SVR模型預(yù)測(cè)的福建省入境游客人數(shù)。最后在與對(duì)比模型的比對(duì)下,通過(guò)判斷模型預(yù)測(cè)評(píng)價(jià)指標(biāo)的大小,得出ARIMA-SVR組合模型能夠更為精確地預(yù)測(cè)福建省入境游客人數(shù)變化趨勢(shì)。
ARIMA(Autoregressive Integrated Moving Average)模型,是一種常見(jiàn)的時(shí)間序列預(yù)測(cè)模型。其特點(diǎn):只要由內(nèi)生變量進(jìn)行構(gòu)造,簡(jiǎn)單易于實(shí)現(xiàn);在ARIMA模型用于時(shí)間序列時(shí),要求序列必須是平穩(wěn)的。如果序列不平穩(wěn),則必須多次微分將其平穩(wěn)化。多階整體也就是通過(guò)多次微分變換的非平穩(wěn)時(shí)間序列;ARIMA模型能勾勒出時(shí)序數(shù)據(jù)的大局線性趨勢(shì)。ARIMA模型對(duì)非穩(wěn)定的數(shù)據(jù)以及數(shù)據(jù)非線性部分無(wú)法精確擬合。ARIMA(p,d,q),p、q被稱為自回歸項(xiàng)的滯后階數(shù)和移動(dòng)平均項(xiàng)的滯后階數(shù),差分時(shí)間序列使其平穩(wěn)化所造成的次數(shù)用d表示。ARIMA(p,d,q)被稱為差分自回歸移動(dòng)平均模型[10]。
SVR(Support Vector Regression)算法是常用的機(jī)器學(xué)習(xí)算法且模型性能優(yōu)秀。它最早由Vapnik教授在20世紀(jì)90年代時(shí)提出。隨著計(jì)算機(jī)技術(shù)的發(fā)展,支持向量機(jī)模型得到了快速的發(fā)展和廣泛的應(yīng)用。支持向量機(jī)的算法原理是確定特定的核函數(shù)(kernel)使得特征空間能夠得到擴(kuò)展,使得樣本進(jìn)行線性可分性的分析;對(duì)于線性不可分割的情況,要使用線性算法處理樣本的非線性特征,最終使得樣本在高維特征空間中能實(shí)現(xiàn)線性可分[11]。SVR模型的特點(diǎn):僅用部分支持向量來(lái)做超平面的決策,無(wú)需依賴全部數(shù)據(jù);對(duì)缺失數(shù)據(jù)較敏感;可以使用多種多樣的核函數(shù)靈活解決非線性回歸問(wèn)題,對(duì)于小樣本有很好的預(yù)測(cè)精度,泛化能力強(qiáng)。
本文將采用如下步驟構(gòu)建組合模型來(lái)進(jìn)行福建省入境游客人數(shù)的預(yù)測(cè)。
(1)輸入1979-2012年數(shù)據(jù)作為ARIMA模型的訓(xùn)練集,構(gòu)建ARIMA模型對(duì)線性部分進(jìn)行分析,假設(shè)預(yù)測(cè)結(jié)果為根據(jù)2013-2018年的測(cè)試集數(shù)據(jù)得出序列的殘差為Nt,Nt中容納了序列Yt的非線性關(guān)系;
(2)通過(guò)重構(gòu)前一步得到的序列Nt得到SVR樣本集,并利用SVR模型預(yù)測(cè)殘差以得到預(yù)測(cè)結(jié)果
由于ARIMA和SVR的單一模型各有不同的優(yōu)點(diǎn)和缺點(diǎn),但在解決線性模型和非線性模型的問(wèn)題時(shí),兩者具有不同的優(yōu)點(diǎn)。因此,這兩種模型是相輔相成的。因此,為了預(yù)測(cè)旅游人數(shù)可以將兩個(gè)結(jié)合起來(lái)得到精度更高的結(jié)果。假設(shè)線性自相關(guān)部分Lt與非線性殘差Nt兩個(gè)部分被看作時(shí)間序列Yt的組合,用公式表示就是Yt=Lt+Nt。利用組合后的ARIMA-SVR組合模型來(lái)期望得到預(yù)測(cè)精度更優(yōu)的結(jié)果。
組合預(yù)測(cè)原理如圖1所示:
圖1 ARIMA-SVR組合預(yù)測(cè)模型原理
本文從福建省統(tǒng)計(jì)年鑒中獲取1979-2020年的福建省入境游客人數(shù)的年度數(shù)據(jù),共42條記錄,數(shù)據(jù)真實(shí)可靠,見(jiàn)表1。
表1 1979-2020年福建省入境旅游人數(shù)表
在數(shù)據(jù)處理方面,將1979-2020年福建省入境游客人數(shù)時(shí)間序列繪制成時(shí)序圖,如圖2所示。通過(guò)繪圖展示,我們可以初步從1979-2019年從福建省入境游客人數(shù)數(shù)據(jù)中看出序列是否有著明顯的長(zhǎng)期增長(zhǎng)的趨勢(shì)。除2020年新冠疫情的出現(xiàn),導(dǎo)致福建省入境游客數(shù)量急劇減少。
圖2 1979-2020年福建省入境游客人數(shù)時(shí)序圖
福建省入境游客人數(shù)容易受到各種因素的影響使用單一模型來(lái)預(yù)測(cè)福建省入境游客人數(shù)的變化趨勢(shì)可能是困難的,并且在預(yù)測(cè)精度方面,也難以達(dá)到預(yù)期的效果。因此,在單一模型預(yù)測(cè)精度不高的情況下,我們采用ARIMA-SVR組合模型對(duì)福建省入境游客人數(shù)進(jìn)行預(yù)測(cè)。
我們能夠清晰地從圖2的時(shí)間序列圖中看出,福建省的旅游人數(shù)有長(zhǎng)期的增長(zhǎng)趨勢(shì),因此我們需要對(duì)福建省入境游客人數(shù)時(shí)間序列做差分運(yùn)算。一階差分后的序列也能明顯顯示出了長(zhǎng)期的增長(zhǎng)趨勢(shì)。
如圖3所示,福建省入境游客人數(shù)時(shí)間序列經(jīng)過(guò)一階差分后的時(shí)間序列呈現(xiàn)出長(zhǎng)期的穩(wěn)定性,基本上在0附近波動(dòng)上下均勻波動(dòng)。
圖3 福建省入境游客人數(shù)一階差分時(shí)序圖
為了更準(zhǔn)確地描述數(shù)據(jù)穩(wěn)定性,可以使用ADF檢驗(yàn)單位根來(lái)進(jìn)行檢驗(yàn)是否平穩(wěn)。若序列是平穩(wěn)的,則可以直接用ARIMA模型來(lái)擬合,反之則要經(jīng)過(guò)差分轉(zhuǎn)換。ADF單位根檢驗(yàn)結(jié)果見(jiàn)表2。
表2 福建省入境游客人數(shù)二階差分的單位根檢驗(yàn)結(jié)果
我們可以從ADF檢驗(yàn)看出,序列的p值等于0.021 8,p值小于顯著性水平α(α=0.05),以上計(jì)算結(jié)果表明,單位根檢驗(yàn)結(jié)果顯著,一階差分后的序列不存在單位根,所以我們可以說(shuō)一階差分序列是穩(wěn)定的。為了更加準(zhǔn)確地確定模型的階數(shù),我們利用AIC準(zhǔn)則,通過(guò)AIC值來(lái)說(shuō)明模型擬合度越高。分別計(jì)算各模型的AIC值,結(jié)果可知ARIMA(1,1,1)的AICc值最小,可以求出ARIMA(0,1,1)的AIC值、AICc值以及BIC值分別為1 266.11、252.71以及255.07。再對(duì)ARIMA(0,1,1)模型進(jìn)行檢驗(yàn)擬合得出模型參數(shù)的顯著性,結(jié)果見(jiàn)表3。
表3 模型參數(shù)的顯著性檢驗(yàn)結(jié)果
最后將所得的ARIMA(1,1,1)模型進(jìn)行參數(shù)的顯著性檢驗(yàn)。檢驗(yàn)結(jié)果顯示,估計(jì)出的系數(shù)除以其的標(biāo)準(zhǔn)差(s.e.)得到的商的絕對(duì)值大于1.96,落入拒絕域,拒絕原假設(shè)。因此,沒(méi)有必要重新修正所建立的模型。最后選持的時(shí)間序列模型為ARIMA(1,1,1)模型。
現(xiàn)在我們利用所建立的ARIMA(1,1,1)模型對(duì)2013-2020年福建省全年的旅游人數(shù)進(jìn)行預(yù)測(cè),結(jié)果如圖4所示。
圖4 2013-2020年福建省入境游客人數(shù)ARIMA模型預(yù)測(cè)
利用模型預(yù)測(cè)值與測(cè)試集比較求出誤差,分析 模型的均方根誤差、平均絕對(duì)誤差、平均百分比誤差等幾個(gè)用來(lái)衡量精度指標(biāo),來(lái)進(jìn)行對(duì)比分析模型的預(yù)測(cè)精度,見(jiàn)表4。
由表4得知,模型預(yù)測(cè)值與實(shí)際值的誤差較小,平均百分比誤差為2.269 8。模型的平均絕對(duì)百分比誤差值為9.601、平均絕對(duì)比例誤差為0.653。表明ARIMA(1,1,1)模型擬合的效果較為良好,精度滿足要求。
表4 評(píng)價(jià)預(yù)測(cè)精度指標(biāo)
然而,由于福建省入境游客客流量受到國(guó)家政策、經(jīng)濟(jì)形勢(shì)、突發(fā)事件等因素的影響,要想利用單一的ARIMA模型進(jìn)行長(zhǎng)期的、絕對(duì)準(zhǔn)確的預(yù)測(cè)較為困難。因此我們?nèi)孕鑼?duì)該模型進(jìn)行一些改進(jìn)。
為了選擇一個(gè)最優(yōu)個(gè)數(shù)能夠使得循環(huán)殘差數(shù)據(jù)的誤差最小,我們采用第N次選擇N個(gè)殘差數(shù)據(jù),保留誤差為它的第N+1個(gè)殘差數(shù)據(jù)作為模型輸出的方法。所以最優(yōu)個(gè)數(shù)定為4時(shí)能讓模型循環(huán)殘差的誤差最小。
通過(guò)模型選定的最優(yōu)循環(huán)殘差個(gè)數(shù),可以得出結(jié)論,福建省入境游客人數(shù)的殘差與前4年旅游人數(shù)的殘差高度相關(guān)。在R軟件中調(diào)用e1071程輯包來(lái)實(shí)現(xiàn)SVR建模,核函數(shù)為高斯核函數(shù)。參數(shù)采用十折交叉驗(yàn)證獲得,通過(guò)擇優(yōu)選擇懲罰系數(shù)C=10 000以及gamma=0.000 01,作為最優(yōu)參數(shù)來(lái)對(duì)2016-2020年福建省入境游客人數(shù)殘差進(jìn)行預(yù)測(cè)。
表5 基于ARIMA-SVR福建省入境游客人數(shù)預(yù)測(cè)結(jié)果
為了引入對(duì)比模型,我們分別采用單一的SVR模型以及ARIMA模型對(duì)福建省入境游客人數(shù)進(jìn)行了預(yù)測(cè)分析。利用滑動(dòng)窗口對(duì)SVR模型進(jìn)行訓(xùn)練,訓(xùn)練集為1979-2016年福建省入境游客人數(shù)序列x(t)。
運(yùn)用通過(guò)訓(xùn)練集構(gòu)建好的SVR模型和ARIMA模型對(duì)2017-2020年的福建省入境游客人數(shù)進(jìn)行預(yù)測(cè),得出來(lái)的預(yù)測(cè)結(jié)果與測(cè)試集,即2017-2020年實(shí)際數(shù)據(jù)做比較,計(jì)算得出誤差,結(jié)果如圖5和表6所示。通過(guò)折線圖和誤差表比對(duì),我們可以清晰地看出,單個(gè)ARIMA和SVR模型在短期預(yù)測(cè)可能得到更精確地效果。但是ARIMA-SVR組合預(yù)測(cè)模型在較為長(zhǎng)期預(yù)測(cè)中,能夠結(jié)合ARIMA模型在求解線性問(wèn)題以及SVR模型在解決非線性問(wèn)題上的優(yōu)勢(shì)。使得預(yù)測(cè)出來(lái)的結(jié)果具有更高的預(yù)測(cè)精度和更小的誤差。
表6 2017-2020年3個(gè)模型預(yù)測(cè)誤差對(duì)比
圖5 2017-2020年3個(gè)模型預(yù)測(cè)折線圖對(duì)比
這表明雖然單一模型短期預(yù)測(cè)比較有優(yōu)勢(shì),但對(duì)于解決復(fù)雜且不穩(wěn)定的時(shí)間序列問(wèn)題,它們都必定不是最優(yōu)模型。而本文使用的ARIMA-SVR組合模型分別結(jié)合了ARIMA模型和SVR模型各自獨(dú)有的優(yōu)點(diǎn),使得預(yù)測(cè)精度有效地提高,預(yù)測(cè)誤差大幅度減小。
根據(jù)模型精度評(píng)價(jià)可以得出,相比與單個(gè)的ARIMA和SVR模型,我們所建立的更高精度、誤差更小的ARIMA-SVR組合預(yù)測(cè)模型,克服了單一模型只能對(duì)序列線性或者非線性部分進(jìn)行預(yù)測(cè)的弊端,更能充分地捕捉已知福建省入境游客人數(shù)數(shù)據(jù)中隱含的信息,從而來(lái)預(yù)測(cè)未來(lái)幾年的數(shù)據(jù)。因此我們利用ARIMA-SVR組合模型以及1979-2020年福建省入境游客人數(shù)序列來(lái)預(yù)測(cè)每年的旅游人數(shù)。
從實(shí)際數(shù)據(jù)可以看到,2019、2020兩年間,福建省入境游客人數(shù)仍在趨增,兩年間福建省入境游客人數(shù)將增長(zhǎng)到每年千萬(wàn)人次級(jí)別,分別為9 194 023、5 815 290人次,結(jié)果說(shuō)明ARIMA-SVR組合模型預(yù)測(cè)的數(shù)據(jù)具有一定的科學(xué)性和一定的參考意義。能夠?yàn)橛嘘P(guān)部門(mén)及早地、準(zhǔn)確地制定旅游規(guī)劃,優(yōu)化旅游市場(chǎng)資源配置提供依據(jù)。
經(jīng)濟(jì)的高速發(fā)展使得旅游業(yè)大力興起,隨著福建省頒布一系列促進(jìn)旅游業(yè)發(fā)展的政策,福建省入境游客人數(shù)將必將呈現(xiàn)出持續(xù)增長(zhǎng)的趨勢(shì)。雖然游客數(shù)量的增加給景區(qū)帶來(lái)了豐厚的利潤(rùn),但也不可避免地帶來(lái)了一連串的交通、安全、服務(wù)質(zhì)量問(wèn)題,和疫情防控方面的高度要求,從而導(dǎo)致旅游服務(wù)質(zhì)量急劇下降,市場(chǎng)趨于混亂。針對(duì)上述問(wèn)題,本文對(duì)福建省入境游客人數(shù)進(jìn)行預(yù)測(cè),綜合過(guò)去的信息,并使用定性和定量的方法來(lái)揭示旅游人數(shù)數(shù)據(jù)的變化趨勢(shì),以便為社會(huì)和經(jīng)濟(jì)發(fā)展提供判斷的方向,提前制定相應(yīng)的政策來(lái)促進(jìn)社會(huì)的穩(wěn)定發(fā)展。
然而,在現(xiàn)實(shí)生活中福建省入境游客人口的波動(dòng)規(guī)律與其他數(shù)據(jù)不同,包含數(shù)據(jù)之間的線性關(guān)系以及其非線性特征。因此以往單一的預(yù)測(cè)方法存在一定的限制,不能很好地滿足我們所需求的預(yù)測(cè)精度。組合預(yù)測(cè)的方法能夠較好地吸取單一模型的特點(diǎn),互補(bǔ)模型之間的不足,基于這一點(diǎn)我們選擇使用ARIMA-SVR組合模型來(lái)預(yù)測(cè)福建省入境游客人數(shù)的變化趨勢(shì),此模型較好地結(jié)合了單一模型各有的優(yōu)勢(shì),構(gòu)建ARIMA模型處理福建省入境游客人數(shù)的線性趨勢(shì),SVR模型預(yù)測(cè)福建省入境游客人數(shù)變化的非線性規(guī)律。最后引入對(duì)比模型,根據(jù)對(duì)比模型精度結(jié)果表明,該組合模型相比于單一模型能夠提高預(yù)測(cè)的準(zhǔn)確性,準(zhǔn)確把握福建省入境游客人數(shù)的變化趨勢(shì),并且比單一模型更合理、更可靠,可作為一種有效的工具用于福建省入境游客人數(shù)時(shí)間序列的預(yù)測(cè)。