任婕
摘? 要: 常規(guī)的預(yù)測(cè)方法變量之間的皮爾遜相關(guān)值較低,造成預(yù)測(cè)的結(jié)果出現(xiàn)偏差,為此,設(shè)計(jì)基于向量自回歸模型的旅游熱門景點(diǎn)預(yù)測(cè)方法。綜合不同的搜索引擎數(shù)據(jù),計(jì)算旅游景點(diǎn)關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù),對(duì)其進(jìn)行預(yù)處理并篩選出與旅游景點(diǎn)熱度相關(guān)性較強(qiáng)的關(guān)鍵詞,利用向量自回歸模型對(duì)變量進(jìn)行均值化處理,確定影響最大的網(wǎng)絡(luò)搜索指數(shù),實(shí)現(xiàn)對(duì)旅游熱門景點(diǎn)的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明:與常規(guī)的灰度預(yù)測(cè)方法和SVR模型預(yù)測(cè)方法相比,基于向量自回歸模型的預(yù)測(cè)方法的皮爾遜相關(guān)值能夠保持在0.8~1.0之間,變量之間具有極強(qiáng)的相干性,適合應(yīng)用在旅游熱門景點(diǎn)預(yù)測(cè)中。
關(guān)鍵詞: 旅游熱門景點(diǎn)預(yù)測(cè); VAR模型; 關(guān)鍵詞搜索指數(shù); 皮爾遜相關(guān)系數(shù); 搜索指數(shù)計(jì)算; 客流量預(yù)測(cè)
中圖分類號(hào): TN911.1?34; TP181? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)03?0158?04
Research on popular tourist spot prediction method
based on vector auto regression model
REN Jie
(Ningxia Academy of Social Sciences, Yinchuan 750021, China)
Abstract: Since the Pearson′s correlation coefficient between the variables in conventional prediction methods is low, which leads to the deviation of predicted results, a popular tourist spot prediction method based on vector auto regression (VAR) model is designed. In combination with the data of different search engines, the internet search indexes of tourist spot keywords are calculated. The keywords are preprocessed, and those with strong correlation for tourist hot spots are screened out. The vector auto regression model is used to average the variables and determine the most influential internet search index to predict the popular tourist spots. The experimental results show that, in comparison with the conventional gray prediction method and the SVR model based prediction method, the Pearson′s correlation coefficient of the prediction method based on vector auto regression model keeps in the range of 0.8~1.0, and the variables are of strong coherence. Therefore, the proposed method is suitable for the prediction of popular tourist spots.
Keywords: popular tourist spot prediction; VAR model; keyword search index; Pearson′s correlation coefficient; search index calculation; tourist flow prediction
0? 引? 言
隨著經(jīng)濟(jì)的高速發(fā)展,現(xiàn)代人們的生活水平不斷提高,人們開始追求更高層次的體驗(yàn),比如旅游。旅游行業(yè)是一個(gè)綜合性的新興行業(yè),其突出的特點(diǎn)就是投入成本較少,經(jīng)濟(jì)價(jià)值回報(bào)較高,能夠滿足人們對(duì)精神層面上的需求[1]。一般旅游業(yè)具有綜合性和季節(jié)性特性,可以帶動(dòng)文化教育業(yè)、交通運(yùn)輸業(yè)以及服務(wù)行業(yè)等的發(fā)展,因此應(yīng)重視旅游業(yè)的發(fā)展[2]。
旅游景區(qū)因旅游人數(shù)的迅速遞增,帶來了可觀經(jīng)濟(jì)效益的同時(shí),也考驗(yàn)旅游景區(qū)的科學(xué)管理能力。根據(jù)大量旅游產(chǎn)品的調(diào)查資料,對(duì)旅游游客流量的走勢(shì)進(jìn)行分析,利用合理的方法對(duì)旅游熱門景點(diǎn)進(jìn)行預(yù)測(cè)[3]。目前常規(guī)的預(yù)測(cè)方法有:灰度預(yù)測(cè)、SVR模型預(yù)測(cè)法和線性回歸法等,但是這些方法存在一定的缺陷,如影響因素過于單一、沒有與客流量預(yù)測(cè)相關(guān)的因素、變量之間皮爾遜相干值較低、分析和篩選存在外界干擾等,缺少一定的實(shí)用性[4]。因此設(shè)計(jì)基于向量自回歸模型的旅游熱門景點(diǎn)預(yù)測(cè)方法,解決常規(guī)方法中存在的問題。
1? 基于向量自回歸模型的旅游熱門景點(diǎn)預(yù)測(cè)方法
預(yù)測(cè)旅游熱門景點(diǎn)與網(wǎng)民的搜索行為相關(guān),通過關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù)的變化趨勢(shì),了解潛在游客前往不同旅游景點(diǎn)的需求和意愿,使用向量自回歸模型進(jìn)行預(yù)測(cè)。
1.1? 計(jì)算關(guān)鍵詞搜索指數(shù)
游客搜索某景點(diǎn)的相關(guān)詞匯較多,使用一定方法篩選出關(guān)鍵詞。如果關(guān)鍵詞的數(shù)量過多,將關(guān)鍵詞搜索指數(shù)和實(shí)際游客量作為內(nèi)生變量,分析相關(guān)詞匯搜索指數(shù)對(duì)實(shí)際游客量的影響,并以此預(yù)測(cè)未來的游客量[5]。大部分人在旅行前都會(huì)通過電腦或手機(jī)搜索與旅游目的地相關(guān)的關(guān)鍵詞信息,基本都圍繞著旅游六要素,也就是是“吃住行游購(gòu)?qiáng)省?,將其擴(kuò)展開來搜索的關(guān)鍵詞有景點(diǎn)、特產(chǎn)、酒店、交通方式和天氣等[6]。以去年的數(shù)據(jù)為例,搜索引擎使用率達(dá)到了84.5%,通過互聯(lián)網(wǎng)進(jìn)行旅游相關(guān)操作的網(wǎng)民使用率達(dá)到了41.3%。每一個(gè)旅游景點(diǎn)搜索關(guān)鍵詞都被相應(yīng)的搜索引擎收錄并累計(jì),形成網(wǎng)絡(luò)搜索指數(shù)[7]。綜合不同的搜索引擎數(shù)據(jù),根據(jù)搜索引擎指數(shù)修正,旅游景點(diǎn)的關(guān)鍵詞搜索指數(shù)計(jì)算公式如下:
式中:[Qs]表示綜合所有搜索引擎的旅游景點(diǎn)關(guān)鍵詞的網(wǎng)絡(luò)搜索指數(shù);[Qi]表示個(gè)體搜索引擎的關(guān)鍵詞搜索指數(shù);[W]表示與[Qi]對(duì)應(yīng)的搜索引擎使用率[8]。
與個(gè)體的旅游景點(diǎn)關(guān)鍵詞搜索指數(shù)相比,綜合的旅游景點(diǎn)關(guān)鍵詞搜索指數(shù)更能準(zhǔn)確地反映關(guān)鍵詞在全網(wǎng)的搜索變化趨勢(shì)[9]。
1.2? 數(shù)據(jù)預(yù)處理及變量篩選
以旅游六要素為參考依據(jù),將與旅游景點(diǎn)相關(guān)的小吃、酒店、地圖、旅游及景點(diǎn)和購(gòu)物作為基準(zhǔn)關(guān)鍵詞。圍繞著設(shè)定好的基準(zhǔn)關(guān)鍵詞找出相關(guān)性較高的網(wǎng)絡(luò)搜索關(guān)鍵詞,如地圖查詢、購(gòu)物攻略、酒店預(yù)訂以及特色小吃等[10]。獲取每個(gè)關(guān)鍵詞的網(wǎng)絡(luò)搜索指數(shù),利用式(1)計(jì)算各個(gè)變量的網(wǎng)絡(luò)搜索指數(shù)。完成后驗(yàn)證不同的關(guān)鍵詞與該景點(diǎn)每個(gè)月客流量的相關(guān)性,盡可能避免偽回歸現(xiàn)象[11]。假設(shè)包含[n]個(gè)關(guān)鍵詞的隨機(jī)變量[K=K1,K2,…,Kn],由[m]組樣本數(shù)據(jù)組成,得到相對(duì)應(yīng)的樣本矩陣:
式中:[kij]表示第[i]個(gè)樣本對(duì)應(yīng)的第[j]個(gè)觀測(cè)值,對(duì)其進(jìn)行標(biāo)準(zhǔn)化,避免不同指標(biāo)的數(shù)量級(jí)不同對(duì)預(yù)測(cè)結(jié)果造成影響。假設(shè)對(duì)樣本矩陣標(biāo)準(zhǔn)化處理后的矩陣為[X],[X=x1,x2,…,xn=xijm×n] ,其中,[i=1,2,…,m] ,[j=1,2,…,n] 。則矩陣[K] 的相關(guān)系數(shù)矩陣就是[X] 的協(xié)方差矩陣[H=hijm×n] 。將相似系數(shù)矩陣與Spearman系數(shù)檢驗(yàn)法和Pearson系數(shù)檢測(cè)法相結(jié)合進(jìn)行變量篩選,Pearson系數(shù)和Spearman都大于0.6的變量才是能夠反映旅游六要素的變量[12]。選定的關(guān)鍵詞及相關(guān)性檢驗(yàn)結(jié)果如表1所示。
從表1中數(shù)據(jù)可以看出,篩選出的旅游景點(diǎn)關(guān)鍵詞與景點(diǎn)每個(gè)月的客流量相關(guān)性比較顯著。之后使用向量自回歸模型實(shí)現(xiàn)旅游熱門景點(diǎn)的預(yù)測(cè)。
1.3? 利用向量自回歸模型實(shí)現(xiàn)熱門景點(diǎn)預(yù)測(cè)
以旅游景點(diǎn)關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù)與景點(diǎn)實(shí)際客流量的關(guān)系為依據(jù),預(yù)測(cè)旅游景點(diǎn)的客流量,判斷該景點(diǎn)是否為旅游熱門景點(diǎn)。利用向量自回歸模型將旅游景點(diǎn)客流量與6個(gè)關(guān)鍵詞變量均值化后通過軟件實(shí)現(xiàn),獲得的均值化主變量如表2所示。
從表2中可以看出,大多數(shù)均值化變量的累積貢獻(xiàn)率超過了0.9,這就意味著該變量能夠反映出原始變量的大部分信息[13]。將[a2]標(biāo)記為第一綜合網(wǎng)絡(luò)搜索指數(shù),[a3]作為第二綜合搜索指數(shù)。從中提取最大特征值和次大特征值對(duì)應(yīng)的特征向量:
利用向量自回歸模型得到對(duì)應(yīng)的網(wǎng)絡(luò)搜索指數(shù),表達(dá)式如下:
式中:[k1~k6]表示對(duì)應(yīng)的6個(gè)關(guān)鍵詞,觀察以上內(nèi)容,均值化以后的變量對(duì)第一綜合網(wǎng)絡(luò)搜索指數(shù)和第二綜合網(wǎng)絡(luò)搜索指數(shù)的解釋都是負(fù)值,其中,旅游景點(diǎn)大全對(duì)[a2]影響最大,對(duì)[a3]影響最大的是旅游地圖。從中能夠看出潛在游客的搜索行為,體現(xiàn)了潛在游客對(duì)旅游比較傾向的搜索行為是景點(diǎn)大全和路線搜索[14]。因此,可以利用[a2]主變量和[a3]主變量進(jìn)行預(yù)測(cè),最大程度地反映游客對(duì)綜合搜索行為與實(shí)際游客量的影響[15]。將相關(guān)數(shù)據(jù)輸入至Excel軟件中,利用向量自回歸模型求得的景點(diǎn)大全和旅游地圖兩個(gè)相關(guān)主變量實(shí)現(xiàn)旅游熱門景點(diǎn)的預(yù)測(cè)。
2? 仿真實(shí)驗(yàn)
2.1? 實(shí)驗(yàn)環(huán)境
選擇Hadoop云計(jì)算平臺(tái)作為實(shí)驗(yàn)環(huán)境,該平臺(tái)具有較高的擴(kuò)展性,能夠更好地處理大量數(shù)據(jù)。使用6臺(tái)PC機(jī)的小型Hadoop集群實(shí)驗(yàn)平臺(tái)。其中,1臺(tái)作為主節(jié)點(diǎn),其他5臺(tái)作為從節(jié)點(diǎn),各個(gè)節(jié)點(diǎn)配置相同,參數(shù)配置如表3所示。節(jié)點(diǎn)之間通過100M的以太網(wǎng)交換機(jī)相連進(jìn)行通信。
2.2? 實(shí)驗(yàn)數(shù)據(jù)
獲取游客相關(guān)屬性,通過搜索平臺(tái)的API獲取30天內(nèi)搜索過旅游景點(diǎn)關(guān)鍵詞的游客信息,將其保存在HDFS分布式存儲(chǔ)文件中,在HDFS中新建兩個(gè)文本文件,一個(gè)保存游客信息,一個(gè)保存旅游景點(diǎn)關(guān)鍵詞匯。將采集的數(shù)據(jù)用于預(yù)測(cè)一段時(shí)間旅游景點(diǎn)熱度。搜索界面如圖1所示。
2.3? 實(shí)驗(yàn)內(nèi)容
對(duì)于旅游熱門景點(diǎn)的預(yù)測(cè),與之相關(guān)的兩個(gè)變量就是旅游景點(diǎn)關(guān)鍵詞網(wǎng)絡(luò)搜索系數(shù),以及以此為依據(jù)的客流量預(yù)測(cè),旅游景點(diǎn)關(guān)鍵詞網(wǎng)絡(luò)搜索系數(shù)越大,對(duì)應(yīng)的旅游景點(diǎn)未來一段時(shí)間的客流量就會(huì)增大,則該旅游景點(diǎn)即為旅游熱門景點(diǎn)。由此可以看出,關(guān)鍵詞網(wǎng)絡(luò)搜索系數(shù)與客流量?jī)蓚€(gè)變量之間存在著較強(qiáng)的關(guān)聯(lián)性,符合皮爾遜相關(guān)系數(shù)分析條件,實(shí)驗(yàn)中首先計(jì)算皮爾遜相關(guān)值,確定關(guān)聯(lián)性的強(qiáng)弱。皮爾遜相關(guān)值在0.8~1.0之間,變量之間具有極強(qiáng)相干;相關(guān)值在0.6~0.8之間時(shí),強(qiáng)相干;0.4~06是中等程度相干;0.2~0.4是弱相干;0.0~0.2是無(wú)相干或極弱相干。皮爾遜相干性實(shí)驗(yàn)設(shè)置界面如圖2所示。
在進(jìn)行實(shí)驗(yàn)過程中,引用常規(guī)的灰色預(yù)測(cè)方法以及SVR模型預(yù)測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
2.4? 結(jié)果及分析
利用基于向量自回歸模型的旅游熱門景點(diǎn)預(yù)測(cè)方法、常規(guī)的灰色預(yù)測(cè)方法以及SVR模型預(yù)測(cè)方法進(jìn)行多次對(duì)比實(shí)驗(yàn),獲取對(duì)應(yīng)的皮爾遜相關(guān)值結(jié)果如圖3所示。
從圖3中可以看出,常規(guī)的預(yù)測(cè)方法中灰度預(yù)測(cè)方法皮爾遜相關(guān)值逐漸降低,其波動(dòng)趨勢(shì)在相干值0.2~0.6之間,關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù)與客流量之間的關(guān)系趨向于中等程度相干偏弱相干;而SVR模型預(yù)測(cè)方法獲得的皮爾遜相干值大約在0.5~0.7之間,關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù)與客流量之間的關(guān)系趨向于中等相干;與前兩者相比,基于向量自回歸模型的預(yù)測(cè)方法獲得的皮爾遜相干值在0.7~1.0之間,關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù)與客流量之間具有極強(qiáng)的相干性,能夠準(zhǔn)確地對(duì)旅游景點(diǎn)的熱度進(jìn)行預(yù)測(cè)。這是由于向量自回歸模型對(duì)參數(shù)不施加零約束,能夠通過確定滯后期[K],使模型反映出變量間相互影響程度,有助于對(duì)旅游熱門景點(diǎn)的預(yù)測(cè)。
3? 結(jié)? 語(yǔ)
本文利用向量自回歸模型對(duì)旅游熱門景點(diǎn)進(jìn)行預(yù)測(cè),采取均值化主變量分析對(duì)旅游景點(diǎn)關(guān)鍵詞網(wǎng)絡(luò)搜索指數(shù)進(jìn)行定義,并將其與旅游景點(diǎn)客流量一起作為內(nèi)生變量進(jìn)行預(yù)測(cè),避免與旅游景點(diǎn)相關(guān)的關(guān)鍵詞較多時(shí)不能更好地使用向量自回歸模型的弊端。同時(shí),引入傳統(tǒng)的預(yù)測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn),證明了基于向量自回歸模型的旅游熱門景點(diǎn)預(yù)測(cè)方法能夠很好地反映游客量的變化規(guī)律,準(zhǔn)確進(jìn)行預(yù)測(cè)。但是該方法中還是存在不足之處,沒有考慮到天氣等外界因素對(duì)旅游熱門景區(qū)造成的影響,在后續(xù)的研究中,將以此為基礎(chǔ)進(jìn)行更進(jìn)一步的研究,并解決方法中存在的問題。
參考文獻(xiàn)
[1] 李雅美,王昌棟.基于標(biāo)簽的個(gè)性化旅游推薦[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(7):547?555.
[2] 朱亮,張建萍.基于Bernstein Copula函數(shù)的中國(guó)入境旅游需求預(yù)測(cè)[J].旅游學(xué)刊,2017,32(11):41?48.
[3] 胡曉琴.基于支持向量機(jī)的旅游需求量預(yù)測(cè)模型[J].現(xiàn)代電子技術(shù),2017,40(15):105?107.
[4] 梅梅,劉穎,唐小利,等.微博非結(jié)構(gòu)化數(shù)據(jù)的情緒挖掘方法及在旅游預(yù)測(cè)中的應(yīng)用[J].情報(bào)資料工作,2019,40(1):66?74.
[5] 汪威.最優(yōu)組合預(yù)測(cè)線性模型在旅游需求預(yù)測(cè)中的應(yīng)用:以中國(guó)大陸赴澳門游客量預(yù)測(cè)為例[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2018,48(12):68?77.
[6] 陳美璘,何清龍.基于熵權(quán)法混合模型的貴州省旅游人數(shù)預(yù)測(cè)研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2018,48(21):307?313.
[7] 黨婷,彭乃馳.基于GM?ES?GASVR組合模型的麗江國(guó)內(nèi)旅游需求預(yù)測(cè)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2017,47(8):279?287.
[8] 陳榮,梁昌勇,陸文星,等.面向旅游突發(fā)事件的客流量混合預(yù)測(cè)方法研究[J].中國(guó)管理科學(xué),2017,25(5):167?174.
[9] 段莉瓊,宮輝力,劉少俊,等.基于客源地的聚類?ARIMA模型的短期旅游需求預(yù)測(cè):以天津歡樂谷主題公園為例[J].地域研究與開發(fā),2017,36(3):108?112.
[10] 徐翠蓉,張廣海.中國(guó)文化產(chǎn)業(yè)與旅游業(yè)發(fā)展的交互動(dòng)態(tài)響應(yīng)分析[J].統(tǒng)計(jì)與決策,2018,34(23):145?148.
[11] 陳文捷,高雪.基于VAR模型的旅游業(yè)與區(qū)域經(jīng)濟(jì)發(fā)展動(dòng)態(tài)關(guān)系研究:以廣西為例[J].廣西社會(huì)科學(xué),2018(2):38?44.
[12] 李維維,虞虎,王新歌,等.消費(fèi)需求與國(guó)內(nèi)旅游消費(fèi)需求的周期性波動(dòng)同步嗎:基于MS?VAR模型時(shí)變特征的分析[J].商業(yè)經(jīng)濟(jì)與管理,2018(1):49?60.
[13] 孫燁,張宏磊,劉培學(xué),等.基于旅游者網(wǎng)絡(luò)關(guān)注度的旅游景區(qū)日游客量預(yù)測(cè)研究:以不同客戶端百度指數(shù)為例[J].人文地理,2017(3):152?160.
[14] 劉飛,李柯青,項(xiàng)清,等.基于大數(shù)據(jù)分析的旅游景點(diǎn)承載力模型設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(12):52?55.
[15] 郭旭東,劉永平,王遠(yuǎn)回.以旅游功能為主的城市軌道交通線路客流預(yù)測(cè)方法[J].城市軌道交通研究,2018,21(1):49?52.