時(shí)萍萍,胡姚剛,孟繼東
(1.重慶理工大學(xué)a.管理學(xué)院;b.電氣與電子工程學(xué)院,重慶 400054;2.重慶大學(xué) 重慶旅游人才發(fā)展研究院,重慶 400044;3.重慶銀行 博士后科研工作站,重慶 400024)
2021年6 月,國家文化和旅游部在介紹《“十四五”文化和旅游發(fā)展規(guī)劃》關(guān)于“完善現(xiàn)代旅游業(yè)體系”時(shí)指出,旅游業(yè)是幸福產(chǎn)業(yè),是人民生活水平提高的重要標(biāo)志,旅游業(yè)已發(fā)展成為傳承弘揚(yáng)中華文化的重要載體,對(duì)穩(wěn)增長(zhǎng)、穩(wěn)投資、穩(wěn)就業(yè)、促消費(fèi)、調(diào)結(jié)構(gòu)等方面的綜合帶動(dòng)作用日益凸出。然而,在旅游業(yè)快速發(fā)展同時(shí)也伴隨著問題出現(xiàn),特別是因游客量的急劇增長(zhǎng)和休假制度導(dǎo)致的節(jié)假日旅游需求集中,極易造成區(qū)域交通擁堵或景區(qū)超載、游客安全事故等現(xiàn)象,嚴(yán)重影響游客旅行體驗(yàn),不利于旅游消費(fèi)和旅游業(yè)的可持續(xù)發(fā)展,給旅游管理和調(diào)控帶來了巨大挑戰(zhàn)。因此,深入研究精準(zhǔn)有效的游客量預(yù)測(cè)模型,及早掌握區(qū)域或景區(qū)游客量預(yù)測(cè)數(shù)據(jù),對(duì)提升游客旅游體驗(yàn),科學(xué)配置旅游資源和推動(dòng)旅游業(yè)高質(zhì)量發(fā)展有重要意義。
國家文化和旅游部在2020 年發(fā)布的《關(guān)于深化“互聯(lián)網(wǎng)+旅游”推動(dòng)旅游業(yè)高質(zhì)量發(fā)展的意見》指出,堅(jiān)定不移建設(shè)網(wǎng)絡(luò)強(qiáng)國、數(shù)字強(qiáng)國,持續(xù)深化“互聯(lián)網(wǎng)+旅游”,推動(dòng)旅游業(yè)高質(zhì)量發(fā)展。在旅游活動(dòng)過程中,通過搜索引擎、博客、微博、社交網(wǎng)絡(luò)、移動(dòng)APP等互聯(lián)網(wǎng)在線平臺(tái),游客可獲取包括景點(diǎn)、交通、天氣、旅游體驗(yàn)等信息,預(yù)定行程或購買旅游產(chǎn)品并反饋旅游體驗(yàn)評(píng)論信息。旅游出行前的搜索、交易、評(píng)論等數(shù)據(jù)被互聯(lián)網(wǎng)記錄、儲(chǔ)存和積累,形成反映游客行為的互聯(lián)網(wǎng)旅游數(shù)據(jù)[1,2]。互聯(lián)網(wǎng)旅游數(shù)據(jù)是對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)在深度與廣度上的重要補(bǔ)充和擴(kuò)展,通過對(duì)互聯(lián)網(wǎng)旅游數(shù)據(jù)提取、整理、分析、建模和可視化,掌握游客行為特征和偏好,及早獲得游客量預(yù)測(cè)結(jié)果[3,4],為旅游管理部門配置旅游服務(wù)資源和提供高質(zhì)量的旅游服務(wù)提供重要技術(shù)支撐。
互聯(lián)網(wǎng)旅游數(shù)據(jù)具有多元異構(gòu)、高頻、海量、價(jià)值密度低的大數(shù)據(jù)特征,如何從旅游大數(shù)據(jù)中挖掘關(guān)鍵特征信息和構(gòu)建有效的游客量預(yù)測(cè)模型,已經(jīng)成為近年來國內(nèi)外相關(guān)科研機(jī)構(gòu)研究共識(shí)和熱點(diǎn)[1]。目前,已有學(xué)者對(duì)旅游預(yù)測(cè)模型或互聯(lián)網(wǎng)旅游數(shù)據(jù)研究現(xiàn)狀進(jìn)行了評(píng)述。如:Song 等[5]總結(jié)了1968—2018 年旅游預(yù)測(cè)模型發(fā)展,但利用互聯(lián)網(wǎng)旅游數(shù)據(jù)開展游客量預(yù)測(cè)的現(xiàn)狀和演變?nèi)匀徊磺宄?;Li等[2]對(duì)不同類型的互聯(lián)網(wǎng)數(shù)據(jù)旅游預(yù)測(cè)研究進(jìn)行了整理,但卻過于注重?cái)?shù)據(jù)類型的分類,忽略了預(yù)測(cè)模型的演進(jìn)趨勢(shì)。因此,本文擬通過檢索和梳理國內(nèi)外重要核心期刊的相關(guān)研究,對(duì)互聯(lián)網(wǎng)旅游數(shù)據(jù)特征、處理方法和游客量預(yù)測(cè)模型研究現(xiàn)狀進(jìn)行評(píng)述,并從關(guān)鍵詞智能提取、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化、多源旅游數(shù)據(jù)融合、高維非線性混頻數(shù)據(jù)處理4 個(gè)方面展望未來的研究要點(diǎn)及趨勢(shì)。
互聯(lián)網(wǎng)旅游數(shù)據(jù)是虛擬網(wǎng)絡(luò)中游客搜索、交易、評(píng)論、照片等被互聯(lián)網(wǎng)記錄、儲(chǔ)存和積累的數(shù)據(jù),可反映游客的注意力、興趣和行為,具有數(shù)據(jù)量大、時(shí)效性高等特點(diǎn)[1,2]。但同時(shí)存在數(shù)據(jù)非平衡問題,獲取的數(shù)據(jù)通常多而雜,只有極少部分具有預(yù)測(cè)使用價(jià)值,提取大量有較高價(jià)值的預(yù)測(cè)數(shù)據(jù)困難。目前,游客量預(yù)測(cè)建模一般需要的互聯(lián)網(wǎng)旅游數(shù)據(jù)主要包括搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)兩類[6](表1)。
表1 互聯(lián)網(wǎng)旅游數(shù)據(jù)特征Table 1 Characteristics of Internet tourism data
谷歌、百度等大型搜索引擎實(shí)時(shí)記錄用戶的搜索內(nèi)容、搜索頻率及位置等信息,生成谷歌趨勢(shì)或百度指數(shù)結(jié)構(gòu)化數(shù)據(jù),用戶在搜索引擎輸入的關(guān)鍵詞數(shù)量、內(nèi)容、次數(shù)等信息,間接呈現(xiàn)了用戶對(duì)旅游需求、興趣和旅游目的地的關(guān)注程度。當(dāng)前,在旅游預(yù)測(cè)研究中,谷歌趨勢(shì)和百度指數(shù)數(shù)據(jù)應(yīng)用較多,如Li等[1]對(duì)谷歌趨勢(shì)和百度指數(shù)數(shù)據(jù)的特征進(jìn)行了總結(jié),結(jié)果如表2 所示。目前,谷歌搜索在全球占主導(dǎo)地位,而百度在中國擁有廣大的用戶規(guī)模,百度指數(shù)更適用于中國旅游預(yù)測(cè)[7]?;谒阉饕鏀?shù)據(jù)的旅游預(yù)測(cè)過程(圖1)主要包括搜索數(shù)據(jù)獲取、搜索數(shù)據(jù)處理和構(gòu)建預(yù)測(cè)模型3 部分。
圖1 基于搜索引擎數(shù)據(jù)的游客量預(yù)測(cè)過程Figure 1 Tourist volume prediction process based on search engine data
表2 谷歌趨勢(shì)與百度指數(shù)特征比較Table 2 Comparison of Google trend and Baidu index
搜索數(shù)據(jù)獲取主要包括初始關(guān)鍵詞選取和擴(kuò)展關(guān)鍵詞兩個(gè)方面。①初始關(guān)鍵詞選取。經(jīng)驗(yàn)選擇法是常用的初始關(guān)鍵詞選取方法,該方法依據(jù)研究人員的知識(shí)和經(jīng)驗(yàn)確定關(guān)鍵詞。例如,Li 等[3]在開展四姑娘山游客量預(yù)測(cè)時(shí),直接采用了四姑娘山攻略、四姑娘山天氣、四姑娘山海拔、四姑娘山在哪里、四姑娘山景區(qū)、四姑娘山門票、四姑娘山旅游、四姑娘山住宿8 個(gè)關(guān)鍵詞的搜索指數(shù)作為預(yù)測(cè)變量。經(jīng)驗(yàn)選擇法雖然簡(jiǎn)單易行,但是與研究人員的知識(shí)、能力等因素相關(guān),主觀性較強(qiáng),不具有推廣意義。且該方法極易忽略重要關(guān)鍵詞,也有可能選擇不正確的關(guān)鍵詞,無法準(zhǔn)確預(yù)測(cè)游客量。②擴(kuò)展關(guān)鍵詞。旅游是一種非常復(fù)雜的活動(dòng)行為,決策過程中涉及諸多階段。少數(shù)關(guān)鍵字無法涵蓋游客決策整個(gè)過程,導(dǎo)致具有預(yù)測(cè)功能的重要關(guān)鍵詞遺漏。一些關(guān)鍵詞挖掘工具,如站長(zhǎng)工具、愛站網(wǎng)、需求圖譜功能、搜索推薦,可對(duì)相關(guān)關(guān)鍵詞進(jìn)行擴(kuò)展。李曉炫等[8]在對(duì)九寨溝游客量進(jìn)行預(yù)測(cè)時(shí),以九寨溝、九寨溝天氣、九寨溝酒店、九寨溝機(jī)場(chǎng)為核心關(guān)鍵詞,利用百度搜索推薦相關(guān)關(guān)鍵詞的功能,共擴(kuò)展出146 個(gè)關(guān)鍵詞。相比經(jīng)驗(yàn)選擇法,關(guān)鍵詞擴(kuò)展法能捕捉到更多與出行有關(guān)的關(guān)鍵詞,但部分關(guān)鍵詞與預(yù)測(cè)因素相關(guān)性較弱甚至出現(xiàn)不相關(guān)現(xiàn)象,易產(chǎn)生數(shù)據(jù)噪音,難以提高預(yù)測(cè)精度。
搜索數(shù)據(jù)處理包括關(guān)鍵詞確定和指數(shù)合成兩個(gè)方面。①關(guān)鍵詞確定。鑒于搜索引擎數(shù)據(jù)量龐大且包含豐富的信息,研究人員通過選擇和減少關(guān)鍵詞的方法提取有效信息進(jìn)行準(zhǔn)確預(yù)測(cè)。常用的時(shí)差相關(guān)法兼具領(lǐng)先性和相關(guān)性特點(diǎn),通過計(jì)算每個(gè)關(guān)鍵詞提前幾期的搜索量與預(yù)測(cè)指標(biāo)之間的皮爾森相關(guān)系數(shù),再確定關(guān)鍵詞的選擇閾值,選擇出具有預(yù)測(cè)能力的關(guān)鍵詞。如,李曉炫等[8]選取至少提前1 期的關(guān)鍵詞搜索量與景區(qū)游客量的皮爾遜相關(guān)系數(shù)大于0.8 的關(guān)鍵詞作為最終關(guān)鍵詞;Yang 等[7]采用了同樣的方法確定預(yù)測(cè)關(guān)鍵詞,但Google 趨勢(shì)關(guān)鍵詞選取條件為皮爾遜相關(guān)系數(shù)大于0.76,而百度指數(shù)關(guān)鍵詞選取條件為皮爾遜相關(guān)系數(shù)大于0.8。可見,相關(guān)系數(shù)閾值的選擇多是根據(jù)研究者自身經(jīng)驗(yàn),閾值過低導(dǎo)致選擇條件過于寬泛,較多的噪音降低搜索指數(shù)與預(yù)測(cè)量的相關(guān)性;而閾值過高導(dǎo)致關(guān)鍵詞較苛刻,有可能遺漏影響預(yù)測(cè)的重要因素[8]。②指數(shù)合成。為有效反映游客對(duì)目的地的整體關(guān)注趨勢(shì),可將搜索關(guān)鍵詞合成一個(gè)指數(shù)或幾個(gè)搜索指數(shù)[1,7,8],常 用 搜 索 指 數(shù) 合 成 方 法 有 直 接 合 成 法 和 降維合成法。直接合成法是將所有搜索關(guān)鍵詞搜索量直接相加,合成搜索指數(shù)。如李曉炫等[8]、Yang等[7]直接把通過時(shí)差相關(guān)法篩選出來的關(guān)鍵詞搜索量進(jìn)行相加,合成預(yù)測(cè)因子。直接合成法直接、簡(jiǎn)單、易操作,但難以明確各搜索關(guān)鍵詞對(duì)景區(qū)游客量的不同貢獻(xiàn)。降維合成法可分為聚類分析、主成分分析(Principal Component Analysis,PCA)和廣義動(dòng)態(tài)因子(Generalized Dynamic Factor Model,GDFM)3 類:第一類,聚類分析是對(duì)研究對(duì)象按照一定的規(guī)則進(jìn)行類或簇的劃分方法。其目標(biāo)是將特征屬性相似或信息相關(guān)的對(duì)象劃分為一類,而類之間的對(duì)象特征屬性是不相似或相關(guān)度較低的。如張玲玲等[9]采用K-均值聚類分析方法將海南、三亞、海南旅游等17個(gè)關(guān)鍵詞分成3 類,并驗(yàn)證了第二類關(guān)鍵詞指數(shù)變量對(duì)海南游客量具有預(yù)測(cè)能力。但當(dāng)數(shù)據(jù)量較大時(shí),K值較難確定,影響初始聚類中心的選擇,分類效果不好。第二類,PCA在損失很少信息前提下,將少數(shù)幾個(gè)集中了原始變量的大部分信息的綜合變量(主成分)代替原始多個(gè)變量,各個(gè)主成分之間互不相關(guān)。如Li等[10]對(duì)北京旅游進(jìn)行預(yù)測(cè)時(shí),采用PCA將北京小吃、北京經(jīng)典、北京特產(chǎn)、北京風(fēng)景名勝區(qū)、北京飯店等15 個(gè)搜索關(guān)鍵詞提取為6 個(gè)主成分。但當(dāng)PCA主成分出現(xiàn)負(fù)值時(shí),PCA 的含義解釋較模糊,不如原始變量的含義明確。第三類,GDFM 以因子分析理論為基礎(chǔ),以高維經(jīng)濟(jì)變量為分析對(duì)象,引入更多的指標(biāo)信息,采用基于頻域分析的非參數(shù)估計(jì)方法,處理無限多的樣本,更為全面反映指標(biāo)信息,無需事先確定指標(biāo)間的先行或滯后關(guān)系,直接用滯后算子多項(xiàng)式來刻畫指標(biāo)間的動(dòng)態(tài)時(shí)序關(guān)系。Li等[11]采用GDFM 方法將搜索到與北京旅游相關(guān)的關(guān)鍵詞整合成一個(gè)因子,與采用PCA 方法合成因子相比,GDFM合成的因子具有更好的預(yù)測(cè)能力。
旅游研究社交媒體數(shù)據(jù)主要來源于TripAdvisor、Expedia、Booking、攜程、去哪兒、點(diǎn)評(píng)等網(wǎng)站[1,2],這些社交媒體通過論壇、博客、社交網(wǎng)絡(luò)、照片和視頻分享等方式為游客提供反饋旅游體驗(yàn)信息渠道。目前,社交媒體數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類。①結(jié)構(gòu)化數(shù)據(jù)主要包括用戶轉(zhuǎn)發(fā)數(shù)、用戶回復(fù)數(shù)、評(píng)分?jǐn)?shù)、旅游管理組織轉(zhuǎn)發(fā)數(shù)等,可直接作為游客量的預(yù)測(cè)變量。②非結(jié)構(gòu)化數(shù)據(jù)主要包括新聞、評(píng)論內(nèi)容、照片、圖像、視頻等,需將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后,再作為預(yù)測(cè)變量。與基于搜索引擎數(shù)據(jù)的游客量預(yù)測(cè)過程類似,基于社交媒體數(shù)據(jù)的旅游預(yù)測(cè)過程也包括搜索數(shù)據(jù)獲取、數(shù)據(jù)處理和構(gòu)建預(yù)測(cè)模型3 部分,但由于社交媒體數(shù)據(jù)多是非結(jié)構(gòu)化數(shù)據(jù),在獲取與處理環(huán)節(jié)與搜索引擎數(shù)據(jù)有較大不同。
當(dāng)前,社交媒體數(shù)據(jù)一般需要開發(fā)網(wǎng)絡(luò)爬蟲軟件采集原始數(shù)據(jù)。通過網(wǎng)絡(luò)爬蟲技術(shù)從相關(guān)社交媒體網(wǎng)站收集在線文本數(shù)據(jù)(包括旅游相關(guān)評(píng)論和博客)[12,13]。利用網(wǎng)絡(luò)爬蟲在一個(gè)程序或一套程序方面實(shí)現(xiàn)迭代和自動(dòng)下載網(wǎng)頁,從超文本標(biāo)記語言(HTML)提取統(tǒng)一的資源鏈接(URL)[14]。如,Xiang等[12]使用Python 和Java 編程語言中的網(wǎng)絡(luò)爬蟲獲得酒店相關(guān)評(píng)論;Guo等[15]開發(fā)了一個(gè)網(wǎng)絡(luò)爬蟲,定期從TripAdvisor收集評(píng)論數(shù)據(jù)。
對(duì)于非結(jié)構(gòu)化旅游數(shù)據(jù),將非結(jié)構(gòu)化社交媒體數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的時(shí)間序列數(shù)據(jù)是研究中的關(guān)鍵環(huán)節(jié)。社交媒體中的評(píng)論反映了消費(fèi)者的情感傾向,通過機(jī)器學(xué)習(xí)、文本分析等方法,情感指數(shù)可將在線情感表示為一個(gè)時(shí)間序列,預(yù)測(cè)旅游需求。梅梅等[16]針對(duì)中文微博數(shù)據(jù)非結(jié)構(gòu)化特點(diǎn),從相關(guān)維、狀態(tài)維、主題維、情緒維4 個(gè)維度提出了一套標(biāo)準(zhǔn)的微博情緒挖掘方法,通過K-近鄰算法(KNN)、貝葉斯(NB)和支持向量機(jī)(SVM)進(jìn)行傾向性分析,形成量化的情緒指標(biāo);Colladon 等[17]采用Condor 軟件中的機(jī)器學(xué)習(xí)方法,將在TripAdvisor中收集的266萬多篇帖子合成消費(fèi)者情感指數(shù),納入國際機(jī)場(chǎng)抵達(dá)人數(shù)預(yù)測(cè)模型中,具有消費(fèi)者情感指數(shù)的預(yù)測(cè)模型比基于Google趨勢(shì)數(shù)據(jù)的預(yù)測(cè)模型表現(xiàn)出更好的性能;Starosta 等[6]采用人工神經(jīng)網(wǎng)絡(luò)方法,將媒體正面和負(fù)面新聞表示為時(shí)間序列的游客情緒指數(shù),發(fā)現(xiàn)游客對(duì)旅游目的地的態(tài)度與游客量之間具有很強(qiáng)的相關(guān)性。
基于互聯(lián)網(wǎng)旅游數(shù)據(jù)的游客量預(yù)測(cè)模型主要包括時(shí)間序列模型、計(jì)量經(jīng)濟(jì)模型、機(jī)器學(xué)習(xí)模型、組合模型,與上述預(yù)測(cè)模型研究的相關(guān)研究現(xiàn)狀分析結(jié)果如圖2 所示。
圖2 基于互聯(lián)網(wǎng)旅游數(shù)據(jù)的游客量預(yù)測(cè)模型分析框架Figure 2 Analysis framework of tourist volume prediction model based on Internet big data
時(shí)間序列模型主要通過識(shí)別周期性歷史數(shù)據(jù)(每天、每月、每季度或每年)的變化趨勢(shì)確定模型,進(jìn)而實(shí)現(xiàn)預(yù)測(cè)游客量[18]?;ヂ?lián)網(wǎng)旅游數(shù)據(jù)為旅游預(yù)測(cè)模型引入了“互聯(lián)網(wǎng)旅游數(shù)據(jù)”外生變量數(shù)據(jù),早期的時(shí)間序列自回歸(AR)模型、天真模型、自回歸滑動(dòng)平均(ARMA)模型、差分整合移動(dòng)平均自回歸(ARIMA)模型、季節(jié)性差分自回歸移動(dòng)平均(SARIMA)模型已成為互聯(lián)網(wǎng)數(shù)據(jù)預(yù)測(cè)游客量的基礎(chǔ)對(duì)比模型。目前,基于互聯(lián)網(wǎng)旅游數(shù)據(jù)的時(shí)間序列模型可分為帶有外生變量的一般時(shí)間序列模型和基于混頻數(shù)據(jù)的時(shí)間序列模型兩類。
帶有外生變量的一般時(shí)間序列模型:考慮到互聯(lián)網(wǎng)旅游數(shù)據(jù)的引入為游客量預(yù)測(cè)帶來了新變量,帶有外生變量的時(shí)間序列模型最早被應(yīng)用于游客量預(yù)測(cè)中,以檢驗(yàn)互聯(lián)網(wǎng)旅游數(shù)據(jù)是否具有預(yù)測(cè)能力。如Choi等[19]采用ARX模型預(yù)測(cè)了美國、加拿大、英國、德國、法國、意大利、澳大利亞、日本和印度9 個(gè)國家到香港的游客量,發(fā)現(xiàn)關(guān)鍵詞“香港”的Google搜索趨勢(shì)與游客量正相關(guān)??紤]到互聯(lián)網(wǎng)多源數(shù)據(jù)對(duì)游客量預(yù)測(cè)的重要價(jià)值,Li 等[3]采用ARMAX 模型對(duì)四姑娘山游客量預(yù)測(cè)時(shí)發(fā)現(xiàn),與基于搜索引擎單一來源大數(shù)據(jù)的游客量預(yù)測(cè)相比,采用搜索引擎和多個(gè)在線評(píng)論平臺(tái)的多源大數(shù)據(jù)對(duì)游客量預(yù)測(cè)具有更好的預(yù)測(cè)性能。在模型預(yù)測(cè)性能方面,Pan[20]發(fā)現(xiàn)ARMAX 模型不僅優(yōu)于ARMA 模型,而且比一般的計(jì)量經(jīng)濟(jì)模型自回歸分布滯后模型(ADL)、時(shí)變參數(shù)(TVP)模型和向量自回歸(VAR)效果都好。由于互聯(lián)網(wǎng)數(shù)據(jù)和游客量呈現(xiàn)非平穩(wěn)的時(shí)間序列特征,建模之前通常采用差分運(yùn)算對(duì)數(shù)據(jù)進(jìn)行平穩(wěn)化處理,通過消除趨勢(shì)項(xiàng)和周期項(xiàng)來建立ARIMAX 模型。如Artola等[21]在預(yù)測(cè)英國、德國和法國到西班牙旅游游客量時(shí)發(fā)現(xiàn),ARIMAX 模型精度明顯提高。此外,考慮到游客量會(huì)因季節(jié)變動(dòng)引起典型淡旺季周期性時(shí)間序列變化,須對(duì)Google 趨勢(shì)或百度指數(shù)提供的互聯(lián)網(wǎng)數(shù)據(jù)和游客量增加擬合時(shí)間序列周期性相關(guān)關(guān)系的差分處理,即構(gòu)建SARIMAX 模型,SARIMAX模型不僅比一般的ARIMA、SARIMA、HW模型泛化能力強(qiáng),且預(yù)測(cè)集的預(yù)測(cè)性能優(yōu)于測(cè)試集的預(yù)測(cè)性能[22,23]。
基于混頻數(shù)據(jù)的改進(jìn)時(shí)間序列模型:宏觀的旅游數(shù)據(jù)通常每月或每季度進(jìn)行采集,而搜索數(shù)據(jù)或評(píng)論數(shù)據(jù)的生成頻率是每天一次或更高頻率。通常情況下,采用互聯(lián)網(wǎng)數(shù)據(jù)開展的游客量預(yù)測(cè)研究面臨多頻率或混合頻率問題。如果使用平均加權(quán)法將所有變量聚合到相同低頻率上,將導(dǎo)致高頻數(shù)據(jù)中可用信息丟失,從而導(dǎo)致無效或有偏差估計(jì)[24]?;祛l數(shù)據(jù)采樣(MIDAS)可通過加權(quán)方案將高頻過程投射到低頻過程中,從而較大程度地保留高頻數(shù)據(jù)信息;與基礎(chǔ)時(shí)間序列模型結(jié)合,可提高預(yù)測(cè)精度。Bangwayo-Skeete等[25]采用周度Google 數(shù)據(jù)預(yù)測(cè)加勒比地區(qū)的月度游客量時(shí),將MIDAS 與AR 的簡(jiǎn)化形式相結(jié)合組成“AR - MIDAS”預(yù)測(cè)方法,通過對(duì)比12 個(gè)月預(yù)測(cè)結(jié)果顯示,多數(shù)情況下AR - MIDAS 模型優(yōu)于SARIMA、AR模型。高頻率搜索數(shù)據(jù)對(duì)景點(diǎn)和目的地規(guī)劃至關(guān)重要,但混頻模型的預(yù)測(cè)精度并不一直表現(xiàn)優(yōu)越。Volchek 等[26]在預(yù)測(cè)倫敦5 家博物館的參觀人數(shù)時(shí)發(fā)現(xiàn),復(fù)活節(jié)假期日期的變化導(dǎo)致了同期入境人數(shù)的顯著波動(dòng),使得SARMX- MIDAS模型的RMSE比季節(jié)性天真模型差。
計(jì)量經(jīng)濟(jì)預(yù)測(cè)模型有助于探索經(jīng)濟(jì)因素與游客量之間的關(guān)系,其重點(diǎn)是建立長(zhǎng)期因果關(guān)系,或確定各種解釋變量對(duì)未來需求的影響程度。計(jì)量經(jīng)濟(jì)模型在游客量預(yù)測(cè)研究和實(shí)踐中發(fā)揮重要作用,目前利用互聯(lián)網(wǎng)旅游數(shù)據(jù)預(yù)測(cè)游客量的計(jì)量經(jīng)濟(jì)模型主要有VAR和ADL模型。
VAR模型是計(jì)量經(jīng)濟(jì)學(xué)中最常用的方法之一,一般不區(qū)分內(nèi)、外生變量,把系統(tǒng)中每一個(gè)內(nèi)生變量作為系統(tǒng)中所有內(nèi)生變量的滯后值的函數(shù)來構(gòu)造模型,通常用于多變量時(shí)間序列系統(tǒng)的預(yù)測(cè)和描述隨機(jī)擾動(dòng)對(duì)變量系統(tǒng)的動(dòng)態(tài)影響[27]。其優(yōu)點(diǎn)是易于估計(jì),能夠較好擬合數(shù)據(jù),靈活性和實(shí)用性強(qiáng),特別適合描述小變量集合的數(shù)據(jù)生成過程,已被用來分析不同語言搜索平臺(tái)數(shù)據(jù)或多類型大數(shù)據(jù)對(duì)游客量的預(yù)測(cè)作用。如,Dergiades 等[28]對(duì)語言偏向和平臺(tái)偏向進(jìn)行定義,對(duì)多語言的源市場(chǎng)及不同的主流搜索引擎平臺(tái)數(shù)據(jù)進(jìn)行聚合,采用VAR 模型對(duì)塞浦路斯月度國際游客量進(jìn)行預(yù)測(cè)發(fā)現(xiàn),經(jīng)過調(diào)整聚合后的數(shù)據(jù)表現(xiàn)出更好的預(yù)測(cè)效果;Liu 等[29]采用VAR模型檢驗(yàn)天氣、溫度、周末和公共假日、網(wǎng)絡(luò)搜索量多類型數(shù)據(jù)與游客量的關(guān)系時(shí)發(fā)現(xiàn),網(wǎng)絡(luò)搜索量與游客量之間存在長(zhǎng)期關(guān)系。根據(jù)不同省市對(duì)天目湖的搜索指數(shù)值,Liu 等[30]采用VAR 中的脈沖相應(yīng)函數(shù)檢驗(yàn)了日游客量與搜索量指數(shù)之間的時(shí)空相關(guān)關(guān)系,發(fā)現(xiàn)日游客量、搜索指標(biāo)與距離成反比關(guān)系,而旅游信息需求與距離成正比。但一般的VAR 模型受參數(shù)估計(jì)多,存在過度參數(shù)化問題。貝葉斯向量自回歸模型(BVAR)是VAR 的一種擴(kuò)展模型,其原則是當(dāng)參數(shù)被斷定在某一值時(shí),使模型參數(shù)趨近于這一取向而不是鎖定確定值,只要有充足的數(shù)據(jù)支持,就可以得到更為精確的估計(jì),降低參數(shù)不確定性并顯 著 增 強(qiáng) 預(yù) 測(cè) 性 能[31]。Gunter 等[32]使 用10 個(gè) 谷歌分析網(wǎng)站流量指標(biāo)(平均會(huì)話持續(xù)時(shí)間、平均頁面時(shí)間、跳出率、新會(huì)話、頁面瀏覽量、返程訪客、社交網(wǎng)絡(luò)推薦、總會(huì)話、獨(dú)特頁面瀏覽量和用戶),采用BVAR、因子增強(qiáng)向量自回歸(FAVAR)和兩者融合的貝葉斯因子增強(qiáng)向量自回歸(BFAVAR)預(yù)測(cè)維也納旅游人數(shù),發(fā)現(xiàn)在短期1—2 個(gè)月內(nèi),單變量基準(zhǔn)MA模型預(yù)測(cè)性能好,而對(duì)于較難的長(zhǎng)期3、6、12 個(gè)月,BFAVAR預(yù)測(cè)性能比基準(zhǔn)模型更優(yōu)越。
ADL模型能解釋游客量與各種影響因素之間的滯后跨期關(guān)系,除了評(píng)估影響因素的滯后影響外,還整合了滯后需求變量的影響,能夠估計(jì)變量之間長(zhǎng)期穩(wěn)定關(guān)系。Huang 等[33]通過構(gòu)建ADL 模型采用百度指數(shù),對(duì)2007 年1 月1 日到2009 年12 月31 的北京故宮的參觀人數(shù)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)百度關(guān)鍵詞指數(shù)與游客數(shù)據(jù)之間存在長(zhǎng)期均衡關(guān)系和格蘭杰因果關(guān)系,關(guān)鍵詞“北京故宮”滯后2 期,“故宮”滯后1期,“故宮門票”當(dāng)期,故宮實(shí)際游客量滯后1 期和2期均對(duì)故宮實(shí)際游客有正向影響,且融合百度指數(shù)的ADL 模型比ARIMA 模型的預(yù)測(cè)精度提高12.4%。但ADL模型并不總是能表現(xiàn)出較好的預(yù)測(cè)性能,?nder[34]在國家或城市的游客量預(yù)測(cè)時(shí)發(fā)現(xiàn),ADL對(duì)城市(維也納)預(yù)測(cè)效果好,但在對(duì)國家(奧地利)的游客量預(yù)測(cè)中HW模型反而效果更好。
雖然時(shí)間序列模型與計(jì)量經(jīng)濟(jì)具有模型簡(jiǎn)單、計(jì)算復(fù)雜度低、處理速度快的優(yōu)點(diǎn),能夠反映互聯(lián)網(wǎng)旅游數(shù)據(jù)與游客量之間的長(zhǎng)期線性關(guān)系,但是存在預(yù)測(cè)精度不高、性能不穩(wěn)定等問題。互聯(lián)網(wǎng)旅游數(shù)據(jù)與實(shí)際游客量數(shù)據(jù)均存在非線性、周期性和自相似性等特點(diǎn),僅采用線性模型較難對(duì)其準(zhǔn)確擬合。因此,非線性機(jī)器學(xué)習(xí)模型逐漸被用于互聯(lián)網(wǎng)旅游數(shù)據(jù)的游客量預(yù)測(cè)中,根據(jù)機(jī)器學(xué)習(xí)模型結(jié)構(gòu)的深度,分為淺層學(xué)習(xí)網(wǎng)絡(luò)和深度學(xué)習(xí)網(wǎng)絡(luò)兩類(圖2)。其中:淺層學(xué)習(xí)網(wǎng)絡(luò)主要包括支持向量回歸(SVR)模型和神經(jīng)網(wǎng)絡(luò)兩類;深層學(xué)習(xí)網(wǎng)絡(luò)主要包括長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和SAEN學(xué)習(xí)網(wǎng)絡(luò)兩類。
SVR是基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,能夠在有限信息的基礎(chǔ)上,對(duì)發(fā)展趨勢(shì)和最優(yōu)解進(jìn)行推廣,該模型適用于分析小樣本和多維化數(shù)據(jù)[35]。基于SVR的旅游預(yù)測(cè)方法研究主要思路是:利用在互聯(lián)網(wǎng)搜索引擎中獲得的搜索數(shù)據(jù)和游客量數(shù)據(jù)訓(xùn)練支持向量模型,并確定模型參數(shù),基于訓(xùn)練后的SVR 模型對(duì)游客量進(jìn)行預(yù)測(cè)。直接采用SVR進(jìn)行預(yù)測(cè)會(huì)遇到3 個(gè)障礙:不恰當(dāng)?shù)哪P妥杂蓞?shù)選擇對(duì)預(yù)測(cè)結(jié)果產(chǎn)生不利影響;核函數(shù)必須滿足Mercer條件;模型訓(xùn)練復(fù)雜,速度慢[36]。①為了解決參數(shù)設(shè)置問題,灰狼算法(GWO)、蝙蝠算法(BA)因具有收斂速度快、易于實(shí)現(xiàn)、結(jié)構(gòu)簡(jiǎn)單、易獲得局部最優(yōu)解和魯棒性能好等優(yōu)點(diǎn),被引入優(yōu)化SVR 模型參數(shù),形成BA- SVR、GWO- SVR 模型預(yù)測(cè)游客量。與基于粒子群算法的SVR、ANN 模型相比,其預(yù)測(cè)精度得到明顯提高。BA - SVR 的預(yù)測(cè)流程如圖3所示[37,38]。②為了克服SVR 模型核函數(shù)的局限性,Tipping 提出相關(guān)向量機(jī)(RVM)對(duì)SVR 進(jìn)行改進(jìn),RVM能夠獲得概率輸出,最大程度地減少核函數(shù)的計(jì)算量,所選核函數(shù)不必滿足Mercer 條件,能較好擬合小樣本非線性數(shù)據(jù)。張斌儒等[39]的研究表明,RVM和SVM在預(yù)測(cè)海南游客量時(shí)表現(xiàn)出優(yōu)異的預(yù)測(cè)性能和良好的泛化能力,但RVM訓(xùn)練過程更為簡(jiǎn)單,在小樣本數(shù)據(jù)集中表現(xiàn)出更強(qiáng)的預(yù)測(cè)能力。③為應(yīng)對(duì)SVR訓(xùn)練速度慢、儲(chǔ)存量大的難題,最小二乘支持向量回歸(LSSVR)將求解二次規(guī)劃問題轉(zhuǎn)化為求解高維空間線性最小二乘問題,簡(jiǎn)化了計(jì)算過程,提高了訓(xùn)練速度。Xie 等[40]采用LSSVR 搜索數(shù)據(jù)與經(jīng)濟(jì)指標(biāo)預(yù)測(cè)郵輪游客量,并引入引力搜索算法(GSA),通過種群的粒子位置移動(dòng)來尋找最優(yōu)解,發(fā)現(xiàn)與傳統(tǒng)模型相比,LSSVR - GSA 具有較高的預(yù)測(cè)精度和泛化能力。
圖3 BA- SVR流程Figure 3 Flow chart of BA- SVR
神經(jīng)網(wǎng)絡(luò)包括BP和極限學(xué)習(xí)機(jī)(ELMs)神經(jīng)網(wǎng)絡(luò)兩類。①BP。由于BP 有非線性映射能力強(qiáng)、網(wǎng)絡(luò)結(jié)構(gòu)柔性大等特點(diǎn),在解決復(fù)雜的非線性預(yù)測(cè)問題具有突出優(yōu)勢(shì),目前已經(jīng)被廣泛應(yīng)用到游客量預(yù)測(cè)中[41]。Hu等[42]基于人工神經(jīng)網(wǎng)絡(luò)(ANN)框架預(yù)測(cè)香港至澳門的短途旅行游客量,將168 個(gè)觀測(cè)數(shù)據(jù)采用BP測(cè)試,實(shí)證結(jié)果表明,具有搜索引擎數(shù)據(jù)BP模型優(yōu)于ARIMA、ADL基準(zhǔn)模型??紤]到搜索引擎數(shù)據(jù)與旅游歷史數(shù)據(jù)受隨機(jī)因素的影響產(chǎn)生噪音,陸利軍等[43]提出了基于網(wǎng)絡(luò)搜索的EMD 去噪與BP 神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)測(cè)方法。具體為:先利用EMD對(duì)原序列進(jìn)行分解,再使用對(duì)BP 神經(jīng)網(wǎng)絡(luò)對(duì)IMF分量進(jìn)擬合,預(yù)測(cè)誤差均顯著低于BP 和Elman神經(jīng)網(wǎng)絡(luò)基準(zhǔn)模型。由于在訓(xùn)練過程中,BP 神經(jīng)網(wǎng)絡(luò)會(huì)面臨陷入局部最優(yōu)、收斂速度慢等問題,通常采用優(yōu)化算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),以提高旅游預(yù)測(cè)的精確性。針對(duì)BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果易受初始連接權(quán)值和閾值的影響,Li 等[44]利用果蠅優(yōu)化算法(FOA)改進(jìn)BP 神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)BP 神經(jīng)網(wǎng)絡(luò)初始連接權(quán)值和閾值的自適應(yīng)最優(yōu)選擇,并采用FOA-BP模型預(yù)測(cè)黃山每日游客量,發(fā)現(xiàn)FOA - BP 比“遺傳算法+BP”和“粒子群算法+BP”表現(xiàn)出更高的預(yù)測(cè)性能。針對(duì)BP 神經(jīng)網(wǎng)絡(luò)的部分重要參數(shù)容易陷入局部最優(yōu)問題,Li 等[10]引入自適應(yīng)差分進(jìn)化算法(ADE)對(duì)BP 神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值進(jìn)行全局優(yōu)化。②ELMs是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò),有著學(xué)習(xí)速度快、泛化能力強(qiáng)等特點(diǎn)。ELMs僅有一個(gè)隱含層,隱含層內(nèi)神經(jīng)元直接決定了預(yù)測(cè)模型的性能。為了避免隱含層神經(jīng)元的數(shù)目選擇問題,Sun 等[45]根據(jù)Mercer條件,選擇用核函數(shù)代替隱藏層的激活函數(shù),輸出權(quán)重更穩(wěn)定,構(gòu)建核極限學(xué)習(xí)機(jī)(KELM)采用百度與Google數(shù)據(jù)預(yù)測(cè)中國熱門旅游目的地游客量,與基準(zhǔn)模型ARIMA、ANN、SVR、LSSVR 相比,KELM模型具有更高的預(yù)測(cè)精度和穩(wěn)健性。與采用BP神經(jīng)網(wǎng)絡(luò)的旅游預(yù)測(cè)相比,KELMs 具有一定的優(yōu)勢(shì):預(yù)測(cè)僅包含一個(gè)隱含層,能夠?qū)崿F(xiàn)快速游客量預(yù)測(cè),減少了模型訓(xùn)練時(shí)間,避免了采用梯度下降、學(xué)習(xí)參數(shù)選擇敏感和易陷入局部極值的問題。
LSTM學(xué)習(xí)網(wǎng)絡(luò)是RNN在隱藏層加入長(zhǎng)短期記憶單元后形成的一種新神經(jīng)網(wǎng)絡(luò)模型,包含遺忘門、輸入門、輸出門3 個(gè)控制門,LSTM 獨(dú)特的門結(jié)構(gòu)能夠在最優(yōu)條件下確定所通過信息特征[46]??紤]日流量預(yù)測(cè)數(shù)據(jù)有非線性,同時(shí)受多個(gè)解釋變量和環(huán)境變化影響,解釋變量與實(shí)際游客量的滯后性3 個(gè)特點(diǎn),傳統(tǒng)的計(jì)量經(jīng)濟(jì)模型不能完全挖掘解釋變量與實(shí)際旅游量之間的復(fù)雜關(guān)系。Bi等[47]將LSTM模型(圖4)應(yīng)用于景點(diǎn)的日流量預(yù)測(cè)中,基于搜索引擎數(shù)據(jù)和天氣數(shù)據(jù)對(duì)九寨溝和黃山兩個(gè)不同景點(diǎn)的日游客量進(jìn)行預(yù)測(cè),預(yù)測(cè)效果明顯優(yōu)于傳統(tǒng)的天真模型、ARIMAX、ANN和SVR模型。在對(duì)海南省游客量預(yù)測(cè)時(shí),Zhang等[48]指出LSTM模型有3 方面的優(yōu)點(diǎn):①額外的存儲(chǔ)單元和特殊的網(wǎng)絡(luò)結(jié)構(gòu)使LSTM能夠在較大的樣本下學(xué)習(xí)客流時(shí)間序列的復(fù)雜動(dòng)態(tài)信息,能夠有效學(xué)習(xí)游客量的特征信息,明顯提高了模型的預(yù)測(cè)能力;②網(wǎng)絡(luò)搜索指標(biāo)的引入使得LSTM模型更好地?cái)M合了旅游飯店的過夜客流動(dòng)態(tài),顯著提高了LSTM網(wǎng)絡(luò)的預(yù)測(cè)性能;③優(yōu)化算法的不同和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的特殊使得LSTM 的學(xué)習(xí)能力和預(yù)測(cè)能力明顯高于BP 神經(jīng)網(wǎng)絡(luò)。雖然LSTM 能在一定程度上解決梯度消失和預(yù)先人工設(shè)定閾值問題,但是當(dāng)序列超過一定限制后,梯度還是會(huì)出現(xiàn)消失現(xiàn)象。
圖4 日游客量預(yù)測(cè)的LSTM結(jié)構(gòu)Figure 4 The LSTM architecture for daily tourist volume prediction
SAEN是一種組合堆疊自編碼神經(jīng)網(wǎng)絡(luò)(SAE)和回聲狀態(tài)網(wǎng)絡(luò)(ESN)的網(wǎng)絡(luò)集成預(yù)測(cè)模型,利用SAE提取高維、非線性、動(dòng)態(tài)變化的網(wǎng)絡(luò)搜索指數(shù)特征,再結(jié)合ESN對(duì)網(wǎng)絡(luò)搜索指數(shù)特征和游客量進(jìn)行建模,提升預(yù)測(cè)模型效能。Lü 等[49]采用SAEN 模型預(yù)測(cè)了美國到加拿大的月度出境游客量、國外到北京旅游的月度入境游客量、國內(nèi)到海南的月度游客量、國內(nèi)到九寨溝的周游客量4 個(gè)案例,發(fā)現(xiàn)與傳統(tǒng)統(tǒng)計(jì)方法和淺層機(jī)器學(xué)習(xí)方法相比,SAEN具有良好的時(shí)序擬合能力,預(yù)測(cè)準(zhǔn)確度提升了40%。預(yù)測(cè)體系結(jié)構(gòu)如圖5 所示。與采用梯度下降算法的LSTM相比,SAEN采用最小二乘擬合法訓(xùn)練,具有計(jì)算速度快,節(jié)省計(jì)算成本的優(yōu)勢(shì),但也會(huì)面臨兩個(gè)問題:初始參數(shù)的隨機(jī)設(shè)置,可能導(dǎo)致SAEN 網(wǎng)絡(luò)不穩(wěn)定;SAEN運(yùn)用最小二乘法一次性擬合訓(xùn)練數(shù)據(jù),如果網(wǎng)絡(luò)內(nèi)部?jī)?chǔ)備池不具備相當(dāng)規(guī)模的神經(jīng)元,可能會(huì)導(dǎo)致未知數(shù)據(jù)的過度擬合。
圖5 SAEN游客量預(yù)測(cè)體系結(jié)構(gòu)Figure 5 SAEN tourist volume prediction architecture
在游客量預(yù)測(cè)中,不同模型對(duì)游客量長(zhǎng)短期預(yù)測(cè)精度是不同的[26,50,51],沒有一種模型在任何情況下都優(yōu)于其他模型。由于旅游數(shù)據(jù)具有線性和非線性特征,采用線性和非線性組合模型預(yù)測(cè)游客量,可兼顧各模型的優(yōu)勢(shì),提高預(yù)測(cè)精度。目前,采用線性和非線性組合模型預(yù)測(cè)的研究主要有兩類:①采用線性或非線性模型擬合原預(yù)測(cè)模型殘差的組合模型。如Wen等[52]將ARIMAX 模型的殘差和前一步預(yù)測(cè)結(jié)果作為非線性自回歸與外生變量(NARX)模型的輸入,預(yù)測(cè)我國31 個(gè)省份到香港特區(qū)游客量,與基礎(chǔ)模型相比,具有較強(qiáng)魯棒性與泛化能力。Yao等[53]在預(yù)測(cè)九寨溝游客量時(shí),首先引入自適應(yīng)粒子群算法(APSO)自動(dòng)更新權(quán)值,克服了粒子群算法的振蕩和早期收斂問題,對(duì)SVR 的參數(shù)進(jìn)行優(yōu)化,再采用ARIMA模型擬合SVR 模型預(yù)測(cè)的殘差時(shí)間序列,構(gòu)建的SVR-ARIMA 模型取得了較好的預(yù)測(cè)效果。②對(duì)不同頻數(shù)據(jù)采用線性和非線性模型組合預(yù)測(cè)。如李曉炫等[8]、陸利軍[54]考慮網(wǎng)絡(luò)搜索數(shù)據(jù)與旅游歷史數(shù)據(jù)易受隨機(jī)因素的影響產(chǎn)生噪音,提出了基于網(wǎng)絡(luò)搜索的EMD去噪與BP神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)測(cè)方法,具體為:先利用EMD 將高頻噪聲從原序列中分離,再對(duì)低頻和高頻數(shù)據(jù)分別采用計(jì)量回歸和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,預(yù)測(cè)誤差均顯著低于基準(zhǔn)模型。
為了推進(jìn)旅游產(chǎn)業(yè)穩(wěn)定可持續(xù)化發(fā)展,旅游管理部門應(yīng)更加重視科學(xué)優(yōu)化配置旅游資源,推動(dòng)互聯(lián)網(wǎng)旅游數(shù)據(jù)在游客量預(yù)測(cè)的快速發(fā)展和應(yīng)用。本文在對(duì)互聯(lián)網(wǎng)旅游數(shù)據(jù)的游客量預(yù)測(cè)方法研究現(xiàn)狀和存在不足進(jìn)行綜述的基礎(chǔ)上,提出未來應(yīng)重點(diǎn)關(guān)注以下4 個(gè)研究方向:①智能化提取預(yù)測(cè)能力搜索關(guān)鍵詞的研究。準(zhǔn)確預(yù)測(cè)游客量的前提是從海量的互聯(lián)網(wǎng)旅游數(shù)據(jù)中盡可能多地提取有效信息。對(duì)復(fù)雜多變的互聯(lián)網(wǎng)旅游數(shù)據(jù)而言,僅依靠手動(dòng)提取出具有預(yù)測(cè)能力搜索關(guān)鍵詞的方法,存在工作量大、噪聲干擾等問題。深度學(xué)習(xí)能在一定程度上克服此類問題,如DBN 和CNN 均具有在多引擎數(shù)據(jù)中智能化提取預(yù)測(cè)關(guān)鍵詞的能力,可降低搜索引擎數(shù)據(jù)的噪聲和無關(guān)信息,但有關(guān)智能化提取關(guān)鍵詞的研究仍較少,有待進(jìn)一步深入研究。②非結(jié)構(gòu)化社交媒體數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化時(shí)間序列數(shù)據(jù)的方法研究。在進(jìn)行旅游預(yù)測(cè)時(shí),需將社交媒體數(shù)據(jù)中出現(xiàn)的文本、圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化時(shí)間序列數(shù)據(jù)。現(xiàn)有采用自然語言處理、文本挖掘、深度學(xué)習(xí)和情感分析處理的方法已經(jīng)在文本數(shù)據(jù)對(duì)目的地形象感知的研究得到廣泛應(yīng)用,后續(xù)研究中,經(jīng)自然語言處理、文本挖掘等方法處理后的非結(jié)構(gòu)化文本數(shù)據(jù)是否具有預(yù)測(cè)游客量的能力,以及圖像和視頻數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換方法研究也應(yīng)得到重點(diǎn)關(guān)注。③融合互聯(lián)網(wǎng)多源大數(shù)據(jù)預(yù)測(cè)游客量研究。搜索引擎數(shù)據(jù)蘊(yùn)含有反映預(yù)測(cè)游客量的重要信息,在基于互聯(lián)網(wǎng)數(shù)據(jù)的游客量預(yù)測(cè)研究領(lǐng)域有一定的普適性,但無法得到游客的情緒指標(biāo)因素,難以應(yīng)用于旅游目的地資源配置實(shí)踐中;社交媒體數(shù)據(jù)可采用文本分析的相關(guān)方法構(gòu)建游客情緒指標(biāo),但社交媒體數(shù)據(jù)獲取較復(fù)雜,且預(yù)測(cè)精度受所選非結(jié)構(gòu)化數(shù)據(jù)處理方法影響較大。雖然已有文獻(xiàn)[3]綜合搜索引擎數(shù)據(jù)與社交媒體結(jié)構(gòu)化數(shù)據(jù)開展了游客量預(yù)測(cè)研究,但是由于沒有充分分析社交媒體中非結(jié)構(gòu)化數(shù)據(jù)的影響,難以全面反映游客偏好。在后續(xù)研究中,需要考慮將互聯(lián)網(wǎng)多源大數(shù)據(jù)納入游客量預(yù)測(cè)模型中,研究多類型、多特征數(shù)據(jù)的組合預(yù)測(cè)模型,以獲取更準(zhǔn)確的預(yù)測(cè)結(jié)果。④高維非線性混頻數(shù)據(jù)的處理方法研究。互聯(lián)網(wǎng)旅游數(shù)據(jù)呈現(xiàn)出高頻性、高維化、非線性三大主要特征,在對(duì)游客量預(yù)測(cè)過程中,既要充分保留高頻數(shù)據(jù)信息,又要從高維變量中剔除噪音數(shù)據(jù)、識(shí)別重要預(yù)測(cè)數(shù)據(jù),同時(shí)對(duì)變量間的潛在非線性關(guān)系進(jìn)行識(shí)別與探究。雖然基于高維非線性混頻數(shù)據(jù)游客量預(yù)測(cè)研究方法還較少見,但是在經(jīng)濟(jì)金融領(lǐng)域已經(jīng)開展了研究。綜合混頻數(shù)據(jù)分析方法、高維變量選擇方法和機(jī)器學(xué)習(xí)方法開展游客量預(yù)測(cè)更加符合實(shí)際,有待進(jìn)一步深入研究。