劉 燕
(西安歐亞學院,陜西 西安 710065)
隨著互聯(lián)網及通信技術的不斷發(fā)展,旅游信息處理和交易的方式已從傳統(tǒng)面對面轉變成電子方式,因此留下了大量與旅游有關的電子痕跡[1]。這些電子痕跡包括種類繁多、數(shù)量龐大的旅游信息,如出行前的規(guī)劃和信息搜索、預訂,和預訂、出行后的體驗分享與推薦,以及照片上傳和其他社交媒體互動活動。這些大型的、非結構化的、復雜的電子痕跡構成旅游大數(shù)據(jù),可對其進行整合和分析,以揭示旅游領域中隱藏的模式、相互關系等[2]。
為此,國內外眾多學者對旅游大數(shù)據(jù)進行研究,并取得了豐碩的研究成果。劉逸等[3]利用大數(shù)據(jù)分析揭示了旅游目的地情感評價模型;張建濤等[4]構建以大數(shù)據(jù)平臺為依托的智慧旅游預測與反饋的服務平臺,并提出了實現(xiàn)智慧旅游服務平臺的構建模式與路徑。大數(shù)據(jù)分析也被用來預測游客流量。戴文[5]以南京智慧旅游大數(shù)據(jù)運行監(jiān)測平臺為基礎,構建了南京市旅游流量預測模型。Gunter和Onder測試了維也納旅游目的地管理組織(DMO)谷歌分析公司(Google Analytics)的10個交通指標,通過應用自回歸模型(Vector Autoregressive,VAR)建模的大數(shù)據(jù)收縮方法預測維也納的游客數(shù)量。
上述方法很少有對旅游大數(shù)據(jù)進行形式化定義,且沒有對旅游大數(shù)據(jù)中涉及要素之間的關系進行探討。為此,本文首先定義旅游大數(shù)據(jù)五維范式模型,并對旅游大數(shù)據(jù)中天氣、溫度、周末和公共假期與目的地游客到達量和目的地搜索熱度的相關性進行研究,利用VAR和Granger因果檢驗探索目的地實際到達人數(shù)與其搜索熱度之間的關系。
一般情況下,大數(shù)據(jù)可描述為一個五維范式,即
Bd=[Vnum,Vvar,Vsp,Vper,Vval]
(1)
式中:Vnum描述數(shù)據(jù)量,代表海量的數(shù)據(jù);Vvar描述數(shù)據(jù)類型,代表來自不同來源、具有異構格式的各種數(shù)據(jù);Vsp描述速度,指以采集速度實時或接近實時的數(shù)據(jù)處理;Vper描述準確性,指數(shù)據(jù)中存在的不確定性、噪聲和異常值;Vval描述價值,反映了統(tǒng)計和分析方法揭示的信息,包括直接價值或隱藏價值。因此,如果只談論數(shù)據(jù)量,“大數(shù)據(jù)”一詞的定義仍然不明確。重要的不是大量的數(shù)據(jù),而是從中提取隱藏的信息,使之有意義并探索其價值。
圖1為本文研究的旅游大數(shù)據(jù)包含的數(shù)據(jù)源,具體有票價信息、天氣、溫度、周末、公共節(jié)假日和搜索熱度6個部分。隨著時間的推移,每天的票價、天氣、溫度、周末和公共假期的數(shù)據(jù)量越來越大,同時龐大的搜索熱度量由無數(shù)的出行信息數(shù)據(jù)(痕跡)組成,這些構成了旅游大數(shù)據(jù)的Vnum。旅游大數(shù)據(jù)的Vvar包括傳統(tǒng)的結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),其中每日票價是傳統(tǒng)數(shù)據(jù);天氣、溫度、日歷信息(周末和公共假日)是半結構化數(shù)據(jù);基于網絡的搜索查詢(如文本、圖像和視頻等)是非結構化數(shù)據(jù)。速度Vsp和準確性Vper可以通過數(shù)據(jù)捕獲、存儲和轉換過程來體現(xiàn),而價值Vval則通過數(shù)據(jù)分析來揭示隱藏信息。
圖1 旅游大數(shù)據(jù)包含的數(shù)據(jù)源Fig.1 Data sources included in tourism big data
1.2.1變量
令旅游景點每天的售票量為自變量y1,將該景點每天的搜索熱度量設為自變量y2。將每日天氣設為因變量x1,每日溫度設為因變量x2,周末設為因變量x3,公共假日設為因變量x4。同時x1,x2,x3,x4都為外生變量。值得注意的是,評估VAR(p)模型時存在一個現(xiàn)實性問題:盡管希望包含盡可能多的信息,但當引入變量增多時,自由度將會無法滿足要求。
1.2.2虛擬變量
由于每日溫度因變量x2是數(shù)值數(shù)據(jù),本文將每日天氣x1、周末x3和公共假日x4這些非數(shù)值數(shù)據(jù)設置為虛擬變量,如表1所示。在x1中,0代表良好天氣,1代表惡劣天氣,其中晴天、多云為良好天氣;小雨、陣雨、雷雨、小雪、霜凍、冰凍、大雪等為惡劣天氣;在x3中,0代表星期一至星期五的工作日,而1代表星期六至星期天的周末。在x4中,0表示非假日,1表示公共假日。
表1 虛擬變量Tab.1 Dummy variable
在建模之前應對數(shù)據(jù)進行檢查,避免因數(shù)據(jù)的不平穩(wěn)或不均衡造成預測結果不準確。為此,本節(jié)采用單位根檢驗法的擴張的Dickey-Fuller檢驗(Augmented Dickey-Fuller,ADF)進行時間趨勢平穩(wěn)性檢驗。ADF檢驗[7]原理為判斷序列是否存在單位根:如果序列平穩(wěn),就不存在單位根;否則,就會存在單位根。
傳統(tǒng)的VAR模型是針對沒有時間趨勢的平穩(wěn)變量設計的,因此非平穩(wěn)變量不能通過單位根檢驗,故需要對非平穩(wěn)變量進行反趨勢處理。最經典的去趨勢處理方法為Hodrick-Prescott濾波(HP濾波),可使結果不因時間趨勢的存在而產生偏誤。
一般情況下,HP濾波可理解為提取趨勢變量z=[z1,z2,…,zT],根據(jù)觀察到的時間序列o=[o1,o2,…,oT],求解以下懲罰最小二乘問題:
=(IT+λD′D)-1o
(2)
Δ2zt=Δzt-Δ=zt-2+zt-2
(3)
式中:λ>0為調節(jié)參數(shù);IT為大小為T的單位矩陣;D∈R(T-2)×T為二階差分方程,有Dz∈[Δ2z3,…,Δ2zT]′。
向量自回歸模型[8](Vector Autoregressive,VAR)可理解為一個系統(tǒng)方程,其中多個變量被視為內生變量,變量的值根據(jù)系統(tǒng)中滯后的因變量進行回歸。一般情況下,VAR模型為,
(4)
式中:p是VAR的滯后長度;yt是am向量時間序列的自變量;m是因變量的數(shù)量;Yt-j是系統(tǒng)的滯后自變量;k是預定變量的數(shù)量;Xt是k個向量的時間序列。
在構建VAR(p)模型時,選擇滯后長度是其中最為關鍵的步驟。一方面,較大的滯后長度值將更好地動態(tài)反映模型的特征;另一方面,更大的p值將為模型引入更多的參數(shù)。如果一個VAR模型有m個方程,則將有m+pm2個系數(shù)被估計,并且一個無限制的VAR模型很可能是過度參數(shù)化的,且自由度較低。因此,可以使用Akaike信息準則(AIC)或Schwarz準則(SC)來識別和選擇合適的p值。
Granger因果關系[9]可以用來測試一個變量的所有滯后項是否對另一個變量的當前值有影響。如果影響顯著,則變量與其他變量之間具有Granger因果關系;如果影響不顯著,則變量之間不存在因果關系。格蘭杰因果關系的存在表明了變量之間的預測能力。本研究中有兩個自變量:每日售出票價y1和每日搜索熱度y2。因此,為了探索y1和y2之間的Granger因果關系,應建立如下兩個零假設:
為了探討本文所提票價信息、天氣、溫度、周末、公共節(jié)假日和搜索熱度6個變量之間的復雜關系,本節(jié)以旅游城市重慶為案例驗證所提方法的有效性。需注意,本文中所有涉及的數(shù)據(jù)均來自于網絡爬蟲。
圖2、圖3為利用網絡爬蟲技術搜集的重慶市2019年度溫度及天氣情況。圖4、圖5分別為重慶市著名旅游景點票價及熱度分布情況。
圖2 重慶市2019年溫度曲線Fig.2 Temperature curve of Chongqing in 2019
接下來,利用ADF方法對各數(shù)據(jù)進行單位根檢驗,檢驗結果如表2所示。其中非平穩(wěn)變量y1、y2和x2利用反趨勢處理,并顯示為y1_bias、y2_bias和x2_bias。虛擬變量不必通過單位根檢驗。可以看出3個變量的時間序列在1%顯著水平上都是平穩(wěn)的,因此其都通過了單位根檢驗。
利用向量自回歸模型及Granger因果檢驗對數(shù)據(jù)進行分析。結果表明,當概率水平為0.005時,y1和y2之間存在Granger因果關系(表3)。
圖3 重慶市2019年天氣狀況Fig.3 Weather conditions of Chongqing in 2019
圖4 重慶市著名旅游景點票價分布Fig.4 Ticket price distribution of famous tourist attractions
圖5 重慶市景點搜索熱度分布情況Fig.5 Search heat distribution of tourist attractions
研究結果表明,y1和y2之間存在Granger因果關系;天氣與旅游地實際到訪人數(shù)無關;溫度與實際到訪人數(shù)無相關,但與網絡熱度呈顯著正相關;周末與實際到訪人數(shù)呈顯著正相關,與搜索熱度呈顯著負相關;公共假日與實際到達人數(shù)顯著正相關。
表2 虛擬變量Tab.2 Dummy variable
表3 虛擬變量Tab.3 Dummy variable
本文研究了旅游大數(shù)據(jù)的五維范式,并提出利用ADF法對數(shù)據(jù)進行時間趨勢平穩(wěn)性檢驗。最后,建立向量自回歸模型探索票價信息、天氣、溫度、周末、公共節(jié)假日和搜索熱度6個變量之間的復雜關系。