胡 祺,吳 升
(福州大學(xué) 數(shù)字中國研究院(福建),福州 350108)
旅游是促進(jìn)經(jīng)濟(jì)發(fā)展、增加就業(yè)、滿足人民群眾美好生活愿望的有效手段,旅游業(yè)是當(dāng)前社會投資熱點(diǎn)和綜合性大產(chǎn)業(yè)。旅游流是旅游業(yè)發(fā)展的基礎(chǔ),正確理解旅游流流量、流向連接模式對政府部門和企業(yè)的決策者都具有至關(guān)重要的意義。同時(shí),旅游流還是旅游者時(shí)空行為的空間表征,對旅游流進(jìn)行研究有助于揭示游客的時(shí)空活動規(guī)律,能為旅游空間組織結(jié)構(gòu)優(yōu)化提供支持,一直以來也已成為旅游地理學(xué)研究的核心問題。
旅游流有狹義和廣義之分。其中,狹義的旅游流僅指旅游客流,廣義的旅游流除旅游流外,還包括信息流、物流等,本文所指為狹義旅游流。既有旅游流研究已具備了豐富的理論基礎(chǔ)和方法支持,研究內(nèi)容包括時(shí)空特征、空間結(jié)構(gòu)、影響因素等方面,研究方法包括網(wǎng)絡(luò)分析法、GIS空間分析、場強(qiáng)模型、重心模型、耦合模型。在研究數(shù)據(jù)方面,多數(shù)傳統(tǒng)的旅游流研究數(shù)據(jù)多來源于統(tǒng)計(jì)年鑒、問卷調(diào)查等,統(tǒng)計(jì)數(shù)據(jù)存在口徑單一、數(shù)據(jù)滯后的缺陷;抽樣調(diào)查數(shù)據(jù)往往受制于特定的時(shí)間和地點(diǎn),樣本容量有限,而準(zhǔn)確、有效的數(shù)據(jù)是進(jìn)行旅游流研究的關(guān)鍵。互聯(lián)網(wǎng)技術(shù)快速發(fā)展,并在數(shù)據(jù)挖掘技術(shù)的支持下,基于位置的互聯(lián)網(wǎng)數(shù)據(jù)逐漸成為了大數(shù)據(jù)時(shí)代旅游流研究的數(shù)據(jù)基礎(chǔ),能夠彌補(bǔ)傳統(tǒng)問卷調(diào)查受樣本限制的弊端。有學(xué)者利用遷徙數(shù)據(jù)、搜索指數(shù)、網(wǎng)絡(luò)關(guān)注度、微博簽到等數(shù)據(jù)開展了旅游流研究,這些數(shù)據(jù)雖然記錄了出行人群軌跡,但是出行人群大多數(shù)并非是旅游者,旅游者出行和其他出行人群由于出行需求存在差異,旅游流特征也會存在差異。網(wǎng)絡(luò)游記數(shù)據(jù)為旅游流研究提供了新的視角,多數(shù)游記數(shù)據(jù)記錄的出行行為是游客在旅游行為下的有意分享,其出行時(shí)間、路線是旅游人群的時(shí)間、空間行為,能夠挖掘出與其他數(shù)據(jù)源不同的特征。目前,已有不少學(xué)者利用網(wǎng)絡(luò)游記數(shù)據(jù)研究旅游流時(shí)空特征,認(rèn)為使用網(wǎng)絡(luò)游記文本是一種科學(xué)、有效的數(shù)據(jù)源。
目前的研究多是關(guān)注于特定區(qū)域的旅游流,如景點(diǎn)、市、城市群。隨著社會經(jīng)濟(jì)和高速交通的快速發(fā)展,游客跨市流動逐漸呈現(xiàn)規(guī)?;?、常態(tài)化、動態(tài)化和復(fù)雜化特征,因此研究大尺度下游客城際流動特征顯得更有價(jià)值。基于此,本文使用網(wǎng)絡(luò)游記數(shù)據(jù),結(jié)合統(tǒng)計(jì)分析、經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)、旅游流空間使用曲線等方法研究旅游流時(shí)間、空間特征,以探究游客時(shí)空行為規(guī)律,可為旅游產(chǎn)品精準(zhǔn)營銷提供科學(xué)參考,也有助于豐富旅游流的理論和實(shí)踐研究。
馬蜂窩旅游(https://www.mafengwo.cn/)是目前國內(nèi)用戶量較大的在線預(yù)訂和游客分享網(wǎng)站,并已成為大數(shù)據(jù)時(shí)代旅游地理學(xué)研究重要的數(shù)據(jù)源之一。馬蜂窩游記數(shù)據(jù)蘊(yùn)含了用戶現(xiàn)居地、目的地及出行時(shí)間信息,可用于重構(gòu)用戶的出行時(shí)空軌跡。
馬蜂窩網(wǎng)站的游記數(shù)據(jù)具有一定復(fù)雜性,需要用合理的數(shù)據(jù)獲取策略避免數(shù)據(jù)在時(shí)間或空間上較大偏向性。步驟大致如下:
(1)進(jìn)入所有熱門目的地的游記頁面,獲取所有游記作者的用戶主頁鏈接,并做去重處理。
(2)進(jìn)入所有用戶主頁,獲取該用戶的所有游記。
為滿足研究需要,需要解決原始數(shù)據(jù)本身的復(fù)雜性和不規(guī)則性,還需對數(shù)據(jù)進(jìn)行處理。首先進(jìn)行數(shù)據(jù)清洗,具體表述如下:
(1)刪除沒有出行時(shí)間標(biāo)記、用戶居住地信息的游記。
(2)刪除沒有目的地標(biāo)記,同時(shí)無法根據(jù)內(nèi)容識別目的地的游記。
(3)刪除發(fā)表時(shí)間在出發(fā)時(shí)間之前的數(shù)據(jù)。
清洗后的數(shù)據(jù),還需要做進(jìn)一步處理:
(1)數(shù)據(jù)位置標(biāo)識的空間尺度不一致,如有些數(shù)據(jù)的用戶現(xiàn)居地、目的地精確到市,有的數(shù)據(jù)精確到縣。本文研究目標(biāo)要求用戶現(xiàn)居地必須統(tǒng)一為地級市尺度,因此使用高德地理編碼API 解析游記用戶的現(xiàn)居地、目的地,提取API 返回參數(shù)中的省、市值,從而統(tǒng)一了數(shù)據(jù)的空間尺度。
(2)一部分游客不會標(biāo)注游記的目的地,但是可以通過游記內(nèi)容解析出目的地。首先使用HanLP工具的命名實(shí)體識別功能提取出文中的所有地名,再使用高德地理編碼API 查詢每個(gè)地名的所在省、市,選擇出現(xiàn)頻率最高的省、市作為本篇游記的目的地。最終篩選得到了出發(fā)時(shí)間在2016~2020 年的43014名游記用戶的137549 篇有效的網(wǎng)絡(luò)游記,每篇游記包含游客現(xiàn)居地、目的地城市、出行時(shí)間信息。
圖1 描述了該份游記數(shù)據(jù)和國家統(tǒng)計(jì)局發(fā)布的2016~2020 年出行游客數(shù)量年度變化趨勢。兩者變化趨勢一致,從2016~2019 年,游記數(shù)量持續(xù)增長,2019~2020 年急劇下降;相關(guān)系數(shù)為0.666398,說明該份游記數(shù)據(jù)集的年度特征具有代表性。
圖1 數(shù)據(jù)年度變化特征Fig.1 Characteristics of annual changes in data
圖2 展示了數(shù)據(jù)的月度變化趨勢,自4 月起進(jìn)入旅游旺季,出行量整體上開始呈現(xiàn)上升趨勢,一直持續(xù)到10 月份;自11 月起出行流量開始呈現(xiàn)下降趨勢,一直持續(xù)到次年3 月,其中在春節(jié)期間會出現(xiàn)一次高峰。下半年總體比上半年的出行頻率更高。該特征同多數(shù)特定城市旅游流量時(shí)間特征一致,說明該數(shù)據(jù)的月度特征具有代表性。
圖2 數(shù)據(jù)月度變化特征Fig.2 Characteristics of monthly changes in data
根據(jù)每篇游記的出行時(shí)間,分析2016~2020 年時(shí)段內(nèi)旅游流時(shí)間變化,如圖3 所示。游客出行頻率隨時(shí)間呈現(xiàn)“峰林結(jié)構(gòu)”。元旦、春節(jié)、清明節(jié)、勞動節(jié)、端午節(jié)、中秋節(jié)、國慶節(jié)時(shí)段均產(chǎn)生一次旅游流高峰,其余高峰時(shí)段出現(xiàn)在周末,峰值點(diǎn)基本為假期第一天,工作日基本為低谷,節(jié)假日、周末和工作日的循環(huán)形成了“峰谷”往復(fù)的周期性峰林曲線。
圖3 2016~2020 年出行量分布Fig.3 Distribution of travel volume in 2016~2020
由圖3 可知,2019 年、2020 年的峰林結(jié)構(gòu)特征與往年的差異明顯。2019 年下半年的旅游出行頻率整體比上半年較低,十一期間的出行頻率比五一期間更小,這一特征與往年截然相反。其中原因是,自2019 年7 月開始,文化和旅游部開展了全國文化和旅游市場整治行動,多個(gè)旅游景區(qū)受到關(guān)閉、審查等處理,影響了多個(gè)地區(qū)的游旅游流量。
2020 年的春節(jié)都沒有出現(xiàn)與往年類似的出行高峰,這是由于為應(yīng)對新冠疫情的傳播,各地區(qū)采取了嚴(yán)格的出行管控措施,因此對2、3 月的旅游流造成了巨大影響;一直持續(xù)至各地區(qū)逐漸解除封鎖,之后的節(jié)假日繼續(xù)出現(xiàn)與往年類似的旅游流出行特征。同時(shí)注意到,2020 年的7、8 月出現(xiàn)了多次出行高峰,整體出行量較高,與往年相比出行量更大,旅游流量峰值在時(shí)間上呈現(xiàn)后移??梢钥闯?,2020 年上半年旅游流受到新冠疫情的影響最大,但是游客潛在的出行意愿不變,暑期疫情有所緩解后導(dǎo)致游客“補(bǔ)充”出行。
為了發(fā)現(xiàn)旅游流量常態(tài)化的波動特征,且考慮到2020 年旅游市場的特殊性,選擇2016~2019 年作為常規(guī)年份,利用經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)分解其月度波動特征,得到了信號分量以及趨勢項(xiàng),各分量具有相似的頻率。各分量的周期表示該分量波動平均周期,方差貢獻(xiàn)率表示該分量對于總體的重要程度。2016~2019 年旅游流量月度波動分解如圖4 所示,2016~2019 年月度流量分解后各分量周期及方差貢獻(xiàn)率見表1。圖4 中,、的平均周期分別為3 個(gè)月、6.86 個(gè)月,對應(yīng)的方差貢獻(xiàn)率分別為9.56%和18.46%。兩分量代表了旅游流量的季節(jié)尺度的周期特征,對旅游流波動特征的方差貢獻(xiàn)率達(dá)到了28.02%;分量的平均周期為16 個(gè)月,代表了年度尺度的周期特征,但是方差貢獻(xiàn)率僅為1.43%;趨勢項(xiàng)的方差貢獻(xiàn)率占據(jù)大部分比例,其數(shù)值為70.55%。因此可以歸納為,季度尺度波動對整體波動的貢獻(xiàn)最大,年度尺度對整體波動貢獻(xiàn)最小,并且旅游流量的整體趨勢呈現(xiàn)明顯的上升特征。
圖4 2016~2019 年旅游流量月度波動分解Fig.4 Decomposition of monthly fluctuation of tourism flows from 2016 to 2019
表1 2016~2019 年月度流量分解后各分量周期及方差貢獻(xiàn)率Tab.1 Each component period and the contribution rate of variance after the decomposition of monthly tourism flows in 2016~2019
2016~2020 年出行距離變化如圖5 所示。通過分析2016~2020 年游記用戶的日均出行距離可知,日均出行距離變化同樣呈現(xiàn)“峰林結(jié)構(gòu)”。節(jié)假日大多位于出行距離的低點(diǎn),而工作日的出行距離多在低點(diǎn)以上,節(jié)假日期間的日均出行距離明顯高于工作日,這一現(xiàn)象與兩時(shí)段的主要出行游客群體或出行目的有關(guān)。游客群體主要分為上班族和自由工作者兩類,節(jié)假日出行的游客多數(shù)為上班族,這些游客中的大多數(shù)在出行時(shí)間的限制下,只能選擇較近的出行目的地;工作日出行的游客多數(shù)為自由工作者,這些游客中多數(shù)沒有出行的距離成本和時(shí)間成本約束,因此出行距離較長。
圖5 2016~2020 年出行距離變化Fig.5 Changes in travel distance from 2016 to 2020
3.2.1 旅游流空間使用曲線
以游客所在城市到目的地所在城市的空間距離為橫坐標(biāo),以相應(yīng)距離的游記樣本占總數(shù)的比例為縱坐標(biāo),以50 km 為統(tǒng)計(jì)窗口,繪制2016~2020 年旅游流空間使用曲線見圖6??傮w上,隨距離增加,旅游流占比具有明顯的衰減特征,衰減過程呈波動性。2016~2019 年的波動情況基本相似:0 km~450 km 左右快速下降,450 km 起下降速度放緩,大約在1100 km 處出現(xiàn)一次跳躍式上升,大約在1200 km處達(dá)到頂峰,此后旅游流占比隨距離變化將進(jìn)一步加速下降??梢姡臻g距離對游客出行產(chǎn)生制約,短距離出行游客最多。
圖6 空間距離使用曲線Fig.6 Spatial distance drawing curve
2020 年與2016~2019 年出行距離變化趨勢大體相同,但是存在部分差異:2020 年的短距離旅游流占比更高,在衰減過程中,1100 km 也出現(xiàn)了一次上升,與往年一致,但是上升幅度比往年更小,約在1200 km處的頂峰位置遠(yuǎn)未達(dá)到往年類似水平。說明了疫情使得人們的旅游出行距離大大縮短,加大了短距離出行的比重,遠(yuǎn)距離出行有所減弱。
3.2.2 出行距離衰減特征
為了量化旅游流隨距離的衰減特征,對旅游流距離分布使用冪律函數(shù)進(jìn)行擬合。表2 展示了冪律函數(shù)對旅游流距離分布曲線的擬合情況。由表2 可知,的值均接近1,說明冪律函數(shù)對旅游流的距離衰減特征都具有較好的擬合效果。表示擬合曲線與縱軸的理論交點(diǎn)位置,表示曲線的下降速度。2016~2019 年和的值基本呈線性增加,由于游記用戶數(shù)量逐年增加,且多數(shù)游客以短距離出行為主,因此的值穩(wěn)定增加;同時(shí),長距離出行增加量小于短距離出行增加量,導(dǎo)致曲線的“頭部”更高、“尾部”更低,因此值穩(wěn)定增加。2020 年的曲線、值相比往年均為突變式增長,說明了2020 年新冠疫情導(dǎo)致了游客總體出行空間距離更短,旅游流隨距離衰減速度更快,長距離出行比往年更少。
表2 2016~2020 年旅游流距離分布曲線的擬合結(jié)果Tab.2 Fitting results of the distance distribution curve of tourist flows from 2016 to 2020
為了發(fā)現(xiàn)旅游流的季節(jié)變化規(guī)律,將2016~2019 年旅游流按季度分類,并對各季度的相對流入量采用相同的劃分標(biāo)準(zhǔn)??紤]到2020 年是特殊年份,可能與往年會有不同的規(guī)律,另作分析。分析發(fā)現(xiàn)4 個(gè)季度的旅游流空間分布差異顯著,具體如下:
(1)一季度為旅游淡季,流入量低值區(qū)域較多,西部地區(qū)城市基本位于低值區(qū)域,熱點(diǎn)區(qū)域集中在國內(nèi)主要旅游城市,如北京、廣州、成都、上海、昆明等,流入量的空間差異明顯。
(2)二季度步入4 月,天氣回暖,游客出行意愿升高。多數(shù)低值區(qū)域的流入量開始增多,許多城市逐漸脫離低值區(qū)域,如西部地區(qū)新疆伊犁、新疆阿里地區(qū)、甘肅酒泉等,流入量的空間差異性開始減弱。
(3)三季度進(jìn)入暑期,是國內(nèi)旅游的高峰期間,出行游客最多,流入量低值區(qū)域顯著減少,旅游流分布趨于分散和均衡化,流入量的空間差異最弱。
(4)四季度逐漸進(jìn)入旅游淡季,許多地區(qū)的旅游流開始減弱,流入量低值區(qū)域增加。
以2019 年為基準(zhǔn),對比發(fā)現(xiàn)2020 年4 季度的旅游流空間規(guī)律變化。與2019 年相比,主要有以下變化:
(1)2020 年的一季度、二季度的大部分城市的流入量極低(0.00~0.25),變化最顯著的區(qū)域是東部城市。
(2)西部偏遠(yuǎn)城市的旅游相對流入量相比往年同期有所提高,東部發(fā)達(dá)或較發(fā)達(dá)地區(qū)的流入量與往年同期相比有所降低。
本文以出發(fā)時(shí)間為2016~2020 年的馬蜂窩游記數(shù)據(jù)為研究樣本,從游客出行時(shí)間、出行距離、目的地空間分布差異角度分析了網(wǎng)絡(luò)游記視角下的旅游流時(shí)空特征,得出如下主要結(jié)論:
(1)在常規(guī)年份(2016~2019 年),旅游流量時(shí)間分布淡、旺季分明,周末、節(jié)假日效應(yīng)突出。4 到10 月為旅游旺季,11 月至次年3 月為旅游淡季,法定節(jié)假日、假期均出現(xiàn)旅游流高峰。2020 年新冠疫情爆發(fā),2、3 月旅游流量受到巨大沖擊,解封后旅游流逐步恢復(fù)到往年類似水平,7、8 月出現(xiàn)“補(bǔ)充旅游流”導(dǎo)致流量高于往年;經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)揭示出旅游流波動主要由季度尺度波動引起,年度尺度對旅游流波動貢獻(xiàn)最小,旅游流呈現(xiàn)顯著上漲趨勢。
(2)在日均出行距離變化中,休息日的日均出行距離普遍低于工作日;旅游流量存在距離衰減效應(yīng),符合冪律性曲線基本特征。旅游流衰減過程具有波動性,在常規(guī)年份中(2016~2019 年),0 km 至450 km 左右快速下降,450 km 起下降速度放緩,在1100~1200 km 處出現(xiàn)跳躍式上升,此后加速下降;2020 年中總體趨勢與常規(guī)年份類似,但是1100~1200 km處的上升幅度比往年更小,遠(yuǎn)未達(dá)到往年類似水平。
(3)游客目的地分布存在季節(jié)變化特征。一季度熱門旅游城市主要集中在北京、廣州、成都、上海、昆明等經(jīng)濟(jì)發(fā)展水平較高或旅游資源豐富的城市;二季度旅游流相對流入很低的城市逐漸脫離低值,熱門目的地分布的空間差異性開始減弱;三季度進(jìn)入旅游旺季,流入量低值區(qū)域顯著減少,旅游流分布趨于分散和均衡化。相比其他季度,流入量的空間差異最弱。2020 年的四季變化規(guī)律有所不同,主要表現(xiàn)在西部偏遠(yuǎn)城市的旅游相對流入量相比往年同期有所提高,東部發(fā)達(dá)或較發(fā)達(dá)地區(qū)的流入量與往年同期相比有所降低。