張 峰,陶玉國
(江蘇師范大學 歷史文化與旅游學院,江蘇 徐州 221116)
當前,氣候變暖加劇成為全人類共同面對的緊迫威脅[1],高度依賴氣候資源的旅游業(yè)則成為氣候變化的主要“受害者”[2]。近年來,游客對氣候變化的感知在學術界被廣泛關注[3]。Dubois等認為,游客對天氣和氣候的感知影響到他們的滿意度[4]。一些研究在對西班牙、芬蘭的多個或單個旅游區(qū)進行實地調查的基礎上,運用數(shù)理統(tǒng)計類方法得出游客對氣候變化持有負面評價[5,6]。在依賴自然資源的滑雪勝地類旅游目的地,游客更易感知到氣候變化的危機,且這種危機意識隨著時間演變會越來越強烈[7]。相對于紅海地區(qū)運營商對氣候變化的中等感知水平,游客則具有明顯的危機意識,兩者之間存在著“感知差距”[8]。少數(shù)研究在實地調查的基礎上運用SEM模型發(fā)現(xiàn)游客對天氣狀況非常寬容,風和低溫等天氣因素并未顯著影響游客對天氣的整體評價[9]??傮w而言,上述研究基本認為游客已經(jīng)感知到氣候變化的危機,研究以個案為主,數(shù)據(jù)來源幾乎全部來自實地調查。
當前,隨著社交媒體時代的到來,對社交媒體大數(shù)據(jù)進行情感分析可為游客體驗滿意度研究提供一個新的視角[10-13]。情感分析是關于人們對實體、個體、問題、事件、主題及其屬性的看法、評價、態(tài)度和情感的計算研究[14]?,F(xiàn)有情感分析方法可分為基于情感詞典的詞典匹配方法和基于語料的機器學習方法兩大類[15,16]。劉逸利用基于由知網(wǎng)發(fā)布的HowNet詞典的詞匯匹配技術構建了旅游目的地情感評價模型[17];Kirilenko、鄧寧等分別運用SentiStrength、SentiWordNet情感詞典的詞匯匹配方法分析了游客的情感形象[18,19];Markopoulos等則依托機器學習中的支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)比較分析了酒店住客的情感評價值[20];Ye等利用有監(jiān)督的SVM和NB等方法探討了歐美旅游目的地的情感體驗[21]??傮w來說,結果最為精確的人工神經(jīng)網(wǎng)絡分析法(Artificial Neural Network,ANN)的相關成果相對偏少[13,22]。情感分析以目的地研究為對象時,以整體分析居多,專題分析較為少見。
近年來,旅游目的地環(huán)境情感分析這一專題研究引起了學術界的高度重視,推動著旅游情感研究向縱深發(fā)展。Kirilenko等關注了美國人的感官經(jīng)歷與當?shù)貧鉁刈兓穆?lián)系,并通過回歸分析認為大眾媒體報道在控制著公眾對該主題的情感[23];Becken等運用詞匯匹配方法測算了大堡礁旅游生態(tài)環(huán)境評論的情感值[11];Saura等運用無監(jiān)督的SVM方法測算了關于西班牙酒店環(huán)境的推特評論的情感值[24]。
由此可見,目前環(huán)境專題研究對氣候的討論較少,主要為國外成果,而東西方的環(huán)境價值觀有所不同[25],對我國國內游客進行旅游目的地氣候的感知分析是一個值得探討的重要話題,再考慮到我國的干旱區(qū)和半干旱區(qū)約占國土總面積的52.5%,且干旱區(qū)對全球氣候變化響應更加敏感[26],因此本文嘗試以我國干旱區(qū)5A景區(qū)為案例區(qū),收集了游客在新浪微博上發(fā)布的有關氣候的評論,并利用人工神經(jīng)網(wǎng)絡的這一機器學習法分析評論情感值,同時借助扎根理論范式歸納出低情感值的影響因素。
作為一個擁有龐大文本語料庫的新浪微博,與Facebook、Twitter等在線社交媒體一樣,是情感分析的一個重要數(shù)據(jù)源[12,27,28]。本研究采用網(wǎng)絡爬蟲工具獲取新浪微博數(shù)據(jù)。在收集口徑方面,基于氣候是天氣的平均狀態(tài)[29],對長時段天氣的平均狀態(tài)進行評價,實質是對氣候變化評價的考慮。本研究采用“天氣”或“氣候”+“景區(qū)名稱”作為關鍵詞采集干旱區(qū)氣候變化的相關數(shù)據(jù),劃分標準為內蒙古自治區(qū)、新疆維吾爾自治區(qū)、甘肅省、寧夏回族自治區(qū)、青海省、陜西省、山西省、西藏自治區(qū)8個省區(qū)[30],并初步選擇這8個省區(qū)中的5A級景點作為案例地。
在收集時段方面,考慮到新浪微博于2009年創(chuàng)立,故搜索時間限制為2009年1月1日至2018年6月30日。由于本研究是嘗試通過游客的敘述洞察氣候如何影響旅游情感,故去噪時剔除了來自政府、企業(yè)、媒體等干擾數(shù)據(jù)。獲取原始數(shù)據(jù)13276條評論,為確保去噪過程更加精準,去噪主要依靠人工完成。由于2009與2010年評論條數(shù)低于200,故予以剔除,最終收集到2011年1月1日至2018年6月30日的45家5A級景區(qū)共計6721條有效評論,總計50萬余字。
本研究采用情感分析和扎根理論相結合的研究方法。在情感分析技術方面,本研究通過編輯Python3.0程序調動Boson平臺的基于中文語料半監(jiān)督的ANN這一機器學習方法。選擇該平臺的理由為:①平臺能有效對接微博數(shù)據(jù)。平臺的語義語料庫是根據(jù)微博、論壇等渠道的數(shù)據(jù)自動構建的,在分析時通過設置URL參數(shù)以限定語料庫為微博語料庫,從而實現(xiàn)無縫對接。②在平臺上,基于人工智能算法的ANN方法具有較高的準確率,而方法的相關成果較少見。Kirilenko等給出了準確率等情感分析評估準則的含義和根據(jù)表1擬定的評估準則的計算公式[13]。準確率(A)描述了檢測結果中正確的話題數(shù)量與檢測結果的總話題數(shù)量的比率;精度(P)描述了檢測結果中正確的某類極性的話題數(shù)量與檢測結果的為同類極性的話題數(shù)量的比率;召回率(R)描述了檢測結果中正確的話題數(shù)量與被測試集中應有的話題數(shù)量的比率;F1值集合了精度和召回率這兩個評價參數(shù)描述了算法的總體優(yōu)劣。
表1 三元情感分類結果混淆矩陣
(1)
(2)
(3)
(4)
平臺準確率高的原因主要來自以下兩個方面:第一,平臺訓練語料庫規(guī)模達到千萬級,而機器學習法中訓練語料庫規(guī)模越大,分析的準確率就越高[21,31];第二,平臺既能有效識別名詞、動詞等不同詞性的一般詞匯,還能識別蒂莫西伊斯頓等專有名詞、俚語等特殊詞匯及網(wǎng)絡詞匯的情感,甚至還能挖掘出客觀評論的隱含情感。ANN測試結果顯示,俚語“遛彎兒”的情感值為0.731,網(wǎng)絡用語“555”和“666”的情感值分別為0.042和0.889,句子“北京霧霾讓人無法躲避”和“北京可讓人躲避霧霾”的情感值分別為0.248和0.805。
通過Python 3.0編寫計算機編程語言處理的環(huán)節(jié)有兩個,一是調用Boson平臺上ANN方法分析篇章級評論文本,二是輸出景區(qū)的年度值、季度值、月份值等情感值。考慮到情感分值在0和1之間及正負臨界值為0.5,因此將評價等級標準擬定如下:非常差(0—0.1)、很差(0.11—0.20)、差(0.21—0.30)、較差(0.31—0.40)、稍差(0.41—0.50)、稍好(0.51—0.60)、較好(0.61—0.70)、好(0.71—0.80)、很好(0.81—0.90)、非常好(0.91—1)。
總體來看,對6721條評論進行分析顯示,我國干旱區(qū)5A景區(qū)情感整體值是0.757,屬于“好”級,說明游客對干旱區(qū)景點氣候條件的感知偏向正面,這既與氣候條件大體上讓游客滿意有關,也與游客傾向在社交媒體上分享美好快樂經(jīng)歷的表現(xiàn)密不可分[32]。這種對氣候條件的正負感知最終將影響到目的地的整體形象感知,正如相關研究指出的,氣候是旅游目的地形象的重要組成成分[33]。
由圖1可以看出,近7年干旱區(qū)5A景區(qū)氣候情感值分別為0.772、0.756、0.767、0.783、0.787、0.753、0.753,均為“好”級,呈“W”型波動,總體呈下降趨勢,降幅為2.46%。其中,2015年情感值最高,2012年值最低,最高比最低值高5.92%。生態(tài)環(huán)境的情感體驗一定程度上反應了生態(tài)環(huán)境的質量[11,34],因此情感值呈下降趨勢體現(xiàn)了干旱區(qū)景區(qū)氣候質量的急劇下降,其原因可能與氣候變化帶來的威脅相關[35]。
圖1 2011—2017年氣候情感值變化趨勢
根據(jù)情感值在不同季度的波動情況,可將其變化分三種類型(圖2)。一是以2011年、2012年、2014年為代表的穩(wěn)步上升型;二是以2013年、2016年為代表的先升后降型,最高值出現(xiàn)在第二季度;三是以2015年、2017年為代表的降—升—降型,最高值出現(xiàn)在第三季度。這三類共同特征是第一季度值較低,表明游客對第一季度氣候條件滿意度最低。李山等基于氣象戰(zhàn)點數(shù)據(jù),利用加權模式算法研究得出結論,冬季全國年平均氣候舒適期是最短的,平均不到2天[36],從有關干旱區(qū)旅游氣候舒適期的研究可知,氣候舒適期主要出現(xiàn)在4—10月期間[37-39],這均與本研究得出的第一季度情感值最低、第二、三季度情感值較高的結果相一致。
為了解不同景區(qū)情感值的時間演變規(guī)律,此處在剔除評論數(shù)少于100的景區(qū)基礎上,對最終保留的20個景區(qū)進行分析。結果表明,呈上升趨勢和下降趨勢的景區(qū)數(shù)量均為10家,兩者持平。以氣候情感總體均值0.757及升降變化為依據(jù)可將景區(qū)情感值變化劃分為以下4種類型(圖3):Ⅰ型為低值下降型景區(qū),包括青海湖、響沙灣、沙坡頭、大昭寺4個景區(qū),游客對該類景區(qū)氣候感知的情感值很低,且情感值仍呈下降趨勢,因此需要從國家政策層面到游客個體行動等方面采取有效的緩解措施;Ⅱ型為低值上升型景區(qū),游客對此類景區(qū)的氣候情感體驗在逐步改善;Ⅲ型為高值上升型景區(qū),包括那拉提、五臺山、柴河、云岡石窟4個景區(qū),此類景區(qū)的氣候條件游客評價最高,這有助于提升此類景區(qū)的旅游吸引力;Ⅳ型為高值下降型景區(qū),景區(qū)管理者需要多關注此類景區(qū)氣候條件對游客體驗所帶來的影響,避免其惡化為Ⅰ型景區(qū)。
圖2 氣候情感值季度變化
圖3 依據(jù)景區(qū)情感均值與升降變化的分類
圖4 氣候情感值空間分布
從省級層面看,青海、甘肅、西藏、內蒙古、陜西、寧夏、山西和新疆8個少區(qū)的情感值分別為0.734、0.742、0.753、0.753、0.762、0.776、0.782和0.784,依次升高,最高值比最低值高6.81%,見圖4。
圖5 青海、甘肅景區(qū)氣候評論語義網(wǎng)絡圖
低情感值區(qū)域位于干旱區(qū)的中部地帶,以青海省和甘肅省兩省為核心,以內蒙古與西藏為延伸,而高情感值區(qū)域主要分別在干旱區(qū)的東西兩側,由新疆維吾爾自治區(qū)、寧夏回族自治區(qū)、山西省和陜西省四個省區(qū)構成。需要特別指出的是,地處亞歐大陸腹地的新疆維吾爾自治區(qū)的景區(qū)多受大西洋的影響,其情感值較高??傊?低情感值區(qū)域和高情感值區(qū)域均具有一定的空間連續(xù)性,呈現(xiàn)區(qū)域集中性特征,而上升型景區(qū)和下降型景區(qū)則基本在每個省級區(qū)域都有分布,空間分布較為零散。
根據(jù)情感值最低的青海和甘肅的評論得到的語義網(wǎng)絡見圖5。由圖5可知,與高頻特征詞“天氣”相連的詞匯除了“開心、美麗”等正面形容詞之外,還出現(xiàn)了“遺憾、可惜”等負面情感詞,正面形象不明顯;與高頻特征詞“氣候”相連的唯一的外圍結構詞匯是“干燥”,這是游客對本區(qū)氣候最明顯的感知。
對低情感值影響因素進行進一步的深入識別,有利于為氣候變化危機管理提供依據(jù)。本研究篩選出所有景區(qū)情感值低于0.5的評論文本作為分析對象,并采用扎根理論這種探索性研究技術,試圖在經(jīng)驗資料的基礎上自下而上地構建實質理論。
表2 開放式編碼分析舉例
開放式編碼是對收集的原始資料逐字逐句進行編碼與標簽,從中定義現(xiàn)象并將其概念化與范疇化。我們對氣候評論文本直接進行自由編碼,不斷將資料進行比對,提取各條評論中反復出現(xiàn)的低情感值影響因素類型,將相同或類似的類型進行合并、重組和整合,最終提取21個概念范疇(表2),分別為:氣溫不宜、空氣干燥、風速過高、日照強烈、氣候多變、揚塵天氣、身體傷害、心理傷害、酸雨腐蝕、暴雨沖刷、古跡風化、草場荒漠、戶外活動、物品攜帶、計劃變更、視覺阻礙、去程阻礙、行中阻滯、回程滯留、目的地期望、客源地差異。
主軸編碼是將開放性編碼進行連續(xù)不斷地比較,再加以合并和類聚,使其更加具有指向性、理論性,并發(fā)展和建立概念間各種關系的過程。通過分析,本文將21個范疇進一步歸納為6個主范疇,分別為:氣候不佳、身心健康、景區(qū)受損、游覽限制、交通受阻、期望差異(表3)。
表3 主軸編碼形成的主范疇
選擇性編碼是從主范疇中進一步挖掘“核心范疇”,分析核心范疇與主范疇及其他范疇的聯(lián)結關系,并以“故事線”形式描繪行為現(xiàn)象和脈絡條件,完成“故事線”后實際上也就發(fā)展出新的實質理論框架。本研究確定“低情感值影響因素”這一核心范疇,圍繞核心范疇的“故事線”可概括為:氣候不佳、身心健康、景區(qū)受損、游覽限制、交通受阻、期望差異6個主范疇對低情感值存在顯著影響。
圖6 氣候低情感值影響因素模型
一般而論,氣候條件不佳是內驅因素,它直接決定了游客對氣候情感呈低值狀態(tài);身心健康、景區(qū)受損、游覽限制、交通受阻、期望差異則調節(jié)著氣候—情感直接的聯(lián)結關系。以此“故事線”為基礎,構建氣候低情感值影響因素模型(圖6)。經(jīng)過對留存的文本做飽和度檢驗,沒有產(chǎn)生新的范疇,說明已達到理論飽和狀態(tài)。
氣候不佳主要是指氣溫、風速、空氣濕度、日照等氣候條件不適宜,或冰雹、干旱等氣候異常情況多發(fā)。身心健康則主要表現(xiàn)為因天氣和氣候因素導致的皮膚曬傷干裂、高原反應、咳嗽發(fā)燒、恐懼焦慮等身體不適或精神上的傷害。景區(qū)受損體現(xiàn)在旅游吸引物因酸雨腐蝕、暴雨沖刷、風化等惡劣氣候條件被受到損害。戶外活動受限、物品攜帶不便、計劃被迫變更、視覺阻礙等構成了游覽限制。其中,視覺阻礙主要是指游客厭惡大霧、陰雨等因素破壞視覺欣賞體驗,這對自然風景型景區(qū)游覽活動影響最為明顯[9]。交通受阻則表現(xiàn)為去程阻礙、行中阻滯、回程滯留三個方面。期望差異是指游客對目的地氣候適宜性期望過高或目的地與客源地的氣候差異過大。期望—不一致模型認為,當產(chǎn)品或服務表現(xiàn)沒有達到期望時,消費者將會感到不滿意[40]。因此,若目的地氣候條件沒有達到游客的預期理想狀態(tài),游客將對氣候條件產(chǎn)生不滿情緒。
主要是:①游客對干旱區(qū)景區(qū)氣候條件感知的總體情感值為0.757,屬于“好”級。情感值隨時間推移呈下降趨勢,降幅為2.46%。隨著季度更替,表現(xiàn)出穩(wěn)步上升型、先升后降型、降—升—降型三種升降模式,各模式有較低的第一季度值,較高的第二、三季度值這個共同特征。依據(jù)景區(qū)情感均值與升降變化可將景區(qū)分為低值下降型、低值上升型、高值上升型、高值下降型四類。②在空間分布方面,低情感值區(qū)域位于干旱區(qū)的中部地帶,游客對干旱區(qū)氣候的最大感知是干燥,高情感值區(qū)分布在干旱區(qū)東西兩側,呈上升趨勢景區(qū)與下降趨勢景區(qū)呈交錯分布狀態(tài),分布相對分散。③借助扎根理論對低情感值的評論進行分析發(fā)現(xiàn),氣候不佳是內驅因素,直接決定了游客對氣候情感呈低值狀態(tài);身心健康、景區(qū)受損、游覽限制、交通受阻、期望差異則調節(jié)著氣候—情感直接的聯(lián)結關系。
主要是:①方法運用方面,本文運用Python編程調用Boson平臺上的ANN方法測度氣候情感體驗,未來研究仍需進一步夯實理論基礎,甚至還可將此平臺的研究與基于百度AI、騰訊文智等其他類似的人工智能平臺的研究進行對比分析,以豐富和改進旅游情感研究的方法體系。②數(shù)據(jù)收集方面,數(shù)據(jù)篩選采用人工判讀,時間效率較低,可能會出現(xiàn)對干擾性評論處理不佳的情況。未來如結合機器學習對噪聲同步處理[41],可完善評價結果的科學性。此外,研究數(shù)據(jù)僅包括文本內容,如能通過旅游網(wǎng)站、手機旅游APP等渠道獲取圖片、語音、視頻等其他類型的多源數(shù)據(jù),有可能進一步增加研究的全面性[42]。③結果分析方面,由于本研究僅收集到近7年的有效數(shù)據(jù),使用的數(shù)據(jù)歷時較短,不利于全面準確總結相關特征和演化規(guī)律。后續(xù)研究需延長時間維度和拓寬空間維度,如將濕潤區(qū)與干旱區(qū)進行對比,有助于歸納出更為普遍的特征和規(guī)律。