重慶工商大學派斯學院 楊婷婷
近十幾年來,我國旅游行業(yè)一直保持持續(xù)穩(wěn)步的發(fā)展。根據2020年國家統(tǒng)計局的年度統(tǒng)計數(shù)據,2011-2019年,我國游客人數(shù)和旅游總收入都保持著持續(xù)增長的發(fā)展趨勢。在2019年,我國全年國內游客總人次達到60億人次,比上年增長8.4%[1]。隨著互聯(lián)網的便捷使用和高速發(fā)展,以及大數(shù)據時代的悄然而至,各種在線旅游平臺應運而生,為旅游行業(yè)帶來了更加明顯且持續(xù)的經濟效益。游客通過在線旅游網站和旅游App將旅游過程中的所看所感事物,以及情感感知體驗通過在線點評、網絡游記這些用戶生成內容等方式分享給一些還未去該旅游景點觀光游覽的潛在游客,隨著到旅游景點的游客逐漸增多,在線評論數(shù)據也在海量增加,這些短評論文本數(shù)據將會直接影響潛在的顧客做出是否去該旅游景點旅游的決策,而這也正在成為旅游景點形象的直接傳播渠道。但是在在線旅游評論網站上,用戶生成的內容中不僅包含評級量表,還有文本評論,可以從這兩種數(shù)據源中評價用戶滿意度。然而,在通常的實踐中,缺乏能夠結合文本評論和總體評價這兩種不同結構、不同類型的數(shù)據源進行判斷的算法[2]。隨著境外游客到境內旅游的數(shù)量不斷增加,分別對英文文本和中文文本兩種不同文本格式的數(shù)據源進行分析研究,可以對比分析出國內外游客對旅游景點的不同的觀點和態(tài)度[3-4]。因此,本文在現(xiàn)有文本情感分析、在線旅游體驗評論挖掘和游客滿意度評價的相關研究基礎上,基于情感分析理論和游客滿意度理論,提出基于多源大數(shù)據的旅游景點游客滿意度評價模型,通過從國內外游客的在線評論和評級信息中快速準確地挖掘用戶需求以及旅游產品和服務反饋,從而準確把握用戶的心理,為旅游管理公司和政府部門提供參考意見,并用以制定差異化和個性化的營銷策略,為優(yōu)化產品和服務等方面提供參考[5-7]。
情感分析,是指從文本數(shù)據中挖掘出人們對評論實體或者屬性所表達的情感、態(tài)度、情緒和評價。這些實體通常是評論主題、相關服務、一些機構、個人、主題等。情感分析主要研究語句中表達或者暗示的有一些褒義或者貶義情感傾向的觀點信息。這些觀點信息里有情感、評價內容,通常包括觀點持有者(游客、消費者等)、觀點評價對象或目標(基礎交通設施、美食、住宿、產品或服務)。第一步:從數(shù)據庫內的大量樣本文本評論數(shù)據中按照存儲順序讀取每條短文本評論數(shù)據,以某個評論為例,先將長句子中的評論按照停止詞進行切割分句,對分出來的句子中的屬性實體、否定詞、情感詞進行分類提??;第二步:將每個短分句中的屬性實體所對應的情感詞和數(shù)據庫中的情感詞典中的已有的情感詞進行匹配迭代查詢,并依次標記情感詞的情感傾向(積極、消極、中性);第三步:查找匹配前面一步找到的情感詞前是否出現(xiàn)了數(shù)據庫中程度詞詞典中的程度詞,如果上一步中找到的情感詞前發(fā)現(xiàn)了程度詞(具有依存關系),則找出情感詞典中這個程度詞的權重大小,將上一步步中的情感詞所對應的情感值乘以該程度詞的權重大??;第四步:和數(shù)據庫中的否定詞詞典去查找匹配第二步中的情感詞前是否出現(xiàn)了一些否定詞,如果出現(xiàn)了否定詞,就去數(shù)據庫中查找情感詞典里面這個否定詞的權重大小,將上一步中情感詞的情感值再乘上權重(-1),如果出現(xiàn)多個否定詞,就重復著乘以該權重大小(-1);第五步:將一條評論中切割出來的所有短評分句的積極、消極和中性情感值,用數(shù)組依次進行記錄下來;第六步:對評論逐條計算并記下總的情感值。
本文通過梳理文獻后提出了基于多源大數(shù)據的旅游景點游客滿意度評價模型,首先通過采集獲取在線旅游平臺的用戶評論和網絡游記口碑信息作為數(shù)據源,然后再將評論數(shù)據進行清理,根據詞和詞性進行標注,然后通過內容分析法獲取景點高頻特征詞分析旅游形象特征,再通過情感分析方法獲取游客對景點的觀點,最后分析出總體評價和各維度特征的評價,進而得出游客對旅游景點的偏好,并針對不足的地方進行改善后以實現(xiàn)量上吸引更多的游客,質上口碑有所提升。
通過對攜程網、貓途鷹、去哪兒網和馬蜂窩這4個國內外知名的在線旅游網站以“洪崖洞”作為關鍵搜索詞對游客評論文本、網絡游記等內容進行檢索,然后對搜集到的總體評級、評論時間、評論地點等內容進行數(shù)據處理。為保證評論數(shù)據樣本的時效性,獲得評論和游記發(fā)表時間為2010年1月至2020年12月這10年間的在線評論及網絡游記內容;其次,為保證評論數(shù)據樣本的質量,剔除與景點主題無關、或者純粹的景點介紹以及同一游客重復評論的內容。通過數(shù)據處理后,得到了6210條在線評論和10篇網絡游記作為本文的研究樣本數(shù)據。
通過文本挖掘和內容分析法,對評論文本數(shù)據進行特征詞詞頻分析,得到如表1所示的排名前20的高頻詞語。從排名前10的屬性詞如“夜景”和“晚上”可以分析出,觀光游覽的最佳時間是晚上,也可以得出游客們對洪崖洞的獨特夜景風光的認知強度是比較高的;而“建筑”和“吊腳樓”這兩個特征詞則反映出游客們對洪崖洞的深刻印象包括重慶特有的依山而建、富有本土特色的吊腳樓建筑景觀;“特色”一詞則是游客評論內容中位于建筑、夜景、小吃等特征詞前的情感修飾詞,反映出了洪崖洞帶給游客們對比于其他旅游景點旅游體驗上的差異性。
表1 洪崖洞景區(qū)游客評價高頻特征詞
通過按照五個主題對洪崖洞景點的評論進行五個形象維度的滿意度評價分析得出,游客對依托環(huán)境的認知量為2464,平均情感值為4.9,這是由于洪崖洞依托于山城和吊腳樓的這些特征,形成“3D”魔幻城市,并且依托于嘉陵江以及旁邊的輕軌穿樓而過,形成的這一獨特的環(huán)境。游客對建筑風貌的認知量為1856,平均情感值為4.98,游客們很欣賞重慶特有的吊腳樓建筑,依山而建,一樓進去,十一樓出來,仍是一條馬路。夜景風情的認知量為3105,滿意度評價為3.98,晚上是洪崖洞的最受游客們喜愛的時刻,具有千與千尋場景的燈火將這11層的建筑賦予點亮的盛景。而游客對美食購物感到略微滿意,有的游客認為洪崖洞內消費高,有的伴手禮并不值得購買,有的游客覺得火鍋也一般。游客對休閑氛圍的認知量為2329,感到比較滿意,游客們評價中提到洪崖洞內的道路比較狹窄擁擠,電梯比較慢,需要等很久,燈光比較暗等(見表2)。
表2 洪崖洞滿意度評價分析
研究表明,通過本文提出的基于多源大數(shù)據的旅游景點游客滿意度評價模型,能夠對旅游目的地的在線評論文本數(shù)據進行有效的觀點意見挖掘,獲取游客對旅游景點多維度、多方面屬性和實體或者旅游景點形象特征的意見。本文的創(chuàng)新性在于構建了旅游領域特征詞典及情感詞典,并結合多種數(shù)據源提取旅游景點的旅游形象特征,也為以后旅游行業(yè)領域的游客在線文本評論和網絡游記文本的滿意度評價方面提供了研究基礎,并在情感分類的過程中,使用了基于依存句法分析的各屬性特征的情感值,提高了分類的準確性。