張學(xué)民 趙明宇
摘 要: 綜合利用旅游網(wǎng)站的游客評(píng)論數(shù)據(jù),運(yùn)用LDA主題模型和Python的SnowNLP模塊對(duì)所得樣本進(jìn)行主題分類(lèi)和情感傾向分析,從游客感知視角分析影響西塘古鎮(zhèn)旅游形象的感知因素。研究結(jié)果表明:游客對(duì)西塘古鎮(zhèn)旅游形象的感知因素有古鎮(zhèn)文化、自然風(fēng)光、入口服務(wù)、飲食文化、商業(yè)化程度、公共設(shè)施6個(gè)方面。游客評(píng)論的正面情感傾向占比為78.8%,說(shuō)明游客對(duì)西塘古鎮(zhèn)旅游形象的總體感知比較滿(mǎn)意。在西塘古鎮(zhèn)旅游形象感知因素中,游客對(duì)入口服務(wù)、商業(yè)化程度以及公共設(shè)施三個(gè)方面的滿(mǎn)意度明顯不足,好評(píng)率都在75%以下。西塘古鎮(zhèn)應(yīng)制定合理的定價(jià)策略,改善入口服務(wù),完善公共設(shè)施,充分發(fā)揮項(xiàng)目?jī)?yōu)勢(shì),才能在眾多古鎮(zhèn)中脫穎而出。
關(guān)鍵詞:游客評(píng)論;LDA主題模型;情感分析;西塘古鎮(zhèn) ;旅游形象
中圖分類(lèi)號(hào):F426.4? ?文獻(xiàn)標(biāo)志碼:A? ?文章編號(hào):1674-7356(2020)-03-0023-08
隨著我國(guó)社會(huì)的進(jìn)步和經(jīng)濟(jì)的發(fā)展,人們的生活水平不斷提高,帶薪節(jié)假日的增加也加快了旅游業(yè)的發(fā)展,我國(guó)已邁入全民旅游時(shí)代。在眾多旅游類(lèi)型中,古鎮(zhèn)旅游憑借其燦爛的歷史文化和獨(dú)特的人文景觀吸引了大量旅游者。以古鎮(zhèn)接待旅游者人次數(shù)為例,2016年西塘古鎮(zhèn)游客接待量達(dá)到778萬(wàn)人次,比2012年增加了300萬(wàn)人次。2017年十一黃金周烏鎮(zhèn)接待旅游者人次數(shù)為49.9萬(wàn)人次,同比增長(zhǎng)2.68%,可見(jiàn)古鎮(zhèn)旅游深受游客青睞。西塘古鎮(zhèn)是江南六大古鎮(zhèn)之一,地處江浙滬三省市交界處的浙江省嘉興市嘉善縣,東臨上海,西依杭州,北靠江蘇,且與三市距離均在100公里左右,交通發(fā)達(dá),地理區(qū)位優(yōu)勢(shì)明顯。西塘古鎮(zhèn)具有深厚的歷史文化底蘊(yùn),完好地保存著明清時(shí)期的古宅建筑,總面積達(dá)到25萬(wàn)余平方米。大量居民依然在古鎮(zhèn)生活,保留著傳統(tǒng)的水鄉(xiāng)風(fēng)情,因此,西塘古鎮(zhèn)有著“生活著的千年古鎮(zhèn)”的美譽(yù)。2003年,西塘古鎮(zhèn)被命名為中國(guó)歷史文化名鎮(zhèn)。2017年,西塘古鎮(zhèn)新晉為5A級(jí)旅游景區(qū),同年 11月,在第三屆中國(guó)古村鎮(zhèn)大會(huì)上被授予“2017年度最受網(wǎng)民喜愛(ài)的十大古村鎮(zhèn)”稱(chēng)號(hào)。國(guó)內(nèi)學(xué)者對(duì)西塘古鎮(zhèn)也進(jìn)行了相應(yīng)研究,呂麗輝和陳瑛以西塘古鎮(zhèn)為例,結(jié)合實(shí)際訪談和問(wèn)卷調(diào)查,采用模糊綜合評(píng)價(jià)法對(duì)我國(guó)文化遺產(chǎn)地游客滿(mǎn)意度進(jìn)行實(shí)證研究[1]。陳煒等人通過(guò)問(wèn)卷調(diào)查法對(duì)西塘古鎮(zhèn)旅游服務(wù)質(zhì)量進(jìn)行了研究,發(fā)現(xiàn)游客對(duì)西塘古鎮(zhèn)旅游服務(wù)質(zhì)量總體評(píng)價(jià)不高[2]。嚴(yán)銳和夏柔玥通過(guò)實(shí)地觀察法、問(wèn)卷調(diào)查法和訪談?wù){(diào)查法對(duì)西塘和周莊的商業(yè)化現(xiàn)象進(jìn)行分析,并提出了相應(yīng)的發(fā)展對(duì)策[3]。
我國(guó)旅游業(yè)的快速發(fā)展和互聯(lián)網(wǎng)的廣泛普及使旅游電商成為發(fā)展最快的電商領(lǐng)域。國(guó)家旅游局2017年8月發(fā)布的《2017年全域旅游發(fā)展報(bào)告》顯示,在眾多電商領(lǐng)域中,旅游電商增長(zhǎng)速度最快。2016年,我國(guó)旅游消費(fèi)規(guī)模達(dá)到5.5萬(wàn)億元,其中在線旅游消費(fèi)占比為20%。現(xiàn)階段,一大批與旅游相關(guān)的網(wǎng)站快速發(fā)展,如國(guó)外網(wǎng)站:TripAdvisor、Priceline、Travel、Hotels、TravelZoo 等,國(guó)內(nèi)網(wǎng)站:百度旅游網(wǎng)、攜程旅行網(wǎng)、同程旅游網(wǎng)、馬蜂窩、驢媽媽等。游客不僅可以通過(guò)其他人發(fā)布的景點(diǎn)圖片和評(píng)論了解景點(diǎn)信息,也能夠分享自己的旅行經(jīng)驗(yàn)并對(duì)景點(diǎn)進(jìn)行點(diǎn)評(píng),供其他游客參考。在這些旅游網(wǎng)站中,游客生成大量文本評(píng)論數(shù)據(jù),這為旅游經(jīng)營(yíng)者改善旅游服務(wù)提供了重要契機(jī)。然而,旅游網(wǎng)站的評(píng)論數(shù)據(jù)數(shù)量龐大,評(píng)論數(shù)據(jù)質(zhì)量良莠摻雜,如何在海量數(shù)據(jù)中提取有價(jià)值的信息并加以利用,成為被學(xué)術(shù)界廣泛關(guān)注的話(huà)題。
隨著網(wǎng)絡(luò)時(shí)代的到來(lái),國(guó)外學(xué)者開(kāi)始通過(guò)網(wǎng)絡(luò)數(shù)據(jù)對(duì)旅游形象進(jìn)行研究。Choi等人通過(guò)對(duì)網(wǎng)站的評(píng)論文本數(shù)據(jù)和圖片數(shù)據(jù)進(jìn)行分析,研究了澳門(mén)的旅游目的地形象[4]。Bing和Xiang通過(guò)對(duì)游客網(wǎng)上搜索的關(guān)鍵詞進(jìn)行分析,研究語(yǔ)言結(jié)構(gòu)與旅游目的地形象的關(guān)系[5]。K?觟ltringer和Dickinger在網(wǎng)絡(luò)上搜集了5 719個(gè)相關(guān)文檔,對(duì)其進(jìn)行文本挖掘與分析,得到某目的地品牌形象內(nèi)容[6]。Kladou和Mavragani在Trip Advisor 網(wǎng)上搜集了游客評(píng)論的文本數(shù)據(jù),構(gòu)建了旅游目的地形象的評(píng)估體系并對(duì)其進(jìn)行評(píng)估[7]。國(guó)內(nèi)學(xué)者對(duì)該領(lǐng)域關(guān)注較晚,尤其是對(duì)古鎮(zhèn)旅游形象的研究還較為零散。滕夢(mèng)秦運(yùn)用層次分析法對(duì)鳳凰古城與鎮(zhèn)遠(yuǎn)古鎮(zhèn)的旅游效應(yīng)進(jìn)行評(píng)價(jià),論證毗鄰旅游地空間替代性作用的存在[8]。孫旭通過(guò)問(wèn)卷調(diào)查,對(duì)浙江古鎮(zhèn)旅游形象的游客心理認(rèn)知評(píng)價(jià)進(jìn)行分析,找出制約浙江古鎮(zhèn)旅游形象深度塑造和提升的關(guān)鍵問(wèn)題[9]。徐薛艷等人運(yùn)用VEP 實(shí)驗(yàn)法來(lái)獲得上海楓涇古鎮(zhèn)旅游感知意向,但該方法受制于研究樣本數(shù)量并且依賴(lài)于主觀判斷,研究結(jié)果的可靠性和可重復(fù)性都受到考驗(yàn)[10]。馬媛媛通過(guò)對(duì)到訪旅游者進(jìn)行問(wèn)卷調(diào)查,分析蜀河古鎮(zhèn)的旅游競(jìng)爭(zhēng)力[11]。董癑和徐薛艷通過(guò)Web2.0圖片交互平臺(tái)進(jìn)行游客旅游意象分析[12],但是數(shù)據(jù)不夠完整,研究方法以及各種條件存在局限性[13]。王懿和黃震方采用問(wèn)卷調(diào)查法,調(diào)查游客對(duì)同里古鎮(zhèn)文化旅游品牌的感知情況,提出古鎮(zhèn)文化旅游品牌的營(yíng)銷(xiāo)策略[14]。
可見(jiàn),國(guó)外學(xué)者針對(duì)旅游電商平臺(tái)的游客評(píng)論文本數(shù)據(jù)有較為豐富和深入的研究,但對(duì)中國(guó)旅游電商平臺(tái)的用戶(hù)評(píng)論數(shù)據(jù)缺乏關(guān)注。國(guó)內(nèi)學(xué)者在古鎮(zhèn)旅游形象領(lǐng)域也有相應(yīng)的研究,但大多數(shù)采取問(wèn)卷調(diào)查的方法。問(wèn)卷調(diào)查法雖然具有效率高、方便展開(kāi)研究工作的優(yōu)點(diǎn),但同時(shí)也容易受到研究人員的主觀影響,問(wèn)卷設(shè)計(jì)的嚴(yán)謹(jǐn)性以及問(wèn)卷發(fā)放的科學(xué)性都會(huì)對(duì)研究結(jié)果產(chǎn)生較大的影響?;诖?,本研究采用LDA主題模型和情感分析算法對(duì)從旅游電商平臺(tái)爬取的游客評(píng)論文本進(jìn)行分析。以游客感知為視角分析西塘古鎮(zhèn)的旅游形象,提取隱藏的文本主題信息,確定影響游客感知的關(guān)鍵因素。
一、研究流程和算法設(shè)計(jì)
(一)研究流程
旅游電商平臺(tái)的游客評(píng)論數(shù)據(jù)是由游客旅行結(jié)束后根據(jù)自身的真實(shí)感受進(jìn)行的自發(fā)評(píng)論,具有較強(qiáng)的真實(shí)性和主觀性。由此,本研究采用文本挖掘技術(shù)對(duì)游客網(wǎng)絡(luò)評(píng)論文本進(jìn)行挖掘和分析。
首先,利用GooSeeker(集搜客)網(wǎng)頁(yè)爬取軟件,以“西塘”、 “西塘古鎮(zhèn)”為關(guān)鍵詞在主要旅游電商平臺(tái)進(jìn)行評(píng)論文本數(shù)據(jù)的抓取采集,并對(duì)獲取的評(píng)論數(shù)據(jù)進(jìn)行分詞和清洗。其次,以采集的網(wǎng)絡(luò)評(píng)論數(shù)據(jù)為基礎(chǔ),進(jìn)行實(shí)證分析。運(yùn)用Python的gensim模塊對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理的文本數(shù)據(jù)實(shí)現(xiàn)LDA 主題模型建模,得到影響游客感知的關(guān)鍵因素。再次,運(yùn)用Python的SnowNLP模塊對(duì)評(píng)論文本進(jìn)行情感傾向分析,將評(píng)論文本劃分為正面評(píng)論和負(fù)面評(píng)論,得到游客對(duì)西塘古鎮(zhèn)旅游形象的整體情感傾向。最后,基于LDA主題模型和情感分析結(jié)果得到游客對(duì)每個(gè)感知因素的好評(píng)率,從而提出提升西塘古鎮(zhèn)旅游形象的發(fā)展對(duì)策。
(二)基于LDA模型的主題分析
1. LDA主題模型
LDA(Latent Dirichlet Allocation)主題模型是Blei在狄利克雷過(guò)程的基礎(chǔ)上提出的一種概率生成模型[15]。 LDA主題模型也是一種詞袋模型,同時(shí)它也是一種非監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),在進(jìn)行訓(xùn)練時(shí)不需要對(duì)訓(xùn)練集進(jìn)行人工標(biāo)注。該模型認(rèn)為每篇文檔包含多個(gè)不同的主題,這些主題以一定概率進(jìn)行混合形成一篇文檔,而每個(gè)主題又包含多個(gè)不同的詞,這些詞以一定概率進(jìn)行混合形成主題。由此,形成了服從Dirichlet分布的文檔的主題分布和主題的詞分布。LDA主題模型生成一篇文檔的過(guò)程如圖1所示,在文檔生成過(guò)程中的變量和參數(shù)如表1所示。
首先,隨機(jī)抽取每篇文檔的混合主題概率θm,θm服從先驗(yàn)參數(shù)為α的Dirichlet分布。其次,隨機(jī)抽取各個(gè)詞語(yǔ)在主題k下出現(xiàn)的概率φk,φk服從先驗(yàn)參數(shù)為β的Dirichlet分布。最后,根據(jù)θm抽取當(dāng)前單詞所代表的主題zm,根據(jù) p(wm, n|φk, zm, n)抽取具體的單詞 wn,以wm = {wm, n}■■代表一篇文檔m,以zm = {zm, n?代表文檔m中的每個(gè)詞匯所對(duì)應(yīng)的主題。那么根據(jù)圖1所描述的LDA主題模型生成一篇文檔的過(guò)程,該模型所有變量之間的聯(lián)合概率分布可以表示為:
p(wm, zm, θm, φ|α, β) =
p(φ|β) p(wm, n | φzm, n ) p(zm, n | θm) p(θm | α)(1)
對(duì)于單個(gè)文檔wm,其概率可表示為:
p(wm |α, β) =? ? ?p(θm | α) p(?準(zhǔn) | β)
p(wm, n | θm,φ)dφdθm(2)
因此,整個(gè)文檔集W={wm}的生成概率可以按如下公式計(jì)算:
p(W|α, β) = ?p(wm | α, β)(3)
一篇文檔和文檔中所包含的詞匯是確定的,要根據(jù)LDA的核心理論即式(1) (2) (3)來(lái)求解文檔的主題分布和主題的詞分布中的未知變量θm和φk。一般采用變分法[16]5230、期望傳播[17]和吉布斯抽樣法[16]5229來(lái)對(duì)參數(shù)進(jìn)行估計(jì)。其中,吉布斯抽樣法的原理易理解實(shí)現(xiàn)簡(jiǎn)單,并且該方法的應(yīng)用較為廣泛。由此,本研究選用吉布斯抽樣法進(jìn)行LDA主題模型的參數(shù)計(jì)算。
2. 確定主題數(shù)量
主題模型的主題數(shù)量對(duì)最終的主題分類(lèi)結(jié)果具有顯著影響,本文確定最佳主題數(shù)量的方法如下。
首先假設(shè)主題模型的主題數(shù)量為n,然后進(jìn)行主題模型訓(xùn)練,觀察得到的主題模型訓(xùn)練結(jié)果。判斷各主題關(guān)鍵詞關(guān)聯(lián)程度強(qiáng)弱,若主題關(guān)鍵詞關(guān)聯(lián)程度強(qiáng)則增加主題數(shù)量n,若主題關(guān)鍵詞關(guān)聯(lián)程度弱則減少主題數(shù)量n,重復(fù)上述過(guò)程直到確定最佳主題數(shù)量。
(三)基于情感分析的整體評(píng)論分析
情感分析是對(duì)所獲取的評(píng)論文本數(shù)據(jù)進(jìn)行語(yǔ)義挖掘和傾向性分析,它將評(píng)論文本數(shù)據(jù)分為正面情感評(píng)論和負(fù)面情感評(píng)論。本研究利用 Python 軟件的 SnowNLP 模塊對(duì)文本數(shù)據(jù)進(jìn)行處理,SnowNLP 模塊利用樸素貝葉斯原理對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè)。文本是正面傾向的概率即為P(C)與文本在類(lèi)別C中的條件概率的乘積:
P = P(C)P(di | C) =
P(C)(count(di, C)/TC)(4)
公式(4)中,count(di, C)表示詞條di 在C中出現(xiàn)的次數(shù),TC 表示正面文本C 包含的詞條總數(shù),n是進(jìn)行分類(lèi)文本中詞組的數(shù)量。在SnowNLP 模塊中,當(dāng)正面情感的概率 P ≥ 0.5時(shí)認(rèn)為該評(píng)論為正面情感評(píng)論,P < 0.5時(shí)則為負(fù)面情感評(píng)論。SnowNLP 模塊會(huì)逐一計(jì)算每一條文本的正面情感概率。
本研究通過(guò)對(duì)所有游客評(píng)論進(jìn)行情感分析,計(jì)算所有評(píng)論情感傾向的均值與方差。情感傾向均值體現(xiàn)了游客對(duì)于西塘古鎮(zhèn)旅游形象的一個(gè)整體感知水平,情感分?jǐn)?shù)方差表示游客對(duì)古鎮(zhèn)形象感知的差異性水平。通過(guò)對(duì)LDA主題分類(lèi)結(jié)果進(jìn)行情感分析,得到不同主題分類(lèi)下游客的情感傾向結(jié)果,從而挖掘提高古鎮(zhèn)旅游形象的策略。
二、數(shù)據(jù)采集和預(yù)處理
(一)數(shù)據(jù)采集
本文采用網(wǎng)頁(yè)爬取軟件GooSeeker(集搜客)對(duì)旅游電商平臺(tái)的游客評(píng)論文本數(shù)據(jù)進(jìn)行爬取,該款工具利用Mozilla平臺(tái)的能力,只要是Firefox查詢(xún)到的信息,它都能提取。另外,在滿(mǎn)足數(shù)據(jù)爬取效果的基礎(chǔ)上其操作簡(jiǎn)單易上手。利用GooSeeker網(wǎng)頁(yè)爬取軟件進(jìn)行數(shù)據(jù)爬取操作后,數(shù)據(jù)默認(rèn)以XML格式存放。將爬取到的XML格式的數(shù)據(jù)通過(guò)GooSeeker網(wǎng)頁(yè)爬取軟件的自有功能轉(zhuǎn)換為Excel數(shù)據(jù),最終完成數(shù)據(jù)采集工作。具體游客網(wǎng)絡(luò)評(píng)論的數(shù)據(jù)構(gòu)成如表2所示。
(二)數(shù)據(jù)預(yù)處理
1. 數(shù)據(jù)清洗
從旅游電商平臺(tái)抓取的數(shù)據(jù)內(nèi)容不僅包含研究需要的文本數(shù)據(jù),還包括那些諸如網(wǎng)址、表情符號(hào)等其他無(wú)價(jià)值的噪聲數(shù)據(jù)。此時(shí),就需要利用正則表達(dá)式對(duì)噪聲數(shù)據(jù)進(jìn)行過(guò)濾,去除影響文本挖掘結(jié)果的干擾信息,保留研究所需的文本數(shù)據(jù)。在對(duì)旅游電商平臺(tái)的游客評(píng)論數(shù)據(jù)進(jìn)行抓取時(shí),應(yīng)注意中文編碼格式,常用的幾種中文編碼格式有:Unicode編碼、UTF-8編碼和GB2312編碼等。然后將過(guò)濾清洗好的文本數(shù)據(jù)以統(tǒng)一的中文編碼格式進(jìn)行保存。
2. 中文分詞
對(duì)于上文所得到的初始文本數(shù)據(jù)并不能直接輸入 LDA 主題模型。在這些初始有效信息中仍然存在干擾詞匯影響 LDA 模型提取主題的效率,需要進(jìn)一步對(duì)其進(jìn)行分詞處理。在英文中,單詞與單詞之間是由空格隔開(kāi)的,但漢語(yǔ)中的詞與詞之間并不存在分隔符,中文自身的特點(diǎn)就加大了分詞的難度。該領(lǐng)域的研究者已經(jīng)研發(fā)出很多開(kāi)源的中文分詞工具,常用的開(kāi)源分詞工具有:盤(pán)古分詞、庖丁中文分詞、IKAnalyzer 、結(jié)巴分詞等。本研究對(duì)文本數(shù)據(jù)的挖掘與分析是通過(guò)Python語(yǔ)言編寫(xiě)實(shí)現(xiàn),由于結(jié)巴分詞是Python語(yǔ)言開(kāi)發(fā)的中文分詞模塊,具有分詞精度高和使用簡(jiǎn)單的特點(diǎn),因此本文選用結(jié)巴分詞工具進(jìn)行中文分詞。
3. 刪除停用詞
對(duì)經(jīng)過(guò)分詞后的文本數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)中存在大量詞頻較高但并無(wú)實(shí)際含義的詞,比如“的”、“是”、 “這些”、 “那些”等,這類(lèi)詞被稱(chēng)為停用詞。這些詞語(yǔ)在大多數(shù)文檔中高頻出現(xiàn),但不能對(duì)文檔的分類(lèi)提供有用的信息。因此,為了提高模型效率,應(yīng)當(dāng)對(duì)評(píng)論文本數(shù)據(jù)的停用詞進(jìn)行過(guò)濾,再進(jìn)行后續(xù)的文本挖掘工作。
本文由于后續(xù)的實(shí)際分析需要將采用不同的去除停詞策略。第一種策略針對(duì)主題模型,通過(guò)網(wǎng)絡(luò)獲得包含常用停用詞的中文停用詞表,而結(jié)巴分詞也有著自己的停用詞詞庫(kù),將兩者整合之后的停用詞作為新的停用詞詞庫(kù)。第二種策略針對(duì)情感分析,在第一種策略構(gòu)建的停用詞詞庫(kù)中剔除情感詞、程度副詞以及否定詞,從而降低信息損失對(duì)情感分析結(jié)果的影響。
三、數(shù)據(jù)分析
(一)基于TF-IDF的詞頻分析
本文采用TF-IDF(term frequency inverse document frequency)方法來(lái)計(jì)算游客網(wǎng)絡(luò)評(píng)論的特征項(xiàng)權(quán)重。TF(Term Frequency)表示某個(gè)詞條t的出現(xiàn)頻率,IDF(Inverse Document Frequency)用來(lái)衡量詞條t的普遍重要性。TF-IDF的計(jì)算公式為:
TFIDF = TF × IDF(5)
運(yùn)用Python的Gensim包對(duì)文本數(shù)據(jù)進(jìn)行特征權(quán)重計(jì)算,最終得到評(píng)論文本詞頻權(quán)重排名前45的詞條如表3所示。
對(duì)評(píng)論文本數(shù)據(jù)運(yùn)用Python中的wordcloud模塊進(jìn)行詞云分析。
由詞頻權(quán)重統(tǒng)計(jì)結(jié)果我們可以看出,由于本研究在數(shù)據(jù)采集過(guò)程中以“西塘”、 “西塘古鎮(zhèn)”為關(guān)鍵詞進(jìn)行數(shù)據(jù)爬取,所以“西塘”的詞頻最高為14 994。“古鎮(zhèn)”、 “水鄉(xiāng)”、 “江南”則是游客對(duì)本文研究對(duì)象的整體印象描述,說(shuō)明西塘古鎮(zhèn)符合游客心目中江南水鄉(xiāng)的基本特色。除了表示本文研究對(duì)象的詞匯之外, “商業(yè)化”一詞也有較高的詞頻,旅游資源過(guò)度開(kāi)發(fā)使古鎮(zhèn)的發(fā)展模式趨同,降低了游客旅游體驗(yàn)的滿(mǎn)意度。西塘古鎮(zhèn)擁有中國(guó)酒文化博物館,更被譽(yù)為 “酒鎮(zhèn)”,所以 “酒吧”的出現(xiàn)頻率也很高。“小吃”一詞位于詞頻排名第10位,古鎮(zhèn)的特色小吃反映了古鎮(zhèn)的飲食文化,是吸引游客的重要特色。入口服務(wù)方面的“門(mén)票”、“價(jià)格”、 “停車(chē)場(chǎng)”等出現(xiàn)頻率較高,說(shuō)明游客對(duì)西塘古鎮(zhèn)的門(mén)票價(jià)格較為敏感,對(duì)入口停車(chē)場(chǎng)管理和交通情況都有較高的關(guān)注。“烏鎮(zhèn)”在詞頻排名中排第14位,大概是由于烏鎮(zhèn)與西塘有相似的江南古鎮(zhèn)特征,來(lái)到西塘游玩的游客會(huì)聯(lián)想到烏鎮(zhèn)并與其進(jìn)行比較。在自然環(huán)境方面, “寧?kù)o”、 “優(yōu)美”、 “安靜”是評(píng)論中比較突出的詞匯。其次,反映游客旅游體驗(yàn)特征的詞匯頻次也較高,比如 “感受”、 “開(kāi)心”等。從游客對(duì)自然環(huán)境以及體驗(yàn)描述的詞匯來(lái)看,大部分游客對(duì)西塘古鎮(zhèn)的總體態(tài)度都是比較正面的。
(二)LDA主題模型建模
對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理工作的評(píng)論文本進(jìn)行LDA主題模型建模,采用前文提到的主題數(shù)量確定方法,確定主題個(gè)數(shù)K = 6。采取先驗(yàn)值α = 0.5,β = 0.1,吉布斯抽樣的迭代次數(shù)設(shè)置為100次。最后,得到的評(píng)論文本主題分類(lèi)結(jié)果如表4所示(篇幅限制,僅列出10個(gè)主題詞)。
LDA主題模型的分類(lèi)結(jié)果顯示,游客對(duì)西塘古鎮(zhèn)旅游形象的感知因素有古鎮(zhèn)文化、自然風(fēng)光、入口服務(wù)、飲食文化、商業(yè)化程度以及公共設(shè)施6個(gè)方面,具有多面性和復(fù)雜性。
西塘古鎮(zhèn)的門(mén)票價(jià)格,停車(chē)場(chǎng)的收費(fèi)制度以及交通情況都包含在游客對(duì)古鎮(zhèn)入口服務(wù)方面的感知內(nèi),這些都對(duì)游客的旅游體驗(yàn)產(chǎn)生了重要影響。從LDA模型得到的主題分類(lèi)結(jié)果可以看出,烏鎮(zhèn)、周莊也都被提及,說(shuō)明它們有著些許相似的古鎮(zhèn)風(fēng)貌。另外, “古樸”、 “風(fēng)情”等詞表現(xiàn)出游客對(duì)古鎮(zhèn)文化方面的感知,而“寧?kù)o”、 “優(yōu)美”、 “小橋流水”等詞則是游客對(duì)西塘古鎮(zhèn)自然風(fēng)光方面的描述。西塘古鎮(zhèn)“小橋流水人家”的自然風(fēng)光和古色古香的文化氣息受到國(guó)內(nèi)外游客的青睞。“建筑”、 “弄堂”、“根雕”等詞是游客對(duì)西塘古鎮(zhèn)特色建筑以及古鎮(zhèn)文化方面的感知,古鎮(zhèn)可以抓住這一特色開(kāi)發(fā)特色旅游產(chǎn)品,營(yíng)造濃厚的歷史文化氛圍。西塘古鎮(zhèn)的飲食也是游客感知評(píng)價(jià)較多的方面, “芡實(shí)”、 “臭豆腐”、 “餛飩”等多被提及。
(三)基于SnowNLP模塊的情感傾向分析
運(yùn)用Python的SnowNLP模塊實(shí)現(xiàn)前文所述基本算法,針對(duì)總體評(píng)論語(yǔ)句進(jìn)行情感傾向分析。對(duì)情感傾向值進(jìn)行統(tǒng)計(jì),最后得到結(jié)果如表5所示。
從表中可以看出,基于游客評(píng)論總體,情感傾向?yàn)檎娴挠慰驮u(píng)論最多,占到評(píng)論總體的78.8%。積極情感傾向評(píng)論的均值為0.86,方差為0.25。消極情感傾向評(píng)論的均值0.23,方差為0.37。
按照LDA建模得出的主題分類(lèi)進(jìn)行情感傾向分析,得到各主題積極情感傾向占比如圖2所示。通過(guò)得到的西塘古鎮(zhèn)游客評(píng)論各主題積極情感傾向占比可知,六個(gè)主題的積極情感傾向占比均在50%以上,說(shuō)明游客對(duì)西塘古鎮(zhèn)的總體態(tài)度都是比較滿(mǎn)意的。其中,入口服務(wù)的積極情感傾向占比最低,僅有62.78%。景區(qū)應(yīng)合理調(diào)控景區(qū)票價(jià),改進(jìn)停車(chē)場(chǎng)管理制度,提高游客對(duì)景區(qū)入口服務(wù)方面的滿(mǎn)意度。另一方面,古鎮(zhèn)公共設(shè)施的好評(píng)率也在70%以下,景區(qū)應(yīng)完善公共設(shè)施建設(shè),實(shí)現(xiàn)古鎮(zhèn)的可持續(xù)健康發(fā)展。相較于其他主題而言,游客對(duì)西塘古鎮(zhèn)的商業(yè)化程度方面滿(mǎn)意度也表現(xiàn)出明顯不足。西塘古鎮(zhèn)的商業(yè)化程度較高,游客無(wú)法完全體驗(yàn)當(dāng)?shù)氐娘L(fēng)土人情。西塘古鎮(zhèn)的飲食文化、自然風(fēng)光以及古鎮(zhèn)文化好評(píng)率均在80%以上,說(shuō)明西塘以其獨(dú)特的水鄉(xiāng)風(fēng)貌、優(yōu)美的自然景觀以及深厚的歷史文化底蘊(yùn)吸引了大量游客。
四、發(fā)展對(duì)策
(一)改善入口服務(wù)
研究結(jié)果表明,游客對(duì)入口服務(wù)的正向情感傾向比重明顯低于其他主題。景區(qū)應(yīng)制定合理的定價(jià)策略,如實(shí)行差別定價(jià)策略,在景區(qū)可以接受的范圍內(nèi),相同的旅游項(xiàng)目對(duì)不同的游客如普通游客、兒童、70 歲以上的年老者、殘疾人、現(xiàn)役軍人等定義不同的價(jià)格標(biāo)準(zhǔn)。在節(jié)假日等旅游旺季,票價(jià)定為全價(jià),但在平時(shí)如寒暑假等旅游淡季,票價(jià)就要適當(dāng)下降來(lái)吸引游客。對(duì)不同購(gòu)票渠道采用差別定價(jià),給予提前預(yù)訂的網(wǎng)絡(luò)購(gòu)票一定折扣,刺激消費(fèi)。此外,景區(qū)還可將票價(jià)與旅游商品和服務(wù)相結(jié)合,如實(shí)行捆綁定價(jià)策略,與不同旅游商品進(jìn)行捆綁實(shí)現(xiàn)優(yōu)惠定價(jià)。同時(shí),景區(qū)可實(shí)行組合定價(jià)策略,主要針對(duì)異地游客的全面服務(wù)等。這些定價(jià)策略既能使游客享受到優(yōu)惠的旅游價(jià)格并且游玩盡興,也能確保旅游景區(qū)收入和效益的更大化。
另一方面,景區(qū)應(yīng)對(duì)停車(chē)場(chǎng)的停車(chē)管理問(wèn)題進(jìn)行改進(jìn),最大限度為出行游客帶來(lái)方便,提升游客的滿(mǎn)意度。首先,增加停車(chē)場(chǎng)的綠化,將景區(qū)的標(biāo)志圖案運(yùn)用到停車(chē)場(chǎng)內(nèi)標(biāo)識(shí)牌、路燈桿、垃圾箱等設(shè)施,讓停車(chē)場(chǎng)變成景區(qū)的一道景觀。其次,加大對(duì)景區(qū)內(nèi)摩托車(chē)、電瓶車(chē)、三輪車(chē)等機(jī)動(dòng)車(chē)輛亂停放情況的巡查力度及整治力度,使游客能夠便捷進(jìn)出。最后,適當(dāng)調(diào)整停車(chē)場(chǎng)收費(fèi)制度,做到合理收費(fèi),提升游客旅游體驗(yàn)滿(mǎn)意度。
(二)開(kāi)發(fā)特色旅游產(chǎn)品
通過(guò)對(duì)游客評(píng)論數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)西塘古鎮(zhèn)商業(yè)化程度略高,傳統(tǒng)吳越文化特色產(chǎn)品正在被慢慢淹沒(méi)。過(guò)度的商業(yè)化,使游客很難看到古鎮(zhèn)內(nèi)人民的日常生活狀態(tài),鮮有古鎮(zhèn)人民生活氛圍,就無(wú)法體驗(yàn)當(dāng)?shù)氐娘L(fēng)土人情。情感分析結(jié)果顯示游客積極情感傾向占比最高的兩個(gè)主題是飲食文化和自然風(fēng)光,西塘應(yīng)該繼續(xù)加強(qiáng)和完善其優(yōu)勢(shì)項(xiàng)目,突出本地特色。西塘古鎮(zhèn)被譽(yù)為“酒鎮(zhèn)”,更是中國(guó)酒文化博物館的所在地,西塘黃酒也是國(guó)宴用酒之一。西塘古鎮(zhèn)可以推出體驗(yàn)環(huán)節(jié),如使游客參與黃酒的釀造過(guò)程并對(duì)其進(jìn)行品嘗。這些都是對(duì)當(dāng)?shù)厣铙w驗(yàn)的一個(gè)重要內(nèi)容,尤其對(duì)于北方游客來(lái)講,這些在北方不常見(jiàn)的生活場(chǎng)景一定會(huì)給游客留下深刻的印象。西塘的鎮(zhèn)花是杜鵑花,西塘古鎮(zhèn)素有“杜鵑花之鄉(xiāng)”的美稱(chēng)。因此,可以在旅游旺季每年舉辦一次“西塘杜鵑花花魁賽”,鼓勵(lì)家里養(yǎng)杜鵑花的西塘人拿出家里最好的杜鵑花參加比賽,既可以為景區(qū)增添風(fēng)采、吸引游客,又能為景區(qū)增加濃濃的文化氛圍。
西塘的古建筑大多依水而建,共有24座石橋和122條巷弄,具有橋多、弄多、廊棚多的特點(diǎn)。古鎮(zhèn)內(nèi)水網(wǎng)密集,河道縱橫,形成“三橫一豎”的水網(wǎng)格局,如圖3所示。西塘古鎮(zhèn)將鎮(zhèn)內(nèi)主要幾條水系作為游船線路,古鎮(zhèn)可利用游船項(xiàng)目對(duì)田歌進(jìn)行宣傳。田歌是嘉善地區(qū)寶貴的民族音樂(lè)文化遺產(chǎn),田歌又稱(chēng)吳地歌曲、子夜歌,是嘉善民間流傳下來(lái)的農(nóng)村民歌,主要是農(nóng)民在農(nóng)忙時(shí)唱的歌。將田歌開(kāi)發(fā)為特色旅游產(chǎn)品,在游客游船時(shí)由艄公演唱,使游客可以邊游船,邊聽(tīng)田歌,感受西塘古鎮(zhèn)濃郁的水鄉(xiāng)農(nóng)村特色文化。此外,為田歌塑造文化背景,將其打造為有來(lái)歷、有典故的特色旅游產(chǎn)品,使其更有深度,從而為西塘古鎮(zhèn)營(yíng)造濃厚的文化氛圍,可以開(kāi)發(fā)更大的旅游市場(chǎng)。
(三)完善景區(qū)公共設(shè)施及管理服務(wù)
景區(qū)在開(kāi)發(fā)特色旅游產(chǎn)品的同時(shí)還應(yīng)關(guān)注景區(qū)公共設(shè)施及管理服務(wù)。首先,對(duì)核心區(qū)進(jìn)出口進(jìn)行改進(jìn)。在景區(qū)核心區(qū)內(nèi)增加局部導(dǎo)覽圖的數(shù)量,在景區(qū)主要交叉路口、游覽步道節(jié)點(diǎn)處增設(shè)導(dǎo)覽圖,增加景點(diǎn)、橋梁及文保點(diǎn)的景物介紹牌。在景區(qū)關(guān)鍵節(jié)點(diǎn)、斷頭道路、施工道路等處設(shè)置溫馨提示牌,提示牌的提示文字要做到清晰、醒目。完善景區(qū)的標(biāo)識(shí)系統(tǒng),在景區(qū)核心區(qū)的進(jìn)出口增加出入口的標(biāo)識(shí)設(shè)置。在游客中心入口外側(cè)、旅游景點(diǎn)、無(wú)障礙設(shè)施及其他公共設(shè)施(如游客活動(dòng)場(chǎng)所、餐飲場(chǎng)所、購(gòu)物場(chǎng)所、急救場(chǎng)所、公用電話(huà)等)入口的頂部或者門(mén)側(cè)設(shè)置相應(yīng)的位置標(biāo)志。在旅游景點(diǎn)、居民客棧、購(gòu)物商店和旅游廁所等設(shè)立方向指示牌。對(duì)上述標(biāo)示牌增加夜景效果,便于游客夜間游覽。其次,建立景區(qū)標(biāo)識(shí)系統(tǒng)巡查和維護(hù)保養(yǎng)制度。分片區(qū)或落實(shí)專(zhuān)人進(jìn)行管理維護(hù),及時(shí)修補(bǔ)破損的標(biāo)識(shí)牌,增加缺失標(biāo)識(shí)牌,確保標(biāo)識(shí)牌無(wú)破損并且指示準(zhǔn)確。再次,健全景區(qū)衛(wèi)生及設(shè)施管理制度,加強(qiáng)對(duì)清掃人員管理,全面整頓場(chǎng)地秩序,消除景區(qū)及緩沖區(qū)內(nèi)的亂堆、亂放現(xiàn)象。尤其要清理和整治街區(qū)內(nèi)居民生活物品,商鋪周邊的雜物以及散落在各角落的建筑垃圾等。針對(duì)景區(qū)商鋪人員以及餐廳客棧經(jīng)營(yíng)人員進(jìn)行培訓(xùn),定期對(duì)水面進(jìn)行清理,保持水質(zhì)清澈,禁止居民向河內(nèi)倒入泔水及生活垃圾。提高衛(wèi)生素質(zhì)和服務(wù)水平,對(duì)餐廚垃圾、廢物進(jìn)行科學(xué)分類(lèi)、收集和處理。最后,加強(qiáng)對(duì)建筑的保護(hù)措施,將部分街巷破損的墻體進(jìn)行維修,修復(fù)脫落墻面,保持街道景觀空間的完整和輪廓線優(yōu)美。
(四)加大宣傳力度
西塘有著得天獨(dú)厚的氣候條件和深厚的歷史文化底蘊(yùn)。西塘古鎮(zhèn)地處江南魚(yú)米之鄉(xiāng),江南多雨,空氣濕潤(rùn)且質(zhì)量好,相對(duì)北方的干燥氣候和近年來(lái)肆虐的霧霾,南方濕潤(rùn)清新的空氣會(huì)給游客帶來(lái)良好的旅游體驗(yàn)。為了讓更多人認(rèn)識(shí)和了解西塘,還應(yīng)加大對(duì)西塘古鎮(zhèn)的宣傳力度。首先,可以利用社交軟件微信的傳播能力,經(jīng)營(yíng)微信公眾號(hào),制作與西塘相關(guān)的微信表情包,使公眾產(chǎn)生來(lái)西塘旅游的動(dòng)機(jī)和欲望,進(jìn)而產(chǎn)生旅游的行為。其次,豐富西塘古鎮(zhèn)官網(wǎng),細(xì)化網(wǎng)站關(guān)于西塘特色的區(qū)塊劃分,使網(wǎng)站內(nèi)容更豐富,更具有吸引力。最后,還可邀請(qǐng)明星進(jìn)行代言并拍攝文化宣傳片,塑造西塘古鎮(zhèn)的旅游形象,吸引游客到西塘古鎮(zhèn)旅游,感受別樣的江南風(fēng)景和文化氛圍。
五、結(jié)論
本研究提出了一種基于LDA主題模型和情感傾向分析對(duì)游客評(píng)論進(jìn)行挖掘的方法,從而得出影響西塘古鎮(zhèn)旅游形象的感知因素。通過(guò)對(duì)旅游電商平臺(tái)游客生成的海量數(shù)據(jù)進(jìn)行分析,保證了選取樣本的客觀性和數(shù)據(jù)獲取的全面性。研究表明,游客對(duì)西塘古鎮(zhèn)的商業(yè)化程度、入口服務(wù)以及基礎(chǔ)設(shè)施三方面的滿(mǎn)意度較其他方面明顯不足,好評(píng)率均在75%以下。但從總體評(píng)論情感傾向分析結(jié)果來(lái)看,游客對(duì)西塘古鎮(zhèn)的旅游形象感知呈現(xiàn)積極態(tài)度,積極情感傾向占比為78.8%。另一方面,西塘古鎮(zhèn)的飲食文化、自然風(fēng)光以及古鎮(zhèn)文化的好評(píng)率均在80%以上,說(shuō)明西塘的飲食、古鎮(zhèn)景觀以及古鎮(zhèn)文化深受游客的青睞。因此,西塘古鎮(zhèn)應(yīng)繼續(xù)加強(qiáng)完善優(yōu)勢(shì)項(xiàng)目,結(jié)合自身古鎮(zhèn)文化打造獨(dú)特的自然景觀和文化底蘊(yùn)。另一方面,西塘古鎮(zhèn)應(yīng)彌補(bǔ)其短板項(xiàng)目,制定合理的定價(jià)策略和保護(hù)手段,改善古鎮(zhèn)內(nèi)的公共設(shè)施和服務(wù),從而樹(shù)立良好的古鎮(zhèn)旅游形象。
本文通過(guò)對(duì)旅游電商平臺(tái)上游客的網(wǎng)絡(luò)評(píng)論文本進(jìn)行挖掘分析,取得了一定的成果,但仍然存在不足需要進(jìn)行進(jìn)一步的研究。人類(lèi)的情感具有復(fù)雜性和多樣性,而本文情感分析結(jié)果只有正面和負(fù)面兩個(gè)方面,沒(méi)有考慮到中性情感,因而無(wú)法對(duì)其進(jìn)行全面概括。接下來(lái)嘗試將機(jī)器學(xué)習(xí)方法和基于情感詞典的方法相結(jié)合,取長(zhǎng)補(bǔ)短,完善對(duì)評(píng)論文本的情感分析。本文完成了對(duì)西塘古鎮(zhèn)旅游形象的初步探索,下一步可繼續(xù)探索分析時(shí)間因子對(duì)古鎮(zhèn)旅游形象的影響以及不同類(lèi)型游客視角下的西塘古鎮(zhèn)旅游形象,從而制定更加具有針對(duì)性的提升古鎮(zhèn)旅游形象的策略。
[參考文獻(xiàn)]
[1]? 呂麗輝,陳瑛. 我國(guó)文化遺產(chǎn)地游客滿(mǎn)意度的實(shí)證研究——以西塘古鎮(zhèn)為例[J]. 生產(chǎn)力研究,2016(9):81-85.
[2]? 陳煒,高翔,張萍. 基于游客感知的嘉善縣西塘古鎮(zhèn)旅游服務(wù)質(zhì)量研究[J]. 廣西科技師范學(xué)院學(xué)報(bào),2016,31(4):89-94.
[3]? 嚴(yán)銳,夏柔玥. 江南地區(qū)古鎮(zhèn)商業(yè)化現(xiàn)象分析及對(duì)策——以西塘、周莊為例[J]. 現(xiàn)代營(yíng)銷(xiāo)(下旬刊),2017(2):130-131.
[4]? Choi S J,Lehto X Y,Morrison A M. Destination image representation on the web: content analysis of Macau travel related websites.[J]. Tourism Management,2007,28(1):118-129.
[5]? Bing P,Xiang L. The long tail of destination image and online marketing[J]. Annals of Tourism Research,2011,38(1):132-152.
[6]? K?觟ltringer C,Dickinger A. Analyzing destination branding and image from online sources: A web content mining approach[J]. Journal of Business Research,2015,68(9):1836-1843.
[7]? Kladou S,Mavragani E. Assessing destination image: An online marketing approach and the case of TripAdvisor[J]. Journal of Destination Marketing & Management,2015,4(3):187-193.
[8]? 滕夢(mèng)秦. 基于空間競(jìng)爭(zhēng)關(guān)系的古鎮(zhèn)旅游創(chuàng)新發(fā)展策略——以鳳凰古城與鎮(zhèn)遠(yuǎn)古鎮(zhèn)為例[J]. 甘肅科技,2017,33(15):4-8.
[9]? 孫旭. 論古鎮(zhèn)旅游形象的提升與維護(hù)策略——以浙江省為例[J]. 長(zhǎng)江大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015(8):66-70.
[10]? 徐薛艷,徐暢,高峻. 基于VEP實(shí)驗(yàn)法的江南水鄉(xiāng)古鎮(zhèn)游客感知意象研究——以上海楓涇古鎮(zhèn)為例[J]. 地域研究與開(kāi)發(fā),2017, 36(5):121-126.
[11]? 馬媛媛. 基于旅游者調(diào)查的蜀河古鎮(zhèn)旅游競(jìng)爭(zhēng)力分析[J]. 旅游縱覽(下半月),2016(8):159-160.
[12]? 董癑,徐薛艷. 基于Web2.0圖片交互平臺(tái)的游客旅游意象分析——以楓涇古鎮(zhèn)為例[J]. 旅游論壇,2017,10(2):37-48.
[13]? 高艷,趙振斌,郭瑞斌,等. 基于圖片質(zhì)性分析的太白山背包客旅游行為研究[J]. 河南科學(xué),2015(4):679-685.
[14]? 王懿,黃震方. 基于游客感知的同里古鎮(zhèn)文化旅游品牌營(yíng)銷(xiāo)策略研究[J]. 商業(yè)研究,2015(9):179-185.
[15]? Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research,2003(3): 993-1022.
[16]? Griffiths T L,Steyvers M. Finding scientific topics.[J]. Proc National Academy of Sciences,2004,101(1):5228-5235.
[17]? Minka T,Lafferty J. Expectation-propagation for the generative aspect model[C]//Proceedings of the Eighteenth conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc.,2002: 352-359.
Tourism Image of Xitang Ancient Town Based on LDA and Sentiment Analysis
ZHANG Xuemin, ZHAO Mingyu
(School of Economics and Management, Hebei University of Technology, Tianjin 300401, China)
Abstract: This paper focuses on the tourism image perception factors of Xitang ancient town from the perspective of tourist perception through comprehensive analysis of visitors′ comments on travel services websites via LDA topic model to discover topic classification sets and via Python SnowNLP module to analyze the sentiment orientation of visitors′ comments. The results show that the tourism image perception factors of Xitang are composed of ancient town culture, natural scenery, entrance services, diet culture, commercialization degree and public facilities. The positive sentiment orientation of visitors′ comments account for 78.8%, which indicates that visitors are satisfied with the overall tourism image perception of Xitang. In terms of tourism image perception factors of Xitang, tourists′ satisfaction with entrance service, commercialization degree and public facilities is obviously insufficient, and the favorable rate is below 75%. To stand out among the numerous ancient towns, Xitang should formulate a reasonable pricing strategy, improve access services and public facilities and make full use of the advantages of the project.
Key words: visitors′ comments; LDA topic model; sentiment orientation analysis; Xitang ancient town; tourism image