基于文本挖掘的西部城市旅游滿意度研究
——以攜程西安和成都為例

2022-05-06 13:19:00劉婭婭

科技和產(chǎn)業(yè) 2022年4期

李爽，張政，劉婭婭

(西安財經(jīng)大學(xué) 統(tǒng)計學(xué)院，西安 710100)

隨著信息技術(shù)的發(fā)展和居民生活水平的提高，特別是近年來移動終端設(shè)備的普及，全國網(wǎng)民數(shù)量進(jìn)一步增多，形成了旅游市場巨大的潛在消費群體。第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示，中國2021年網(wǎng)民數(shù)量為10.11億，互聯(lián)網(wǎng)普及率達(dá)到71.6%[1]。據(jù)前瞻產(chǎn)業(yè)研究院數(shù)據(jù)，截至2019年，全國在線旅游市場交易規(guī)模已突破萬億元，用戶規(guī)模突破4億人，其中攜程月活躍用戶規(guī)模居榜首[2]。

成都和西安都位于西部地區(qū)，均是傳統(tǒng)旅游城市。2018年，西安市旅游總收入達(dá)到2 013.2億元，同比增長超過50%；成都市旅游總收入達(dá)到3 712.6億元，同比增長22.4%。作為西部旅游強(qiáng)市，對兩市旅游業(yè)的分析研究具有重要意義。翟若琳[3]采用DEA模型對于西安城市旅游效率進(jìn)行了對比分析；歐啟均等[4]以西安市為例研究了城市旅游客流的網(wǎng)絡(luò)信息驅(qū)動特征變化問題；徐茜[5]以成都為例研究了文創(chuàng)與旅游融合的路徑問題。鮮有文獻(xiàn)對西安、成都兩市的旅游滿意度進(jìn)行比較研究。

用戶滿意度指消費者對產(chǎn)品購買后的使用感知效果與期望進(jìn)行對比后所產(chǎn)生的情緒狀態(tài)。以往學(xué)者已對用戶滿意度做了很多工作[6]，但通過對文獻(xiàn)的梳理發(fā)現(xiàn)，研究者通常采用問卷調(diào)查[7-10]來收集數(shù)據(jù)，但問卷調(diào)查耗費人力物力較多，且樣本數(shù)據(jù)有限[11]，局限性較大。事實上，在線評論中蘊含著用戶的情感傾向，若基于線上評論探索滿意度，則可補充傳統(tǒng)問卷調(diào)查獲取數(shù)據(jù)的不足。近年來，諸多學(xué)者在多個領(lǐng)域運用了文本挖掘的方法研究用戶滿意度。蔡珺哲[12]采用文本挖掘方法研究中國當(dāng)前社交媒體的用戶情感問題；張琰等[13]基于酒店評論研究了不同檔次酒店顧客滿意度的因素對比；黎晶[14]基于決策樹方法對移動互聯(lián)網(wǎng)服務(wù)進(jìn)行滿意度研究；趙楊等[15]利用CNN-SVM方法最終構(gòu)建起評論滿意度得分；郭立秀[16]運用了特征詞匹配方法，精細(xì)化研究了生鮮電商滿意度問題；王媛等[17]基于文本挖掘技術(shù)收集博客中的文本數(shù)據(jù)，據(jù)此研究了游客對古鎮(zhèn)旅游形象的感知問題；劉陽[18]通過文本挖掘研究了哪些因素影響了在線旅游產(chǎn)品的銷量因素；范寧[19]依托在線旅游網(wǎng)站評論，研究了消費者對于民宿滿意度特征；劉婷[20]使用IPA分析法對提高三亞旅游購物滿意水平進(jìn)行研究。

關(guān)于文本的情感分析，Cambria等指出情感分析通過判斷評論的情感極性和強(qiáng)度[21]，在一定程度上能夠反映旅客的滿意度。情感分析方法一般為兩種，一種是情感詞典法。Zhang等[22]定義了相關(guān)領(lǐng)域的情感詞典，并按照詞語傾向性建立了情感傾向分析模型；丁蔚[23]將情感詞典法與機(jī)器學(xué)習(xí)方法相結(jié)合對評論進(jìn)行分類，提高了預(yù)測的準(zhǔn)確性和泛用性；崔志剛[24]將情感分析方法用于分析電商用戶的喜好；劉楠[25]構(gòu)建了多元詞特征分析法對微博短文本進(jìn)行分類，并進(jìn)行情感傾向的研究。另一種是機(jī)器學(xué)習(xí)方法。Li等[26]對評論的情感傾向進(jìn)行聚類分析，最終統(tǒng)計了正面、中性、負(fù)面評論的占比；徐軍等[27]利用樸素貝葉斯和最大熵兩種方法研究情感傾向分類，并比較兩者間最高準(zhǔn)確率；徐琳宏[28]建立文本傾向識別機(jī)制，并使用SVM模型進(jìn)行文本感情傾向分析。張英[29]基于深度神經(jīng)網(wǎng)絡(luò)研究了微博短文本分類和情感預(yù)測問題。鮮有文獻(xiàn)構(gòu)建適用于旅游領(lǐng)域的情感詞典，因此現(xiàn)有研究對旅游評論的情感分析存在偏差。

基于上述討論，利用攜程網(wǎng)西安和成都的旅游在線評論數(shù)據(jù)，通過詞云圖、社會網(wǎng)絡(luò)語義圖、LDA主題模型挖掘旅游滿意度影響因素，構(gòu)建了城市旅游滿意度評價體系。進(jìn)一步構(gòu)建適用于研究的情感詞典，計算指標(biāo)情感值，結(jié)合層次分析法確定指標(biāo)權(quán)重，據(jù)此計算游客的滿意度。所得的指標(biāo)體系不僅可用于西安、成都兩地，也可用于其他城市的旅游滿意度研究，具有一定的通用性。

1 基于文本挖掘的游客滿意度指標(biāo)體系構(gòu)建

1.1 數(shù)據(jù)來源

爬取2016年1月1日至2019年3月1日來自攜程旅游網(wǎng)西安和成都頁面中的跟團(tuán)游項目的在線評論數(shù)據(jù)。西安市實際爬取28 268條數(shù)據(jù)，經(jīng)過預(yù)處理得到18 452條有效數(shù)據(jù)。成都市實際爬取22 450條數(shù)據(jù)，經(jīng)過預(yù)處理得到14 568條有效數(shù)據(jù)。

1.2 游客滿意度影響因素挖掘

1.2.1 基于詞云圖和語義圖的影響因素初探

由于采集到的數(shù)據(jù)量較大，過濾掉部分與研究無關(guān)的詞語，繪制游客滿意度影響因素詞云圖，如圖1所示。圖字體的顏色和大小反映了詞頻高低和重要程度。綜合來看，兩市在線旅游評論反映出的主題有很多相似之處，占兩市詞云圖中顯示面積最大的詞語均是“行程”和“安排”，這兩詞基本可視為同義詞，由于行程路線安排會反映在旅行的價格上，而這些因素又很大程度上決定了游玩的綜合體驗，因此游客的關(guān)注度最高。詞云圖中也顯示出了“峨眉山”“大雁塔”等景點名稱，表明游客對這些知名景點產(chǎn)生了深刻印象，游客可能正是為了此景點而來的。此外，從詞云圖中也可以看出“導(dǎo)游”“講解”也是游客關(guān)注的重點。最后，成都的詞云圖中提及了旅游線路購物方面的問題，這點是西安詞云圖不曾涉及之處。

詞云圖只能大致看出游客們關(guān)注哪些影響因素，但是很難發(fā)現(xiàn)之間的關(guān)聯(lián)，因此可利用網(wǎng)絡(luò)語義圖，進(jìn)一步分析旅游評論的特征。采用ROST CM 6軟件分別對兩市評論進(jìn)行語義網(wǎng)絡(luò)分析，得出的部分結(jié)果如圖2、圖3所示。

圖1 兩市滿意度影響因素的詞云圖對比

圖2 西安旅游影響因素網(wǎng)絡(luò)語義圖

圖3 成都旅游影響因素網(wǎng)絡(luò)語義圖

從兩城網(wǎng)絡(luò)語義圖總體來看，兩城的影響因素較為相似，“行程”“安排”“講解”“導(dǎo)游”“服務(wù)”這幾個詞作為中心節(jié)點連接了其他節(jié)點。進(jìn)一步分析可知，以“導(dǎo)游”為節(jié)點的密切相連的評價詞有“詳細(xì)”“認(rèn)真”“滿意”等詞，說明游客對于導(dǎo)游總體上的評價是相對正面的。另外，導(dǎo)游的“態(tài)度”也是游客關(guān)注的一個要點。這些可以歸納為游客對于導(dǎo)游的服務(wù)非常敏感。以“行程”“安排”為節(jié)點的，與周邊的“住宿”“時間”等形成語義關(guān)系，行程一般是提前在旅游網(wǎng)站上預(yù)定好的線路行程，而實際旅游時由于當(dāng)?shù)厍闆r變化，臨時安排也成為決定游客體驗的一個重要因素。此外，這幾個節(jié)點也都指向了“司機(jī)”這個節(jié)點，可見司機(jī)情況也影響了游客在旅途中的感受。在現(xiàn)實情況中，跟團(tuán)游的游客每天可能會有較長的時間在車輛中，司機(jī)也會相當(dāng)程度上影響游客的體驗。以“講解”為節(jié)點的，與“景點”“熱情”形成了語義關(guān)系，說明游客的旅游體驗中，在景點能否受到好的服務(wù)也是很重要的一點。

綜合以上分析，得出旅游滿意度的影響因素大致包括“行程”“安排”“司機(jī)”“服務(wù)”“導(dǎo)游講解”等。

1.2.2 基于LDA主題模型的影響因素挖掘

上述兩種方法對兩市旅游評論的特征進(jìn)行了初步研究，下面選用LDA主題模型進(jìn)一步分析。在LDA主題模型中，每一句評論可視為一個文檔，找出文檔的主題，通過觀察主題中的特征詞，最終歸納出影響旅游評論的特征因素。LDA的數(shù)學(xué)模型過程描述如下：

詞是組成語料的基本要素，詞庫中的詞匯量視為V，那么可以將該詞表示成一個V維向量，這樣第v個詞出現(xiàn)時，即為向量w的第v個分量wv=1，其他分量wu=0(v≠u)。

文檔是由N個詞組成的序列，可為d=(w1,w2,…,wN)，其中wn是文檔中的第n個詞。

文檔集是M個文檔組成的集合，可為D=(d1,d2,…,dM)，生成的過程為。

選擇N～Possion(ξ)和θ～Dir(α)。

在文檔中生成第n個詞wn：

依據(jù)多項式分布zn～Mutinomial(θ)抽樣所得的主題zn；

根據(jù)概率p(wn|zn)抽樣得到具體的詞wn。

給定參數(shù)α和參數(shù)β，LDA生成文檔d，N個主題Z，N個詞語w的聯(lián)合概率分布為

(1)

通過期望最大化算法求最大似然式(2)從而估計α和β的參數(shù)值，進(jìn)而確定模型

(2)

LDA主題建模的主要問題在于主題數(shù)的確定，可用式(3)困惑度來判斷，其判別標(biāo)準(zhǔn)為在合理數(shù)量范圍內(nèi)選擇困惑度小的主題數(shù)為最優(yōu)，困惑度的計算公式為

(3)

式中：p(w)為測試集中出現(xiàn)的每一個詞的概率；N為測試集中出現(xiàn)的所有詞的個數(shù)。

分別將預(yù)處理好的數(shù)據(jù)輸入LDA主題模型，此處使用Python機(jī)器學(xué)習(xí)工具包scikit-learn進(jìn)行訓(xùn)練，選擇GIbbs Sampling估計模型的后驗參數(shù)。關(guān)于主題數(shù)目，首先根據(jù)詞云圖和語義圖可大致確定主題數(shù)目的范圍為3～8，經(jīng)過人工測試并分析困惑度發(fā)現(xiàn)，當(dāng)主題數(shù)設(shè)為6個時，模型的困惑度較低，特征詞擁有較好的分布，主題的區(qū)分度比較合適，模型的涵蓋度較高。

綜合LDA主題模型來看，景點體驗、行程安排、酒店住宿、導(dǎo)游服務(wù)、導(dǎo)游講解、地區(qū)旅游特質(zhì)、司機(jī)情況這7種特征基本涵蓋了游客對西安和成都旅游方面的大部分特征，因此可以選這7個因素作為特征因素作為進(jìn)一步分析滿意度的依據(jù)。地區(qū)旅游特質(zhì)指的是某地的旅游特色。

1.2.3 滿意度評價體系構(gòu)建

1.2.3.1 詞性標(biāo)注

詞性標(biāo)注是對句中詞匯確定詞性，詞性成分主要包括名詞、動詞和形容詞等，為下一步確定特征對評論精細(xì)分類做準(zhǔn)備。采用Python中的jieba模塊對兩市評論進(jìn)行分詞標(biāo)注。

1.2.3.2 特征情感詞對的匹配

用分詞和詞性標(biāo)注的結(jié)果，結(jié)合特征詞和情感詞對的抽取，總結(jié)特征詞與情感詞共同出現(xiàn)的詞法模板，根據(jù)這些模板匹配評論數(shù)據(jù)，從而得到所有的關(guān)系對。匹配好的詞對數(shù)量和示例見表1。

表1 西安-成都兩市評論各特征詞對數(shù)量單位：對

匹配之后進(jìn)行特征情感詞對的抽取。選用谷歌開發(fā)的Word2vec模型對已經(jīng)確定的特征詞對進(jìn)行擴(kuò)充，將這些詞輸入CBOW模型進(jìn)行訓(xùn)練，最終計算出各個詞匯的相似度，使用K-means方法對詞匯進(jìn)行聚類。將指標(biāo)“景點”“行程安排”“酒店住宿”“導(dǎo)游服務(wù)”“導(dǎo)游講解”“西安旅游特征”“成都旅游特征”“司機(jī)情況”使用上述模型，分別得出7個特征詞對應(yīng)的相似度最高的前10個詞匯，得出與這7個特征方面關(guān)系相近的詞匯，見表2。

表2 游客滿意度指標(biāo)和對應(yīng)的相似詞

在得出特征詞相似詞的集合后，下一步進(jìn)行篩選特征情感詞對操作，首先找出特定詞性組合的詞對，再進(jìn)一步使用正則表達(dá)式方法找出含有特征詞的詞對集合，最后刪去一些明顯無意義和錯誤的詞對，完成篩選。具體流程如圖4所示。

圖4 詞對抽取流程圖

抽取的詞對示例：[旅游景點/n, 不錯/a；景區(qū)/n]；[最好/a 景點/n, 完全/a]；[服務(wù)態(tài)度/n, 好/a 景點/n, 壯觀/a]；[整體/n, 不錯/a 路線/n, 不錯/a 導(dǎo)游/n, 不錯/a]。

2 游客滿意度的度量

2.1 評論情感值的計算

2.1.1 構(gòu)建情感詞庫

情感詞典的含義是指表達(dá)人們?nèi)粘ＵZ言中含有情感傾向詞語所構(gòu)成的詞典，表示情感傾向的詞語主要包括消極詞和積極詞。所使用的情感詞典是知網(wǎng)情感詞典和Boson情感詞典。并將獲取到的在線旅游評論中的網(wǎng)絡(luò)詞相關(guān)情感詞也添加進(jìn)去，如“太爽了”“炒雞棒”“炫酷”等詞。添加的方法仍然是將詞綴為/a的詞用正則表達(dá)式的方法篩選出來，再人工篩選出其中能表示情感傾向的網(wǎng)絡(luò)詞語。

將上述相關(guān)網(wǎng)絡(luò)詞匯添加完畢后，就得到了可以使用的綜合情感詞匯表，此外還需要建立副詞詞表，因為“很”“非?！币约啊坝悬c”“稍微”“太”這些程度副詞中蘊含了對于情感的暗中褒貶，隱藏了一定的情緒意義。當(dāng)這些程度副詞之前或之后跟隨情感詞時，這個詞組表達(dá)的情感含義就將會和單獨情感詞表達(dá)的詞義產(chǎn)生一定程度上的偏移。因此，在使用基于詞典方法的情感分析時，需要將這些程度副詞也加以挑選出并賦值。這里的副詞詞表一部分源于知網(wǎng)程度副詞詞表，一部分人工添加，這些程度副詞分為5個等級，其中權(quán)重大小參考了已有的研究成果[28]，見表3。

表3 副詞權(quán)重

否定詞在性質(zhì)上與程度副詞的性質(zhì)類似，但不同的是，否定詞會直接改變情感詞的原本情感指向。所使用的否定詞詞表是從互聯(lián)網(wǎng)上獲得的，再添加適合在線旅游評論的否定詞。新添加的否定詞的分?jǐn)?shù)以-1作為權(quán)值，共計68個。

2.1.2 短句情感值的計算

利用構(gòu)建的情感詞庫對短句的特征詞進(jìn)行情感計算。通過確定特征值的位置，進(jìn)一步確定特征詞位置附近的相關(guān)詞匯，進(jìn)而綜合計算出短句的情感得分。具體分以下幾種情況，利用Python編程分別計算：

1)短句中不含情感詞。識別出短句有特征詞但沒有情感詞，則該短句的情感值為0，可以將其視為中性句子。

2)短句中只包含情感詞。即特征詞與情感詞組合，計算方法是依據(jù)情感詞詞表的相應(yīng)權(quán)值，依次進(jìn)行計算即可得出句子的情感值。

3)短句中包含了程度副詞但不含否定詞。計算方法為依據(jù)情感詞表和副詞詞表的相應(yīng)權(quán)重，綜合計算情感值。

4)短句中含有否定詞。共兩種情況，一是特征詞+否定詞+情感詞，二是特征詞+否定詞+副詞+情感詞。其計算公式為

(4)

式中：n代表副詞個數(shù)；m代表否定詞個數(shù)；g代表否定詞權(quán)值的選定，否定詞為奇數(shù)時，為-1，為偶數(shù)則為1，再根據(jù)構(gòu)建的情感詞表、副詞詞表相應(yīng)的權(quán)重，計算短句情感值。

2.1.3 西安-成都兩市各指標(biāo)評論情感分布

根據(jù)評論情感值的正負(fù)情況可以將評論分為正面情感和負(fù)面情感，兩市各特征的情感分布情況如圖5所示。

圖5 攜程西安-成都旅游評論情感極性對比

由圖5可以看出，兩市所有特征的正面情感占比均在85%以上，在地區(qū)旅游特質(zhì)方面，西安正面情感比例高于成都4個百分點；在司機(jī)服務(wù)方面，兩市持平，占比為88%，相對于其他特征來說評價不算好；在其他5個方面，成都正面情感占比均高于西安。西安市的7個特征中，地區(qū)旅游特質(zhì)的正面評論占比最高，而游客有關(guān)住宿酒店的正面情感占比最低；成都市的導(dǎo)游講解與服務(wù)特征的正面情感占比最高，地區(qū)旅游特質(zhì)和司機(jī)服務(wù)特征正面情感占比最低。

2.2 游客滿意度指標(biāo)體系構(gòu)建與計算

2.2.1 確定指標(biāo)權(quán)重

采用層次分析法計算各個評價指標(biāo)的權(quán)重。層次分析法的判斷矩陣構(gòu)造并未采用傳統(tǒng)的專家打分法，而是結(jié)合西安及成都客觀數(shù)據(jù)，依據(jù)兩指標(biāo)的比例差，將其范圍與標(biāo)度對應(yīng)起來。具體占比見表4。

表4 范圍標(biāo)度比例差

根據(jù)表4得出的各指標(biāo)之間的比例，構(gòu)造判斷矩陣并計算各指標(biāo)的權(quán)重向量。判斷矩陣采用Saaty的1～9級標(biāo)度法，該法對比時采用相對尺度，以盡可能減少性質(zhì)不同因素相互比較的困難，提高準(zhǔn)確度。表4中計算出來的最大比例差為0.604 8，共有9級標(biāo)度，因此以0.06為單位劃分標(biāo)度。

在使用層次分析法計算權(quán)重的過程中，需要對判斷矩陣進(jìn)行層次排序以及檢驗一致性。一致性檢驗是通過計算一致性指數(shù)CI與平均隨機(jī)一致性指標(biāo)RI的比值CR來檢驗，CI的公式為

(5)

(6)

式中：λmax為判斷矩陣的最大特征根；RI則可以根據(jù)矩陣的階數(shù)查表得出。當(dāng)CR<0.1時，判斷矩陣的一致性是可以接受的，若CR>0.1，則需要對矩陣進(jìn)行修正。

根據(jù)計算可得，要素層CR=0.086，旅途安排類CR=0.002，導(dǎo)游類特色CR=0,皆符合一致性檢驗要求。整合上述各因素權(quán)重，計算綜合權(quán)重，結(jié)果見表5。

表5 指標(biāo)體系綜合權(quán)重

可以看出在指標(biāo)評價體系中，旅途安排類因素在整體評價中相對重要，其次是導(dǎo)游類因素，而旅游特色因素雖受到游客關(guān)注但占比不高，在指標(biāo)層的因素中，行程安排和導(dǎo)游服務(wù)最受游客關(guān)注。

2.2.2 西安-成都兩市旅游滿意度的計算

依據(jù)已經(jīng)得出的權(quán)重和特征詞情感值，游客的滿意度計算公式為

C=∑Wi∑WjXj

(7)

式中:C代表游客滿意度；Wi代表要素層的權(quán)重；Wj代表指標(biāo)層的權(quán)重；Xj代表各個特征詞的綜合情感值。

根據(jù)式(7)，計算得到各個指標(biāo)下的滿意度，最終得到兩市的綜合滿意度見表6。西安的綜合滿意度為11.3，成都為13.207，表明總體上來說游客對成都的旅游滿意度高于西安1.907。西安在景點體驗和旅游特色方面的滿意度高于成都，主要是其擁有悠久的歷史文化古跡，旅游特色滿意度高；導(dǎo)游服務(wù)、導(dǎo)游講解、形成安排和司機(jī)服務(wù)方面，成都的滿意度高于西安。特別的，在行程安排方面成都的滿意度高于西安1.175，表明成都在行程安排方面比西安做得好。

表6 兩城市綜合滿意度

3 結(jié)論與討論

在線評論數(shù)據(jù)反映了游客的游覽體驗和情感，既可以為潛在消費者提供旅游借鑒，也可以為城市改進(jìn)旅游服務(wù)提供信息反饋。本文結(jié)合詞云圖、網(wǎng)絡(luò)語義圖和LDA主題模型挖掘游客滿意度影響因素，并根據(jù)同義詞聚合方法，提取7項特征作為評價指標(biāo)。進(jìn)一步，基于情感分析和層次分析法計算出兩市各旅游評價特征的權(quán)重和得分，構(gòu)建滿意度指標(biāo)評價體系。結(jié)果顯示，滿意度影響因素中最重要的是行程安排和導(dǎo)游，成都市綜合旅游滿意度略高于西安市。

篩選出的7項評價指標(biāo)不僅適于西安成都兩市，也基本涵蓋了國內(nèi)旅游體驗的各個方面，具有一定的普遍性。從基于文本挖掘的旅游滿意度評價體系構(gòu)建過程與傳統(tǒng)基于問卷調(diào)查方式對比來看，后者一般是事前已經(jīng)設(shè)計好評價指標(biāo)體系，然后結(jié)合評價指標(biāo)設(shè)置問卷問題，而前者則需要首先挖掘數(shù)據(jù)確定特征指標(biāo)，并結(jié)合情感分析方法，構(gòu)建評價體系。總的來說，基于在線評論的旅游滿意度分析方法樣本的代表性較為充足，可以節(jié)省大量人力、物力成本。當(dāng)然這并不意味問卷調(diào)查方法已不重要，由于在線評論沒有顯示評價者年齡、職業(yè)等信息，這正好可結(jié)合問卷調(diào)查等方法來彌補。因此，探索多源數(shù)據(jù)的融合技術(shù)，是下一步值得研究的問題。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于文本挖掘的西部城市旅游滿意度研究——以攜程西安和成都為例