李 爽, 張 政, 劉婭婭
(西安財經(jīng)大學(xué) 統(tǒng)計學(xué)院, 西安 710100)
隨著信息技術(shù)的發(fā)展和居民生活水平的提高,特別是近年來移動終端設(shè)備的普及,全國網(wǎng)民數(shù)量進(jìn)一步增多,形成了旅游市場巨大的潛在消費群體。第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,中國2021年網(wǎng)民數(shù)量為10.11億,互聯(lián)網(wǎng)普及率達(dá)到71.6%[1]。據(jù)前瞻產(chǎn)業(yè)研究院數(shù)據(jù),截至2019年,全國在線旅游市場交易規(guī)模已突破萬億元,用戶規(guī)模突破4億人,其中攜程月活躍用戶規(guī)模居榜首[2]。
成都和西安都位于西部地區(qū),均是傳統(tǒng)旅游城市。2018年,西安市旅游總收入達(dá)到2 013.2億元,同比增長超過50%;成都市旅游總收入達(dá)到3 712.6億元,同比增長22.4%。作為西部旅游強(qiáng)市,對兩市旅游業(yè)的分析研究具有重要意義。翟若琳[3]采用DEA模型對于西安城市旅游效率進(jìn)行了對比分析;歐啟均等[4]以西安市為例研究了城市旅游客流的網(wǎng)絡(luò)信息驅(qū)動特征變化問題;徐茜[5]以成都為例研究了文創(chuàng)與旅游融合的路徑問題。鮮有文獻(xiàn)對西安、成都兩市的旅游滿意度進(jìn)行比較研究。
用戶滿意度指消費者對產(chǎn)品購買后的使用感知效果與期望進(jìn)行對比后所產(chǎn)生的情緒狀態(tài)。以往學(xué)者已對用戶滿意度做了很多工作[6],但通過對文獻(xiàn)的梳理發(fā)現(xiàn),研究者通常采用問卷調(diào)查[7-10]來收集數(shù)據(jù),但問卷調(diào)查耗費人力物力較多,且樣本數(shù)據(jù)有限[11],局限性較大。事實上,在線評論中蘊含著用戶的情感傾向,若基于線上評論探索滿意度,則可補充傳統(tǒng)問卷調(diào)查獲取數(shù)據(jù)的不足。近年來,諸多學(xué)者在多個領(lǐng)域運用了文本挖掘的方法研究用戶滿意度。蔡珺哲[12]采用文本挖掘方法研究中國當(dāng)前社交媒體的用戶情感問題;張琰等[13]基于酒店評論研究了不同檔次酒店顧客滿意度的因素對比;黎晶[14]基于決策樹方法對移動互聯(lián)網(wǎng)服務(wù)進(jìn)行滿意度研究;趙楊等[15]利用CNN-SVM方法最終構(gòu)建起評論滿意度得分;郭立秀[16]運用了特征詞匹配方法,精細(xì)化研究了生鮮電商滿意度問題;王媛等[17]基于文本挖掘技術(shù)收集博客中的文本數(shù)據(jù),據(jù)此研究了游客對古鎮(zhèn)旅游形象的感知問題;劉陽[18]通過文本挖掘研究了哪些因素影響了在線旅游產(chǎn)品的銷量因素;范寧[19]依托在線旅游網(wǎng)站評論,研究了消費者對于民宿滿意度特征;劉婷[20]使用IPA分析法對提高三亞旅游購物滿意水平進(jìn)行研究。
關(guān)于文本的情感分析,Cambria等指出情感分析通過判斷評論的情感極性和強(qiáng)度[21],在一定程度上能夠反映旅客的滿意度。情感分析方法一般為兩種,一種是情感詞典法。Zhang等[22]定義了相關(guān)領(lǐng)域的情感詞典,并按照詞語傾向性建立了情感傾向分析模型;丁蔚[23]將情感詞典法與機(jī)器學(xué)習(xí)方法相結(jié)合對評論進(jìn)行分類,提高了預(yù)測的準(zhǔn)確性和泛用性;崔志剛[24]將情感分析方法用于分析電商用戶的喜好;劉楠[25]構(gòu)建了多元詞特征分析法對微博短文本進(jìn)行分類,并進(jìn)行情感傾向的研究。另一種是機(jī)器學(xué)習(xí)方法。Li等[26]對評論的情感傾向進(jìn)行聚類分析,最終統(tǒng)計了正面、中性、負(fù)面評論的占比;徐軍等[27]利用樸素貝葉斯和最大熵兩種方法研究情感傾向分類,并比較兩者間最高準(zhǔn)確率;徐琳宏[28]建立文本傾向識別機(jī)制,并使用SVM模型進(jìn)行文本感情傾向分析。張英[29]基于深度神經(jīng)網(wǎng)絡(luò)研究了微博短文本分類和情感預(yù)測問題。鮮有文獻(xiàn)構(gòu)建適用于旅游領(lǐng)域的情感詞典,因此現(xiàn)有研究對旅游評論的情感分析存在偏差。
基于上述討論,利用攜程網(wǎng)西安和成都的旅游在線評論數(shù)據(jù),通過詞云圖、社會網(wǎng)絡(luò)語義圖、LDA主題模型挖掘旅游滿意度影響因素,構(gòu)建了城市旅游滿意度評價體系。進(jìn)一步構(gòu)建適用于研究的情感詞典,計算指標(biāo)情感值,結(jié)合層次分析法確定指標(biāo)權(quán)重,據(jù)此計算游客的滿意度。所得的指標(biāo)體系不僅可用于西安、成都兩地,也可用于其他城市的旅游滿意度研究,具有一定的通用性。
爬取2016年1月1日至2019年3月1日來自攜程旅游網(wǎng)西安和成都頁面中的跟團(tuán)游項目的在線評論數(shù)據(jù)。西安市實際爬取28 268條數(shù)據(jù),經(jīng)過預(yù)處理得到18 452條有效數(shù)據(jù)。成都市實際爬取22 450條數(shù)據(jù),經(jīng)過預(yù)處理得到14 568條有效數(shù)據(jù)。
1.2.1 基于詞云圖和語義圖的影響因素初探
由于采集到的數(shù)據(jù)量較大,過濾掉部分與研究無關(guān)的詞語,繪制游客滿意度影響因素詞云圖,如圖1所示。圖字體的顏色和大小反映了詞頻高低和重要程度。綜合來看,兩市在線旅游評論反映出的主題有很多相似之處,占兩市詞云圖中顯示面積最大的詞語均是“行程”和“安排”,這兩詞基本可視為同義詞,由于行程路線安排會反映在旅行的價格上,而這些因素又很大程度上決定了游玩的綜合體驗,因此游客的關(guān)注度最高。詞云圖中也顯示出了“峨眉山”“大雁塔”等景點名稱,表明游客對這些知名景點產(chǎn)生了深刻印象,游客可能正是為了此景點而來的。此外,從詞云圖中也可以看出“導(dǎo)游”“講解”也是游客關(guān)注的重點。最后,成都的詞云圖中提及了旅游線路購物方面的問題,這點是西安詞云圖不曾涉及之處。
詞云圖只能大致看出游客們關(guān)注哪些影響因素,但是很難發(fā)現(xiàn)之間的關(guān)聯(lián),因此可利用網(wǎng)絡(luò)語義圖,進(jìn)一步分析旅游評論的特征。采用ROST CM 6軟件分別對兩市評論進(jìn)行語義網(wǎng)絡(luò)分析,得出的部分結(jié)果如圖2、圖3所示。
圖1 兩市滿意度影響因素的詞云圖對比
圖2 西安旅游影響因素網(wǎng)絡(luò)語義圖
圖3 成都旅游影響因素網(wǎng)絡(luò)語義圖
從兩城網(wǎng)絡(luò)語義圖總體來看,兩城的影響因素較為相似,“行程”“安排”“講解”“導(dǎo)游”“服務(wù)”這幾個詞作為中心節(jié)點連接了其他節(jié)點。進(jìn)一步分析可知,以“導(dǎo)游”為節(jié)點的密切相連的評價詞有“詳細(xì)”“認(rèn)真”“滿意”等詞,說明游客對于導(dǎo)游總體上的評價是相對正面的。另外,導(dǎo)游的“態(tài)度”也是游客關(guān)注的一個要點。這些可以歸納為游客對于導(dǎo)游的服務(wù)非常敏感。以“行程”“安排”為節(jié)點的,與周邊的“住宿”“時間”等形成語義關(guān)系,行程一般是提前在旅游網(wǎng)站上預(yù)定好的線路行程,而實際旅游時由于當(dāng)?shù)厍闆r變化,臨時安排也成為決定游客體驗的一個重要因素。此外,這幾個節(jié)點也都指向了“司機(jī)”這個節(jié)點,可見司機(jī)情況也影響了游客在旅途中的感受。在現(xiàn)實情況中,跟團(tuán)游的游客每天可能會有較長的時間在車輛中,司機(jī)也會相當(dāng)程度上影響游客的體驗。以“講解”為節(jié)點的,與“景點”“熱情”形成了語義關(guān)系,說明游客的旅游體驗中,在景點能否受到好的服務(wù)也是很重要的一點。
綜合以上分析,得出旅游滿意度的影響因素大致包括“行程”“安排”“司機(jī)”“服務(wù)”“導(dǎo)游講解”等。
1.2.2 基于LDA主題模型的影響因素挖掘
上述兩種方法對兩市旅游評論的特征進(jìn)行了初步研究,下面選用LDA主題模型進(jìn)一步分析。在LDA主題模型中,每一句評論可視為一個文檔,找出文檔的主題,通過觀察主題中的特征詞,最終歸納出影響旅游評論的特征因素。LDA的數(shù)學(xué)模型過程描述如下:
詞是組成語料的基本要素,詞庫中的詞匯量視為V,那么可以將該詞表示成一個V維向量,這樣第v個詞出現(xiàn)時,即為向量w的第v個分量wv=1,其他分量wu=0(v≠u)。
文檔是由N個詞組成的序列,可為d=(w1,w2,…,wN),其中wn是文檔中的第n個詞。
文檔集是M個文檔組成的集合,可為D=(d1,d2,…,dM),生成的過程為。
選擇N~Possion(ξ)和θ~Dir(α)。
在文檔中生成第n個詞wn:
依據(jù)多項式分布zn~Mutinomial(θ)抽樣所得的主題zn;
根據(jù)概率p(wn|zn)抽樣得到具體的詞wn。
給定參數(shù)α和參數(shù)β,LDA生成文檔d,N個主題Z,N個詞語w的聯(lián)合概率分布為
(1)
通過期望最大化算法求最大似然式(2)從而估計α和β的參數(shù)值,進(jìn)而確定模型
(2)
LDA主題建模的主要問題在于主題數(shù)的確定,可用式(3)困惑度來判斷,其判別標(biāo)準(zhǔn)為在合理數(shù)量范圍內(nèi)選擇困惑度小的主題數(shù)為最優(yōu),困惑度的計算公式為
(3)
式中:p(w)為測試集中出現(xiàn)的每一個詞的概率;N為測試集中出現(xiàn)的所有詞的個數(shù)。
分別將預(yù)處理好的數(shù)據(jù)輸入LDA主題模型,此處使用Python機(jī)器學(xué)習(xí)工具包scikit-learn進(jìn)行訓(xùn)練,選擇GIbbs Sampling估計模型的后驗參數(shù)。關(guān)于主題數(shù)目,首先根據(jù)詞云圖和語義圖可大致確定主題數(shù)目的范圍為3~8,經(jīng)過人工測試并分析困惑度發(fā)現(xiàn),當(dāng)主題數(shù)設(shè)為6個時,模型的困惑度較低,特征詞擁有較好的分布,主題的區(qū)分度比較合適,模型的涵蓋度較高。
綜合LDA主題模型來看,景點體驗、行程安排、酒店住宿、導(dǎo)游服務(wù)、導(dǎo)游講解、地區(qū)旅游特質(zhì)、司機(jī)情況這7種特征基本涵蓋了游客對西安和成都旅游方面的大部分特征,因此可以選這7個因素作為特征因素作為進(jìn)一步分析滿意度的依據(jù)。地區(qū)旅游特質(zhì)指的是某地的旅游特色。
1.2.3 滿意度評價體系構(gòu)建
1.2.3.1 詞性標(biāo)注
詞性標(biāo)注是對句中詞匯確定詞性,詞性成分主要包括名詞、動詞和形容詞等,為下一步確定特征對評論精細(xì)分類做準(zhǔn)備。采用Python中的jieba模塊對兩市評論進(jìn)行分詞標(biāo)注。
1.2.3.2 特征情感詞對的匹配
用分詞和詞性標(biāo)注的結(jié)果,結(jié)合特征詞和情感詞對的抽取,總結(jié)特征詞與情感詞共同出現(xiàn)的詞法模板,根據(jù)這些模板匹配評論數(shù)據(jù),從而得到所有的關(guān)系對。匹配好的詞對數(shù)量和示例見表1。
表1 西安-成都兩市評論各特征詞對數(shù)量 單位:對
匹配之后進(jìn)行特征情感詞對的抽取。選用谷歌開發(fā)的Word2vec模型對已經(jīng)確定的特征詞對進(jìn)行擴(kuò)充,將這些詞輸入CBOW模型進(jìn)行訓(xùn)練,最終計算出各個詞匯的相似度,使用K-means方法對詞匯進(jìn)行聚類。將指標(biāo)“景點”“行程安排”“酒店住宿”“導(dǎo)游服務(wù)”“導(dǎo)游講解”“西安旅游特征”“成都旅游特征”“司機(jī)情況”使用上述模型,分別得出7個特征詞對應(yīng)的相似度最高的前10個詞匯,得出與這7個特征方面關(guān)系相近的詞匯,見表2。
表2 游客滿意度指標(biāo)和對應(yīng)的相似詞
在得出特征詞相似詞的集合后,下一步進(jìn)行篩選特征情感詞對操作,首先找出特定詞性組合的詞對,再進(jìn)一步使用正則表達(dá)式方法找出含有特征詞的詞對集合,最后刪去一些明顯無意義和錯誤的詞對,完成篩選。具體流程如圖4所示。
圖4 詞對抽取流程圖
抽取的詞對示例:[旅游景點/n, 不錯/a;景區(qū)/n];[最好/a 景點/n, 完全/a];[服務(wù)態(tài)度/n, 好/a 景點/n, 壯觀/a];[整體/n, 不錯/a 路線/n, 不錯/a 導(dǎo)游/n, 不錯/a]。
2.1.1 構(gòu)建情感詞庫
情感詞典的含義是指表達(dá)人們?nèi)粘UZ言中含有情感傾向詞語所構(gòu)成的詞典,表示情感傾向的詞語主要包括消極詞和積極詞。所使用的情感詞典是知網(wǎng)情感詞典和Boson情感詞典。并將獲取到的在線旅游評論中的網(wǎng)絡(luò)詞相關(guān)情感詞也添加進(jìn)去,如“太爽了”“炒雞棒”“炫酷”等詞。添加的方法仍然是將詞綴為/a的詞用正則表達(dá)式的方法篩選出來,再人工篩選出其中能表示情感傾向的網(wǎng)絡(luò)詞語。
將上述相關(guān)網(wǎng)絡(luò)詞匯添加完畢后,就得到了可以使用的綜合情感詞匯表,此外還需要建立副詞詞表,因為“很”“非?!币约啊坝悬c”“稍微”“太”這些程度副詞中蘊含了對于情感的暗中褒貶,隱藏了一定的情緒意義。當(dāng)這些程度副詞之前或之后跟隨情感詞時,這個詞組表達(dá)的情感含義就將會和單獨情感詞表達(dá)的詞義產(chǎn)生一定程度上的偏移。因此,在使用基于詞典方法的情感分析時,需要將這些程度副詞也加以挑選出并賦值。這里的副詞詞表一部分源于知網(wǎng)程度副詞詞表,一部分人工添加,這些程度副詞分為5個等級,其中權(quán)重大小參考了已有的研究成果[28],見表3。
表3 副詞權(quán)重
否定詞在性質(zhì)上與程度副詞的性質(zhì)類似,但不同的是,否定詞會直接改變情感詞的原本情感指向。所使用的否定詞詞表是從互聯(lián)網(wǎng)上獲得的,再添加適合在線旅游評論的否定詞。新添加的否定詞的分?jǐn)?shù)以-1作為權(quán)值,共計68個。
2.1.2 短句情感值的計算
利用構(gòu)建的情感詞庫對短句的特征詞進(jìn)行情感計算。通過確定特征值的位置,進(jìn)一步確定特征詞位置附近的相關(guān)詞匯,進(jìn)而綜合計算出短句的情感得分。具體分以下幾種情況,利用Python編程分別計算:
1)短句中不含情感詞。識別出短句有特征詞但沒有情感詞,則該短句的情感值為0,可以將其視為中性句子。
2)短句中只包含情感詞。即特征詞與情感詞組合,計算方法是依據(jù)情感詞詞表的相應(yīng)權(quán)值,依次進(jìn)行計算即可得出句子的情感值。
3)短句中包含了程度副詞但不含否定詞。計算方法為依據(jù)情感詞表和副詞詞表的相應(yīng)權(quán)重,綜合計算情感值。
4)短句中含有否定詞。共兩種情況,一是特征詞+否定詞+情感詞,二是特征詞+否定詞+副詞+情感詞。其計算公式為
(4)
式中:n代表副詞個數(shù);m代表否定詞個數(shù);g代表否定詞權(quán)值的選定,否定詞為奇數(shù)時,為-1,為偶數(shù)則為1,再根據(jù)構(gòu)建的情感詞表、副詞詞表相應(yīng)的權(quán)重,計算短句情感值。
2.1.3 西安-成都兩市各指標(biāo)評論情感分布
根據(jù)評論情感值的正負(fù)情況可以將評論分為正面情感和負(fù)面情感,兩市各特征的情感分布情況如圖5所示。
圖5 攜程西安-成都旅游評論情感極性對比
由圖5可以看出,兩市所有特征的正面情感占比均在85%以上,在地區(qū)旅游特質(zhì)方面,西安正面情感比例高于成都4個百分點;在司機(jī)服務(wù)方面,兩市持平,占比為88%,相對于其他特征來說評價不算好;在其他5個方面,成都正面情感占比均高于西安。西安市的7個特征中, 地區(qū)旅游特質(zhì)的正面評論占比最高,而游客有關(guān)住宿酒店的正面情感占比最低;成都市的導(dǎo)游講解與服務(wù)特征的正面情感占比最高,地區(qū)旅游特質(zhì)和司機(jī)服務(wù)特征正面情感占比最低。
2.2.1 確定指標(biāo)權(quán)重
采用層次分析法計算各個評價指標(biāo)的權(quán)重。層次分析法的判斷矩陣構(gòu)造并未采用傳統(tǒng)的專家打分法,而是結(jié)合西安及成都客觀數(shù)據(jù),依據(jù)兩指標(biāo)的比例差,將其范圍與標(biāo)度對應(yīng)起來。具體占比見表4。
表4 范圍標(biāo)度比例差
根據(jù)表4得出的各指標(biāo)之間的比例,構(gòu)造判斷矩陣并計算各指標(biāo)的權(quán)重向量。判斷矩陣采用Saaty的1~9級標(biāo)度法,該法對比時采用相對尺度,以盡可能減少性質(zhì)不同因素相互比較的困難,提高準(zhǔn)確度。表4中計算出來的最大比例差為0.604 8,共有9級標(biāo)度,因此以0.06為單位劃分標(biāo)度。
在使用層次分析法計算權(quán)重的過程中,需要對判斷矩陣進(jìn)行層次排序以及檢驗一致性。一致性檢驗是通過計算一致性指數(shù)CI與平均隨機(jī)一致性指標(biāo)RI的比值CR來檢驗,CI的公式為
(5)
(6)
式中:λmax為判斷矩陣的最大特征根;RI則可以根據(jù)矩陣的階數(shù)查表得出。當(dāng)CR<0.1時,判斷矩陣的一致性是可以接受的,若CR>0.1,則需要對矩陣進(jìn)行修正。
根據(jù)計算可得,要素層CR=0.086,旅途安排類CR=0.002,導(dǎo)游類特色CR=0,皆符合一致性檢驗要求。整合上述各因素權(quán)重,計算綜合權(quán)重,結(jié)果見表5。
表5 指標(biāo)體系綜合權(quán)重
可以看出在指標(biāo)評價體系中,旅途安排類因素在整體評價中相對重要,其次是導(dǎo)游類因素,而旅游特色因素雖受到游客關(guān)注但占比不高,在指標(biāo)層的因素中,行程安排和導(dǎo)游服務(wù)最受游客關(guān)注。
2.2.2 西安-成都兩市旅游滿意度的計算
依據(jù)已經(jīng)得出的權(quán)重和特征詞情感值,游客的滿意度計算公式為
C=∑Wi∑WjXj
(7)
式中:C代表游客滿意度;Wi代表要素層的權(quán)重;Wj代表指標(biāo)層的權(quán)重;Xj代表各個特征詞的綜合情感值。
根據(jù)式(7),計算得到各個指標(biāo)下的滿意度,最終得到兩市的綜合滿意度見表6。西安的綜合滿意度為11.3,成都為13.207,表明總體上來說游客對成都的旅游滿意度高于西安1.907。西安在景點體驗和旅游特色方面的滿意度高于成都,主要是其擁有悠久的歷史文化古跡,旅游特色滿意度高;導(dǎo)游服務(wù)、導(dǎo)游講解、形成安排和司機(jī)服務(wù)方面,成都的滿意度高于西安。特別的,在行程安排方面成都的滿意度高于西安1.175,表明成都在行程安排方面比西安做得好。
表6 兩城市綜合滿意度
在線評論數(shù)據(jù)反映了游客的游覽體驗和情感,既可以為潛在消費者提供旅游借鑒,也可以為城市改進(jìn)旅游服務(wù)提供信息反饋。本文結(jié)合詞云圖、網(wǎng)絡(luò)語義圖和LDA主題模型挖掘游客滿意度影響因素,并根據(jù)同義詞聚合方法,提取7項特征作為評價指標(biāo)。進(jìn)一步,基于情感分析和層次分析法計算出兩市各旅游評價特征的權(quán)重和得分,構(gòu)建滿意度指標(biāo)評價體系。結(jié)果顯示,滿意度影響因素中最重要的是行程安排和導(dǎo)游,成都市綜合旅游滿意度略高于西安市。
篩選出的7項評價指標(biāo)不僅適于西安成都兩市,也基本涵蓋了國內(nèi)旅游體驗的各個方面,具有一定的普遍性。從基于文本挖掘的旅游滿意度評價體系構(gòu)建過程與傳統(tǒng)基于問卷調(diào)查方式對比來看,后者一般是事前已經(jīng)設(shè)計好評價指標(biāo)體系,然后結(jié)合評價指標(biāo)設(shè)置問卷問題,而前者則需要首先挖掘數(shù)據(jù)確定特征指標(biāo),并結(jié)合情感分析方法,構(gòu)建評價體系。總的來說,基于在線評論的旅游滿意度分析方法樣本的代表性較為充足,可以節(jié)省大量人力、物力成本。當(dāng)然這并不意味問卷調(diào)查方法已不重要,由于在線評論沒有顯示評價者年齡、職業(yè)等信息,這正好可結(jié)合問卷調(diào)查等方法來彌補。因此,探索多源數(shù)據(jù)的融合技術(shù),是下一步值得研究的問題。