肖文杰 張艷芳
摘 要:從微觀尺度出發(fā),利用在線評(píng)論大數(shù)據(jù)對(duì)景區(qū)的網(wǎng)絡(luò)口碑進(jìn)行研究。選取張家界國(guó)家森林公園為研究對(duì)象,從大數(shù)據(jù)視角入手,以新浪微博和馬蜂窩等平臺(tái)為信息中介,抓取并研究案例相關(guān)評(píng)論數(shù)據(jù),構(gòu)建樸素貝葉斯情感分類器對(duì)張家界國(guó)家森林公園的網(wǎng)絡(luò)口碑進(jìn)行分析。結(jié)果表明,與近幾年相比,研究案例在2018年的網(wǎng)絡(luò)口碑有一定程度的下降,與現(xiàn)實(shí)情況吻合;此外評(píng)論的分類準(zhǔn)確率、召回率以及F值等評(píng)價(jià)指標(biāo)均在90%左右,研究結(jié)果和研究方法對(duì)分析景區(qū)的網(wǎng)絡(luò)口碑具有參考價(jià)值。
關(guān)鍵詞:在線評(píng)論;網(wǎng)絡(luò)口碑;旅游景區(qū);情感分類器
0 引言
互聯(lián)網(wǎng)的發(fā)展經(jīng)歷了Web1.0到Web2.0的轉(zhuǎn)變,信息傳播方式由被動(dòng)接收轉(zhuǎn)變?yōu)槿缃竦碾p向互動(dòng)。雙向互動(dòng)的信息傳播方式促使一大批互動(dòng)交流平臺(tái)如雨后春筍般出現(xiàn),為互聯(lián)網(wǎng)用戶通過(guò)網(wǎng)絡(luò)表達(dá)自己的意見(jiàn)和觀點(diǎn)提供了有效渠道。微博和微信就是典型。以新浪微博為例,截至2019年3月底,微博活躍用戶數(shù)達(dá)4.65億,日活躍用戶數(shù)達(dá)2.03億,大規(guī)模用戶評(píng)論體現(xiàn)了用戶群體的觀點(diǎn)。在大數(shù)據(jù)時(shí)代,深入挖掘大數(shù)據(jù)的內(nèi)在價(jià)值,是開(kāi)展相關(guān)研究的新途徑和新思路,可為決策提供客觀、理性的參考依據(jù)。
旅游目的地的網(wǎng)絡(luò)口碑關(guān)系到旅游目的地的旅游形象,影響到游客的旅游決策,因此旅游目的地的網(wǎng)絡(luò)口碑成為旅游研究熱點(diǎn)之一。所謂網(wǎng)絡(luò)口碑(internet word-of-mouth,IWOM)[1],是指客戶在網(wǎng)上發(fā)布、借助互聯(lián)網(wǎng)傳遞給其他潛在消費(fèi)者的與企業(yè)產(chǎn)品以及服務(wù)等有關(guān)的各種評(píng)價(jià)[2],而將網(wǎng)絡(luò)口碑引入旅游學(xué)科最早由林巧等[3]完成。國(guó)外學(xué)者對(duì)于旅游行業(yè)的網(wǎng)絡(luò)口碑主要聚焦于酒店領(lǐng)域,具體而言涉及酒店網(wǎng)絡(luò)口碑傳播[4]、酒店網(wǎng)絡(luò)口碑滿意度[5]和網(wǎng)絡(luò)口碑預(yù)測(cè)[6]等方面。國(guó)內(nèi)不少學(xué)者關(guān)注旅游城市的旅游網(wǎng)絡(luò)口碑,主要從網(wǎng)絡(luò)口碑的影響力[7-11]和形象感知[12-13]進(jìn)行研究。通過(guò)網(wǎng)絡(luò)口碑對(duì)潛在赴藏游客產(chǎn)生從眾心理進(jìn)而間接影響潛在赴藏游客的購(gòu)買行為是網(wǎng)絡(luò)口碑影響力的表現(xiàn)之一[11]。網(wǎng)絡(luò)口碑也可對(duì)一個(gè)旅游城市產(chǎn)生正反兩面的旅游形象感知,如朱翠蘭[13]通過(guò)AHP方法以福建省廈門市為研究對(duì)象,研究了網(wǎng)絡(luò)口碑文本,分析出廈門市旅游形象感知的正反兩方面因素。上述文獻(xiàn)雖然涉及到網(wǎng)絡(luò)口碑評(píng)價(jià),但是相關(guān)文獻(xiàn)較少,主要采用內(nèi)容分析等方法進(jìn)行定性研究。
近幾年,網(wǎng)絡(luò)口碑評(píng)價(jià)獲得了較多關(guān)注,學(xué)者們從不同角度對(duì)其進(jìn)行定量研究。張若愚[14]利用LTP語(yǔ)言云分析句子之間的依存關(guān)系,形成景區(qū)特征與情感詞的關(guān)聯(lián)詞對(duì),然后采用LDA主題模型將景區(qū)相關(guān)的在線評(píng)論劃分為18個(gè)主題,并將與主題相關(guān)的詞語(yǔ)歸類,構(gòu)建網(wǎng)絡(luò)口碑評(píng)價(jià)指標(biāo)體系,接著將之前得到的情感詞并入指標(biāo)體系并根據(jù)情感詞數(shù)量賦予指標(biāo)權(quán)重,最終對(duì)情感詞進(jìn)行情感傾向判斷后采用層次分析法得出網(wǎng)絡(luò)口碑的綜合得分;邱燕[15]則根據(jù)旅游要素理論構(gòu)建了網(wǎng)絡(luò)口碑指標(biāo),并利用層次分析法(AHP)為每個(gè)關(guān)鍵詞賦予相應(yīng)的權(quán)重,最后以網(wǎng)絡(luò)爬蟲技術(shù)獲取有關(guān)景區(qū)的網(wǎng)絡(luò)輿情信息為數(shù)據(jù)源,計(jì)算每個(gè)景區(qū)的網(wǎng)絡(luò)口碑指數(shù)。
上述文獻(xiàn)的研究思路都是通過(guò)構(gòu)建網(wǎng)絡(luò)口碑指標(biāo)體系后采用層次分析法評(píng)價(jià)網(wǎng)絡(luò)口碑。然而,研究過(guò)程主要采用層次分析方法(AHP),學(xué)者在賦予評(píng)價(jià)指標(biāo)權(quán)重時(shí),所參考的依據(jù)主要是網(wǎng)絡(luò)爬蟲數(shù)據(jù)中與指標(biāo)相關(guān)的詞匯量。而網(wǎng)絡(luò)爬蟲得到的數(shù)據(jù)不一定全面,也即網(wǎng)絡(luò)爬蟲的詞匯量并不一定具有代表性。因此,研究結(jié)論的科學(xué)合理性不可避免地受到影響。
本文創(chuàng)新之處在于利用樸素貝葉斯算法分析游客的情感傾向后,結(jié)合詞頻工具分析游客網(wǎng)絡(luò)口碑中正負(fù)面因素,最終給出提升網(wǎng)絡(luò)口碑的建議。雖然在網(wǎng)絡(luò)口碑研究領(lǐng)域,有不少學(xué)者利用樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、Kmeans等機(jī)器學(xué)習(xí)算法研究情感傾向[16-20],但是聚焦到旅游行業(yè)的相關(guān)文獻(xiàn)較少,并未發(fā)現(xiàn)有依據(jù)新浪微博、馬蜂窩等OTA網(wǎng)絡(luò)平臺(tái)評(píng)論數(shù)據(jù)進(jìn)行張家界國(guó)家森林公園網(wǎng)絡(luò)口碑相關(guān)研究。
本文選取典型旅游景區(qū)作為微觀尺度的研究案例,從大數(shù)據(jù)視角入手,以新浪微博及馬蜂窩等OTA網(wǎng)絡(luò)平臺(tái)的評(píng)論數(shù)據(jù)為數(shù)據(jù)源,采用樸素貝葉斯方法對(duì)景區(qū)網(wǎng)絡(luò)口碑評(píng)價(jià)進(jìn)行研究。
4.3 進(jìn)一步實(shí)驗(yàn)與討論
根據(jù)上述結(jié)論,除2018年外,近幾年張家界國(guó)家森林公園的網(wǎng)絡(luò)口碑整體屬于良好狀態(tài),但還有提升空間。對(duì)在線評(píng)論作進(jìn)一步實(shí)驗(yàn)分析和討論,過(guò)程如下:在對(duì)所有在線評(píng)論進(jìn)行情感分類后,形成“好評(píng)”和“差評(píng)”兩個(gè)數(shù)據(jù)集,通過(guò)Python應(yīng)用Jieba工具的詞頻統(tǒng)計(jì)接口統(tǒng)計(jì)兩個(gè)數(shù)據(jù)集中出現(xiàn)的高頻詞匯,對(duì)高頻詞匯進(jìn)行歸納總結(jié),即可得出張家界國(guó)家森林公園網(wǎng)絡(luò)口碑的正負(fù)面因素,深入分析正負(fù)面因素,為提升張家界國(guó)家森林公園的網(wǎng)絡(luò)口碑提出相應(yīng)建議。
(1)張家界國(guó)家森林公園網(wǎng)絡(luò)口碑正面因素。在線評(píng)論中“好評(píng)”數(shù)據(jù)集出現(xiàn)頻率較高的詞匯有“風(fēng)景”“優(yōu)美”“漂亮”“美不勝收”“巧奪天工”“性價(jià)比高”“值得”等。歸納起來(lái),游客對(duì)張家界國(guó)家森林公園的“好評(píng)”集中在風(fēng)景美、性價(jià)比高這兩個(gè)因素上。風(fēng)景美在山有山的奇特、水有水的清秀;性價(jià)比高在景區(qū)內(nèi)景點(diǎn)多,可游玩時(shí)間長(zhǎng),一張門票有效期可達(dá)3天。
(2)張家界國(guó)家森林公園網(wǎng)絡(luò)口碑負(fù)面因素。在線評(píng)論“差評(píng)”數(shù)據(jù)集中出現(xiàn)頻率較高的詞匯有“排隊(duì)”“等待”“人多”“亂”“累”“熱”等。游客對(duì)張家界國(guó)家森林公園的“差評(píng)”主要表現(xiàn)在人多排隊(duì)現(xiàn)象嚴(yán)重,造成了游客在旅游過(guò)程中出現(xiàn)擁擠、線路混亂等現(xiàn)象,進(jìn)而嚴(yán)重影響了旅游體驗(yàn)。
(3)提升張家界森林公園網(wǎng)絡(luò)口碑的建議。以揚(yáng)長(zhǎng)避短為原則,加大宣傳正面因素、有效改進(jìn)負(fù)面因素。具體而言,有如下建議:加強(qiáng)與游客在微博等新媒體上的互動(dòng)頻率,對(duì)游客的評(píng)論及時(shí)給予反饋,對(duì)優(yōu)秀的評(píng)論可給予獎(jiǎng)勵(lì)并以多種渠道進(jìn)行宣傳;在旅游旺季限制游客流量,一方面限制每日的售票數(shù)量,為提高游客體驗(yàn),提前以多種方式公布每日已售票數(shù)和剩余票,并開(kāi)通多種訂票渠道,另一方面在景區(qū)內(nèi)對(duì)人流較多的景點(diǎn)和路線采取分流措施;景區(qū)內(nèi)增加相應(yīng)公共設(shè)施減少因天氣變化對(duì)游客造成的不便,如階梯處增設(shè)防滑墊、景點(diǎn)增設(shè)躲雨或遮陽(yáng)之處、在公共區(qū)域提前告示天氣變化。