楊嘉雯 石媛媛 閆安
摘要:目的:基于五家旅游平臺上北京地區(qū)18家一級博物館評論的數(shù)據(jù)分析,挖掘影響游客滿意度因素,了解游客差評原因,對提升北京地區(qū)博物館服務具有重大意義。方法:通過詞云圖、語義網(wǎng)絡特征關(guān)聯(lián)分析、LDA主題模型特征分析,并建立語義情感詞典進行情感傾向分析。結(jié)論:根據(jù)文本挖掘與情感傾向分析結(jié)果,提出北京地區(qū)博物館服務建議。創(chuàng)新基于現(xiàn)實數(shù)據(jù),采用數(shù)據(jù)挖掘方法分析北京地區(qū)博物館游客情感傾向,為游客情感影響因素識別提供科學研究范式。
關(guān)鍵詞:文本挖掘;語義網(wǎng)絡;文本情感分析;北京地區(qū)博物館
引言
游客平臺網(wǎng)站評價是游客對體驗的真實表達。通過挖掘網(wǎng)絡文本,了解游客看法,對完善博物館體系,提升游客體驗具有重要意義。對于挖掘網(wǎng)絡文本和分析情感傾向方法,已有眾多學者深入研究。莫紀燦等(2021)[1]使用ROSTCM6軟件對網(wǎng)師園網(wǎng)絡評論進行網(wǎng)絡語義分析,歸納游客感情特征;孫明慧等(2021)[2]構(gòu)建語義網(wǎng)絡,提取高頻詞,對消極情緒進行扎根理論編碼分析,建立鄉(xiāng)村書店游客負面情緒影響因素模型;鄭凇尹等(2022)[3]使用方面級情感分析方法,使用模型情感分類,歸納影響用戶滿意度的因素。
梳理文獻得出,國內(nèi)外在研究博物館游客體驗方面缺少對網(wǎng)絡文本的利用。因此本研究創(chuàng)新基于從去哪兒網(wǎng)、大眾點評等點評類網(wǎng)站抓取網(wǎng)絡評價,運用詞頻統(tǒng)計、語義網(wǎng)絡特征關(guān)聯(lián)分析、LDA主題模型分析、建立詞典情感分析等方法分析北京地區(qū)博物館游客體驗的影響因素,提出可持續(xù)發(fā)展的相關(guān)建議。
1. 北京地區(qū)博物館游客評論的特征分析
1.1 數(shù)據(jù)的來源與預處理
1.1.1 數(shù)據(jù)來源
本研究的評論數(shù)據(jù)選取大眾點評、驢媽媽、去哪兒網(wǎng)、攜程網(wǎng)、途牛網(wǎng)5家網(wǎng)站從2019年1月至2022年12月對北京地區(qū)18家國家一級博物館的評論。博物館分為8家文物博物館:中國國家博物館、恭王府博物館、清華大學藝術(shù)博物館、故宮博物院、中國人民抗日戰(zhàn)爭紀念館、首都博物館、周口店北京人遺址博物館、北京魯迅博物館;8家行業(yè)博物館:中國農(nóng)業(yè)博物館、北京天文館、北京汽車博物館、中國印刷博物館、中國電影博物館、中國科學技術(shù)館、北京自然博物館、中國人民革命軍事博物館、中國航空博物館、中國地質(zhì)博物館。
1.1.2 數(shù)據(jù)預處理
運用軟件收集網(wǎng)站一級評論,內(nèi)容包括評論內(nèi)容、評論日期及用戶名,共83264條評論,由于存在無關(guān)數(shù)據(jù),如重復評論、無效無關(guān)數(shù)據(jù)等,無法直接分析,所以進行初步處理,去除2020年1月前全部評論、重復評論、顏表情、無用符號,最終獲得53319條有效評價數(shù)據(jù)。使用Jieba分詞,Jieba詞典庫不夠完整,本研究根據(jù)實際情況對停用詞添加刪除,建立適合的停用詞表,分詞結(jié)果更加顯著。
1.2 文本特征提取
TF-IDF方法在分詞后對分詞結(jié)果進行遍歷[4],挖掘文檔中關(guān)鍵詞,評估某詞組對文檔的重要程度,TF-IDF值越高表明該內(nèi)容的重要性越強[5-6]。根據(jù)TF-IDF結(jié)果,得到詞頻統(tǒng)計前20個詞及TF-IDF排名前20個特征詞,如表1所示。詞頻統(tǒng)計和TF-IDF中“電影”均占榜首,可見游客對數(shù)字化技術(shù)的關(guān)注。詞頻統(tǒng)計與TF-IDF結(jié)果基本相同,說明詞頻數(shù)和TF-IDF值間存在一定正向關(guān)系。但詞頻統(tǒng)計中“小朋友”位于靠前位置,但TF-IDF中為靠后位置,表明詞頻數(shù)越高不能表示重要性一定高。
1.3 基于詞云圖的特征可視化分析
基于分詞結(jié)果,在Jupyter Notebook環(huán)境內(nèi)生成詞云圖,通過可視化轉(zhuǎn)化數(shù)字表格,直觀展現(xiàn)評價高頻詞與游客體驗重點,利于建議提出,為結(jié)果展現(xiàn)的重要方法之一[7],如圖1所示。
出現(xiàn)頻率較高的高頻詞,即圖中字體更大的詞組,如“電影”“歷史”“展廳”“門票”“小朋友”等,突出游客關(guān)注內(nèi)容。
根據(jù)圖1,結(jié)合整段評價分析:
(1)游客選擇博物館時考慮預約模式及開放時間,如是否有預約網(wǎng)站、是否需提前關(guān)注搶票進展、博物館預約開放時間,增加體驗滿意度。
(2)游客偏向更具新奇體驗的博物館,更多年輕人選擇主題豐富博物館出行;博物館可在展覽建設中注入創(chuàng)新力量,例如數(shù)字化劇場覆蓋率,提高回頭率。
(3)游客看重展館受眾及主題內(nèi)容,家長會優(yōu)先小朋友選擇有教育意義的博物館;年輕人為充實自身文化底蘊,會選擇有文化氣息的博物館。
(4)游客會被建筑外觀吸引,如故宮保留中國歷史的建筑物群、魯迅博物館特色的館內(nèi)環(huán)境和風格;博物館可在展覽風格及館內(nèi)環(huán)境投入精力,提高好評率。
1.4 基于語義網(wǎng)絡的特征關(guān)聯(lián)分析
詞頻統(tǒng)計對影響游客體驗因素初步分析,但對影響因素間的關(guān)系仍無法說明。語義網(wǎng)絡分析可直觀分析主要特征詞間的關(guān)聯(lián)關(guān)系以及語義網(wǎng)絡的中心節(jié)點,找尋文本特征[8]。運用ROSTCM6軟件對已處理數(shù)據(jù)進行社會網(wǎng)絡與語義分析[9]。生成共現(xiàn)矩陣,如表2所示,網(wǎng)絡語義分析圖如圖2所示。
圖2看出影響體驗因素間的關(guān)系具有包圍結(jié)構(gòu),分為三個層面。交通、門票、展廳等高頻詞與其他高頻詞聯(lián)系最緊密,構(gòu)成第一層核心圈,也是影響游客體驗重要因素。第二層主要由小朋友、電影、停車場、展品等高頻詞組成,為次要因素,反映博物館提供的項目服務,如停車場、電影等。最外層主要由科技、文化、樂園等組成,反映游客對博物館文化內(nèi)涵的關(guān)注,對博物館的整體印象等。結(jié)合共現(xiàn)矩陣及網(wǎng)絡語義分析,影響博物館游客情感因素總結(jié)出以下方面:交通、門票、展廳、服務、文化、展覽。
1.5 基于LDA主題模型的特征分析
語義網(wǎng)絡已找到影響游客情感傾向的因素關(guān)系,繼以通過LDA[10]三層貝葉斯主題模型,通過無監(jiān)督學習方法發(fā)現(xiàn)文本中隱含的主題信息[11-12]。本研究利用比較困惑度[13]進行主題識別。經(jīng)python算出主題數(shù)目為5時,LDA模型困惑度最小。自然語言處理導出主題—關(guān)鍵詞分布后,得到游客評論的5個研究主題并每個主題提取20個特征詞。LDA主題分析生成主題、特征詞及權(quán)重如表3所示,展示每個主題及其關(guān)鍵詞和重要性。
分析表3中特征詞,各主題含義如下:主題一,游客關(guān)注博物館概況,如門票性價比、環(huán)境等;主題二,游客在疫情時代注重博物館的整體服務水平;主題三,游客重視博物館逐漸提高的數(shù)字化發(fā)展;主題四,游客更注重博物館的內(nèi)在文化知識,博物館為公共教育場合,可在此感受到在其他場合無法了解到的知識文化;主題五,強調(diào)多以親子出游為主。綜合以上五個主題,游客比較關(guān)心博物館周邊環(huán)境、整體服務、數(shù)字化建設及北京地區(qū)獨有內(nèi)在文化建設等。
2. 游客情感傾向分析
2.1 詞典的建立
本文分析游客情感傾向時,采用基于語義的情感詞典方法[14]。構(gòu)建程度副詞詞典、情感詞詞典和否定詞詞典。分析文本計算情感分數(shù)值,將情感傾向分類。
參考文獻,情感詞典及其賦值如表4所示。
情感詞詞典只可表明情感傾向,無法體現(xiàn)程度區(qū)別,因此建立程度副詞詞典,參考知網(wǎng)研究及前人研究,最終以周知等[15]研究為參考,劃分出6個等級并賦予權(quán)值,如表5所示。
當否定詞存在時,情感傾向會改變,因此附加否定詞詞典。目前研究對此設置無固定模板,據(jù)相關(guān)文獻建立否定詞詞典,如表6所示。
2.2 情感值計算算法設計
結(jié)合具體情況及參考文獻,本研究算法邏輯如下:
(1)對網(wǎng)絡評價文本數(shù)據(jù)進行預處理;
(2)建立好詞典,即程度副詞詞典、情感詞詞典和否定詞詞典,導入數(shù)據(jù)集;
(3)程序運行中遍歷尋找評論中情感詞,確定基礎(chǔ)情感分數(shù)值;
(4)以確定情感詞為查找中心,查找前面一個詞,判斷是否存在程度副詞,若有,在詞典中確定程度級別,根據(jù)權(quán)重賦值運算;
(5)再次以(3)中情感詞為查找中心查找,判斷是否存在修飾中心情感詞的否定詞,若有,分數(shù)置反;
(6)計算原始每條評論的情感分數(shù)值。對確定的情感詞計算所有權(quán)重后加和;
(7)最后統(tǒng)計游客評論的情感傾向占比。
2.3 結(jié)果分析
根據(jù)算法結(jié)果將評價情感傾向分為好評4509條評論、中性4398條評論、差評3872條評論,共53319條評論。
分析圖3,極高的好評率說明北京市地區(qū)博物館建設可觀;中性評價表明建設不夠吸引游客、跟進時代;差評存在,說明博物館有急需整改之處,可能是影響北京地區(qū)文化發(fā)展的障礙。
分析表7、圖4,好評中高度好評最多,中度其次,說明游客認可程度極高,博物館建設可觀;差評中輕度差評最多,中度其次,可見博物館雖存不足,反饋并不強烈。高度差評占比不高,可知發(fā)展中所存問題尚不嚴重,但仍須加強對其部分改進。
結(jié)語
本研究以9家旅游網(wǎng)站中北京地區(qū)18家一級博物館游客評論文本數(shù)據(jù)為例,使用語義網(wǎng)絡關(guān)聯(lián)分析、詞云圖分析、LDA主題模型特征分析對評論文本進行特征分析,采用建立情感詞典并賦予其相關(guān)分值,python計算每條評論情感得分。根據(jù)研究結(jié)果為北京地區(qū)博物館的游客體驗發(fā)展提出以下建議:
(1)數(shù)字化發(fā)展。北京地區(qū)博物館大多普及了數(shù)字化系統(tǒng),但部分博物館維護不足,如評論中頻繁出現(xiàn)的熒屏熄滅等,因此維修與防護工作應加強。博物館具有文化傳播的社會功能,應強化網(wǎng)絡上知識教育,實現(xiàn)文化遺產(chǎn)的網(wǎng)絡化展示,應用科技使更多游客了解其內(nèi)涵。
(2)文創(chuàng)服務。博物館衍生文創(chuàng)產(chǎn)品,如故宮冰淇淋、汽車博物館同款汽車掛墜等。文創(chuàng)產(chǎn)品應貼合游客興趣點,關(guān)聯(lián)游客生活,體現(xiàn)創(chuàng)新性與經(jīng)濟價值,使文創(chuàng)產(chǎn)品更實用。
(3)文化傳播。博物館為重要文化陣地,應加強推廣,增添咨詢渠道,擴大影響力,進一步增加游客選擇博物館出行的可能性。統(tǒng)計游客流量數(shù)據(jù),為后續(xù)宣傳工作提供支撐。
(4)整體服務。博物館具有極強社會屬性,是全民旅游陣地,但研究表明,游客主要群體為親子及青少年,缺少老年游客。應加強員工培訓,提高服務質(zhì)量,貼近老年思想,使博物館旅游全年齡發(fā)展。優(yōu)化內(nèi)在設計,突出本館特色,側(cè)重文化內(nèi)涵展示,傳播好所代表的歷史文化;優(yōu)化館內(nèi)服務,清晰門票購買細則,避免出現(xiàn)游客無法及時購票的情況;盡量設置停車場,或標記附近停車場的位置,提供便捷交通。
參考文獻:
[1]莫紀燦,張青萍.基于網(wǎng)絡文本分析的蘇州古典園林活化策略研究——以網(wǎng)師園為例[J].資源開發(fā)與市場,2021,37(5): 629-635.
[2]孫明慧,陳少華.文化旅游視角下基于網(wǎng)絡評論的鄉(xiāng)村書店形象感知分析——以先鋒書店(鄉(xiāng)村店)為例[J].出版科學,2021,29(02):66-78.
[3]鄭淞尹,王萍,丁恒,等.基于方面級情感分析的博物館數(shù)字化服務用戶體驗研究[J].情報科學,2022,40(4):171-178.
[4]林振榮,黃虹霞,舒?zhèn)ゼt,等.基于TF-IDF與用戶聚類的推薦算法[J].計算機仿真,2022,39(6):341-345.
[5]邵欣欣.TI-FastText自動商品分類算法[J].計算機科學,2022,49(S1):206-210.
[6]曾金,張耀峰,黃新杰,等.面向用戶評論的主題挖掘研究——以美團為例[J].情報科學,2022,40(11):78-84.
[7]師榮蓉,張教萌.中國經(jīng)濟高質(zhì)量發(fā)展的社會評價:基于微博情感分析的視角[J].統(tǒng)計與決策,2021,37(24):180-184.
[8]張公讓,鮑超,王曉玉,等.基于評論數(shù)據(jù)的文本語義挖掘與情感分析[J].情報科學,2021,39(5):53-61.
[9]葉佳鑫,熊回香,楊滋榮,等.關(guān)鍵詞詞頻及語義特征對科技文獻聚類的影響研究[J].情報科學,2021,39(8):156-163.
[10]孫瑞英,陳宜泓.基于LDA主題模型的國內(nèi)智慧閱讀研究熱點及發(fā)展導向研判[J/OL].圖書館建設:1-21[2023-04-20].http://kns.cnki.net/kcms/detail/23.1331.G2.20221221.1311.002.html.
[11]陳芳,沈芮宇.基于文本挖掘的空中危險接近事件致因研究[J].安全與環(huán)境學報,2022,22(6):3280-3287.
[12]李倩,王帥.LDA模型下我國公共圖書館微信平臺閱讀推廣內(nèi)容主題研究[J].圖書情報工作,2022,66(8):72-83.
[13]李雅倩,孫玉玲,趙婉雨.基于主題模型和時間序列分析的新興主題識別與特征關(guān)聯(lián)研究[J].知識管理論壇,2022,7(3):229-247.
[14]林振宇,解吉波,楊騰飛,等.旅游多主題情感詞典的構(gòu)建方法[J].地理與地理信息科學,2021,37(4):22-27.
[15]周知,王春迎,朱佳麗.基于超短評論的圖書領(lǐng)域情感詞典構(gòu)建研究[J].情報理論與實踐,2021,44(9):183-189.
作者簡介:楊嘉雯,本科,研究方向:物流管理;閆安,本科,研究方向:計算機與科學技術(shù);石媛媛,本科,研究方向:經(jīng)濟學。
項目基金:數(shù)字賦能文旅融合高質(zhì)量發(fā)展研究(編號:202310004145)。