吳聯(lián)仁+李瑾頡+齊佳音
摘要:[目的/意義]大數(shù)據(jù)環(huán)境下,文本挖掘和情感分析技術(shù)在產(chǎn)品、服務(wù)等網(wǎng)絡(luò)點(diǎn)評(píng)分析中得到越來(lái)越廣泛的應(yīng)用。通過(guò)對(duì)大規(guī)模文本數(shù)據(jù)情感挖掘,研究影響企業(yè)輿情的關(guān)鍵要素。[方法/過(guò)程]基于中國(guó)大陸292個(gè)城市103 878家酒店的2 500多萬(wàn)條網(wǎng)絡(luò)點(diǎn)評(píng)數(shù)據(jù),挖掘企業(yè)在線輿情,識(shí)別影響顧客服務(wù)體驗(yàn)的關(guān)鍵內(nèi)容要素。采用探索性因子分析方法對(duì)關(guān)鍵要素進(jìn)行歸類,并通過(guò)多元回歸分析得出評(píng)論內(nèi)容要素與顧客總體滿意度之間的關(guān)系。[結(jié)果/結(jié)論]酒店客房要素和電器要素對(duì)酒店業(yè)顧客總體滿意度影響最大。本研究方法和結(jié)論為服務(wù)企業(yè)營(yíng)銷和管理的大數(shù)據(jù)商業(yè)分析研究提供參考。
關(guān)鍵詞:網(wǎng)絡(luò)點(diǎn)評(píng) 文本挖掘 情感分析 企業(yè)輿情 商業(yè)分析
分類號(hào):C93
引用格式:吳聯(lián)仁, 李瑾頡, 齊佳音. 基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究[J/OL]. 知識(shí)管理論壇, 2016, 1(6): 457-463[引用日期]. http://www.kmf.ac.cn/p/1/79/.
1 引言
在過(guò)去的數(shù)年中,信息技術(shù)在社會(huì)、經(jīng)濟(jì)、生活等各個(gè)領(lǐng)域不斷滲透和推陳出新。在移動(dòng)計(jì)算、物聯(lián)網(wǎng)、云計(jì)算等一系列新興技術(shù)的支持下,社交媒體、協(xié)同創(chuàng)造、虛擬服務(wù)等新型應(yīng)用模式持續(xù)拓展著人類創(chuàng)造和利用信息的范圍和形式?;谛畔⒑途W(wǎng)絡(luò)的生產(chǎn)模式創(chuàng)新正在將人類社會(huì)帶入“第三次工業(yè)革命”時(shí)代。新興信息技術(shù)與應(yīng)用模式的涌現(xiàn),使得全球數(shù)據(jù)量呈現(xiàn)出前所未有的爆發(fā)式增長(zhǎng)態(tài)勢(shì)。預(yù)計(jì)到2020年,全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量將達(dá)到35ZB。與此同時(shí),數(shù)據(jù)的多樣性、低價(jià)值密度、實(shí)時(shí)性等復(fù)雜特征日益顯著。馮芷艷等[1]指出大數(shù)據(jù)背景下,商務(wù)管理研究也面臨著前所未有的挑戰(zhàn)。
大數(shù)據(jù)時(shí)代,隨著電子商務(wù)網(wǎng)站、社區(qū)型網(wǎng)站和第三方評(píng)論網(wǎng)站的發(fā)展以及在旅游、酒店行業(yè)的普及應(yīng)用,網(wǎng)絡(luò)上出現(xiàn)了大量的顧客對(duì)酒店的點(diǎn)評(píng)內(nèi)容。截至2014年底,從全國(guó)各大中文網(wǎng)站能夠采集到的酒店顧客點(diǎn)評(píng)數(shù)量已達(dá)到千萬(wàn)級(jí)。這些點(diǎn)評(píng)內(nèi)容實(shí)際上是顧客在網(wǎng)絡(luò)環(huán)境下對(duì)酒店所提供產(chǎn)品與服務(wù)的自發(fā)的“問(wèn)卷調(diào)查”結(jié)果,是顧客在享受酒店產(chǎn)品和服務(wù)后對(duì)酒店滿意度的詳細(xì)描述。對(duì)這些點(diǎn)評(píng)進(jìn)行有效的采集和分析,將能夠代替?zhèn)鹘y(tǒng)的問(wèn)卷調(diào)查評(píng)價(jià),并且能夠彌補(bǔ)傳統(tǒng)問(wèn)卷樣品有限性和問(wèn)題局限性的不足。
伴隨著大數(shù)據(jù)時(shí)代的到來(lái)和自然語(yǔ)言處理技術(shù)的快速發(fā)展,文本挖掘(text mining)方法——對(duì)具有豐富語(yǔ)義的文本進(jìn)行分析從而理解其所包含的內(nèi)容和意義的過(guò)程——逐漸被認(rèn)為是更可靠和經(jīng)常使用的研究方法。在管理科學(xué)研究中,文本挖掘方法經(jīng)常被用來(lái)處理網(wǎng)絡(luò)點(diǎn)評(píng)等非結(jié)構(gòu)化數(shù)據(jù)。如黃敏學(xué)等[2]和李杰等[3]采用文本挖掘方法研究了網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)口碑或點(diǎn)評(píng)。在旅游和酒店業(yè),文本挖掘方法也漸漸開(kāi)始被應(yīng)用[4]。目前,大部分的酒店網(wǎng)絡(luò)點(diǎn)評(píng)內(nèi)容研究主要是對(duì)內(nèi)容特征屬性、評(píng)論內(nèi)容分詞的統(tǒng)計(jì)分析和聚類分析。例如,L. Zhou等[5]對(duì)評(píng)論提及酒店各要素的數(shù)量進(jìn)行了統(tǒng)計(jì),給出了各要素的占比。Z. Xiang等[6]采用文本分析方法研究顧客體驗(yàn)與顧客滿意度間的關(guān)系。熊偉[7]對(duì)點(diǎn)評(píng)中提及酒店各要素的數(shù)量進(jìn)行了統(tǒng)計(jì),并計(jì)算了評(píng)論在各要素上的評(píng)價(jià)得分,做了各項(xiàng)服務(wù)體驗(yàn)要素與總體評(píng)價(jià)的相關(guān)分析。
隨著大數(shù)據(jù)文本挖掘研究的深入,情感分析(sentiment analysis),又稱意見(jiàn)挖掘(opining mining)開(kāi)始應(yīng)用到網(wǎng)絡(luò)點(diǎn)評(píng)這種非結(jié)構(gòu)化的自然語(yǔ)言處理中[8]。張紫瓊等[9]指出文本情感分析是指通過(guò)語(yǔ)義分析技術(shù)對(duì)文本的主客觀性、觀點(diǎn)、情緒、極性的挖掘和分析,對(duì)文本的情感傾向做出分類判斷。E.Cambria[10]表示基礎(chǔ)的文本情感分析是對(duì)文本情感極性分析和文本情感極性強(qiáng)度分析。楊立公等[11]將情感極性分為兩極,即正面(positive)的贊賞和肯定、負(fù)面(negative)的批評(píng)與否定。也有學(xué)者在正面和負(fù)面之間加入了中性(neural),如H. Li等[12]首先通過(guò)詞頻分析方法,對(duì)評(píng)論中各因子出現(xiàn)的頻數(shù)進(jìn)行統(tǒng)計(jì),其次采用聚類分析對(duì)出現(xiàn)的因子進(jìn)行聚類,最后是統(tǒng)計(jì)了各因子的正面、中性和負(fù)面點(diǎn)評(píng)的占比。另外一些學(xué)者采用情感極性強(qiáng)度分析網(wǎng)絡(luò)點(diǎn)評(píng),如丁于思等[13]將顧客滿意度分為很不滿意、不滿意、一般、滿意和很滿意5個(gè)等級(jí)。情感分析在大數(shù)據(jù)環(huán)境下對(duì)企業(yè)顧客洞察、市場(chǎng)營(yíng)銷策略和商業(yè)模式創(chuàng)新起到了重要作用。如李實(shí)等[14]挖掘中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征及情感傾向。劉羽等[15]在李實(shí)等基礎(chǔ)上,進(jìn)行觀點(diǎn)挖掘的產(chǎn)品特征提取。
2 數(shù)據(jù)采集與處理
本研究使用的數(shù)據(jù)集由北京眾薈信息技術(shù)有限公司(http://www.jointwisdom.cn/)數(shù)據(jù)應(yīng)用事業(yè)部提供。眾薈信息是目前國(guó)內(nèi)旅游、酒店行業(yè)主要的大數(shù)據(jù)挖掘與應(yīng)用服務(wù)提供商。數(shù)據(jù)集包括了2 500多萬(wàn)條網(wǎng)絡(luò)點(diǎn)評(píng),涉及國(guó)內(nèi)292個(gè)城市的103 878家酒店。數(shù)據(jù)來(lái)源于國(guó)內(nèi)8個(gè)主流中文點(diǎn)評(píng)網(wǎng)站,分別為到到網(wǎng)、大眾點(diǎn)評(píng)網(wǎng)、藝龍、美團(tuán)、陽(yáng)光旅行、住哪兒、去哪兒和攜程。數(shù)據(jù)收集時(shí)間窗口為2014年1月1日-2014年12月31日。
借助眾薈信息的自然語(yǔ)言處理和語(yǔ)義分析技術(shù),對(duì)酒店網(wǎng)絡(luò)點(diǎn)評(píng)進(jìn)行酒店特征詞的抽取和情感分析。作者基于眾薈信息的酒店網(wǎng)絡(luò)點(diǎn)評(píng)數(shù)據(jù)處理結(jié)果,提煉出80多個(gè)影響酒店顧客服務(wù)體驗(yàn)的特征詞,構(gòu)成了本研究的特征詞集合。分別統(tǒng)計(jì)特征詞關(guān)注度(attention),即特征詞在顧客網(wǎng)絡(luò)點(diǎn)評(píng)中被顧客提及的頻次,特征詞的參與度(engagement),即特征詞的關(guān)注度與酒店數(shù)的比率,特征詞的滿意度(satisfaction),即特征詞正面提及的頻次占總頻次的比例(具體計(jì)算方法見(jiàn)第3部分情感分析模型)。表1給出特征詞關(guān)注度排名前30的特征詞。
從表1可以看出,最受顧客關(guān)注的是位置,這與丁于思等的研究結(jié)果一致。另外關(guān)于位置的參與度也是最高的,為32.99,即每家酒店顧客網(wǎng)絡(luò)點(diǎn)評(píng)中平均提及位置的頻次為32.99。在滿意度方面,滿意度最高的是娛樂(lè),其次是酒吧和交通,都超過(guò)了90%。而滿意度排在倒數(shù)三位的是隔音、異味和電梯,分別為14.06%、17.49%和18.11%,均未超過(guò)20%。這三個(gè)酒店顧客體驗(yàn)要素是酒店經(jīng)營(yíng)管理者應(yīng)該重點(diǎn)關(guān)注的。
3 情感分析模型
每條網(wǎng)絡(luò)點(diǎn)評(píng)都是顧客對(duì)酒店設(shè)施及服務(wù)的真實(shí)反饋,但是這種非結(jié)構(gòu)的文字并不利于科學(xué)的數(shù)據(jù)分析。筆者基于情感分析技術(shù),將用自然語(yǔ)言描述的用戶點(diǎn)評(píng),轉(zhuǎn)化為結(jié)構(gòu)化的用戶情感數(shù)據(jù)庫(kù),點(diǎn)評(píng)文本挖掘與情感分析流程見(jiàn)圖1。其中,顧客在點(diǎn)評(píng)中所表達(dá)的對(duì)酒店軟硬件某一方面的看法及情感態(tài)度,可以理解為該顧客在點(diǎn)評(píng)中對(duì)酒店該要素進(jìn)行了一次滿意程度的“投票”,并可以被轉(zhuǎn)化為顧客對(duì)酒店該方面的情感表達(dá)。顧客的情感分為正向和負(fù)向。具體的點(diǎn)評(píng)分析樣例見(jiàn)表2。
首先對(duì)酒店特征詞在評(píng)價(jià)集{正向,負(fù)向}上的頻次進(jìn)行統(tǒng)計(jì)。得到酒店特征詞的情感頻次向量F(Wi)={F(Wi)+, F(Wi)-},其中(i=1,2,3,…, 30),F(xiàn)(Wi)+為特征詞的正面觀點(diǎn)頻次,F(xiàn)(Wi)-為特征詞的負(fù)面觀點(diǎn)頻次。因此,酒店特征Wi的滿意度為:
本研究以城市為單位,城市酒店顧客總體滿意度CitySi(i=1,2,3,…,292),即為城市酒店顧客點(diǎn)評(píng)中正向情感頻次占城市總情感頻次的比例。
4 統(tǒng)計(jì)分析
4.1 探索性因子分析
對(duì)酒店顧客點(diǎn)評(píng)中抽取的排名前30的特征詞,利用SPSS進(jìn)行探索性因子分析。Bartlett檢驗(yàn)結(jié)果(P=.000)說(shuō)明各變量間具有相關(guān)性。KMO統(tǒng)計(jì)量為0.772,在0.7以上,可以進(jìn)行探索性因子分析。圖2為因子分析的碎石圖。本研究提取了6個(gè)公因子,累計(jì)方差貢獻(xiàn)率為58.53%。
表3是進(jìn)行方差最大旋轉(zhuǎn)后的因子載荷矩陣。表3中給出了載荷大于0.5的因子,并將載入的20個(gè)特征詞分為6類。第1類是電器,包括電視、網(wǎng)絡(luò)、空調(diào)和電器;第2類是客房,包括衛(wèi)生間、裝飾、床和房間;第3類是位置,包括位置、環(huán)境和交通;第4類是娛樂(lè),包括娛樂(lè)、游泳池和酒吧;第5類是服務(wù),包括禮賓、服務(wù)和前臺(tái);第6類是衛(wèi)生,包括衛(wèi)生和異味。
式中:S(Wij)為公因子Ui下第j個(gè)特征詞的滿意度;βij為公因子Ui下第j個(gè)特征詞在公因子Ui中的權(quán)重。
公因子位置的滿意度為
基于上述方法,以城市為單位,分別計(jì)算每個(gè)公因子的滿意度。
4.2 多元回歸分析
將292個(gè)城市酒店總體滿意度值作為因變量,城市酒店6個(gè)公因子滿意度作為自變量進(jìn)行多元線性回歸,回歸結(jié)果如表4所示:
表4的結(jié)果顯示,在顯著性水平p=0.01下,6個(gè)因子的系數(shù)都是顯著的。并且客房和電器兩個(gè)因子的標(biāo)準(zhǔn)化系數(shù)最大,分別為0.448和0.312。這說(shuō)明,客房和電器對(duì)酒店顧客滿意度的影響很大??头恳蜃又饕ㄐl(wèi)生間、裝飾、床和客房4個(gè)二級(jí)因子,電器因子主要包括電視、網(wǎng)絡(luò)、空調(diào)、熱水和電器5個(gè)二級(jí)因子。這9個(gè)因子可以被認(rèn)為是酒店提供的核心產(chǎn)品。目前酒店作為一個(gè)提供住宿功能的場(chǎng)所,如果滿足了顧客的基本需求,即提高顧客在客房因子和電器因子的滿意度,將會(huì)提升酒店顧客的總體滿意度。
其次是衛(wèi)生因子,標(biāo)準(zhǔn)化系數(shù)為0.181,也對(duì)酒店顧客總體滿意度產(chǎn)生較為重要的影響。衛(wèi)生因子包括衛(wèi)生和異味2個(gè)二級(jí)因子。在酒店提供核心產(chǎn)品保障了顧客的基本需求的基礎(chǔ)上,如酒店需要進(jìn)一步提高顧客的總體滿意度,應(yīng)著重在衛(wèi)生因子上提高顧客的滿意度。
系數(shù)最低的是娛樂(lè)因子,為0.134。娛樂(lè)因子包括娛樂(lè)、游泳池和酒吧3個(gè)二級(jí)因子。在6個(gè)因子中,娛樂(lè)對(duì)酒店顧客總體滿意度的影響最低。這可能是因?yàn)閵蕵?lè)作為一項(xiàng)增值服務(wù),對(duì)顧客來(lái)說(shuō),不是顧客的必需產(chǎn)品。因此,顧客娛樂(lè)因子滿意度的提高對(duì)顧客總體滿意度的提升影響不大。
5 總結(jié)與討論
隨著電子商務(wù)網(wǎng)站、社區(qū)型網(wǎng)站和第三方評(píng)論網(wǎng)站的發(fā)展,中國(guó)酒店業(yè)也迎來(lái)了大數(shù)據(jù)時(shí)代。雖然,在許多學(xué)科中大數(shù)據(jù)分析已經(jīng)被描述為一個(gè)新的研究范式。然而作者發(fā)現(xiàn),在旅游和酒店服務(wù)業(yè)領(lǐng)域充分和深入發(fā)掘數(shù)據(jù)分析功能的研究還較少。本研究采用文本挖掘和情感分析的方法,歸類大量的酒店顧客網(wǎng)絡(luò)點(diǎn)評(píng),評(píng)估這些數(shù)據(jù)的質(zhì)量,分析酒店顧客體驗(yàn)要素與顧客總體滿意度之間的影響關(guān)系。這項(xiàng)研究的創(chuàng)新之處在于其數(shù)據(jù)規(guī)模,有別于傳統(tǒng)調(diào)查研究在數(shù)據(jù)量上的局限。本研究只是在酒店大數(shù)據(jù)分析中的初步探索,但已經(jīng)取得了一些實(shí)質(zhì)性的結(jié)論,希望為酒店等服務(wù)企業(yè)開(kāi)展?fàn)I銷和管理的商務(wù)分析研究提供一些借鑒。
參考文獻(xiàn):
[1] 馮芷艷, 郭迅華, 曾大軍, 等. 大數(shù)據(jù)背景下商務(wù)管理研究若干前沿課題 [J]. 管理科學(xué)學(xué)報(bào), 2013, 16(1): 1-9.
[2] 黃敏學(xué), 王峰, 謝亭亭. 口碑傳播研究綜述及其在網(wǎng)絡(luò)環(huán)境下的研究初探[J]. 管理學(xué)報(bào), 2010, 7(1): 138-146.
[3] 李杰, 張向前, 陳維軍, 等. C2C 電子商務(wù)服裝產(chǎn)品客戶評(píng)論要素及其對(duì)滿意度的影響[J]. 管理學(xué)報(bào), 2014, 11(2): 261-266.
[4] 丁于思, 肖軼楠. 基于網(wǎng)絡(luò)點(diǎn)評(píng)的五星級(jí)酒店顧客滿意度測(cè)評(píng)研究[J]. 經(jīng)濟(jì)地理, 2014(5): 182-186.
[5] Zhou L, Ye S, Pearce P L, et al. Refreshing hotel satisfaction studies by reconfiguring customer review data [J]. International journal of hospitality management, 2014, 38: 1-10.
[6] Xiang Z, Schwartz Z, Gerdes J H, et al. What can big data and text analytics tell us about hotel guest experience and satisfaction?[J]. International journal of hospitality management, 2015, 44: 120-130.
[7] 熊偉, 高陽(yáng), 吳必虎. 中外國(guó)際高星級(jí)連鎖酒店服務(wù)質(zhì)量對(duì)比研究——基于網(wǎng)絡(luò)評(píng)價(jià)的內(nèi)容分析[J]. 經(jīng)濟(jì)地理, 2012, 32(2): 160-165.
[8] 周立柱, 賀宇凱, 王建勇. 情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2008, 28(11): 2725-2728.
[9] 張紫瓊, 葉強(qiáng), 李一軍. 互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J]. 管理科學(xué)學(xué)報(bào), 2010, 13(6): 84-96.
[10] Cambria E, Schuller B, Xia Y, et al. New avenues in opinion mining and sentiment analysis[J]. IEEE intelligent systems, 2013 (2): 15-21.
[11] 楊立公,朱儉,湯世平. 文本情感分析綜述[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(6): 1574-1607.
[12] Li H, Ye Q, Law R. Determinants of customer satisfaction in the hotel industry: an application of online review analysis[J]. Asia Pacific journal of tourism research, 2013, 18(7): 784-802.
[13] 丁于思, 肖軼楠. 五星級(jí)酒店服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)體系研究——基于網(wǎng)絡(luò)點(diǎn)評(píng)內(nèi)容分析[J]. 消費(fèi)經(jīng)濟(jì), 2014, 30(3): 64-69.
[14] 李實(shí), 葉強(qiáng), 李一軍, 等. 挖掘中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征及情感傾向[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(8): 3016-3019.
[15] 劉羽, 曹瑞娟. 基于觀點(diǎn)挖掘的產(chǎn)品特征提取[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(1): 81-84.
Research on Enterprise Public Opinions Based on Large-scale Text Data Sentiment Mining
Wu Lianren1 Li Jinjie2 Qi Jiayin1
1School of Management, Shanghai University of International Business and Economics, Shanghai 201620
2 School of Economics and Management, Beijing University of Posts and Telecommunications, Beijing 100876
Abstract: [Purpose/significance] In the era of big data, text mining and sentiment analysis technologies have been widely used in the analysis of online reviews (ORs). Through the large-scale text data mining, the key factors influencing the public opinion of enterprises are studied. [Method/process] We collected more than twenty-five million hotel online reviews from 103 878 hotels, identifying key content elements that affected the customer service experience. [Result/conclusion] Through the exploratory factor analysis and the multiple regression analysis, the authors explore the relationships between the hotel customer experience and satisfaction. It is hoped that this study sets an example for the development of business analytics in enterprises marketing and management.
Keywords: online review text mining sentiment analysis enterprise public opinion business analysis
知識(shí)管理論壇2016年6期