劉銀婷 李秋敏 詹潔
摘 要:隨著共享經(jīng)濟的發(fā)展,付費自習(xí)室在全國逐步推廣,但作為新興行業(yè)付費自習(xí)室的發(fā)展并不完善,基于在線評論能夠客觀全面地反映市場需求實現(xiàn)的程度,對付費自習(xí)室的發(fā)展有著借鑒意義。因此,本文通過收集美團平臺中付費自習(xí)室的在線評論,進行情感傾向分類、語義網(wǎng)絡(luò)分析和潛在主題分析,建立正面、負面評價的詞頻聯(lián)系,提取潛在主題,最后得到消費者對付費自習(xí)室的滿意點與抱怨點,并對付費自習(xí)室的發(fā)展提出建議。
關(guān)鍵詞:付費自習(xí)室;在線評論;情感分類;語義網(wǎng)絡(luò)分析;主題分析
本文索引:劉銀婷,李秋敏,詹潔.<標題>[J].商展經(jīng)濟,2022(10):-061.
中圖分類號:F270.7 文獻標識碼:A
隨著社會就業(yè)壓力的提高,終身學(xué)習(xí)的意識深入人心,付費自習(xí)室是共享經(jīng)濟發(fā)展下的產(chǎn)物,有自習(xí)需求的人們在家或多或少會被干擾。公共圖書館座位有限,咖啡館相對嘈雜,所以付費自習(xí)室逐漸變成了合適的選擇,商家通過構(gòu)建沉浸式學(xué)習(xí)格子間并提供相應(yīng)的學(xué)習(xí)條件和學(xué)習(xí)氛圍,消費者依據(jù)使用時間付費來獲得自習(xí)室座位的使用權(quán)。目前,國內(nèi)學(xué)者對付費自習(xí)室的研究多集中在付費自習(xí)室的發(fā)展歷程、興起原因、用戶滿意的影響因素和未來發(fā)展,在研究方法上多為對問卷調(diào)查結(jié)果的簡單描述統(tǒng)計,未建立模型構(gòu)建指標深入探討,基于線上評論信息挖掘分析的研究較少,本文意在借鑒其他學(xué)者的研究方法;首先,通過收集美團平臺中付費自習(xí)室的在線評論文本,對評論數(shù)據(jù)進行機械壓縮去詞、分詞、過濾停用詞等初步處理;然后,對文本進行情感傾向分類和語義網(wǎng)絡(luò)分析,分別建立正面、負面評價的詞頻聯(lián)系;最后,通過主題模型提取潛在主題,得到消費者對付費自習(xí)室的滿意點與抱怨點并對付費自習(xí)室的發(fā)展提出建議。
1 數(shù)據(jù)來源與預(yù)處理
1.1 數(shù)據(jù)來源
由于目前付費自習(xí)室多分布于人口密集、教育資源領(lǐng)先、付費意愿強烈的一線和新一線城市,故分別選取北京、上海、廣州、深圳、成都、長沙、鄭州七個城市中具有代表性的付費自習(xí)室作為分析對象,利用Python語言的Scrapy爬蟲框架對美團平臺上中付費自習(xí)室的在線評論進行解析,爬取得到近5000條在線評論文本數(shù)據(jù),除去無效評論與不齊全記錄后篩選得到4538條評論作為樣本數(shù)據(jù)。
1.2 數(shù)據(jù)預(yù)處理
機械壓縮去詞:在美團付費自習(xí)室的在線評論中常存在著大量重復(fù)語料、顏文字、縮寫詞匯如“非常好好好好好好好好好,很安靜”“不錯不錯不錯”等,過于冗余,需要對其進行機械壓縮去詞處理[1]。
分詞:由于文本的句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,并按照規(guī)則重新合成詞序列。本文采用Python開發(fā)的一個中文模塊——jieba分詞,對評論內(nèi)容進行中文分詞。
過濾停用詞:在文本處理中,停用詞是指那些包含信息少且在文中大量出現(xiàn)的詞語。它們通常是一些單字及高頻的單詞,如“的”“甚至”“我”“嗎”等。因此,過濾停用詞能有效提高文本的檢索效率和效果,以避免對文本特別是短文本造成負面的影響。本文在哈爾濱工業(yè)大學(xué)停用詞表基礎(chǔ)上結(jié)合具體評論內(nèi)容構(gòu)建綜合停用詞表,對分詞結(jié)果進行過濾[2]。
2 研究方法與分析
2.1 基于機器學(xué)習(xí)的情感分析
本文將收集到的10000條帶有標注的語料集作為訓(xùn)練集,使用樸素貝葉斯模型進行訓(xùn)練擬合,訓(xùn)練出更好的詞向量,來預(yù)測新數(shù)據(jù)的分類結(jié)果,在準確率達到98.5%,損失率為0.61%的情況下,預(yù)測付費自習(xí)室的評論內(nèi)容分為帶有正面情緒的評論與帶有負面情緒的評論兩類[3],結(jié)果如表2所示。
上述結(jié)果顯示,消費者對付費自習(xí)室的正面評價有4265條,占總評論條數(shù)的93.98%;消費者對付費自習(xí)室的負面評價有273條,占總評論條數(shù)的6.02%。從總體上說,當前消費者對付費自習(xí)室的評價大多為好評。但差評的內(nèi)容更是關(guān)注的重點,情感分類只能直觀地看出消費者總體使用感受,不能得到具體的內(nèi)容反饋。
2.2 語義網(wǎng)絡(luò)模型
為了找出各評論詞匯的主要內(nèi)容之間的關(guān)系,進一步建立語義網(wǎng)絡(luò)模型,分別提取出正面情緒詞匯和負面情緒的高頻詞匯,并過濾掉無意義的詞語,基于高頻詞表提取特征值,最后構(gòu)建正面評價語義網(wǎng)絡(luò)和負面評價語義網(wǎng)絡(luò),生成共現(xiàn)矩陣詞表展現(xiàn)文本數(shù)據(jù)的一般關(guān)注對象[4]。語義網(wǎng)絡(luò)如圖1、圖2所示。
根據(jù)付費自習(xí)室正面評價的語義網(wǎng)絡(luò)圖,可得以下結(jié)論:在付費自習(xí)室的環(huán)境方面,正面語義網(wǎng)絡(luò)中存在安靜、干凈、氛圍等相似詞匯關(guān)系;在付費自習(xí)室的設(shè)施方面,正面語義網(wǎng)絡(luò)中存在微波爐、茶水、咖啡、零食等相似詞匯關(guān)系;在付費自習(xí)室的服務(wù)方面,正面語義網(wǎng)絡(luò)中存在姐姐、熱情、前臺等相似詞匯關(guān)系;在付費自習(xí)室的地理位置方面,正面語義網(wǎng)絡(luò)存在好找、區(qū)域、地鐵站等相似詞匯關(guān)系;在消費者體驗方面,正面語義網(wǎng)絡(luò)中存在舒服、沉浸、很棒、不錯、喜歡、效率等相似詞匯關(guān)系。
根據(jù)付費自習(xí)室負面評價的語義網(wǎng)絡(luò)圖,可以得到以下結(jié)論:在付費自習(xí)室的環(huán)境方面,負面語義網(wǎng)絡(luò)中存在隔音、裝修、味道、通風(fēng)、空氣等相似詞匯關(guān)系;在付費自習(xí)室的設(shè)施方面,負面語義網(wǎng)絡(luò)中存在廁所、空調(diào)、桌子、衛(wèi)生間等相似詞匯關(guān)系;在付費自習(xí)室的服務(wù)方面,負面語義網(wǎng)絡(luò)中存在小姐姐等相似詞匯關(guān)系;在付費自習(xí)室的地理位置方面,負面語義網(wǎng)絡(luò)中存在位置等相似詞匯關(guān)系;在消費者體驗方面,負面語義網(wǎng)絡(luò)中存在不好、花錢、體驗、略貴等相似詞匯關(guān)系。
為了更直觀地看出正面、負面語義的具體范圍,本文制作了詞云圖,如圖3、圖4所示。
綜上所述,付費自習(xí)室能夠為我們提供安靜的學(xué)習(xí)氛圍,是受到消費者追捧的主要原因。付費自習(xí)室行業(yè)突然興起,大量商家跟風(fēng)創(chuàng)建付費自習(xí)室的同時環(huán)境和設(shè)施并沒有達到消費者的要求,存在隔音不好、通風(fēng)不暢、廁所臟亂少等問題。
2.3 主題模型
為對在線評論的潛在主題進行挖掘,展現(xiàn)主題之間的差異化特點,需要進行特征主題分析,進一步細化特征詞類型[5]。本文使用基于機器學(xué)習(xí)的情感分類結(jié)果產(chǎn)生的正面評價和負面評價作為輸入數(shù)據(jù)集,對不同情感傾向下的潛在主題分別進行挖掘,得到付費自習(xí)室評價的潛在主題與特征詞的概率分布情況,選擇前三個主題作為評論集中的熱點,并得出對應(yīng)的熱點評論詞。
根據(jù)付費自習(xí)室正面評論的三個潛在主題的特征詞的提取,主題一中的高頻特征詞,即熱門關(guān)注點主要是“自習(xí)室”(0.026%)、“學(xué)習(xí)”(0.026%)、“安靜”(0.014%)、“體驗”(0.014%)、“環(huán)境”(0.014%)、“氛圍”(0.011%)、“不錯”(0.010%)、“地方”(0.010%)、“感覺”(0.009%)、“挺”(0.008%),由此可以看出,主題一主要是反映付費自習(xí)室很安靜;主題二的高頻特征詞,即熱門關(guān)注點主要是“自習(xí)室”(0.024%)、“環(huán)境”(0.023%)、“學(xué)習(xí)”(0.018%)、“不錯”(0.011%)、“體驗”(0.011%)、“特別”(0.010%)、“喜歡”(0.009%)、“免費”(0.008%)、“真的”(0.007%)、“姐姐”(0.007%),由此可以看出,主題二主要是反映消費者對付費自習(xí)室的環(huán)境很滿意;主題三的高頻特征詞,即熱門關(guān)注點主要是“學(xué)習(xí)”(0.054%)、“環(huán)境”(0.044%)、“安靜”(0.036%)、“不錯”(0.021%)、“適合”(0.016%)、“氛圍”(0.015%)、“姐姐”(0.013%)、“地方”(0.009%)、“自習(xí)”(0.009%)、“干凈”(0.009%),由此可以看出,主題三主要是反映付費自習(xí)室的學(xué)習(xí)氛圍良好。
將付費自習(xí)室正面評論的三個主題特征詞出現(xiàn)的概率進行統(tǒng)計加和,得到條形圖如圖5所示,可以明顯看出,付費自習(xí)室正面評論中主題分布差異較大,主題三占比最高,占0.226%,主題一、主題二分別占比0.142%、0.128%。由主題一主要關(guān)注在付費自習(xí)室的學(xué)習(xí)氛圍方面,我們可以得到結(jié)論:有自習(xí)需求的人們在家或多或少會被干擾,公共圖書館座位有限,咖啡館相對嘈雜,所以能提供良好學(xué)習(xí)氛圍的付費自習(xí)室逐漸受到了消費者的追捧。
根據(jù)付費自習(xí)室負面評論的三個潛在主題的特征詞的提取,主題一中的高頻特征詞,即熱門關(guān)注點主要是“環(huán)境”(0.017%)、“貴”(0.012%)、“自習(xí)”(0.009%)、“位置”(0.007%)、“價格”(0.007%)、“學(xué)習(xí)”(0.006%)、“座位”(0.006%)、“希望”(0.006%)、“體驗”(0.006%)、“卡”(0.005%),由此可以看出,主題一主要是反映消費者認為付費自習(xí)室價格貴;主題二的高頻特征詞,即熱門關(guān)注點主要是“自習(xí)室”(0.010%)、“學(xué)習(xí)”(0.009%)、“環(huán)境”(0.009%)、“廁所”(0.008%)、“位置”(0.008%)、“吵”(0.008%)、“樓下”(0.007%)、“公共”(0.007%)、“服務(wù)”(0.006%)、“區(qū)域”(0.005%),由此可以看出,主題二主要是反映消費者認為付費自習(xí)室周圍環(huán)境吵;主題三的高頻特征詞,即熱門關(guān)注點主要是“自習(xí)”(0.008%)、“通風(fēng)”(0.007%)、“地方”(0.007%)、“差”(0.006%)、“學(xué)習(xí)”(0.006%)、“空調(diào)”(0.006%)、“唯一”(0.006%)、“房間”(0.005%)、“特別”(0.005%)、“太”(0.005%),由此可以看出,主題三主要是反映消費者認為付費自習(xí)室通風(fēng)不好,空氣差。
將付費自習(xí)室負面評論的三個主題特征詞出現(xiàn)的概率進行統(tǒng)計加和,得到條形圖如圖6所示,可以明顯看出,付費自習(xí)室負面評論中主題分布差異不大,主題一、主題二、主題三分別占比0.081%、0.077%、0.061%。根據(jù)三個主題關(guān)注的內(nèi)容,我們可以得到結(jié)論:消費者對付費自習(xí)室不滿意的原因有付費自習(xí)室價格較昂貴;付費自習(xí)室所處的地理位置周圍環(huán)境不安靜;付費自習(xí)室通風(fēng)不是太好,空氣質(zhì)量差。
3 結(jié)論與建議
3.1 相關(guān)結(jié)論
為得到消費者對付費自習(xí)室的客觀全面的評價,本文在對美團平臺中付費自習(xí)室在線評論的文本挖掘過程中,進行了情感分類、語義網(wǎng)絡(luò)分析和LDA模型主題分析,實證研究的結(jié)果為當前消費者對付費自習(xí)室的評價大多是正向評價;付費自習(xí)室受到消費者的追捧的主要原因是提供好的學(xué)習(xí)氛圍;消費者對付費自習(xí)室不滿意的主要原因是付費自習(xí)室價格昂貴、付費自習(xí)室所處的地理位置周圍環(huán)境不安靜、付費自習(xí)室通風(fēng)不好、空氣質(zhì)量差、付費自習(xí)室的廁所等設(shè)施有待完善等。
3.2 相關(guān)建議
建立分區(qū)自習(xí)室,分人群收費,合理定價:由于每個受眾的收入水平不一,對付費自習(xí)室價格的接受程度也不同,因此可以建立低價區(qū)和高價區(qū)等不同類型自習(xí)室,滿足不同消費水平人員的需求。同時利潤高和利潤低的自習(xí)室能綜合維持企業(yè)的持續(xù)經(jīng)營[6]。
合理選址,選擇安靜的環(huán)境:學(xué)習(xí)環(huán)境是影響學(xué)習(xí)效率的一大因素,商家在選擇付費自習(xí)室的創(chuàng)建地點時,應(yīng)該盡量選擇周圍環(huán)境安靜的地點;另外,商家應(yīng)使用隔音較好的隔板及靜音設(shè)備,給消費者提供安靜的學(xué)習(xí)環(huán)境[7]。
優(yōu)化付費自習(xí)室的設(shè)施:商家在付費自習(xí)室中盡可能地提供便利服務(wù),付費自習(xí)室的設(shè)施應(yīng)更加齊全,提供干凈充足的公共衛(wèi)生間、日常生活的必需品與寬敞的學(xué)習(xí)空間,另外室內(nèi)也要常通風(fēng),保持空氣清新[8]。
參考文獻
杜嘉忠,徐健,劉穎.網(wǎng)絡(luò)商品評論的特征:情感詞本體構(gòu)建與情感分析方法研究[J].現(xiàn)代圖書情報技術(shù),2014(5):74-82.
郭麗麗,秦志玉.基于網(wǎng)絡(luò)游記的日照旅游形象感知研究[J].曲阜師范大學(xué)學(xué)報(自然科學(xué)版),2016,42(1):105-110.
姚昕凱.在線旅游社區(qū)視閾下旅游目的地形象評價研究[D].南京:南京郵電大學(xué),2020.
鮮冉.付費自習(xí)室用戶滿意度影響因素調(diào)查分析[J].科學(xué)咨詢(科技·管理),2020(9):106-107.
周歡,秦天琦.基于在線評論情感分析與LDA的物流服務(wù)質(zhì)量影響因素研究[J].重慶工商大學(xué)學(xué)報(社會科學(xué)版):1-17[2021-10-21].
易承柳,李夢琪,黃泳茵.基于消費者行為視角下對“付費自習(xí)室”的需求分析[J].作家天地,2020(1):113-114.
潘盈忱,李婷,杜曉雪,等.城市自習(xí)室興起動因分析及運營策略思考[J].營銷界,2021(18):39-40.
董苗苗,董思佳.新型付費自習(xí)室創(chuàng)立可行性研究與分析[J].經(jīng)濟師,2020(7):199-200.
基金項目:國家統(tǒng)計局統(tǒng)計信息技術(shù)與數(shù)據(jù)挖掘重點實驗室基金資助項目“大數(shù)據(jù)背景下高維數(shù)據(jù)的降維及應(yīng)用研究”(SDL201903)。
作者簡介:劉銀婷(1998-),女,漢族,河南南陽人,碩士研究生,研究方向:大數(shù)據(jù)分析;
李秋敏(1976-),女,漢族,四川成都人,博士,副教授,研究方向:計量經(jīng)濟分析;
詹潔(1996-),女,漢族,四川廣安人,碩士研究生,研究方向:大數(shù)據(jù)分析。