張倩男
(黃河交通學(xué)院 基礎(chǔ)教學(xué)部, 河南 焦作 454950)
伴隨著全球進(jìn)入智能手機(jī)時(shí)代,手機(jī)產(chǎn)品不斷豐富,產(chǎn)品競(jìng)爭(zhēng)也日益加劇。隨著電子商務(wù)的發(fā)展,越來越多的消費(fèi)者選擇通過網(wǎng)絡(luò)平臺(tái)購(gòu)買手機(jī),并在平臺(tái)發(fā)表產(chǎn)品評(píng)論。評(píng)論包含產(chǎn)品不同屬性的評(píng)價(jià)、整體性評(píng)價(jià)以及與其他產(chǎn)品的對(duì)比評(píng)價(jià)等信息。挖掘在線評(píng)論中蘊(yùn)涵的潛在信息,能有效幫助商家實(shí)現(xiàn)自身產(chǎn)品與服務(wù)的優(yōu)化,進(jìn)行營(yíng)銷與競(jìng)爭(zhēng)策略調(diào)整,完成精細(xì)化管理,進(jìn)一步提升企業(yè)競(jìng)爭(zhēng)力,同時(shí)也能幫助消費(fèi)者做出更加明智的消費(fèi)決策。
主題模型作為可以細(xì)粒度挖掘文檔主題和情感分布的無監(jiān)督模型,許多學(xué)者將其引入到情感分析研究中。陳曉美和關(guān)心惠[1]在LDA在線輿情視圖提取的基礎(chǔ)上,結(jié)合輿情主題和情感因素對(duì)網(wǎng)絡(luò)評(píng)論提取了主要觀點(diǎn)。萬曉霞[2]提出了一種改進(jìn)的LDA建模方法,利用TF-IDF值對(duì)文本詞的權(quán)重進(jìn)行過濾,提高了熱門話題發(fā)現(xiàn)的速度和準(zhǔn)確性。Hu等[3]運(yùn)用LDA模型對(duì)時(shí)事新聞的社交媒體評(píng)論數(shù)據(jù)進(jìn)行分析,得到用戶的意見。田賢忠等[4]基于BBS-LDA進(jìn)行了論壇主題的挖掘。曾寰等[5]基于語義相似度對(duì)商品評(píng)論進(jìn)行LDA主題情感分類研究。
在文本分類的研究中,謝宗彥等[6]基于Word2vec為酒店在線評(píng)論構(gòu)建了一個(gè)情感分析的模型,取得較好的效果。吳龍峰[7]提出了一種結(jié)合神經(jīng)網(wǎng)絡(luò)語言模型Word2vec和文檔主題模型LDA的文本特征表示模型。Zhang等[8]為了得到語義特征,提出了一種基于Word2vec和支持向量機(jī)性能的情感分類方法。文獻(xiàn)[9-11]也分別基于Word2vec對(duì)情感分類進(jìn)行了研究。Sharma等[12]從預(yù)先訓(xùn)練好的word2vec模型中生成詞向量,并利用CNN層提取出更好的特征用于短句分類。
為了更有效挖掘用戶評(píng)論的語義信息,本文以vivo手機(jī)用戶評(píng)論數(shù)據(jù)為研究對(duì)象,對(duì)用戶評(píng)論進(jìn)行可視化分析和主題模型分析。進(jìn)行詞頻統(tǒng)計(jì),并繪制詞云圖,挖掘用戶對(duì)vivo手機(jī)的關(guān)注焦點(diǎn);進(jìn)行社會(huì)語義網(wǎng)絡(luò)的可視化分析,挖掘手機(jī)評(píng)論特征的內(nèi)在聯(lián)系;使用SnowNLP處理用戶評(píng)論信息,在時(shí)間軸上觀察用戶在特定時(shí)間段內(nèi)的情感傾向趨勢(shì),定位用戶負(fù)面評(píng)論信息?;谡w數(shù)據(jù)集進(jìn)行LDA主題特征分析,挖掘用戶主要討論話題;為提高主題分析在不同情感傾向下熱門關(guān)注點(diǎn)反映情況的精確度,將LDA和基于Word2vec的SVM算法結(jié)合,分別挖掘用戶正向和負(fù)向情感評(píng)論的潛在主題,得到不同情感傾向下用戶對(duì)vivo手機(jī)不同方面的反映情況。
根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Canalys發(fā)布的《2019年中國(guó)大陸智能手機(jī)出貨量及市場(chǎng)份額》報(bào)告,發(fā)現(xiàn)2019年在中國(guó)大陸市場(chǎng)vivo手機(jī)出貨量雖然排名第二,但同比表現(xiàn)下滑趨勢(shì),故本文選取vivo手機(jī)的用戶評(píng)論作為研究對(duì)象,選定網(wǎng)絡(luò)爬蟲工具——八爪魚采集器,通過模仿用戶的網(wǎng)頁操作,指定數(shù)據(jù)采集邏輯和選擇采集的數(shù)據(jù),進(jìn)行數(shù)據(jù)采集的流程設(shè)計(jì),完成采集規(guī)則的制定,然后基于流程設(shè)計(jì)進(jìn)行用戶評(píng)價(jià)界面相關(guān)信息的采集,最終共采集到近3萬條vivo手機(jī)用戶評(píng)論數(shù)據(jù),采集字段包含用戶id、用戶評(píng)分、評(píng)價(jià)內(nèi)容、手機(jī)型號(hào)、購(gòu)買時(shí)間。
在分析之前,需要通過數(shù)據(jù)清洗完成數(shù)據(jù)的規(guī)整,以提高后續(xù)情感分析的精確性。文本評(píng)論的處理主要包括:
1)初步清洗。通過定位、篩選、查找、排序等功能對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理,如刪除賣家回應(yīng)評(píng)論部分以及無實(shí)質(zhì)評(píng)論內(nèi)容部分。
2)文本去重。采用比較刪除法,去除文本評(píng)論數(shù)據(jù)中無用的自動(dòng)評(píng)論、重復(fù)評(píng)論以及抄襲的評(píng)論內(nèi)容,即對(duì)完全重復(fù)的語料進(jìn)行兩兩對(duì)比,僅保留一條有用的文本評(píng)論信息,刪除其他重復(fù)評(píng)論,確保數(shù)據(jù)的唯一性。
3)機(jī)械壓縮去重。由于數(shù)據(jù)量較大,且文本數(shù)據(jù)質(zhì)量良莠不齊,包含很多沒有意義的文本數(shù)據(jù),故需要對(duì)其進(jìn)行壓縮,去掉連續(xù)重復(fù)的無意義詞匯。評(píng)論壓縮語句效果對(duì)比結(jié)果見表1。
表1 用戶評(píng)論語句壓縮前后對(duì)比結(jié)果
4)中文分詞。jieba中文分詞使用基于統(tǒng)計(jì)的分詞方法,基于前綴詞典實(shí)現(xiàn)對(duì)所有詞匯的掃描,然后將一條語句中所有可能的生成詞匯構(gòu)成有向無環(huán)圖(DAG),基于DAG圖,采用動(dòng)態(tài)規(guī)劃計(jì)算最大概率路徑找出最大切分組合。jieba中文分詞的精確模式比較適合文本分析,能夠?qū)⒕渥幼罹_地切開。本文數(shù)據(jù)是用戶在線評(píng)論文本,故采用結(jié)巴分詞的精確模式進(jìn)行分詞。
5)去停用詞。去停用詞的目的是為了減少信息冗余,提高分析的效率和準(zhǔn)確性,而去停用詞的關(guān)鍵在于停用詞表的維護(hù)。本文使用“哈工大停用詞詞庫”“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫”“百度停用詞表”3種停用詞庫,對(duì)停用詞人工整理、匹配、篩選、去重;利用Python語言篩選對(duì)手機(jī)評(píng)論數(shù)據(jù)無幫助和無意義的詞匯,加入停用詞詞典,停用詞表共包含2 185個(gè)詞匯;最后利用Python語言基于新的停用詞表對(duì)分詞后的用戶評(píng)論數(shù)據(jù)進(jìn)行二次過濾,實(shí)驗(yàn)效果顯著,實(shí)驗(yàn)結(jié)果見表2。
表2 去停用詞結(jié)果
TF-IDF是一種衡量文檔中某個(gè)詞對(duì)該篇文檔重要程度的計(jì)算方法,一個(gè)詞語在一篇文章中出現(xiàn)次數(shù)越多, 同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章。文本關(guān)鍵詞抽取流程如圖1所示。
圖1 文本關(guān)鍵詞抽取流程
基于處理之后的數(shù)據(jù),采用TF-IDF算法處理文檔詞項(xiàng),獲得更合理的更能代表這篇文檔特點(diǎn)的向量,在轉(zhuǎn)化成文檔向量后,依據(jù)權(quán)值大小進(jìn)行關(guān)鍵詞提取,從而進(jìn)行不同文檔間的相似度分析。TF-IDF公式為
(1)
式中:TF為指詞在文章中出現(xiàn)的次數(shù),即詞頻;IDF為衡量詞的常見程度,即逆文檔頻率;NA為該文檔詞項(xiàng)A的總數(shù);N為該文檔總詞數(shù);|DA|是包含詞項(xiàng)A的文檔數(shù);|D|是語料庫中的文檔總數(shù)。通過TF-IDF公式,可以計(jì)算出特定詞對(duì)于表現(xiàn)這篇文檔主題的貢獻(xiàn)度。
2.2.1 詞云圖分析
在用戶評(píng)論的焦點(diǎn)分析中,首先基于詞法分析做評(píng)論的分詞和詞條的詞性標(biāo)注,文本過濾篩選符合關(guān)鍵詞搜索域的詞條;繼而基于TF-IDF算法實(shí)現(xiàn)關(guān)鍵詞的獲取,提取出的關(guān)鍵詞濃縮了用戶評(píng)論中的精華信息,能反映出用戶的關(guān)注點(diǎn)、情緒和認(rèn)知,產(chǎn)品的潛在競(jìng)爭(zhēng)力等信息;之后對(duì)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),提取與產(chǎn)品內(nèi)容、屬性有關(guān)的關(guān)鍵詞;最后對(duì)前101個(gè)關(guān)鍵詞基于詞云圖展示評(píng)論熱點(diǎn)與焦點(diǎn)。詞云圖如圖2所示。
圖2 詞云圖
通過結(jié)合詞云圖和詞頻統(tǒng)計(jì)結(jié)果可以看出,除了表示研究對(duì)象的“手機(jī)”外,“不錯(cuò)”“喜歡”“滿意”是評(píng)論中較為突出的高頻詞匯,其均與用戶態(tài)度有關(guān),代表大部分用戶的總體態(tài)度是較正面的。與手機(jī)性能特征相關(guān)的詞匯有“流暢”“運(yùn)行”“系統(tǒng)”“性能”“處理器”“配置”等,這些詞出現(xiàn)頻率也較高?!捌聊弧薄捌痢薄巴庥^”“好看”“顏色”等反映手機(jī)外觀的詞匯,說明用戶對(duì)手機(jī)外觀比較關(guān)注?!芭恼铡薄扒逦薄罢障唷薄皵z像頭”高頻詞說明用戶對(duì)手機(jī)拍照功能也比較關(guān)注?!翱爝f”“服務(wù)”“物流”“態(tài)度”反映用戶購(gòu)物體驗(yàn)特征的詞匯出現(xiàn)頻次也不低,表明用戶對(duì)購(gòu)物過程中的購(gòu)物體驗(yàn)有著較高的要求。“電池”“耐用”“電量”表明有些用戶關(guān)注手機(jī)的續(xù)航能力?!鞍l(fā)熱”“不好”消極詞匯的出現(xiàn)說明用戶對(duì)手機(jī)某些體驗(yàn)有所不滿。
總體來看,用戶對(duì)vivo手機(jī)的關(guān)注點(diǎn)主要集中在手機(jī)的性能、外觀、拍照功能、續(xù)航能力,另外用戶也比較關(guān)注購(gòu)物體驗(yàn)過程,但是對(duì)這些關(guān)注點(diǎn)的態(tài)度并不能在詞云圖中體現(xiàn),需要進(jìn)一步研究。
2.2.2 社會(huì)語義網(wǎng)絡(luò)分析
采用ROSTCM6的語義分析工具進(jìn)行社會(huì)網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析,生成社會(huì)語義網(wǎng)絡(luò)結(jié)構(gòu)圖,以圖形化的方式揭示詞與詞之間的結(jié)構(gòu)關(guān)系,對(duì)用戶評(píng)論文本數(shù)據(jù)集進(jìn)行進(jìn)一步的關(guān)聯(lián)分析,挖掘潛在信息。社會(huì)語義網(wǎng)絡(luò)圖如圖3所示。
圖3 用戶評(píng)論社會(huì)語義網(wǎng)絡(luò)圖
社會(huì)語義網(wǎng)絡(luò)分析步驟如下:
1)將清洗處理完畢文本的數(shù)據(jù)導(dǎo)入ROSTCM6提取高頻詞。
2)根據(jù)自定義的過濾詞表(停用詞表)過濾無意義的詞,形成高頻詞表。
3)提取行特征詞表,構(gòu)建高頻詞和行特征詞-共現(xiàn)矩陣詞表,構(gòu)建語義網(wǎng)絡(luò)圖。
通過分析,獲得以下發(fā)現(xiàn):
1)結(jié)合語義網(wǎng)絡(luò)關(guān)系詞頻統(tǒng)計(jì)結(jié)果和語義網(wǎng)絡(luò)圖進(jìn)行分析,社會(huì)語義網(wǎng)絡(luò)圖以“手機(jī)”為核心節(jié)點(diǎn),主要表現(xiàn)vivo手機(jī)系統(tǒng)、電池屬性、拍照方面的功能性信息,另外很快、流暢、滿意、漂亮等詞表明用戶對(duì)vivo手機(jī)評(píng)價(jià)較為積極。
2)次級(jí)節(jié)點(diǎn)基本以核心節(jié)點(diǎn)為中心向周圍輻射分布,但其中也存在局部的簇群關(guān)系,揭示出主要問題之間的潛在關(guān)聯(lián):主要表現(xiàn)手機(jī)的運(yùn)行速度快、拍照速度快、充電速度快、玩游戲速度快,同時(shí)用戶對(duì)物流速度比較滿意。
3)將“流暢”作為三級(jí)節(jié)點(diǎn)。主要表現(xiàn)手機(jī)在玩游戲、運(yùn)行、系統(tǒng)、拍照方面比較流暢不卡頓。
4)其他節(jié)點(diǎn)。與“外觀”相關(guān)的漂亮、好看等詞表現(xiàn)用戶對(duì)手機(jī)外觀比較滿意;與“電池”相關(guān)的續(xù)航、耐用表明手機(jī)電池續(xù)航時(shí)間長(zhǎng)。
2.2.3 輿情時(shí)間序列可視化分析
情感分析的目的是為了找出說話者/作者在某些話題上或者針對(duì)一個(gè)文本兩極的觀點(diǎn)的態(tài)度。利用SnowNLP情感分析工具處理用戶評(píng)論信息,其返回值為正面情緒的概率,越接近于1表示正面情緒,越接近于0表示負(fù)面情緒,縱坐標(biāo)數(shù)值越低代表用戶評(píng)價(jià)情感分析的數(shù)值越低。將情感分析的結(jié)果在時(shí)間軸上以可視化形式呈現(xiàn)出來,展示基于時(shí)間軸的信息流,如此便可以直觀觀測(cè)到某一段時(shí)間內(nèi)用戶對(duì)手機(jī)的情感傾向趨勢(shì),然后基于用戶評(píng)論的情感極性定位那些可能有問題的異常點(diǎn),直觀查看這些異常點(diǎn)出現(xiàn)在什么時(shí)間,以及它們的數(shù)值究竟有多低。從而從這些負(fù)面評(píng)價(jià)出發(fā),針對(duì)用戶的關(guān)注焦點(diǎn)進(jìn)行挖掘,提取有價(jià)值的信息,用于產(chǎn)品的改進(jìn)和相應(yīng)的銷售政策的制定,對(duì)商家具有非常重要的意義。
將全部數(shù)據(jù)的情感分析圖進(jìn)行展示,從整體上把握用戶對(duì)該產(chǎn)品的情感傾向。由于本文數(shù)據(jù)量較大,故最終形成的時(shí)間序列圖高度集中,數(shù)據(jù)分布較為密集,從圖4可以看到,數(shù)據(jù)集高度集中在圖形上方,故用戶對(duì)手機(jī)的總體評(píng)價(jià)是正面的,有些正面評(píng)價(jià)情感分析數(shù)值極端的高,但是也清晰地發(fā)現(xiàn)了許多數(shù)值極低的點(diǎn),這些點(diǎn)對(duì)應(yīng)評(píng)論的情感分析數(shù)值接近于0,因此被判定為基本上沒有正面情感,該部分評(píng)論包含用戶對(duì)手機(jī)各方面的負(fù)面評(píng)論,具有很高的研究?jī)r(jià)值。
圖4 用戶評(píng)論的時(shí)間序列圖
為了清晰地進(jìn)行輿情分析,抽取2019年12月份用戶評(píng)論進(jìn)行輿情時(shí)間序列可視化,如圖5所示。從時(shí)間上看,幾乎每隔幾天就會(huì)出現(xiàn)一次較嚴(yán)重的負(fù)面評(píng)價(jià)(情感值為0),因此利用Python數(shù)據(jù)框Pandas提供的排序功能找到所有評(píng)論里某段時(shí)間內(nèi)情感分析數(shù)值較低的評(píng)論。將該部分評(píng)論使用TF-IDF方式提取關(guān)鍵詞和權(quán)重,發(fā)現(xiàn)2019年12月份的負(fù)面評(píng)價(jià)主要針對(duì)客服態(tài)度、充電發(fā)熱問題。針對(duì)京東客服服務(wù)問題,建議京東平臺(tái)對(duì)客服人員進(jìn)行素質(zhì)培訓(xùn),提高服務(wù)質(zhì)量;針對(duì)手機(jī)充電發(fā)熱問題,建議手機(jī)制造商對(duì)手機(jī)電池進(jìn)行檢測(cè),在保證其他優(yōu)勢(shì)的基礎(chǔ)上,改進(jìn)手機(jī)質(zhì)量。
圖5 2019年12月用戶評(píng)論的時(shí)間序列圖
3.1.1 LDA主題模型介紹
LDA是由Blei于2003年提出的三層貝葉斯概率模型,通過無監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息,目的是要以無指導(dǎo)學(xué)習(xí)的方法從文本中發(fā)現(xiàn)隱含的語義維度,包括文檔(d)、主題(z)、詞(w)三層結(jié)構(gòu),能夠有效地對(duì)文本進(jìn)行建模,挖掘數(shù)據(jù)集中的潛在主題,進(jìn)而分析數(shù)據(jù)集中的集中關(guān)注點(diǎn)及其相關(guān)特征詞。該模型采用詞袋的方法對(duì)主題詞匯進(jìn)行處理,將一個(gè)文檔識(shí)別成一個(gè)詞頻向量,將文字信息轉(zhuǎn)化成數(shù)學(xué)信息,定義詞表大小為L(zhǎng),一個(gè)L維向量(1,0,0,…,0,0)表示一個(gè)詞,由N個(gè)詞構(gòu)成的評(píng)論即為d=(w1,w2,…,wN)。若商品的評(píng)論集D由M篇評(píng)論構(gòu)成,記為D=(d1,d2,…,dM),M篇評(píng)論分布著K個(gè)主題,記為zi(i=1,2,…,K)。記α和β為狄利克雷函數(shù)的先驗(yàn)參數(shù),θ為主題在文檔中的多項(xiàng)分布的參數(shù),其服從超參數(shù)為α的狄利克雷先驗(yàn)分布,φ為詞在主題中的多項(xiàng)分布的參數(shù),其服從超參數(shù)為β的狄利克雷先驗(yàn)分布。
LDA模型假定每篇評(píng)論由各個(gè)主題按一定比例隨機(jī)混合而成,混合比例服從多項(xiàng)分布,記為
Z|θ=Multinomial(θ)
(2)
而每個(gè)主題由詞匯表中的各個(gè)詞語按一定比例混合而成,混合比例也服從多項(xiàng)分布,即為
W|Z,φ=Multinomial(φ)
(3)
在評(píng)論dj條件下生成詞wi的概率表示為
(4)
式中:P(wi|z=s)表示詞wi屬于第s個(gè)主題的概率;P(z=s|dj)表示第s個(gè)主題在評(píng)論dj中的概率。
3.1.2 LDA主題模型估計(jì)
LDA模型利用吉布斯抽樣對(duì)參數(shù)進(jìn)行估計(jì),依據(jù)為
(5)
式中:zi=s表示詞wi屬于第s個(gè)主題的概率;Z-i表示其他所有詞的概率;ns,-i表示不包含當(dāng)前詞wi的被分配到當(dāng)前主題zs下的個(gè)數(shù),ns,-j表示不包含當(dāng)前文檔dj的被分配到當(dāng)前主題zs下的個(gè)數(shù)。
進(jìn)而得到詞wi在主題zs中的分布的參數(shù)估計(jì)φs,i和主題zs在評(píng)論dj中的多項(xiàng)分布的參數(shù)估計(jì)θj,s,即
(6)
(7)
式中:ns,i表示詞wi在主題zs中出現(xiàn)的次數(shù);nj,s表示文檔dj中包含主題zs的個(gè)數(shù)。
3.1.3 LDA的困惑度
對(duì)于一篇文章所訓(xùn)練出來的模型對(duì)文檔屬于哪個(gè)主題的不確定程度稱困惑度,困惑度越低,聚類的效果越好。本文中采用困惑度(Perplexity)確定LDA主題模型的最優(yōu)主題個(gè)數(shù),困惑度公式為
(8)
3.2.1 基于LDA的主題分析
用戶評(píng)論整體數(shù)據(jù)集LDA主題提取步驟如下:
1)讀取數(shù)據(jù),加載自定義停用詞表,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,分詞、詞性標(biāo)注、去停用詞、詞和詞性構(gòu)成一個(gè)元組。
2)進(jìn)行特征關(guān)鍵詞的限定,由于用戶評(píng)論數(shù)據(jù)包含大量的詞匯,若考慮全部詞匯,一方面將導(dǎo)致數(shù)據(jù)處理時(shí)間過長(zhǎng),另一方面一些不常用的詞匯對(duì)主題抽取意義不大,故限定從評(píng)論文本中提取5 000個(gè)最重要的特征關(guān)鍵詞后停止提取。
3)將詞語轉(zhuǎn)換為詞頻矩陣,即向量化。
4)統(tǒng)計(jì)矩陣中每個(gè)詞語的TF-IDF權(quán)值,完成關(guān)鍵詞提取和向量轉(zhuǎn)換。
5)計(jì)算困惑度,確定LDA最優(yōu)主題個(gè)數(shù),并定義函數(shù)并輸出每個(gè)主題里面的前15個(gè)關(guān)鍵詞,完成主題關(guān)鍵詞抽取。
6)可視化分析,將LDA主題分析結(jié)果以直觀的形式表現(xiàn)出來,得到交互式的動(dòng)態(tài)圖。
主題數(shù)與困惑度的折線圖如圖6所示,每個(gè)主題下排名前15的關(guān)鍵詞見表3,主題3示例如圖7所示。
圖6 主題數(shù)與困惑度的折線圖
表3 vivo手機(jī)總體評(píng)價(jià)潛在主題
圖7 主題3結(jié)果
圖7(a)表示的是主題,用圓圈代表不同的主題,圓圈的大小代表了每個(gè)主題分別包含文章的數(shù)量;圖7(b)表示每個(gè)主題中常出現(xiàn)的30個(gè)關(guān)鍵詞列表,當(dāng)鼠標(biāo)沒有懸停在任何主題之上時(shí),這30個(gè)關(guān)鍵詞代表全部文本中提取到的30個(gè)最重要關(guān)鍵詞。當(dāng)把鼠標(biāo)懸停在3,右側(cè)的關(guān)鍵詞列表會(huì)立即發(fā)生變化,紅色展示了每個(gè)關(guān)鍵詞在當(dāng)前主題下的頻率。若模型擬合較好,則圖中的圓圈之間將不會(huì)重疊,本文從圖中看到6個(gè)主題不存在重疊現(xiàn)象,主題模型擬合的效果較好。
結(jié)合表3和主題詞可視化圖進(jìn)行分析,具體來看每個(gè)主題下的信息,主題1主要反映手機(jī)性價(jià)比高;主題2主要反映手機(jī)的電池耐用;主題3主要表現(xiàn)用戶對(duì)京東的物流速度比較滿意;主題4表現(xiàn)手機(jī)拍照效果、運(yùn)行速度、屏幕方面的信息;主題5主要反映充電、指紋解鎖以及耳機(jī)問題;主題6中外觀、顏色主要表現(xiàn)用戶對(duì)手機(jī)外觀屬性的評(píng)價(jià)信息,可以、不錯(cuò)、喜歡等詞說明用戶對(duì)手機(jī)外觀評(píng)價(jià)較為積極。綜合結(jié)果來看,6個(gè)主題無重疊,擬合較好,但該方法對(duì)于負(fù)面評(píng)價(jià)主題沒有涉及。
3.2.2 基于Word2vec和SVM、LDA的混合主題分析
將所有評(píng)論文本分割成47 726條分句,隨機(jī)選擇1萬條數(shù)據(jù),5人同時(shí)對(duì)數(shù)據(jù)人工標(biāo)注情感極性,積極用“1”表示,消極用“-1”表示,采用少數(shù)服從多數(shù)的思想確定數(shù)據(jù)最終的情感極性。
按照訓(xùn)練集與測(cè)試集7∶3的比例,采用Word2vec連續(xù)詞袋模型對(duì)訓(xùn)練集數(shù)據(jù)構(gòu)建詞向量(每個(gè)詞用100維的向量表示,將句子的詞向量平均之后作為該句子的向量);然后對(duì)分詞之后的數(shù)據(jù)訓(xùn)練Word2vec詞向量模型;之后對(duì)原有評(píng)論數(shù)據(jù)使用訓(xùn)練好的詞向量模型,利用SVM訓(xùn)練分類模型,并選擇線性核函數(shù)將向量映射到空間,判斷句子向量映射在哪個(gè)超空間里面,即積極還是消極;最后利用訓(xùn)練好的SVM分類模型進(jìn)行情感預(yù)測(cè),并對(duì)測(cè)試集數(shù)據(jù)預(yù)測(cè)評(píng)估模型效果。評(píng)論數(shù)據(jù)最終被分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià)文本,再分別進(jìn)行LDA主題分析。正面評(píng)論文本被聚成6個(gè)主題,負(fù)面評(píng)論被聚成3個(gè)主題,每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語及相應(yīng)的概率,正面評(píng)價(jià)潛在主題見表4,負(fù)面評(píng)價(jià)潛在主題見表5。
基于SVM、LDA的主題分析,選擇線性核函數(shù),計(jì)算效率較高。在評(píng)價(jià)分類器效果時(shí),引入了信息檢索中的混淆矩陣,進(jìn)而得到了SVM情感分析報(bào)告,見表6。其中分類指標(biāo)精度和召回率指標(biāo)考量了分類器對(duì)于兩個(gè)類別的總體的分類效果,由此結(jié)合精度和召回率得到了F1=0.963 5,故基于SVM、LDA的主題分析結(jié)果較好。
正面情感數(shù)據(jù)集LDA主題分析:主題1到主題6分別主要反映的是手機(jī)外觀好看、京東物流速度快、拍照清晰、手機(jī)充電速度快和電池耐用、手機(jī)游戲體驗(yàn)好及性能好、手機(jī)性價(jià)比高和運(yùn)行流暢。
負(fù)面情感數(shù)據(jù)集LDA主題分析:主題1主要反映京東平臺(tái)客服服務(wù)問題,以及手機(jī)屏幕存在的一些問題;主題 2主要反映的是手機(jī)屏幕指紋解鎖慢的問題,主題3反映的是vivo手機(jī)充電電池發(fā)熱等問題,以及在京東銷售客服上的一些問題。
表4 vivo手機(jī)正面評(píng)價(jià)潛在主題
表5 vivo手機(jī)負(fù)面評(píng)價(jià)潛在主題
表6 SVM情感分析報(bào)告
將基于關(guān)鍵詞、基于LDA的主題分析與Word2vec和SVM、LDA混合算法的主題分析結(jié)果進(jìn)行對(duì)比分析可以看出:基于關(guān)鍵詞的主題分析較為抽象,需要分析人員具備一定的業(yè)務(wù)知識(shí);基于LDA的主題分析相對(duì)主題明確、清晰,共得到6個(gè)互不重疊的主題,主題劃分效果較好?;赪ord2vec和SVM、LDA混合算法的主題分析得到兩大類主題,每類主題下又細(xì)分了子主題。其中正面主題下的5個(gè)子主題與LDA完全相同,負(fù)面主題下又細(xì)分了3個(gè)子主題,比LDA更加詳細(xì)、具體,尤其負(fù)面主題的分析,對(duì)商家的指導(dǎo)意義更為重要。
對(duì)主題及其中的高頻特征詞分析可以得出結(jié)論,vivo 手機(jī)的優(yōu)勢(shì)有外觀好看、物流速度快、拍照效果好、充電速度快、電池耐用、游戲體驗(yàn)好、性能好、性價(jià)比高、運(yùn)行流暢。用戶對(duì)vivo手機(jī)不滿意的地方在于京東客服服務(wù)態(tài)度、手機(jī)屏幕指紋解鎖慢、充電電池發(fā)熱、沒有贈(zèng)送耳機(jī)等。
基于京東平臺(tái)上vivo手機(jī)的用戶評(píng)論的LDA主題模型分析結(jié)果,提出以下建議:①在保持vivo手機(jī)運(yùn)行流暢、速度快等優(yōu)勢(shì)的基礎(chǔ)上,對(duì)vivo手機(jī)在屏幕指紋識(shí)別、電池充電上進(jìn)行改進(jìn),從整體上提升vivo手機(jī)的質(zhì)量;②加強(qiáng)客服人員的整體素質(zhì),提高服務(wù)質(zhì)量,讓其在手機(jī)行業(yè)凸顯優(yōu)勢(shì)。如果商品本身及服務(wù)能夠滿足以上要求,并輔以恰當(dāng)?shù)倪\(yùn)營(yíng)手段,在推廣手機(jī)品牌時(shí)才容易和熱銷的競(jìng)品進(jìn)行競(jìng)爭(zhēng)。
本文基于手機(jī)評(píng)論大數(shù)據(jù),進(jìn)行可視化分析和主題模型分析,進(jìn)而挖掘用戶評(píng)論的焦點(diǎn)和潛在主題信息,并將LDA與基于Word2vec的SVM算法結(jié)合進(jìn)行正、負(fù)面主題情感分析。結(jié)果表明該方法對(duì)用戶評(píng)論數(shù)據(jù)的挖掘結(jié)果比基于關(guān)鍵詞的可視化分析、基于整體數(shù)據(jù)集的LDA主題分析更清晰,能夠快速獲得用戶各方面的反饋,找到手機(jī)以及銷售平臺(tái)的具體改進(jìn)方向,并結(jié)合觀點(diǎn)挖掘找到用戶的不滿點(diǎn),進(jìn)而確定改進(jìn)策略。