朱韋光
摘? 要: 為了幫助商家從在線評(píng)論中挖掘產(chǎn)品的需求偏好及客戶構(gòu)成,構(gòu)建了基于LDA主題模型、情感分析,以及改進(jìn)的K均值聚類算法等方法的產(chǎn)品需求偏好判別及客戶細(xì)分模型。通過(guò)LDA模型挖掘用戶需求偏好,利用情感分析進(jìn)行情感打分,再用改進(jìn)的聚類算法得到客戶細(xì)分群體。最終得到用戶對(duì)于手機(jī)的需求偏好以及客戶細(xì)分群體構(gòu)成,幫助商家更好地作出經(jīng)營(yíng)決策。
關(guān)鍵詞: 在線評(píng)論; 需求偏好; LDA模型; 情感分析; 聚類算法
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? 文章編號(hào):1006-8228(2023)09-132-04
Research on the construction of smart phone demand preference
discrimination model based on online review
Zhu Weiguang
(School of Business, Jiangnan University, Wuxi, Jiangsu 214122, China)
Abstract: In order to help merchants mine product demand preferences and customer composition from online reviews, a product demand preference discrimination and customer segmentation model is constructed based on LDA topic model, sentiment analysis and improved K-means clustering algorithm. The LDA model is used to mine user needs and preferences, sentiment analysis is used to score sentiment, and the improved clustering algorithm is used to obtain customer segmentation groups. Finally, users' demand preferences for smart phones and the composition of customer segments are obtained, which helps merchants make better business decisions.
Key words: online comments; demand preference; LDA model; sentiment analysis; clustering algorithm
0 引言
隨著互聯(lián)網(wǎng)技術(shù)及購(gòu)物平臺(tái)快速發(fā)展,線上購(gòu)物逐漸成為人們交易商品最為主要的渠道。根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的第50次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2022年6月,我國(guó)網(wǎng)絡(luò)支付用戶規(guī)模達(dá)9.04億,較2021年12月增長(zhǎng)81萬(wàn),占網(wǎng)民整體的86.0%。用戶們更多地在購(gòu)物平臺(tái)上發(fā)表對(duì)于購(gòu)物的體驗(yàn)以及產(chǎn)品的個(gè)性化看法。
用戶需求挖掘方法可以分為兩大類:基于問(wèn)卷調(diào)研的傳統(tǒng)需求獲取方法[1-3]和基于文本挖掘算法的自動(dòng)化需求提取方法。數(shù)據(jù)激增背景下,基于在線評(píng)論的各類文本挖掘算法/方法應(yīng)用廣泛,如何從用戶的在線評(píng)論中挖掘需求,成為熱點(diǎn)問(wèn)題。研究者采用關(guān)鍵詞提取算法來(lái)提取評(píng)論中的主題,獲取用戶關(guān)注的產(chǎn)品特征,典型算法如隱含狄利克主題模型[4]、詞頻—逆文檔頻率[5]和TextRank[6]等;一些研究者進(jìn)一步結(jié)合情感詞典來(lái)分析用戶對(duì)于產(chǎn)品特征的情感傾向,進(jìn)而分析用戶的消費(fèi)需求[7-11]。
現(xiàn)有方法能夠快速、低成本地處理大規(guī)模用戶評(píng)論,但仍面臨頻數(shù)不突出的特征內(nèi)容容易被忽略、產(chǎn)品特征被過(guò)分切分等問(wèn)題。在客戶細(xì)分方面,現(xiàn)有的在線評(píng)論尚未涉及。有鑒于此,本文在爬取四款智能手機(jī)的在線評(píng)論后,挖掘出了產(chǎn)品的潛在特征,并且在此基礎(chǔ)上進(jìn)行了客戶細(xì)分,最終不僅得到了用戶對(duì)產(chǎn)品的需求偏好,還將客戶群體進(jìn)行了分組,幫助商家更加有的放矢地去改進(jìn)產(chǎn)品、采取經(jīng)營(yíng)策略,提升了決策效率。
1 模型構(gòu)建
基于在線評(píng)論構(gòu)建的主題發(fā)掘、情感分析及其聚類模型主要分為五個(gè)步驟,分別為數(shù)據(jù)獲取及預(yù)處理、Word2Vec近似詞識(shí)別、LDA主題挖掘及詞向量聚類分析,以及主題細(xì)粒度情感分析比較。
1.1 數(shù)據(jù)獲取及預(yù)處理
本文的數(shù)據(jù)來(lái)自于京東電商平臺(tái)的在線評(píng)論。運(yùn)用Python爬蟲(chóng)技術(shù),共獲得四款智能手機(jī)的在線評(píng)論。本次爬取的數(shù)據(jù)包括產(chǎn)品名稱、用戶名稱、評(píng)論內(nèi)容、評(píng)論時(shí)間。對(duì)四款智能手機(jī)的評(píng)論文本進(jìn)行去重、去除部分評(píng)論內(nèi)容,運(yùn)用Jieba分詞對(duì)評(píng)論文本進(jìn)行分詞,通過(guò)知網(wǎng)停用詞表去除停用詞及表情圖案??紤]到主題挖掘和分析的效果,將名詞和形容詞搭配組成的詞語(yǔ)中的形容詞從用于主題挖掘的文本數(shù)據(jù)中去除。
1.2 基于Word2Vec的詞意相似度判別
由于存在多個(gè)特征詞在多個(gè)主題中重復(fù)出現(xiàn)、多個(gè)特征詞之間詞義相近等問(wèn)題,另一種是不同形容詞和形容詞表達(dá)含義相同,含義相近詞匯會(huì)影響主題挖掘效果。
而Word2Vec可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,表示文本語(yǔ)義上的相似度,從而識(shí)別出近似詞。本文選用Skip-gram模型進(jìn)行訓(xùn)練,該模型通過(guò)隨機(jī)梯度下降算法訓(xùn)練目標(biāo)函數(shù)。根據(jù)當(dāng)前詞語(yǔ)預(yù)測(cè)上下文的信息,提取的名詞和形容詞作為輸入語(yǔ)料,借助Word2vec函數(shù)訓(xùn)練生成詞向量文件,利用相似度函數(shù)公式⑴,計(jì)算詞語(yǔ)的相似特征詞,將表達(dá)相同含義的相似詞設(shè)置為同一個(gè)詞。
[Similarity=u.vu‖v‖]? ⑴
其中,[u]和[v]分別表示兩個(gè)詞匯的詞向量。
1.3 于LDA主題模型的產(chǎn)品特征挖掘
根據(jù)Word2Vec近似詞識(shí)別中的Similarity的大小,將相似度高的產(chǎn)品特征詞歸到一起之后,采用隱含狄利克雷分布。從評(píng)論文本數(shù)據(jù)中提取潛在主題。在使用主題模型對(duì)評(píng)論文本進(jìn)行分析時(shí),確定最佳主題數(shù)以及主題的命名非常重要,本文采用網(wǎng)格搜索法,利用一致性評(píng)分來(lái)確定最佳主題數(shù),通過(guò)主題整合得到了不同的用戶關(guān)注的產(chǎn)品特征維度。
1.4 情感傾向分析
基于LDA主題—特征詞挖掘結(jié)果,運(yùn)用詞典分析方法進(jìn)行情感分析,計(jì)算各主題屬性的情感值。本文所用情感詞典是HowNet詞典,并根據(jù)電子數(shù)碼產(chǎn)品評(píng)論文本內(nèi)容特征,添加人工自定義詞典。
⑴ 分離出文本單元。將評(píng)論文本原始數(shù)據(jù)按照標(biāo)點(diǎn)符號(hào)和連接詞分成獨(dú)立的文本單元,對(duì)所有文本單元進(jìn)行分詞,將含有兩個(gè)或兩個(gè)以上特征詞的文本單元進(jìn)一步分離,使每個(gè)文本單元僅含有一個(gè)特征詞。
⑵ 標(biāo)記情感詞。將分詞后的文本單元與完善后的情感詞典進(jìn)行匹配,標(biāo)記每個(gè)文本單元中情感詞的位置及其情感權(quán)重,每個(gè)正面情感詞得分+1,每個(gè)消極情感得分-1。得出每個(gè)文本單元的情感得分。
⑶ 考慮否定詞。若情感詞前有奇數(shù)個(gè)否定詞,則情感傾向改變;若短句中有偶數(shù)個(gè)否定詞,則情感傾向不變。
⑷ 考慮程度副詞。建立程度副詞詞典,并賦予相應(yīng)的權(quán)重,確保計(jì)算所得情感值的準(zhǔn)確性。參照HowNet程度副詞詞典,依據(jù)相關(guān)文獻(xiàn)和消費(fèi)者對(duì)程度副詞的實(shí)際使用和區(qū)分情況,對(duì)程度副詞詞典進(jìn)行擴(kuò)充和賦值如表1。
⑸ 修改情感得分。依據(jù)文本單元中否定詞詞表和程度副詞詞典,對(duì)各個(gè)文本單元情感得分進(jìn)行修改,假設(shè)文本集合[D={d1,…,dm,…,dM}],其中[dm]是第[m]個(gè)文本單元,[M]是文本單元數(shù)量,[m=1,2,…,M]:
[scoredm=(-1)ii=1kPtj=1nDj]? ⑵
其中,[j]、[n]和[k]分別表示第[m]個(gè)文本單元中否定詞、程度副詞和情感詞的數(shù)量,[Dj]表示第[m]個(gè)文本單元中第[m]個(gè)程度副詞的權(quán)重值,[Pt]表示第[m]個(gè)文本單元中第[t]個(gè)情感詞的值。
⑹ 計(jì)算各主題情感得分。假設(shè)特征詞集合為[Wij={w11,w12,…,wij}],其中[wij]表示第[i]個(gè)主題的第[j]個(gè)特征詞。將特征詞與文本單元進(jìn)行匹配得出每個(gè)特征詞所在的文本單元及其出現(xiàn)次數(shù)[aij],則每個(gè)特征詞的情感得分為:
[scorewij=score(dm)aijwij∈dm]? ⑶
則各主題的情感得分為:
[scorezk=i=ksore(wij)aiji=kaij]? ⑷
1.5 于K-means聚類分析的用戶分類
本文將上文得到的每個(gè)用戶的產(chǎn)品需求偏好的多維分值向量作為數(shù)據(jù)基礎(chǔ),利用K-means聚類算法來(lái)進(jìn)行用戶群組的分類。用輪廓系數(shù)來(lái)評(píng)判聚類效果,以此來(lái)確定聚類的個(gè)數(shù)。計(jì)算樣本i到同簇其他樣本的平均距離[a(i)]值,該值越大,說(shuō)明樣本i越應(yīng)該被聚類到該簇。將[ai]稱為樣本i的簇內(nèi)不相似度。計(jì)算樣本[i]到其他某簇Cj的所有樣本的平均距離bij,稱為樣本i與簇Cj的不相似度。定義為樣本i的簇間不相似度:[b(i)=minb(i1),…,b(ik)]。該值越大說(shuō)明樣本越不屬于其他簇。根據(jù)樣本i的簇內(nèi)不相似度[a(i)]和簇間不相似度[b(i)]定義樣本i的輪廓系數(shù):
[Si=bi-a(i)max {ai,b(i)}]? ⑹
當(dāng)[S(i)]接近1時(shí),則說(shuō)明樣本i合理;[S(i)]接近-1,則說(shuō)明樣本i該分類到其他的簇;當(dāng)[S(i)]近似為0,則說(shuō)明樣本i在兩個(gè)簇的邊界上。所有樣本的[S(i)]的均值稱為聚類結(jié)果的輪廓系數(shù),[S(i)]越大,說(shuō)明聚類效果越好。
2 實(shí)證分析
2.1 數(shù)據(jù)來(lái)源
本文選取的研究對(duì)象是四款智能手機(jī)。京東在數(shù)碼產(chǎn)品方面具有更好的口碑,因此選用京東商城作為數(shù)據(jù)獲取平臺(tái)。運(yùn)用了Python爬蟲(chóng)技術(shù)在京東商城上獲取了這四款手機(jī)在不同店鋪的共17723條有效在線評(píng)論。評(píng)論時(shí)間在2020年5月15日到2021年3月15日。
2.2 智能手機(jī)主題發(fā)掘及產(chǎn)品需求判別
根據(jù)主題一致性得分確定最佳主題數(shù)。實(shí)驗(yàn)結(jié)果表明,四款智能手機(jī)京東平臺(tái)的在線評(píng)論最佳主題數(shù)為6,此時(shí)一致性得分最高(Coherence Score=0.945)。通過(guò)不斷調(diào)試迭代,將每個(gè)主題中詞頻超過(guò)30的特征詞進(jìn)行保留。
最終得到了六個(gè)主題組為性價(jià)比組、娛樂(lè)體驗(yàn)組、軟硬件組、外觀組、物流服務(wù)組以及拍照組以及47個(gè)產(chǎn)品特征詞。如表1所示。
2.3 情感分析及詞向量各維度分值的確定
本文針對(duì)每一條智能手機(jī)產(chǎn)品評(píng)論中涉及的一種或多種主題特征的偏好程度進(jìn)行打分?;贚DA挖掘得出的主題-特征詞結(jié)果,通過(guò)領(lǐng)域詞典的方法進(jìn)行情感分析判斷評(píng)論文本正面、負(fù)面和中立三元情感態(tài)度,并得出情感得分,情感傾向和情感得分結(jié)果如表2所示。
從情感得分情況來(lái)看,這四款智能手機(jī)的用戶對(duì)于各個(gè)主題的關(guān)注度由高到低分別是軟硬件組、娛樂(lè)體驗(yàn)組、性價(jià)比組、物流服務(wù)組、外觀組、拍照組。根據(jù)每個(gè)主題的情感得分情況。進(jìn)一步地,本文將每個(gè)智能手機(jī)的用戶用一個(gè)六維向量來(lái)。其中,每個(gè)維度為該用戶在各個(gè)主題特征上的分值。最終確定得到17723個(gè)詞向量。
2.4 消費(fèi)群體聚類分析
本文將上文中得到的17723個(gè)詞向量作為數(shù)據(jù)基礎(chǔ),基于Python對(duì)這些用戶進(jìn)行了聚類分析。首先,根據(jù)實(shí)驗(yàn)結(jié)果該組評(píng)論數(shù)據(jù)在聚類個(gè)數(shù)為7時(shí),輪廓系數(shù)最大為0.956,此時(shí)聚類效果最好。因此最佳聚類個(gè)數(shù)為7。即可以將智能手機(jī)用戶劃分成七個(gè)分組。對(duì)消費(fèi)者進(jìn)行K-means算法聚類,設(shè)定聚類個(gè)數(shù)為7,最大迭代次數(shù)為10。得到結(jié)果如表3所示。
由表3可知,可以將四款智能手機(jī)的消費(fèi)者分為七個(gè)群組。
第一個(gè)消費(fèi)者群組有3135人,占比17.69%。這個(gè)群組的消費(fèi)者注重的手機(jī)品質(zhì)比較全面,在性價(jià)比、性能體驗(yàn)、軟硬件、外觀、物流服務(wù)以及拍照六個(gè)維度上表現(xiàn)的關(guān)注沒(méi)有非常高也不沒(méi)有很低。該為均衡體驗(yàn)組。
第二個(gè)消費(fèi)者群組有2160人,占比12.19%。這個(gè)群組的消費(fèi)者對(duì)于手機(jī)的性價(jià)比以及物流服務(wù)上的關(guān)注程度不高,而對(duì)手機(jī)的外觀具有最高的重視程度。該組是外觀偏好組。
第三個(gè)消費(fèi)者群組有616人,占比3.48%。這個(gè)群組里都消費(fèi)者對(duì)這四款手機(jī)的六個(gè)維度都沒(méi)有什么關(guān)注程度。該組是差評(píng)組。
第四個(gè)消費(fèi)者群組有1931人,占比10.90%。這個(gè)群組的消費(fèi)者最看重手機(jī)的性價(jià)比,而對(duì)手機(jī)其他的方面都有差不多的關(guān)注程度。該組為性價(jià)比組。
第五個(gè)消費(fèi)者群組有4407人,占比24.87%。這個(gè)群組的消費(fèi)者最注重手機(jī)的性能體驗(yàn)和軟硬件,同時(shí)也對(duì)手機(jī)的拍照有著較高的關(guān)注程度。該組為品質(zhì)功能組。
第六個(gè)消費(fèi)者群組有1756人,占比9.91%。這個(gè)群組的消費(fèi)者則最看重手機(jī)的物流服務(wù),對(duì)手機(jī)的性價(jià)比和拍照關(guān)注程度很低。該組為購(gòu)物體驗(yàn)組。
第七個(gè)消費(fèi)者群組有3718人,占比20.98%。這個(gè)群組的消費(fèi)者非常注重手機(jī)的性能體驗(yàn)、物流服務(wù)以及拍照。對(duì)手機(jī)的軟硬件有較高的關(guān)注度,而對(duì)手機(jī)的性價(jià)比關(guān)注程度很低,看重物流服務(wù)這方面的購(gòu)物體驗(yàn)。該組為綜合性能組。
3 結(jié)論
本文對(duì)商家在識(shí)別用戶對(duì)于產(chǎn)品偏好需求以及消費(fèi)者分組領(lǐng)域進(jìn)行了研究,構(gòu)建了基于在線評(píng)論的產(chǎn)品需求偏好判別以及客戶細(xì)分的模型,幫助手機(jī)商家更精準(zhǔn)地識(shí)別用戶需求以及確定客戶細(xì)分的構(gòu)成。區(qū)別于一般評(píng)論影響產(chǎn)品的研究方向,本文以結(jié)果作為出發(fā)點(diǎn),來(lái)分析用戶對(duì)于產(chǎn)品的需求訴求,并為在線評(píng)論在客戶細(xì)分領(lǐng)域的研究拓寬了思路。為在線評(píng)論挖掘產(chǎn)品特征的探索提供現(xiàn)實(shí)數(shù)據(jù)參考,同時(shí)對(duì)評(píng)論文本挖掘模型進(jìn)行了優(yōu)化并驗(yàn)證了可行性。本研究不足之處主要在于選取的研究對(duì)象具有行業(yè)局限性,此外,所提模型對(duì)于其他行業(yè)的產(chǎn)品的適用性還需要進(jìn)一步驗(yàn)證。
參考文獻(xiàn)(References):
[1] CHEN LIU, ALEJANDRO RAMIREZ-SERRANO, GUOFU
YIN. An optimum design selection approach for product customization development[J].Journal of Intelligent Manufacturing,2012,23(4):1433-1443.
[2] SANJAY R. GANGURDE, MILIND M. AKARTE.Customer
preference oriented productdesign using AHP-modified TOPSIS approach[J].Benchmarking,2013,20(4):549-564.
[3] FELIX GEYER, JENS LEHNEN, CORNELIUS HERSTATT.
Customer Need Identification Methods in New Product Development: What Works "Best"?[J]. International journal of innovation and technology management,2018,15(1):1850008.1-185000.26.
[4] 阮光冊(cè).基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,
2014(3):161-164.
[5] JONES KS. A statistical interpretation of term specificity
and its application in retrieval[J].The Journal of Documentation,2004,60(5):493-502.
[6] 宛艷萍,張芳,谷佳真.基于雙窗口TextRank關(guān)鍵句提取的
文本情感分析[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(4):242-248.
[7] ZHANG, LEI, CHU, XUENING, XUE, DEYI. Identification
of the to-be-improved product features based on online reviews for product redesign[J].International journal of production research,2019,57(7/8):2464-2479.
[8] LAI, XINJUN, ZHANG, QIXIANG, CHEN, QINGXIN, et al.
The analytics of product-design requirements using dynamic internet data: application to Chinese smartphone market[J].International journal of production research,2019,57(17/18):5660-5684.
[9] 李賀,曹陽(yáng),沈旺,等.基于LDA主題識(shí)別與Kano模型分析的
用戶需求研究[J].情報(bào)科學(xué),2021,39(8):3-11,36.
[10] GUAN, XINYU, CHENG, ZHIYONG, HE, XIANGNAN,
et al. Attentive Aspect Modeling for Review-Aware Recommendation[J].ACM transactions on information systems,2019,37(3):28.1-28.27.
[11] Turney P D.Learning algorithms for keyphrase extrac-
tion[J].Information Retrieval,2000,2(4):303-336.