王新通,夏志杰 (上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620)
互聯(lián)網(wǎng)的高速發(fā)展引發(fā)了網(wǎng)絡(luò)消費(fèi)潮流。根據(jù)《第44次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,我國網(wǎng)民對網(wǎng)絡(luò)購物的使用率達(dá)到了74.8%。在消費(fèi)者網(wǎng)絡(luò)購物的過程中,超過50%的消費(fèi)者會(huì)在做出購買決策前閱讀在線評論。在線評論作為一種特殊的電子口碑,也具有互聯(lián)網(wǎng)信息傳播的鮮明特點(diǎn),即典型的匿名性和交互性強(qiáng),越來越多的消費(fèi)者愿意在購買商品后發(fā)布在線評論,來分享自己的購物經(jīng)驗(yàn)。在線評論作為信息共享的方式,直接影響到了商品的口碑,突破了傳統(tǒng)口碑傳播方式在時(shí)間和空間上的限制。
在線評論的文本當(dāng)中,蘊(yùn)藏著用戶對于商品的質(zhì)量、功能和商家的服務(wù)等多方面的豐富信息,對這些文本內(nèi)容進(jìn)行挖掘可以更準(zhǔn)確地把握用戶的需求。當(dāng)前的市場瞬息萬變,用戶需求隨著時(shí)代的變化也處于動(dòng)態(tài)變化的過程。在這樣的背景下,電商企業(yè)識別用戶不斷變化的需求,進(jìn)而及時(shí)調(diào)整產(chǎn)品、服務(wù)和宣傳戰(zhàn)略,才能在激烈地競爭中脫穎而出,贏得更多的市場份額。
本研究以天貓網(wǎng)站為例,選用來自于搜索型商品和體驗(yàn)型商品的在線評論數(shù)據(jù)構(gòu)建實(shí)驗(yàn)語料庫,基于LDA模型追蹤用戶生成的在線評論內(nèi)容,挖掘在不同類型的商品中不同的用戶需求,其總體研究框架如圖1所示。首先爬取天貓網(wǎng)站相關(guān)商品的在線評論數(shù)據(jù),對采集到的文本進(jìn)行預(yù)處理,具體操作包括中文分詞、刪除停用詞以及加入用戶自定義詞典等;其次,對采集到的在線評論文本語料庫進(jìn)行LDA建模,對主題下的特征詞進(jìn)行篩選,以輔助各主題內(nèi)容的識別;最后,基于LDA模型輸出的概率分布文件,進(jìn)行熱點(diǎn)主題挖掘和主題詞與用戶需求的映射關(guān)系建立,分析用戶對于不同商品的用戶需求,并以此為依據(jù)制定商品供應(yīng)策略。
圖1 用戶需求分析框架
本研究選取天貓平臺的休閑食品在線評論數(shù)據(jù)作為研究對象。堅(jiān)果類休閑食品因其營養(yǎng)健康的特點(diǎn),深受消費(fèi)者喜愛。因此,本研究中將零食中的“每日堅(jiān)果”這一商品作為研究對象,選取三只松鼠、百草味、良品鋪?zhàn)?、沃隆和洽洽五家廠商的商品進(jìn)行研究。
本文使用Python3.8編寫網(wǎng)絡(luò)爬蟲對天貓平臺的在線評論數(shù)據(jù)進(jìn)行收集。總共獲取了五個(gè)品牌零食(三只松鼠、百草味、良品鋪?zhàn)印⑽致?、洽洽)產(chǎn)出的評論共9 900條。通過網(wǎng)絡(luò)爬蟲雖然采集到了原始的在線評論數(shù)據(jù),但是在線評論的質(zhì)量參差不齊,其中異常數(shù)據(jù)的存在可能會(huì)影響數(shù)據(jù)挖掘的結(jié)果。因此,應(yīng)對得到的原始評論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,以保證研究結(jié)果的準(zhǔn)確性。通過對原始評論數(shù)據(jù)的觀察研究,發(fā)現(xiàn)原始數(shù)據(jù)存在的問題主要有以下幾個(gè)方面:評論的隨意性嚴(yán)重、無評論內(nèi)容或無文本評論內(nèi)容和重復(fù)的評論。針對原始在線評論數(shù)據(jù)中存在的上述問題,使用Python編程對獲得的原始在線評論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,清洗規(guī)則如下:對評論內(nèi)容信息含量過少的數(shù)據(jù)進(jìn)行剔除,篩選依據(jù)為若該在線評論的文本長度小于10,則認(rèn)為無法從該用戶提供的在線評論中獲取關(guān)于其購買商品的信息,將該條在線評論剔除;結(jié)合本研究的主要目的,對于只含有圖片或視頻評論和只含有星級評論的無文本內(nèi)容的在線評論,認(rèn)為其為系統(tǒng)默認(rèn)評論內(nèi)容,對于本研究無參考意義,將該條在線評論剔除;對于經(jīng)過上述兩部操作后的數(shù)據(jù)集,使用編程遍歷其中的每一條評論,若存在完全相同的兩條在線評論,且其發(fā)布者為同一ID的用戶,則認(rèn)為該重復(fù)評論會(huì)對統(tǒng)計(jì)結(jié)果的真實(shí)性造成干擾,將重復(fù)的評論予以剔除,只保留重復(fù)多條中的其中一條。通過對原始的在線評論數(shù)據(jù)進(jìn)行如上步驟的數(shù)據(jù)清洗過后獲得了5 065條在線評論。
經(jīng)過前文的數(shù)據(jù)篩選,得到了有效的在線評論數(shù)據(jù),繼續(xù)使用Python中的jieba工具庫對篩選后的在線評論進(jìn)行去停用詞和分詞處理,利用強(qiáng)大的中文字庫,可以確定各個(gè)關(guān)鍵字詞之間有關(guān)聯(lián)的概率,字詞間關(guān)聯(lián)概率大的組成新的關(guān)鍵詞,最終得到分詞結(jié)果。
(1)分詞處理
在比較該庫的三種分詞模式后,最終選取精確模式對篩選后的在線評論進(jìn)行分詞處理,對比分詞結(jié)果與原始評論,分詞的效果較好,可以完整的保存原始評論的表達(dá)效果。
(2)去停用詞
在對在線評論的文本內(nèi)容進(jìn)行分詞的操作過程中,需要剔除原始的文本內(nèi)容中對語義沒有幫助的字詞或標(biāo)點(diǎn)符號,例如“一些”、“多少”、“盡管”、“,”、“!”等,這些內(nèi)容頻繁在在線評論的文本中出現(xiàn),但如果將其作為在線評論的主題詞處理,這些對本次研究無意義的字詞會(huì)影響最終的結(jié)果。因此,本研究綜合使用了哈工大停用詞表、百度停用詞表、中文停用詞表和四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫。另外,本次研究的對象為以手機(jī)和零食分別代表的搜索型商品和體驗(yàn)型商品,與該類商品的品牌無關(guān),因此,將手機(jī)的五個(gè)品牌名和零食的五個(gè)品牌名作為停用詞加入了停用詞表。通過對原始數(shù)據(jù)的觀察,對本次研究沒有幫助的詞匯,如“今天”、“手機(jī)”、“購買”等也應(yīng)加入到停用詞表中。最后,分詞后的某些關(guān)鍵詞如“用”、“還”、“了”等單字,含義不明確且意義不大,因此將長度為1的關(guān)鍵字加入停用詞表。綜上,最終構(gòu)建出了適合本次研究的停用詞表.。
經(jīng)過本節(jié)對數(shù)據(jù)的預(yù)處理,對清洗后的數(shù)據(jù)進(jìn)行分詞、去停用詞處理后,獲得了多條由若干關(guān)鍵詞組成的行數(shù)據(jù),將其中的每一行成為一個(gè)“文檔”,每一個(gè)“文檔”對應(yīng)一條原始的在線評論文本內(nèi)容。
統(tǒng)計(jì)各種商品產(chǎn)生的多條“文檔”中的字詞的出現(xiàn)次數(shù),統(tǒng)計(jì)所有“文檔”中出現(xiàn)的高頻詞匯,可以直觀地看到不同產(chǎn)品的在線評論中提及次數(shù)較多的詞匯。表1為各個(gè)商品的在線評論中出現(xiàn)頻次前10的詞語和對應(yīng)的頻數(shù),可以從整體層面體現(xiàn)出用戶對該商品的關(guān)注點(diǎn)。
表1 Top10詞頻分布表
為了更加直觀地從整體層面觀察用戶的關(guān)注點(diǎn),使用詞云圖來直觀地展示各關(guān)鍵詞的出現(xiàn)的頻率,出現(xiàn)頻率高的關(guān)鍵詞此題越大,因此也越明顯。全部數(shù)據(jù)的詞云圖,如圖3所示:
在本節(jié)中,利用LDA模型對預(yù)處理后的在線評論數(shù)據(jù)進(jìn)行主題挖掘,展示出聚類主題和每個(gè)主題中的關(guān)鍵詞,根據(jù)主題中的關(guān)鍵詞來描述用戶的關(guān)注點(diǎn),整理出用戶產(chǎn)品特征的關(guān)注情況,對體驗(yàn)型商品和搜索型商品之間用戶關(guān)注差異進(jìn)行分析。
2.4.1 主題數(shù)選取
在信息論中,perplexity(困惑度)用來度量一個(gè)概率分布或概率模型預(yù)測樣本的好壞程度,低困惑度的概率分布模型可以更好地?cái)M合樣本。本研究中構(gòu)建困惑度隨著選擇主題個(gè)數(shù)的變化而變化的模型,并據(jù)此來決定LDA模型選出的主題數(shù)目。
圖3中橫軸為選取的LDA主題模型潛在的主題數(shù)目,縱軸為選取該潛在主題數(shù)時(shí)LDA主題模型的困惑度。由圖3可以看出,對于休閑食品在線評論的分詞結(jié)果,在主題數(shù)目逐漸增加到8的過程中,困惑度迅速下降,以7個(gè)主題作為拐點(diǎn),主題數(shù)目繼續(xù)增加時(shí),困惑度以較慢的速度減小。根據(jù)奧卡姆剃刀原理,并同時(shí)最大化的保留差異的主題,最終選取7作為LDA主題模型的潛在主題數(shù)目選擇。
圖2 休閑食品在線評論分詞結(jié)果詞云圖
圖3 休閑食品主題數(shù)目—困惑度變化表
2.4.2 LDA主題模型聚類
在上一節(jié)中確定了LDA主題模型的潛在主題數(shù)目,綜合以上經(jīng)過預(yù)處理之后的在線評論文本數(shù)據(jù)以及最優(yōu)主題數(shù)目,利用LDA主題模型訓(xùn)練得到7個(gè)主題的結(jié)果,選取其中排名前五的5個(gè)主題,選取重要性排名前五的詞匯來描述該主題。結(jié)果如表2所示。
表2 休閑食品在線評論各主題詞頻分布表
2.4.3 需求分析
產(chǎn)品特征向用戶需求結(jié)構(gòu)的映射是將產(chǎn)品功能特性的描述轉(zhuǎn)化為企業(yè)最為關(guān)注的用戶需求的過程。在使用產(chǎn)品的過程中,用戶最關(guān)注產(chǎn)品可以提供哪些功能,用戶在評論中對產(chǎn)品特征進(jìn)行反饋,在一定程度上是將用戶需求信息傳遞至企業(yè),使企業(yè)能夠及時(shí)做出反應(yīng)。另外,產(chǎn)品特征向用戶需求映射的過程中,能夠更深層次把握用戶需求實(shí)質(zhì),進(jìn)一步對其進(jìn)行分類及匯總,使企業(yè)能夠?qū)⒂脩粜枨蠛彤a(chǎn)品未來的開發(fā)目標(biāo)聯(lián)系起來。所以,企業(yè)需要在挖掘在線產(chǎn)品評論主題的基礎(chǔ)上進(jìn)一步識別和分析用戶關(guān)鍵需求。根據(jù)上述LDA主題聚類的結(jié)果,綜合5種商品的主要主題詞構(gòu)成,消費(fèi)者的需求主要集中在物流、商品質(zhì)量和包裝三個(gè)方面,另外消費(fèi)者購買此類商品時(shí)更容易多次回購。
本研究針對電商平臺休閑食品的在線評論的主題進(jìn)行差異識別,利用LDA主題模型對5個(gè)品牌的商品進(jìn)行在線評論的文本主題聚類,總結(jié)出了每種商品在線評論文本的Top5主題和對應(yīng)該主題下出現(xiàn)的頻率Top5主題詞,呈現(xiàn)出主題的分布結(jié)果。并以此為依據(jù),整理用戶對商品的在線評論中提及的主要商品特征,得到用戶對休閑食品的關(guān)注要素。結(jié)合LDA主題識別的結(jié)果和產(chǎn)品—需求映射關(guān)系,可以看出消費(fèi)者在休閑食品的在線評論中以較高的頻次提及商品的物流、質(zhì)量、價(jià)格、包裝、分享自己的體驗(yàn)與感情,這體現(xiàn)了用戶購買此類商品時(shí)所考慮的需求,因此,涉及這幾類需求的關(guān)鍵詞出現(xiàn)的頻率更高。
本研究從真實(shí)的消費(fèi)者發(fā)布的在線評論數(shù)據(jù)中有效地識別出用戶需求在不同商品間的差異,發(fā)現(xiàn)針對不同類型的商品,消費(fèi)者有不同的需求。當(dāng)前,電商平臺上各種信息的創(chuàng)造速度和傳播速度已經(jīng)遠(yuǎn)遠(yuǎn)超過用戶個(gè)體的信息接收能力和處理應(yīng)對限度,因此,電商平臺的商家在運(yùn)營過程中,應(yīng)當(dāng)結(jié)合自身發(fā)展?fàn)顩r,針對不同商品的用戶需求,制定合理的定向廣告策略。根據(jù)本研究結(jié)論,提出以下建議:
電商平臺商家應(yīng)優(yōu)化廣告宣傳。由于網(wǎng)絡(luò)購物的限制性,消費(fèi)者在挑選商品時(shí)無法直接接觸商品,只能借助商家提供的網(wǎng)絡(luò)信息對在線商品進(jìn)行挑選和甄別。電商平臺商家可以優(yōu)化廣告宣傳頁面,提供以往消費(fèi)者的優(yōu)秀評論信息,來消除消費(fèi)者在網(wǎng)絡(luò)購物過程中的擔(dān)憂,幫助消費(fèi)者快速做出滿意的決策。在銷售休閑食品時(shí),針對更多的用戶對“包裝”和“使用體驗(yàn)”的表達(dá),可以將過去的消費(fèi)者關(guān)于此類方面的積極評論作為宣傳的內(nèi)容向消費(fèi)者展出,充分發(fā)揮“電子口碑”的作用。
電商平臺商家應(yīng)分類陳列在線評論。鑒于消費(fèi)者對于不同商品有不同的需求,電商平臺商家可以對在線評論進(jìn)行分類管理。將各類在線評論按照其主題分類,以其關(guān)鍵詞作為標(biāo)簽,從而提高消費(fèi)者對在線評論進(jìn)行信息加工的效率,進(jìn)一步提升消費(fèi)者的購物體驗(yàn)。例如在手機(jī)銷售的評論區(qū),添加“顏值”、“系統(tǒng)”、“拍照”這一類詞匯的標(biāo)簽,幫助用戶快速找到自己需要的信息,提升購物體驗(yàn)。
電商平臺商家應(yīng)鼓勵(lì)消費(fèi)者發(fā)布在線評論。在線評論作為網(wǎng)購中最容易被消費(fèi)者忽視的末端環(huán)節(jié),有大量的消費(fèi)者會(huì)忘記在購物后進(jìn)行評價(jià)。電商平臺商家應(yīng)鼓勵(lì)消費(fèi)者更加積極地發(fā)表在線評論,如在售前客服與消費(fèi)者的交流中提醒消費(fèi)者進(jìn)行在線評論,或在商品中添加小贈(zèng)品和感謝信等形式鼓勵(lì)用戶發(fā)表在線評論。