□ 孫麗男 康冰冰 王 鑫 王佳惠 胡錦秀
(黑河學院 黑龍江 黑河 164300)
伴隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,線上購物已經(jīng)成為人們?nèi)粘I钪械闹髁髻徫锓绞街?,多?shù)消費者會在各類電商平臺購物后留下一些評論,為其他消費者提供一些參考。本文將采取文本挖掘的方法分析電商助農(nóng)產(chǎn)品的評論數(shù)據(jù),首先采集京東電商平臺上助農(nóng)產(chǎn)品的評論數(shù)據(jù),然后采用中文分詞、情感傾向分析等方法對所挖掘出的文本評論數(shù)據(jù)進行分析,并對文本評論數(shù)據(jù)的情感傾向性判斷,有效、準確的從互聯(lián)網(wǎng)電商評論數(shù)據(jù)中分析出消費者的需求和滿意度,為電商平臺助農(nóng)產(chǎn)品營銷提供決策支持。
伴隨著國家扶貧攻堅政策的不斷升級,助農(nóng)產(chǎn)品越來越受到大眾的關(guān)注,許多電商平臺紛紛響應國家政策開辟助農(nóng)板塊,用戶評價成為平臺運營重要的參考依據(jù)。
本文利用Python采集京東商城助農(nóng)產(chǎn)品的評論,共抓取了105836條評論,數(shù)據(jù)抓取過程中,每個商品的評論只能顯示前100頁即每個商品只能抓取到1000條評論,同時將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為可檢索的結(jié)構(gòu)化數(shù)據(jù),用表格形式儲存,如表1所示。
表1 京東平臺上采集的數(shù)據(jù)結(jié)構(gòu)示意圖
采集完數(shù)據(jù)后需要先對數(shù)據(jù)進行預處理,在電商平臺評論數(shù)據(jù)中常出現(xiàn)的需要處理的數(shù)據(jù)有以下四種類型:
1.語句中帶有重復詞的評論。例如:“這家的蘋果真的真的真的真的太好吃了?。?!”和“差差差差差,再也不會回購了”,針對這類評論本文選擇壓縮去詞的方式處理,只從每條評論中多個重復詞中提取一個重復詞,例如“這家的蘋果真的太好吃了”和“差,再也不會回購了”。
2.商家雇傭水軍刷出的好評,此類好評的特點為,評論篇幅長,圖片數(shù)量多,當天追加大篇幅評論,同一賬號在同一商品下多次好評,這種評論我們選擇的處理方式為剔除。
3.無意義的評論,分為兩種,第一種為系統(tǒng)默認好評,即由于買家未在規(guī)定時間內(nèi)對商品評價,導致系統(tǒng)給出的默認好評;第二種為由標點符號,英文字母,數(shù)字,不明語義的句子等組成的評論,這種評論我們也選擇剔除處理。
4.完全相同的評論,在評論中有時會出現(xiàn)兩條或多條完全相同的評論,針對這類評論采取文本去重的方法,即逐一對比評論內(nèi)容,去除完全相同的評論。
在數(shù)據(jù)預處理中,剔除了大量無效評論,最終共剔除100694條評論,得到有效評論5142條,評論利用率為0.49%。
情感分析是指所挖掘的文本內(nèi)容表達的觀點與含義,是識別某個主體對某客體的功能及效用主觀感受,這種主觀感受褒貶不一,而情感分析就是根據(jù)這種褒貶不一態(tài)度來進行情感傾向性研究。本文采用HowNet進行語義分析,求出得分,通過得分來判斷文本情感傾向,得分為正數(shù)則表明文本表達的為“正面情感”,若得分為負數(shù)則表明文本表達為“負面情感”。具體分析框架如圖1所示。
圖1 文本傾向性分析框架圖
通過HowNet計算出所采集的京東助農(nóng)產(chǎn)品的評論的得分情況,根據(jù)所得出的分數(shù),來進行情感分析,分析結(jié)果如圖2所示
圖2 文本情感分析結(jié)果
助農(nóng)產(chǎn)品的褒義的評論即正面情緒高達79.58%,對助農(nóng)產(chǎn)品持中立看法的為7.91%,而對助農(nóng)產(chǎn)品的貶義評論即負面情緒僅為12.51%,由此可見經(jīng)過分析后得出消費者對京東商城助農(nóng)產(chǎn)品的滿意度較高,大部分消費者對助農(nóng)產(chǎn)品持有的是積極的態(tài)度。
本文從評論中整合提取高頻詞匯,制作詞云圖,如圖3所示。圖中字號越大代表該詞出現(xiàn)頻率越高,其中“好吃”,“新鮮”,“味道”出現(xiàn)頻率極高,說明消費者在購買京東平臺助農(nóng)產(chǎn)品時最注重產(chǎn)品的口感和產(chǎn)品是否新鮮,對價格的關(guān)注程度也在其次,說明消費者比起價格更在意產(chǎn)品本身的質(zhì)量,商家應該把產(chǎn)品質(zhì)量放在第一位。詞云圖中還出現(xiàn)了一些消極情緒的詞匯。例如“最差”,“一般般”,“破損”,“想象”等詞都頻頻出現(xiàn),說明商家還需提高產(chǎn)品的包裝和質(zhì)量。
圖3 詞云統(tǒng)計圖
圖4所示的網(wǎng)絡語義圖左側(cè)主要為消費者對產(chǎn)品本身的評價,包括口感,質(zhì)量,價格等,右邊主要為消費者在平臺的購買體驗評價,包括物流,售后,服務,包裝等,由網(wǎng)絡語義圖能看出消費者最在意產(chǎn)品的品質(zhì)和味道,這一點與詞云圖得出的結(jié)論相似;消費者會因為產(chǎn)品口感,品質(zhì)決定是否回購該產(chǎn)品;在購買助農(nóng)扶貧產(chǎn)品時也更在意產(chǎn)品的品質(zhì);消費者會因為產(chǎn)品味道和分量和質(zhì)量等因素給出差評,產(chǎn)品的包裝破損導致產(chǎn)品分量不夠及破損,商家應加強產(chǎn)品包裝質(zhì)量。
圖4 網(wǎng)絡語義圖
本節(jié)在語義網(wǎng)絡情感分類結(jié)果的基礎上,對不同情感傾向下的潛在主題分別進行挖掘分析,從而得到不同情感傾向下用戶對助農(nóng)產(chǎn)品不同方面的反映情況。經(jīng)過LDA主題分析后,評論文本被聚成3個主題,每個主題下生成10個最可能出現(xiàn)的詞語以及相應的概率。
表2 LDA差評主題分析結(jié)果
表3 LDA好評主題分析結(jié)果
根據(jù)助農(nóng)產(chǎn)品差評的3個潛在主題的特征詞提取,主題1中的高頻特征詞,即不甜、不夠、失望、很差、不要、磕碰、個頭、速度、客服和太慢,主要反映助農(nóng)產(chǎn)品的質(zhì)量不好,沒有達到部分消費者的期望值;主題2中的高頻特征詞,即熱門關(guān)注點主要是太小、態(tài)度、酸、活動、一般、不好吃、垃圾、不新鮮、質(zhì)量、大小不一,主要反映出消費者認為助農(nóng)產(chǎn)品的質(zhì)量及服務態(tài)度存在問題。主題3的高頻特征詞主要是爛、破損、重量、下面、壞果、不符、均勻、沒熟、包裝、打蠟;主要反映出部分商家發(fā)貨慢、包裝差及規(guī)格等與描述不相符等。
根據(jù)助農(nóng)產(chǎn)品好評的3個潛在主題的特征詞提取,主題1主要反映出大部分消費者認為助農(nóng)產(chǎn)品性價比較高,口感香甜;主題2反映出助農(nóng)產(chǎn)品的質(zhì)量不錯,對商品的整體比較滿意,同時“物美”一詞也在熱門詞中,可能是因為存在一部分比例的消費者在選擇助農(nóng)產(chǎn)品時比較注重產(chǎn)品的外觀,主題3主要反映出消費者對助農(nóng)產(chǎn)品的發(fā)貨速度、口感及營養(yǎng)較為滿意。
綜上所述,消費者對于京東電商平臺上助農(nóng)產(chǎn)品的整體滿意度較高,更加注重產(chǎn)品質(zhì)量,對于產(chǎn)品包裝及物流等方面滿意度較差,京東電商平臺可根據(jù)上述分析結(jié)果制定有效的助農(nóng)產(chǎn)品營銷策略。