• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于電商評論情感分析的用戶聚類方法研究

      2023-09-25 13:04:09王盈張文龍唐卓然
      現(xiàn)代信息科技 2023年16期
      關(guān)鍵詞:在線評論情感分析電子商務(wù)

      王盈 張文龍 唐卓然

      摘 ?要:針對電子商務(wù)中的商品評論信息過載問題,運用情感關(guān)聯(lián)分析理論,通過挖掘商品評論信息中的商品特征及相應(yīng)的情感反饋,建立商品特征細(xì)粒度上的情感分值向量,在此基礎(chǔ)上利用SOM神經(jīng)網(wǎng)絡(luò)模型對評價用戶進(jìn)行聚類,建立電商用戶情感畫像,并針對不同電商用戶群體特征制定個性化營銷策略,從而幫助平臺商家從繁雜的商品評論中快速獲取有效信息。實驗中在線評論取自圖書類商品,數(shù)據(jù)均來源于Amason。實驗結(jié)果表明,該方法具有良好的應(yīng)用效果。

      關(guān)鍵詞:電子商務(wù);在線評論;情感分析;自組織映射地圖;用戶聚類

      中圖分類號:TP391.1;C931

      0 ?引 ?言

      近年來,隨著電子商務(wù)市場不斷飽和、用戶個性化需求不斷提高,同質(zhì)競爭弊端日益凸顯。如能夠從電商平臺上海量易獲取的富有用戶豐富情感信息的評論文本數(shù)據(jù)中快速挖掘有用信息,將為平臺商家開展精準(zhǔn)營銷提供極大便利。目前,以精準(zhǔn)營銷為目標(biāo)的用戶畫像構(gòu)建,多通過深度挖掘網(wǎng)絡(luò)用戶個人信息實現(xiàn),對用戶基本標(biāo)簽信息、社交網(wǎng)絡(luò)分析等方面研究已很多,而以用戶聚類為目的的情感挖掘研究尚不深入。對此,本文提出一種基于電商評論情感分析的用戶聚類方法,并結(jié)合亞馬遜圖書類商品評論文本數(shù)據(jù)進(jìn)行實證分析。

      1 ?文獻(xiàn)綜述

      電商評論文本挖掘已經(jīng)成為電商領(lǐng)域一大研究熱點。電商在線評論文本里用戶發(fā)布的評價信息,能夠幫助其他用戶了解產(chǎn)品品質(zhì)信息,有效降低用戶的感知風(fēng)險,輔助用戶做出購買決策。劉玉林通過抓取用戶評論并采用NLP自然語言切分,依靠情感字典進(jìn)行電商在線文本情感判斷,創(chuàng)建新式電商商家評價方式,實現(xiàn)了動態(tài)監(jiān)測顧客情感變化趨勢[1]。毛郁欣針對B2C電商網(wǎng)站特點,總結(jié)用戶評論有用性特征,并提出基于支持向量機(jī)的評論有用性排序算法,證實了主客觀內(nèi)容全面和高相關(guān)性的長評論被認(rèn)為更加有用[2]。Zhang Chenyu抓取疫情前后用戶餐飲評論文本數(shù)據(jù),對其進(jìn)行LDA主題及SnowNLP情感對比分析,實現(xiàn)了對其餐飲消費偏好的獲取[3]。

      用戶情感聚類分析是一種綜合運用情感分析和聚類分析的群體聚類方法。隨著深度學(xué)習(xí)的發(fā)展和文本數(shù)據(jù)可獲取性不斷提升,情感聚類分析逐漸從理論研究領(lǐng)域拓展到實踐應(yīng)用。郭慧提出了一種基于多重屬性聚類加權(quán)輸出的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,根據(jù)評價中的屬性詞,挖掘用戶興趣點與商鋪特點進(jìn)行情感分析,提升了個性化推薦效果[4]。洪慶(2018)改進(jìn)傳統(tǒng)K-means聚類算法,對視頻用戶基于彈幕文本情感值分類,以了解其在情感上的異同[5]。王晰巍通過卷積神經(jīng)網(wǎng)絡(luò)模型,對微博用戶情感進(jìn)行三級分類,利用Canopy和K-means算法對其聚類,以對輿情事件下各用戶群體進(jìn)行分析預(yù)測并提出對應(yīng)管控策略[6]。

      綜上所述,雖然國內(nèi)外均已有基于電商評論文本的情感聚類分析研究,但多基于整體層面建模,丟失了主體特征細(xì)粒度上的情感信息,方法上也多局限于低維數(shù)據(jù)的傳統(tǒng)聚類算法。因此,本文采用相似度算法對評論關(guān)鍵詞進(jìn)行特征映射,并量化其對應(yīng)情感反饋,構(gòu)建商品特征細(xì)粒度上用戶情感分值向量;同時,利用SOM模型繪制聚簇分布圖,實現(xiàn)用戶的神經(jīng)網(wǎng)絡(luò)聚類,并結(jié)合PCA構(gòu)造群體關(guān)注特征以輔助建立電商用戶情感畫像,形成個性化營銷策略。

      2 ?方法設(shè)計

      本研究提出的基于評論文本情感關(guān)聯(lián)分析的電商用戶聚類方法主體分為五大模塊,按照執(zhí)行順序依次是數(shù)據(jù)預(yù)處理模塊、評論情感向量提取模塊、用戶情感向量構(gòu)建模塊、用戶聚類分析模塊和用戶畫像形成模塊,如圖1所示。

      2.1 ?評論情感關(guān)聯(lián)特征向量提取

      2.1.1 ?基于語義的特征詞提取和子句重構(gòu)

      首先,對評論文本進(jìn)行斷句、分詞以及詞性標(biāo)注等預(yù)處理,得到評論r的初始子句集S0。針對電商評論中關(guān)注特征的詞性特質(zhì),保留名詞、名動詞和區(qū)別詞作為候選關(guān)注特征詞w,形成評論子句si的關(guān)注特征詞候選集Wi。若si中無候選特征詞,將其視作前一子句si-1的情感補(bǔ)充文本,拼接到其末尾形成新的子句si-1。最終形成評論r經(jīng)重構(gòu)后的子句集S。

      示例:

      1)評論例句:

      r =“價格不低,而且太小了,像是隨身讀物。不過紙張還行,保護(hù)眼睛的。”

      2)斷句后得到初始子句集:

      S0 ={“價格不低”,“而且太小了”,“像是隨身讀物”,“不過紙張還行”,“保護(hù)眼睛的”}

      3)根據(jù)詞性篩選得到特征詞候選集:

      W1 ={“價格”};W2 ={ };W3 ={“隨身”,“讀物”};W4 ={“紙張”};W5 ={“保護(hù)”,“眼睛”};

      4)將空集W2對應(yīng)的子句s2拼接到前一子句s1的末尾,最終得到重構(gòu)后的子句集R1 ={“價格不低,而且太小了”,“像是隨身讀物”,“不過紙張還行”,“保護(hù)眼睛的”}

      2.1.2 ?基于子句的情感值計算

      已有研究表明,針對電商評論等短文本,在子句級進(jìn)行情感分析,可以彌補(bǔ)傳統(tǒng)整句級情感分析模型難以辨別單條評論內(nèi)含多因素的不足[7],同時避免了短語級情感提取任務(wù)復(fù)雜度大、準(zhǔn)確率不高的問題[8]?;赟nowNLP類庫計算各子句情感分值e,形成候選特征詞情感向量 fj = (wj, ej )。最終得到評論情感關(guān)聯(lián)特征向量vr = ( ( w1, e1 ),( w2, e2 ),…,( wn, en ) )。

      示例:

      1)計算候選特征詞情感向量:

      s1 =“價格不低,而且太小了”,經(jīng)計算其情感分值為0.295 035 63,則f1 =(“價格”, 0.295 035 63)

      ……

      s5 =“保護(hù)眼睛的”,經(jīng)計算其情感分值為

      0.650 106 17,則 f1 =(“保護(hù)”,0.650 106 17), ?f2 =(“眼睛”,0.650 106 17)

      2)構(gòu)造評論情感關(guān)聯(lián)特征向量:

      vr =((“價格”,0.295 035 63),(“隨身”,

      0.542 669 38),(“讀物”,0.542 669 38),(“紙張”,0.491 651 29),(“保護(hù)”,0.650 106 17),(“眼睛”,0.650 106 17))

      2.2 ?用戶情感分值向量構(gòu)建

      2.2.1 ?基于TF-IDF的用戶關(guān)注特征詞提取

      從評論文本集R中篩選出TF-IDF值為前100的候選特征詞,再對其進(jìn)行人工篩選與主題發(fā)現(xiàn),最終歸納出10個特征詞作為用戶情感分值向量的特征,記作F = { F1, F2, …, F10 }。

      示例:

      F ={“質(zhì)量”,“內(nèi)容”,“作者”,“紙張”,“印刷”,“出版社”,“包裝”,“封面”,“價格”,“正版”}

      2.2.2 ?基于詞語相似度的特征競爭和值的定義程序包

      對于vr中的候選特征詞w,基于gensim中的word2vec模塊計算F與wi的詞語相似度,相似度最高的Fj獲勝,取wi對應(yīng)情感值ei作為用戶向量vu在特征Fj上的一個基礎(chǔ)值,對其求算術(shù)平均值ai。最終形成該用戶情感分值向量vu = (a1, a2, …, a10)。

      示例:

      以特征詞為第一維度,候選特征詞為第二維度,二者的詞語相似度為值,定義相似度競爭矩陣。經(jīng)計算得到vr1中候選特征詞與特征詞的相似度競爭矩陣如表1所示。

      以獲勝特征詞代替被競爭的候選特征詞,則:

      vr =((“價格”,0.295 035 63),(“正版”,0.542 669 38),(“正版”,0.542 669 38),(“紙張”,0.491 651 29),(“正版”,0.650 106 17),(“正版”,0.650 106 17))

      F10即“正版”特征下的基礎(chǔ)值求均值后為

      0.596 387 77,最終得到用戶情感分值向量:

      vu = (0,0,0,0.491 651 29,0,0,0,0,

      0.295 035 63,0.596 387 77)

      2.3 ?基于SOM的用戶聚類算法

      自組織映射(Self-Organizing Feature Maps, SOM)[9]是一種特殊的神經(jīng)網(wǎng)絡(luò)模型,能將高維數(shù)據(jù)的空間拓?fù)浣Y(jié)構(gòu)保序地映射到低維空間(通常為二維),以實現(xiàn)高維數(shù)據(jù)的低維可視化[10],十分適合用于處理分析本研究中的用戶情感分值向量數(shù)據(jù)。因此,本文采用VC-SOM算法[11]生成SOM聚簇分布特征圖,獲取數(shù)據(jù)分布特點,從而確定用戶聚類數(shù)目。

      3 ?實驗分析

      3.1 ?實驗數(shù)據(jù)

      實驗采用Github項目ChineseNLPCorpus中的電商評論情感傾向性分析數(shù)據(jù)集yf_amazon,在標(biāo)注褒義、貶義的圖書類評論中分別隨機(jī)選取1 000條作為實驗數(shù)據(jù)。

      3.2 ?電商用戶聚類

      基于評論文本集構(gòu)建用戶情感分值向量后,定義結(jié)構(gòu)為30×30的SOM網(wǎng)絡(luò),網(wǎng)絡(luò)鄰域函數(shù)選用高斯函數(shù),學(xué)習(xí)率初始值設(shè)為0.5,采用歐氏距離度量,訓(xùn)練得到聚簇分布特征圖如圖2所示。

      圖中每個網(wǎng)格代表1個SOM神經(jīng)網(wǎng)絡(luò)節(jié)點,網(wǎng)格著色越深,代表該節(jié)點與其相鄰節(jié)點間距離越大,即深色節(jié)點用于顯示聚簇邊界。通過觀察分析可得,圖中較明顯的聚簇共6個,分別是位與分布特征圖右上方的1個,上下并排位于中部的2個,位于左下角的1個,和左右并排位于圖下邊界的2個。

      基于此,結(jié)合輪廓系數(shù)[12]及CH指標(biāo)[13]計算結(jié)果,最終確定最佳聚類數(shù)為6。定義SOM網(wǎng)絡(luò)結(jié)構(gòu)為1×6,輸入用戶情感向量數(shù)據(jù)集,訓(xùn)練聚類神經(jīng)網(wǎng)絡(luò)并輸出各樣本聚類標(biāo)簽。

      3.3 ?聚類結(jié)果分析

      從解釋變量的角度出發(fā),使用PCA主成分分析法將前面10個用戶情感向量特征轉(zhuǎn)換成A1、A2、A3、A4、A5五個屬性來反映用戶關(guān)注特征及情感反饋情況,分別代表價格、快遞物流、紙張印刷、正版授權(quán)、裝幀質(zhì)量。聚類基礎(chǔ)信息匯總?cè)绫?所示。

      表中顯示,聚類編號為1的電商用戶群體人數(shù)占比最多,而平均屬性總值占比最少,說明該群體在各屬性上的關(guān)注度較低,屬于特征不明顯的大眾群體,不是平臺商家進(jìn)行精準(zhǔn)營銷的核心對象。其余聚類,以6號用戶群體為代表,人數(shù)占比少,而平均屬性總值占比大,屬于特征突出的用戶群體,是平臺商家進(jìn)行精準(zhǔn)營銷的重點目標(biāo)對象。

      接下來使用單變量分析方法,比較各聚類用戶組相對于用戶整體的個性化行為特征,以便進(jìn)行針對性營銷策略制定。以A1屬性為例展開分析,如圖3所示,繪制A1屬性的百分比分布圖,其中折線表示各聚類樣本分布,柱形表示總體樣本分布,由圖可知,對于價格,第一、二、四類與總體分布基本一致,反映其對商品價格方面滿意度居中;第三類電商用戶群體出現(xiàn)兩個峰,一個呈正態(tài)分布,另一個呈右偏分布,反映其中部分用戶對商品的價格方面滿意度較用戶整體而言居低;第五、六類電商用戶呈左偏分布,且反映其對商品的價格方面滿意度較用戶整體而言居高,且第五類比第六類滿意度更高。

      使用同樣的方法分析另外四個屬性,提煉出基于用戶整體的相對關(guān)注特征表如表3所示。在此基礎(chǔ)上,可以根據(jù)每一類電商用戶的相對關(guān)注特征和情感反饋,采取針對性的營銷策略來提高營銷活動的命中率。例如,對于第一類用戶,其關(guān)注點為裝幀質(zhì)量,因此可以向其針對性地推銷以高質(zhì)量裝幀為賣點的圖書,以滿足其對于該特征的情感訴求;而對于第四類用戶,其關(guān)注點遍布正版保障、裝幀質(zhì)量以及紙張印刷,且對于前二者的關(guān)注程度尤為突出,因此可以選擇針對正版保障和裝幀質(zhì)量來制定營銷策略,向其定向投放以正版精裝為亮點的圖書軟廣,同時輔以紙張印刷品質(zhì)的側(cè)面展示,精準(zhǔn)激勵其進(jìn)入并購買該類圖書產(chǎn)品。

      3.4 ?聚類效果評測

      本文隨機(jī)選取200條評論作為測試語料,對其用戶類別進(jìn)行人工標(biāo)注。采用分類領(lǐng)域廣泛接受的精確率(Precision)和召回率(Recall)作為評測指標(biāo),來評價模型聚類分析的準(zhǔn)確性和可行性。表4的測試結(jié)果表明,本文聚類方法的平均查準(zhǔn)率為0.78,平均查全率為0.73,通過對比其他研究者的實驗效果(如文獻(xiàn)[14]中查準(zhǔn)率值約為0.76,文獻(xiàn)[15]中約為0.75),說明了該聚類模型的有效性。

      4 ?結(jié) ?論

      本文針對電商評論信息過載問題,提出了一種基于電商評論情感分析的用戶聚類方法,以真實的亞馬遜圖書類商品評論為基礎(chǔ),挖掘用戶關(guān)注點及情感反饋,從而進(jìn)行用戶聚類及畫像構(gòu)建,幫助平臺商家更好地進(jìn)行精準(zhǔn)營銷?;谠诰€評論,采用相似度算法將提取的在線評論特征詞映射到商品特征,并量化用戶在各特征上的情感反饋,構(gòu)建用戶情感分值向量,保留了用戶在商品特征細(xì)粒度上的情感信息,有效彌補(bǔ)了現(xiàn)有電商用戶聚類方法中細(xì)粒度情感信息丟失的不足。創(chuàng)新性地引入自組織映射地圖,對高維情感向量數(shù)據(jù)繪制可視化聚簇分布圖,實現(xiàn)了對電商用戶的SOM神經(jīng)網(wǎng)絡(luò)聚類,并結(jié)合PCA輔助建立電商用戶畫像,生成了不同用戶群體的個性化營銷方案。

      本文提出的聚類方法對于消費者和平臺商家都具有一定的現(xiàn)實價值和意義。平臺商家能更高效地挖掘用戶群體情感畫像,進(jìn)行精準(zhǔn)營銷,從而獲得競爭優(yōu)勢;消費者也能因此享受更加人性化的購物體驗。在今后的研究中,將考慮向模型中引入更加深入完善的語義分析體系,并將研究成果應(yīng)用到更多行業(yè)領(lǐng)域中去。

      參考文獻(xiàn):

      [1] 劉玉林,菅利榮.基于文本情感分析的電商在線評論數(shù)據(jù)挖掘 [J].統(tǒng)計與信息論壇,2018,33(12):119-124.

      [2] 毛郁欣,朱旭東.面向B2C電商網(wǎng)站的消費者評論有用性評價模型研究 [J].現(xiàn)代情報,2019,39(8):120-131.

      [3] ZHANG C Y,JIANG J Y,JIN H,et al. The Impact of COVID-19 on Consumers Psychological Behavior Based on Data Mining for Online User Comments in the Catering Industry in China [J].International Journal of Environmental Research and Public Health,2021,18(8):4178(2021-04-15).https://doi.org/10.3390/ijerph18084178.

      [4] 郭慧,柳林,劉曉,等.深度學(xué)習(xí)下的情感分析與推薦算法 [J].測繪通報,2018(9):55-58.

      [5] 洪慶,王思堯,趙欽佩,等.基于彈幕情感分析和聚類算法的視頻用戶群體分類 [J].計算機(jī)工程與科學(xué),2018,40(6):1125-1139.

      [6] 王晰巍,賈若男,韋雅楠,等.多維度社交網(wǎng)絡(luò)輿情用戶群體聚類分析方法研究 [J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(6):25-35.

      [7] 彭衛(wèi),文松,韓雨濛,等.基于主題模型和前景理論的生鮮電商顧客滿意度評價研究 [J].河南工業(yè)大學(xué)學(xué)報:社會科學(xué)版,2021,37(6):67-74.

      [8] 邱祥慶,劉德喜,萬常選,等.文本情感原因自動提取綜述 [J].計算機(jī)研究與發(fā)展,2022,59(11):2467-2496.

      [9] KOHONEN T. Self-Organizing Maps [M].Berlin:Springer-Verlag,2001.

      [10] 楊黎剛,蘇宏業(yè),張英,等.基于SOM聚類的數(shù)據(jù)挖掘方法及其應(yīng)用研究 [J].計算機(jī)工程與科學(xué),2007(8):133-136.

      [11] 楊黎剛.基于SOM聚類的數(shù)據(jù)挖掘方法及其應(yīng)用研究 [D].杭州:浙江大學(xué),2006.

      [12] ROUSSEEUW P J. Silhouettes:A graphical aid to the interpretation and validation of cluster analysis [J].Journal of Computational and Applied Mathematics,1987,20:53-65.

      [13] CALI?SKI T,HARABASZ J.A dendrite method for cluster analysis [J].Communications in statistics,1974,3(1):1-27.

      [14] 吳迪,楊瑞欣,申超.基于情感主題特征詞加權(quán)的微博評論聚類算法研究 [J].現(xiàn)代電子技術(shù),2020,43(23):67-71+75.

      [15] 馬曉悅,馬昊.考慮標(biāo)簽情緒信息的圖書資源個性化推薦方法研究 [J].情報理論與實踐,2020,43(9):115-124.

      作者簡介:王盈(2001—),女,漢族,浙江嘉興人,本科在讀,研究方向:大數(shù)據(jù)挖掘;張文龍(2001—),男,漢族,新疆巴音郭楞人,本科在讀,研究方向:大數(shù)據(jù)挖掘;唐卓然(2002—),女,漢族,天津河西人,本科在讀,研究方向:大數(shù)據(jù)挖掘。

      文獻(xiàn)標(biāo)識碼:A ? 文章編號:2096-4706(2023)16-0024-05

      Research on User Clustering Method Based on Sentiment Analysis of E-Commerce Reviews

      WANG Ying, ZHANG Wenlong, TANG Zhuoran

      (School of Management, Jiangsu University, Zhenjiang ?212013, China)

      Abstract: Aiming at the problem of commodity review information overload in E-Commerce, the theory of sentiment correlation analysis is used to establish the sentiment score vector of fine-grained commodity features by mining commodity features and corresponding sentiment feedback in commodity review information. On this basis, the SOM neural network model is used to cluster evaluation users and establish the emotional portrait of E-Commerce users. And it develops personalized marketing strategies according to the characteristics of different E-Commerce user groups, so as to help the platform merchants quickly obtain effective information from the complex commodity reviews. In the experiment, online reviews are taken from book products, and all of the data are obtained from Amason. Experimental results show that this method has a good application effect.

      Keywords: E-Commerce; online review; sentiment analysis; self-organizing map; user clustering

      猜你喜歡
      在線評論情感分析電子商務(wù)
      《電子商務(wù)法》如何助力直銷
      電子商務(wù)
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預(yù)測(2016年5期)2016-12-26 17:16:57
      在線評論對電子商務(wù)商品銷量的影響研究
      中文信息(2016年10期)2016-12-12 11:01:20
      關(guān)于加快制定電子商務(wù)法的議案
      在線評論對消費者購買意圖的影響研究
      商(2016年10期)2016-04-25 10:03:58
      文本觀點挖掘和情感分析的研究
      跨境電子商務(wù)中的跨文化思考
      黄浦区| 大足县| 富阳市| 青河县| 兴安盟| 馆陶县| 湖口县| 万盛区| 克拉玛依市| 怀宁县| 彭山县| 乐都县| 泊头市| 尚志市| 邵阳县| 普兰县| 博湖县| 车致| 天津市| 会昌县| 丽水市| 广饶县| 射阳县| 宝清县| 万荣县| 阳泉市| 东乌珠穆沁旗| 闽侯县| 昔阳县| 柯坪县| 德格县| 长垣县| 嘉兴市| 安平县| 玉树县| 栾川县| 社会| 梅州市| 乐东| 大埔县| 板桥市|