• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學習的電商平臺產(chǎn)品評論情感分析

      2023-06-22 17:30:09趙浩博唐非
      現(xiàn)代信息科技 2023年5期
      關(guān)鍵詞:情感分析文本分析機器學習

      趙浩博 唐非

      摘? 要:隨著網(wǎng)絡的蓬勃發(fā)展,現(xiàn)代人越來越依賴于網(wǎng)上購物,消費者在購物后留下大量的商品評論文本。為了能讓評論文本為消費者及商家?guī)砀嗟膬?yōu)質(zhì)信息,利用Python抓取某電商平臺中某個產(chǎn)品的評論,對所得到的文本數(shù)據(jù)進行預處理,采用機器學習和深度學習算法構(gòu)建模型并進行分析,找出分析效果最好的模型,并分析產(chǎn)品的不足,給出相應的指導意見。

      關(guān)鍵詞:用戶評論;文本分析;情感分析;機器學習;深度學習

      中圖分類號:TP391.1;F724.6? 文獻標識碼:A? 文章編號:2096-4706(2023)05-0030-04

      Emotion Analysis of E-commerce Platform Product Reviews Based on Deep Learning

      ZHAO Haobo1, TANG Fei1,2

      (1.School of Software, Shenyang University of Technology, Shenyang? 110870, China;

      2.School of Artificial Intelligence, Shenyang University of Technology, Shenyang? 110870, China)

      Abstract: With the vigorous development of the Internet, modern people increasingly rely on online shopping, and consumers leave a large number of product comments after shopping. In order to make the comment text bring more high-quality information to consumers and businesses, Python is used to capture the comments of a product in an E-commerce platform, preprocess the obtained text data, use machine learning and deep learning algorithms to build model and make analysis, find out the model with the best analysis effect, analyze the shortcomings of the products, and give corresponding guidance.

      Keywords: user comment; text analysis; emotion analysis; machine learning; deep learning

      0? 引? 言

      近年來,國外又掀起一股互聯(lián)網(wǎng)熱潮,據(jù)《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[1]顯示,截至2022年6月,我國在網(wǎng)上購物的人數(shù)達到8.41億,占網(wǎng)民總?cè)藬?shù)的80%。在如此龐大的購物人群中,產(chǎn)品的評論就顯得尤為重要[2]。我們進行了一項實驗,在京東商城中使用Python爬蟲技術(shù),爬取紅米K50手機的評論[3]。由于所爬取的差評文本較少,實驗將中評和差評文本合并,統(tǒng)一標為差評。對數(shù)據(jù)進行預處理后[4],使用機器學習和深度學習模型進行分類[5],得到一個效果較好的分類模型。一方面消費者可以從評論中提取與自己需求匹配的關(guān)鍵信息,另一方面也可以幫助商家對自己產(chǎn)品功能的優(yōu)勢和劣勢進行區(qū)分。

      1? 評論的情感分析

      1.1? 數(shù)據(jù)的獲取

      使用Python爬蟲技術(shù)對京東商城旗艦店某品牌最新款5G手機進行評論的爬取[6]。由于網(wǎng)頁版京東商城設置了反爬機制,實驗將不同型號和不同顏色的k50相互組合,分別進行爬取。首先調(diào)用request庫,在京東網(wǎng)站上搜索所需抓取商品的信息,找到自己想要抓取信息的商品并點開其評價信息;復制URL,在Python編輯器中定義URL;使用json庫進行在線分析,尋找規(guī)律后對所抓取的代碼進行解析;調(diào)用json庫中的函數(shù)并將其整合成帶有好評及差評標簽的兩列評論文本,并保存在.csv文件中,一列為評論文本,一列為評價類型,便于后續(xù)的使用。所爬取的部分評論如表1所示。

      1.2? 數(shù)據(jù)的預處理

      為了避免數(shù)據(jù)遺漏及數(shù)據(jù)重復對實驗造成影響,首先對所得到的文本進行預處理。通常,不同用戶對于其所購買產(chǎn)品的評價是不同的,所以他們在平臺留下的評價也各不相同。如果消費者在購買商品后沒有對商品做出評論,平臺會給出默認評論,例如,“此用戶未填寫評價內(nèi)容”等,所以這類文本數(shù)據(jù)是沒有任何分析價值的。除此之外,還存在一些購買者的評論內(nèi)容完全重復的情況,這種評論只有最早的評論才有意義。本實驗對兩條或多條重復的評論進行處理,僅刪除完全重復的評論,以確保保留有用的文本評論信息。

      在對評論去重之后,使用Python中的jieba庫對評論文本進行分詞。Jieba的分詞功能和執(zhí)行準確率相比其他工具更高。當然,在已有的停用詞表基礎上,如果我們還有一些不需要的詞語,也可以自己完善停用詞表。本文依照哈工大停用詞表去掉與實驗不相關(guān)的停用詞,例如“我們”“買”“已經(jīng)”等[7]。同時使用自定義詞典,加入網(wǎng)絡流行詞及長詞,避免在jieba中被默認分割。

      由于好評和差評也屬于文本數(shù)據(jù),采用數(shù)字編碼方法將好評轉(zhuǎn)碼為1,將差評轉(zhuǎn)碼為0,方便后續(xù)實驗的有序進行。如圖1所示為好評與差評中頻數(shù)較高若干詞的柱狀圖。

      1.3? 數(shù)據(jù)可視化

      目前,開源工具種類繁多,實驗使用Jieba庫。在編譯器Pytharm中導入jieba庫、wordcloud庫和matplotlib庫。Wordcloud用于繪制詞云圖,而Matplotlib庫用于將圖展示出來。根據(jù)分詞之后的詞頻繪制詞云圖。從詞云圖中不難看出,好評中占比較高的詞有“屏幕”“性價比”“電池”等;差評中占比較高的詞有“速度”“效果”“系統(tǒng)”等。如圖2所示為好評與差評中頻數(shù)較高若干詞的詞云圖。

      2? 詞向量轉(zhuǎn)換

      2.1? 詞袋模型

      由于文本數(shù)據(jù)不能直接使用,需要將文本數(shù)據(jù)轉(zhuǎn)換為可以計算的向量[8],可以使用詞袋模型來解決此問題。詞袋模型就是將詞語打亂順序后放入袋子里,按順序編碼,然后取詞語的個數(shù)按句子的對應關(guān)系構(gòu)建詞向量。但是one-hot編碼有多少詞語,就要構(gòu)建多少維的向量,這樣可能會發(fā)生維度災難,而且也無法度量詞語之間的相似性。

      2.2? 詞嵌入模型

      詞嵌入模型(Word to Vector)是表示詞語位置關(guān)系的一種模型[9]。Word2vec提出了一種假設,一段話中離得越近的詞語它們的相似度也就也高。使用余弦相似度計算兩個詞語之間的距離,判斷兩個詞語之間的關(guān)系,現(xiàn)在常用Word2vec構(gòu)建詞嵌入模型,它是由CBOW和Skip-Gram算法組成的神經(jīng)網(wǎng)絡模型。CBOW的主要方法是通過句子中的上下文詞來推測出中心詞,而Skip-Gram則是使用中心詞來預測上下文詞。

      詞袋模型的One-Hot表示法、TF表示法等算法都沒有考慮詞與詞之間的關(guān)系,比如“的”字的后面只能接名詞性詞語,“地”字的后面只能接動詞性詞語。也就是說,詞袋模型認為一個詞出現(xiàn)的可能性與其他詞出現(xiàn)的可能性無關(guān),詞語的出現(xiàn)是相互獨立的。

      詞袋模型最大的缺陷是向量的維度高,維度高造成后續(xù)相似度或文本分類的計算量非常大,同時數(shù)據(jù)稀疏也導致相似度區(qū)分不明顯。由于詞袋模型所表示文本向量的每個維度都代表一個詞語,因此可以將聚類后簇中心向量中具有較大值的維度對應的詞語用作簇的關(guān)鍵詞。Word2vec是神經(jīng)網(wǎng)絡的衍生品,在使用淺層神經(jīng)網(wǎng)絡對文本進行情感分析時,發(fā)現(xiàn)在得到分類結(jié)果的同時,輸入矩陣剛好可以用來表示詞語。由于詞語是用上下文來表達的,一定程度上反映了詞語的語義,但這并不代表機器真正明白了詞語的含義,只是說明相似詞語之間的向量相似度較大而已。如圖3所示為Skip-Gram網(wǎng)絡結(jié)構(gòu)圖。

      3? 算法建立

      3.1? 機器學習算法

      支持向量機(Support Vector Machines, SVM)是一種傳統(tǒng)的機器學習算法,于1993年被提出。它是一種二分類模型,將數(shù)值型的特征向量投影到平面或空間上,尋找區(qū)分兩類點的超平面,使得邊際最大,以“最好地”區(qū)分這兩類點。SVM稱得上深度學習出現(xiàn)之前最好的機器學習算法之一。調(diào)用sklearn中的SVM庫,進行SVM算法的調(diào)試和模型訓練,得到準確值和預測值,然后將模型保存。將兩萬多條帶有標簽的數(shù)據(jù)集按7:3的比例分成訓練集和測試集,實驗之后把測試集導入訓練好的模型進行測驗。

      3.2? 深度學習算法

      3.2.1? 卷積神經(jīng)網(wǎng)絡

      卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)是一種深度學習的算法,也是Deep Learning中較為火熱的幾個算法之一,它通常被用于圖像處理。CNN通常由輸入層、卷積層、池化層、全連接層、softmax層組成。使用TensorFlow中的CNN,調(diào)整input與卷積核參數(shù),迭代次數(shù)為100,epoch次數(shù)為5,詞向量的維度為20。在上文分好的訓練集上進行測試,并進行多次訓練。

      3.2.2? 長短期記憶網(wǎng)絡

      長短期記憶網(wǎng)絡(Long Short-Term Memory, LSTM)是循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,在RNN標準模型的基礎上增加了三個門控單元:遺忘門(Forget Gate)、輸入門(Input Gate)以及輸出門(Output Gate)。三個門恰好可以把LSTM分成三個部分,整個LSTM的實現(xiàn)也是圍繞著這三個門展開的。如圖4所示為LSTM的結(jié)構(gòu)圖。

      圖中,C(t-1)為上一次的單元狀態(tài),通過遺忘門有選擇性地遺忘一些信息。假設輸入的x(t)為10個向量,通過四個全連接層計算出新的候選信息值,傳遞到輸入門補充新的信息。最后一層sigmoid函數(shù)通向輸出門,與其他“記憶”發(fā)生權(quán)值交集,一部分從h(t)以隱藏狀態(tài)輸出,一部分作為包含歷史信息的長期記憶,繼續(xù)從c(t)輸出下去。四個全連接層的權(quán)重公式為:

      (1)

      (2)

      (3)

      (4)

      舉個例子,我們在閱讀或看書的時候,會根據(jù)已經(jīng)讀過的文字來推理和理解后續(xù)的文字,而不是看一段忘一段,我們一直保持著一個思考的狀態(tài)。

      傳統(tǒng)的神經(jīng)網(wǎng)絡即RNN做不到這一點,LSTM是具有循環(huán)的網(wǎng)絡,解決了信息無法長期存在的問題,在工業(yè)界普遍使用并取得了良好的效果。使用LSTM,很容易實現(xiàn)對文本的情感分析。針對每一條商品評論,對長度較短的評論進行補充,對長度過長的評論進行裁剪處理,使得每個句子向量的長度相同。然后,利用長短時記憶網(wǎng)絡,按照從左到右的順序讀取每一個句子向量。讀取之后,使用長短時記憶網(wǎng)絡的最后一個輸出記憶,將其當作上一條語句的信息,并且將這條讀取完的信息當作下一條語句的輸入向量,送入一個分類層進行分類和訓練。設置迭代次數(shù)為100,epoch次數(shù)為5,詞向量的維度為20,完成對LSTM算法模型的建立。

      3.3? 情感分析效果驗證

      本實驗中情感分類模型的性能評價指標,主要包含準確率、精確率、召回率、F1_score、ROC曲線、AUC等。對于給定的測試集來說,準確度為模型正確分類的樣本數(shù)與需要進行分類的總樣本數(shù)之比。但是在分類樣本集中如果差距較大,準確率就不能很好地體現(xiàn)分類的優(yōu)劣。精確度為分類模型將正類樣本預測為正類的數(shù)量與整個樣本預測為正類的總數(shù)的比例。召回率在實際為正的樣本中被預測為正樣本的概率,而F1值則是前兩種方法所得結(jié)果的調(diào)和平均數(shù)。如表2所示為實驗中三種方法的評價指標。由表2可知,LSTM算法的分類性能要好于其他兩種算法。

      4? 結(jié)? 論

      本文使用爬蟲技術(shù)對京東商城某品牌手機進行評論內(nèi)容的抓取、評論去重、數(shù)據(jù)清洗、中文分詞、去掉停用詞的預處理,然后將評論文本分為正面評價和負面評價兩類。通過詞頻統(tǒng)計得到出現(xiàn)次數(shù)較高的詞,以此得出該款手機在外觀、運行速度方面的優(yōu)勢,而在屏幕和手機整體外觀上還需要進一步提升,以更好地適應消費者的需求。由于商品評論數(shù)據(jù)過于龐大,本文未全部獲得并進行分析,只對平臺上34 220條評論進行了處理和分析,在所用數(shù)據(jù)上難免會存在偶然性。最后使用處理好的數(shù)據(jù)進行算法的構(gòu)建,通過對比分類指標得出,LSTM算法的性能明顯優(yōu)于CNN和SVM,滿足商品評論情感分析的需要。

      參考文獻:

      [1] 張曉娜.第50次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》發(fā)布 [N/OL].光明日報,[2022-11-02].http://www.gov.cn/xinwen/2022-09/01/content_5707695.htm.

      [2] 王惠,撒海蘭.電商購物平臺追加評論對消費者購買意愿影響的實證分析——基于新疆高校的調(diào)查數(shù)據(jù) [J].新疆廣播電視大學學報,2021,25(2):45-51.

      [3] 彭梅,胡必波.基于大數(shù)據(jù)人工智能的電商用戶評論情感分析 [J].電腦編程技巧與維護,2022(6):123-126.

      [4] 王鵬嶺,應欣慧,梁家瑞,等.網(wǎng)購評論情感分析——以某化妝品為例 [J].電腦知識與技術(shù),2022,18(13):21-23.

      [5] 吳淑凡.基于機器學習的電商平臺中用戶價值分析研究 [J].惠州學院學報,2022,42(3):81-86.

      [6] 千文.基于Python的旅游網(wǎng)站數(shù)據(jù)爬蟲分析 [J].電腦編程技巧與維護,2022(9):85-87+118.

      [7] 吳昔遙,劉欣凱,王孝杰.基于信息化的酒店評論情感分析 [J].中國新通信,2022,24(4):124-126.

      [8] 朱名勛,郭琴.電商平臺中的在線評論情感分析 [J].長江信息通信,2022,35(1):170-171+174.

      [9] 凌潔,劉玉林.電商平臺在線評論分析研究綜述 [J].江蘇經(jīng)貿(mào)職業(yè)技術(shù)學院學報,2019(6):38-41.

      作者簡介:趙浩博(1998—),男,漢族,遼寧鞍山人,碩士研究生在讀,主要研究方向:自然語言處理;唐非(1975—),女,漢族,遼寧沈陽人,講師,博士,主要研究方向:數(shù)據(jù)分析。

      收稿日期:2022-11-09

      基金項目:遼寧省教育廳項目(LJKZ0145)

      猜你喜歡
      情感分析文本分析機器學習
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設計與實現(xiàn)
      基于詞典與機器學習的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預測(2016年5期)2016-12-26 17:16:57
      投資者情緒短期對股票市場的影響研究
      基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應用
      維護正統(tǒng)還是觀念復辟?
      戲劇之家(2016年22期)2016-11-30 16:49:57
      基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      德語小說《布登勃洛克一家》中的家文化與中國傳統(tǒng)家庭觀念比較
      前綴字母為特征在維吾爾語文本情感分類中的研究
      科教導刊(2016年26期)2016-11-15 20:19:33
      基于支持向量機的金融數(shù)據(jù)分析研究
      沾化县| 钟祥市| 马关县| 罗城| 大冶市| 察雅县| 亳州市| 原平市| 灵山县| 徐汇区| 社旗县| 西林县| 金川县| 洛阳市| 芜湖市| 阜阳市| 福建省| 海宁市| 凌海市| 锡林浩特市| 上高县| 鹤岗市| 灵璧县| 思南县| 通化市| 密云县| 沙湾县| 乳山市| 罗定市| 楚雄市| 阳西县| 昆山市| 碌曲县| 包头市| 六盘水市| 毕节市| 封开县| 高阳县| 泗水县| 松潘县| 察隅县|