苗沐霖 王清濤
基金項目:河北省自然科學基金項目;項目編號:C2020402022。
作者簡介:苗沐霖(1992— ),男,河南長垣人,碩士研究生;研究方向:農業(yè)大數據。
*通信作者:王清濤(1979— ),男,山東聊城人,講師,博士;研究方向:生態(tài)學。
摘要:近年來,隨著互聯網和電子商務的快速發(fā)展,農產品電商平臺已經成為農產品流通的主要渠道之一。消費者通過在平臺上發(fā)布評論來表達對產品和服務的看法,針對這些評論進行數據挖掘可以為平臺的優(yōu)化提供有價值的信息。文章基于農產品電商平臺的評論文本數據,探討了一種針對該領域的數據挖掘方法,包括文本清洗、特征提取和情感分析3個步驟。實驗結果表明,該方法可以有效地抽取評論中包含的信息,為平臺的發(fā)展提供指導。該研究可為從事電商評論數據挖掘的學者和從業(yè)者提供一種新的思路和參考。
關鍵詞:農產品電商平臺;評論文本數據;數據挖掘;情感分析;特征提取
中圖分類號:TP311? 文獻標志碼:A
0? 引言
隨著市場經濟的發(fā)展和人們對生活品質的不斷追求,農產品電商平臺已經成為現代市場經濟發(fā)展的一種新型模式。通過農產品電商平臺,消費者可以方便地購買到全國各地的農產品,同時也為農業(yè)生產者提供一個便利的銷售渠道,使得信息不對稱的現象得到了有效解決。然而,隨著電商平臺的迅速發(fā)展,面對著海量的數據,如何挖掘其中的價值信息已經成為當前研究的重要課題之一。
農產品電商平臺的評論數據是其中重要的資源,不僅可以讓消費者了解產品的優(yōu)劣,還可以為平臺提供一些重要的反饋信息。因此,如何提取出其中有價值的信息,對于平臺優(yōu)化和發(fā)展具有重要的意義。傳統(tǒng)的農產品質量評價體系主要是通過專家評估或客觀檢測方法進行,這種方法的效率較低,成本較高。而文本數據挖掘技術,可以對海量的評論信息進行分析和分類,抽取其中有價值的信息,為平臺優(yōu)化提供指導。
本研究針對農產品電商平臺評論文本數據進行挖掘,探討一種針對該領域的數據挖掘方法。
1? 相關研究
目前,關于電商評論文本數據挖掘的研究已經較為成熟。其中,情感分析是其中的一項重要研究內容。情感分析的主要目的是對文本數據進行情感分類,即對文本的主客觀判斷以及情感的正面、負面、中性等方面的判斷。在情感分析的研究方面,目前主要包括機器學習和自然語言處理兩個方向。
機器學習方面,目前主要采用基于支持向量機、樸素貝葉斯和神經網絡等常用分類模型來進行情感分析。自然語言處理方面,主要采用基于詞典的鏈接方法、基于規(guī)則的方法和混合方法等來進行情感分析。此外,一些新興的算法和技術也逐漸被應用到情感分析中。例如,近年來基于深度學習的模型也逐漸受到推崇,通過神經網絡模型的優(yōu)化,進一步提高了情感分類的準確性和效率。
本研究針對農產品電商平臺評論文本數據,提出了一種數據挖掘的方法,包括文本清洗、特征提取和情感分析3個步驟,并對方法進行了驗證和評估。通過該研究,本研究希望能夠為農產品電商平臺的進一步優(yōu)化和發(fā)展提供參考。
2? 數據預處理
針對評論文本數據的挖掘,首先需要進行一系列的數據預處理操作,包括文本清洗、分詞和去停用詞等。
2.1? 文本清洗
對于評論文本數據,其中可能包含了一些無意義的信息,如標點符號、HTML標簽、表情符號等。因此,在進行數據挖掘前,需要將這些無意義的信息進行清洗和過濾[1],以得到干凈且有意義的文本數據。具體來說,本研究采用了如下清洗方法。
(1)去除HTML標簽:評論數據是通過網頁爬蟲獲取的,因此其可能還包含HTML標簽。針對此種情況,本研究需要使用正則表達式等方式,將HTML標簽去除。
(2)去除標點符號:標點符號對于文本的情感分析并沒有太大的貢獻,因此,在進行情感分析前,需要將文本中的標點符號去除。
(3)去除數字:評論中,可能會存在一些數字信息,例如價格、評分等。將這些數字去除后,可以使得情感分析的結果更加準確。
(4)去除表情符號和特殊符號:評論中,可能會包含一些表情符號和特殊符號,但是這些信息對于情感分析并沒有實質性的幫助,因此需要將其去除。
2.2? 分詞和去停用詞
在進行自然語言處理時,文本數據需要進行分詞,將文本拆分成有意義的詞語。而在分詞的基礎上,還需要去除一些無意義或過于常見的詞語,這些詞語通常被稱為停用詞。去除停用詞后,可以使得分詞結果更加準確和有意義。
對于本研究而言,本研究采用了jieba分詞庫對文本數據進行分詞,并使用中文停用詞庫去除了其中的停用詞。
3? 特征提取
在完成文本數據預處理后,接下來需要從評論文本中抽取出有用的特征信息,建立特征向量表示。對于評論文本數據的特征提取,目前主要采用的方法包括詞頻、TF-IDF和詞嵌入等[2]。
3.1? 詞頻特征
詞頻是指在文本中出現的次數。在評論文本數據中,不同的詞匯會在不同程度上反映出用戶對產品和服務的評價。例如:“好”“滿意”等詞匯往往代表了正面情感,而“差”“不好”等詞匯則代表了負面情感。因此,本研究可以通過統(tǒng)計不同詞匯在文本中出現的次數,建立詞頻特征,以此來描述評論文本的情感傾向。
3.2? TF-IDF特征
TF-IDF是一種常見的文本特征提取方法,可以得出每個詞語對于文本的重要性程度,就是這個詞語在文本中的出現頻率高,但是在整個語料庫中出現頻率較低。通過TF-IDF方法,可以得到每個詞匯在評論文本中的重要性權值,以此來描述文本的情感傾向[3]。
3.3? 詞嵌入特征
詞嵌入是一種基于神經網絡的自然語言處理技術,可以將文本中的每個詞匯轉化為一個向量,以此來描述文本的語義信息。在評論文本的情感分析中,詞嵌入特征的應用可以進一步提高情感分類的準確性。例如,使用Word2Vec算法,可以得到每個詞匯的向量表示,將其組合成文本向量,以此來描述文本中的情感信息[4]。
4? 情感分析
提取評論文本數據的特征之后,接下來需要進行情感分析,也就是將文本分類為正面、負面或中性。情感分析可以采用機器學習和自然語言處理技術,目前常用的方法包括基于樸素貝葉斯、支持向量機和深度學習的分類模型等。在本研究中,本研究選擇了基于樸素貝葉斯的分類模型進行情感分析,具體流程如下。
(1)將評論數據集分為訓練集和測試集。
(2)對于訓練集數據,先進行特征提取,并建立特征向量表示。
(3)將訓練集特征向量和對應的情感標簽(正面、負面、中性)送入樸素貝葉斯分類器進行訓練[5]。
(4)對于測試集數據,同樣進行特征提取,并轉化為特征向量表示。
(5)將測試集特征向量送入已訓練好的樸素貝葉斯分類器進行情感分類,并得出分類結果。
通過以上步驟,可以將評論文本數據進行情感分類,得出文本情感的傾向性。
5? 實驗結果
本研究采用了某電商平臺上的某樣農產品評論數據作為實驗數據集,共包含1 000條評論文本數據。在進行情感分析前,本研究對數據進行了清洗、分詞和去停用詞等預處理操作,然后采用詞頻、TF-IDF和詞嵌入3種不同的特征提取方法,并采用樸素貝葉斯分類器對評論文本進行情感分類。為了評估情感分析結果的準確性,本研究使用了精度(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-score)等指標進行評估,具體如下式所示:
Accuracy=TP+TNTP+FP+TN+FN
Precision=TPTP+FP
Recall=TPTP+FN
F1-score=2×Precision×RecallPrecision+Recall
其中,TP表示真正例數(正確分類為正面情感的數量)、TN表示真反例數(正確分類為負面情感的數量)、FP表示假正例數(實際為負面情感但分類為正面情感的數量)、FN表示假反例數(實際為正面情感但分類為負面情感的數量)。實驗結果如表1所示。
從表中可以看出,使用3種不同的特征提取方法進行情感分析時,詞嵌入特征的效果最好,精度高達0.846。這表明,詞嵌入特征不僅可以對文本進行更好的表示,還能夠更好地描述文本中的情感信息。
總體來說,本研究提出的農產品電商平臺評論文本數據挖掘方法可以有效地抽取評論中包含的信息,對于平臺的進一步優(yōu)化和發(fā)展提供了參考。但是需要注意的是,該方法還存在一定的局限性,例如在特定場景下可能需要采用不同的特征提取方法和情感分析模型。因此在實際應用中需對方法進行進一步優(yōu)化和改進。
6? 結語
本研究使用樸素貝葉斯分類器對農產品電商平臺的評論文本數據進行情感分析。通過實驗結果可以看出,詞嵌入特征方法在情感分析方面的效果最好。這表明,采用合適的特征提取方法對文本進行表示,可以有效地提高情感分析的準確性。
本研究還存在一些問題需要進一步完善。例如:? 目前只使用了樸素貝葉斯分類器對評論數據進行情感分析,其他分類模型在該任務中的表現如何還需進一步研究。在實際應用中,不同領域的評論文本可能具有不同的特點,因此仍需要結合實際情況選擇合適的數據挖掘方法。
參考文獻
[1]魏瑾瑞,王若彤,王晗.基于網絡結構特征的大規(guī)模虛假評論群組識別[J].運籌與管理,2023(1):194-200.
[2]DENG L T,ZHAO Y R.Deep learning-based semantic feature extraction:a literature review and future directions[EB/OL].(2023-06-09)[2023-09-20].http://kns.cnki.net/kcms/detail/34.1294.TN.2023060 9.1033.002.html.
[3]孫士偉,王川,賈琳.基于多維度文本特征的電商平臺評論有用性研究[J].北京理工大學學報(社會科學版),2023(2):176-188.
[4]劉宇韜,施莉,劉詩含.基于TF-IDF與Word2vec的用戶評論分析研究[J].成都航空職業(yè)技術學院學報,2022(4):89-92.
[5]吳宗卓.文本分類中TF-IDF算法的改進研究[J].計算技術與自動化,2022(2):84-86.
(編輯? 沈? 強)
Research on the method of data mining technology of agricultural products e-commerce platform review text
Miao? Mulin, Wang? Qingtao*
(Hebei University of Engineering, Handan 056000, China)
Abstract:? In recent years, with the rapid development of the Internet and e-commerce, the e-commerce platform of agricultural products has become one of the main channels for the circulation of agricultural products. Consumers express their opinions about products and services by Posting reviews on the platform. Data mining for these comments can provide valuable information for the optimization of the platform. Based on the review text data of the e-commerce platform of agricultural products, this study discusses a data mining method for this field, including three steps: text cleaning, feature extraction and sentiment analysis. The experimental results show that the proposed method can effectively extract the information contained in the comments and provide guidance for the development of the platform. This study can provide a new way of thinking and reference for the scholars and practitioners engaged in e-commerce review data mining.
Key words: agricultural products e-commerce platform; review text data; data mining; sentiment analysis; feature extraction