• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙層樹狀支持向量機的觀點挖掘與傾向分析

      2021-08-09 10:27:12孫紅黎銓祺趙娜
      智能計算機與應(yīng)用 2021年3期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲數(shù)據(jù)挖掘

      孫紅 黎銓祺 趙娜

      摘 要: 本文通過進行大量預(yù)處理工作,將經(jīng)過詞袋模型和Word2Vec兩種不同向量化方法處理后的文本數(shù)據(jù)分別輸入到SVM和LSTM模型中,訓練出可以識別文本情感傾向的模型。進而對新產(chǎn)生的評論進行分類。根據(jù)實際數(shù)據(jù)量的傾斜狀況,基于傳統(tǒng)機器學習算法支持向量機(SVM),本文提出雙層支持向量機,采用2種不同的方法分別訓練模型并預(yù)測。最后再使用深度學習算法長短時記憶模型(LSTM)再次訓練并預(yù)測,并對這3種方法做出比較和總結(jié)。結(jié)果顯示,雙層SVM比單層SVM的準確度提高了8個百分點;而LSTM比單層SVM低了2個百分點,比雙層SVM低了接近10個百分點。

      關(guān)鍵詞: 商品評論; 網(wǎng)絡(luò)爬蟲; SVM; LSTM; 情感分類; 數(shù)據(jù)挖掘

      文章編號: 2095-2163(2021)03-0044-04 中圖分類號:TP181 文獻標志碼:A

      【Abstract】In this paper, a large amount of preprocessing work is carried out, and the text data processed by the following two different vectorization methods as ?the word bag model and Word2Vec are input into the SVM and LSTM models, respectively to train a model that can recognize the emotional tendency of the text. Further the newly generated comments are classified. According to the tilt of the actual data volume, based on ?support vector machine (SVM) that is the traditional machine learning algorithm,this paper proposes a two-layer support vector machine,using two different methods to train the model and predict. Thus,the deep learning algorithm long-term memory model (LSTM) is used to train and predict again, and the three methods are compared and summarized. The results show that the accuracy of the two-layer SVM is 8 percentage points higher than that of the single-layer SVM; while the LSTM is two percentage points lower than the single-layer SVM, which is nearly 10 percentage points lower than the double-layer SVM.

      【Key words】 product reviews; Web crawler; SVM; LSTM; emotion classification; data mining

      0 引 言

      根據(jù)2020年9月第47次的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[1]顯示,截至2020年6月,國內(nèi)網(wǎng)民規(guī)模達9.40億,相較于上半年增長了3 625萬,普及率達67.0%,較2020年上半年提升2.5個百分點?;ヂ?lián)網(wǎng)時代,人們普遍喜歡通過社交網(wǎng)絡(luò)分享自己的生活和表達自己的觀點,比如在朋友圈中表達日常生活中的快樂或者憂郁等情緒;在某個新聞App上發(fā)表自己對某件事情的看法;在購物網(wǎng)站上發(fā)表對某物品的使用感受。因此,在互聯(lián)網(wǎng)中每天都會產(chǎn)生大量的用戶評論,并且儲存在互聯(lián)網(wǎng)數(shù)據(jù)庫中。如果能夠充分地利用并挖掘這些信息,必然可以實現(xiàn)多種有效目的。但是,如果僅通過人工來對這些數(shù)據(jù)進行瀏覽和分析,則無疑會耗費大量人力資源,并且不能保證結(jié)果的準確性和可用性。這時就可以利用計算機強大的計算能力來幫助人們快速并準確地從這些海量主觀性文本中分析出有用的信息,這就是文本的情感分析技術(shù)。

      本文主要研究的是網(wǎng)購商品評論的情感分析技術(shù),即從用戶評論中通過文本挖掘技術(shù)提取信息。如果用戶可以快速方便地從海量的主觀文本中找尋到自己所需要的信息來指導自己的消費,那么對于用戶的購物體驗將會得到提升。

      1 相關(guān)研究綜述

      1.1 國內(nèi)外研究現(xiàn)狀

      情感分析最早由Nasukawa等人[2]提出。而文本的情感分析也叫文本意見挖掘或文本觀點挖掘。更嚴格來說,兩者的側(cè)重點并不相同,文本意見挖掘根據(jù)給定的一段話中的文字或符號來判斷這段話是趨向正面、還是負面。而文本觀點挖掘更加偏重于理解這段文本真正的內(nèi)在含義。

      1.2 情感分析研究現(xiàn)狀

      本文最終定為文本意見挖掘,即判斷目標文本表達了哪種情緒,分析后將情緒分為褒義、貶義兩類;此外,一些比較復雜的分析則可以根據(jù)人的一般情緒來做區(qū)分,但從本質(zhì)上來說都屬于文本分類的任務(wù)。根據(jù)訓練方式的不同,文本分類又可以分為有監(jiān)督學習和無監(jiān)督學習,對此擬做闡釋分述如下。

      (1)無監(jiān)督學習。最大的特點在于不需要具有標簽的數(shù)據(jù)集。所以,無監(jiān)督學習可以減少大量繁瑣的標注工作。Turney[3]根據(jù)文本中的形容詞或副詞短語的平均語義傾向,對來自4個不同領(lǐng)域的文本進行聚類。陶婭芝[4]使用基于Word2Vec的無監(jiān)督方法對某個品牌手機的評論進行分類,避免大量的標注工作。

      (2)有監(jiān)督學習。需要大量已經(jīng)標注好的數(shù)據(jù),并且需要建立數(shù)學模型在這些標注好的數(shù)據(jù)中自動學習出數(shù)據(jù)的內(nèi)在規(guī)律,從而根據(jù)這些內(nèi)在規(guī)律完成情感分析任務(wù)。Pang 等人[5] 將樸素貝葉斯、最大熵分類和支持向量機用于電影評論的情感分類。

      有監(jiān)督學習往往需要用到已有標注好的語料進行訓練,但是標注數(shù)據(jù)的獲取卻是一個較為繁瑣的過程。而社交媒體網(wǎng)站就是一個天然的標注語料庫,社交網(wǎng)絡(luò)上的語料往往帶有強烈的感情傾向,Bermingham等人[6]通過監(jiān)測分析社交網(wǎng)絡(luò)上公眾對選舉候選人的評論來預(yù)測政治選舉的最終結(jié)果。韓萍等人[7]使用一種基于自注意力機制的模型E-DiSAN來對社交網(wǎng)絡(luò)評論文本的情感進行分類。但是,社交網(wǎng)站上通常沒有用戶的打分,只是一些帶有感情色彩的主觀性文本。而在這些文本中一般都夾雜著表達用戶心情的特殊表情符號。崔安頎[8]把特殊情感符號加入情感候選詞庫,作為其中一類情緒來進行情感分析。當然,如果采用這樣的標注方法往往會伴隨著許多噪聲, Go等人[9]及Pak等人[10]在遠程監(jiān)督的模型框架下,通過多重數(shù)據(jù)預(yù)處理,達到了去除噪聲的效果。王義真等人[11]利用n-gram的特性、詞聚類的特征、詞性標注的特征及否定的特征等構(gòu)建出基于SVM的高維度混合特征算法模型,將其運用到短文本情感分類后,準確率得到了較大的提升。此外,還有許多應(yīng)用于情感分析的方法,如SVM[12]、依存句法[13]、卷積神經(jīng)網(wǎng)絡(luò)[14]、情感詞典[15]等。

      2 數(shù)據(jù)預(yù)處理

      從目標網(wǎng)站中爬取到的數(shù)據(jù)并不能直接放入模型中,需要對數(shù)據(jù)進行清洗與預(yù)處理。過程包括獲取目標網(wǎng)站URL、獲取對應(yīng)Jason頁面、編寫正則表達式、編寫網(wǎng)絡(luò)爬蟲、循環(huán)爬取評論數(shù)據(jù)等。并將爬取得到的數(shù)據(jù)轉(zhuǎn)化為可以輸入模型的數(shù)據(jù),具體步驟可分述如下。

      步驟1 替換和去除特殊符號。如果某個特殊符號與文本內(nèi)容無關(guān),則將其剔除;若其與文本內(nèi)容有一定的關(guān)聯(lián),則選擇一個通用詞進行代替,比如遇到“666”、“6”、“耐斯”等詞匯則使用“好”字將其代替。

      步驟2 繁轉(zhuǎn)簡。針對每個用戶的輸入法和地區(qū)的不同,某些評論可能會出現(xiàn)繁體字。

      步驟3 長句截斷。由于傳統(tǒng)支持向量機無法對超長句進行分析,這里將長句截斷成短句。

      步驟4 中文分詞。對上一個步驟截取的短句進行分詞,并創(chuàng)建自定義詞典。進行多次分詞并篩選錯誤詞匯加入自定義詞表,最終得出一組比較完整的中文詞。

      步驟5 將步驟4得到的詞匯進行篩選,剔除出現(xiàn)次數(shù)不超過5次的詞匯,保留剩余詞匯作為詞袋。詞袋中根據(jù)每個詞出現(xiàn)的次數(shù)將詞按高到低進行,從1開始給每個詞做上數(shù)字標記。

      步驟6 創(chuàng)建評論向量numpy矩陣,將步驟4得到的每條評論的詞條與詞袋中的詞進行匹配,如果能匹配到,則用詞袋詞匯對應(yīng)的數(shù)字編號來替代。最終得到一條條數(shù)字串評論向量,將所有的數(shù)字串評論向量進行拼接,限定長度,不足長度補0,求得一個數(shù)字串評論向量組成的numpy矩陣。

      3 建立分析模型與訓練

      3.1 支持向量機

      支持向量機(Support Vector Machine,SVM)是 Cortes 等人[16]在 20 世紀提出的用于解決分類問題的一種算法。SVM的應(yīng)用非常廣泛,并已在多個領(lǐng)域取得研究成果。石強強等人[17]通過增加情感詞典的種類、提高系統(tǒng)對網(wǎng)絡(luò)新興詞匯和特殊表情符號的識別,使用支持向量機模型對某些酒店的網(wǎng)站評論進行情感分類。郝曉燕等人[18]分別使用支持向量機算法、KNN算法和最大熵模型進行了基于特征詞布爾值的中文文本分類實驗。

      一個普通的 SVM 就是一條普通直線,這條直線用來完美劃分線性可分問題的2個類別,如圖 1所示。

      通過引入核技巧將低維數(shù)據(jù)映射到高維空間可以提升模型的效果。類似于這種將某個特征空間的向量映射到另一個特征空間的函數(shù)就稱為核函數(shù)[16],由于在 SVM 優(yōu)化中,所有的運算表達都是內(nèi)積,所以,這里可以把內(nèi)積運算過程替換成核函數(shù),從而不必做優(yōu)化運算。

      3.2 雙層樹狀SVM

      對單層普通的支持向量機,結(jié)果顯示分類效果并不明顯。對數(shù)據(jù)進行分析得出,原因是數(shù)據(jù)傾斜非常嚴重,爬取的數(shù)據(jù)包含的正、負、中性評論分布嚴重不均勻。正向評論數(shù)量為12 000條,中性評論數(shù)量為2 000條,負向評論數(shù)量為6 000條。

      為了能夠有效緩解數(shù)據(jù)傾斜所帶來的問題,本文提出雙層支持向量機的方法,原理如圖2所示。

      圖2中,首先將中性和負向評論作為一類,與正向評論進行劃分。再對中性和負向評論進行劃分。這樣在理論上就將數(shù)據(jù)傾斜帶來的誤差降低到最小。

      先將中性和負向評論的標簽置為0,與正向評論的標簽1相區(qū)分。處理好的數(shù)據(jù)作為總的數(shù)據(jù)輸入,步驟同單層支持向量機,引入KFold劃分數(shù)據(jù),訓練模型,驗證模型。

      4 結(jié)果對比與分析

      設(shè)置好超參數(shù)后,使用之前分批處理過的京東商城和淘寶網(wǎng)的評論語料文本分別進行訓練和測試,得到數(shù)據(jù)見表1。

      由表1的結(jié)果可以看出:雙層Tree-SVM表現(xiàn)效果最好,目前熱門的循環(huán)神經(jīng)網(wǎng)絡(luò)的表現(xiàn)要遜色于普通SVM。究其原因,分析后可知:

      首先,普通SVM在分類性能上已經(jīng)相對比較成熟,對于這些特征明顯,特征數(shù)量眾多的文本,則能做出很好的區(qū)分。

      其次,雙層Tree-SVM是專門針對這個實驗數(shù)據(jù)集的特征(三分類數(shù)據(jù)分布不均,正向評論數(shù)量遠遠大于負向和中性評論的數(shù)量)而產(chǎn)生的。所以,能在普通SVM的基礎(chǔ)上,更好地切合這個數(shù)據(jù)集,從而表現(xiàn)出更佳的性能。

      5 結(jié)束語

      本文首先分析了Web 2.0 時代的到來對當今社會產(chǎn)生的沖擊,以及網(wǎng)絡(luò)數(shù)據(jù)的發(fā)展態(tài)勢。然后,提出核心技術(shù):情感分析技術(shù)。簡單介紹了部分經(jīng)典以及當下流行的幾種情感分析的算法模型。進而,分析數(shù)據(jù)獲取的方式,提出網(wǎng)絡(luò)爬蟲的概念,介紹幾種不同的網(wǎng)絡(luò)爬蟲框架,并分析爬取過程中可能出現(xiàn)的問題以及解決方法;根據(jù)實際情況編寫2套分別適用京東和天貓的網(wǎng)絡(luò)爬蟲,循環(huán)爬取網(wǎng)站評論數(shù)據(jù),進行分批式存儲。在此基礎(chǔ)上,分析爬取的數(shù)據(jù),總結(jié)規(guī)律,根據(jù)實際數(shù)據(jù)情況,提出方法:普通支持向量機、雙層樹狀支持向量機(Tree-SVM)和長短時記憶模型(LSTM)。最后清洗數(shù)據(jù),主要包括中文分詞、去停用詞、文本向量化等,將數(shù)據(jù)輸入進算法模型進行訓練并驗證。通過多次訓練和驗證,雙層樹狀SVM在準確率上表現(xiàn)為89.78%,與普通SVM相比高出8個百分點;而LSTM的準確率僅為79.46%,但這并不能表示LSTM在性能上就不如傳統(tǒng)機器學習方法,分析原因可能是數(shù)據(jù)量的不足,造成神經(jīng)網(wǎng)絡(luò)未能有效訓練。

      關(guān)于分詞方面,本文使用結(jié)巴分詞默認的通用詞典,而對于一些手機評論中特有的詞語,比如“吃雞”、“打王者”、“王者榮耀”等則需要自行手動添加進去,由于研究時間有限,難免會有遺漏,而結(jié)巴分詞的新詞識別功能也只對2個字的詞語有效果。需要構(gòu)建出一個針對電子產(chǎn)品的用戶字典,更加準確地分詞。再比如一些網(wǎng)絡(luò)上最近才出現(xiàn)的新興詞匯:“馬甲”、“水友”、“水軍”、“帶躺”、“躺贏”等等,這些詞往往具有很強的情感傾向,在今后的分析中可以做更進一步改進。

      參考文獻

      [1]中國互聯(lián)網(wǎng)絡(luò)信息中心. 第46 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R]. 北京:中共中央網(wǎng)絡(luò)安全和信息化委員會辦公室,2020.

      [2] YI J,NASUKAWA T,BUNESCU R,et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques [C]//Third IEEE International Conference on Data Mining. Melbourne, FL, USA: IEEE,2003: 427-434.

      [3] TURNEY P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA,USA:Association for Computational Linguistics,2002:417-424 .

      [4] 陶婭芝. 基于word2vec和自訓練的無監(jiān)督情感分類方法[J]. 科技風, 2019(12):92-93.

      [5] PANG B,LEE L,VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques [C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics. ?New York: Association for Computational Linguistics,2002: 79-86.

      [6] BERMINGHAM A,SMEATON A. On using Twitter to monitor political sentiment and predict election results[C]// Proceedings of the Workshop on Sentiment Analysis where AI meets Psychology (SAAIP 2011). Chiang Mai, Thailand:Asian Federation of Natural Language Processing,2011:2-10.

      [7] 韓萍,孫佳慧,方澄,等. 基于情感融合和多維自注意力機制的微博文本情感分析 [J]. 計算機應(yīng)用,2019,39 (S1): 75-78.

      [8] 崔安頎. 微博熱點事件的公眾情感分析研究[D]. 北京:清華大學,2013.

      [9] GO A, BHAYANI R, HUANG L. Twitter sentiment classification using distant supervision[R]. CS224n Project Report, Stanford: ?Digital Library Technologies Project,2009.

      [10]PAK A, PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]// International Conference on Language Resources and Evaluation(Lrec 2010). Valletta, Malta:dblp, 2010:1320-1326.

      [11]王義真,鄭嘯,后盾,等. 基于SVM的高維混合特征短文本情感分類[J]. 計算機技術(shù)與發(fā)展,2018,28 (2):88-93.

      [12]鄧君, 孫紹丹, 王阮,等. 基于Word2Vec和SVM的微博輿情情感演化分析[J]. 情報理論與實踐, 2020,43(8):112-119.

      [13]梁曉敏,徐健. 輿情事件中評論對象的情感分析及其關(guān)系網(wǎng)絡(luò)研究 [J]. 情報科學,2018,36 (2) : 37-42.

      [14]陸敬筠, 龔玉. 基于自注意力的擴展卷積神經(jīng)網(wǎng)絡(luò)情感分類[J]. 計算機工程與設(shè)計, 2020,41(6):1645-1651.

      [15]安璐,吳林. 融合主題與情感特征的突發(fā)事件微博輿情演化分析 [J]. 圖書情報工作,2017 (15) : 120-129.

      [16]BENNETTK, DENIRIZ A. semi-supervised support vector machines[C]//Advances in Neural Information processing systems. Denver,Colo,USA:The MIT Press, 1999,2: 368-374.

      [17]石強強,趙應(yīng)丁,楊紅云. 基于SVM的酒店客戶評論情感分析[J]. 計算機與現(xiàn)代化,2017,17(3): 117-121.

      [18]郝曉燕,常曉明. 中文文本分類研究[J]. 太原理工大學學報,2006, 37(6): 710-713.

      [19]HUANG Chenghui, YIN Jian, HOU Fang. A text similarity measurement combining word semantic information with TF-IDF method[J]. Chinese Journal of Computers, 2011, 34(5):856-864.

      猜你喜歡
      網(wǎng)絡(luò)爬蟲數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
      基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
      淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      许昌市| 丰城市| 抚顺县| 九江县| 县级市| 潜江市| 河北区| 台江县| 广河县| 乐至县| 黄龙县| 贺州市| 阳原县| 原平市| 青岛市| 浦城县| 虹口区| 新巴尔虎右旗| 灯塔市| 常州市| 石台县| 鸡西市| 大名县| 阜康市| 梅州市| 普宁市| 浦县| 台前县| 黄龙县| 交口县| 越西县| 宁化县| 维西| 即墨市| 兴文县| 乐清市| 剑川县| 大庆市| 田阳县| 渝中区| 通海县|