• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Adaboost算法與規(guī)則匹配的垃圾評論識別

      2017-04-07 01:30:47昝紅英畢銀龍石金銘
      鄭州大學學報(理學版) 2017年1期
      關鍵詞:主題詞垃圾特征

      昝紅英, 畢銀龍, 石金銘

      (鄭州大學 信息工程學院 河南 鄭州 450001)

      基于Adaboost算法與規(guī)則匹配的垃圾評論識別

      昝紅英, 畢銀龍, 石金銘

      (鄭州大學 信息工程學院 河南 鄭州 450001)

      從評論的文本特征及元數(shù)據(jù)特征兩個角度提取特征,避免特征向量過于稀疏.提出了基于隨機森林的Adaboost算法,以減弱商品評論數(shù)據(jù)集不平衡性的影響.部分垃圾評論特征比較顯著,采用規(guī)則匹配進一步提高垃圾評論識別的召回率.通過在COAE2015任務4提供的數(shù)據(jù)集上進行實驗,取得較好的識別效果,驗證了所提方法的有效性.

      垃圾評論識別; 隨機森林; Adaboost; 集成學習算法

      0 引言

      近年來,隨著電子商務在我國的蓬勃發(fā)展,越來越多的人傾向于網上購買商品或服務,同時消費者還可以對所購買的商品或服務發(fā)表相關評論,供有購買意愿的顧客作為參考.然而,在這些大量的評論中,往往存在一些與商品無關的評論、不真實的評論或者廣告等垃圾評論,這些垃圾評論不僅容易誤導消費者的購買行為,損害消費者的利益,而且擾亂了網絡環(huán)境的正常秩序,嚴重影響了網絡市場的正常競爭.因此,識別出這些垃圾評論對正確引導消費者的購買行為及凈化網絡環(huán)境具有十分重要的意義.

      目前關于垃圾評論的識別技術主要是使用分類算法對評論進行分類,將評論分為垃圾評論、正常評論.Liu等[1]從評論、評論人、商品3個角度提取特征項,使用邏輯回歸模型對只涉及商品品牌的垃圾評論及非評論的無關文本進行識別.李霄等[2]從評論、評論者、被評論商品3個方面提取特征,并進行不同特征組合的優(yōu)化,最終使用SVM分類模型取得較好的識別效果.游貴榮等[3]從產品評論的評價句數(shù)量、主題詞、情感傾向、文本結構和作者屬性5個方面提取特征項,使用SVM分類模型對評論進行二分類.何瓏等[4]針對評論數(shù)據(jù)集的不平衡性,采用平衡隨機森林和加權隨機森林的算法來有效減弱不平衡數(shù)據(jù)集的影響,顯著提高了產品垃圾評論的識別精度.

      文獻[1-3]雖從多角度提取特征項,但未考慮評論數(shù)據(jù)集的不平衡性對分類效果的影響.本文在參考文獻[4-8]的基礎上,從評論的文本特征及元數(shù)據(jù)特征[9]兩個角度提取特征項,采用隨機森林與Adaboost相結合方法,對評論進行初步分類.由于部分垃圾評論特征比較顯著,本文在初步分類的基礎上,對評論文本進行基于規(guī)則的過濾,進一步提高垃圾評論識別的召回率.

      對于垃圾評論,本文主要考慮以下幾種類型:1) 只涉及對商品品牌的評論;2) 錯評類評論;3) 廣告類評論;4) 非評論的無關文本.其中,非評論的無關文本主要包括:個人消費經歷、涉及對他人的人身攻擊及其他無關文本.

      1 預處理

      由于網絡評論在文本內容上存在不規(guī)范,尤其是某些垃圾評論往往還包含有超鏈接、手機號、QQ號等.在對評論文本進行分詞前,針對評論中存在的不規(guī)范問題,本文進行以下處理:1) 將評論中存在的繁體字均轉為簡體字;2) 大寫字母轉為小寫字母;3) 將多余的空格去除,以免分詞錯誤;4) 對于評論中存在的URL超鏈接、手機號、QQ號,使用正則表達式來匹配并進行去除.

      2 特征項提取

      垃圾評論識別的實質是對評論進行二分類,將評論分為垃圾評論、正常評論.因此,通過選取比較具有類別區(qū)分性的特征來向量化表示評論文本對識別垃圾評論至關重要.本文從評論文本的語義特征、非語義特征、及評論的元數(shù)據(jù)特征出發(fā)提取特征項:對于評論文本共提取8個特征項,包括主題詞、評論詞、網絡低俗詞、廣告詞、長度、是否為重復評論、是否錯評、以及是否包含URL、電話號碼、QQ號碼、微信號等;對于評論的元數(shù)據(jù)特征,本文將評論人的打分及評論的有用性得票數(shù)作為特征項.

      2.1 語義特征項

      2.1.1 主題詞

      高質量的、有用的、好的評論定義為:能具體描述商品的特征、性能等信息,輔助潛在用戶做出適當決策的評論[9].因此,一條正常評論中一般應該包括與評價主體相關的屬性名詞,例如一條有關賓館的正常評論,“地理位置比較好,衛(wèi)生質量不太行,周邊環(huán)境也不錯,衛(wèi)生有待提高”就包括3個與賓館相關的屬性名詞:“地理位置”、“衛(wèi)生質量”、“周邊環(huán)境”.

      本文將數(shù)據(jù)集中的3個評價領域:手機(phone)、賓館(hotel)、餐館(restaurant)分別視為3個不同的主題,則與評價領域內所有評價主體相關的屬性名詞即為構成對應主題的主題詞.這些主題詞一般都具有較強的領域相關性,因此,本文通過從網絡上抓取與評價主體相關的大量評論,通過分詞、詞性標注來篩選與評價主體相關的主題詞,這些主題詞主要是評論文本中的名詞或名詞短語,來構建相應的主題詞集合.部分樣例如表1所示.

      表1 “主題詞”樣例

      對于與評價主體無關或只涉及品牌的垃圾評論,一般則很少包含有對應領域的主題詞,故本文通過計算一條評論中所包含的主題詞的比例作為識別該類垃圾評論的特征項.

      2.1.2 評價詞

      一條正常的評論除了要包括與評價對象相關的屬性名詞外,一般還應包含有針對該屬性名詞的評價詞.例如一條有關手機的正常評論,“非常的劃算,屏幕很大,速度也很快,配置不錯”中的“大”、“快”、“不錯”分別來修飾屬性“屏幕”、“速度”、“配置”;而另一條針對手機的評論,“好用,實惠,給力,耐用”雖未明顯指出所評價的屬性,但不難理解,該評論實際上指的是手機的功能比較“好用”、價格“實惠”且手機的質量好,比較“耐用”.因此,通過計算一條評論中所包含的評價詞比例,對于識別無關評論有重要意義.本文通過抽取所抓取評論語料中緊鄰評價屬性的形容詞來構建對應主題的評價詞集合.

      2.1.3 網絡低俗詞

      針對部分涉及人身攻擊的垃圾評論通常具有比較顯著的特征,即含有若干網絡低俗用語,例如“以后誰他媽再評論這個是好的誰就是傻逼”中的“他媽”、“傻逼”.針對這類垃圾評論,本文收集并整理了共123個網絡低俗詞,部分樣例如表2所示.

      本文將該類詞語加入分詞工具的自定義詞典中以避免分詞錯誤.在本文中,如果一條評論包含低俗詞,則在該屬性上取值為1,否則為0.

      2.1.4 廣告詞

      對于廣告類的垃圾評論一般都包含一些比較明顯的關鍵詞,例如一條廣告類的垃圾評論:“紅紅火火,火鍋城,開業(yè)大酬賓,滿100返20,酒水半價”,其中就包含與商業(yè)廣告非常相關的關鍵詞:“大酬賓”、“滿”、“返”,這些關鍵詞對廣告類垃圾評論的識別非常重要,故本文將一條評論中廣告詞的比例作為特征項.本文共提取整理廣告詞236個,部分樣例如表3所示.

      表2 “網絡低俗詞”樣例

      表3 “廣告詞”樣例

      2.1.5 評論重復度

      由于一些網站中會限制評論的最短評論長度,所以一些用戶為了滿足該條件,會把評論重復復制粘貼.因此,通過計算單條評論的重復度可以有效識別該類垃圾評論,評論重復度=評論包含的字數(shù)/評論漢字集合的大小.

      例如,對于垃圾評論“十五字十五字十五字十五字十五字”,評論包含字數(shù)為15,評論的漢字集合為{十,五,字},集合大小為3,故其評論重復度為5.

      2.2 非語義特征項

      2.2.1 超鏈接、電話、QQ、微信號

      一般廣告類的垃圾評論主要以獲取商業(yè)利益為主要目的,所以該類評論中不僅含有比較明顯關鍵詞,而且在評論的最后一般還留有URL超鏈接、電話號碼、QQ號、微信號.例如“[淘寶] QCY尖叫7款新意色終于來了,現(xiàn)0.01元訂金火熱預訂中:http://t.cn/RZkZkqG”、“積分充值:只要給我提供您的7天會員帳號、姓名即可充值.2000積分60元.詳情qq230658723”、“有意想提前入住的請聯(lián)系132887247263”.本文通過構造正則表達式來檢驗一條評論中是否存在該類信息,如果一條評論存在該類信息則該屬性取值為1,否則為0.

      2.2.2 是否為重復評論

      有些垃圾評論直接來自于上一條垃圾評論的復制粘貼,尤其是某些廣告類評論為增加用戶的見面率,通常被重復發(fā)表.故本文檢驗數(shù)據(jù)集中每條評論是否存在重復,如果數(shù)據(jù)集中存在相同評論,則該屬性取值為1,否則為0.

      2.2.3 是否存在錯評

      對于存在錯評的一類垃圾評論,本文根據(jù)評價對象所屬的不同領域,獲取其評價對象所屬領域的所有品牌,根據(jù)此判斷評論中是否包含非當前品牌的品牌名稱.包含時值為1,不包含時值為0.

      2.2.4 評論長度

      針對不同領域的評論,本文進一步考慮評論文本長度特征,將其作為分類時的特征項.本文在該特征項上的取值為當前評論經過預處理后不同詞語的數(shù)量,這樣在考察正常評論與垃圾評論的長度在整體上差異性的同時,還可以進一步結合“評論重復度”特征項來有效識別直接通過復制粘貼操作形成的垃圾評論,例如“很好,不錯,很好,不錯,很好,不錯,很好”.

      2.3 評論的元特征項

      本文在提取特征項時,在考慮以上文本特征即語義特征、非語義特征的同時,進一步考慮評論的元數(shù)據(jù)特征,從評論者的角度考察垃圾評論、正常評論的差異性.

      2.3.1 評論者的打分

      評論者在購買商品或服務后,除了可以發(fā)表評論外,還可以根據(jù)自己的滿意程度對商品或服務進行打分,取值從1到5.對于部分垃圾評論,尤其是涉及人身攻擊類的垃圾評論,例如“今天吃飯真你媽憋屈旁邊喝酒的真是傻逼”,評論者的打分通常較低,所以在提取特征項時,本文將評論者的打分考慮在內.

      2.3.2 評論的有用性得票數(shù)

      評論的有用性得票數(shù)即來自其他評論者對于該條評論是否有用的標記計數(shù),一般的垃圾評論,由于其評論質量較低,一般很難得到其他評論者的認可,因此其有用性得票數(shù)較低,而正常評論則偏高.

      3 基于隨機森林的Adaboost算法

      隨機森林(RF,random forest)是由Breiman[10]于2001年提出的一種組合分類器算法.該算法采用bootstrap[11]重采樣方法從原始樣本中抽取多個樣本,對每個bootstrap樣本單獨進行決策樹建模,然后組合多棵決策樹的預測,即讓所有決策樹參加投票,通過投票得出最終的預測結果.

      Adaboost算法是1995年由Freund和Schapire提出的一種提升算法[12].該算法從弱分類算法出發(fā),通過反復迭代,得到一系列的弱分類器,然后組合這些弱分類器構建一個最終的強分類器.在每次迭代過程中,不斷更改訓練樣本的權值分布,使下一次迭代更關注被分錯的樣本,并根據(jù)分類效果,賦予每個基分類器權重.

      在垃圾短信的識別過程中,本文采用隨機森林與Adaboost算法相結合的方法.實驗結果表明,該方法取得較好的識別效果.具體算法描述如下:

      對于訓練集D={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)},其中,xi∈Rn為短信實例,yi∈{1,0}為類標記,1表示垃圾短信,0表示正常短信.

      步驟1:初始化訓練樣本的權值分布,w1=(w11,w12,…,w1i,…,w1N),其中,w1i=1/N.

      步驟2:使用隨機森林算法進行K次迭代,對k=1,2,3,…,K:

      1) 采用bootstrap重采樣方法,隨機生成M個訓練子集D1,D2,…,Dj,…,DM;

      2) 根據(jù)每個訓練子集Dj,生成對應的決策樹預測模型Tj.其中,在每棵決策樹的非葉子節(jié)點上進行分裂時,從當前子集的所有特征中隨機選取部分特征作為候選特征集,然后根據(jù)基尼指數(shù)(GINI)從候選特征集中選出最佳分裂點;

      3) 由于訓練樣本及特征選擇的隨機性,每棵樹均完整生長,不進行剪枝;

      4) 將本次迭代產生的M個決策樹模型Tj組合生成隨機森林預測模型Mk;

      5) 根據(jù)Mk在當前訓練集D上的分類效果,賦予Mk權重,并更新訓練樣本的權值分布.

      步驟3:將K次迭代產生的預測模型序列M1,M2,…,Mk,…,MK進行線性組合,構成最終的預測模型M=α1M1+α2M2+…+αkMk+…+αKMK,其中:αk為基分類器Mk的權重.

      4 實驗結果及分析

      表4 實驗數(shù)據(jù)集

      本文使用COAE2015任務4提供的公開數(shù)據(jù)集作為實驗數(shù)據(jù),該數(shù)據(jù)集共包括3個評價領域:賓館(hotel)、手機(phone)、餐館(restaurant),每個評價領域包括3個評價對象,具體規(guī)模如表4所示.

      本文使用weka作為實驗平臺,采用十折交叉驗證的方法進行實驗,以精確率、召回率、F值、準確率作為評價指標,整個評價領域采用微平均(Micro-average)作為評價指標.

      本文共設計了兩組實驗,實驗結果如表5所示,其中:Result_0是本文采用基于隨機森林的Adaboost算法的實驗結果,Result_1是在Result_0的基礎上進一步使用規(guī)則過濾的結果.

      由于部分垃圾評論的特征較為顯著,故本文在使用基于隨機森林的Adaboost算法的基礎上,進一步使用規(guī)則進行過濾,將凡包含網絡低俗詞、廣告詞、URL、電話、QQ號等及存在重復、存在錯評的評論均視為垃圾評論.實驗結果如Result_1所示.

      由Result_1可知,經過規(guī)則過濾,實驗的各項指標得到進一步提高,尤其是整體的召回率、準確率得到較大提升,實驗的整體識別效果在召回率、F值、準確率方面均高于result_0,由此證明本文提出規(guī)則的有效性.但是本文在識別垃圾評論的精確率方面偏低,且在phone類的識別效果不及hotel,restaurant.所以在未來的工作中,將考慮如何提高垃圾評論的識別精確度及改善phone類垃圾評論的識別效果.

      表5 垃圾評論識別的實驗結果

      [1] JINDAL N, LIU B. Opinion spam and analysis[C]//Proceedings of First ACM International Conference on Web Search and Data Mining. California:Stanford, 2008:219-230.

      [2] 李霄,丁晟春.垃圾商品評論信息的識別研究[J]. 現(xiàn)代圖書情報技術,2013,29(1):63-68.

      [3] 游貴榮,吳為,錢沄濤. 電子商務中垃圾評論檢測的特征提取方法[J]. 現(xiàn)代圖書情報技術,2014, 30(10):93-100.

      [4] 何瓏. 基于隨機森林的產品垃圾評論識別[J]. 中文信息學報, 2015, 29(3):150-154.

      [5] 楊赫. 垃圾微博信息過濾技術的研究[D]. 哈爾濱:哈爾濱理工大學, 2015.

      [6] 楊凱帆. 微博垃圾信息檢測[D]. 安徽:中國科學技術大學, 2015.

      [7] 黃鈴,李學明. 基于AdaBoost的微博垃圾評論識別方法[J]. 計算機應用, 2013,33(12) :3563-3566.

      [8] DEBARR D, WECHSLER H. Spam detection using random boost[J]. Pattern recognition letters, 2012, 33(10):1237-1244.

      [9] 林煜明,王曉玲,朱濤,等. 用戶評論的質量檢測與控制研究綜述[J]. 軟件學報,2014,25(3):506-527.

      [10]BREIMAN L. Random F [J]. Machine learning, 2001, 45(1):5-32.

      [11]EFRON B, TIBSHIRANI R J. An introductin to the bootstrap[J]. Journal of great lakes research, 1993, 20(1):1-6.

      [12]FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[C]// European Conference on Computational Learning Theory. Berlin, 1995:119-139.

      (責任編輯:王海科)

      Spam Review Identification Based on Adaboost Algorithm and Rules Matching

      ZAN Hongying, BI Yinlong, SHI Jinming

      (SchoolofInformationEngineering,ZhengzhouUniversity,Zhengzhou450001,China)

      Features were extracted from both the text content and meta data of reviews to avoid feature vectors being sparse. Adaboost based on random forest was proposed to reduce the influence of unbalanced product review data set. Because of the very obvious characteristics of some spam reviews, rule matching was applied to further improve the recall rate. The experimental results on the data set provided by COAE2015 task 4 showed that the proposed method was effective.

      identification of spam reviews; random forest; Adaboost; ensemble learning algorithm

      2016-12-10

      國家自然科學基金項目(61402419);國家社會科學基金項目(14BYY096);國家重點基礎研究發(fā)展項目(973計劃)(2014CB340504);河南科技廳基礎研究項目(142300410231,142300410308);河南省高等學校重點科研項目(15A520098).

      昝紅英(1966—),女,河南焦作人,教授,主要從事自然語言處理研究,E-mail:iehyzan@zzu.edu.cn;通訊作者:畢銀龍(1990—),男,河南周口人,碩士研究生,主要從事短文本分類算法研究,E-mail:zzubylong@gs.zzu.edu.cn.

      TP391

      A

      1671-6841(2017)01-0024-05

      10.13705/j.issn.1671-6841.2016310

      猜你喜歡
      主題詞垃圾特征
      垃圾去哪了
      那一雙“分揀垃圾”的手
      當代陜西(2019年24期)2020-01-18 09:14:46
      如何表達“特征”
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      倒垃圾
      抓住特征巧觀察
      倒垃圾
      我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
      我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      阳江市| 堆龙德庆县| 黄梅县| 瑞安市| 平顶山市| 龙门县| 屏边| 阿拉善左旗| 厦门市| 双牌县| 惠州市| 阿克苏市| 乌拉特前旗| 镇江市| 奉新县| 贡嘎县| 饶平县| 克什克腾旗| 丰台区| 武义县| 五家渠市| 平江县| 赤城县| 防城港市| 玉溪市| 南丰县| 西吉县| 沙湾县| 枝江市| 连山| 石家庄市| 磐安县| 鱼台县| 绿春县| 乃东县| 台湾省| 清新县| 麻栗坡县| 缙云县| 郎溪县| 呼图壁县|