• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于KNN和Bayes算法的組合分類器的垃圾評論識別研究

      2016-04-08 10:11梁曌陳思宇梁小林康欣
      經(jīng)濟(jì)數(shù)學(xué) 2016年1期
      關(guān)鍵詞:互信息

      梁曌 陳思宇 梁小林 康欣

      摘 要 產(chǎn)品垃圾評論在一定程度上影響了評論信息的參考價值,本文旨在建立識別模型將垃圾評論從評論文本中剔除,保留真實(shí)的產(chǎn)品評論。首先,分析了產(chǎn)品評論的特點(diǎn),從數(shù)據(jù)搜集、文本預(yù)處理、互信息檢驗(yàn)、文本表示4個模塊提取了14個特征。然后,利用高互補(bǔ)性建立了基于KNN和Bayes算法的組合分類器模型。最后,利用交叉驗(yàn)證對iPhone 6 Plus的產(chǎn)品評論進(jìn)行檢驗(yàn),得到評價指標(biāo)分別為:正確識別率75.3%、召回率82.1%以及F1值77.5%.

      關(guān)鍵詞 KNN算法;Bayes算法;組合分類器;互信息;交叉驗(yàn)證

      中圖分類號 O213;TP18 文獻(xiàn)標(biāo)識碼 A

      1 引 言

      電子商務(wù)的異軍突起促使網(wǎng)購走進(jìn)人們的日常生活,網(wǎng)購的同時,多數(shù)網(wǎng)民會在不受約束的情況下對相關(guān)產(chǎn)品發(fā)表評論,而這種隨意性往往使得這些產(chǎn)品評論中充斥了大量無用的、不真實(shí)的信息,這些信息就是垃圾評論.垃圾評論在一定程度上影響了評論信息的參考價值,從而誤導(dǎo)潛在消費(fèi)者并干擾銷售商對銷售業(yè)績的評價.產(chǎn)品垃圾評論的識別旨在解決這一問題,將垃圾評論從評論文本中剔除,保留真實(shí)的產(chǎn)品評論,為用戶提供可靠的參考依據(jù).

      結(jié)合近幾年垃圾評論識別的文獻(xiàn)可知,垃圾評論識別的關(guān)鍵問題是文本特征的提取與分類算法的選擇.N Nitin Jamal和Bing Liu等[1]首次對垃圾評論進(jìn)行了分類,很好地識別了英文領(lǐng)域中存在的無用評論,但由于中英文之間存在差異,往往英文領(lǐng)域的垃圾識別方法不能直接有效地應(yīng)用到中文領(lǐng)域當(dāng)中.游貴榮等[2]提出了中文垃圾評論的特征提取方法,邱云飛等[3]、吳敏等[4]、李霄等[5]分別從用戶行為、產(chǎn)品特征的顯著性檢驗(yàn)以及信息的有用性角度對垃圾評論的識別進(jìn)行了研究,但在分類器的選取上,上述學(xué)者均采用單一算法的分類模型,如單一的Logistic回歸算法等.大量的理論與實(shí)驗(yàn)結(jié)果表明,多分類器系統(tǒng)不但可以提高分類的正確率,而且可以提高識別系統(tǒng)的泛化能力和魯棒性.與此同時所有分類器都參與集成的效果并非最好,從眾多分類器中選擇部分互補(bǔ)性強(qiáng)的分類器進(jìn)行集成可以提高集成的效率并改善其效果[6].因此本文在建立文本特征表示模型的基礎(chǔ)上,提出了用高互補(bǔ)性組合分類器對評論進(jìn)行識別和過濾.

      2 文本特征的提取

      2.1 產(chǎn)品評論的特點(diǎn)與垃圾評論的分類

      為了更準(zhǔn)確地識別垃圾評論,首先探討產(chǎn)品評論的特征.

      通過對中文產(chǎn)品評論中的評論文本進(jìn)行分析,總結(jié)出中文產(chǎn)品評論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個方面:

      1)評論文本格式自由多樣;

      2)評價對象的多樣化;

      3)評論內(nèi)容具有近似重復(fù)性;

      可分為①由不同評論者針對同一產(chǎn)品發(fā)表的近似重復(fù)評論;②由同一評論者針對不同產(chǎn)品發(fā)表的近似重復(fù)評論;③由不同評論者針對不同產(chǎn)品發(fā)表的近似重復(fù)評論;

      4)不真實(shí)評論;

      5)廣告;

      6)不帶有感情色彩的隨機(jī)文本.

      基于以上分析,將垃圾評論定義為以下5種類型:-

      1)非指定產(chǎn)品的評論:該類評論的特點(diǎn)為它雖然是評論,但只對品牌和制造商,甚至是站點(diǎn)評論,而沒有針對當(dāng)前產(chǎn)品本身進(jìn)行評論,或者確實(shí)是對產(chǎn)品進(jìn)行了評論,但是評錯了產(chǎn)品.如在蘋果手機(jī)的評論中,“買SONYZ3也不錯啊,很漂亮,旗艦機(jī)...”等

      2)虛假評論:如“我這有全新的iPhone6 Plus,只要99元”等.

      3)廣告評論:如“蘋果超愛大屏幕3 500元拿現(xiàn)貨QQ熱購122929079”

      4)無意義文本:

      ①個人的消費(fèi)經(jīng)歷,如“再爛都永遠(yuǎn)有人瘋搶,飄揚(yáng)過海甚至成為一部手機(jī),實(shí)在不懂.”②人身攻擊,如“用蘋果的都是腦殘”等,③其他無關(guān)文本,如“信號不好等”“轉(zhuǎn)給我唄?”

      5)咨詢性評論:只是詢問關(guān)于產(chǎn)品的情況,而不是評論.如“多少錢呢?”.

      2.2 特征提取與量化

      為了建立產(chǎn)品垃圾評論識別模型,根據(jù)2.1節(jié)的分析結(jié)果,分4個模塊對產(chǎn)品評論文本進(jìn)行特征提取與量化.

      模塊一 數(shù)據(jù)的搜集

      本文采用WebHarvest網(wǎng)絡(luò)爬蟲對京東商城和天貓商城內(nèi)多個商家的iPhone 6 Plus的產(chǎn)品評論進(jìn)行爬取,得到由兩萬條產(chǎn)品評論組成的數(shù)據(jù)集A0,同時對蘋果官網(wǎng)上關(guān)于iPhone 6 Plus的產(chǎn)品參數(shù)進(jìn)行爬取,得到產(chǎn)品屬性數(shù)據(jù)集B0.

      模塊二 對爬取的數(shù)據(jù)集進(jìn)行預(yù)處理

      1)構(gòu)造用戶詞典.用戶詞典包括停用詞詞典、極性詞詞典,其中極性詞詞典主要是由HowNet極性詞加上一些評論作者常用的、和表達(dá)情感有關(guān)的網(wǎng)絡(luò)流行詞,及一些口語化的詞語與縮寫組成,用以表達(dá)用戶褒貶傾向和感情色彩.停用詞詞典由網(wǎng)絡(luò)上現(xiàn)有的停用詞詞表加上針對垃圾評論特性的停用詞組成[7-9].

      2)文本分詞.中文單詞是評論信息處理的基礎(chǔ),分詞工具采用中科院提供的分詞工具ICTCLAS 2015分詞系統(tǒng)[10],其主要功能包括中文分詞、詞性標(biāo)注,同時允許用戶向系統(tǒng)中導(dǎo)入自定義詞典以提高特定領(lǐng)域的分詞效果,因此,將上述用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0作為自定義詞典導(dǎo)入ICTCLAS分詞系統(tǒng)后,對數(shù)據(jù)集進(jìn)行逐條分詞、詞性標(biāo)注以及情感詞標(biāo)注,得到預(yù)處理后的數(shù)據(jù)集A.

      模塊三 特征的互信息檢驗(yàn)

      為了選取最能表達(dá)文本信息內(nèi)容的特征,本文從被評論的商品、評論者、文本結(jié)構(gòu)、情感傾向、主題詞五個屬性提取特征,在提取特征之前,先利用互信息說明這5個屬性對識別垃圾評論具有顯著相關(guān)性.-

      互信息是2個事件集合之間的相關(guān)性,通常用來衡量某個屬性和類別之間的統(tǒng)計獨(dú)立關(guān)系,互信息量越大,代表特征項(xiàng)與類別之間的貢獻(xiàn)概率也越大.現(xiàn)對所選特征進(jìn)行互信息檢驗(yàn),旨在說明所選屬性能在一定程度上反應(yīng)該條評論的信息,即所選屬性項(xiàng)是互信息量較大的詞條,互信息(MI)定義如下endprint

      2)高互補(bǔ)性分類器

      高互補(bǔ)性分類器組合的構(gòu)建流程大致為:首先構(gòu)造一定數(shù)量的候選分類器如Bayes分類器、KNN分類器、SVM分類器和logistics回歸分類器等,計算分類器之間的相關(guān)程度,然后根據(jù)相關(guān)系數(shù)對候選分類器進(jìn)行排序,并依據(jù)可信度,選擇出對目標(biāo)有較高識別率的分類器組合.

      首先,驗(yàn)證單一算法分類器的局限性.利用數(shù)學(xué)軟件MATLAB,對其進(jìn)行基于多層BP網(wǎng)絡(luò)的識別模式的標(biāo)記,對上述四種分類器用SPSS比較其準(zhǔn)確率,召回率以及Fmeasure值.得表2.由表2,垃圾評論識別的準(zhǔn)確率相對偏低,不少數(shù)量的正常評論被識別為垃圾評論;其召回率也不高,直觀來看是有些垃圾評論被判別為正常評論.可見單一分類算法的過濾效果并不理想,本質(zhì)原因是分詞的不準(zhǔn)確性使得評論文本特征有限的缺點(diǎn)充分暴露,以致于對結(jié)果的準(zhǔn)確性產(chǎn)生很大影響,而且Bayes分類器要求各個特征項(xiàng)之間相互獨(dú)立,這顯然于現(xiàn)實(shí)不符.同時也從側(cè)面說明單一算法的分類器對數(shù)據(jù)量要求很大,需要對較為完備的訓(xùn)練集特征進(jìn)行學(xué)習(xí)[6].

      為了更準(zhǔn)確地進(jìn)行垃圾評論識別,本文對各分類器進(jìn)行組合,得到高互補(bǔ)性分類器.根據(jù)高互補(bǔ)性分類器組合理論,利用相關(guān)系數(shù)對上述4種分類器的互補(bǔ)性進(jìn)行分析,即相關(guān)系數(shù)大的分類器組合互補(bǔ)性弱,相關(guān)系數(shù)小的分類器組合互補(bǔ)性強(qiáng).

      利用SPSS軟件對其進(jìn)行相關(guān)分析,見表3.

      由表3,相關(guān)系數(shù)的大小排序?yàn)椋?/p>

      SVM+Bayes>SVM+KNN>Bayes+LR> LR+KNN>LR + SVM>Bayes+KNN.

      其對偶命題互補(bǔ)性排序?yàn)椋?/p>

      SVM+Bayes

      LR+KNN

      可見Bayes分類器和KNN分類器的相關(guān)性最低且顯著性均大于0.01,即可認(rèn)為他們之間的互補(bǔ)性最強(qiáng),存在統(tǒng)計學(xué)意義.而SVM分類器和Bayes分類器的相似度較高,且顯著性大于0.01,認(rèn)為存在統(tǒng)計學(xué)意義.為了進(jìn)一步驗(yàn)證這4種分類器的互補(bǔ)性,對這6個組合進(jìn)行聚類檢驗(yàn).

      用SPSS軟件對其進(jìn)行聚類分析,結(jié)果見表4

      由上可知,互補(bǔ)性最強(qiáng)的組合分類器為Bayes+KNN分類器.

      3.4 模型的交叉驗(yàn)證

      本文利用WebHarvest爬蟲從天貓和京東商城爬取了20 000條評論作為原始數(shù)據(jù)集A0,將構(gòu)建好的用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0導(dǎo)入ICTCLAS 2015分詞系統(tǒng)后,得到預(yù)處理數(shù)據(jù)集A,對A中的每個數(shù)據(jù)類型進(jìn)行人工標(biāo)記,再隨機(jī)地將其等分成4份得到A1、A2、A3、A4.

      先以數(shù)據(jù)集A1為檢驗(yàn)集,A2,A3,A4為訓(xùn)練集,計算模型的性能指標(biāo).首先將數(shù)據(jù)集A2,A3,A4的特征向量導(dǎo)入Bayes+KNN組合分類器對其進(jìn)行訓(xùn)練,然后將檢驗(yàn)集A1的特征向量導(dǎo)入到已訓(xùn)練好的分類器中,得出檢驗(yàn)集中相應(yīng)評論是非垃圾評論還是垃圾評論,最后根據(jù)分類器對每條評論判定的結(jié)果以及人工標(biāo)記,計算該訓(xùn)練集和檢驗(yàn)集組合下,分類器的性能指標(biāo).用同樣的方法得到依次以A2、A3、A4為檢驗(yàn)集的分類器的性能指標(biāo),相關(guān)結(jié)果見表5.-將上述3個評價值平均得,基于KNN算法和Bayes算法的垃圾評論識別模型的最終準(zhǔn)確率達(dá)到75.3%,召回率為82.1%,F(xiàn)1值為77.5%,結(jié)果較為理想,有應(yīng)用價值.

      4 結(jié)束語

      垃圾評論識別的關(guān)鍵問題是文本特征的提取與分類算法的選擇.本文根據(jù)中文評論的特點(diǎn)提取了14個特征,并利用組合分類器算法對垃圾評論進(jìn)行了識別,得到了較理想的結(jié)果.通過搭建基于Hadoop的大數(shù)據(jù)平臺集群,本模型可推廣到一個基于通過海量數(shù)據(jù)集進(jìn)行訓(xùn)練的垃圾評論問題,從而實(shí)現(xiàn)此模型適用于更一般產(chǎn)品的垃圾評論的檢測目標(biāo).-

      參考文獻(xiàn)

      [1] N JINDAL, B LIU.Opinion spam and analysis[C]//Proceedings of the first ACM international conference on Web search and data mining,2008:219-229.

      [2] 游貴榮,吳為,錢沄濤.電子商務(wù)中垃圾評論檢測的特征提取方法[J].情報分析與研究.2014,251(10):93-100.

      [3] 邱云飛,王建坤,邵良彬等.基于用戶行為的產(chǎn)品垃圾評論者監(jiān)測研究[J].計算機(jī)工程.2012,38(11):254-257,261.

      [4] 吳敏,何瓏.融合多特征的產(chǎn)品評論識別[J].微型機(jī)與應(yīng)用.2012,31(22):85-87.

      [5] 李霄,丁晟春.垃圾商品評論信息的識別研究[J].現(xiàn)代圖書情報技術(shù).2013,29(1):63-68.

      [6] H J KANG,D DOERMANN.Selection of classifiers for the construction of multiple classifier systems[C]//Proceedings of the 8th- international conference on Document Analysis and Recognition. Seoul, Korea, 2005,1194-1198.

      [7] 知網(wǎng)[DB/OL].HowNet Knowledge Database[DB/OL].[2013-11-05]. http://www.keenage.com/ .

      [8] 趙文婧.產(chǎn)品描述詞及情感詞抽取模式的研究[D].北京:北京郵電大學(xué)計算機(jī)學(xué)院,2010.

      [9] 顧益軍,樊孝忠,王建華.中文停用詞表的自動選擇[J].北京理工大學(xué)學(xué)報.2005,25(4):337-340.

      [10]ICTCLAS 漢語分詞系統(tǒng) (ICTCLAS Chinese Lexical Analysis System [CP/OL].[2015-10-05].http://www.ictclas.org/.

      [11]C C CHEN, Y D TSENG. Quality evaluation of product reviews using an imformation quality framework[J].Decision Support Systems. 2011, 50(4):755-768.

      [12]陳昀,基于數(shù)據(jù)挖掘技術(shù)的產(chǎn)品垃圾評論識別研究[D].保定:河北大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,2014.

      猜你喜歡
      互信息
      基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
      采用目標(biāo)區(qū)域互信息的星空圖像配準(zhǔn)
      中國科學(xué)家建立量化網(wǎng)絡(luò)中直接關(guān)聯(lián)性的“部分互信息”新方法
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      一種利用點(diǎn)特征和互信息的多源遙感影像配準(zhǔn)方法
      基于PSO和互信息的小波醫(yī)學(xué)圖像配準(zhǔn)及融合
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      基于獨(dú)立分量分析和互信息的多諧波源定位
      墨脱县| 鹤壁市| 天长市| 彭泽县| 进贤县| 隆德县| 信阳市| 浏阳市| 九台市| 格尔木市| 南昌市| 洞头县| 会理县| 肥西县| 塔城市| 兴宁市| 游戏| 正定县| 东至县| 惠来县| 航空| 天祝| 彩票| 论坛| 沙雅县| 永嘉县| 林芝县| 望江县| 确山县| 大新县| 志丹县| 克山县| 柳河县| 合肥市| 卓资县| 莱芜市| 平顺县| 辽中县| 名山县| 博野县| 广宁县|