基于KNN和Bayes算法的組合分類器的垃圾評論識別研究

2016-04-08 10:11梁曌陳思宇梁小林康欣

經(jīng)濟(jì)數(shù)學(xué) 2016年1期

關(guān)鍵詞：互信息

梁曌　陳思宇　梁小林　康欣

摘要產(chǎn)品垃圾評論在一定程度上影響了評論信息的參考價值，本文旨在建立識別模型將垃圾評論從評論文本中剔除，保留真實(shí)的產(chǎn)品評論。首先，分析了產(chǎn)品評論的特點(diǎn)，從數(shù)據(jù)搜集、文本預(yù)處理、互信息檢驗(yàn)、文本表示4個模塊提取了14個特征。然后，利用高互補(bǔ)性建立了基于KNN和Bayes算法的組合分類器模型。最后，利用交叉驗(yàn)證對iPhone 6 Plus的產(chǎn)品評論進(jìn)行檢驗(yàn)，得到評價指標(biāo)分別為：正確識別率75.3%、召回率82.1%以及F1值77.5%.

關(guān)鍵詞 KNN算法；Bayes算法；組合分類器；互信息；交叉驗(yàn)證

中圖分類號 O213；TP18 文獻(xiàn)標(biāo)識碼 A

1 引言

電子商務(wù)的異軍突起促使網(wǎng)購走進(jìn)人們的日常生活，網(wǎng)購的同時，多數(shù)網(wǎng)民會在不受約束的情況下對相關(guān)產(chǎn)品發(fā)表評論，而這種隨意性往往使得這些產(chǎn)品評論中充斥了大量無用的、不真實(shí)的信息，這些信息就是垃圾評論.垃圾評論在一定程度上影響了評論信息的參考價值，從而誤導(dǎo)潛在消費(fèi)者并干擾銷售商對銷售業(yè)績的評價.產(chǎn)品垃圾評論的識別旨在解決這一問題，將垃圾評論從評論文本中剔除，保留真實(shí)的產(chǎn)品評論，為用戶提供可靠的參考依據(jù).

結(jié)合近幾年垃圾評論識別的文獻(xiàn)可知，垃圾評論識別的關(guān)鍵問題是文本特征的提取與分類算法的選擇.N Nitin Jamal和Bing Liu等[1]首次對垃圾評論進(jìn)行了分類，很好地識別了英文領(lǐng)域中存在的無用評論，但由于中英文之間存在差異，往往英文領(lǐng)域的垃圾識別方法不能直接有效地應(yīng)用到中文領(lǐng)域當(dāng)中.游貴榮等[2]提出了中文垃圾評論的特征提取方法，邱云飛等[3]、吳敏等[4]、李霄等[5]分別從用戶行為、產(chǎn)品特征的顯著性檢驗(yàn)以及信息的有用性角度對垃圾評論的識別進(jìn)行了研究，但在分類器的選取上，上述學(xué)者均采用單一算法的分類模型，如單一的Logistic回歸算法等.大量的理論與實(shí)驗(yàn)結(jié)果表明，多分類器系統(tǒng)不但可以提高分類的正確率，而且可以提高識別系統(tǒng)的泛化能力和魯棒性.與此同時所有分類器都參與集成的效果并非最好，從眾多分類器中選擇部分互補(bǔ)性強(qiáng)的分類器進(jìn)行集成可以提高集成的效率并改善其效果[6].因此本文在建立文本特征表示模型的基礎(chǔ)上，提出了用高互補(bǔ)性組合分類器對評論進(jìn)行識別和過濾.

2 文本特征的提取

2.1 產(chǎn)品評論的特點(diǎn)與垃圾評論的分類

為了更準(zhǔn)確地識別垃圾評論，首先探討產(chǎn)品評論的特征.

通過對中文產(chǎn)品評論中的評論文本進(jìn)行分析，總結(jié)出中文產(chǎn)品評論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個方面：

1）評論文本格式自由多樣；

2）評價對象的多樣化；

3）評論內(nèi)容具有近似重復(fù)性；

可分為①由不同評論者針對同一產(chǎn)品發(fā)表的近似重復(fù)評論；②由同一評論者針對不同產(chǎn)品發(fā)表的近似重復(fù)評論；③由不同評論者針對不同產(chǎn)品發(fā)表的近似重復(fù)評論；

4）不真實(shí)評論；

5）廣告；

6）不帶有感情色彩的隨機(jī)文本.

基于以上分析，將垃圾評論定義為以下5種類型：-

1）非指定產(chǎn)品的評論：該類評論的特點(diǎn)為它雖然是評論，但只對品牌和制造商，甚至是站點(diǎn)評論，而沒有針對當(dāng)前產(chǎn)品本身進(jìn)行評論，或者確實(shí)是對產(chǎn)品進(jìn)行了評論，但是評錯了產(chǎn)品.如在蘋果手機(jī)的評論中，“買SONYZ3也不錯啊，很漂亮，旗艦機(jī)...”等

2）虛假評論：如“我這有全新的iPhone6 Plus，只要99元”等.

3）廣告評論：如“蘋果超愛大屏幕3 500元拿現(xiàn)貨QQ熱購122929079”

4）無意義文本：

①個人的消費(fèi)經(jīng)歷，如“再爛都永遠(yuǎn)有人瘋搶，飄揚(yáng)過海甚至成為一部手機(jī)，實(shí)在不懂.”②人身攻擊，如“用蘋果的都是腦殘”等，③其他無關(guān)文本，如“信號不好等”“轉(zhuǎn)給我唄？”

5）咨詢性評論：只是詢問關(guān)于產(chǎn)品的情況，而不是評論.如“多少錢呢？”.

2.2 特征提取與量化

為了建立產(chǎn)品垃圾評論識別模型，根據(jù)2.1節(jié)的分析結(jié)果，分4個模塊對產(chǎn)品評論文本進(jìn)行特征提取與量化.

模塊一數(shù)據(jù)的搜集

本文采用WebHarvest網(wǎng)絡(luò)爬蟲對京東商城和天貓商城內(nèi)多個商家的iPhone 6 Plus的產(chǎn)品評論進(jìn)行爬取，得到由兩萬條產(chǎn)品評論組成的數(shù)據(jù)集A0，同時對蘋果官網(wǎng)上關(guān)于iPhone 6 Plus的產(chǎn)品參數(shù)進(jìn)行爬取，得到產(chǎn)品屬性數(shù)據(jù)集B0.

模塊二對爬取的數(shù)據(jù)集進(jìn)行預(yù)處理

1）構(gòu)造用戶詞典.用戶詞典包括停用詞詞典、極性詞詞典，其中極性詞詞典主要是由HowNet極性詞加上一些評論作者常用的、和表達(dá)情感有關(guān)的網(wǎng)絡(luò)流行詞，及一些口語化的詞語與縮寫組成，用以表達(dá)用戶褒貶傾向和感情色彩.停用詞詞典由網(wǎng)絡(luò)上現(xiàn)有的停用詞詞表加上針對垃圾評論特性的停用詞組成[7-9].

2）文本分詞.中文單詞是評論信息處理的基礎(chǔ)，分詞工具采用中科院提供的分詞工具ICTCLAS 2015分詞系統(tǒng)[10]，其主要功能包括中文分詞、詞性標(biāo)注，同時允許用戶向系統(tǒng)中導(dǎo)入自定義詞典以提高特定領(lǐng)域的分詞效果，因此，將上述用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0作為自定義詞典導(dǎo)入ICTCLAS分詞系統(tǒng)后，對數(shù)據(jù)集進(jìn)行逐條分詞、詞性標(biāo)注以及情感詞標(biāo)注，得到預(yù)處理后的數(shù)據(jù)集A.

模塊三特征的互信息檢驗(yàn)

為了選取最能表達(dá)文本信息內(nèi)容的特征，本文從被評論的商品、評論者、文本結(jié)構(gòu)、情感傾向、主題詞五個屬性提取特征，在提取特征之前，先利用互信息說明這5個屬性對識別垃圾評論具有顯著相關(guān)性.-

互信息是2個事件集合之間的相關(guān)性，通常用來衡量某個屬性和類別之間的統(tǒng)計獨(dú)立關(guān)系，互信息量越大，代表特征項(xiàng)與類別之間的貢獻(xiàn)概率也越大.現(xiàn)對所選特征進(jìn)行互信息檢驗(yàn)，旨在說明所選屬性能在一定程度上反應(yīng)該條評論的信息，即所選屬性項(xiàng)是互信息量較大的詞條，互信息（MI）定義如下endprint

2）高互補(bǔ)性分類器

高互補(bǔ)性分類器組合的構(gòu)建流程大致為：首先構(gòu)造一定數(shù)量的候選分類器如Bayes分類器、KNN分類器、SVM分類器和logistics回歸分類器等，計算分類器之間的相關(guān)程度，然后根據(jù)相關(guān)系數(shù)對候選分類器進(jìn)行排序，并依據(jù)可信度，選擇出對目標(biāo)有較高識別率的分類器組合.

首先，驗(yàn)證單一算法分類器的局限性.利用數(shù)學(xué)軟件MATLAB，對其進(jìn)行基于多層BP網(wǎng)絡(luò)的識別模式的標(biāo)記，對上述四種分類器用SPSS比較其準(zhǔn)確率，召回率以及Fmeasure值.得表2.由表2，垃圾評論識別的準(zhǔn)確率相對偏低，不少數(shù)量的正常評論被識別為垃圾評論；其召回率也不高，直觀來看是有些垃圾評論被判別為正常評論.可見單一分類算法的過濾效果并不理想，本質(zhì)原因是分詞的不準(zhǔn)確性使得評論文本特征有限的缺點(diǎn)充分暴露，以致于對結(jié)果的準(zhǔn)確性產(chǎn)生很大影響，而且Bayes分類器要求各個特征項(xiàng)之間相互獨(dú)立，這顯然于現(xiàn)實(shí)不符.同時也從側(cè)面說明單一算法的分類器對數(shù)據(jù)量要求很大，需要對較為完備的訓(xùn)練集特征進(jìn)行學(xué)習(xí)[6].

為了更準(zhǔn)確地進(jìn)行垃圾評論識別，本文對各分類器進(jìn)行組合，得到高互補(bǔ)性分類器.根據(jù)高互補(bǔ)性分類器組合理論，利用相關(guān)系數(shù)對上述4種分類器的互補(bǔ)性進(jìn)行分析，即相關(guān)系數(shù)大的分類器組合互補(bǔ)性弱，相關(guān)系數(shù)小的分類器組合互補(bǔ)性強(qiáng).

利用SPSS軟件對其進(jìn)行相關(guān)分析，見表3.

由表3，相關(guān)系數(shù)的大小排序?yàn)椋?/p>

SVM+Bayes>SVM+KNN>Bayes+LR> LR+KNN>LR + SVM>Bayes+KNN.

其對偶命題互補(bǔ)性排序?yàn)椋?/p>

SVM+Bayes

LR+KNN

可見Bayes分類器和KNN分類器的相關(guān)性最低且顯著性均大于0.01，即可認(rèn)為他們之間的互補(bǔ)性最強(qiáng)，存在統(tǒng)計學(xué)意義.而SVM分類器和Bayes分類器的相似度較高，且顯著性大于0.01，認(rèn)為存在統(tǒng)計學(xué)意義.為了進(jìn)一步驗(yàn)證這4種分類器的互補(bǔ)性，對這6個組合進(jìn)行聚類檢驗(yàn).

用SPSS軟件對其進(jìn)行聚類分析，結(jié)果見表4

由上可知，互補(bǔ)性最強(qiáng)的組合分類器為Bayes+KNN分類器.

3.4 模型的交叉驗(yàn)證

本文利用WebHarvest爬蟲從天貓和京東商城爬取了20 000條評論作為原始數(shù)據(jù)集A0，將構(gòu)建好的用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0導(dǎo)入ICTCLAS 2015分詞系統(tǒng)后，得到預(yù)處理數(shù)據(jù)集A，對A中的每個數(shù)據(jù)類型進(jìn)行人工標(biāo)記，再隨機(jī)地將其等分成4份得到A1、A2、A3、A4.

先以數(shù)據(jù)集A1為檢驗(yàn)集，A2，A3，A4為訓(xùn)練集，計算模型的性能指標(biāo).首先將數(shù)據(jù)集A2，A3，A4的特征向量導(dǎo)入Bayes+KNN組合分類器對其進(jìn)行訓(xùn)練，然后將檢驗(yàn)集A1的特征向量導(dǎo)入到已訓(xùn)練好的分類器中，得出檢驗(yàn)集中相應(yīng)評論是非垃圾評論還是垃圾評論，最后根據(jù)分類器對每條評論判定的結(jié)果以及人工標(biāo)記，計算該訓(xùn)練集和檢驗(yàn)集組合下，分類器的性能指標(biāo).用同樣的方法得到依次以A2、A3、A4為檢驗(yàn)集的分類器的性能指標(biāo)，相關(guān)結(jié)果見表5.-將上述3個評價值平均得，基于KNN算法和Bayes算法的垃圾評論識別模型的最終準(zhǔn)確率達(dá)到75.3%，召回率為82.1%，F(xiàn)1值為77.5%，結(jié)果較為理想，有應(yīng)用價值.

4 結(jié)束語

垃圾評論識別的關(guān)鍵問題是文本特征的提取與分類算法的選擇.本文根據(jù)中文評論的特點(diǎn)提取了14個特征，并利用組合分類器算法對垃圾評論進(jìn)行了識別，得到了較理想的結(jié)果.通過搭建基于Hadoop的大數(shù)據(jù)平臺集群，本模型可推廣到一個基于通過海量數(shù)據(jù)集進(jìn)行訓(xùn)練的垃圾評論問題，從而實(shí)現(xiàn)此模型適用于更一般產(chǎn)品的垃圾評論的檢測目標(biāo).-

參考文獻(xiàn)

[1] N JINDAL， B LIU.Opinion spam and analysis[C]//Proceedings of the first ACM international conference on Web search and data mining，2008：219-229.

[2] 游貴榮，吳為，錢沄濤.電子商務(wù)中垃圾評論檢測的特征提取方法[J].情報分析與研究.2014，251（10）：93-100.

[3] 邱云飛，王建坤，邵良彬等.基于用戶行為的產(chǎn)品垃圾評論者監(jiān)測研究[J].計算機(jī)工程.2012，38（11）：254-257，261.

[4] 吳敏，何瓏.融合多特征的產(chǎn)品評論識別[J].微型機(jī)與應(yīng)用.2012，31（22）：85-87.

[5] 李霄，丁晟春.垃圾商品評論信息的識別研究[J].現(xiàn)代圖書情報技術(shù).2013，29（1）：63-68.

[6] H J KANG，D DOERMANN.Selection of classifiers for the construction of multiple classifier systems[C]//Proceedings of the 8th- international conference on Document Analysis and Recognition. Seoul， Korea， 2005，1194-1198.

[7] 知網(wǎng)[DB/OL].HowNet Knowledge Database[DB/OL].[2013-11-05]. http：//www.keenage.com/ .

[8] 趙文婧.產(chǎn)品描述詞及情感詞抽取模式的研究[D].北京：北京郵電大學(xué)計算機(jī)學(xué)院，2010.

[9] 顧益軍，樊孝忠，王建華.中文停用詞表的自動選擇[J].北京理工大學(xué)學(xué)報.2005，25（4）：337-340.

[10]ICTCLAS 漢語分詞系統(tǒng) （ICTCLAS Chinese Lexical Analysis System [CP/OL].[2015-10-05].http：//www.ictclas.org/.

[11]C C CHEN， Y D TSENG. Quality evaluation of product reviews using an imformation quality framework[J].Decision Support Systems. 2011， 50（4）：755-768.

[12]陳昀，基于數(shù)據(jù)挖掘技術(shù)的產(chǎn)品垃圾評論識別研究[D].保定：河北大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院，2014.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于KNN和Bayes算法的組合分類器的垃圾評論識別研究