胡 龍 茂
(安徽財(cái)貿(mào)職業(yè)學(xué)院, 合肥 230601)
基于用戶行為及文本內(nèi)容的垃圾評論識別研究
胡 龍 茂
(安徽財(cái)貿(mào)職業(yè)學(xué)院, 合肥 230601)
從海量的在線評論中自動識別出垃圾評論,是消費(fèi)者及廠家有效利用在線評論的前提。結(jié)合垃圾評論者的行為特征及評論文本內(nèi)容,采用支持向量機(jī)構(gòu)建了垃圾評論識別模型。實(shí)驗(yàn)結(jié)果表明,該方法有效地識別了垃圾評論。
垃圾評論; 行為特征; 評論文本
當(dāng)前,網(wǎng)絡(luò)購物方興未艾,電商網(wǎng)站上產(chǎn)生了海量的在線產(chǎn)品評論。這些評論一方面會對潛在消費(fèi)者的購買決策產(chǎn)生重要影響,一方面也有助于廠商提高其產(chǎn)品質(zhì)量或服務(wù)。由于網(wǎng)絡(luò)的開放性、評論者的主觀性及產(chǎn)品或平臺的競爭性,網(wǎng)絡(luò)上出現(xiàn)了不少垃圾評論,主要分為2類:(1) 出于推銷或詆毀目的的虛假評論;(2) 與主題無關(guān)的評論。從海量的在線評論中識別出垃圾評論,對消費(fèi)者及廠家都有著重要的現(xiàn)實(shí)意義。
研究垃圾評論者的行為特征及評論文本內(nèi)容,采用支持向量機(jī)構(gòu)造了垃圾評論識別模型,有效地識別了垃圾評論。
文獻(xiàn)[1]首次對垃圾評論進(jìn)行了分類,并運(yùn)用Logistic回歸模型對垃圾評論進(jìn)行了檢測。文獻(xiàn)[2]從評論者對同一產(chǎn)品重復(fù)評分次數(shù),評分偏差,評論內(nèi)容的相似度來判斷其是否是垃圾評論者,從而確定其發(fā)表的評論是否為垃圾評論。文獻(xiàn)[3]以旅館評論數(shù)據(jù)集為研究對象,融合文本的語言特征和心理語言欺騙檢測,采用SVM進(jìn)行文本分類來檢測虛假評論行為,實(shí)驗(yàn)精確度達(dá)到了90%。文獻(xiàn)[4]提出了垃圾評論者發(fā)表垃圾評論的5種行為模式,采用線性回歸模型進(jìn)行建模以識別垃圾評論者,檢測效果優(yōu)于用戶有用性投票的基準(zhǔn)方法。文獻(xiàn)[5]構(gòu)造了評論者、評論、商店以及回復(fù)者的評論關(guān)系圖,利用評論關(guān)系圖計(jì)算評論者的可信度以識別垃圾評論者,實(shí)驗(yàn)結(jié)果表明該方法的準(zhǔn)確率較高。文獻(xiàn)[6]從評論內(nèi)容、評論人、評分與文本情感的匹配程度等方面,設(shè)定22個評論特征,采用改良的決策樹識別垃圾評論達(dá)到了較高的預(yù)測精度。
目前的研究主要采用單一的行為檢測或文本內(nèi)容檢測,檢測效果都不夠理想。文獻(xiàn)[6]雖然采取了二者的結(jié)合,但設(shè)置的用戶行為特征較少。因此,本次研究從用戶行為及評論內(nèi)容2個維度進(jìn)行垃圾評論識別,以有效提高垃圾評論識別的精度。
2.1支持向量機(jī)
支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則,它能將數(shù)據(jù)表示成更高維度,從而將非線性分類問題轉(zhuǎn)換成線性分類問題。由于支持向量機(jī)所形成的分類面是最優(yōu)分類面,分類時僅需要支持向量,因此,分類速度很快。支持向量機(jī)對小樣本數(shù)據(jù)的學(xué)習(xí)有良好的推廣能力[7],近年來在文本分類、基因圖譜識別和手寫識別等方面都得到了成功的應(yīng)用。
2.2特征選擇
從用戶行為和評論文本2個方面識別垃圾評論,特征選擇如下:
(1) 用戶行為特征。在文獻(xiàn)[4]基礎(chǔ)上,通過對購物網(wǎng)站中評論者的行為特征分析,設(shè)置4類用戶行為特征。評分(A1):用戶出于推銷或詆毀的目的而打最高分或最低分的行為特征。評分一致度(A2):同一用戶對同一平臺的不同產(chǎn)品評分較一致的行為特征。評分偏差度(A3):用戶評分與平均評分偏差較大的行為特征。有用度(A4):其他評論閱讀者認(rèn)為是否“有用”的行為特征。
(2) 評論文本特征。在文獻(xiàn)[6]的基礎(chǔ)上,通過對評論文本分析,設(shè)置8類文本特征。產(chǎn)品(A5):評論中涉及產(chǎn)品本身(如“手機(jī)”)。產(chǎn)品屬性(A6):評論中涉及產(chǎn)品屬性。其他品牌(A7):評論中涉及與此商品同類的其他品牌產(chǎn)品信息。正面評價詞(A8):正面評價詞的數(shù)量。負(fù)面評價詞(A9):負(fù)面評價詞的數(shù)量。正面評價詞比例(A10):正面評價詞占總體評價詞比例。負(fù)面評價詞比例(A11):負(fù)面評價詞占總體評價詞比例。評論長度(A12):評論內(nèi)容的長度。
評論文本特征的計(jì)算方法如下:
A1=n
式中:A1—— 行為特征分值;
n—— 當(dāng)前評論者在平臺的評論總數(shù),n=1,2,3,4,5;
A2—— 一致度評分;
si—— 某條評論的評分。
式中:s0—— 當(dāng)前評論者對產(chǎn)品的評分;
n—— 某產(chǎn)品的評論總數(shù);
si—— 其他評論者對產(chǎn)品的評分。
A6=評論中包含產(chǎn)品屬性的數(shù)量
A8(A9)=評論中正(負(fù))面評價詞的數(shù)量
實(shí)驗(yàn)采用Python語言。支持向量機(jī)采用臺灣大學(xué)林智仁教授等人開發(fā)的Libsvm軟件。Libsvm提供了Python接口,核函數(shù)采用線性核,其他參數(shù)默認(rèn)。
3.1數(shù)據(jù)集
目前還沒有專門用于識別垃圾評論的中文數(shù)據(jù)集,因此采用爬蟲從國內(nèi)熱門的電商網(wǎng)站上抓取數(shù)據(jù)。通過對淘寶、京東、蘇寧和亞馬遜等網(wǎng)站的觀察,只有亞馬遜網(wǎng)站保留了評論者的鏈接信息。使用Python編程從亞馬遜網(wǎng)站上抓取某款熱門手機(jī)的評論共1 197條,然后按照留言者鏈接抓取評論者在亞馬遜網(wǎng)站上對其他商品的評論。
選擇3位垃圾評論標(biāo)注者對評論進(jìn)行獨(dú)立標(biāo)注,如果評論被大于等于2個的標(biāo)注者認(rèn)為是垃圾評論,則該條評論被標(biāo)記為垃圾評論。最終得到垃圾評論87條。
3.2實(shí)驗(yàn)結(jié)果分析
采用準(zhǔn)確率、召回率和綜合值評價垃圾評論識別的效果。結(jié)果如表1所示。
僅采用用戶行為特征時,與主題無關(guān)的評論不易被識別出,造成召回率較低。僅采用文本特征時,全是正面或負(fù)面情感易被識別為垃圾評論,導(dǎo)致準(zhǔn)確率較低。綜合采用用戶行為和文本特征時,提高了無關(guān)評論和極端評論的判別精度,準(zhǔn)確率和召回率都有不同程度的提升。
研究采用用戶行為特征和文本特征識別垃圾評論,取得了一定的效果。隨著電商平臺對評論的激勵及約束機(jī)制的改變,垃圾評論的特征也會隨之變化,垃圾評論的識別方法還需進(jìn)一步優(yōu)化。
[1] JINDAL N, LIU B. Review Spam Detection [C]∥Proceedings of the 16th International Conference on World Wide Web. New York, NY, USA: ACM, 2007: 1189-1190.
[2] LIM E P, NGUYEN V A, JINDAL N, et al. Detecting Product Review Spammers Using Rating Behavior [C]∥Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2010: 939-948.
[3] OTT M, CHOI Y, CARDIE C, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination[C]∥ Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2011:309-319.
[4] 邱云飛,王建坤,邵良杉,等.基于用戶行為的產(chǎn)品垃圾評論者檢測研究[J].計(jì)算機(jī)工程,2012,38(11):254-257.
[5] 林秀嬌,魏晶晶,劉月,等.基于評論關(guān)系圖的垃圾評論者檢測研究[J].福州大學(xué)學(xué)報(bào),2015,43(2):170-175.
[6] 趙靜嫻.網(wǎng)絡(luò)交易垃圾評論智能識別研究[J].現(xiàn)代情報(bào),2016,36(4):57-61.
[7] VAPNIK V N. An Overview of Statistical Learning Theory[J]. IEEE Transactions on Neural Networks, 1999,10(5):988-999.
Abstract:Automated recognition of review spam from massive online reviews is a prerequisite for the effective use of online reviews by consumers and manufacturers. Based on the behavior characteristics of the commentator and the content of the comment text, this paper uses the support vector machine to construct the spam evaluation model. The experimental results show that this method can effectively identify the spam.
Keywords:review spam; behavior characteristics; review text
ResearchonReviewSpamRecognitionBasedonUserBehaviorandTextContent
HU Longmao
(Anhui Finance and Trade Vocational College, Hefei 230601, China)
TP18
A
1673-1980(2017)05-0105-03
2017-04-02
安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目“基于產(chǎn)品評論細(xì)粒度情感分析的消費(fèi)者偏好模型構(gòu)建研究”(KJ2017A858)
胡龍茂(1973 — ),男,講師,研究方向?yàn)閿?shù)據(jù)挖掘、自然語言處理。