• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于有監(jiān)督學(xué)習(xí)的店鋪類虛假評(píng)論檢測(cè)

      2020-06-19 08:45:58王琢汪浩胡潤(rùn)龍高颯
      軟件導(dǎo)刊 2020年4期

      王琢 汪浩 胡潤(rùn)龍 高颯

      摘要:網(wǎng)絡(luò)在線評(píng)論對(duì)于商家和顧客具有重要價(jià)值,因而日益受到虛假評(píng)論行為的沖擊。作為兩個(gè)重要的在線評(píng)論領(lǐng)域,產(chǎn)品類評(píng)論(如亞馬遜、淘寶)和店鋪類評(píng)論(如點(diǎn)評(píng)網(wǎng)、Yelp)在語言特性、評(píng)論行為等方面存在顯著差異。雖然研究者們已提出大量針對(duì)產(chǎn)品類虛假評(píng)論的檢測(cè)方法,但對(duì)于店鋪類虛假評(píng)論的研究仍然較少。針對(duì)Yelp.com網(wǎng)站上旅店、飯店有標(biāo)注的點(diǎn)評(píng)數(shù)據(jù),提取并分析各種評(píng)論欺詐特征,利用多種有監(jiān)督學(xué)習(xí)方法進(jìn)行虛假評(píng)論檢測(cè)。實(shí)驗(yàn)結(jié)果表明,檢測(cè)精度最高可達(dá)74%,AUC值可達(dá)75%。雖然店鋪類虛假評(píng)論具有極強(qiáng)的隱蔽性,但通過權(quán)衡檢測(cè)精度和召回率,可利用有監(jiān)督學(xué)習(xí)方法對(duì)店鋪類虛假評(píng)論進(jìn)行有效檢測(cè)。

      關(guān)鍵詞:網(wǎng)絡(luò)在線評(píng)論;虛假評(píng)論;店鋪類評(píng)論;有監(jiān)督學(xué)習(xí)

      DOI: 10. 11907/rjdk.191695

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      中圖分類號(hào):TP306

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1672-7800(2020)004-0071-04

      Store Fake Review Detection Based on Supervised Learning

      WANG Zhuo.WANG Hao . HU Run-long, GAO Pei

      (School of Information Scierzce and Engineering , rShenyang Ligong Univer.sity,SHenyang110159 . Ch ina )Abstract: Due to the iruportance for both the merchants and customers. online reviews are increasingly under the attack of' f'ake re-views. As the two main review domains , product reviews (e.g. Amazon,Taobao) and store reviews (e.g. Dianping.com, Yelp.com) sig-nificantly dif'ferentiate f'rom each other in linguistics and behaviors. While product fake review detection attracts much research inter-ests. store fake review detection has got less attention. In this paper, we focus on store fake review detection problem by exploiting thelabeled datasets containing hotel and restaurant reviews from Yelp.com. Specifically , we extract and analyse a number of review spamfeatures. with which we use supervised machine learning approaches to detect fake reviews. Experiruents suggest that the ruaximum pre-cision and AUC can reach 74% and 75% , respectively. Although the f'ake reviews f'rom Yelp.com are very deceptive, supervised learn-ing methods are effective in detecting fake store reviews by trading of'f detection precision and recall.Key Words : online review;fake review ; store review;supervised learning

      O 引言

      隨著Web2.0技術(shù)的發(fā)展,電子商務(wù)也發(fā)展迅速。網(wǎng)絡(luò)評(píng)論在網(wǎng)絡(luò)購物中發(fā)揮著重要作用,顧客已習(xí)慣于在購物前首先查看相關(guān)評(píng)論,因此好評(píng)或差評(píng)都將在很大程度上影響顧客的購買選擇。網(wǎng)絡(luò)評(píng)論不僅受到消費(fèi)者重視,商家也極為重視,因此會(huì)千方百計(jì)提高白身產(chǎn)品或服務(wù)的好評(píng)度。然而,有些不法商家或個(gè)人受利益驅(qū)使,故意書寫虛假評(píng)論,以美化白身或貶低競(jìng)爭(zhēng)對(duì)手[1]。據(jù)統(tǒng)計(jì),產(chǎn)品評(píng)分每增加1分,商家可以增加約5.4%的收益[2]。

      Jindal等[3]首先提出虛假評(píng)論檢測(cè)問題,并針對(duì)亞馬遜(Amazon.com)評(píng)論提取大量評(píng)論特征,然后使用樸素貝葉斯、邏輯回歸等機(jī)器學(xué)習(xí)算法對(duì)評(píng)論進(jìn)行“虛假/真實(shí)”分類。其研究發(fā)現(xiàn),虛假評(píng)論檢測(cè)的困難性在于難以獲取大量標(biāo)注數(shù)據(jù)集用于分類器學(xué)習(xí),而只能利用一些重復(fù)或接近重復(fù)的評(píng)論文本作為虛假評(píng)論,并選取非重復(fù)評(píng)論作為真實(shí)評(píng)論,訓(xùn)練多種分類器。但隨著網(wǎng)絡(luò)評(píng)論重要性的不斷提高,評(píng)論作弊行為也越來越隱蔽,單純依賴評(píng)論文本已無法識(shí)別虛假評(píng)論。因此,國(guó)內(nèi)外學(xué)者義提出基于評(píng)論文本3-7]、評(píng)論人之間關(guān)系[8-10]以及評(píng)論行為[11-14]的虛假評(píng)論檢測(cè)方法。

      然而,網(wǎng)絡(luò)評(píng)論具有強(qiáng)烈的領(lǐng)域相關(guān)性,不同的評(píng)論領(lǐng)域(如圖書評(píng)論、飯店評(píng)論等)不僅評(píng)論文本有很大區(qū)別(如使用的詞匯、主題、文體、情感、習(xí)慣等),甚至評(píng)論行為(如打分、評(píng)論頻率)也有很大不同。因此,針對(duì)不同領(lǐng)域的虛假評(píng)論,必須使用不同檢測(cè)方法,才能有效提高檢測(cè)性能。本文將網(wǎng)絡(luò)評(píng)論分為針對(duì)產(chǎn)品的評(píng)論(product re-views)、針對(duì)店鋪的評(píng)論(store reviews)與服務(wù)類評(píng)論(ser-vice reviews)。除在評(píng)論文本和評(píng)論行為方面的差別外,產(chǎn)品評(píng)論和店鋪評(píng)論還有一個(gè)重要區(qū)別是店鋪數(shù)量一般遠(yuǎn)遠(yuǎn)少于產(chǎn)品數(shù)量,造成針對(duì)店鋪的評(píng)論數(shù)量大、評(píng)論顧客多。目前針對(duì)店鋪類虛假評(píng)論檢測(cè)的方法[8]較少,大部分檢測(cè)方法未對(duì)二者進(jìn)行區(qū)分,缺乏針對(duì)性。因此,如何針對(duì)店鋪類虛假評(píng)論特點(diǎn)設(shè)計(jì)有效的檢測(cè)方法是一個(gè)重要研究課題。

      本文首先利用有標(biāo)注的Yelp數(shù)據(jù)集抽取店鋪類評(píng)論的作弊特征,然后利用決策樹、樸素貝葉斯、K近鄰、集成學(xué)習(xí)等機(jī)器學(xué)習(xí)算法,對(duì)店鋪類虛假評(píng)論進(jìn)行檢測(cè),揭示店鋪類虛假評(píng)論特征,比較不同機(jī)器學(xué)習(xí)算法的分類性能,為進(jìn)一步深入理解J占鋪類虛假評(píng)論的特征模式、設(shè)計(jì)更為有效的檢測(cè)手段打下基礎(chǔ)。

      1 Yelp評(píng)論數(shù)據(jù)集介紹

      Yelp( www.yelp.com)是美國(guó)一個(gè)大型網(wǎng)絡(luò)評(píng)論社區(qū),成立于2004年,主要目的是為人們提供當(dāng)?shù)厣虡I(yè)活動(dòng)的點(diǎn)評(píng)服務(wù),內(nèi)容涉及飯店、購物、家政、夜生活、美容等。由于商業(yè)競(jìng)爭(zhēng)的加劇,Yelp受到大量虛假評(píng)論的困擾,因此該網(wǎng)站設(shè)置了虛假評(píng)論過濾器,利用多種算法發(fā)現(xiàn)可疑虛假評(píng)論。Mukherjee等[11]首先利用Yelp的虛假評(píng)論過濾器構(gòu)造一個(gè)虛假評(píng)論標(biāo)注數(shù)據(jù)集(YelpChi),之后Ravana等[15]義構(gòu)造了YelpNYC與YelpZip標(biāo)注數(shù)據(jù)集。其中YelpChi是美國(guó)芝加哥地區(qū)的飯店、旅店評(píng)論,YelpNYC為美國(guó)紐約市飯店和旅店評(píng)論,YelpZip是美國(guó)多個(gè)州郵編連續(xù)區(qū)域的飯店、旅店評(píng)論。由于虛假評(píng)論標(biāo)注的困難性,這些標(biāo)注數(shù)據(jù)集被認(rèn)為是接近準(zhǔn)確的(nearground-truth)。3個(gè)數(shù)據(jù)集都包含了旅店、飯店評(píng)論,本文利用YelpNYC和YelpZip對(duì)店鋪類評(píng)論的虛假性進(jìn)行檢測(cè),具體統(tǒng)計(jì)信息見表l。

      2店鋪類評(píng)論特征提取

      為實(shí)現(xiàn)對(duì)虛假評(píng)論與真實(shí)評(píng)論的準(zhǔn)確分類,從評(píng)論數(shù)據(jù)中提取有效評(píng)論作弊特征是其中的關(guān)鍵。通過對(duì)Yelp標(biāo)注數(shù)據(jù)集進(jìn)行探索性數(shù)據(jù)分析,本文設(shè)計(jì)了一系列文本特征和行為特征,以提高分類的準(zhǔn)確性和召回率。令評(píng)論v= ,其中v.r表示評(píng)論v的作者,v.p表示評(píng)論v所評(píng)論的店鋪或服務(wù),v.為評(píng)論v的打分,v.t表示評(píng)論v的評(píng)論時(shí)間(日期)。文獻(xiàn)[11]指出詞頻特征(unlgram或higram)對(duì)于Yelp虛假評(píng)論區(qū)分度較低,故本研究不采用詞頻特征。

      2.1文本特征

      (1 )WorciCou nt:評(píng)論文本包含的單詞個(gè)數(shù)。虛假評(píng)論者一般沒有購買產(chǎn)品就書寫評(píng)論,加上書寫評(píng)論會(huì)耗費(fèi)大量時(shí)間與精力,所以其評(píng)論數(shù)量通常比真實(shí)消費(fèi)者包含的單詞個(gè)數(shù)要少。

      (2)TextSentiment:虛假評(píng)論者為了故意夸大或貶低產(chǎn)品,其評(píng)論文本的情感極性通常比較明顯[6]。本文利用情感極性計(jì)算包TextBloh計(jì)算評(píng)論文本的情感極性,取值范圍為[-1,1]。為使特征具有單調(diào)性,本文取其絕對(duì)值作為該評(píng)論的情感極性特征。

      2.2行為特征

      ( l)RatingDev:為了提升自身信譽(yù)或貶低競(jìng)爭(zhēng)對(duì)手聲譽(yù),虛假評(píng)論打分值一般與真實(shí)評(píng)論的打分具有顯著偏差[11.16]。該特征計(jì)算公式為:

      即評(píng)論v的特征是該評(píng)論打分與同一產(chǎn)品其它評(píng)論打分的均值之差。

      (2) ExtremeRate:評(píng)論作者所寫評(píng)論中極端打分所占比例。真實(shí)用戶一般根據(jù)對(duì)J占鋪的滿意度進(jìn)行打分,分?jǐn)?shù)不盡相同。但虛假評(píng)論者往往書寫極力提升或貶低的評(píng)論。該特征可表示為:

      (3) UserReviews:評(píng)論作者累計(jì)書寫的評(píng)論數(shù)。評(píng)論欺詐者往往只參加一次欺詐活動(dòng),其評(píng)論數(shù)量一般較少。將此評(píng)論人特征作為為該評(píng)論特征。

      (4)TimeSpan:評(píng)論作者活躍時(shí)間。一般作弊評(píng)論者賬戶活躍度差,而真實(shí)用戶會(huì)不時(shí)地書寫評(píng)論。本特征的計(jì)算可表示為:

      其中VT、V.分別表示v.r的最后一次評(píng)論日期和第一次評(píng)論日期。

      (5)Rank:為了使評(píng)論影響極大化,虛假評(píng)論往往搶先發(fā)布,其排列位置靠前。本特征取該評(píng)論在同一店鋪內(nèi)的排列次序。

      (6)KernelDen:在群體評(píng)論欺詐中,存在多個(gè)欺詐者同時(shí)對(duì)一個(gè)店鋪進(jìn)行爆發(fā)型評(píng)論,導(dǎo)致短期內(nèi)評(píng)論密度過大的現(xiàn)象。核密度估計(jì)可以較好地體現(xiàn)評(píng)論密集度[17-18]。為了綜合考慮不同店鋪的評(píng)論總量,本文將該評(píng)論的核密度估計(jì)值乘以該店鋪評(píng)論時(shí)間跨度作為本特征值。令x1.x2...xn為店鋪v.p所有評(píng)論的評(píng)論日期序列,共有n條評(píng)論,則日期x對(duì)應(yīng)核密度可表示為:

      其中h為鄰域?qū)挾?,一般?,K(-)為核函數(shù),可以取高斯核,則有: 于是有:

      (7)TBurst:類似于KerneIDen特征,對(duì)一個(gè)占鋪而言,如果一條評(píng)論在相近時(shí)間內(nèi)存在多條評(píng)論,則該評(píng)論有較大嫌疑。本特征取一條評(píng)論的周圍k條評(píng)論與該評(píng)論的平均時(shí)間差。本研究中取k=4。

      2.3特征標(biāo)準(zhǔn)化

      由于不同特征的取值范圍及其分布有顯著差異,不同特征之間難以相互比較,故采用文獻(xiàn)[15]提出的方法,按特征值進(jìn)行排序,以其排列序號(hào)占總體評(píng)論數(shù)的比值作為其特征標(biāo)準(zhǔn)化值,從而使所有特征取值范圍均歸一化到[O,1]。進(jìn)一步地,對(duì)于取值越小、越可疑的特征F,令F=1-F,從而使特征更趨近于1。

      2.4特征有效性分析

      通過比較每個(gè)特征中真實(shí)評(píng)論和虛假評(píng)論的累計(jì)分布函數(shù)( Cumulative Distribution Function,CDF)曲線,可以觀測(cè)到該特征對(duì)于分類的區(qū)分能力[19。YelpNYC數(shù)據(jù)集的9個(gè)特征對(duì)應(yīng)的CDF比較曲線如圖1所示,可見各特征均有一定區(qū)分度,其中TimeSpan、UserReviews、ExtremeR -ate、WordCount、TextSentiment區(qū)分度明顯。RatingDev特征在該數(shù)據(jù)集中與文獻(xiàn)[11]、[16]中的亞馬遜數(shù)據(jù)集不一致,即本數(shù)據(jù)集中的作弊者打分偏差并不高于真實(shí)用戶,說明產(chǎn)品評(píng)論( Amazon)與店鋪評(píng)論數(shù)據(jù)存在不同行為特征。YelpZip與此類似,這里不再贅述。

      3 基于有監(jiān)督學(xué)習(xí)的虛假評(píng)論檢測(cè)

      3.1檢測(cè)算法

      由于不同機(jī)器學(xué)習(xí)算法采用不同的優(yōu)化策略模型,根據(jù)“沒有免費(fèi)午餐定理( No free lunch theorem)”,不同算法適合不同數(shù)據(jù)集。本文選取sklearn機(jī)器學(xué)習(xí)包中的決策樹( DecisionTree)、樸素貝葉斯(GaussianNB)、K近鄰(KNeighbors)以及集成學(xué)習(xí)算法隨機(jī)森林(RandomFor-est)。LightGBM[20]是最近提出的基于梯度提升決策樹的集成學(xué)習(xí)算法,被證實(shí)具有很高的學(xué)習(xí)效率與很好的分類性能,故本文引入LightGBM算法。

      3.2檢測(cè)結(jié)果比較

      對(duì)整個(gè)數(shù)據(jù)集采用交叉校驗(yàn)法( Cross Validation),隨機(jī)抽取數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,其余20%作為測(cè)試集。機(jī)器學(xué)習(xí)結(jié)果見表2、表3,其中每項(xiàng)指標(biāo)的最優(yōu)值用黑體顯示,可見YelpZip數(shù)據(jù)集檢測(cè)性能整體優(yōu)于YelpNYC。如果側(cè)重檢測(cè)精度,則LightGBM和Random-Forest占優(yōu);如果考慮召回率,則GaussianNB占優(yōu)。

      由于評(píng)論數(shù)據(jù)中虛假評(píng)論占少數(shù),屬于嚴(yán)重不均衡數(shù)據(jù),所以高AUC值往往是第一目標(biāo)。對(duì)于不平衡數(shù)據(jù)集,下采樣(Under-sampling)可以提高分類器性能[5]。將整個(gè)數(shù)據(jù)集的20%作為測(cè)試集,從其余80%樣本中取出全部虛假評(píng)論作為正例,然后從真實(shí)評(píng)論中隨機(jī)取出數(shù)量相等的評(píng)論作為負(fù)例,構(gòu)造訓(xùn)練集訓(xùn)練分類器。其中,每次對(duì)測(cè)試集和訓(xùn)練集分別采樣5次,取其平均值。YelpNYC和YelpZip實(shí)驗(yàn)結(jié)果見表4、表5。

      可見采用下采樣時(shí),使用任何機(jī)器學(xué)習(xí)算法均可得到較高的召回率與較低精度,整體AUC值大幅提升。主要由于訓(xùn)練集中虛假/真實(shí)評(píng)論比值為1:1,而測(cè)試數(shù)據(jù)集中真實(shí)評(píng)論數(shù)量明顯偏大,所以分類器傾向于將真實(shí)評(píng)論分類為虛假評(píng)論。總體來看,集成學(xué)習(xí)算法LGB和Random -Forest的性能較好。顯然,通過平衡下采樣訓(xùn)練集中正例、負(fù)例的比率,可以權(quán)衡檢測(cè)精度和召回率。

      4 結(jié)語

      雖然學(xué)者們已提出多種針對(duì)產(chǎn)品類虛假評(píng)論的檢測(cè)方法,但對(duì)店鋪類虛假評(píng)論檢測(cè)的研究仍然較少。本文利用Yelp數(shù)據(jù)集中的虛假評(píng)論標(biāo)注數(shù)據(jù),提取虛假評(píng)論的文本特征和行為特征,分別利用交叉校驗(yàn)和下采樣法,采用多種機(jī)器學(xué)習(xí)算法對(duì)J占鋪評(píng)論數(shù)據(jù)進(jìn)行有監(jiān)督分類。實(shí)驗(yàn)結(jié)果表明,Yelp店鋪類評(píng)論欺詐具有極強(qiáng)的隱蔽性,虛假評(píng)論和真實(shí)評(píng)論特征分布區(qū)分度不明顯。有監(jiān)督方法在店鋪虛假評(píng)論檢測(cè)中具有一定效果,但需要在召回率和精度之間作出權(quán)衡,并提出利用下采樣法在虛假評(píng)論檢測(cè)中平衡檢測(cè)精度和召回率。本研究提出的有監(jiān)督方法在實(shí)際應(yīng)用中取得了較好效果,也可為下一步設(shè)計(jì)基于無監(jiān)督學(xué)習(xí)的檢測(cè)方法提供參考。

      參考文獻(xiàn):

      [1]陳燕方,婁策群.在線商品虛假評(píng)論形成路徑研究[J]?,F(xiàn)代情報(bào),2015.35(1):49-53.

      [2] LLCA M. Reviews, reputation, and revenue: the case of Yelp.Com[EB/OLl. https: //ssrn.com/abstract=1928601.

      [3]IhrDAL N,LIL B Opinion spam and analysis[C].International Con-ference nn Weh Search&Data Mining, 2008.

      [4]OTT M, CHOI Y,CARDIE C. et al. Finding deceptive opinion spambv aiUT stretch of the imagination[C]. In proc. of ACL:Human Lan-guage Technologies, 2011: 309-319.

      [5]llil,QIN B, REN W,et al. Document representation and featurecomhination for deceptive spam review detection[J]. Neurncomput-ing, 2017,254(6):33-41.

      [6]任亞峰,尹蘭.姬東鴻基于語言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J].計(jì)算機(jī)科學(xué)與探索,2014.8(3):313-320.

      [7]張建鑫 .基于聚類與句子加權(quán)的欺騙性評(píng)論檢測(cè)[J]軟件導(dǎo)刊 , 2019 ,18(2) : 34-37.

      [8]WAhrC G, XIE S. LIU B. et al. Review graph based online store re-view spammer detec.tion[C] . Proceedings of ICDM , 201 I : 1 242-1247.

      [9]WAhrG Z, HOU T. SONG D. et al. Detecting re,'iew spammer groupsvia hipartite graph projection [Jl. Computer Journal, 2016. 59(6) :861-874.

      [10]WANG Z. CU S.ZHAO X. et al. Graph-hased review spammer groupdetection[J]. Knowledge and Information Systems, 2018. 55(3) :571-597.

      [ll]MUKHERJEE A. VENKATARAMAN V. LIU B, et al. What yelpfake review filter might he doing:l[C]. Bosmn: Proceedings of IC-WSM , 2013.

      [12]LIM E P. NCUYEhr y A. JINDAL N, et al. Detecting product review spammers using rating behaviors [C]. Proceedings of the 19th ACMConference on Information and Knowledge Management. 2010.

      [13]孫升蕓 .田萱,何軍 .基 -T-評(píng) ik行為的商 pOa垃圾評(píng)論的識(shí)別研究[J].計(jì)算機(jī)工程與設(shè)計(jì) , 2012. 33(11) : 4314-43 19.

      [14]LIH. FEI G, SHAO W, et al. Bimodal distrihution and co-hurstingin review spam detection rcl. Internatir,nal Conference on WorldWide Web . 2017.

      [15]RAYAhrA S, AKOGLU L. Collectire opinion spam detection: bridg-ing review networks and metadata [c]. Sydney : Proceedings of KDD ,2015.

      [16]MUKHERJEE A. KLrMAR A, LIU B, et al. Spotting opinion spam-mers using hehavioral footprint [C].Chicago : Prnceedings of KDD ,2013.

      [17]FEI C. MUKHERJEE A, LIU B, et al. Exploiting hurstiness in re-views for reriew spammer detection [C]. 17th AAAI Conference onWehlogs and Social Media. 2013.

      [18]wANG Z, cu s. XU X.CSLDA: LDA-hased group spamming de-tection in product reviews [J]. Applied Intelligence, 2018. 48 (9) :3094-3107.

      [19]MUKHERJEE A. BINC L. GLAhrCE N. Spotting fake reviewergroups in consumer reviews [c].International Conference on V-orldWide Web . 2012.

      [20]KEG, MENG Q, FIhrLEY T, et al. LightCBM: a highly efficientgradient boosting decision tree[C]. Long Beach: Proceedings ofNIPS.2017.

      收稿日期:2019-05-13

      作者簡(jiǎn)介:王琢(1969-),男,碩士,CCF會(huì)員,沈陽理工大學(xué)信息科學(xué)與工程學(xué)院副教授,研究方向?yàn)闄C(jī)器學(xué)習(xí);汪浩(1994-),男,沈陽

      理工大學(xué)信息科學(xué)與工程學(xué)院碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)。

      泸溪县| 仙桃市| 盖州市| 通江县| 忻城县| 道孚县| 双桥区| 西林县| 江陵县| 新巴尔虎左旗| 梁山县| 铁岭县| 桃园县| 西峡县| 建湖县| 德州市| 库伦旗| 抚宁县| 吉首市| 阳城县| 蕉岭县| 汾阳市| 马关县| 七台河市| 榆中县| 辉南县| 临潭县| 枞阳县| 贵港市| 克什克腾旗| 重庆市| 青冈县| 资阳市| 孙吴县| 浙江省| 泰和县| 焦作市| 孝感市| 鹤峰县| 咸阳市| 华池县|