• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      在線產(chǎn)品虛假評論檢測技術(shù)研究

      2018-03-20 11:37:46海,王
      沈陽理工大學(xué)學(xué)報 2018年6期
      關(guān)鍵詞:度量正確率人群

      呂 海,王 琢

      (沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽 110159)

      隨著互聯(lián)網(wǎng)時代到來和移動終端設(shè)備的普及,中國互聯(lián)網(wǎng)購物領(lǐng)域出現(xiàn)了很多網(wǎng)上購物平臺,隨之出現(xiàn)的網(wǎng)上評論系統(tǒng)可讓已經(jīng)購買商品的用戶以評論的形式把使用感受表達出來,給其他對該商品有購買欲望的用戶做為選購商品的參考。因此,購物平臺上的大量商家通過招募虛假評論寫手來對自家商品發(fā)表好評,同時,也對競爭商家的商品發(fā)表差評。此外,網(wǎng)上評論系統(tǒng)對虛假評論寫手發(fā)表的虛假評論沒有嚴(yán)格的檢測措施,導(dǎo)致虛假評論泛濫。這種受利益驅(qū)使故意發(fā)表虛假評論的行為叫做評論欺詐[1]。

      虛假評論的問題自從出現(xiàn)以后,引起了相關(guān)學(xué)者的高度關(guān)注,大量的虛假評論檢測方法也被提出,現(xiàn)階段對虛假評論檢測有很多學(xué)者進行了詳細的研究[2-3],但這些檢測方法對虛假評論檢測并沒有取得很好的效果。以前學(xué)者們對虛假評論檢測的研究都是基于離線方式,這種方式通過檢測虛假評論數(shù)據(jù)集的歷史數(shù)據(jù),達到發(fā)現(xiàn)虛假評論欺詐活動的目的。此方式運行虛假評論檢測算法時間過長,而且評論數(shù)據(jù)集的歷史數(shù)據(jù)對當(dāng)前正在發(fā)生的虛假評論數(shù)據(jù)來說時效性很差。因此,最近有學(xué)者提出在線檢測方式,在線檢測的方式是對正在發(fā)生的虛假評論欺詐活動進行檢測。這種檢測方式通過對評論數(shù)據(jù)進行實時更新,每次只檢測離當(dāng)前時間最近一部分的評論數(shù)據(jù),可以使消費者受到虛假評論的影響降到最低?;谠诰€檢測的方式是虛假評論檢測領(lǐng)域中一個重要的研究方向,Junting Ye等[4]提出了使用指示性信號來對虛假評論進行在線檢測,該算法的輸入為單個產(chǎn)品的所有評論數(shù)據(jù),輸出為根據(jù)單個產(chǎn)品的評論數(shù)據(jù)計算得到的指示性信號時間序列;通過觀察指示性信號在時間序列上的變化來對虛假評論欺詐活動的爆發(fā)進行在線檢測。這種算法的缺點是只能對單個產(chǎn)品的評論數(shù)據(jù)進行在線檢測,不能對多個產(chǎn)品混合的評論數(shù)據(jù)進行在線檢測,也不能對虛假評論人進行有效的篩選。

      本文提出一種新的在線產(chǎn)品虛假評論檢測算法。該算法分為四個部分:(1)使用時間窗口提取時間序列上的評論數(shù)據(jù),將評論數(shù)據(jù)生成二部圖結(jié)構(gòu),然后轉(zhuǎn)化為評論人圖結(jié)構(gòu),最后計算評論人圖中評論人之間的權(quán)重,得到帶權(quán)評論人圖;通過時間窗口在時間序列上不斷滑動生成動態(tài)帶權(quán)評論人圖。(2)使用SCAN算法[5]對時間窗口內(nèi)的帶權(quán)評論人圖進行圖聚類,得到候選虛假評論人群組。(3)計算候選虛假評論人群組的欺詐特征。(4)使用SVM算法[6]對群組欺詐特征訓(xùn)練分類器。

      1 基本概念簡介

      時間窗口:數(shù)據(jù)集隨著時間的變化不斷進行更新,每個時間單位都會有新的數(shù)據(jù)加入數(shù)據(jù)集,可以把這些不斷加入數(shù)據(jù)集的數(shù)據(jù)以時間窗口為間隔,在時間序列上分成小的數(shù)據(jù)集,對時間窗口內(nèi)的數(shù)據(jù)進行實時挖掘。即把歷史數(shù)據(jù)丟棄,只使用離現(xiàn)在時間較近時間窗口內(nèi)的數(shù)據(jù)集。為維護時間窗口內(nèi)的數(shù)據(jù),需要對時間窗口進行滑動處理,使時間窗口隨著時間序列的滑動丟棄掉最遠時間的數(shù)據(jù),添加最近時間的數(shù)據(jù)。

      SCAN算法:SCAN算法是基于DBSCAN算法改進而來的社交網(wǎng)絡(luò)聚類算法。該算法的主要思想是在考慮圖中節(jié)點之間的關(guān)系時,把節(jié)點之間是否直接相連考慮在內(nèi),聚類條件是以節(jié)點之間共有的鄰居為標(biāo)準(zhǔn)。

      SVM算法:支持向量機(Support Vector Machines)是一種有監(jiān)督學(xué)習(xí)的二分類模型。SVM算法通過尋找一個超平面對正負樣本分割來訓(xùn)練分類器,分割的原則是樣本到超平面的幾何間隔最大化,最終將問題轉(zhuǎn)化為一個凸二次規(guī)劃來求解。

      2 算法模型

      2.1 動態(tài)帶權(quán)評論人圖的建立

      使用時間窗口對時間序列上的評論數(shù)據(jù)進行分割,時間窗口包含兩個參數(shù),第一個是時間窗口長度(t),第二個是時間窗口滑動步長(Δ)。根據(jù)時間窗口內(nèi)的評論數(shù)據(jù)生成二部圖,然后將二部圖中評論人和產(chǎn)品的關(guān)系轉(zhuǎn)化為評論人與評論人的關(guān)系,即評論人圖。在評論人圖中設(shè)置權(quán)重來描述評論人之間關(guān)系的緊密度。對評論人圖中任意兩個有邊相連的評論人進行計算,評論人i和j都對同一個產(chǎn)品k發(fā)表過評論,然后用這兩個評論人對產(chǎn)品k的評論信息計算時間緊密度(TimeSim)和評分緊密度(RatingSim)。通過時間緊密度和評分緊密度求出評論人i和j對產(chǎn)品k的緊密度(Tightness)。具體見公式(1)~(3)所示。

      (1)

      (2)

      (3)

      通過評論人i和j共同評論過產(chǎn)品的緊密度(Tightness)和杰卡德相似度,計算評論人i和j之間的權(quán)重(W)。具體見公式(4)所示。

      (4)

      式中Pi、Pj分別表示評論人i、j評論過所有產(chǎn)品的集合。

      通過公式(4)得到評論人圖中評論人之間邊的權(quán)重(W)后,設(shè)置一個W的閾值(δ),如果W≥δ,則保留評論人之間的邊;如果W<δ,則去掉評論人之間的邊。

      通過以上操作可以在時間窗口內(nèi)得到一個“靜態(tài)”的帶權(quán)評論人圖。對時間窗口進行滑動,使時間窗口內(nèi)評論數(shù)據(jù)不斷發(fā)生變化,從而使帶權(quán)評論人圖由“靜態(tài)”變成“動態(tài)”。

      2.2 生成候選虛假評論人群組

      在時間窗口內(nèi)的帶權(quán)評論人圖由靜態(tài)變成動態(tài)之前,需要先從評論人圖中找到評論人之間的密集區(qū)域。本文使用SCAN算法挖掘出評論人圖中密集的部分,稱之為候選虛假評論人群組。而在時間序列中,對于前后兩個相連時間窗口重疊范圍內(nèi)生成的候選虛假評論人群組,如果前后時間窗口內(nèi)生成的候選虛假評論人群組重復(fù)度(overlap)大于等于0.8,則刪除前面時間窗口重疊范圍內(nèi)的候選虛假評論人群組,保留后面時間窗口重疊范圍內(nèi)的候選虛假評論人群組,反之,則都保留。具體公式見式(5)所示。

      (5)

      式中:VT(g)1表示前一個時間窗口內(nèi)評論人群組的評論;VT(g)2表示后一個時間窗口內(nèi)評論人群組的評論。

      2.3 群組欺詐特征

      (1)評分相似度CDR

      CDR(g)=avgri,rj∈Rge-|ψri-ψrj|2

      (6)

      式中:ri、rj分別表示評論人i、j的評論;ψri、ψrj分別表示評論人i、j評論的評分;Rg表示評論人群組中全部評論人的集合。

      (2)時間相似度CDT

      CDT(g)=avgri,rj∈Rge-|tri-trj|2

      (7)

      式中tri、trj分別表示評論人i、j評論的時間。

      (3)文本長度相似度CDC

      (8)

      式中:Lri、Lrj分別表示評論人i、j評論的文本長度。

      (4)文本余弦相似度CDCS

      CDCS(g)=avgri,rj∈Rgcos(φri,φrj)

      (9)

      式中φri、φrj分別表示評論人i、j評論文本內(nèi)容。

      (5)文本杰卡德相似度CDJS

      CDJS(g)=avgri,rj∈RgJaccard(φri,φrj)

      (10)

      2.4 訓(xùn)練分類器

      使用SVM算法對訓(xùn)練數(shù)據(jù)集時間窗口內(nèi)的評論人群組特征訓(xùn)練分類器。將評論人群組中作弊度(μ)大于等于0.2的評論人群組特征定義為作弊群組,反之,定義為非作弊群組。具體公式見式(11)所示。

      (11)

      式中:spam(V)表示作弊評論;all(V)表示全部評論。

      3 實驗及結(jié)果

      3.1 實驗數(shù)據(jù)集及度量指標(biāo)

      實驗數(shù)據(jù)集為Yelp評論數(shù)據(jù)集,該數(shù)據(jù)集是在Yelp.com站點上分享的已經(jīng)標(biāo)注過的評論數(shù)據(jù)集,是紐約地區(qū)所有酒店評論數(shù)據(jù)。評論數(shù)據(jù)集有評論人ID、產(chǎn)品ID、評論評分、評論標(biāo)注、評論日期和評論文本信息。本文從中選取一部分作為實驗數(shù)據(jù)集。表1中顯示了數(shù)據(jù)集的一些統(tǒng)計信息。

      表1 數(shù)據(jù)集的統(tǒng)計結(jié)果

      本文使用適合對于二分類問題進行度量的正確率、精確率和召回率作為度量指標(biāo)。實驗中的在線檢測是對正在發(fā)生的虛假評論欺詐活動進行檢測,即對當(dāng)前時間戳所屬時間窗口長度(t)范圍內(nèi)的評論人群組特征數(shù)據(jù)進行檢測;并以當(dāng)前時間戳向后推移,推移距離為時間窗口滑動步長(Δ)。因為對單個“當(dāng)前”時間窗口進行檢測結(jié)果并不能衡量算法的穩(wěn)定性,同時隨著時間的變化,需要不斷檢測“當(dāng)前”時間窗口(即正在發(fā)生的虛假評論活動)。因此,實驗中計算的正確率、精確率、召回率和F1值為檢測所有“當(dāng)前”時間窗口結(jié)果的平均值。

      3.2 實驗過程及結(jié)果分析

      首先對評論數(shù)據(jù)集進行預(yù)處理,將評論人ID、產(chǎn)品ID和評論人評分從字符型轉(zhuǎn)換為整型,將評論日期轉(zhuǎn)換為時間戳。其次,以評論數(shù)據(jù)的時間戳為基準(zhǔn)建立一個時間序列,設(shè)置好時間窗口長度(t)和時間窗口滑動步長(Δ)。通過參數(shù)得到時間窗口內(nèi)的評論數(shù)據(jù),將評論數(shù)據(jù)生成二部圖結(jié)構(gòu),然后轉(zhuǎn)化為評論人圖結(jié)構(gòu)并利用公式(1)~(4)計算評論人之間邊的權(quán)重,同時設(shè)置一個權(quán)重閾值(δ),帶權(quán)評論人圖中大于等于δ的邊保留,反之則刪除。使用SCAN算法對帶權(quán)評論人圖進行圖聚類,得到評論人群組,同時利用公式(5)刪除重復(fù)的評論人群組。利用欺詐特征公式(6)~(10)計算評論人群組特征。利用公式(11)對時間窗口內(nèi)的評論人群組標(biāo)注。將實驗數(shù)據(jù)集所得到的評論人群組特征數(shù)據(jù)分為兩部分,2012年評論人群組特征數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集,2013年和2014年評論人群組特征數(shù)據(jù)為檢測數(shù)據(jù)集。用SVM算法對2012年評論人群組特征訓(xùn)練分類器,并對2013年和2014年的評論人群組特征數(shù)據(jù)進行在線檢測。

      本文對所提出算法的時效性進行分析,在實驗中以檢測數(shù)據(jù)集2013年第一個時間戳為開始時間戳(固定值),選擇不同的結(jié)束時間戳,來對檢測數(shù)據(jù)集時間序列范圍內(nèi)時間窗口生成的評論人群組特征數(shù)據(jù)進行檢測。表2為檢測數(shù)據(jù)時間范圍表。

      表2 檢測數(shù)據(jù)時間范圍設(shè)置表 %

      從表2中的實驗結(jié)果可以分析出,隨著檢測數(shù)據(jù)時間范圍的變大,正確率和精確率先出現(xiàn)不穩(wěn)定性波動后降低,而召回率則先降低后增加,F1值則出現(xiàn)波動性降低。本文所提出的算法對時間范圍是1個月的檢測數(shù)據(jù)進行在線檢測,可以使度量指標(biāo)達到整體最優(yōu);時間范圍是4個月的檢測數(shù)據(jù)可以保持較高的正確率;而隨著時間范圍的不斷變大,除召回率外各項度量指標(biāo)均出現(xiàn)不同程度的下降。

      對算法參數(shù)進行分析,每次只更改其中一個參數(shù)值來比較該參數(shù)對算法度量指標(biāo)的影響,從而將參數(shù)調(diào)整到一個最優(yōu)值。

      時間窗口長度參數(shù)(t)用于控制時間窗口的大小。表3為t參數(shù)設(shè)置表。通過觀察表3 中的參數(shù)和度量指標(biāo)可以發(fā)現(xiàn),當(dāng)參數(shù)t取不同的值時,正確率、精確率和F1值先降低后增加,而召回率則先增加后降低。由此得知,參數(shù)t對全部度量指標(biāo)有一定影響。

      表3 數(shù)據(jù)集中的t參數(shù)設(shè)置表 %

      時間窗口滑動步長參數(shù)(Δ)用于控制時間窗口的滑動速度。表4為Δ參數(shù)設(shè)置表。通過觀察表4中的參數(shù)和度量指標(biāo)可以發(fā)現(xiàn),當(dāng)參數(shù)Δ取不同值時,正確率和精確率先增加后降低,而召回率和F1值則先降低后增加。由此得知,參數(shù)Δ對正確率和召回率有一定影響,但對精確率和F1值影響很小。

      表4 數(shù)據(jù)集中的Δ參數(shù)設(shè)置表 %

      評論人圖中權(quán)重閾值(δ)用于篩選評論人圖中評論人之間關(guān)系的緊密度。表5為δ參數(shù)設(shè)置表。通過觀察表5中的參數(shù)和度量指標(biāo)可以發(fā)現(xiàn),當(dāng)參數(shù)δ取不同的值時,全部度量指標(biāo)均出現(xiàn)反復(fù)劇烈波動。當(dāng)δ取值0.5時,正確率和精確率效果最好,但是召回率和F1值效果最差;當(dāng)δ取值0.8時,召回率效果最好,但正確率和精確率效果最差。由此得知,參數(shù)δ對算法有很大影響,且對不同的度量指標(biāo)存在互斥關(guān)系。

      表5 數(shù)據(jù)集中的δ參數(shù)設(shè)置表 %

      整體來看,本文算法中三個參數(shù)對全部度量指標(biāo)均有不同程度的影響,參數(shù)δ對算法的影響最大。

      4 結(jié)束語

      本文提出的在線產(chǎn)品虛假評論檢測算法,考慮了評論數(shù)據(jù)集的實時性,與其它的離線虛假評論檢測算法相比,忽略了歷史評論數(shù)據(jù),用最近一段時間的評論數(shù)據(jù)對正在發(fā)生的虛假評論欺詐活動進行檢測,及時的對虛假評論預(yù)警。同時,該算法也取得了較高的精確率和召回率,對虛假評論檢測領(lǐng)域有應(yīng)用價值。但也存在一些不足,如使用的欺詐特征過少,需要增加新的欺詐特征來提高算法的度量指標(biāo)。

      猜你喜歡
      度量正確率人群
      有趣的度量
      在逃犯
      模糊度量空間的強嵌入
      門診分診服務(wù)態(tài)度與正確率對護患關(guān)系的影響
      糖尿病早預(yù)防、早控制
      迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
      我走進人群
      百花洲(2018年1期)2018-02-07 16:34:52
      財富焦慮人群
      生意
      品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
      天津護理(2016年3期)2016-12-01 05:40:01
      卓资县| 安塞县| 微博| 桐庐县| 大余县| 剑川县| 津南区| 义乌市| 禹城市| 睢宁县| 柘荣县| 淄博市| 资兴市| 保靖县| 罗田县| 临沭县| 健康| 前郭尔| 鄄城县| 塔河县| 河北省| 陇南市| 南澳县| 常山县| 宁波市| 中卫市| 从化市| 通渭县| 鸡西市| 瓮安县| 青岛市| 平塘县| 昌江| 利川市| 石柱| 平舆县| 新源县| 新乡县| 措美县| 密云县| 启东市|