摘 要 近年來,國內(nèi)外眾多學者對虛假評論檢測進行研究,本文針對虛假評論人進行檢測,利用無監(jiān)督圖嵌入算法(node2vec)獲取評論人向量,進而獲得評論人之間的距離,根據(jù)距離計算出評論人的作弊度。同時將評論人特征融合為作弊先驗,有效地篩選出了有對產(chǎn)品進行虛假評論的評論人。
關鍵詞 虛假評論檢測;圖嵌入;無監(jiān)督學習;特征融合
針對虛假評論檢測問題,本文構(gòu)建評論人圖結(jié)構(gòu)模型,使用無監(jiān)督圖嵌入算法(node2vec)將評論人圖中的節(jié)點嵌入到低維向量空間中,使得圖中的評論人節(jié)點轉(zhuǎn)化為向量,通過計算評論人之間的Frobenius距離以估計評論人在向量空間中的距離,以此衡量評論人的作弊度并排序。
1相關算法
1.1 node2vec算法
node2vec算法[1]是圖嵌入方法的一種。該算法指定了兩個參數(shù),p,q。參數(shù)p稱為返回參數(shù),控制重復訪問剛剛訪問過頂點的概率,p值較高,概率較低。參數(shù)q稱為進出參數(shù),控制著游走方向,實現(xiàn)指定游走趨向于DFS還是BFS,q>1傾向于BFS,q<1則更傾向于DFS。
1.2 特征融合
一組評論特征F{xl1,xl2…xlF},將F融合為一個作弊分數(shù)。后使用經(jīng)驗累積分布函數(shù)統(tǒng)一為可比較的尺度和分布。
經(jīng)過上述步驟后,不同特征極性均轉(zhuǎn)化為f(xli)的值,越低表示作弊嫌疑越高。
隨后將評論先驗轉(zhuǎn)化為評論人先驗。采用Abbr、RD、EXT、DEV、ETF、ISR等特征[2]將該評論人所有評論的最大先驗作為該評論人的作弊先驗 。
2算法模型分析
2.1 圖結(jié)構(gòu)建立
假設有包含了m個評論人U={ui,i=1,2,...,m}對n個產(chǎn)品P={pk,k=1,2,...,n}的所有評論構(gòu)成的數(shù)據(jù)集。數(shù)據(jù)集包括:評論人id,被評論人所評論的產(chǎn)品id,評論人對產(chǎn)品的打分評級,以及打分時間。如圖1所示,評論人ui對產(chǎn)品Pk撰寫了評分為ri的評論Vik,這一系列行為可以用一個元組的形式表示為vik=(ui, pk, rik)。
算法需要有效的虛假評論人的特征,并且當一個產(chǎn)品在短時間內(nèi)突然接收到的評論量暴增時,往往會有大量的虛假評論人參與其中[2-3],這就涉及團體評論作弊活動。
為描述團體作弊活動,基于協(xié)同評論行為構(gòu)建評論人圖模型,如圖1所示。兩條協(xié)同評論的緊密度通過兩者的評論vik和vjk計算得到。用協(xié)同行為緊密度來衡量評論緊密度如定義一。
定義1:給定評論同一產(chǎn)品的兩個評論人ui、uj,撰寫了評論Vik,Vjk,兩條評論的時間差Δt、打分差Δr,定義評論間的緊密度為:
評論人可能評論多個目標產(chǎn)品,因此通過多個協(xié)同評論行為定義評論人的緊密度。
定義2:評論人緊密度,給定兩個評論用戶ui、uj,Pi為評論人ui所評論的產(chǎn)品集合,兩個用戶間的緊密度:
2.2 圖結(jié)構(gòu)算法模型
為計算每一個評論人的作弊度建立評論人-評論人圖模型,如定義3所示。
定義3:評論人圖,令U={u1,u2,u3…um}表示m個評論人的節(jié)點集合,根據(jù)公式得到評論人之間緊密度,建立評論人-評論人圖G=(V,E),E={(ui,uj)│collu(ui,uj)=1,ui,uj ∈U}。
3實驗結(jié)果分析
結(jié)果表明,本文方法與FraudScan方法相比充分利用圖結(jié)構(gòu)信息,考慮協(xié)同評論行為,從全局到局部對虛假評論進行篩查,AP值,精度,NDCG值均有有效提升,并能有效降低篩查誤差。本研究提出的方法可有效應用于實際中,也可為設計基于無監(jiān)督圖嵌入檢測方法的研究提供參考。
參考文獻
[1] GROVER A,LESKOVEC J.Node2vec:scalable feature learning for networks[C].Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining.San Francisco,California,USA:ACM,2016:855-864.
[2] Wang Z,Hu R,Chen Q,et al. ColluEagle: Collusive review spammer detection using Markov random fields [J]. Data Mining and Knowledge Discovery,2019(10):723.
[3] S. Rayana, L. Akoglu. Collective opinion spam detection: bridging review networks and metadata [C].In Proceedings of KDD,Sydney,Australia,2015:985-994.
作者簡介
彭明夷(1996-),女,遼寧省大連市人;沈陽理工大學在讀碩士研究生,專業(yè):計算機技術(shù),學歷:工程碩士,研究方向:大數(shù)據(jù)原理及應用。