魏瑾瑞, 王若彤, 王 晗
(1.東北財經(jīng)大學(xué) 統(tǒng)計學(xué)院,遼寧 大連 116025; 2.北京師范大學(xué) 統(tǒng)計學(xué)院,北京 100000)
近年來,隨著電子商務(wù)的迅速發(fā)展,虛假評論的規(guī)模越發(fā)壯大,甚至形成虛假評論群組協(xié)同作案,因此,如何恰當(dāng)識別虛假評論具有重要的現(xiàn)實意義[1]。李璐旸等系統(tǒng)綜述了國內(nèi)外虛假評論識別的現(xiàn)狀,對比總結(jié)了特征設(shè)計、模型方法、數(shù)據(jù)集合評價指標(biāo)等方面,探討與展望了未來的識別研究方向[2]。虛假評論群組是指以共同目的協(xié)同發(fā)布虛假評論的個體組成的群體,相比虛假評論者個體影響力更大、隱蔽性更強(qiáng),對檢測方法的要求更高[3]。目前識別虛假評論的方法主要是參照評論內(nèi)容的文本特征[4,5]和評論者的行為特征[6,7],但是文本特征的模仿成本較低,單純依靠文本特征的識別已被證明效果有限;而依靠評論者行為特征的識別則需要有大量的歷史行為數(shù)據(jù)支撐,對于只發(fā)表一條評價的用戶,傳統(tǒng)模型不能有效解決冷啟動問題。事實上,大量虛假評論并非個體行為,而是有潛在組織的集體行為,評論者、目標(biāo)商品和關(guān)聯(lián)商品構(gòu)成一個巨大的網(wǎng)絡(luò),因此,有不少研究開始轉(zhuǎn)向?qū)μ摷僭u論群組的識別[8~15]。按識別方法的不同,可以區(qū)分為監(jiān)督識別方法和非監(jiān)督識別方法,其中,監(jiān)督識別方法主要采用基于評論內(nèi)容特征的識別方法[5],而非監(jiān)督識別方法則根據(jù)識別特征不同可以分為單個虛假評論者特征、虛假評論群組特征[9,16]、時間序列特征[17]、評論模式特征[6]、行為分布特征[18]等。傳統(tǒng)識別虛假評論群組主要利用評論內(nèi)容的相似性和文本特征[8,9,12,14],也有學(xué)者開始轉(zhuǎn)向結(jié)合群組結(jié)構(gòu)分析的虛假評論群組檢測[11,13,15]。例如,利用虛假評論者的網(wǎng)絡(luò)足跡選擇目標(biāo)產(chǎn)品,進(jìn)而通過挖掘目標(biāo)產(chǎn)品背后所有評論者的評論信息來達(dá)到檢測虛假評論群組的目的[11]。事實上,虛假評論群組與目標(biāo)產(chǎn)品之間已然形成了一定的特殊關(guān)系,對于目標(biāo)產(chǎn)品的選擇并不是隨機(jī)的,而是虛假評論群組背后的組織者經(jīng)過深思熟慮后的決策。因此,盡管現(xiàn)實中很多評論內(nèi)容和行為都可以偽造與模仿,但是用戶之間的關(guān)系以及用戶與產(chǎn)品之間的關(guān)系都存在某種確定的聯(lián)系,本文嘗試通過分析評論者的網(wǎng)絡(luò)行為發(fā)現(xiàn)目標(biāo)產(chǎn)品背后的虛假評論群組。
本文的改進(jìn)之處在于:(1)基于評論者與產(chǎn)品之間的網(wǎng)絡(luò)結(jié)構(gòu)特征挖掘評論者的行為軌跡,通過構(gòu)造2-hop子圖生成模型識別虛假評論群組。(2)利用多次迭代的方式將相似性滿足閾值的評論者放入對應(yīng)的候選群組,從而在有效固定網(wǎng)絡(luò)結(jié)構(gòu)的動態(tài)變化的同時更加準(zhǔn)確地識別潛藏較深的虛假評論群組。(3)采用兩步探測方法,先篩選可疑目標(biāo)產(chǎn)品所對應(yīng)的高度相似的虛假評論者,再對剩余評論者聚類合并識別潛藏較深的虛假評論群組,這種做法在提高虛假評論識別精度的同時可以有效減少識別時長與復(fù)雜度。
完美的虛假評論與真實評論無限接近,令反虛假系統(tǒng)無法識別。最新研究發(fā)現(xiàn)真假評論最大的區(qū)別在于網(wǎng)絡(luò)層面的關(guān)系模式。虛假評論由于其有組織性會呈現(xiàn)出一定的統(tǒng)計規(guī)律。本文重點研究評論者-產(chǎn)品組成的評論網(wǎng)絡(luò)中虛假評論者的網(wǎng)絡(luò)結(jié)構(gòu)特征,通過構(gòu)造網(wǎng)絡(luò)行為得分(Network Behavior Score)識別虛假評論群組,基于評論者與產(chǎn)品的關(guān)系計算PageRank值,根據(jù)得分高低識別無向圖中節(jié)點之間的異常行為。本文提到的節(jié)點中心性是基于度中心性(Degree Centrality)和PageRank中心性(PageRankCentrality)的度量方式得出的結(jié)果,目的是利用這兩項指標(biāo)分別使用局部和全局信息量化無向圖中各個節(jié)點的重要程度,進(jìn)一步通過信息熵與散度量化評論者及評論產(chǎn)品的可疑性。
評論者-產(chǎn)品評論網(wǎng)絡(luò)G包含了m個評論者節(jié)點U,n個產(chǎn)品節(jié)點p及連接它們的評論關(guān)系E,即G=(U,P,E)。評論者包括真實評論者和虛假評論者,產(chǎn)品包括目標(biāo)產(chǎn)品和非目標(biāo)產(chǎn)品,二者通過評論文本進(jìn)行邊的建立。假定一個評論者以文本方式對多個產(chǎn)品進(jìn)行評論,不論是否真實均為有效評論。即在真實評論網(wǎng)絡(luò)中,一個評論者可以對多種產(chǎn)品進(jìn)行同一評論,也可以對一個產(chǎn)品進(jìn)行多種評論,評論者與產(chǎn)品之間行為和對應(yīng)關(guān)系是交錯的,真實評論網(wǎng)絡(luò)的相鄰節(jié)點不應(yīng)過分彼此依賴,基于相鄰節(jié)點多樣性可以分析評論者的相似性。當(dāng)一組評論者的中心性值驟降至一個極小的區(qū)間時是非??梢傻?。
對于一組給定的產(chǎn)品,為了量化它們相鄰節(jié)點多樣性的中心性,先將產(chǎn)品對應(yīng)的評論者所有中心性的值分解,然后通過直方圖來創(chuàng)建其密度的非參數(shù)估計,最后采用信息熵計算直方圖的偏度,信息熵的計算公式為:
(1)
真實評論網(wǎng)絡(luò)本身的自相似性決定了評論網(wǎng)絡(luò)的部分內(nèi)容往往擁有整個評論網(wǎng)絡(luò)的相似屬性。因此,可以利用這一結(jié)構(gòu)特征測量虛假評論造成的分布失真。評論者中心性的直方圖密度之間的KL散度可以表示為:
(2)
其中,P(i)表示產(chǎn)品的評論者的中心直方圖分布,Q表示所有評論者的中心直方圖分布。使用計算P(i)的方式來計算Q,通過自相似性結(jié)構(gòu)特征指標(biāo)中得到評論者的兩個得分指標(biāo)來分別表示中心性,分別為KLdeg(i)和KLpr(i)。分?jǐn)?shù)越高,對應(yīng)產(chǎn)品越可能是虛假評論的目標(biāo)產(chǎn)品。
為了量化產(chǎn)品受到虛假評論攻擊的影響,利用累積分布函數(shù)整合Hdeg(i)、Hpr(i)、KLdeg(i)和KLpr(i)等四個得分指標(biāo)。假設(shè)一組產(chǎn)品中心性的信息熵得分為Hc,則一個特定的Hc(i)經(jīng)驗累積分布函數(shù)可以表示成:
f(Hc(i))=P(H≤Hc(i))
(3)
同理有,
f(KLc(i))=1-P(KL≤KLc(i))
(4)
進(jìn)而有,
f(H(i))=f(Hdeg(i))2+f(Hpr(i))2
(5)
f(KL(i))=f(KLdeg(i))2+f(KLpr(i))2
(6)
(7)
前一節(jié)通過計算一組產(chǎn)品i的網(wǎng)絡(luò)行為得分來測量可疑目標(biāo)產(chǎn)品的異常性。為了進(jìn)一步反向識別虛假評論群組,我們建立一個包括最高網(wǎng)絡(luò)行為得分的頂級產(chǎn)品P1、對應(yīng)的評論者R及其評論的產(chǎn)品P2的子網(wǎng),通過誘導(dǎo)以上k個可疑目標(biāo)產(chǎn)品的所有評論者及其評論的產(chǎn)品得到一個2-hop子圖。該2-hop子圖可以用一個p×u的鄰接矩陣A來表示,其中|P2|=p,|R|=u。
在判斷虛假評論群組的存在性后,采用GroupStrainer算法[11]識別虛假評論群組。該算法通過重新組織所有成員識別虛假評論群組,能夠有效降低識別失誤率。值得注意的是,為了在提高識別精度的同時減少聚類算法負(fù)荷,我們先篩選出高度相似的虛假評論群組再進(jìn)行聚類。由于整個識別過程中虛假評論群組數(shù)目未知,我們借助層次聚類方法將評論者反復(fù)迭代后合并成更大的群組并得到其嵌套層次結(jié)構(gòu)。樸素層次聚類方法在每次迭代只能合并兩個評論者,分析大規(guī)模評論數(shù)據(jù)效率低,因此采用局部敏感哈希算法(Locality Sensitive Hashing Algorithm)提高迭代過程的效率。本文通過選擇多種哈希函數(shù)進(jìn)行映射變換將數(shù)據(jù)點散列成簽名矩陣,接著再散列簽名矩陣,得到每個數(shù)據(jù)點被最終散列到相應(yīng)的存儲桶中,這樣既能夠確保原始數(shù)據(jù)點之間的相似性與他們簽名相等的可能性成正比,也能夠完全控制這種狀況發(fā)生的概率。因此,兩個數(shù)據(jù)點之間相似性越高,生成的簽名匹配的可能性越大,被分散到相同存儲桶中的概率也就越大。對于不同的相似性函數(shù),局部敏感哈希算法會使用不同且適當(dāng)?shù)墓:瘮?shù)。為減少哈希表的空間儲存,運用Jaccard相似度的最小散列法和Cosine相似度的隨機(jī)投影法。
為了客觀評估上述虛假評論群組識別算法的效果,采用亞馬遜數(shù)據(jù)集進(jìn)行實驗分析。該數(shù)據(jù)集來源于大型電子商務(wù)平臺亞馬遜(https://www.amazon.cn/)在中國市場的實際評論,采集窗口是2010年1月1日至2013年12月31日,包括15個一級產(chǎn)品類別的525619個產(chǎn)品的產(chǎn)品信息、1424596個評評論者信息以及7202921條評論的評論信息。該數(shù)據(jù)集的每條評論樣本都包含以下13個字段:評論者ID、產(chǎn)品ID、評論等級、一級類別ID、一級類別名稱、二級類別ID、二級類別名稱、評論日期、產(chǎn)品名稱、評論標(biāo)題、評論內(nèi)容、評論標(biāo)題長度和評論內(nèi)容長度。
實驗分析數(shù)據(jù)采集窗口期內(nèi)前四類最暢銷的產(chǎn)品,包括圖書音像類、手機(jī)數(shù)碼類、美妝個護(hù)類和家居生活類等四類。數(shù)據(jù)清洗時,如果原始數(shù)據(jù)中的評論者ID、評論等級、產(chǎn)品名稱、評論標(biāo)題和評論內(nèi)容等這些關(guān)鍵字段有缺失、含異常值或為重復(fù)樣本,則將其剔除。
將上述兩類算法分別應(yīng)用于四個數(shù)據(jù)集,計算對應(yīng)所有產(chǎn)品的網(wǎng)絡(luò)行為得分,根據(jù)網(wǎng)絡(luò)行為得分的大小可以判斷該產(chǎn)品是否為虛假評論群組所攻擊的目標(biāo)產(chǎn)品。以目標(biāo)產(chǎn)品為種子誘導(dǎo)出評論網(wǎng)絡(luò)的2-hop子圖,再通過GroupStrainer算法識別評論網(wǎng)絡(luò)中的虛假評論群組。
為量化虛假評論群組的評論行為,引入虛假評論者共謀得分(Spammer Collusion Score)和虛假評論者共謀平均得分(Spammer Collusion Average Score):
(8)
(9)
其中,g表示數(shù)據(jù)集中的一個虛假評論群組,ri,rj分別為群組g中的兩個虛假評論者,p(ri),p(rj)分別表示虛假評論者ri和rj攻擊的目標(biāo)產(chǎn)品,n為群組中虛假評論者的總數(shù)。虛假評論群組的共謀平均得分SCAS越高時,該群組的成員之間共謀性越強(qiáng)。
為了使實驗更具說服力,本文使用HDBSCAN算法[19,20]、DBSCAN算法[20,21]、KMeans算法[21]以及GroupStrainer算法進(jìn)行對比實驗,結(jié)果表明四種聚類算法識別出的虛假評論群組個數(shù)以及共謀均分變化趨同,說明識別結(jié)果具有較好的穩(wěn)健性。圖1展示了四類產(chǎn)品數(shù)據(jù)集在四種不同方法下識別出的虛假評論群組個數(shù)以及各個產(chǎn)品數(shù)據(jù)集的共謀平均得分。以HDBSCAN算法的實驗結(jié)果為例,四個數(shù)據(jù)集中隱藏的虛假評論群組的數(shù)量分別為7個、15個、40個和14個。
從各個產(chǎn)品類別的群組個數(shù)上來看,圖書音像類產(chǎn)品是亞馬遜平臺的主導(dǎo)產(chǎn)品,評論者以及評論數(shù)量是最多的,但是虛假評論群組的數(shù)量卻是最少的;相比較而言,美妝個護(hù)類產(chǎn)品的虛假評論群組反而是數(shù)量最多的,該類產(chǎn)品作為日耗品,主要面向女性消費群體,具有種類多、更換頻率快、使用周期短等特征,因而其潛在市場價值高于圖書音像類產(chǎn)品。同時,真實評論數(shù)量明顯多于虛假評論,這符合我們對網(wǎng)絡(luò)評論中虛假評論行為的基本預(yù)期:大多數(shù)評論還是真實可靠的。
圖1 四種聚類算法的比較
圖2為四個數(shù)據(jù)集中產(chǎn)品信息熵與散度的關(guān)系,方框內(nèi)為正常點,圓圈內(nèi)為異常點,點與產(chǎn)品一一對應(yīng)。以圖書音像類產(chǎn)品為例,圖2(a)和(b)分別表示其度中心性和PageRank中心性的信息熵與散度的關(guān)系,當(dāng)KL散度越大且信息熵越小時,對應(yīng)產(chǎn)品月的可疑性越高。同理,圖(c)和(d)、(e)和(f)、(g)和(h)分別為手機(jī)數(shù)碼類、美妝個護(hù)類和家居生活類產(chǎn)品的信息熵與KL散度的關(guān)系。綜合來看,圖書音像類與手機(jī)數(shù)碼類產(chǎn)品中異常點明顯多于其他兩類產(chǎn)品,出于隱藏虛假評論行為的考慮,產(chǎn)品數(shù)量更多的類別可能存在更多可疑目標(biāo)產(chǎn)品。進(jìn)一步,以頂級產(chǎn)品P1為種子從前文建立的子網(wǎng)中誘導(dǎo)出2-hop子圖。圖書音像類和美妝個護(hù)類產(chǎn)品的共謀均分在0.57左右,說明這兩類產(chǎn)品更受消費者青睞,虛假評論群組通過攻擊部分非目標(biāo)產(chǎn)品進(jìn)行偽裝以獲得經(jīng)濟(jì)利益。手機(jī)數(shù)碼類和家居生活類產(chǎn)品的共謀均分更高,偽裝度更低,分別為0.83和1.00。
為進(jìn)一步驗證模型的準(zhǔn)確性和穩(wěn)健性,在前文的模型對比實驗基礎(chǔ)上,回溯并比較真假評論的統(tǒng)計特征差異。下圖3為虛假評論與真實評論統(tǒng)計特征。評論等級為好評比例,評論日期是同時發(fā)布評論的比例,產(chǎn)品名稱是目標(biāo)產(chǎn)品占總產(chǎn)品數(shù)量的比例,重復(fù)評論是重復(fù)評論占所有評論的比例。此外,定義評論集中度為評論者與產(chǎn)品數(shù)量的比值,表示同一評論者評論同類產(chǎn)品的頻率??梢园l(fā)現(xiàn),虛假評論的評論集中度是真實評論的3.3~5.7倍,其中手機(jī)數(shù)碼類產(chǎn)品差異最大。該類產(chǎn)品變遷快,消費者盲區(qū)多,說明虛假評論群組偏好攻擊消費者陌生的領(lǐng)域。從評論日期和重復(fù)評論來看,虛假評論的同質(zhì)性非常明顯,其中,圖書音像類產(chǎn)品差異性最小。值得注意的是,虛假評論的評論等級與真實評論趨同,即虛假評論群組并非直接刷高評論等級,而是通過文本好評吸引消費者。事實上,價格相近的同種產(chǎn)品,如果店鋪的好評率過高反而容易引起消費者懷疑。相比產(chǎn)品評論等級,消費者更青睞參考評論文本。此外,通過對比真假評論的網(wǎng)絡(luò)結(jié)構(gòu)可以發(fā)現(xiàn),虛假評論的群組特征比真實評論更明顯,呈現(xiàn)出有組織的網(wǎng)絡(luò)結(jié)構(gòu)。二者的區(qū)別在于評論者之間是否存在以目標(biāo)產(chǎn)品為媒介的緊密關(guān)聯(lián)。
圖2 四個數(shù)據(jù)集的信息熵與KL散度關(guān)系圖
圖3 虛假評論與真實評論統(tǒng)計特征對比
隨著購物評論生產(chǎn)的日益專業(yè)化和商業(yè)化,評論作為個人行為非常容易被模仿,因此基于個體層面的文本或行為特征識別往往容易引起誤判。事實上,現(xiàn)實中識別虛假評論的目標(biāo)并非止于單條評論的是非判斷,而是追蹤到虛假評論背后的組織者(被雇傭者)以及目標(biāo)產(chǎn)品(雇傭者),從源頭上予以警告和打擊。不同于普通的社交網(wǎng)絡(luò),專業(yè)化的虛假評論是并發(fā)的集體行為,其目標(biāo)產(chǎn)品選擇不是隨機(jī)決策,因此基于評論者與產(chǎn)品的網(wǎng)絡(luò)結(jié)構(gòu)特征可以很好地識別虛假評論群組,而且虛假評論群組的識別過程也可以一并篩查出其攻擊的目標(biāo)產(chǎn)品,可操作性更強(qiáng)。
根據(jù)樣本的評論行為計算其所對應(yīng)產(chǎn)品的相鄰節(jié)點多樣性與自相似性,通過累積分布函數(shù)估算二者概率將其綜合為網(wǎng)絡(luò)行為得分,基于此對虛假評論群組攻擊的目標(biāo)產(chǎn)品進(jìn)行篩選,進(jìn)而以可疑產(chǎn)品為種子建立2-hop子圖作為后續(xù)識別虛假評論群組的子樣本數(shù)據(jù),結(jié)合局部敏感哈希算法的層次聚類識別評論樣本中的虛假評論群組。基于亞馬遜評論數(shù)據(jù)集檢驗了該方法的識別能力,發(fā)現(xiàn)該方法能夠有效識別隱藏較深的大規(guī)模虛假評論群組,且虛假評論群組對目標(biāo)產(chǎn)品的攻擊模式存在產(chǎn)品類別差異;最后將算法得出的虛假評論與真實評論進(jìn)行對比,虛假評論的同質(zhì)性非常明顯,評論日期更加緊湊,評論者集中度較高,虛假評論群組的目的也并非簡單直接刷高評論等級,而是傾向于通過文本好評來吸引消費者。不足之處在于,識別過程中未能充分利用評論樣本的文本及行為特征,未來可以考慮將其作為輔助信息提升識別精度。