陳侃,陳亮,朱培棟,熊岳山
(國防科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙410073)
網(wǎng)絡(luò)水軍出于政治或經(jīng)濟(jì)等目的對在線社會(huì)網(wǎng)絡(luò)中的信息進(jìn)行推廣,使目標(biāo)信息在極短的時(shí)間內(nèi)大范圍擴(kuò)散,同時(shí)利用數(shù)量優(yōu)勢影響用戶對其真實(shí)性的判斷。根據(jù)內(nèi)容和功能的不同,常見目標(biāo)信息包括廣告、木馬和惡意鏈接、謠言等。廣告水軍以病毒營銷的方式發(fā)布目標(biāo)產(chǎn)品的不實(shí)描述,誘導(dǎo)用戶對產(chǎn)品真實(shí)質(zhì)量產(chǎn)生誤判。病毒、木馬和釣魚網(wǎng)站被隱藏在正常內(nèi)容中,或以中獎(jiǎng)等方式吸引用戶點(diǎn)擊,通過超鏈接重定向到惡意程序所在的頁面感染用戶。謠言傳播目的在于散布謠言并說服他人,不僅能夠引導(dǎo)社會(huì)輿論,還可能引發(fā)大范圍社會(huì)恐慌,甚至對國家安全和社會(huì)穩(wěn)定造成威脅[1]。近年來爆發(fā)了多起網(wǎng)絡(luò)造謠事件,例如“搶鹽風(fēng)波”[2]、“地震謠言”[3]等,對人民生活和社會(huì)治安造成嚴(yán)重困擾和威脅。
網(wǎng)絡(luò)水軍已成為工業(yè)界和學(xué)術(shù)界面臨的重要課題,多種網(wǎng)絡(luò)水軍檢測方法也被提出,如基于文本的方法[4]、基于黑名單的方法[5]和基于用戶特征[6]的方法等。其中基于文本的方法適用于具有明顯關(guān)鍵字的水軍信息,如廣告等;基于黑名單的方法適用于檢測包含惡意鏈接的水軍信息;基于用戶行為模式的方法適用于檢測具有明顯水軍特征的水軍用戶。這些檢測方法局限性在于都只能檢測單一種類的水軍,在海量信息的條件下為保證低漏檢率需要綜合使用,從而增加檢測的復(fù)雜性和時(shí)空耗費(fèi)。因此設(shè)計(jì)一個(gè)通用性的檢測方法具有重要意義。
本文提出了一種基于傳播交互的水軍檢測方法。在線社會(huì)網(wǎng)絡(luò)中,用戶交互是引起信息傳播的根本途徑。水軍雖然種類多樣,但在交互行為上具有共同特性,而且與正常用戶的交互行為表現(xiàn)出明顯差異,因此從傳播交互角度出發(fā)進(jìn)行檢測更具有通用性。
近年來,隨著在線社會(huì)網(wǎng)絡(luò)的流行,網(wǎng)絡(luò)水軍越來越多地以在線社會(huì)網(wǎng)絡(luò)作為水軍活動(dòng)的主要平臺(tái),知名網(wǎng)站如 Facebook、Twitter和 Myspace等都已經(jīng)成為了水軍活動(dòng)的重要場所[5~7]。其他諸如論壇[8]、視頻共享網(wǎng)站[9]、博客[10]等在內(nèi)的在線網(wǎng)絡(luò)也都已成為網(wǎng)絡(luò)水軍發(fā)動(dòng)水軍攻擊的平臺(tái)[11]。
水軍檢測可分為人員檢測和信息檢測,二者檢測對象不同。人員檢測針對水軍成員,信息檢測針對水軍傳播的信息。檢測的一般觀點(diǎn)是抽取特征,并利用特征分離水軍成員或水軍信息。
Irani通過用戶注冊信息對水軍成員進(jìn)行檢測[6],這種方法使檢測可以在用戶注冊時(shí)進(jìn)行,但準(zhǔn)確性較低,水軍用戶也可以隨時(shí)更改信息逃避檢測。Benevenut使用SVM分類器對Twitter中網(wǎng)絡(luò)水軍進(jìn)行檢測[12],使用的特征包括信息中包含鏈接的比例、用戶賬號(hào)使用時(shí)間、關(guān)注者的關(guān)注比例等。Wang利用Twitter中25 847個(gè)用戶信息對網(wǎng)絡(luò)水軍進(jìn)行檢測[13],檢測特征包括關(guān)注與被關(guān)注度、轉(zhuǎn)發(fā)數(shù)量、雙向交互數(shù)量以及鏈接比例等。
信息檢測主要是根據(jù)信息內(nèi)容分析水軍特征,例如信息中鏈接特征以及基于自然語言處理的文本分類[14]。Zhang使用基于鏈接相似性的方法關(guān)聯(lián)水軍活動(dòng)[15],并采用基于機(jī)器學(xué)習(xí)的方法對可能的水軍活動(dòng)進(jìn)行檢測。Blacklist方法利用知名的blacklist站點(diǎn)來檢測包含惡意鏈接的水軍信息。Gao使用此方法對 Facebook留言墻中包含惡意鏈接的信息進(jìn)行分析[16]。Grier研究了Twitter傳播信息中的惡意鏈接[5],結(jié)果表明Twitter上8%的鏈接都被重定向到惡意網(wǎng)站。他的工作還證明blacklist無法解決新的威脅,當(dāng)一個(gè)惡意鏈接被標(biāo)注為 blacklist之前已經(jīng)有超過90%的用戶被感染。文本內(nèi)容也是水軍檢測的重要特征。Raymond通過分析評論文本與正常用戶評論的差異來發(fā)現(xiàn)網(wǎng)絡(luò)水軍發(fā)布的虛假評論[4]。Chen利用回復(fù)、積極性及語義特征對新聞網(wǎng)絡(luò)上的網(wǎng)絡(luò)水軍信息進(jìn)行檢測,可以提供95%的檢測準(zhǔn)確率[17]。
當(dāng)前網(wǎng)絡(luò)水軍檢測的難點(diǎn)一方面在于檢測的準(zhǔn)確性有待提高,另一方面在于水軍種類多樣,賬號(hào)多變,而檢測方法大都只面向于單一種類的水軍,無法提供通用的檢測方案。為了保證檢測的準(zhǔn)確性需要同時(shí)使用多種檢測機(jī)制,造成系統(tǒng)復(fù)雜性的提升和計(jì)算量的增加。
雇用網(wǎng)絡(luò)水軍的目的在于信息傳播,雇主將產(chǎn)品、言論或觀點(diǎn)在在線社會(huì)網(wǎng)絡(luò)中推廣,一方面需要增加信息傳播廣度,使其對更多用戶可見;另一方面需要增加信息可信度,從而能夠更好地影響用戶,這些都是通過用戶交互來實(shí)現(xiàn)的。
用戶交互是信息傳播的基本方式和根本動(dòng)力。根據(jù)平臺(tái)不同,交互類型也有不同,例如關(guān)注、轉(zhuǎn)發(fā)、評論、點(diǎn)贊、收藏等。其中關(guān)注、轉(zhuǎn)發(fā)和評論是在線社會(huì)網(wǎng)絡(luò)中通用的交互方式。
關(guān)注:A關(guān)注B之后,B新發(fā)布的信息會(huì)實(shí)時(shí)推送給A。
轉(zhuǎn)發(fā):A轉(zhuǎn)發(fā)B的信息,該信息從B的頁面復(fù)制到A的頁面,引起信息傳播。
評論:A評論B的信息,評論內(nèi)容仍在B的頁面顯示,不會(huì)引起信息傳播,但會(huì)對信息可信性和說服力造成影響。
雖然水軍種類多樣,而且水軍賬號(hào)不斷變化,但從信息傳播的角度來看,無論水軍信息還是正常信息都有其固有的傳播模式。這些模式體現(xiàn)在用戶之間的交互上,從這3種交互行為入手對網(wǎng)絡(luò)水軍和正常用戶在信息傳播中的行為差異進(jìn)行分析,就能為水軍信息檢測提供通用性的檢測方案。
用F(u)、R(u)、C(u)分別表示用戶u的關(guān)注、轉(zhuǎn)發(fā)和評論集合。其中,F(xiàn)(u)是由其他用戶組成的無序集合;R和C中的元素為類似<user,time>的二元組,user代表發(fā)布信息的用戶,time為信息發(fā)布時(shí)間,集合按照time排序。
由于轉(zhuǎn)發(fā)和評論在行為上都表現(xiàn)為信息的再發(fā)布,行為表現(xiàn)和特征描述都具有相似性。為避免重復(fù)將轉(zhuǎn)發(fā)和評論通稱為傳播,傳播集合用D(u)表示。根據(jù)交互主體的不同,將傳播特征分為關(guān)注者-傳播者、發(fā)布者-傳播者、傳播者-傳播者3種類型。其關(guān)系如圖1所示。
圖1 基于交互行為的信息傳播模型
信息傳播的前提是信息可見,在線社會(huì)網(wǎng)絡(luò)中用戶A發(fā)布的信息對用戶B可見的方式主要有以下幾種。
1)B關(guān)注A,B就可以實(shí)時(shí)獲得A的更新。由于在線社會(huì)網(wǎng)絡(luò)中推送機(jī)制的廣泛使用,新的信息發(fā)布后會(huì)立即推送給關(guān)注者。
2)B關(guān)注C,C轉(zhuǎn)發(fā)A的信息。那么B就可以通過C間接訪問到A發(fā)布的信息。B和A之間可能存在多跳。
3)B直接獲取A發(fā)布信息的鏈接,通過鏈接訪問。
通過觀察發(fā)現(xiàn)一般用戶主要通過前2種方式訪問信息,而網(wǎng)絡(luò)水軍則主要通過第3種方式訪問目標(biāo)信息。這是因?yàn)樗娕c雇主之間通常不存在直接的關(guān)注關(guān)系,只能通過雇主給出的鏈接進(jìn)行信息傳播。這使網(wǎng)絡(luò)水軍與正常用戶在關(guān)注-傳播關(guān)系上產(chǎn)生明顯差異。
定義傳播關(guān)系分布用來衡量傳播者與關(guān)注者之間的關(guān)系,用DR表示傳播關(guān)系分布,p為一條信息,u為信息發(fā)布者,DR的計(jì)算式為
其中,P(u)為用戶u發(fā)布的所有信息,|D(p)|表示集合D(p)的元素?cái)?shù)量。DR用來衡量傳播者同時(shí)也是關(guān)注者的比例,正常用戶主要通過關(guān)注關(guān)系獲取信息,而網(wǎng)絡(luò)水軍主要通過鏈接方式獲取信息,因此造成DR值的差異。
發(fā)布者與傳播者之間進(jìn)行直接交互,從交互時(shí)間的角度定義了平均傳播時(shí)間(ADT)、首次傳播時(shí)間(FDT)和傳播啟動(dòng)時(shí)間(DST)3個(gè)特征。
1) 平均傳播時(shí)間
傳播時(shí)間為信息從發(fā)布到最末一次傳播的總時(shí)間,平均傳播時(shí)間用來描述每一條轉(zhuǎn)發(fā)/評論的平均持續(xù)時(shí)間。用ADT表示平均傳播時(shí)間,計(jì)算式為
其中,N=|D(p)|,由于D(p)是按照時(shí)間排序的,因此
網(wǎng)絡(luò)水軍通過完成雇主發(fā)布的傳播任務(wù)獲取報(bào)酬,而報(bào)酬是有限的,如果任務(wù)完成數(shù)量超出獎(jiǎng)勵(lì)限額就不會(huì)獲得報(bào)酬。因此網(wǎng)絡(luò)水軍期望在任務(wù)期限內(nèi)盡可能早地完成任務(wù),而且任務(wù)完成數(shù)量一旦達(dá)到限額就不會(huì)再對信息進(jìn)行傳播。正常信息的傳播僅受限于用戶的使用習(xí)慣,傳播時(shí)間與傳播范圍都沒有具體的界限。
2) 首次傳播時(shí)間
首次傳播時(shí)間用來描述從信息發(fā)布到獲得第一條轉(zhuǎn)發(fā)/評論所等待的時(shí)間,用FDT表示首次傳播時(shí)間,計(jì)算式為
其中,d1為D(p)中第一個(gè)元素。
由于消息實(shí)時(shí)推送機(jī)制的廣泛使用以及移動(dòng)終端應(yīng)用的大力推廣,很多在線社會(huì)網(wǎng)絡(luò)都具有“類實(shí)時(shí)”特性,用戶之間能夠以近似實(shí)時(shí)的方式進(jìn)行交互,信息也能夠在第一時(shí)間被關(guān)注者傳播。而網(wǎng)絡(luò)水軍訪問目標(biāo)信息的方式通常不是通過對被關(guān)注者的推送,而是通過給定的鏈接,因此難以體現(xiàn)出實(shí)時(shí)特性。同時(shí)水軍活動(dòng)任務(wù)的發(fā)布、接受、和實(shí)施都需要耗費(fèi)一定的時(shí)間,使水軍信息的首次傳播時(shí)間比正常信息更長。
3) 傳播啟動(dòng)時(shí)間
傳播啟動(dòng)時(shí)間用來描述一條信息變“可信”所需要的時(shí)間。當(dāng)一條信息的轉(zhuǎn)發(fā)和評論量達(dá)到一定程度時(shí),能夠吸引更多用戶關(guān)注并影響用戶對信息內(nèi)容的判斷。用DST表示傳播啟動(dòng)時(shí)間,計(jì)算式為
其中,m為可信參數(shù),用來描述一條信息產(chǎn)生影響力所需要的轉(zhuǎn)發(fā)/評論的數(shù)量。本文中定義m=1 000。即認(rèn)為一條信息的轉(zhuǎn)發(fā)/評論量超過1 000就能對用戶判斷產(chǎn)生影響。
傳播者與傳播者之間并沒有或很少直接交互,只是在與發(fā)布者交互時(shí)產(chǎn)生時(shí)序關(guān)系。對該時(shí)序關(guān)系進(jìn)行分析可以更好地理解傳播者參與的積極性和行為規(guī)律。從傳播者-傳播者角度定義了平均傳播間隔(ADI)和傳播間隔方差(VDI)2個(gè)特征。
1) 平均傳播間隔
傳播時(shí)間間隔為每兩條相鄰信息之間的時(shí)間間隔,平均傳播間隔為所有傳播時(shí)間間隔的均值。其計(jì)算式為
由于水軍行為多集中在短時(shí)間之內(nèi)進(jìn)行,呈現(xiàn)出突發(fā)特性,因此每2條相鄰信息之間的時(shí)間間隔都很小。而正常用戶發(fā)布的信息出于個(gè)人使用習(xí)慣的差異,時(shí)間間隔相對更大。
2) 傳播間隔方差
傳播間隔方差為所有的傳播間隔之間的方差,用來描述一條信息的所有轉(zhuǎn)發(fā)或評論的時(shí)間間隔的差異程度,計(jì)算方法為
水軍行為的突發(fā)性不僅表現(xiàn)在時(shí)間間隔短,而且間隔分布也處于一個(gè)相對較小的范圍內(nèi)。而普通用戶的轉(zhuǎn)發(fā)和評論受訪問習(xí)慣的影響表現(xiàn)出更大的差異性。
將網(wǎng)絡(luò)水軍檢測問題看作二分類問題,設(shè)P為在線社會(huì)網(wǎng)絡(luò)中所有信息集合,P= {PsUPn},其中,Ps為網(wǎng)絡(luò)水軍推廣的信息集合,Pn為正常信息集合。設(shè)p為一條信息,使用特征向量表示為目標(biāo)函數(shù)為,其中,φ(p)為二分類函數(shù),網(wǎng)絡(luò)水軍檢測即發(fā)現(xiàn)信息p是否屬于集合Ps。
針對二分類問題當(dāng)前已經(jīng)有多種方案,例如決策樹、SVM、Bayes、神經(jīng)網(wǎng)絡(luò)方法等。分類流程包括訓(xùn)練和分類2部分,訓(xùn)練過程通過特征選取和分類訓(xùn)練構(gòu)造分類器,分類過程使用分類器對新的樣本實(shí)現(xiàn)分類。本文選取決策樹C5算法作為分類檢測算法。C5算法采用Boosting方式提高模型準(zhǔn)確率,更適合在線社會(huì)網(wǎng)絡(luò)這類數(shù)據(jù)量較大的場景。
決策樹的根節(jié)點(diǎn)為數(shù)據(jù)樣本集,分支節(jié)點(diǎn)對應(yīng)著對單一屬性的測試,該測試將數(shù)據(jù)空間分割為多個(gè)子集。每條分支對應(yīng)該屬性的不同屬性值,而葉節(jié)點(diǎn)是帶有分類標(biāo)記的樣本集分割。決策樹需要使用訓(xùn)練集構(gòu)建,然后實(shí)現(xiàn)對新樣本的分類檢測。
首先定義相關(guān)概念如下。
信息熵:在樣本集S中,依據(jù)目標(biāo)屬性(是否為水軍信息)將S分為NS和SS這2個(gè)子集,則S的信息熵計(jì)算為
信息增益:屬性D的信息增益Gain(Di)計(jì)算為
信息增益比率:屬性D的信息增益比率計(jì)算為
借助各屬性的信息增益比率構(gòu)建檢測決策樹。設(shè)訓(xùn)練數(shù)據(jù)集S=D1D2D3D4D5D6為6維向量空間,其中,Di(1≤i≤6)分別對應(yīng)模型中定義的6種特征。決策樹構(gòu)建算法如下。
算法1基于傳播特征的決策樹構(gòu)建算法
輸入訓(xùn)練數(shù)據(jù)集S
輸出決策樹DT
1) 初始化,設(shè)t=S為DT的根節(jié)點(diǎn)。
2) 計(jì)算當(dāng)前樣本節(jié)點(diǎn)t的信息熵,以及t中每個(gè)特征屬性Di的信息增益比率GainRatio(Di)。
3) 令Dk=max{GainRatio(Di)},根據(jù)Dk的取值將t劃分為m個(gè)子集,每個(gè)子集為t的一個(gè)分支,對應(yīng)一個(gè)新的決策樹節(jié)點(diǎn)。
4) 依次設(shè)每個(gè)新的決策樹節(jié)點(diǎn)為當(dāng)前樣本節(jié)點(diǎn),重復(fù)步驟 2)~4),直到所有新樣本節(jié)點(diǎn)中的樣本滿足:①都屬于同一目標(biāo)類;②所有屬性都處理完畢;③樣本的剩余屬性取值完全相同。并將這樣的節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。
5) 用所有葉節(jié)點(diǎn)中占多數(shù)的目標(biāo)分類屬性值來標(biāo)記該葉節(jié)點(diǎn),決策樹構(gòu)建完成,返回DT。
構(gòu)造成功之后,就可以使用決策樹對新的樣本值進(jìn)行目標(biāo)屬性的分類檢測。從決策樹的根節(jié)點(diǎn)開始,測試比較這個(gè)節(jié)點(diǎn)對應(yīng)的屬性值,然后選擇正確分支向葉節(jié)點(diǎn)移動(dòng),重復(fù)比較和分支過程,直到到達(dá)葉節(jié)點(diǎn),葉節(jié)點(diǎn)的類別屬性即為最終的分類檢測結(jié)果。
從新浪微博中抓取真實(shí)數(shù)據(jù)分析傳播特征。水軍活動(dòng)以很多方式存在,如廣告水軍、意見水軍、木馬病毒水軍等。盡管內(nèi)容和功能各有不同,但都以同樣的方式被組織和傳播。其中廣告水軍更常見也更容易區(qū)分,因此使用廣告水軍作為原型來分析其傳播特征。
首先通過人工方式對新浪微博中的水軍廣告進(jìn)行標(biāo)注,然后提取這些廣告信息中的關(guān)鍵字。利用新浪微博提供的搜索引擎使用這些關(guān)鍵字進(jìn)行搜索,并保存搜索結(jié)果。
一般地,很多用戶在看到廣告時(shí)會(huì)選擇忽略,極少參與轉(zhuǎn)發(fā)或評論。在搜索結(jié)果中,80%的廣告微博的轉(zhuǎn)發(fā)和評論次數(shù)少于10次,大多數(shù)為0次。此外約10%的微博具有很高的轉(zhuǎn)發(fā)和評論量,認(rèn)為它們較大概率來自于網(wǎng)絡(luò)水軍。過濾掉少于100次評論和轉(zhuǎn)發(fā)的微博,最后得到1 424條水軍數(shù)據(jù)集。
為了與水軍數(shù)據(jù)進(jìn)行對比,還搜集了正常用戶的微博數(shù)據(jù)。采用手動(dòng)方式挑選一些較小概率雇用網(wǎng)絡(luò)水軍的用戶,選取方式是:①熟悉的用戶,如朋友或老師;②教育或科學(xué)界的知名人士。選擇教育或科學(xué)界人士是因?yàn)檎J(rèn)為相比其他行業(yè),這些用戶更小概率會(huì)雇用網(wǎng)絡(luò)水軍。抓取了這些用戶在 4月1日到4月14日之間的所有微博。同樣過濾掉少于100次評論和轉(zhuǎn)發(fā)的微博,最后得到1 687條正常數(shù)據(jù)集。
使用抓取到的數(shù)據(jù)集對水軍用戶和正常用戶的傳播特征進(jìn)行分析,各項(xiàng)特征的累積分布如圖 2所示。
圖2給出了傳播關(guān)系分布(DR)特征的累積分布,可看出水軍信息的特征值遠(yuǎn)小于正常信息的特征值。在轉(zhuǎn)發(fā)特征圖中,80%的水軍信息的DR值小于 0.2,說明 80%的水軍信息中,由關(guān)注者給出的轉(zhuǎn)發(fā)不到總量的20%。與之形成對比的是約80%的正常信息的DR值大于0.2。這一對比在評論特征圖中更加明顯,80%的水軍信息的DR值小于0.1,說明80%的水軍信息中,僅有不到10%的轉(zhuǎn)發(fā)和評論來自于關(guān)注者。這一分布證明了正常信息的轉(zhuǎn)發(fā)和評論主要來源于關(guān)注者,而水軍信息的轉(zhuǎn)發(fā)和評論主要來源于陌生人。
圖2 基于轉(zhuǎn)發(fā)和評論的DR累積分布
圖3給出了平均傳播時(shí)間的累積分布,從圖中可以看出,80%的水軍轉(zhuǎn)發(fā)信息平均持續(xù)時(shí)間少于20 min,而90%的正常用戶的平均持續(xù)時(shí)間都大于20 min。此外,80%的水軍評論信息平均持續(xù)時(shí)間少于30 min,相同時(shí)間下正常評論信息只有不到5%。
圖4給出了首次傳播時(shí)間的累積分布,可以看出水軍和正常信息在FDT上分布差異性明顯。約90%以上的正常信息都可以在10 min之內(nèi)獲取到第一條轉(zhuǎn)發(fā)和評論。而在相同時(shí)間之內(nèi),水軍信息中只有10%能夠獲取到第一條轉(zhuǎn)發(fā),18%能獲取到第一條評論。在1 min內(nèi),約45%的正常信息可以獲得第一條轉(zhuǎn)發(fā)和評論,而水軍信息中只有2%可以獲得第一條轉(zhuǎn)發(fā),7%獲得第一條評論。
圖3 基于轉(zhuǎn)發(fā)和評論的ADT累積分布
圖4 基于轉(zhuǎn)發(fā)和評論的FDT累積分布
圖5給出了傳播啟動(dòng)時(shí)間的累積分布。從圖中可看出正常信息的啟動(dòng)時(shí)間一般小于水軍信息。60%的正常信息的轉(zhuǎn)發(fā)啟動(dòng)時(shí)間小于200 min,該時(shí)間之內(nèi)只有20%的水軍信息獲得應(yīng)有的轉(zhuǎn)發(fā)。DST特征的差異性不如其他特征明顯,評論特征更為相近。
圖5 基于轉(zhuǎn)發(fā)和評論的DST累積分布
圖6給出了平均傳播間隔的累計(jì)分布。從數(shù)量上看,水軍信息的平均傳播間隔小于正常信息。60%的水軍轉(zhuǎn)發(fā)和評論間隔都小于10 min,而在此范圍內(nèi)的正常信息不到 10%。此外 25%的水軍轉(zhuǎn)發(fā)和35%的水軍評論的平均傳播間隔都在1 min之內(nèi),這證明了水軍信息轉(zhuǎn)發(fā)和評論時(shí)的突發(fā)特性。
圖6 基于轉(zhuǎn)發(fā)和評論的ADI累積分布
圖7給出了傳播間隔方差的累計(jì)分布。水軍信息傳播間隔的方差更小,說明水軍信息的傳播間隔之間的差異性更小。原因是水軍信息的突發(fā)特性使時(shí)間間隔都相對集中在一個(gè)小范圍內(nèi),而正常信息受用戶使用習(xí)慣的影響差異性更大。
將數(shù)據(jù)集分為訓(xùn)練集和測試集,比例為7:3。按照算法1的描述對訓(xùn)練集進(jìn)行分類訓(xùn)練,得到?jīng)Q策樹如圖8所示。利用該樹可以直接進(jìn)行水軍檢測。
圖7 基于轉(zhuǎn)發(fā)和評論的VDI累積分布
圖8 基于交互行為特征的水軍檢測決策樹
使用測試集對決策樹檢測方法的有效性進(jìn)行驗(yàn)證,并同時(shí)對比了SVM算法以及神經(jīng)網(wǎng)絡(luò)的RBF算法,驗(yàn)證結(jié)果如表1所示。
表1 檢測方法結(jié)果對比
結(jié)果表明本文的決策樹算法在基于傳播模型的網(wǎng)絡(luò)水軍檢測方面具有明顯優(yōu)勢,準(zhǔn)確率和召回率都高于其他2種方法。其中,SVM算法可以提供較高的準(zhǔn)確率,但召回率難以保證,漏檢率較高。RBF算法的召回率有所提升,但仍大幅度低于決策樹算法。從綜合評價(jià)來看,決策樹算法性能最優(yōu),其次是RBF算法,SVM算法由于召回率過低因此性能最差。
文獻(xiàn)[18]使用概念圖模型對新浪微博中的水軍進(jìn)行檢測,基于平臺(tái)和檢測對象的相似性,使用它作為參考與本文的檢測方法進(jìn)行對比,結(jié)果如表 2所示。可以看出,無論是在準(zhǔn)確率、召回率還是綜合評價(jià)上,本文的檢測方法都表現(xiàn)出明顯優(yōu)勢。這也證明了本文方法能夠有效且準(zhǔn)確地對水軍進(jìn)行檢測。
表2 檢測結(jié)果對比
對檢測算法中各特征的重要性進(jìn)行了分析,結(jié)果如圖9所示。重要性按由高到低的順序排名依次是FDT>DR>ADI>ADT>VDI>DST。
圖9 特征重要性評估
檢測結(jié)果的高準(zhǔn)確性證明了傳播模型中特征選取的有效性,說明本文定義的特征能夠準(zhǔn)確描述網(wǎng)絡(luò)水軍和正常用戶行為和傳播過程的差異。正常用戶可以根據(jù)關(guān)注關(guān)系實(shí)時(shí)獲取更新提醒,而網(wǎng)絡(luò)水軍需要跟蹤雇主發(fā)布的任務(wù)進(jìn)行消息傳播。正常用戶對信息的訪問和傳播基于自己的日常習(xí)慣,而網(wǎng)絡(luò)水軍的消息傳播依賴于任務(wù)發(fā)布時(shí)間和任務(wù)限額。
本文提出了基于交互行為的信息傳播模型,從交互關(guān)系的角度定義了3種6個(gè)特征對傳播行為進(jìn)行量化。在此模型之下利用決策樹算法對網(wǎng)絡(luò)水軍傳播的信息進(jìn)行檢測。利用新浪微博的真實(shí)數(shù)據(jù)對傳播模型進(jìn)行分析并驗(yàn)證檢測方法的有效性,結(jié)果表明本文的方法可以高效地檢測出網(wǎng)絡(luò)水軍。盡管網(wǎng)絡(luò)水軍在種類功能方面各有差異,但傳播行為上的共性使得本文的檢測方法更具有通用性,可以適用于多場景下的水軍檢測。
[1] http://news.ifeng.com/opinion/special/wangluoshuijun/[EB/OL].
[2] http://zh.wikipedia.org/zh-cn/%E7%9B%B2%E6%8%A2%E7%9B%90%E4%BA%8B%E4%BB%B6[EB/OL].
[3] http://qcyn.sina.com.cn/news/ynyw/2011/1205/01134061411.html[EB/OL].
[4] RAYMOND Y K, STEPHEN L, LIAO S Y. Text mining and probabilistic language modeling for online review spam detection[J]. ACM Trans Management Inf Syst, 2011,2(4):25.
[5] GRIER C, THOMAS K, PAXSON V,et al. @spam: the underground on 140 characters or less[A]. Proceedings of the 17th ACM Conference on Computer and Communications Security[C]. Chicago, Illinois, USA, 2010. 27-37.
[6] IRANI D, WEBB S, PU C. Study of static classification of social spam profiles in MySpace[A]. ICWSM[C]. 2010.
[7] THOMAS K, GRIER C, SONG D,et al. Suspended accounts in retrospect: an analysis of twitter spam[A]. Proceedings of the 2011 ACM SIGCOMM Conference on Internet Measurement Conference[C].Berlin, Germany, 2011. 243-258.
[8] SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[A]. IEEE INFOCOM 2011[C]. 2011. 2309-2317.
[9] BENEVENUTO F, RODRIGUES T, ALMEIDA V,et al. Identifying video spammers in online social networks[A]. Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web[C]. Beijing, China, 2008. 45-52.
[10] RAJADESINGAN A. MAHENDRAN A. Comment spam classi-fication in blogs through comment analysis and comment-blog post relationships[A]. Proceedings of the 13th International Conference on Computational Linguistics and Intelligent Text Processing-Volume Part II[C]. New Delhi, India: Springer-Verlag,2012.490-501.
[11] HEYMANN P, KOUTRIKA G, GARCIA-MOLINA H. Fighting spam on social Web sites: a survey of approaches and future challenges[J].IEEE Internet Computing, 2007, 11(6):36-45.
[12] BENEVENUTO F, MAGNO G, RODRIGUES T,et al. Detecting spammers on twitter[A]. CEAS[C]. 2010.
[13] WANG A H. Detecting spam bots in online social networking sites: a machine learning approach[A]. Data and Applications Security and Privacy, 25th Anunual IFIP WG11.3 Conference[C]. 2010. 335-342.
[14] 蘇金樹, 張博鋒, 徐昕等. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2006, 19(9):1848-1859.SU J S, ZHANG B F, XU X,et al. Advances in machine learning based text categorization[J]. Journal of Software, 2006, 19(9):1848-1859.
[15] ZHANG X, ZHU S, LIANG W. Detecting spam and promoting campaigns in the Twitter social network[A]. The 12th IEEE International Conference on Data Mining[C]. 2012.1194-1199.
[16] GAO H, HU J, WILSON C,et al. Detecting and characterizing social spam campaigns[A]. The 10th ACM SIGCOMM Conference on Internet Measurement[C]. Melbourne, Australia, 2010.
[17] CHEN C, WU K, SRINIVASAN V,et al. Battling the internet water army: detection of hidden paid posters[EB/OL]. arXiv preprint ar-Xiv:1111.4297v1[cs.SI]. 2011.
[18] 韓忠明等. 面向微博的概率圖水軍識(shí)別模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, S2:180-186.HAN Z M, XU F M, DUAN D G. Probabilistic graphical model for identifying water army in microblogging system[J]. Journal of Computer Research and Development, 2013, S2:180-186.