陳桂茸 蔡皖東 王蓉 張鳳琴 蔣華
摘 要:在分析網(wǎng)絡(luò)水軍灌水行為的基礎(chǔ)上,提出一種網(wǎng)絡(luò)論壇水軍賬號快速檢測算法.該算法包含3步:首先通過統(tǒng)計分析網(wǎng)絡(luò)論壇單日回帖情況,確定可疑區(qū)間;然后根據(jù)用戶單日回復(fù)行為構(gòu)建用戶協(xié)作網(wǎng)絡(luò),并依據(jù)刪減后的用戶協(xié)作網(wǎng)絡(luò)的聚類情況確定高可疑時段;最后通過高可疑用戶的回帖時間特征分析判定其是否為網(wǎng)絡(luò)水軍.該算法采用“層層逼近”的策略,分3次排除正常用戶和數(shù)據(jù),不斷縮小計算范圍,具有計算量小、計算速度快的特點.利用該算法對“新浪網(wǎng)-娛樂論壇-影視世界版塊-影行天下子版塊”2010年全年的數(shù)據(jù)進行分析,實驗結(jié)果表明,該算法不僅能有效發(fā)現(xiàn)網(wǎng)絡(luò)論壇的單個水軍賬號,還能發(fā)現(xiàn)網(wǎng)絡(luò)水軍軍團賬號并確定炒作內(nèi)容,準(zhǔn)確率高.
關(guān)鍵詞:社交網(wǎng)絡(luò);用戶行為分析;網(wǎng)絡(luò)論壇;網(wǎng)絡(luò)水軍
中圖分類號:TP393 文獻標(biāo)識碼:A
截止2013年12月,我國網(wǎng)民規(guī)模已達(dá)6.18億[1].尤其是隨著Web2.0技術(shù)的成熟和普及,網(wǎng)絡(luò)不僅成為人們獲取信息、共享資源、交流觀點的重要平臺,也成為人們了解社情民意、揭露社會弊端、開展社會監(jiān)督的窗口.
然而網(wǎng)絡(luò)固有的自由性、開放性、隱匿性等特點又為不法分子提供了可乘之機,出現(xiàn)了以網(wǎng)絡(luò)炒作為營生的網(wǎng)絡(luò)公關(guān)公司、網(wǎng)絡(luò)推手和網(wǎng)絡(luò)水軍等不良互聯(lián)網(wǎng)組織和個人.網(wǎng)絡(luò)公關(guān)公司為了在網(wǎng)上炒作某個話題或人物來達(dá)到宣傳、推銷或者詆毀他人或產(chǎn)品的目的,雇傭大量網(wǎng)絡(luò)水軍,在網(wǎng)絡(luò)推手的組織下以各種手法和名目,在互聯(lián)網(wǎng)的各種平臺大量發(fā)帖、回帖,炮制網(wǎng)絡(luò)熱點事件,捧紅各色人物,形成虛假網(wǎng)絡(luò)輿情,嚴(yán)重影響了網(wǎng)絡(luò)輿論的發(fā)展方向.研究網(wǎng)絡(luò)水軍檢測機制,對加強網(wǎng)絡(luò)水軍監(jiān)管和治理,維護社會穩(wěn)定與和諧、確保國家網(wǎng)絡(luò)空間安全具有重大現(xiàn)實意義.
1 相關(guān)研究
網(wǎng)絡(luò)水軍研究尚處于探索階段.尚未發(fā)現(xiàn)國外公開發(fā)表的網(wǎng)絡(luò)水軍檢測方面的文獻,與之相關(guān)的研究主要集中在垃圾評論和垃圾評論發(fā)布者檢測方面[2-17].Jindal等首次提出垃圾評論的概念并對其進行分類,在此基礎(chǔ)上采用機器學(xué)習(xí)方法實現(xiàn)了電子商務(wù)網(wǎng)站中的垃圾評論檢測[2-5].Benevenuto等采用分類技術(shù)通過分析用戶發(fā)布的內(nèi)容和用戶行為特征實現(xiàn)了對垃圾評論發(fā)布者的檢測[6-7].Mukherjee等認(rèn)為和單個垃圾評論發(fā)布者相比,群體垃圾評論發(fā)布者具有更大危害,并提出了一種同時考慮用戶行為頻率和同謀行為特征的有監(jiān)督學(xué)習(xí)模型,通過在人工標(biāo)注的數(shù)據(jù)集上進行學(xué)習(xí),實現(xiàn)了對垃圾評論發(fā)布者群組的識別[13].
和國外相比,國內(nèi)關(guān)于網(wǎng)絡(luò)水軍的研究更為活躍,但目前主要是一些傳媒和管理專業(yè)的研究人員從傳播學(xué)、管理學(xué)的角度,對網(wǎng)絡(luò)水軍的運行機制和治理對策進行了研究.近年來從技術(shù)層面對網(wǎng)絡(luò)水軍檢測的研究也取得了一定進展.李綱等根據(jù)網(wǎng)絡(luò)水軍發(fā)布的信息具有很強的目的性和感情傾向性等特征,提出一種基于情感分類的網(wǎng)絡(luò)推手識別方法,通過分析用戶的情感傾向,統(tǒng)計正面感情信息和負(fù)面感情信息的比重來識別網(wǎng)絡(luò)推手[18].范純龍等采用人工方式分析了論壇中網(wǎng)絡(luò)水軍賬號、水軍帖的分布情況,發(fā)現(xiàn)在網(wǎng)絡(luò)論壇中網(wǎng)絡(luò)水軍普遍存在,且具有較強的組織結(jié)構(gòu)[19].Chen等對網(wǎng)絡(luò)水軍發(fā)帖回帖行為進行實證統(tǒng)計分析,發(fā)現(xiàn)網(wǎng)絡(luò)水軍具有和普通用戶不同的行為模式,并提出一種語義分析和非語義分析相結(jié)合的網(wǎng)絡(luò)水軍檢測機制\[20\].
與之相關(guān)的研究還包括“網(wǎng)絡(luò)馬甲”檢測,國內(nèi)學(xué)者對該問題也進行了有益探索.Bu等利用復(fù)雜網(wǎng)絡(luò)技術(shù)和語義分析技術(shù),通過作者寫作風(fēng)格分析和鏈接分析實現(xiàn)了馬甲賬號的檢測[21].Zheng等根據(jù)網(wǎng)絡(luò)馬甲通常成對出現(xiàn)、在發(fā)帖和回帖時互相呼應(yīng)的特點,提出兩種計算模型用以檢測單個論壇內(nèi)的網(wǎng)絡(luò)馬甲對賬號和跨論壇的網(wǎng)絡(luò)馬甲對賬號[22].
垃圾評論和垃圾評論發(fā)布者檢測方面的研究對網(wǎng)絡(luò)水軍檢測有一定指導(dǎo)意義,但不能直接用于網(wǎng)絡(luò)論壇水軍賬號檢測,主要原因如下:1)垃圾評論和垃圾評論發(fā)布者檢測算法主要針對的是以亞馬遜為代表的商業(yè)網(wǎng)站,在這些商業(yè)網(wǎng)站中用戶在對商品進行評論時除了提交文本信息外,還會對商品進行評分,當(dāng)前的算法幾乎都是通過分析用戶的評分結(jié)果來識別垃圾評論和垃圾評論發(fā)布者的;而在網(wǎng)絡(luò)論壇中,沒有這種評分機制,無法利用現(xiàn)有算法檢測網(wǎng)絡(luò)論壇中的異常用戶.2)現(xiàn)有的垃圾評論和垃圾評論發(fā)布者檢測算法大都采用的是有監(jiān)督學(xué)習(xí)方法,需要大量人工標(biāo)注的數(shù)據(jù)集,而采用人工標(biāo)注方式構(gòu)造包含網(wǎng)絡(luò)水軍信息的數(shù)據(jù)集是不科學(xué)的.因為網(wǎng)絡(luò)水軍在執(zhí)行任務(wù)時會最大程度抹殺操作痕跡,導(dǎo)致很難通過人工閱讀方式判定某個發(fā)帖或回帖是正常用戶還是網(wǎng)絡(luò)水軍發(fā)布的.
國內(nèi)學(xué)者雖然已經(jīng)在網(wǎng)絡(luò)水軍和網(wǎng)絡(luò)馬甲檢測方面進行了有益探索,能檢測出某些網(wǎng)絡(luò)水軍,但存在以下問題:1)文獻\[19\]采用人工標(biāo)注方式構(gòu)造包含網(wǎng)絡(luò)水軍的數(shù)據(jù)集,缺乏科學(xué)性,同時由于不同網(wǎng)絡(luò)論壇具有不同的特征空間,使得這種方法很難擴展;2)文獻\[18-21\]都是基于文本分析技術(shù)的,需要進行分詞、聚類、計算感情傾向性和判定寫作風(fēng)格等操作,當(dāng)處理面向網(wǎng)絡(luò)論壇的海量數(shù)據(jù)時,存在計算量大、計算效率低的問題.同時由于網(wǎng)絡(luò)論壇的語言和常規(guī)的新聞?wù)Z料相比具有隨意性強、口語化嚴(yán)重等特點,一般的語義分析技術(shù)很難滿足檢測精度的要求;3)文獻\[22\]所提的計算模型過于簡單,只適合于檢測個人或個體商家用于自我吹捧注冊的、以成對形式出現(xiàn)的網(wǎng)絡(luò)馬甲賬號,無法用于檢測網(wǎng)絡(luò)水軍.
本文在分析網(wǎng)絡(luò)水軍炒作行為的基礎(chǔ)上提出一種網(wǎng)絡(luò)論壇水軍賬號快速檢測算法.該算法的主要創(chuàng)新點有三個:一是提出一種衡量用戶回復(fù)行為協(xié)作程度的新指標(biāo),協(xié)作性;二是給出了一種新的網(wǎng)絡(luò)模型,在回復(fù)過同一主帖的用戶之間建立連邊,邊的權(quán)值為用戶的協(xié)作性,并通過該網(wǎng)絡(luò)的聚類特性確定高可疑用戶;三是該算法采用了“逐步求精”的策略,分3次排除正常用戶和數(shù)據(jù),不斷縮小計算范圍,具有計算量小、計算速度快的特點.此外該算法不僅能發(fā)現(xiàn)單個網(wǎng)絡(luò)水軍賬號和水軍軍團賬號,還能確定炒作內(nèi)容,為網(wǎng)絡(luò)監(jiān)管部門進行網(wǎng)絡(luò)取證提供了技術(shù)支持,對網(wǎng)絡(luò)空間安全監(jiān)控具有重要意義.
2 網(wǎng)絡(luò)論壇和網(wǎng)絡(luò)水軍分析
2.1 網(wǎng)絡(luò)論壇特點分析
網(wǎng)絡(luò)論壇是一種重要的信息共享和交流平臺,和博客、微博等實名制社交網(wǎng)絡(luò)相比具有更大的開放性、自由性和隱匿性:1)網(wǎng)民可以隨意注冊多個不同的用戶名而不用泄露其真實身份;2)用戶只要登錄網(wǎng)絡(luò)論壇,就可以隨意發(fā)布或回復(fù)信息;3)用戶在登錄的情況下可以瀏覽網(wǎng)絡(luò)論壇中的全部信息,而不受好友關(guān)系限制,甚至在不登錄的情況下也可以瀏覽網(wǎng)站大量內(nèi)容.網(wǎng)絡(luò)論壇的這些特性使其成為我國網(wǎng)絡(luò)輿論突發(fā)事件的主要集中地,也成為網(wǎng)絡(luò)水軍人為制造虛假輿論,擾亂公眾視聽,進而引發(fā)重大輿情危機的主要平臺.
2.2 網(wǎng)絡(luò)水軍工作機制分析
網(wǎng)絡(luò)水軍,指受雇于網(wǎng)絡(luò)公關(guān)公司,通過為他人發(fā)帖、回帖、造勢來獲得報酬的網(wǎng)絡(luò)人員,他們利用大眾慣用的溝通方法在論壇、社交網(wǎng)站等平臺以聊天方式為個人或公司作宣傳或攻擊,通過文章和評論來試圖達(dá)到影響、引導(dǎo)和制造網(wǎng)絡(luò)輿論的目的.
網(wǎng)絡(luò)水軍活動中通常包括三類主體:客戶、網(wǎng)絡(luò)公關(guān)公司和網(wǎng)絡(luò)水軍.網(wǎng)絡(luò)公關(guān)公司是客戶與網(wǎng)絡(luò)水軍之間的中介,負(fù)責(zé)聯(lián)系客戶,得到任務(wù),收取酬金,同時也負(fù)責(zé)招募、管理網(wǎng)絡(luò)水軍,發(fā)放任務(wù)和酬金等.其業(yè)務(wù)流程為:網(wǎng)絡(luò)公關(guān)公司收到客戶委托后,進行任務(wù)籌劃和分工,將任務(wù)下發(fā)給網(wǎng)絡(luò)推手(也稱為水軍頭目),網(wǎng)絡(luò)推手組織網(wǎng)絡(luò)水軍完成任務(wù),并負(fù)責(zé)任務(wù)審核和酬金發(fā)放等.
網(wǎng)絡(luò)水軍賺錢的模式為:領(lǐng)取新任務(wù)、完成任務(wù)、匯報任務(wù)、等待審核、審核通過、結(jié)算報酬.根據(jù)客戶目標(biāo)的不同,網(wǎng)絡(luò)水軍的任務(wù)一般分為兩類:一是廣告宣傳,二是網(wǎng)絡(luò)炒作.第一類任務(wù)是通過增加指定內(nèi)容的可見率達(dá)到廣告宣傳的目的.第二類任務(wù)則是通過炮制網(wǎng)絡(luò)熱點,吸引廣大網(wǎng)民圍觀和討論,達(dá)到網(wǎng)絡(luò)炒作的目的.為了完成第一類任務(wù),網(wǎng)絡(luò)水軍需要以最快速度在各種尚沒有出現(xiàn)該信息的網(wǎng)絡(luò)論壇以主帖的形式發(fā)表指定內(nèi)容,使其在最短時間內(nèi)擴散.為了完成第二類任務(wù),網(wǎng)絡(luò)水軍則需要短時間內(nèi)在各大網(wǎng)絡(luò)論壇大量發(fā)帖、回帖,使炒作對象在網(wǎng)絡(luò)論壇長時間處于顯眼位置,吸引網(wǎng)民關(guān)注,引發(fā)討論,形成網(wǎng)絡(luò)熱點.為了高效完成炒作任務(wù),網(wǎng)絡(luò)水軍會在全國各大論壇注冊多個賬號(有時也稱為網(wǎng)絡(luò)馬甲),以不同身份登錄論壇,完成任務(wù).本文研究網(wǎng)絡(luò)論壇中執(zhí)行第二類任務(wù)的網(wǎng)絡(luò)水軍賬號的快速檢測問題.
3 網(wǎng)絡(luò)水軍賬號檢測
3.1 算法基本思想
本算法采用“層層逼近,逐步求精”的策略,利用人類行為統(tǒng)計分析、社會網(wǎng)絡(luò)結(jié)構(gòu)分析、時間特征分析技術(shù)分3次排除正常用戶和數(shù)據(jù),不斷縮小計算范圍,最終確定網(wǎng)絡(luò)水軍賬號.首先統(tǒng)計論壇單日回帖數(shù)、日人均回帖數(shù)和日帖均回復(fù)數(shù),將不可能發(fā)生網(wǎng)絡(luò)炒作的時段排除;然后對可疑區(qū)間構(gòu)建單日用戶協(xié)作網(wǎng)絡(luò),排除沒有發(fā)生大規(guī)模用戶協(xié)作現(xiàn)象的時段,進一步縮小計算范圍;最后對高可疑數(shù)據(jù),通過用戶回復(fù)行為的時間特性分析,判定其是否為網(wǎng)絡(luò)水軍,如圖1所示.
3.2 論壇單日回復(fù)數(shù)統(tǒng)計分析
我們前期的研究結(jié)果\[23\]發(fā)現(xiàn),論壇單日回帖數(shù)服從冪律分布,即大部分時間論壇單日回帖數(shù)很小,而少數(shù)日子論壇單日回帖數(shù)很大.
為了制造轟動效應(yīng),達(dá)到網(wǎng)絡(luò)炒作的目的,網(wǎng)絡(luò)水軍必定會使用多個賬號針對論壇上若干主帖在短時間內(nèi)大量回帖,導(dǎo)致論壇當(dāng)天的回帖數(shù)、平均每個用戶的回帖數(shù)和平均每個主帖的回復(fù)數(shù)明顯增大.本文將這3個指標(biāo)都大于均值的時段確定為可疑時段.
定義1 論壇單日回帖數(shù):論壇t日提交的回帖數(shù)之和,記作RNt,則有
RNt=∑u∈UtRNtu. (1)
其中Ut為t日提交過回復(fù)帖的用戶集合,RNtu為用戶u在t日的回帖數(shù).將單日回帖數(shù)大于等于均值的時段記作S1,則有
S1={t,RNt>=∑t∈TRNtT}. (2)
其中 T為數(shù)據(jù)集涵蓋的時段,T為數(shù)據(jù)集包含的天數(shù),下文T的含義與此處相同.
定義2 論壇日人均回帖數(shù):論壇t日回帖數(shù)與當(dāng)天提交過回復(fù)帖的用戶數(shù)之比,記作ARNUt,則有
ARNUt=RNtUt.(3)
將日人均回帖數(shù)大于等于均值的時段記作S2,則有
S2={t,ARNUt>=∑t∈TARNUtT}. (4)
定義3 論壇日帖均回復(fù)數(shù):論壇t日回復(fù)數(shù)與當(dāng)天被回復(fù)過的主帖數(shù)之比,記作ARNPt,則有
ARNPt=RNtPt. (5)
其中Pt指當(dāng)天被回復(fù)過的不同主帖的集合.將日帖均回復(fù)數(shù)大于等于均值的時段記作S3,則有
S3={t,ARNPt>=∑t∈TARNPtT}.(6)
定義4 論壇可疑時段:單日回帖數(shù)、日人均回帖數(shù)、日帖均回復(fù)數(shù)均大于均值的時段,記作S,則有
S=S1∩S2∩S3. (7)
3.3 用戶單日回復(fù)模式分析
排除不可能發(fā)生網(wǎng)絡(luò)炒作的時段后,采用下述方法對可疑時段的用戶單日回復(fù)模式進行分析.
3.3.1 用戶協(xié)作性定義
為達(dá)到網(wǎng)絡(luò)炒作的目的,網(wǎng)絡(luò)水軍必定會使用多個賬號短時間內(nèi)針對同一個或幾個主帖大量回帖,導(dǎo)致這些用戶在行為上表現(xiàn)出很高的協(xié)作性.
為了便于描述用戶的這種協(xié)作性,本文提出一種新的網(wǎng)絡(luò)模型:用戶-主帖網(wǎng)絡(luò).該網(wǎng)絡(luò)包含兩種類型的節(jié)點:用戶和主帖,這里用戶表示論壇中的一個賬號,主帖表示用戶為了發(fā)起新的話題而發(fā)表的帖子,有時也稱為根帖.為了和主帖加以區(qū)分,本文將用戶針對主帖發(fā)表的回復(fù)帖稱為回帖.圖2(a)是1個包含6個用戶、8個主帖的用戶協(xié)作網(wǎng)絡(luò),圖中圓圈表示用戶,正方形表示主帖,用戶和主帖之間的連邊表示回復(fù)關(guān)系,如:用戶a和主帖2之間的連邊表示用戶a回復(fù)過主帖2.
定義5 鄰節(jié)點集合:用戶a的鄰節(jié)點集合定義為與節(jié)點a相鄰的主帖節(jié)點集合,即用戶a回復(fù)過的主帖集合,記作Γa.
定義6 協(xié)作性:用戶a和用戶b的協(xié)作性定義為用戶a和用戶b的鄰節(jié)點集合的杰出卡德相似性,即
Sa,b=|Γa∩Γb||Γa∪Γb|, (8)
其中Γa和Γb分別表示用戶a和用戶b的鄰節(jié)點集合.很明顯,對于任意a和b,都有Sa,b=Sb,a,且0≤Sa,b≤1.
3.3.2 構(gòu)建用戶協(xié)作網(wǎng)絡(luò)
論壇用戶回復(fù)行為隨機性大,具有很高的異質(zhì)性\[24\].如果兩個或多個用戶表現(xiàn)出很高的協(xié)作性,則有理由懷疑其為網(wǎng)絡(luò)水軍賬號.本節(jié)通過構(gòu)建單日用戶協(xié)作網(wǎng)絡(luò),分析該網(wǎng)絡(luò)的聚類特性確定高可疑時段.構(gòu)建網(wǎng)絡(luò)的方法為:將用戶抽象為節(jié)點,如果兩個用戶的協(xié)作性大于0,即他們均回復(fù)過至少同一個主帖,則在這兩個用戶之間建立連邊,邊的權(quán)值為兩個用戶的協(xié)作性.圖2(b)是根據(jù)圖2(a)構(gòu)建的用戶協(xié)作網(wǎng)絡(luò).可以看出,用戶a,d和c之間的協(xié)作性為1,即他們的回復(fù)對象完全相同,高度可疑.
為了更清楚地觀察節(jié)點間的協(xié)作性,快速確定高可疑用戶,按照邊的權(quán)值對用戶協(xié)作網(wǎng)絡(luò)進行刪減,僅保留協(xié)作性大于一定閾值的邊.如圖2所示,若僅保留圖2(b)中權(quán)值大于1/3的邊,則得到圖2(c).協(xié)作性高的用戶會表現(xiàn)出明顯的社團特性,本文將此類用戶看作高可疑用戶.
3.4 高可疑用戶回復(fù)行為分析
Jiang等前期研究發(fā)現(xiàn)\[25\],人類打電話行為在時間上具有一定的規(guī)律性,工作時段活躍性高,休息時段活躍性低,網(wǎng)民回帖行為也具有類似特性\[24\].本文通過用戶回帖行為時間特征分析,判定某天是否發(fā)生了網(wǎng)絡(luò)炒作.對于確定發(fā)生了網(wǎng)絡(luò)炒作的時段,根據(jù)網(wǎng)絡(luò)水軍相互協(xié)同這一特征推斷以“簇”形式出現(xiàn)的論壇用戶即為網(wǎng)絡(luò)水軍賬號.實施同一網(wǎng)絡(luò)炒作的水軍賬號形成了水軍軍團.同一簇內(nèi)用戶共同回復(fù)的話題即為網(wǎng)絡(luò)炒作的內(nèi)容.
4 實驗結(jié)果及討論
4.1 數(shù)據(jù)集
本文的數(shù)據(jù)集是采用自研的信息采集系統(tǒng)\[26\]抓取的“新浪網(wǎng)-娛樂論壇-影視世界版塊-影行天下子版塊”2010全年的發(fā)帖、回帖和用戶信息.用post,reply和user 3個表存儲采集到的數(shù)據(jù),其中post表存儲主帖信息,包括:主帖ID、發(fā)帖時間、發(fā)帖用戶ID、標(biāo)題、內(nèi)容;reply表存儲回帖信息,包括:回帖用戶ID、回帖時間、回帖內(nèi)容、對應(yīng)主帖ID.user表存儲相關(guān)用戶信息,包括:用戶ID、用戶名、用戶級別、在線時間、注冊時間.
數(shù)據(jù)集共包含4 407個主帖、80 990個回帖和13 099個用戶,其中發(fā)表過主帖的用戶1 911個,發(fā)表過回帖的用戶12 929個.2010年全年沒有發(fā)帖或回帖的用戶排除在外.
4.2 實驗結(jié)果及分析
4.2.1 可疑時段
按照式(1)到式(7)對數(shù)據(jù)集進行統(tǒng)計分析,并計算3個指標(biāo)的最小值、最大值及均值,如表1所示.
58注:>A表示統(tǒng)計指標(biāo)大于其均值的天數(shù)
由表1可知,3個統(tǒng)計指標(biāo)的異質(zhì)性均非常強,大多數(shù)日子取值都比較小.統(tǒng)計發(fā)現(xiàn)單日回帖數(shù)不小于均值的共69天,單日人均回帖數(shù)不小于均值的共103天,單日帖均回復(fù)數(shù)不小于均值的共58天,同時滿足3個條件的共45天,即為可疑時段S.
4.2.2 高可疑時段
采用3.3節(jié)描述的方法逐天分析可疑時段的用戶回復(fù)模式,發(fā)現(xiàn)有29天的用戶協(xié)作網(wǎng)絡(luò)發(fā)生了明顯聚類現(xiàn)象,將其確定為高可疑時段.
圖3是其中4天的用戶協(xié)作網(wǎng)絡(luò).由圖3可知,這4天用戶回復(fù)行為均表現(xiàn)出極高的協(xié)作性.圖3(b) 是12月3日僅保留權(quán)值大于0.9的邊后的用戶協(xié)作網(wǎng)絡(luò),觀察發(fā)現(xiàn)除零星用戶處于離散狀態(tài)外,其它用戶聚集成為8個簇,同一簇內(nèi)的用戶協(xié)作性高達(dá)0.9,即回復(fù)對象非常接近,高度可疑.
4.2.3 確定網(wǎng)絡(luò)水軍賬號
為了確認(rèn)高度可疑的29天中形成簇的用戶是否為網(wǎng)絡(luò)水軍,采用3.4節(jié)描述的方法逐天分析這些用戶的回帖時間分布.統(tǒng)計分析結(jié)果發(fā)現(xiàn),其中7天的用戶回帖時間分布嚴(yán)重偏離正常用戶的回帖時間分布,由此斷定這7天論壇發(fā)生了網(wǎng)絡(luò)炒作,它們是12月2日、12月3日、12月5日、12月6日、12月10日、12月12日和12月13日.
圖4展示了2010年全年及12月3日、12月6日和12月10日的回帖時間在一天中的分布,其中橫坐標(biāo)為時間,縱坐標(biāo)為該段時間的回帖數(shù).為了便于顯示,將12月3日、12月6日和12月10日的統(tǒng)計數(shù)據(jù)分別擴大2倍、10倍、10倍.
如圖4所示,從2010年全年看,零點回帖數(shù)較低,之后逐漸下降,并在7點達(dá)到谷底,這段時間正好對應(yīng)人們的休息時間.之后回帖數(shù)快速上升,9點至23點之間回帖數(shù)都保持在3 500以上,其中9點到18點的回帖數(shù)略高于18點之后.統(tǒng)計結(jié)果與人們的作息規(guī)律非常吻合,也與Jiang\[25\]等關(guān)于人類打電話時間模式的研究一致.
觀察12月3日的回帖模式,發(fā)現(xiàn)零點回帖數(shù)很大,且之后5個小時持續(xù)攀升,并在4點和5點達(dá)到最高峰;之后快速下降,9點至12點回帖數(shù)均低于當(dāng)天零點;13點至20點,回帖數(shù)穩(wěn)定在500左右,不到零點時的一半,之后繼續(xù)下降,直到23點回帖量達(dá)到最低值.可以看出,12月3日的用戶回帖時間分布與人類作息時間完全違背.12月6日的回帖時間分布與12月3日幾乎相同.12月10日的回帖模式與12月3日、12月6日雖然不同,但表現(xiàn)出異乎尋常的穩(wěn)定性,也不符合人類作息規(guī)律.采用同樣方式,分析另外4天的用戶回帖時間模式,發(fā)現(xiàn)其也明顯偏離正常用戶行為特征.
統(tǒng)計分析發(fā)生網(wǎng)絡(luò)炒作的7天的用戶協(xié)作網(wǎng)絡(luò),發(fā)現(xiàn)簇內(nèi)共包含不同賬號556個,其構(gòu)成了1個網(wǎng)絡(luò)水軍軍團,炒作內(nèi)容為當(dāng)時即將上映的電影《趙氏孤兒》.
采用手動分析方式,對算法檢測出的網(wǎng)絡(luò)水軍賬號逐個進行分析,發(fā)現(xiàn)均為網(wǎng)絡(luò)水軍賬號,算法的正確率達(dá)100%.對2010年全年回帖數(shù)據(jù)進行手動分析,除算法發(fā)現(xiàn)的水軍賬號外,沒有發(fā)現(xiàn)其它可疑賬號,因此該算法的漏報率為零.
5 結(jié) 論
在線交流平臺在給人們帶來便利的同時,也帶來一定的社會問題,以網(wǎng)絡(luò)水軍為代表的不法分子,利用網(wǎng)絡(luò)平臺大量發(fā)布虛假和負(fù)面信息,企圖通過網(wǎng)絡(luò)炒作行為操縱社會輿論方向,甚至有人被金錢和利益誘惑,受雇于境外敵對分子,發(fā)布有損國家和民族利益的虛假消息.網(wǎng)絡(luò)不良用戶行為檢測和挖掘研究具有重大現(xiàn)實意義.
本文以網(wǎng)絡(luò)論壇水軍賬號快速檢測為目標(biāo),提出一種基于人類行為統(tǒng)計分析、社會網(wǎng)絡(luò)分析和時間特征分析的新算法.和傳統(tǒng)輿情監(jiān)控系統(tǒng)相比,本文所提算法大大減少了語義分析、感情分析的范圍,具有計算量小、計算速度快的特點.
本文研究成果對網(wǎng)絡(luò)空間安全監(jiān)控具有重要意義,也為安管部門進行網(wǎng)絡(luò)取證提供了技術(shù)支撐.但網(wǎng)絡(luò)水軍隱匿在合法用戶之中,且其行為變化多端,下一步考慮將統(tǒng)計分析、行為分析技術(shù)和文本分析、情感分析等技術(shù)結(jié)合,進一步提高檢測算法的性能.此外,隨著微博、微信等網(wǎng)絡(luò)社交平臺的快速興起,網(wǎng)絡(luò)水軍也已將矛頭對準(zhǔn)這些新興媒體.下一步將考慮研究微博平臺網(wǎng)絡(luò)水軍檢測問題.
參考文獻
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06.
Internet Network Information Center of China. The 33rd statistical report on Internet development of China[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06. (In Chinese)
[2] JINDAL N, LIU Bing. Review spam detection[C]//Proc of the 16th international conference on World Wide Web. 2007: 1189-1190.
[3] JINDAL N, LIU Bing. Analyzing and detecting review spam[C]//Seventh IEEE International Conference on Data Mining.2007: 547-552.
[4] JINDAL N, LIU Bing. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.2008: 219-230.
[5] JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.2010: 1549-1552.
[6] BENEVENUTO F, RODRIGUES T, ALMEIDA V, et al. Identifying video spammers in online social networks[C]// Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web. 2008: 45-52.
[7] BENEVENUTO F, MAGNO G, RODRIGUES T, et al. Detecting spammers on twitter[C]//Seventh Annual Collaboration, Electronic Messaging, AntiAbuse and Spam Conference(CEAS2010),2010.
[8] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[J]. International Journal of Information Security and Privacy, 2009, 5(1):37-44.
[9] GUERRA PHC, GUEDES D, MEIRA JR W, et al. Spamming chains: A new way of understanding spammer behavior[C]// Sixth Conference on Email and AntiSpam(CEAS2009), 2009.
[10]LAPPAS T. Fake reviews: The malicious perspective [J].Natural Language Processing and Information Systems, Lecture Notes in Computer Science, 2012, 7337:23-34.
[11]LI F, HUANG M, YANG Y, et al. Learning to identify review spam[C]//Proceedings of the TwentySecond International Joint Conference on Artificial Intelligence. 2011: 2488-2493.
[12]LIM E P,NGUYEN V A, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proc of the 19th ACM International Conference on Information and Knowledge Management. 2010:939-948.
[13]MUKHERJEE A, LIU Bing, GLANCE N. Spotting fake reviewer groups in consumer reviews[C]//Proc of the 21st International Conference on World Wide Web. 2012:191-200.
[14]OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination [C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics.2011: 309-319.
[15]SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[C]// IEEE INFOCOM 2011.2011: 2309-2317.
[16]SUREKA A. Mining user comment activity for detecting forum spammers in youtube[C]//USEWOD '11, 2011.
[17]WANG Guan, XIE Sihong, LIU Bing, et al. Review graph based online store review spammer detection[C]// IEEE 11th International Conference on Data Mining(ICDM 2011). 2011: 1242-1247.
[18]李綱,甘停,寇廣增.基于文本情感分類的網(wǎng)絡(luò)推手識別[J]. 圖書情報工作, 2010, 54(8): 77-80.
LI Gang, GAN Ting, KOU Guangzeng. Recognition of netcheaters based on text sentiment analysis[J]. Library and Information , 2010, 54(8): 77-80. (In Chinese)
[19]范純龍,肖昕,余玲,等. 基于論壇信息的水軍組織行為分析[J]. 沈陽航空航天大學(xué)學(xué)報, 2010, 29(5): 64-67.
FAN Chunlong, XIAO Xin, YU Ling, et al. Behavior analysis of network navy organization based on web forums[J]. Journal of Shenyang Aerospace University, 2010, 29(5): 64-67. (In Chinese)
[20]CHEN Cheng, WU Kui,VENKATESH S, et al. Battling the internet water army: detection of hidden paid posters, arXiv:1111.4297v1 [cs.SI] 18 Nov 2011.
[21]BU Zhan, XIA Zhengyou, WANG Jiandong. A sock puppet detection algorithm on virtual spaces[J]. KnowledgeBased Systems,2013, 37: 366-377.
[22]ZHENG Xueling, LAI Yiuming, CHOW K P, et al. Sockpuppet detection in online discussion forums[C]//The Seventh International Conference on Intelligent Information Hiding and Multimedia Signal Processing. 2011: 374-377.
[23]陳桂茸,蔡皖東,徐會杰,等.網(wǎng)絡(luò)論壇人類行為動力學(xué)實證分析[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2013,40(11):153-160.
CHEN Guirong, CAI Wandong, XU Huijie, et al. Empirical analysis on human behavior dynamics in online forum[J]. Journal of Hunan University: Natural Science, 2013, 40(11):153-160. (In Chinese)
[24]司夏萌,劉云.虛擬社區(qū)中人際交互行為的統(tǒng)計分析研究[J].物理學(xué)報,2011,44(7): 859-866.
SI Xiameng, LIU Yun. Empirical analysis of interpersonal interacting behavior in virtual community[J]. Acta Phys Sin, 2011, 44(7): 859-866. (In Chinese)
[25]JIANG Zhiqiang, XIE Wenjie, LI Mingxia, et al. Calling patterns in human communication dynamics[J]. Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.
[26]彭冬,蔡皖東.面向 Web 論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實現(xiàn)[J].計算機工程與科學(xué), 2011,44(1):157-160.
PENG Dong, CAI Wandong. The web forum crawling technology and system implementation[J]. Computer Engineering &Science, 2011,44(1):157-160. (In Chinese)