• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種網(wǎng)絡(luò)論壇水軍賬號快速檢測算法*

      2015-03-09 00:46:04陳桂茸蔡皖東張鳳琴
      關(guān)鍵詞:協(xié)作性回帖水軍

      陳桂茸,蔡皖東,王 蓉,張鳳琴,蔣 華

      (1.西北工業(yè)大學(xué) 計算機(jī)學(xué)院, 陜西 西安 710029;2.空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,陜西 西安 710077)

      一種網(wǎng)絡(luò)論壇水軍賬號快速檢測算法*

      陳桂茸1?,蔡皖東1,王 蓉2,張鳳琴2,蔣 華2

      (1.西北工業(yè)大學(xué) 計算機(jī)學(xué)院, 陜西 西安 710029;2.空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,陜西 西安 710077)

      在分析網(wǎng)絡(luò)水軍灌水行為的基礎(chǔ)上,提出一種網(wǎng)絡(luò)論壇水軍賬號快速檢測算法.該算法包含3步:首先通過統(tǒng)計分析網(wǎng)絡(luò)論壇單日回帖情況,確定可疑區(qū)間;然后根據(jù)用戶單日回復(fù)行為構(gòu)建用戶協(xié)作網(wǎng)絡(luò),并依據(jù)刪減后的用戶協(xié)作網(wǎng)絡(luò)的聚類情況確定高可疑時段;最后通過高可疑用戶的回帖時間特征分析判定其是否為網(wǎng)絡(luò)水軍.該算法采用“層層逼近”的策略,分3次排除正常用戶和數(shù)據(jù),不斷縮小計算范圍,具有計算量小、計算速度快的特點.利用該算法對“新浪網(wǎng)-娛樂論壇-影視世界版塊-影行天下子版塊”2010年全年的數(shù)據(jù)進(jìn)行分析,實驗結(jié)果表明,該算法不僅能有效發(fā)現(xiàn)網(wǎng)絡(luò)論壇的單個水軍賬號,還能發(fā)現(xiàn)網(wǎng)絡(luò)水軍軍團(tuán)賬號并確定炒作內(nèi)容,準(zhǔn)確率高.

      社交網(wǎng)絡(luò);用戶行為分析;網(wǎng)絡(luò)論壇;網(wǎng)絡(luò)水軍

      截止2013年12月,我國網(wǎng)民規(guī)模已達(dá)6.18億[1].尤其是隨著Web2.0技術(shù)的成熟和普及,網(wǎng)絡(luò)不僅成為人們獲取信息、共享資源、交流觀點的重要平臺,也成為人們了解社情民意、揭露社會弊端、開展社會監(jiān)督的窗口.

      然而網(wǎng)絡(luò)固有的自由性、開放性、隱匿性等特點又為不法分子提供了可乘之機(jī),出現(xiàn)了以網(wǎng)絡(luò)炒作為營生的網(wǎng)絡(luò)公關(guān)公司、網(wǎng)絡(luò)推手和網(wǎng)絡(luò)水軍等不良互聯(lián)網(wǎng)組織和個人.網(wǎng)絡(luò)公關(guān)公司為了在網(wǎng)上炒作某個話題或人物來達(dá)到宣傳、推銷或者詆毀他人或產(chǎn)品的目的,雇傭大量網(wǎng)絡(luò)水軍,在網(wǎng)絡(luò)推手的組織下以各種手法和名目,在互聯(lián)網(wǎng)的各種平臺大量發(fā)帖、回帖,炮制網(wǎng)絡(luò)熱點事件,捧紅各色人物,形成虛假網(wǎng)絡(luò)輿情,嚴(yán)重影響了網(wǎng)絡(luò)輿論的發(fā)展方向.研究網(wǎng)絡(luò)水軍檢測機(jī)制,對加強(qiáng)網(wǎng)絡(luò)水軍監(jiān)管和治理,維護(hù)社會穩(wěn)定與和諧、確保國家網(wǎng)絡(luò)空間安全具有重大現(xiàn)實意義.

      1 相關(guān)研究

      網(wǎng)絡(luò)水軍研究尚處于探索階段.尚未發(fā)現(xiàn)國外公開發(fā)表的網(wǎng)絡(luò)水軍檢測方面的文獻(xiàn),與之相關(guān)的研究主要集中在垃圾評論和垃圾評論發(fā)布者檢測方面[2-17].Jindal等首次提出垃圾評論的概念并對其進(jìn)行分類,在此基礎(chǔ)上采用機(jī)器學(xué)習(xí)方法實現(xiàn)了電子商務(wù)網(wǎng)站中的垃圾評論檢測[2-5].Benevenuto等采用分類技術(shù)通過分析用戶發(fā)布的內(nèi)容和用戶行為特征實現(xiàn)了對垃圾評論發(fā)布者的檢測[6-7].Mukherjee等認(rèn)為和單個垃圾評論發(fā)布者相比,群體垃圾評論發(fā)布者具有更大危害,并提出了一種同時考慮用戶行為頻率和同謀行為特征的有監(jiān)督學(xué)習(xí)模型,通過在人工標(biāo)注的數(shù)據(jù)集上進(jìn)行學(xué)習(xí),實現(xiàn)了對垃圾評論發(fā)布者群組的識別[13].

      和國外相比,國內(nèi)關(guān)于網(wǎng)絡(luò)水軍的研究更為活躍,但目前主要是一些傳媒和管理專業(yè)的研究人員從傳播學(xué)、管理學(xué)的角度,對網(wǎng)絡(luò)水軍的運(yùn)行機(jī)制和治理對策進(jìn)行了研究.近年來從技術(shù)層面對網(wǎng)絡(luò)水軍檢測的研究也取得了一定進(jìn)展.李綱等根據(jù)網(wǎng)絡(luò)水軍發(fā)布的信息具有很強(qiáng)的目的性和感情傾向性等特征,提出一種基于情感分類的網(wǎng)絡(luò)推手識別方法,通過分析用戶的情感傾向,統(tǒng)計正面感情信息和負(fù)面感情信息的比重來識別網(wǎng)絡(luò)推手[18].范純龍等采用人工方式分析了論壇中網(wǎng)絡(luò)水軍賬號、水軍帖的分布情況,發(fā)現(xiàn)在網(wǎng)絡(luò)論壇中網(wǎng)絡(luò)水軍普遍存在,且具有較強(qiáng)的組織結(jié)構(gòu)[19].Chen等對網(wǎng)絡(luò)水軍發(fā)帖回帖行為進(jìn)行實證統(tǒng)計分析,發(fā)現(xiàn)網(wǎng)絡(luò)水軍具有和普通用戶不同的行為模式,并提出一種語義分析和非語義分析相結(jié)合的網(wǎng)絡(luò)水軍檢測機(jī)制[20].

      與之相關(guān)的研究還包括“網(wǎng)絡(luò)馬甲”檢測,國內(nèi)學(xué)者對該問題也進(jìn)行了有益探索.Bu等利用復(fù)雜網(wǎng)絡(luò)技術(shù)和語義分析技術(shù),通過作者寫作風(fēng)格分析和鏈接分析實現(xiàn)了馬甲賬號的檢測[21].Zheng等根據(jù)網(wǎng)絡(luò)馬甲通常成對出現(xiàn)、在發(fā)帖和回帖時互相呼應(yīng)的特點,提出兩種計算模型用以檢測單個論壇內(nèi)的網(wǎng)絡(luò)馬甲對賬號和跨論壇的網(wǎng)絡(luò)馬甲對賬號[22].

      垃圾評論和垃圾評論發(fā)布者檢測方面的研究對網(wǎng)絡(luò)水軍檢測有一定指導(dǎo)意義,但不能直接用于網(wǎng)絡(luò)論壇水軍賬號檢測,主要原因如下:1)垃圾評論和垃圾評論發(fā)布者檢測算法主要針對的是以亞馬遜為代表的商業(yè)網(wǎng)站,在這些商業(yè)網(wǎng)站中用戶在對商品進(jìn)行評論時除了提交文本信息外,還會對商品進(jìn)行評分,當(dāng)前的算法幾乎都是通過分析用戶的評分結(jié)果來識別垃圾評論和垃圾評論發(fā)布者的;而在網(wǎng)絡(luò)論壇中,沒有這種評分機(jī)制,無法利用現(xiàn)有算法檢測網(wǎng)絡(luò)論壇中的異常用戶.2)現(xiàn)有的垃圾評論和垃圾評論發(fā)布者檢測算法大都采用的是有監(jiān)督學(xué)習(xí)方法,需要大量人工標(biāo)注的數(shù)據(jù)集,而采用人工標(biāo)注方式構(gòu)造包含網(wǎng)絡(luò)水軍信息的數(shù)據(jù)集是不科學(xué)的.因為網(wǎng)絡(luò)水軍在執(zhí)行任務(wù)時會最大程度抹殺操作痕跡,導(dǎo)致很難通過人工閱讀方式判定某個發(fā)帖或回帖是正常用戶還是網(wǎng)絡(luò)水軍發(fā)布的.

      國內(nèi)學(xué)者雖然已經(jīng)在網(wǎng)絡(luò)水軍和網(wǎng)絡(luò)馬甲檢測方面進(jìn)行了有益探索,能檢測出某些網(wǎng)絡(luò)水軍,但存在以下問題:1)文獻(xiàn)[19]采用人工標(biāo)注方式構(gòu)造包含網(wǎng)絡(luò)水軍的數(shù)據(jù)集,缺乏科學(xué)性,同時由于不同網(wǎng)絡(luò)論壇具有不同的特征空間,使得這種方法很難擴(kuò)展;2)文獻(xiàn)[18-21]都是基于文本分析技術(shù)的,需要進(jìn)行分詞、聚類、計算感情傾向性和判定寫作風(fēng)格等操作,當(dāng)處理面向網(wǎng)絡(luò)論壇的海量數(shù)據(jù)時,存在計算量大、計算效率低的問題.同時由于網(wǎng)絡(luò)論壇的語言和常規(guī)的新聞?wù)Z料相比具有隨意性強(qiáng)、口語化嚴(yán)重等特點,一般的語義分析技術(shù)很難滿足檢測精度的要求;3)文獻(xiàn)[22]所提的計算模型過于簡單,只適合于檢測個人或個體商家用于自我吹捧注冊的、以成對形式出現(xiàn)的網(wǎng)絡(luò)馬甲賬號,無法用于檢測網(wǎng)絡(luò)水軍.

      本文在分析網(wǎng)絡(luò)水軍炒作行為的基礎(chǔ)上提出一種網(wǎng)絡(luò)論壇水軍賬號快速檢測算法.該算法的主要創(chuàng)新點有三個:一是提出一種衡量用戶回復(fù)行為協(xié)作程度的新指標(biāo),協(xié)作性;二是給出了一種新的網(wǎng)絡(luò)模型,在回復(fù)過同一主帖的用戶之間建立連邊,邊的權(quán)值為用戶的協(xié)作性,并通過該網(wǎng)絡(luò)的聚類特性確定高可疑用戶;三是該算法采用了“逐步求精”的策略,分3次排除正常用戶和數(shù)據(jù),不斷縮小計算范圍,具有計算量小、計算速度快的特點.此外該算法不僅能發(fā)現(xiàn)單個網(wǎng)絡(luò)水軍賬號和水軍軍團(tuán)賬號,還能確定炒作內(nèi)容,為網(wǎng)絡(luò)監(jiān)管部門進(jìn)行網(wǎng)絡(luò)取證提供了技術(shù)支持,對網(wǎng)絡(luò)空間安全監(jiān)控具有重要意義.

      2 網(wǎng)絡(luò)論壇和網(wǎng)絡(luò)水軍分析

      2.1 網(wǎng)絡(luò)論壇特點分析

      網(wǎng)絡(luò)論壇是一種重要的信息共享和交流平臺,和博客、微博等實名制社交網(wǎng)絡(luò)相比具有更大的開放性、自由性和隱匿性:1)網(wǎng)民可以隨意注冊多個不同的用戶名而不用泄露其真實身份;2)用戶只要登錄網(wǎng)絡(luò)論壇,就可以隨意發(fā)布或回復(fù)信息;3)用戶在登錄的情況下可以瀏覽網(wǎng)絡(luò)論壇中的全部信息,而不受好友關(guān)系限制,甚至在不登錄的情況下也可以瀏覽網(wǎng)站大量內(nèi)容.網(wǎng)絡(luò)論壇的這些特性使其成為我國網(wǎng)絡(luò)輿論突發(fā)事件的主要集中地,也成為網(wǎng)絡(luò)水軍人為制造虛假輿論,擾亂公眾視聽,進(jìn)而引發(fā)重大輿情危機(jī)的主要平臺.

      2.2 網(wǎng)絡(luò)水軍工作機(jī)制分析

      網(wǎng)絡(luò)水軍,指受雇于網(wǎng)絡(luò)公關(guān)公司,通過為他人發(fā)帖、回帖、造勢來獲得報酬的網(wǎng)絡(luò)人員,他們利用大眾慣用的溝通方法在論壇、社交網(wǎng)站等平臺以聊天方式為個人或公司作宣傳或攻擊,通過文章和評論來試圖達(dá)到影響、引導(dǎo)和制造網(wǎng)絡(luò)輿論的目的.

      網(wǎng)絡(luò)水軍活動中通常包括三類主體:客戶、網(wǎng)絡(luò)公關(guān)公司和網(wǎng)絡(luò)水軍.網(wǎng)絡(luò)公關(guān)公司是客戶與網(wǎng)絡(luò)水軍之間的中介,負(fù)責(zé)聯(lián)系客戶,得到任務(wù),收取酬金,同時也負(fù)責(zé)招募、管理網(wǎng)絡(luò)水軍,發(fā)放任務(wù)和酬金等.其業(yè)務(wù)流程為:網(wǎng)絡(luò)公關(guān)公司收到客戶委托后,進(jìn)行任務(wù)籌劃和分工,將任務(wù)下發(fā)給網(wǎng)絡(luò)推手(也稱為水軍頭目),網(wǎng)絡(luò)推手組織網(wǎng)絡(luò)水軍完成任務(wù),并負(fù)責(zé)任務(wù)審核和酬金發(fā)放等.

      網(wǎng)絡(luò)水軍賺錢的模式為:領(lǐng)取新任務(wù)、完成任務(wù)、匯報任務(wù)、等待審核、審核通過、結(jié)算報酬.根據(jù)客戶目標(biāo)的不同,網(wǎng)絡(luò)水軍的任務(wù)一般分為兩類:一是廣告宣傳,二是網(wǎng)絡(luò)炒作.第一類任務(wù)是通過增加指定內(nèi)容的可見率達(dá)到廣告宣傳的目的.第二類任務(wù)則是通過炮制網(wǎng)絡(luò)熱點,吸引廣大網(wǎng)民圍觀和討論,達(dá)到網(wǎng)絡(luò)炒作的目的.為了完成第一類任務(wù),網(wǎng)絡(luò)水軍需要以最快速度在各種尚沒有出現(xiàn)該信息的網(wǎng)絡(luò)論壇以主帖的形式發(fā)表指定內(nèi)容,使其在最短時間內(nèi)擴(kuò)散.為了完成第二類任務(wù),網(wǎng)絡(luò)水軍則需要短時間內(nèi)在各大網(wǎng)絡(luò)論壇大量發(fā)帖、回帖,使炒作對象在網(wǎng)絡(luò)論壇長時間處于顯眼位置,吸引網(wǎng)民關(guān)注,引發(fā)討論,形成網(wǎng)絡(luò)熱點.為了高效完成炒作任務(wù),網(wǎng)絡(luò)水軍會在全國各大論壇注冊多個賬號(有時也稱為網(wǎng)絡(luò)馬甲),以不同身份登錄論壇,完成任務(wù).本文研究網(wǎng)絡(luò)論壇中執(zhí)行第二類任務(wù)的網(wǎng)絡(luò)水軍賬號的快速檢測問題.

      3 網(wǎng)絡(luò)水軍賬號檢測

      3.1 算法基本思想

      本算法采用“層層逼近,逐步求精”的策略,利用人類行為統(tǒng)計分析、社會網(wǎng)絡(luò)結(jié)構(gòu)分析、時間特征分析技術(shù)分3次排除正常用戶和數(shù)據(jù),不斷縮小計算范圍,最終確定網(wǎng)絡(luò)水軍賬號.首先統(tǒng)計論壇單日回帖數(shù)、日人均回帖數(shù)和日帖均回復(fù)數(shù),將不可能發(fā)生網(wǎng)絡(luò)炒作的時段排除;然后對可疑區(qū)間構(gòu)建單日用戶協(xié)作網(wǎng)絡(luò),排除沒有發(fā)生大規(guī)模用戶協(xié)作現(xiàn)象的時段,進(jìn)一步縮小計算范圍;最后對高可疑數(shù)據(jù),通過用戶回復(fù)行為的時間特性分析,判定其是否為網(wǎng)絡(luò)水軍,如圖1所示.

      圖1 算法流程

      3.2 論壇單日回復(fù)數(shù)統(tǒng)計分析

      我們前期的研究結(jié)果[23]發(fā)現(xiàn),論壇單日回帖數(shù)服從冪律分布,即大部分時間論壇單日回帖數(shù)很小,而少數(shù)日子論壇單日回帖數(shù)很大.

      為了制造轟動效應(yīng),達(dá)到網(wǎng)絡(luò)炒作的目的,網(wǎng)絡(luò)水軍必定會使用多個賬號針對論壇上若干主帖在短時間內(nèi)大量回帖,導(dǎo)致論壇當(dāng)天的回帖數(shù)、平均每個用戶的回帖數(shù)和平均每個主帖的回復(fù)數(shù)明顯增大.本文將這3個指標(biāo)都大于均值的時段確定為可疑時段.

      定義1 論壇單日回帖數(shù):論壇t日提交的回帖數(shù)之和,記作RNt,則有

      (1)

      (2)

      定義2 論壇日人均回帖數(shù):論壇t日回帖數(shù)與當(dāng)天提交過回復(fù)帖的用戶數(shù)之比,記作ARNUt,則有

      (3)

      將日人均回帖數(shù)大于等于均值的時段記作S2,則有

      (4)

      定義3 論壇日帖均回復(fù)數(shù):論壇t日回復(fù)數(shù)與當(dāng)天被回復(fù)過的主帖數(shù)之比,記作ARNPt,則有

      (5)

      其中Pt指當(dāng)天被回復(fù)過的不同主帖的集合.將日帖均回復(fù)數(shù)大于等于均值的時段記作S3,則有

      (6)

      定義4 論壇可疑時段:單日回帖數(shù)、日人均回帖數(shù)、日帖均回復(fù)數(shù)均大于均值的時段,記作S,則有

      S=S1∩S2∩S3.

      (7)

      3.3 用戶單日回復(fù)模式分析

      排除不可能發(fā)生網(wǎng)絡(luò)炒作的時段后,采用下述方法對可疑時段的用戶單日回復(fù)模式進(jìn)行分析.

      3.3.1 用戶協(xié)作性定義

      為達(dá)到網(wǎng)絡(luò)炒作的目的,網(wǎng)絡(luò)水軍必定會使用多個賬號短時間內(nèi)針對同一個或幾個主帖大量回帖,導(dǎo)致這些用戶在行為上表現(xiàn)出很高的協(xié)作性.

      為了便于描述用戶的這種協(xié)作性,本文提出一種新的網(wǎng)絡(luò)模型:用戶-主帖網(wǎng)絡(luò).該網(wǎng)絡(luò)包含兩種類型的節(jié)點:用戶和主帖,這里用戶表示論壇中的一個賬號,主帖表示用戶為了發(fā)起新的話題而發(fā)表的帖子,有時也稱為根帖.為了和主帖加以區(qū)分,本文將用戶針對主帖發(fā)表的回復(fù)帖稱為回帖.圖2(a)是1個包含6個用戶、8個主帖的用戶協(xié)作網(wǎng)絡(luò),圖中圓圈表示用戶,正方形表示主帖,用戶和主帖之間的連邊表示回復(fù)關(guān)系,如:用戶a和主帖2之間的連邊表示用戶a回復(fù)過主帖2.

      定義5 鄰節(jié)點集合:用戶a的鄰節(jié)點集合定義為與節(jié)點a相鄰的主帖節(jié)點集合,即用戶a回復(fù)過的主帖集合,記作Γa.

      定義6 協(xié)作性:用戶a和用戶b的協(xié)作性定義為用戶a和用戶b的鄰節(jié)點集合的杰出卡德相似性,即

      (8)

      其中Γa和Γb分別表示用戶a和用戶b的鄰節(jié)點集合.很明顯,對于任意a和b,都有Sa,b=Sb,a,且0≤Sa,b≤1.

      3.3.2 構(gòu)建用戶協(xié)作網(wǎng)絡(luò)

      論壇用戶回復(fù)行為隨機(jī)性大,具有很高的異質(zhì)性[24].如果兩個或多個用戶表現(xiàn)出很高的協(xié)作性,則有理由懷疑其為網(wǎng)絡(luò)水軍賬號.本節(jié)通過構(gòu)建單日用戶協(xié)作網(wǎng)絡(luò),分析該網(wǎng)絡(luò)的聚類特性確定高可疑時段.構(gòu)建網(wǎng)絡(luò)的方法為:將用戶抽象為節(jié)點,如果兩個用戶的協(xié)作性大于0,即他們均回復(fù)過至少同一個主帖,則在這兩個用戶之間建立連邊,邊的權(quán)值為兩個用戶的協(xié)作性.圖2(b)是根據(jù)圖2(a)構(gòu)建的用戶協(xié)作網(wǎng)絡(luò).可以看出,用戶a,d和c之間的協(xié)作性為1,即他們的回復(fù)對象完全相同,高度可疑.

      為了更清楚地觀察節(jié)點間的協(xié)作性,快速確定高可疑用戶,按照邊的權(quán)值對用戶協(xié)作網(wǎng)絡(luò)進(jìn)行刪減,僅保留協(xié)作性大于一定閾值的邊.如圖2所示,若僅保留圖2(b)中權(quán)值大于1/3的邊,則得到圖2(c).協(xié)作性高的用戶會表現(xiàn)出明顯的社團(tuán)特性,本文將此類用戶看作高可疑用戶.

      3.4 高可疑用戶回復(fù)行為分析

      Jiang等前期研究發(fā)現(xiàn)[25],人類打電話行為在時間上具有一定的規(guī)律性,工作時段活躍性高,休息時段活躍性低,網(wǎng)民回帖行為也具有類似特性[24].本文通過用戶回帖行為時間特征分析,判定某天是否發(fā)生了網(wǎng)絡(luò)炒作.對于確定發(fā)生了網(wǎng)絡(luò)炒作的時段,根據(jù)網(wǎng)絡(luò)水軍相互協(xié)同這一特征推斷以“簇”形式出現(xiàn)的論壇用戶即為網(wǎng)絡(luò)水軍賬號.實施同一網(wǎng)絡(luò)炒作的水軍賬號形成了水軍軍團(tuán).同一簇內(nèi)用戶共同回復(fù)的話題即為網(wǎng)絡(luò)炒作的內(nèi)容.

      圖2 用戶-主帖網(wǎng)絡(luò)、用戶協(xié)作網(wǎng)絡(luò)示例

      4 實驗結(jié)果及討論

      4.1 數(shù)據(jù)集

      本文的數(shù)據(jù)集是采用自研的信息采集系統(tǒng)[26]抓取的“新浪網(wǎng)-娛樂論壇-影視世界版塊-影行天下子版塊”2010全年的發(fā)帖、回帖和用戶信息.用post,reply和user3個表存儲采集到的數(shù)據(jù),其中post表存儲主帖信息,包括:主帖ID、發(fā)帖時間、發(fā)帖用戶ID、標(biāo)題、內(nèi)容;reply表存儲回帖信息,包括:回帖用戶ID、回帖時間、回帖內(nèi)容、對應(yīng)主帖ID.user表存儲相關(guān)用戶信息,包括:用戶ID、用戶名、用戶級別、在線時間、注冊時間.

      數(shù)據(jù)集共包含4 407個主帖、80 990個回帖和13 099個用戶,其中發(fā)表過主帖的用戶1 911個,發(fā)表過回帖的用戶12 929個.2010年全年沒有發(fā)帖或回帖的用戶排除在外.

      4.2 實驗結(jié)果及分析

      4.2.1 可疑時段

      按照式(1)到式(7)對數(shù)據(jù)集進(jìn)行統(tǒng)計分析,并計算3個指標(biāo)的最小值、最大值及均值,如表1所示.

      表1 3種統(tǒng)計指標(biāo)的基本統(tǒng)計量

      注:>A表示統(tǒng)計指標(biāo)大于其均值的天數(shù)

      由表1可知,3個統(tǒng)計指標(biāo)的異質(zhì)性均非常強(qiáng),大多數(shù)日子取值都比較小.統(tǒng)計發(fā)現(xiàn)單日回帖數(shù)不小于均值的共69天,單日人均回帖數(shù)不小于均值的共103天,單日帖均回復(fù)數(shù)不小于均值的共58天,同時滿足3個條件的共45天,即為可疑時段S.

      4.2.2 高可疑時段

      采用3.3節(jié)描述的方法逐天分析可疑時段的用戶回復(fù)模式,發(fā)現(xiàn)有29天的用戶協(xié)作網(wǎng)絡(luò)發(fā)生了明顯聚類現(xiàn)象,將其確定為高可疑時段.

      圖3是其中4天的用戶協(xié)作網(wǎng)絡(luò).由圖3可知,這4天用戶回復(fù)行為均表現(xiàn)出極高的協(xié)作性.圖3(b) 是12月3日僅保留權(quán)值大于0.9的邊后的用戶協(xié)作網(wǎng)絡(luò),觀察發(fā)現(xiàn)除零星用戶處于離散狀態(tài)外,其它用戶聚集成為8個簇,同一簇內(nèi)的用戶協(xié)作性高達(dá)0.9,即回復(fù)對象非常接近,高度可疑.

      4.2.3 確定網(wǎng)絡(luò)水軍賬號

      為了確認(rèn)高度可疑的29天中形成簇的用戶是否為網(wǎng)絡(luò)水軍,采用3.4節(jié)描述的方法逐天分析這些用戶的回帖時間分布.統(tǒng)計分析結(jié)果發(fā)現(xiàn),其中7天的用戶回帖時間分布嚴(yán)重偏離正常用戶的回帖時間分布,由此斷定這7天論壇發(fā)生了網(wǎng)絡(luò)炒作,它們是12月2日、12月3日、12月5日、12月6日、12月10日、12月12日和12月13日.

      圖4展示了2010年全年及12月3日、12月6日和12月10日的回帖時間在一天中的分布,其中橫坐標(biāo)為時間,縱坐標(biāo)為該段時間的回帖數(shù).為了便于顯示,將12月3日、12月6日和12月10日的統(tǒng)計數(shù)據(jù)分別擴(kuò)大2倍、10倍、10倍.

      如圖4所示,從2010年全年看,零點回帖數(shù)較低,之后逐漸下降,并在7點達(dá)到谷底,這段時間正好對應(yīng)人們的休息時間.之后回帖數(shù)快速上升,9點至23點之間回帖數(shù)都保持在3 500以上,其中9點到18點的回帖數(shù)略高于18點之后.統(tǒng)計結(jié)果與人們的作息規(guī)律非常吻合,也與Jiang[25]等關(guān)于人類打電話時間模式的研究一致.

      圖3 高可疑時段用戶協(xié)作網(wǎng)絡(luò)示例

      時間/h

      觀察12月3日的回帖模式,發(fā)現(xiàn)零點回帖數(shù)很大,且之后5個小時持續(xù)攀升,并在4點和5點達(dá)到最高峰;之后快速下降,9點至12點回帖數(shù)均低于當(dāng)天零點;13點至20點,回帖數(shù)穩(wěn)定在500左右,不到零點時的一半,之后繼續(xù)下降,直到23點回帖量達(dá)到最低值.可以看出,12月3日的用戶回帖時間分布與人類作息時間完全違背.12月6日的回帖時間分布與12月3日幾乎相同.12月10日的回帖模式與12月3日、12月6日雖然不同,但表現(xiàn)出異乎尋常的穩(wěn)定性,也不符合人類作息規(guī)律.采用同樣方式,分析另外4天的用戶回帖時間模式,發(fā)現(xiàn)其也明顯偏離正常用戶行為特征.

      統(tǒng)計分析發(fā)生網(wǎng)絡(luò)炒作的7天的用戶協(xié)作網(wǎng)絡(luò),發(fā)現(xiàn)簇內(nèi)共包含不同賬號556個,其構(gòu)成了1個網(wǎng)絡(luò)水軍軍團(tuán),炒作內(nèi)容為當(dāng)時即將上映的電影《趙氏孤兒》.

      采用手動分析方式,對算法檢測出的網(wǎng)絡(luò)水軍賬號逐個進(jìn)行分析,發(fā)現(xiàn)均為網(wǎng)絡(luò)水軍賬號,算法的正確率達(dá)100%.對2010年全年回帖數(shù)據(jù)進(jìn)行手動分析,除算法發(fā)現(xiàn)的水軍賬號外,沒有發(fā)現(xiàn)其它可疑賬號,因此該算法的漏報率為零.

      5 結(jié) 論

      在線交流平臺在給人們帶來便利的同時,也帶來一定的社會問題,以網(wǎng)絡(luò)水軍為代表的不法分子,利用網(wǎng)絡(luò)平臺大量發(fā)布虛假和負(fù)面信息,企圖通過網(wǎng)絡(luò)炒作行為操縱社會輿論方向,甚至有人被金錢和利益誘惑,受雇于境外敵對分子,發(fā)布有損國家和民族利益的虛假消息.網(wǎng)絡(luò)不良用戶行為檢測和挖掘研究具有重大現(xiàn)實意義.

      本文以網(wǎng)絡(luò)論壇水軍賬號快速檢測為目標(biāo),提出一種基于人類行為統(tǒng)計分析、社會網(wǎng)絡(luò)分析和時間特征分析的新算法.和傳統(tǒng)輿情監(jiān)控系統(tǒng)相比,本文所提算法大大減少了語義分析、感情分析的范圍,具有計算量小、計算速度快的特點.

      本文研究成果對網(wǎng)絡(luò)空間安全監(jiān)控具有重要意義,也為安管部門進(jìn)行網(wǎng)絡(luò)取證提供了技術(shù)支撐.但網(wǎng)絡(luò)水軍隱匿在合法用戶之中,且其行為變化多端,下一步考慮將統(tǒng)計分析、行為分析技術(shù)和文本分析、情感分析等技術(shù)結(jié)合,進(jìn)一步提高檢測算法的性能.此外,隨著微博、微信等網(wǎng)絡(luò)社交平臺的快速興起,網(wǎng)絡(luò)水軍也已將矛頭對準(zhǔn)這些新興媒體.下一步將考慮研究微博平臺網(wǎng)絡(luò)水軍檢測問題.

      [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06.

      Internet Network Information Center of China. The 33rd statistical report on Internet development of China[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06. (In Chinese)

      [2] JINDAL N, LIU Bing. Review spam detection[C]//Proc of the 16th international conference on World Wide Web. 2007: 1189-1190.

      [3] JINDAL N, LIU Bing. Analyzing and detecting review spam[C]//Seventh IEEE International Conference on Data Mining.2007: 547-552.

      [4] JINDAL N, LIU Bing. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.2008: 219-230.

      [5] JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.2010: 1549-1552.

      [6] BENEVENUTO F, RODRIGUES T, ALMEIDA V,etal. Identifying video spammers in online social networks[C]// Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web. 2008: 45-52.

      [7] BENEVENUTO F, MAGNO G, RODRIGUES T,etal. Detecting spammers on twitter[C]//Seventh Annual Collaboration, Electronic Messaging, Anti-Abuse and Spam Conference(CEAS2010),2010.

      [8] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[J]. International Journal of Information Security and Privacy, 2009, 5(1):37-44.

      [9] GUERRA PHC, GUEDES D, MEIRA JR W,etal. Spamming chains: A new way of understanding spammer behavior[C]// Sixth Conference on Email and Anti-Spam(CEAS2009), 2009.

      [10]LAPPAS T. Fake reviews: The malicious perspective [J].Natural Language Processing and Information Systems, Lecture Notes in Computer Science, 2012, 7337:23-34.

      [11]LI F, HUANG M, YANG Y,etal. Learning to identify review spam[C]//Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. 2011: 2488-2493.

      [12]LIM E P,NGUYEN V A, JINDAL N,etal. Detecting product review spammers using rating behaviors[C]//Proc of the 19th ACM International Conference on Information and Knowledge Management. 2010:939-948.

      [13]MUKHERJEE A, LIU Bing, GLANCE N. Spotting fake reviewer groups in consumer reviews[C]//Proc of the 21st International Conference on World Wide Web. 2012:191-200.

      [14]OTT M, CHOI Y, CARDIE C,etal. Finding deceptive opinion spam by any stretch of the imagination [C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics.2011: 309-319.

      [15]SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[C]// IEEE INFOCOM 2011.2011: 2309-2317.

      [16]SUREKA A. Mining user comment activity for detecting forum spammers in youtube[C]//USEWOD '11, 2011.

      [17]WANG Guan, XIE Si-hong, LIU Bing,etal. Review graph based online store review spammer detection[C]// IEEE 11th International Conference on Data Mining(ICDM 2011). 2011: 1242-1247.

      [18]李綱,甘停,寇廣增.基于文本情感分類的網(wǎng)絡(luò)推手識別[J]. 圖書情報工作, 2010, 54(8): 77-80.

      LI Gang, GAN Ting, KOU Guang-zeng. Recognition of net-cheaters based on text sentiment analysis[J]. Library and Information , 2010, 54(8): 77-80. (In Chinese)

      [19]范純龍,肖昕,余玲,等. 基于論壇信息的水軍組織行為分析[J]. 沈陽航空航天大學(xué)學(xué)報, 2010, 29(5): 64-67.

      FAN Chun-long, XIAO Xin, YU Ling,etal. Behavior analysis of network navy organization based on web forums[J]. Journal of Shenyang Aerospace University, 2010, 29(5): 64-67. (In Chinese)

      [20]CHEN Cheng, WU Kui,VENKATESH S,etal. Battling the internet water army: detection of hidden paid posters, arXiv:1111.4297v1 [cs.SI] 18 Nov 2011.

      [21]BU Zhan, XIA Zheng-you, WANG Jian-dong. A sock puppet detection algorithm on virtual spaces[J]. Knowledge-Based Systems,2013, 37: 366-377.

      [22]ZHENG Xue-ling, LAI Yiu-ming, CHOW K P,etal. Sockpuppet detection in online discussion forums[C]//The Seventh International Conference on Intelligent Information Hiding and Multimedia Signal Processing. 2011: 374-377.

      [23]陳桂茸,蔡皖東,徐會杰,等.網(wǎng)絡(luò)論壇人類行為動力學(xué)實證分析[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2013,40(11):153-160.

      CHEN Gui-rong, CAI Wan-dong, XU Hui-jie,etal. Empirical analysis on human behavior dynamics in online forum[J]. Journal of Hunan University: Natural Science, 2013, 40(11):153-160. (In Chinese)

      [24]司夏萌,劉云.虛擬社區(qū)中人際交互行為的統(tǒng)計分析研究[J].物理學(xué)報,2011,44(7): 859-866.

      SI Xia-meng, LIU Yun. Empirical analysis of interpersonal interacting behavior in virtual community[J]. Acta Phys Sin, 2011, 44(7): 859-866. (In Chinese)

      [25]JIANG Zhi-qiang, XIE Wen-jie, LI Ming-xia,etal. Calling patterns in human communication dynamics[J]. Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.

      [26]彭冬,蔡皖東.面向 Web 論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實現(xiàn)[J].計算機(jī)工程與科學(xué), 2011,44(1):157-160.

      PENG Dong, CAI Wan-dong. The web forum crawling technology and system implementation[J]. Computer Engineering &Science, 2011,44(1):157-160. (In Chinese)

      A Fast Water-army Account Detection Algorithm on BBS

      CHEN Gui-rong1?,CAI Wan-dong1,WANG Rong2,ZHANG Feng-qin2,JIANG Hua

      (1. School of Computer Science, Northwestern Polytechnical Univ, Xi’an,Shanxi 710029, China;2. The Information and Navigation Institute, Air Force Engineering Univ, Xi’an,Shanxi 710077, China)

      This paper proposed a new water army accounts detection algorithm by analyzing the water army posting behaviors on online forums. The algorithm has three steps. The first one is to locate the suspicious periods by analyzing the daily reply behaviors of forum users, the second one is to build user collaborative networks based on user reply behaviors, and to locate the most suspicious periods by analyzing the pruned user collaborative networks, the last step is to detect the real water army accounts by analyzing the users' reply times. This algorithm excluding normal users and shrinking calculation ranges for 3 times has a small amount of calculation and high speed. We used this algorithm to analyze the dataset of Sina forum on 2010, and the results show that this algorithm can not only detect single water army account but also detect water army corps, and can determine the content of water army speculation.

      social networks; user behavior analysis; online forums; water army

      1674-2974(2015)04-0114-07

      2014-05-10

      陜西省科學(xué)技術(shù)研究發(fā)展項目(2013k06-19)

      陳桂茸(1980-),女,陜西合陽人,西北工業(yè)大學(xué)講師

      ?通訊聯(lián)系人,E-mail:guirongchen315@163.com

      TP393

      A

      猜你喜歡
      協(xié)作性回帖水軍
      “網(wǎng)絡(luò)水軍”作惡,該打!
      探究培養(yǎng)學(xué)生創(chuàng)新能力的策略
      大氣污染治理的政策工具變遷研究
      江淮論壇(2019年6期)2019-01-14 02:46:40
      協(xié)作性公共管理現(xiàn)狀與創(chuàng)新分析
      智富時代(2018年9期)2018-10-19 18:51:44
      淺談協(xié)作性在政工管理實施中的必要性
      贏未來(2018年3期)2018-09-25 10:25:08
      網(wǎng)絡(luò)水軍
      方圓(2017年12期)2017-07-17 17:50:26
      水軍
      黃河之聲(2016年24期)2016-04-22 02:39:44
      “術(shù)”材擴(kuò)用·善意回帖
      善意回帖:韓國教授的民間努力
      世界博覽(2014年14期)2015-03-25 20:20:15
      水軍的前世今生
      莲花县| 孟州市| 长治市| 诏安县| 遂平县| 安多县| 黎平县| 民和| 永寿县| 翁牛特旗| 厦门市| 中牟县| 连平县| 临高县| 汕尾市| 绵阳市| 龙里县| 宁明县| 高要市| 彭泽县| 金塔县| 青海省| 青河县| 谢通门县| 潞城市| 龙门县| 昌江| 陆川县| 高淳县| 青龙| 南澳县| 龙游县| 米泉市| 永兴县| 溧水县| 西乡县| 瑞安市| 哈密市| 阳信县| 察哈| 潜山县|