冉玉婷 陸向艷 曾佳琦 趙宇 張璽 崔琦萱
(廣西大學計算機與電子信息學院,廣西南寧 530004)
微博平臺具有用戶相關性良好和信息擴散迅速的特點,為用戶快速交流信息提供了很大的便利,受到越來越多網(wǎng)民的青睞,近年來微博用戶數(shù)量迅猛增長,微博官方報告顯示其2019年9月的活躍用戶數(shù)已經(jīng)達到4.97億。但由于微博用戶數(shù)量龐大,微博中信息傳播速度極快,加之有效的信息真實性審核手段的缺失,微博平臺存在相當多的不良和虛構信息,這些虛假信息大多數(shù)由稱為“水軍”的賬戶群體發(fā)布,給整個網(wǎng)絡生態(tài)帶來了不良影響?;谔囟康暮屠骝寗?,相關組織或人員通過微博賬號買賣,并雇傭專人甚至采用社交機器人來充當微博“水軍”,在其上散布大量具有導向性和煽動性的不實言論,對營商和輿論等產(chǎn)生諸多不良影響,給用戶甄別信息的真實性帶來困難。
微博水軍,是指基于特定目的通過雇傭人員或應用社交機器人在微博上發(fā)布信息的用戶群體。按照發(fā)布信息目的進行分類,微博水軍主要可以分成三類,即營銷類水軍、公關類水軍、謠言類水軍[1]。營銷類水軍主要由商家或企業(yè)擁有,除了簡單轉發(fā)產(chǎn)品或商家信息,還會為了達到營銷活動的高曝光度及KPI而大量重復刷帖,或偽裝成消費者發(fā)布對某商品的強烈夸贊性言論,以達到產(chǎn)品推廣或增加商家知名度及影響力的目的。公關類水軍是為了建立個人或團體正面形象或應對其負面新聞而存在的,例如某些明星團隊雇傭水軍針對該明星的熱點事件進行控評,以起到言論導向的作用。雇傭謠言類水軍通常是一種惡意競爭的手段,個人或組織通過制造并傳播對競爭對手不利的謠言,破壞對手在公眾心中的形象,從而給自己創(chuàng)造搶占市場份額的有利條件。
微博水軍對整個網(wǎng)絡環(huán)境的破壞無疑是巨大的。一方面,水軍的存在導致企業(yè)無法與消費者正常溝通,準確判斷民眾喜好和市場趨勢,企業(yè)對自身定位不準可能帶來經(jīng)濟損失;另一方面,大體量的虛假消息和不實評論不僅干擾微博正常情況下良性的傳播模式,浪費網(wǎng)絡資源[2],更會影響民眾對社會事件的正確認知和評判,導致媒體公信力的喪失;更為嚴重的是,某些水軍發(fā)布的內(nèi)容包含對社會或政府的惡意攻擊,且極具煽動性,以至于激化民眾情緒,危害國家安全。所以,如何自動區(qū)分正常用戶和水軍用戶,有效鑒別水軍,從而促進微博平臺良性健康運營,改善用戶體驗,較大程度地增強各界對熱點事件的真?zhèn)伪孀R能力,維護網(wǎng)絡秩序,凈化網(wǎng)絡環(huán)境,成為了當今社會具有實際意義的重要課題。與此同時,反水軍檢測技術也在不斷發(fā)展,現(xiàn)代水軍擅長隱藏于正常用戶之中,而中文表達和結構的復雜性增加了文本分析的難度,面向中文語言環(huán)境的微博水軍識別技術還有較大的研究空間。
微博水軍常常為某一目的進行活躍,發(fā)帖的導向性較強,且?guī)в胁徽斝院吞摷偕?,因此水軍和正常用戶具有不同的屬性和特征,大多?shù)通過詳細人工甄別可以被發(fā)現(xiàn),但面對大量用戶其識別工作量巨大,人工難以實現(xiàn),因此需要借助自動識別工具。當前微博水軍自動識別研究涌現(xiàn)出相當多的方法,這些方法主要可分為四種[3-5]:基于用戶屬性特征、基于話題行為特征、微博內(nèi)容特征及微博傳播特征的識別方法。
微博用戶的屬性特征主要包括昵稱、粉絲數(shù)、所在地、注冊時間、微博數(shù)、粉絲數(shù)、關注數(shù)和信用等級等。對這些屬性特征進行分析可以區(qū)分水軍和正常用戶,且屬性特性數(shù)據(jù)獲取相對較為容易,不需要經(jīng)過復雜的轉換。從整體來看,水軍賬戶的經(jīng)營程度弱于正常用戶,其粉絲數(shù)、關注數(shù)和信用等級這三個屬性與正常用戶有明顯差別,其粉絲數(shù)和關注數(shù)比正常用戶較少,尤其是粉絲數(shù)。微博網(wǎng)絡中水軍賬戶會出現(xiàn)隨意關注正常用戶的行為,這些用戶微博進行轉發(fā)評論以來幫助提高賬戶的人氣,而正常用戶由于對對方的身份和目的并不了解,往往會選擇置之不理。由于水軍賬戶發(fā)布的微博內(nèi)容大多數(shù)質量不高,其粉絲數(shù)一般較少。正常用戶刷微博的意義在于了解新聞、時事政治、游戲娛樂、不同觀念之間的交流等內(nèi)容,大多會在相關界面上有較長的停留時間,因此在線時長較長,活躍程度較高,信用等級也較高,而水軍則相反比較低。
用戶話題行為是指用戶在微博發(fā)帖交流過程中進行的發(fā)文、提及、轉發(fā)、評論等操作,在這些行為中,正常用戶和水軍用戶存在著較大的差異,這些差異也可為水軍識別分析提供依據(jù)。對于發(fā)文行為,正常用戶正常的微博用戶將微博視為社交媒體工具,一般而言會存在在微博上分享生活或所見所聞的行為,因此發(fā)布的微博中原創(chuàng)微博數(shù)量較多,相反水軍則較少;對于提及行為,出于交流和信息共享等社交目的,正常用戶提到與自己親密度高的其他用戶較為常見,而水軍賬戶幾乎不存在出于社交目的的發(fā)帖行為,通常情況下,水軍賬號提及特征低于正常用戶;對于轉發(fā)行為,由于水軍受個人或團體雇傭提供信息傳播等服務,其轉發(fā)微博的頻率遠遠超過正常用戶。
圖1 識別水軍流程圖
對于微博用戶來說,微博的文本內(nèi)容是最為直接的個人表達。用戶在不同階段會有不同的經(jīng)歷,對于自己感興趣或未知的話題和事件具有探索傾向,情緒和興趣也將隨著時間的推移發(fā)生變化,所以,正常用戶通常不會發(fā)布大量重復的微博。而水軍用戶受命于其雇主,為了達到產(chǎn)品宣傳推廣或制造輿論等目的,會發(fā)布大量內(nèi)容相似的博文,且出于降低時間成本的考慮,這些博文一般而言由模板快速生成,因此這些博文在文本上重復率極高,可以通過進行微博內(nèi)容存相似度檢測來識別水軍。
基于微博傳播特征的識別方法主要是針對具有反偵察能力的水軍團體的識別。微博水軍為了避免被發(fā)現(xiàn),會對賬號屬性和行為等特征進行偽裝,用以上三種方法進行識別難以發(fā)現(xiàn)?;趥鞑ヌ卣鞯淖R別方法是通過微博水軍的組織關系,即轉發(fā)、互粉、關注等網(wǎng)絡關系結構進行來辨析水軍。研究表明水軍是一個有組織的,具有高度協(xié)作性的,緊密結合的群體,與正常用戶親密度低而與其他水軍之間存在緊密的關系網(wǎng)絡,因此,可以從整體和全局的角度研究水軍,對于高度偽裝的水軍軍團分析其在組織關系上與正常用戶的差異。
微博水軍自動識別主要是采用基于機器學習的算法。算法流程如圖1所示,主要包含數(shù)據(jù)獲取、數(shù)據(jù)預處理、特征向量構建及分類器訓練和測試等過程。首先獲取原始微博數(shù)據(jù),可以直接利用社交媒體提供的open API等數(shù)據(jù)獲取通道或采用網(wǎng)絡爬蟲進行數(shù)據(jù)采集,然后對原始數(shù)據(jù)進行去噪和規(guī)范化等預處理得到可被分析的用戶數(shù)據(jù)集,對處理后的數(shù)據(jù)集進行分類標注,將標注好數(shù)據(jù)集分為訓練集和測試集兩部分;其次是對數(shù)據(jù)集進行特征提取和向量化,選擇判別度較高的特征構建可以用于識別新浪微博水軍用戶的用戶特征向量集。接下來是將訓練特征向量輸入到訓練器中得到具有分類能力的分類器;最后將測試集輸入到訓練好的分類器中,得到預測結果,并對得到的測試結果進行評估,若不能達到判別準確度要求,則需要擴大訓練集或選擇其他的分類算法重新訓練。
微博水軍受雇于特定組織和個人發(fā)布具有導向性或煽動性的不實言論,對營商和輿論等產(chǎn)生諸多不良影響。本文對微博水軍對網(wǎng)絡環(huán)境安全造成的危害、自動甄別方法和流程進行探討,為發(fā)現(xiàn)和治理微博水軍和凈化網(wǎng)絡環(huán)境提供參考。