李新煥,黃偉力
(江西開放大學(xué) 江西工程職業(yè)學(xué)院,江西 南昌 330046)
隨著網(wǎng)絡(luò)的普及和科技的發(fā)展,人們的社交活動(dòng)方式從傳統(tǒng)的書信聯(lián)絡(luò)到便捷的電子郵件,再到即時(shí)通信工具(如微信、QQ、微博等),可謂發(fā)生了翻天覆地的變化。與此同時(shí),新浪微博為眾人所熟知,尤其是大多數(shù)知名人士和企業(yè)用戶都會(huì)在新浪微博上注冊(cè)認(rèn)證。在微博平臺(tái)上大家可以暢所欲言,隨時(shí)隨地接收信息和發(fā)表觀點(diǎn)。正是由于微博使用的便利性,一些網(wǎng)絡(luò)水軍會(huì)帶偏某些熱點(diǎn)事件的走勢(shì)。因此,若要更好地控制網(wǎng)絡(luò)輿情,優(yōu)化網(wǎng)絡(luò)中的信息質(zhì)量,引導(dǎo)風(fēng)清氣正的網(wǎng)絡(luò)環(huán)境至關(guān)重要。
Fang等利用所提出的用戶名特征提取算法,對(duì)網(wǎng)絡(luò)中的僵尸粉進(jìn)行識(shí)別研究。Chu等對(duì)用戶發(fā)表的內(nèi)容及其賬號(hào)屬性進(jìn)行研究分析,從中發(fā)現(xiàn)有絕大多數(shù)水軍使用第三方接口發(fā)送內(nèi)容,同時(shí)還發(fā)現(xiàn)所發(fā)布的內(nèi)容具有重復(fù)性和定點(diǎn)性,相反正常用戶很少會(huì)選擇在晚上發(fā)文。Irani等對(duì)眾多的社交網(wǎng)絡(luò)賬戶進(jìn)行了研究,成功建立一個(gè)巨大的靜態(tài)用戶個(gè)人資料內(nèi)容分析案例庫。通過比較幾種機(jī)器學(xué)習(xí)算法,最終獲得用以甄別水軍用戶的決策樹算法。王淑琪等研究微博中正常用戶和水軍用戶的差異,基于提取出的特征屬性去識(shí)別微博水軍,利用SVM算法對(duì)其進(jìn)行分類,最后得到水軍識(shí)別的模型。程曉濤將傳統(tǒng)用戶的屬性及其行為特征相結(jié)合,得出一種全新的關(guān)系圖,這也充分證明了新特征的使用對(duì)于水軍的識(shí)別有了很大的提升。韓忠明等把用戶成為水軍的概率當(dāng)作其屬性特征及行為特征的隱變量,從而構(gòu)建了用于計(jì)算用戶成為水軍概率的模型。
目前對(duì)水軍的識(shí)別大都是基于對(duì)微博用戶語言特征和行為特征的分析,由于社交網(wǎng)絡(luò)的數(shù)據(jù)量巨大,微博內(nèi)容也比較繁雜,因此內(nèi)容本身的不確定性給水軍的識(shí)別帶來極大的挑戰(zhàn)。文章通過微博中的用戶信息對(duì)用戶進(jìn)行識(shí)別,從而提高網(wǎng)絡(luò)水軍識(shí)別的準(zhǔn)確率,同時(shí)還能對(duì)網(wǎng)絡(luò)輿情起到很好的控制作用,進(jìn)而提高網(wǎng)絡(luò)上的信息質(zhì)量。
據(jù)統(tǒng)計(jì),新浪微博中的用戶占微博用戶的三分之二以上,因此本研究主要針對(duì)新浪微博中的用戶展開,利用新浪微博對(duì)外開放的API(應(yīng)用程序編程接口)提取新浪微博中的數(shù)據(jù)。但由于API的升級(jí)限制,這就為從新浪微博中獲取數(shù)據(jù)帶來一定的困難,故本研究還采用網(wǎng)絡(luò)爬蟲(Web Scraper)輔助獲取數(shù)據(jù)。作者曾經(jīng)發(fā)表的文獻(xiàn)中詳細(xì)介紹了新浪微博API接口獲取數(shù)據(jù)的過程,故在此不再贅述,讀者可自行去參閱。
網(wǎng)絡(luò)爬蟲(Web Scraper)是一個(gè)輕量級(jí)的谷歌瀏覽器爬蟲插件,用于任意抓取Web頁面并使用幾行JavaScript代碼從中提取結(jié)構(gòu)化數(shù)據(jù)。它能夠加載Web頁面并實(shí)現(xiàn)動(dòng)態(tài)抓取。按照谷歌瀏覽器中的提示,下載Web Scraper并將其保存到本地,打開谷歌瀏覽器的擴(kuò)展程序,打開開發(fā)者選項(xiàng),將下載好的Web Scraper直接拖拽到里面,再返回到要抓取的頁面,打開開發(fā)者工具,即可找到并進(jìn)入Web Scraper的界面,新建站點(diǎn)地圖并添加節(jié)點(diǎn),選中要抓取的內(nèi)容,最后將抓取到的數(shù)據(jù)以.xlsx或.csv的格式導(dǎo)出即可。
本研究總共獲取了12 680條微博數(shù)據(jù),對(duì)所獲取的數(shù)據(jù)進(jìn)行了清理,如填寫少量缺失值、使噪聲數(shù)據(jù)光滑、刪除離群點(diǎn)的數(shù)據(jù)。為了使數(shù)據(jù)能夠適用于SVM,對(duì)部分字段進(jìn)行了規(guī)范化處理,最終選擇其中3 600條數(shù)據(jù)作為樣本集。
1.2.1 微博用戶種類分析
本研究將微博中的用戶分為四類:(1)正常用戶。微博中正常使用賬號(hào)的用戶。(2)炒作型水軍。一般由營銷團(tuán)隊(duì)(如第三方組織或權(quán)威人士)針對(duì)某一話題進(jìn)行大力宣揚(yáng),以得到更多用戶的關(guān)注,從而提高知名度或品牌影響力。(3)營銷型水軍。通過夸張的視頻或圖片廣告極力宣傳商品的優(yōu)勢(shì),甚至是通過編造虛假故事來博取用戶的信任或同情,以此來謀財(cái)。(4)謠言型水軍。針對(duì)當(dāng)下熱點(diǎn)話題發(fā)布虛假言論,引導(dǎo)眾人產(chǎn)生不滿或恐慌的情緒。
1.2.2 特征屬性定義
微博用戶在社交網(wǎng)絡(luò)中的行為主要表現(xiàn)為通過發(fā)布微博、轉(zhuǎn)發(fā)評(píng)論等方式引起他人的關(guān)注。正常用戶一般是引導(dǎo)積極向上的正能量,或者是處于中立的態(tài)度,而網(wǎng)絡(luò)水軍則要占據(jù)顯要位置,以此來吸引大量用戶的注意,進(jìn)而帶動(dòng)整個(gè)話題的輿論方向,達(dá)到自己的目的或從中獲利。
通過對(duì)微博中用戶的特征屬性進(jìn)行詳細(xì)的對(duì)比分析,可篩選得出有關(guān)網(wǎng)絡(luò)水軍的特征屬性:(1)關(guān)注數(shù)。當(dāng)前用戶關(guān)注其他用戶的數(shù)量,水軍賬號(hào)的關(guān)注數(shù)量遠(yuǎn)遠(yuǎn)大于正常用戶的關(guān)注數(shù)量。(2)粉絲數(shù)。當(dāng)前用戶被其他用戶關(guān)注的數(shù)量,水軍賬號(hào)的粉絲數(shù)少于正常用戶。(3)標(biāo)簽數(shù)。為了讓更多的人了解自己,用戶一般會(huì)給自己貼標(biāo)簽(如運(yùn)動(dòng)、購物、開心等),用戶貼的標(biāo)簽越多,代表其是正常用戶的概率大,相反就是網(wǎng)絡(luò)水軍的概率大。(4)微博數(shù)。當(dāng)前用戶發(fā)布的微博總數(shù),水軍賬號(hào)發(fā)布的微博數(shù)要遠(yuǎn)遠(yuǎn)高于正常用戶。(5)粉絲關(guān)注比(粉絲數(shù)/關(guān)注數(shù))。該比值越高,說明當(dāng)前用戶為認(rèn)證或權(quán)威用戶的概率更大;該比值越低,說明當(dāng)前用戶為水軍賬號(hào)的概率更大。(6)資料完善度。如基本信息、聯(lián)系信息、職業(yè)信息、教育信息、標(biāo)簽信息等五項(xiàng)指標(biāo),每項(xiàng)指標(biāo)又包含許多更為具體的小指標(biāo),在此規(guī)定每個(gè)小指標(biāo)用戶填寫則計(jì)為1,不填寫則計(jì)為0,資料完善度的各項(xiàng)值的和即為各項(xiàng)小指標(biāo)相加。(7)有無簡介。向用戶介紹自己的基本情況、興趣愛好、最近狀態(tài)等,有計(jì)為1,無計(jì)為0。(8)陽光信用。共有5個(gè)等級(jí),等級(jí)越高信用越好。
本研究基于多個(gè)二分類器設(shè)計(jì)了一個(gè)多分類器,利用臺(tái)灣林智仁教授開發(fā)的一套實(shí)現(xiàn)支持向量機(jī)的庫LibSVM中的函數(shù)svm.scale進(jìn)行縮放,設(shè)置閾值為[-1,1]。處理過程如圖1所示。將提取出的微博用戶特征值輸入到分類器后,第一個(gè)分類器判斷該用戶是正常用戶還是炒作型水軍,第二個(gè)分類器判斷該用戶是正常用戶還是營銷型水軍,第三個(gè)分類器判斷該用戶是正常用戶還是謠言型水軍,第四個(gè)分類器判斷該用戶是營銷型水軍還是炒作型水軍,第五個(gè)分類器判斷該用戶是謠言型水軍還是炒作型水軍,第六個(gè)分類器判斷該用戶是營銷型水軍還是謠言型水軍。最后對(duì)這六個(gè)分類器的結(jié)果進(jìn)行統(tǒng)計(jì),得數(shù)最高的即為用戶類型。
圖1 多分類支持向量機(jī)模型
本研究中的數(shù)據(jù)一部分來自新浪微博開放平臺(tái),一部分是通過網(wǎng)絡(luò)爬蟲獲取的,快速識(shí)別出水軍的類型對(duì)網(wǎng)絡(luò)輿情的控制至關(guān)重要。本文設(shè)計(jì)了微博數(shù)據(jù)爬取程序和用戶識(shí)別模型,用于獲取微博中用戶的關(guān)注數(shù)和粉絲數(shù),識(shí)別出水軍類型并進(jìn)行統(tǒng)計(jì)分析。
以前期獲得的3 600條數(shù)據(jù)作為本研究的實(shí)驗(yàn)數(shù)據(jù),人工分類如下:正常用戶有2 854條,網(wǎng)絡(luò)水軍有746條,其中炒作型水軍有369條,營銷型水軍有286條,謠言型水軍有91條。通過人工分類和多分類識(shí)別器得到的數(shù)據(jù)如表1、表2和圖2所示。
表1 人工分類得到的數(shù)據(jù)
表2 多分類器識(shí)別得到的數(shù)據(jù)
圖2 實(shí)驗(yàn)數(shù)據(jù)識(shí)別結(jié)果
本研究定義了識(shí)別結(jié)果誤差率,其為人工分類識(shí)別結(jié)果和分類器識(shí)別結(jié)果差的絕對(duì)值,公式為:
根據(jù)圖2可以計(jì)算得出,正常用戶的識(shí)別結(jié)果誤差率為7.36%,炒作型水軍的識(shí)別結(jié)果誤差率為3.17%,營銷型水軍的識(shí)別結(jié)果誤差率為2.95%,謠言型水軍的識(shí)別結(jié)果誤差率為1.25%。四個(gè)識(shí)別結(jié)果誤差率的平均值約為3.68%,數(shù)值比較小,證明本研究提出的SVM多分類器識(shí)別方法對(duì)所提取數(shù)據(jù)的識(shí)別效果較好。
網(wǎng)絡(luò)給人們提供了極大的便利,但與此同時(shí)也帶來一些負(fù)面影響,如本文研究的網(wǎng)絡(luò)水軍極大地干擾了網(wǎng)絡(luò)輿論和信息安全,因此有必要將他們準(zhǔn)確地識(shí)別出來并加以分類,以營造純凈健康的網(wǎng)絡(luò)環(huán)境。本文采用一種基于SVM算法的多分類器模型,根據(jù)用戶的特征信息進(jìn)行檢測(cè)識(shí)別,將他們分為正常用戶、炒作型水軍、營銷型水軍、謠言型水軍四種類型。實(shí)驗(yàn)結(jié)果表明,所提出的多分類器模型可以有效識(shí)別網(wǎng)絡(luò)水軍。希望在以后的研究中,能開發(fā)出更優(yōu)異的支持向量機(jī)算法模型,在識(shí)別網(wǎng)絡(luò)水軍上做到更加精準(zhǔn)可靠。