柯家龍
國家互聯(lián)網(wǎng)應(yīng)急中心江蘇分中心
近年來,社交網(wǎng)站已經(jīng)成為網(wǎng)民生活中的重要組成部分。然而與“網(wǎng)絡(luò)黑產(chǎn)”緊密相關(guān)的引流機(jī)器人賬號(hào)卻充斥著各大社交網(wǎng)站,如新浪微博等。引流機(jī)器人賬號(hào)是指:由程序控制并通過發(fā)帖、轉(zhuǎn)載、評(píng)論等方式,將部分網(wǎng)民誘導(dǎo)至特定網(wǎng)站、特定人群、特定組織,從而起到傳播不良信息、操控輿論、誘導(dǎo)消費(fèi)甚至實(shí)施網(wǎng)絡(luò)詐騙等目的的網(wǎng)絡(luò)社交賬號(hào)。常見的引流類型包括涉黃、涉賭、刷單、醫(yī)美、股票投資、小貸廣告等,其社會(huì)危害程度較大。因此,利用技術(shù)手段準(zhǔn)確識(shí)別出社交網(wǎng)站中的引流機(jī)器人賬號(hào)具有重要意義。
目前,國內(nèi)外用于識(shí)別檢測引流機(jī)器人賬號(hào)的方式,基本上都是基于引流機(jī)器人賬號(hào)和正常人類賬號(hào)之間的特征差異,構(gòu)造出檢測準(zhǔn)確率較高、綜合代價(jià)較小的檢測模型。模型的常用特征包括賬號(hào)屬性、信用屬性、社交屬性等,具體又可以細(xì)分為資料完整度、賬號(hào)信用值、賬號(hào)影響力、發(fā)文豐富度、發(fā)文互動(dòng)率等特征值。Yang 等設(shè)計(jì)了基于圖像、鄰居等的識(shí)別算法。趙斌等重點(diǎn)研究了微博內(nèi)容中的文本相關(guān)性和時(shí)間相關(guān)性,提出了基于重用檢測模型的微博垃圾用戶檢測算法。劉勘等結(jié)合微博發(fā)送信息熵、發(fā)送端所屬平臺(tái)等特征,并基于隨機(jī)森林算法,完成相關(guān)賬號(hào)檢測。
為準(zhǔn)確高效地識(shí)別出網(wǎng)絡(luò)引流機(jī)器人賬號(hào),本文在前人研究基礎(chǔ)上,深入挖掘社交賬號(hào)在發(fā)文方面的特性,提出了一種基于賬號(hào)發(fā)文特征的智能檢測方法。以新浪微博引流機(jī)器人賬號(hào)為例,我們發(fā)現(xiàn)該類賬號(hào)通常具有轉(zhuǎn)載博文、重復(fù)發(fā)文、高頻發(fā)文、深夜發(fā)文等特征,我們稱之為“發(fā)文行為特征”,同時(shí)其在發(fā)文內(nèi)容語義上也具有一定的引流特性,我們稱之為“發(fā)文內(nèi)容特征”。本文基于上述特征,引入自然語言處理領(lǐng)域的BERT 算法和多種機(jī)器學(xué)習(xí)算法,設(shè)計(jì)并實(shí)現(xiàn)了一套引流機(jī)器人賬號(hào)智能檢測模型。
引流機(jī)器人賬號(hào)為了達(dá)到擴(kuò)大知悉范圍、增強(qiáng)引流效果的目的,其幕后操控的大量引流機(jī)器人賬號(hào)往往會(huì)批量轉(zhuǎn)發(fā)引流帖子內(nèi)容,而正常的人類社交賬號(hào)一般不會(huì)有此特征。基于此特征,我們引入“原創(chuàng)發(fā)文率”(Original Posting Ratio,OPR)特征指標(biāo)。提取新浪微博賬號(hào)的歷史發(fā)文數(shù)量,并統(tǒng)計(jì)其中轉(zhuǎn)發(fā)情況和原創(chuàng)發(fā)文情況,計(jì)算OPR 指標(biāo)?!霸瓌?chuàng)發(fā)文率”特征指標(biāo)表達(dá)式為:
其中,posting_num 表示該賬號(hào)發(fā)布的博文總數(shù)量(包括原創(chuàng)的和轉(zhuǎn)發(fā)的),original_posting_num 表示該賬號(hào)的原創(chuàng)發(fā)文數(shù)量。
引流機(jī)器人賬號(hào)出于引流的目的,經(jīng)常會(huì)將事先編輯好的、具有誘導(dǎo)性的文字內(nèi)容,在社交網(wǎng)站平臺(tái)上重復(fù)發(fā)布或轉(zhuǎn)載,而正常的人類社交賬號(hào)一般不具備此特征?;诖颂卣?,我們引入“重復(fù)發(fā)文率”(Repeated Posting Ratio,RPR)特征指標(biāo)。提取新浪微博賬號(hào)的歷史發(fā)文內(nèi)容,統(tǒng)計(jì)其重復(fù)發(fā)文情況,計(jì)算RPR 指標(biāo)。“重復(fù)發(fā)文率”特征指標(biāo)表達(dá)式為:
其中,posting_num 表示該賬號(hào)發(fā)布的博文總數(shù)量(包括重復(fù)的和非重復(fù)的),repeated_posting_num 表示發(fā)文內(nèi)容重復(fù)的數(shù)量。在判定博文內(nèi)容是否重復(fù)之前,我們還需要對(duì)博文中的“@”字符、轉(zhuǎn)發(fā)標(biāo)識(shí)、表情、空格等特殊情況進(jìn)行預(yù)處理,以保證真實(shí)效果。
對(duì)新浪微博賬號(hào)的發(fā)文頻率進(jìn)行研究后,我們發(fā)現(xiàn)引流機(jī)器人賬號(hào)為了達(dá)到增加曝光率的目的,其往往存在短時(shí)間內(nèi)多次發(fā)布博文的特征,而正常的人類社交賬號(hào)則一般無此明顯特征。基于此特征,我們引入“發(fā)文頻率”(Posting Frequency,PF)特征指標(biāo)。我們統(tǒng)計(jì)新浪微博賬號(hào)的歷史發(fā)文數(shù)量和時(shí)間跨度,計(jì)算其發(fā)文頻率指標(biāo)PF。記頻率為:
其中,posting_num 表示該賬號(hào)posting_period 統(tǒng)計(jì)時(shí)間內(nèi)的博文總數(shù),posting_period 表示該賬號(hào)按天計(jì)數(shù)的發(fā)文時(shí)間跨度。則“發(fā)文頻率”特征指標(biāo)歸一化表達(dá)式為:
xmax、xmin分別為頻率原始數(shù)據(jù)的最大值、最小值。
新浪微博引流機(jī)器人賬號(hào)在發(fā)文時(shí)間上也有別于正常人類賬號(hào)。例如,引流機(jī)器人賬號(hào)往往會(huì)在深夜凌晨等時(shí)段發(fā)布引流博文?;诖颂匦裕覀円搿鞍l(fā)文時(shí)間”(Posting Time,PT)特征指標(biāo)。
根據(jù)經(jīng)驗(yàn),我們將一天中的24 小時(shí)劃分為5 個(gè)區(qū)間,并對(duì)發(fā)文時(shí)間落在不同區(qū)間內(nèi)的情況賦予不同的權(quán)重值?!鞍l(fā)文時(shí)間”特征權(quán)重經(jīng)驗(yàn)值如表1 所示。
表1 發(fā)文時(shí)間特征權(quán)重值表
根據(jù)表1 的“發(fā)文時(shí)間”特征權(quán)重值表,提出“發(fā)文時(shí)間”PT 特征指標(biāo)表達(dá)式為:
新浪微博引流機(jī)器人賬號(hào)的發(fā)文內(nèi)容或轉(zhuǎn)載內(nèi)容在語義方面往往具有較為明顯的特征。目前,大量充斥在新浪微博網(wǎng)站平臺(tái)上的引流機(jī)器人業(yè)務(wù)方向有很多,例如涉醫(yī)療美容、涉股票投資、涉色情網(wǎng)站、涉賭博網(wǎng)站、涉刷單詐騙、涉貸款廣告等。我們重點(diǎn)研究上述引流方向特征,并結(jié)合自然語言處理領(lǐng)域的BERT 深度學(xué)習(xí)算法,對(duì)發(fā)文內(nèi)容進(jìn)行是否引流二分類訓(xùn)練,以完成文本語義檢測識(shí)別。
2018 年10 月11 日,Google 發(fā)布自然語言處理領(lǐng)域重磅論文,BERT 算法橫空出世。BERT 全稱是Bidirectional Encoder Representation from Transformers,是一種雙向編碼模型算法,其最大特點(diǎn)是拋棄了傳統(tǒng)的RNN 和CNN,通過Attention 機(jī)制將任意位置的兩個(gè)單詞的距離轉(zhuǎn)換成1,有效地解決了NLP 中棘手的長期依賴問題。BERT 作為一個(gè)Word2Vec 的替代者,其在NLP 領(lǐng)域的11 個(gè)方向大幅刷新了精度,可以說是近年來自殘差網(wǎng)絡(luò)最有突破性的一項(xiàng)技術(shù)。
我們對(duì)獲取的新浪微博引流機(jī)器人賬號(hào)發(fā)文和轉(zhuǎn)載數(shù)據(jù)進(jìn)行總結(jié),將常見的且危害較大的引流發(fā)文內(nèi)容歸納為如表2 所示。
表2 重點(diǎn)引流業(yè)務(wù)方向
上述6 個(gè)重點(diǎn)引流業(yè)務(wù)方向,是基于新浪微博平臺(tái)引流機(jī)器人賬號(hào)發(fā)文類型總結(jié)得來的。盡管我們不能窮盡引流內(nèi)容類別,但是表2 所列舉的方向是我們關(guān)注的重點(diǎn),具備較強(qiáng)的代表性,在很大程度上能夠達(dá)到本文研究目的。圖1 為某醫(yī)美引流的微博樣例截圖。
圖1 某醫(yī)美引流微博截圖
根據(jù)表2 分類方向,并結(jié)合人工研判方式,對(duì)新浪微博賬號(hào)的歷史發(fā)文和轉(zhuǎn)載數(shù)據(jù)進(jìn)行標(biāo)注。具體標(biāo)注方式為:正常的普通微博內(nèi)容文本標(biāo)注為0,命中表2 中的重點(diǎn)引流方向的文本標(biāo)注為1。基于BERT 算法,利用已標(biāo)注發(fā)文數(shù)據(jù)進(jìn)行是否引流的二分類訓(xùn)練優(yōu)化。訓(xùn)練完成的模型,已具備了對(duì)微博發(fā)文內(nèi)容是否引流進(jìn)行判別的語義分類能力。
為了偽裝,一些引流機(jī)器人賬號(hào)也會(huì)發(fā)布正常的微博內(nèi)容。因此,具體到某一個(gè)引流機(jī)器人賬號(hào),其歷史發(fā)文數(shù)據(jù)在語義上可能存在引流和非引流兩類?;谏鲜龇治?,我們引入“發(fā)文內(nèi)容引流率”(Drainage Ratio,DR)特征指標(biāo),將提取的新浪微博賬號(hào)歷史發(fā)文內(nèi)容進(jìn)行是否引流的二分類判別,并定義“發(fā)文內(nèi)容引流率”特征指標(biāo)表達(dá)式為:
其中,posting_num 表示該賬號(hào)發(fā)布的博文總數(shù)量(包括引流的和非引流的),drainage_posting_num 表示該賬號(hào)被BERT 判定為引流的博文數(shù)量。
上述章節(jié)分別完成了微博賬號(hào)發(fā)文行為、發(fā)文內(nèi)容兩方面共計(jì)5 個(gè)特征指標(biāo)(OPR、RPR、PF、PT、DR)的計(jì)算。為充分利用發(fā)文行為和發(fā)文內(nèi)容特征,我們?cè)O(shè)計(jì)了融合分類模型,將上述5 個(gè)檢測特征指標(biāo)送入機(jī)器學(xué)習(xí)模型(分類器分別選擇隨機(jī)森林、K 近鄰、MLP 多層感知機(jī)),完成融合二分類訓(xùn)練。智能檢測模型整體邏輯如圖2 所示。
圖2 基于發(fā)文特征的微博賬號(hào)融合分類模型
本文通過公開渠道獲取新浪微博正常人類賬號(hào)8000 個(gè),通過其他方式獲得引流機(jī)器人賬號(hào)600 個(gè),并獲取上述賬號(hào)3 個(gè)月內(nèi)的歷史發(fā)文時(shí)間、發(fā)文內(nèi)容、是否轉(zhuǎn)發(fā)、原帖內(nèi)容(轉(zhuǎn)發(fā)微博情況下原帖文本內(nèi)容參與RPR、DR 特征指標(biāo)計(jì)算)等詳細(xì)樣本數(shù)據(jù),作為后續(xù)實(shí)驗(yàn)的原始數(shù)據(jù)集。
為了完成“發(fā)文內(nèi)容引流率”(DR)指標(biāo)的計(jì)算,我們隨機(jī)選擇2000 個(gè)正常人類賬號(hào)和200 個(gè)引流機(jī)器人賬號(hào)作為樣本數(shù)據(jù),對(duì)其發(fā)文內(nèi)容數(shù)據(jù)進(jìn)行人工標(biāo)注,并結(jié)合BERT 算法完成二分類訓(xùn)練。
對(duì)剩余的6000 個(gè)正常人類賬號(hào)和400 個(gè)引流機(jī)器人賬號(hào)及其發(fā)文數(shù)據(jù)進(jìn)行預(yù)處理,并計(jì)算每一個(gè)賬號(hào)的發(fā)文行為特征指標(biāo)值(OPR、RPR、PF、PT)和發(fā)文內(nèi)容特征指標(biāo)值(DR)。將這6400 個(gè)微博賬號(hào)劃分為訓(xùn)練集(60%)、驗(yàn)證集(20%)和測試集(20%)。
4.2.1 特征指標(biāo)區(qū)分度分析
針對(duì)前述提出的新浪微博賬號(hào)的5 個(gè)發(fā)文特征指標(biāo)值,分別繪制概率累積分布函數(shù)圖(Cumulative Distribution Function,CDF)。CDF 圖橫坐標(biāo)分別為本文提出的5 個(gè)特征指標(biāo)值,縱坐標(biāo)為對(duì)應(yīng)特征指標(biāo)的概率累積分布函數(shù)值。
圖3為OPR 指標(biāo)的CDF 圖。從圖中可以看出,原創(chuàng)發(fā)文率在0.5 左右時(shí),正常人類賬號(hào)累積占比只有24%,而引流機(jī)器人賬號(hào)累積占比高達(dá)76%。引流機(jī)器人賬號(hào)OPR 指標(biāo)的累積概率始終大于正常人類賬號(hào),這也充分說明了引流機(jī)器人賬號(hào)存在原創(chuàng)發(fā)文率低、轉(zhuǎn)載比率較高的特征。
圖3 OPR 指標(biāo)的累積分布函數(shù)
圖4為RPR 指標(biāo)的CDF 圖。從圖中可以看出,正常人類賬號(hào)重復(fù)發(fā)文率在0.2 以下的累積占比高達(dá)90%以上,說明其重復(fù)發(fā)文比率較低。而引流機(jī)器人賬號(hào)重復(fù)發(fā)文率在0.5以上的累積占比近60%,說明引流機(jī)器人賬號(hào)存在大量重復(fù)發(fā)文的特性。
圖4 RPR 指標(biāo)的累積分布函數(shù)
圖5為PF 指標(biāo)的CDF 圖。從圖中可以看出,正常人類賬號(hào)發(fā)文頻率較低,PF 指標(biāo)一般不超過0.5。而引流機(jī)器人賬號(hào)的PF 值大多集中在0.6 以上,說明其發(fā)文頻率很高。
圖5 PF 指標(biāo)的累積分布函數(shù)
圖6為PT 指標(biāo)的CDF 圖。從圖中可以看出,正常人類賬號(hào)發(fā)文時(shí)間指標(biāo)PT 高于0.5 的比率不足10%。而引流機(jī)器人賬號(hào)發(fā)文時(shí)間指標(biāo)PT 高于0.5 的比率超過40%,這說明引流機(jī)器人賬號(hào)PT 指標(biāo)明顯高于正常人類賬號(hào)。
圖6 PT 指標(biāo)的累積分布函數(shù)
圖7為DR 指標(biāo)的CDF 圖。從圖中可以看出,正常人類賬號(hào)DR 指標(biāo)值集中在0.2 以下,說明其在發(fā)文內(nèi)容上總體呈現(xiàn)出非引流特性。而引流機(jī)器人賬號(hào)的DR 指標(biāo)大多集中在0.4 以上,明顯高出正常人類賬號(hào)很多,這說明引流機(jī)器人賬號(hào)在發(fā)文內(nèi)容上大多呈現(xiàn)出引流的特性。
圖7 DR 指標(biāo)的累積分布函數(shù)
通過圖3 至圖7 的指標(biāo)分析,新浪微博引流機(jī)器人賬號(hào)的RPR、PF、PT 和DR 指標(biāo)普遍高于正常人類賬號(hào),而OPR 指標(biāo)明顯低于正常人類賬號(hào),證明本文提出的5 個(gè)發(fā)文特征指標(biāo)具備較好的區(qū)分度。
4.2.2 智能檢測模型性能分析
本文實(shí)驗(yàn)構(gòu)建5 個(gè)發(fā)文特征指標(biāo)(OPR、RPR、PF、PT、DR),分別基于隨機(jī)森林、K 近鄰、MLP 多層感知機(jī),完成模型訓(xùn)練優(yōu)化。本文設(shè)計(jì)的智能檢測模型在測試集上的性能指標(biāo)如表3 所示。
表3 智能檢測模型性能指標(biāo)
從表3 可以看出,模型在三個(gè)分類算法下均具有良好的性能指標(biāo),這表明本文提出的基于發(fā)文特征的智能檢測方法,能夠準(zhǔn)確地識(shí)別出微博引流機(jī)器人賬號(hào),具備較強(qiáng)的可行性和通用性。
本文根據(jù)社交網(wǎng)絡(luò)引流機(jī)器人賬號(hào)發(fā)文特征,以新浪微博賬號(hào)為樣本,引入了5 類特征值,設(shè)計(jì)并實(shí)現(xiàn)了一套基于發(fā)文特征的引流機(jī)器人賬號(hào)智能檢測系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,本套系統(tǒng)具備較高的檢測準(zhǔn)確率,為有效識(shí)別網(wǎng)絡(luò)引流機(jī)器人賬號(hào)提供了一種新的思路和方法。由于精力有限,本次研究未引入更多維度的特征,后續(xù)可考慮結(jié)合社交賬號(hào)的資料完整性、信息真實(shí)度、互動(dòng)程度等方面的特征指標(biāo),開展更多維度特征的融合分析研究工作。