• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度圖卷積網(wǎng)絡(luò)的社交機(jī)器人識(shí)別方法

      2022-07-15 08:10:32毛文清徐雅斌
      關(guān)鍵詞:博文賬號(hào)聚類

      毛文清,徐雅斌,3*

      (1. 北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室 北京 朝陽(yáng)區(qū) 100101;2. 北京信息科技大學(xué)計(jì)算機(jī)學(xué)院 北京 朝陽(yáng)區(qū) 100101;3. 北京信息科技大學(xué)大數(shù)據(jù)安全技術(shù)研究所 北京 朝陽(yáng)區(qū) 100101)

      社交機(jī)器人是目前活躍于社交網(wǎng)絡(luò)上的一種虛擬機(jī)器人。它實(shí)際上是一種自動(dòng)化程序,能夠利用社交賬號(hào),運(yùn)用人工智能等相關(guān)技術(shù)模仿人類行為在社交網(wǎng)絡(luò)中活動(dòng)。據(jù)估計(jì),2019 年Facebook 活躍賬戶中機(jī)器人的平均存在率為11%[1]。受政治或經(jīng)濟(jì)利益驅(qū)動(dòng),社交機(jī)器人的數(shù)量或比例還在呈現(xiàn)不斷增加的趨勢(shì)。Twitter 用戶中進(jìn)行美國(guó)股市趨勢(shì)預(yù)測(cè)的有71%可能是社交機(jī)器人[2];且在2020年的新冠病毒傳播預(yù)測(cè)中也有同樣的額情況[3]。由此看出,社交機(jī)器人正日益成為社交網(wǎng)絡(luò)中影響社會(huì)輿論的重要工具之一。

      研究人員在檢測(cè)社交機(jī)器人方面做了大量的工作。現(xiàn)有的社交機(jī)器人檢測(cè)模型可分基于特征的方法和基于圖論的方法兩類。

      1) 基于特征的社交機(jī)器人檢測(cè)方法是目前主流的檢測(cè)方法。它通常將機(jī)器學(xué)習(xí)算法應(yīng)用于待檢測(cè)的賬戶,以確定這些賬戶是社交機(jī)器人還是人類。文獻(xiàn)[4-6]通過(guò)提取簡(jiǎn)單的用戶特征,利用貝葉斯模型、K 近鄰模型與C5 決策樹(shù)檢測(cè)社交機(jī)器人。除此之外,研究學(xué)者注意到,正常用戶與社交機(jī)器人賬號(hào)之間在推文中所暗含的情緒因素有很大的不同[7]。文獻(xiàn)[8]通過(guò)情感分析和采用其他用戶特征識(shí)別新浪微博上的水軍。文獻(xiàn)[9]指出社交機(jī)器人可以利用Twitter 情緒來(lái)制造適得其反的效果,利用確認(rèn)偏差制造虛假趨勢(shì)或改變公眾意見(jiàn)。目前已有文獻(xiàn)都是進(jìn)行粗粒度情感劃分工作,如提取博文的情感極性或情感強(qiáng)烈程度作為情感特征,還沒(méi)有研究細(xì)粒度情感劃分對(duì)社交機(jī)器人檢測(cè)的影響問(wèn)題。

      近年來(lái),深度學(xué)習(xí)方法應(yīng)用越來(lái)越廣泛。文獻(xiàn)[10]將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-time memory,LSTM)首次用于網(wǎng)絡(luò)垃圾郵件檢測(cè),檢測(cè)準(zhǔn)確率達(dá)到95.25%。文獻(xiàn)[11]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)對(duì)Twitter 文本進(jìn)行檢測(cè)。文獻(xiàn)[12]利用殘差網(wǎng)絡(luò)(residual network, ResNet)、雙向門控循環(huán)單元(bidirectional gated recurrent unit, BiGRU)和注意力機(jī)制構(gòu)建了一種新的深度神經(jīng)網(wǎng)絡(luò)模型(residual networkbidirectional gated recurrent unit-attention mechanism,RGA),實(shí)現(xiàn)對(duì)社交機(jī)器人的檢測(cè)。文獻(xiàn)[13]采用深度學(xué)習(xí)生成模型(variational autoencoder, VAE)自動(dòng)編碼和解碼樣本特征,通過(guò)度量解碼表示與原始特征的差異進(jìn)行社交機(jī)器人檢測(cè)。雖然這些基于特征的方法取得了很好的效果,但是由于社交機(jī)器人對(duì)人類行為的模仿程度越來(lái)越高,兩者之間的行為特征差異越來(lái)越小,社交機(jī)器人能夠較容易地模仿用戶行為。但它在社交網(wǎng)絡(luò)結(jié)構(gòu)上的關(guān)系難以發(fā)生變化,因此使用用戶特征并結(jié)合結(jié)構(gòu)關(guān)系進(jìn)行檢測(cè)是一個(gè)好方法。

      2) 基于圖論的檢測(cè)方法便是通過(guò)描述社交機(jī)器人和正常用戶兩者不同的社交關(guān)聯(lián)結(jié)構(gòu)模式,將社交機(jī)器人檢測(cè)問(wèn)題轉(zhuǎn)化為圖中節(jié)點(diǎn)分類問(wèn)題,然后用圖挖掘算法來(lái)區(qū)分正常賬戶和社交機(jī)器人賬戶。目前,基于圖的深度學(xué)習(xí)方法已被用于社交機(jī)器人檢測(cè),并獲得較好的檢測(cè)性能。文獻(xiàn)[14]考慮節(jié)點(diǎn)特征和用戶關(guān)注關(guān)系,首次采用圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù)檢測(cè)垃圾郵件機(jī)器人。文獻(xiàn)[15]提出了一種基于圖注意力網(wǎng)絡(luò)的半監(jiān)督圖嵌入模型,該方法通過(guò)捕捉用戶特征和社交網(wǎng)絡(luò)中用戶之間的關(guān)注關(guān)系和轉(zhuǎn)發(fā)關(guān)系來(lái)識(shí)別垃圾郵件機(jī)器人。文獻(xiàn)[16]結(jié)合了圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)模型,對(duì)發(fā)布垃圾郵件的惡意機(jī)器人進(jìn)行檢測(cè)。

      綜上,本文針對(duì)社交機(jī)器人大多只含有單一情緒的情況,提出了情緒多樣性特征。在常規(guī)特征的基礎(chǔ)上,更加強(qiáng)調(diào)捕捉社交機(jī)器人與正常用戶的情緒差異進(jìn)行社交機(jī)器人的識(shí)別。針對(duì)GCNII(graph convolutional network via initial residual and identity mapping)模型使用靜態(tài)的傳播法則,存在無(wú)法自適應(yīng)的問(wèn)題,提出一種增加注意力機(jī)制的采用博文聚類方法構(gòu)造初始圖的A-GCNII(attention- graph convolutional network via initial residual and identity mapping)模型,這既可以檢測(cè)出博文內(nèi)容相似的來(lái)自同一批次生產(chǎn)的社交機(jī)器人,又可以降低數(shù)據(jù)采集工作量。通過(guò)在每個(gè)傳播層加入?yún)?shù)化的注意力引導(dǎo)機(jī)制,給予與中心節(jié)點(diǎn)相同類別的鄰居節(jié)點(diǎn)更強(qiáng)的關(guān)聯(lián)強(qiáng)度,從而有效的提升分類結(jié)果。

      1 社交機(jī)器人特征提取

      1.1 元數(shù)據(jù)特征提取

      元數(shù)據(jù)是描述數(shù)據(jù)本身及其環(huán)境的數(shù)據(jù)。賬號(hào)的元數(shù)據(jù)可以較為全面地反映一個(gè)賬號(hào)的特征,是進(jìn)行社交機(jī)器人檢測(cè)研究中常用的特征。典型的元數(shù)據(jù)特征如表1 所示。

      表1 元數(shù)據(jù)特征

      1.2 情緒多樣性特征提取

      在某一事件中,社交機(jī)器人為了實(shí)現(xiàn)其目的,必然要清晰表達(dá)某種觀點(diǎn)或傳播某種信息,并帶有設(shè)定的情感。但跳出該話題與事件,則很少呈現(xiàn)其他的情感表達(dá)。即社交機(jī)器人的博文往往只含有單一類型的情感。而正常用戶除關(guān)注該話題與事件外,還關(guān)注生活中方方面面的事物,其博文情感往往呈現(xiàn)多樣性、復(fù)雜性的特點(diǎn)。因此,分析賬號(hào)情感表達(dá)的豐富程度有助于區(qū)分正常用戶和社交機(jī)器人。

      為了衡量該特性,本文提出情緒多樣性特征。首先對(duì)博文進(jìn)行細(xì)粒度情緒分類,分為積極、憤怒、悲傷、恐懼、驚奇和無(wú)情緒6 類,然后計(jì)算賬號(hào)的情緒多樣性特征。由于發(fā)布的博文大多文本較短、省略嚴(yán)重,采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法對(duì)博文進(jìn)行情緒分類,很難準(zhǔn)確抽取到句子中與情感表達(dá)緊密相關(guān)的特征,且以人工標(biāo)注的單個(gè)詞作為特征會(huì)忽略單詞所處的上下文語(yǔ)義信息。

      2018 年Google 提出的文本預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers)則能夠利用transformer 模型超強(qiáng)的特征抽取能力來(lái)學(xué)習(xí)詞語(yǔ)的雙向編碼表示,融合了上下文信息的詞語(yǔ)編碼能更好地進(jìn)行情感決策。RoBERTa(a robustly optimized BERT pretraining approach)模型作為“強(qiáng)力優(yōu)化”版的基于BERT 的預(yù)訓(xùn)練模型,通過(guò)訓(xùn)練時(shí)間更久、使用更大批次和使用更多數(shù)據(jù)等設(shè)計(jì)獲得了更好的效果。因此,本文采用RoBERTa 模型進(jìn)行博文情緒分類任務(wù)。具體的情緒分類模型架構(gòu)為取RoBERTa 預(yù)訓(xùn)練模型的最后三層embedding 向量與cls 向量進(jìn)行拼接,然后傳入linear 層得到預(yù)測(cè)結(jié)果。

      情緒多樣性特征提取的流程如下。

      1) 用情緒分類模型訓(xùn)練已標(biāo)注好的語(yǔ)料對(duì)參數(shù)進(jìn)行調(diào)優(yōu),保存測(cè)試集準(zhǔn)確率最高的模型作為最終用于預(yù)測(cè)情緒的模型;

      2) 對(duì)微博文本進(jìn)行預(yù)處理,包括分詞、去停用詞等;

      3) 將預(yù)處理后的微博文本輸入到情緒預(yù)測(cè)模型中,對(duì)每條博文分類得到對(duì)應(yīng)的情緒;

      4) 統(tǒng)計(jì)每個(gè)賬號(hào)所有博文對(duì)應(yīng)的情緒,計(jì)算該賬號(hào)出現(xiàn)每種情緒的概率p1、p2、p3、p4、p5、p6;

      5) 根據(jù)概率值計(jì)算情緒種類數(shù)特征、辛普森多樣性指數(shù)特征(Simpson's diversity index)、香農(nóng)?維納指數(shù)特征(Shannon Wiener index)。辛普森多樣性指數(shù)和香農(nóng)?維納指數(shù)都是量化多樣性的指標(biāo),可以反映數(shù)據(jù)集中有多少種不同類型,并且可以同時(shí)考慮到這些種類的個(gè)體分布之間的系統(tǒng)性關(guān)系,例如豐富性,差異性或均勻性。

      ①情緒種類數(shù)特征(sentimentclassnumcount):賬號(hào)發(fā)布的所有博文涉及的情緒類別數(shù)量,即統(tǒng)計(jì)p1、p2、p3、p4、p5、p6 中不為0 的數(shù)量。

      ②辛普森多樣性指數(shù)特征:從賬號(hào)發(fā)布的博文中連續(xù)兩次抽樣得到的博文包含同一類情緒的概率:

      式中,S為情緒數(shù)目;Pi(u)為用戶u包含第i類情緒的概率值。

      ③香農(nóng)?維納指數(shù)特征:描述賬號(hào)情緒類別的紊亂和不確定性,不確定性越高,多樣性也就越高:

      式中,S為情緒數(shù)目;Pi(u)表示用戶u包含第i類情 緒的概率值。

      2 博文聚類

      本文通過(guò)對(duì)大量的社交機(jī)器人賬號(hào)及正常人類賬號(hào)的行為分析發(fā)現(xiàn),由于社交機(jī)器人賬號(hào)的操縱者一般具有比較明確的目的,且完全模仿人類的語(yǔ)言風(fēng)格仍存在困難。正常用戶發(fā)布的博文大多具有個(gè)人特色,表達(dá)內(nèi)容各異,發(fā)布極為相似內(nèi)容的博文的可能性較低。而某一話題下來(lái)自同一批次生產(chǎn)的社交機(jī)器人則使用同一語(yǔ)言模板,博文內(nèi)容相似的可能性較高。因此,將同一話題下的相似博文聚為一類有助于發(fā)現(xiàn)社交機(jī)器人。鑒此,本文采用博文聚類方式進(jìn)行博文相似圖的構(gòu)造。

      由于single-pass 聚類算法是一種增量聚類算法,每條文本只需要流過(guò)算法一次,它可以很好地應(yīng)用于話題監(jiān)測(cè)與追蹤、在線事件監(jiān)測(cè)等,特別適合如微博帖子信息的流式數(shù)據(jù)。因此,本文采用single-pass 聚類算法來(lái)完成博文聚類的任務(wù)。

      綜上,首先采用single-pass 算法進(jìn)行博文聚類,然后利用博文聚類的結(jié)果構(gòu)造完全圖,由此得到博文相似圖,整體流程如下。

      1) 將待分類賬號(hào)在某一話題下發(fā)布的博文保存在txt 文件中,每行對(duì)應(yīng)一條博文;

      2) 將txt 文件輸入single-pass 模型中,singlepass 算法讀取txt 文件的第一條博文,建立一個(gè)主題,并加入該主題所在的簇;

      3) single-pass 算法讀取下一條博文,計(jì)算該條博文與當(dāng)前所有主題的余弦相似度,如果相似度值大于閾值θ,則加入該主題所在的簇;如果相似度值小于閾值θ,則為該條博文新建一個(gè)主題,直到遍歷完txt 文件的每一條博文,結(jié)束;

      4) 所有博文聚類到不同的簇,處于同一個(gè)簇的博文互為相似博文,并規(guī)定處于同一個(gè)簇的賬號(hào)之間有邊相連,構(gòu)造完全圖,由此完成博文相似圖的構(gòu)造。

      3 社交機(jī)器人識(shí)別

      3.1 問(wèn)題描述

      社交網(wǎng)絡(luò)中的用戶可以分為正常用戶和社交機(jī)器人。假設(shè)用戶集為V={v1,v2,···,vn},類別集為C={Cm,Cb},Cm為 正 常用戶集,Cb為社交機(jī)器人集。社交機(jī)器人識(shí)別是一個(gè)分類問(wèn)題,具體如下:

      式中,F(xiàn)(vi,cj)∈{0,1}為 二元函數(shù),0 表示用戶vi為正常用戶,1 表示用戶vi為社交機(jī)器人。

      3.2 分類模型

      3.2.1 GCNII 模型

      文獻(xiàn)[17]提出了一種圖卷積網(wǎng)絡(luò)semi-GCN,它是一種經(jīng)典的GCN 框架,其主要思想是使用切比雪夫一階展開(kāi)近似譜卷積,使每一個(gè)卷積層僅處理一階鄰域信息,然后通過(guò)分層傳播規(guī)則疊加一個(gè)個(gè)卷積層,達(dá)到多階鄰域信息傳播。

      針對(duì)GCN 模型因過(guò)度平滑而具有的淺層體系結(jié)構(gòu)限制,文獻(xiàn)[18]設(shè)計(jì)了GCN 模型的擴(kuò)展模型(GCNII)。它具有初始?xì)埐詈秃愕扔成鋬煞N簡(jiǎn)單而有效的技術(shù),可有效地緩解過(guò)度平滑的問(wèn)題。

      普通GCN 模型公式為:

      GCNII 模型公式為:

      與普通GCN 模型相比,GCNII 模型進(jìn)行了兩個(gè)修改:

      2) 在權(quán)重矩陣W(l)中 添加一個(gè)恒等映射In。

      關(guān)于初始?xì)埐钸B接,GCNII 將平滑表示P?H(l)與初始表示H(0)連接,使得當(dāng)模型堆疊了許多層時(shí),每個(gè)節(jié)點(diǎn)的最終表示也都至少保留來(lái)自輸入層的部分 αl輸入。

      關(guān)于恒等映射,通過(guò)在權(quán)重W(l)中添加一個(gè)單位矩陣In,保證了深度模型至少與淺層模型準(zhǔn)確率相同。即假設(shè)βl足夠小,模型就會(huì)忽略權(quán)重矩陣W(l)。

      3.2.2 改進(jìn)的A-GCNII 模型

      原始的GCNII 使用的是靜態(tài),無(wú)法自適應(yīng)地傳播法則,無(wú)法捕捉中心節(jié)點(diǎn)的哪個(gè)鄰居節(jié)點(diǎn)對(duì)于中心節(jié)點(diǎn)的分類貢獻(xiàn)更大。文本聚類構(gòu)造的拓?fù)浣Y(jié)構(gòu)將發(fā)布相似言論內(nèi)容的賬號(hào)彼此連接,但這些賬號(hào)的行為特征卻不一定相似,應(yīng)賦予具有相似行為特征的賬號(hào)以更高的關(guān)聯(lián)強(qiáng)度。

      整體A-GCNII 分類模型結(jié)構(gòu)如圖1 所示。AGCNII 分類模型由一層輸入層、若干隱藏層和一層輸出層組成,輸入層以一張圖為輸入,經(jīng)過(guò)第一層全連接層,在正向傳播之前將節(jié)點(diǎn)特征X轉(zhuǎn)為低維初始表示H(0);然后經(jīng)過(guò)第二層卷積層,對(duì)圖中所有節(jié)點(diǎn)及其鄰居進(jìn)行一次卷積操作,并使用卷積結(jié)果更新節(jié)點(diǎn);再經(jīng)過(guò)激活函數(shù)到達(dá)下一層卷積層。重復(fù)這一過(guò)程,直至到達(dá)輸出層。在輸出層,所有節(jié)點(diǎn)的特征被轉(zhuǎn)化為任務(wù)相關(guān)的標(biāo)簽,以輔助分類。

      圖1 A-GCNII 結(jié)構(gòu)圖

      圖中,虛線框?yàn)榈趌 層增加注意力機(jī)制后的節(jié)點(diǎn)聚合過(guò)程。注意力權(quán)重是通過(guò)一條邊上的兩個(gè)節(jié)點(diǎn)的特征向量的余弦相似度乘以一個(gè)自適應(yīng)系數(shù)β 后得到。每一層聚合層中共用一個(gè)β,最后通過(guò)softmax 使權(quán)重總和為1。

      定義傳播矩陣P:若節(jié)點(diǎn)i和節(jié)點(diǎn)j之間不存在邊,則元素值為0;若節(jié)點(diǎn)i和節(jié)點(diǎn)j之間存在邊,則元素值為注意力權(quán)重值,計(jì)算公式為:

      計(jì)算節(jié)點(diǎn)i和節(jié)點(diǎn)j在第l 層隱含狀態(tài)的余弦距離,是因?yàn)樗蹲搅斯?jié)點(diǎn)j到節(jié)點(diǎn)i的關(guān)聯(lián)程度。注意力機(jī)制更傾向于選擇那些與中心節(jié)點(diǎn)具有相同類別的鄰居節(jié)點(diǎn),并給予更強(qiáng)的關(guān)聯(lián)強(qiáng)度。

      由此,得到A-GCNII 分類模型節(jié)點(diǎn)i的更新公式為:

      4 社交機(jī)器人識(shí)別實(shí)驗(yàn)

      4.1 數(shù)據(jù)采集與預(yù)處理

      數(shù)據(jù)集由兩部分?jǐn)?shù)據(jù)組成:1) 通過(guò)爬蟲(chóng)技術(shù)爬取2021 年3 月17 日?2021 年4 月17 日時(shí)間內(nèi)微博平臺(tái)上“#新疆棉花#、#我支持新疆棉花#”話題下的所有賬號(hào)發(fā)布的帶話題博文內(nèi)容,以及爬取這些賬號(hào)ID 對(duì)應(yīng)的用戶信息和歷史博文信息,并通過(guò)人工標(biāo)注方式注明是否為機(jī)器人。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,得到6 976 個(gè)有效賬號(hào)數(shù)據(jù)。2) 通過(guò)社交機(jī)器人樣本數(shù)據(jù)生成模型生成機(jī)器人類型的數(shù)據(jù)。同樣進(jìn)行數(shù)據(jù)預(yù)處理,得到6 636個(gè)生成賬號(hào)數(shù)據(jù)。因此,本文共采用13 612 個(gè)賬號(hào)數(shù)據(jù)作為數(shù)據(jù)集,正常用戶賬號(hào)和社交機(jī)器人賬號(hào)數(shù)量比例為1:1,并將其按6:2:2 劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

      4.2 評(píng)價(jià)指標(biāo)

      為了更真實(shí)地反映整體分類效果,本文使用準(zhǔn)確率、精確率、查全率、F1-score 和AUC 值5個(gè)常用指標(biāo)來(lái)衡量提出的社交機(jī)器人檢測(cè)方法的性能。

      4.3 參數(shù)設(shè)置

      本文使用PyTorch Geometric(PyG)框架,PyG是面向幾何深度學(xué)習(xí)的PyTorch 的擴(kuò)展庫(kù)。處理器為Intel? Core TM i7-10875H CPU @ 2.3 GHz,內(nèi)存為 16 GB,操作系統(tǒng)為Windows10。

      A-GCNII 模型是基于PyG 庫(kù)的GCNII 模型的進(jìn)一步改進(jìn)。模型訓(xùn)練時(shí),設(shè)置層數(shù)為8,使用學(xué)習(xí)率為0.01 的Adam 優(yōu)化器訓(xùn)練模型,最多1 000 個(gè)epoch。設(shè)置dropout 為0.6,隱藏單元數(shù)量為16,超參數(shù)α 為0.8,β 為0.5,其他參數(shù)與PyG 庫(kù)中GCNII 模型的初始參數(shù)相同。

      4.4 實(shí)驗(yàn)

      為了分析該方法檢測(cè)社交機(jī)器人的有效性,設(shè)置了以下3 組實(shí)驗(yàn)。實(shí)驗(yàn)中預(yù)設(shè)的epoch 數(shù)為1 000。

      實(shí)驗(yàn)1:情緒多樣性特征有效性實(shí)驗(yàn)

      采用RoBERTa 模型進(jìn)行博文情緒分類。首先下載SMP2020 微博情緒分類比賽數(shù)據(jù)集,將其中的80%作為訓(xùn)練集,20%作為測(cè)試集,將爬取的博文數(shù)據(jù)作為待分類數(shù)據(jù)。選用RoBERTa 中文預(yù)訓(xùn)練語(yǔ)言模型作為預(yù)訓(xùn)練模型,得到每條博文對(duì)應(yīng)的情緒類別后,提取情緒多樣性特征,包含情感類別、辛普森多樣性指數(shù)、香農(nóng)?維納指數(shù)。

      采用A-GCNII 分類模型來(lái)測(cè)試以下5 種增加特征后的效果,分別為:增加3 個(gè)情緒多樣性特征(A)、增加情感類別數(shù)特征(B)、增加辛普森多樣性指數(shù)特征(C)、增加香農(nóng)?維納指數(shù)特征(D)、無(wú)情緒多樣性特征(E),并使用5 個(gè)指標(biāo)對(duì)于分類結(jié)果進(jìn)行評(píng)價(jià),分類評(píng)價(jià)情況如圖2 所示,且A、B、C、D、E的AUC 值分別為:0.99838、0.99647、0.99832、0.99752,0.99685。

      圖2 情緒多樣性特征有效性驗(yàn)證實(shí)驗(yàn)結(jié)果

      由圖2 可知,在4 個(gè)指標(biāo)上均呈現(xiàn)A>C≥E≥D>B的結(jié)果。其中,A的檢測(cè)效果最好,此時(shí)準(zhǔn)確率為98.42%,精確率為97.13%,召回率為99.77%,F(xiàn)1 值為98.44%。由AUC 值結(jié)果可知,雖然差異并不明顯,但還是能夠得出,在ROC 曲線下面積指標(biāo)上呈現(xiàn)A > C ≥ D >E>B 的結(jié)果。

      由此可以得出結(jié)論:增加3 個(gè)情緒多樣性特征、辛普森多樣性指數(shù)特征或香農(nóng)?維納指數(shù)特征時(shí)都可以提升社交機(jī)器人的檢測(cè)效果,對(duì)于預(yù)測(cè)社交網(wǎng)絡(luò)賬號(hào)是否屬于社交機(jī)器人具有一定的意義。

      對(duì)比3 種單一情緒多樣性特征,相比于情感類別數(shù)特征,利用辛普森多樣性指數(shù)特征和香農(nóng)-維納指數(shù)特征衡量情緒的多樣性更有效。這是因?yàn)檫@兩個(gè)多樣性指數(shù)特征,不僅反映了數(shù)據(jù)集中包含多少種不同的類別,且考慮了這些種類的個(gè)體分布之間的系統(tǒng)性關(guān)系,如豐富性、差異性、均勻性。但在群落生態(tài)學(xué)分析中,辛普森多樣性指數(shù)主要針對(duì)稀有種的均勻度,而香農(nóng)?維納指數(shù)針對(duì)優(yōu)勢(shì)種。即辛普森多樣性指數(shù)更關(guān)注于社交機(jī)器人設(shè)定的針對(duì)特定話題的某一種情緒之外的其他情緒,這些情緒的數(shù)量更少,出現(xiàn)的可能性更小。因此利用辛普森多樣性指數(shù)可以更好地凸顯社交機(jī)器人賬號(hào)與正常用戶賬號(hào)中稀有情緒的明顯差異。

      實(shí)驗(yàn)2:博文聚類有效性實(shí)驗(yàn)

      將本文提出的博文聚類構(gòu)造拓?fù)鋱D的方法與賬號(hào)特征聚類拓?fù)鋱D方法進(jìn)行比較。由于本文數(shù)據(jù)集中包含部分生成數(shù)據(jù),因此,博文聚類構(gòu)造拓?fù)鋱D的方法包括nm、n1 兩種具體方式。nm 表示爬取的博文經(jīng)過(guò)博文聚類后聚為n類,m個(gè)生成賬號(hào)分為m類,總共得到n+m類;n1 表示爬取的博文經(jīng)過(guò)博文聚類后聚為n類,m條生成賬號(hào)分為1 類,總共得到n+1 類。

      賬號(hào)特征聚類方法即對(duì)賬號(hào)的特征聚類,將具有相似特征值的點(diǎn)聚為一類。本文采用k-means 方法,并取k=25,即表示利用k-means 方法對(duì)爬取賬號(hào)和生成賬號(hào)聚為25 類,它是利用肘方法和輪廓系數(shù)法確定的最佳聚類數(shù)。采用GCN 和AGCNII 兩種分類模型進(jìn)行聚類檢測(cè),評(píng)價(jià)指標(biāo)結(jié)果對(duì)比如圖3 所示,且gcn_k25、gcn_n1、gcn_nm的AUC 值分別為:0.50770、0.81016、0.99814;Agcnii_k25、Agcnii_n1、Agcnii_nm 的AUC 值 分別為:0.99811、0.99812、0.99821。從圖3a 和AGCNII 模型的AUC 值可看出,對(duì)于A-GCNII 分類模型,在準(zhǔn)確率、精確率、F1 值和AUC4 個(gè)指標(biāo)上,本文提出的博文聚類構(gòu)造方式nm 和n1 均高于k-means 方法。在recall 指標(biāo)上,Recall(nm)=Recall(n1)=99.85%,Recall(k25)=1,3 種方式都呈現(xiàn)較高的值。其中,構(gòu)造方式n1 的檢測(cè)效果最好,此時(shí)準(zhǔn)確率為97.83%,精確率為95.97%,召回率為99.85%,F(xiàn)1 值為97.87%,AUC 值為99.81%。

      圖3 不同拓?fù)浣Y(jié)構(gòu)構(gòu)造方法檢測(cè)結(jié)果對(duì)比圖

      從圖3b 和GCN 模型的AUC 值可看出,對(duì)于GCN 分類模型,博文聚類構(gòu)造方式nm 在5 個(gè)指標(biāo)上的檢測(cè)效果都較好,構(gòu)造方式n1 的精確率值較高,達(dá)到88.21%,但其他4 個(gè)指標(biāo)值較低,kmeans 方法在5 個(gè)指標(biāo)上的檢測(cè)效果較差。綜上可得,相比于k-means 方法,兩種博文聚類構(gòu)造方法的檢測(cè)效果更好。

      比較兩種博文聚類構(gòu)造方法,構(gòu)造方法nm 在兩個(gè)分類模型上的檢測(cè)效果都很好;構(gòu)造方法n1 在A-GCNII 分類模型上分類效果較好,但在GCN 分類模型上分類效果較差。因此,構(gòu)造方法nm 的檢測(cè)效果更穩(wěn)定。進(jìn)一步分析發(fā)現(xiàn),由于構(gòu)造方法nm 表示m個(gè)賬號(hào)發(fā)布的博文互不相同,構(gòu)造方法n1 表示m個(gè)賬號(hào)發(fā)布的博文相似,顯然構(gòu)造方法nm 更符合實(shí)際情況。

      采用構(gòu)造方法nm 進(jìn)行博文聚類,內(nèi)容相似的博文聚到了第2 107 個(gè)主題所屬的類別。構(gòu)造這組與博文對(duì)應(yīng)賬號(hào)的拓?fù)浣Y(jié)構(gòu)如圖4 所示,圖中,三角形表示社交機(jī)器人,圓形表示正常用戶,標(biāo)簽為對(duì)應(yīng)的ID 賬號(hào)??梢钥闯?,該組共包括15 個(gè)賬號(hào),其中3 個(gè)社交機(jī)器人發(fā)布了4 條相同的博文。由此表明,采用single-pass 聚類構(gòu)造博文相似圖可以挖掘出社交機(jī)器人賬號(hào)間的隱秘聯(lián)系,證明了構(gòu)造方法nm 的合理性與有效性。

      圖4 博文聚類可視化結(jié)果

      實(shí)驗(yàn)3:社交機(jī)器人識(shí)別對(duì)比實(shí)驗(yàn)

      為了進(jìn)一步驗(yàn)證A-GCNII 模型的有效性,本文將近年來(lái)文獻(xiàn)中直接和間接相關(guān)的模型作為基線模型,包括3 個(gè)經(jīng)典的機(jī)器學(xué)習(xí)方法、3 個(gè)深度學(xué)習(xí)方法和3 個(gè)圖神經(jīng)網(wǎng)絡(luò)方法。邏輯回歸LR[19](logistic regression):用于新浪微博社交機(jī)器人的檢測(cè);支持向量機(jī)SVM[8](support vector machine):用于檢測(cè)新浪微博的水軍;隨機(jī)森林RF[9](random forest):用于社交機(jī)器人檢測(cè);多層感知機(jī)MLP[20](multilayer perceptron):用于檢測(cè)互聯(lián)網(wǎng)水軍;長(zhǎng)短 時(shí) 記 憶 網(wǎng) 絡(luò)LSTM[10](long short-term memory):用于檢測(cè)網(wǎng)絡(luò)垃圾郵件;卷積神經(jīng)網(wǎng)絡(luò)CNN[11](convolution neural network):用 于 檢 測(cè) 社 交 機(jī) 器人;圖卷積神經(jīng)網(wǎng)絡(luò)GCN[14](graph convolutional network):用于檢測(cè)垃圾郵件機(jī)器人;圖注意網(wǎng)絡(luò)GAT[15](graph attention network):用于垃圾郵件機(jī)器人檢測(cè);GCNII(graph convolutional network via initial residual and identity mapping):本文改進(jìn)模型的基線方法。

      選取所有13 612 個(gè)有標(biāo)簽的節(jié)點(diǎn),按6:4 進(jìn)行模型訓(xùn)練和測(cè)試,分類評(píng)價(jià)情況如表2 所示。

      表2 分類算法實(shí)驗(yàn)結(jié)果對(duì)比

      由表2 可知,本文提出模型的檢測(cè)效果在準(zhǔn)確率、精確率、F1 值和AUC 指標(biāo)上均優(yōu)于其他方法,在召回率指標(biāo)上也接近最高值。與其他方法相比,A-GCNII 圖神經(jīng)網(wǎng)絡(luò)模型的各項(xiàng)指標(biāo)均有明顯提高。對(duì)比GCNII 模型,A-GCNII 模型的效果略有提高,這是由于引入了注意力機(jī)制,使得中心節(jié)點(diǎn)能夠更有針對(duì)性地學(xué)習(xí)具有相似行為特征的節(jié)點(diǎn)特征,由此證明了AGCNII 分類模型的有效性。

      5 結(jié) 束 語(yǔ)

      本文設(shè)計(jì)了一種結(jié)合賬號(hào)情緒多樣性特征的深度圖卷積網(wǎng)絡(luò),并從賬號(hào)表達(dá)情感、言論內(nèi)容以及行為特征三方面對(duì)新浪微博社交機(jī)器人進(jìn)行檢測(cè)。通過(guò)捕捉社交機(jī)器人與正常用戶在稀有情緒上的差異來(lái)更好地檢測(cè)社交機(jī)器人。通過(guò)采用single-pass聚類構(gòu)造博文相似圖的方法獲得圖結(jié)構(gòu)信息,為同一話題下的賬號(hào)提供拓?fù)浣Y(jié)構(gòu),降低數(shù)據(jù)采集工作量,有效地檢測(cè)了來(lái)自同一批次生產(chǎn)的發(fā)布相似博文內(nèi)容的社交機(jī)器人;最后通過(guò)在GCNII 模型的基礎(chǔ)上增加注意力機(jī)制,給予與中心節(jié)點(diǎn)相同類別的鄰居節(jié)點(diǎn)更強(qiáng)的關(guān)聯(lián)強(qiáng)度,由此提升了社交機(jī)器人的檢測(cè)結(jié)果。本文在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分析了不同特征、構(gòu)圖方式和分類算法對(duì)檢測(cè)效果的影響。實(shí)驗(yàn)結(jié)果表明,本文提出的基于改進(jìn)的深度圖卷積網(wǎng)絡(luò)識(shí)別模型在各個(gè)指標(biāo)上均表現(xiàn)良好,推動(dòng)了基于圖的社交機(jī)器人識(shí)別的進(jìn)一步發(fā)展。

      猜你喜歡
      博文賬號(hào)聚類
      第一次掙錢
      彤彤的聊天賬號(hào)
      施詐計(jì)騙走游戲賬號(hào)
      派出所工作(2021年4期)2021-05-17 15:19:10
      誰(shuí)和誰(shuí)好
      基于DBSACN聚類算法的XML文檔聚類
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      Google Play游戲取消賬號(hào)綁定沒(méi)有Google賬號(hào)也能玩
      CHIP新電腦(2016年3期)2016-03-10 14:52:50
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      打電話2
      武隆县| 咸阳市| 水富县| 定州市| 武夷山市| 甘泉县| 五家渠市| 新兴县| 民县| 凤凰县| 广丰县| 灌云县| 托克托县| 阜南县| 新营市| 富锦市| 收藏| 滦平县| 关岭| 安塞县| 灵台县| 桦甸市| 平顺县| 赤水市| 定襄县| 建始县| 周口市| 文山县| 韶关市| 三明市| 济南市| 双流县| 仲巴县| 盐池县| 苗栗市| 平乐县| 新巴尔虎右旗| 汉川市| 大关县| 南康市| 甘谷县|