• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多視圖證據(jù)融合的社交水軍檢測

      2024-10-14 00:00:00張東林徐建
      計算機應(yīng)用研究 2024年10期

      摘 要:為克服單視圖水軍檢測方法在處理復(fù)雜多樣的社交網(wǎng)絡(luò)數(shù)據(jù)時所存在的局限性,并解決現(xiàn)有多視圖融合方法未能充分考慮視圖間質(zhì)量差異導(dǎo)致的信息丟失和噪聲干擾等問題,提出一種基于多視圖證據(jù)融合(multi-view evidence fusion,MVEF)的社交水軍檢測方法。該方法綜合分析社交關(guān)系、行為特征和推文內(nèi)容三個視圖并提取關(guān)鍵證據(jù),通過Dirichlet分布參數(shù)化來評估每個視圖在分類決策中的類別可信度和整體不確定性。通過高效的證據(jù)融合機制,巧妙地利用不確定性整合各視圖中的關(guān)鍵證據(jù),構(gòu)建一個全面而可靠的分類決策框架。實驗結(jié)果顯示,MVEF在兩個真實世界的Twitter數(shù)據(jù)集上的表現(xiàn)均優(yōu)于現(xiàn)有方法,有效提升了水軍識別的準確率和魯棒性。

      關(guān)鍵詞:社交水軍檢測;多視圖;證據(jù)融合;不確定性

      中圖分類號:TP391.4 文獻標志碼:A 文章編號:1001-3695(2024)10-009-2939-08

      doi:10.19734/j.issn.1001-3695.2024.02.0039

      Social spammer detection based on multi-view evidence fusion

      Zhang Donglin, Xu Jian

      (School of Computer Science & Engineering, Nanjing University of Science & Technology, Nanjing 210094, China)

      Abstract:To address the limitations of single-view spammer detection methods in processing complex and diverse social network data, and the issues of information loss and noise interference due to existing multi-view fusion methods not fully consi-dering the quality differences between views, this paper proposed a social spammer detection method based on MVEF. The method integrated and analyzed three views: social relationships, behavioral characteristics, and tweet content, to extract pi-votal evidence. It employed Dirichlet distribution parameterization to assess the category credibility and overall uncertainty of each view in classification decisions. Through an efficient evidence fusion mechanism, the method skillfully utilized uncertainty to integrate key evidence from various views, constructing a comprehensive and reliable classification decision framework. Experimental results demonstrate that MVEF outperforms existing methods on two real-world Twitter datasets, effectively enhancing the accuracy and robustness of spammer detection.

      Key words:social spammer detection; multi-view; evidence fusion; uncertainty

      0 引言

      近年來,隨著智能手機和移動互聯(lián)網(wǎng)的普及,社交平臺如Twitter和Facebook已成為人們?nèi)粘=涣骱托畔⒎窒淼闹匾?。然而,這些平臺龐大的用戶基數(shù)和低成本的信息發(fā)布特性,也吸引了大量水軍。這些水軍通過發(fā)布虛假信息、惡意評論和刷點贊等行為,試圖操縱網(wǎng)絡(luò)輿論,制造虛假聲勢。這些惡意行為不僅影響用戶體驗,而且嚴重破壞公信力,沖擊正常的網(wǎng)絡(luò)秩序。因此,研究如何從眾多社交媒體賬戶中有效地檢測出水軍已成為一個緊迫的問題。

      社交水軍檢測問題本質(zhì)上是一個二元分類問題。早期研究通常集中于分析用戶在某一特定方面的信息,即利用單一視圖特征檢測賬戶類別。這些方法依據(jù)水軍和普通用戶在社交平臺上的不同行為模式和關(guān)注關(guān)系等,試圖揭示它們之間的顯著差異。雖然這些單一視圖方法在一定程度上能夠識別出水軍,但由于水軍策略的不斷演變和技術(shù)的快速發(fā)展,這些方法的準確性和魯棒性面臨著嚴峻的挑戰(zhàn)。

      針對單視圖方法難以全面、及時地捕捉水軍的特征,一些學(xué)者開始探索多視圖融合方法來解決這一問題。例如,Chen等人[1]嘗試手動構(gòu)建多維度特征并應(yīng)用主動學(xué)習(xí)與協(xié)同訓(xùn)練算法,但這種方法在處理社交關(guān)系和推文數(shù)據(jù)時,往往難以捕捉復(fù)雜的非線性關(guān)系。Li等人[2]則從不同視圖中提取特征,采用相關(guān)梯形網(wǎng)絡(luò)和過濾門組件捕捉跨視圖相關(guān)性進行特征學(xué)習(xí),但可能因特征差異或冗余引入噪聲。Liu等人[3]利用用戶個人特征和消息內(nèi)容特征計算先驗類別,再利用社交網(wǎng)絡(luò)將稀疏標簽擴散到未標記的樣本。雖然可以應(yīng)對大數(shù)據(jù)稀疏標簽的挑戰(zhàn),但是對初始先驗標簽的依賴較大。這些嘗試表明,盡管特征級的多視圖融合方法在理論上能提供更豐富的信息,但在實際應(yīng)用中仍面臨諸多挑戰(zhàn),如特征融合的有效性、不同視圖間質(zhì)量的平衡和噪聲處理等。

      在探討多視圖融合方法時,還需指出傳統(tǒng)的決策級融合方法的一些局限。這些算法多采用固定權(quán)重分配,一些算法假設(shè)所有視圖對樣本分類的影響相同,從而分配相等權(quán)重。另一些算法則根據(jù)視圖間整體的質(zhì)量差異調(diào)整權(quán)重分配。然而,實際數(shù)據(jù)集中不同樣本的視圖間質(zhì)量差異往往不同。如果簡單地利用固定權(quán)重加權(quán)每個視圖的分類結(jié)果,最終可能得到不可靠的分類決策。

      為解決上述挑戰(zhàn),本文提出了一種多視圖證據(jù)融合方法(MVEF),旨在高效精準地檢測社交平臺上的水軍。該方法首先根據(jù)不同視圖數(shù)據(jù)的獨特性質(zhì),采用專門的基礎(chǔ)分類器來學(xué)習(xí)視圖特征,并通過非負激活函數(shù)提取決策所需的關(guān)鍵證據(jù);接著,利用Dirichlet分布模擬類概率的分布,從多個視圖角度出發(fā)對證據(jù)進行參數(shù)化,進而對視圖預(yù)測的類別可信度和總體不確定性進行精確建模;最后,綜合考慮不同視圖證據(jù)間的相似性和沖突性,通過基于Dempster-Shafer(DS)理論的合并規(guī)則,有效地整合多方證據(jù)以形成最終分類決策。綜上所述,本文的具體貢獻有:

      a)引入了基于證據(jù)的不確定性估計[4]技術(shù),有效量化視圖分類的不確定性,反映視圖間的質(zhì)量差異和噪聲水平,為融合過程中的風(fēng)險評估提供可靠基礎(chǔ),增強了方法的魯棒性。

      b)創(chuàng)新性地提出了一種決策級的證據(jù)融合算法用于社交水軍檢測。與現(xiàn)有的決策級融合模型不同,該算法特別關(guān)注每個視圖的決策風(fēng)險,并綜合考慮它們間的共同支持,從而生成可信且可靠的分類決策。

      c)實驗表明,MVEF方法顯著優(yōu)于現(xiàn)有方法,在Twitter SH和1KS-10KN兩個真實世界的Twitter數(shù)據(jù)集上的準確率分別達到了93.95%和97.41%。

      1 相關(guān)工作

      隨著社交網(wǎng)絡(luò)的快速發(fā)展,社交水軍的檢測已經(jīng)引起了廣泛的關(guān)注。現(xiàn)有的水軍檢測方法主要分為基于單一視圖和基于多視圖融合兩類。

      1.1 基于單一視圖

      單視圖方法根據(jù)數(shù)據(jù)源的不同主要分為內(nèi)容分析、用戶行為分析和社交關(guān)系分析三類。內(nèi)容視圖通過深入探索文本的語義、情感和主題分布等特征,可以有效揭示水軍發(fā)布內(nèi)容的特殊模式,如文本的重復(fù)性、含惡意鏈接[5]和強烈情感極性[6]等。例如,Ghanem等人[7]應(yīng)用Bi-LSTM和上下文嵌入技術(shù),挖掘推文的語義特征。用戶行為視圖專注于分析水軍的個人資料和日常行為特征,如關(guān)注數(shù)、粉絲數(shù)、發(fā)布頻率[8]、轉(zhuǎn)發(fā)次數(shù)[9]等,以識別異?;顒印_@種方法可以直接反映出水軍的特異行為和社交模式。例如,Yin等人[10]提出一種多層次依賴模型,通過分析用戶行為關(guān)系序列,有效識別水軍行為特征。社交關(guān)系視圖則側(cè)重于挖掘用戶間的社交互動,如關(guān)注和轉(zhuǎn)發(fā)行為,來識別社交網(wǎng)絡(luò)中的異常組織結(jié)構(gòu)[11]。其優(yōu)勢在于可以通過網(wǎng)絡(luò)結(jié)構(gòu)洞察水軍的協(xié)調(diào)和執(zhí)行策略。例如,李寧等人[12]基于評論者的共評關(guān)系時序網(wǎng)絡(luò)形成時序鄰居序列,進而生成候選群組集合,最后通過造假指標排序識別出游離水軍群組。Wang等人[13]基于社交網(wǎng)絡(luò)中的有向圖,利用成對馬爾可夫隨機場和環(huán)形信念傳播來模擬用戶狀態(tài)的聯(lián)合概率。盡管這些方法能夠提供針對單一視圖的深入洞察,但在識別水軍的多樣性和復(fù)雜性上不足,影響了識別的準確性和效率。

      1.2 基于多視圖融合

      為應(yīng)對日益狡猾且多樣化的水軍行為,一些學(xué)者考慮采用多視圖融合的方式來解決這個問題,具體又可以分為特征級融合和決策級融合兩種。在表1中,詳細列出了目前基于多視圖融合的方法所采用的視圖,以及它們所屬的類別。

      特征級融合旨在整合不同視圖的信息,構(gòu)建全面的特征集,以提高水軍行為檢測的效率和準確性。為捕捉跨視圖的相關(guān)性,Li等人[2]采用了相關(guān)梯形網(wǎng)絡(luò)對單視圖的特征進行深入學(xué)習(xí),并通過過濾門組件實現(xiàn)了多視圖數(shù)據(jù)的有效整合。張琪等人[14]結(jié)合評論者關(guān)系網(wǎng)絡(luò)和評論行為特征,通過構(gòu)建評論者關(guān)系圖和利用標簽傳播方法檢測社區(qū),有效地識別出水軍群組。Zhang等人[15]從用戶的四個不同維度提取特征,并運用CatBoost算法結(jié)合半監(jiān)督下的最大對比悲觀似然估計進行分類。Deng等人[16]提出一種馬爾可夫驅(qū)動圖卷積網(wǎng)絡(luò),充分利用富文本特性和用戶關(guān)注關(guān)系,極大地提高了水軍檢測的能力。而Shen等人[17]則使用矩陣分解技術(shù)深度挖掘推文內(nèi)容信息,并與社交互動數(shù)據(jù)相結(jié)合,優(yōu)化社交用戶的特征表示。

      在決策級融合的方法中,不同的視圖由各自的分類器獨立處理,避免了視圖間噪聲和誤差的累加,其結(jié)果通過一系列策略集成,以期獲得更精準的檢測結(jié)果。例如,Chen等人[18]利用基礎(chǔ)分類器獲取各視圖的分類結(jié)果,并通過線性加權(quán)求和函數(shù)結(jié)合學(xué)習(xí)到的固定權(quán)重,實現(xiàn)預(yù)測結(jié)果的動態(tài)整合,但其權(quán)重的靜態(tài)性會限制其適應(yīng)水軍策略變化的能力。Wu等人[19]利用半監(jiān)督學(xué)習(xí)框架協(xié)同訓(xùn)練垃圾信息發(fā)送者分類器和垃圾信息分類器,并通過多個正則化項控制用戶間關(guān)注關(guān)系、消息間的連接關(guān)系以及用戶和消息之間的發(fā)布關(guān)系以實現(xiàn)決策級融合,但是同樣存在動態(tài)適應(yīng)性較差的問題。另外,Liu等人[20]提出了一種基于證據(jù)推理(evidential reasoning,ER)規(guī)則的多分類器信息融合模型,將不同視圖的分類結(jié)果轉(zhuǎn)換為信念度分布,并在決策層利用ER規(guī)則進行整合。

      與現(xiàn)有工作不同,多視圖證據(jù)融合方法(MVEF)有效克服了特征級融合中的特征冗余和視圖質(zhì)量不平衡問題,提高了方法對社交網(wǎng)絡(luò)數(shù)據(jù)的適應(yīng)性和魯棒性。與其他決策級融合方法相比,MVEF根據(jù)社交用戶各個視圖中提取的證據(jù),動態(tài)地獲取視圖的類別信念質(zhì)量和不確定性以整合多視圖的決策,使得其在面對各視圖質(zhì)量顯著差異時,可以靈活調(diào)整以利用視圖間的互補性,確保了整體預(yù)測的可靠性和穩(wěn)健性。

      2 背景知識

      2.1 不確定性與證據(jù)理論

      在深度學(xué)習(xí)中,softmax激活函數(shù)被廣泛用于將神經(jīng)網(wǎng)絡(luò)輸出轉(zhuǎn)換成概率分布。然而它有一個潛在的缺陷,即可能導(dǎo)致模型過度自信[21],無法有效反映預(yù)測的不確定性。為解決這一問題,Sensoy等人[4]提出了證據(jù)深度學(xué)習(xí)(evidence deep learning,EDL)的概念,旨在量化分類任務(wù)中的不確定性。EDL基于DS理論構(gòu)建,后者定義證據(jù)為對一組假設(shè)的信念強度,代表可能的真實情況。以二元分類為例,假設(shè)框架包含兩個代表不同類別的基本假設(shè)。EDL應(yīng)用主觀邏輯(subjective logic,SL)將DS理論中的信念分配在識別框架中形式化為Dirichlet分布,并實現(xiàn)了可信度和不確定性的量化。對于K分類中每個樣本,SL分配了K個類別的可信度ck和不確定性u,并滿足

      u+∑Kk=1ck=1(1)

      其中:當(dāng)k=1,…,K時,u≥0,ck≥0。在單個實例中,主觀邏輯首先利用αk=ek+1將證據(jù)集e=[e1,e2,…,eK]轉(zhuǎn)換為Dirichlet分布的參數(shù)α=[α1,α2,…,αk]。然后,可信度ck和整體不確定性u可以很容易地通過對應(yīng)類的證據(jù)計算出:

      ck=ekS=αk-1S(2)

      u=KS(3)

      其中:S=∑Kk=1(ek+1)=∑Kk=1αk為Dirichlet強度。由式(2)可以發(fā)現(xiàn),第k類提供的證據(jù)越多,其分配到的可信度就越高。而式(3)則表明所有類別提供的證據(jù)總和越多,那么分類的總體不確定性就越低,從而得到更加可信的分類結(jié)果。

      2.2 Dirichlet分布與證據(jù)理論的結(jié)合

      Dirichlet分布是一種用于描述概率質(zhì)量函數(shù)p可能取值的概率密度函數(shù)。在K分類問題中,可以通過以下公式定義:

      D(p|α)=1B(α)∏Kk=1pαk-1k for p∈SK

      0otherwise(4)

      其中:B(α)是K維多項Beta函數(shù);而SK是K維單位單純形。在此框架中,p∈△K-1,給定一種觀點,第k個單例的期望概率k等于對應(yīng)Dirichlet分布的均值,計算公式為

      k=αkS=ek+1∑Kk=1ek+K(5)

      在證據(jù)深度學(xué)習(xí)(EDL)框架內(nèi),樣本數(shù)據(jù)中與特定類別相關(guān)的特征構(gòu)成“證據(jù)”,促使該類別對應(yīng)的Dirichlet參數(shù)增加。隨著證據(jù)的不斷積累,參數(shù)的變化反映了對分類概率分布的動態(tài)理解與調(diào)整,使得Dirichlet分布成為量化分類預(yù)測不確定性的關(guān)鍵工具。

      3 方法

      3.1 問題描述

      在社交水軍檢測背景下,社交網(wǎng)絡(luò)S表示為S=(U,R,B,T,Y),在這個網(wǎng)絡(luò)中包含有一組社交用戶u∈U={u1,u2,…,un},一組用戶節(jié)點的社交關(guān)系嵌入向量r∈R,一組用戶行為特征向量b∈B,以及一組用戶推文特征向量t∈T,以及一組用戶標簽y∈Y。基于給定符號,社交水軍檢測的問題正式定義如下:

      給定一組標簽用戶UlU,標簽用戶的社交關(guān)系矩陣Rl,行為特征矩陣Bl,推文特征矩陣Tl,以及他們的身份標簽YlY,社交水軍檢測的目標是在未標記的用戶集合Uul=U-Ul中準確識別水軍。形式上,水軍檢測旨在學(xué)習(xí)社交網(wǎng)絡(luò)中用戶的聯(lián)合概率分布,這一分布取決于用戶的社交關(guān)系嵌入、行為特征以及推文內(nèi)容特征,即p(yU∣rU,bU,tU),然后根據(jù)預(yù)測出的最高概率類別來判定一個社交用戶是水軍還是合法用戶。

      3.2 方法框架

      如圖1所示,MVEF方法主要由三部分構(gòu)成。第一部分是證據(jù)提取。對給定輸入社交網(wǎng)絡(luò)的三個視圖數(shù)據(jù)進行預(yù)處理以滿足分類器的輸入需求。如,對社交關(guān)系網(wǎng)絡(luò)生成節(jié)點嵌入,對行為特征進行標準化處理,將原始推文輸入tokenizer處理。隨后,在社交關(guān)系視圖和行為特征視圖中,應(yīng)用多層感知機(multilayer perceptron,MLP)來學(xué)習(xí)特征。對于推文內(nèi)容視圖,則利用BERTweet預(yù)訓(xùn)練模型來深入挖掘文本特征。最后都將學(xué)習(xí)到的特征傳輸?shù)骄哂蟹秦摷?b class="zzGRF2ivGQie4pA5SU7eqA==">活函數(shù)的全連接層,以提取用于不確定性計算的證據(jù)。第二部分是不確定性量化。將各個視圖獲取到的證據(jù)參數(shù)化Dirichlet分布,以推導(dǎo)對應(yīng)的類別可信度和整體不確定性。第三部分是證據(jù)融合。設(shè)計一個組合規(guī)則,根據(jù)每個視圖的不確定性,并結(jié)合它們的類別可信度,從而推斷出多視圖融合后的類別可信度和總體不確定性,以判斷用戶的最終類別(水軍或合法用戶)。這一策略能夠充分利用每個視圖的不確定信息,降低決策風(fēng)險,從而生成可信的分類結(jié)果。

      3.3 證據(jù)提取

      3.3.1 社交關(guān)系視圖

      社交關(guān)系網(wǎng)絡(luò)定義為一個有向圖G=(V,E)。其中:V是節(jié)點集合,代表社交網(wǎng)絡(luò)中用戶;E是邊集合,表示用戶之間的關(guān)注關(guān)系。傳統(tǒng)方法主要關(guān)注數(shù)據(jù)集內(nèi)部節(jié)點V之間的直接關(guān)系,可能無法獲取到全面豐富的社交關(guān)系信息。為解決這一問題,轉(zhuǎn)向社交網(wǎng)絡(luò)同質(zhì)性理論[22]的應(yīng)用。該理論基于一個關(guān)鍵假設(shè),即社交網(wǎng)絡(luò)中的用戶傾向于和與自己有相似特征或行為的用戶建立聯(lián)系。如果兩個用戶沒有直接聯(lián)系,但他們有許多共同的朋友,那么這兩個用戶之間可能存在某種形式的間接關(guān)系。

      為了將這一理論應(yīng)用于方法,定義了一種新的社交關(guān)系提取方法。

      算法1 包含直接和間接關(guān)系的社交關(guān)系提取方法

      輸入:原始有向圖G=(V,E)。

      輸出:擴展的有向圖G=(V,E)。

      1 初始化:V′=V,E′=E,V″=empty,E″=empty

      2 for u in V:

      3 for v not in V:

      4 if u follows v or v follows u: /*尋找u所有不在V中的關(guān)注節(jié)點和粉絲節(jié)點*/

      5 V′.add(v) //添加到新的節(jié)點集V′

      6 E′.add((u,v)) or E′.add((v,u))

      7 for v in (V′-V):

      8 inDegree, outDegree=calculate_degree(v) /*計算節(jié)點的入度和出度*/

      9 if inDegree >= 2 or outDegree >= 2:

      10 V″.add(v) // 添加到共享鄰居集V″

      11 for (u,v) in E′:

      12 if (u in V and v in V″) or (v in V and u in V″):

      13 E″.add((u,v)) // 添加到新的擴展邊集

      14 V=V∪V″

      15 E=E∪E″

      16 return G=(V,E)

      鑒于新擴展的社交關(guān)系圖G可能包含大量的間接關(guān)系,從而顯著增加了圖的規(guī)模,而DeepWalk的高效率和低計算復(fù)雜度使其特別適合處理這種大型圖,同時能夠有效地捕捉節(jié)點間的結(jié)構(gòu)特性。因此,將社交關(guān)系網(wǎng)絡(luò)轉(zhuǎn)換為無向圖,并使用DeepWalk算法(使用了PecanPy,可以通過并行化和優(yōu)化加速DeepWalk算法)來生成節(jié)點嵌入,可以形式化表示為

      R=DeepWalk(G,l,r,d)(6)

      其中:l是隨機游走的長度,設(shè)為80;r是每個節(jié)點的游走次數(shù),設(shè)為20;d是每個節(jié)點生成嵌入向量的維度,設(shè)為256;R∈Euclid ExtraaBpn×d是生成的節(jié)點嵌入矩陣。

      為有效處理這些高維數(shù)據(jù),避免因模型過于復(fù)雜而導(dǎo)致的過擬合問題,采用多層感知機(MLP)作為主干網(wǎng)絡(luò)來學(xué)習(xí)這些節(jié)點嵌入。MLP的多層結(jié)構(gòu)和非線性激活函數(shù)使其能夠有效捕捉和轉(zhuǎn)換節(jié)點嵌入中的非線性關(guān)系,這對于深入理解社交網(wǎng)絡(luò)的復(fù)雜動態(tài)并準確地進行分類至關(guān)重要。在MLP的基礎(chǔ)上,進一步通過一個全連接層(fully connected layer,F(xiàn)C)和非負激活函數(shù)Softplus來生成社交關(guān)系視圖的證據(jù)?;谶@些考慮,社交關(guān)系視圖部分的模型結(jié)構(gòu)可以簡潔地表示為

      OutR=ReLU(Linear(…ReLU(Linear(r))…))(7)

      eR=Softplus(FC(OutR))(8)

      其中:r∈Euclid ExtraaBp1×d是DeepWalk算法生成的單個節(jié)點嵌入向量;OutR是主干網(wǎng)絡(luò)MLP的輸出;eR則是社交關(guān)系視圖提取的證據(jù)。

      3.3.2 行為特征視圖

      借鑒現(xiàn)有文獻特征工程提取的行為特征,并注意到在預(yù)處理原始推文時常忽略含有重要信息的社交媒體符號,又從推文視圖中額外補充三個關(guān)鍵特征。綜合這些,共篩選出九個重要特征,并在表2中進行了詳盡展示。所選特征在量綱和分布范圍上存在較大差異,因此采用了標準化處理以統(tǒng)一特征的數(shù)值范圍到相同標準尺度,從而構(gòu)建行為特征矩陣B。

      由于這些行為特征具有多樣性和復(fù)雜性等特點,使用與社交關(guān)系視圖相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括MLP、FC和Softplus激活函數(shù),來生成行為特征視圖的證據(jù)。其網(wǎng)絡(luò)結(jié)構(gòu)可以表示為

      OutB=ReLU(Linear(…ReLU(Linear(b))…))(9)

      eB=Softplus(FC(OutB))(10)

      其中:b是單個社交用戶的特征向量;eB則是行為特征視圖的證據(jù)。

      3.3.3 推文內(nèi)容視圖

      數(shù)據(jù)集中一般包含每個用戶發(fā)布的若干條推文,單獨處理每條推文將難以與其他視圖的數(shù)據(jù)有效整合。為此,將同一用戶的所有推文按時間逆序拼接,從而創(chuàng)建一個綜合的用戶文本表示。由于推文中的語言和表達形式通常與傳統(tǒng)書面語料庫中的文本有所不同,所以如何有效地理解用戶在社交媒體上發(fā)布的文本內(nèi)容是關(guān)鍵問題。為此,選擇了BERTweet[23]作為推文內(nèi)容視圖部分的模型,與通用的BERT和RoBERTa模型不同,它是專門針對推文優(yōu)化的預(yù)訓(xùn)練模型(https://huggingface.co/vinai/bertweet-large)。這種針對性的訓(xùn)練使其在理解和處理推文特有的非標準語言和表達方式方面表現(xiàn)卓越,能夠更準確地從文本中提取豐富的語義信息及上下文關(guān)系。所以,首先使用BERTweet的tokenizer將這個長句子轉(zhuǎn)換成模型可處理的格式:

      (input_ids,attention_mask)=tokenizer(Tweet)(11)

      其中:Tweet是用戶所有推文拼接后的長文本;input_ids是標記化文本的索引序列;attention_mask是二進制掩碼,用于控制模型的注意力機制。然后,通過BERTweet預(yù)訓(xùn)練模型對預(yù)處理后的文本進行特征學(xué)習(xí),并通過全連接層和Softplus激活函數(shù)生成視圖的證據(jù):

      BERTweetOut=BERTweetinput_ids,attention_mask(12)

      eT=Softplus(FC(BERTweetOut))(13)

      其中:eT表示從推文內(nèi)容視圖中提取的證據(jù)。

      3.4 不確定性量化

      通過證據(jù)提取模塊,社交關(guān)系視圖R、行為特征視圖B和推文內(nèi)容視圖T三個關(guān)鍵視圖,均貢獻了一組獨特的證據(jù),分別用eR、eB、eT表示。這些證據(jù)不僅捕捉了各視圖的獨特屬性,也為后續(xù)的分析提供了關(guān)鍵的信息。接著,根據(jù)第2章討論的原理,特別是引用式(2)和(3),將這些證據(jù)巧妙地映射到各自視圖的類別可信度和不確定性上。具體來說,對于社交關(guān)系視圖R,將其證據(jù)eR映射為VR={cR1,cR2,uR};行為特征視圖B的證據(jù)eB映射為VB={cB1,cB2,uB};推文內(nèi)容視圖T的證據(jù)eT映射為VT={cT1,cT2,uT}。

      3.5 證據(jù)融合

      在MVEF方法中,針對社交網(wǎng)絡(luò)的多視圖數(shù)據(jù),采用了一種基于DS理論的創(chuàng)新證據(jù)融合策略。該策略通過合并規(guī)則整合來自不同視圖的證據(jù),評估證據(jù)間的相似性和沖突性,生成綜合的信任度函數(shù),為最終分類提供量化的置信度。為了應(yīng)對二元分類問題的特殊需求,設(shè)計了簡化的Dempster組合規(guī)則,以減少輸入證據(jù)的數(shù)量并降低融合過程的復(fù)雜性。這種簡化在降低計算難度的同時,仍保留了DS理論的核心—不確定性融合,確保了更可信的分類結(jié)果。

      具體地,在不確定量化后,得到三個視圖的觀點VR={cR1,cR2,uR},VB={cB1,cB2,uB},VT={cT1,cT2,uT},并據(jù)此計算了融合后的決策觀點V={c1,c2,u},計算如下:

      ck=1λ cRkcBkcTk+(1-uR)cRk+(1-uB)cBk+(1-uT)cTk(14)

      u=1λ(1-uR)(1-uB)(1-uT)(15)

      λ=(1-uR)(1-uB)(1-uT)+(1-uR)2+

      (1-uB)2+(1-uT)2+∑2k=1cRkcBkcTk(16)

      這里的λ是一個規(guī)范化因子,確保融合后的觀點滿足式(1)。經(jīng)過證據(jù)融合后,擁有最大證據(jù)的類即為最終的預(yù)測標簽,而Dirichlet分布參數(shù)則用于計算損失。第k類的證據(jù)ek和Dirichlet分布參數(shù)αk可以由式(17)和(18)計算:

      ek=Sck=Kuck(17)

      αk=ek+1=Kuck+1(18)

      該融合策略不僅強調(diào)了視圖間對同一分類結(jié)果的共同支持,而且非常重視每個視圖的類別可信度與不確定性。式(14)中的cRkcBkcTk項突出了多視圖數(shù)據(jù)在形成統(tǒng)一分類決策時的集體作用,促使模型在預(yù)測時作出更一致和準確的判斷。例如,當(dāng)所有視圖對某一類別預(yù)測都表現(xiàn)出較高的可信度時,這一項乘積會增大,從而促使融合后ck和ek相對增大。另一方面,(1-uR)cRk+(1-uB)cBk+(1-uT)cTk則優(yōu)先考慮那些既可信又確定的視圖。當(dāng)一個視圖的不確定性較低(即更確定)時,它為各類別分配的可信度在融合中的權(quán)重就越大。這樣有助于提高模型對分類結(jié)果的整體信心,特別是在面對不同視圖間的可信度和確定性存在顯著差異時。

      在處理不確定性u的融合時,特別注意到了直接相乘不確定性(uRuBuT)的潛在缺陷,即在所有視圖均表現(xiàn)出較高不確定性或較低不確定性的情況下,這種方法可能導(dǎo)致最終的不確定性u變得極端大或極端小。與用于判定最終分類結(jié)果的可信度ck不同,融合后的不確定性u直接影響到Dirichlet分布的參數(shù)αk,進而對融合后的損失函數(shù)產(chǎn)生顯著影響。所以,這種極端值的出現(xiàn)可能會導(dǎo)致融合后的損失函數(shù)變得不穩(wěn)定,從而影響模型的整體訓(xùn)練效果。

      為有效地避免極端值問題,采用(1-uR)(1-uB)(1-uT)來計算融合后的不確定性。在所有視圖的不確定性都較高時,這種融合方式降低了總體不確定性,體現(xiàn)出一種邏輯:通過整合視圖可以找到更穩(wěn)健的共識。相反,在各視圖的不確定性較低時,融合策略適度提升了不確定性,從而在多個視圖之間找到平衡,避免對任何單一視圖的過度自信。這種融合方式不僅有助于更全面地考慮來自不同視圖的信息,而且確保了融合后的損失函數(shù)能夠穩(wěn)定地反映多視圖數(shù)據(jù)的整體特性,從而優(yōu)化整體模型性能。

      3.6 損失函數(shù)

      在MVEF方法中,由于采用了非負激活函數(shù)代替?zhèn)鹘y(tǒng)的softmax算子,標準的交叉熵損失函數(shù)不適用于模型訓(xùn)練。為此,本文采取了不同的方法,將每個樣本由模型輸出的證據(jù)映射到Dirichlet分布D(p|αi)的參數(shù)上,并據(jù)此計算交叉熵損失的貝葉斯風(fēng)險[24]:

      Euclid Math OneLApcebr(αi)=∫Euclid Math OneLApceD(p|αi)dp=

      ∫(-∑Kj=1yijlog(pij))D(p|αi)dp(19)

      由于p是遵循D(p|αi)分布的隨機變量,并且log pij作為Dirichlet分布的充分統(tǒng)計量,可以利用指數(shù)族分布的差分性質(zhì)來導(dǎo)出log pij的期望值的解析形式[25]:

      Euclid Math TwoEApD(p|αi)(log pij)=∫(log pij)D(p|αi)dp=

      ψ(αij)-ψ(S)(20)

      其中:ψ(·)是digamma函數(shù),在(0,+∞)上單調(diào)遞增;S是前文提到的Dirichlet強度。在此基礎(chǔ)上,考慮到Euclid Math OneLApcebr(αi)捕捉的是樣本屬于正類的整體概率,即關(guān)注的是正類損失,將其重新標記為Euclid Math OneLAppc(αi)。接下來,借助式(20),式(19)可以將Euclid Math OneLApcebr(αi),即Euclid Math OneLAppc(αi)進一步展開:

      Euclid Math OneLAppc(αi)=-∑Kj=1yij∫(log pij)D(p|αi)dp=

      ∑Kj=1yij[ψ(Si)-ψ(αij)]

      (21)

      Euclid Math OneLAppc(αi)專注于增強模型在正類識別上的精確度和置信度,因此還需要計算樣本的負類損失,對過度自信的錯誤類別預(yù)測進行懲罰[26]。參考上述正類損失函數(shù)的形式,負類損失函數(shù)Euclid Math OneLApnc(αi)可以表示為

      Euclid Math OneLApnc(αi)=∑Kj=1(1-yij)1ψ(Si)-ψ(αij)(22)

      為全面評估模型在所有類別上的分類性能,總體損失函數(shù)Euclid Math OneLAp(α)綜合了正類損失Euclid Math OneLAppc(αi)和負類損失Euclid Math OneLApnc(αi),確保在正類和負類間的有效平衡。因此,損失函數(shù)的表達式為

      Euclid Math OneLAp(α)=∑Ni=1(Euclid Math OneLAppc(αi)+Euclid Math OneLApnc(αi))(23)

      基于整體的MVEF方法而言,為最大化各視圖對水軍檢測的貢獻,并通過融合不同視圖的信息來增強方法的整體性能,設(shè)計了一個多視圖全局損失函數(shù)Euclid Math OneLApglobal。該損失函數(shù)綜合來自不同視圖的單獨損失,并加入融合視圖的損失,具體表達式為

      Euclid Math OneLApglobal=Euclid Math OneLApR+Euclid Math OneLApB+Euclid Math OneLApT+Euclid Math OneLApfused=

      Euclid Math OneLAp(αR)+Euclid Math OneLAp(αB)+Euclid Math OneLAp(αT)+Euclid Math OneLAp(αfused)(24)

      其中:Euclid Math OneLApR、Euclid Math OneLApB、Euclid Math OneLApT分別代表社交關(guān)系視圖、行為特征視圖和推文內(nèi)容視圖的獨立損失;Euclid Math OneLApfused則代表這些視圖經(jīng)過證據(jù)融合后的綜合損失,它考慮了這些視圖間的交互和補充信息。

      4 實驗

      4.1 實驗設(shè)置

      4.1.1 數(shù)據(jù)集

      使用兩個公共數(shù)據(jù)集來評估MVEF方法:Twitter社交蜜罐數(shù)據(jù)集(Twitter SH)[27]和Twitter 1KS10KN數(shù)據(jù)集(1KS-10KN)[28]??紤]到Twitter SH數(shù)據(jù)集中用戶社交關(guān)系的缺乏,使用外部Twitter社交圖數(shù)據(jù)集[29]來補充它的社交網(wǎng)絡(luò)。根據(jù)實驗需要采樣得到最終的實驗數(shù)據(jù)集,它們的具體統(tǒng)計情況如表3所示。

      4.1.2 對比基線

      將MVEF與以下基線進行比較,包括最先進的水軍檢測方法。

      LR(logistic regression)是一種廣泛使用的線性分類算法,適用于二分類問題。

      SVM(support vector machine)是一種強大的分類器,通過找到最佳的決策邊界來區(qū)分不同類別。

      RF(random forest)是一種基于樹的集成學(xué)習(xí)方法,通過構(gòu)建多個決策樹并進行投票或平均來提升預(yù)測性能。

      XGBoost是一種先進的梯度增強算法,旨在通過正則化和并行處理提高模型的準確性和訓(xùn)練效率。

      以上的單視圖方法均使用行為特征視圖構(gòu)建的特征進行實驗。

      GANG[13]是一種基于有向圖的社交網(wǎng)絡(luò)欺詐用戶檢測方法,通過創(chuàng)新地運用成對馬爾可夫隨機場和環(huán)形信念傳播來建模用戶狀態(tài)的聯(lián)合概率分布。

      MDGCN[16]是一種結(jié)合自適應(yīng)獎勵馬爾可夫隨機場和圖卷積網(wǎng)絡(luò)的先進模型,有效融合了用戶關(guān)系網(wǎng)絡(luò)和富文本特性。

      SSDMV[2]是一種基于多視圖數(shù)據(jù)融合的半監(jiān)督深度學(xué)習(xí)模型,通過相關(guān)梯形網(wǎng)絡(luò)和過濾門組件獲得用戶的聯(lián)合表示,然后進行標簽推理。

      SSCF[18]是一種半監(jiān)督線索融合方法,通過一個線性加權(quán)求和函數(shù)融合來自多個視角的綜合線索,以獲取最終結(jié)果。由于SSCF原本是針對微博平臺設(shè)計的特征提取,其在Twitter上應(yīng)用效果不佳。所以,在后續(xù)實驗中,改用SSDMV的推文嵌入作為其推文視圖特征,同時使用MVEF的行為視圖特征和社交關(guān)系視圖特征作為對應(yīng)的視圖特征。

      4.1.3 評價指標

      按照以往的文獻,使用準確率(accuracy)、精度(precision)、召回率(recall)和F1值(F1-score)。

      4.1.4 參數(shù)設(shè)置

      GANG、MDGCN、SSDMV、SSCF的參數(shù)均參照原論文進行設(shè)置。對于MVEF,在處理社交關(guān)系視圖時,設(shè)計了一個包含三層的MLP(含最后一個全連接層,以下均包含該層),結(jié)構(gòu)為[256,128,2],其隱藏層采用ReLU激活函數(shù)。為增強模型的性能和泛化能力,在隱藏層集成了BatchNorm1d以加快訓(xùn)練過程,并在輸入層以及隱藏層之間嵌入dropout機制(比例分別為0.2和0.5),以防止出現(xiàn)過擬合現(xiàn)象。在行為特征視圖處理中,根據(jù)數(shù)據(jù)集特性對網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整,Twitter SH數(shù)據(jù)集使用[9,6,4,2]的四層MLP,1KS-10KN數(shù)據(jù)集使用[9,8,7,6,4,2]的六層MLP。隱藏層同樣采用ReLU激活函數(shù),并在最后一個隱藏層后添加BatchNorm1d和Dropout層。推文內(nèi)容視圖則利用BERTweet模型提取特征向量,后接一個全連接層。為進一步降低過擬合風(fēng)險,在該層前引入dropout(比例為0.2)。

      為優(yōu)化模型的任務(wù)適應(yīng)性,對BERTweet進行微調(diào),采用了誤差修正、weight-decay (L2正則化)和warmup等策略。在模型訓(xùn)練階段,為避免BERTweet微調(diào)對整體模型參數(shù)更新的影響,為BERTweet部分設(shè)置專用的AdamW優(yōu)化器,而對其他網(wǎng)絡(luò)部分則使用標準的Adam優(yōu)化器。

      4.2 對比實驗

      在這一部分,將MVEF與現(xiàn)有的先進水軍檢測方法進行比較。隨機選擇80%的用戶作為訓(xùn)練集,其余20%作為測試集在兩個數(shù)據(jù)集上評估MVEF和上面列出基線的性能。結(jié)果顯示在表4中。可以注意到,MVEF方法不僅在類別分布相對平衡的Twitter SH數(shù)據(jù)集上取得了高質(zhì)量的分類結(jié)果,在類別分布不平衡的1KS-10KN數(shù)據(jù)集上同樣展示了其強大的檢測能力。這一發(fā)現(xiàn)進一步證明了MVEF在社交水軍檢測領(lǐng)域的實用性。

      LR和SVM這兩個經(jīng)典的機器學(xué)習(xí)算法在兩個數(shù)據(jù)集上表現(xiàn)很差,尤其是在1KS-10KN數(shù)據(jù)集上的F1值均低于0.5,因為它們在處理高度不平衡的社交網(wǎng)絡(luò)數(shù)據(jù)時具有局限性,傾向于過度擬合多數(shù)類而忽略少數(shù)類。相比之下,集成學(xué)習(xí)算法RF和XGBoost表現(xiàn)更好,在Twitter SH數(shù)據(jù)集上的準確率和F1值均在0.9以上,因為集成學(xué)習(xí)可以通過組合多個弱學(xué)習(xí)器從而形成一個強學(xué)習(xí)器。它們還通過特有的機制如類別權(quán)重調(diào)整和改進的損失函數(shù),來應(yīng)對數(shù)據(jù)不平衡帶來的挑戰(zhàn),所以在類別極度不平衡的1KS-10KN數(shù)據(jù)集上,F(xiàn)1值也達到了08左右。GANG和MDGCN這兩種方法通過有效利用社交網(wǎng)絡(luò)的緊密連接來學(xué)習(xí)用戶特征和標簽依賴。因此,相較于社交網(wǎng)絡(luò)較為稀疏的Twitter SH數(shù)據(jù)集,它們在社交聯(lián)系更加緊密的1KS-10KN數(shù)據(jù)集上展現(xiàn)了更加卓越的性能。尤其是MDGCN整合了圖卷積網(wǎng)絡(luò)和馬爾可夫隨機場的優(yōu)勢,在學(xué)習(xí)特征表征的同時對關(guān)系型用戶的依賴性進行建模,其在1KS-10KN數(shù)據(jù)集上的F1值高達0.910 9。

      對比先進的特征級融合方法SSDMV和決策級融合方法SSCF,MVEF性能表現(xiàn)更優(yōu)異。特別是在Twitter SH數(shù)據(jù)集上,MVEF的準確率超過這兩個融合方法2%以上,在1KS-10KN數(shù)據(jù)集上也高出了1.5%以上。盡管SSDMV能夠探索跨視圖的特征交互,但在處理視圖間噪聲和質(zhì)量差異方面可能存在不足。與之相對,MVEF獨立評估每個視圖的預(yù)測結(jié)果,并用不確定性量化視圖質(zhì)量差異,保證了最終決策的可靠性。SSCF雖然采用了決策級融合策略,但其固定的權(quán)重參數(shù)限制了模型在不同數(shù)據(jù)分布下的適應(yīng)能力。而MVEF通過分析每個樣本的視圖證據(jù)動態(tài)調(diào)整權(quán)重,使得模型在綜合多視圖信息時更加精準。

      4.3 消融實驗

      為評估每個部分對方法性能的貢獻,進行了一系列消融實驗,分別移除了特定的視圖數(shù)據(jù)以及方法的核心模塊—證據(jù)融合模塊,并觀察方法的性能變化。

      具體而言,對比完整的多視圖證據(jù)融合方法MVEF與其四種消融變體,即MVEF(B_T)、MVEF(T_R)、MVEF(R_B)和MVF。前三種消融變體分別移除社交關(guān)系視圖R、行為特征視圖B、推文內(nèi)容視圖T,旨在評估這些視圖對MVEF方法性能的貢獻,探究視圖數(shù)量對融合模型效果的影響,以及不同視圖組合在模型性能中的相對重要性。而MVF方法則移除了證據(jù)融合模塊,其中各視圖的基分類器在全連接層之后直接采用softmax函數(shù)輸出分類概率,然后以相等權(quán)重組合形成最終預(yù)測概率,并采用交叉熵損失函數(shù)進行優(yōu)化。該變體的目的是檢驗證據(jù)融合模塊在整合多視圖信息和提升方法性能方面的重要性。

      如圖2所示,MVEF方法在不同消融設(shè)置下的性能表現(xiàn)出了明顯的差異。從三視圖融合方法MVEF中移除任意一個視圖時,性能指標均有所下降,這表明每個視圖都為模型提供了獨特而有價值的信息。然而,性能的下降程度并不一致,反映出不同視圖對模型性能貢獻的重要性不同。其中,社交關(guān)系視圖S對模型的整體性能有顯著影響。在所有移除某一視圖的消融實驗設(shè)置中,無論是結(jié)合行為特征視圖MVEF(R_B),還是推文內(nèi)容視圖MVEF(T_R),包含社交關(guān)系視圖的組合均展現(xiàn)出較高的性能指標,它們在Twitter SH數(shù)據(jù)集上的準確率與完整模型相比僅相差約2%,在1KS-10KN數(shù)據(jù)集上的差距更是縮小至1.5%以內(nèi)。這凸顯了社交關(guān)系視圖在區(qū)分水軍和合法用戶中的重要作用,它依托社交網(wǎng)絡(luò)同質(zhì)性理論深入分析用戶之間的互動和共性特征,捕捉到用戶緊密的社交聯(lián)系,極大地提升了模型識別水軍的能力。與此相比,MVEF(B_T)在兩個數(shù)據(jù)集上的性能普遍低于包含社交視圖的組合,特別是在1KS-10KN數(shù)據(jù)集上,其F1值與完整模型相比下降了15%,遠高于其他消融變體的下降幅度。這可能是因為行為特征和推文內(nèi)容雖然能提供用戶的靜態(tài)屬性和內(nèi)容信息,但缺乏社交關(guān)系視圖所具有的用戶間動態(tài)交互的信息,而這種交互信息對于揭示潛在的水軍網(wǎng)絡(luò)特別關(guān)鍵。

      此外,特別關(guān)注了去除核心模塊—證據(jù)融合模塊的MVF方法的性能表現(xiàn)。結(jié)果表明,MVF方法雖然在某些性能指標上優(yōu)于只包含兩個視圖的證據(jù)融合方法,但仍然不及完整的MVEF方法。例如,其在1KS-10KN數(shù)據(jù)集上的F1值仍比MVEF方法低約2%。這表明單純的視圖特征提取和簡單的輸出組合,雖然能夠在一定程度上捕獲視圖間的互補性,但無法深入挖掘和利用視圖間的復(fù)雜相互作用。相比之下,MVEF方法的主要優(yōu)勢在于其證據(jù)融合機制,該機制不僅評估每個視圖的獨立貢獻,還深入考慮視圖間的相互作用和聯(lián)系。這使得MVEF能夠更全面地整合多視圖數(shù)據(jù),有效地捕獲每個視圖的獨特信息。

      總體而言,消融實驗結(jié)果突顯了MVEF在多視圖數(shù)據(jù)整合上的獨特優(yōu)勢,特別是其證據(jù)融合模塊在提升分類性能方面的關(guān)鍵作用。

      4.4 魯棒性實驗

      在現(xiàn)實世界中,社交數(shù)據(jù)往往包含各種噪聲,為此,需要一個魯棒的水軍檢測方法能夠適應(yīng)這些數(shù)據(jù)偏差。為評估方法在各種數(shù)據(jù)偏差下的性能,進行了魯棒性實驗。在測試數(shù)據(jù)集中故意引入不同比例(10%、20%、30%和40%)的噪聲,模擬現(xiàn)實世界中的數(shù)據(jù)質(zhì)量問題。具體方法包括:

      a)行為特征視圖(view B):在標準化后的數(shù)據(jù)上添加服從標準正態(tài)分布(均值為0,方差為1)的高斯噪聲。

      b)社交關(guān)系視圖(view R):通過隨機刪除和添加社交網(wǎng)絡(luò)中的關(guān)注關(guān)系來引入噪聲。

      c)推文內(nèi)容視圖(view T):通過隨機刪除和添加單詞、使用同義詞替換,以及在單詞中插入隨機字符來添加推文的噪聲。

      如圖3所示,在面對不同程度行為特征的噪聲時,多視圖融合方法SSDMV、SSCF以及MVEF在兩個數(shù)據(jù)集中均展示出較好的穩(wěn)健性。特別是MVEF,在面對高達40%的噪聲比例下,性能下降幅度在兩個數(shù)據(jù)集上均未超過4%。與此相比,SSCF雖然在Twitter SH數(shù)據(jù)集上的性能降幅最?。ㄎ闯^2%),但在1KS-10KN數(shù)據(jù)集上表現(xiàn)最差。這種差異可能源于兩個數(shù)據(jù)集中行為特征視圖的不同貢獻度以及通過訓(xùn)練固定視圖權(quán)重所帶來的影響。在Twitter SH數(shù)據(jù)集中,行為特征視圖被賦予較低的權(quán)重,為模型提供一層緩沖,減輕了噪聲對整體性能的影響。對于傳統(tǒng)的單視圖方法,如SVM、RF和XGBoost,在Twitter SH數(shù)據(jù)集上的性能降幅相對更為明顯。尤其是RF,在40%噪聲條件下性能下降超過25%,說明這些方法對噪聲非常敏感。而在1KS-10KN這個極端不平衡的數(shù)據(jù)集中,SVM的性能下降則相對緩慢,這可能是因為其核函數(shù)和間隔最大化的特性,能夠在一定程度上抵御噪聲帶來的干擾。

      在添加噪聲的社交關(guān)系視圖實驗中,利用MVEF方法的社交關(guān)系節(jié)點嵌入為單視圖方法SVM、RF和XGBoost提供特征。如圖4所示,MDGCN在面對噪聲時的性能下降較SSDMV和MVEF偏大,這可能是由于其對用戶間關(guān)系和依賴性的學(xué)習(xí)受到圖結(jié)構(gòu)變化的影響。單視圖方法(如SVM、RF)在社交關(guān)系視圖添加噪聲時的性能下降并不像在行為特征視圖中那樣顯著,這歸功于它們使用的高質(zhì)量節(jié)點嵌入,這些嵌入通過增加節(jié)點間的間接關(guān)系和共享鄰居來生成,從而在噪聲條件下為模型提供較為穩(wěn)定的特征表示。

      結(jié)合圖4和5來看,SSDMV、MDGCN、SSCF以及MVEF等多視圖融合方法在高噪聲環(huán)境下相較于SVM、XGBoost等單視圖方法表現(xiàn)出更優(yōu)越的性能。這是因為多視圖方法能夠綜合多個數(shù)據(jù)源的信息,使得在一個視圖中出現(xiàn)的噪聲可以被其他視圖中的準確信息補償。特別注意到,SSCF這一決策級融合方法在處理不同視圖的噪聲時,其性能表現(xiàn)出了不同程度的敏感性。當(dāng)社交關(guān)系視圖遭受噪聲干擾時,其性能顯著降低,而對推文視圖中的噪聲所受影響卻十分小。這一觀察可能指向了模型在訓(xùn)練過程中對社交關(guān)系視圖賦予較高的權(quán)重,認為其特征表達具有較高的質(zhì)量,而相對地,推文視圖的權(quán)重被設(shè)置得很低。這也揭示了SSCF的固定權(quán)重分配機制在處理視圖噪聲時的局限性,其未能充分激發(fā)多視圖融合的潛力,特別是在各視圖質(zhì)量差異顯著時,無法靈活調(diào)整以利用視圖間的互補性。相比之下,MVEF以其獨特的不確定性量化方法和有效的融合策略使其在對抗噪聲方面表現(xiàn)更為卓越,從而在數(shù)據(jù)質(zhì)量變化的環(huán)境中保持高穩(wěn)定性和準確性。

      5 結(jié)束語

      本文提出了一種基于多視圖證據(jù)融合(MVEF)的社交水軍檢測方法,用于高效準確地檢測社交平臺上的水軍。該方法綜合分析用戶行為、社交關(guān)系和推文內(nèi)容三個關(guān)鍵視圖,以提取決策所需的證據(jù)。然后,將其參數(shù)化為Dirichlet分布,準確量化每個視圖在分類決策中的整體不確定性與類別可信度。在核心的證據(jù)融合環(huán)節(jié),MVEF利用各視圖的不確定性動態(tài)調(diào)整決策權(quán)重,形成全面可信的分類結(jié)果。實驗結(jié)果顯示,MVEF在兩個數(shù)據(jù)集上的性能均優(yōu)于現(xiàn)有的先進方法,證明了其在準確性、魯棒性和可靠性方面的顯著優(yōu)勢。未來的工作將探索優(yōu)化視圖融合策略,以適應(yīng)更加多樣化的數(shù)據(jù)環(huán)境并進一步提升方法性能。

      參考文獻:

      [1]Chen Ailin, Yang Pin, Cheng Pengsen. ACTSSD: social spammer detection based on active learning and co-training [J]. The Journal of Supercomputing, 2022, 78(2): 2744-2771.

      [2]Li Chaozhuo, Wang Senzhang, He Lifang,et al. SSDMV: semi-supervised deep social spammer detection by multi-view data fusion [C]// Proc of the 18th IEEE International Conference on Data Mi-ning. Piscataway, NJ: IEEE Press, 2018: 247-256.

      [3]Liu Bo, Sun Xiangguo, Ni Zeyang,et al. Co-detection of crowdturfing microblogs and spammers in online social networks [J]. World Wide Web, 2020, 23(1): 573-607.

      [4]Sensoy M, Kaplan L, Kandemir M. Evidential deep learning to quantify classification uncertainty [C]// Proc of the 32nd Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates, 2018: 31.

      [5]Krestel R, Chen Ling. Using co-occurrence of tags and resources to identify spammers [C]// Proc of ECML/PKDD Discovery Challenge Workshop. Berlin: Springer, 2008: 38-46.

      [6]Hu Xia, Tang Jiliang, Gao Huiji,et al. Social spammer detection with sentiment information [C]// Proc of the 14th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2014: 180-189.

      [7]Ghanem R, Erbay H. Spam detection on social networks using deep contextualized word representation [J]. Multimedia Tools and Applications, 2023, 82(3): 3697-3712.

      [8]Zhang Xianchao, Li Zhaoxing, Zhu Shaoping,et al. Detecting spam and promoting campaigns in Twitter [J]. ACM Trans on the Web, 2016, 10(1): 1-28.

      [9]Stafford G, Yu L L. An evaluation of the effect of spam on Twitter trending topics [C]// Proc of International Conference on Social Computing. Piscataway, NJ: IEEE Press, 2013: 373-378.

      [10]Yin Jun, Li Qian, Liu Shaowu,et al. Leveraging multi-level depen-dency of relational sequences for social spammer detection [J]. Neurocomputing, 2021, 428: 130-141.

      [11]Jeong S, Noh G, Oh H,et al. Follow spam detection based on cascaded social information [J]. Information Sciences, 2016, 369: 481-499.

      [12]李寧, 梁永全, 張琪. 一種基于時序鄰居序列的游離水軍群組檢測方法 [J]. 計算機應(yīng)用研究, 2023, 40(3): 776-785. (Li Ning, Liang Yongquan, Zhang Qi. Method for detecting free spammer groups based on temporal neighbor sequence [J]. Application Research of Computers, 2023, 40(3): 776-785.)

      [13]Wang Binghui, Gong N Z, Fu Hao. GANG: detecting fraudulent users in online social networks via guilt-by-association on directed graphs [C]// Proc of the 17th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2017: 465-474.

      [14]張琪, 紀淑娟, 張文鵬, 等. 考慮結(jié)構(gòu)與行為特征的水軍群組檢測算法 [J]. 計算機應(yīng)用研究, 2022, 39(5): 1374-1379. (Zhang Qi, Ji Shujuan, Zhang Wenpeng,et al. Group spam detection algorithm considering structure and behavior characteristics [J]. Application Research of Computers, 2022, 39(5): 1374-1379.)

      [15]Zhang Xulong, Jiang F, Zhang Ran,et al. Social spammer detection based on semi-supervised learning [C]// Proc of the 20th IEEE International Conference on Trust, Security and Privacy in Computing and Communications. Piscataway, NJ: IEEE Press, 2021: 849-855.

      [16]Deng Leyan, Wu Chenwang, Lian Defu,et al. Markov-driven graph convolutional networks for social spammer detection [J]. IEEE Trans on Knowledge and Data Engineering, 2022, 35(12): 12310-12322.

      [17]Shen Hua, Wang Bangyu, Liu Xinyue,et al. Social spammer detection via convex nonnegative matrix factorization [J]. IEEE Access, 2022, 10: 91192-91202.

      [18]Chen Hao, Liu Jun, Lyu Yanzhang,et al. Semi-supervised clue fusion for spammer detection in Sina Weibo [J]. Information Fusion, 2018, 44: 22-32.

      [19]Wu Fangzhao, Wu Chuhan, Liu Junxin. Semi-supervised collaborative learning for social spammer and spam message detection in microblogging [C]// Proc of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2018: 1791-1794.

      [20]Liu Shuaitong, Li Xiaojun, Hu Changhua,et al. Spammer detection using multi-classifier information fusion based on evidential reasoning rule [J]. Scientific Reports, 2022, 12(1): 12458.

      [21]Moon J, Kim J, Shin Y,et al. Confidence-aware learning for deep neural networks [C]// Proc of the 37th International Conference on Machine Learning. New York: PMLR, 2020: 7034-7044.

      [22]Koggalahewa D, Xu Yue, Foo E. An unsupervised method for social network spammer detection based on user information interests [J]. Journal of Big Data, 2022, 9(1): 1-37.

      [23]Nguyen D Q, Vu T, Nguyen A T. BERTweet: a pre-trained language model for English Tweets [EB/OL]. (2020-10-05). https://arxiv.org/abs/2005.10200.

      [24]Charpentier B, Zügner D, Günnemann S. Posterior network: uncertainty estimation without OOD samples via density-based pseudo-counts [C]// Proc of the 34th Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates, 2020: 1356-1367.

      [25]Lin Jiayu. On the Dirichlet distribution [EB/OL]. (2016). https://api.semanticscholar.org/CorpusID:45761615.

      [26]Zhao Kun, Gao Qian, Hao Siyuan,et al. Credible remote sensing scene classification using evidential fusion on aerial-ground dual-view images [J]. Remote Sensing, 2023, 15(6): 1546.

      [27]Lee K, Eoff B, Caverlee J. Seven months with the devils: a long-term study of content polluters on twitter [C]// Proc of the 5th International AAAI Conference on Web and Social Media. Palo Alto, CA: AAAI Press, 2011: 185-192.

      [28]Yang Chao, Harkreader R, Zhang Jialong,et al. Analyzing spammers’ social networks for fun and profit: a case study of cyber criminal ecosystem on Twitter [C]// Proc of the 21st International Confe-rence on World Wide Web. New York: ACM Press, 2012: 71-80.

      [29]Kwak H, Lee C, Park H,et al. What is Twitter, a social network or a news media? [C]// Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 591-600.

      五指山市| 洛南县| 宜川县| 县级市| 新沂市| 南安市| 明星| 饶河县| 涞水县| 和静县| 昌宁县| 北辰区| 永嘉县| 宁安市| 汤原县| 伊春市| 建瓯市| 景东| 清镇市| 浙江省| 腾冲县| 方城县| 新巴尔虎右旗| 石河子市| 黑河市| 西乌| 盈江县| 林周县| 乌兰县| 高要市| 肥城市| 齐齐哈尔市| 铁岭县| 衡阳市| 苏尼特左旗| 镇康县| 辽宁省| 通城县| 青龙| 永平县| 建德市|