• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于分層社區(qū)的社交網絡異常事件檢測模型研究

      2020-04-14 04:54王龍
      電腦知識與技術 2020年4期

      王龍

      摘要:社交網絡的數據中蘊含著大量有關現實中各種事件的信息。使用異常事件檢測模型準確及時地發(fā)現社交網絡上傳播的異常事件信息,對于實現智慧城市感知社會異常動態(tài)事件,有效提高社會管理應對效率具有關鍵作用。本文定義了基于社交網絡的有權無向圖,根據異常事件的特征對社交網絡中事件進行了主題分類和篩選,構建了一個基于分層社區(qū)的異常事件檢測模型,從而可以實現對城市區(qū)域異常事件的檢測。

      關鍵詞:社交網絡分析;異常事件檢測;分層社區(qū)

      中圖分類號:TP393

      文獻標識碼:A

      文章編號:1009-3044(2020)04-0017-03

      Research on anomaly Detection Model of Social Network Based on Hierarchical Community

      WANG Long

      (Guangdong Medical University,Zhanjiang 524023,China)

      Abstract:Social network data contains a lot of information about various events in reality.Using anomaly event detection model to accurately and timely discover the information of abnormal events spread on social networks plays a key role in realizing smart cities' percep-tion of social abnormal dynamic events and effectively improving social management response efficiency.This paper defines a hierarchical community of social network abnormal events Based on the weighted undirected graph,classifies and filters the events in social network according to the characteristics of abnormal events,constructs an abnormal event detection model,and realizes the detection of abnormal events in urban areas.

      Key words:social network analysis;abnormal event detection;hierarchical community

      1 概述

      隨著以微博、微信為代表的社交網絡的廣泛應用,已經取代了傳統(tǒng)媒體和個人網站等手段,成為人們發(fā)布和分享信息的主要平臺。每天都有大量社會事件通過社交網絡進行傳播,這些事件主題的性質類別多種多樣,包含娛樂動態(tài),社會事件,政治新聞以及自然災害等。社交網絡用戶在發(fā)現有興趣的事件發(fā)生時習慣于在社交網絡平臺上發(fā)表自己的觀點或報告事件的發(fā)生,分析和挖掘社交網絡中積累的大量數據中的事件主題特征,對于在智慧城市感知建設中社會異常事件的檢測具有極大的價值。

      目前各類流行的社交網絡應用中的信息都具有碎片化、數據量大、時效性高,用戶聚合度不平衡的特點,且討論主題不受時空的限制,使用人工檢測方式不能及時有效地發(fā)現和挖掘相關事件。因此,面向社交網絡中的討論主題實現異常話題檢測,借助事件檢測技術來及時、準確地獲取網絡中傳播的異常事件描述,對于建設智慧城市感知系統(tǒng),高效地獲取信息,掌握社會環(huán)境的實時動態(tài)具有現實意義。

      2 異常事件檢測

      社交網絡上傳播的文本數據簡短,且多為不規(guī)范的網絡用語,往往帶有大量噪音數據。利用網絡爬蟲技術可以實現對社交網絡頁面信息的爬取,獲得原始文本數據集。將獲得的文本數據按照時間空間序列排列,然后根據異常事件特征對文本數據進行預處理,濾除干擾和無用信息,可以構造異常事件特征文本庫。

      在現有事件檢測相關研究多在熱點事件發(fā)現,沒有明確異常事件的時空特征,忽略了兩者的特點。異常事件的特點是在事件發(fā)生前的相關話題強度很低,基于時間空間序列的話題強度突然升高,在單位事件區(qū)域內的升高頻率明顯很高。而熱點事件,類似娛樂新聞事件,具有一定的持續(xù)度和話題強度,單位事件區(qū)域內頻率升高較為平穩(wěn)。

      完成異常事件檢測,首先要識別出關鍵的異常特征詞,完成事件詞向量的構建。同時識別社交網絡中的權威活躍節(jié)點用戶,然后根據相關詞語出現的關聯度來描述話題主題的傾向,根據發(fā)布信息的社交網絡用戶活躍性和權威性來描述話題聚合程度,構建事件分層社區(qū)來歸類事件類別。而現有社交網絡檢測事件中監(jiān)測節(jié)點沒有區(qū)分權威性和活躍度指標、面對所有節(jié)點檢測效率不夠、非活躍用戶對結果產生噪音數據影響,存在識別錯誤情況。因此需要高效判別社交網絡中信息發(fā)布的權威活躍節(jié)點,還要識別非活躍用戶和劃分基于事件信息的分層主題社區(qū)、異常事件過濾等問題,從而建立一個相對實用的異常事件檢測方法。實現了社交網絡中異常事件話題的發(fā)現,使得在異常事件發(fā)生時能夠對事件全局有更好地掌握。

      3 異常事件檢測模型

      一般的,描述一個事件可以用一組可唯一描述事件的相互密切關聯的特征詞的集合。這樣事件檢測的工作就演變?yōu)閺娜舾啥挝谋局袑⒖梢悦枋鎏囟ㄊ录囊唤M特征詞找出來。當某一或某一類特定事件發(fā)生時,與此事件相關的特征詞在事件發(fā)生的單位時間內出現頻率會迅速增加,與此事件相關的一組特征詞組的出現頻率也會同時迅速增加。從詞之間的語義和關聯性看,詞組在社交網絡文本中同時出現的頻率必定很高,且其中一個詞的出現對另一個詞地出現影響非常大,存在著強關聯關系。為了描述事件的這些特征,可建立有向加權圖,以子圖或社區(qū)的形式表示事件。

      雖然社交網絡的文本數據數量大且噪聲多,但通過異常特征詞的共現關系能夠很好地捕捉特征詞之間的語義關系,以特征詞共現關系構建的加權有向圖為基礎,可選用其中的關鍵節(jié)點來檢測事件信息,實現基于權威活躍節(jié)點用戶的事件分層社區(qū)發(fā)現算法。算法舍棄了大量噪聲文本構成的主題社區(qū),降低了事件發(fā)現的復雜度。同時,不同事件社區(qū)的檢測互不干擾,能很好地處理異常事件社區(qū)發(fā)現。該模型中可用LDA分布作為用戶在事件上的分布,事件初始LDA分布,事件在詞語上為多項式分布。LDA分布和多項式分布互為共輒分布,可簡化模型的推導。

      3.1 基本概念

      事件數據:

      實體間在特定時間地點發(fā)生的相互作用稱為事件。事件數據包括主體、客體、行為、時間、地點等信息。

      異常事件:

      基于智慧城市感知中的異常事件是指異于平常發(fā)生,造成或者可能造成社會影響或危害,需要采取處置措施予以應對的自然災害、事故災難、公共衛(wèi)生事件和社會安全等事件。

      社交網絡中事件異常特征:

      社交網絡中的異常事件具有突發(fā)特征,是在社交網絡中先前若干時間段內該事件很少被用戶討論或者被討論頻次呈現平穩(wěn)分布,但是在當前時間段內以高頻次出現的事件,與熱點事件應當有所區(qū)分。社交網絡中的熱點事件往往是在一段時間內受到持續(xù)關注和討論的事件,具有一定的持續(xù)性,與異常事件有很大區(qū)別。

      基于主題關聯度的分層社區(qū)分類:

      設有描述社交網絡的有向無權圖G=(V,E),其中V代表用戶節(jié)點集合,且共有n個用戶節(jié)點,E代表用戶有向關系集合,eij代表連接Vi、Vj兩節(jié)點的有向邊。若將網絡G劃分成K份,G即為K個節(jié)點集合。若劃分成具備對于每個都滿足節(jié)點集合p內的節(jié)點主題關聯強度密集、和節(jié)點集合p外主題關聯強度稀疏的特點,那么就叫p為G的基于主題關聯程度的社區(qū)分類。

      3.2 基于詞頻組共現關系的有向加權圖

      設G是一個有向加權圖,G=(V,E,W),V是G的特征詞節(jié)點,表示可以描述一段文本的特征詞組,E是圖中有向邊的集合,表示各詞組之間語義的共現關系,W是權值集合,表示詞組節(jié)點之間的關聯強度。當使用向量空間模型描述圖G時,可構建文本特征詞組矩陣。詞組矩陣的一行表示一段描述一個話題的相關文本,矩陣的列表示特征詞庫中的一個詞,矩陣元素則是對應特征詞的語義關聯度權值。矩陣中每一行文本向量的維度都等同特征詞庫的規(guī)模。若行向量空間中有D個文本向量,則D是描述事件話題的文本集合。di是第i個文本向量,V的絕對值是事件特征詞庫的大小。Sij則是對應的第j個詞出現在第i個文本中的權值。

      其中,vfkj是詞vj出現在文本中的頻率,dvfj是詞vj的逆頻率。L為平滑因子。

      利用權值閾值判斷可將G中低頻詞和常用詞節(jié)點過濾掉,將剩余的詞組節(jié)點構建為G。若任意兩個詞在同一或多段文本中出現,則在兩個節(jié)點詞之間添加一條有向邊,邊的方向從關聯強度大的節(jié)點i指向關聯強度小的節(jié)點j,這一有向邊的權值是關聯強度系數pij。

      nij表示含有特征詞i和j的文本數量。ni表示包含特征詞i的數量。nj表示包含詞組j的數量。N是特征詞庫中的總文本數量。

      在計算關聯強度系數pij的公式中,反映了一個特征詞出現在文本中時引起另一個特征詞在同一段文本中出現的可能性。公式的第一項會隨著含有特征詞Vi和Vj的文本數量的增大而增大,第二項會隨著含詞組Vj的文本數量的增加而減小。關聯強度系數的大小也描述了詞組之間的語義相關程度和關聯強度,這對事件的分層社區(qū)劃分很有意義。

      3.3 分層社區(qū)的耦合程度

      每一個包含權威節(jié)點的詞組集合都是一個事件社區(qū),因為G,是一個加權有向圖網絡,可以標識出G中的權威節(jié)點??梢葬娪妙愃朴嬎憔W頁排名的算法來尋找G中的權威節(jié)點。對于G中的節(jié)點,可計算節(jié)點權威指數:

      其中Wjj為節(jié)點為vi和vj間的權值,In(vi)為從節(jié)點vi指向的節(jié)點集合,Out(vi)為指向vi的鄰居節(jié)點集合。d在0到1的開區(qū)間取值,取0.85。在描述一個事件的詞語集合中,越是權威的詞出現的頻率越高,和集合中其他詞共現的頻率也越高,同時和其他詞的關聯強度也會越強。G,結構中,計算岀的詞語節(jié)點權威指數ws(v)也越高。因此可以根據網絡節(jié)點的得分ws(vi)排序來標識權威節(jié)點序列。

      基于G圖的分層社區(qū)檢測就是將緊密連接的節(jié)點劃分到同一個社區(qū),使得社區(qū)內部節(jié)點耦合緊密,社區(qū)間的節(jié)點耦合稀疏??梢杂蒙鐓^(qū)分層指數來衡量社區(qū)的耦合程度,社區(qū)分層指數取值介于-1和1之間,衡量了社區(qū)內部節(jié)點與社區(qū)節(jié)點相比的耦合程度。社區(qū)分層指數越高,說明社區(qū)內部的節(jié)點耦合越緊密,社區(qū)間的節(jié)點耦合越稀疏。定義G,圖社區(qū)分層指數:

      Aij表示有向邊的權值,k是與節(jié)點i相連的所有邊的權值之和。是閾值參數,m是G中所有邊權值之和。

      3.4 基于分層社區(qū)的事件檢測

      分別初始化每一個關鍵節(jié)點為一個只包含節(jié)點自身的事件社區(qū),然后考察每一個事件社區(qū)Ck的相鄰節(jié)點Vj,嘗試將其加入社區(qū)。若該節(jié)點加入能使社區(qū)的分層指數增大,則將Vj加入,否則不加入,如此循環(huán)直到沒有節(jié)點加入為止。這樣實現基于K個權威節(jié)點的事件社區(qū)發(fā)現,減少了非權威無關節(jié)點的事件社區(qū)檢測工作量,不會提取包含大量噪聲的事件社區(qū)。同時K個事件社區(qū)的提取可以同時進行,提高了效率。由于考察節(jié)點加入某個社區(qū),社區(qū)分層指數的變化量計算為:

      其中,∑in是社區(qū)C內部所有邊的權值和,∑tot是社區(qū)C內部節(jié)點與外部節(jié)點直連邊的權值和。kin是與節(jié)點i相鄰邊的權值和,虹是節(jié)點i與社區(qū)C內部節(jié)點相連邊的權值和。

      算法實現:

      輸入:有向加權圖G=(V,E,W),關鍵節(jié)點序列:KV={v1,v2,……vk}

      輸出:事件社區(qū)向量:C={C1,C2,……C})

      根據K個節(jié)點初始化生成K個事件社區(qū);C1={v1},C2={v2,……Ck={vk};

      for Ci(i=l,......k)do

      for Ci的每一個鄰居節(jié)點vj do

      if ?S〉閾值 then

      Ci=Ci U Vj

      endif

      endfor

      endfor

      算法輸入為K個節(jié)點序列,輸岀是K個事件社區(qū)向量。由于在有向圖中,若描述同一事件的詞語之間關聯程度強,將會劃分到同一社區(qū),若不同事件的描述詞語之間關聯性較強,將會劃分到不同社區(qū)。算法通過考察K個關鍵節(jié)點,以社區(qū)分層指數來劃分事件社區(qū)。有利于使社區(qū)內部緊密耦合,社區(qū)間盡量松散,從而使描述相同事件的關聯性強的詞語劃分到相同事件社區(qū)中。

      通常一個事件很可能有多個關鍵節(jié)點,導致不同的事件社區(qū)很有可能描述的是同一事件。因此在檢測出異常事件的社區(qū)后,要合并重復的事件社區(qū)。這部分工作可以利用通過有監(jiān)督學習的轉換模型將事件社區(qū)轉換為詞向量,使用余弦相似度來衡量兩個向量之間的相似程度:若兩個向量的相似度大于0.5,則合并向量。

      4 結束語

      本文對社交網絡的事件發(fā)現算法模型進行了研究。分析了一種基于加權有向圖的分層社區(qū)異常事件檢測算法,通過關鍵特征詞的共現關系構建一個加權有向圖,特征詞之間的分層指數作為其權值,邊的權值則反映了它們之間的關聯強度。描述相同事件的詞在圖中會聚合為事件社區(qū)。每一個事件視為該有向圖的一個子圖或者社區(qū)。實現了基于關鍵節(jié)點的事件分層社區(qū)檢測,圖中有向邊權值量化了詞語的關聯程度,更利于事件檢測。在檢測事件之前先標識了圖中的權威活躍節(jié)點,只分析提取k個關鍵節(jié)點的事件子圖,有效降低了復雜度。通過指定關鍵詞節(jié)點的方法很容易將算法修改為指定事件檢測的算法。

      參考文獻:

      [1] 李洋,陳毅恒,劉挺.微博信息傳播預測研究綜述[J].軟件學報,2016,27(2):247-263.

      [2] 李彪.微博中熱點話題的內容特質及傳播機制研究——基于新浪微博6025條高轉發(fā)微博的數據挖掘分析[J].中國人民大學學報,2013,27(5):10-17.

      [3] 丁晟春,龔思蘭,李紅梅.基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究[J].現代圖書情報技術,2O16(Z1):12-20.

      [4] 葉川,馬靜.多媒體微博評論信息的主題發(fā)現算法研究[J].現代圖書情報技術,2015(11):51-59.

      [5] 曾金,陸偉,丁恒,等.基于圖像語義的用戶興趣建模[J].數據分析與知識發(fā)現,2017(4):76-83.

      [通聯編輯:光文玲]

      德令哈市| 景泰县| 唐河县| 互助| 兰西县| 常州市| 工布江达县| 同仁县| 洪江市| 得荣县| 龙胜| 洪江市| 通榆县| 溧阳市| 温泉县| 鄂尔多斯市| 安仁县| 南召县| 集贤县| 临汾市| 榆社县| 邵阳县| 德化县| 米泉市| 阳江市| 虞城县| 铜山县| 滕州市| 卢氏县| 绵竹市| 内丘县| 桂东县| 白山市| 金坛市| 丹巴县| 延寿县| 卫辉市| 石屏县| 鄂州市| 河东区| 永和县|