• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞相關性特征的多歸屬譜聚類突發(fā)事件檢測

      2021-01-19 04:58:40蔣偉進王揚劉曉亮呂斯健
      通信學報 2020年12期
      關鍵詞:子圖突發(fā)事件聚類

      蔣偉進,王揚,劉曉亮,呂斯健

      (1.湖南工商大學大數(shù)據(jù)與互聯(lián)網(wǎng)創(chuàng)新研究院,湖南 長沙 410205;2.新零售虛擬現(xiàn)實技術湖南省重點實驗室,湖南 長沙 410205;3.湖南工商大學計算機與信息工程學院,湖南 長沙 410205;4.武漢理工大學計算機科學與技術學院,湖北 武漢 430073)

      1 引言

      隨著Web 2.0 的發(fā)展,一系列新的社交網(wǎng)絡正在迅速興起。盡管此類網(wǎng)絡相對較新,但它們吸引了很多用戶來分享其觀點和感受,在社交網(wǎng)絡上實時討論真實生活中發(fā)生的焦點、熱度高的事情成為許多用戶的一種趨向性消遣,并且他們對事情發(fā)表帶有主觀性、影響力較強的評論,使現(xiàn)實生活中的突發(fā)事件在社交虛擬網(wǎng)絡上爆發(fā)的時間往往比官方發(fā)布新聞的時間更早[1]。具有用戶發(fā)布內容的社交媒體和在線服務已經(jīng)生成了數(shù)量驚人的信息,這些信息在事件分析和應急管理等各個領域都有潛在的應用[2]。突發(fā)事件在微博和微信等社交網(wǎng)絡上迅速發(fā)酵[3-4],其突發(fā)性影響了后續(xù)的應急處理,包括輿論以及救援等。通過從緊急災難等事件檢測模型發(fā)出大量及時、準確的警報,可以幫助人們迅速采取行動,以減輕損失。因此,在各種突發(fā)事件發(fā)生后,通過社交網(wǎng)絡實時監(jiān)測事件的演變情況,并采取相應措施控制其發(fā)展對輿論指導具有重要意義。

      隨著時間的推移,控制突發(fā)事件的進一步擴大將有助于決策者分析整體情況,并根據(jù)演變過程做出正確的決策。在這種情況下,有必要確定關鍵事件并通過時間表對其進行控制,可以通過提取和分析與社交事件相關的微博來獲取時間信息[5]。微博平臺可以充當信息源,使個人、公司和政府組織可以隨時了解“當前情況”和“人們對它們的看法”。檢測突發(fā)事件和用戶對其的看法至關重要,因為它們可以帶來寶貴的信息。例如,公司可以使用這些信息來分析用戶對其產(chǎn)品(或競爭對手)的看法,以回應用戶的投訴并改善決策。與傳統(tǒng)的信息傳播渠道相比,在社交網(wǎng)絡上檢測獲得的突發(fā)事件能使人更快地了解到事件的詳細發(fā)展情況,以便相關部門迅速采取應對策略,這具有重要的現(xiàn)實意義。本文圍繞微博突發(fā)詞提取及多歸屬譜聚類檢測2 個核心內容,開展了微博社交網(wǎng)絡突發(fā)事件檢測的研究,主要創(chuàng)新點如下。1) 在突發(fā)詞提取上,根據(jù)微博的時空特點,在綜合考慮博文內容及社交關系的基礎上,利用詞頻增長率特征、用戶影響力及詞權重3 類指標,提出了新穎的突發(fā)詞提取模型;2) 在突發(fā)事件檢測上,針對突發(fā)事件檢測中參數(shù)過多的問題,將文本處理轉化為圖劃分,從特征關系圖的角度出發(fā),基于事件突發(fā)特征的相似性和共現(xiàn)性構建詞關系圖,對突發(fā)事件進行檢測。

      2 相關研究

      由于本文結合文本和詞相關性特征來檢測突發(fā)事件,因此相關工作集中在文本分析、突發(fā)特征分析以及用戶特征分析等用于突發(fā)事件檢測的方法。當前的核心問題和挑戰(zhàn)是如何快速、準確地從指數(shù)增長的數(shù)據(jù)中檢測到突發(fā)事件?,F(xiàn)有的突發(fā)事件檢測方法主要分為3 類。

      1) 以文本為中心。將文本語義之間的相似程度通過相關方法度量為距離對文本進行聚類分析,根據(jù)聚類結果檢測突發(fā)事件。該方法將單詞的時間序列離散為一小組級別,記錄每個單詞和每個單詞對的出現(xiàn)次數(shù)。然后通過滑動時間窗口將共現(xiàn)標記聚類,形成候選事件簇,對滿足相應突發(fā)規(guī)則的類進行突發(fā)事件的識別[6-8]。李瑩瑩等[9]通過聚類定義了有關事件的隱式語義信息,以引入相關事件,對具有相同主題的意外事件進行聚類,該聚類是在監(jiān)視事件演變的社交網(wǎng)絡中進行的。張婧麗等[10]通過計算事件檢測標簽的文本框架類型相似度方法來識別框架,從而檢測出一種緊急情況,并改進緊急情況觸發(fā)詞的識別,能更正確地識別觸發(fā)詞,有效提高識別率。陸垚杰等[11]基于不確定的語言變量構建突發(fā)事件模型,減少了文字語言的干擾,從文本的語法和語義2 個角度進行研究,使突發(fā)事件的檢測模型更具準確性。Zhu 等[12]提出了一種改進的術語頻率逆文檔頻率(TF-IDF,term frequency inverse document frequency)算法,稱為TA TF-IDF,用于根據(jù)時間分布信息和用戶注意來查找熱門術語,從而實現(xiàn)對新聞中熱點話題的檢測。但是,由于微博文本含有大量的口語單詞、網(wǎng)絡短語、廣告、鏈接和其他垃圾郵件信息,在對數(shù)據(jù)信息進行聚類分析和計算詞語相關突發(fā)特征時,引入過多無用信息會對其造成噪聲干擾。另外,對微博文本進行聚類分析時,需要對一些參數(shù)閾值進行調試以達到最好的實驗效果,但一般都是以研究的相關經(jīng)驗設定參數(shù)閾值,并且閾值選擇的質量會直接影響聚類的結果,從而對檢測的準確性產(chǎn)生影響。

      2) 以突發(fā)特征為中心。這類方法首先獲取與突發(fā)事件相關的微博內容特征,然后對得到的突發(fā)事件相關特征進行聚類分析,最后根據(jù)聚類算法的結果獲取突發(fā)事件的相關信息。張魯民等[13]在微博上建立了一個情緒符號模型,以確定一般情況下網(wǎng)民的情緒可以控制事件傳播的程度,緊急情況的發(fā)生導致相關事件的信息量迅速上升,網(wǎng)民的情緒也隨著評論起伏不定。因此,對微博的原始文本和評論內容進行情感分析可以顯著提高緊急事件檢測的準確性,但只考慮網(wǎng)民的情緒變化還不夠全面。仲兆滿等[14]考慮到地域突發(fā)特征,構建了基于網(wǎng)絡地域的突發(fā)事件檢測方法,但是該方法檢測不到?jīng)]有地域突發(fā)特征的內容。Kalden[15]引入網(wǎng)頁排名的方法,對用戶影響力的比值進行計算,并提取了突發(fā)詞特征來發(fā)現(xiàn)突發(fā)事件。該方法引入了用戶影響力因素,但是一些僵尸用戶以及“水軍”也被引入,增加了噪聲信息。Zou 等[16]提出了一種結合情感和主題標簽的模型,以在線檢測微博流的中文突發(fā)事件,但在沒有任何標簽的情況下,這種方法將失敗。張仰森等[17]提出了基于最小代價函數(shù)的目標檢測與跟蹤融合算法對突發(fā)事件進行檢測,以降低檢測的錯誤率。該算法能夠自適應地調整跟蹤參數(shù)的大小,并在丟失目標后重新捕獲目標,它可以同時滿足多個事件的檢測跟蹤。Zhang 等[18]提出了一種基于突發(fā)項值計算和偽突發(fā)項識別的突發(fā)主題檢測(BTDF,bursty term detection and filtration)方法,通過使用術語的基本權重和突發(fā)權重來提取突發(fā)項,并通過分析術語的新穎性來過濾偽突發(fā)項,但沒有對無效突發(fā)項進行過濾。

      3) 以用戶行為特征為中心。對用戶在社交網(wǎng)絡的行為數(shù)據(jù)進行分析,在突發(fā)事件檢測系統(tǒng)輸入用戶行為數(shù)據(jù),判斷系統(tǒng)檢測的結果是否與現(xiàn)實事件基本相同。Gupta 等[19]對10 350 條獨特的推特信息進行了特征分析,以了解偽造圖像傳播的時間、社會聲譽和影響模式,并利用用戶行為特征和文本特征構建分類器進行研究,結果顯示,在10 215 位用戶中,排名前30 位的用戶(0.3%)導致了90%的偽造圖像轉發(fā)。Wang 等[20]研究用戶轉發(fā)行為,提出了一種基于多層個人信息(MII,multi-layered individual information)和動態(tài)時間序列(DTS,dynamic time series)算法的用于謠言事件檢測的新型兩層門控循環(huán)單元(GRU,gated recurrent unit)模型,稱為MII-DTS-GRU。在新浪微博數(shù)據(jù)集上的實驗結果表明,MII-DTS-GRU 模型達到了96.3%的高精度。趙海林[21]提出了一種基于用戶行為特征的監(jiān)督式機器學習事件確定方法,利用從推文文本和元數(shù)據(jù)中提取的統(tǒng)計特征,并在突發(fā)序列中將推文簇的特征對應于緊急情況確定,以實現(xiàn)分類器。但是有許多用戶行為與國家安全無關,這將延遲緊急情況的判斷時間。介飛等[22]針對網(wǎng)絡媒體的突發(fā)問題隱式事件,根據(jù)檢測到的事件來分析突發(fā)社會行為特征,引入關鍵詞功能,動態(tài)調整每個候選關鍵詞的時間窗。不同事件具有不同的關鍵詞功能綁定,避免了事件之間的干擾,準確地識別了隱性突發(fā)事件,但對于單詞中的巨大語義變化并不適用。

      為了解決這些問題,本文提出了一種結合詞語相關特征和多歸屬譜聚類算法檢測突發(fā)事件。首先,按時間順序對爬取的微博數(shù)據(jù)進行分段,利用連續(xù)時間劃分數(shù)據(jù)切片,計算每個時間片段的數(shù)據(jù)信息的各詞語的詞頻特征、用戶影響力和詞頻增長率特征,運用突發(fā)度計算方法來提取突發(fā)詞。然后,利用特征相似性對提取突發(fā)詞進行矩陣構建,轉化為詞語關系圖。最后,運用多歸屬譜聚類算法對單詞關系圖進行最優(yōu)劃分,并在時間窗滑過時關注異常詞語,通過子圖中詞語突發(fā)度的變化而引起的結構變化對突發(fā)事件進行判斷。基于突發(fā)事件的檢測模型流程如圖1 所示。

      圖1 基于突發(fā)事件的檢測模型流程

      3 基于突發(fā)詞相關突發(fā)特征提取模型

      3.1 文本預處理

      在進行事件檢測之前對文本進行預處理能夠使檢測的結果更加準確。文本預處理首先進行噪聲過濾,采用NLPIR(natural language processing and information retrieval)分詞系統(tǒng)過濾掉無用文本,包括去除不含事件三要素[23-24]的博文、粉絲數(shù)在某一閾值以下的用戶,以及文本中包含的圖片網(wǎng)址鏈接、表情符號等。其次使用BosonNLP 情感詞典[25-26]過濾掉含情感的詞語,如式(1)所示。最后對文本進行規(guī)范。

      其中,Se(n)為詞語的情感度,positive_word(ωi)為積極正面的情感詞語數(shù)量,negative_word(ωj)為消極負面的情感詞語數(shù)量。

      3.2 突發(fā)詞特征的分析與表示

      1) 詞頻增長率特征

      在一個時間窗口內,詞頻特征在單詞頻率特性中考慮了高頻單詞,但沒有考慮單詞頻率的變化趨勢。如果某個事件剛剛發(fā)生,突發(fā)的單詞只在Ti時間窗口涌動,就不能通過單詞頻率以及引入的增長率來重新提取突發(fā)正確的單詞,以識別意外單詞。本文綜合一些研究方法,計算詞語在某段時間Tm的頻率與之前的平均歷史頻率A m?1(ω)之和。

      其中,f m(ω)表示詞ω在時間窗Tm下的詞頻。根據(jù)式(2),對多個連續(xù)時間段的詞語計算平均增長率,能夠顯示出單詞頻率的波動趨勢。

      2) 用戶影響力

      一般來說,擁有眾多粉絲的用戶發(fā)布的微博會更具影響力,相應地這些用戶討論的事件有很大的潛力能成為突發(fā)事件,這會使計算出的突發(fā)度不夠準確,少數(shù)高影響力的用戶會成為主導因素,一些普通用戶的影響力會被大幅度減弱。綜上所述,本文采用歸一化的方法計算用戶的影響力,定義用戶H=(Rep,Com,Fan,Type,Update),如式(3)所示。

      其中,Rep 和Com 分別表示用戶一個月之內轉發(fā)和評論微博數(shù)量;Fan 表示用戶的粉絲數(shù)量;Type 表示用戶的類型,不同的類型權重不同,官方認證的微博權重為1,“大V”即粉絲數(shù)量多的微博權重為 0.7,普通用戶的微博權重為0.5;Update 表示用戶一個月之內的更博數(shù),最小值不能為零。

      在社交網(wǎng)絡上,用戶的粉絲數(shù)量越多,影響力越大,如明星所發(fā)布的微博在幾分鐘內就有可能被幾十萬人看到。因此,影響力越高的用戶對事件傳播速度的貢獻越大,其中出現(xiàn)詞語描述突發(fā)事件的可能性也越高。

      3) 詞權重的計算

      在突發(fā)事件中,與事件有關的微博會呈井噴式爆發(fā),突發(fā)詞會頻繁地出現(xiàn)在同一事件的不同文本中[26]。在微博短文本中,傳統(tǒng)TF-IDF 方法難以衡量關鍵詞與普通詞語的差異性,因此采用文獻[27]中的文檔頻率?倒文檔頻率(DF-IDF,document frequency-inverted document frequency)詞權重算法。對于網(wǎng)絡熱議的話題,單詞的DF 會上升;若發(fā)生突發(fā)事件,單詞的IDF 會呈指數(shù)形式上升。該算法彌補了TF-IDF 方法的缺點,能準確地計算詞權重。

      式(4)為單詞j第t天的詞權重,與傳統(tǒng)TF-IDF不同,本文IDF 只限于近期微博(不超過一個月),為第t?τ?t天內單詞j的平均DF,其表示第t天包含單詞j的博文。由于一般社會事件的關注度都會隨著時間而降低,不會超過兩周,因此單詞的時間段τ被設置為14。

      3.3 突發(fā)度計算方法

      為了能更好地得到一個突發(fā)詞,綜合用戶影響力和突發(fā)詞的重要性,突發(fā)度的計算式為

      其中,wordj,t是單詞j在時間窗t內的突發(fā)度;是包含單詞j的一條微博的發(fā)布者pn的影響力;Pj,t是在時間窗t內包含單詞j的所有微博;N是時間窗的總數(shù)。突發(fā)度值高的被提取為突發(fā)詞。

      4 突發(fā)事件檢測

      4.1 詞語關系圖構建

      為迅速獲取每日事件的信息,需要選取用于構建關系圖的突發(fā)詞集合,利用突發(fā)詞集合構建詞語關系圖。根據(jù)上述突發(fā)詞的提取方法,按突發(fā)度的高低排序,選擇突發(fā)度高的n個詞語,過濾了含大量與事件無關的詞語。

      假設從文本流中連續(xù)獲取邊緣序列,詞關系圖是無向的,定義為

      其中,V是從文本流中提取的詞語集合,E是在文本滑動窗口中與詞語相對應的邊緣集合。具體來說,V中一個節(jié)點上具有相同含義的多個實體或動詞。由于圖形隨著時間的變化,G中節(jié)點之間的邊緣權重將發(fā)生顯著變化。邊緣節(jié)點gi在時間ts邊緣權重定義為R=(gi,ts)。

      給定2 個詞語矩陣ωi和ωj,通過余弦距離定義它們之間的語義相似性為

      其中,vω是從word2vec 模型計算出的單詞的單位向量。

      歸一化將具有表達式的維數(shù)轉換為無量綱的表達式后,ω將成為標量,可將計算量簡化。歸一化交叉相似度Dcc(ωi,ωj)定義如式(8)所示,其中表示單詞ωi的矩陣形式。

      通過式(8)計算,得到詞語關系圖的相似矩陣,且維度為n(單詞ωi和ωj的相似度),相似度高的即為同義詞。然后使用word2vec 模型將多個同義詞合并到一個節(jié)點中。對于每個詞語,遍歷詞語關系圖上的每個節(jié)點,如果相似度超過閾值則將該詞語與存在的節(jié)點進行比較,并按字典順序用前一個短語表示。

      對于微博文本中多個詞語同時出現(xiàn),本文通過最大化而非累積來更新該詞語的權重。遍歷所有文本后,通過將權重加在一起來合并它們。熱門話題的影響會隨著時間的流逝而逐漸消失,因此單詞共現(xiàn)度在很長一段時間內都不會穩(wěn)定下來。為了模擬時間效應,引入衰減因子λ來調節(jié)單詞共現(xiàn)度隨時間衰減的速率。

      其中,f(ωi,ωj)表示單詞ωi和ωj在某時間段內微博文本中同時出現(xiàn)的次數(shù),f(ωi)表示詞語ωi和ωj在時間窗內出現(xiàn)的總次數(shù)。共現(xiàn)度顯示了單詞共同出現(xiàn)的頻率,數(shù)值越高,描述同一事件的概率越大。

      4.2 基于多歸屬譜聚類的圖劃分算法(MASCA,multi-attribute spectral clustering algorithm)

      譜聚類算法從數(shù)據(jù)的親和力矩陣(即相似性矩陣)得出拉普拉斯矩陣的特征向量,并將數(shù)據(jù)轉換為新的維度,然后可以使用其他最小化失真度量的算法對其進行圖劃分。在這種情況下,親和矩陣證明了數(shù)據(jù)點之間的成對相似性,并用于克服由于數(shù)據(jù)分布缺乏凸度而帶來的困難。具體而言,與K 均值不同,譜聚類不會在數(shù)據(jù)上施加超球形聚類,并且在大多數(shù)情況下,甚至在數(shù)據(jù)點不對應于凸區(qū)域時,也可以獲得令人滿意的聚類結果。多歸屬譜聚類的圖劃分流程如圖2 所示。

      圖2 多歸屬譜聚類的圖劃分流程

      1) 目標函數(shù)建立

      為了對單詞關系圖進行最優(yōu)劃分,本文首先運用子圖歸屬度向量表示詞語對劃分子圖的歸屬程度,使子圖內部的單詞盡量相似,定義為

      其中,ui,r表示單詞ωi對第r個子圖的歸屬程度,0≤ui,r≤1,L表示詞語的數(shù)量。每個子圖包含一個事件的突發(fā)詞,而一個突發(fā)詞能對應多個事件,即對應多個子圖,則不同子圖會包含同一個單詞。

      NJW 方法[28]使用歸一化相似度矩陣作為圖拉普拉斯矩陣,并通過考慮對應于最大特征值的特征向量,基于歸一化割準則優(yōu)化分區(qū)建立目標函數(shù)P如式(11)所示。式(11)的目標是同時考慮最小化cut邊和劃分平衡,即優(yōu)化不同子圖的歸屬度向量ur,以免cut 出一個單獨的詞語。W是詞語關系圖頂點之間的相似度矩陣,D是相應的度矩陣。

      目標函數(shù)P的最小化可轉化為拉普拉斯矩陣特征值的最大化,使用U表示所有子圖的歸屬度矩陣,其定義為

      2) 歸屬度矩陣近似優(yōu)化

      向量矩陣Ue按數(shù)學方法進行旋轉變換,在不改變向量大小的情況下轉換向量原有的方向,保持原矩陣的特性。轉換之后得到單詞的最優(yōu)歸屬度矩陣Uopt,即Uopt=U eR,其中R為旋轉矩陣,屬于單位正交矩陣。由于在連續(xù)域空間中優(yōu)化Uopt無法得到最優(yōu)結果,屬于NP 難問題,因此本文運用近似方法在離散域中對其優(yōu)化以期得到最好的結果,近似矩陣

      近似方法通過衡量近似矩陣Ua與最優(yōu)歸屬度矩陣Uopt的誤差進行優(yōu)化,即在約束條件下如何使誤差最小的問題。Ua與Uopt通過弗羅貝尼烏斯范數(shù)(Frobenius norm)進行表示,即

      其中,(Π,Ω,Ξ)是矩陣的奇異值分解矩陣,矩陣Π和Ξ均是正交矩陣。使用迭代的方法進行求解,具體算法偽代碼如算法1 所示。

      算法1優(yōu)化歸屬矩陣

      輸入n,m,U

      輸出Uopt

      3) 聚類個數(shù)自適應方法

      譜聚類劃分將微博文本數(shù)據(jù)聚類轉換為單詞關系圖的多向劃分問題,解決圖劃分的關鍵是找到準確的聚類個數(shù)。當確定了聚類的個數(shù)時,能夠優(yōu)化通過近似方法求出的近似矩陣值,并進一步精確該值。在本文中,為了使算法更適用于突發(fā)事件檢測的實時應用場景,最優(yōu)聚類個數(shù)由特征值的下降程度決定,由于下降程度無法精確,因此是近似估計。

      算法2 給出了確定聚類個數(shù)的偽代碼。使用該方法計算最優(yōu)聚類個數(shù)的線性時間復雜度為O(L),可以及時地檢測出實時事件。運用歸屬度矩陣優(yōu)化的方法劃分單詞關系圖,由算法得出的最優(yōu)聚類個數(shù)是多少,則劃分子圖的個數(shù)就是多少。

      算法2使用特征值向量優(yōu)化聚類個數(shù)

      4) 突發(fā)事件識別

      子圖劃分之后,每個子圖包含若干個突發(fā)詞,這些突發(fā)詞組成一個事件,即每個子圖代表一個事件的集合。判斷事件是否為突發(fā)事件由對應的單詞關系圖結構是否發(fā)生變化決定,即突發(fā)事件發(fā)生時,短時間內會出現(xiàn)與該事件有關的大量微博文本,而這些文本中會包含高突發(fā)度的詞語,并出現(xiàn)在構建關系圖的單詞集合中。此時,發(fā)生變化的詞語會顯示突發(fā)性,構成新的單詞關系圖。因此,在關系圖中單詞突發(fā)度發(fā)生改變代表突發(fā)事件產(chǎn)生,偽代碼如算法3 所示。

      算法3判定突發(fā)事件

      算法4 說明了突發(fā)事件與文本聚類簇的映射關系,比較了事件關鍵詞集合和聚類簇的關系,通過循環(huán),找出與事件關鍵詞集合相似度最大的文本聚類簇,即為突發(fā)事件的具體信息。

      算法4將子圖結果映射到文本聚類簇

      輸入subgraph,cluster

      輸出eventcluster

      5 實驗結果與分析

      本文使用的數(shù)據(jù)集來自新浪微博,通過模擬微博登錄來爬取微博數(shù)據(jù),采集了2019 年11 月1 日至11 月30 日的微博數(shù)據(jù),這些數(shù)據(jù)沒有進行事件標注。由于微博不僅包含官方新聞事件,也包含娛樂新聞事件[29-31],因此本文以官方新聞熱議事件作為微博事件的參考。對于所有數(shù)據(jù)集,本文使用3.1 節(jié)方法進行文本預處理。所有實驗均在具有8 GB 內存并在Windows 8 上運行的4.00 GHz Intel CPU 上進行。本文實現(xiàn)了該算法,以獲取準確的突發(fā)事件并驗證檢測是否成功。

      5.1 突發(fā)詞提取

      鑒于微博數(shù)據(jù)中存在的大量噪聲,本文對數(shù)據(jù)進行噪聲過濾以及情感過濾,經(jīng)處理后的微博存儲結構如表1 所示。

      表1 處理后的微博存儲結構

      為了測試突發(fā)詞提取模型的效果,從數(shù)據(jù)庫中抽取2019 年11 月20 日到2019 年11 月30 日的數(shù)據(jù)。首先分析時間窗口參數(shù)對突發(fā)事件檢測結果的影響,如圖3(a)所示;然后分析提取突發(fā)詞數(shù)量的多少是否會影響實驗結果,如圖3(b)所示。

      如圖3(a)所示,當時間窗口長度過小時,事件的準確率和召回率較小,IDF 僅在短期內被平均化,使關鍵詞提取模型受到干擾,并且容易獲取到大量毫無關聯(lián)的關鍵詞。當時間窗口長度在2~14 時,準確率和召回率都呈逐漸上升趨勢,無關聯(lián)的關鍵詞被剔除,對檢測效果產(chǎn)生正面影響。當時間窗口長度繼續(xù)增加,準確率繼續(xù)上升,召回率下降較快。為使準確率和召回率都在一個大的數(shù)值范圍上,時間窗口長度取14。由圖3(b)可知,關鍵詞數(shù)量較少,無法檢測到突發(fā)事件,因此召回率和準確率都比較低。當關鍵詞數(shù)量從2%增長到4.5%時,召回率和準確率都達到了頂峰,而當關鍵詞數(shù)量繼續(xù)增加時,太多的關鍵詞容易引起混亂,使檢測效果變差(準確率下降)。因此為了使檢測效果最好,使用整個數(shù)據(jù)集4.5%的詞語來提取突發(fā)詞。

      5.2 多歸屬譜聚類效果測試

      1) 單詞關系圖參數(shù)測試

      詞關系圖是進行譜聚類圖劃分的基礎,據(jù)此可分析基于圖聚類的事件檢測效果。圖4 分析了關系圖節(jié)點近鄰數(shù)的大小對突發(fā)事件檢測效果的影響。當節(jié)點近鄰數(shù)較小時,即突發(fā)詞之間的關系不足,極大地影響了事件的檢測效果。直到數(shù)量達到6 時,召回率和準確率都是最大值,事件檢測的性能才最好。

      圖3 不同突發(fā)詞提取參數(shù)對事件檢測的影響

      圖4 詞關系圖節(jié)點近鄰數(shù)對事件檢測性能的影響

      圖5 顯示了突發(fā)詞相似度閾值的變化對突發(fā)事件檢測性能的影響??梢园l(fā)現(xiàn),事件的準確率隨著相似度閾值的增大而上升,表明突發(fā)詞的相似度越高,越容易檢測到突發(fā)事件。但閾值太大,會過濾掉一些相似度較小的突發(fā)詞,導致事件的召回率較低??紤]到準確率和召回率的平衡,選擇兩者交點處的閾值,即1.2。

      根據(jù)上述結果調好參數(shù)之后,選取突發(fā)度較高的8 個單詞按順序構建單詞關系圖,8 個單詞的關系網(wǎng)絡如圖6 所示。實線表示2 個詞語之間相似度高(在0.7 以上),細虛線表示詞語之間相似度較低,粗虛線表示通過word2vec 模型連接的邊。

      圖5 相似度閾值對事件檢測性能的影響

      圖6 詞關系圖效果示意

      2) 多歸屬譜聚類效果測試

      利用2019 年11 月1 日至11 月30 日的微博數(shù)據(jù),根據(jù)提出的詞的突發(fā)度計算式得到了詞的突發(fā)度,突發(fā)關鍵詞的熱度頻率如圖7 所示,本文對11 月的突發(fā)事件進行分析。在圖7中,這些關鍵詞的趨勢是相同的。同樣,與不同事件相關的相同關鍵詞也具有此特征,如圖8所示。事件4 與突發(fā)詞1、2、3 相關,事件2與突發(fā)詞1、4 相關。這2 個圖揭示了關于不同事件的關鍵詞彼此之間具有某些語義相關性,并且相互影響。

      最終選取突發(fā)度排名前70 的突發(fā)詞構建詞關系圖,得到58 個詞語組成的關系圖。再利用MASCA(multi-attribute spectral clustering algorithm)對關系圖進行劃分,并且給出了圖劃分的最優(yōu)個數(shù)為7。

      5.3 突發(fā)事件檢測

      表2 顯示了突發(fā)事件檢測算法中事件相似度閾值參數(shù)μ的各項指標,它能衡量檢測突發(fā)事件的難易程度,參數(shù)值越高,檢測到的突發(fā)事件數(shù)量就越多。為了選擇最佳的參數(shù)值,當μ為0.5、0.6、0.7、0.8、0.9 時,計算相對應的指標大小,并對其進行比較。

      圖7 突發(fā)關鍵詞的熱度頻率

      圖8 突發(fā)事件的熱度頻率

      表2 閾值參數(shù)對實驗結果的影響

      Precision、Recall 和F1 在不同相似度閾值參數(shù)μ下的變化趨勢如圖9 所示。Precision 隨著μ的增加而逐漸下降,0.7~0.9 下降幅度較大;與之相反,μ越大,Recall 也隨著增大,0.8~0.9 基本保持不變;而F1 的變化趨勢是先增大然后減小,在μ=0.7 時,F(xiàn)1 值最大,此時突發(fā)事件檢測算法達到最優(yōu)的效果,與之對應的Precision、Recall 分別為82.57%、87.95%。因此在檢測突發(fā)事件時,事件相似度閾值參數(shù)μ取0.7。

      圖9 突發(fā)事件檢測效果

      在國內微博突發(fā)事件檢測中,尚沒有識別手動標記的語料庫[32-35]。因此,結合使用Search Billboard中的微博和微博數(shù)據(jù)本身,可以手動注釋30 天的緊急情況,包括32 個事件。近一個月內社交網(wǎng)絡上熱議最多的7 個突發(fā)事件在表3 顯示,包含了事件的基本信息,即事件編號、與事件相符的子圖詞語數(shù)量、單詞重合率。

      表3 部分突發(fā)事件檢測結果

      與單詞重合率代表子圖中包含了多少突發(fā)事件的關鍵詞不同,子圖單詞重合率是衡量子圖與事件是否相符的指標。該值越大,子圖與事件的相符程度越高,包含事件關鍵詞的數(shù)量就越多。從突發(fā)事件檢測的Recall 值來看,子圖單詞都能描述對應事件的發(fā)展經(jīng)過,同時子圖單詞重合率平均值為0.892 9,表明本文提出的算法能準確地劃分單詞關系圖,并且被劃分的子圖內單詞集合能對事件進行簡單的表達。

      由事件檢測結果知,本文提出的突發(fā)事件檢測算法能準確地識別突發(fā)事件,并且通過不同時刻單詞關系圖的變化反映事件在不同時間的演變趨勢,說明本文提出的突發(fā)事件檢測方法檢測事件更全面。

      5.4 評價指標

      本節(jié)將本文與其他文獻的方法進行對比,使用標準指標Precision、Recall 和F1 評估量化模型的有效性,計算式為

      其中,Bcorrect 為系統(tǒng)中識別正確的突發(fā)事件個數(shù),Bnumber 為數(shù)據(jù)集中事件的總數(shù)量,Boutout 為數(shù)據(jù)集手動標注的突發(fā)事件個數(shù)。

      1) 指標對比

      文獻[29]提到的基于詞共現(xiàn)圖的方法將微博數(shù)據(jù)進行預處理,根據(jù)主題詞間的共現(xiàn)度構建詞共現(xiàn)圖,把詞共現(xiàn)圖中每個不連通的簇集看成一個新聞話題進行突發(fā)事件檢測,當共現(xiàn)度閾值為0.6 時F1 值最高,達到0.661 5,Precision 是0.645 4,Recall 是0.77。文獻[20]通過博文的轉發(fā)關系、跟隨關系和轉發(fā)時間創(chuàng)建消息傳遞圖,然后從圖結構方面提取時間演化特征識別突發(fā)事件,當時間演化聚類距離閾值為0.8 時,F(xiàn)1 值最高,達到0.766 8,Precision 是0.736 4,Recall 是0.805 0。將其與本文方法的Precision、Recall、F1 值相比較,如圖10 所示。

      圖10 實驗結果對比

      由圖10 可知,本文方法在Precision、Recall與F1 值上都要優(yōu)于其他2 種方法,這是由于本文為了解決微博的時間特性專門設計了一種新型詞語突發(fā)度以及詞語矩陣相似度的計算方法,使提取的突發(fā)詞全面準確,能夠更好地對突發(fā)事件進行描述。并且本文采用的基于多歸屬譜聚類的圖劃分的事件檢測方法能夠使突發(fā)詞構建的共現(xiàn)圖包含較大較全的信息量,提高檢測的準確率。

      2) 事件檢測時延

      檢測時延是指事件發(fā)生到檢測到事件之間的時間間隔,它反映了算法的效率[36-38]。本文選擇30 個通過給定5 種方法成功檢測到的事件。圖11 顯示了突發(fā)事件檢測時延對比。在所有方法中,本文方法花費最少的時間進行事件檢測。由于此數(shù)據(jù)集中每個事件的稀疏分布,因此所有方法比由預定義事件組成的其他數(shù)據(jù)集花費的時間更長,說明本文提出的突發(fā)事件檢測方法在較短的時間內能夠檢測到結果,能使相關人員及時采取措施進行控制。

      圖11 突發(fā)事件檢測時延對比

      值得注意的是,本文發(fā)現(xiàn)實驗中其他方法的召回率比MASCA 低得多,檢查了真實數(shù)據(jù)后發(fā)現(xiàn),關系圖中最早和最新的事件不一定彼此相似。但是其他方法將它們視為無關事件,因為它沒有達到閾值。本文方法獲得了由最相似事件之前已經(jīng)構造的舊關系圖,并將本文的候選事件放入其中,因此事件不需要足夠相似就可以放在一個圖中,這會增加召回率。

      6 結束語

      本文提出了一種結合詞相關性特征和MASCA算法的模型,用于檢測微博流的中文突發(fā)事件。在此模型中,引入了增量word2vec 以在檢測過程中合并同義詞,以詞語的基本特征為基礎,通過使用DF-IDF 和用戶影響力提取事件的突發(fā)詞,結合詞語關系圖和事件的相似性度量來進行圖劃分。當任務完成時,本文不僅可以檢測突發(fā)事件,還可以提取人們對突發(fā)事件的把握程度。實驗結果表明,本文方法具有很高的性能和有效性。為了提高性能,本文對檢測模型的相關參數(shù)進行調整,得到了最優(yōu)檢測性能,當μ=0.7 時,Precision、Recall 與F1 值都有良好的效果,本文方法在精度、召回率和時延方面均優(yōu)于其他對比方法。

      由于社交網(wǎng)絡不僅是文本信息,也有其他非結構數(shù)據(jù)。因此,在未來的工作中,會繼續(xù)對突發(fā)事件的檢測模型進行優(yōu)化,并加入更多的其他模態(tài)數(shù)據(jù),使檢測更加準確,并能使用多方面的信息對事件進行描述。

      猜你喜歡
      子圖突發(fā)事件聚類
      臨界完全圖Ramsey數(shù)
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于頻繁子圖挖掘的數(shù)據(jù)服務Mashup推薦
      突發(fā)事件的輿論引導
      清朝三起突發(fā)事件的處置
      文史春秋(2016年8期)2016-02-28 17:41:32
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      突發(fā)事件
      小說月刊(2014年10期)2014-04-23 08:53:40
      不含2K1+K2和C4作為導出子圖的圖的色數(shù)
      自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      乌恰县| 桦甸市| 邮箱| 屯昌县| 旌德县| 石门县| 乐至县| 进贤县| 辽宁省| 阜平县| 镇沅| 淮滨县| 滨州市| 杨浦区| 昌平区| 丹凤县| 大冶市| 安康市| 冕宁县| 左权县| 台湾省| 和政县| 辽中县| 滦平县| 石城县| 大宁县| 英吉沙县| 苍溪县| 太白县| 泰州市| 青冈县| 光泽县| 增城市| 碌曲县| 咸丰县| 吴旗县| 灌阳县| 台中市| 开原市| 安图县| 洪泽县|