• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      社交媒體事件檢測(cè)研究綜述

      2018-09-22 05:38:54王冰玉吳振宇沈蘇彬陳佳穎
      關(guān)鍵詞:文檔聚類社交

      王冰玉,吳振宇,沈蘇彬,陳佳穎

      (1.南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210000; 2.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210000)

      0 引 言

      互聯(lián)網(wǎng)的日益普及,產(chǎn)生了各種類型的數(shù)據(jù),包括文本數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù)等。這些數(shù)據(jù)中包含著許多隱含價(jià)值,事件檢測(cè)是在數(shù)據(jù)中挖掘隱含價(jià)值的研究方向之一,利用事件檢測(cè)技術(shù)向用戶推薦其可能感興趣的內(nèi)容[1]。隨著社交網(wǎng)絡(luò)的興起,人們通過(guò)社交網(wǎng)絡(luò)分享內(nèi)容、發(fā)表觀點(diǎn),使得社交網(wǎng)絡(luò)成為現(xiàn)實(shí)世界的映射。通過(guò)分析社交媒體數(shù)據(jù),例如Johnson N F[2]等探究了社交網(wǎng)絡(luò)中有關(guān)ISIS的個(gè)人、組織的一些行為與現(xiàn)實(shí)世界所發(fā)生的極端恐怖事件之間的聯(lián)系,幫助預(yù)測(cè)了現(xiàn)實(shí)世界中可能出現(xiàn)的恐怖襲擊事件。由此可見(jiàn),事件檢測(cè)與分析有助于預(yù)測(cè)事件及其發(fā)展趨勢(shì)。

      目前,事件檢測(cè)的研究中在以下兩個(gè)方面尚有不足:第一,對(duì)于事件的定義不夠明確;第二,針對(duì)不同的數(shù)據(jù)類型和實(shí)際場(chǎng)景有不同的事件檢測(cè)方法,沒(méi)有相關(guān)文獻(xiàn)對(duì)此進(jìn)行詳細(xì)總結(jié)和分析。

      對(duì)此,文中對(duì)事件進(jìn)行了定義,指出其與話題之間的聯(lián)系與區(qū)別,進(jìn)一步分析了各種事件檢測(cè)方法,并對(duì)未來(lái)的發(fā)展方向進(jìn)行了展望。

      1 事件的定義

      社交媒體中的事件一般是指現(xiàn)實(shí)世界中發(fā)生的較重要的事情[3],數(shù)據(jù)類型以文本為主。根據(jù)事件的組成要素,童薇等[4]認(rèn)為事件就是特定時(shí)間和地點(diǎn)發(fā)生的事情。根據(jù)事件是否發(fā)生過(guò),事件還可以分為新事件(new event detection,NED)和已有事件。黃穎等[5]將新事件檢測(cè)定義為:“檢測(cè)時(shí)序新聞流中對(duì)某一話題的首次報(bào)道,即識(shí)別新話題。”

      目前大部分的研究都沒(méi)有對(duì)話題和事件做明確的區(qū)分,大量文章中“話題”的概念與“事件”的概念是可以互相轉(zhuǎn)換的,但也有觀點(diǎn)認(rèn)為事件與話題不是同一個(gè)概念,話題的覆蓋面更廣[6]。還有文章認(rèn)為事件發(fā)展過(guò)程中涉及話題角度不同,一個(gè)事件可能包含了許多話題[7]。

      鑒于目前事件的劃分方法過(guò)多,并且在事件,話題與報(bào)道的概念上分割不夠清晰,因此,文中將事件(event),報(bào)道(story)和話題(topic)的概念進(jìn)行嚴(yán)格區(qū)分,并對(duì)它們之間的關(guān)系作詳細(xì)闡述。一般來(lái)說(shuō),事件由時(shí)間,地點(diǎn),人物或組織以及行為四大要素組成。而報(bào)道是針對(duì)某一事件的報(bào)道,是對(duì)事件的一種描述方式。不同媒體關(guān)于同一事件的報(bào)道方式和報(bào)道內(nèi)容可以不盡相同,但是它們都是圍繞同一個(gè)事件進(jìn)行的,都必定包含但不局限于事件的某些客觀信息,如事件的時(shí)間,地點(diǎn),行為主體以及動(dòng)作等。話題的定義可以細(xì)分,文中將話題分為單事件話題、系列事件話題、類似事件話題三類。其中單事件話題是針對(duì)某一具體事件展開(kāi)的,包括事件本身和人們對(duì)該事件的相關(guān)討論以及事件的發(fā)酵和演變,多數(shù)情況下單事件話題等同于事件。系列事件話題是針對(duì)一系列相關(guān)事件所構(gòu)成的事件鏈,例如奧運(yùn)會(huì)的各項(xiàng)賽事,都是圍繞著奧運(yùn)會(huì)這一話題中心展開(kāi)的系列事件。而類似事件話題則由無(wú)直接關(guān)系的類似事件構(gòu)成。

      2 文本預(yù)處理技術(shù)

      事件檢測(cè)工作主要分為兩步:文本預(yù)處理和事件檢測(cè)。文本預(yù)處理主要涉及計(jì)算詞元權(quán)重,以及文本相似度計(jì)算等工作。在中文文本處理時(shí)還會(huì)涉及到中文分詞,中文分詞是自然語(yǔ)言處理研究領(lǐng)域內(nèi)僅針對(duì)中文文本的較為獨(dú)立的分支,文中僅介紹詞元權(quán)重計(jì)算和文本相似度計(jì)算。

      2.1 詞元權(quán)重

      在處理文本時(shí),常常要將其量化,表示成向量空間模型(vector space model,VSM),即用詞元權(quán)重等數(shù)值構(gòu)成向量空間模型的每一個(gè)分量。現(xiàn)在使用比較多的方法是利用詞頻_反文檔頻率(term frequency_inverse document frequency,TF_IDF)[8]提取較為重要的詞元,該值的大小反映了詞元的重要程度以及詞元對(duì)文檔的區(qū)分能力。TF_IDF的計(jì)算公式為:

      wd=fw,d*log(|D|/fw,D)

      (1)

      即wd=TF*IDF。

      其中,fw,d為詞w在文檔d中出現(xiàn)的頻率;|D|為語(yǔ)料庫(kù)的大小,即語(yǔ)料庫(kù)中所包含的文檔數(shù)目;fw,D為語(yǔ)料庫(kù)中出現(xiàn)詞語(yǔ)w的文檔數(shù)目。

      一篇文章中出現(xiàn)頻繁的詞往往能夠代表其所要闡述的內(nèi)容,然而詞語(yǔ)所涉及的文檔數(shù)目越多,說(shuō)明詞語(yǔ)能夠代表某一類文檔的能力越弱,無(wú)法作為區(qū)分文檔的關(guān)鍵詞使用。

      許多文獻(xiàn)對(duì)TF_IDF模型進(jìn)行了改進(jìn),張闊等使用增量TF_IDF模型[9],薛曉飛等則根據(jù)詞元特征對(duì)詞元權(quán)重計(jì)算作了改進(jìn)[10],當(dāng)詞元為人名、地名、時(shí)間等就增加該詞元的權(quán)重。劉煒等引入本體[11]的概念,將文章中的每個(gè)句子中的詞語(yǔ)按照‘時(shí)間’、‘地點(diǎn)’、‘實(shí)體’、‘活動(dòng)’四個(gè)語(yǔ)義類進(jìn)行歸類,按照類別計(jì)算每個(gè)詞元的重要度。

      然而TF_IDF算法計(jì)算詞元權(quán)重并不適用于所有情況,例如對(duì)突發(fā)事件的檢測(cè)。突發(fā)詞通常會(huì)在某一段時(shí)間內(nèi)大量出現(xiàn)在很多文檔中,對(duì)應(yīng)著相應(yīng)的突發(fā)事件,TF_IDF計(jì)算方法會(huì)使得突發(fā)詞存在被忽略的風(fēng)險(xiǎn)。對(duì)于這個(gè)問(wèn)題,王勇等[12]使用了詞頻_比例文檔頻率(term frequency_proportional document frequency,TF_PDF)替代了TF_IDF,用來(lái)計(jì)算突發(fā)詞的權(quán)重,以彌補(bǔ)TF_IDF在突發(fā)詞處理上的弊端。

      2.2 文本相似度

      相似度計(jì)算方法中最常用的是余弦相似度和Jaccard相似度,定義分別如下[13]:

      (2)

      (3)

      在實(shí)際應(yīng)用中,周剛等[14]融合了余弦相似度、雅各比相似度和語(yǔ)義相似度對(duì)相似度進(jìn)行綜合衡量。薛曉飛等[10]綜合考慮文檔內(nèi)容、地點(diǎn)、時(shí)間對(duì)文檔相似度進(jìn)行重定義。以上這些相似度的計(jì)算固然合理,但是實(shí)現(xiàn)卻十分耗時(shí)。針對(duì)這樣的問(wèn)題,Kaleel S B等[15]利用局部敏感哈希(locality sensitive hashing,LSH)對(duì)表示文檔的集合進(jìn)行局部哈希映射,從而大大減少了計(jì)算量。

      3 事件檢測(cè)方法

      根據(jù)文本數(shù)據(jù)類型將檢測(cè)方法分為兩類:純文本數(shù)據(jù)事件檢測(cè)方法和社交數(shù)據(jù)事件檢測(cè)方法。其中純文本數(shù)據(jù)事件檢測(cè)方法分為在線事件檢測(cè)和離線事件檢測(cè);社交數(shù)據(jù)事件檢測(cè)方法從社交數(shù)據(jù)用戶特征角度出發(fā),分為利用用戶重要度、利用用戶評(píng)論轉(zhuǎn)發(fā)行為和根據(jù)用戶情感狀態(tài)三類。

      3.1 純文本數(shù)據(jù)事件檢測(cè)方法

      3.1.1 在線事件檢測(cè)

      在線事件檢測(cè)方法包含基于單次掃描(Single_Pass)和基于突發(fā)項(xiàng)等實(shí)現(xiàn)機(jī)制。Single_Pass關(guān)注于文檔內(nèi)容本身,基于突發(fā)項(xiàng)更加關(guān)注于若干個(gè)突然爆發(fā)的詞項(xiàng)。

      (1)基于Single_Pass的方法。

      Allan J等[16]提出的Single_Pass算法是較為經(jīng)典的在線事件檢測(cè)算法,主要應(yīng)用于新事件檢測(cè)。該算法將新產(chǎn)生的新聞文檔與已有的文檔進(jìn)行對(duì)比,只要新文檔與過(guò)去文檔的相似度均小于某一閾值α,那么說(shuō)明這篇文檔所描述的是一個(gè)新的事件。該算法的原理如圖1所示。

      目前基本的在線新事件檢測(cè)(online new event detection,ONED)系統(tǒng)都是通過(guò)比較新有文檔與已有文檔的相似度來(lái)判斷一個(gè)報(bào)道是否是新事件的第一篇報(bào)道,現(xiàn)有的ONED系統(tǒng)的主要缺點(diǎn)在于,由于網(wǎng)絡(luò)數(shù)據(jù)量增長(zhǎng)的速度很快,需要耗費(fèi)大量的存儲(chǔ)資源,而且隨著新文檔的不斷涌入,內(nèi)存面臨著數(shù)據(jù)溢出的風(fēng)險(xiǎn)。針對(duì)現(xiàn)有系統(tǒng)的以上問(wèn)題,王穎穎等[17]提出了一個(gè)改進(jìn)的ONED系統(tǒng)架構(gòu),采用滑動(dòng)窗口機(jī)制提高檢測(cè)效率。

      (2)基于突發(fā)項(xiàng)的事件檢測(cè)。

      突發(fā)項(xiàng)[18]一般指的是突發(fā)詞。突發(fā)詞是指在某個(gè)時(shí)間窗內(nèi)被大量使用,且在之前的事件窗內(nèi)很少被使用的實(shí)詞[19]。也有基于情感符號(hào)的突發(fā)事件檢測(cè),張魯民等[20-21]認(rèn)為微博中情感符號(hào)的突發(fā)性代表事件的突發(fā)性?;谕话l(fā)項(xiàng)的方法與其他方法的區(qū)別在于,前者的核心在于檢測(cè)突發(fā)特征,而其他方法大多是以文本處理為核心。

      (a)新文檔與已有文檔分別計(jì)算相似度

      (b)判斷新文檔是否描述新事件

      張曉霞等[22]在檢測(cè)突發(fā)詞頻時(shí)將表征科學(xué)家科研績(jī)效的H指數(shù)引入進(jìn)來(lái),度量包含候選突發(fā)詞的文檔數(shù),將出現(xiàn)文檔數(shù)較多的詞選出作為最終用以識(shí)別突發(fā)事件的突發(fā)詞。針對(duì)大量瑣碎的突發(fā)項(xiàng)問(wèn)題,Weng J等[23]提出了一種基于小波信號(hào)集群的事件檢測(cè)方法(event detection with clustering of wavelet-based signals,EDCoW),為每個(gè)突發(fā)詞組都建立一種信號(hào)模型,這種信號(hào)可以通過(guò)小波分析快速計(jì)算,不需要占用很大的存儲(chǔ)空間。通過(guò)觀察這些信號(hào)的相關(guān)信號(hào)自動(dòng)關(guān)聯(lián)性,就可以將那些細(xì)碎的不重要的詞組過(guò)濾掉。

      基于突發(fā)詞的事件檢測(cè)與時(shí)間的關(guān)系十分緊密。描述同一個(gè)突發(fā)事件的文檔往往具有共時(shí)特性[24],因此時(shí)間要素是突發(fā)事件檢測(cè)的重要依據(jù)。Li X等[25]將時(shí)間相關(guān)信息融合到突發(fā)事件檢測(cè)模型中,充分利用了時(shí)間相關(guān)性來(lái)建模,從而進(jìn)行突發(fā)事件檢測(cè)。陳宏等[26]也考慮到了事件發(fā)生的時(shí)間特性,認(rèn)為事件的持續(xù)時(shí)間總是在一個(gè)持續(xù)的時(shí)間段內(nèi),為了避免時(shí)間間隔比較長(zhǎng)的相類似事件的報(bào)道文檔被歸為一類,在計(jì)算文檔相似性時(shí)文獻(xiàn)引入了時(shí)間衰減因子。謝思發(fā)等[27]是基于詞語(yǔ)的爆發(fā)度來(lái)預(yù)測(cè)熱點(diǎn)事件的,先檢測(cè)出單位時(shí)間內(nèi)的詞頻,計(jì)算每個(gè)詞語(yǔ)爆發(fā)度,組成詞語(yǔ)爆發(fā)度序列,然后使用時(shí)間序列聚類算法,利用Haar小波變換將高維時(shí)間序列進(jìn)行降維,以時(shí)間點(diǎn)作為參數(shù)對(duì)熱點(diǎn)詞進(jìn)行K-means聚類,不斷迭代后得到由熱點(diǎn)詞聚類所產(chǎn)生的熱點(diǎn)事件。

      實(shí)時(shí)數(shù)據(jù)中有一些突發(fā)項(xiàng)是周期性出現(xiàn)的,對(duì)于新事件檢測(cè)并無(wú)用處且造成干擾。針對(duì)周期性出現(xiàn)的突發(fā)項(xiàng),趙潔等[28]提出一種基于突發(fā)詞項(xiàng)頻域分析的突發(fā)事件檢測(cè)方法,將突發(fā)詞項(xiàng)轉(zhuǎn)換為時(shí)序信號(hào),然后利用信號(hào)處理中的頻域分析方法識(shí)別和過(guò)濾周期性出現(xiàn)的非突發(fā)高頻詞項(xiàng)。針對(duì)目前的博客輿情分析方法存在時(shí)間信息有歧義的虛假突發(fā)事件問(wèn)題,林達(dá)真等[29]提出一種基于時(shí)間扥不特征的博客突發(fā)事件檢測(cè)方法,通過(guò)波峰檢測(cè)和計(jì)算事件文檔與背景預(yù)料文檔之間、事件相關(guān)文檔和不相關(guān)文檔之間的事件分布差異來(lái)判斷該事件在時(shí)間特征上是否具有突發(fā)性和關(guān)聯(lián)性。

      3.1.2 離線事件檢測(cè)

      離線事件檢測(cè)主要是針對(duì)已有的數(shù)據(jù)分析檢測(cè)事件。離線事件檢測(cè)的主流方式是聚類。聚類的主要方法有層次聚類、利用關(guān)系圖的聚類、潛在狄利克雷分布聚類(latent Dirichlet allocation,LDA)[30]、詞聚類等。也有從語(yǔ)義角度出發(fā)進(jìn)行事件檢測(cè)。

      (1)層次聚類法。

      Yang等[31]提出的層次聚類(group average clustering,GAC)是一種自底向上構(gòu)造集群的聚類算法。GAC算法中的輸入量是收集到的文檔,而輸出則是一棵集群樹(shù)。集群的產(chǎn)生過(guò)程就是一棵自底向上的二叉樹(shù)的產(chǎn)生過(guò)程。其中的葉子節(jié)點(diǎn)表示初始集群,每個(gè)集群就是一個(gè)文檔。而中間層的每個(gè)節(jié)點(diǎn)所代表的集群都是下層中兩個(gè)相似度最高的節(jié)點(diǎn)所代表的集群的合并。默認(rèn)情況下,算法會(huì)不斷進(jìn)行集群點(diǎn)構(gòu)造,直到產(chǎn)生出根節(jié)點(diǎn)為止,這樣輸出的集群樹(shù)將囊括所有集群,并且輸入的每一個(gè)文檔都會(huì)有其對(duì)應(yīng)的集群。如果在算法中對(duì)集群的數(shù)目已經(jīng)進(jìn)行了預(yù)定義,那么在集群數(shù)目達(dá)到了預(yù)定義的值之后算法將立即結(jié)束。

      (2)關(guān)系圖聚類法。

      利用關(guān)系圖的聚類方法主要是將文檔之間的關(guān)系用圖的形式表示出來(lái),圖中的節(jié)點(diǎn)之間往往表示兩個(gè)頂點(diǎn)的某種聯(lián)系。Sayyadi H等[32]提出關(guān)鍵字圖(KeyGraph)的概念,即圖中的各個(gè)節(jié)點(diǎn)代表的是一個(gè)個(gè)關(guān)鍵字,節(jié)點(diǎn)之間的連線表示這些術(shù)語(yǔ)同時(shí)出現(xiàn)在同一個(gè)文檔中。如果出現(xiàn)包含了多個(gè)關(guān)鍵詞節(jié)點(diǎn)的集群,那么就說(shuō)明該集群隱含了某一特定事件通過(guò)計(jì)算節(jié)點(diǎn)之間連線的密集程度就可以得出檢測(cè)事件。該方法的不足之處在于節(jié)點(diǎn)之間的連線都是無(wú)權(quán)重的,不能夠反映關(guān)鍵詞同時(shí)出現(xiàn)的頻率大小。

      馮戈利[33]則是提取出每個(gè)文檔中的信息要素,根據(jù)這些信息要素構(gòu)建出共現(xiàn)詞網(wǎng)絡(luò)圖。在共現(xiàn)詞網(wǎng)絡(luò)圖中實(shí)施深度優(yōu)先檢索方案,檢測(cè)出圖中的定長(zhǎng)共現(xiàn)詞環(huán),通過(guò)查找環(huán)來(lái)檢測(cè)出事件。

      (3)LDA聚類法。

      LDA的基本思想為:每篇文檔的中心內(nèi)容都可以由若干個(gè)潛在的主題詞來(lái)概括,文檔中每個(gè)有意義的詞元都或多或少地與主題詞有著某種關(guān)聯(lián)性,LDA就是利用這種關(guān)聯(lián)性來(lái)識(shí)別出文檔所屬的主題詞的集合,根據(jù)這個(gè)集合檢測(cè)出報(bào)道所對(duì)應(yīng)的事件[5]。LDA模型分為文檔、主題、詞三層結(jié)構(gòu)。LDA模型與其他聚類算法的主要區(qū)別就在于LDA的聚類結(jié)果不是確定性的分類,而是基于概率的分類,也就是分類結(jié)果呈概率分布[34]。

      (4)LSH聚類法。

      Vinay Setty等[35]使用LSH聚類進(jìn)行事件挖掘。LSH[36-37]具有最小獨(dú)立排列,能有效處理高維度的數(shù)據(jù),結(jié)合使用可靠可擴(kuò)展的近似Jaccard距離計(jì)算文檔相似度,最終能夠找到最相近的若干新聞報(bào)道文檔。LSH聚類的優(yōu)勢(shì)除了能夠有效處理高維數(shù)大規(guī)模數(shù)據(jù)之外,還能識(shí)別出新聞事件的規(guī)模,與其他方法相比,采用的參數(shù)很少。通常LSH會(huì)與MinHash[38-39]或者SimHash[40]結(jié)合使用。

      (5)詞聚類法。

      詞聚類法[41]需要計(jì)算詞語(yǔ)之間的相似度。兩個(gè)詞語(yǔ)的相似度的計(jì)算方法是利用兩個(gè)詞語(yǔ)的互信息,也就是說(shuō),當(dāng)兩個(gè)詞語(yǔ)越趨于描述同一個(gè)事件時(shí),它們的上下文環(huán)境會(huì)越為相近,利用這點(diǎn)來(lái)計(jì)算兩個(gè)詞語(yǔ)間的相似度大小。而詞聚類的思想就是:自底向上,先將特征向量空間中的每一個(gè)詞語(yǔ)當(dāng)作一類,兩兩詞語(yǔ)之間計(jì)算相似度,選取相似度最高的兩個(gè)歸為一類。而類與類的合并,就要計(jì)算類與類之間的相似度,每次選取最大相似度的兩個(gè)類進(jìn)行合并,直到類集合中各元素間的最大相似度小于某一相似度閾值。

      (6)基于語(yǔ)義和其他特征的事件檢測(cè)法。

      基于語(yǔ)義特征的事件檢測(cè)方法[42]比較關(guān)注詞語(yǔ)或者句子的語(yǔ)義特征。如許旭陽(yáng)等[43]提出的基于句子的事件檢測(cè)方法,使用二元分類器,根據(jù)句子中是否包含主體,時(shí)間,地點(diǎn)等關(guān)鍵詞項(xiàng)將句子分為兩種:包含事件元素的實(shí)例和不包含事件元素的非實(shí)例,并由此進(jìn)一步進(jìn)行事件檢測(cè)。

      基于語(yǔ)義特征的事件檢測(cè)方法還會(huì)關(guān)注語(yǔ)義關(guān)聯(lián)性,如趙江江等[44]將事件觸發(fā)詞和與其相關(guān)聯(lián)的時(shí)間地點(diǎn)等關(guān)鍵詞組成結(jié)構(gòu)化的數(shù)據(jù),利用這種數(shù)據(jù)模型進(jìn)行事件檢測(cè)。張闊等[45]則提出了基于關(guān)鍵詞元委員會(huì)的事件檢測(cè)與關(guān)系發(fā)現(xiàn)方法,將新聞報(bào)道文檔用特征向量加時(shí)間標(biāo)簽的形式表示出來(lái),計(jì)算出事件對(duì)應(yīng)的詞元委員會(huì),再對(duì)每一個(gè)詞元委員會(huì)集合都建立一個(gè)核心新聞簇,將含有詞元量包含該詞元委員會(huì)中一半以上的詞元的文檔歸入到這個(gè)文檔簇中。

      3.2 社交數(shù)據(jù)事件檢測(cè)方法

      文中將社交網(wǎng)絡(luò)數(shù)據(jù)單獨(dú)分為一類,原因是其與傳統(tǒng)文本在內(nèi)容和形式上有極大不同。社交網(wǎng)絡(luò)數(shù)據(jù)是一種特殊的數(shù)據(jù)類型,典型例子有微博、Twitter、Facebook等數(shù)據(jù)。其特點(diǎn)是[46]內(nèi)容簡(jiǎn)短,口語(yǔ)化,情緒化,且含有用戶關(guān)注度,主題詞,評(píng)論轉(zhuǎn)發(fā)量等信息,另外還潛在包含了時(shí)序和社交關(guān)系等,因此應(yīng)當(dāng)根據(jù)社交網(wǎng)絡(luò)數(shù)據(jù)自身的特征進(jìn)行事件檢測(cè),將其從傳統(tǒng)的文本事件檢測(cè)中分離出來(lái)。社交數(shù)據(jù)的事件檢測(cè)方法一般會(huì)側(cè)重于利用社交數(shù)據(jù)的各種數(shù)據(jù)特征進(jìn)行事件檢測(cè),大部分方法都會(huì)結(jié)合用戶相關(guān)信息,因此本節(jié)從社交數(shù)據(jù)用戶特征角度出發(fā),分類介紹社交數(shù)據(jù)的事件檢測(cè)方法。

      3.2.1 利用用戶重要度進(jìn)行事件檢測(cè)

      李艷等提出了術(shù)語(yǔ)的營(yíng)養(yǎng)和術(shù)語(yǔ)的能量?jī)蓚€(gè)概念[47]。術(shù)語(yǔ)的營(yíng)養(yǎng)值的計(jì)算涵蓋了該術(shù)語(yǔ)的權(quán)重和用戶權(quán)威性兩個(gè)參數(shù),術(shù)語(yǔ)的能量則表示其在微博語(yǔ)料庫(kù)中的有效貢獻(xiàn)。最后根據(jù)術(shù)語(yǔ)的能量值對(duì)術(shù)語(yǔ)進(jìn)行排序、篩選,從而檢測(cè)出熱點(diǎn)事件。郭跇秀等則針對(duì)微博這種特殊的數(shù)據(jù)提出了用戶五元組[48]的概念。用戶五元組包括:用戶ID、用戶粉絲數(shù)、用戶微博數(shù)、是否為VIP用戶、用戶活躍度。根據(jù)用戶五元組對(duì)用戶影響力進(jìn)行量化后再進(jìn)行事件檢測(cè)。

      3.2.2 利用用戶評(píng)論轉(zhuǎn)發(fā)行為進(jìn)行事件檢測(cè)

      馮永等[49]認(rèn)為轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)對(duì)微博重要性是極為重要的度量。因此將傳統(tǒng)的TF_IDF方法計(jì)算權(quán)重改進(jìn)為基于轉(zhuǎn)發(fā)評(píng)論數(shù)的計(jì)算方式,轉(zhuǎn)發(fā)評(píng)論數(shù)越高,相應(yīng)的權(quán)值就越大。王勇等[12]則是針對(duì)微博這種特殊的數(shù)據(jù)提出了熱度的概念,簡(jiǎn)單來(lái)說(shuō)就是對(duì)一個(gè)事件被關(guān)注程度的量化。而單條微博的熱度需要使用微博的轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)來(lái)衡量。而周剛等[14]提出的MB-SinglePass(microblog-SinglePass)算法是傳統(tǒng)的Single_Pass在微博數(shù)據(jù)上的改進(jìn)方法。這種方法考慮了用戶之間的關(guān)系(轉(zhuǎn)發(fā)評(píng)論關(guān)系,關(guān)注關(guān)系),傳統(tǒng)的Single_Pass方法只通過(guò)相似度作為歸類或新建類的準(zhǔn)則,而MB-SinglePass則利用評(píng)論轉(zhuǎn)發(fā)關(guān)系將一些帖子直接歸到相應(yīng)類中,并根據(jù)發(fā)帖人與最大相似度類中發(fā)帖人是否為關(guān)注或好友關(guān)系來(lái)決定相似度小于閾值的情況下是否有必要?jiǎng)?chuàng)建一個(gè)新類。

      3.2.3 根據(jù)用戶情感狀態(tài)進(jìn)行事件檢測(cè)

      微博與傳統(tǒng)新聞文檔除了在數(shù)據(jù)形式上相差較大以外還在內(nèi)容上相差甚遠(yuǎn)。微博數(shù)據(jù)往往包含了用戶的個(gè)人情感色彩,因此也有人基于此提出了微博數(shù)據(jù)的處理方法。費(fèi)紹棟等[50]利用層次模型將話題聚類后,根據(jù)用戶對(duì)該話題的情感態(tài)度對(duì)話題進(jìn)行過(guò)濾,作者認(rèn)為用戶情感分為正面情緒和負(fù)面情緒兩類,如果大量用戶對(duì)某個(gè)話題都呈現(xiàn)負(fù)面情緒,那么說(shuō)明該話題有很大可能性是突發(fā)事件引發(fā)的話題。唐曉波等[34]還提出了一種話題情感強(qiáng)度的計(jì)算方法,根據(jù)這一值對(duì)話題的情感強(qiáng)度進(jìn)行時(shí)序回歸分析。該方法能夠有效挖掘話題發(fā)展過(guò)程中用戶情感的變化規(guī)律,并根據(jù)規(guī)律對(duì)話題的發(fā)展變化進(jìn)行持續(xù)的跟蹤和探測(cè)。

      最后,值得注意的是,傳統(tǒng)新聞媒體與社交網(wǎng)絡(luò)之間并不是相互獨(dú)立的。兩者之間有著相互作用和共生關(guān)系,即新聞報(bào)道為社交網(wǎng)絡(luò)提供話題資源,而社交網(wǎng)絡(luò)又為新聞媒體提供事件進(jìn)展[51]。Hua T等[52]利用新聞報(bào)道為社交網(wǎng)絡(luò)提供話題資源這一關(guān)系,將新聞標(biāo)簽轉(zhuǎn)移到Twitter上以產(chǎn)生初始標(biāo)簽,然后再利用Twitter的社交特性得到帶有擴(kuò)展性標(biāo)簽的Twitter數(shù)據(jù),利用帶標(biāo)簽數(shù)據(jù)進(jìn)行事件檢測(cè)。

      本節(jié)所涉及的幾種事件檢測(cè)類型的使用場(chǎng)景以及優(yōu)缺點(diǎn)如表1所示。

      表1 幾種典型事件檢測(cè)類型的適用場(chǎng)景及優(yōu)缺點(diǎn)

      4 結(jié)束語(yǔ)

      事件檢測(cè)是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要分支。通過(guò)對(duì)事件的檢測(cè)能夠從事件中挖掘出潛在的巨大價(jià)值,基于傳統(tǒng)的新聞報(bào)道文檔的事件檢測(cè)能夠從龐大的數(shù)據(jù)量中檢測(cè)出具體的事件以及其后續(xù)發(fā)展,而基于社交網(wǎng)絡(luò)數(shù)據(jù)的事件檢測(cè)能夠進(jìn)一步通過(guò)社交網(wǎng)絡(luò)數(shù)據(jù)用戶之間的關(guān)系以及用戶行為進(jìn)行事件檢測(cè)并分析預(yù)測(cè)事件未來(lái)發(fā)展?fàn)顩r,對(duì)傳統(tǒng)的新聞報(bào)道檢測(cè)方法有所改進(jìn)。在事件檢測(cè)這一研究領(lǐng)域,根據(jù)用戶的信息和行為來(lái)進(jìn)行事件檢測(cè)將是未來(lái)值得研究和探討的方向。

      猜你喜歡
      文檔聚類社交
      社交之城
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      有人一聲不吭向你扔了個(gè)文檔
      社交距離
      你回避社交,真不是因?yàn)閮?nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      基于DBSACN聚類算法的XML文檔聚類
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      基于改進(jìn)的遺傳算法的模糊聚類算法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      攀枝花市| 泰和县| 孟连| 边坝县| 墨脱县| 赞皇县| 晋宁县| 关岭| 双城市| 义乌市| 韩城市| 巴楚县| 牟定县| 乐清市| 浮山县| 江源县| 察雅县| 五常市| 中卫市| 新源县| 三明市| 皮山县| 兰溪市| 剑阁县| 同仁县| 句容市| 会东县| 高邑县| 左贡县| 顺平县| 安国市| 江西省| 曲周县| 敦煌市| 德惠市| 通道| 永年县| 团风县| 施秉县| 大港区| 堆龙德庆县|