• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      社交媒體話題檢測(cè)與追蹤技術(shù)研究綜述

      2019-08-05 06:49:42張仰森段宇翔黃改娟蔣玉茹
      中文信息學(xué)報(bào) 2019年7期
      關(guān)鍵詞:文檔聚類文本

      張仰森,段宇翔,黃改娟,蔣玉茹

      (1. 北京信息科技大學(xué) 智能信息處理研究所,北京 100192;2. 國(guó)家經(jīng)濟(jì)安全預(yù)警工程北京實(shí)驗(yàn)室,北京 100044)

      0 引言

      隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)信息呈現(xiàn)出爆炸性增長(zhǎng),越來(lái)越多的人將互聯(lián)網(wǎng)視為獲取信息的最佳平臺(tái)。如今,我們所處的不再是信息貧乏的時(shí)代,而是一個(gè)充斥著海量信息的新時(shí)代,所面臨的問(wèn)題也從如何獲取信息變成了如何在短時(shí)間內(nèi)獲取有價(jià)值的信息。關(guān)鍵詞檢索是目前從海量信息中獲取有用信息的主要途徑,但通過(guò)關(guān)鍵詞檢索得到的信息,其冗余度往往較高,同時(shí)有用信息也常常丟失。因此,人們迫切希望有一種方法可以自動(dòng)處理大量信息并挖掘相關(guān)的話題,對(duì)話題相關(guān)信息進(jìn)行有效的組織,以便于人們查詢。話題檢測(cè)與追蹤(topic detection and tracking,TDT)技術(shù)就是在這種需求下應(yīng)運(yùn)而生的,它可以幫助普通網(wǎng)民從海量信息中篩選感興趣的話題信息,也可以幫助相關(guān)部門(mén)對(duì)輿情進(jìn)行監(jiān)控。通過(guò)話題檢測(cè)技術(shù)發(fā)現(xiàn)熱點(diǎn)話題,使用話題追蹤技術(shù)對(duì)檢測(cè)到的熱門(mén)話題進(jìn)行后續(xù)追蹤,這樣就可以有效地組織起一個(gè)與某話題有關(guān)的信息集合,進(jìn)而可以探索事件中各種信息之間的關(guān)系。

      本文第1節(jié)介紹了話題檢測(cè)與追蹤的發(fā)展歷程;第2節(jié)介紹話題檢測(cè)技術(shù)相關(guān)成果與方法;第3節(jié)介紹話題追蹤技術(shù),從非自適應(yīng)話題追蹤和自適應(yīng)話題追蹤兩個(gè)方面進(jìn)行介紹;第4節(jié)列舉了話題檢測(cè)與追蹤技術(shù)中存在的難題,并對(duì)該領(lǐng)域的發(fā)展前景進(jìn)行展望。

      1 話題檢測(cè)追蹤研究概況

      1.1 話題檢測(cè)與追蹤的研究歷程

      1996年,美國(guó)國(guó)防高級(jí)研究計(jì)劃署迫切地需要一種可以實(shí)現(xiàn)新聞數(shù)據(jù)流主題判斷的全自動(dòng)化技術(shù),于是就產(chǎn)生了話題檢測(cè)與追蹤技術(shù)的概念。話題檢測(cè)與追蹤技術(shù)的發(fā)展可大致分為三個(gè)階段,如表1所示。

      表1 話題檢測(cè)與追蹤技術(shù)發(fā)展歷程

      1.2 話題檢測(cè)與追蹤的研究要素

      話題檢測(cè)與跟蹤技術(shù)中的“話題”與一般的信息技術(shù)中涉及的“話題”不同,它表示一個(gè)相對(duì)具體的“事件”,而不是某一個(gè)“領(lǐng)域”。例如,韓美軍演、福島核電站泄露等。下面將介紹話題檢測(cè)與追蹤研究中的四個(gè)研究要素,以便更好地理解本文的研究?jī)?nèi)容。

      (1) 話題: 通常是指一個(gè)由若干個(gè)相關(guān)子事件或活動(dòng)組合而成的事件集合。一個(gè)話題往往經(jīng)歷事件的產(chǎn)生、發(fā)展、演化、消亡四個(gè)階段。例如,尋找森林大火的幸存者、進(jìn)行災(zāi)后重建等,都可以視為與某次自然災(zāi)害相關(guān)的話題。

      (2) 事件: 通常是指發(fā)生在特定時(shí)間、特定地點(diǎn),具備時(shí)間、地點(diǎn)、對(duì)象三要素的事情[1]。例如,2001年7月13日,在俄羅斯首都莫斯科,國(guó)際奧委會(huì)主席薩馬蘭奇宣布北京成為2008年奧運(yùn)會(huì)主辦城市。

      (3) 主題: 主題的定義相對(duì)寬泛,可以簡(jiǎn)單理解為多個(gè)相關(guān)話題的抽象描述,但并不涉及任何實(shí)際事件。例如,“自然災(zāi)害”就是一個(gè)主題,“奧運(yùn)會(huì)”也是一個(gè)主題。

      (4) 報(bào)道: 報(bào)道是指與話題事件相關(guān),包含多個(gè)描述語(yǔ)句的新聞片段。例如,據(jù)中央氣象臺(tái)消息,10日白天起,持續(xù)多日的南部強(qiáng)降雨天氣范圍繼續(xù)擴(kuò)大,強(qiáng)度顯著增強(qiáng),中央氣象臺(tái)1月10日18時(shí)發(fā)布暴雨紅色預(yù)警。

      在檢測(cè)追蹤技術(shù)的文獻(xiàn)調(diào)研中,本文主要針對(duì)話題和事件這兩個(gè)要素展開(kāi)。從話題的相關(guān)定義可以看出,如果一個(gè)目標(biāo)事件與某個(gè)話題內(nèi)的事件有聯(lián)系,那么可以認(rèn)為該事件在該話題的范圍內(nèi),事件也可以看作話題的一種低粒度的展現(xiàn)。

      目前,主要有兩種類型的話題,一種是以新聞報(bào)道為主體的傳統(tǒng)媒體話題,另一種是以微博、Twitter為代表的社交媒體話題。其中,社交媒體話題建立在Web 2.0之上,它與傳統(tǒng)媒體話題的區(qū)別主要體現(xiàn)在以下三點(diǎn): ①以新聞報(bào)道為主體的傳統(tǒng)媒體在傳播信息時(shí)由編輯對(duì)信息進(jìn)行細(xì)致的人工處理,話題中心清楚、明確,而社交媒體中的大部分內(nèi)容是由每一個(gè)用戶自由創(chuàng)造和編輯的,話題中心遠(yuǎn)沒(méi)有傳統(tǒng)媒體那么清晰; ②社交媒體比傳統(tǒng)媒體包含更多的信息,以微博為例,其不僅有轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊等信息,還有標(biāo)簽、影響力、地理定位等諸多非文本信息; ③社交媒體較傳統(tǒng)媒體而言,口語(yǔ)化傾向更加明顯,規(guī)范性較差。上面所列舉的三個(gè)顯著區(qū)別導(dǎo)致了社交媒體話題的檢測(cè)與追蹤難度比傳統(tǒng)媒體更高。

      1.3 話題檢測(cè)與追蹤任務(wù)

      美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所為T(mén)DT研究設(shè)定了五項(xiàng)基本任務(wù),包括: 報(bào)道切分任務(wù)、話題跟蹤任務(wù)、話題檢測(cè)任務(wù)、首次報(bào)道檢測(cè)任務(wù)、關(guān)聯(lián)檢測(cè)任務(wù)。

      1.3.1 報(bào)道切分任務(wù)

      報(bào)道切分任務(wù)(story segmentation task,SST)要求將原始報(bào)道分割成具有完整結(jié)構(gòu)和統(tǒng)一主題的報(bào)道。如果有一條包括不同類型信息的報(bào)道,報(bào)道切分系統(tǒng)需要對(duì)報(bào)道進(jìn)行識(shí)別并按照要求切分。SST最初針對(duì)的是新聞廣播報(bào)道,其切分方式包括以下兩種: 一、直接切分音頻信號(hào);二、將音頻信號(hào)轉(zhuǎn)為文本信息后進(jìn)行切分。報(bào)道切分過(guò)程如圖1所示。

      圖1 報(bào)道切分過(guò)程

      1.3.2 話題跟蹤任務(wù)

      話題跟蹤任務(wù)(topic tracking task,TT)是對(duì)已知的話題報(bào)道進(jìn)行后續(xù)跟蹤。由于已知的話題沒(méi)有明確、詳細(xì)的描述,描述信息主要是給定的若干篇相關(guān)報(bào)道。美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院為每一個(gè)待測(cè)話題提供1~4篇相關(guān)的報(bào)道,同時(shí)提供了相應(yīng)的訓(xùn)練語(yǔ)料來(lái)訓(xùn)練跟蹤系統(tǒng)和更新話題模型。話題跟蹤任務(wù)通過(guò)計(jì)算后續(xù)數(shù)據(jù)流中每一篇報(bào)道與話題模型的匹配程度來(lái)判斷新數(shù)據(jù)是否屬于該話題,從而實(shí)現(xiàn)跟蹤功能。

      1.3.3 話題檢測(cè)任務(wù)

      話題檢測(cè)任務(wù)(topic detection task,TD)主要是檢測(cè)系統(tǒng)中未知的話題。TD任務(wù)在構(gòu)建話題系統(tǒng)時(shí)的先驗(yàn)信息非常少,因此,TD系統(tǒng)必須在不清楚話題信息的情況下完成檢測(cè)模型的構(gòu)建。同時(shí),構(gòu)建的檢測(cè)模型不能僅針對(duì)一個(gè)特殊的話題,而是應(yīng)可以檢測(cè)所有的話題。通過(guò)檢測(cè)模型對(duì)后續(xù)數(shù)據(jù)流的檢測(cè)和識(shí)別,找出數(shù)據(jù)庫(kù)中沒(méi)有出現(xiàn)的話題并生成“新話題”[2]。話題檢測(cè)過(guò)程如圖2所示。

      圖2 話題檢測(cè)過(guò)程

      1.3.4 首次報(bào)道檢測(cè)任務(wù)

      首次報(bào)道檢測(cè)任務(wù)(first-story detection task,F(xiàn)SD)是要在時(shí)序報(bào)道流中檢測(cè)出各種話題的第一篇報(bào)道。總的來(lái)講,F(xiàn)SD與TD有相似之處,但是FSD的結(jié)果是某話題的第一篇報(bào)道,而TD的結(jié)果是關(guān)于某一話題的一系列報(bào)道,可以說(shuō),F(xiàn)SD是話題檢測(cè)系統(tǒng)的基礎(chǔ)和前提。

      1.3.5 關(guān)聯(lián)檢測(cè)任務(wù)

      關(guān)聯(lián)檢測(cè)任務(wù)(link detection task,LDT)是判斷兩篇報(bào)道是否屬于同一個(gè)話題。與TD相同,LDT也沒(méi)有先驗(yàn)信息輔助判斷。所以,LDT系統(tǒng)必須能夠自己分析報(bào)道所描述的話題,并通過(guò)對(duì)比話題模型來(lái)判定兩篇報(bào)道的話題相關(guān)性。

      2 話題檢測(cè)技術(shù)

      2.1 基于主題模型的話題檢測(cè)

      話題檢測(cè)首先是在離線的靜態(tài)文本中提出的,而靜態(tài)文本的話題檢測(cè)一般都是基于LDA(latent Dirichlet allocation)主題模型或者改進(jìn)的LDA主題模型。LDA主題模型將一篇文檔理解成由若干隱含主題組合而成,而隱含主題通過(guò)文檔中一些特定詞語(yǔ)來(lái)體現(xiàn)[3]。一般情況下,隱含主題被視為詞的一種概率分布,單個(gè)文檔可以由多個(gè)隱含主題按照一定比例來(lái)構(gòu)成。本節(jié)將介紹三個(gè)典型的改進(jìn)LDA主題模型,分別是有監(jiān)督潛在狄利克雷模型(supervised LDA,sLDA)、標(biāo)簽潛在狄利克雷模型(labeled LDA,L-LDA)、在線潛在狄利克雷模型(online LDA,OLDA)。有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)最主要的區(qū)別在于,有監(jiān)督學(xué)習(xí)不僅將訓(xùn)練數(shù)據(jù)傳給計(jì)算機(jī),還將帶標(biāo)簽的數(shù)據(jù)傳給計(jì)算機(jī)。在話題檢測(cè)與追蹤領(lǐng)域,有監(jiān)督LDA模型的效果要明顯優(yōu)于無(wú)監(jiān)督LDA模型,故僅介紹有監(jiān)督LDA模型。sLDA[4]是一個(gè)可以添加額外屬性的話題檢測(cè)模型,與普通的LDA模型的區(qū)別是,sLDA含有一個(gè)甚至多個(gè)文本標(biāo)簽,可以通過(guò)文本標(biāo)簽對(duì)建模過(guò)程進(jìn)行監(jiān)督。Zhang等[5]使用經(jīng)整理過(guò)濾后的北弗吉尼亞州和紐約市2016年300萬(wàn)條的Twitter正文和評(píng)論數(shù)據(jù),進(jìn)行交通事故的話題發(fā)現(xiàn)。在進(jìn)行sLDA主題建模時(shí),添加了上述兩個(gè)地區(qū)的高速公路事故記錄和15 000個(gè)環(huán)路探測(cè)器的交通數(shù)據(jù)。實(shí)驗(yàn)結(jié)果證明,66%以上的事故可以通過(guò)事故日志找到,80%以上的事故能夠從探測(cè)器中的交通數(shù)據(jù)找到,其檢測(cè)準(zhǔn)確率比LDA和SVM更高。既然sLDA需要通過(guò)標(biāo)簽的建立來(lái)實(shí)現(xiàn)話題檢測(cè),那么如何尋找最合適的標(biāo)簽便成為了最大的問(wèn)題。于是,Ramage等[6]在2009年提出了L-LDA模型,這是一個(gè)基于多標(biāo)簽文本的主題模型,通過(guò)將標(biāo)簽直接映射到主題的方法以實(shí)現(xiàn)文檔的多標(biāo)簽決策。但是,L-LDA模型沒(méi)有考慮到人為設(shè)置的文檔類別標(biāo)簽和通過(guò)主題模型提取出來(lái)的標(biāo)簽之間的差異性,從而導(dǎo)致模型與文檔數(shù)據(jù)無(wú)法充分?jǐn)M合,泛化能力較差。例如,LDA模型在進(jìn)行話題提取時(shí),經(jīng)常會(huì)生成我們無(wú)法理解的內(nèi)容,如果簡(jiǎn)單地把生成的內(nèi)容與文檔進(jìn)行匹配關(guān)聯(lián),就會(huì)導(dǎo)致檢測(cè)準(zhǔn)確率的下降。周先琳[7]對(duì)新浪微博短文本進(jìn)行預(yù)處理后,使用改進(jìn)后的VSM特征選擇方法對(duì)文本特征進(jìn)行選擇,并構(gòu)建動(dòng)態(tài)L-LDA模型。基于4萬(wàn)多條預(yù)處理后的新浪微博文本進(jìn)行實(shí)驗(yàn),可以發(fā)現(xiàn),動(dòng)態(tài)L-LDA模型與LDA模型相比,前者在微博動(dòng)態(tài)文本主題挖掘方面有明顯的優(yōu)勢(shì)。同樣的,為了解決L-LDA模型無(wú)法充分?jǐn)M合和泛化性能較差的問(wèn)題,江雨燕等[8]提出了一種可用于文檔多標(biāo)簽判定的改進(jìn)L-LDA模型,該模型定義了類別標(biāo)記在獨(dú)享主題、共享主題之間的映射關(guān)系,這樣的映射關(guān)系可以更加真實(shí)地反映文檔的生成過(guò)程?;谛吕宋⒉?shù)據(jù)的實(shí)驗(yàn)表明,該模型可以有效地解決類別標(biāo)記在共享主題和獨(dú)享主題中分析困難的問(wèn)題。

      前面介紹的幾種模型都是在靜態(tài)數(shù)據(jù)下進(jìn)行實(shí)驗(yàn)的,但在真實(shí)情況下,數(shù)據(jù)通常不是靜態(tài)的,而是以在線文本數(shù)據(jù)流的形式存在,所以,將時(shí)間屬性引入LDA模型后就構(gòu)建了OLDA模型。該模型為了保證主題的延續(xù)性,將范圍廣泛的主題進(jìn)行一定的縮小,對(duì)即將消失的話題在時(shí)間粒度上做出延續(xù),減輕了主題演化過(guò)程中的偏差問(wèn)題。余本功等[9]提出了一種改進(jìn)的雙通道OLDA模型,該模型一方面改進(jìn)了文檔中主題分布與詞分布之間的遺傳度,另一方面改進(jìn)了詞概率的計(jì)算方法,有效解決了因?yàn)樾?、舊主題混合和冗余詞較多而導(dǎo)致的新興主題檢測(cè)困難的問(wèn)題。

      2.2 基于改進(jìn)聚類算法的話題檢測(cè)

      當(dāng)前,適用于文本領(lǐng)域的聚類算法主要有四種,分別是: 基于劃分的聚類算法、基于增量式的聚類算法、基于層次的聚類算法和基于圖模型的聚類算法。因?yàn)榛趧澐值木垲愃惴ㄔ谠掝}檢測(cè)與追蹤任務(wù)中的效率較低,所以本文僅對(duì)后面三種聚類算法進(jìn)行介紹。

      2.2.1 基于增量式的聚類

      增量式聚類算法是一種高效的處理文本數(shù)據(jù)流的算法,其中Single-Pass算法較為簡(jiǎn)單且應(yīng)用最廣。Single-Pass算法是處理流式數(shù)據(jù)的經(jīng)典算法,對(duì)于輸入的流式數(shù)據(jù),按照輸入順序依次將每一條數(shù)據(jù)與已有類別進(jìn)行匹配,若匹配成功則將該條數(shù)據(jù)歸入該類別,若匹配失敗則創(chuàng)建一個(gè)新類別來(lái)存放該數(shù)據(jù),這樣就實(shí)現(xiàn)了流式數(shù)據(jù)的聚類。結(jié)合微博文本和微博評(píng)論信息都是逐步增量產(chǎn)生的特點(diǎn),下面將對(duì)Single-Pass算法在話題檢測(cè)中的應(yīng)用進(jìn)行介紹。

      由于Single-Pass聚類算法是隨機(jī)選取聚類中心的,所以其聚類效率較低,針對(duì)這一缺點(diǎn),李倩[10]提出了一種改進(jìn)的Single-Pass聚類算法。在聚類中心的選擇上,設(shè)置鄰域半徑和最小密度閾值,并根據(jù)文檔處于鄰域半徑內(nèi)的文檔數(shù)目與最小密度閾值的大小關(guān)系來(lái)確定初始聚類中心。在相似度的比較上,不是簡(jiǎn)單地將新文檔與類中所有的文檔進(jìn)行比較,而是與主題相似程度最高的文檔進(jìn)行比較,如果其相似度小于設(shè)定的相似度閾值,則不需要再與其他文檔進(jìn)行比較,極大地提升了檢測(cè)效率。葉施仁等[11]提出了一種結(jié)合孤立點(diǎn)預(yù)處理和Single-Pass聚類的中文微博熱點(diǎn)話題檢測(cè)模型。該模型主要有三部分工作: ①優(yōu)化微博文本的特征選擇策略; ②提出了微博文本閾值的概念,將主題分散的文本視為噪聲并進(jìn)行過(guò)濾; ③引入主題詞的概念,而主題詞是根據(jù)中心向量的特征權(quán)重確定的。因?yàn)樵撃P图訌?qiáng)了對(duì)孤立點(diǎn)的處理,同時(shí)優(yōu)化了中心向量的特征選擇和相關(guān)權(quán)重的設(shè)置,所以過(guò)濾掉了大量的噪聲數(shù)據(jù),使主題聚類更加準(zhǔn)確。不同于葉施仁采用的設(shè)置文本閾值來(lái)進(jìn)行噪聲過(guò)濾的方法,周雪梅等[12]在進(jìn)行微博話題檢測(cè)時(shí)引入了文本重構(gòu)的思想,在文本中定義了主題塊和細(xì)節(jié)塊兩個(gè)模塊,主題塊包括文本的標(biāo)題和首段信息,細(xì)節(jié)塊包括文本的其余部分和文后的評(píng)論信息。因?yàn)闃?biāo)題和首段信息往往是文本的總結(jié)歸納,最具有區(qū)分性,所以用主題塊劃分出不同的主話題,而主話題下的小話題則是利用細(xì)節(jié)塊劃分。實(shí)驗(yàn)語(yǔ)料來(lái)自2015年5月的新浪微博的社會(huì)新聞模塊,通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析得知,當(dāng)主話題閾值為0.28,子話題閾值在0.28到0.58之間時(shí),子話題區(qū)分效果基本可以與人工效果媲美。

      2.2.2 基于層次的聚類

      k-means算法是一種簡(jiǎn)單好用的劃分聚類算法,但是算法中k值的選擇和初始聚類中心點(diǎn)的選擇是k-means算法的重點(diǎn)和難點(diǎn)。不同于k-means聚類算法,層次聚類是對(duì)樣本逐層聚類,直到滿足聚類要求,避免了參數(shù)設(shè)置和聚類中心點(diǎn)選取的難題。

      Peixian Chen等[13]在進(jìn)行Twitter研究的過(guò)程中提出了一種稱為HLTA的分層主題檢測(cè)方法,這個(gè)方法使用分層潛在樹(shù)模型來(lái)模擬單詞共現(xiàn)。HLTA中的每個(gè)潛在變量都表示文檔的分區(qū),分區(qū)中的文檔集群即視為主題,而這個(gè)主題一定是在屬于該主題的文檔中以高概率出現(xiàn),而在不屬于該主題的文檔中以低概率出現(xiàn)。HLTA不同于基于LDA的分層主題檢測(cè)方法,雖然兩種方法都定義了文檔的概率分布,但它們使用不同類型的觀察變量和潛在變量。實(shí)驗(yàn)結(jié)果表明,HLTA在模型擬合和主題層次結(jié)構(gòu)質(zhì)量方面優(yōu)于基于LDA的方法。鑒于中文微博具有規(guī)模大、話題多、話題無(wú)關(guān)性強(qiáng)等特點(diǎn),Xiao Geng等[14]提出了一種三層混合聚類算法進(jìn)行話題檢測(cè)。第一層使用K-means算法,對(duì)微博文本進(jìn)行話題聚類。第二層應(yīng)用凝聚式層次聚類算法,將相同主題的文本結(jié)合成小型簇。前兩層已經(jīng)消除了大部分的干擾噪聲,第三層再次使用k-means算法,對(duì)原先分配給錯(cuò)誤簇的文本進(jìn)行重新聚類,實(shí)現(xiàn)對(duì)聚類結(jié)果的修正。

      2.2.3 基于圖模型的聚類

      基于圖模型的聚類與其說(shuō)是聚類算法,還不如說(shuō)是一種圖的向量表示?;谙蛄窟M(jìn)行表示之后,一般可以采用其他的聚類方法得到最后的聚類結(jié)果。所以基于圖模型的聚類既依賴于向量表示,也與之后采用的聚類算法有關(guān)。

      Dong等[15]針對(duì)Twitter上的突發(fā)話題,提出了一種面向突發(fā)話題的圖模型,該模型可以表示大量Twitter用戶對(duì)突發(fā)話題進(jìn)行傳播的拓?fù)浣Y(jié)構(gòu)。通過(guò)該模型可以從宏觀上分析突發(fā)事件的傳播模式,從微觀上挖掘突發(fā)事件的傳播特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,通過(guò)該方法可以有效地從突發(fā)事件中發(fā)現(xiàn)新興話題。不同于微博主體的長(zhǎng)文本,在線社交媒體用戶每天在評(píng)論區(qū)會(huì)產(chǎn)生大量的短文本評(píng)論信息,傳統(tǒng)的話題檢測(cè)對(duì)有限的包含大量信息的文檔有良好的效果,但是對(duì)海量的包含信息量低的小文本見(jiàn)效甚微。因此,Kambiz Ghoorchian等[16]提出了利用降維和聚類技術(shù)的話題檢測(cè)方法,首先將輸入的文檔集壓縮成一個(gè)密集的圖,并在圖中創(chuàng)建多個(gè)稠密的拓?fù)鋮^(qū)域,然后將圖分成若干個(gè)密集的子圖,每一個(gè)子圖代表一個(gè)主題。該方法與標(biāo)準(zhǔn)的LDA和BiTerm方法相比,不僅保持了更好的精度,而且執(zhí)行速度快一個(gè)數(shù)量級(jí)。

      傳統(tǒng)的主題檢測(cè)方法通過(guò)挖掘語(yǔ)義關(guān)系聚合成主題,但是這樣的方法忽略了文檔間的共現(xiàn)關(guān)系。為了解決這個(gè)問(wèn)題,Zhang等[17]提出了一種混合關(guān)系分析方法來(lái)整合語(yǔ)義關(guān)系和共現(xiàn)關(guān)系。具體而言,該方法將多個(gè)關(guān)系融合成語(yǔ)義圖,并使用圖分析方法從語(yǔ)義圖中檢測(cè)主題。通過(guò)梳理圖中的關(guān)系,不僅可以更有效地檢測(cè)話題,還可以利用潛在的共現(xiàn)關(guān)系挖掘潛在的重要信息。

      由于社交媒體產(chǎn)生的內(nèi)容大大超出了人工處理這些數(shù)據(jù)的能力,而已經(jīng)提出的各種自動(dòng)主題檢測(cè)方法,大部分都基于文檔聚類和突發(fā)檢測(cè),它們無(wú)法實(shí)現(xiàn)對(duì)噪聲文件的過(guò)濾,而對(duì)于噪聲文件的過(guò)濾又是話題檢測(cè)中的重點(diǎn)和難點(diǎn)。因此,Pablo Torres-Tramón等[18]提出了一種基于拓?fù)鋽?shù)據(jù)分析的主題檢測(cè)方法,它將歐幾里德特征空間轉(zhuǎn)換成一個(gè)拓?fù)淇臻g,在這個(gè)拓?fù)淇臻g中,被視為噪聲的不相關(guān)文檔的形狀很容易與局部相關(guān)的文檔區(qū)分開(kāi)來(lái)。根據(jù)點(diǎn)(即文檔)的連通性將該拓?fù)淇臻g組織在網(wǎng)絡(luò)中,并且根據(jù)連接組件的大小進(jìn)行二次過(guò)濾,以達(dá)到去除噪聲文件、實(shí)現(xiàn)話題檢測(cè)的目的。

      2.3 基于多特征融合的話題檢測(cè)

      基于多特征融合的話題檢測(cè)可以充分地利用多特征數(shù)據(jù),實(shí)現(xiàn)對(duì)話題的精確檢測(cè)。根據(jù)話題檢測(cè)的方法途徑,把多特征分為兩大類: 一類是基于文本的多特征,另一類是基于非文本的多特征。

      2.3.1 基于文本多特征融合的檢測(cè)方法

      基于社交媒體文本特征的方法是指利用微博、Twitter等新興社交媒體上的文本消息,根據(jù)事件隨時(shí)間的變化不斷對(duì)新出現(xiàn)的話題做出檢測(cè)。

      由于中文微博多數(shù)為短文本,甚至是超短文本,文本的稀疏性往往導(dǎo)致文本相似度的度量不準(zhǔn)確。黃賢英等[19]提出一種基于多維度的微博短文本相似度算法,該算法根據(jù)詞形相同和詞義相近來(lái)尋找微博短文本中的公共塊,構(gòu)建基于公共塊序列的語(yǔ)義相似度。利用微博短文本發(fā)布時(shí)間、轉(zhuǎn)發(fā)與評(píng)論等信息來(lái)修正該語(yǔ)義相似度,形成新的微博短文本相似度算法。最后,將新的微博短文本相似度算法結(jié)合Single-Pass聚類算法,最終實(shí)現(xiàn)對(duì)微博話題的檢測(cè)。

      金鎮(zhèn)晟[20]利用特征詞的時(shí)間屬性和增長(zhǎng)程度這對(duì)屬性,在傳統(tǒng)的TF-IDF基礎(chǔ)上提出一種改進(jìn)的特征提取算法,稱之為T(mén)F-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解決突發(fā)性熱點(diǎn)話題在聚類時(shí)特征不明顯的問(wèn)題。該算法結(jié)合動(dòng)能原理,將特征項(xiàng)的突發(fā)值用動(dòng)能的概念進(jìn)行描述,并加入權(quán)值計(jì)算中,提高了突發(fā)性特征項(xiàng)的權(quán)重,最后通過(guò)文本聚類實(shí)現(xiàn)了微博的話題檢測(cè)。該方法描述了文本和特征項(xiàng)所具有的動(dòng)態(tài)屬性,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地提高話題檢測(cè)的效果。劉志雄[21]針對(duì)微博話題的熱度、突發(fā)性以及時(shí)序特征,提出了一種時(shí)間窗口下的融合詞重要度的微博話題檢測(cè)方法。該方法首先根據(jù)時(shí)間屬性對(duì)微博文本進(jìn)行分塊處理,然后根據(jù)詞在時(shí)間塊里的熱度進(jìn)行排序,并選取熱度最大的n個(gè)詞作為主題詞候選詞。其次,以主題詞候選詞為基礎(chǔ)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),并利用社區(qū)劃分算法對(duì)該詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行主題劃分,最后對(duì)每個(gè)劃分社區(qū)內(nèi)的候選詞進(jìn)行重要度排序。利用新浪微博半個(gè)月內(nèi)的三個(gè)主題板塊數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,通過(guò)該檢測(cè)算法進(jìn)行社區(qū)話題發(fā)現(xiàn)有較高的召回率,但是在準(zhǔn)確率和漏檢率上并沒(méi)有突出的成績(jī)。

      2.3.2 基于非文本多特征融合的檢測(cè)方法

      基于社交媒體文本特征的檢測(cè)方法主要圍繞關(guān)鍵詞特征進(jìn)行,但是隨著非文本媒體的盛行,僅依靠關(guān)鍵詞特征已經(jīng)無(wú)法滿足當(dāng)前網(wǎng)絡(luò)環(huán)境下的話題檢測(cè),結(jié)合社交網(wǎng)絡(luò)中豐富的用戶數(shù)據(jù)(例如,用戶行為、好友關(guān)系、地理位置、視頻等)來(lái)進(jìn)行話題檢測(cè)就顯得尤為重要[22]。

      有些微博話題可能在全網(wǎng)范圍內(nèi)并不突出,但是在某一局部地區(qū)卻是一個(gè)熱點(diǎn)話題。針對(duì)這一情況,李正[23]提出利用地理位置信息進(jìn)行中文微博突發(fā)話題檢測(cè),一方面,根據(jù)微博空間環(huán)境現(xiàn)狀,增加適應(yīng)環(huán)境的文本過(guò)濾規(guī)則,盡可能地過(guò)濾冗余數(shù)據(jù);另一方面,將微博文本中出現(xiàn)的地點(diǎn)名詞與微博所攜帶的空間地理位置信息進(jìn)行匹配,并提出“親歷度”的概念,用此概念提高相應(yīng)微博分詞的基礎(chǔ)權(quán)重,以提高對(duì)應(yīng)用戶在該事件上的話語(yǔ)權(quán),從而達(dá)到更加精準(zhǔn)地獲取突發(fā)詞集的目的。

      傳統(tǒng)的話題檢測(cè)方法主要集中在單一媒體上,Zhang等[24]提出將互聯(lián)網(wǎng)視頻和新聞報(bào)道中豐富的多媒體信息進(jìn)行融合,實(shí)現(xiàn)跨媒體話題關(guān)鍵詞的提取。首先,利用視頻相關(guān)的文本信息和新聞標(biāo)題,找出粗加權(quán)密集關(guān)鍵詞組;然后,利用文本鏈接和可視化鏈接細(xì)化關(guān)鍵詞組并更新權(quán)重;最后,將文檔與細(xì)化的關(guān)鍵詞組重新關(guān)聯(lián)以形成與事件相關(guān)的文檔集。在包含網(wǎng)絡(luò)視頻和新聞圖片報(bào)道的跨媒體數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了良好的檢測(cè)效果。在以微博、Twitter為首的社交媒體中,也存在著大量的視頻和圖片信息,多媒體信息融合同樣可以在社交媒體領(lǐng)域得到應(yīng)用。

      隨著社交媒體功能的多樣化,越來(lái)越多的用戶行為信息和時(shí)間屬性被挖掘出來(lái)并用于話題檢測(cè)。萬(wàn)越等[25]結(jié)合微博數(shù)據(jù)的時(shí)序特征以及社交網(wǎng)絡(luò)用戶的行為特征,提出一種動(dòng)量信號(hào)增強(qiáng)模型來(lái)進(jìn)行微博突發(fā)話題檢測(cè)。該文首次提出用影響力因子來(lái)修正動(dòng)量模型的誤差。影響力因子是指當(dāng)前時(shí)間點(diǎn)前指定周期內(nèi)的數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)的變化的影響,其將作為修正詞頻序列的依據(jù)。通過(guò)對(duì)比用于檢測(cè)是否存在突發(fā)信號(hào)的MACD值指標(biāo)和提前設(shè)置好的突發(fā)性閾值,判斷目標(biāo)特征詞是否是突發(fā)特征詞。最后,通過(guò)k-means聚類算法將特征詞歸類合并,得到突發(fā)話題。賀敏等[26]針對(duì)微博數(shù)據(jù)稀疏、微博內(nèi)容間的關(guān)系難以準(zhǔn)確度量、微博內(nèi)容多而雜的特點(diǎn)[27],提出了基于特征驅(qū)動(dòng)的中文微博話題檢測(cè)方法。該檢測(cè)方法通過(guò)選取有意義的詞或者詞組來(lái)獲取微博特征,將微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)以及點(diǎn)贊量等文檔影響力和關(guān)注數(shù)、粉絲數(shù)等微博博主影響力組成特征影響力屬性組并進(jìn)行建模。最后,根據(jù)特征屬性劃分話題關(guān)鍵特征和噪聲特征,并將話題關(guān)鍵特征之間的互信息作為最鄰近聚類法的距離度量,通過(guò)關(guān)鍵特征的最鄰近聚類得到話題結(jié)果。根據(jù)新浪微博1 000個(gè)加V的活躍博主的78萬(wàn)余條微博消息進(jìn)行實(shí)驗(yàn),相比于傳統(tǒng)的k-means方法,該方法的檢測(cè)準(zhǔn)確率、召回率以及F1值都有將近20%的提升,故該方法有一定的應(yīng)用價(jià)值[28]。Fang等[28]從話題在時(shí)間和空間上局部分布的性質(zhì)入手,提出了一個(gè)基于多視圖聚類的新框架MVTD。該框架通過(guò)整合Twitter中的語(yǔ)義關(guān)系、社會(huì)標(biāo)簽關(guān)系和時(shí)間關(guān)系,提出了一種基于后綴樹(shù)的新文檔相似性度量方法和基于后綴樹(shù)的新關(guān)鍵詞提取方法。通過(guò)在真實(shí)Twitter數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)基于多視圖聚類的新框架MVTD的聚類性能遠(yuǎn)遠(yuǎn)優(yōu)于單一視圖,并且對(duì)于Twitter的話題檢測(cè)有良好的效果。

      3 話題追蹤技術(shù)

      話題追蹤的主要任務(wù)是,在已知目標(biāo)話題的基礎(chǔ)上對(duì)后續(xù)報(bào)道進(jìn)行持續(xù)追蹤。由于社交媒體的迅速普及,話題追蹤技術(shù)應(yīng)用到了微博、貼吧、論壇、博客等社交媒體平臺(tái)上。話題追蹤可以簡(jiǎn)單地分為兩個(gè)步驟: 第一步,訓(xùn)練并得到話題模型;第二步,根據(jù)得到的話題模型進(jìn)行判斷。該過(guò)程如圖3所示。

      圖3 話題追蹤基本流程

      本節(jié)將話題追蹤方法分為非自適應(yīng)話題追蹤和自適應(yīng)話題追蹤兩種,自適應(yīng)話題追蹤的優(yōu)越性在于無(wú)指導(dǎo)條件下的自適應(yīng)能力,而這種自適應(yīng)能力可以有效地解決“話題漂移”現(xiàn)象。

      3.1 非自適應(yīng)話題追蹤

      非自適應(yīng)話題追蹤有基于知識(shí)和基于統(tǒng)計(jì)兩種研究思路。基于知識(shí)的話題追蹤主要是分析報(bào)道內(nèi)容之間的相關(guān)關(guān)系,并利用與報(bào)道內(nèi)容相關(guān)的領(lǐng)域知識(shí)對(duì)報(bào)道進(jìn)行歸類追蹤?;诮y(tǒng)計(jì)的話題追蹤主要是利用統(tǒng)計(jì)學(xué)方法分析報(bào)道與話題模型之間的關(guān)聯(lián)程度。

      鑒于話題追蹤方法大多面向新聞、博客和微博等社交媒體,席耀一等[29]針對(duì)網(wǎng)絡(luò)論壇的結(jié)構(gòu)和內(nèi)容特點(diǎn),提出基于語(yǔ)義相似度的論壇話題追蹤方法。該方法提取百度貼吧、網(wǎng)易論壇、天涯社區(qū)等諸多平臺(tái)的帖子的關(guān)鍵詞,分別構(gòu)建出話題關(guān)鍵詞詞表和帖子關(guān)鍵詞詞表,并建立話題與帖子的文本表示模型。利用《知網(wǎng)》的語(yǔ)義框架計(jì)算帖子關(guān)鍵詞與話題關(guān)鍵詞的相似度,當(dāng)相似度高于設(shè)定的閾值時(shí)就可以判定該帖子為話題追蹤的目標(biāo)帖。實(shí)驗(yàn)證明,該方法的準(zhǔn)確率和F1值均高于傳統(tǒng)的基于向量空間模型的話題追蹤方法,可以廣泛應(yīng)用于論壇領(lǐng)域的話題追蹤。不同于前面提到的語(yǔ)義相似度分析,Chen等[30]提出一種基于語(yǔ)義相關(guān)度的微博文本主題跟蹤方法來(lái)解決微博文本的稀疏性問(wèn)題。該方法根據(jù)微博的結(jié)構(gòu)化信息,以及《知網(wǎng)》的語(yǔ)義關(guān)系網(wǎng)絡(luò),構(gòu)建了針對(duì)微博的語(yǔ)義關(guān)聯(lián)模型。根據(jù)該模型提取文本信息,并以關(guān)鍵詞列表的形式表現(xiàn)出來(lái),結(jié)合文本相似度的相關(guān)理論,綜合衡量文本與主題之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,該方法比向量空間法和單純基于文本相似度的方法能更好地降低錯(cuò)誤率,大大提升了話題追蹤的效果。唐曉波等[31]基于維基語(yǔ)義擴(kuò)展網(wǎng)絡(luò)構(gòu)建出一種微博話題追蹤模型,該模型旨在解決微博文本中的語(yǔ)義稀疏性問(wèn)題和話題漂移性問(wèn)題。首先,使用維基百科數(shù)據(jù)進(jìn)行知識(shí)庫(kù)的構(gòu)建;其次,利用該知識(shí)庫(kù)對(duì)目標(biāo)微博文本的特征向量進(jìn)行擴(kuò)展,經(jīng)過(guò)擴(kuò)展后的微博文本對(duì)事件的描述能力有了很大的提升;最后,通過(guò)支持向量機(jī)(support vector machine,SVM)進(jìn)行語(yǔ)義層面的話題追蹤。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的SVM方法和自適應(yīng)SVM方法相比,基于維基百科進(jìn)行語(yǔ)義擴(kuò)展后的SVM分類模型有效降低了分類器對(duì)初始話題數(shù)量的敏感性,同時(shí)減輕了話題漂移現(xiàn)象對(duì)微博話題追蹤產(chǎn)生的影響。

      基于統(tǒng)計(jì)策略的話題追蹤方法主要是根據(jù)話題模型與后續(xù)報(bào)道相關(guān)性進(jìn)行判斷,而基于分類策略的話題追蹤又是基于統(tǒng)計(jì)策略中最常用到的方法。卡內(nèi)基梅隆大學(xué)在話題追蹤任務(wù)中利用統(tǒng)計(jì)策略率先提出了兩種方法,分別是k—最近鄰(k-nearest neighbor,KNN)和決策樹(shù)(decision tree,D-Tree)。

      馬薩諸塞大學(xué)的Papka[32]采用KNN分類算法,將與當(dāng)前報(bào)道最相似的k個(gè)報(bào)道作為最鄰近報(bào)道,則待測(cè)報(bào)道所屬的話題就由這k個(gè)報(bào)道中出現(xiàn)頻率最高的話題來(lái)決定??突仿〈髮W(xué)的Carbonell等[33]采用D-Tree算法進(jìn)行話題追蹤,該算法通過(guò)訓(xùn)練語(yǔ)料來(lái)構(gòu)建決策樹(shù),決策樹(shù)中的每個(gè)中間節(jié)點(diǎn)代表一種決策屬性,節(jié)點(diǎn)向下的分支則代表一種決策,最終在葉節(jié)點(diǎn)得出所屬的話題。大量實(shí)驗(yàn)和論文表明,基于KNN算法的話題追蹤效果要優(yōu)于D-Tree算法,其原因在于KNN可以通過(guò)減少k值來(lái)保證追蹤的正確率,而D-Tree必須依賴多層樹(shù)結(jié)構(gòu)得出正確的追蹤策略,這樣很容易造成漏檢和誤檢。

      由于微博信息有變化速度過(guò)快、噪聲高、文本較短等缺點(diǎn),所以針對(duì)微博的新興話題追蹤的效率一直不高[34],Huang等[35]提出了一種新興的微博話題追蹤方法,它將新詞檢測(cè)與相關(guān)話題挖掘相結(jié)合。具體來(lái)說(shuō)就是通過(guò)一個(gè)基于局部線性的加權(quán)回歸算法來(lái)計(jì)算單詞的新穎性,同時(shí)抑制已有話題的單詞新穎性,最后利用單詞新穎性和衰落性來(lái)追蹤新興的話題。在超過(guò)100萬(wàn)條的微博評(píng)論數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法在檢測(cè)新興話題和追蹤現(xiàn)有話題上有著良好的性能。

      3.2 自適應(yīng)話題追蹤

      非自適應(yīng)話題追蹤是根據(jù)少量的話題報(bào)道來(lái)構(gòu)建話題模型,進(jìn)而實(shí)現(xiàn)話題追蹤?,F(xiàn)實(shí)生活與之非常類似,用戶對(duì)突發(fā)性話題的了解通常也非常少,而這也是經(jīng)過(guò)訓(xùn)練得到的話題模型不夠準(zhǔn)確的緣故。因此,研究一種擁有自我學(xué)習(xí)能力的自適應(yīng)話題追蹤系統(tǒng)(adaptive topic tracking,ATT)就顯得尤為重要。自適應(yīng)話題追蹤的核心思想是對(duì)話題模型進(jìn)行自學(xué)習(xí),不僅為話題嵌入新的特征,同時(shí)可以動(dòng)態(tài)調(diào)整特征權(quán)重。其優(yōu)點(diǎn)是可以減小因?yàn)橄闰?yàn)知識(shí)不足而導(dǎo)致的話題模型不完備的問(wèn)題,同時(shí)還可以通過(guò)自學(xué)習(xí)機(jī)制實(shí)現(xiàn)對(duì)話題的持續(xù)跟蹤。

      Khandelwal等[36]是最早進(jìn)行ATT研究的成員之一,他們根據(jù)話題報(bào)道構(gòu)造話題模型,將話題報(bào)道與構(gòu)造出來(lái)的話題模型之間的相關(guān)度的平均值作為閾值,當(dāng)有后續(xù)相關(guān)報(bào)道輸入時(shí),將其放入訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練并重新構(gòu)建話題模型和閾值。該自適應(yīng)話題追蹤方法有一個(gè)很大的缺陷: 對(duì)于系統(tǒng)反饋不進(jìn)行任何驗(yàn)證,即反饋信息中包含的相關(guān)和不相關(guān)報(bào)道都會(huì)放入訓(xùn)練語(yǔ)料重新訓(xùn)練,這會(huì)導(dǎo)致模型更新出現(xiàn)偏差,產(chǎn)生話題漂移現(xiàn)象。針對(duì)上述方法可能會(huì)造成話題漂移的問(wèn)題,美國(guó)BBN公司的Lo等[37]在其研發(fā)的LIMSI話題追蹤系統(tǒng)中,采用設(shè)置二次閾值的方式來(lái)解決反饋信息沒(méi)有驗(yàn)證的問(wèn)題。只有在滿足反饋閾值的前提下才會(huì)把信息提交給系統(tǒng)進(jìn)行模型更新,反饋閾值的設(shè)定有效降低了話題漂移現(xiàn)象的產(chǎn)生[38]。LIMSI系統(tǒng)有靜態(tài)和動(dòng)態(tài)兩種權(quán)重更新策略,經(jīng)實(shí)驗(yàn)證明,面對(duì)社交媒體的話題追蹤時(shí)選用動(dòng)態(tài)權(quán)重更新策略效果更佳。

      有些研究者在微博話題追蹤中引入語(yǔ)義信息[39],劉彥偉[40]將話題中心向量引入話題模型的同時(shí),使用語(yǔ)義相似度對(duì)判斷結(jié)果進(jìn)行修正,將微博文檔劃分到對(duì)應(yīng)話題后進(jìn)行話題中心向量的自適應(yīng)調(diào)整。不同于利用語(yǔ)義信息的自適應(yīng)話題追蹤,柏文言等[41]提出了一種融合用戶關(guān)系的自適應(yīng)微博話題追蹤方法。首先將追蹤時(shí)間窗內(nèi)的推文映射到特征空間,形成候選推文集合,然后根據(jù)推文的分布特點(diǎn)和話題追蹤的目的對(duì)推文特征空間做出變換,最后利用改進(jìn)的k-means聚類算法對(duì)候選推文集合進(jìn)行二元聚類,劃分出相關(guān)推文集合。使用Twitter平臺(tái)的實(shí)時(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法能夠及時(shí)追蹤話題的熱度變化和話題焦點(diǎn)的演變,同時(shí)也可以提高微博話題追蹤的穩(wěn)定性。

      因?yàn)樵掝}的演化過(guò)程與時(shí)間緊密相關(guān),F(xiàn)uling Hu等[42]提出了一個(gè)事件—時(shí)間關(guān)系模型來(lái)研究話題跟蹤任務(wù),該方法主要通過(guò)識(shí)別和挖掘后續(xù)報(bào)道中的事件─時(shí)間流,將事件的時(shí)間屬性引入向量空間模型,并將該模型應(yīng)用于話題跟蹤的相關(guān)決策,最后根據(jù)時(shí)間屬性重新調(diào)整特征向量的權(quán)重分配,實(shí)現(xiàn)自適應(yīng)話題追蹤。實(shí)驗(yàn)結(jié)果顯示,在DET曲線性能評(píng)估系統(tǒng)平臺(tái)上, 該模型能夠比非自適應(yīng)話題追蹤模型更加準(zhǔn)確地跟蹤話題事件的演化過(guò)程。

      4 社交媒體話題檢測(cè)追蹤研究展望

      中文語(yǔ)義信息復(fù)雜多變,想要通過(guò)機(jī)器對(duì)文本信息進(jìn)行深層挖掘就顯得格外困難。另外,針對(duì)目前熱門(mén)的社交媒體,又出現(xiàn)了海量短文本,甚至超短文本的挑戰(zhàn)。因此,有許多方面的問(wèn)題需要解決。

      (1) 海量信息問(wèn)題。由于社交媒體數(shù)據(jù)量龐大,且更新速度快,如新浪微博在2017年有3.76億月活躍用戶,1.65億日活躍用戶,每天發(fā)送微博數(shù)目超過(guò)1億條,所以建立針對(duì)社交媒體的流數(shù)據(jù)處理系統(tǒng)是一個(gè)亟需解決的問(wèn)題。為了解決上述問(wèn)題,可以在原有算法的基礎(chǔ)上,結(jié)合Hadoop、Spark等大數(shù)據(jù)分析工具對(duì)微博數(shù)據(jù)進(jìn)行處理和分析。在話題檢測(cè)追蹤的任務(wù)中,需要研究出有效的針對(duì)大規(guī)模文本數(shù)據(jù)的快速聚類算法,以應(yīng)對(duì)這一挑戰(zhàn)。

      (2) 噪聲干擾問(wèn)題。社交媒體中充斥著大量的廣告信息,這些廣告不僅包括公司的推廣信息,還有很多個(gè)人用戶的商品買(mǎi)賣(mài)信息,這些廣告噪聲對(duì)話題檢測(cè)與追蹤基本沒(méi)有實(shí)際的意義,甚至?xí)箼z測(cè)結(jié)果出現(xiàn)一定程度的偏差。針對(duì)垃圾郵件問(wèn)題,研究者提出了許多垃圾郵件檢測(cè)算法。在未來(lái)的研究中,可以將這些算法改進(jìn),并應(yīng)用到微博數(shù)據(jù)中。同時(shí),鑒于微博的廣告中有很大一部分是商品信息,可以將各大電商網(wǎng)站的商品信息作為微博廣告庫(kù)的擴(kuò)展信息源,這樣可以省去大量的人工廣告信息標(biāo)注任務(wù)。

      (3) 多源信息傳播問(wèn)題。在當(dāng)前的社交網(wǎng)絡(luò)中,大部分話題檢測(cè)追蹤的研究都是針對(duì)單一數(shù)據(jù)源的,如國(guó)外的Twitter或者中國(guó)的新浪微博。雖然它們的數(shù)據(jù)量巨大且更新迅速,但是如果忽略了社交媒體平臺(tái)間轉(zhuǎn)發(fā)、分享等功能,就會(huì)遺失許多其他來(lái)源的話題信息,導(dǎo)致無(wú)法全面地獲取新興話題以及話題的演變過(guò)程。因此,可以考慮在檢測(cè)過(guò)程中加入關(guān)聯(lián)網(wǎng)站信息,全面反映網(wǎng)絡(luò)中目標(biāo)話題的分布態(tài)勢(shì)。

      (4) 非文本信息問(wèn)題。針對(duì)熱門(mén)話題的檢測(cè),應(yīng)該同時(shí)考慮文本信息和非文本信息對(duì)檢測(cè)過(guò)程的貢獻(xiàn)。近期的研究中,有人將社交媒體的時(shí)序特征和用戶細(xì)節(jié)特征等非文本信息用于話題檢測(cè)模型的構(gòu)建,取得了一定的效果,但是,目前的研究只簡(jiǎn)單利用了用戶的權(quán)威度和評(píng)論轉(zhuǎn)發(fā)數(shù)等用戶行為特征[43]。在以后的研究中,可以將用戶的影響力信息、用戶參與社交媒體互動(dòng)的行為信息等特征納入話題檢測(cè)與追蹤的研究中。

      (5) 結(jié)果評(píng)估問(wèn)題。話題檢測(cè)與追蹤結(jié)果的評(píng)價(jià)方法除了傳統(tǒng)的準(zhǔn)確率、召回率、F1值外,第三方使用效果、人工評(píng)估也是經(jīng)常用于評(píng)價(jià)的指標(biāo)。第三方使用效果指的是將話題檢測(cè)追蹤模型應(yīng)用于文本分類、信息檢索等方面,利用文本分類的效果、信息檢索的準(zhǔn)確性對(duì)話題檢測(cè)追蹤的效果進(jìn)行間接評(píng)估。在實(shí)際工作中,人工評(píng)價(jià)其實(shí)是最可靠、適用范圍最廣的評(píng)估方式,這也是話題檢測(cè)追蹤領(lǐng)域一個(gè)亟需解決的問(wèn)題,即找到一種自動(dòng)的適用全領(lǐng)域的評(píng)估方法。

      (6) 深度學(xué)習(xí)缺乏應(yīng)用的問(wèn)題。深度學(xué)習(xí)在話題檢測(cè)與追蹤領(lǐng)域缺乏有效的應(yīng)用,我們認(rèn)為有兩方面的原因: 一方面,深度學(xué)習(xí)從2006年取得突破性進(jìn)展后,最先應(yīng)用于圖像和語(yǔ)音領(lǐng)域,而在自然語(yǔ)言處理領(lǐng)域的應(yīng)用則是近些年才開(kāi)始的,這導(dǎo)致話題檢測(cè)與追蹤領(lǐng)域目前還沒(méi)有較為成熟的模型。另一方面,話題檢測(cè)與追蹤數(shù)據(jù)的時(shí)效性很強(qiáng),而深度學(xué)習(xí)方法非常依賴對(duì)數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),所以頻繁的數(shù)據(jù)變化也是導(dǎo)致深度學(xué)習(xí)方法沒(méi)有廣泛應(yīng)用到話題檢測(cè)與追蹤任務(wù)的原因之一。

      猜你喜歡
      文檔聚類文本
      有人一聲不吭向你扔了個(gè)文檔
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于DBSACN聚類算法的XML文檔聚類
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      基于改進(jìn)的遺傳算法的模糊聚類算法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      如何快速走進(jìn)文本
      九寨沟县| 南靖县| 调兵山市| 松桃| 乌兰县| 东港市| 义马市| 邵武市| 那坡县| 临沧市| 昆明市| 黑水县| 越西县| 叙永县| 北海市| 蒲江县| 桃源县| 平邑县| 临沧市| 江安县| 南漳县| 寿宁县| 绥滨县| 彩票| 什邡市| 临猗县| 台湾省| 仁寿县| 宁波市| 巴林左旗| 河北区| 布拖县| 朝阳县| 勐海县| 聊城市| 犍为县| 灵丘县| 黔江区| 中阳县| 宜章县| 巴中市|