李少華+李衛(wèi)疆+余正濤
摘 要:隨著社交網(wǎng)絡(luò)的不斷發(fā)展,微博成為越來越多的人獲取信息的平臺(tái)。為了有效解決微博話題檢測(cè)中海量短文本帶來的詞稀疏問題,提出結(jié)合全局向量模型(GloVe)和潛在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA進(jìn)行話題檢測(cè)前,模型利用多義詞詞項(xiàng)的含義與詞性相關(guān)的事實(shí),在標(biāo)注過并去除低頻詞的語料上,對(duì)全局向量模型進(jìn)行訓(xùn)練獲得詞向量,對(duì)詞性相同且相似度大于閾值的詞進(jìn)行替換以解決稀疏性問題。實(shí)驗(yàn)結(jié)果表明, GV-LDA模型較傳統(tǒng)的LDA主題模型,可有效提高話題檢測(cè)的準(zhǔn)確率和召回率,并降低“主題-詞”處理的維度,因此GV-LDA更適合微博話題檢測(cè)。
關(guān)鍵詞:微博;話題檢測(cè);全局向量;潛在狄利克雷分布
DOIDOI:10.11907/rjdk.172432
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)002-0131-05
0 引言
隨著信息技術(shù)的快速發(fā)展,社交網(wǎng)絡(luò)信息量出現(xiàn)了爆炸式增長(zhǎng),人們可接觸的信息越來越豐富,如何從海量信息中獲取有效信息受到研究者越來越多的關(guān)注。
微博是一個(gè)基于用戶關(guān)系的信息傳播平臺(tái),可使用電腦或手機(jī)上的網(wǎng)頁或應(yīng)用,通過發(fā)布、評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)文字消息、照片或視頻音頻鏈接等方式,即時(shí)分享自己對(duì)事件的感受。微博作為一種新的網(wǎng)絡(luò)媒體形式,已經(jīng)成為普通民眾分享、關(guān)注、獲取所關(guān)心信息的重要平臺(tái)。微博的字?jǐn)?shù)限制在140字之內(nèi),更加契合忙碌運(yùn)轉(zhuǎn)的現(xiàn)代社會(huì)對(duì)寫作和傳播方式的需要,增加了人們創(chuàng)作的隨意性。微博用戶可以便捷地了解自己所關(guān)注的人和群組發(fā)布的消息,但無法及時(shí)掌握整個(gè)平臺(tái)的熱點(diǎn)話題。為此,需要將海量的微博信息進(jìn)行組織和歸并,從中提取話題,并以簡(jiǎn)潔而明確的形式予以展示。
利用微博的結(jié)構(gòu)和內(nèi)容信息,結(jié)合現(xiàn)有的話題檢測(cè)技術(shù),本文提出一套適合微博的話題檢測(cè)方法,以更加有效地利用微博信息為用戶提供更完善的信息服務(wù)。本文研究的主要問題包括共現(xiàn)窗口大小的確定、如何從詞共現(xiàn)獲得詞向量、相似詞歸并中如何選定相似度閾值、如何通過文本得出話題等。
1 相關(guān)工作
Hofmann等[1]提出基于似然原理的生成模型PLSA(Probabilistic Latent Semantic Analysis,概率潛在語義分析),其基本思想是每個(gè)文檔都是通過選擇主題的分布,然后根據(jù)分布選擇文檔中的詞語生成的。主題的數(shù)量有限,對(duì)應(yīng)低維的語義空間,主題挖掘就是通過“降維”將文檔從高維空間投影到語義空間。PLSA使用EM(Exception Maximization,最大期望算法)對(duì)模型進(jìn)行求解,其計(jì)算復(fù)雜度小于SVD算法,因此PLSA在性能和擴(kuò)展性等方面的表現(xiàn)優(yōu)于LSA。但是PLSA在文檔層面沒有提供合適的概率模型,同時(shí)EM算法需要反復(fù)迭代,計(jì)算量依然很大。
Blei等[2]提出的LDA(Latent Dirichlet Allocation,潛在狄利克雷分布)在PLSA中加入了Dirichlet先驗(yàn)分布。在這個(gè)模型中,文檔建模為主題潛在集合上的有限混合,而主題則建模為主題概率潛在集合上的無限混合。針對(duì)PLSA中過多的參數(shù)導(dǎo)致過擬合及難以對(duì)訓(xùn)練集外的文檔分配概率等缺陷,LDA引入了超參數(shù),形成“文檔-主題-詞”的三層貝葉斯模型,使用變分貝葉斯近似后驗(yàn)分布推導(dǎo)參數(shù)來挖掘文本主題。
ThomasL.Grffiths等[3]在LDA模型的參數(shù)推導(dǎo)階段引入馬爾科夫鏈-蒙特卡洛算法(Gibbs抽樣),并使用貝葉斯模型的選擇來確定主題數(shù)量。其對(duì)參數(shù)的推導(dǎo)過程更加快速,同時(shí)解決了變分貝葉斯方法中參數(shù)局部最優(yōu)的問題。
微博與傳統(tǒng)文本在結(jié)構(gòu)和內(nèi)容上有差異,傳統(tǒng)的話題檢測(cè)方法不能很好地對(duì)其建模。為此,研究者紛紛提出新的模型,LDA模型在傳統(tǒng)文本話題檢測(cè)中表現(xiàn)卓越,多數(shù)模型基于LDA模型進(jìn)行改進(jìn)。
孫勝平[4]提出在空間向量模型中使用SP&HA聚類算法用于微博話題檢測(cè)。總體思想是:首先使用歸一化TF-IDF函數(shù)計(jì)算特征權(quán)重,然后使用余弦法則計(jì)算文本的相似度,接著在話題初步檢測(cè)中采用Single-Pass增量聚類算法,對(duì)與話題相似度高于閾值的文本進(jìn)行歸并,最后在話題合并環(huán)節(jié)采用自底向上的凝聚式層次聚類算法,不斷合并相似度矩陣中相似度最大的兩個(gè)文本,得到滿足相似度預(yù)設(shè)值的話題類。
張晨逸等[5]綜合考慮微博文本包含的社交網(wǎng)絡(luò)結(jié)構(gòu)化信息進(jìn)行統(tǒng)一建模,提出MB-LDA微博生成模型。該模型基于如下假設(shè):與同一個(gè)用戶有關(guān)聯(lián)的微博主題相關(guān);轉(zhuǎn)發(fā)的微博與原創(chuàng)微博主題相關(guān)。對(duì)以@開頭的對(duì)話微博,模型抽樣出@的聯(lián)系人與各個(gè)主題的關(guān)系,并賦值給微博與主題之間的關(guān)系;對(duì)轉(zhuǎn)發(fā)微博,模型從伯努利分布中抽取參數(shù)確定的多項(xiàng)式分布,抽樣出當(dāng)前單詞所屬主題;對(duì)原創(chuàng)微博,則使用LDA模型生成,然后使用吉布斯抽樣得出模型參數(shù),最終獲得微博語料上的話題分布。
黃波[6]針對(duì)微博的結(jié)構(gòu)和內(nèi)容特點(diǎn),利用LDA模型提取文本隱含主題,同時(shí)使用VSM計(jì)算文本向量的特征權(quán)重,并在計(jì)算文本相似度階段,通過實(shí)驗(yàn)確定兩種模型得出的相似度進(jìn)行線性疊加權(quán)重,最后通過兩層聚類得出微博話題。
鄭磊[7]為了解決LDA模型需要預(yù)先確定話題個(gè)數(shù)而難以擬合微博話題分布的問題,選擇設(shè)定較大的話題數(shù),然后利用層次聚類算法需事先確定類別個(gè)數(shù)的特點(diǎn),對(duì)LDA的輸出進(jìn)行聚類,同時(shí)引入互信息度量微博話題詞之間的依存關(guān)系,使得模型能夠動(dòng)態(tài)地由話題詞的相關(guān)性生成話題。
路榮等[8]提出的微博新聞話題發(fā)現(xiàn)方法,首先利用LDA得出主題-文檔分布,然后在每個(gè)時(shí)間窗口內(nèi)根據(jù)新聞的特點(diǎn)給單義詞單元評(píng)分,并對(duì)每個(gè)微博中單義詞單元得分累加得到的總分排序,獲得若干可能的新聞微博。接著用K均值和層次聚類的兩層聚類,對(duì)選取的微博文本進(jìn)行聚類,從而檢測(cè)出新聞話題。該方法能有效解決微博文本的稀疏性問題,具有良好的擴(kuò)展性。endprint
謝昊等[9]通過對(duì)原創(chuàng)和轉(zhuǎn)發(fā)兩種類型的微博結(jié)構(gòu)和內(nèi)容分析,得出原創(chuàng)微博主題由微博本身確定,而轉(zhuǎn)發(fā)微博主題由轉(zhuǎn)發(fā)的原創(chuàng)微博內(nèi)容確定的結(jié)論。提出了基于LDA主題模型的RT-LDA模型,從作者的主題分布中抽取原創(chuàng)微博主題,并將溯源到的最終的原創(chuàng)微博主題作為轉(zhuǎn)發(fā)微博的主題,并采用吉布斯抽樣法推導(dǎo)模型參數(shù),最終得出微博的主題和用戶的主題分布。
劉嘉等[10]針對(duì)微博中新詞不斷出現(xiàn),傳統(tǒng)模型無法對(duì)新詞相關(guān)的話題有效建模的問題,提出首先使用經(jīng)過標(biāo)準(zhǔn)語料庫訓(xùn)練各層隱馬爾科夫模型的CHMM(Cascaded Hidden Markov Model,層疊隱馬爾科夫模型)發(fā)現(xiàn)新詞,然后使用微博語料和更新過的詞典作為L(zhǎng)DA模型輸入的改進(jìn)LDA模型。該模型能夠使社交網(wǎng)絡(luò)環(huán)境下的話題檢測(cè)結(jié)果更加準(zhǔn)確全面。
李衛(wèi)疆等[11]為了解決傳統(tǒng)話題模型無法對(duì)稀疏的短文本有效建模的問題,使用BTM模型將微博文本轉(zhuǎn)換為詞對(duì)形式,以獲取微博語料庫上的話題分布,并使用吉布斯抽樣推導(dǎo)模型參數(shù),最后進(jìn)行K-means聚類以獲取區(qū)分度良好的話題。在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型話題檢測(cè)的F值優(yōu)于LDA模型。
郭藍(lán)天等[12]為了解決微博數(shù)據(jù)集的高維性及主題不明確問題,提出結(jié)合CBOW神經(jīng)網(wǎng)絡(luò)語言模型和LDA主題模型的CBOW-LDA主題建模方法。模型首先使用CBOW(Continuous Bag-of-Word,連續(xù)詞袋模型)得出詞向量,然后對(duì)相似度大于相似度閾值的詞語進(jìn)行聚類,接著從相似詞聚類中抽取詞語替換詞表和語料中的其它項(xiàng),接著將處理過的詞表和語料作為L(zhǎng)DA主題模型的輸入進(jìn)行話題檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該話題檢測(cè)方法能有效降低LDA模型的困惑度。該模型能夠發(fā)現(xiàn)詞項(xiàng)之間的相關(guān)關(guān)系,但是不能有效處理一詞多義問題,同時(shí)相似度閾值的選擇缺乏說服力。
2 基于GV-LDA的話題檢測(cè)
2.1 GV-LDA算法框架
本文針對(duì)CBOW-LDA中存在的問題,提出GV-LDA模型,其核心思想是結(jié)合一詞多義通常與詞性相關(guān)的實(shí)際情況,首先對(duì)微博語料進(jìn)行標(biāo)注,然后使用較CBOW模型更為快速高效的GloVe模型(Global Vector,全局向量模型)進(jìn)行詞表示,分別在多個(gè)相似度閾值下對(duì)相似度大于閾值且詞性相同的詞進(jìn)行聚類,接著從相似詞聚類中抽取頻率最大的詞語替換詞表和語料中同一簇的其它項(xiàng),以降低LDA模型的處理維度。將處理過的詞表和語料作為L(zhǎng)DA主題模型的輸入進(jìn)行話題檢測(cè),過程如圖1所示。
2.2 文本向量化
GloVe語言模型是J Pennington等[13]于2014年提出的一種基于全局log-bilinear的語言模型,它結(jié)合了整體矩陣分解和局部?jī)?nèi)容窗口的優(yōu)點(diǎn),通過訓(xùn)練非零元素的詞共生矩陣,有效利用統(tǒng)計(jì)信息,產(chǎn)生一個(gè)具有意義子結(jié)構(gòu)的向量空間。通過詞向量在多個(gè)維度上的差異表示詞項(xiàng)在語義上的相似度。
Pennington通過實(shí)驗(yàn)表明,詞向量學(xué)習(xí)更合適的起始點(diǎn)應(yīng)該是詞共現(xiàn)概率之比而非詞共現(xiàn)概率本身。使用X表示詞共現(xiàn)計(jì)數(shù),Xij表示詞j在詞i的上下文中出現(xiàn)的次數(shù),wi表示詞i的詞向量,j為另一個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)例生成的獨(dú)立的上下文詞向量。詞向量與共現(xiàn)矩陣統(tǒng)計(jì)量的關(guān)系可以表示為:
式(1)結(jié)合了多個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)例并對(duì)其進(jìn)行合并,可以降低過擬合和噪聲,一般情況下可改進(jìn)結(jié)果。wi為目標(biāo)詞向量,j為另一個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)例生成的獨(dú)立的上下文詞向量。詞i、詞j在彼此的上下文窗口內(nèi),角色可互換,加入兩個(gè)詞向量的偏移量bi,j,以保證方程的對(duì)稱性。方程右側(cè)是對(duì)窗口內(nèi)全局共現(xiàn)的統(tǒng)計(jì),對(duì)方程(1)進(jìn)行因式分解,得到的詞向量既包含全局統(tǒng)計(jì)信息又包含局部上下文信息。
低頻詞共現(xiàn)通常為噪聲,相比高頻詞共現(xiàn)攜帶較少的信息。移除頻率低于閾值的詞共現(xiàn)可有效減少詞匯表大小。詞向量的目標(biāo)是避免常用詞權(quán)重過大。
通過把式(1)轉(zhuǎn)化為一個(gè)最小平方問題并引入權(quán)重函數(shù)f(Xij),可以有效解決上述問題。加權(quán)最小平方回歸模型為
對(duì)模型進(jìn)行優(yōu)化即得詞向量。
2.3 文本模型表示
LDA主題模型是包含文檔-主題-詞語3層的貝葉斯模型,在這個(gè)模型中,文檔被建模為主題潛在集合上的有限混合,而主題則建模為主題概率潛在集合上的無限混合。在LDA模型中使用吉布斯抽樣得出模型參數(shù)后,便可由生成規(guī)則得到文-主題分布和主題-詞分布。文本和主題的生成規(guī)則得到文本的主題結(jié)構(gòu)。GV-LDA中LDA模型的輸入是經(jīng)過相似詞聚類的文檔和詞表,降低了LDA主題模型的處理維度,使得待檢測(cè)的主題更加明確。
LDA主題模型采用概率的產(chǎn)生式模型對(duì)文本進(jìn)行建模,每篇文本是由服從參數(shù)為θ多項(xiàng)式分布的主題混合而成,θ滿足參數(shù)為α的對(duì)稱狄利克雷先驗(yàn)分布;每個(gè)主題又是由服從參數(shù)為φ多項(xiàng)式分布的詞匯混合而成,φ滿足參數(shù)為β的對(duì)稱狄利克雷先驗(yàn)分布。
一個(gè)文本中所有單詞與其所屬主題的聯(lián)合概率分布如式(8)所示:
LDA生成文本的過程見圖2。①從主題的狄利克雷先驗(yàn)Dirichlet(β)中為每個(gè)主題t_i抽取多項(xiàng)式分布Multi(φ);②從文檔的狄利克雷先驗(yàn)Dirichlet(α)中為每個(gè)文檔dm抽取多項(xiàng)式分布Multi(θ);③對(duì)語料庫中所有文檔dm和文檔中所有詞匯wn:從多項(xiàng)式分布Multi(φ)中抽取主題tk;從多項(xiàng)式分布Multi(θ)中抽取詞wn。
LDA建模的目的是求得參數(shù)θ和φ的值,進(jìn)而得出文本-主題分布和主題-詞分布??梢允褂肎ibbs抽樣構(gòu)造收斂于目標(biāo)概率分布的Markov鏈并從中抽取樣本估算參數(shù)。
Gibbs Sampling每次選取概率向量的一個(gè)維度,給定其它維度的變量值抽樣得到當(dāng)前維度的值。隨著迭代的進(jìn)行,Gibbs Sampling對(duì)參數(shù)的改變?cè)絹碓叫。ǔ_x取一定的迭代次數(shù)作為循環(huán)終止條件,Gibbs Sampling過程如圖3所示。endprint
3 實(shí)驗(yàn)結(jié)果與分析
3.1 評(píng)價(jià)指標(biāo)
采用的評(píng)價(jià)指標(biāo)包括文本及常用的困惑度和準(zhǔn)確率、召回率、F1指標(biāo)。
困惑度Perplex是用于生成測(cè)試數(shù)據(jù)集的詞表大小的期望值,困惑度越小,表明語言模型吻合度越好。
式(9)中,wm為測(cè)試集文檔m中可觀測(cè)到的單詞,p(wm)表示模型產(chǎn)生文本wm的概率,Nm為文檔m的詞項(xiàng)數(shù)。
準(zhǔn)確率p指文本分類正確的樣本數(shù)與所有分類文本數(shù)的比值:
召回率r是文本分類正確的樣本數(shù)與該類的實(shí)際文本數(shù)比值:
式(10)、(11)中,a是正確分類的樣本數(shù),b是不屬于該類但劃分到該類的樣本數(shù),c是屬于該類但未劃分到該類的樣本數(shù)。
3.2 數(shù)據(jù)集
本文采用的數(shù)據(jù)集為新浪關(guān)鍵詞語料,包含30個(gè)主題,共211 413個(gè)json文件,其中的漢字表示為16進(jìn)制的unicode編碼,以u(píng)XXXX(X表示十六進(jìn)制數(shù)字)的形式出現(xiàn)。文件編碼為UTF-8無BOM。文件包含以“#”的話題信息、用戶鏈接、用戶名、轉(zhuǎn)發(fā)列表、用戶發(fā)布內(nèi)容的ID(mid)、用戶發(fā)布的內(nèi)容及發(fā)布時(shí)間等信息,其中轉(zhuǎn)發(fā)列表包括各轉(zhuǎn)發(fā)用戶的用戶名、轉(zhuǎn)發(fā)內(nèi)容、轉(zhuǎn)發(fā)字符串、轉(zhuǎn)發(fā)時(shí)間和轉(zhuǎn)發(fā)用戶的用戶鏈接。轉(zhuǎn)發(fā)用戶的轉(zhuǎn)發(fā)內(nèi)容為轉(zhuǎn)發(fā)時(shí)的評(píng)論,默認(rèn)為“轉(zhuǎn)發(fā)微博”。轉(zhuǎn)發(fā)用戶的轉(zhuǎn)發(fā)字符串為轉(zhuǎn)發(fā)用戶的用戶名加上轉(zhuǎn)發(fā)內(nèi)容、點(diǎn)贊信息、轉(zhuǎn)發(fā)時(shí)間及轉(zhuǎn)發(fā)用戶的客戶端信息。轉(zhuǎn)發(fā)評(píng)論非默認(rèn)內(nèi)容的,視為統(tǒng)一話題下的新微博。
3.3 數(shù)據(jù)集預(yù)處理
數(shù)據(jù)集本身包含的是原始微博數(shù)據(jù),在使用模型分析之前需要進(jìn)行預(yù)處理:編碼轉(zhuǎn)換、去除標(biāo)記、分詞、標(biāo)注、去低頻詞。其中停用詞出現(xiàn)頻率高但攜帶的語義信息較少,而低頻詞學(xué)習(xí)的向量置信度不高。通過編碼轉(zhuǎn)換取得微博內(nèi)容,去除不可解讀的文件,得到11 246個(gè)json。
3.4 實(shí)驗(yàn)步驟與參數(shù)設(shè)置
去除微博標(biāo)記后,使用LTP進(jìn)行分詞和標(biāo)注,再依據(jù)詞項(xiàng)的頻率去低頻詞,低頻詞的閾值為5。在不同的相似度條件下比較CBOW-LDA和GV-LDA的Perplexity。詞向量聚類中相似度的取值范圍為0.7~0.95,間距為0.05.Word2Vec、GloVe、LDA的參數(shù)設(shè)置見表1、表2、表3。
3.5 實(shí)驗(yàn)結(jié)果與分析
在相同的參數(shù)設(shè)置和語料下,通過計(jì)算不同相似度閾值時(shí)的困惑度度量GV-LDA和CBOW-LDA模型的處理效果。兩種方法困惑度隨相似度的變化情況如圖4所示。
可以看出,模型的困惑度隨相似度閾值的增加先減少后增加,GV-LDA的困惑度在0.8~0.9范圍內(nèi)優(yōu)于CBOW-LDA,且在相似度閾值為0.8時(shí),GV-LDA模型取得最小困惑度。
取相似度閾值為0.8,對(duì)詞表聚類后,詞表大小由原來的324 438減少到63 725,有效減少了LDA階段的運(yùn)算時(shí)間。LDA階段取相同參數(shù),分別使用GV-LDA和Gibbs-LDA進(jìn)行話題檢測(cè)。GV-LDA和Gibbs-LDA++在30個(gè)主題上進(jìn)行話題檢測(cè)的準(zhǔn)確率如圖5所示,其中GV-LDA的平均準(zhǔn)確率為77.69%,Gibbs-LDA++的平均準(zhǔn)確率為70.51%。
GV-LDA和Gibbs-LDA++在30個(gè)主題上進(jìn)行話題檢測(cè)的召回率如圖6所示,其中GV-LDA的平均召回率為77.09%,Gibbs-LDA++的平均召回率為69.24%。
根據(jù)之前得出的準(zhǔn)確率和召回率,計(jì)算GV-LDA和Gibbs-LDA++在30個(gè)主題上進(jìn)行話題檢測(cè)的F值如圖7所示,其中GV-LDA的平均F值為77.35%,Gibbs-LDA++的平均F值為69.79%。
從結(jié)果可以看出,本文GV-LDA方法的處理結(jié)果較Gibbs-LDA++有明顯改善,雖然額外的GloVe階段耗時(shí)較長(zhǎng),但相似詞分析可以使用維基中文語料等通用語料,復(fù)用性強(qiáng),因此GV-LDA方法實(shí)用價(jià)值很高。
4 結(jié)語
本文針對(duì)微博中短文本信息的特點(diǎn),將文本深度表示模型的GloVe方法與LDA主題模型結(jié)合進(jìn)行文本建模,將文本向量化表示,然后對(duì)LDA模型的輸入進(jìn)行文本向量聚類。通過比較不同閾值下的GV-LDA和CBOW-LDA模型的困惑度,得出GV-LDA能有效減少話題檢測(cè)中困惑度的結(jié)論,并得出最佳相似度閾值。通過與LDA模型在準(zhǔn)確率、召回率、F值等指標(biāo)上的對(duì)比,顯示該模型與LDA比較在話題檢測(cè)方面有較大改進(jìn)。
參考文獻(xiàn):
[1] HOFMANN T. Probabilistic latent semantic indexing[C].Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.
[2] BLEI D M, NG A Y, JORDAN M I. Lantent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003(3): 993-1022.
[3] GRIFFITHS T L, STEYVERS M. Finding scientific topics.[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101 (1):5228-5229.
[4] 孫勝平.中文微博客人電話檢測(cè)與跟蹤技術(shù)研究[D].北京:北京交通大學(xué),2011.
[5] 張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.
[6] 黃波.基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D].成都:西南交通大學(xué),2011.
[7] 鄭磊.微博客話題檢測(cè)的研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[8] 路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.
[9] 謝昊,江紅.一種面向微博主題挖掘的改進(jìn)LDA模型[J].華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013(6):93-101.
[10] 劉嘉,王慶林,劉禹,等.一種適合社交網(wǎng)絡(luò)的短文本主題發(fā)現(xiàn)方法[C]. 中國控制會(huì)議 , 2014.
[11] 李衛(wèi)疆,王真真,余正濤.基于BTM和K-means的微博話題檢測(cè)[J].計(jì)算機(jī)科學(xué),2017(2):257-261.
[12] 郭藍(lán)天,李揚(yáng),慕德俊,等.一種基于LDA主題模型的話題發(fā)現(xiàn)方法[J].西北工業(yè)大學(xué)學(xué)報(bào),2016,34(4):698-702.
[13] J PENNINGTON,R SOCHER,C MANNING. Glove: global vectors for word representation[C]. Conference on Empirical Methods in Natural Language Processing, 2014:1532-1543.endprint