辛 宇,楊 靜,謝志強(qiáng)
(1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001;2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150080)
LDA(Latent dirichlet allocation,LDA)模型是近些年來話題提取的通用模型[1]。目前,話題模型相關(guān)的工作大多是對(duì)LDA 模型進(jìn)行修改,或者是將LDA 模型作為整個(gè)概率模型的一個(gè)部件。在LDA 模型中,假設(shè)每個(gè)文檔的主題概率分布服從Dirichlet分布,并沒有對(duì)不同主題之間相關(guān)性進(jìn)行刻畫。然而,在真實(shí)的語料中,不同主題之間存在相關(guān)性的現(xiàn)象很普遍[2]。
在面向LDA 模型演化研究方面,2004 年,Blei 等[3]提 出 了 主 題 間 為 樹 結(jié) 構(gòu) 的 層 級(jí)(Hierarchical LDA)。在該模型中,樹中的每個(gè)節(jié)點(diǎn)代表一個(gè)主題,該模型還有一個(gè)特點(diǎn)是可以從語料中估計(jì)出主題的個(gè)數(shù),并與使用LDA 模型在不同主題數(shù)下重復(fù)實(shí)驗(yàn)得到的最佳主題個(gè)數(shù)一致。Blei等[4-5]于2006年又在層級(jí)LDA 的基礎(chǔ)上提出了相關(guān)主題模型(Correlated topic model,CTM),與LDA 不同的是,CTM 從對(duì)數(shù)正態(tài)分布中對(duì)主題概率分布進(jìn)行采樣。Li等[6]針對(duì)CTM 只考慮兩個(gè)主題間關(guān)系的不足,提出了PAM 模型(Pachinko allocation model,PAM),該模型的特點(diǎn)是把主題之間的關(guān)系表示成一個(gè)有向無環(huán)圖,其中葉子節(jié)點(diǎn)是單詞,可以看成是由所包含的子節(jié)點(diǎn)(主題或單詞)構(gòu)成。之后Mimno等[7]又在PAM 的基礎(chǔ)上提出了層級(jí)PAM 模型,該模型可以看成是把層級(jí)LDA 和PAM 結(jié)合起來,使得PAM 模型中的非葉子節(jié)點(diǎn)也具有單詞的概率分布。Wang等[8]向模型中添加了一個(gè)作為觀測(cè)值的時(shí)間隨機(jī)變量后得到了主題隨時(shí)間變化的主題模型(Topic over time,TOT),該模型認(rèn)為主題概率分布受到時(shí)間信息的影響,且時(shí)間變量服從beta分布。
在面向上下文信息分析的話題提取方面,通常主題模型假設(shè)單詞序列中的單詞是可交換的,即單詞的順序和模型的訓(xùn)練結(jié)果無關(guān),在考慮當(dāng)前節(jié)點(diǎn)和其他節(jié)點(diǎn)的關(guān)系時(shí),就破壞了LDA 的可交 換 性 假 設(shè)。Griffiths 等[9]認(rèn) 為 可 以 通 過HMM 來捕捉句法結(jié)構(gòu)信息,通過LDA 來提示語義關(guān)系,并將兩者結(jié)合在一起提出了HMM-LDA模型。Wallach[10]認(rèn)為語料庫生成過程中,一個(gè)單詞除了依賴于其對(duì)應(yīng)的主題外還與前一個(gè)單詞有關(guān),提出超越詞袋(Beyond bag-of-words)的主題模型。張晨逸[11]等人提出利用MB-LDA 進(jìn)行微博主題挖掘,該模型在挖掘出微博主題的同時(shí)還可挖掘出聯(lián)系人關(guān)注的主題,并將LDA 模型推廣到了社交網(wǎng)絡(luò)中。韓曉暉[12]等人提出了一種基于LDA 的低質(zhì)量回貼檢測(cè)方法,利用檢測(cè)回貼質(zhì)量的二元分類性訓(xùn)練SVM 分類器,以區(qū)分出質(zhì)量回貼。
在面向特定任務(wù)研究方面,Blei等[13]針對(duì)分類問題提出了有監(jiān)督LDA 模型(Supervised latent dirichlet allocation,sLDA),該模型將訓(xùn)練語料中的文檔類別標(biāo)記為觀測(cè)值加入LDA 模型,且類別標(biāo)號(hào)服從一個(gè)與文檔主題概率分布有關(guān)的正態(tài)線性分布。Steyvers等[14]提出作者主題模型(Author topic,AT),認(rèn)為每個(gè)作者有一個(gè)主題概率分布。McCallum 等[15]又在AT 模型的基礎(chǔ)上,提出了作者接受者主題模型(Author recipient topic,ART)以判定個(gè)人的社會(huì)角色。
以上模型的話題個(gè)數(shù)k 均需預(yù)先給定,若要確定最優(yōu)話題個(gè)數(shù)k*?jiǎng)t需要循環(huán)探測(cè),其復(fù)雜度過高。文獻(xiàn)[5]和文獻(xiàn)[7]的實(shí)驗(yàn)表明,當(dāng)k 的個(gè)數(shù)超過某一數(shù)據(jù)時(shí),k*的選擇開始變得模糊,導(dǎo)致LDA 的最優(yōu)話題個(gè)數(shù)選擇方法復(fù)雜度高且結(jié)果不精確。因此,設(shè)計(jì)一種高效可行的最優(yōu)話題個(gè)數(shù)選擇方法是LDA 研究的關(guān)鍵問題。本文針對(duì)LDA 模型的最優(yōu)k 值選取問題,提出LDA 話題增量訓(xùn)練算法,并通過對(duì)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析驗(yàn)證了本文算法對(duì)最優(yōu)k值選取的有效性和可行性。
LDA 模型是以單詞-話題-參數(shù)先驗(yàn)關(guān)系構(gòu)成的3層貝葉斯模型,三者之間的關(guān)系表達(dá)模型如圖1所示,其中M 為語料庫中的文檔個(gè)數(shù),N 為單詞表中的單詞個(gè)數(shù),zdn為文檔d中單詞n所屬話題的概率,θd為文檔d中話題zdn分布的先驗(yàn)參數(shù),α為語料庫中θ的全局先驗(yàn)參數(shù),β為k×N 單詞 -話題概率矩陣,其中k為話題個(gè)數(shù),βi,j =p(w =j(luò)|z=i)且βi,*=1。根據(jù)上述條件概率關(guān)系,文檔-單詞的數(shù)學(xué)模型可表示為:
語料庫-單詞的數(shù)學(xué)模型可表示為:
圖1 LDA“盤子”模型Fig.1 Plate model of LDA
LDA 的生成模型可假設(shè)如下:
(1)p(θ|α)~Dir(α)。其表達(dá)式為:
(2)p(z|θ)~Multinomial(θ)。
根據(jù)式(3)(4),式(2)可表示為:
加入文檔內(nèi)部估計(jì)參數(shù)γ和φ,γ為β 的文檔樣本估計(jì)值,φ 為文檔內(nèi)部話題的后驗(yàn)概率,φi,j=p(z=j(luò)|w =i)。
假設(shè)γ和φ 相互獨(dú)立。利用變量β和z 建立文檔內(nèi)部隱含參數(shù)的估計(jì)模型如下:變分推理以極大化單詞-話題分布的似然函數(shù)p(w|α,β)為目標(biāo),通過在似然函數(shù)中加入樣本估計(jì)參數(shù)γ 和φ,實(shí)現(xiàn)對(duì)全局參數(shù)α 和β 的優(yōu)化。為此,式(5)的似然函數(shù)表達(dá)式如下:
式中:Eq為利用估計(jì)參數(shù)γ 和φ 計(jì)算的期望,由于Dirichlet分布屬于一種指數(shù)分布族,根據(jù)文獻(xiàn)[1]可知:
變分推理的優(yōu)化過程即尋找L(γ,φ;α,β)的極值過程。根據(jù)式(8)可得:
根據(jù)式(9)可得:
式(11)包 含 了(α,β,γ,φ)4 個(gè) 參 數(shù),其 中利用拉格朗日乘子法對(duì)(α,β,γ,φ)進(jìn)行優(yōu)化求值可得到如下結(jié)果:
式(12)~(15)分別對(duì)(α,β,γ,φ)求零值導(dǎo)數(shù)可得到(α,β,γ,φ)的極值關(guān)系式如下:
根據(jù)式(16)~(19)變分推理的參數(shù)訓(xùn)練過程分為文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過程(訓(xùn)練γ,φ)和語料庫總體參數(shù)訓(xùn)練過程(訓(xùn)練α,β)。文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過程是語料庫總體參數(shù)過程的子過程。圖2為訓(xùn)練過程的盤子模型圖,其中黃色箭頭線表示文檔內(nèi)部參數(shù)訓(xùn)練過程,參數(shù)γ,φ 根據(jù)式(17)和(19)以α,β 為參數(shù)進(jìn)行循環(huán)迭代以優(yōu)化參數(shù)γ,φ;棕色箭頭表示語料庫總體參數(shù)訓(xùn)練過程,在語料庫內(nèi)所有文檔完成對(duì)參數(shù)γ,φ 的訓(xùn)練后,根據(jù)式(16)和(18)調(diào)整全局參數(shù)α,β;藍(lán)色箭頭表示LDA 模型的似然函數(shù)的計(jì)算過程。
圖2 LDA變分推理過程Fig.2 Variational inference process of LDA
LDA 話題提取存在兩方面問題需要改進(jìn):
(1)由于LDA 算法在初始運(yùn)行時(shí)需要人為給定話題個(gè)數(shù)k(較小的整數(shù)),k與最佳話題個(gè)數(shù)k*的偏離度決定了LDA 話題發(fā)現(xiàn)的質(zhì)量,若k<k*會(huì)導(dǎo)致話題訓(xùn)練的欠擬合,若k>k*會(huì)導(dǎo)致話題訓(xùn)練的過擬合,如何選擇k值是LDA 話題發(fā)現(xiàn)尚未解決的問題。
(2)LDA 在樣本的訓(xùn)練過程中缺少對(duì)β 中“模糊單詞”(即話題歸屬不確定的單詞)的處理,導(dǎo)致β 矩陣中各話題間的模糊化,并使得后續(xù)的訓(xùn)練結(jié)果出現(xiàn)相似的話題結(jié)果,影響話題分類的有效性。
為說明以上兩方面問題,本文統(tǒng)計(jì)了CNN網(wǎng)站中的50組話題,建立了50個(gè)樣本話題,并在每組話題中選擇詞頻最高的5個(gè)名詞作為樣本話題詞匯,如表1所示。隨機(jī)選擇2~5組樣本話題構(gòu)成文檔,并以1000個(gè)隨機(jī)文檔為單位,建立40組語料庫。
表1 CNN 50個(gè)話題的概率表Table 1 50-topics Probability Table of CNN
本文對(duì)40 組語料庫建立10~70 個(gè)話題的LDA 跟蹤運(yùn)算,所得的likelihood值如圖3所示,其中橫坐標(biāo)為話題個(gè)數(shù),縱坐標(biāo)為likelihood值。由于本文所建立的40組語料庫是50個(gè)話題的混合,因此理想狀態(tài)下50個(gè)話題的likelihood值應(yīng)為極值,且50個(gè)話題的各每組樣本likelihood值的偏差應(yīng)該較小。但圖3所示的結(jié)果說明LDA算法在話題個(gè)數(shù)大于40時(shí),出現(xiàn)likelihood值的模糊化,無法根據(jù)likelihood值判斷最優(yōu)話題個(gè)數(shù)k*。
圖3 表1數(shù)據(jù)集likelihood值(話題個(gè)數(shù)為10~70)Fig.3 Likelihood of the datasets in table 1(the number of topics are 10~70)
本文對(duì)第1、8、15、22、29、36 組語料庫LDA訓(xùn)練后的β 值進(jìn)行分析,由于表1數(shù)據(jù)集中屬于同一話題的單詞編號(hào)鄰近,因此屬于同一話題的單詞在β 矩陣的位置鄰近,可將β 矩陣元素中的最大值進(jìn)行聚類以分析LDA 的分類效果。β矩陣的聚類輪廓圖如圖4所示,其中x 軸為話題號(hào),y軸為單詞號(hào)。由于表1數(shù)據(jù)集中各樣本話題單詞無重復(fù),因此理想狀態(tài)下β 矩陣聚類輪廓圖的每行每列僅有一個(gè)話題聚類簇,從圖4中可直觀看到語料庫中第1、8、15、22組數(shù)據(jù)的LDA 分析結(jié)果較差。
另外,圖4中LDA 算法所挖掘出的編號(hào)相鄰的話題相似度較大,且有效識(shí)別個(gè)數(shù)最多為40(語料庫36)。為了提高LDA 的話題精度,降低話題間的相似度,本文提出LDA 話題增量訓(xùn)練算法,在提高話題分類精度的同時(shí)增量挖掘優(yōu)化話題個(gè)數(shù)k*。
圖4 語料庫1,8,15,22的β矩陣分析結(jié)果Fig.4 βmatrix of corpus 1,8,15,22
變分推理的執(zhí)行過程中,以文檔內(nèi)部話題-單詞的后驗(yàn)概率φ 作為α 和β 訓(xùn)練的中間變量φi,j=p(z=j(luò)|w =i),若話題個(gè)數(shù)為k(k<k*,k*為最優(yōu)話題個(gè)數(shù)),必存在某一單詞的話題不確定度較高,即φi,*的熵值entropy(φi,*)較大,其中某一單詞wi的熵值表達(dá)式為:
entropy(φi,*)是對(duì)單詞wi的不確定性度量,entropy(φi,*)越大則wi的不確定性越高,當(dāng)前的k個(gè)話題對(duì)wi的劃分越不合理。此時(shí),可提取entropy值較大的單詞重新組合為一個(gè)新的話題,并復(fù)用之前的迭代結(jié)果。由于話題的增加需要進(jìn)行一次語料庫總體參數(shù)訓(xùn)練(增加參數(shù)α 和β的維數(shù)),為此LDA 話題增量訓(xùn)練算法對(duì)參數(shù)α和β 的修改如下:
(1)增加β矩陣的維數(shù)。引入熵的閾值參數(shù)σ,選擇entropy(φi,*)大于σ的wi構(gòu)成新的話題,并將新話題按熵值歸一化,加入β矩陣。
(2)增加α 的維數(shù)。以新的β 和α 作為初始參數(shù)執(zhí)行新一次迭代。
在LDA 的執(zhí)行過程中,迭代次數(shù)越高參數(shù)β和α 的訓(xùn)練越充分,為防止LDA 話題增量訓(xùn)練算法在β和α 尚未充分訓(xùn)練的條件下進(jìn)行φ 的熵值選擇,導(dǎo)致LDA 訓(xùn)練不充分而影響話題發(fā)現(xiàn)質(zhì)量,需要在LDA 迭代過程中加入迭代參數(shù)c,每進(jìn)行c次迭代時(shí)執(zhí)行一次LDA 話題增量訓(xùn)練算法。
圖5為LDA 話題增量訓(xùn)練算法的參數(shù)訓(xùn)練過程,其中綠色箭頭為LDA 話題增量訓(xùn)練算法對(duì)α 和β 的增量訓(xùn)練過程。
具體的算法描述如下:
功能:利用LDA 話題增量訓(xùn)練算法對(duì)訓(xùn)練最優(yōu)話題個(gè)數(shù)k*
輸入:初始話題個(gè)數(shù)k
輸出:最優(yōu)話題個(gè)數(shù)k*及語料庫參數(shù)α和β
圖6為語料庫13的LDA 迭代跟蹤過程(語料庫13 共進(jìn)行57 次迭代),從中可以直觀發(fā)現(xiàn)LDA 算法對(duì)66~70 號(hào)單詞“makeup”話題的識(shí)別較差,其原因在于LDA 迭代過程中未能在β矩陣中提取“makeup”話題,使得“makeup”單詞的話題隸屬度相對(duì)模糊,影響了β 后序訓(xùn)練過程中對(duì)“makeup”話題的識(shí)別。
本文利用大量模擬實(shí)驗(yàn)驗(yàn)證了LDA 話題增量訓(xùn)練算法參數(shù)的有效范圍分別為σ =(0 ~1.6),c=(3~12),并在4.3節(jié)分析了參數(shù)σ和c的最優(yōu)取值問題,圖7為利用本文LDA 話題增量訓(xùn)練算法(以10為初始k值,σ=0.3,c=5)對(duì)語料庫13的增量迭代過程,該圖直觀顯示了話題個(gè)數(shù)從10增量訓(xùn)練到50的過程中,話題間的獨(dú)立逐漸增強(qiáng),相比于圖6中LDA 話題增量訓(xùn)練算法更趨于理想狀態(tài)。
圖6 語料庫13的LDA迭代跟蹤過程Fig.6 LDA iterative tracking process of corpus 13
圖7 語料庫13的LDA跟蹤過程Fig.7 LDA tracking process of corpus 13
圖8 為40 組語料庫在本文算法下的likelihood值(以10為初始值,σ=0.3,c=5),該圖顯示了本文算法的最佳話題發(fā)現(xiàn)個(gè)數(shù)集中在40~50之間。
圖8 表1數(shù)據(jù)集LDA話題增量訓(xùn)練算法下的likelihood值Fig.8 Likelihood of the dataset in Table 1by the LDA topic increments training algorithm
在數(shù)據(jù)集的選擇方面,本文采用有明確文檔分類的數(shù)據(jù)集,以分析本文算法對(duì)話題個(gè)數(shù)選取的有效性,本文分別選取了自然語言處理中常用的3組數(shù)據(jù)集,各數(shù)據(jù)集的介紹如下:
(1)所選擇的數(shù)據(jù)庫包括第36屆加拿大國會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)和b卷(共40個(gè)議案),總單詞量約為1 300 000個(gè)。將每個(gè)議案的章節(jié)作為LDA 分析的“文檔”,由于同一議案趨近于同一話題,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)均為40。
(2)蘭卡斯特新聞書籍語料庫The Lancaster Newsbooks Corpus,本文算法取其中25 類(500本書)書籍為數(shù)據(jù)集,以每本書的摘要作LDA 分析的“文檔”,由于同一類書籍的新聞話題近似,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為25。
(3)路透社經(jīng)典文檔分類語料庫Reuters 21578 Classic text categorization corpus(共50類),以每本書的摘要作LDA 分析的“文檔”,該數(shù)據(jù)集已將各文檔進(jìn)行了分類,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為50。
本文算法對(duì)上述數(shù)據(jù)分別利用LDA 和LDA話題增量訓(xùn)練算法(σ=0.3,c=5)進(jìn)行40次實(shí)驗(yàn),其對(duì)比結(jié)果如圖9所示,其中藍(lán)色為LDA 算法的分析結(jié)果,紅色為本文算法的分析結(jié)果,從結(jié)果可直觀判斷本文算法的likelihood 高于LDA算法,驗(yàn)證了本文算法的話題分類合理性高于LDA 算法。在話題個(gè)數(shù)識(shí)別方面,各組數(shù)據(jù)的話題個(gè)數(shù)分別為40、45、23、55,接近于理想話題個(gè)數(shù)。
圖9 4種語料庫likelihood對(duì)比圖Fig.9 Comparison chart of 4corpuses
本文利用LDA 話題增量訓(xùn)練算法對(duì)第36屆加拿大國會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)作為數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行15次實(shí)驗(yàn),其中參數(shù)分別為σ =(0.1∶0.1∶1.5),c=5,每次將話題個(gè)數(shù)收斂于38~42的結(jié)果判定為正確(共有1036次正確分類),其統(tǒng)計(jì)直方圖如圖10(a)所示。以AHPC數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行8次實(shí)驗(yàn),其中參數(shù)分別為σ=0.3,c=(3∶1∶10),每次將話題個(gè)數(shù)收斂于38~42 的結(jié)果判定為正確(共有966 次正確分類),其統(tǒng)計(jì)直方圖如圖10(b)所示。通過圖10(a)與(b)的分析可知:當(dāng)σ>1.5時(shí)分類的趨于無效,且c 的 最 優(yōu) 取 值 區(qū) 間 為(3,10)。圖11 為AHPC的三維stem 圖,其中LDA 話題增量訓(xùn)練算法的最優(yōu)值為σ=0.45,c=6。
圖10 AHPC數(shù)據(jù)集統(tǒng)計(jì)直方圖Fig.10 Histogram of AHPC dataset
圖11 AHPC的三維stem 圖Fig.11 3Dstem figure of AHPC
本文利用LDA 話題增量訓(xùn)練算法,創(chuàng)新采用以單詞-話題概率熵值作為LDA 迭代過程中模糊單詞選擇標(biāo)準(zhǔn),將所選擇模糊單詞歸入新的話題優(yōu)化LDA 的迭代過程,以提高話題獨(dú)立性為手段提高各單詞的合理化分類;所提出的LDA話題增量訓(xùn)練算法可在實(shí)現(xiàn)LDA 話題分類優(yōu)化的同時(shí)對(duì)最優(yōu)話題個(gè)數(shù)k 進(jìn)行增量訓(xùn)練,最后通過實(shí)驗(yàn)對(duì)比驗(yàn)證了本文算法在話題分類合理度likelihood與k自動(dòng)選擇方面的優(yōu)越性,對(duì)深入研究話題分類模型具有一定的理論和實(shí)際意義。
[1]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.Xu Ge,Wang Hou-feng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1436.
[3]Blei D M,Griffitchs T L,Jordan M I,et al.Hierarchical topic models and the nested Chinese restaurant process[C]∥Advances in Neural Information Processing Systems 16.Cambridge,MA:MIT Press,2004:17-24.
[4]Blei D M,Lafferty J D.Correlated topic models[C]∥Advances in Neural Information Processing Systems 18.Cambridge,MA:MIT Press,2006.
[5]Blei D,Lafferty J.A correlated topic model of science[J].Annals of Applied Statistics,2007,1(1):17-35.
[6]Li W,McCallum A.Pachinko allocation:DAGstructured mixture models of topic correlations[C]∥Proceeding of the ICML.Pittsburgh,Pennsylvania,USA,2006:577-584.
[7]Mimno D,Li W,McCallum A.Mixtures of hierarchical topics with pachinko allocation[C]∥Proceeding of the ICML.Corvllis,Oregon,USA,2007:633-640.
[8]Wang X,McCallum A.Topics over time:a nonmarkov continuous-time model of topical trends[C]∥Proceeding of the Conference on Knowledge Discovery and Data Mining(KDD).Philadelphia,USA,2006:113-120.
[9]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C]∥Advances in Neural Information Processing Systems 18.Vancouver,Canada,2004.
[10]Wallach H.Topic modeling:beyond bag-of-words[C]∥Proceeding of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:977-984.
[11]張晨逸,孫建伶,丁軼群.基于MB-LDA 模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.Zhang Chen-yi,Sun Jian-ling,Ding Yi-qun.Topic mining for microblog based on MB-LDA model[J].Journal of Computer Research and Development,2011,48(10):1795-1802.
[12]韓曉暉,馬軍,邵海敏,等.一種基于LDA 的Web論壇低質(zhì)量回貼檢測(cè)方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(9):1937-1946.Han Xiao-h(huán)ui,Ma Jun,Shao Hai-min,et al.An LDA based approach to detect the low-quality reply posts in web forums[J].Journal of Computer Research and Development,2012,49(9):1937-1946.
[13]Blei D M,McAuliffe J.Supervised topic models[C]∥Advances in Neural Information Processing Systems(NIPS).Vancouver,Canada,2008.
[14]Steyvers M,Smyth P,Rosen-Zvi M,et al.Probabilistic author-topic models for information discovery[C]∥Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle,Washington,2004:306-315.
[15]McCallum A,Corrada-Emmanuel A,Wang X.The author recipient-topic model for topic and role discovery in social networks:experiments with enron and academic email[R].Technical Report UM-CS-2004-096,2004.