張膂
基于LPAL模型的超文本分析
張膂
PLSA和LDA主題模型主要是研究純文本內(nèi)容。最近,開始提出用主題模型處理超文本,所提出的超文本模型是生成模型,引出了詞和超鏈接的關系。由于超文本的文檔詞分布不僅由文檔主題決定,也由引用的文檔的主題決定。因此提出了一種基于主題模型的LPAL(Link PLSA And LDA)模型處理超文本的主題發(fā)現(xiàn)和文檔分類。 和傳統(tǒng)的主題模型一樣,該主題模型進一步的表示了詞的分布。實驗結果表明,該模型在主題發(fā)現(xiàn)和文檔分類要優(yōu)于傳統(tǒng)的LDA和Link-LDA模型。
超文本;LPAL;主題發(fā)現(xiàn);文檔分類
主題模型是表示文檔內(nèi)容的生成模型。近年來,關于主題模型的研究取得了很大的進展,像PLSI(Hofmann,1999)、LDA(Blei et al, 2003)以及它們的拓展(Griffiths et al,2005; Blei and Lafferty,2006; Chemudugunta et al,2007)。推理和學習算法也同樣取得了很大的進展,例如變量的推理(Jordan et al, 1999; Wainwright and Jordan, 2003),期望最大化(Minka and Lafferty, 2002),以及 Gibbs采樣(Griffiths and Steyvers, 2004)。在主題發(fā)現(xiàn)(Blei et al,2003),文檔抽取(Xing Wei and Bruce Croft, 2006),文檔分類(Blei et al, 2003),社交網(wǎng)絡分析(Mei et al, 2008)等[1]也已經(jīng)使用主題模型了,但大部分的模型還只是處理純文本。也有學者(Cohn and Hofmann, 2001; Dietz et al,2007;Nallapati and Cohen,2008; Gruber et al, 2008)已經(jīng)用主題模型處理超文本。Cohn and Hofmann (2001)介紹了一種基于PLSI框架的超文本主題模型[3]。這個模型結合PLSI和PHITS(Cohn and Chang,2000)模型提出了文檔詞和超鏈接的關系。Erosheva et al (2004)對模型PLSI進行改進得到了 LDA[2]。因為符號的一致性,也稱為Link-LDA模型。Link-LDA模型的生成過程如圖1(b)所示,對應的字母說明如表1所示。詞和超鏈接非常的相似,有相同的主題分布θ,因此這個模型能抽取出共享相同主題的超鏈接和詞的文檔。
Link-PLSA和Link-LDA通過隨機變量定義成超鏈接的值。也就是說這些模型獲得超鏈接文檔主題聚類的方法與基本的LDA和PLSA模型是相似的,但是這些模型不能建立引用文檔和被引用文檔之間的關系[4]。很顯然,文檔d鏈接另外文檔 d’,這兩者之間是相關的。因此有人就想通過研究這些額外的信息來獲得好的主題及主題之間的影響。Dietz et al (Dietz,Bickel,& Scheffer 2007)提出了一種新的LDA方法,基于從引用文檔到被引用文檔主題信息流的方法[5]。這種方法中每篇引用的文檔都是引用被引用文檔的主題來產(chǎn)生自己主題。這個模型僅僅考慮引用文檔的影響,但是沒有建立引用文檔對主題的特定影響。接下來,我們將建立一個新的模型來解決這些問題。
在主題模型中,每個主題對應詞的分布稱為混合的潛在主題。該文引入對文獻引用的一種擴展的LDA模型。主要的符號及其說明如表1所示:
M Total number of documents M← Number of cited documents
M→ Number of citing documents V Vocabulary size K Number of topics N← Total number of words in the cited set d A citing document d' A cited document Δ(p) A simplex of dimension (p - 1)c(d,d') citation from d to d' Dir(·|α) Dirichlet distribution with parameter Mult(·|β) Multinomial distribution with parameter Ld Number of hyperlinks in document d Nd Number of words in document d βkw Probability of word w w.r.t. topic k Ωkd' Probability of hyperlink to document d' w.r.t. topic k πk Probability of topic k in the cited document set.
傳統(tǒng)的LDA模型如圖1所示:
圖1 傳統(tǒng)LDA模型
其過程有 3步。每篇文檔的主題分布服從一個先驗的Dirichlet分布服從一個先驗的Dirichlet分布,主題的采樣是從一個文檔的主題分布中采樣的,服從一個多項式分布,詞的采樣根據(jù)主題詞的分布12圖1(b)是Link-LDA模型,其對應的算法偽代碼如表2所示:
r each document d=1,2,…,M:Generate θd? Δ(K) ~ Dir(·|αθ) For each position n=1,· · · ,NdGenerate zn? {1,· · ·,K} ~ Mult(·|θd) Generate wn? {1,· · · ,V } ~ Mult(·|βzn) For each hyperlink l=1,· · ·,LdGenerate zl? {1,· · ·,K} ~ Mult(·|θd)
圖1(c)就是LPAL(Link PLSA And LDA)模型。其算法過程如表3所示:
Cited documents:For i=1,…,N←Generate zi?{1, · · ·K} ~ Mult(·|π)Sample d'i? {1,· · · ,M←} ~ Mult(·|Ωzi) Generate wi? {1,· · · ,V } ~ Mult(·|zi) Citing documents:
For each citing document d=1,· · · ,M→Generate θd? Δ(K) ~ Dir(·|αθ) For each position n=1,· · · ,NdGenerate zn? {1,· · ·,K} ~ Mult(·|θd) Generate wn? {1,· · · ,V } ~ Mult(·|βzn) For each citation position l=1,· · ·,LdGenerate zl? {1,· · ·,K} ~ Mult(·|θd) Generate d'l? {1,· · · ,M←} ~ Mult(·|Ωzl
這個模型觀測數(shù)據(jù)的似然函數(shù)如下:
其中w是整個引用文檔和被引用文檔數(shù),c是被引用文檔數(shù),。由于θ,β,Ω成對耦合,這個模型的參數(shù)估計和推理是相當困難的。因此,通常使用近似的方法計算,如Gibbs采樣(Andrieu et al. 2003)或者變近似值(Wainwright & Jordan 2003)[7]。接下來,我們使用平均場變分近似求解隱變量的后驗分布。如圖2所示:
圖2 LPAL模型的平均場近似后驗分布的圖形
對應圖的表達式:
其中:γdk是引用文檔d對應的主題k的后驗概率;
φdnk是文檔d對應的主題k所產(chǎn)生的第n個詞的后驗概率;
φdlk是文檔d對應的主題k被引用的第1個詞的后驗概率;
ξd'nk是被引用文檔d'對應的主題k所引用的第n個詞的后驗概率。
經(jīng) Jensen不等式變化,可以得到觀察數(shù)據(jù)的對數(shù)似然函數(shù):
其中H()是其參數(shù)分布熵;Ep[ ]表示是下標p參數(shù)分布的期望??梢钥闯霾坏仁阶笥业膮^(qū)別,相當于是變量后驗和隱變量真實后驗之間的KL距離。因此最大化最小邊界相當于找到最相近的真實后驗概率的變分近似法。
對上式每個參數(shù)微分并使其等于零,可以通過以下參數(shù)更新如公式(1)~(7):
通過迭代更新直到收斂,由上面的公式(1)~(7)可以得出公式(1)公式(3)是相互影響,這些等式進行了內(nèi)部循環(huán),直到它們收斂。因為公式(1)和公式(4)涉及到變量參數(shù),所以公式(1)稱為推理步驟。同理,因為公式(5)和公式(7)是估計模型參數(shù)β,Ω,π,所以公式(5)稱為估算步驟。αθ的值可以通過上述過程估算得到,但在上述模型中,根據(jù)經(jīng)驗一般設其為固定值為0.1。
分別比較了LDA,Link-LDA,LPAL(Link PLSA And LDA)在主題發(fā)現(xiàn)和文檔分類的應用。
3.1數(shù)據(jù)集
首先使用Lemur(狐猴)工具包對文本進行處理以及低頻詞刪除,第一個數(shù)據(jù)集WebKB包含六大類。有3921個文檔和 7359個鏈接,共有 5019個詞。第二個數(shù)據(jù)集Wikipedia包括四大類:生物,物理,化學以及數(shù)學。有2970個文檔及45818個鏈接,共有3287個詞。第三個數(shù)據(jù)集是由研究人員網(wǎng)頁和他們的一級外鏈組成的 ODP(開放式分類目錄搜索系統(tǒng))數(shù)據(jù)集,隨機的選擇了認知科學,理論,神經(jīng)網(wǎng)絡,機器人以及統(tǒng)計學等五類,其中有3679篇文檔和2872個鏈接,3529個詞。其中WebKB和Wikipedia數(shù)據(jù)廣泛的使用在主題模型研究中,而ODP數(shù)據(jù)則需要自己收集。
3.2主題發(fā)現(xiàn)
在這 3個數(shù)據(jù)集中,分別建立了 3個主題模型LDA,Link-LDA,LPAL。在ODP數(shù)據(jù)集中建立了10個主題,在WebKB中建立了12個,在Wikipedia中建立了8個??梢园l(fā)現(xiàn)LPAL模型比其他的模型更好的理解主題。在ODP數(shù)據(jù)集中的3種模型的相關主題詞如表2、表3和表4所示:
表2 LDA
表3 Link-LDA
表4 LPAL
LPAL模型能相對準確的抽取出 3個主題:Theory,NN,Robot。在LDA和Link-LDA圖中有“Mixed”主題??梢钥闯鲞@ 3個主題模型中都把認知科學分了兩主題(CogSci-1和 CogSci-2),造成這種的可能原因是主題的多樣性。
3.3文檔分類
在這3個數(shù)據(jù)集中用這3個模型進行文檔分類。建立文檔的特征詞向量,同時把數(shù)據(jù)隨機分成 3部分,并進行 3倍交叉驗證實驗。在每個實驗中,對訓練集數(shù)據(jù)進行分類(SVM),通過驗證集數(shù)據(jù)選擇模型參數(shù),最后測試集數(shù)據(jù)評估分類的性能。分類的精度如表5所示:
表5 3種模型的3倍交叉驗證的精確
可以看到在這3個數(shù)據(jù)集中,LPAL模型比其他模型的精度要高。
在所有數(shù)據(jù)集的結果中建立了sign-tests。LPAL模型比LDA,Link-LDA的統(tǒng)計顯著更好。結果如表6所示:
表6 三種模型的sign-test結果
超文本的文檔詞分布不僅由文檔主題決定,也由引用的文檔的主題決定。在這本文中,提出了一種新的處理超文本的主題模型,是基于LDA模型的基本框架建立本文的模型,并進行學習和推理。該模型比LDA,Link-LDA模型更能準確的表示在超文本中主題沿著超鏈接反向“傳播”,可以自然的模擬人寫文檔的過程。實驗結果說明,在3個數(shù)據(jù)集中,LPAL模型在主題發(fā)現(xiàn)和文檔分類優(yōu)于其他兩個模型。
[1] David Blei,Andrew Ng,and Michael Jordan. 2003. Latent Dirichlet allocation[J]. Journal of machine Learning Research,3:993-1022.
[2] 葛琳,季新生等.基于LDA模型的在線網(wǎng)絡信息內(nèi)容安全事件分類[J].四川大學學報(工程科學版),2014,46(3);69-79
[3] 趙宏偉,陳霄,龍曼麗等.基于改進 PLSA分類器的目標分類算法[J].吉林大學學報(工學版),2012,42(sup.1);232-235
[4] 譚文堂,王楨文,殷風景,葛斌等.一種面向多文本集的部分比較性 LDA模型[J].計算機研究與發(fā)展,2013,50(9);1943-1953
[5] 姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發(fā)現(xiàn)與排序方法[J].計算機研究與發(fā)展,2013,50(sup.l);179-185
[6] 曹建平,王暉,夏有清,喬鳳才,張鑫.基于LDA的雙通道在線主題演化模型[J].自動化學報,2014,40(12);2877-2886
[7] [7] 江雨燕,李平,王清.基于共享背景主題的Labeled LDA模型[J].電子學報,2013,41(9);1794-1799
Analysis of Hypertext Based on LPAL Model
Zhang Lv
(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Yunnan 650500,China)
PLSA and LDA topic model is mainly to study the text content. Recently,it began to put forward topic model to deal with hyper text. The proposed hypertext model was generative model,which led to the relationship between words and hyperlink. Because the word hypertext document distribution war determined not only by the document theme,but also by the referenced document theme. This paper presented a new topic model LPAL (Link PLSA And LDA) base on the topic model to process the topic discovery and document classification of hypertext. And similar with the traditional topic model,the proposed topic model can further show the distribution of words. The experimental results show that,LDA and Link-LDA model is better than the traditional model in topic discovery and document classification.
Hypertext; LPAL; Theme Discovery; Document Classification
TP311
A
1007-757X(2016)03-0077-03
張 膂(1988-),昆明理工大學,信息工程與自動化學院,研究方向:自然語言處理,昆明,650500
(2015.11.15)