馮新淇 張 琨 任奕豪 謝 彬 趙 靜
(南京理工大學計算機科學與工程學院 南京 210094)
一種基于RLDA主題模型的特征提取方法?
馮新淇 張 琨 任奕豪 謝 彬 趙 靜
(南京理工大學計算機科學與工程學院 南京 210094)
為了準確挖掘微博用戶的興趣,論文獲取并分析用戶原創(chuàng)、轉發(fā)和點贊過的微博內(nèi)容以及微博熱度的排行等數(shù)據(jù),準確地得到描述微博用戶興趣的信息,然后基于LDA模型,提出了一種新的主題特征提取模型——RLDA模型。該模型在原有的LDA模型中加入了微博背景中特有的微博熱度排行這一信息,從而改進LDA模型的來提高模型挖掘微博用戶興趣的準確率。在RLDA主題模型建模的過程中,引入“超超參數(shù)”的概念,通過Dirichlet分布對超參數(shù)取值進行采樣。實驗表明,與LDA模型相比,RLDA模型在微博用戶興趣挖掘的準確度上有了很大的提升。
興趣挖掘;微博熱度排行;RLDA模型;特征提??;超超參數(shù)
隨著微博的日趨流行,如何尋找一種有效的模型方法來挖掘出微博等社會化媒體上用戶的興趣和需求成為了當前研究的一個熱點。通過對微博數(shù)據(jù)進行挖掘和分析,可以發(fā)現(xiàn)用戶的興趣。針對每個用戶的具體興趣,可以為用戶推薦相應的信息、產(chǎn)品、廣告等,也可以為用戶推薦其可能感興趣的用戶,從而達到個性化的推薦效果[1]。
在數(shù)據(jù)挖掘領域,盡管傳統(tǒng)文本的主題挖掘已經(jīng)得到了廣泛的研究,但對于微博這種特殊的文本,因其本身帶有一些結構化的社會網(wǎng)絡方面的信息,傳統(tǒng)的文本挖掘算法不能很好地對它進行建模。提出了一個基于潛在狄利克雷分布(Latent Dirichlet Analysis,LDA)的微博生成模型 RLDA(Ranking LDA)。模型中綜合考慮了用戶原創(chuàng)、轉發(fā)和點贊過的所有微博文本,并定義了微博熱度排行這一概念來輔助進行微博的主題挖掘。使用Collapsed Gibbs采樣方法對模型進行推導,能夠在一定程度上提高微博用戶興趣挖掘的準確度。本文實驗表明,RLDA模型能有效地對微博進行主題挖掘。
下面是本文的整體框架結構圖:
圖1 論文整體框架圖
主題模型一般指的是兩種分布:第一種就是主題-詞語的分布,就是P(w |z)。第二種是是文檔-主題分布,即P(z |d)。有了這兩種分布后,這個文檔集合的表示就有了一種立體化的感覺[2],如圖2所示,LDA主題模型具有清晰的層次結構,從上到下分別為文檔層、隱藏的主題層和詞語層。
圖2 LDA模型拓撲結構示意圖
1990年,芝加哥大學的Bell等專家[3]提出了潛在語義分析(Latent Semantic Analysis,LSA)模型。LSA主要是利用矩陣奇異值分解(Singular Value Decomposition,SVD)的方法,使得向量空間的高維表示變成潛在語義空間的低維表示,從而實現(xiàn)降低維度和識別主題的目的。1999年,Hofmann等[4]在LSA的基礎上通過引入最大似然估計法和產(chǎn)生式模型的概念,提出了概率潛在語義分析模型(Probabilistic Latent Semantic Analysis,PLSA),但是在PLSA模型的計算復雜度仍然很高。Blei.David M.等[5]于2003年在LSA和PLSA的基礎上進行了擴展,從而提出了LDA主題模型的概念。LDA模型可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布,然后就可以根據(jù)主題分布進行主題聚類或文本分類[6]。王志宏等[7]對傳統(tǒng)的TF-IDF算法進行了改進和拓展,提出了融合基本IDF詞典和聯(lián)合興趣度的動態(tài)IDF詞典的用戶個性化IDF詞典,并基于改進的算法應用模型抽取微博用戶興趣的關鍵詞。李文波等[8]提出了一種附加類別標簽的LDA模型,通過在傳統(tǒng)LDA模型中融入文本類別信息,提高了該模型的分類能力,可以計算出隱含主題在各類別上的分配量,從而克服傳統(tǒng)LDA模型分類時強制分配主題的缺陷,有效的改進了文本分類的性能。石晶等[9]利用LDA模型為語料庫和文本進行建模,采取背景詞聚類及主題詞聯(lián)想的方式將主題詞擴充到待分析文本處,挖掘詞語表面中隱含的主題,提高了文本分析的效果。Xing等[10]將LDA模型和語言模型相結合,并使用聚類方法提高了檢索的召回率。張晨逸等[11]針對微博這種本身就帶有一些結構化的社會網(wǎng)絡方面信息的特殊性的文本,提出了一個基于LDA的微博生成模型MB_LDA,綜合考慮了微博的聯(lián)系人關聯(lián)關系和文本關聯(lián)關系來輔助進行微博的主題挖掘。
本文也是基于LDA文本主題模型進行研究的,通過引入微博熱度評價(Ranking)這一定義建立RLDA模型,從而提取文本的主題分布信息,采用Streaming Gibbs采樣方法進行參數(shù)估計,然后選定Precision、Recall、F值等實驗評定指標對實驗結果進行分析,證明了RLDA模型比一般的LDA模型能夠更準確的挖掘出用戶的興趣。
3.1 LDA模型
LDA模型是對文本中隱含主題的一種建模方法,模型的訓練過程可以用馬爾科夫鏈-蒙特卡洛(Markov Chain-Monte Carlo,MCMC)的簡化方法直接生成,并且在生成學習模型時的參數(shù)空間規(guī)模是固定的,與文本及自身規(guī)模無關[12]。其基本思想是可以隨機的生成一篇有N個詞語組成的文檔,其中每一個詞語都是根據(jù)一定的概率選擇一個主題,并從這個主題中以一定概率選擇出來的[12]。在LDA模型中,定義語料庫中任意一篇文檔的生成過程[13]如下:
1)從Dirichlet分布α中取樣生成文檔m的主題分布θm;
2)從主題的多項式分布θm中取樣生成第m個文檔的第n個詞語的主題tm,n;
3)從Dirichlet分布 β 中取樣生成主題tm,n對應的詞語分布向量 Φtm,n;
4)從詞語的多項式分布 Φtm,n中采樣,最終生成詞語 wm,n。
LDA主題模型的Bayesian網(wǎng)絡圖如圖3所示。
圖3 LDA模型的貝葉斯網(wǎng)絡圖
圖中,灰色圓圈則代表可以直接觀察到的變量,透明的圓圈代表隱含的變量,這些變量在算法中都是需要推理的,箭頭代表變量之間的依賴關系。M代表文檔集,N代表一篇文檔的長度,K代表主題的數(shù)目,θm指第m個文檔的主題多項式分布,φk指第k個主題的詞語多項式分布。
從上圖3可以看出,LDA模型中有兩組先驗,文檔-主題分布的先驗和主題-詞語分布的先驗,兩組分布分別來自于超參數(shù)α和β的Dirichlet分布。Θ是所有文檔的主題分布向量,Φ是所有主題的詞語分布向量,根據(jù)Collapsed Gibbs采樣算法可以估計后驗分布,得到如下公式:
以上是LDA模型生成一篇文檔的過程。
3.2 RLDA模型
本章節(jié)中詳細介紹了RLDA模型。
本文是基于微博用戶興趣挖掘的背景,通過LDA主題模型進行微博主題特征的提取,從而更準確地挖掘出用戶感興趣的主題。本文是基于語義進行分析,因此本文研究的對象全部是短文本微博[14]。
假設用戶興趣的挖掘不僅與其原創(chuàng)、轉發(fā)和點贊過的微博內(nèi)容有關,而且還會在一定程度上受到一些熱門微博內(nèi)容的影響。本文基于這一假設對LDA模型進行了改進,在模型中引入并定義了一個新的變量——微博熱度排行(Ranking),簡稱為R,從而構建了一個改進的RLDA模型,提高了用戶興趣挖掘的準確度。R是根據(jù)語料庫中微博被轉發(fā)(Repost)、評論(Comment)和點贊(Like)的統(tǒng)計次數(shù)計算而來,是評價用戶微博熱度的一個指標,R值越大代表該微博越受歡迎,而這類熱門微博比較容易成為用戶感興趣的內(nèi)容。設任意一篇微博的轉發(fā)、評論和點贊數(shù)分別為xi,yi和zi,首先對其進行統(tǒng)一的歸一化處理,公式如下:
上述處理后可得,微博轉發(fā)、評論和點贊數(shù)的歸一化數(shù)值分別為,和。R值定義如下:
經(jīng)過上述計算可得到RLDA模型中所需的變量r。歸一化的處理方式減小了轉發(fā)、評論和點贊數(shù)量的差異,以及其取值區(qū)間的不同造成的權重失衡問題,將所有數(shù)據(jù)統(tǒng)一到區(qū)間(0,1)內(nèi)進行比較疊加,更能體現(xiàn)出各個因素對最后R取值的影響。
在RLDA的文檔-主題-詞語的三層模型中,將一個用戶發(fā)表、評論和點贊過的全部微博文本內(nèi)容看作一篇文檔d,同類或者相似的微博內(nèi)容會有共同的主題t,而文檔本身則是由很多單詞w組成。同時,RLDA模型在基于LDA模型的基礎上,引入微博熱度排行r這樣一個變量,輔助挖掘微博用戶的興趣。
圖4 RLDA模型的貝葉斯網(wǎng)絡圖
如圖4則是RLDA模型的貝葉斯網(wǎng)絡圖,與圖3相比,圖4中RLDA模型的貝葉斯網(wǎng)絡圖進行了改進,其中R表示語料庫中所有微博的熱度排行的集合,Ω表示特定主題下熱度排行的多項式分布,這一分布的先驗來自于另一個超參數(shù)λ的Dirichlet分布,其余符號的意義參照圖3。
RLDA模型的主要思想就是在主題相同或相似的情況下,一篇微博的熱度排行越高越容易受到用戶的歡迎。算法1中定義了RLDA模型的生成過程:
1)根據(jù)Dirichlet的超參數(shù)對主題分布、主題-熱度排行分布和文檔-主題分布進行抽樣;
2)對于每一條經(jīng)過用戶轉發(fā)、評論及點贊過的微博,都有一個對應的熱度排行r,從文檔中找出一個與之對應的主題t;
3)基于主題t,對應的詞語w和熱度排行r會
相互獨立的產(chǎn)生。
算法1 RLDA模型生成過程
輸入:D,W ,K,R
步驟:
1 for主題 t∈T do
2 新建一個主題-詞語的分布:
3 Φt~Dir(β)
4 新建一個主題-熱度排行的分布:
5 Ωt~Dir(λ)
6 for文檔 d∈Ddo
7 for詞語 w∈Wdo
8 給文檔d分配一個主題t:
9 t~Mul(d)
10 根據(jù)已選主題得出對應詞語:
11 wd,t|t~Mul(Φt)
12 根據(jù)已選主題得出對應熱度排行:
13 rd,t|t~Mul(Ωt)
對于獲取準確的參數(shù)而言,文檔-主題分布Θ,主題-單詞分布Φ和主題-微博熱度評價分布Ω這三個參數(shù)是隱含變量。因此,本文采用Collapsed Gibbs采樣方法來估計這些先驗分布,Gibbs采樣方法是一種評估LDA模型簡單有效的方法,是MCMC算法的一種特殊形式[15]。
基于RLDA模型獨立的假設,主題、詞語和微博熱度排行的聯(lián)合分布定義如下:
在 RLDA 模型中,α,β,γ是 Dirichlet先驗,Θ,Φ,Ω表示利用Dirichlet分布采樣的多項式分布,因此需要估計模型的三個隱含變量,并得出他們在當前狀態(tài) j下的條件概率:
確定模型參數(shù)之后,可以推導出P(w ,r|d ),然后根據(jù)P(w ,r|d)對給定文檔的進行的主題進行排序,得到文檔-主題向量分布。
4.1 數(shù)據(jù)準備
本文使用的是新浪微博的數(shù)據(jù)集來挖掘微博用戶的興趣。原始數(shù)據(jù)集中隨機收集17423名用戶2016年3月至9月原創(chuàng)、轉發(fā)及點贊過的43128343條微博。本文截取其中6000名用戶的1000000條微博作為實驗數(shù)據(jù)。平均而言,每個微博用戶每天大概會原創(chuàng)、轉發(fā)或者點贊一條微博。微博數(shù)據(jù)采集需要抓取微博的內(nèi)容信息、評論信息及用戶信息。本實驗的數(shù)據(jù)采集主要有基于爬蟲和API接口兩種方式,少量的數(shù)據(jù)是通過在微博中人工搜索的方式獲取的[16]。最后,將數(shù)據(jù)集隨機分成兩部分,70%作為訓練數(shù)據(jù)和30%作為測試數(shù)據(jù)。本文用RLDA模型對這100萬條微博進行分析從而挖掘用戶興趣。原始的微博數(shù)據(jù)集在使用RLDA模型分析之前,首先要進行數(shù)據(jù)預處理,文本的預處理過程主要包括分詞處理和去除停用詞。
4.2 參數(shù)設置
RLDA模型是一個基于貝葉斯統(tǒng)計的模型。在貝葉斯統(tǒng)計當中,先驗分布的參數(shù)我們稱之為超參數(shù)。RLDA模型中有三個超參數(shù)α,β和λ。在LDA模型的學習過程中,α,β一般會通過經(jīng)驗來確定。若 k為模型的主題數(shù)目,則 α=50/k,β=0.01,(λ是本文模型中引入的超參數(shù),不具有一般性)。當超參數(shù)的取值對主題模型的分析影響較大時,這種方法可能會降低實驗結果的精確度。因此本文引入“超超參數(shù)(hyper-hyperparameters)”這一概念[17]。即超參數(shù)α,β和λ的先驗分布是未知的,每次進行Gibbs采樣的迭代之前,在Dirichlet分布上采樣出3個具體的數(shù)值對模型中的超參數(shù)進行賦值。實驗證明,“超超參數(shù)”的取值方式相比超參數(shù)固定取值的方式對模型的結果影響更小,降低了因為超參數(shù)取值不當對模型分析結果的影響。
4.3 實驗評定指標
為了驗證本研究提出的微博用戶興趣模型構建方法是否具有更好地準確性,需要對本文構建的用戶興趣模型進行實驗評估。本文采用直接的方式對模型進行評估,用準確率(Precision)、召回率(Recall)以及協(xié)調(diào)均值F(F-measure)作為RLDA模型的評估指標。
其中準確率和召回率的定義如下[18]:
其中,tp是模型中被準確分類成正類的數(shù)量,即hit;fp是模型中被錯誤分類成正類的數(shù)量,即falsealarm;tn是模型中被準確分類成的負類的數(shù)量,即correct rejection;fn是模型中被錯誤分類成的負的數(shù)量,即miss。tp+tn是分類正確的總數(shù),fp+fn是分類錯誤的總數(shù)。在本文的RLDA模型中,hit表示模型中分析出的正確興趣的數(shù)量,K表示模型中全部的興趣數(shù)量, ||Testd則表示用戶全部的興趣數(shù)量。
對于RLDA模型來說,Precision和Recall的值越大,模型的分類效果越好,但是同一模型中Precision和Recall的結果一般是負相關的,通常一個升高會造成另一個減小,因此本文還引入了Precision和Recall的協(xié)調(diào)均值F這樣一個綜合的評價指標,一般來說,F(xiàn)值越高實驗效果越好。其定義如下[18]:
4.4 實驗結果及分析
本文實驗采用SVM作為分類器,并輔助使用開源的工具LibSVM,首先訓練數(shù)據(jù)集中70%的訓練樣本,然后利用剩余的30%的數(shù)據(jù)進行測試,根據(jù)RLDA用戶興趣挖掘模型進行分類與評估。為了驗證RLDA模型能夠在LDA模型的基礎上提高用戶興趣挖掘的準確度,將測試數(shù)據(jù)分別應用LDA模型和RLDA模型進行實驗。
圖5是文檔的主題數(shù)取值在區(qū)間[10,200]內(nèi)時,分別用LDA模型和RLDA模型進行微博文本的主題特征提取并建模進行分析評估,然后得到的實驗數(shù)據(jù)。圖 5(a)(b)(c)分別是兩個模型在 Precision、Recall和F值三個評價指標上對比實驗的效果圖。
從圖中可以看出,采用RLDA主題特征模型和使用LDA模型相比,Precision、Recall和F值均有明顯提升。可以得出,微博熱度排行較高的微博,微博用戶對其感興趣的概率越大,即微博熱度一定程度上影響了微博用戶的興趣。因此,將微博熱度排行這一指標的加入到LDA模型中進行改進,得出的RLDA模型能夠更準確地挖掘出用戶的興趣,從而提高了興趣挖掘的精度。
圖5 主題數(shù)K從10到200時Precision、Recall和F值的變化圖
此外,圖中還顯示當文檔中的主題數(shù)K=100時,RLDA模型的評估指標F值接近最大,即此時的實驗效果接近最佳挖掘用戶的興趣信息最為準確。
LDA模型常用于本文分類和特征提取,實驗證明該模型該許多應用中都取得了很好的效果。本文基于LDA模型的基礎上,提出了一種新的主題特征提取模型——RLDA模型,它在原有的LDA模型中加入了微博背景中特有的微博熱度排行這一信息,從而對模型的進行了改進,提高模型挖掘微博用戶興趣的準確率。同時,本文在建模過程的參數(shù)設置中還引入了“超超參數(shù)”這一概念,本文不采用原始的固定取值方式,而是通過Dirichlet分布對其取值進行采樣,極大地減小了由于超參數(shù)取值不當對實現(xiàn)效果產(chǎn)生的影響。
實驗表明,與LDA模型相比,本文中提出的RLDA模型在微博用戶興趣挖掘的準確度上有了很大的提升。
[1]袁博陽.基于微博內(nèi)容和用戶關注的微博用戶興趣模型構建[D].廣州:華南理工大學,2015:12-14.YUAN Boyang.Based on the content and users concerns of microblog user interest model building[D].Guangzhou:South China University of Technology,2015:12-14.
[2]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計算[C]//全國智能信息處理學術會議,2013:229-232.WANG Zhenzhen,HE Ming,DU Yongping.Text Similarity Computing Based on the Topic Model LDA[C]//National Conference on intelligent information processing,2013:229-232.
[3]Cha M S,Kim S Y,Ha J H,et al.Topic Model based Approach for Improved Indexing in Content based Document Retrieval[J].2016,4(1).
[4]Naphade M R,Huang T S.A probabilistic framework for semantic indexing and retrieval in video[C]//Multimedia and Expo,2000.ICME 2000.2000 IEEE International Conference on.IEEE,2010:475-478 vol.1.
[5]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[6]Filippova K.Multi-sentence compression:finding shortest paths in word graphs[C]//COLING 2010,International Conference on Computational Linguistics,Proceedings of the Conference,23-27 August 2010,Beijing,China.2010:322-330.
[7]王志宏.微博用戶興趣挖掘技術研究[D].廣州:華東理工大學,2015:49-52.WANG Zhihong.Research of Text Mining Technologies for Interests of Micro-Blog Users[D].Guangzhou:East China University of Technology,2015:49-52.
[8]Zhou X,Wu S.Rating LDA model for collaborative filtering[J].Knowledge-Based Systems,2016,110:135-143.
[9]Meo P D,Messina F,Rosaci D,et al.Recommending Users in Social Networks by Integrating Local and Global Reputation[M].Internet and Distributed Computing Systems.Springer International Publishing,2014:437-446.
[10]Ramage D,Dumais S T,Liebling D J.Characterizing Microblogs with Topic Models[C]//International Conference on Weblogs and Social Media,Icwsm 2010,Washington,Dc,Usa,May.2010:130-137.
[11]張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計算機研究與發(fā)展,2011,48(10):1795-1802.ZHANG Chenyi,SUN Jianling,DING Yiqun.Topic mining for microblog based on MB-LDA model[J].Research and Development of Computer,2011,48(10):1795-1802.
[12]Naveed N,Gottron T,Kunegis J,et al.Bad News Travel Fast:A Content-based Analysis of Interestingness on Twitter[J].uni,2011:1-7.
[13]Meo P D,Messina F,Rosaci D,et al.Recommending Users in Social Networks by Integrating Local and Global Reputation[M].Internet and Distributed Computing Systems.Springer International Publishing,2014:437-446.
[14]Deerwester S.Indexing by latent semantic analysis[J].Journal of the Association for Information Science and Technology,1990,41(6):391-407.
[15]Kail G,Tourneret J Y,Hlawatsch F,et al.Blind Deconvolution of Sparse Pulse Sequences Under a Minimum Distance Constraint:A Partially Collapsed Gibbs Sampler Method[J].IEEE Transactions on Signal Processing,2012,60(6):2727-2743.
[16]劉淇.基于用戶興趣建模的推薦方法及應用研究[D].合肥:中國科學技術大學,2013:66-72.Liu Qi.A Study of Designing and Applying Recommenders Based on User Interests Modeling[D].Hefei:University of Science and Technology of China,2013:66-72.
[17]Blei D M,Griffiths T L,Jordan M I.The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies[J].Journal of the Acm,2010,57(2):87-103.
[18]https://en.wikipedia.org/wiki/Precision_and_recall#Precision
Feature Extraction Method Based on RLDA Topic Model
FENG XinqiZHANG KunREN YihaoXIE Bin ZHAO Jing
(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094)
In this paper,to accurately mining micro-blog user interest,the data concerning original,reposted and liked micro-blog content as well as the ranking of all these micro-blogs are collected and analyzed.So the accurate description information of micro-blog users'interests is obtained.Then based on the LDA model,we proposed a modified topic feature extraction model named as Ranking LDA is proposed.In comparison to LDA model,RLDA model includs a new concept-Micro-blog popularity ranking to improve the mining accuracy of the micro-blog users'interests.In the process of modeling the RLDA topic model,the concepts of hyper-hyper parameters is introduced.Hyper parameters are sampled from dirichlet distribution.Experiments suggest that,compared with the LDA model,RLDA model achieves quite a great promotion on the accuracy of interest mining for micro-blog users.
interests mining,Micro-blog popularity ranking,Ranking Latent Dirichlet Allocation model,feature extraction,hyper-hyper parameters
TP391.1
10.3969/j.issn.1672-9722.2017.10.019
Class Number TP391.1
2017年4月12日,
2017年5月19日
馮新淇,女,碩士研究生,研究方向:數(shù)據(jù)挖掘與語義分析。張琨,女,博士研究生,教授,研究方向:信息安全與復雜網(wǎng)絡。任奕豪,男,碩士研究生,研究方向:數(shù)據(jù)挖掘,自然語言處理。謝彬,男,博士研究生,高級工程師,研究方向:基礎軟件、大數(shù)據(jù)與網(wǎng)絡科學。趙靜,女,博士研究生,研究方向:信息安全、復雜網(wǎng)絡理論與應用。