卜天然(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽蕪湖 241002)
基于WLabeled-LDA模型的文本分類研究
卜天然
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽蕪湖 241002)
Labeled-LDA模型引入了類別標(biāo)簽信息,較傳統(tǒng)的LDA主題模型改進了強制分配主題的問題,但Labeled-LDA模型仍存在一些問題,例如Labeled-LDA在訓(xùn)練主題模型之前沒有去除無用詞,在訓(xùn)練過程中沒有考慮詞與各類別的關(guān)聯(lián)度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導(dǎo)致主題的表達能力降低等問題。本文提出WLabeled-LDA模型,在訓(xùn)練主題模型之前使用卡方特征來選出好的特征詞,訓(xùn)練主題模型時用獲得的詞對類別的卡方值進行主題模型加權(quán),并使用高斯密度函數(shù)對特征詞加權(quán)來降低高頻詞對主題表達能力的影響。實驗結(jié)果顯示,此方法能使分類的準(zhǔn)確率和召回率得到一定的提高,說明其具有更好的分類效果。
文本分類;隱含狄利克雷分配(LDA);卡方統(tǒng)計;特征選擇;加權(quán)主題模型
近年來,互聯(lián)網(wǎng)上文本數(shù)據(jù)急劇增長,自動文本分類成為有效分析并利用這些文本信息的有效方法,現(xiàn)已被應(yīng)用到搜索引擎﹑信息檢索﹑信息推送等領(lǐng)域。自動文本分類是指對未知類別的文本通過某種分類方法,自動將其判定為相應(yīng)的類別。
文本表示是文本分類研究的重要內(nèi)容。向量空間模型[1](VSM-Vector Space Model)是一種經(jīng)典的文本表示模型,但VSM特征維度往往較大,且不能對語義問題進行建模。一些新的模型引入統(tǒng)計思想來挖掘文本的主題信息,能較好地解決語義問題,且能降低文本的表示維度。Deerwester和Dumais等提出的隱含語義索引(LSI-Latent Semantic Indexing)[2]模型并不是真正的主題模型,只通過矩陣的奇異值分解來選擇部分特征,起到降維的作用。經(jīng)過一系列的研究,針對LSI模型的理論基礎(chǔ)不夠清晰,Thomas Hofmann發(fā)展了PLSI(Probability Latent Semantic Indexing)模型[3],PLSI的降維效果較顯著,但模型的參數(shù)空間隨著訓(xùn)練數(shù)據(jù)規(guī)模的增長而增大,導(dǎo)致過度擬合的現(xiàn)象,不適合對動態(tài)增長或規(guī)模較大的數(shù)據(jù)集進行主題建模。針對這些問題,Blei等在PLSI的基礎(chǔ)上提出了LDA(Latent Dirichlet Allocation)模型[4-5],得到一個更為完整的概率生成主題模型,LDA模型參數(shù)簡單且不會產(chǎn)生過度擬合的現(xiàn)象,但LDA存在強制分配問題。李文波提出LDA的變形Labeled-LDA模型[6],通過引入類別標(biāo)簽信息,在各類別上協(xié)同計算主題的分配量,從而克服傳統(tǒng)LDA模型強制分配主題的問題。
但Labeled-LDA模型仍存在一些缺陷,例如在訓(xùn)練主題模型之前沒有去除分類價值較小的無用詞,在訓(xùn)練過程中沒有考慮詞與各類別的關(guān)聯(lián)度,不能區(qū)分不同的詞對主題的貢獻度的不同,且Labeled-LDA模型獲得的主題分布傾向于高頻詞導(dǎo)致主題的表達能力受高頻詞的影響而降低。本文在Labeled-LDA的基礎(chǔ)上提出WLabeled-LDA模型,在訓(xùn)練主題模型前使用卡方特征選擇[7-8]來選出好的特征詞,在訓(xùn)練主題模型的統(tǒng)計過程中將卡方特征選擇計算獲得的詞通過類別的卡方值對主題模型加權(quán),以區(qū)分不同詞貢獻度的大小,并使用高斯密度函數(shù)對特征詞加權(quán)來降低高頻詞對主題表達能力的影響,提高主題的表達能力,實驗結(jié)果表明,上述改進的模型能獲得較好的分類效果。
1.1 卡方特征選擇方法
卡方檢驗是數(shù)理統(tǒng)計中一種檢驗兩個變量獨立性的方法,假設(shè)兩個變量是相互獨立的,再比較實際值與理論值(兩個變量在獨立性條件下應(yīng)該有的值)的偏差,如果偏差足夠小,就認為誤差是由樣本的偶然性造成的,則兩個變量相互獨立的假設(shè)成立;如果偏差大到一定程度,則認為產(chǎn)生誤差的原因不是樣本偶然性,推翻原假設(shè),認為兩個變量之間是相關(guān)的,并且卡方統(tǒng)計的值越大,兩者的相關(guān)性越大?,F(xiàn)考察詞t與類別c的卡方值CHI(t,c)。
表1 關(guān)于詞t對類別c的文本數(shù)量統(tǒng)計
其中,N是訓(xùn)練集中文檔的總數(shù),A是包含詞w且屬于類c的文檔數(shù)量,B是包含詞w但不屬于類c的文檔數(shù)量,C是不包含詞w且屬于類c的文檔數(shù)量,D是不包含詞w且屬于類c的文檔數(shù)量。根據(jù)詞t與類別c相獨立的原假設(shè),類別c中包含詞t的文檔比例應(yīng)與整個訓(xùn)練集中包含詞t的文檔比例相同。這樣得到A的理論值如式(1)所示[7-8]。
(1)
于是得到樣本觀察值與理論值的偏差如式(2)所示[7-8]。
(2)
同理可以得到DB,DC,DD。于是得到詞t對類別c的卡方值如式(3)所示[7-8]。
(3)
式(3)是針對一個類別的情況,如果對于多類別的問題,先按式(3)計算特征t與每個類別的卡方值,再計算特征t對整個系統(tǒng)的卡方值,有兩種計算方式分別如式(4)和式(5)所示[7-8]。
(4)
(5)
1.2 LDA模型
LDA[4-5]是對離散數(shù)據(jù)集建模的主題模型,具有清晰的三層貝葉斯結(jié)構(gòu)(圖1),即文檔-主題-特征詞三層結(jié)構(gòu),一篇文檔可以看成若干個主題構(gòu)成的,以不同的概率分布在各個主題上,主題是由若干個特定詞匯所構(gòu)成,每個詞以一定的概率出現(xiàn)在該主題下。LDA模型挖掘文本的主題信息能夠分析深層的語義知識,常見的語義現(xiàn)象包括一詞多義和一義多詞,比如說文檔A中的“蘋果”與文檔B中的“香蕉”這兩個詞都與主題“水果”相關(guān),這可以理解為一義多詞;詞匯“蘋果”不僅與主題“水果”相關(guān),還與“電子產(chǎn)品”這個主題相關(guān),這是一詞多義。
圖1 LDA文檔結(jié)構(gòu)圖
圖2 LDA有向生成概率圖
所謂生成過程,可以理解為一篇文檔的每個詞都是通過“以一定概率選擇某個主題,再從該主題中以一定概率選擇某個詞”這樣一個過程得到。LDA概率主題模型生成文本集的算法過程[4]如下:
(6)
(7)
(8)
1.3 Labeled-LDA模型
傳統(tǒng)的LDA模型對文本集合建模時,集合中的所有文本只討論一組隱含主題,這樣會導(dǎo)致文本在不屬于自己的類別上進行生成,從而產(chǎn)生主題強制分配問題。為此Labeled-LDA[6]模型在LDA的基礎(chǔ)上引入了類別標(biāo)簽的信息,Labeled-LDA的文檔結(jié)構(gòu)如圖3所示,Labeled-LDA的有向概率生成模型如圖4所示。
圖3 Labeled-LDA文檔結(jié)構(gòu)圖
圖4 Labeled-LDA有向生成概率圖
Labeled-LDA模型描述文本集合時,將文本按照類別劃分,每一類別分別挖掘若干個主題,這樣就將類別標(biāo)簽附加到主題,嵌入了類別標(biāo)簽信息。傳統(tǒng)的LDA模型參數(shù)α與β只有一組,而Labeled-LDA模型參數(shù)α與β按照類別被分為C組,即α=(α1,…,αc,…,αC),β=(β1,…,βc,…,βC),參數(shù)(αC,βC)決定了類別c中的那組隱含主題,這就使用了類別標(biāo)簽對每個隱含主題進行了標(biāo)記,αC和βC是類別c的先驗分布參數(shù)。θ=(θ1,…,θc,…,θC),其中θC表示文本在類別c的那組隱含主題分布,φ=(φ1,…,φc,…,φC),φC表示類別c中主題的詞分布。
Labeled-LDA針對LDA模型存在強制分配主題問題作出改進,但仍存在以下缺陷:第一,對Labeled-LDA模型訓(xùn)練前沒有進行特征詞選擇,一些分類價值較小的詞或者噪聲詞會對模型的主題模型的訓(xùn)練產(chǎn)生干擾,從而影響模型的效果,并且在模型訓(xùn)練時會有較大的時間開銷。第二,Labeled-LDA在模型訓(xùn)練時沒有考慮詞與類別的關(guān)聯(lián)度,例如“跑步”與類別標(biāo)簽“體育”的關(guān)聯(lián)度比“礦泉水”更加緊密,這可以用卡方特征選擇計算的CHI(t,c)來區(qū)分不同詞與類別的關(guān)聯(lián)度的差異。第三,Labeled-LDA模型在訓(xùn)練過程中根據(jù)詞出現(xiàn)的頻次來統(tǒng)計主題的分布,這就導(dǎo)致主題模型的主題分布傾向于高頻詞,最終導(dǎo)致主題表達能力削弱。
對于傳統(tǒng)Labeled-LDA模型存在的缺點,本文對其進行了相應(yīng)的改進,提出一種新的主題模型WLabeled-LDA。
首先,WLabeled-LDA在訓(xùn)練主題模型之前采用卡方特征選擇方法選擇分類價值較大的特征詞,同時起到降維的作用,卡方特征選擇方法見1.4節(jié)所述。
其次,WLabeled-LDA在訓(xùn)練主題模型時,將卡方特征選擇計算得到的卡方值CHI(t,c)對主題模型加權(quán),以區(qū)分不同的詞與類別的關(guān)聯(lián)度的差異,例如“跑步”與類別“體育”的卡方值為0.6,“礦泉水”與類別“體育”的卡方值為0.2,則表明“跑步”與“體育”的關(guān)聯(lián)度更大。Gibbs采樣過程中θ和φ新的計算公式如式(9)和式(10)所示。
(9)
(10)
再次,由于WLabeled-LDA在對主題分布的統(tǒng)計過程中傾向于高頻詞,降低了低頻詞的表達作用,為此引入高斯密度函數(shù)來降低高頻詞的作用,高斯密度函數(shù)圖像如圖5所示,當(dāng)詞頻較高時,它的函數(shù)值并沒有一直在增大,這就降低了詞頻過高所產(chǎn)生的影響。在Gibbs采樣過程中用高斯密度函數(shù)值對詞進行加權(quán),權(quán)重計算方法如式(11)所示。
(11)
于是得到GIbbs采樣過程中θ和φ的計算如式(12)和(13)所示。
(12)
(13)
圖5 高斯密度函數(shù)圖像
3.1 實驗數(shù)據(jù)
語料庫選用的是復(fù)旦大學(xué)中文語料庫,在藝術(shù)﹑歷史﹑空間﹑計算機﹑環(huán)境五個類別中分別選擇訓(xùn)練文本300篇﹑測試文本200篇構(gòu)成實驗數(shù)據(jù)集。
3.2 相似度計算
文本被表示成主題之后成為一個主題向量,兩個文本的相似度采用向量余弦夾角[9]來度量,分類算法采用經(jīng)典的K最臨近算法(KNN-K-NearestNeighbor)[9]。余弦夾角的計算如式(14)所示。
(14)
3.3 評價指標(biāo)
采用宏觀準(zhǔn)確率Macro_P[10]和宏觀召回率Macro_R[10]作為評價指標(biāo),Macro_P和Macro_R的計算分別如式(15)和式(16)所示。
(15)
(16)
3.4 實驗過程
實驗選用中科院分詞系統(tǒng)ICTCLAS2015,在myecl-ipse2014開發(fā)環(huán)境中編寫java程序,在同樣的數(shù)據(jù)集上分別針對LDA、Labeled-LDA、WLabeled-LDA三種模型進行文本分類實驗,實驗流程設(shè)計如圖6所示。
圖6 文本分類流程圖
3.5 實驗結(jié)果對比
采用LDA、Labeled-LDA、WLabeled-LDA三種模型并結(jié)合KNN[9]分類算法進行文本分類的準(zhǔn)確率如圖7所示,可以看出主題數(shù)為115時WLabeled-LDA方法的準(zhǔn)確率達到最大值84.74%,主題數(shù)大于115時分類的準(zhǔn)確率略微下降并趨于穩(wěn)定,較LDA方法提高5.8%,較Labeled-LDA提高3.42%,從數(shù)據(jù)的比較可以看出WLabeled-LDA方法的分類準(zhǔn)確率高于LDA和Labeled-LDA,說明其具有更好的分類效果。
圖7 準(zhǔn)確率
采用三種模型進行文本分類的召回率如圖8所示。在主題數(shù)為95時WLabeled-LDA方法達到最大值88.56%,主題數(shù)為115時LDA、Labeled-LDA方法的召回率分別達到最大值81.79%和84.33%。比較數(shù)據(jù)得知,WLabeled-LDA具有更好的分類效果,說明該改進方法的有效性。
圖8 召回率
主題模型在對文本建模時引入了深層語義的知識,降低了文本表示的緯度,這對文本分類結(jié)果起重要作用,但LDA及關(guān)于LDA改進的主題模型在主題挖掘時對語義的理解仍然存在一些問題,它們只能分析一義多詞和一詞多義這兩種情形,并不能對詞的順序不同產(chǎn)生的語義進行較好的分析,例如“父母愛你嗎”與“你愛父母嗎”這兩句話包含的詞完全相同,只是因為詞的順序不同導(dǎo)致這兩句話的意思大不相同,主題模型并不能分析出這種語義,這需要結(jié)合詞法方面知識對語義進行更深層次的分析,這是下一步工作的重點。
[1]SaltonG,WongA,YangCS.Avectorspacemodelforautomaticindexing[J].CommunicationsoftheACM,1975(18): 613-620.
[2]DeerwesterS,DumaisT.Indexingbylatentsemanticindexing[J].JournaloftheAmericanSocietyforInformationScience,1990(6):391-407.
[3]ThomasHofmann.Probabilisticlatentsemanticindexing[C].ProceedingsoftheSIGIR.Berkeley,CA,USA,1999: 50-57.
[4]BleiD,NgA,JordanM.Latentdirichletallocation[J].JournalofMachineLearningReasearch,2003(3): 993-1002.
[5]GregorHeinrich.Parameterestimationfortextanalysis[R].VsonixvsonixGmbHandUniversityofLeipzig,2008.
[6]李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學(xué)報,2008(4):620-627.
[7]陳亮,龔儉.基于卡方統(tǒng)計的應(yīng)用協(xié)議流量行為特征分析方法[J].軟件學(xué)報,2010(11):2852-2865.
[8]劉健,張維明.基于互信息的文本特征選擇方法研究與改進[J].計算機工程與應(yīng)用,2008(10):135-137.
[9]YaoBin,LiFeifei,KumarP.KnearstneighborqueriesandkNN-Joinsinlargerelationaldabase(almost)forfree[C].IEEE,InternationalConferenceonDataEngineering,2010:4-15.
[10]李艷嬌,蔣同海.基于改進權(quán)重貝葉斯的維文文本分類模型[J].計算機工程與設(shè)計,2012(12):4726-4730.
[11]GfiffithsTL.SteyversM.Findingscientifictopics[C].ProceedingoftheNationalAcademyofSciences,2004:5228-5235.
Research on Categorization of Chinese Text Based on WLabeled-LDA Model
BU Tian-ran
(Anhui Business College, Wuhu Anhui 241002, China)
Labeled-LDA model integrates the class label information,it improves the problem of compulsive allocation compared with the traditional LDA model.However,Labeled-LDA dosen’t remove the useless words before the training topic model,it dosen’t consider the relevance between the words and the categories in the process of training,and the distribution of topics is inclined to high frequency words so that it reduces the expressive ability of topics.An improved model of WLabeled-LDA is proposed in this paper.It uses CHI-square feature selection algorithm to select feature words before training.When topic model is trained,it’s weighted by CHI-square value and feature words are weighted by Gauss function to reduce the effects of high frequency words.The experimental results show that the method above is more effective in terms of precision and recall.
text categorization;Latent Dirichlet Allocation(LDA);CHI-square statistic; feature selection;weighting topic model
2017-01-07
安徽省省級自然科研一般項目“基于Nutch的節(jié)能減排垂直搜索引擎設(shè)計與應(yīng)用研究”(KJSM201601);安徽商貿(mào)職業(yè)技術(shù)學(xué)院院級科研項目“基于Hadoop平臺的文本聚類算法研究”(2016KYZ05)。
卜天然(1981- ),男,講師,碩士,H3C網(wǎng)絡(luò)高級工程師,從事虛擬網(wǎng)絡(luò)計算與數(shù)據(jù)挖掘研究。
TP18
A
2095-7602(2017)04-0006-07