陳 宇,許莉薇
(東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,黑龍江 哈爾濱 150040 )
基于高斯混合模型的林業(yè)信息文本分類算法
陳 宇,許莉薇
(東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,黑龍江 哈爾濱 150040 )
為解決傳統(tǒng)林業(yè)信息文本分類算法準(zhǔn)確率低和正確率分布不均勻的問題,提出了一種基于高斯混合模型的林業(yè)信息文本分類算法。在闡述高斯混合模型和EM算法的基礎(chǔ)上,使用TF-IDF方法計(jì)算林業(yè)信息文本特征值,對構(gòu)造的林業(yè)信息文本特征矩陣降維,結(jié)合Kmeans算法,通過訓(xùn)練得到各類林業(yè)信息文本所對應(yīng)的高斯混合模型的參數(shù),構(gòu)造分類器進(jìn)行精準(zhǔn)與快速分類。實(shí)驗(yàn)結(jié)果表明,該算法與神經(jīng)網(wǎng)絡(luò)分類方法、貝葉斯、決策樹等常用分類算法相比,該算法有較高的準(zhǔn)確率和實(shí)用性,為林業(yè)信息文本的分類研究開拓了新思路。
林業(yè)信息;文本分類;高斯混合模型;參數(shù)估計(jì)
文本分類是根據(jù)建立好的分類器,讓計(jì)算機(jī)對給定文本集進(jìn)行分類的過程[1]。文本分類的原理主要是通過建立文本分類器,選擇有代表性的特征與未知樣本比較相似度,將未知文本劃分至最相似的一類文本中。文本分類的過程包括:文本預(yù)處理,文本向量表示,構(gòu)造分類器,分類結(jié)果評價。
國外對文本分類技術(shù)的研究起步較早,并且現(xiàn)階段發(fā)展也比較完善。常用的文本分類算法包括K鄰近算法、貝葉斯算法、決策樹[2]、神經(jīng)網(wǎng)絡(luò)算法[3]等。
我國對文本分類算法的研究起步較晚,初期我國主要對國外技術(shù)總結(jié),隨后是對傳統(tǒng)算法的優(yōu)化改進(jìn),擴(kuò)大了文本特征的選擇的范圍,隨著文本分類技術(shù)的進(jìn)步,現(xiàn)階段我國文本分類技術(shù)發(fā)展的也較好,研究出許多適合文本分類的算法,但是仍存在一些缺陷,在實(shí)際應(yīng)用時因?yàn)橛?xùn)練樣本存在差異,所以使得分類算法對分類結(jié)果差異較大,因此本研究研究的重點(diǎn)就是如何提高對不同類文本分類的準(zhǔn)確率和效率。
現(xiàn)階段對于林業(yè)信息文本分類的研究甚少,因此如何提高林業(yè)信息文本分類的正確率,是一個重要的研究內(nèi)容。
近年來高斯混合模型引起廣泛關(guān)注,高斯混合模型是一種常用的描述混合密度分布的模型,是多個高斯分布的混合分布。在分類問題的學(xué)習(xí)中,能夠有效地體現(xiàn)類內(nèi)數(shù)據(jù)在特征空間中的分布特點(diǎn)。近年來,高斯混合模型在語音識別、人臉識別和圖像處理等方面有很好的應(yīng)用,但將其應(yīng)用在林業(yè)信息文本分類領(lǐng)域的研究甚少。由于高斯混合模型理論比較成熟,且能擬合任何形式的分布,因此在林業(yè)信息文本分類領(lǐng)域也應(yīng)該具有較好的發(fā)展前景。
本研究提出了一種基于高斯混合模型的林業(yè)信息文本分類算法。首先,利用中科院分詞系統(tǒng)對不均衡林業(yè)信息文本進(jìn)行預(yù)處理;其次,使使用經(jīng)典的TF-IDF公式計(jì)算文本分詞的特征值,構(gòu)成特征矩陣[4];然后,對特征矩陣降維;最后,構(gòu)造高斯混合模型分類器(使用參數(shù)估計(jì)算法結(jié)合Kmeans算法得到模型的初始參數(shù)ak、μk、Σk的值,建立分類器),以達(dá)到分類的目的。通過大量實(shí)驗(yàn)論證該算法已達(dá)到預(yù)期目的,有較高的分類正確率,并且準(zhǔn)確率明顯高于BP、決策樹、貝葉斯分類方法,為林業(yè)信息文本分類提供了新方法。
林業(yè)信息文本表示
假設(shè)所有不均衡林業(yè)信息文本有n個特征,形成n維的向量空間,每個林業(yè)信息文本d被表示成n維的特征向量:
Ti為n個分詞中的一個,Wi(d)為Ti在文本d中的權(quán)值, 文本分詞的權(quán)值通過TF-IDF公式計(jì)算[5]:
式(2)中,Wi(d)是計(jì)算出的特征詞Ti的權(quán)值,TF(ti)是特征詞Ti在d中出現(xiàn)的次數(shù),N指樣本總個數(shù),ni為出現(xiàn)了Ti的林業(yè)信息樣本的個數(shù)。
林業(yè)信息文本特征選擇
設(shè)n個樣本,樣本有p項(xiàng)指標(biāo)[6]:X1,X2,…,Xp,得到初始特征矩陣為[4]:
其中:
綜合指標(biāo)向量X是p個向量X1,X2,…,Xp作線性組合:
可簡寫為:
系數(shù)ai=(a1i,a2i,…,api)的限制條件:
特征矩陣的協(xié)方差矩陣是S=(Sij)p×p其中:
計(jì)算S的特征值λ1≥λ2≥…≥λn>0與對應(yīng)單位向量:
X的第i個主成分為Fi=a′iX,i=1,2,…,p
主成分的確定根據(jù)貢獻(xiàn)率ai和累積貢獻(xiàn)率G(r):
實(shí)驗(yàn)中,選擇累積貢獻(xiàn)率達(dá)到99%的主成分,n個文本在所選r個主成分的得分:
林業(yè)信息文本分類算法
林業(yè)信息文本分類常用的方法有BP、貝葉斯、決策樹等,這些方法受到林業(yè)信息樣本影響較大,因此不同樣本分類的正確率差異大,高斯混合模型實(shí)驗(yàn)得到了較好的效果,分類結(jié)果精準(zhǔn)并且正確率分布均勻。
高斯混合模型是一種常用的描述混合密度函數(shù)分布的模型,矢量特征在概率空間的分布狀況通過若干個高斯概率密度函數(shù)的加權(quán)和進(jìn)行描述。即每個高斯混合模型是由K個Gaussian分布構(gòu)成,一個Guassian是“Component”,形成多個分類器,對Component進(jìn)行線性加和形成混合高斯模型的概率密度函數(shù)[7]:
在式(14)中,μk是均值,Σk是協(xié)方差矩陣。
GMM模型的各個分量是通過均值和方差表示的,GMM的分類過程,是以均值為中心的橢圓體分布,方差決定它的幾何性質(zhì)。使用高斯混合模型對林業(yè)信息文本分類,首先對未知參數(shù)K、ak、μk、Σk的值進(jìn)行初始化,才能構(gòu)造GMM模型,對概率密度函數(shù)建模。林業(yè)信息文本的樣本是五類,分為土壤類、花類、樹木類、蟲類、水類。因此參數(shù)K=5,對于剩余3個參數(shù)的估計(jì)有多種方法,使用的比較頻繁的是EM算法。
EM算法也稱作期望最大算法,是對參數(shù)的最大似然估計(jì),此算法主要應(yīng)用在如下方面:其一是對不完整數(shù)據(jù)的估計(jì),其二是假設(shè)缺失的數(shù)據(jù)存在,降低似然函數(shù)復(fù)雜度[8]。
EM算法的執(zhí)行過程[9]:
首先:計(jì)算期望(Expectation),估計(jì)隱含變量。觀測數(shù)據(jù)確定,對完整似然函數(shù)的期望計(jì)算。
其中,θk-1是當(dāng)前的參數(shù)估計(jì)值,θ是更新后的參數(shù)值。
然后:計(jì)算極大值,對其他參數(shù)估計(jì)。
求解θ,使Q(θ,θk-1)得到極大值,即
在高斯混合模型中,樣本數(shù)據(jù)由不完整數(shù)據(jù)構(gòu)成,則加入隱含變量Z={z1,z2,…,zN},zi={zi1,zi2,…,zik}獨(dú)立分布于K類,隱含變量的概率分別為α1,…,αk。滿足如下,
算法執(zhí)行過程中對數(shù)似然函數(shù)定義為:
上式p(k|xi,θt-1)是K類分布的后驗(yàn)概率:
使用梯度法求解條件極值,可得如下關(guān)系:
即
其中
對Q(θ,θk-1)求其關(guān)于μk、Σk的導(dǎo)數(shù),讓其為0可得均值重估公式:
方差重估公式:
迭代終止的條件就是迭代重估公式,直到滿足預(yù)先設(shè)定的條件。EM算法涉及的理論比較簡單和單一,其主要優(yōu)點(diǎn)是簡單和穩(wěn)定,每次迭代都能保證觀察數(shù)據(jù)對數(shù)似然是增大的,但EM算法也有其缺點(diǎn),主要是收斂速度慢,尤其當(dāng)輸入的數(shù)據(jù)維數(shù)過高或者規(guī)模過大時,將嚴(yán)重影響收斂速度。EM算法能找到局部最大點(diǎn),但對于找全局最大點(diǎn)比較困難[10]。EM算法的初始化有嚴(yán)格的要求,對于不同的初始值,能夠使得結(jié)果又較大差異[11]。目前最有效的方法是將Kmeans算法與EM算法相結(jié)合,使用Kmeans算法來計(jì)算群聚中心點(diǎn),當(dāng)做EM參數(shù)中均值的初始輸入值。
Kmeans聚類是聚類算法中常用的算法[12]。該算法輸入?yún)?shù)K,對輸入特征矩陣劃分為K個聚類,相同聚類對象的相似度較高,反之較小。主要思想是:選取K個中心點(diǎn)聚類,對最靠近中心點(diǎn)的對象歸類,通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果[13]。得到各個聚類的中心點(diǎn)之后,將其作為EM算法初始值,該算法使用的很廣泛,尤其是和EM算法相結(jié)合,先對初始數(shù)據(jù)進(jìn)行粗略分類,再將得到的數(shù)據(jù)作為參數(shù)估計(jì)初始化的數(shù)據(jù)。將這兩種算法結(jié)合能能提高EM算法收斂的速度和分類的正確率。
實(shí)驗(yàn)初步針對林業(yè)信息文本樣本進(jìn)行選擇,如表1所示:
表 1 實(shí)驗(yàn)樣本選擇個數(shù)Table 1 Selection numbers of experimental sample
表1所示,選取林業(yè)信息的5個類別:花、樹木、蟲、土壤、水,訓(xùn)練樣本和測試樣本是每個類別選取50個,測試樣本是對原訓(xùn)練樣本數(shù)據(jù)加高斯白噪聲產(chǎn)生,樣本總共500個。
先對樣本進(jìn)行預(yù)處理,使用經(jīng)典的TF-IDF方法計(jì)算文本特征詞的權(quán)值,構(gòu)成訓(xùn)練樣本的初始特征值矩陣,對訓(xùn)練樣本的初始特征矩陣加高斯白噪聲形成測試樣本初始特征矩陣,由于訓(xùn)練和測試樣本初始特征矩陣維數(shù)過大會影響算法執(zhí)行效率,并且在使用有些算法時容易造成過擬合現(xiàn)象,所以對文本初始特征矩陣降維,得到新的特征矩陣,再進(jìn)行分類操作。如下圖1所示為高斯混合模型的林業(yè)信息文本分類的流程圖:
訓(xùn)練和測試樣本初始特征矩陣維數(shù)均為250×1127維,降維后形成新的特征矩陣維數(shù)均為250×213維,文本類別總數(shù)K=5,先利用Kmeans算法求解樣本數(shù)據(jù)中心,即EM算法所需的初始值,然后通過對EM算法的初始化,構(gòu)造高斯混合模型,計(jì)算出初始值為α=[0.2,0.2,0.2,0.2,0.2],μk為213×5維的數(shù)據(jù),Σk規(guī)模為213×213×5,將以上參數(shù)帶入,可得到高斯混合模型結(jié)構(gòu)為:
圖1 構(gòu)造GMM分類器的流程Fig.1 Technological process of constructing GMM classif i er
通過式(26)對測試樣本分類,將每個降維后的測試文本特征矩陣帶入到地f1、f2、f3、f4、f5中,比較其的大小,這5個分量分別代表5個類別,因此哪個分量的值越大,則說明該測試樣本屬于該類別的概率越大,對所有的樣本進(jìn)行此項(xiàng)操作,每次都選出數(shù)值最大的分量,該分量就代表著測試樣本類別。
使用BP、決策樹、Bayesian、GMM四種方法分類,選取相同的樣本,每類樣本各50個,總共250個測試樣本,測試結(jié)果如圖2所示,橫坐標(biāo)是測試樣本數(shù)目,縱坐標(biāo)是分類器分類的正確率。
圖2 分類算法正確率分布Fig.2 Distribution of classif i cation algorithm accuracy
在圖2中,能夠分別看出4種分類方法在處理不同類別文本時分類的正確率,BP神經(jīng)網(wǎng)絡(luò)對林業(yè)信息文本分類時不夠穩(wěn)定[14],對于蟲類文本的識別率很低,決策樹分類方法對林業(yè)信息文本分類時也不夠穩(wěn)定,對于土壤類文本分類正確率很低,貝葉斯和高斯混合模型在處理林業(yè)信息文本時相對穩(wěn)定,但是GMM模型分類算法的正確率高于決策樹分類算法。
圖3是4種分類方法隨著文本數(shù)目的增加所顯示的分類正確率,橫坐標(biāo)為林業(yè)信息文本的測試樣本數(shù)目,縱坐標(biāo)為分類器分類的正確率。本實(shí)驗(yàn)5類文本隨機(jī)各選取5個樣本,共25個樣本,圖中可看出每種分類算法的分類正確率的轉(zhuǎn)折點(diǎn),以及4種分類方法是在第幾個文本樣本判斷時出錯。實(shí)驗(yàn)數(shù)據(jù)對比可得4種分類算法中GMM模型分類性能較高。
圖3 分類器分類結(jié)果對比表示Fig.3 Contrast of classif i cation results
使用250個林業(yè)信息測試樣本,4種分類方法正確率對比圖,圖4中能看出每個分類器的分類效果,橫坐標(biāo)是林業(yè)信息文本測試樣本的數(shù)目,縱坐標(biāo)是分類的正確率。
圖4 分類器分類總結(jié)果對比Fig.4 Comparison of classif i cation results
4種分類器實(shí)驗(yàn)采用相同的訓(xùn)練樣本與測試樣本,主要使用了BP神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯這3種方法與高斯混合模型分類算法作對比,這四種算法實(shí)驗(yàn)結(jié)果如表2所示:
表2 林業(yè)信息文本分類算法結(jié)果比較Table 2 Comparison of forestry information text classification algorithm
通過實(shí)驗(yàn)結(jié)果可知,本研究提出的基于高斯混合模型的林業(yè)信息文本分類算法能夠?qū)崿F(xiàn)對5類林業(yè)信息文本精準(zhǔn)與快速的分類,分類效果明顯優(yōu)于神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯分類算法;分類正確率均勻分布,每類文本都能正確分類,分類能力較強(qiáng)。
基于GMM模型的林業(yè)信息文本分類算法,使用權(quán)值計(jì)算公式TF-IDF計(jì)算權(quán)值后對初始特征矩陣降維,構(gòu)造林業(yè)信息文本的特征矩陣,來反應(yīng)文本的特征。結(jié)合EM算法估計(jì)參數(shù)并通過Kmeans得到初始參數(shù),建立GMM模型。通過實(shí)驗(yàn)表明,GMM算法適用于林業(yè)信息文本的分類,分類正確率高于分類算法神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯,為林業(yè)信息文本分類開拓了新思路,有較高的實(shí)用價值。
[1] 張 浩,汪 楠. 文本分類技術(shù)研究進(jìn)展[J].計(jì)算機(jī)與信息技術(shù), 2007,23(1):95-96.
[2] 陳 利,林 輝,孫 華,等. 基于決策樹分類的森林信息提取研究[J].中南林業(yè)科技大學(xué)學(xué)報(bào), 2013,33(01):46-51.
[3] 李永亮,林 輝,孫 華,等. 基于BP神經(jīng)網(wǎng)絡(luò)的森林樹種分類研究[J].中南林業(yè)科技大學(xué)學(xué)報(bào), 2010,30(11):43-46.
[4] 章 蘭. 一種基于VSM模型的動態(tài)文本分類器的設(shè)計(jì)[D].蘇州:蘇州大學(xué),2004.
[5] 段江麗. 基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計(jì)算算法的研究[D].太原:太原理工大學(xué),2011.
[6] 王雅菲. 文本分類中特征降維方法的研究[D].長春:長春工業(yè)大學(xué), 2010.
[7] 岳 佳,王士同. 高斯混合模型聚類中EM算法及初始化的研究[J].微計(jì)算機(jī)信息,2006,11(3):244-246.
[8] A P Dempster, N M laired, D B Rubi n. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, 1977,B(39):1-38.
[9] 岳 佳,王士同. 雙重高斯模型的EM算法的聚類問題研究[J].計(jì)算機(jī)仿真,2007,24(11):110-113.
[10] 曹紅麗.混合高斯模型的混合EM算法研究及聚類應(yīng)用[D].烏魯木齊:新疆大學(xué),2010.
[11] Jinwen Ma,Shuqun Fu. On the correct convergence of the EM algorithm for Gaussian mixtures[J]. Pattern Recognition, 38(12):2602-2611.
[12] Jamshidian M, Jennrich R I. Conjugate gradient acceleration of the EM algorithm[J]. Journal of the American Statistical Association, 1993, 88:221- 228.
[13] Jie Cao, Zhang Wu, Junjie Wu, Wenjie Liu. Towards informationtheoretic K-means clustering for image indexing[J]. Signal Processing, 2012.
[14] 楊新武,李 森,劉椿年. 基于BP網(wǎng)絡(luò)的中文文本分類技術(shù)[J].微計(jì)算機(jī)應(yīng)用,2008,29(3):1-6.
Forestry information text classif i cation algorithm based on GMM model
CHEN Yu, XU Li-wei
(School of Information and Computer Science, Northeast Forestry University, Harbin 150040, Heilongjiang, China)
In order to solve the problems of low categorization accuracy and uneven distribution of the traditional forestry information text classif i cation algorithm, a forestry information text classif i cation algorithm based on Gaussian mixture model (GMM) was puts forward. On the basis of Gaussian mixture model (GMM) and the principle of parametric estimation algorithm, the formula of TFIDF was used to compute text eigenvalue, the constructed feature matrix of forestry information text was reduced in the dimension of eigenmatrix. The Kmeans algorithm should be used, then get the parameters of Gaussian mixture model (GMM) through training of forestry information text, lastly a classif i er of Gaussian mixture model (GMM) was established to achieve the goal of faster and accurate classif i cation of forestry information text. The experimental results show that the algorithm has higher accuracy and practicality than the algorithm of neural network and Bayesian and decision tree, and the algorithm pioneer new ideas for studying the forestry information text classif i cation algorithm.
forestry information;text classif i cation; Gaussian mixture model; parametric estimation
S711
A
1673-923X(2014)08-0114-06
2013-09-02
國家948項(xiàng)目(2011-4-04);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(DL12CB02);黑龍江省教育廳科學(xué)技術(shù)研究項(xiàng)目(12513016);黑龍江省博士后基金;黑龍江省自然科學(xué)基金項(xiàng)目(F201347);哈爾濱市科技創(chuàng)新人才專項(xiàng)資金項(xiàng)目(2013RFQXJ100)
陳 宇(1975-),男,黑龍江哈爾濱人,博士后,副教授,研究方向?yàn)閿?shù)學(xué)物理反問題求解,探測與成像,圖像處理
[本文編校:文鳳鳴]