陳科文,張祖平,龍 軍
中南大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410083
文本分類中基于熵的詞權(quán)重計(jì)算方法研究*
陳科文+,張祖平,龍軍
中南大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410083
隨著文本數(shù)據(jù)量變得很大且仍在迅猛增加,自動文本分類變得越來越重要。為了提高分類準(zhǔn)確率,作為文本特征的詞的權(quán)重計(jì)算方法是文本分類領(lǐng)域的研究熱點(diǎn)之一。研究發(fā)現(xiàn),基于信息熵的權(quán)重計(jì)算方法(熵加權(quán))相對于其他方法更有效,但現(xiàn)有方法仍然存在問題,比如在某些語料庫上相比TF-IDF(term frequency &inverse document frequency),它們可能表現(xiàn)較差。于是將對數(shù)詞頻與一個新的基于熵的類別區(qū)分力度量因子相結(jié)合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法。通過在TanCorp、WebKB和20 Newsgroups語料庫上使用支持向量機(jī)(support vector machine,SVM)進(jìn)行一系列文本分類實(shí)驗(yàn),驗(yàn)證和比較了8種詞權(quán)重計(jì)算方法的性能。實(shí)驗(yàn)結(jié)果表明,LTF-ECDP方法比其他熵加權(quán)方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更優(yōu)越,不僅提高了文本分類準(zhǔn)確率,而且在不同數(shù)據(jù)集上的性能更加穩(wěn)定。
特征詞權(quán)重;熵加權(quán);文本分類;類別區(qū)分力
隨著計(jì)算機(jī)應(yīng)用的普及和互聯(lián)網(wǎng)規(guī)模的不斷發(fā)展,文本數(shù)據(jù)量變得非常龐大且仍在迅猛增加,比如每天都有大量的以文本內(nèi)容為主的電子文獻(xiàn)、網(wǎng)頁、消息和郵件在不斷地產(chǎn)生。因此,作為文本組織與挖掘的基本技術(shù)手段之一,自動文本分類(text categorization,TC)變得越來越重要。為了進(jìn)一步提高文本分類的性能,研究人員主要從兩個方面開展研究:一是改善分類算法(或?qū)W習(xí)模型);二是改善文本數(shù)據(jù)表示模型。眾所周知,在文本分類領(lǐng)域,通常采用向量空間模型(vector space model,VSM)來表示文本,就是在分類之前把每個文本文檔都表示成由一定數(shù)量的特征詞的權(quán)重值所組成的向量。這種表示法涉及到特征詞的選擇和權(quán)重計(jì)算兩方面。其中特征選擇的主要目的是降低文本特征維度,以提高分類速度,同時又保持較高準(zhǔn)確率。特征選擇必須考慮文本中不同詞條的重要性,往往又依賴于權(quán)重計(jì)算。而特征詞的權(quán)重計(jì)算是否合理則直接影響到文本分類的準(zhǔn)確率。因此,特征詞權(quán)重計(jì)算方法成為文本分類領(lǐng)域的研究熱點(diǎn)之一。
特征詞權(quán)重計(jì)算(或權(quán)重分配)可簡稱為詞加權(quán)(term weighting),在后面的敘述中,這幾個術(shù)語可以互換。眾所周知,最常用的文本特征詞權(quán)重計(jì)算方法是TF-IDF方法[1],即根據(jù)詞頻與反文檔頻率(term frequency&inverse document frequency)來計(jì)算特征詞的權(quán)重。這種方法起源于信息檢索領(lǐng)域,并在文本分類和聚類領(lǐng)域也得到了廣泛應(yīng)用。實(shí)際上,TFIDF方法在文本分類領(lǐng)域并不是最有效的,因?yàn)樗谟?jì)算特征詞的權(quán)重時沒有考慮文本的類別。于是,研究人員一直在努力改進(jìn)TF-IDF,并提出了一些新的權(quán)重計(jì)算方法。其中很多方法都有一個共同特點(diǎn),就是利用已知的文本類別信息,因此這些方法統(tǒng)稱為有監(jiān)督詞加權(quán)(supervised term weighting,STW)[2]。很多STW方法只利用了特征詞在正反兩類文本上的分布[2-3],也有一些方法考慮了特征詞在多個類別上的分布,比如基于信息熵的權(quán)重計(jì)算方法(簡稱為熵加權(quán))[4-8]。盡管某些方法已在特定數(shù)據(jù)集上的文本分類實(shí)驗(yàn)中被證明是有效的,但是至今沒有人對它們在不同數(shù)據(jù)集上的性能作進(jìn)一步的驗(yàn)證并與更多的方法比較。本文對各種特征詞權(quán)重計(jì)算方法進(jìn)行了系統(tǒng)的研究,發(fā)現(xiàn)基于熵的權(quán)重計(jì)算方法相對而言一般更加有效,但是現(xiàn)有研究工作仍然存在一些問題或不足,于是提出了一種新的熵加權(quán)方法,并通過在不同數(shù)據(jù)集上的大量實(shí)驗(yàn)來比較它與其他多種典型的權(quán)重計(jì)算方法的性能,實(shí)驗(yàn)結(jié)果充分證明了它的優(yōu)越性。
本文組織結(jié)構(gòu)如下:第2章分析幾種典型的特征詞權(quán)重計(jì)算方法及其局限性;第3章介紹新的熵加權(quán)方法;第4章詳細(xì)介紹一系列文本分類實(shí)驗(yàn),包括實(shí)驗(yàn)數(shù)據(jù)集的選擇及其預(yù)處理、實(shí)驗(yàn)步驟和具體方法,以及最終的實(shí)驗(yàn)結(jié)果,并對結(jié)果進(jìn)行了分析和討論;第5章總結(jié)全文。
下面將介紹幾種典型的特征詞權(quán)重計(jì)算方法,以便于比較。
2.1傳統(tǒng)的TF-IDF方法
最流行的特征詞權(quán)重計(jì)算方法就是傳統(tǒng)的TFIDF。根據(jù)TF-IDF方法,一個特征詞tk在某個文檔中的權(quán)重w(tk)不僅取決于它在該文檔中出現(xiàn)的次數(shù),即詞頻(term frequency,TF),表示為tfk,而且還取決于整個語料庫中包含它的文檔數(shù)目,即文檔頻率(document frequency,DF),表示為dfk。盡管研究人員提出了TF-IDF的多個變種,但通常使用式(1)表示的標(biāo)準(zhǔn)形式[1,9]。
其中,N表示語料庫中的總文檔數(shù)。因?yàn)榫植恳蜃觮fk受文檔長度的影響,所以通常還要采用所謂的“余弦歸一化(cosine normalization)”方法[9]對同一文檔中所有特征詞ti(i=1,2,…,n)的權(quán)重作歸一化處理:
其中,n表示不同特征詞的數(shù)目;wˉ(tk)就是歸一化后的最終權(quán)重。
眾所周知,自動文本分類是利用已經(jīng)分好類的訓(xùn)練文本集來對待分類的新文本的類別進(jìn)行預(yù)測,但是TF-IDF方法并沒有利用已知的文本類別信息。例如,假設(shè)有兩個特征詞t1和t2,其文檔頻率相同df1=df2,所不同的是,t1在多個類別的文本中出現(xiàn),而t2只在單個類別的文本中出現(xiàn)。顯然t2的類別區(qū)分力比t1大,但是它們用反文檔頻率(inverse document frequency,IDF)表示的全局權(quán)重因子是相同的。因此,TF-IDF權(quán)重不能充分反映特征詞在文本分類中的重要性。
2.2有監(jiān)督的TF-RF方法
為了克服TF-IDF方法在文本分類中的不足,研究人員提出了有監(jiān)督詞加權(quán)的概念[2],即利用已知的文本類別信息來計(jì)算特征詞的權(quán)重。很多STW方法都采用文本分類中的特征選擇指標(biāo),比如卡方統(tǒng)計(jì)量(Chi-square)、信息增益、互信息量等,以取代傳統(tǒng)的IDF因子或者作為附加的全局權(quán)重因子[2-3]。也有一些研究人員提出了新的STW方法[3,10-12],其中典型代表就是TF-RF(term frequency&relevance frequency),它在多個場合比TF-IDF等其他方法更加優(yōu)越[3,11]。根據(jù)TF-RF方法,特征詞tk在屬于類別cj的某個文檔中的權(quán)重w(tk,cj)計(jì)算方法如下:
然而,上面有關(guān)STW方法的研究工作大多數(shù)都只考慮特征詞在正反兩類文本上的粗粒度分布,并且實(shí)驗(yàn)結(jié)果都是從兩類分類實(shí)驗(yàn)中得到的,即使使用了多類別數(shù)據(jù)集,也是以一對余(one-against-rest)的方式進(jìn)行多次正反兩類分類實(shí)驗(yàn)。因此,這些權(quán)重計(jì)算方法對于兩類以上的多類別文本分類不一定是最優(yōu)的。
2.3基于熵的權(quán)重計(jì)算方法
為了進(jìn)一步提高文本分類的性能,在為特征詞分配權(quán)重時,就有必要考慮它在多個文本類別上的細(xì)粒度分布。根據(jù)其分布特性來判斷特征詞的類別相關(guān)性,從而為它分配合適的權(quán)重。特征詞在文本集中的分布特性可以用香農(nóng)(Shannon)的信息熵理論來分析。在文本分類領(lǐng)域,文獻(xiàn)[4]較早將信息熵理論用于特征詞權(quán)重計(jì)算,并通過理論推導(dǎo)提出了一種新的權(quán)重計(jì)算方法:
其中,w(tk,cj)表示特征詞tk與類別cj相關(guān)的權(quán)重;Nj表示類別cj中的文檔數(shù);N表示訓(xùn)練集中的總文檔數(shù);dfkj和dfk的含義與式(3)相同,分別表示特征詞的類別文檔頻率和總文檔頻率。
然而,這種方法存在嚴(yán)重的問題。首先,論文中理論分析有錯,比如作者在用Bayes定理進(jìn)行推導(dǎo)時錯誤地將以 cj為條件的tk的概率 P(tk|cj)表示為dfkj/dfk,實(shí)際上這個比值應(yīng)該是條件概率P(cj|tk)。概念錯誤最終導(dǎo)致結(jié)論錯誤。其次,由于原文沒有給出實(shí)驗(yàn)結(jié)果,用這種方法在TanCorp語料庫上做了文本分類實(shí)驗(yàn)(具體實(shí)驗(yàn)方案見第4章),得到的實(shí)驗(yàn)結(jié)果如表1所示,其中EWdiao就是文獻(xiàn)[4]提出的權(quán)重計(jì)算方法。表1給出了當(dāng)選擇不同特征數(shù)時兩種方法所對應(yīng)的用微平均F1值(micro-F1)表示的文本分類準(zhǔn)確率。很明顯,用式(4)表示的EWdiao方法的性能比TF-IDF差得多。
Table 1 Performance comparison between two term weighting methods表1 兩種特征詞權(quán)重計(jì)算方法的性能比較
特征詞在不同類別的文本中出現(xiàn)具有一定的不確定性,這種不確定性可用熵(entropy)來度量。對于類別相關(guān)的特征詞,不確定性小,則熵小,應(yīng)分配大的權(quán)重;而對于類別無關(guān)的特征詞,不確定性大,則熵大,應(yīng)分配小的權(quán)重。因此,特征詞的權(quán)重與熵的大小是相反的關(guān)系。基于這種思想,近幾年研究人員提出了幾種新的基于信息熵的特征詞權(quán)重計(jì)算方法,統(tǒng)稱為熵加權(quán)(entropy-based weighting,EW)方法。文獻(xiàn)[5]和[6]都提出了在TF-IDF權(quán)重中引入信息熵因子的方法,并且這種權(quán)重因子是根據(jù)特征詞tk的類間分布熵H(tk)的倒數(shù)1/H(tk)(簡稱為反熵)來計(jì)算的。兩者的主要區(qū)別有兩點(diǎn):一是權(quán)重歸一化處理順序不同,文獻(xiàn)[5]是先將TF-IDF權(quán)重按式(2)進(jìn)行余弦歸一化后再乘以信息熵因子,而文獻(xiàn)[6]是先將TF-IDF權(quán)重乘以信息熵因子后再進(jìn)行余弦歸一化。二是信息熵因子的表示略有不同,文獻(xiàn)[5]使用反熵的對數(shù)lb(1/H(tk)+1),而文獻(xiàn)[6]直接用反熵1/H(tk)作為權(quán)重因子。此外,為了避免分母變?yōu)?,兩者都附加了一個相似的非零函數(shù)值,即用H(tk)+ φ(dfk)來代替H(tk),其中φ(dfk)是特征詞tk的文檔頻率dfk的函數(shù)。但是文獻(xiàn)[7]與上面兩種方法不同,為了改進(jìn)TF-IDF他們提出了用信息熵因子取代IDF因子的做法,并且把信息熵因子表示為h-H(tk),其中h是一個比H(tk)大的常數(shù),但原文并未明確其取值為多少。應(yīng)當(dāng)指出,在上面3種方法中,H(tk)都是根據(jù)特征詞tk在不同文本類別cj(j=1,2,…,m)中出現(xiàn)的概率P(tk,cj)來計(jì)算的,但是類別概率P(tk,cj)的計(jì)算方法不同,分別為dfkj/dfk[5]、dfkj/(dfk+1)[6]和dfkj/N[7](這里N為總文檔數(shù))。
除了上述根據(jù)特征詞的類間分布熵來計(jì)算權(quán)重的方法外,也有一些研究人員提出將特征詞在每個類別內(nèi)部的分布信息熵也引入權(quán)重計(jì)算中,比如文獻(xiàn)[8,13-14]。第4.6節(jié)將討論這些引入類內(nèi)分布熵的方法的有效性。
盡管上面提到的一些方法在特定語料庫的文本分類實(shí)驗(yàn)中已被證明是有效的,但是至今沒有人對這些方法在其他不同語料庫上的性能做進(jìn)一步的驗(yàn)證并與更多方法進(jìn)行比較,尤其是沒有將幾種不同的熵加權(quán)方法的性能做比較。而且,通過實(shí)驗(yàn)也發(fā)現(xiàn),上述方法在不同語料庫上的性能不穩(wěn)定,有時表現(xiàn)得比傳統(tǒng)的TF-IDF方法更差。鑒于此,通過反復(fù)研究,提出了一種新的熵加權(quán)方法,并在不同數(shù)據(jù)集上做了大量文本分類實(shí)驗(yàn),驗(yàn)證了它的有效性和優(yōu)越性。
3.1特征詞的類別區(qū)分力
特征詞的權(quán)重應(yīng)當(dāng)根據(jù)它在文本分類中的重要性來分配,而特征詞的重要性體現(xiàn)在它的類別區(qū)分力(class distinguishing power,CDP)的大小,因?yàn)轭悇e區(qū)分力大的詞更有助于區(qū)分不同類別的文本。顯然,一個只與單類相關(guān)的特征詞具有比與多類相關(guān)的特征詞更大的類別區(qū)分力。類別區(qū)分力大的特征詞往往集中出現(xiàn)在單個或少數(shù)類別中,它們在多個類別上的分布表現(xiàn)出高度不均勻性。這種不均勻性可以用特征詞的類間分布熵來度量,比如類別文檔頻率(DF)分布熵,表示如下:
當(dāng)特征詞只出現(xiàn)在單個類別的文本中時,它的類別區(qū)分力最大,而熵Edf(tk)最小且為0。當(dāng)特征詞在所有類別cj(j=1,2,…,m)中均勻分布時,它的類別區(qū)分力最小,而熵Edf(tk)達(dá)到最大值Emax=lb(m)。因?yàn)樘卣髟~的類別區(qū)分力與類別DF分布熵是相反的關(guān)系,所以可這樣來度量也就是說,用歸一化熵來度量特征詞tk的類別區(qū)分力,顯然有0≤CDP(tk)≤1.0。
3.2LTF-ECDP方法
為了給特征詞分配合適的權(quán)重,定義了一個基于類別區(qū)分力的全局權(quán)重因子,即G(tk)=1+α× CDP(tk),其中系數(shù)α的值可針對不同語料庫來調(diào)節(jié),一般取值為5~7比較合適。至于特征詞權(quán)重中的局部因子,一般用特征詞在文檔中的詞頻(tfk)來表示。但是,一個在文檔中出現(xiàn)20次的特征詞的重要性并不是僅出現(xiàn)1次的特征詞重要性的20倍,因此要適當(dāng)降低高頻詞的局部詞頻因子,可使用對數(shù)詞頻lb(tfk+1)來代替原始詞頻tfk[15]。綜上所述,特征詞tk在某個文檔中的權(quán)重w(tk)可以用式(6)來計(jì)算。
當(dāng)然,最終同一文檔中所有特征詞的權(quán)重w(tk) (k=1,2,…,n)也要按照式(2)進(jìn)行余弦歸一化。本文把這種新的熵加權(quán)方法稱為LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power),即對數(shù)詞頻與基于熵的類別區(qū)分力度量因子相結(jié)合的特征詞權(quán)重計(jì)算方法。
3.3新方法的兩個變種
4.1數(shù)據(jù)集及其預(yù)處理
本文實(shí)驗(yàn)使用了3個具有不同特點(diǎn)的公開數(shù)據(jù)集,包括一個中文語料庫TanCorp和兩個英文語料庫WebKB和20 Newsgroups。前兩個非平衡語料庫的各類文檔數(shù)不相等,第三個平衡語料庫的各類文檔數(shù)基本相等。3個語料庫的文本來源也不同。
TanCorp語料庫[16]有多個版本,選擇其中預(yù)處理格式的TanCorp-12語料庫,共有14 150篇中文文檔,分為12類,各類別規(guī)模差別大,無異類重復(fù)文檔,所有文本預(yù)先已用中文分詞器ICTCLAS分詞,并去掉了數(shù)字與標(biāo)點(diǎn)符號。從中提取出72 601個不同詞條構(gòu)成初始特征詞表,并把語料庫按類別隨機(jī)分割為訓(xùn)練集(占66%)和測試集(占34%)。
原始WebKB語料庫[17]包含大約8 300個英文網(wǎng)頁,分為7大類。只選擇其中最常用的4大類,包括student、faculty、course和project類別,共有4 199個文檔。這個被稱為WebKB-4的文本子集又進(jìn)一步按2∶1的比例被隨機(jī)分割為訓(xùn)練集和測試集。通過刪除停用詞、單字符和非字母符號,并把字母轉(zhuǎn)換為小寫,提取詞根(stemming)等預(yù)處理后,從訓(xùn)練集文本中共提取出7 287個不同的初始特征詞。此外,為了提高實(shí)驗(yàn)的可靠性,移除了部分重復(fù)文檔,最終訓(xùn)練集和測試集各剩下2 756和1 375個文檔。
20 Newsgroups語料庫包含20個類別的英文消息文本。本文所用的20 News-bydate版本[18]共有18 846篇文檔,預(yù)先已按日期排序并分割為訓(xùn)練集(包含11 314篇文檔)和測試集(包含7 532篇文檔),所有重復(fù)文檔和某些消息頭部已被刪除。通過與WebKB語料庫類似的預(yù)處理后,從20 News-bydate的訓(xùn)練集文本中共提取出35 642個不同的初始特征詞。
4.2實(shí)驗(yàn)步驟與方法
對數(shù)據(jù)集進(jìn)行預(yù)處理后,再按順序經(jīng)過特征選擇、特征詞權(quán)重計(jì)算、分類器訓(xùn)練及分類測試、性能評估等步驟開展文本分類實(shí)驗(yàn)。
特征選擇采用流行的卡方統(tǒng)計(jì)量(Chi-square或χ2)指標(biāo)。特征詞tk關(guān)于類別cj的卡方統(tǒng)計(jì)量χ2(tk,cj)可用下式來計(jì)算:
為了比較性能,嘗試了前面介紹的8種特征詞權(quán)重計(jì)算方法,分別是LTF-ECDP、TF-ECDP、TF-ECDPEIC、EWzhou、EWguo、EWxue、TF-RF和TF-IDF,其中第4~6個分別代表文獻(xiàn)[5]、[6]和[7]提出的熵加權(quán)(entropy-based weighting,EW)方法。開頭3種采用了基于熵的類別區(qū)分力(ECDP)度量因子的方法中,參數(shù)α均設(shè)為7.0。因?yàn)橛肨F-ECDP-EIC和TF-RF方法[3]計(jì)算的特征詞權(quán)重都與文檔類別有關(guān),如式(7)和(3)所示,而待分類的文檔的類別是未知的,所以對于測試集文檔中的每個特征詞,用其與各類別相關(guān)的權(quán)重的最大值作為它的權(quán)重。當(dāng)一個文檔中所有特征詞的權(quán)重都已得到,再按照式(2)進(jìn)行余弦歸一化。但EWzhou方法[5]例外,它是先對所有詞的TFIDF權(quán)重進(jìn)行歸一化,再乘以熵加權(quán)因子。通過權(quán)重計(jì)算,每個文檔都被轉(zhuǎn)換成特征詞權(quán)重向量。
為了實(shí)現(xiàn)文本分類,采用性能優(yōu)良的支持向量機(jī)(support vector machine,SVM)作為分類器。具體做法是:在TanCorp和20 Newsgroups語料庫上使用軟件包LibSVM分類器[19-20],并設(shè)置線性核和默認(rèn)參數(shù);在WebKB語料庫上使用LibLINEAR分類器[20],其參數(shù)也是默認(rèn)的。LibLINEAR是對帶有線性核的LibSVM進(jìn)行優(yōu)化后的分類器,性能更好。先用訓(xùn)練集文檔特征向量來訓(xùn)練SVM分類器,再用SVM分類器對測試集文檔特征向量進(jìn)行分類。
最后的性能評估使用微平均F1值(micro-F1)和宏平均F1值(macro-F1)兩個指標(biāo)來度量所有類別的總體分類準(zhǔn)確率,其定義分別為式(9)和(10)。
其中,P為整個測試集分類結(jié)果的精確率;R為整個測試集被正確分類的召回率;F1j=2Pj×Rj/(Pj+Rj)為第 j類(j=1,2,…,m)的分類性能,m為類別數(shù),Pj和Rj分別為第 j類文本分類精確率和召回率。
4.3在TanCorp-12上的實(shí)驗(yàn)結(jié)果分析
首先用帶線性核的LibSVM分類器對TanCorp-12語料庫里的中文文本進(jìn)行分類,用微平均F1值和宏平均F1值所度量的總體分類準(zhǔn)確率如圖1所示。圖中每條曲線代表一種特征詞權(quán)重計(jì)算方法,水平坐標(biāo)軸顯示不同特征數(shù)。
Fig.1 Accuracies of text categorization using different term weighting methods on TanCorp-12 corpus圖1 在TanCorp-12語料庫上使用不同特征詞權(quán)重計(jì)算方法的文本分類準(zhǔn)確率
從圖1中可以看出,3種新的特征詞權(quán)重計(jì)算方法LTF-ECDP、TF-ECDP和TF-ECDP-EIC的性能都比其余方法更好。特別是,性能最好的LTF-ECDP方法具有明顯的優(yōu)勢。就micro-F1和macro-F1而言,LTF-ECDP超越TF-IDF分別約2.8%和4.3%。引入特征詞類內(nèi)分布熵因子的TF-ECDP-EIC的性能略低于TF-ECDP。至于文獻(xiàn)中的3種熵加權(quán)方法,EWxue的性能表現(xiàn)是最好的,略好于TF-RF。而EWzhou表現(xiàn)最差,明顯不如TF-IDF,特別是在數(shù)據(jù)集特征維度較高時。EWguo則表現(xiàn)不同,就micro-F1而言,它比TF-IDF差;但就macro-F1而言,它比TF-IDF略好。而TF-RF的性能與TF-IDF相當(dāng)。
4.4在WebKB-4上的實(shí)驗(yàn)結(jié)果分析
然后用性能更好的LibLINEAR分類器對Web-KB-4語料庫里的英文網(wǎng)頁進(jìn)行分類,分別用微平均F1值和宏平均F1值所度量的總體分類準(zhǔn)確率如圖2所示,圖中各項(xiàng)的含義與圖1相同。
從圖2中可以看出,3種新的特征詞權(quán)重計(jì)算方法LTF-ECDP、TF-ECDP和TF-ECDP-EIC的性能表現(xiàn)總體上仍然比其余方法更好,并且LTF-ECDP還是最好的。就micro-F1和macro-F1而言,它超越TFIDF分別約3.3%和4.0%。TF-ECDP和TF-ECDP-EIC兩者的性能不相上下。但是文獻(xiàn)中的3種熵加權(quán)方法的關(guān)系發(fā)生了變化:EWzhou由最差變?yōu)樽詈?,EWguo變?yōu)樽畈?,而EWxue居中。EWzhou、EWxue 和TF-RF的性能都比TF-IDF更好。但是EWguo的性能與TF-IDF相當(dāng),或比后者略差。
4.5在20 Newsgroups上的實(shí)驗(yàn)結(jié)果分析
最后仍用LibSVM分類器對20 Newsgroups語料庫里的英文消息文本進(jìn)行分類,總體分類準(zhǔn)確率如圖3所示,圖中各項(xiàng)的含義與圖1相同。
從圖3中可以看出,3種新的特征詞權(quán)重計(jì)算方法LTF-ECDP、TF-ECDP和TF-ECDP-EIC在20 Newsgroups上的性能差別較大,其中LTF-ECDP的性能最佳。就micro-F1和macro-F1而言,它超越TFIDF達(dá)2.8%左右。而TF-ECDP勝過其余5種方法,只有1種例外。但是TF-ECDP-EIC的性能比較差。文獻(xiàn)中的3種熵加權(quán)方法的關(guān)系發(fā)生了戲劇性的變化:前面表現(xiàn)最差的EWguo變?yōu)樽詈玫?,前面一直表現(xiàn)好的EWxue變?yōu)樽畈畹?,而EWzhou居中。EW-zhou、EWxue和TF-ECDP-EIC熵加權(quán)方法都表現(xiàn)得比TF-IDF更差。在平衡語料庫20 Newgroups上,TFRF和EWguo都表現(xiàn)比較好,勝過TF-IDF,這與文獻(xiàn)[3]和[6]的實(shí)驗(yàn)結(jié)果是一致的。
Fig.2 Accuracies of text categorization using different term weighting methods on WebKB-4 corpus圖2 在WebKB-4語料庫上使用不同特征詞權(quán)重計(jì)算方法的文本分類準(zhǔn)確率
Fig.3 Accuracies of text categorization using different term weighting methods on 20 Newsgroups corpus圖3 在20 Newsgroups語料庫上使用不同特征詞權(quán)重計(jì)算方法的文本分類準(zhǔn)確率
4.6關(guān)于實(shí)驗(yàn)結(jié)果的討論
上面的實(shí)驗(yàn)結(jié)果是在3個具有不同特點(diǎn)的公共測試語料庫上得出的。實(shí)驗(yàn)結(jié)果表明,LTF-ECDP和TF-ECDP方法不僅有效,而且比其他熵加權(quán)方法和著名的TF-RF、TF-IDF方法更好。這兩種新的特征詞權(quán)重計(jì)算方法不僅提高了分類準(zhǔn)確率,而且在不同語料庫上的性能表現(xiàn)穩(wěn)定。尤其是LTF-ECDP方法的表現(xiàn)一直是最好的,并且具有明顯的優(yōu)勢。而其余4種熵加權(quán)方法在不同語料庫上的性能表現(xiàn)波動性比較大,跟TF-IDF方法相比,它們的表現(xiàn)有時好有時差。另外,TF-RF方法[3]的優(yōu)越性也再次得到驗(yàn)證,它的性能也比較穩(wěn)定,不比TF-IDF差,而且有時更好。但是,TF-RF的性能還是不如本文提出的LTF-ECDP和TF-ECDP方法。
在所有實(shí)驗(yàn)中,LTF-ECDP表現(xiàn)得比TF-ECDP更優(yōu)越,這再一次通過實(shí)驗(yàn)證實(shí)了特征詞在文本分類中的重要性與其詞頻一般不是成正比的,因此有時不要對高頻詞在文本分類中的作用寄予太大的期望。當(dāng)然,類別相關(guān)的高頻詞例外。一個特征詞的重要性或?qū)ξ谋痉诸惖呢暙I(xiàn)度主要取決于它的類別區(qū)分力。一個類別區(qū)分力大的詞不一定是高頻詞,而主要體現(xiàn)在它在不同文本類別上的分布很不均衡。
上述實(shí)驗(yàn)結(jié)果還顯示了新方法的另一個變種TF-ECDP-EIC的性能并沒有預(yù)期的那么好,它不但沒有在TF-ECDP的基礎(chǔ)上進(jìn)一步提高文本分類的性能,有時反而降低了分類準(zhǔn)確率。引入特征詞的類內(nèi)分布熵的目的是給具有類別代表性的詞分配更大的權(quán)重,因?yàn)榇砟骋活悇e的詞在該類別各文檔上的分布比其他非代表性的詞更加均勻,對應(yīng)的類內(nèi)分布熵更大。這聽起來似乎有理,但是忽視了一個事實(shí):代表整個類別(尤其是大類)的詞畢竟是少數(shù),而大多數(shù)類別區(qū)分力大的詞只能代表其中一個小的子類。比如:“古箏”屬于“藝術(shù)”類但不能代表“藝術(shù)”。一篇文章中如果出現(xiàn)“古箏”,很容易被判斷為跟“藝術(shù)”有關(guān)??梢姟肮殴~”一詞具有較大的類別區(qū)分力,應(yīng)當(dāng)被分配較大的權(quán)重。但是“古箏”在整個“藝術(shù)”類中出現(xiàn)頻率較低,一旦引入類內(nèi)分布熵,它的權(quán)重將明顯降低。而能夠代表整個藝術(shù)類的詞匯很少。只有當(dāng)語料庫的各類別規(guī)模較小或各類別代表性詞匯較多時,在特征詞權(quán)重中引入類內(nèi)分布熵才會有效。但是在一般情況下,引入類內(nèi)分布熵很可能會失效。
最后應(yīng)當(dāng)指出,所有文本分類實(shí)驗(yàn)都是用帶有線性核的支持向量機(jī)(簡稱為線性SVM)來實(shí)現(xiàn)的,并且嘗試了在數(shù)據(jù)集的多個不同特征維度上進(jìn)行分類測試。之所以選擇線性SVM,是因?yàn)樗鼘ξ谋痉诸惖男阅芎芎谩1M管一些研究人員在努力改進(jìn)其他分類算法,比如樸素貝葉斯算法、k近鄰(k nearest neighbors,kNN)分類器、中心點(diǎn)(centroid)分類器、決策樹算法、神經(jīng)網(wǎng)絡(luò)等[9],但它們對文本分類的性能還是難以超越SVM。上述實(shí)驗(yàn)結(jié)果再次證明了通過改進(jìn)特征詞權(quán)重計(jì)算方法和調(diào)節(jié)特征維度,可以進(jìn)一步提高SVM文本分類性能。由于篇幅的限制,本文沒有給出使用其他分類器的實(shí)驗(yàn)結(jié)果。事實(shí)上,本文提出的特征詞權(quán)重計(jì)算方法LTF-ECDP也能明顯提高k近鄰分類器的文本分類性能。而k近鄰分類器更易于在分布式的云計(jì)算環(huán)境中實(shí)現(xiàn)。本文提出的LTF-ECDP方法即使在特征維度較低時也能獲得較好的分類準(zhǔn)確率,更適合大規(guī)模文本分類應(yīng)用。
相比于其他有監(jiān)督詞加權(quán)方法而言,基于信息熵的特征詞權(quán)重計(jì)算方法(簡稱為熵加權(quán))更加有效,因?yàn)榍罢咄ǔV焕昧颂卣髟~在正反兩類上的粗糙分布信息,而后者考慮了特征詞在所有類別上的精細(xì)分布。但是,現(xiàn)有的熵加權(quán)方法用于不同語料庫的文本分類時效果變化比較大,有時表現(xiàn)得比傳統(tǒng)的TF-IDF方法更差。本文提出了一種新的熵加權(quán)方法LTF-ECDP(對數(shù)詞頻-基于熵的類別區(qū)分力)以及它的兩個變種TF-ECDP和TF-ECDP-EIC。在TanCorp、WebKB和20 Newsgroups這3個具有不同特點(diǎn)的語料庫上使用支持向量機(jī)進(jìn)行文本分類的實(shí)驗(yàn)結(jié)果表明,LTF-ECDP和TF-ECDP方法不僅有效,而且它們的性能優(yōu)于其他熵加權(quán)方法以及TF-IDF和TF-RF等著名方法,不僅進(jìn)一步提高了文本分類準(zhǔn)確率,而且性能更加穩(wěn)定。尤其是LTF-ECDP具有明顯的優(yōu)勢。同時也發(fā)現(xiàn),雖然LTF-ECDP和TF-ECDP都只利用了特征詞的類間分布熵,但是引入特征詞的類內(nèi)分布熵在大多數(shù)情況下并沒有進(jìn)一步改善文本分類的性能。與前兩者對比,TF-ECDP-EIC的表現(xiàn)稍差。
未來將把LTF-ECDP方法用于文本特征降維和某些Web數(shù)據(jù)分析任務(wù)(比如情感分析)中,并且開展更廣泛的實(shí)驗(yàn)研究。
References:
[1]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing and Manage-ment,1988,24(5):513-523.
[2]Debole F,Sebastiani F.Supervised term weighting for automated text categorization[C]//Proceedings of the 2003 ACM Symposium on Applied Computing,Melbourne,USA,Mar 9-12,2003.New York,USA:ACM,2003:784-788.
[3]Lan Man,Tan C L,Su Jian,et al.Supervised and traditional term weighting methods for automatic text categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):721-735.
[4]Diao Qian,Wang Yongcheng,Zhang Huihui,et al.A Shannon entropy approach to term weighting in VSM[J].Journal of the China Society for Scientific and Technical Information,2000,19(4):354-358.
[5]Zhou Yantao,Tang Jianbo,Wang Jiaqin.Improved TFIDF feature selection algorithm based on information entropy[J]. Computer Engineering and Applications,2007,43(35):156-158.
[6]Guo Hongyu.Research on term weighting algorithm based on information entropy theory[J].Computer Engineering andApplications,2013,49(10):140-146.
[7]Xue Wei,Xu Xinshun.Three new feature weighting methods for text categorization[C]//LNCS 6318:Proceedings of the 2010 International Conference on Web Information Systems and Mining,Sanya,China,Oct 23-24,2010.Berlin, Heidelberg:Springer,2010:352-359.
[8]Li Ran,Guo Xianjiu.An improved algorithm to term weighting in text classification[C]//Proceedings of the 2010 International Conference on Multimedia Technology,Ningbo,China,Oct 29-31,2010.Piscataway,USA:IEEE,2010: 1-3.
[9]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[10]Liu Ying,Loh H T,Sun Aixin.Imbalanced text classification:a term weighting approach[J].Expert Systems with Applications,2009,36(1):690-701.
[11]Hakan A,Zafer E.Analytical evaluation of term weighting schemes for text categorization[J].Pattern Recognition Letters,2010,31(11):1310-1323.
[12]Nguyen T T,Chang K,Hui S C.Supervised term weighting centroid-based classifiers for text categorization[J].Knowledge and Information Systems,2013,35(1):61-85.
[13]Yi Junkai,Tian Likang.A text feature selection algorithm based on class discrimination[J].Journal of Beijing University of Chemical Technology:Natural Science,2013,40 (S1):72-75.
[14]University of Electronic Science and Technology of China. A method of text classification based on feature selection and weight calculation:China,CN102930063A[P].2013-02-13.
[15]Dumais S.Improving the retrieval of information from external sources[J].Behavior Research Methods,Instruments, and Computers,1991,23(2):229-236.
[16]Tan Songbo,Cheng Xueqi,Ghanem M M,et al.A novel refinement approach for text categorization[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management,Bremen,Germany,Oct 31-Nov 5,2005.New York,USA:ACM,2005:469-476.
[17]CMU text learning group.The 4 universities data set(Web-KB corpus)[EB/OL].(1998-01-11)[2015-06-30].http://www. cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/.
[18]Ken Lang,Rennie J.The 20 Newsgroups data set[EB/OL]. (2008-01-14)[2015-06-30].http://people.csail.mit.edu/jrennie/ 20Newsgroups/,http://qwone.com/~jason/20Newsgroups/.
[19]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.
[20]Chang C C,Lin C J.LIBSVM—a library for support vector machines[EB/OL].[2015-06-30].http://www.csie.ntu.edu. tw/~cjlin/libsvm/index.html.
附中文參考文獻(xiàn):
[4]刁倩,王永成,張惠惠,等.VSM中詞權(quán)重的信息熵算法[J].情報學(xué)報,2000,19(4):354-358.
[5]周炎濤,唐劍波,王家琴.基于信息熵的改進(jìn)TFIDF特征選擇算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(35):156-158.
[6]郭紅鈺.基于信息熵理論的特征權(quán)重算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):140-146.
[13]易軍凱,田立康.基于類別區(qū)分度的文本特征選擇算法研究[J].北京化工大學(xué)學(xué)報:自然科學(xué)版,2013,40(S1):72-75.
[14]電子科技大學(xué).一種基于特征項(xiàng)選擇與權(quán)重計(jì)算的文本分類方法:中國,CN102930063A[P].2013-02-13.
CHEN Kewen was born in 1970.He is a Ph.D.candidate in computer application technology at Central South University,and the member of CCF.His research interests include machine learning,text mining and information fusion,etc.
陳科文(1970—),男,湖南湘潭人,中南大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)博士研究生,CCF會員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),文本挖掘,信息融合等。
ZHANG Zuping was born in 1966.He received the Ph.D.degree in computer application technology from Central South University in 2005.Now he is a professor and Ph.D.supervisor at Central South University,and the senior member of CCF.His research interests include information fusion and information system,parameter computing and biology computing,etc.
張祖平(1966—),男,湖南湘鄉(xiāng)人,2005年于中南大學(xué)獲得計(jì)算機(jī)應(yīng)用技術(shù)博士學(xué)位,現(xiàn)為中南大學(xué)教授、博士生導(dǎo)師,CCF高級會員,主要研究領(lǐng)域?yàn)樾畔⑷诤吓c信息系統(tǒng),參數(shù)計(jì)算,生物計(jì)算等。
LONG Jun was born in 1972.He received the Ph.D.degree in computer application technology from Central South University in 2011.Now he is a professor and Ph.D.supervisor at Central South University,and the senior member of CCF.His research interests include service computing,Internetware,software engineering methods to solve scientific problems in big data,etc.
龍軍(1972—),男,安徽安慶人,2011年于中南大學(xué)獲得計(jì)算機(jī)應(yīng)用技術(shù)博士學(xué)位,現(xiàn)為中南大學(xué)教授、博士生導(dǎo)師,CCF高級會員,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算,網(wǎng)構(gòu)軟件,面向大數(shù)據(jù)的軟件工程方法等。
Research on Entropy-Based Term Weighting Methods in Text Categorization?
CHEN Kewen+,ZHANG Zuping,LONG Jun
School of Information Science and Engineering,Central South University,Changsha 410083,China
+Corresponding author:E-mail:kewencsu@csu.edu.cn
CHEN Kewen,ZHANG Zuping,LONG Jun.Research on entropy-based term weighting methods in text categorization.Journal of Frontiers of Computer Science and Technology,2016,10(9):1299-1309.
As the volume of textual data has become very large and is still increasing rapidly,automatic text categorization(TC)is becoming more and more important.Term weighting or feature weight calculation is one of the hot research topics in TC to improve the classification accuracy.It is found that entropy-based weighting(EW)methods are usually more effective than others.However,there are still some problems with the existing EW methods,e.g.,they may perform worse than the traditional TF-IDF(term frequency&inverse document frequency),for TC on some text corpora.So this paper proposes a new term weighting scheme called LTF-ECDP,which combines logarithmic term frequency and entropy-based class distinguishing power as a new weighting factor.In order to test LTP-ECDP and compare it with other weighting methods,a considerable number of TC experiments using support vector machine(SVM) have been done on three popular benchmark datasets including a Chinese corpus,TanCorp,and two English corpora such as WebKB and 20 Newsgroups.The experimental results show that LTF-ECDP outperforms the other five entropybased weighting methods and two famous methods such as TF-IDF and TF-RF(term frequency&relevance frequency). Compared with the other term weighting methods,LTF-ECDP can further improve the accuracy of TC while keeping good performance on different datasets consistently.
term weighting;entropy-based weighting;text categorization;class distinguishing power
2015-07,Accepted 2015-09.
*The National Natural Science Foundation of China under Grant No.61379109(國家自然科學(xué)基金);the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20120162110077(高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-10-13,http://www.cnki.net/kcms/detail/11.5602.TP.20151013.1655.006.html
A
TP391