龔 靜,胡平霞,李春媚
(湖南環(huán)境生物職業(yè)技術學院信息技術系,湖南 衡陽 421005)
文本分類是指通過分析文本的內容自動將文本分配到預先定義的類別中,其目標是將語義相近的文本組織到同一個類別中,以便對文本集進行組織和管理[1]。文本分類被廣泛應用在網(wǎng)頁文本歸類、垃圾郵件過濾等領域。文本分類的步驟為:①文本的分詞;②文本的表示;③特征項權值計算;④特征選擇;⑤文本分類[2]。
在文本分類中,人們較多地研究特征選擇算法與文本分類算法,而對特征項權值計算方法的研究非常少,特征項的權值是衡量某個特征項在文本表示中的重要程度或區(qū)分能力的強弱[3],即這個特征項在多大程度上能夠代表這個文本,可知,選擇不同的特征項權值計算方法將會對文本分類的結果產(chǎn)生非常大的影響。因此,文章在既考慮特征項的頻率因素,又考慮特征項的語義因素的基礎上提出了一種新的特征項權值計算方法,采用支持向量機(Support Vector Machine,VSM)分類算法進行了分類實驗,實驗結果表明此方法能有效提高文本分類的正確率。
中文文本的內容是用自然語言來描述的,具有有限的結構甚至沒有結構,其語義計算機是不能直接理解的,所以需要對中文文本進行相應的處理[4],即預處理,從中抽取標志文本內容的元數(shù)據(jù),即特征項。特征項可以是字、詞、短語或語義單元,一般來講,詞是具有獨立語義特性的最小單位,因此,在中文文本中以詞為單位來抽取特征項,最后用結構化的形式表示這些特征項。目前,在中文文本信息處理中,效果較好且應用較廣的表示方法為向量空間模型。在VSM 中,一個文本用向量空間中的一個點來描述[5],其形式為:其中為特征項,為特征項的權重,簡寫為??芍蛄靠臻g模型中每一維的值表示特征項在該文本中的權重,用來刻畫該特征項對表示文本內容的重要程度。特征項權值的計算原則就是最大限度地區(qū)別不同的文本。一般使用的特征項權值計算方法是詞語頻率與,但是,這兩種方法還存在一些不足,影響文本分類的效果,因此文章從頻率與語義兩個方面來計算特征項的權重。
2.1.1 特征項頻率
特征項頻率是指特征項在文檔中出現(xiàn)的次數(shù),在不同類別的文檔中特征項出現(xiàn)的頻率存在很大的差異,因此,特征項頻率是文本分類的重要參考因素之一,在最初的文本分類中權值的計算就是采用。
2.1.2 逆文檔頻率
文檔頻率是指在整個文本集中出現(xiàn)該特征項的文本數(shù)[6]。逆文檔頻率是指特征項出現(xiàn)在較多的文本中,它的重要性就低,相反,如果集中出現(xiàn)在少數(shù)文本中,它的重要性就越高。
綜合考慮特征項頻率與逆文檔頻率,得到了特征項頻率的計算公式,也就是通常的公式[7],見公式(1):
其中,是指特征項在文本中出現(xiàn)的頻率,是文本集中文本的個數(shù),是指特征項在文本數(shù)據(jù)集中出現(xiàn)的文本個數(shù),是逆文本頻數(shù)。
這樣通過頻率計算得到,接著考慮特征項的語義信息,然后通過逐步修改權值的方式來真正體現(xiàn)特征項在文本中的重要程度。
特征項的語義分析是從中文文本的語義角度出發(fā),用相應的權重來反映特征項的語義信息,在此主要從特征項的同現(xiàn)、位置、長度等方面來考慮。
2.2.1 詞同現(xiàn)頻率
在中文文本中,句義的表達是由詞與詞的關系及組成句的詞義表達的,出現(xiàn)在同一句中的詞兩兩之間的同現(xiàn)關系表現(xiàn)句子的意義。如果兩個詞同時出現(xiàn)在同一句子中,說明這兩個詞具有最直接的相關性[8]。增加詞共現(xiàn)概念的向量空間模型比單純的基于詞頻的向量空間模型更能反映文本的內容和語義。
設詞在文本中出現(xiàn)的總次數(shù)為,即詞頻,詞在文本中出現(xiàn)的總的次數(shù)為,即詞頻,詞與詞同現(xiàn)頻率記為(句內不重復計數(shù)),可知=,因此,文章定義詞與的同現(xiàn)概率計算方法為公式(2)。
其中,為詞與詞的同現(xiàn)概率,可知=,≡1。
最終,就得到了一個關于文本的詞與詞之間的一個同現(xiàn)概率矩陣,它是一個行列的對稱矩陣,表示該文本特征項的數(shù)量。
文章利用該矩陣對的權值進行修正,特征項的權值修正為公式(4):
可見,加強了同現(xiàn)概率大的特征項的權重,同現(xiàn)概率大表示該詞通常被其他詞修飾或修飾其他詞,所以,文章就認為該詞是一個比較重要的詞,是能夠體現(xiàn)文本的主題思想,它的權重應該得到相應的加強,并且也加強了與之關聯(lián)比較大的詞語權重,新得到的文本特征描述蘊涵了詞的同現(xiàn)特點,突出了該文本的語義信息,符合人們的思維習慣。
2.2.2 特征長度權重
一般說來,長詞的頻率較低,是面向內容的,而短詞的頻率較高、含義多,是面向功能的[9]。適當提高長詞的權重,有利于分割詞匯,以便更加準確地體現(xiàn)出特征項在文本中的重要程度。因此,長詞應該具備較高的權重,因此,文章將權值修正為公式(5):
其中,表示詞的長度,如“數(shù)字電子計算機”中
2.2.3 位置權重
國外學者進行過統(tǒng)計,體現(xiàn)文本主題的句子,10% 出現(xiàn)在段尾,80% 出現(xiàn)在段首[10]。同樣,國內研究者通過統(tǒng)計得出中文新聞的標題與主題的符合率為94%,而中文期刊自然科學論文的標題與主題的符合率為97%。這些數(shù)據(jù)說明特征項的位置不一樣,對文本的作用也不一樣,盡管有些特征項的頻率不高,但是它卻能夠很好地反映文本的內容。所以,針對性不同位置的特征項進行了加權,設位置權重計算方法如公式(6)所示。
設特征項的位置權重為,其值為:
設為特征項在相應位置出現(xiàn)的次數(shù),進行了位置加權的特征項權值計算方法在此定義如公式(7)所示:
設待分類的文本集合為,文本集合的個數(shù)為,特征項集合為,特征項權值計算方法描述如下:
對于每個特征項,其中;每個文本,其中
Step 1 首先統(tǒng)計特征項在文本中出現(xiàn)的次數(shù)及它與同時出現(xiàn)在同一個句子內的次數(shù),特征在文本集中出現(xiàn)的文本頻率,特征項的位置信息以及的詞長。
Step 2 將Step1 得到的與利用公式(1)計算基于特征項頻率特性的權值();
Step 3 利用step1 中得到的建立同現(xiàn)概率矩陣,然后利用公式(4)修正特征項權值();
Step 4 利用Step1 計入的詞長,然后利用公式(5)修正特征項權值();
Step 5 利用Step1 中給出的位置信息,然后利用公式(7)修正特征項權值();
Step 6 得到特征項最終權值為(),程序結束。
為了檢驗此種權值計算方法的有效性,采用與通用的詞頻與方法進行了對比實驗。實驗用VC++實現(xiàn),在Celeron(R)2.6G,4GB 內存的計算機上進行。用中國科學院計算技術研究所的ICTCLAS 分詞系統(tǒng)進行分詞,采用的分類算法為支持向量機算法,SVM 是基于統(tǒng)計學習的機器學習方法,能夠較好地處理小樣本情況下的學習問題,能夠利用核函數(shù)思想把非線性問題轉化為線性問題來解決,能夠大大降低算法的復雜度,因此被廣泛應用在文本分類領域。實驗文本數(shù)據(jù)來源于復旦大學國際數(shù)據(jù)庫,訓練語料是由人工標注類別的,6個類別共641 篇文本,測試語料626個文本,訓練語料與測試語料基本上是1:1 的比例。分類結果評價指標采用F-measure,其計算如公式(8)所示,得到的實驗結果如表1 所示。
表1 比較實驗結果
通過對實驗結果比較分析,文章中提出的權值計算方法的F- meature 平均值比以詞頻為權重的計算方法平均高出了14.11%,比方法平均高出6.78%??芍朔椒ǜ芡怀鎏卣黜棇ξ谋緝热莸呢暙I程度,實驗結果證明此方法更有效。
無論對于文本分類還是文本聚類,特征項權值計算都是其中的一個基礎環(huán)節(jié),選不同的權值計算方法對文本分類的準確率有很大的影響,文章提出的權值計算方法在實際的分類系統(tǒng)中取得了比較好的效果。但是,實驗中是采用支持向量機SVM 分類器來進行分類的,以后將嘗試將此權值計算方法與其他文本分類算法相結合,以期提高文本分類的整體性能,與此同時也將嘗試將此算法思想運用到文本聚類、自動文摘中去。
[1]路永和,李焰鋒.改進TF-IDF 算法的文本特征項權值計算方法[J].圖書情報工作,2013(2):91-95.
[2]張愛華,靖紅芳.文本分類中特征權重因子的作用研究[J].中文信息學報,2010(5):97-101.
[3]龔靜,李安民.一種改進的k-means 中文文本聚類算法[J].湖南工業(yè)大學學報,2008.3:52-55.
[4]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].吉林大學,2013.6.
[5]譚金波.文本層次分類中特征項權重算法的比較研究[J].情報雜志,2007(9):87-91.
[6]NAVEENKMAR N,BATRI.K.An Empirica l Study on Term Weights for Text Categorization[J].International Journal of Advanced Information Science and Technology 2012(11):43-46.
[7]龔靜,曾莉.用于文本分類的特征選擇方法[J].湖南環(huán)境生物職業(yè)技術學院學報,2008(9):24-26.
[8]寇莎莎,魏振軍.自動文本分類中權值公式的改進[J].計算機工程與設計,2005(6):1616-1618.
[9]侯艷釵.基于詞語權重的中文文本分類算法的研究[D].石家莊:河北工業(yè)大學,2010.
[10]李凱齊,刁興春,曹建軍.基于信息增益的文本特征權重改進算法[J].計算機工程,2011(1):16-18.