程傳鵬
(中原工學(xué)院,鄭州 450007)
一種改進(jìn)的 X2統(tǒng)計量方法
程傳鵬
(中原工學(xué)院,鄭州 450007)
對文本特征提取中的統(tǒng)計量方法進(jìn)行了介紹,并且指出了該方法在分類中的不足之處;在此基礎(chǔ)上,提出了一種改進(jìn)的特征選擇方法,并把該方法應(yīng)用到后續(xù)的文本分類中.分類實驗結(jié)果表明,分類準(zhǔn)確率得到了一定的提高.
文本分類;特征提取;X2統(tǒng)計量
在文檔分類中,通過分詞后的文檔詞匯,數(shù)量是相當(dāng)大的,原始的特征空間可能由出現(xiàn)在文章中的全部詞條構(gòu)成.而中文的詞條總數(shù)有二十多萬條,這樣高維的特征空間對于幾乎所有的分類算法來說都偏大[1].為了提高分類的效率,在分類之前務(wù)必要進(jìn)行特征提取,以剔除那些類別區(qū)分度差的詞匯.本文考慮到特征詞的分布密度問題,對 X2統(tǒng)計量公式進(jìn)行了一定的變形,大大降低了原始特征集中經(jīng)常出現(xiàn)的大量版權(quán)和廣告等對分類無用的高密度詞,使抽取的特征詞更能體現(xiàn)類別的主題思想.此外,在特征提取過程中,考慮到中文詞語之間的同義、近義、反義等語義關(guān)聯(lián),對特征詞進(jìn)行合并,減少了相似性比較時的計算量.
在文本分類算法中,常用的文檔特征抽取方法有文檔頻次方法、互信息方法、信息增益方法、X2統(tǒng)計量方法等.Yang Yi-ming通過大量的實驗研究證明,X2統(tǒng)計量方法是目前效果最好的特征選擇方法之一[2],其計算公式如下:
X2(t,c)= N×(A D-CB)2(A+C)×(B+D)×(A+B)×(C+D)
式中各參數(shù)的含義如下:
t—特定的詞條;
N—總的文檔數(shù),N=A+B+C+D;
A—屬于c類且包含t的文檔數(shù);
B—不屬于c類但是包含t的文檔數(shù);
C—屬于c類但是不包含t的文檔數(shù);
D—既不屬于c也不包含t的文檔數(shù).
X2用于度量特征 t和類別C之間的獨(dú)立性.特征t的 X2統(tǒng)計值越高,它與該類之間的相關(guān)性越大,其越能代表該類特征[3].該方法類似于互信息MI方法,某詞條的 X2統(tǒng)計值決定了該詞條對一個類別的貢獻(xiàn)和對其余類別貢獻(xiàn)的大小,以及該詞條和其他詞條對分類的影響.當(dāng)特征t和類別C之間完全獨(dú)立的時候,X2統(tǒng)計量為0.直觀地看,X2(t,c)的值越小,說明詞條關(guān)于類C的獨(dú)立程度越高,因此應(yīng)當(dāng)選擇那些X2(t,c)值最大的詞作為特征詞.
利用 X2統(tǒng)計量方法來進(jìn)行特征抽取是基于如下假設(shè):在指定類別文本中出現(xiàn)頻率高的詞條與在其他類別文本中出現(xiàn)頻率比較高的詞條,對判定文檔是否屬于該類別都是有益的.但是在某些類別中,低頻詞往往是這些類別的特征,具有很強(qiáng)的代表性.在公式X2(t,c)中,如果 A →0,且 B →0,那么 X2(t,c)→0,所以 X2統(tǒng)計量對低頻詞不公平.按照 X2統(tǒng)計量的計算方法,在多類中普遍出現(xiàn)的高頻詞的權(quán)重將比只在特定類中出現(xiàn)的低頻詞的權(quán)重高,如果某個詞條在很多類別中都多次出現(xiàn),反而不能很好地體現(xiàn)類別信息.比如廣告信息以及版權(quán)信息,這樣的詞條也不應(yīng)該作為特征詞.
綜上所述,子宮頸癌外科手術(shù)經(jīng)歷了130年的發(fā)展歷程,手術(shù)路徑經(jīng)歷了經(jīng)腹、經(jīng)陰道,開腹、微創(chuàng)手術(shù),輸尿管內(nèi)側(cè)入路、外側(cè)入路,根治性子宮切除、根治性子宮頸切除,傳統(tǒng)根治術(shù)、保留神經(jīng)手術(shù)等歷史變遷和進(jìn)化。相信隨著材料和技術(shù)的不斷進(jìn)步以及臨床醫(yī)生的不斷努力,未來微創(chuàng)手術(shù)會使得更多的患者從中獲益。
所以,我們提出了一個變形后的 X2*公式:
式中:N、A、B、C、D 的含義同 X2統(tǒng)計量;Nft表示出現(xiàn)t的文檔數(shù).
它基于如下假設(shè):如果詞條出現(xiàn)的文檔數(shù)接近訓(xùn)練集中所有的文檔數(shù)時,即 Nft→N時,log(N/Nft)→0,此類詞條大量出現(xiàn)在各個類別中,類別區(qū)分度差,應(yīng)該過濾掉.此外,該方法還適當(dāng)?shù)靥岣吡说皖l詞的權(quán)重.
在上述研究的基礎(chǔ)上,本文提出了如下的算法:以分詞后所有的詞條作為候選特征詞,最后輸出特征詞.
(1)初始情況下,從分詞后所得到的詞條集合里去掉停止詞后,所有的詞條都作為候選特征詞;
(2)對于每個候選特征詞,按如下公式計算候選特征詞及其類別的 X2統(tǒng)計量:
(4)依據(jù)排序的結(jié)果,抽取一定數(shù)量的詞作為特征項;
(5)將每類中所有的訓(xùn)練文本映射到特征詞空間上,根據(jù)抽取的特征項進(jìn)行向量維數(shù)壓縮.
特征詞集的形成過程如圖1所示.
圖1 特征詞集形成過程示意圖
為了驗證本算法,我們從新浪網(wǎng)站下載一些已經(jīng)進(jìn)行人工分類的網(wǎng)頁進(jìn)行分類測試.對這些網(wǎng)頁進(jìn)行信息提取,去掉其中的 html標(biāo)簽后,把網(wǎng)頁轉(zhuǎn)換為純文本的形式.特征詞提取分別采用傳統(tǒng)的 X2統(tǒng)計量方法和本文所提出的方法,分類結(jié)果如表1所示.
表1 實驗結(jié)果
從表1可以看出,采用本文所提出的算法,分類準(zhǔn)確率可以得到一定的提高.
我們針對中文文本的特點(diǎn)和 X2統(tǒng)計量在特征選擇上的不足,根據(jù)特征詞的分布密度,對 X2公式作出了一些改進(jìn),在一定程度上提高了文本分類的精度.如果考慮到中文詞語之間的同義、近義、反義等關(guān)系,那么我們就可以對這些具有語義關(guān)聯(lián)的特征詞進(jìn)行合并[4],合并帶來的直接效果就是特征詞的個數(shù)減少,從而可以縮小向量空間的維數(shù),大大減少了相似性比較時的計算量.
[1] 代六玲.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,24(1):26-32.
[2] Yang Yi-ming.An Evaluation of Statistical Approaches to Text Categorization[J].Journal of information Retrieval,1999(1):67-88.
[3] Dunning T E.Accurate Methods for the Statistics of Surprise and Coincidence[J].Computational Linguistics,1993,19(1):61-74.
[4] 程傳鵬.中文網(wǎng)頁分類中特征提取的研究[J].中原工學(xué)院學(xué)報,2005,16(6):42-44.
An ImprovedX2Statistics Method
CHENG Chuan-peng
(Zhongyuan University of Technology,Zhengzhou 450007,China)
This paper introducesX2statistics method of features selection.And then we modify the currentX2statistics method.The research results in this paper has been applied in web page classification.It is proved that the accuracy of classification is promoted
web page classification;feature selection;X2statistics
TN391.07
A
10.3969/j.issn.1671-6906.2010.06.017
1671-6906(2010)06-0073-03
2010-11-08
程傳鵬(1977-),男,河南信陽人,講師,碩士.