• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樸素貝葉斯分類模型的文本特征選擇研究

      2014-02-25 11:09:43潘光強(qiáng)周軍何洋
      電腦知識(shí)與技術(shù) 2014年1期
      關(guān)鍵詞:詞條特征選擇貝葉斯

      潘光強(qiáng) 周軍 何洋

      摘要:該文主要對(duì)文本自動(dòng)分類的特征選擇方法進(jìn)行了討論,分析了幾種常見方法存在的缺陷,指出影響出文本特征選擇的兩個(gè)重要因素——特征項(xiàng)在類別內(nèi)的文檔頻率和在類別間的分布差異,并以這兩個(gè)因素為影響因子分別對(duì)TF-IDF和IG方法進(jìn)行了改進(jìn)。另外還介紹了樸素貝葉斯分類模型,并基于此模型對(duì)改進(jìn)的特征選擇方法的分類效果進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法能夠強(qiáng)化特征項(xiàng)在特定類別中的影響力,提高文本分類效果。

      關(guān)鍵詞:文本分類;特征選擇

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0133-05

      1 概述

      文本特征選擇(Text Feature Selection)是文本自動(dòng)分類過程(圖1)中的重要環(huán)節(jié)。文本自動(dòng)分類(Automatic Text Categorization)是指運(yùn)用計(jì)算機(jī)技術(shù),在預(yù)先定義的分類體系下,根據(jù)待分類文檔內(nèi)容,將其歸屬為一個(gè)或多個(gè)類別的處理過程。文本自動(dòng)分類技術(shù)的研究始于20世紀(jì)50年代[2],至今出現(xiàn)了基于不同理論的多種分類模型[3],在這些模型中,用向量空間模型(VSM)來表示文檔[5],比如,用T表示文檔包含的詞匯集合,用每個(gè)詞及其在文本中的權(quán)重作為特征項(xiàng),則可將一篇文檔表示為向量d=(t1,t2,…tm)(ti∈T,1≤i≤m),然后根據(jù)文檔向量和類別向量計(jì)算出相似度,從而確定文檔所屬類別。文本特征選擇是從高維文本特征集合中篩選出一部分特征組成一個(gè)低維的向量空間的過程。那么為什么要進(jìn)行特征選擇,是不是維數(shù)越高分類效果就越好呢?事實(shí)并非如此。一篇文檔往往包含數(shù)百乃至成千上萬個(gè)詞條 ,對(duì)于語料訓(xùn)練集來說,詞條數(shù)目更是達(dá)到百萬級(jí)甚至更多。高維的特征,不僅增加了機(jī)器學(xué)習(xí)的負(fù)擔(dān),提高分類的計(jì)算復(fù)雜度,而且,過高的特征維數(shù)反而有可能降低分類的準(zhǔn)確性[6],形成“高維災(zāi)難”。這是因?yàn)樵谡麄€(gè)特征集合中,有很多詞在各個(gè)類別的文檔中出現(xiàn)的頻率差別不明顯甚至幾乎一樣,類別區(qū)分能力很弱。還有一些詞只在極少數(shù)的文檔中出現(xiàn),也不能作為類別劃分的參考。文本特征選擇目標(biāo)就是去除這些對(duì)區(qū)分類別沒有作用的特征項(xiàng)。對(duì)文本進(jìn)行降維處理,不僅可以提高分類的效果,而且能夠有效降低分類過程的計(jì)算復(fù)雜度,大大節(jié)省了時(shí)間成本。從圖1可以看出,特征選擇是產(chǎn)生文本特征向量的前提,直接影響模型訓(xùn)練的質(zhì)量和分類的效果。該文將分析目前特征選擇方法存在的問題,討論影響特征選擇的因素,提出改進(jìn)方法,并用樸素貝葉斯模型對(duì)其分類效果進(jìn)行評(píng)估。

      2 相關(guān)研究

      2.1 特征選擇方法

      對(duì)于不同的分類算法,應(yīng)采用不同的特征選擇方法以達(dá)到較為理想的分類效果。用于文本分類的特征統(tǒng)計(jì)量有:特征頻率(Term Frequency,簡(jiǎn)稱TF)、文檔頻率(Document Frequency,DF)、信息增益、χ2統(tǒng)計(jì)量、互信息等等。下面介紹幾種常用的特征選擇方法,并討論這些方法存在的缺陷。

      2.1.1 TF、DF和TF-IDF

      TF是特征t在文檔集中出現(xiàn)的頻率,計(jì)算方法是tf=t出現(xiàn)的次數(shù)÷文檔集中總詞數(shù)(含重復(fù))。DF是包含特征t的文檔的頻率,計(jì)算方法是df=包含t的文檔數(shù)÷總文檔數(shù)。因?yàn)樵诓煌悇e的文檔中相同特征項(xiàng)出現(xiàn)的頻率是有差異的,如果t在某類別中出現(xiàn)的頻率較高,那么其在這個(gè)類別中的DF一般也高,因此t可以作為文本的類別特征。但是,單純使用TF或DF還不足以區(qū)分不同特征對(duì)文本類別的貢獻(xiàn),因?yàn)橛锌赡芟嗤卣髟谒蓄悇e中出現(xiàn)的頻率都很高,或者不同特征在某個(gè)類別中出現(xiàn)的頻率相同卻在另一個(gè)類別中出現(xiàn)的頻率相差甚遠(yuǎn),這兩種情況都不能正確反應(yīng)特征對(duì)文檔類別的影響,因此有一種方法將TF與逆文檔頻率(Inverse Document Frequency,IDF)結(jié)合起來,稱為TF-IDF方法,計(jì)算公式為

      式中idf的計(jì)算方法為idf=log [Nn],N代表訓(xùn)練集文檔總數(shù),n代表出現(xiàn)特征t的文檔數(shù)。idf反應(yīng)的是特征項(xiàng)在訓(xùn)練集文檔中的分布情況,它能夠弱化在各類別中共同高頻特征項(xiàng)的作用,同時(shí)強(qiáng)化只在少數(shù)類別中出現(xiàn)的相對(duì)低頻的特征項(xiàng)的重要度。

      2.1.2 信息增益(Information Gain,IG)

      文本特征的信息增益是指一個(gè)特征所攜帶的分類信息量,常見公式為

      其中,n是類別數(shù),p(ci)是第i類出現(xiàn)的概率,若每類平均出現(xiàn),則p(ci)=[1n]。

      p(t)=包含詞語t的文檔數(shù)÷總文檔數(shù),p(t)=1-p([t])。

      [p(ci|t)]即[t]出現(xiàn)時(shí),[ci]出現(xiàn)的概率,等于類[ci]中包含t的文檔數(shù)除以訓(xùn)練集中出現(xiàn)[t]的文檔總數(shù)。

      [p(ci|t)]即[t]不出現(xiàn)但屬于[ci]的概率,等于類[ci]中不包含t的文檔數(shù)除以訓(xùn)練集中未出現(xiàn)[t]的文檔總數(shù)。

      2.1.3 χ2統(tǒng)計(jì)量(CHI-square statistic)

      在文本分類中,χ2統(tǒng)計(jì)量表達(dá)的是特征項(xiàng)與類別之間的相關(guān)性,計(jì)算特征t與類別c的χ2統(tǒng)計(jì)量公式為

      (3)

      [N]表示訓(xùn)練集中文本總數(shù);A表示包含詞條[t]且屬于類別c的文本數(shù)目;B為包含詞條[t]且不屬于類別c的文本數(shù)目;[C]等于屬于類別c但是不包含詞條[t]的文本數(shù)目;[D]等于不屬于類別c且不包含詞條[t]的文檔數(shù)目。由此可以看出,[N]固定不變,[A+C]為屬于該類別的文本數(shù)目,[B+D]為不屬于該類別的文本數(shù)目,所以式(3)可以簡(jiǎn)化為:

      [χ2 (t,c)=(AD-BC)2(A+B)(C+D)] (4)

      特征[t]與類別[c]相互獨(dú)立時(shí),[χ2 (t,c)=0]。[χ2 (t,c)]的值越大,特征[t]與類別[c]越相關(guān)。

      以上三種常用的特征選擇方法在文本分類中都取得了不錯(cuò)的效果,但仍然在不同方面均存在缺陷,需要加以改進(jìn)。TF-IDF方法只考慮了詞頻和文檔頻數(shù)對(duì)特征重要性的影響,而忽略了特征項(xiàng)在類別間的分布差異的影響。比如,某特征項(xiàng)指定類別中頻繁出現(xiàn),而在其它類別中幾乎不出現(xiàn),那么它應(yīng)當(dāng)作為特征項(xiàng)。但這種情況下它的TF和DF會(huì)很高,導(dǎo)致在整個(gè)文本集中的IDF相對(duì)低,從而降低此特征的權(quán)重;IG方法在整個(gè)分類體系中進(jìn)行特征選擇,無法體現(xiàn)特征對(duì)某個(gè)類別的影響,而類別間的文檔分布往往是不均勻的,用IG方法對(duì)文檔空間小的類別不夠“公平”;統(tǒng)計(jì)量方法提高了在指定類別詞頻較小而在其它類別詞頻較大的詞的權(quán)重,例如式(4)中A很小B很大時(shí),計(jì)算的結(jié)果較大,很可能被選擇為文本特征,但事實(shí)上對(duì)分類貢獻(xiàn)非常小,應(yīng)該過濾掉。另外[χ2]統(tǒng)計(jì)量方法還降低了某些低詞頻但I(xiàn)DF較高的特征權(quán)重,由于這類特征詞頻較低,其權(quán)重也不會(huì)太大,一般忽略其對(duì)分類的影響。

      2.2 樸素貝葉斯分類算法

      貝葉斯分類算法是一種利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。比如,假設(shè)類別集合[Ci=(C1,C2,...,Cn)],訓(xùn)練集D共有m個(gè)屬性,即每個(gè)文檔都可以表示為[d=(t1,t2,...,tm)],可將文本分類問題描述為計(jì)算給定文本所屬類別的后驗(yàn)概率問題。根據(jù)貝葉斯公式,給定文本[dx]屬于類別[Ci](1≤i≤n)的概率可以由式(5)計(jì)算 。

      其中,[P(Ci)]為類別先驗(yàn)概率。用T表示訓(xùn)練樣本特征詞的集合,若將文檔表示為向量,即[dx=(tx1,tx2,...,txm)],則[P(dx|Ci)=P(tx1,tx2,...,txm|Ci)],txj∈T,1≤j≤n。樸素貝葉斯文本文類算法基于文本特征之間條件無關(guān)的假設(shè),即假設(shè)文檔中的詞條之間相互獨(dú)立不存在依賴關(guān)系,那么,

      由于待分類文檔對(duì)于每個(gè)類別的先驗(yàn)概率[P(dx)]相同,故可省去,從而可得樸素貝葉斯分類模型

      根據(jù)類別的先驗(yàn)概率[P(Ci)]和條件概率[P(txj|Ci)]表示方法不同,樸素貝葉斯方法有兩種常用模型,一種是伯努利模型(BNB),[P(Ci )=類別文檔數(shù)÷訓(xùn)練集文檔總數(shù),P(txj |Ci)=類別中txj 的文檔數(shù)÷類別包含文檔總數(shù)];另一種是多項(xiàng)式模型(MNB),[P(Ci )=類別中詞條數(shù)目(含重復(fù))÷訓(xùn)練集總詞條數(shù)(含重復(fù)) , P(txj |Ci)=類別中txj 出現(xiàn)的次數(shù)÷類別詞條總數(shù)]。

      3 方法改進(jìn)

      2.1節(jié)指出了常用特征選擇方法存在的缺陷,為克服這些缺陷,人們嘗試對(duì)各種方法添加權(quán)重因子,以增加特征項(xiàng)的類別影響力。例如文獻(xiàn)[10]在TF-IDF基礎(chǔ)上,加上特征項(xiàng)在各個(gè)類別間的平均偏差平方[Dk]和類別內(nèi)平均偏差平方[Dik],構(gòu)建了如下選擇模型:

      [W(tik)=tf(tik)*idf(tk)*Dk*(1-Dik)] (7)

      [W(tik)]表示類[Ci]中第k個(gè)特征的權(quán)重。這個(gè)模型對(duì)每個(gè)類別分別進(jìn)行特征選擇,同時(shí)考慮了特征在類別間和類別內(nèi)的分布情況,基本上克服了上面所說的缺陷。但[Dk]只能從整體上反應(yīng)特征項(xiàng)的分布情況,反應(yīng)的是特征項(xiàng)對(duì)于整個(gè)類別空間的重要性,不能體現(xiàn)特征項(xiàng)在指定類別與其它類別中分布的差異,無法反應(yīng)特征項(xiàng)對(duì)于指定類別的貢獻(xiàn),因此,我們將[idf(tk)]改為第k個(gè)特征在各類別中的文檔頻率與[df(tik)]的差的平方和,即[Eik=j=1n(df(tjk)-df(tik))2 ] ,可以彌補(bǔ)上述缺陷。這里我們將[Eik]稱為特征[tik]的類別因子。同時(shí)為了降低復(fù)雜度,可以用特征在類內(nèi)的文檔頻率[df(tik)]代替[(1-Dik)],如式(8)所示。

      [W(tik)=tf(tik)*df(tik)*Dk×j=1n(df(tjk)-df(tik))2 ] (8)

      由于統(tǒng)計(jì)量方法只考慮了特征項(xiàng)在類別內(nèi)的重要性,忽略了它在類別間的分布情況。因此, 我們也可以在式(4)加入特征項(xiàng)的類別因子行修正,并且將A、B、C、D表示為特征項(xiàng)的文檔頻率,即:

      [χ2 (t,c)=(df(t,c)*df(t,c)-df(t,c)*df(t,c) )2(df(t,c)+df(t,c) )(df(t,c)+df(t,c) ) ×j=1n(df(tc)-df(tj))2 ] (9)

      4 實(shí)驗(yàn)

      4.1實(shí)驗(yàn)環(huán)境和數(shù)據(jù)

      我們利用開源的數(shù)據(jù)挖掘工具weka[8]并對(duì)其進(jìn)行二次開發(fā),用于文本的預(yù)算理、模型訓(xùn)練和分類實(shí)現(xiàn),從網(wǎng)上下載搜狗實(shí)驗(yàn)室文本分類語料并對(duì)其進(jìn)行調(diào)整(見表1),作為實(shí)驗(yàn)數(shù)據(jù)集,其中80%用于分類模型訓(xùn)練,20%作為測(cè)試集。

      4.2實(shí)驗(yàn)及分析

      首先,我們從表1中按30%的比例取出部分訓(xùn)練和測(cè)試數(shù)據(jù)對(duì)樸素貝葉斯分類方法的兩種模型分類效果進(jìn)行比較,表2是在不同維數(shù)下三種特征選擇方法分類效果的比較。

      (a)TF-IDF方法改進(jìn)前后分類效果對(duì)比

      (b)CHI方法改進(jìn)前后分類效果對(duì)比

      由圖2可以看出,[χ2]統(tǒng)計(jì)量方法分類效果略好于TF-IDF方法,改進(jìn)后的特征選擇方法與原方法相比,分類效果有了明顯提高,且在維數(shù)較低時(shí)提高幅度更大。觀察圖3我們發(fā)現(xiàn)兩種方法經(jīng)加入修正因子改進(jìn)之后,在每個(gè)類別上的分類效果均有不同程度的提高,特別是IT、健康、教育、文化等訓(xùn)練集文檔較少的類別提高幅度更加明顯。因此,從本實(shí)驗(yàn)我們得出如下結(jié)論。

      1) 分類別進(jìn)行特征選擇,同時(shí)突出特征項(xiàng)在類別內(nèi)的分布的影響,并加入類別因子,能夠有效解決由于類別間文本長(zhǎng)短差異以及文本數(shù)量分布不平衡導(dǎo)致分類不準(zhǔn)確的問題。

      2) 由于一些特征項(xiàng)大量集中在某些特定類別,IDF值可能會(huì)降低這些特征項(xiàng)對(duì)這些類別的重要性,用特征項(xiàng)的類別因子能夠較好地增加其在特定類別中的權(quán)重。

      3) 在[χ2]統(tǒng)計(jì)量方法中用類別因子對(duì)特征權(quán)值進(jìn)行修正,過濾掉類別中[χ2]統(tǒng)計(jì)量較大而極少出現(xiàn)的特征項(xiàng),能夠使分類效果得到明顯提升。

      5 結(jié)束語

      本文討論了常用特征選擇方法的缺陷,提出了改進(jìn)方法,并通過實(shí)驗(yàn)證明,特征項(xiàng)在指定類別中的分布情況和在類別間的差異是影響文本特征選擇的重要因素,突出特征項(xiàng)的分布及其類別因子對(duì)其權(quán)值的影響,能夠明顯改善特征選擇的質(zhì)量,從而提高文本分類效果。但在實(shí)驗(yàn)中我們發(fā)現(xiàn),改進(jìn)后的方法由于增加了影響因子,提高了計(jì)算的復(fù)雜度,降低了分類性能,下步我們將對(duì)每個(gè)步驟具體的實(shí)現(xiàn)算法進(jìn)行優(yōu)化,并運(yùn)用分布式計(jì)算系統(tǒng)提升分類性能。

      參考文獻(xiàn):

      [1] Yang Yiming,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].Nashville:Morgan Kaufmann,1997.

      [2] 李丹.基于相互貝葉斯方法的中文文本分類研究[D].保定:河北大學(xué),2011.

      [3] 薛永大.網(wǎng)頁分類技術(shù)研究綜述[J].電腦知識(shí)與技術(shù),2012,8(25):5958-5961.

      [4] 陳濤,謝陽群.文本分類中的特征降維方法綜述[J].情報(bào)學(xué)報(bào).2005.12,24(6):690-695.

      [5] 張運(yùn)良,張全.基于句類向量空間模型的自動(dòng)文本分類研究[J].計(jì)算機(jī)工程,2007,33(22):45-47.

      [6] 蘇金樹,張博鋒.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006(17):1848-1859.

      [7] McCALLUM A,NIGAM K.A comparison of event models for Naive Bayes text classification[M].Proceedings of AAAI-98 Workshop on learning for Text Categorization,1998.

      [8] http://www.cs.waikato.ac.nz/ml/index.html[OL].2013-11-30.

      [9] Hwee Tou Ng,Wei Boon Goh,and Kok Leong Low.Feature selection,perceptron learning,and a usability case study for text categorization[C].In:Proceedings of the 20th ACM International Conference on Research and Development in Information Retrieval(SIGIR-97),1997.67-73.

      [10] 彭時(shí)名.中文文本分類中特征提取算法研究[D].重慶:重慶大學(xué),2006.

      猜你喜歡
      詞條特征選擇貝葉斯
      貝葉斯公式及其應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      大數(shù)據(jù)相關(guān)詞條
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      凤冈县| 万安县| 天峨县| 三门县| 富川| 子长县| 高碑店市| 基隆市| 巢湖市| 古丈县| 合阳县| 繁峙县| 瑞金市| 新安县| 监利县| 井研县| 赤水市| 文山县| 洛浦县| 台南市| 宜宾市| 深圳市| 太康县| 禹州市| 通许县| 肥东县| 吴江市| 额济纳旗| 额敏县| 永平县| 旺苍县| 佳木斯市| 新乐市| 屏山县| 定南县| 哈巴河县| 南召县| 安图县| 苍溪县| 仁怀市| 五家渠市|