• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文本分類中特征權(quán)重算法改進(jìn)研究

      2018-03-13 07:23:33李鵬鵬范會敏
      計算機與現(xiàn)代化 2018年2期
      關(guān)鍵詞:特征詞特征選擇類別

      李鵬鵬,范會敏

      (西安工業(yè)大學(xué)計算機科學(xué)與工程學(xué)院,陜西 西安 710021)

      0 引 言

      作為互聯(lián)網(wǎng)的主要信息載體,文本、圖像和聲音具有顯著的特點。其中,文本是主要的信息載體,自然語言處理在當(dāng)今仍然是研究的熱門和重點方向。文本分類是自然語言處理中的重要研究課題,特征權(quán)重算法在文本分類中起到了至關(guān)重要的作用。目前文本分類中常用的特征權(quán)重算法TF-IDF是一種基于詞頻的特征權(quán)重算法,該方法容易實現(xiàn)、思想簡單,兼顧效率的同時往往能取得較滿意的效果從而被廣泛使用。但該算法沒有體現(xiàn)特征詞在文檔類之間和類內(nèi)的分布信息,無法適應(yīng)不平衡數(shù)據(jù)集,分類準(zhǔn)確性不高。目前主要的改進(jìn)包括以下幾種:在傳統(tǒng)算法基礎(chǔ)上,增加特征權(quán)重所蘊含的信息;利用特征選擇算法對傳統(tǒng)算法TF或IDF部分進(jìn)行替換,或?qū)Χ呓Y(jié)合,使其攜帶新的分類信息[1-2];此外,還有文獻(xiàn)通過加入類別相關(guān)度平衡因子對互信息公式進(jìn)行改進(jìn),同時將其應(yīng)用于特征加權(quán)算法;利用跨不同類文本的細(xì)粒度術(shù)語分布信息,特征權(quán)重計算利用文本集特征全集而非本類特征集合;利用剔除近義詞方法優(yōu)化文本向量中的特征項,提出貢獻(xiàn)率因子的概念,提高了文本分類準(zhǔn)確率[3-7]。以上多種改進(jìn)算法均在一定程度上提升了分類準(zhǔn)確率,但并未完全兼顧文檔分布信息與算法在傾斜數(shù)據(jù)集上的表現(xiàn)。鑒于傳統(tǒng)TF-IDF算法的不足,本文提出一種文本分類中改進(jìn)的特征權(quán)重TF-IDF-dist算法。相比以上各種改進(jìn)方法,本文方法兼顧文本類間與類內(nèi)分布均勻程度的同時,還加入特征類間比重信息,使其對文檔集分布不敏感,從而對文檔集有更強的適應(yīng)性。實驗表明本文算法在準(zhǔn)確率、召回率和F1值方面均優(yōu)于傳統(tǒng)TF-IDF算法。

      1 傳統(tǒng)TF-IDF算法

      TF-IDF算法認(rèn)為,刻畫某一關(guān)鍵詞的權(quán)重可根據(jù)其在類內(nèi)文檔中的出現(xiàn)頻數(shù)和在類間出現(xiàn)分布來表示。算法分為2部分TF和IDF,TF即詞頻,代表詞在類內(nèi)的出現(xiàn)頻數(shù),IDF代表特征詞概率密度的交叉熵[8]。

      TF-IDF經(jīng)典公式表示形式為:

      (1)

      其中Wi表示特征詞求得的權(quán)重結(jié)果,tfi表示該特征在文檔中出現(xiàn)次數(shù),N表示總文檔數(shù),ni表示出現(xiàn)過該特征詞的文檔數(shù),β是一個經(jīng)驗值,一般取0.01[9-11]。

      計算中通常使用歸一化的形式:

      (2)

      2 改進(jìn)的TF-IDF-dist算法

      從經(jīng)典公式可以看出,TF-IDF算法僅基于特征詞的詞頻與逆文檔頻率進(jìn)行計算。計算所得權(quán)重反映了特征詞在文檔集范圍內(nèi)的出現(xiàn)次數(shù)信息,一定程度上反映了特征詞的分布信息,但在進(jìn)行分類時特征僅由以上信息決定,分類準(zhǔn)確率較低。

      經(jīng)典公式中N代表的是多個類別的文檔數(shù)總和,由于每一類文本可以包含多個文檔,無法從N得出類別之間的分布信息。按照算法思想,當(dāng)特征詞在多數(shù)類中普遍出現(xiàn)時,該特征詞應(yīng)該給予較低權(quán)重,但由于文檔中特定特征詞的絕對數(shù)量大,經(jīng)過計算得到的權(quán)重值卻很大;另外,隨著特征項在類內(nèi)出現(xiàn)次數(shù)的增加,IDF應(yīng)該隨之增大,但算法的計算結(jié)果卻幾乎無變化;同時在傾斜數(shù)據(jù)集某類文檔較少情況下,IDF幾乎失效。

      IDF的計算忽略了特征詞在類內(nèi)文檔的分布,當(dāng)特征詞在同一類多個文檔中出現(xiàn)次數(shù)一定時,根據(jù)經(jīng)典公式,IDF值保持不變。特征詞分布具有隨機性,從而IDF的計算結(jié)果對文本類內(nèi)分布不具有代表性。

      針對以上算法缺陷,本文采用類內(nèi)類間分布信息豐富特征權(quán)重,提高文本分類的準(zhǔn)確性。引入類間文檔、詞頻分布以及類內(nèi)詞頻分布因子對TF-IDF算法進(jìn)行改進(jìn)。

      1)提出因子introC描述文本類間分布信息:

      (3)

      對因子乘號左半部分,如果此項越高,即特征詞在文檔類別間分布比例越低,說明特征詞在類別間分布越有傾向性,即分類能力越強。對右半部分,特征詞在類之間分布的均勻程度能反映特征詞是否普遍存在于多個類別文檔。該項越大,說明該特征詞在類之間分布更不均勻,也即偏向某一類別,對文檔的區(qū)分能力更強。反之,該項越小,說明該詞在各類別文檔分布更均勻,區(qū)分類別的作用更小。兩部分的乘積,可以反映特征詞在類之間分類能力。

      因子introC乘號左半部分反映了特征詞在類別之間分布情況,規(guī)避了文本集類之間文檔數(shù)據(jù)量差異帶來的干擾,對類別間文檔總數(shù)不敏感,提高了對傾斜文本數(shù)據(jù)集的適應(yīng)性;根式部分反映了特征詞在類別之間分布頻數(shù)的標(biāo)準(zhǔn)差,即反映了特征詞在類別之間分布均勻程度,描述因子introC,反映了特征詞在類間的分布比例與類別之間分布均勻程度。

      2)提出因子interC描述類內(nèi)詞頻分布:

      (4)

      (5)

      特征詞在類內(nèi)的分布信息也對特征詞的分類能力有影響。如果特征詞在類內(nèi)分布更加均勻,說明特征詞普遍存在于本類文檔,對本類文檔有更強的代表性。反之,如果特征詞僅僅在一類文檔的個別文檔出現(xiàn),那么該詞更具有偶然性,不具備代表本類文檔的能力。interC反映了特征詞在每個類別文檔中文檔之間分布均勻程度均值。該項越大,說明特征在類內(nèi)分布越分散,特征詞隨機性越強,對文檔類別的區(qū)分性越低。反之,該項越小,特征在類內(nèi)分布越均勻,對文檔類別越有區(qū)分性。因子interC可以反映特征詞區(qū)分能力。

      3)改進(jìn)后的特征權(quán)重算法為:

      Wij=TFij×IDFij×introCi×interCi

      (6)

      改進(jìn)后的特征權(quán)重算法TF-IDF-dist結(jié)合了傳統(tǒng)算法與因子interC和introC,豐富了特征權(quán)重的分布信息,具有更強的分類性能。下面設(shè)計實驗驗證改進(jìn)算法的有效性。

      3 實驗結(jié)果及分析

      3.1 特征權(quán)重算法對比實驗設(shè)計

      文本分類一般首先要對文檔進(jìn)行預(yù)處理,包括分詞去停用詞等步驟。之后得到一個詞的集合,集合包含停用詞以外的所有詞。然后進(jìn)行特征選擇,特征選擇在降低特征維度且保持文本分類準(zhǔn)確率的同時,可以提高文本分類效率。隨后對所選特征詞進(jìn)行特征權(quán)重計算。需要注意的是,本文訓(xùn)練過程中計算所得因子interC和introC將被用于計算測試集對應(yīng)的特征詞權(quán)重。計算所得權(quán)重作為文檔在該特征項的特征值。最后將計算所得特征值作為分類器的輸入進(jìn)行分類,得到分類器模型。隨后在測試集驗證模型的準(zhǔn)確性[12-15]。

      為驗證本文算法改進(jìn)的有效性,本文基于卡方統(tǒng)計特征選擇算法,在多個分類算法以及多特征詞數(shù)量下,對本文算法、TF-IDF算法和常用的改進(jìn)TF-CHI算法做對比實驗。具體實驗流程如圖1所示,在本文算法與TF-CHI算法進(jìn)行比較時,圖中“TF-IDF”部分為TF-CHI算法。

      圖1中訓(xùn)練過程中特征選擇所得結(jié)果與訓(xùn)練所得分類器將被用于測試過程。測試過程的分類結(jié)果被用來分析分類準(zhǔn)確率驗證試驗結(jié)果。

      圖1 TF-IDF權(quán)重算法與TF-IDF-dist算法對比實驗流程

      為測試本文算法在多個對比實驗的準(zhǔn)確率,實驗數(shù)據(jù)采用搜狗實驗室數(shù)據(jù)集,對財經(jīng)、教育、汽車、娛樂、女性5個類別文檔合計5000篇新聞文檔正文進(jìn)行提取作為本實驗文本數(shù)據(jù)集。對文本集進(jìn)行劃分,每類隨機選取80%文檔作為訓(xùn)練文本集,其余20%作為測試文本集。

      3.2 不同特征維度下對F1值的影響

      為分析TF-IDF-dist算法在不同特征維度下分類準(zhǔn)確率的變化,對實驗文本集采用卡方統(tǒng)計特征選擇算法,分別選取不同特征維數(shù)特征,在多項式貝葉斯分類器下進(jìn)行對比實驗,實驗結(jié)果如圖2所示。

      圖2 特征維數(shù)對比實驗結(jié)果

      分析圖2發(fā)現(xiàn),特征維數(shù)較少時,3種算法的準(zhǔn)確率均處在較低位置,隨特征數(shù)的增加,3種特征權(quán)重算法對應(yīng)分類模型F1值均呈上升趨勢,TF-IDF-dist算法F1值一直處于較高水平;隨著特征維數(shù)的增加,由于特征維度已達(dá)到一定規(guī)模,3種算法的F1值增長速度逐漸趨緩,新的特征維度對整體準(zhǔn)確率的影響逐漸下降;在各個特征維數(shù)下,TF-IDF-dist算法F1值均高于TF-IDF算法和TF-CHI算法,在各特征維度下算法F1值相較TF-IDF平均提升了3.2%,相較TF-CHI算法平均提升2.7%。

      3.3 不同特征選擇算法比較

      為驗證TF-IDF-dist算法在不同分類器下分類準(zhǔn)確率變化,對實驗文本集采用信息增益、卡方統(tǒng)計和互信息特征選擇算法,特征維數(shù)設(shè)置為3000維,特征權(quán)重算法分別采用TF-IDF,TF-CHI和TF-IDF-dist算法,結(jié)合貝葉斯分類器做對比實驗。實驗結(jié)果如表1所示。

      分析表1發(fā)現(xiàn),當(dāng)特征權(quán)重算法為傳統(tǒng)TF-IDF算法時,結(jié)合以上3種特征選擇算法,分類準(zhǔn)確率、召回率與F1值處于較低水平,其中卡方統(tǒng)計表現(xiàn)略好于其他2種特征選擇算法;采用TF-CHI算法時,結(jié)合以上3種特征選擇算法,分類準(zhǔn)確率、召回率、F1值與TF-IDF算法相比基本持平。當(dāng)特征權(quán)重算法為TF-IDF-dist算法時,結(jié)合3種特征選擇算法,分類準(zhǔn)確率、召回率與F1值均有提升。其中,對比TF-IDF算法,互信息與TF-IDF-dist結(jié)合對應(yīng)的F1值提升較小為2%,信息增益F1值提升最大為4%;在3種特征選擇算法所計算得到的特征維度基礎(chǔ)上,TF-IDF-dist計算所得權(quán)重的分類F1值相比TF-IDF平均提升3%,相比TF-CHI算法平均提升2.7%。

      表1 TF-IDF-dist算法與TF-IDF算法針對不同特征選擇算法比較

      特征選擇算法特征維度特征權(quán)重算法分類器平均準(zhǔn)確率/%平均召回率/%平均F1值卡方統(tǒng)計3000TF?IDFTF?CHITF?IDF?dist貝葉斯分類器949494949594979797互信息3000TF?IDFTF?CHITF?IDF?dist貝葉斯分類器939393939493959595信息增益3000TF?IDFTF?CHITF?IDF?dist貝葉斯分類器939393939494979797

      3.4 傾斜數(shù)據(jù)集對比實驗

      為驗證改進(jìn)的TF-IDF-dist算法在傾斜數(shù)據(jù)集的有效性,采用搜狗實驗室10個類別新聞?wù)淖鳛閿?shù)據(jù)集。實驗數(shù)據(jù)各類別分布如表2所示。采用卡方統(tǒng)計特征選擇算法,特征維度為3500,采用貝葉斯分類器進(jìn)行對比實驗。實驗結(jié)果如圖3所示。

      圖3 傾斜數(shù)據(jù)集對比實驗

      表2 傾斜數(shù)據(jù)集

      類別財經(jīng)汽車教育娛樂女性IT房產(chǎn)軍事科技體育訓(xùn)練集文檔數(shù)500066768719849621201282301203106測試集文檔數(shù)125016717148724030325730776

      分析圖3發(fā)現(xiàn),隨特征維數(shù)增加3種特征權(quán)重算法對應(yīng)分類模型的F1值均呈上升趨勢,這與均衡數(shù)據(jù)集表現(xiàn)一致;傳統(tǒng)TF-IDF算法對傾斜數(shù)據(jù)集適應(yīng)性較差,TF-CHI算法在傾斜數(shù)據(jù)集的F1值相比TF-IDF算法有較大提升,對傾斜數(shù)據(jù)集適應(yīng)性較強。改進(jìn)的TF-IDF-dist算法分類結(jié)果F1值整處于較高水平,對傾斜數(shù)據(jù)集適應(yīng)性更強;改進(jìn)的TF-IDF-dist算法F1值比TF-IDF算法平均高27.7%,比TF-CHI算法平均提升8.3%。

      為進(jìn)一步分析算法在傾斜數(shù)據(jù)集各類別的表現(xiàn),取特征維度為3500,對3種模型分類結(jié)果中每類文檔的準(zhǔn)確率召回率以及對應(yīng)F1值進(jìn)行整理如表3~表5所示。

      對比表3~表5數(shù)據(jù)發(fā)現(xiàn),傳統(tǒng)TF-IDF算法分類結(jié)果傾斜于文檔數(shù)較大的類別,分類結(jié)果偏向性很大;TF-CHI算法對傾斜數(shù)據(jù)集適應(yīng)性更強,但在訓(xùn)練集文檔數(shù)較大的類別F1值較低;改進(jìn)的TF-IDF-dist算法在各類別表現(xiàn)均處于較好水平。

      表3 傾斜數(shù)據(jù)集各類別分類指標(biāo)(TF-IDF)

      類別準(zhǔn)確率/%召回率/%F1值測試集文檔數(shù)財經(jīng)56100721250汽車1001931167教育982944171娛樂963045487女性10012240IT00030房產(chǎn)100193232軍事00057科技00030體育959494776平均值776862324

      表4 傾斜數(shù)據(jù)集各類別分類指標(biāo)(TF-CHI)

      類別準(zhǔn)確率/%召回率/%F1值測試集文檔數(shù)財經(jīng)9577851250汽車688776167教育969193171娛樂908286487女性797175240IT10671830房產(chǎn)19412632軍事28814257科技143530體育969394776平均值888184324

      表5 傾斜數(shù)據(jù)集各類別分類指標(biāo)(TF-IDF-dist)

      類別準(zhǔn)確率/%召回率/%F1值測試集文檔數(shù)財經(jīng)9392921250汽車909593167教育999496171娛樂908989487女性897280240IT36534330房產(chǎn)33534132軍事53916757科技503630體育969897776平均值919090324

      4 結(jié)束語

      1)將基于文本數(shù)據(jù)集類之間分布信息與詞在類間分布比重相結(jié)合,設(shè)計實現(xiàn)了一種基于類間比重和類間類內(nèi)方差的改進(jìn)的TF-IDF-dist算法。

      2)與傳統(tǒng)TF-IDF算法相比,改進(jìn)的算法在多種特征維度下,結(jié)合貝葉斯分類器,F(xiàn)1值平均提升3.2%;在特征數(shù)足夠大且一致時,結(jié)合不同特征選擇算法,F(xiàn)1值平均提升3%;改進(jìn)的TF-IDF-dist算法在傾斜數(shù)據(jù)集,分類F1值有較大提升。

      3)本文改進(jìn)的TF-IDF-dist算法相較于傳統(tǒng)算法,計算速度略有下降。在不影響算法準(zhǔn)確率的基礎(chǔ)上,需要進(jìn)一步提高TF-IDF-dist算法的效率。

      [1] Li Yongfei. A feature weight algorithm for text classification based on class information[C]// Advanced Materials Research Trans Tech Publications. 2013,756-759:3419-3422.

      [2] 彭時名. 中文文本分類中特征提取算法研究[D]. 重慶:重慶大學(xué), 2006.

      [3] 徐冬冬,吳韶波. 一種基于類別描述的TF-IDF特征選擇方法的改進(jìn)[J]. 現(xiàn)代圖書情報技術(shù), 2015(3):39-48.

      [4] Gautam J, Kumar E. An integrated and improved approach to terms weighting in text classification[J]. International Journal of Computer Science Issues, 2013,10(1):310-314.

      [5] 黃磊,伍雁鵬,朱群峰. 關(guān)鍵詞自動提取方法的研究與改進(jìn)[J]. 計算機科學(xué), 2014,41(6):204-207.

      [6] 張玉芳,彭時名,呂佳. 基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J]. 計算機工程, 2006,32(19):76-78.

      [7] How B C, Narayanan K. An empirical study of feature selection for text categorization based on term weightage[C]// Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence. 2004:599-602.

      [8] 施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計算機應(yīng)用, 2009,29(S1):167-170.

      [9] Chen Keli, Zong Chengqing. A new weighting algorithm for linear classifier[C]// Proceedings of 2003 International Conference on Natural Language Processing and Knowledge Engineering. 2003:650-655.

      [10] 趙小華. KNN文本分類中特征詞權(quán)重算法的研究[D]. 太原:太原理工大學(xué), 2010.

      [11] Aless R B, Moschitti A, Pazienza M T. A text classifier based on linguistic processing[C]// International Joint Conference on Artificial Intelligence. 1999.

      [12] 樊小超. 基于機器學(xué)習(xí)的中文文本主題分類及情感分類研究[D]. 南京:南京理工大學(xué), 2014.

      [13] Chen Chien-Hsing. Improved TFIDF in big news retrieval: An empirical study[J]. Pattern Recognition Letters, 2016,93(1):113-122.

      [14] Chen Kewen, Zhang Zuping, Long Jun. Turning from TF-IDF to TF-IGM for term weighting in text classification[J]. Expert Systems With Applications Journal, 2016,66(C):245-260.

      [15] 郭正斌,張仰森,蔣玉茹. 一種面向文本分類的特征向量優(yōu)化方法[J]. 計算機應(yīng)用研究, 2017,34(8):2299-2302.

      猜你喜歡
      特征詞特征選擇類別
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      面向文本分類的特征詞選取方法研究與改進(jìn)
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      計算機工程(2014年6期)2014-02-28 01:26:36
      威海市| 抚远县| 镇坪县| 呼图壁县| 钦州市| 通化市| 罗城| 潮州市| 长沙市| 开阳县| 安阳市| 洪雅县| 辽宁省| 柳河县| 曲松县| 荆门市| 武鸣县| 安多县| 临安市| 合山市| 双城市| 田林县| 若尔盖县| 神木县| 成安县| 革吉县| 大埔县| 德昌县| 黄梅县| 祁东县| 秭归县| 襄垣县| 望谟县| 文昌市| 惠安县| 昭苏县| 甘孜县| 榕江县| 新营市| 庐江县| 阿合奇县|