• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進信息增益特征選擇法的SVM中文情感分類算法

      2019-01-24 03:10:08王根生黃學堅吳小芳胡向亮
      關鍵詞:詞頻特征選擇分類器

      王根生, 黃學堅, 吳小芳, 胡向亮

      (江西財經大學 計算機實踐教學中心,南昌 330013)

      隨著開放性、交互性互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡成為人們發(fā)表觀點、信息、情感的新平臺[1]。如何對這些傳播的信息進行情感分析是網(wǎng)絡輿情監(jiān)測的一個重要部分。國內外的學者也已經開展了相關研究,國外學者主要專注于英文文本情感分類的研究,而由于中文表達的多樣性,對中文情感分類的研究更具復雜性[2]。

      目前文本情感分類算法主要分為基于語義理解和基于機器學習2類[3-4]?;跈C器學習的文本情感分類思想是:通過事先標注好了情感標簽的文本作為訓練集,選擇相關的機器學習算法進行訓練,得到分類器,最后使用這個分類器對后續(xù)的文本進行情感分類[5]。Bo Pang等使用最大熵(Maximum Entropy)、支持向量機(SVM)、樸素貝葉斯(Native Bayes)等不同機器學習算法對文本的情感傾向性進行分類實驗,發(fā)現(xiàn)SVM算法的效果最好[6]。

      基于機器學習的文本情感分類算法的第一步是對文本進行分詞處理,然后進行特征詞篩選。如果直接使用分詞后的詞組作為特征空間會產生高維的數(shù)據(jù),在高維數(shù)據(jù)空間進行訓練會導致計算時間過長且得到的分類器效果不佳等問題[7-8]。針對此問題,唐慧豐等人[9]提出了基于信息增益特征選擇的機器學習文本情感分類算法。本文在該方法之上引入詞頻和特征詞情感表現(xiàn)程度的改進策略,對文本特征降維處理,采用SVM算法進行訓練,實驗結果顯示該算法具有更好的分類效果。

      1 相關理論

      使用SVM算法進行文本情感分類時,主要涉及文本的特征表示、文本特征選擇、訓練器構建等[10]。

      算法Ⅰ:基于SVM算法的文本情感分類算法

      Step1:Select training set;//來源于事先標注好了情感標簽的文本。

      Step2:Preprocessing Text;//分詞處理,排除停用詞。

      Step3:Text representation;//根據(jù)預處理后的結果進行特征選擇與提取,構造特征表示。

      Step4:Training classifier;//對訓練集中的每個文本進行統(tǒng)一表示,采用SVM算法進行訓練,得出分類器。

      Step5:Test classifier;//選擇測試集測試分類器的準確率等相關指標。

      1.1 文本特征表示

      對文本進行特征表示是機器學習中一個重要的步驟,一個好的特征表示不僅反映了文本的基本內容,并且對不同的文本特征也能很好地區(qū)分[11]。常見的表示模型有布爾模型(Boolean Model)、向量空間模型(VSM)、概率模型(Probabilistic Model)和潛在語義索引模型(LSI)等[12]。向量空間模型(VSM)是目前文本特征表示中運用最廣泛的模型[13],它包含3個基本概念:①文本(document),由一定數(shù)量的特征詞組成。②特征項(feature term),文本特征詞組成了特征項原始空間,向量空間模型使用這些特征項表示為di(ti1,ti2, …,tin),di表示第i個文本,tik表示第i個文本的第k個特征項。③特征項權重(term weight),在特征向量中,對每個特征項都要進行相應的權重計算,權重的大小作為區(qū)分文本類別的貢獻程度[14]。文本di表示為di(ti1=wi1,ti2=wi2,…,tin=win),簡記為di(wi1,wi2,…,win),其中wik就是第i個文檔中第k個特征項的權重。權重計算目前用的較多的是TF-IDF算法[15]。

      1.2 文本特征選擇

      文本經過分詞和去停用詞后,會產生一個較大的原始特征空間。特征空間中每個特征對分類貢獻的大小不同,選擇貢獻大的特征詞,降低特征空間復雜度,以提高機器學習算法的效率[16-17]。目前,特征選取的方式有3種:①采用變換或映射等方法將最原始的特征進行轉換,從而減少特征的數(shù)目;②依據(jù)相關領域專家的先驗知識選??;③使用數(shù)學方法計算每個特征對分類判別貢獻的大小,從而進行特征選擇。

      使用數(shù)學方法進行特性選取是比較精確的,因為人為干擾因素較少,在選擇準則上都是基于特征詞的頻率或出現(xiàn)特征詞的文檔頻率,常用的方法有:文檔頻率(document frequency)、互信息(mutual information)、期望交叉熵(expected cross entropy)、χ2統(tǒng)計法和信息增益(information gain)等[18]。信息增益方法在文本情感分類中表現(xiàn)得比較優(yōu)秀,其計算方法為

      (1)

      1.3 SVM分類器

      支持向量機(SVM)算法通過核函數(shù)把低維特征空間不可線性分割問題轉換到高維特征空間,使得問題求解在高維特征空間線性可分[19]。其以良好的性能在模式識別、圖像分析、自然語言處理等相關領域得到廣泛運用。

      SVM的核函數(shù)有多種類型選擇,常用的核函數(shù)有4種:①線性核函數(shù);②多項式核函數(shù);③徑向核函數(shù);④sigmoid核函數(shù)。

      2 基于改進信息增益特征選擇法的SVM算法

      傳統(tǒng)的信息增益方法在計算過程中只考慮了特征出現(xiàn)與不出現(xiàn)2種情況和特征對全體樣本的貢獻,而沒有考慮到單個局部樣本,所以該算法在全局效果較好,而在某些局部樣本空間的表現(xiàn)不佳。

      2.1 融合詞頻與情感程度的信息增益特征選擇方法

      針對傳統(tǒng)信息增益方法的局限性,本文提出融合詞頻和特征詞情感程度的改進思路。

      a.引入詞頻

      詞頻指詞語在文本中出現(xiàn)的次數(shù),頻率越高的詞語越能代表文本的特性。設文本的特征集合為T={t1,t2,t3,…,tn},訓練集文本di1,di2, …,diNi屬于類別Ci(1≤i≤2),其中Ci類的文檔總數(shù)為Ni,tfik(tj)代表特征tj(1≤j≤n)在文本dik(1≤k≤Ni)中出現(xiàn)的頻率。再對每個詞頻進行歸一化處理,特征項tj在類別Ci中出現(xiàn)的頻率表示為tfik′(tj),令Aj=tfik′(tj),計算公式為

      (2)

      b.引入詞語情感表現(xiàn)程度

      本文使用知網(wǎng)語義相似度公式進行詞語情感表現(xiàn)程度計算,將語義相似度融入到特征選擇過程中。為了計算方便,對計算公式進行歸一化處理

      (3)

      式中:Bi為特征i的情感表現(xiàn)程度;O(wi)為特征i的情感權值;n為所有特征的個數(shù)。其中O(wi)參考知網(wǎng)語義相似度計算公式

      (4)

      式中:POS代表褒義詞集合;NEG代表貶義詞集合;m為褒義詞集合的大小;n為貶義詞集合大小;Sim(w,POSi)為詞語w與POS中第i個詞語的相似度;Sim(w,NEGj)為詞語w與NEG中第j個詞語的相似度。

      c.改進的信息增益

      綜上所述,根據(jù)詞頻公式(2)和詞語情感程度公式(3),對信息增益計算公式(1)重新定義,計算式為

      (5)

      2.2 改進信息增益特征的SVM算法

      使用改進后的信息增益計算公式(5)對算法Ⅰ中Step3進行優(yōu)化,并且為了降低算法的復雜度,進行了2次特征選擇,第一次使用傳統(tǒng)的信息增益方法進行粗略降維,再使用本文改進的信息增益方法進行第二次降維。

      算法Ⅱ:基于改進信息增益特征SVM算法的文本情感分類算法

      Step1: Select training set;//對訓練文本進行情感標注。

      Step2: Preprocessing Text;//對文本進行分詞和去除停用詞處理,構成原始特征集合。

      Step3:First feature reduction;//使用傳統(tǒng)的信息增益方法對原始特征集合進行特征選擇,構成第一次降維后的特征集合。

      Step4:Secondary feature reduction;//通過詞頻與情感程度融合的信息增益方法對Step3篩選后的結果再降維,構成最終的特征子集合。

      Step5: Training classifier;//使用最終的特征子集合構成文本特征表示,作為SVM算法的輸入數(shù)據(jù)進行訓練。

      Step6: Test classifier。//對最后得出的分類器進行測試。

      3 實驗與分析

      本實驗主要比較不同的特征選擇方法下SVM算法在文本情感分類中的表現(xiàn)。訓練樣本來源于各大網(wǎng)站的評論性文章,涉及財經、房地產、汽車、娛樂、體育等領域,共2 000篇文章,并對文章表達的褒貶情感進行人為標注。在實驗過程中,分別使用文檔頻率(DF)、χ2統(tǒng)計法、信息增益(IG)以及本文改進的信息增益法進行特征選擇,使用歸一化后的向量空間模型(VSM)作為文本特征表示,借助SVM的開源庫LIBSVM和sigmoid核函數(shù)進行SVM算法試驗,使用交叉驗證的方式進行驗證,使用查全率(recall)與查準率(precision)對算法進行衡量。實驗對訓練樣本進行了3次隨機選擇訓練,具體結果如表1所示。

      從實驗結果數(shù)據(jù)能夠看出,基于本文改進的信息增益特征選擇的SVM算法在查準率、查全率上都有提高,因為它在特征選擇時從全局和局部2個方面進行了衡量。在得到基于改進信息增益特性選擇的SVM分類器后,再重新選擇測試數(shù)據(jù)集進行測試,測試數(shù)據(jù)集依然來自財經、房地產、汽車、娛樂、體育5個領域,每個領域各300篇已標注了褒貶情感類別的文本,測試結果如表2所示。

      表1 不同的特征選擇方法下SVM文本情感分類算法性能比較Table 1 Algorithm performance comparison of SVM text sentiment classification under different feature selection

      表2 分類器在不同領域的性能表現(xiàn)Table 2 Performance of classifier in different fields

      從測試結果看,娛樂領域的評論性文章的查全率和查準率的結果值最高,因為該領域的評論性文章的褒貶情感最為明顯;其他幾個領域雖然比訓練時交叉驗證的結果低一點,但分類器依然保持了較好的泛化能力。為了進一步證明該算法的性能,再選取不同數(shù)目特征集的情況下對傳統(tǒng)信息增益特征選擇的SVM算法和基于本文改進的信息增益特征選擇的SVM算法進行對比實驗,特征集的大小從100遞增到1 000,每次遞增100,使用F-measure來衡量算法的性能。F-measure是查全率與查準率加權平均值,也同樣進行3組實驗,以3組結果的平均F-measure來衡量性能(圖1)。

      圖1 不同特征集個數(shù)下2種算法性能比較Fig.1 Performance comparison of two algorithms with different feature numbers

      由圖1可以看出,開始階段隨著特征集數(shù)目的增加2種算法的性能都有提高,但超過一定數(shù)目后性能反而隨著特征集數(shù)目的增加而降低,這是由于特征數(shù)目較少時SVM算法處于欠學習(underfitting)狀態(tài),而超過一定特征數(shù)目后處于過學習(overfitting)狀態(tài)。而且在不同特征集數(shù)目下,本文改進的算法分類性能一直優(yōu)于基于傳統(tǒng)的信息增益SVM算法,在特征集數(shù)目較少的情況下優(yōu)勢更為明顯。因為傳統(tǒng)的信息增益方法是根據(jù)特征對整個系統(tǒng)分類貢獻的大小選取的,沒有考慮特征詞在某個特定類別下的貢獻,選取特征集數(shù)目較少時,這些對全局分類貢獻不大,但對特定類別下分類貢獻較好的特征很難被選中。本文引入詞頻和詞語情感表現(xiàn)程度的改進的特征選擇方法綜合考慮了特征在全局和局部的貢獻大小,改善了整個算法分類的效果。

      4 結 論

      本文介紹了文本情感分類的主要方法,針對傳統(tǒng)的信息增益特性選擇法的局限性,提出引入詞頻和特征詞情感表現(xiàn)程度的信息增益特性選擇算法,提高了特征選擇的準確性,再通過選擇后的特征構造文本向量,使用SVM算法進行訓練。通過實驗對比,本算法比傳統(tǒng)的算法具有更好的分類效果。

      猜你喜歡
      詞頻特征選擇分類器
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      聯(lián)合互信息水下目標特征選擇算法
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      涿鹿县| 信宜市| 洪湖市| 南召县| 宜阳县| 方正县| 巴楚县| 扎兰屯市| 南开区| 加查县| 奈曼旗| 中卫市| 古丈县| 栾城县| 新蔡县| 凌源市| 灌阳县| 张家川| 石狮市| 万载县| 湘潭县| 教育| 屏山县| 津南区| 盐源县| 九龙城区| 通州市| 四子王旗| 九龙县| 玛纳斯县| 额尔古纳市| 慈利县| 新化县| 阿拉尔市| 耒阳市| 平阳县| 出国| 永济市| 万载县| 牡丹江市| 博白县|