• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征選擇技術(shù)的情感詞權(quán)重計算

      2016-10-10 08:20:43吳金源冀俊忠趙學武吳晨生杜芳華
      北京工業(yè)大學學報 2016年1期
      關(guān)鍵詞:詞庫特征選擇類別

      吳金源,冀俊忠,趙學武,2,吳晨生,杜芳華

      (1.北京工業(yè)大學計算機學院多媒體與智能軟件技術(shù)北京市重點實驗室,北京 100124;2.南陽師范學院軟件學院,河南南陽 473061;3.北京市科學技術(shù)情報研究所,北京 100048)

      基于特征選擇技術(shù)的情感詞權(quán)重計算

      吳金源1,冀俊忠1,趙學武1,2,吳晨生3,杜芳華1

      (1.北京工業(yè)大學計算機學院多媒體與智能軟件技術(shù)北京市重點實驗室,北京 100124;2.南陽師范學院軟件學院,河南南陽 473061;3.北京市科學技術(shù)情報研究所,北京 100048)

      在文本情感分析中,情感詞典的構(gòu)建至關(guān)重要,然而目前這方面的研究大多集中在簡單的詞語極性判別上,有關(guān)情感詞的權(quán)重賦值研究較少,且已有的權(quán)重賦值方法基本上都需要人工輔助來選取基準詞,這給實際應(yīng)用帶來很大的困難.針對此問題,提出了一種自動的基于特征選擇技術(shù)的情感詞權(quán)重計算方法.首先提出了詞語情感權(quán)重與文本情感傾向的相關(guān)假設(shè);然后針對情感分類,結(jié)合二元分類的特性改進了信息增益(information gain,IG)和卡方統(tǒng)計量(chi-square,CHI),將特征選擇技術(shù)應(yīng)用于情感詞權(quán)重計算.實驗結(jié)果表明:將計算所得的帶情感權(quán)重的情感詞庫用于文本情感分類能夠提升分類精度.

      文本情感分類;情感詞典構(gòu)建;特征選擇;權(quán)重計算

      當今越來越多的網(wǎng)民喜歡在各種網(wǎng)絡(luò)平臺上發(fā)表言論,對商品、電影、新聞事件等表達主觀看法,言論中包含的信息量越來越大.這些評論中包含了諸如肯定或是否定的情感信息,其中蘊涵著一些潛在價值.面對這樣的情感文本信息,基于主題的傳統(tǒng)分類技術(shù)已不能有效地對其進行挖掘,于是情感分析(sentiment analysis)應(yīng)運而生了.

      文本情感分類是情感分析的一個研究熱點,它將傾向積極、肯定和贊揚等正面的文本看作正例,將傾向消極、否定和批評等負面的文本看作負例,對于詞語的情感判別同樣如此.文本情感分類的主要研究途徑有2種[1]:基于情感信息統(tǒng)計的分類和基于機器學習的分類.無論采用哪種途徑,由于文本組成的最小粒度是詞,因此充分利用詞語的情感極性信息對提高文本情感分類精確度至關(guān)重要.可見,情感詞典構(gòu)建是一個相當基礎(chǔ)而且重要的工作.目前有關(guān)情感詞庫構(gòu)建的研究比較多,研究的思路主要有3種.

      一是基于語料的方法.該方法主要是基于一個大的語料庫,對詞語進行統(tǒng)計分析,從而挖掘出詞的極性特征.具體的流程是:首先根據(jù)人工判定的一些正面詞和負面詞來設(shè)置一些基準詞;然后基于充分大的語料或者是網(wǎng)絡(luò)搜索引擎,統(tǒng)計非基準詞和基準詞的共現(xiàn)信息并計算它們的相似度;最后根據(jù)相似度判別一個詞的正負極性.點互信息(point mutual information,PMI)[2]是其相似度計算的最經(jīng)典的方法.例如,朱嫣嵐等[3]通過計算待定詞匯和HowNet中已標注正負極性的詞匯間的相似度來確定待定詞匯的極性.徐琳宏等[4]構(gòu)建的中文情感詞匯本體庫[4]基于PMI計算詞語的情感程度.該方法首先人工選取一些帶情感程度(分為5個等級)的基準詞,然后基于語料集計算待定詞和每個基準詞的PMI值,將其中與之互信息PMI值最大的基準詞的程度作為待定詞的情感程度.

      二是基于語義詞典的方法[5].它以現(xiàn)有的語義詞典(中文主要是HowNet和同義詞林,英文主要采用WordNet)為基礎(chǔ),先利用同義詞等信息計算詞語之間的相似度,再判別詞語的正負極性.如柳位平等[6]以HowNet情感詞語集為基準,從中選取褒貶明顯的詞作為基準詞,采用知網(wǎng)的語意相似度計算公式計算待定詞匯和基準詞之間的相似度,從而確定詞語的極性和權(quán)重.Esuli等[7-8]利用WordNet語言資源,定量分析確定了每個詞在不同注釋下的正負情感及權(quán)值,構(gòu)建了情感詞典SentiWordnet.

      三是結(jié)合前2種思路的混合方法.如周詠梅等[9]提出了一個SLHS構(gòu)建過程,首先收集并整理幾個常用的情感詞庫;其次利用HowNet獲取中文情感詞的英文詞語義元組,并通過文獻[7]構(gòu)建的SentiWordNet查詢每個英文義元的同義詞集合;然后求取這些同義詞集合的平均情感程度,作為每個義元的情感權(quán)重;最后計算每個中文情感詞對應(yīng)的義元組的平均權(quán)重,即得到了最終的中文情感詞的情感權(quán)重.

      上面的方法大都是需要人工選取基準詞和賦權(quán)值,結(jié)果不具有穩(wěn)定性,而且沒有充分利用訓練集文本的情感信息.常用的基于統(tǒng)計的特征選擇方法一般會對特征進行評價和排序,以反映特征的重要程度.因此,文本提出了一種不需要設(shè)置基準詞,基于特征選擇技術(shù)的情感詞權(quán)重計算方法.在分析情感詞情感程度與文本情感傾向關(guān)系的基礎(chǔ)上,針對情感分類對特征選擇方法信息增益(information gain,IG)和卡方統(tǒng)計量(chi-square,CHI)作了一些改進,并將之應(yīng)用于情感詞權(quán)重計算.最后的實驗結(jié)果表明,利用此方法計算所得的帶情感權(quán)重的情感詞庫有利于情感分類,能夠提升分類精度,因此文中提出的方法是合理有效的.

      1 相關(guān)工作

      1.1特征選擇方法

      特征選擇是一種常用的維數(shù)約減方法,它根據(jù)特征的重要度從原始特征集中選取最重要的特征,是文本分類的一個預(yù)處理過程.為了介紹方便約定如下符號:t為特征;{c1,…,ci,…,ck}為類別集合;k為訓練集的類別數(shù);A為出現(xiàn)特征t且屬于類別ci的文檔數(shù);B為出現(xiàn)特征t但不屬于類別ci的文檔數(shù);C為不出現(xiàn)特征t但屬于類別ci的文檔數(shù);D為不出現(xiàn)特征t且不屬于類別ci的文檔數(shù);N為訓練集中總的文檔數(shù),N=A+B+C+D.

      1.1.1文檔頻率

      文檔頻率(document frequency,DF)[10]方法的基本思想是:統(tǒng)計計算每個詞的文檔頻率值,根據(jù)預(yù)先設(shè)定最小文檔頻率值和最大文檔頻率值來去除和保留特征,如果特征t的文檔頻率值在最小和最大閾值之間,則保留t,否則去掉.

      這種方法實現(xiàn)起來比較簡單,適用于大規(guī)模數(shù)據(jù)集,但是最小閾值可能設(shè)定得不合理,并且低頻詞不全是噪音詞,導(dǎo)致一些包含類別信息的重要特征被去除,會影響分類性能.

      1.1.2信息增益(IG)

      IG[11]能夠度量特征包含類別信息的多少,一個特征詞的信息增益為該特征出現(xiàn)前后的信息熵之差,通常會對某一文檔、類別或是整個數(shù)據(jù)集來計算.根據(jù)IG方法的定義,特征的信息增益越大,表示該特征對于分類越重要.

      針對某個具體的類別ci,特征t的信息增益為

      1.1.3卡方統(tǒng)計量(CHI)

      CHI[10]能表征2個變量間的相關(guān)性,兼顧特征存在與不存在時的情況.根據(jù)CHI的定義可知,特征與類別的CHI值越大,這個特征就越重要.

      對于某個具體類別ci,特征t的CHI統(tǒng)計值為

      特征t對于整個訓練集的CHI值的計算方式有2種:根據(jù)特征與每個類別的CHI值,一是計算其與所有類別的加權(quán)平均值,二是計算其最大值.2種計算公式為

      基于統(tǒng)計的特征選擇方法還有很多,如互信息(mutual information,MI)、期望交叉熵(expected cross entropy,ECE)、幾率比(odds ratio,OR)和基尼指數(shù)等.

      1.2情感詞典構(gòu)建方法

      1.2.1基于語料庫的方法

      這里主要介紹基于PMI的方法,它是一種經(jīng)典的利用語料庫的方法.互信息能夠刻畫2個變量之間的相關(guān)性,假設(shè)有2個特征word1和word2,它們之間也可以計算互信息值,此時稱為點間互信息,記為PMI(word1,word2),計算公式為

      其中:P(word1)和P(word2)分別是word1和word2單獨出現(xiàn)的概率;P(word1&word2)是詞語word1和word2共同出現(xiàn)的概率.PMI(word1,word2)越大,word1和word2相關(guān)性越強.基于PMI計算并判別詞語極性的方法稱為語義取向點互信息(semantic orientation point mutual information,SOPMI).該方法首先從詞庫中選取一些有代表性的詞作為基準詞,其中包含等數(shù)量的n個正面詞poswords(詞語記為Pwordi,i∈[1,n])和n個負面詞negwords(詞語記為Nwordi,i∈[1,n]).

      對于一個特征詞 word,它的 SO-PMI計算公式為

      詞語的極性判定規(guī)定如下:

      SO-PMI(word)>0時,詞語word為正面詞;

      SO-PMI(word)=0時,詞語word為中性詞;

      SO-PMI(word)<0時,詞語word為負面詞.

      此外,詞語的SO-PMI值還常被用于度量情感詞的情感程度.

      1.2.2基于語義詞典的方法

      基于HowNet的詞語極性判別方法是一種基于電子詞典的方法,同上面的方法類似,也是計算特征詞與基準詞之間的相似度來判別極性.不同的是,基于PMI的方法是基于語料統(tǒng)計詞語共現(xiàn)來計算的,而此方法是基于一個現(xiàn)有的語義詞典來實現(xiàn)的.知網(wǎng)是清華大學創(chuàng)建的一個很大的知識體系,在2007年開始發(fā)布“情感分析用詞語集beta版”,總共有17 887個詞.這個詞典被廣泛應(yīng)用于情感分析工作.

      WordNet是一種基于認知語言學的英語詞典,按照單詞的意義組成了一個“單詞的網(wǎng)絡(luò)”,是一個覆蓋范圍寬廣的英語詞匯語義網(wǎng).名詞、動詞、形容詞和副詞各自被組織成一個同義詞的網(wǎng)絡(luò),每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關(guān)系連接.

      1.3文本情感分類算法

      1.3.1簡單的情感分類方法

      簡單的基于情感詞極性累加的方法(naive andsentiment words polarity accumulation based algorithm,NP),是一種無監(jiān)督的方法,其主要思想是:首先依據(jù)已有的情感詞庫對測試文本進行分詞處理,文本用詞組成的向量來表示.

      假設(shè)文本為d,詞為wordi,那么d=(word1,…,wordi,…,wordh),詞的正負極性值為Valuei∈{1,-1}.一個詞的極性值為1,表示詞為正面詞,否則相反.文本d的傾向函數(shù)f定義為

      文本的極性判定規(guī)定如下:

      f(d)>0時,文本d為正例;

      f(d)≤0時,文本d為負例.

      1.3.2樸素貝葉斯情感分類算法

      樸素貝葉斯情感分類算法(naive Bayesian cate gorization algorithm,NB)[12]是一種依賴訓練集的方法.該方法利用情感詞在正向和負向類訓練語料中出現(xiàn)的頻率作為情感詞出現(xiàn)的概率,最后用最大后驗概率確定待判別文檔的極性.

      假設(shè) d為帶判別文檔,d由特征詞{t1,…,tj,…,th}組成.根據(jù)貝葉斯準則可以得到文檔d屬于類別ci的后驗概率為

      式中:ci∈{+,-};+表示正向類別;-表示負向類別;P(ci)為類別ci文檔數(shù)占訓練集的比例.對于每個類別,P(d)在式(9)中是一個定值,關(guān)鍵在于P(d| ci)的計算.為了簡化計算,該方法假定每個特征對分類的影響?yīng)毩⒂谄渌卣鳎?P(d|ci)=可以采用下面的公式進行估算:

      依次計算文檔d屬于每個類別的概率,那么依據(jù)貝葉斯決策理論可以確定文檔d所屬的類別為

      2 情感詞情感權(quán)重計算新框架

      目前,對于情感詞典構(gòu)建的研究主要局限在簡單的詞語極性判別,即只將情感詞判別為正面詞(褒義詞)或者是負面詞(貶義詞).為了更好地利用情感詞進行情感分析,在獲得詞庫后可以采取一些方法給情感詞賦權(quán)重以描述它們的情感程度.文獻[4]等情感詞權(quán)重的計算依賴于基準詞,權(quán)重計算的準確度受限于基準詞的選擇及基準詞情感程度的設(shè)定,并且這種只利用詞語的共現(xiàn)信息存在不足.情感語料庫訓練集包含的文本都具有正負類別信息,這些信息對于情感詞的情感程度確定也是非常有益的.

      因此,本文提出一種自動獲取詞語情感程度的方法,此方法不再需要人工設(shè)定基準詞,而是充分利用語料的情感類別信息,這樣獲得的情感權(quán)重更適用于文本的情感分類.詞庫采用臺灣大學的NTUSD極性情感詞庫.下面首先提出情感詞情感權(quán)重與文本情感傾向的相關(guān)假設(shè),然后結(jié)合分析一些經(jīng)典的特征選擇方法,將特征選擇技術(shù)拓展應(yīng)用到情感詞的權(quán)重賦值上.應(yīng)用特征選擇技術(shù)給情感詞賦權(quán)重的流程如圖1所示.

      2.1詞語情感權(quán)重與文本情感傾向的相關(guān)假設(shè)

      對于一個富含情感信息的文本進行情感分析時一般會重點關(guān)注情感詞.這些情感詞不只是具有正面或者負面這2種特性,它們還具有不同的情感程度.例如,“很好”和“還行”這2個詞的褒義程度就不一樣,如果它們分別出現(xiàn)在2個商品評價信息中,出現(xiàn)“很好”的評論是正面評價的可能性會很大,而出現(xiàn)“還行”的評價是正面評價的可能性就沒那么大了.因此,情感詞的情感權(quán)重(代表情感程度)對文本情感分類也非常重要.普遍認同下面的假設(shè),可以稱之為詞語情感權(quán)重與文本情感傾向的相關(guān)假設(shè):

      1)含有高權(quán)重正面詞的文本比含有低權(quán)重正面詞的文本屬于正例的概率要大;

      2)含有高權(quán)重負面詞的文本比含有低權(quán)重負面詞的文本屬于負例的概率要大.

      情感詞的情感程度可以由人工設(shè)定,但是人的精力有限,每個人對這種強弱程度的判斷也存在偏差,而且在不同的語境中一個詞的權(quán)重往往是變化的,所以人工設(shè)定情感詞的權(quán)重值的方法存在缺陷,不利于情感分類.

      特征選擇作為文本分類的一個預(yù)處理過程,可以用來刻畫一個特征對于分類的重要程度.對于文本情感分類,可以將其看成二元分類:正面類和負面類.類似地,可以基于特征選擇函數(shù)計算特征與正負類別的相關(guān)度,以此來度量情感詞的情感權(quán)重.

      如果對于正例類別,2個正面詞word1和word2經(jīng)過特征選擇函數(shù)的計算得到的值分別為value1和value2,文本a中有詞word1,文本b中有詞word2,若value1>value2,且只考慮這2個詞對a和b的類別判定,則a比b屬于正面類別即正例的概率要大.這種認識和上面的假設(shè)非常契合,因此,情感詞的特征選擇函數(shù)值的大小能夠反映情感詞的情感程度強弱.

      2.2基于IG的情感詞權(quán)重計算

      特征對于某個類別的信息增益值可以度量特征包含該類別信息的多少.計算一個特征對于訓練集的信息增益公式如式(2)所示,它計算并匯總了特征與所有類別的信息增益值,適合于多元分類.而情感分類中一般只有正類和負類2個類別,因此需要對傳統(tǒng)的IG方法進行一些改進.

      1)不再計算特征與所有類別的特征選擇函數(shù)值,只注重特征與目標類別的關(guān)系,這樣更適用于情感分類這樣的二元分類.

      2)情感詞庫分為正面情感詞庫和負面情感詞庫,分別計算正面特征對于訓練集中正例類別的信息增益值和負面特征對于訓練集中負例類別的信息增益值.

      假設(shè)正面詞庫為 tPos,包含的特征詞為{tP1,tP2,…,tPi,…,tPm},負面詞庫為tNeg,包含的特征詞為{tN1,tN2,…,tNi,…,tNn};正負類別分別為c+,c-.那么正面詞tP和負面詞tN的信息增益計算公式為

      計算完每個特征對目標類別的信息增益值后,將正面詞庫和負面詞庫中的詞按照信息增益值從大到小排序.依據(jù)前面的介紹,需要給信息增益值大的特征賦予較大的權(quán)重,信息增益值較小的詞賦予較小的權(quán)重.因此,可以根據(jù)排序后情感詞的位置前后衡量詞的情感程度.假設(shè)正面詞庫有m個詞,負面詞庫有n個詞,正面情感詞的權(quán)重范圍設(shè)定為0~10,負面詞的權(quán)重范圍為-10~0,那么正面詞庫中信息增益值排名(排名從1開始)為i的正面詞tPi和負面詞庫中信息增益值排名為j的負面詞tNj的權(quán)重W的計算公式為

      2.3基于CHI的情感詞權(quán)重計算

      卡方統(tǒng)計也是一種經(jīng)典的特征選擇方法,特征和類別的卡方統(tǒng)計量可以表征它們之間的相關(guān)性.在式(3)中,當AD-BC≤0時代表特征和類別負相關(guān)[13].在考慮正面詞對正面類別時,當出現(xiàn)負相關(guān)情況時,卡方統(tǒng)計值度量文本包含該特征時不屬于正面類別的概率,這與正面詞在正面類別文本中的作用是相違背的,所以這種負相關(guān)程度越大,卡方統(tǒng)計值應(yīng)越小.考慮負面詞對負面類別亦是如此.所以需要對CHI方法進行改進.仍然是將正面特征和負面特征分開計算,改進后的公式為

      在采用改進的CHI進行特征選擇后,余下的步驟同2.2節(jié).

      2.4融入情感權(quán)重的情感分類算法

      前面1.3節(jié)介紹了2種情感分類算法NP和NB,本節(jié)將基于這2種算法,融入情感權(quán)重信息形成新的情感分類算法NP-W和NB-W,這2種方法將被用于測試情感權(quán)重的有效性.

      2.4.1NP-W算法

      將情感權(quán)重信息融入NP方法后,不再利用詞的極性信息,而是利用權(quán)重信息Wi.那么,文本d的情感傾向計算函數(shù)f'(d)為

      同樣,文本的極性判定規(guī)定為:f(d)>0時,文本d為正例;f(d)≤0時,文本d為負例.

      2.4.2NB-W算法

      將情感權(quán)重信息融入NB方法后,P(d|ci)的計算公式為

      式中 ci∈{+,-}.文本的極性判定規(guī)定如下:P(+|d)>P(-|d)時,d屬于正例;P(-|d)>P(+|d)時,d屬于負例.

      3 實驗與分析

      3.1實驗設(shè)計

      特征選擇是文本分類的一個重要的預(yù)處理過程,能夠?qū)Ω呔S數(shù)據(jù)進行有效的維數(shù)約簡.不僅如此,它還可以計算特征對于分類的重要程度.本實驗擬基于特征選擇技術(shù)設(shè)計一種情感詞的情感權(quán)重計算方法,具體的實驗流程如圖2所示.

      1)利用情感分類的訓練文本集和已有的極性情感詞庫(詞的正負極性確定,但是無權(quán)重),基于特征選擇技術(shù)給訓練集中出現(xiàn)的情感詞賦權(quán)重,生成一個帶權(quán)重的情感詞庫.

      2)為了測試權(quán)重的有效性,可以將權(quán)重信息融入現(xiàn)有的一些文本情感分類方法,通過實驗分析其效果.

      為了驗證基于特征選擇技術(shù)的權(quán)重賦值的方法的有效性,實驗中特征選擇方法有3種:DF特征選擇方法、2.2節(jié)設(shè)計的基于IG改進的方法和2.3節(jié)基于CHI改進的方法.DF特征選擇方法相對比較簡單,是一種不太精確的特征選擇方法,相對來說IG和CHI對特征的重要程度衡量比較準確.根據(jù)前面的假設(shè)理論,更好的特征選擇方法給情感詞賦的權(quán)重更準確,那么將之用于情感分類得到的分類效果也就越好.

      實驗的測試部分,會選取1.3節(jié)和2.4節(jié)中的情感分類算法.依據(jù)融入權(quán)重信息前后分類方法的效果對比,驗證基于特征選擇技術(shù)所賦的權(quán)重的合理性和有效性.

      3.2數(shù)據(jù)集

      情感詞庫采用比較權(quán)威的NTUSD極性情感詞庫.情感分類語料采用的是中科院譚松波博士收集整理的一個較大規(guī)模的實際商品評價語料,包括5個數(shù)據(jù)源,分別是從當當和京東獲取的書籍評論,從攜程獲取的酒店評論,以及從淘寶和京東獲取的電腦評論.每個數(shù)據(jù)源包含正負文本各2 000篇,分別隨機選取200篇作為測試集,其余的作為訓練集.基于NTUSD情感詞庫對訓練集中的文本進行分詞處理,最后得到了包含1 420個正面詞和2 493個負面詞的有效詞典.需要對這些總共為3 913個情感詞進行權(quán)重賦值.

      3.3性能評價指標

      正確率P、召回率R和F1值3種度量已被廣泛用于分類效果評價[1].對于類別ci∈{+,-},它們的計算公式為

      式中:bi是測試集中ci類的文檔數(shù);ai是其中被正確判斷為ci類的文檔數(shù);di是應(yīng)屬于ci類的文檔數(shù).F1值綜合考慮了正確率和召回率,能更全面地反映分類效果的優(yōu)劣.因此,本實驗將采用F1值來評價情感分類的效果,結(jié)果分析中會給出5個單獨數(shù)據(jù)集以及整個數(shù)據(jù)集的F1測度,包括正類F1值、負類F1值和平均F1值.

      3.4實驗結(jié)果與分析

      情感詞的權(quán)重計算分別采用了DF、改進的IG 和CHI三種方法,生成了3個不同的帶權(quán)重的情感詞庫.

      3.4.1NP和NP-W實驗對比

      表1給出了NP和融入權(quán)重信息后的NP-W兩種方法的實驗結(jié)果.NP-W(DF)表示采用的詞庫是用DF特征選擇方法計算生成的,NP-W(IG)和NPW(CHI)對應(yīng)的帶權(quán)重的情感詞庫為改進的IG和CHI分別計算得到的.每個數(shù)據(jù)源分別給出了負類和正類的分類準確率P、召回率R和F1測度.例如,當當書籍數(shù)據(jù)集用NP算法分類,負類的準確率、召回率和 F1測度分別為0.758 1、0.815和0.785 5,正類的準確率、召回率和F1測度分別為0.800 0、0.740 0和0.768 8.

      從表1可以看出,NP-W(IG)和NP-W(CHI)方法的效果明顯好于NP,NP-W(DF)的效果比NP較好,但是提升的效果不如NP-W(IG)和NP-W(CHI)那么顯著.

      表1 NP和NP-W的情感分類結(jié)果Table 1 Sentiment classification results of NP and NP-W

      圖3顯示了各種方法在5個數(shù)據(jù)集上的效果F1測度.圖3(a)顯示的是負類上的結(jié)果,圖3(b)顯示的是正類上的結(jié)果.從柱狀圖不難發(fā)現(xiàn),無論是哪個數(shù)據(jù)集,也無論是正類還是負類,NP-W(IG)和NP-W(CHI)方法的F1值都明顯地大于NP方法的F1值,這充分說明了采用改進的IG和CHI方法給情感詞庫賦權(quán)重的合理性.

      在負類上NP-W(DF)和原始的NP的效果接近,在正類上NP-W(DF)的效果雖然優(yōu)于NP,但是卻比NP-W(IG)和NP-W(CHI)差了不少,主要有2個原因:首先,DF特征選擇方法本身不如 IG和CHI,與針對情感分類進行改進的IG和CHI相差就更遠,導(dǎo)致賦予特征的權(quán)重不夠準確,所以效果不理想.其次,對于一個情感文本,NP方法通過簡單地比較正負特征的多少來判別類別,而數(shù)據(jù)集中正面詞比負面詞少(正面詞1 420個和負面詞2 493個),因此NP方法較其他方法更傾向于負類,導(dǎo)致NP在正類上的效果很差,這是不合理的.

      圖4顯示了上面4種方法在數(shù)據(jù)集正負類上的平均F1測度結(jié)果.平均F1值是計算負類和正類F1值的平均值.從圖4可以看出,融合權(quán)重后,無論是在5個單獨的數(shù)據(jù)集上,還是在整個數(shù)據(jù)集上,都能提升情感分類的效果.NP-W(IG)和NP-W(CHI)依舊取得最好的效果,NP-W(DF)的平均F1值也總是高于NP,這表明了NP-W(DF)雖然在負類上沒提高多少效果,但是整體上卻有較為明顯的提高.

      3.4.2NB和NB-W結(jié)果分析

      表2給出了NB和融入權(quán)重信息后的NB-W兩種方法的實驗結(jié)果.從表2可以看出,基于樸素貝葉斯的情感分類方法相比前面簡單的情感詞統(tǒng)計方法效果要好很多,尤其是其正類和負類的分類效果接近,說明該方法沒有類別傾向性,算法的設(shè)計比較合理.式(10)中P(tj|ci)也同樣計算了特征詞在各類別中的出現(xiàn)概率,相當于也給特征賦了一個權(quán)值,因此效果相比NP有所提升.融入權(quán)重信息后,效果也都得到了提升,再次說明了特征選擇技術(shù)能夠有效地應(yīng)用于情感詞權(quán)重計算.

      圖5顯示了基于NB的4種方法在5個數(shù)據(jù)集上的F1測度結(jié)果.NB-W(DF)方法在正類上的效果較差,主要原因是DF特征選擇方法傾向于高頻詞,而數(shù)據(jù)集中負面詞較多,所以經(jīng)過DF特征選擇計算后,負面詞的權(quán)重賦值相對較大,因此會在一定程度傾向于負類.不難發(fā)現(xiàn),NB-W(DF)方法在負類上的效果比NB方法好一些,也是該方法傾向于負類的一個表現(xiàn).

      圖6為4種方法在數(shù)據(jù)集正負類上的平均F1測度結(jié)果,在整個數(shù)據(jù)集上NB-W(DF)方法的平均F1值接近NB方法,NB-W(IG)和NB-W(CHI)相對NB方法提升了3%,效果較為明顯.

      表2 NB和NB-W的情感分類結(jié)果Table 2 Sentiment classification results of NB and NB-W

      4 結(jié)論

      1)將特征選擇技術(shù)拓展應(yīng)用于情感詞的權(quán)重計算,從而能夠構(gòu)建帶情感權(quán)重的情感詞庫.實驗結(jié)果表明:該方法是合理有效的,不僅能實現(xiàn)情感詞權(quán)重的自動計算,而且將計算所得的帶情感權(quán)重的情感詞庫用于文本情感分類,能夠有效提升分類精度.

      2)文中改進的IG和CHI可能不是最適合的特征選擇方法,未來可以展開的工作之一是研究并設(shè)計更加適用于情感詞權(quán)重賦值的特征選擇方法.另外,NTUSD詞庫總共約有1.1萬個詞,此次實驗只對其中的3 913個詞進行了權(quán)重賦值,是因為選取的5個評價語料集無法涵蓋NTUSD詞庫中的所有詞.如果想要完成所有詞的權(quán)重賦值,構(gòu)建一個更完整的帶權(quán)重的詞庫,可以選取更多的情感語料庫.不過,通過不同的語料集計算得到的情感詞庫可能存在重疊詞,且這些詞的權(quán)重在不同語料中也可能不盡相同,此時這些詞的權(quán)重計算也將是一個未來的研究內(nèi)容.

      [1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848. ZHAO Y Y,QIN B,LIU T.Text sentiment analysis[J]. Journal of Software,2010,21(8):1834-1848.(in Chinese)

      [2]TURNEY P,LITTMAN M L.Measuring praise and criticism:inference of semantic orientation from association [J].ACM Trans on Information Systems,2003,21(4):315-346.

      [3]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,20(1):14-20. ZHU Y L,MIN J,ZHOU Y Q,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.(in Chinese)

      [4]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學報,2008,27(2):180-185. XU L H,LIN H F,PAN Y,et al.Constructing the affective lexicon ontology[J].Journal of the China Society for Scientific and Technical Information,2008,27(2):180-185.(in Chinese)

      [5]ANDREEVSKAIA A,BERGLER S.Mining WordNet for a fuzzy sentiment:sentiment tag extraction from WordNet glosses[C]∥McCarthy D,Wintner S.Proc of the European Chapter of the Association for Computational Linguistics(EACL).Morristown:ACL,2006:209-216.

      [6]柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計算機應(yīng)用,2009,29(11):2882-2884. LIU W P,ZHU Y H,LI C L,et al.Research on building Chinese basic semantic lexicon[J].Journal of Computer Applications,2009,29(11):2882-2884.(in Chinese)

      [7]ESULI A,SEBASTIANI F.Sentiwordnet:a publicly available lexical resource for opinion mining[C]∥Proc of LREC.Genoa:LREC,2006:417-422.

      [8]BACCIANELLAS,ESULIA,SEBASTIANIF. Sentiwordnet 3.0:anenhancedlexicalresourcefor sentiment analysis and opinion mining[C]∥Proc of the LREC.Valletta,Malta:European Language Resources Association,2010:2201-2204.

      [9]周詠梅,楊佳能,陽愛民.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學學報(工學版),2013,43(6):2-33. ZHOU Y M,YANG J N,YANG A M.A method on building Chinese sentiment lexicon for text sentiment analysis[J].Journal of Shandong University(Engineering Science),2013,43(6):2-33.(in Chinese)

      [10]YANG Y,PEDERSON J O.A comparative study on feature selection in text categorization[C]∥ Proc of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann,1997:412-420.

      [11]QUINLAN J R.C4.5:programs for machine learning [M].LosAltos,California:MorganKaufmann Publishers,Inc,1993:17-26.

      [12]LEWIS D D.Naive Bayes at forty:the independence assumption in information retrieval[M]∥ Machine learning:ECML-98.Berlin:Springer,1998:4-15.

      [13]裴英博,劉曉霞.文本分類中改進型CHI特征選擇方法的研究[J].計算機工程與應(yīng)用,2011,47(4):128-130. PEI Y B,LIU X X.Study on improved CHI for feature selection in Chinese text categorization[J].Computer Engineering and Applications,2011,47(4):128-130. (in Chinese)

      (責任編輯 呂小紅)

      Weight Calculation of Emotional Word Based on Feature Selection Technique

      WU Jinyuan1,JI Junzhong1,ZHAO Xuewu1,2,WU Chensheng3,DU Fanghua1
      (1.Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,College of Computer Science and Technology,Beijing University of Technology,Beijing 100124,China;2.School of Software,Nanyang Normal University,Nanyang 473061,Henan,China;3.Beijing Institute Science and Technology Information,Beijing 100048,China)

      It is very important for the text sentiment analysis to build an emotional dictionary.However,most of current researches in this area focus on the words’polarity discrimination.Researchers rarely study the weight assignment of emotional words,and methods on this already existed mostly need to select benchmark words through artificial ways.Using artificial ways brings great difficulty in practical application.To solve this problem,an automatic weight calculation approach of emotional words based on feature selection technique was proposed.Firstly some related assumptions between the emotional weight of words and the emotional tendency of texts were proposed;Then,centered around sentiment classification,the properties of binary classification was combined to improve information gain(IG)and chi-squarec(CHI);Finally,the improved feature selection methods to calculate the weight of emotional words were usesd.Experimental results show that using the emotion dictionary with the calculated weights in text sentiment classification can greatly improve the classification accuracy.

      text sentiment classification;construction of emotion dictionary;feature selection;weight calculation

      TP 181

      A

      0254-0037(2016)01-0142-10

      10.11936/bjutxb2015040085

      2015-04-29

      國家自然科學基金資助項目(61375059)

      吳金源(1988—),男,助理工程師,主要從事文本挖掘,機器學習方面的研究,E-mail:wjy9595@qq.com

      冀俊忠(1969—),男,教授,主要從事機器學習、Web智能方面的研究,E-mail:jjz01@bjut.edu.cn

      猜你喜歡
      詞庫特征選擇類別
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      詞庫音系學的幾個理論問題芻議
      英語知識(2016年1期)2016-11-11 07:07:54
      聯(lián)合互信息水下目標特征選擇算法
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      環(huán)境變了,詞庫別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      計算機工程(2014年6期)2014-02-28 01:26:36
      聚合酶鏈式反應(yīng)快速鑒別5種常見肉類別
      食品科學(2013年8期)2013-03-11 18:21:31
      阜新| 西藏| 平南县| 盖州市| 开原市| 绥中县| 渝北区| 旌德县| 武清区| 淮安市| 株洲县| 泰顺县| 安阳县| 南康市| 灵山县| 桐庐县| 沈阳市| 延寿县| 云梦县| 平顶山市| 烟台市| 沧源| 浑源县| 吴旗县| 江川县| 岑溪市| 宁乡县| 贺兰县| 桐梓县| 行唐县| 新宾| 临湘市| 岢岚县| 从江县| 济源市| 乡城县| 哈巴河县| 巴马| 灌阳县| 澳门| 清河县|