• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多樣化特征的中文微博情感分類方法研究

      2015-04-21 08:55:29張志琳宗成慶
      中文信息學(xué)報(bào) 2015年4期
      關(guān)鍵詞:傾向性極性詞典

      張志琳,宗成慶

      (中國(guó)科學(xué)院 自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)

      ?

      基于多樣化特征的中文微博情感分類方法研究

      張志琳,宗成慶

      (中國(guó)科學(xué)院 自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)

      隨著Web 2.0時(shí)代的興起,微博作為一個(gè)新的信息分享平臺(tái)已經(jīng)成為人們生活中一個(gè)重要的信息來(lái)源和傳播渠道。近年來(lái)針對(duì)微博的情感分類問(wèn)題研究也越來(lái)越多地引起人們的關(guān)注。該文深入分析了傳統(tǒng)的情感文本分類和微博情感分類在特征表示和特征篩選上存在的差異,針對(duì)目前微博情感分類在特征選擇和使用上存在的缺陷,提出了三種簡(jiǎn)單但十分有效的特征選取和加入方法,包括詞匯化主題特征、情感詞內(nèi)容特征和概率化的情感詞傾向性特征。實(shí)驗(yàn)結(jié)果表明,通過(guò)使用該文提出的特征選擇和特征加入方法,微博情感分類準(zhǔn)確率由傳統(tǒng)方法的73.17%提高到了84.17%,顯著改善了微博情感分析的性能。

      中文微博;情感分類;機(jī)器學(xué)習(xí); 特征選擇

      1 引言

      微博是微博客(Micro Blog)的簡(jiǎn)稱,是一種基于用戶關(guān)系的信息分享、傳播和獲取的平臺(tái),用戶可以通過(guò)WEB、WAP以及各種客戶端組建個(gè)人社區(qū),以140字左右的短文本更新信息,并實(shí)現(xiàn)及時(shí)分享*http://baike.baidu.com/view/1567099.htm。目前微博已經(jīng)從各個(gè)方面滲透到了人們的日常生活和工作當(dāng)中。以國(guó)內(nèi)新浪微博為例,截止到2012年12月31日,用戶數(shù)目已經(jīng)超過(guò)了5億人。

      微博的快速發(fā)展引發(fā)了研究人員對(duì)于微博處理的興趣。其中針對(duì)微博的情感分析研究是目前微博研究中最熱,關(guān)注度最高的研究領(lǐng)域之一。情感分類是情感分析研究中的基本任務(wù),該任務(wù)旨在對(duì)文本按照情感極性進(jìn)行褒貶分類。與普通文本相比,微博由于其本身所具有的特點(diǎn),如句子短,用詞口語(yǔ)化,網(wǎng)絡(luò)詞匯較多等,使得對(duì)微博進(jìn)行情感分類研究更具挑戰(zhàn)性。

      目前,微博情感分類的方法主要有基于規(guī)則的方法[1-3]和機(jī)器學(xué)習(xí)方法[4-6]兩類。規(guī)則方法中主要采用了表情符號(hào)和情感詞作為規(guī)則的統(tǒng)計(jì)特征。機(jī)器學(xué)習(xí)方法都是將情感分類作為一個(gè)普通的分類問(wèn)題來(lái)對(duì)待。微博情感分類的機(jī)器學(xué)習(xí)方法開(kāi)始主要沿用了文本分類的方法,一般采用一元語(yǔ)言模型和二元語(yǔ)言模型等特征。之后,結(jié)合微博本身的特點(diǎn),開(kāi)始陸續(xù)提出了一些新的解決方法,例如,利用Twitter的標(biāo)簽(hashtag)和笑臉?lè)?hào)(smileys)等進(jìn)行情感分類。目前,基于機(jī)器學(xué)習(xí)方法的情感分類基本流程都是對(duì)預(yù)處理后的微博數(shù)據(jù)進(jìn)行特征的獲取和加工。這些特征主要包括: 主題詞、鏈接、標(biāo)點(diǎn)符號(hào)是否存在,正負(fù)極性表情符號(hào)的個(gè)數(shù)和正負(fù)極性情感詞的個(gè)數(shù)等作為特征進(jìn)行分類器的訓(xùn)練,取得了一定的成效。傳統(tǒng)的方法要么只側(cè)重于直接從訓(xùn)練語(yǔ)料中提取特征,要么只依賴于情感詞典,而大量的工作表明,情感詞典和從訓(xùn)練語(yǔ)料中抽取的特征對(duì)情感分類都非常重要??紤]到兩者在某種程度上互為補(bǔ)充、互相關(guān)聯(lián),我們相信,如果能夠很好地將兩者結(jié)合起來(lái),發(fā)揮各自所長(zhǎng),必將對(duì)情感分類有很大的幫助。

      正是基于這種動(dòng)機(jī),我們研究了情感詞典與從訓(xùn)練語(yǔ)料中抽取的知識(shí)的結(jié)合方式。其基本思路是: 1)對(duì)于有關(guān)主題的特征,我們不僅考慮主題是否出現(xiàn),而且考慮主題詞的特定內(nèi)容;2)對(duì)于情感詞,不僅分析情感詞加入的方法,而且研究情感詞加入的數(shù)量對(duì)于整體分類效果的影響;3)考慮到通用的情感詞典首先不能及時(shí)覆蓋和添加日新月異的網(wǎng)絡(luò)用語(yǔ),同時(shí)針對(duì)微博數(shù)據(jù)也沒(méi)有權(quán)重區(qū)分,我們提取了微博用語(yǔ)來(lái)豐富拓寬通用情感詞典,并使用微博數(shù)據(jù)對(duì)該詞典進(jìn)行傾向性概率打分,將概率打分作為特征取代原始的布爾特征,從而更加真實(shí)地反映微博情感傾向。

      針對(duì)上述分析,本文經(jīng)過(guò)詞匯化主題特征的選取、情感詞特征的加入和概率化情感詞傾向性特征的加入,逐漸豐富特征,既結(jié)合了外部詞典資源,又充分利用了微博數(shù)據(jù)本身,使得中文微博情感分析的準(zhǔn)確率從73.17%上升到了84.17%。

      本文其余部分的結(jié)構(gòu)組織如下: 第二節(jié)介紹相關(guān)的工作;第三節(jié)闡述了本文特征設(shè)計(jì)的主要內(nèi)容;第四節(jié)給出了實(shí)驗(yàn)結(jié)果以及分析;第五節(jié)主要闡述本文的結(jié)論,并展望下一步的工作。

      2 相關(guān)工作

      這一部分我們分別按照傳統(tǒng)情感分類和微博情感分類的相關(guān)工作進(jìn)行陳述。

      傳統(tǒng)情感文本分類研究主要有兩類: 一類是基于詞典的方法,另一類是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法?;谠~典的方法代表工作有Lu[7]和Turney[8]等。Lu[7]等使用通用情感詞典,比如WordNet中的同義詞、反義詞信息以及一些語(yǔ)法規(guī)則,來(lái)判斷微博的情感極性。它的缺陷在于過(guò)于依賴外部詞典。Turney[8]利用PMI-IR方法計(jì)算出現(xiàn)在文本中符合規(guī)則的短語(yǔ)的情感傾向,通過(guò)這些情感傾向的平均值來(lái)判斷文本極性?;谠~典的方法過(guò)于依賴相關(guān)的知識(shí)庫(kù)(詞典、規(guī)則庫(kù)等)支撐,這些知識(shí)庫(kù)一般是由語(yǔ)言專家總結(jié)出來(lái)的,但是,這些規(guī)則難以描述不確定性事件,且規(guī)則與規(guī)則之間的相容性難以得到有效的控制。

      基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,代表工作有Pang[9]和Mullen[10]等。Pang[9]將統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法引入到電影評(píng)論的褒貶分類任務(wù)中。文章中使用了包括一元詞、二元詞、詞性標(biāo)注等若干特征,選用了樸素貝葉斯、最大熵、支持向量機(jī)訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)的效果最理想,且選用一元詞特征,特征值采用布爾值時(shí)取得了最好的準(zhǔn)確率。Pang的分析是在英文語(yǔ)料中進(jìn)行的,對(duì)于中文是否仍然有效還有待考證。除此之外,Pang的特征是對(duì)訓(xùn)練語(yǔ)料進(jìn)行統(tǒng)計(jì)得到的,沒(méi)有使用外部詞典,對(duì)于訓(xùn)練語(yǔ)料的依賴性太強(qiáng),所以泛化能力相對(duì)較差。Mullen[10]等使用SVM分類器,將不同來(lái)源的各個(gè)特征信息進(jìn)行綜合,提升了分類效果。

      對(duì)于微博情感分析,英文的微博情感分析相對(duì)中文微博情感分析來(lái)說(shuō)效果較好。Go等[11]首次提出對(duì)微博文本進(jìn)行情感分析的思想。文章中將表情符號(hào)加入到了選取的特征中,取得了很好的效果。Pak和Paroubek等[12]利用表情符號(hào)組織標(biāo)注了一個(gè)Twitter微博文本情感極性數(shù)據(jù)集,并且使用N元詞匯(N-grams)作為特征進(jìn)行分類,沒(méi)有使用任何情感詞典,與Pang[3]的工作類似,過(guò)于依賴訓(xùn)練語(yǔ)料,泛化能力較差。除此之外,Davidov等[13]使用了Tweets 中的標(biāo)簽(hashtag)和笑臉?lè)?hào)(smileys)作為特征,訓(xùn)練出了一個(gè)有監(jiān)督的類似K近鄰(KNN)的分類器,用于對(duì)Tweets進(jìn)行情感分類。針對(duì)中文微博的研究仍處于起步階段,已采用的方法包括基于表情符號(hào)的規(guī)則方法、基于情感詞典的規(guī)則方法以及機(jī)器學(xué)習(xí)的方法[4, 14]。在這些方法中,對(duì)于微博情感分類的特征選取比較單一[6],主要還是借助于外部資源對(duì)微博表情符號(hào)、情感詞的統(tǒng)計(jì)信息上,或者是直接沿用傳統(tǒng)的情感分析的方法,采用N-grams作為特征,忽略了情感詞典的作用,缺乏對(duì)于兩者結(jié)合的探討和研究。比較有代表性的文章是,謝麗星的基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征提取[14],文章中采用了基于層次結(jié)構(gòu)的多策略分析框架,并且引入了一些新的特征,實(shí)驗(yàn)證明了基于SVM的一步三分類來(lái)解決情感分類取得了比較好的結(jié)果。

      3 特征分析

      像處理其他分類問(wèn)題一樣,情感分類的兩項(xiàng)關(guān)鍵任務(wù)是設(shè)計(jì)有效的分類器和選取有效的特征。對(duì)于分類器設(shè)計(jì)而言,很多分類器模型已較為成熟,那么,特征的選擇與使用方式無(wú)疑成了被重點(diǎn)關(guān)注的焦點(diǎn)問(wèn)題。為此,本文也是將重點(diǎn)放在特征的獲取、選擇和組合方法研究上。分類器使用基于支持向量機(jī)(SVM)的分類模型。

      首先我們給出目前研究工作中常用的效果不錯(cuò)的特征作為我們不同特征組合實(shí)驗(yàn)對(duì)比的基本特征。通過(guò)對(duì)已有工作的總結(jié),我們引入以下六大類特征,細(xì)化為14個(gè)小類特征作為基本特征,記作BaseSet(表1)。

      表1 基本特征(BaseSet)

      ①http://www.openpr.org.cn/

      由表1所示,我們可以更加清晰地了解到,在已有的工作中,主要是將主題、鏈接以及標(biāo)點(diǎn)符號(hào)是否出現(xiàn)作為特征,缺乏對(duì)主題特征的進(jìn)一步挖掘。另外,對(duì)于情感詞典,也僅僅利用正負(fù)向情感詞的個(gè)數(shù)作為特征,而沒(méi)有涉及情感詞本身的內(nèi)容,且缺少不同情感詞對(duì)于分類影響程度不同的區(qū)分性,這無(wú)疑會(huì)大大影響情感分類的性能。

      所以,我們有必要從微博的特點(diǎn)出發(fā),逐步引入詞匯化主題特征、情感詞特征以及概率化情感詞傾向性特征作為基礎(chǔ)特征的擴(kuò)展,以提高分類精度。

      3.1 詞匯化主題特征

      通過(guò)對(duì)微博數(shù)據(jù)的觀察,我們發(fā)現(xiàn)很多的微博都含有主題詞,例如,“#天主教#那些假借信仰而誤導(dǎo)世人者必下地獄……”,其中由“#”包圍的“天主教”就是主題詞。對(duì)于某一主題下的微博,情感極性往往會(huì)有一定的傾向性。例如,在談到“富二代”和“官二代”的主題中,負(fù)向情感極性就比較多。但是,在談及一個(gè)產(chǎn)品的時(shí)候,正負(fù)極性的比例會(huì)和產(chǎn)品本身有很大的關(guān)系。因此,微博的主題詞內(nèi)容能夠給情感分類帶來(lái)一定的先驗(yàn)知識(shí)。

      基于以上分析,我們?cè)谝延械姆椒▋H考慮一條微博是否有主題的基礎(chǔ)上,更進(jìn)一步探討了主題內(nèi)容對(duì)于情感分類的影響。我們將Hashtag的內(nèi)容作為特征加入到了分類中。例如,“獎(jiǎng)狀植入廣告#滿天飛的廣告,就不能留點(diǎn)凈土!”中,我們將“獎(jiǎng)狀植入廣告”作為一個(gè)詞匯化主題特征直接加入到分類中。特征權(quán)重,采用0/1二值化權(quán)重,出現(xiàn)為1,不出現(xiàn)為0。

      由于某些微博的主題詞出現(xiàn)的概率非常小,對(duì)分類提供的幫助不大,所以,我們只選取那些出現(xiàn)頻次大于某一閾值的主題詞作為特征,特征描述見(jiàn)表2。

      表2 分類特征-主題詞內(nèi)容特征

      3.2 情感詞特征

      如表1所示,在BaseSet中對(duì)于情感詞特征只是簡(jiǎn)單統(tǒng)計(jì)了正向情感詞數(shù)和負(fù)向情感詞數(shù)。這樣處理只用到了情感詞語(yǔ)極性對(duì)于句子分類的部分信息,而沒(méi)有考慮到情感詞語(yǔ)本身對(duì)于微博情感的貢獻(xiàn)。有很多的情感詞,可以直接表征句子的情感極性,例如,在訓(xùn)練數(shù)據(jù)中,凡是出現(xiàn)“坑爹”這個(gè)負(fù)向情感詞的句子均為負(fù)極性?;仡櫱叭说墓ぷ鳎瑢?duì)于“坑爹”這個(gè)詞只是作為負(fù)極性詞,僅僅增加了負(fù)向情感詞的個(gè)數(shù),這樣勢(shì)必導(dǎo)致它的作用很容易被其他情感詞的正負(fù)極特征所湮沒(méi),因此,我們將情感詞本身作為一元詞匯(unigram)特征,加強(qiáng)了情感詞本身在分類器中的作用。

      其次,如果將情感詞典中的情感詞全部作為情感詞特征的話,會(huì)造成特征空間膨脹并加重?cái)?shù)據(jù)稀疏,分類結(jié)果會(huì)很差。所以,引入多少情感詞也是一個(gè)值得我們思考和研究的問(wèn)題。

      為了找到合適的情感詞特征空間,我們采用了兩種方法對(duì)情感詞進(jìn)行篩選。

      方法1 直接按照情感詞典中的詞語(yǔ)在訓(xùn)練集合中出現(xiàn)的頻次進(jìn)行排序,選取其中的前N個(gè)進(jìn)行了測(cè)驗(yàn)。特征的描述如表3所示。

      對(duì)于情感詞的特征權(quán)重我們采用的仍然是二值化方法,出現(xiàn)為1,不出現(xiàn)則為0。

      方法2 在第1種方法中,情感詞的頻次并不能夠嚴(yán)格地說(shuō)明情感詞的重要程度。所以, 為了解決這個(gè)問(wèn)題,我們采用了CHI[15-16]的打分方法,而不是簡(jiǎn)單地通過(guò)頻次進(jìn)行排序。

      表3 分類特征-情感詞特征1

      χ2統(tǒng)計(jì)量(CHI)是特征項(xiàng)ti和類別Cj之間的相關(guān)聯(lián)程度,并假設(shè)ti和Cj之間符合具有一階自由度的χ2分布。特征對(duì)于某類的χ2統(tǒng)計(jì)值越高,它與該類之間的相關(guān)性就越大,攜帶的類別信息就越多。公式(1)給出了χ2的計(jì)算方法。

      (1)

      其中,N表示訓(xùn)練語(yǔ)料中文檔的總數(shù);A表示屬于Cj類且包含ti的文檔的頻數(shù);B表示不屬于Cj類但包含ti的文檔的頻數(shù);C表示屬于Cj類但不包含ti的文檔的頻數(shù);D是既不屬于Cj類也不包含ti的文檔的頻數(shù)。

      對(duì)于多類問(wèn)題,基于χ2統(tǒng)計(jì)量的特征提取方法采用下面的方法提取,分別計(jì)算ti對(duì)于每個(gè)類別的CHI值,然后,在整個(gè)訓(xùn)練語(yǔ)料上計(jì)算。如式(2)所示。

      (2)

      其中,M表示的是類別的總數(shù)。

      通過(guò)打分以后,我們?nèi)匀粚?duì)于詞語(yǔ)作為特征的數(shù)量進(jìn)行了分析。特征描述見(jiàn)表4。

      表4 分類特征-情感詞特征2

      3.3 概率化的情感詞傾向性特征

      在前面的特征中,對(duì)于情感詞我們通過(guò)查閱情感詞典進(jìn)行了頻次計(jì)數(shù)。但是,這樣的做法忽略了情感詞本身的傾向性概率問(wèn)題。對(duì)于不同的情感詞來(lái)說(shuō),所帶有的情感傾向性概率是不一樣的。例如,在微博中表達(dá)負(fù)面情緒時(shí),“坑爹”要比“猥瑣”的傾向性要深的多。因此,我們認(rèn)為有必要引入概率化的情感詞傾向性特征。

      現(xiàn)在已開(kāi)始有研究人員關(guān)注到帶情感傾向性概率的情感詞典的重要性,并根據(jù)自己的理解和定義對(duì)傳統(tǒng)的情感詞典添加情感傾向性信息。但是,他們往往直接將這些情感詞典搬來(lái)使用,這樣就會(huì)有很大的問(wèn)題。第一,面對(duì)新的微博領(lǐng)域,微博構(gòu)詞靈活,新詞出現(xiàn)的頻率較高,情感詞典本身不能覆蓋微博中的情感詞。第二,微博情感詞的傾向性分布與情感詞典的分布未必一致,如果強(qiáng)制把情感詞典的傾向性強(qiáng)加于微博分類未必起到很好的作用。

      為了克服上面的問(wèn)題,我們做了如下的處理: 對(duì)于情感詞典,盡可能地從各個(gè)領(lǐng)域收集情感詞,也從微博中加入微博常用語(yǔ),擴(kuò)大覆蓋范圍。之后,為了適應(yīng)微博情感詞用語(yǔ)環(huán)境,我們?cè)跇?biāo)注數(shù)據(jù)中對(duì)微博情感詞典的傾向性概率進(jìn)行打分。打分的準(zhǔn)則如式(3)所示。

      (3)

      其中,i∈{pos,neg},pos和neg分別表示正面和負(fù)面兩個(gè)極性。

      Countsi(wordi)表示某一極性的詞語(yǔ)在已標(biāo)注情感極性的樣本中對(duì)應(yīng)的極性出現(xiàn)的次數(shù)。具體情況是,如果wordi是一個(gè)正極性的情感詞,我們?cè)谡龢O性的樣本中統(tǒng)計(jì)其出現(xiàn)的次數(shù);如果是負(fù)極性情感詞,則在負(fù)極性的樣本中進(jìn)行統(tǒng)計(jì)。

      Sum(wordi)表示該詞語(yǔ)在整個(gè)語(yǔ)料中出現(xiàn)的次數(shù)。

      利用上述方法,我們構(gòu)建了一個(gè)適應(yīng)微博分類的帶有傾向性概率的情感詞典。利用這個(gè)情感詞典,我們對(duì)原來(lái)的簡(jiǎn)單采用頻次疊加的方法替換為進(jìn)行概率疊加的方法,從而反應(yīng)整條句子的情感程度。特征的描述如表5所示。

      表5 分類特征-情感詞典特征

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)使用的語(yǔ)料來(lái)自兩個(gè)方面,一個(gè)是第一屆自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLP&CC)評(píng)測(cè)中的微博語(yǔ)料*http://tcci.ccf.org.cn/conference/2012/pages/page04_evares.html。另一部分使用由新浪API抓取的電影、名人和熱點(diǎn)事件的微博。我們一共標(biāo)注了客觀句以及正、負(fù)極性的微博各1 200句。最后,從這三個(gè)類別中各隨機(jī)抽取1 000句作為訓(xùn)練集,200句作為測(cè)試集,進(jìn)行實(shí)驗(yàn)。

      情感詞典一部分來(lái)自HowNet[17]的情感詞詞典,一部分來(lái)自NTUSD情感詞集合,另一部分來(lái)源于我們自己人工標(biāo)注的網(wǎng)絡(luò)常用語(yǔ)。最后,情感詞典包含正向情感詞10 350個(gè),負(fù)向情感詞14 980個(gè)。

      除此之外,我們還從新浪API獲取了官方的表情符號(hào),并且選取了常用的64個(gè)表情符號(hào),其中,包括34個(gè)正向表情符和30個(gè)負(fù)向表情符號(hào),組成正負(fù)極性表情符號(hào)詞典。

      在對(duì)微博處理的過(guò)程中,我們還用到了否定詞列表,否定詞列表包括15個(gè)詞,包括: “不”,“不是”,“不然”,“不行”,“不要”,“沒(méi)”,“沒(méi)有”,“無(wú)”,“否”,“非”,“不夠”,“不可”,“未”,“絕非”,“并非”。處理否定詞的算法比較簡(jiǎn)單,對(duì)于每一個(gè)情感詞,我們對(duì)其開(kāi)了一個(gè)長(zhǎng)度為4的前驅(qū)窗口,判斷該情感詞語(yǔ)的前面4個(gè)詞內(nèi),出現(xiàn)的否定詞的個(gè)數(shù),如果出現(xiàn)的是偶數(shù)次,則情感詞的極性不改變,如果是奇數(shù),則翻轉(zhuǎn)情感詞的極性。另外,為了避免微博分類中停用詞帶來(lái)的影響,我們收集了一個(gè)停用詞表,包含50個(gè)停用詞和無(wú)用符號(hào)。例如,“的”,“了”,“在”,“有”,“和”,“就”等。

      整個(gè)實(shí)驗(yàn)采用的分類器是libsvm[18]*http://www.csie.ntu.edu.tw/~cjlin/libsvm/,該分類器的設(shè)置都使用默認(rèn)參數(shù)設(shè)置。

      4.2 數(shù)據(jù)預(yù)處理

      在執(zhí)行分類之前我們對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。預(yù)處理的主要工作包括以下幾個(gè)方面。

      1) 數(shù)據(jù)中所有的半角符號(hào)和全角符號(hào)的統(tǒng)一化;

      2) 所有主題詞用“Hashtag”標(biāo)簽進(jìn)行替換;

      3) 所有@信息用“AT”標(biāo)簽進(jìn)行替換;

      4) 所有鏈接用“URL”標(biāo)簽進(jìn)行替換;

      5) 所有數(shù)字用 “NUM”進(jìn)行替換。

      經(jīng)過(guò)上述處理之后,對(duì)于微博內(nèi)容進(jìn)行分詞處理,我們使用Urheen[19]進(jìn)行分詞和詞性標(biāo)注*http://www.openpr.org.cn/。為了減少分詞錯(cuò)誤,我們?nèi)斯ずY選了152個(gè)微博常用語(yǔ)組成了一個(gè)微博詞典以輔助分詞。

      4.3 實(shí)驗(yàn)結(jié)果

      根據(jù)上述分析,我們對(duì)本文提出的新的特征加入和使用方法進(jìn)行了一系列的實(shí)驗(yàn)驗(yàn)證。

      在實(shí)驗(yàn)結(jié)果中,我們對(duì)三個(gè)類別的每個(gè)類別計(jì)算了其準(zhǔn)確率、召回率和F1值得分,并計(jì)算整體的正確率。

      4.3.1 基礎(chǔ)特征分類性能

      使用BaseSet作為特征集合的實(shí)驗(yàn)結(jié)果見(jiàn)表6。

      表6 基準(zhǔn)系統(tǒng)的分類效果

      從該組實(shí)驗(yàn)結(jié)果,我們可以看出,對(duì)于客觀句(中性句)的識(shí)別準(zhǔn)確率很高,達(dá)到了94.85%,但是召回率卻偏低。這個(gè)現(xiàn)象產(chǎn)生的原因可能是由于我們的情感詞典規(guī)模較大,覆蓋面較廣,而客觀句中也出現(xiàn)了這些情感詞。但是,BaseSet中對(duì)于情感詞典只是簡(jiǎn)單地對(duì)頻次進(jìn)行疊加,使得出現(xiàn)在客觀句中的情感詞與出現(xiàn)在主觀句中的情感詞統(tǒng)一對(duì)待,將客觀句誤判為主觀句。同時(shí),由于被判為客觀句的句子,含有極少的情感詞,所以,基本上全部屬于客觀句,因此,準(zhǔn)確率非常高。同時(shí)對(duì)負(fù)極性句子判斷的準(zhǔn)確率偏低。這個(gè)現(xiàn)象在很多的微博情感分類中經(jīng)常見(jiàn)到。因?yàn)樵谖⒉┲腥藗兞?xí)慣于采用“否定+褒義詞”的說(shuō)法,去表達(dá)貶義的概念,但是,卻很少用“否定+貶義”的說(shuō)法來(lái)表達(dá)褒義的概念。例如,“這樣的做法不是很好,以后有待改善!”,在這句話中,作者就使用了“否定+褒義”的做法來(lái)表達(dá)貶義的概念。而微博貶義的識(shí)別也是一個(gè)難點(diǎn),在文章中我們只是簡(jiǎn)單地使用前驅(qū)窗口(大小為4)來(lái)識(shí)別貶義,這樣就造成了很多貶義句的識(shí)別錯(cuò)誤。而誤把非貶義的表達(dá)按照模板強(qiáng)行規(guī)約到貶義中,例如,“這有什么不好的”,句子本意是正極性的句子,但是,我們卻由于找到“好”,以及否定詞“不”而誤判成了負(fù)極性。中文中否定形式非常多樣化 ,這可能是造成否定類別準(zhǔn)確率較低的原因。

      4.3.2 加入詞匯化主題特征分類性能

      在“BaseSet+特征15詞匯化主題特征”的實(shí)驗(yàn)中,我們選取了出現(xiàn)頻次大于4的主題作為特征加入進(jìn)來(lái),結(jié)果如表7所示。

      表7 主題詞加入的結(jié)果

      從表7的結(jié)果中可以看出,加入詞匯化主題特征以后,引入了對(duì)于同一類主題的先驗(yàn)概率,三個(gè)類別的F值都有了明顯的提升,總體的準(zhǔn)確率也有了顯著的提高,提高了五個(gè)百分點(diǎn)。分析其原因,是因?yàn)榧尤肓嗽~匯化主題特征之后,對(duì)于特定主題引入了先驗(yàn)概率,將之前這一主題下誤判的句子進(jìn)行了糾正。

      整體來(lái)看,實(shí)驗(yàn)結(jié)果說(shuō)明詞匯化主題特征在微博分類中有著非常重要的作用。

      4.3.3 加入情感詞特征分類性能

      ? 根據(jù)情感詞頻次選詞

      為了比較情感詞特征的作用,我們對(duì)3.2節(jié)中提到的方法進(jìn)行對(duì)比。方法1通過(guò)頻次選取情感詞的方法,我們分別選取了25、50、75、100、150、200個(gè)情感詞作為特征加入到基本的特征集合中進(jìn)行實(shí)驗(yàn)比較,使用的特征集合為BaseSet+特征15+特征16。實(shí)驗(yàn)結(jié)果如表8所示。

      表8 方法1情感詞選擇結(jié)果比較

      續(xù)表

      從上面可以看出加入情感詞本身作為特征,比直接疊加而忽略詞語(yǔ)本身作用的特征更有效。基本上所有類別的準(zhǔn)確率和召回率都有所提升。這一結(jié)果驗(yàn)證了我們之前曾經(jīng)說(shuō)過(guò)的,很多情感詞能夠直接說(shuō)明句子的極性,如“坑爹”,“傷不起”等詞,這些情感詞作為特征的有效性非常明顯。

      在實(shí)驗(yàn)中,加入150個(gè)詞語(yǔ)作為特征的性能最好,準(zhǔn)確率達(dá)到了80.33%,在基線系統(tǒng)上提高了2.16個(gè)百分點(diǎn)。但是從表8中,我們也注意到,準(zhǔn)確率的提高并非與加入的詞的數(shù)量成正比。以下我們對(duì)加入詞語(yǔ)之后,各個(gè)類別的準(zhǔn)確率變化情況做簡(jiǎn)要分析。如圖1所示。

      圖1 方法1情感詞趨勢(shì)分析

      從圖1可以看出,除了正極性類別之外,其他的準(zhǔn)確率出現(xiàn)先上升后下降的波動(dòng)。在剛開(kāi)始增加情感詞時(shí),分類器從中學(xué)習(xí)到了知識(shí),準(zhǔn)確率提升比較明顯。當(dāng)達(dá)到一定程度之后,繼續(xù)增加情感詞的話,會(huì)使得空間維度變大,數(shù)據(jù)稀疏,從而造成了準(zhǔn)確率下降。

      結(jié)果表明,加入情感詞對(duì)于分類效果的提升有很大幫助,但是,盲目地加入情感詞特征,反而會(huì)使效果下降。所以,情感詞特征并不是越多越好。而是需要尋找一個(gè)比較合適的值。

      從結(jié)果中我們可以看出,情感詞特征的最大值大概在150到200之間。

      ? 根據(jù)CHI方法選情感詞

      我們按照3.4中的方法2,利用CHI進(jìn)行詞語(yǔ)的選取。同樣也選取了25、50、75、100、150、200個(gè)詞語(yǔ)作為特征進(jìn)行分類比較。結(jié)果如表9所示。

      表9 方法2情感詞選擇結(jié)果比較

      從上面可以看出利用方法2加入的詞語(yǔ)在相同數(shù)量上,都要比之方法1加入的情感詞特征有效。CHI更加合理地區(qū)分了情感詞對(duì)于分類的重要性。對(duì)于負(fù)極性類別,在加入情感詞時(shí)變化比較明顯。究其原因,可能是使用頻次選取情感詞的方法只是簡(jiǎn)單地計(jì)算該情感詞整體的頻次,而忽略了情感詞對(duì)于不同類別的貢獻(xiàn)度。CHI方法能夠比較合理地估計(jì)詞語(yǔ)對(duì)于不同類別的貢獻(xiàn)度。這樣能夠區(qū)分出經(jīng)常出現(xiàn)在負(fù)極性類別中的“否定+褒義”的表達(dá)方式中的情感詞,在一定程度上增加了對(duì)于這種表達(dá)方式的識(shí)別度。從整體來(lái)看,方法2提高了五個(gè)百分點(diǎn),在方法1的基礎(chǔ)上又提高了三個(gè)百分點(diǎn)。這說(shuō)明采用不同的方法來(lái)對(duì)情感詞進(jìn)行情感程度的區(qū)分是很重要的。

      以下我們對(duì)加入詞語(yǔ)之后各個(gè)類別的準(zhǔn)確率變化情況以及與方法1的比較進(jìn)行分析(圖2)。

      圖2 方法2情感詞變化趨勢(shì)

      從圖2可以看出,與方法1的變化趨勢(shì)基本相同,所有類別在加入特征之后準(zhǔn)確率都有很大的提升,但仍然有不同之處。首先,達(dá)到最高值之后兩種方法都開(kāi)始趨于平穩(wěn),而方法1之后下降比較慢,方法2卻下降較快。從方法2的走向趨勢(shì)我們可以看出,情感詞特征的最大值大概在100到150之間。達(dá)到最大值的速度最多只需要100個(gè)詞。所以,方法2比方法1在達(dá)到最好效果的速度上有優(yōu)勢(shì),而且只需要較少的詞就可以達(dá)到比方法1更好的結(jié)果。但是,相對(duì)而言在維數(shù)增加時(shí)下降的趨勢(shì)也比較明顯。在方法2中后續(xù)加入的情感詞對(duì)于分類的作用并不明顯,反而由于特征維數(shù)的增加帶來(lái)了過(guò)多的噪聲,使得方法2的下降趨勢(shì)更加明顯。

      為了驗(yàn)證方法2在情感詞維數(shù)增加時(shí)準(zhǔn)確率的變化趨勢(shì),我們做了進(jìn)一步實(shí)驗(yàn)。

      圖3 方法2情感詞數(shù)量變化形勢(shì)圖

      從圖3可以看出,在利用CHI增加特征維數(shù)的過(guò)程中,準(zhǔn)確率開(kāi)始提升,達(dá)到一個(gè)峰值后準(zhǔn)確率在波動(dòng)中逐步下降。這一結(jié)果再次驗(yàn)證了并不是維數(shù)越高越好的結(jié)論。

      4.3.4 加入概率化情感詞傾向性特征的分類性能

      本實(shí)驗(yàn)以情感詞特征中方法2達(dá)到最好結(jié)果的特征為基礎(chǔ),分析加上詞典打分之后的情況,結(jié)果如表10所示。

      表10 詞典打分后的結(jié)果

      可以從結(jié)果中看出,加入詞典打分之后正極性和客觀的分類效果有了明顯的提高??傮w的準(zhǔn)確率也上升了0.84個(gè)百分點(diǎn)。分析詞典的打分對(duì)于客觀分類有提升的原因,可能是由于之前我們簡(jiǎn)單地對(duì)情感詞進(jìn)行累加頻次,沒(méi)有考慮各個(gè)情感詞的傾向性概率對(duì)于整體句子情感分值的影響。使得本來(lái)非主觀性的句子被誤分為主觀句。加入傾向性概率以后,有效地表達(dá)了句子中整體的情感極性。

      總體來(lái)看,加入情感詞的傾向性概率之后整體分類效果有了比較明顯的提高,這驗(yàn)證了概率化情感詞傾向性特征的有效性。

      4.3.5 整體對(duì)比分類性能

      最后我們將每一類特征中最好的結(jié)果放到一起進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖4所示。

      從圖4中可以直觀地看出,在特征加入的過(guò)程中整體準(zhǔn)確率在穩(wěn)步上升。

      圖 4 整體對(duì)比分類性能圖

      為了進(jìn)一步驗(yàn)證我們方法的有效性,我們將本文提出的多樣化特征分類方法與謝立星提出的一步三分類的方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表11所示。

      表 11 兩種方法的對(duì)比

      通過(guò)對(duì)比可以看出,我們的方法比之謝麗星的方法提高了4.64個(gè)百分點(diǎn),由此,更進(jìn)一步說(shuō)明了我們方法的有效性。

      5 結(jié)論及下一步工作

      本文在充分研究微博情感分類的基礎(chǔ)上,結(jié)合傳統(tǒng)方法,主要做出了以下貢獻(xiàn): 1)對(duì)于有關(guān)主題特征,不僅考慮主題是否出現(xiàn),而且考慮了主題詞的特定內(nèi)容;2)對(duì)于情感詞,不僅深入地分析和探討了情感詞的加入方法,而且詳細(xì)研究了情感詞加入的數(shù)量對(duì)于整體分類的效果影響;3)考慮到通用的情感詞典首先不能及時(shí)覆蓋和添加日新月異的網(wǎng)絡(luò)用語(yǔ),同時(shí)針對(duì)微博數(shù)據(jù)也沒(méi)有權(quán)重區(qū)分,我們提取了微博用語(yǔ)來(lái)豐富和拓寬通用情感詞典,并使用微博數(shù)據(jù)對(duì)該詞典傾向性概率進(jìn)行打分,將概率打分作為特征取代原始的布爾特征,從而更加真實(shí)地反應(yīng)微博情感傾向。實(shí)驗(yàn)表明,這種方法使得微博情感分類準(zhǔn)確率達(dá)到了84.17%。

      在下一步工作中,我們將研究對(duì)表述方式基本相似的主題進(jìn)行聚類的方法,以減少領(lǐng)域不同帶來(lái)的問(wèn)題,并緩解數(shù)據(jù)稀疏問(wèn)題。同時(shí),探究情感詞加入數(shù)目的規(guī)律,進(jìn)一步提升待分類問(wèn)題的分類效果。另外,針對(duì)中文否定形式的表達(dá)多樣性,我們將提出中文微博否定形式的解決辦法。

      [1] A Das, S Bandyopadhyay. Dr Sentiment knows everything![C]//Proceedings of the ACL-HLT, 2011: 50-55.

      [2] A Joshi, A Balamurali, P Bhattacharyya, et al. C-feel-it: A sentiment analyzer for micro-blogs[C]//Proceedings of the ACL-HLT, 2011 :127-132.

      [3] P Chesley, B Vincent, L Xu, et al. Using verbs and adjectives to automatically classify blog sentiment[J] .Training, 2006, 580(263).

      [4] 劉魯,劉志明. 基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012,48(1):1-4.

      [5] L Jiang, M Yu, M Zhou, et al. Target -dependent twitter sentiment classification[C]//Proceedings of ACL-HLT, 2011:151-160.

      [6] S Prasad. Micro-blogging Sentiment Analysis Using Bayesian Classification Methods[N]. Technical Report, Stanford University, 2010, Available at http://www-nlp.stanford.edu/courses/

      [7] Y Lu, M Castellanos, U Dayal, et al. Automatic construction of a context-aware sentiment lexicon: an optimization approach[C]//Proceedings of the 20th international conference on World wide web, 2011:347-356.

      [8] P D Turney. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002 :417-424.

      [9] B Pang, L Lee, S Vaithyanathan. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of EMNLP, 2002:79-86.

      [10] T Mullen, N Collier. Sentiment Analysis using Support Vector Machines with Diverse Information Sources[C]//Proceedings of EMNLP, 2004: 412-418.

      [11] A Go, R Bhayani, L Huang. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, Stanford University, 2009: 1-12.

      [12] A Pak, P Paroubek. Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of LREC, 2010:1320-1326.

      [13] D Davidov, O Tsur, A Rappoport. Enhanced sentiment learning using twitter hashtags and smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010:241-249.

      [14] 謝麗星, 周明,孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報(bào), 2012, 26(1):73-82.

      [15] 宗成慶. 統(tǒng)計(jì)自然語(yǔ)言處理[M]. 北京: 清華大學(xué)出版社, 2008.

      [16] T Dunning. Accurate methods for the statistics of surprise and coincidence[J]. Computational linguistics, 1993, 19(1): 61-74.

      [17] Dong Z, Dong Q. HowNet [EB/OL]. Available at http://www.keenage.com/ 2000

      [18] C C Chang, C J Lin. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):1-27.

      [19] K Wang, C Zong, K Y Su. A character-based joint model for Chinese word segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010:1173-1181.

      Sentiment Analysis of Chinese Micro Blog Based on Rich-features

      ZHANG Zhilin, ZONG Chengqing

      (National Lab of Pattern Recognition, Institute of Automation, CAS, Beijing 100190, China)

      Micro blog, a new information-sharing platform, is now playing an important role in people’s daily live with the rise of Web 2.0. And micro blog sentiment analysis research also attracts more attention in recent years. This paper provides an in-depth analysis on the difference of feature representation and feature selection between the traditional sentiment classification and micro blog sentiment analysis. To avoid the drawbacks of feature selection of existing methods, we propose three simple but effective approaches for feature representation and selection, including the lexicalization hashtag feature, the sentiment word feature, and the probabilistic sentiment lexicon feature. Experimental results show that our proposed methods significantly boost the micro blog sentiment classification accuracy from 73.17% to 84.17%, outperforming the state-of-the-art method significantly.

      Chinese micro blog; sentiment analysis; machine learning; feature selection

      張志琳(1988-),碩士,助理研究員,主要研究領(lǐng)域?yàn)榍楦蟹诸惙椒ㄑ芯?。E-mail:zhilin.zhang@ia.ac.cn宗成慶(1963-),博士,研究員,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯、情感分類和自然語(yǔ)言處理等相關(guān)領(lǐng)域的研究。E-mail:cqzong@nlpr.ia.ac.cn

      1003-0077(2015)04-0134-10

      2013-08-26 定稿日期: 2013-11-15

      國(guó)家自然科學(xué)基金(61402478)

      TP391

      A

      猜你喜歡
      傾向性極性詞典
      基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      跟蹤導(dǎo)練(四)
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      表用無(wú)極性RS485應(yīng)用技術(shù)探討
      關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
      一種新型的雙極性脈沖電流源
      “沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
      一種面向博客群的主題傾向性分析模型
      嘉兴市| 新巴尔虎左旗| 石嘴山市| 谢通门县| 龙口市| 三亚市| 通化市| 深圳市| 穆棱市| 四会市| 富源县| 和静县| 昌邑市| 贵州省| 盘锦市| 蒙城县| 城固县| 华亭县| 南康市| 德钦县| 广水市| 巴青县| 芜湖县| 德保县| 勐海县| 柘城县| 梓潼县| 肥东县| 岚皋县| 永仁县| 武义县| 五家渠市| 商丘市| 比如县| 蚌埠市| 炎陵县| 阜新市| 图木舒克市| 绥棱县| 长海县| 通州市|