細(xì)粒度微博情緒識別的集成算法研究

2015-04-29 00:44:03王紅

智能計(jì)算機(jī)與應(yīng)用 2015年1期

王紅

摘要：目前大部分微博情緒分析研究集中在粗粒度情緒的劃分，但細(xì)粒度微博情緒更能反映公眾對輿論熱點(diǎn)、政策的反應(yīng)。因此提出了一種結(jié)合樸素貝葉斯和K最近鄰的集成算法，著重對新浪微博展開了情緒識別與分析的研究。首先采用樸素貝葉斯分類算法將微博分為有無情緒兩類。然后根據(jù)情緒本體庫的分類規(guī)則，分別構(gòu)建待預(yù)測微博和已標(biāo)注微博的21維情緒向量。最后采用K最近鄰算法，計(jì)算待預(yù)測情緒微博與已標(biāo)注情緒微博的向量相似度，從而獲取待預(yù)測微博的細(xì)粒度情緒。實(shí)驗(yàn)表明K最近鄰算法的引入，在微博細(xì)粒度情緒識別的準(zhǔn)確率上取得了較好的效果。

關(guān)鍵詞：情緒分析；細(xì)粒度；樸素貝葉斯；K最近鄰；微博

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A 文章編號：2095-2163（2015）01-

Abstract： Currently， most sentiment analysis of micro-blog has been focused on coarse-grained sentiment analysis， but fine-grained sentiment is better for reflecting the opinion of the public when they are facing the social focus. Therefore， an integrated algorithm which is a combination of Naive Bayes and K-Nearest Neighbor is put forward， which has been applied to the sentiment recognition and analysis of sina microblog. First， microblog is classified into two types： sentiment and non- sentiment by using Bayesian classification algorithm. And then a 21 dimension vector is built for the predicted and the marked microblog on the basis of the sentiment ontology. Finally the vector similarity between the predicted microblog and the marked ones is calculated by using K-nearest neighbor algorithm， which could help to identify the fine-grained sentiment of microblog. Experimental results show that a good result is achieved in fine-grained sentiment recognition of microblog based on the combination of Naive Bayes and K-nearest neighbor algorithm.

Keywords： Sentiment Analysis； Fine-grained； Native Bayes； K-Nearest Neighbor； Microblog

0 引言

近年來，Web2.0技術(shù)獲得了迅速發(fā)展，而與此同時(shí)，微博作為一種新興的網(wǎng)絡(luò)交流媒介，正因其獨(dú)具的及時(shí)性、簡潔性和對信息傳播的便捷性特點(diǎn)[1]，心音了越來越多的使用者和研究者。以國內(nèi)的新浪微博為例，目前其上的注冊用戶已超過3億，用戶每日的發(fā)博量則突破1億條[2]。微博中用戶發(fā)表的大量信息直接反映了該用戶本體對某個(gè)事件或者政府出臺的某項(xiàng)政策的反應(yīng)和傾向。而且，情緒作為人的內(nèi)心感受和表達(dá)，在判讀其對事物的觀點(diǎn)傾向具有重要作用[3]?？梢哉f微博中涉及到的任何觀點(diǎn)都與作者的情緒有著緊密的聯(lián)系，因而開展微博情緒的識別和劃分研究對于分析微博中海量的評論信息即具有實(shí)際現(xiàn)實(shí)的參考價(jià)值。但目前大部分的微博情緒分析卻只是集中在粗粒度的情緒劃分（也就是有無情緒的判斷），這在某些情況下已經(jīng)無法滿足對文本信息處理的高精要求?；诖?，本文根據(jù)對目前分類方法的研究提出了一種用于對微博進(jìn)行細(xì)粒度情緒劃分（也就是文本情緒具體類別）的集成算法。具體來說，就是對于一條微博，先識別其是否包含情緒，而對于包含情緒的微博，則需判別其具體的情緒分類。

本文第0節(jié)分析了微博情緒識別的背景和意義，簡要介紹了本文的研究內(nèi)容。第1節(jié)概略介紹了微博情緒細(xì)粒度劃分的目標(biāo)以及在微博情緒方面國內(nèi)外的一些研究現(xiàn)狀。第2節(jié)框架性地提出了本文針對微博情緒細(xì)粒度識別的總體方案，第3節(jié)完整給出了情緒細(xì)粒度識別的關(guān)鍵性技術(shù)，第4節(jié)則是集成算法的設(shè)計(jì)，而且通過實(shí)驗(yàn)結(jié)合其他的算法對比了對情緒分類的效果，第5節(jié)即總結(jié)了本文工作的不足以及對下一步研究的展望。

1 相關(guān)工作

細(xì)粒度的微博情緒劃分包含兩個(gè)方面，首先判斷一條微博是否包含情緒，然后對于包含情緒的微博再進(jìn)行細(xì)粒度的情緒劃分，判斷出該微博博主的主要情緒。針對于目前對情緒的分類[4]，即anger（憤怒）、disgust（厭惡）、fear（恐懼）、happiness（高興）、like（喜好）、sadness（悲傷）、surprise（驚訝）、none（無情緒），細(xì)粒度的情緒劃分旨在能夠?qū)σ粭l微博進(jìn)行上述分類的單分類輸出。

目前，國內(nèi)外針對微博情緒方面取得了一定的研究成果。Alec等使用微博中的表情符號來標(biāo)注正負(fù)情緒的訓(xùn)練集，并通過訓(xùn)練集運(yùn)用距離監(jiān)督的方法對微博信息解決了正負(fù)情緒的自動(dòng)分類[5]。Aman等則通過一種基于知識的方法實(shí)現(xiàn)句子級的情緒識別[3，6]。在此基礎(chǔ)上，Quan Changqin等使用情緒詞對句子的情緒進(jìn)行了識別，同時(shí)也研究了基于情緒詞的句子級情緒分析[3，7]。進(jìn)一步地，劉歡歡等人針對微博語料中類別樣本數(shù)不平衡的問題，提出了一種提高情緒識別方法性能的樣本集成方法，主要是針對微博粗粒度的劃分，即判斷其是否包含情緒[3]。另外，龐磊等人又通過表情圖片和情緒關(guān)鍵詞對微博語料進(jìn)行收集和標(biāo)注，而且將情緒知識運(yùn)用到了中文微博的情感分類方面[8]。

由此可見，目前對微博情緒的分析研究仍然主要集中在粗粒度情緒識別，一方面是有無情緒的識別，另一方面是正負(fù)情緒的識別。微博作為一種開放化的社交服務(wù)，無論在商業(yè)領(lǐng)域或是在管理領(lǐng)域都有著極高的應(yīng)用價(jià)值。企業(yè)可以將其作為一個(gè)理想的營銷平臺，而政府則可憑此了解人們對社會公共事件和熱點(diǎn)問題的看法觀點(diǎn)。但由于其特有的語言風(fēng)格和本身內(nèi)容信息的多樣、海量等特點(diǎn)，粗粒度的情緒劃分在某些情況下已經(jīng)不能滿足已經(jīng)發(fā)展變化的要求，因而對微博情緒的細(xì)粒度劃分將會日益突顯其核心且先進(jìn)的研究價(jià)值。

2 情緒細(xì)粒度識別的總體方案

圖1給出了情緒細(xì)粒度識別的總體流程圖，從圖中可以看到細(xì)粒度劃分微博情緒的總體流程是先擴(kuò)展本體庫，在大連理工構(gòu)建的情感本體詞匯庫的基礎(chǔ)上擴(kuò)展針對微博中網(wǎng)絡(luò)用語的詞匯，而后對測試集和訓(xùn)練集中的微博進(jìn)行分詞。分詞結(jié)束后，將根據(jù)一定規(guī)則統(tǒng)計(jì)出詞語中用于貝葉斯分類的特征項(xiàng)，再通過特征項(xiàng)進(jìn)行微博有無情緒的識別。下一步，即對測試集和訓(xùn)練集中有情緒的微博文本進(jìn)行向量化處理，采用K最近鄰算法，計(jì)算待預(yù)測情緒微博與已標(biāo)注情緒微博的向量相似度，從而獲取待預(yù)測微博的細(xì)粒度情緒。

3關(guān)鍵性技術(shù)

3.1 擴(kuò)展本體庫

本文對微博的情緒分類識別沿用大連理工大學(xué)建立的情感詞匯本體。該資源從不同的角度描述一個(gè)中文詞匯或者短語，包括詞語詞性種類、情感類別、情感強(qiáng)度連同極性等信息。該本體庫的情感共分為7大類21小類，具體來說，7類為樂、好、怒、哀、懼、惡、驚；21類為快樂（PA）、安心（PE）、尊敬（PD）、贊揚(yáng)（PH）、相信（PG）、喜愛（PB）、祝愿（PK）、憤怒（NA）、悲傷（NB）、失望（NJ）、疚（NH）、思（PF）、慌（NI）、恐懼（NC）、羞（NG）、煩悶（NE）、憎惡（ND）、貶責(zé)（NN）、妒忌（NK）、懷疑（NL）、驚奇（PC），情感強(qiáng)度分為1，3，5，7，9五檔，9表示強(qiáng)度最大，1為強(qiáng)度最小[4]。

微博作為目前流行的一種互聯(lián)網(wǎng)應(yīng)用，內(nèi)容中綜合著各式各樣的網(wǎng)絡(luò)用語，因此研究從4 000條已經(jīng)人工標(biāo)注了情緒分類的新浪微博中人為地篩選出常用的網(wǎng)絡(luò)用語和所有的QQ表情所代表的詞語以及對情緒識別有表征意義的其他詞匯，從而完成了對極性和強(qiáng)度等相應(yīng)屬性的標(biāo)注，由此獲得了對情感本體庫的有效擴(kuò)展。

3.2 分詞

針對于待分類的每條微博，首先采用中科院計(jì)算所開發(fā)的ICTCLAS分詞系統(tǒng)進(jìn)行分詞，但考慮到微博語言的特殊性，研究中構(gòu)建了分詞器中特有的停用詞庫。這樣做是因?yàn)樵谖⒉┑那榫w識別中，有很多諸如語氣詞之類的所謂停用詞在情緒識別的過程中都發(fā)揮了重要的表征作用。另外，研究中進(jìn)一步將情緒識別所用到的大連理工構(gòu)建的情感詞匯本體庫和擴(kuò)展的網(wǎng)絡(luò)語言情感詞匯庫加入到分詞器的用戶詞典以保證分詞器對微博語句分詞的準(zhǔn)確性。

3.3 特征項(xiàng)提取

為了便于對微博進(jìn)行有無情緒的貝葉斯分類，則對訓(xùn)練集中的每條微博進(jìn)行了科學(xué)的抽象，即進(jìn)行了特征項(xiàng)的提取。而將微博進(jìn)行分詞之后，就要統(tǒng)計(jì)出各個(gè)詞在有無情緒兩種情況下分別出現(xiàn)的次數(shù)，再會選擇出一部分在有無情緒這兩種情況下出現(xiàn)次數(shù)差別較大的詞，并將其作為特征項(xiàng)。

3.4 文本表示

文本表示是指將文本從一個(gè)非結(jié)構(gòu)化格式轉(zhuǎn)化成計(jì)算機(jī)可識別的結(jié)構(gòu)化格式的處理過程[1]。針對于那些包含情緒的微博，在此選擇的文本表示模型則是向量空間模型，也就是將微博文本向量化。根據(jù)本體庫的構(gòu)建規(guī)則，可將每條微博表示成21維的向量。其中，每一維的分量相應(yīng)代表本體庫中的每一個(gè)具體的小情感分類，即每條微博均有21個(gè)小類情緒特征。并且，每個(gè)分量值將依賴于本體庫，如果微博中的詞能與本體庫中的詞相匹配，則將該詞的強(qiáng)度作為分量值，出現(xiàn)多個(gè)詞的小情感類別相同的情況就將各個(gè)詞對應(yīng)的強(qiáng)度累加作為分量值；而對于那些小情感類別中沒有出現(xiàn)詞的情況，則在向量中對應(yīng)的該分量值將設(shè)定為零。例如對于如下的一條真實(shí)的微博：“妹妹2年多的頑固性失眠，這次經(jīng)劉醫(yī)生3次針術(shù)后，已連續(xù)一周安然入睡到自然醒，我真高興?！苯?jīng)過分詞之后該微博與本體庫匹配的詞為：頑固、失眠、安然、自然、高興。在本體庫中，頑固屬于NN（貶責(zé)），強(qiáng)度為3；失眠屬于NE（煩悶），強(qiáng)度為5；安然和自然都屬于PE（安心），強(qiáng)度分別為5、3；高興屬于PA（快樂），強(qiáng)度為5。那么對于該微博形成的21維向量的各分量值即可表述為：PA（5.0），PE（8.0），PD（0.0），PH（0.0），PG（0.0），PB（0.0），PK（0.0），NA（0.0），NB（0.0）， NJ（0.0），NH（0.0），PF（0.0）， NI（0.0），NC（0.0），NG（0.0），NE（5.0），ND（0.0），NN（3.0）， NK（0.0）， NL（0.0），PC（0.0）。

4 算法設(shè)計(jì)與實(shí)驗(yàn)分析

4.1 算法思想

本文對微博細(xì)粒度情緒劃分采用樸素貝葉斯和K最近鄰的集成算法[9]。其中，用樸素貝葉斯算法進(jìn)行大粒度的劃分，也就是有無情緒的劃分；在此基礎(chǔ)上，針對包含情緒的微博，即運(yùn)用K最近鄰的算法進(jìn)行細(xì)粒度的情緒劃分。

4.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)使用的語料是由計(jì)算機(jī)學(xué)會發(fā)布的訓(xùn)練語料，該語料是基于相對細(xì)粒度情緒標(biāo)注規(guī)則的語料庫，以XML文檔格式組織，包括了微博的整體細(xì)粒度情緒標(biāo)注以及單個(gè)句子的細(xì)粒度情緒標(biāo)注。語料主要來自新浪微博，共有4 000條微博數(shù)據(jù)。語料中有8種基本的情緒：即anger（憤怒）、disgust（厭惡）、fear（恐懼）、happiness（高興）、like（喜好）、sadness（悲傷）、surprise（驚訝）、none（無情緒）。

實(shí)驗(yàn)中使用了3種分類方法：支持向量機(jī)分類方法、K最近鄰分類方法、以及樸素貝葉斯-K最近鄰集成方法，針對衡量分類的性能，采用準(zhǔn)確率作為細(xì)粒度情緒劃分的衡量標(biāo)準(zhǔn)，準(zhǔn)確率計(jì)算如公式（1）所示：

其中#sample_correct是被正確劃分測試樣本的數(shù)目，#sample_proposed是提供的測試樣本總數(shù)。

4.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)使用的訓(xùn)練語料中共有4 000條微博數(shù)據(jù)，其中有情緒的微博為2 647條，無情緒的微博為1 533條。在這次實(shí)驗(yàn)中，將用3 500條微博作為訓(xùn)練集，其中包含有情緒的2 172條，來訓(xùn)練分類模型，而用剩下的500條微博來做測試。使用SVM做8類分類預(yù)測，特征值的計(jì)算來源于對大連理工本體庫擴(kuò)展后的詞匯，使用21維情緒作為最終的特征，準(zhǔn)確率為46.8%。使用K最近鄰算法，用待測試的500條微博特征向量分別與訓(xùn)練集中的3 500條微博特征向量實(shí)行余弦相似度計(jì)算得到3 500個(gè)相似度值，并取K=21（試驗(yàn)中得到）個(gè)最大值，對這21個(gè)分量情緒做相似度累加，累加和最大的情緒將作為預(yù)測情緒，準(zhǔn)確率為51.6%。使用基于樸素貝葉斯-K最近鄰集成算法，先通過樸素貝葉斯進(jìn)行有無情緒的識別，在此基礎(chǔ)上，對有情緒的微博，則用K最近鄰算法進(jìn)行細(xì)粒度的情緒劃分，做法同上，準(zhǔn)確率為60.6%。圖2為分別使用支持向量機(jī)分類方法、K最近鄰分類方法、以及樸素貝葉斯-K最近鄰集成方法的情緒細(xì)粒度分類的效果。

由圖2可以很直觀地看出，基于樸素貝葉斯-K最近鄰的集成方法對微博細(xì)粒度情緒分類的效果要明顯好于其他兩個(gè)方法，而其提升的幅度已然都超過了5%。

5 總結(jié)與展望

本文主要研究了微博細(xì)粒度情緒識別的集成方法，通過對大連理工構(gòu)建的本體庫進(jìn)行針對于微博網(wǎng)絡(luò)語言詞庫的擴(kuò)展，以特征詞為驅(qū)動(dòng)，先由樸素貝葉斯分類的算法對微博進(jìn)行有無情緒的二分類，而后針對有情緒的微博采用K最近鄰算法對其進(jìn)行細(xì)粒度情緒的劃分。通過對兩種分類算法的集成，充分發(fā)揮了每個(gè)分類算法各自性能上的優(yōu)勢，提高了對微博細(xì)粒度情緒的識別準(zhǔn)確率。但是通過訓(xùn)練集數(shù)據(jù)的測試過程也看到了一定的不足，在整個(gè)算法中過度地依賴了情感本體庫，而現(xiàn)實(shí)中的詞語多是動(dòng)態(tài)更新變化的，因而對于那些本身是有情緒的而不包含本體庫中的詞的微博，該算法效果并不明顯。針對這些情況的后續(xù)處理，即是下一步要做的研究工作。

參考文獻(xiàn)：

[1] 麥藝華.面向中文微博的社會網(wǎng)絡(luò)分析及應(yīng)用[D].廣州：華南理工大學(xué)，2012.

[2] 周勝臣，瞿文婷，石英子，等.中文微博情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件，2013，30（3）； 161-164.

[3] 劉歡歡，李壽山，周國棟，等.中文情緒識別方法研究[J].江西師范大學(xué)（自然科學(xué)版），2013，37（2）：120-124.

[4] 徐琳宏，林鴻飛，陳建美.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào)，2008，27（2）：180-185.

[5] GO A， BHAYANI R， HUANG L. Twitter sentiment classification using distant supervision[R]. Stanford ：Stanford Digital Library Technologies Project， 2009

[6] AMAN S， SZPAKOWICZ S. Identifying expressions of emotion in text[M]// MATOUSEK V， MAUTNER P： Text， speech and dialogue， Springer：Lecture notes in computer science，，2007，4629：196-205.

[7] QUAN Changqin，REN Fuji. Sentence emotion analysis and recognition based on emotion words Using Ren-CECps[J].International Journal of Advanced Intelligence，2010，2（1）：105-117.

[8] 龐磊，李壽山，周國棟.基于情緒知識的中文微博情感分類方法[J].計(jì)算機(jī)工程，2012，38（13）：156-158.

[9] 孫涼艷.基于K近鄰集成算法的分類挖掘研究[D].西安：西北大學(xué)，2010.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

細(xì)粒度微博情緒識別的集成算法研究