宋繼紅+葛達明
摘 要:微博作為一種用戶發(fā)表看法和觀點的載體已成為互聯(lián)網(wǎng)上一個重要的情感交流平臺,博文搜索為這種交流提供了方便快捷的途徑?;贖owNet等中文情感詞典的微博情感詞的抽取和分類,計算詞語語義相似度和傾向性。對文本情感傾向的加權(quán)值、表情、和情感詞增強因素等進行綜合考慮。實驗結(jié)果表明表情情感傾向?qū)ξ⒉┣楦袃A向起著重要作用;在表情和文本情感傾向比值固定的情況下,調(diào)整因素和中性區(qū)間的選擇會對情感傾向判斷準確率產(chǎn)生影響;通過與基于HowNet語義相似度的計算模型比較,該文方法使得情感傾向判斷準確率有所提高。
關(guān)鍵詞:情感提??;情感分析;微博文本
中圖分類號:TP399 文獻標識碼:A
1 引言(Introduction)
微博文本中往往包含了大量的文本作者對于某事件的情感,例如對微博文本、時事的態(tài)度、意見、評價等,研究如何高效的對輿論信息進行情感挖掘與趨勢分析,從而更好地分析網(wǎng)民群體的行為規(guī)律。通過分析,能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)流行事件或突發(fā)事件的快速分析,對于政府機構(gòu)輿情分析、企業(yè)市場決策、消費行為分析等方面具有重要意義。當(dāng)前,主要有兩大類針對情感分析的方法,分別是基于語義的方法與基于機器學(xué)習(xí)的方法[1]。一個詞匯的語義傾向是指通過對微博文本個體詞匯褒貶度進行分析得到的度量值,取值區(qū)間為±1。微博文本的情感傾向值最終通過匯總組合個體詞匯的情感傾向度量值得到[2]?;跈C器學(xué)習(xí)的情感分析方法的思路是構(gòu)造一個分類器,并使用已分類的訓(xùn)練集來訓(xùn)練這一分類器,研究重點在于如何提高訓(xùn)練效果[3]與獲得高質(zhì)量的訓(xùn)練集[4]。
中文微博的情感分析一般可以分為三個步驟。第一步為微博語料的收集和預(yù)處理;第二步根據(jù)給定的規(guī)則從微博文本中抽取出情感詞并且標注情感詞極性;第三步依據(jù)情感傾向值計算方法,對微博文本進行傾向性計算,得出整體情感傾向值。微博情感分析工作的主要流程如圖1所示。
圖1 中文微博情感分析工作流程圖
Fig.1 Flow chart of Chinese micro-blog
emotion analysis
2 微博語料的收集和文本預(yù)處理(Collection and
text pretreatment of micro-blogging corpus)
微博語料的獲取途徑主要有通過互聯(lián)網(wǎng)上提供的語料庫獲得和通過微博爬蟲程序或網(wǎng)站應(yīng)用程序編程接口(API)函數(shù)獲取三種方式[5]?;ヂ?lián)網(wǎng)上提供的微博語料數(shù)量大質(zhì)量優(yōu),但因需要經(jīng)過收集整理再發(fā)布的過程,往往難以獲得最新的數(shù)據(jù)?;谖⒉┑呐老x程序不同于傳統(tǒng)的爬蟲程序依靠超鏈接關(guān)系而是通過節(jié)點之間的社交關(guān)系來獲取整個微博的網(wǎng)絡(luò)數(shù)據(jù)。單獨采用微博爬蟲程序往往會在局部陷入深度優(yōu)先搜索,難以采集到大范圍的微博數(shù)據(jù)[6]。大多數(shù)網(wǎng)站都加入了反機器人機制如驗證碼、驗證滑塊等,進一步增加了爬蟲程序獲取數(shù)據(jù)的難度;多數(shù)微博平臺都提供了使用API接口訪問的功能,但在實際使用過程中常常受到諸多限制,因此本文采用三者結(jié)合的方法進行語料收集。
文本預(yù)處理主要使用自然語言處理技術(shù)對微博文本進行分詞與詞性標注[7]。國內(nèi)對于自然語言處理技術(shù)的研究由來已久,目前已比較成熟。本文采用中國科學(xué)院計算技術(shù)研究所的漢語詞法分析系統(tǒng)(ICTCLAS)作為詞法分析器,該系統(tǒng)歷經(jīng)多次內(nèi)核升級,分詞速度與精度均處于國內(nèi)一流水平。
3 微博情感分類抽取和標注(The extraction and labeling
of micro-blogging emotional classification)
3.1 文本表情處理
中文微博網(wǎng)站提供了豐富的表情符號,借助這些符號,可以比較容易地將微博分為主觀性文本和客觀性文本,從而使得分析結(jié)果更加精確。主觀性文本的情感傾向又分為積極和消極兩類,客觀性文本的情感傾向為中性。本文對表情強度采取了人工標注強度的方法。強度值為(0,1)之間代表正向情感表情,消強度值為(-1,0)之間代表負向情感表情,強度值為0表示中性表情。下表列舉了一些具有代表性的正向、負向和中性表情,如表1所示。
3.2 微博文本情感詞典構(gòu)建
現(xiàn)有的中文情感詞典較少,比較成熟的有臺灣大學(xué)簡體情感詞典(NTUSD)[8]和知網(wǎng)(HowNet)中文情感詞典[9]。本文對NTUSD、HowNet、情感詞匯本體庫和中文褒貶意詞典等詞典進行整理、去重,同時加入搜狗實驗室提供的互聯(lián)網(wǎng)詞庫,擴充網(wǎng)絡(luò)流行語。加入了程度副詞和否定詞,整理后的情感詞典包括正向情感詞4800個、負向情感詞6200個。
與基于句子的情感分析不同,微博文本段落的情感分析與判斷對情感詞典提出了更高的要求。對情感詞和程度副詞賦予權(quán)重,從而定量地度量文本傾向性可以提升文本情感的準確性。情感詞的強度劃分在(-1,1),分別用(0,1)和(-1,0)代表正面情感詞語的權(quán)重和負面情感詞語的權(quán)重;程度副詞的權(quán)重劃分在(0.2,1.2),按照強度由強到弱劃分為5級,如表2所示。若出現(xiàn)多個程度副詞修飾一個詞語的情況,則多個程度副詞的綜合權(quán)重為所有程度副詞權(quán)重之乘積。
4 基于文本和表情的情感計算方法(Emotional
computing method based on text and emotion)
基于表情的微博情感分析可以使用五元組Q(A,S,F(xiàn),E,T)表示,其中A、S、F、E、T分別表示程度副詞、情感傾向、表情情感傾向、增強因子與發(fā)表的時間。其中發(fā)表時間T對于微博情感分析結(jié)果影響可以忽略不計,特將五元組簡化為四元組Q(A,S,F(xiàn),E)。微博情感值的計算過程從而可以轉(zhuǎn)換為從微博文本中抽取出程度副詞、情感傾向、表情情感傾向、增強因子并對其進行處理的過程。
微博文本的情感傾向由表情和文本的情感兩部分組成,微博文本的情感傾向值可以通過對這兩部分的情感傾向值加權(quán)處理來得出。
(1)
其中,Q(P)、Q(PS)、Q(PT)分別為微博總體的情感傾向值、微博表情的情感傾向值,以及微博文s本的情感傾向值。其中λ為變量,取值區(qū)間為(0,1),代表總體情感傾向值中表情與文本情感傾向所占的比重。
微博表情的情感傾向值可根據(jù)如公式(2)得到:
(2)
其中,Q(psi)為微博文本中第i個表情的情感強度。
使用HowNet提供的詞匯語義相似度計算工具計算義原之間的相似度,可以得到詞語之間的相似程度。進而計算出詞語的情感傾向,最終計算出微博文本的情感傾向值Q(PT)。對于兩個漢語詞語W1和W2,如果W1有n個義項:x1,x2,…,xn;W2有m個義項:y1,y2,…,ym,則規(guī)定W1和W2的相似度為各義項相似度之最大值,即
(3)
義原相似度的計算公式為
(4)
其中,α為變量,取值區(qū)間為(0,+∞);d(xi,yj)表示義原xi和義原yj的義原距離,由詞匯語義相似度計算工具得出。一般地對于一個不在情感詞典中的詞語,其情感傾向值可以通過對比其與情感詞典中的詞之間的距離得到。具體計算方法為:將詞語W分別與正面和負面情感詞典中的每個種子詞進行比較得到其正、負面情感傾向值,再通過比較其與正負向情感值之間的均差,得出其情感傾向值。某個詞語W的情感傾向值可以通過下式計算得出
(5)
其中,Pi、Nj分別表示情感詞典中的一個正向情感種子詞與一個負向情感種子詞。
對于得到的情感傾向值,可以應(yīng)用程度副詞和否定詞對其進行修正,經(jīng)過修正后Q(W)的計算公式為
(6)
其中,Mn與Ma分別表示否定詞權(quán)重與程度副詞權(quán)重,,Ni為第i個否定詞的極性權(quán)重,,Ai代表情感詞典中第i個程度副詞的權(quán)重。
對一個語句中多個情感詞傾向值進行累加可以得到整個語句的情感傾向值Q(W),而對構(gòu)成微博文本的多條語句的情感傾向值求和可以得出微博文本的總體情感傾向值Q(PT),計算公式如下
(7)
微博情感傾向Q(P)的最終計算公式由表情和文本的情感兩部分組成,公式為
5 實驗結(jié)果與分析(Experimental results and
analysis)
實驗?zāi)康氖菍y試集中的每條文本賦予一個情感傾向值來代表文本的褒貶意程度,文本的情感傾向值由其中包含的情感詞的情感值相加得到。情感傾向值判斷準確率=判斷正確的文本數(shù)與測試集總文本數(shù)之比。實驗數(shù)據(jù)來源于微博搜索與搜狗實驗室提供的互聯(lián)網(wǎng)語料庫數(shù)據(jù),樣本集中共計含有微博文本5000余條,其中正向、負向、中性文本數(shù)量分別為1500條、2000條、1200條。對測試數(shù)據(jù)進行比對分析,同時考慮微博表情符號、程度副詞和反向詞的影響因素對文本進行加權(quán)處理,得到的實驗結(jié)果如圖2所示,P代表分析準確率。
分析圖中的折線數(shù)據(jù)中可以得出,λ使正面情感與負面情感的分析準確率表現(xiàn)均較好的區(qū)間為(0.4,0.5)。表3給出了當(dāng)λ=0.4時程度副詞與否定詞等增強因素加權(quán)前后對正面情感,以及負面情感的分析準確率對照情況??梢钥闯觯?dāng)λ取值區(qū)間為(±0.2,±0.8)時,加權(quán)后的判斷準確率與加權(quán)之前均有提升,無論是正向情感還是負向情感,當(dāng)λ=±0.4準確率達到最大值。超過±0.4后判斷準確雖也有提升,但是幅度不及之前。同時,負面情感傾向的判斷準確率要明顯高于正面情感傾向的判斷準確率,其主要原因可能是受情感字典中正向與負向詞語數(shù)量不同和文本樣本空間中正向與負向文本的比例不同的影響。其中Pqz、Phz分別為加權(quán)修正前后正面情感判斷準確率,Pqf、Phf分別為判斷準確率以及加權(quán)修正后負面情感判斷準確率。
6 結(jié)論(Conclusion)
本文方法通過對NTUSD、HowNet、情感詞匯本體庫和中文褒貶意詞典進行整理,基于HowNet的義原情感判別,加入程度副詞和表情,以及否定詞對文本情感的影響。實驗結(jié)果顯示程度副詞與表情傾向?qū)ξ⒉┪谋厩楦袃A向起著至關(guān)重要的作用,當(dāng)λ參數(shù)取值一定時,情感值傾向判斷的準確率會
受到中性區(qū)間的影響。
參考文獻(References)
[1] Zhang L,et al.Sentiment Analysis Based on Light Reviews.Ruan Jian Xue Bao/Journal of Software,2014,25(12):2790-2807.
[2] Wang Wei,et al.Extraction of Comparative Elements Using Conditional Random Fields.Acta Automatica Sinica,2015,41(8):1385-1393.
[3] Riloff E,Wiebe J.Learning Extraction Patterns for Subjective Expressions[A].Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP-03)[C].Sapporo,Japan:EMNLP,2003:105-112.
[4] Seyed Ali Bahrainian Andreas Dengel.Sentiment Analysis of Texts by Capturing Underlying Sentiment Patterns[J].Web Intelligence and Agent Systems,2015(13):53-68.
[5] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計算機應(yīng)用研究,2015,32(4):978-981.
[6] Anna Stavrianou,Caroline Brun.Expert Recommendations Based on Opinion Mining of User-Generated Product Reviews[J].Computational Intelligence,2015(31):165-183.
[7] 李清敏.面向微博情感分析的本體自動抽取關(guān)鍵技術(shù)研究[D].北京:首都師范大學(xué),2014.
[8] 李揚,潘泉.基于段文本情感分析的敏感信息識別[J].西安交通大學(xué)學(xué)報,2016,50(9):80-84.
[9] Neviarouskaya Alena,Prendinger Helmut.Attitude Sensing in Text Based on a Compositional Linguistic Approach[J].Computational Intelligence,2015,2(31):256-300.
作者簡介:
宋繼紅(1963-),女,碩士,副教授.研究領(lǐng)域:計算機網(wǎng)絡(luò)通
信,計算機網(wǎng)絡(luò)遠程控制,嵌入式技術(shù).
葛達明(1990-),男,碩士生.研究領(lǐng)域:智能信息處理.