中文微博情感分析方法概述

2014-01-27 18:51:13武光利

中國建材科技 2014年6期

武光利

（1甘肅政法學(xué)院信息工程學(xué)院，甘肅蘭州 730070；2甘肅省證據(jù)科學(xué)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室，甘肅蘭州 730070）

1 引言

微博因其使用簡便，已發(fā)展成一種新的社交網(wǎng)絡(luò)及信息發(fā)布平臺(tái)。自問世以來，得以迅速發(fā)展。微博上含有大量的情感傾向的言論，對(duì)其進(jìn)行情感分析可以得到有用的決策信息，可應(yīng)用于民意調(diào)查、輿論監(jiān)控、政府決策、商品銷售等。微博更新速度快、消息量大、含有大量的情感信息，吸引了大批學(xué)者對(duì)其進(jìn)行研究，針對(duì)微博的自然語言處理研究已成為一個(gè)新的研究熱點(diǎn)及前沿性課題，微博情感分析就是其中的一個(gè)熱點(diǎn)課題。情感分析又稱觀點(diǎn)分析，用于分析文本中觀點(diǎn)持有者對(duì)事件的支持、反對(duì)或中立態(tài)度，也即分析文本表達(dá)的正面、負(fù)面或中性情感[1]。

2 中文微博情感分析方法

微博短文本有詞語信息豐富多樣、語料簡短、主題松散等特點(diǎn)，相對(duì)于長文本來說，在相應(yīng)的情感分析上將面臨更多的問題，如文本矩陣的稀疏性、情感詞的多樣性等。文本情感分析過程由文本預(yù)處理、情感特征提取、情感分類等步驟組成。中文微博情感分類方法可以分為兩大類：一類是基于情感詞典的情感分類方法，一類是基于機(jī)器學(xué)習(xí)的情感分類方法。

2.1 微博文本的預(yù)處理

微博短文本預(yù)處理主要包括過濾無關(guān)信息、文本分詞、詞性標(biāo)注等。由于微博通過圖片、視頻、文字等來表達(dá)信息，還因其可以轉(zhuǎn)發(fā)引用他人微博存在一些微博文本特有標(biāo)記，所以在預(yù)處理時(shí)，首先將這些無關(guān)標(biāo)記如鏈接以及“@”“//”標(biāo)簽及其后包含的內(nèi)容，“#”與“#”符號(hào)之間的內(nèi)容及符號(hào)一起去除。英文單詞和視頻及圖片也去除，保留表情符號(hào)[2]。

面向中文的分詞和詞性標(biāo)注技術(shù)已相對(duì)成熟，國內(nèi)有中科院計(jì)算所開發(fā)的ICTCLAS中文分詞標(biāo)注系統(tǒng)，可以實(shí)現(xiàn)中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和未登錄詞識(shí)別，詞正確率高達(dá) 97.8%；這些相關(guān)軟件的開發(fā)為中文微博短文本情感分析奠定了良好的基礎(chǔ)。

2.2 情感特征提取

雖然微博中的文本只有140個(gè)字符，但是包含的信息量卻非常巨大，而且微博文本還有未登錄詞較多、口語化嚴(yán)重等特點(diǎn)，采用向量空間模型表示微博文本，以詞匯和詞性作為特征，根據(jù)提出的基于層次結(jié)構(gòu)的特征降維方法對(duì)特征空間進(jìn)行降維。面向微博短文本的情感分析的特征選擇，首先要去除掉與情感無關(guān)的且類別關(guān)聯(lián)度較小的特征，排除不必要干擾。其次為了提高微博短文本的情感傾向性判別的準(zhǔn)確性，特征選擇需獲取能獲取與情感分類有關(guān)聯(lián)的特征信息。因此，必須針對(duì)微博消息選擇合適的特征抽取方法，才能提高情感識(shí)別的分類效果。目前特征選擇方法主要有互信息、信息增益、詞頻、文檔頻次等。

2.3 微博情感分類方法

2.3.1 基于情感詞典的微博情感分析方法

基于情感詞典的微博情感分析方法主要根據(jù)情感詞典，將一條微博語句的情感極性值之和作為該條語句的情感極性。該方法依據(jù)情感詞典將情感極性分為正向情感、負(fù)向情感和中性情感。具體公式[3]如下：正向情感（如果正向情感詞數(shù)>負(fù)向情感詞數(shù)）、負(fù)向情感（如果正向情感詞數(shù)<負(fù)向情感詞數(shù)）、中性情感（如果正向情感詞數(shù)=負(fù)向情感詞數(shù)）。

基于情感詞典的微博情感分析方法可分為詞語特征級(jí)、句子級(jí)情感判別，該方法主要的優(yōu)點(diǎn)是粒度細(xì)、分析準(zhǔn)確。但受到自然語言處理技術(shù)及相關(guān)抽取技術(shù)的限制，該方法容易丟失數(shù)據(jù)集中隱藏著的重要模式，使得未來研究工作中還有很大的提高空間。

2.3.2 基于機(jī)器學(xué)習(xí)的微博情感分析方法

基于機(jī)器學(xué)習(xí)的微博情感分析方法是通過各種算法將微博短文本分為正面、中性、負(fù)面三類情感[4]。這類方法是用機(jī)器學(xué)習(xí)的方法將將微博情感分析看做分類問題來處理。常用的機(jī)器學(xué)習(xí)算法有樸素貝葉斯NB、支持向量機(jī)SVM、最近鄰方法KNN、最大熵ME和條件隨機(jī)場CRF等[5]。選取微博文本中有利于情感極性分類的詞或短語等作為特征，構(gòu)建向量空間模型。通過向量空間模型提取的特征再訓(xùn)練分類器進(jìn)行分類。通過訓(xùn)練集的構(gòu)建分類器，通過測試集來對(duì)分類器的性能進(jìn)行驗(yàn)證。訓(xùn)練集語料的大小和質(zhì)量、特征的提取的好壞將直接決定分類器的好壞。

3 結(jié) 語

雖然面向中文微博情感分析的分類準(zhǔn)確率已達(dá)到了一定的水平，但是仍有提升的空間，主要原因有以下兩個(gè)方面：一是由于無論采用哪種方法都涉及特征的選取問題，如何提取更加有效的特征來提高分類的效果是問題的關(guān)鍵所在。二是中文微博表達(dá)的內(nèi)容信息量大、千變?nèi)f化，需要對(duì)漢語的語言特點(diǎn)進(jìn)行更加深入的研究，才能夠找出更合適的方法來進(jìn)行微博情感分析。

[1]王銀，吳新玲.中文微博情感分析方法研究[J]廣東技術(shù)師范學(xué)院學(xué)報(bào)（自然科學(xué)版），2014年第3期.

[2]周勝臣，瞿文婷，石英子，施詢之，孫韻辰.中文微博情感分析研究綜述[J]計(jì)算機(jī)應(yīng)用與軟件，2013第3期.

[3]陳曉東. 基于情感詞典的中文微博情感傾向分析研究[D]華中科技大學(xué)，2012.

[4]孫建旺，呂學(xué)強(qiáng)，張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]計(jì)算機(jī)應(yīng)用與軟件，2014年第7期.

[5]劉楠. 面向微博短文本的情感分析研究[D]武漢大學(xué)，2013.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看