武光利
(1甘肅政法學(xué)院 信息工程學(xué)院,甘肅 蘭州 730070;2甘肅省證據(jù)科學(xué)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730070)
微博因其使用簡便,已發(fā)展成一種新的社交網(wǎng)絡(luò)及信息發(fā)布平臺(tái)。自問世以來,得以迅速發(fā)展。微博上含有大量的情感傾向的言論,對(duì)其進(jìn)行情感分析可以得到有用的決策信息,可應(yīng)用于民意調(diào)查、輿論監(jiān)控、政府決策、商品銷售等。微博更新速度快、消息量大、含有大量的情感信息,吸引了大批學(xué)者對(duì)其進(jìn)行研究,針對(duì)微博的自然語言處理研究已成為一個(gè)新的研究熱點(diǎn)及前沿性課題,微博情感分析就是其中的一個(gè)熱點(diǎn)課題。情感分析又稱觀點(diǎn)分析,用于分析文本中觀點(diǎn)持有者對(duì)事件的支持、反對(duì)或中立態(tài)度,也即分析文本表達(dá)的正面、負(fù)面或中性情感[1]。
微博短文本有詞語信息豐富多樣、語料簡短、主題松散等特點(diǎn),相對(duì)于長文本來說,在相應(yīng)的情感分析上將面臨更多的問題,如文本矩陣的稀疏性、情感詞的多樣性等。文本情感分析過程由文本預(yù)處理、情感特征提取、情感分類等步驟組成。中文微博情感分類方法可以分為兩大類:一類是基于情感詞典的情感分類方法,一類是基于機(jī)器學(xué)習(xí)的情感分類方法。
微博短文本預(yù)處理主要包括過濾無關(guān)信息、文本分詞、詞性標(biāo)注等。由于微博通過圖片、視頻、文字等來表達(dá)信息,還因其可以轉(zhuǎn)發(fā)引用他人微博存在一些微博文本特有標(biāo)記,所以在預(yù)處理時(shí),首先將這些無關(guān)標(biāo)記如鏈接以及“@”“//”標(biāo)簽及其后包含的內(nèi)容,“#”與“#”符號(hào)之間的內(nèi)容及符號(hào)一起去除。英文單詞和視頻及圖片也去除,保留表情符號(hào)[2]。
面向中文的分詞和詞性標(biāo)注技術(shù)已相對(duì)成熟,國內(nèi)有中科院計(jì)算所開發(fā)的ICTCLAS中文分詞標(biāo)注系統(tǒng),可以實(shí)現(xiàn)中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和未登錄詞識(shí)別,詞正確率高達(dá) 97.8%;這些相關(guān)軟件的開發(fā)為中文微博短文本情感分析奠定了良好的基礎(chǔ)。
雖然微博中的文本只有140個(gè)字符,但是包含的信息量卻非常巨大,而且微博文本還有未登錄詞較多、口語化嚴(yán)重等特點(diǎn),采用向量空間模型表示微博文本,以詞匯和詞性作為特征,根據(jù)提出的基于層次結(jié)構(gòu)的特征降維方法對(duì)特征空間進(jìn)行降維。面向微博短文本的情感分析的特征選擇,首先要去除掉與情感無關(guān)的且類別關(guān)聯(lián)度較小的特征,排除不必要干擾。其次為了提高微博短文本的情感傾向性判別的準(zhǔn)確性,特征選擇需獲取能獲取與情感分類有關(guān)聯(lián)的特征信息。因此,必須針對(duì)微博消息選擇合適的特征抽取方法,才能提高情感識(shí)別的分類效果。目前特征選擇方法主要有互信息、信息增益、詞頻、文檔頻次等。
2.3.1 基于情感詞典的微博情感分析方法
基于情感詞典的微博情感分析方法主要根據(jù)情感詞典,將一條微博語句的情感極性值之和作為該條語句的情感極性。該方法依據(jù)情感詞典將情感極性分為正向情感、負(fù)向情感和中性情感。具體公式[3]如下:正向情感(如果正向情感詞數(shù)>負(fù)向情感詞數(shù))、負(fù)向情感(如果正向情感詞數(shù)<負(fù)向情感詞數(shù))、中性情感(如果正向情感詞數(shù)=負(fù)向情感詞數(shù))。
基于情感詞典的微博情感分析方法可分為詞語特征級(jí)、句子級(jí)情感判別,該方法主要的優(yōu)點(diǎn)是粒度細(xì)、分析準(zhǔn)確。但受到自然語言處理技術(shù)及相關(guān)抽取技術(shù)的限制,該方法容易丟失數(shù)據(jù)集中隱藏著的重要模式,使得未來研究工作中還有很大的提高空間。
2.3.2 基于機(jī)器學(xué)習(xí)的微博情感分析方法
基于機(jī)器學(xué)習(xí)的微博情感分析方法是通過各種算法將微博短文本分為正面、中性、負(fù)面三類情感[4]。這類方法是用機(jī)器學(xué)習(xí)的方法將將微博情感分析看做分類問題來處理。常用的機(jī)器學(xué)習(xí)算法有樸素貝葉斯NB、支持向量機(jī)SVM、最近鄰方法KNN、最大熵ME和條件隨機(jī)場CRF等[5]。選取微博文本中有利于情感極性分類的詞或短語等作為特征,構(gòu)建向量空間模型。通過向量空間模型提取的特征再訓(xùn)練分類器進(jìn)行分類。通過訓(xùn)練集的構(gòu)建分類器,通過測試集來對(duì)分類器的性能進(jìn)行驗(yàn)證。訓(xùn)練集語料的大小和質(zhì)量、特征的提取的好壞將直接決定分類器的好壞。
雖然面向中文微博情感分析的分類準(zhǔn)確率已達(dá)到了一定的水平,但是仍有提升的空間,主要原因有以下兩個(gè)方面:一是由于無論采用哪種方法都涉及特征的選取問題,如何提取更加有效的特征來提高分類的效果是問題的關(guān)鍵所在。二是中文微博表達(dá)的內(nèi)容信息量大、千變?nèi)f化,需要對(duì)漢語的語言特點(diǎn)進(jìn)行更加深入的研究,才能夠找出更合適的方法來進(jìn)行微博情感分析。
[1]王銀,吳新玲.中文微博情感分析方法研究[J]廣東技術(shù)師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2014年第3期.
[2]周勝臣,瞿文婷,石英子,施詢之,孫韻辰.中文微博情感分析研究綜述[J]計(jì)算機(jī)應(yīng)用與軟件,2013第3期.
[3]陳曉東. 基于情感詞典的中文微博情感傾向分析研究[D]華中科技大學(xué),2012.
[4]孫建旺,呂學(xué)強(qiáng),張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]計(jì)算機(jī)應(yīng)用與軟件,2014年第7期.
[5]劉楠. 面向微博短文本的情感分析研究[D]武漢大學(xué),2013.