楊 志
(青海民族大學計算機學院,青海 西寧 810000)
基于詞典與機器學習的藏文微博情感分析研究
楊 志
(青海民族大學計算機學院,青海 西寧 810000)
隨著互聯(lián)網(wǎng)自媒體的興起,越來越多的藏族人開始使用微博,并在其發(fā)表自己的觀點和看法,與微博相關的藏文信息處理研究隨之得到了學術層面的廣泛關注。本文根據(jù)藏文微博的行文特征,提出了基于詞典與機器學習算法多特征融合的藏文情感分類方法。在特征選擇方面,運用藏漢情感詞、表情符號等作為特征項。實驗發(fā)現(xiàn)由于所構建的情感詞典覆蓋率不夠髙導致分類效果不太理想。為了優(yōu)化實驗結果,本文引入了信息增益特征選擇的措施,實驗顯示該措施完全較人工選擇特征方法的分類結果有較大的提高。針對特定領域,實驗證明融合后的分類效果有了一定程度的提升。
自然語言處理;情感分類;微博;機器學習;特征選?。惶卣黜棛嘀?/p>
微博(微型博客 MicroBlog),當下較為流行的一種自媒體,是通過用戶關系來實施分享、傳遞以及獲取信息的平臺。字符限制在140字(包括標點符號)之內,通常是為了表達自己的心情或看法,其更注重時效性和隨意性。情感分析(Sentiment Analysis)也稱為傾向性分析、主觀分析(Subjectivity analysis)、觀點挖掘(Opinion Mining)等,是對文本情感進行分析、處理、推理和歸納的過程。對于時事與熱點話題評論的情感分析,有助于商家及時掌握產(chǎn)品的反饋信息,也有利于政府機構收集與分析輿情信息。目前國內外關于中文文本的情感挖掘的相關工作研究已經(jīng)非常成熟[1]。但是,對于藏文尤其短文本領域的相關研究工作并未得到深入開展。藏文微博相較于中文微博,存在著以下幾方面的特點,首先在內容上,藏文微博表述更為精煉且簡短,所表述主題相對集中,其次,從表述形式看,雙語甚至是多語種混合表達的情況較多。
本文根據(jù)藏文微博文本的特點,借鑒當前基于詞典和基于機器學習的情感分析的方法各自存在的優(yōu)劣,針對藏文微博文本,提出了基于詞典和機器學習相結合的措施,用于藏文短文本方面的研究。
文本情感分類,目前主要使用的兩種技術實施方案,一是情感詞典方法,二是機器學習方法?;谇楦性~典的分析方法,依據(jù)文本中所包含的正向和負向情感詞的個數(shù)進行情感分類;而基于機器學習的方法,則依據(jù)文本特征,標注訓練集和測試集,使用各種分類算法(KNN、NB、RF、SVM、DL等),進行情感分類。
1.1 基于情感詞典的方法
基于情感詞典的分類方法,使用一個標有極性的情感詞典,其內容主要包含正向情感詞和負向情感詞。利用情感詞典,統(tǒng)計待分析藏文本中的正向和負向情感詞的數(shù)量,繼而通過兩者的差值來實施情感極性的判斷[2]。由于藏文微博中出現(xiàn)藏漢混排的情況較為普遍,我們分別建立了藏文和中文情感詞典。中文情感詞典基于Hownet和NTUSD提供的第三方情感語料庫建立,藏文情感詞典則采取人工采集方式,選擇情感極性較為飽滿和使用較為普遍的情感詞匯作為基準詞匯,然后從微薄文本中抽取形容詞、名詞和動詞并將其作為情感詞的候選詞,使用基于擴展的點間互信息(so-PMI)的方法計算候選詞與基準詞的相似度,從而判斷候選詞的情感傾向,將情感傾向極性較強的詞語收錄到藏文詞典[3]。
1.2 基于機器學習的方法
基于機器學習的分類方法,通常是人工標注訓練集和測試集,通過對文本進行特征選取、特征降維、特征權重計算等,然后利用一些常見的分類器對文本進行分類的過程。常見的分類算法有樸素貝葉斯算法(Naive Bayes)、支持向量機(Support Vector Machine,SVM)算法、最大熵(Maximum Entropy)算法、K 最近鄰(K-Nearest Neighbor,kNN)算法等[4]。在本實驗中采用SVM作為情感分類的方法。
文本情感分析以帶有主觀性信息的文本為研討對象,目標是辨別、分類、抽取、標注文本里表述的觀點、情感。選取的含有表情圖片以及情感詞匯等情緒特征的文本后,先進行自動和人工標注,然后利用機器學習分類算法進行分類,并提出算法改進、建立分類模型,為文本分析的智能系統(tǒng)提供幫助,圖1為本實驗構建藏文向量空間模型的過程。
2.1 數(shù)據(jù)預處理
使用新浪微博和網(wǎng)絡爬蟲采集微博數(shù)據(jù),對微博數(shù)據(jù)進行預處理,去除數(shù)據(jù)中的噪聲,使用改進的CRF算法工具對微博數(shù)據(jù)進行分詞處理[5]。
圖1 藏文微博情感分析過程Fig.1 The sentiment analysis process of tibetan microblog
表1 藏文語料類型Tab.1 T ibetan corpus type
2.2 構建詞典庫信息
表2 基礎情感詞典Tab.2 Basic semantic lexicon
2.3 特征選取
在文本分類中,文本特征詞的獲取通常是基于詞典或者使用一些分詞算法以及詞頻統(tǒng)計的方式,從文檔中選出盡可能多的詞、詞組和短語,由它們來構成文檔矢量[6]。這種措施一方面將會造成文本特征空間的髙維性和文本向量的稀疏化,極大的耗費計算資源,并給后續(xù)的文檔處理帶來巨大的計算開支,降低了處理過程的效率,因而須采取特定的措施進行文檔矢量的降維。目前常見的方式是對文本特征進行選擇,如下:
(1)詞頻。詞頻方法是最簡單的文本特征選擇措施,根據(jù)詞語出現(xiàn)的頻次區(qū)分詞的重要程度,最終依照詞頻從高到低排序,取前K個詞作為特征。
(2)信息增益。在信息増益中,越重要的特征,帶給分類系統(tǒng)的信息越多?;诖藖磉M行特征的選擇信息増益是針對某個特征而言的,分別計算系統(tǒng)包括與不包括特征X的信息量,兩者差值即是該特征給本體帶來的信息量,即信息增益。按照信息增益從大到小的順序取前K個詞語作為特征[7]。
(3)卡方統(tǒng)計量。通過卡方檢驗得出詞語與情感極性相關性,依照卡方值從大到小的次序取前K個詞語作為特征。
2.4 特征權值計算
TF-IDF(Term Frequency-Inverse Document Frequency)是在詞頻的基礎上使用了逆文檔頻率IDF,逆文檔頻率縮放因子把常見詞的權重進行減小,提高了在該篇文檔中出現(xiàn)頻數(shù)高同時在總的語料中出現(xiàn)頻數(shù)較低的特征的權重[8]。TF-IDF權衡特征的重要程度不僅僅與特征在該文檔中呈現(xiàn)的頻數(shù)有關,而且還與該特征在整個語料中的頻數(shù)有關。本文基于TF-IDF進行權重計算,對公式實施歸一化后TF-IDF計算公式變?yōu)椋?/p>
3.1 實驗數(shù)據(jù)
首先分析新浪微博上較為活躍的藏族微博博主,選擇微博內容較為豐富且關注度較高的微博博主作為種子用戶,通過社交網(wǎng)絡(Social Network,SNS)關系,遍歷朋友圈,利用微博 API接口以及爬蟲工具從新浪微博上抓取了部分數(shù)據(jù)。因為新浪微博沒有針對藏文微博做主題分類,所以首先進行人工分類和篩選[9];然后選取了三個不同的主題,分別對語料進行情感標注,作為接下來的實驗數(shù)據(jù)。
3.2 實驗結果
本文針對藏文微博短文本進行情感分析的分類過程中,以正確率、召回率、F值作為評價指標。計算公式如下:
其中,correct表示情感分類器分類正確的微博個數(shù);propose指所有標注為該分類的數(shù)量;all為測試樣本中人工標記的數(shù)量。
表3 雙語和單語特征情感分析實驗結果Tab.3 Bilingual and monolingual sentiment analysis
3.3 結果分析
實驗結果說明,本文所提出的基于跨語言情感分類方法是行之有效的?;诙喾N特征選取方式和特征權值計算方法,隨著所選特征維數(shù)的不斷增長,情感分類結果正確率也不斷提高[10],特征維度達到200維時,藏漢混合特征和藏文特征兩種方式的測試結果的正確率都達到了頂點;當特征維數(shù)繼續(xù)增長時,正確率開始出現(xiàn)了不同程度的回落。究其原因,由于測試集中的藏文微博文本語料普遍相對較短,選取的特征維數(shù)過高時會產(chǎn)生嚴重的數(shù)據(jù)稀疏問題,導致分類正確率下降。由此表明,并非特征選取的越多、特征維數(shù)越高,計算產(chǎn)生的分類效果就越好[11]。
圖2 兩種文本特征效果Fig.2 Two text feature effects
本文針對藏文微博文本進行了初步研究,探討了對其進行情感分析的方法。與中文微博文本的情感分析相關工作相比,藏文微博存在藏漢多語種混排的情況,采用抽取單語特征進行情感計算,并在此基礎上建立藏漢情感詞典,基于多種特征選取方式和特征權值的計算方法。研究并改進了目前情感分析的方法,并采取一系列實驗對改進方法的效果進行了評估。結果表明,通過這些改進措施,使之更適合藏文情感分析方法,能夠有效的對藏文微博進行分析和處理。當然本文實驗還存在較大的提升空間,例如受制于現(xiàn)有分詞系統(tǒng),網(wǎng)絡中的一些新詞,無法識別;另外由于語料庫規(guī)模較小,從而對藏文情感分類的結果也有不小的影響。
[1] 文坤梅, 徐帥, 李瑞軒. 微博及中文微博信息處理研究綜述[J]. 中文信息學報, 2012, 26(6): 27-37.
[2] 徐軍, 下宇新, 王曉龍. 使用機器學習方法進行新聞的情感自動分類[J]. 中文信息學報, 2007, (1): 95-100.
[3] 謝麗星, 周明, 孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1):73-83.
[4] 劉志明, 劉魯. 基于機器學習的中文微博情感分類實證研究[J]. 計算機工程與應用, 2012, 48(2): 1-4.
[5] 李婷婷, 姬東鴻. 基于SVM 和CRF多特征組合的微博情感分析[J]. 計算機應用研究, 2015.
[6] 劉全超, 黃河燕, 馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學報, 2014, 28(4): 123-131.
[7] 徐琳宏, 林鴻飛, 楊志豪. 基于語義理解的文本傾向性識別機制[J]. 中文信息學報, 2007, (1): 96-100.
[8] 李培, 何中市, 黃永文. 基于依存關系分析的網(wǎng)絡評論極性分類研究[J]. 可計算機工程與應用, 2010.
[9] 李海剛, 于洪志. 藏文文本情感分類系統(tǒng)設計[J]. 甘肅科技縱橫, 2011, (1): 106-107.
[10] 張俊, 李應興. 基于情感詞典的藏文微博情感分析研究[J].珪谷, 2014, 7(20):
[11] 韓忠明, 張玉沙, 張慧, 等. 有效的中文微博短文本傾向性分類算法[J]. 計算機應用與軟件, 2012, 29(10): 89-93.
Lexicon and Machine Learning Based Sentiment Analysis of Tibetan Microblogs
YANG Zhi
(Qinghai University For Nationalities, Xining 810007)
With the development of Web2.0 era, more and more Tibetans began to express their own opinions and views on microblog. The Tibetan information processing research related to Tibetan microblog has drawn wide attention from academic communities.According to the expression features of Tibetan micro-blogs, this paper puts forward a method of multi-feature sentiment analysis which based on three kinds of machine learning algorithms.In the aspect of feature selection, it used of emotional words, morphological sequences, emojis and other features.The experimental results indicate that the classification performance was not ideal due to the inadequate coverage of the emotional dictionary constructed.In order to address this problem, the information gain feature selection method is introduced in this paper, and the experiment shows that the method is better than the classification effect of artificial selection feature.In the field of film topic, it is found that the classifier effect of fusion is better than that of single classifier.
NLP; Sentiment classification; Microblog; Feature selection; Term weight
TP391
A
10.3969/j.issn.1003-6970.2017.11.008
本文著錄格式:楊志. 基于詞典與機器學習的藏文微博情感分析研究[J]. 軟件,2017,38(11):46-48
青海民族大學校級理工科項目(2016XJQ06)
楊志(1979-),男,青海西寧人,專業(yè)技術職稱:高級軟件工程師,現(xiàn)從事的研究工作:自然語言處理,教育信息化及大數(shù)據(jù)。