肖宇倫,歐陽純萍,劉志明(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽 421000)
?
基于SVM和詞向量的Web新聞傾向性分析
肖宇倫,歐陽純萍,劉志明
(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽421000)
摘要:
關(guān)鍵詞:
隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)上的信息量與日俱增,而這些信息多是以文本方式產(chǎn)生的,因此利用計(jì)算機(jī)對文本進(jìn)行有效、準(zhǔn)確的傾向性分析是一項(xiàng)非常有意義的研究課題。例如對商品評論進(jìn)行褒貶分析,可以反映該商品是否受到消費(fèi)者的青睞。新聞作為輿情的一個重要來源,反映了公眾對某一事件的關(guān)注度,同時隨著新聞的傳播容易誘發(fā)網(wǎng)絡(luò)輿情。從而對Web新聞傾向性進(jìn)行全面、有效和準(zhǔn)確地分析可以幫助有關(guān)部門對突發(fā)的輿情進(jìn)行預(yù)警。
在對于篇章級的新聞文本進(jìn)行傾向性分類上,黃萱菁等[1]認(rèn)為若將篇章作為一個整體籠統(tǒng)地進(jìn)行傾向性分析存在很大的局限,其主要缺陷在于文本中包含多個對象,而不同對象涉及到的主觀信息是有差異的。因此目前針對篇章級文本的傾向分類的方法主要是對文本進(jìn)行降維,降維后再以基于語義或基于機(jī)器學(xué)習(xí)的方法進(jìn)行篇章傾向性分析。
在基于語義的篇章性分析中,左維松[2]等在進(jìn)行分析時,將篇章拆分為句子,通過對句子的情感分析,得出篇章的情感傾向性。申曉曄等[3]在分析Web新聞傾向性時,選取文本中每個段落的情感傾向性強(qiáng)度最高的句子,作為代表該段的關(guān)鍵句。再根據(jù)關(guān)鍵句的位置及關(guān)鍵句所在段落位置計(jì)算關(guān)鍵句的權(quán)值,最后結(jié)合關(guān)鍵句的傾向值和權(quán)值得到篇章的傾向性。尤建清等[4]提出了基于主題句抽取的新聞文本傾向性分析方法,該方法通過分析新聞文本中的高頻詞、新聞標(biāo)題、句子位置和傾向詞等特征提取出文本的主題句,由主題句的傾向性作為整個篇章的傾向性。
基于機(jī)器學(xué)習(xí)的傾向性分析主要分為兩個階段:特征選擇階段和機(jī)器學(xué)習(xí)階段。昝紅英等[5]在特征選擇時,將詞匯的IDF與Χ2統(tǒng)計(jì)量結(jié)合起來,并采用SVM進(jìn)行分類。在語料不平衡的情況下取得了較高的正確率。徐軍等[6]在特征選擇時,不僅考慮了詞匯的TF和Binary一些統(tǒng)計(jì)特征,還結(jié)合了詞匯的詞性和否定詞。分類器采用Naive Bayes和Maximum Entropy。實(shí)驗(yàn)結(jié)果表明在結(jié)合了文本的語義后,分類的正確率有一定的提高。Dongwen Zhang等[7]在對商品評價的分類上,將語料通過Word2Vec進(jìn)行訓(xùn)練后,獲取詞匯的上下文信息,然后將詞匯的上下文信息及詞性作為特征,使用SVM進(jìn)行分類。這種方法同樣取得了較高的正確率。此外Google公司在2013年發(fā)布的一款用于訓(xùn)練詞向量[8]的軟件工具——Word2Vec。它可以根據(jù)給定的語料庫,快速的將一個詞語表示為向量形式。Word2Vec訓(xùn)練出的詞向量的形式為distributed representation。一個distributed representation是一個稠密、低維的實(shí)值向量,它的每一維表示詞語的一個潛在特征,該特征捕獲了有用的句法和語義特性。由于詞向量具有良好的語義特征,因此我們選取詞向量和SVM來進(jìn)行Web新聞的傾向性分析。
對Web新聞文本的傾向性分析是指利用分類算法分析出該新聞的情感主題是褒義還是貶義,我們圍繞這一目標(biāo)主要完成以下工作:第一,對收集到的新聞?wù)Z料進(jìn)行分詞,并通過Word2Vec進(jìn)行訓(xùn)練,獲得詞語的詞向量表示。第二,對需要分類的新聞文本,依次進(jìn)行以下三個步驟:提取關(guān)鍵句、分詞及詞性標(biāo)注及通過SVM進(jìn)行分類。最后得到由SVM分類后的新聞類別。具體框架如圖1所示。
圖1 系統(tǒng)功能框圖
2.1關(guān)鍵句的提取
由于新聞文本的特殊性,可以從文本中提取到一些其他文本所不具有的信息。因此以下三個影響因素被確定為選取關(guān)鍵句的標(biāo)準(zhǔn)。
(1)含有新聞文本標(biāo)題中實(shí)詞的句子
Web新聞標(biāo)題不同于傳統(tǒng)的報(bào)紙一樣,講究各種修辭表達(dá)方法、講究生動形象和講究對稱有韻味等,而是以最簡潔的語言以最直接的方式把主要新聞事實(shí)敘述出來。因此含有新聞文本標(biāo)題中實(shí)詞的句子跟新聞主題有一定的關(guān)聯(lián)度,含有新聞標(biāo)題中的實(shí)詞越多的句子與新聞主題的關(guān)聯(lián)度越大。
(2)含有主張?jiān)~的句子
對Web新聞進(jìn)行觀察后,發(fā)現(xiàn)有這樣的一類詞,例如“認(rèn)為”,“覺得”等,我們把這些詞稱為主張?jiān)~。含有主張?jiān)~的句子往往代表觀點(diǎn)持有者的一種態(tài)度,具有強(qiáng)烈的傾向性。特別是在評論性的新聞文本中,例如:“我認(rèn)為,事情到了今天這個地步,必須要回答下列問題——除了山西,別的地方還有多少類似的人道主義危機(jī)”。
(3)句子在文本中所處的位置
申曉曄等[3]在處理句子位置權(quán)值時,認(rèn)為處于文章開頭和結(jié)尾的句子相較于文本中的其他句子具有較高的權(quán)值。本文采取同樣的方式。計(jì)算方式如下:
其中i是句子在文本中的位置,a是文本中所有的句子總數(shù)。
2.2傾向性句子的識別
(1)預(yù)處理階段
由于要獲取到某個詞語在大多數(shù)文本中的句法和語義特性,因此本文預(yù)先選擇大規(guī)模的新聞文本語料,然后通過Word2Vec進(jìn)行訓(xùn)練,獲得詞語的詞向量表示。在實(shí)驗(yàn)中,采用默認(rèn)參數(shù)對新聞文本語料進(jìn)行訓(xùn)練。
(2)特征選擇
在分類算法中,詞語的詞性通常用來作為分類特征。不同詞性的選擇可能會導(dǎo)致分類結(jié)果的不同[9]。例如,如果只以形容詞作為特征,分類結(jié)果并不會好于以名詞、動詞和形容詞同時作為特征。這是由于不同的詞性有不同的語義傾向[7]。因此,本文在對新聞文本進(jìn)行分詞和詞性標(biāo)注后,保留名詞、動詞、形容詞和副詞,以這些文本中出現(xiàn)頻率最高的詞性作為特征。
(3)SVM訓(xùn)練和分類
SVM(支持向量機(jī))目前廣泛運(yùn)用于模式識別、知識發(fā)現(xiàn)、計(jì)算機(jī)視覺與圖像識別和自然語言處理等技術(shù)中。在自然語言處理中SVM廣泛運(yùn)用于短語識別、詞義消歧、文本自動分類、信息過濾等方面。本文采用臺灣大學(xué)林智仁教授等開發(fā)的LIBSVM用于模型的訓(xùn)練和新聞文本的分類,訓(xùn)練采用LIBSVM提供的默認(rèn)參數(shù)。核函數(shù)選擇徑向基核函數(shù),以保證分類時不會出現(xiàn)太大的偏差,在無參調(diào)優(yōu)的情況下能同時保證準(zhǔn)確率和召回率[10]。
3.1實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中訓(xùn)練詞向量的語料和句子級的傾向性分析實(shí)驗(yàn)數(shù)據(jù)均來自于譚松波博士提供的10 000篇中文酒店評論語料。選取6000條評論語料,其中褒義類3000篇,貶義類3000篇,將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)按2:1隨機(jī)分配。實(shí)驗(yàn)結(jié)果如表1所示。
表1 基于詞性特征的實(shí)驗(yàn)結(jié)果
從表2中可以看出,以名詞、動詞、形容詞和副詞作為特征進(jìn)行分類,比單一特征具有較高的F值。同時又發(fā)現(xiàn)只以形容詞做特征時,正面情感分類的正確率和負(fù)面情感分類的召回率都比較高,但F值相較于其他結(jié)果卻比較低。這是由于大多數(shù)形容詞具有明顯的語義傾向,是傾向性分類的一個重要依據(jù)。但在形容詞與否定副詞結(jié)合后,原有的語義傾向發(fā)生了改變。因此只以形容詞作為特征時,分類的綜合性能較差。
3.2系統(tǒng)實(shí)現(xiàn)
本方法已在南華大學(xué)輿情監(jiān)測系統(tǒng)傾向分析模塊中實(shí)現(xiàn),系統(tǒng)預(yù)先通過信息提取模塊采集到2002年至2015年之間所有針對南華大學(xué)的新聞,新聞分別來自于人民網(wǎng)、騰訊網(wǎng)、新浪網(wǎng)、鳳凰網(wǎng)等主流新聞媒體。然后對所有新聞進(jìn)行傾向性分析,并按網(wǎng)站進(jìn)行分類,分別得出每個網(wǎng)站在這段時間內(nèi)對對南華大學(xué)有關(guān)報(bào)道的正負(fù)面新聞。
(1)獲取文章關(guān)鍵句
傾向性分析模塊每次從新聞中抽取3句話作為代表該新聞的關(guān)鍵句。以發(fā)表于新華網(wǎng)的《南華大學(xué)分專業(yè)靠抓鬮引質(zhì)疑回應(yīng)稱院領(lǐng)導(dǎo)醞釀討論良久》新聞為例,分析得到關(guān)鍵句如圖2所示。
圖2 新聞關(guān)鍵句SVM分類
例如圖2內(nèi)三個句子進(jìn)行分在獲得新聞關(guān)鍵句之后,再通過特征提取,獲取關(guān)鍵句的詞向量表示,最后通過SVM進(jìn)行分類,就可以得到每個關(guān)鍵句的傾向性。分類后,傾向性分別是1.0,-1.0,1.0,以1.0表示正面,-1.0表示負(fù)面。由此得出該篇新聞是一篇總體傾向?yàn)橹行缘男侣劇?/p>
(2)新聞傾向性分析結(jié)果
在對搜狐、紅網(wǎng)論壇、新浪等網(wǎng)站進(jìn)行傾向性分析后,統(tǒng)計(jì)各個網(wǎng)站在一段時間內(nèi)對南華大學(xué)褒、中、貶三種傾向的新聞報(bào)道的數(shù)量,分析結(jié)果展示如圖3所示。
圖3 新聞傾向性分析結(jié)果
本文研究了對Web新聞傾向性分析問題,通過提取文章關(guān)鍵句,在大規(guī)模新聞文本下構(gòu)建詞向量反映詞語的上下文含義,選擇傾向性詞語常用詞性作為特征,采用SVM對關(guān)鍵句傾向性進(jìn)行分類,最后以關(guān)鍵句傾向性反映Web新聞的傾向性。由于詞語的詞性不足以反應(yīng)詞語的語義傾向,下一步的工作將對特征選擇的方法進(jìn)行改進(jìn),進(jìn)一步提高關(guān)鍵句的分類正確率。
參考文獻(xiàn):
[1]黃萱菁,趙軍.中文文本情感傾向性分析[J].中國計(jì)算機(jī)學(xué)會通訊,2008,4(2):41-46.
[2]左維松.規(guī)則和統(tǒng)計(jì)相結(jié)合的篇章情感傾向性分析研究[D].碩士學(xué)位論文].鄭州:鄭州大學(xué),2010.
[3]申曉曄,封化民,毋非.基于語義理解的Web新聞傾向性分析.in第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上).2008.
[4]尤建清,張仰森,童毅軒.基于主題句抽取的新聞文本傾向性分析方法.第十五屆漢語詞匯語義學(xué)國際研討會.2014.中國澳門.
[5]Zan H Y,Guo M,Chai Y M,et al.Research on News Report Text Sentiment Tendency[J].Jisuanji Gongcheng/ Computer Engineering,2010,36(15).
[6]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動分類[J].中文信息學(xué)報(bào),2007,21(6):95-100.
[7]Zhang,D.,et al.,Chinese Comments Sentiment Classification Based on Word2vec and SVM perf.Expert Systems with Applications,2015.42(4):p.1857-1863.
[8]Turian J,Ratinov L,Bengio Y.Word Representations:a Simple and General Method for Semi-Supervised Learning[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:384-394.
[9]Liu B,Zhang L.A Survey of Opinion Mining and Sentiment Analysis[M].Mining text data.Springer US,2012:415-463.
[10]劉銘,昝紅英,原慧斌.基于SVM與RNN的文本情感關(guān)鍵句判定與抽取[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):68-73.
Web News Sentiment Analysis Based on SVM and Word Embedding
XIAO Yu-lun,OUYANG Chun-ping,LIU Zhi-ming
(School of Computer Science and Technology,University of South China,Hengyang 421000)
Abstract:
Proposes an approach for classifying the sentiment of news text based on SVM and Word Embedding.Firstly,word embedding is achieved by training the pre-collected news corpus with word2vec.Secondly,key sentences are constructed from some key words in news text.At last,the word embedding and key words' part-of-speech are selected as combination features to apply in SVM algorithm,and then the sentiment classification of news text is obtained.Experimental results show that SVM based on combination features has high F value in sentiment classification.
Keywords:
提出一種通過提取詞向量,并利用機(jī)器學(xué)習(xí)對新聞文本進(jìn)行分類的方法。首先,通過對預(yù)先收集好的新聞?wù)Z料進(jìn)行分析,獲取到詞的向量表示形式;然后通過新聞中的一些關(guān)鍵詞提取出新聞的關(guān)鍵句;最后把詞向量和關(guān)鍵句當(dāng)中的關(guān)鍵詞詞性作為組合特征,采用SVM算法進(jìn)行分類,得到新聞的傾向性類別。實(shí)驗(yàn)表明,基于組合特征的SVM文本分類方法具有較高的F值。
新聞傾向性分析;SVM;詞向量;詞性特征
基金項(xiàng)目:
湖南省哲學(xué)社會科學(xué)基金(No.14YBA335)
文章編號:1007-1423(2016)14-0052-04
DOI:10.3969/j.issn.1007-1423.2016.14.011
作者簡介:
肖宇倫(1995-),男,湖南懷化人,本科,研究方向?yàn)樽匀徽Z言處理
歐陽純萍(1979-),女,湖南衡陽人,副教授,碩士生導(dǎo)師,研究方向?yàn)樽匀徽Z言處理、語義網(wǎng)
劉志明(1972-),男,湖南瀏陽人,教授,碩士生導(dǎo)師,研究方向?yàn)榇髷?shù)據(jù)分析、知識工程
收稿日期:2016-03-17修稿日期:2016-05-10
News Sentiment Analysis;SVM;Word Embedding;Part-of-Speech Feature