基于SVM的中文微博情感識(shí)別與分類研究

2015-05-30 03:17:02劉丹丹邱恒清趙應(yīng)丁

中國(guó)新通信 2015年21期

劉丹丹邱恒清趙應(yīng)丁

【摘要】微博是當(dāng)下社交網(wǎng)絡(luò)中最流行的社交工具典型代表，微博信息具有及時(shí)性，流動(dòng)速度快，內(nèi)容情感色彩豐富，微博的分析是對(duì)社會(huì)學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉領(lǐng)域的研究，成為了其新的熱點(diǎn)研究方向。鑒于自主采用Java語言開發(fā)的新浪微博的情感識(shí)別與分類系統(tǒng)，對(duì)中文微博的情感進(jìn)行識(shí)別與分類研究。系統(tǒng)使用爬蟲技術(shù)，抓取微博的文本內(nèi)容，然后利用支持Java開發(fā)語言的ICTCLAS分詞工具進(jìn)行分詞，去停用詞，文本規(guī)范等預(yù)處理操作，再抽取情感特征，對(duì)文本情感識(shí)別與分類，最終輸出分類結(jié)果。實(shí)驗(yàn)中通過多種方法對(duì)比，選擇實(shí)驗(yàn)效果較好的方法，最終實(shí)驗(yàn)結(jié)果表明：樸素貝葉斯的主客觀句識(shí)別效果優(yōu)于支持向量機(jī)分類方法，基于支持向量機(jī)一對(duì)一多步識(shí)別中文微博文本情感類別效果優(yōu)于一對(duì)其余一次識(shí)別方法，且準(zhǔn)確率達(dá)到63.76%，召回率達(dá)到74.4%，總體實(shí)驗(yàn)結(jié)果較傳統(tǒng)粗粒度研究有明顯進(jìn)步。

【關(guān)鍵字】微博網(wǎng)絡(luò)爬蟲情感識(shí)別情感分類支持向量機(jī)

引言

隨著web2.0的快速發(fā)展，社交網(wǎng)絡(luò)逐漸從各個(gè)方面影響著中國(guó)網(wǎng)民。微博成為了社交網(wǎng)絡(luò)中社交工具的典型代表。網(wǎng)民使用微博在互聯(lián)網(wǎng)上的活動(dòng)主要是獲取信息與發(fā)布信息，發(fā)布的信息含有自己對(duì)某事物的看法、觀點(diǎn)、感知等個(gè)人情感。

它們主要以文字，表情符號(hào)（新浪微博默認(rèn)表情及標(biāo)點(diǎn)符號(hào)）形式出現(xiàn)。通過用戶之間的互動(dòng)傳播（一個(gè)微博用戶具有雙重角色，即博主與粉絲），這種社交網(wǎng)絡(luò)媒體具有傳播速度快，傳播范圍廣等特點(diǎn)。因此對(duì)微博情感識(shí)別與分類就顯得尤為重要。

對(duì)微博文本的情感進(jìn)行識(shí)別與分類，不僅能讓企業(yè)及時(shí)了解客戶需求尋找到潛在的客戶群體，通過實(shí)時(shí)、準(zhǔn)確地評(píng)估其情感。能夠獲得客戶市場(chǎng)反饋信息及客戶的消費(fèi)習(xí)慣，幫助企業(yè)進(jìn)行有效的需求管理及企業(yè)戰(zhàn)略調(diào)整，從而快速應(yīng)對(duì)市場(chǎng)變化，提高企業(yè)競(jìng)爭(zhēng)力。還能幫助政府部門實(shí)時(shí)監(jiān)控民眾情緒，對(duì)負(fù)面情緒及時(shí)采取措施，防止不法分子企圖通過微博平臺(tái)傳播謠言，以此保證社會(huì)的和諧穩(wěn)定，政府了解民意，為制訂國(guó)家政策提供參考。

同時(shí)也能協(xié)助醫(yī)生分析心理障礙者，及時(shí)掌握患者情緒波動(dòng)，準(zhǔn)確對(duì)患者病情進(jìn)行有效的對(duì)癥下藥。避免了患者不能準(zhǔn)確描述病情，而帶來的不相關(guān)治療。

因此對(duì)微博情感進(jìn)行研究具有重要的理論與實(shí)踐意義。文章意在為政府或企業(yè)等利用到微博情感分析數(shù)據(jù)的領(lǐng)域提供基礎(chǔ)。

鑒于自主采用Java語言開發(fā)的新浪微博的情感識(shí)別與分類系統(tǒng)，對(duì)中文微博的情感進(jìn)行識(shí)別與分類研究。系統(tǒng)使用爬蟲技術(shù)[1]，抓取微博的文本內(nèi)容，然后進(jìn)行分詞，去停用詞，文本規(guī)范等預(yù)處理操作，再抽取情感特征，對(duì)文本情感識(shí)別與分類，最終輸出分類結(jié)果。

一、相關(guān)工作

1.1文本獲取及預(yù)處理

對(duì)微博數(shù)據(jù)資源的獲取有兩種形式，一種是用戶以普通文本形式直接在系統(tǒng)前臺(tái)相應(yīng)位置輸入待分析的文本，系統(tǒng)可以自動(dòng)進(jìn)行情感識(shí)別與分類；另一種是用戶以微博文本URL形式輸入，系統(tǒng)對(duì)用戶輸入U(xiǎn)RL連接采用網(wǎng)絡(luò)爬蟲技術(shù)抓取微博正文內(nèi)容。

網(wǎng)絡(luò)爬蟲結(jié)構(gòu)先將用戶輸入U(xiǎn)RL作為爬蟲起點(diǎn)，通過web協(xié)議（主要是HTTP協(xié)議）采集頁面，使用多線程或并列技術(shù)獲取網(wǎng)頁數(shù)據(jù)信息，網(wǎng)絡(luò)爬蟲結(jié)構(gòu)也提供了鏈接過濾模塊（過濾掉不符合URL規(guī)范的鏈接），頁面數(shù)據(jù)庫模板（存儲(chǔ)已經(jīng)爬取到本地的原始頁面數(shù)據(jù)，以備預(yù)處理階段建立索引使用）。

為了提高分類的準(zhǔn)確率，減少獲取文本內(nèi)容不必要干擾，對(duì)文本進(jìn)行預(yù)處理操作十分必要。系統(tǒng)的預(yù)處理操作主要包括：

1.文本規(guī)范化處理，判斷待處理的文本是否含有由兩個(gè)#組成的話題標(biāo)簽，若有則刪除兩個(gè)#及它們之間的文字內(nèi)容。

2.使用正則表達(dá)式判斷微博文本是否含有以下三種含@微博標(biāo)簽，若有將它們刪除①以@開頭，以：結(jié)尾②以@開頭，以空格結(jié)尾③以回復(fù)@開頭以：結(jié)尾。

3.判斷英文詞語是否含有感情色彩，刪除不必要的英文詞語。

4.用中文描述替代含有感情的“？”和“！”去除一些標(biāo)點(diǎn)符號(hào)。

5.使用得到普遍認(rèn)可的支持Java開發(fā)語言的ICTCLAS分詞工具分詞，去除停用詞。

1.2文本特征抽取

文本特征抽取[2-3]是從文本中選取一部分能夠反應(yīng)其內(nèi)容信息的特征詞匯并計(jì)算其特征權(quán)重。特征抽取的主要目的是為了降低向量空間的維度，消除無關(guān)特征的噪音，通過選擇可區(qū)分性強(qiáng)的少量特征來提高分類器的分類精度和效率。常用的特征選取方法有：文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4]（Document Frequency ）一種簡(jiǎn)單的特征約減技術(shù)，常用自動(dòng)特征選擇，通過設(shè)置目標(biāo)特征的文檔頻率閾值來進(jìn)行特征的抽取。DF是含有該目標(biāo)特征的文檔數(shù)與所有文檔數(shù)的比值，可表示為

信息增益法[5]是指文本包含該特征項(xiàng)與不包含該特征項(xiàng)時(shí)的信息熵的差值，根據(jù)所獲信息增益的多少篩選有效特征，已成為機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛的特征選擇方法。信息增益法計(jì)算公式可以表示為：

由于當(dāng)特征數(shù)目較少時(shí)，使用該方法得到的數(shù)據(jù)稀疏，分類結(jié)果會(huì)不理想，因此本文首先對(duì)預(yù)處理后待分析的文本里出現(xiàn)的每個(gè)詞計(jì)算其信息增益，設(shè)置一個(gè)閾值，抽取特征詞，按照信息增益值降序選擇特征項(xiàng)組成特征向量。

期望交叉熵[6]（Expected Cross Entropy）反應(yīng)了文本類別的概率分布與在出現(xiàn)了某個(gè)詞條的情況下文本類別的概率分布之間的距離。

詞條的交叉熵越大，對(duì)文本類別分布影響也就越大。所以選CE最大的K個(gè)詞條作為最終的特征項(xiàng)。

期望交叉熵計(jì)算公式：

為了提供特征詞抽取的時(shí)間效率，針對(duì)微博的數(shù)據(jù)量很大的特點(diǎn)，使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。

1.3文本情感識(shí)別與分類

采用基于樸素貝葉斯主客觀句識(shí)別方法[7]和支持向量機(jī)的分類方法[8-11]對(duì)文本分類。樸素貝葉斯方法是一種基于事件概率簡(jiǎn)單而誤差率較小的分類方法?；驹硎牵涸谑录鄬?duì)獨(dú)立的條件下，事件A在事件B發(fā)生的條件下的概率且與事件B在事件A發(fā)生的條件下概率是不相同的。及文檔A屬于B i類概率表示為

系統(tǒng)應(yīng)用思想：對(duì)有已知類別集合S（x1，x2，…，xn），求在待分類項(xiàng)出現(xiàn)的條件下，集合中各個(gè)類別出現(xiàn)的概率，哪個(gè)類別的概率值大，就認(rèn)為待分類項(xiàng)屬于那一類別。并將對(duì)每個(gè)特征項(xiàng)主客觀句的條件概率計(jì)算結(jié)果輸出，作為支持向量機(jī)分類器的輸入值。

系統(tǒng)的工作流程圖如圖1所示。

二、實(shí)驗(yàn)分析

使用第二屆自然語言處理與中文計(jì)算機(jī)會(huì)議所提供包含4000條已經(jīng)標(biāo)注是否含有情感色彩的中文微博語料，含有13252個(gè)句子，且主觀句中又表明了所屬具體情感類。情感類別分為7個(gè)類別，分別是：喜好、安樂、驚奇、厭惡、悲哀、憤恨和恐懼。

選擇這些數(shù)據(jù)作為系統(tǒng)測(cè)評(píng)數(shù)據(jù)主要是與系統(tǒng)測(cè)試結(jié)果進(jìn)行比較，核實(shí)評(píng)價(jià)實(shí)驗(yàn)結(jié)果的召回率（R），準(zhǔn)確率（P），性能評(píng)價(jià)指標(biāo)F值。求解公式如下所示：

系統(tǒng)將實(shí)驗(yàn)測(cè)評(píng)數(shù)據(jù)首先進(jìn)行預(yù)處理，對(duì)其進(jìn)行規(guī)范化、分詞去除停用詞、抽取情感特征，然后采用樸素貝葉斯方法，使用其公式計(jì)算結(jié)果來識(shí)別主觀句，支持向量機(jī)方法先將抽取的特征詞轉(zhuǎn)換成向量形式，再將向量化后的文本放到向量機(jī)的模型中，最終輸出分類結(jié)果。通過計(jì)算支持向量機(jī)的情感分類方法召回率達(dá)到74.4%，準(zhǔn)確率高達(dá)63.76%，F(xiàn)值達(dá)到0.6534.

實(shí)驗(yàn)中采用準(zhǔn)確率，召回率，F(xiàn)值測(cè)評(píng)指標(biāo)，對(duì)常見的情感特征抽取方法[16]實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比，見表1，通過對(duì)比樸素貝葉斯和支持向量分類方法對(duì)主客觀句的識(shí)別結(jié)果，得出結(jié)論：本實(shí)驗(yàn)中對(duì)主客觀句的識(shí)別樸素貝葉斯方法比支持向量機(jī)方法的實(shí)驗(yàn)結(jié)果更好。因?yàn)橹С窒蛄繖C(jī)方法準(zhǔn)確率雖更高，但召回率較低。

實(shí)驗(yàn)結(jié)果見表2。對(duì)已識(shí)別的主客觀句，我們采用支持向量機(jī)的一對(duì)一的多步分類方法及一對(duì)其余的一次分類方法進(jìn)行情感分類。

實(shí)驗(yàn)結(jié)果見表3。實(shí)驗(yàn)結(jié)果表明：一對(duì)一多步情感分類方法效果優(yōu)于一對(duì)其余一次分類。因?yàn)橐粚?duì)其余分類方法可能出現(xiàn)重疊現(xiàn)象或因不可分類現(xiàn)象而引起數(shù)據(jù)集的抖動(dòng)。因此實(shí)驗(yàn)最終選擇支持向量機(jī)的一對(duì)一多步分類方法。

三、結(jié)語

微博作為網(wǎng)民在互聯(lián)網(wǎng)主要活動(dòng)之一，逐漸從各個(gè)方面影響著人們，網(wǎng)民帶有情感的言論對(duì)各行各業(yè)都有著不可估量的使用價(jià)值。因而對(duì)微博文本的數(shù)據(jù)分析研究有一定的社會(huì)意義。

通過查閱文獻(xiàn)發(fā)現(xiàn)基于樸素貝葉斯識(shí)別主客觀句的方法及基于機(jī)器學(xué)習(xí)支持向量的方法有較高的精度。而由于針對(duì)中文微博的研究大部分是理論性的研究，因此本文通過構(gòu)建系統(tǒng)，將基于樸素貝葉斯的識(shí)別主客觀句個(gè)方法及支持向量機(jī)的方法的研究思路實(shí)踐化。實(shí)驗(yàn)結(jié)果對(duì)企業(yè)、政府及廣大網(wǎng)民均有重要的社會(huì)意義。

展望：

1.后期會(huì)打破僅在初步解決微博文本的情感識(shí)別和分類問題的研究，接下來會(huì)投入對(duì)用戶的圖片信息，鏈接的視頻聲音信息進(jìn)行研究。

2.本文去除英文詞語，采用的是人工標(biāo)注方法。鑒于部分國(guó)人傾向于有使用英文的習(xí)慣，所以會(huì)不斷的完善系統(tǒng)情感庫，或設(shè)計(jì)系統(tǒng)能自動(dòng)翻譯，以此減少人工工作量。

參考文獻(xiàn)

[1] YANG Yuekui，DU Yajun，HAI Yufeng，et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A]，Asia Paciic Conference on Information Processing （APCIP 2009）[C].Washington DC：IEEE Computer Society，2009：420-423.

[2] 張彪.基于關(guān)聯(lián)分析的文本分類特征選擇算法[J].計(jì)算機(jī)工程.2010（22）：184-186.

[3]謝麗星，周明，孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào)，2011，26（1）：73-83.

[4] Dai Liuling，Huang Heyan，Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing，2004，18（1）26-32.

[5] 李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶大學(xué)，2012.

[6] 廖一星.文本分類及其特征降維研究[D].浙江大學(xué).2012

[7] 蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].中國(guó)地質(zhì)大學(xué)，2009

[8]楊鼎，陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法 [J].計(jì)算機(jī)應(yīng)用研究，2010，27（10）：3737-3739

[9]A.Basu，C.Watters，M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences，2003.

[10]趙暉.支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D].大連理工大學(xué)，2006.

[11]張博.基于SVM的中文觀點(diǎn)句抽取.[D].北京.北京郵電大學(xué)，2011

[12]Youngjoong ko，Pjinwoo Park，Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C]，Taipei，Taiwan，2002：1-7.

[13] 韓忠明，張玉莎，張慧，等.有效的中文微博短文本傾向性分類算法[J].計(jì)算機(jī)應(yīng)用與軟件，2012，29（10）：89-93.

[14] 張艷輝，杜文韜，劉培玉，等.基于詞典的微博的傾向性分析[C].第五屆中文傾向性分析評(píng)測(cè)研討會(huì)，2013：50-52.

[15] 張珊，于留寶，胡長(zhǎng)軍.基于表情圖片與情感詞的中文微博情感分析[J].計(jì)算機(jī)科學(xué)，2012，39（11A）：146-148.

[16] 劉明吉，王秀峰.Web 文本特征信息的特征獲取算法[J].小型微型計(jì)算機(jī)系統(tǒng)，2002，23（6）：683-686.