劉丹丹 邱恒清 趙應(yīng)丁
【摘要】 微博是當(dāng)下社交網(wǎng)絡(luò)中最流行的社交工具典型代表,微博信息具有及時(shí)性,流動(dòng)速度快,內(nèi)容情感色彩豐富,微博的分析是對(duì)社會(huì)學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉領(lǐng)域的研究,成為了其新的熱點(diǎn)研究方向。鑒于自主采用Java語言開發(fā)的新浪微博的情感識(shí)別與分類系統(tǒng),對(duì)中文微博的情感進(jìn)行識(shí)別與分類研究。系統(tǒng)使用爬蟲技術(shù),抓取微博的文本內(nèi)容,然后利用支持Java開發(fā)語言的ICTCLAS分詞工具進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對(duì)文本情感識(shí)別與分類,最終輸出分類結(jié)果。實(shí)驗(yàn)中通過多種方法對(duì)比,選擇實(shí)驗(yàn)效果較好的方法,最終實(shí)驗(yàn)結(jié)果表明:樸素貝葉斯的主客觀句識(shí)別效果優(yōu)于支持向量機(jī)分類方法,基于支持向量機(jī)一對(duì)一多步識(shí)別中文微博文本情感類別效果優(yōu)于一對(duì)其余一次識(shí)別方法,且準(zhǔn)確率達(dá)到63.76%,召回率達(dá)到74.4%,總體實(shí)驗(yàn)結(jié)果較傳統(tǒng)粗粒度研究有明顯進(jìn)步。
【關(guān)鍵字】 微博 網(wǎng)絡(luò)爬蟲 情感識(shí)別 情感分類 支持向量機(jī)
引言
隨著web2.0的快速發(fā)展,社交網(wǎng)絡(luò)逐漸從各個(gè)方面影響著中國(guó)網(wǎng)民。微博成為了社交網(wǎng)絡(luò)中社交工具的典型代表。網(wǎng)民使用微博在互聯(lián)網(wǎng)上的活動(dòng)主要是獲取信息與發(fā)布信息,發(fā)布的信息含有自己對(duì)某事物的看法、觀點(diǎn)、感知等個(gè)人情感。
它們主要以文字,表情符號(hào)(新浪微博默認(rèn)表情及標(biāo)點(diǎn)符號(hào))形式出現(xiàn)。通過用戶之間的互動(dòng)傳播(一個(gè)微博用戶具有雙重角色,即博主與粉絲),這種社交網(wǎng)絡(luò)媒體具有傳播速度快,傳播范圍廣等特點(diǎn)。因此對(duì)微博情感識(shí)別與分類就顯得尤為重要。
對(duì)微博文本的情感進(jìn)行識(shí)別與分類,不僅能讓企業(yè)及時(shí)了解客戶需求尋找到潛在的客戶群體,通過實(shí)時(shí)、準(zhǔn)確地評(píng)估其情感。能夠獲得客戶市場(chǎng)反饋信息及客戶的消費(fèi)習(xí)慣,幫助企業(yè)進(jìn)行有效的需求管理及企業(yè)戰(zhàn)略調(diào)整,從而快速應(yīng)對(duì)市場(chǎng)變化,提高企業(yè)競(jìng)爭(zhēng)力。還能幫助政府部門實(shí)時(shí)監(jiān)控民眾情緒,對(duì)負(fù)面情緒及時(shí)采取措施,防止不法分子企圖通過微博平臺(tái)傳播謠言,以此保證社會(huì)的和諧穩(wěn)定,政府了解民意,為制訂國(guó)家政策提供參考。
同時(shí)也能協(xié)助醫(yī)生分析心理障礙者,及時(shí)掌握患者情緒波動(dòng),準(zhǔn)確對(duì)患者病情進(jìn)行有效的對(duì)癥下藥。避免了患者不能準(zhǔn)確描述病情,而帶來的不相關(guān)治療。
因此對(duì)微博情感進(jìn)行研究具有重要的理論與實(shí)踐意義。文章意在為政府或企業(yè)等利用到微博情感分析數(shù)據(jù)的領(lǐng)域提供基礎(chǔ)。
鑒于自主采用Java語言開發(fā)的新浪微博的情感識(shí)別與分類系統(tǒng),對(duì)中文微博的情感進(jìn)行識(shí)別與分類研究。系統(tǒng)使用爬蟲技術(shù)[1],抓取微博的文本內(nèi)容,然后進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對(duì)文本情感識(shí)別與分類,最終輸出分類結(jié)果。
一、相關(guān)工作
1.1文本獲取及預(yù)處理
對(duì)微博數(shù)據(jù)資源的獲取有兩種形式,一種是用戶以普通文本形式直接在系統(tǒng)前臺(tái)相應(yīng)位置輸入待分析的文本,系統(tǒng)可以自動(dòng)進(jìn)行情感識(shí)別與分類;另一種是用戶以微博文本URL形式輸入,系統(tǒng)對(duì)用戶輸入U(xiǎn)RL連接采用網(wǎng)絡(luò)爬蟲技術(shù)抓取微博正文內(nèi)容。
網(wǎng)絡(luò)爬蟲結(jié)構(gòu)先將用戶輸入U(xiǎn)RL作為爬蟲起點(diǎn),通過web協(xié)議(主要是HTTP協(xié)議)采集頁面,使用多線程或并列技術(shù)獲取網(wǎng)頁數(shù)據(jù)信息,網(wǎng)絡(luò)爬蟲結(jié)構(gòu)也提供了鏈接過濾模塊(過濾掉不符合URL規(guī)范的鏈接),頁面數(shù)據(jù)庫模板(存儲(chǔ)已經(jīng)爬取到本地的原始頁面數(shù)據(jù),以備預(yù)處理階段建立索引使用)。
為了提高分類的準(zhǔn)確率,減少獲取文本內(nèi)容不必要干擾,對(duì)文本進(jìn)行預(yù)處理操作十分必要。系統(tǒng)的預(yù)處理操作主要包括:
1.文本規(guī)范化處理,判斷待處理的文本是否含有由兩個(gè)#組成的話題標(biāo)簽,若有則刪除兩個(gè)#及它們之間的文字內(nèi)容。
2.使用正則表達(dá)式判斷微博文本是否含有以下三種含@微博標(biāo)簽,若有將它們刪除①以@開頭,以:結(jié)尾②以@開頭,以空格結(jié)尾③以回復(fù)@開頭以:結(jié)尾。
3.判斷英文詞語是否含有感情色彩,刪除不必要的英文詞語。
4.用中文描述替代含有感情的“?”和“!”去除一些標(biāo)點(diǎn)符號(hào)。
5.使用得到普遍認(rèn)可的支持Java開發(fā)語言的ICTCLAS分詞工具分詞,去除停用詞。
1.2文本特征抽取
文本特征抽取[2-3]是從文本中選取一部分能夠反應(yīng)其內(nèi)容信息的特征詞匯并計(jì)算其特征權(quán)重。特征抽取的主要目的是為了降低向量空間的維度,消除無關(guān)特征的噪音,通過選擇可區(qū)分性強(qiáng)的少量特征來提高分類器的分類精度和效率。常用的特征選取方法有: 文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4](Document Frequency )一種簡(jiǎn)單的特征約減技術(shù),常用自動(dòng)特征選擇,通過設(shè)置目標(biāo)特征的文檔頻率閾值來進(jìn)行特征的抽取。DF是含有該目標(biāo)特征的文檔數(shù)與所有文檔數(shù)的比值,可表示為
信息增益法[5]是指文本包含該特征項(xiàng)與不包含該特征項(xiàng)時(shí)的信息熵的差值,根據(jù)所獲信息增益的多少篩選有效特征,已成為機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛的特征選擇方法。信息增益法計(jì)算公式可以表示為:
由于當(dāng)特征數(shù)目較少時(shí),使用該方法得到的數(shù)據(jù)稀疏,分類結(jié)果會(huì)不理想,因此本文首先對(duì)預(yù)處理后待分析的文本里出現(xiàn)的每個(gè)詞計(jì)算其信息增益,設(shè)置一個(gè)閾值,抽取特征詞,按照信息增益值降序選擇特征項(xiàng)組成特征向量。
期望交叉熵[6](Expected Cross Entropy)反應(yīng)了文本類別的概率分布與在出現(xiàn)了某個(gè)詞條的情況下文本類別的概率分布之間的距離。
詞條的交叉熵越大,對(duì)文本類別分布影響也就越大。所以選CE最大的K個(gè)詞條作為最終的特征項(xiàng)。
期望交叉熵計(jì)算公式:
為了提供特征詞抽取的時(shí)間效率,針對(duì)微博的數(shù)據(jù)量很大的特點(diǎn),使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。
1.3文本情感識(shí)別與分類
采用基于樸素貝葉斯主客觀句識(shí)別方法[7]和支持向量機(jī)的分類方法[8-11]對(duì)文本分類。樸素貝葉斯方法是一種基于事件概率簡(jiǎn)單而誤差率較小的分類方法?;驹硎牵涸谑录鄬?duì)獨(dú)立的條件下,事件A在事件B發(fā)生的條件下的概率且與事件B在事件A發(fā)生的條件下概率是不相同的。及文檔A屬于B i類概率表示為
系統(tǒng)應(yīng)用思想:對(duì)有已知類別集合S(x1,x2,…,xn),求在待分類項(xiàng)出現(xiàn)的條件下,集合中各個(gè)類別出現(xiàn)的概率,哪個(gè)類別的概率值大,就認(rèn)為待分類項(xiàng)屬于那一類別。并將對(duì)每個(gè)特征項(xiàng)主客觀句的條件概率計(jì)算結(jié)果輸出,作為支持向量機(jī)分類器的輸入值。
系統(tǒng)的工作流程圖如圖1所示。
二、實(shí)驗(yàn)分析
使用第二屆自然語言處理與中文計(jì)算機(jī)會(huì)議所提供包含4000條已經(jīng)標(biāo)注是否含有情感色彩的中文微博語料,含有13252個(gè)句子,且主觀句中又表明了所屬具體情感類。情感類別分為7個(gè)類別,分別是:喜好、安樂、驚奇、厭惡、悲哀、憤恨和恐懼。
選擇這些數(shù)據(jù)作為系統(tǒng)測(cè)評(píng)數(shù)據(jù)主要是與系統(tǒng)測(cè)試結(jié)果進(jìn)行比較,核實(shí)評(píng)價(jià)實(shí)驗(yàn)結(jié)果的召回率(R),準(zhǔn)確率(P),性能評(píng)價(jià)指標(biāo)F值。求解公式如下所示:
系統(tǒng)將實(shí)驗(yàn)測(cè)評(píng)數(shù)據(jù)首先進(jìn)行預(yù)處理,對(duì)其進(jìn)行規(guī)范化、分詞去除停用詞、抽取情感特征,然后采用樸素貝葉斯方法,使用其公式計(jì)算結(jié)果來識(shí)別主觀句,支持向量機(jī)方法先將抽取的特征詞轉(zhuǎn)換成向量形式,再將向量化后的文本放到向量機(jī)的模型中,最終輸出分類結(jié)果。通過計(jì)算支持向量機(jī)的情感分類方法召回率達(dá)到74.4%,準(zhǔn)確率高達(dá)63.76%,F(xiàn)值達(dá)到0.6534.
實(shí)驗(yàn)中采用準(zhǔn)確率,召回率,F(xiàn)值測(cè)評(píng)指標(biāo),對(duì)常見的情感特征抽取方法[16]實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,見表1,通過對(duì)比樸素貝葉斯和支持向量分類方法對(duì)主客觀句的識(shí)別結(jié)果,得出結(jié)論:本實(shí)驗(yàn)中對(duì)主客觀句的識(shí)別樸素貝葉斯方法比支持向量機(jī)方法的實(shí)驗(yàn)結(jié)果更好。因?yàn)橹С窒蛄繖C(jī)方法準(zhǔn)確率雖更高,但召回率較低。
實(shí)驗(yàn)結(jié)果見表2。對(duì)已識(shí)別的主客觀句,我們采用支持向量機(jī)的一對(duì)一的多步分類方法及一對(duì)其余的一次分類方法進(jìn)行情感分類。
實(shí)驗(yàn)結(jié)果見表3。實(shí)驗(yàn)結(jié)果表明:一對(duì)一多步情感分類方法效果優(yōu)于一對(duì)其余一次分類。因?yàn)橐粚?duì)其余分類方法可能出現(xiàn)重疊現(xiàn)象或因不可分類現(xiàn)象而引起數(shù)據(jù)集的抖動(dòng)。因此實(shí)驗(yàn)最終選擇支持向量機(jī)的一對(duì)一多步分類方法。
三、結(jié)語
微博作為網(wǎng)民在互聯(lián)網(wǎng)主要活動(dòng)之一,逐漸從各個(gè)方面影響著人們,網(wǎng)民帶有情感的言論對(duì)各行各業(yè)都有著不可估量的使用價(jià)值。因而對(duì)微博文本的數(shù)據(jù)分析研究有一定的社會(huì)意義。
通過查閱文獻(xiàn)發(fā)現(xiàn)基于樸素貝葉斯識(shí)別主客觀句的方法及基于機(jī)器學(xué)習(xí)支持向量的方法有較高的精度。而由于針對(duì)中文微博的研究大部分是理論性的研究,因此本文通過構(gòu)建系統(tǒng),將基于樸素貝葉斯的識(shí)別主客觀句個(gè)方法及支持向量機(jī)的方法的研究思路實(shí)踐化。實(shí)驗(yàn)結(jié)果對(duì)企業(yè)、政府及廣大網(wǎng)民均有重要的社會(huì)意義。
展望:
1.后期會(huì)打破僅在初步解決微博文本的情感識(shí)別和分類問題的研究,接下來會(huì)投入對(duì)用戶的圖片信息,鏈接的視頻聲音信息進(jìn)行研究。
2.本文去除英文詞語,采用的是人工標(biāo)注方法。鑒于部分國(guó)人傾向于有使用英文的習(xí)慣,所以會(huì)不斷的完善系統(tǒng)情感庫,或設(shè)計(jì)系統(tǒng)能自動(dòng)翻譯,以此減少人工工作量。
參 考 文 獻(xiàn)
[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.
[2] 張彪.基于關(guān)聯(lián)分析的文本分類特征選擇算法[J].計(jì)算機(jī)工程.2010(22):184-186.
[3]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2011,26(1):73-83.
[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.
[5] 李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶大學(xué),2012.
[6] 廖一星.文本分類及其特征降維研究[D].浙江大學(xué).2012
[7] 蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].中國(guó)地質(zhì)大學(xué),2009
[8]楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法 [J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):3737-3739
[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.
[10]趙暉.支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D].大連理工大學(xué),2006.
[11]張博.基于SVM的中文觀點(diǎn)句抽取.[D].北京.北京郵電大學(xué),2011
[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.
[13] 韓忠明,張玉莎,張慧,等.有效的中文微博短文本傾向性分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89-93.
[14] 張艷輝,杜文韜,劉培玉,等.基于詞典的微博的傾向性分析[C].第五屆中文傾向性分析評(píng)測(cè)研討會(huì),2013:50-52.
[15] 張珊,于留寶,胡長(zhǎng)軍.基于表情圖片與情感詞的中文微博情感分析[J].計(jì)算機(jī)科學(xué),2012,39(11A):146-148.
[16] 劉明吉,王秀峰.Web 文本特征信息的特征獲取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2002,23(6):683-686.