• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于SVM的中文微博情感識(shí)別與分類研究

      2015-05-30 03:17:02劉丹丹邱恒清趙應(yīng)丁
      中國(guó)新通信 2015年21期
      關(guān)鍵詞:主客觀貝葉斯向量

      劉丹丹 邱恒清 趙應(yīng)丁

      【摘要】 微博是當(dāng)下社交網(wǎng)絡(luò)中最流行的社交工具典型代表,微博信息具有及時(shí)性,流動(dòng)速度快,內(nèi)容情感色彩豐富,微博的分析是對(duì)社會(huì)學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉領(lǐng)域的研究,成為了其新的熱點(diǎn)研究方向。鑒于自主采用Java語言開發(fā)的新浪微博的情感識(shí)別與分類系統(tǒng),對(duì)中文微博的情感進(jìn)行識(shí)別與分類研究。系統(tǒng)使用爬蟲技術(shù),抓取微博的文本內(nèi)容,然后利用支持Java開發(fā)語言的ICTCLAS分詞工具進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對(duì)文本情感識(shí)別與分類,最終輸出分類結(jié)果。實(shí)驗(yàn)中通過多種方法對(duì)比,選擇實(shí)驗(yàn)效果較好的方法,最終實(shí)驗(yàn)結(jié)果表明:樸素貝葉斯的主客觀句識(shí)別效果優(yōu)于支持向量機(jī)分類方法,基于支持向量機(jī)一對(duì)一多步識(shí)別中文微博文本情感類別效果優(yōu)于一對(duì)其余一次識(shí)別方法,且準(zhǔn)確率達(dá)到63.76%,召回率達(dá)到74.4%,總體實(shí)驗(yàn)結(jié)果較傳統(tǒng)粗粒度研究有明顯進(jìn)步。

      【關(guān)鍵字】 微博 網(wǎng)絡(luò)爬蟲 情感識(shí)別 情感分類 支持向量機(jī)

      引言

      隨著web2.0的快速發(fā)展,社交網(wǎng)絡(luò)逐漸從各個(gè)方面影響著中國(guó)網(wǎng)民。微博成為了社交網(wǎng)絡(luò)中社交工具的典型代表。網(wǎng)民使用微博在互聯(lián)網(wǎng)上的活動(dòng)主要是獲取信息與發(fā)布信息,發(fā)布的信息含有自己對(duì)某事物的看法、觀點(diǎn)、感知等個(gè)人情感。

      它們主要以文字,表情符號(hào)(新浪微博默認(rèn)表情及標(biāo)點(diǎn)符號(hào))形式出現(xiàn)。通過用戶之間的互動(dòng)傳播(一個(gè)微博用戶具有雙重角色,即博主與粉絲),這種社交網(wǎng)絡(luò)媒體具有傳播速度快,傳播范圍廣等特點(diǎn)。因此對(duì)微博情感識(shí)別與分類就顯得尤為重要。

      對(duì)微博文本的情感進(jìn)行識(shí)別與分類,不僅能讓企業(yè)及時(shí)了解客戶需求尋找到潛在的客戶群體,通過實(shí)時(shí)、準(zhǔn)確地評(píng)估其情感。能夠獲得客戶市場(chǎng)反饋信息及客戶的消費(fèi)習(xí)慣,幫助企業(yè)進(jìn)行有效的需求管理及企業(yè)戰(zhàn)略調(diào)整,從而快速應(yīng)對(duì)市場(chǎng)變化,提高企業(yè)競(jìng)爭(zhēng)力。還能幫助政府部門實(shí)時(shí)監(jiān)控民眾情緒,對(duì)負(fù)面情緒及時(shí)采取措施,防止不法分子企圖通過微博平臺(tái)傳播謠言,以此保證社會(huì)的和諧穩(wěn)定,政府了解民意,為制訂國(guó)家政策提供參考。

      同時(shí)也能協(xié)助醫(yī)生分析心理障礙者,及時(shí)掌握患者情緒波動(dòng),準(zhǔn)確對(duì)患者病情進(jìn)行有效的對(duì)癥下藥。避免了患者不能準(zhǔn)確描述病情,而帶來的不相關(guān)治療。

      因此對(duì)微博情感進(jìn)行研究具有重要的理論與實(shí)踐意義。文章意在為政府或企業(yè)等利用到微博情感分析數(shù)據(jù)的領(lǐng)域提供基礎(chǔ)。

      鑒于自主采用Java語言開發(fā)的新浪微博的情感識(shí)別與分類系統(tǒng),對(duì)中文微博的情感進(jìn)行識(shí)別與分類研究。系統(tǒng)使用爬蟲技術(shù)[1],抓取微博的文本內(nèi)容,然后進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對(duì)文本情感識(shí)別與分類,最終輸出分類結(jié)果。

      一、相關(guān)工作

      1.1文本獲取及預(yù)處理

      對(duì)微博數(shù)據(jù)資源的獲取有兩種形式,一種是用戶以普通文本形式直接在系統(tǒng)前臺(tái)相應(yīng)位置輸入待分析的文本,系統(tǒng)可以自動(dòng)進(jìn)行情感識(shí)別與分類;另一種是用戶以微博文本URL形式輸入,系統(tǒng)對(duì)用戶輸入U(xiǎn)RL連接采用網(wǎng)絡(luò)爬蟲技術(shù)抓取微博正文內(nèi)容。

      網(wǎng)絡(luò)爬蟲結(jié)構(gòu)先將用戶輸入U(xiǎn)RL作為爬蟲起點(diǎn),通過web協(xié)議(主要是HTTP協(xié)議)采集頁面,使用多線程或并列技術(shù)獲取網(wǎng)頁數(shù)據(jù)信息,網(wǎng)絡(luò)爬蟲結(jié)構(gòu)也提供了鏈接過濾模塊(過濾掉不符合URL規(guī)范的鏈接),頁面數(shù)據(jù)庫模板(存儲(chǔ)已經(jīng)爬取到本地的原始頁面數(shù)據(jù),以備預(yù)處理階段建立索引使用)。

      為了提高分類的準(zhǔn)確率,減少獲取文本內(nèi)容不必要干擾,對(duì)文本進(jìn)行預(yù)處理操作十分必要。系統(tǒng)的預(yù)處理操作主要包括:

      1.文本規(guī)范化處理,判斷待處理的文本是否含有由兩個(gè)#組成的話題標(biāo)簽,若有則刪除兩個(gè)#及它們之間的文字內(nèi)容。

      2.使用正則表達(dá)式判斷微博文本是否含有以下三種含@微博標(biāo)簽,若有將它們刪除①以@開頭,以:結(jié)尾②以@開頭,以空格結(jié)尾③以回復(fù)@開頭以:結(jié)尾。

      3.判斷英文詞語是否含有感情色彩,刪除不必要的英文詞語。

      4.用中文描述替代含有感情的“?”和“!”去除一些標(biāo)點(diǎn)符號(hào)。

      5.使用得到普遍認(rèn)可的支持Java開發(fā)語言的ICTCLAS分詞工具分詞,去除停用詞。

      1.2文本特征抽取

      文本特征抽取[2-3]是從文本中選取一部分能夠反應(yīng)其內(nèi)容信息的特征詞匯并計(jì)算其特征權(quán)重。特征抽取的主要目的是為了降低向量空間的維度,消除無關(guān)特征的噪音,通過選擇可區(qū)分性強(qiáng)的少量特征來提高分類器的分類精度和效率。常用的特征選取方法有: 文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4](Document Frequency )一種簡(jiǎn)單的特征約減技術(shù),常用自動(dòng)特征選擇,通過設(shè)置目標(biāo)特征的文檔頻率閾值來進(jìn)行特征的抽取。DF是含有該目標(biāo)特征的文檔數(shù)與所有文檔數(shù)的比值,可表示為

      信息增益法[5]是指文本包含該特征項(xiàng)與不包含該特征項(xiàng)時(shí)的信息熵的差值,根據(jù)所獲信息增益的多少篩選有效特征,已成為機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛的特征選擇方法。信息增益法計(jì)算公式可以表示為:

      由于當(dāng)特征數(shù)目較少時(shí),使用該方法得到的數(shù)據(jù)稀疏,分類結(jié)果會(huì)不理想,因此本文首先對(duì)預(yù)處理后待分析的文本里出現(xiàn)的每個(gè)詞計(jì)算其信息增益,設(shè)置一個(gè)閾值,抽取特征詞,按照信息增益值降序選擇特征項(xiàng)組成特征向量。

      期望交叉熵[6](Expected Cross Entropy)反應(yīng)了文本類別的概率分布與在出現(xiàn)了某個(gè)詞條的情況下文本類別的概率分布之間的距離。

      詞條的交叉熵越大,對(duì)文本類別分布影響也就越大。所以選CE最大的K個(gè)詞條作為最終的特征項(xiàng)。

      期望交叉熵計(jì)算公式:

      為了提供特征詞抽取的時(shí)間效率,針對(duì)微博的數(shù)據(jù)量很大的特點(diǎn),使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。

      1.3文本情感識(shí)別與分類

      采用基于樸素貝葉斯主客觀句識(shí)別方法[7]和支持向量機(jī)的分類方法[8-11]對(duì)文本分類。樸素貝葉斯方法是一種基于事件概率簡(jiǎn)單而誤差率較小的分類方法?;驹硎牵涸谑录鄬?duì)獨(dú)立的條件下,事件A在事件B發(fā)生的條件下的概率且與事件B在事件A發(fā)生的條件下概率是不相同的。及文檔A屬于B i類概率表示為

      系統(tǒng)應(yīng)用思想:對(duì)有已知類別集合S(x1,x2,…,xn),求在待分類項(xiàng)出現(xiàn)的條件下,集合中各個(gè)類別出現(xiàn)的概率,哪個(gè)類別的概率值大,就認(rèn)為待分類項(xiàng)屬于那一類別。并將對(duì)每個(gè)特征項(xiàng)主客觀句的條件概率計(jì)算結(jié)果輸出,作為支持向量機(jī)分類器的輸入值。

      系統(tǒng)的工作流程圖如圖1所示。

      二、實(shí)驗(yàn)分析

      使用第二屆自然語言處理與中文計(jì)算機(jī)會(huì)議所提供包含4000條已經(jīng)標(biāo)注是否含有情感色彩的中文微博語料,含有13252個(gè)句子,且主觀句中又表明了所屬具體情感類。情感類別分為7個(gè)類別,分別是:喜好、安樂、驚奇、厭惡、悲哀、憤恨和恐懼。

      選擇這些數(shù)據(jù)作為系統(tǒng)測(cè)評(píng)數(shù)據(jù)主要是與系統(tǒng)測(cè)試結(jié)果進(jìn)行比較,核實(shí)評(píng)價(jià)實(shí)驗(yàn)結(jié)果的召回率(R),準(zhǔn)確率(P),性能評(píng)價(jià)指標(biāo)F值。求解公式如下所示:

      系統(tǒng)將實(shí)驗(yàn)測(cè)評(píng)數(shù)據(jù)首先進(jìn)行預(yù)處理,對(duì)其進(jìn)行規(guī)范化、分詞去除停用詞、抽取情感特征,然后采用樸素貝葉斯方法,使用其公式計(jì)算結(jié)果來識(shí)別主觀句,支持向量機(jī)方法先將抽取的特征詞轉(zhuǎn)換成向量形式,再將向量化后的文本放到向量機(jī)的模型中,最終輸出分類結(jié)果。通過計(jì)算支持向量機(jī)的情感分類方法召回率達(dá)到74.4%,準(zhǔn)確率高達(dá)63.76%,F(xiàn)值達(dá)到0.6534.

      實(shí)驗(yàn)中采用準(zhǔn)確率,召回率,F(xiàn)值測(cè)評(píng)指標(biāo),對(duì)常見的情感特征抽取方法[16]實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,見表1,通過對(duì)比樸素貝葉斯和支持向量分類方法對(duì)主客觀句的識(shí)別結(jié)果,得出結(jié)論:本實(shí)驗(yàn)中對(duì)主客觀句的識(shí)別樸素貝葉斯方法比支持向量機(jī)方法的實(shí)驗(yàn)結(jié)果更好。因?yàn)橹С窒蛄繖C(jī)方法準(zhǔn)確率雖更高,但召回率較低。

      實(shí)驗(yàn)結(jié)果見表2。對(duì)已識(shí)別的主客觀句,我們采用支持向量機(jī)的一對(duì)一的多步分類方法及一對(duì)其余的一次分類方法進(jìn)行情感分類。

      實(shí)驗(yàn)結(jié)果見表3。實(shí)驗(yàn)結(jié)果表明:一對(duì)一多步情感分類方法效果優(yōu)于一對(duì)其余一次分類。因?yàn)橐粚?duì)其余分類方法可能出現(xiàn)重疊現(xiàn)象或因不可分類現(xiàn)象而引起數(shù)據(jù)集的抖動(dòng)。因此實(shí)驗(yàn)最終選擇支持向量機(jī)的一對(duì)一多步分類方法。

      三、結(jié)語

      微博作為網(wǎng)民在互聯(lián)網(wǎng)主要活動(dòng)之一,逐漸從各個(gè)方面影響著人們,網(wǎng)民帶有情感的言論對(duì)各行各業(yè)都有著不可估量的使用價(jià)值。因而對(duì)微博文本的數(shù)據(jù)分析研究有一定的社會(huì)意義。

      通過查閱文獻(xiàn)發(fā)現(xiàn)基于樸素貝葉斯識(shí)別主客觀句的方法及基于機(jī)器學(xué)習(xí)支持向量的方法有較高的精度。而由于針對(duì)中文微博的研究大部分是理論性的研究,因此本文通過構(gòu)建系統(tǒng),將基于樸素貝葉斯的識(shí)別主客觀句個(gè)方法及支持向量機(jī)的方法的研究思路實(shí)踐化。實(shí)驗(yàn)結(jié)果對(duì)企業(yè)、政府及廣大網(wǎng)民均有重要的社會(huì)意義。

      展望:

      1.后期會(huì)打破僅在初步解決微博文本的情感識(shí)別和分類問題的研究,接下來會(huì)投入對(duì)用戶的圖片信息,鏈接的視頻聲音信息進(jìn)行研究。

      2.本文去除英文詞語,采用的是人工標(biāo)注方法。鑒于部分國(guó)人傾向于有使用英文的習(xí)慣,所以會(huì)不斷的完善系統(tǒng)情感庫,或設(shè)計(jì)系統(tǒng)能自動(dòng)翻譯,以此減少人工工作量。

      參 考 文 獻(xiàn)

      [1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.

      [2] 張彪.基于關(guān)聯(lián)分析的文本分類特征選擇算法[J].計(jì)算機(jī)工程.2010(22):184-186.

      [3]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2011,26(1):73-83.

      [4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.

      [5] 李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶大學(xué),2012.

      [6] 廖一星.文本分類及其特征降維研究[D].浙江大學(xué).2012

      [7] 蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].中國(guó)地質(zhì)大學(xué),2009

      [8]楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法 [J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):3737-3739

      [9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.

      [10]趙暉.支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D].大連理工大學(xué),2006.

      [11]張博.基于SVM的中文觀點(diǎn)句抽取.[D].北京.北京郵電大學(xué),2011

      [12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.

      [13] 韓忠明,張玉莎,張慧,等.有效的中文微博短文本傾向性分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89-93.

      [14] 張艷輝,杜文韜,劉培玉,等.基于詞典的微博的傾向性分析[C].第五屆中文傾向性分析評(píng)測(cè)研討會(huì),2013:50-52.

      [15] 張珊,于留寶,胡長(zhǎng)軍.基于表情圖片與情感詞的中文微博情感分析[J].計(jì)算機(jī)科學(xué),2012,39(11A):146-148.

      [16] 劉明吉,王秀峰.Web 文本特征信息的特征獲取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2002,23(6):683-686.

      猜你喜歡
      主客觀貝葉斯向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      貝葉斯公式及其應(yīng)用
      Outdoor air pollution as a possible modifiable risk factor to reduce mortality in post-stroke population
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      向量垂直在解析幾何中的應(yīng)用
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      特大型高鐵車站高架候車廳聲環(huán)境主客觀評(píng)價(jià)研究
      雙重階層意識(shí)與主客觀記憶(1)——以黃龜淵故事為例
      浑源县| 米易县| 锡林浩特市| 汤原县| 武强县| 军事| 宜兰县| 太和县| 克拉玛依市| 西青区| 梧州市| 筠连县| 涟源市| 沽源县| 牙克石市| 宜都市| 威宁| 额济纳旗| 镇平县| 措勤县| 汉沽区| 墨江| 娱乐| 双辽市| 郎溪县| 桐柏县| 涡阳县| 莱西市| 项城市| 阳山县| 资源县| 水城县| 镇康县| 富民县| 兴义市| 丹棱县| 德阳市| 郴州市| 章丘市| 突泉县| 蓝田县|