• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文微博情感分析方法概述

      2014-01-27 18:51:13武光利
      中國建材科技 2014年6期
      關(guān)鍵詞:詞數(shù)分析方法詞典

      武光利

      (1甘肅政法學(xué)院 信息工程學(xué)院,甘肅 蘭州 730070;2甘肅省證據(jù)科學(xué)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730070)

      1 引 言

      微博因其使用簡便,已發(fā)展成一種新的社交網(wǎng)絡(luò)及信息發(fā)布平臺(tái)。自問世以來,得以迅速發(fā)展。微博上含有大量的情感傾向的言論,對(duì)其進(jìn)行情感分析可以得到有用的決策信息,可應(yīng)用于民意調(diào)查、輿論監(jiān)控、政府決策、商品銷售等。微博更新速度快、消息量大、含有大量的情感信息,吸引了大批學(xué)者對(duì)其進(jìn)行研究,針對(duì)微博的自然語言處理研究已成為一個(gè)新的研究熱點(diǎn)及前沿性課題,微博情感分析就是其中的一個(gè)熱點(diǎn)課題。情感分析又稱觀點(diǎn)分析,用于分析文本中觀點(diǎn)持有者對(duì)事件的支持、反對(duì)或中立態(tài)度,也即分析文本表達(dá)的正面、負(fù)面或中性情感[1]。

      2 中文微博情感分析方法

      微博短文本有詞語信息豐富多樣、語料簡短、主題松散等特點(diǎn),相對(duì)于長文本來說,在相應(yīng)的情感分析上將面臨更多的問題,如文本矩陣的稀疏性、情感詞的多樣性等。文本情感分析過程由文本預(yù)處理、情感特征提取、情感分類等步驟組成。中文微博情感分類方法可以分為兩大類:一類是基于情感詞典的情感分類方法,一類是基于機(jī)器學(xué)習(xí)的情感分類方法。

      2.1 微博文本的預(yù)處理

      微博短文本預(yù)處理主要包括過濾無關(guān)信息、文本分詞、詞性標(biāo)注等。由于微博通過圖片、視頻、文字等來表達(dá)信息,還因其可以轉(zhuǎn)發(fā)引用他人微博存在一些微博文本特有標(biāo)記,所以在預(yù)處理時(shí),首先將這些無關(guān)標(biāo)記如鏈接以及“@”“//”標(biāo)簽及其后包含的內(nèi)容,“#”與“#”符號(hào)之間的內(nèi)容及符號(hào)一起去除。英文單詞和視頻及圖片也去除,保留表情符號(hào)[2]。

      面向中文的分詞和詞性標(biāo)注技術(shù)已相對(duì)成熟,國內(nèi)有中科院計(jì)算所開發(fā)的ICTCLAS中文分詞標(biāo)注系統(tǒng),可以實(shí)現(xiàn)中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和未登錄詞識(shí)別,詞正確率高達(dá) 97.8%;這些相關(guān)軟件的開發(fā)為中文微博短文本情感分析奠定了良好的基礎(chǔ)。

      2.2 情感特征提取

      雖然微博中的文本只有140個(gè)字符,但是包含的信息量卻非常巨大,而且微博文本還有未登錄詞較多、口語化嚴(yán)重等特點(diǎn),采用向量空間模型表示微博文本,以詞匯和詞性作為特征,根據(jù)提出的基于層次結(jié)構(gòu)的特征降維方法對(duì)特征空間進(jìn)行降維。面向微博短文本的情感分析的特征選擇,首先要去除掉與情感無關(guān)的且類別關(guān)聯(lián)度較小的特征,排除不必要干擾。其次為了提高微博短文本的情感傾向性判別的準(zhǔn)確性,特征選擇需獲取能獲取與情感分類有關(guān)聯(lián)的特征信息。因此,必須針對(duì)微博消息選擇合適的特征抽取方法,才能提高情感識(shí)別的分類效果。目前特征選擇方法主要有互信息、信息增益、詞頻、文檔頻次等。

      2.3 微博情感分類方法

      2.3.1 基于情感詞典的微博情感分析方法

      基于情感詞典的微博情感分析方法主要根據(jù)情感詞典,將一條微博語句的情感極性值之和作為該條語句的情感極性。該方法依據(jù)情感詞典將情感極性分為正向情感、負(fù)向情感和中性情感。具體公式[3]如下:正向情感(如果正向情感詞數(shù)>負(fù)向情感詞數(shù))、負(fù)向情感(如果正向情感詞數(shù)<負(fù)向情感詞數(shù))、中性情感(如果正向情感詞數(shù)=負(fù)向情感詞數(shù))。

      基于情感詞典的微博情感分析方法可分為詞語特征級(jí)、句子級(jí)情感判別,該方法主要的優(yōu)點(diǎn)是粒度細(xì)、分析準(zhǔn)確。但受到自然語言處理技術(shù)及相關(guān)抽取技術(shù)的限制,該方法容易丟失數(shù)據(jù)集中隱藏著的重要模式,使得未來研究工作中還有很大的提高空間。

      2.3.2 基于機(jī)器學(xué)習(xí)的微博情感分析方法

      基于機(jī)器學(xué)習(xí)的微博情感分析方法是通過各種算法將微博短文本分為正面、中性、負(fù)面三類情感[4]。這類方法是用機(jī)器學(xué)習(xí)的方法將將微博情感分析看做分類問題來處理。常用的機(jī)器學(xué)習(xí)算法有樸素貝葉斯NB、支持向量機(jī)SVM、最近鄰方法KNN、最大熵ME和條件隨機(jī)場CRF等[5]。選取微博文本中有利于情感極性分類的詞或短語等作為特征,構(gòu)建向量空間模型。通過向量空間模型提取的特征再訓(xùn)練分類器進(jìn)行分類。通過訓(xùn)練集的構(gòu)建分類器,通過測試集來對(duì)分類器的性能進(jìn)行驗(yàn)證。訓(xùn)練集語料的大小和質(zhì)量、特征的提取的好壞將直接決定分類器的好壞。

      3 結(jié) 語

      雖然面向中文微博情感分析的分類準(zhǔn)確率已達(dá)到了一定的水平,但是仍有提升的空間,主要原因有以下兩個(gè)方面:一是由于無論采用哪種方法都涉及特征的選取問題,如何提取更加有效的特征來提高分類的效果是問題的關(guān)鍵所在。二是中文微博表達(dá)的內(nèi)容信息量大、千變?nèi)f化,需要對(duì)漢語的語言特點(diǎn)進(jìn)行更加深入的研究,才能夠找出更合適的方法來進(jìn)行微博情感分析。

      [1]王銀,吳新玲.中文微博情感分析方法研究[J]廣東技術(shù)師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2014年第3期.

      [2]周勝臣,瞿文婷,石英子,施詢之,孫韻辰.中文微博情感分析研究綜述[J]計(jì)算機(jī)應(yīng)用與軟件,2013第3期.

      [3]陳曉東. 基于情感詞典的中文微博情感傾向分析研究[D]華中科技大學(xué),2012.

      [4]孫建旺,呂學(xué)強(qiáng),張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]計(jì)算機(jī)應(yīng)用與軟件,2014年第7期.

      [5]劉楠. 面向微博短文本的情感分析研究[D]武漢大學(xué),2013.

      猜你喜歡
      詞數(shù)分析方法詞典
      Adult bees teach their babies how to dance
      騎行吧,Liam!
      基于EMD的MEMS陀螺儀隨機(jī)漂移分析方法
      一種角接觸球軸承靜特性分析方法
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      中國設(shè)立PSSA的可行性及其分析方法
      中國航海(2019年2期)2019-07-24 08:26:40
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      核安全設(shè)備疲勞分析方法與步驟
      閱讀訓(xùn)練一
      天峨县| 普定县| 恩平市| 通榆县| 江永县| 北辰区| 偃师市| 工布江达县| 方城县| 白朗县| 乌什县| 芜湖市| 内江市| 波密县| 友谊县| 资兴市| 汉源县| 安塞县| 彭州市| 重庆市| 云龙县| 壤塘县| 大姚县| 永善县| 嘉兴市| 安平县| 石狮市| 舒城县| 潞城市| 棋牌| 科技| 黔南| 蒲江县| 旅游| 夏津县| 永济市| 周至县| 邯郸市| 嘉黎县| 靖安县| 封丘县|