• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)義規(guī)則和表情加權(quán)的中文微博情感分析方法

      2020-05-06 09:23:13朱顥東李雯琦

      朱顥東 李雯琦

      關(guān)鍵詞:微博情感;表情符;情感詞;語(yǔ)義規(guī)則

      摘要:針對(duì)目前中文微博情感分析方法考慮因素不全面,從而導(dǎo)致情感分析結(jié)果欠佳的問(wèn)題,提出一種基于語(yǔ)義規(guī)則和表情加權(quán)的中文微博情感分析方法.該方法在使用傳統(tǒng)情感詞典分析中文微博情感傾向的基礎(chǔ)上,在普通情感詞典中融入否定詞、程度副詞和網(wǎng)絡(luò)新詞,根據(jù)中文微博文本獨(dú)有的語(yǔ)言特點(diǎn)和句式特點(diǎn),采用從詞語(yǔ)到分句再到復(fù)句的方式對(duì)整個(gè)中文微博進(jìn)行情感分析,進(jìn)而使用表情加權(quán)和語(yǔ)義規(guī)則進(jìn)行權(quán)值求和,以確定情感傾向.實(shí)驗(yàn)結(jié)果表明,較另外3種中文微博情感分析方法,該方法效果更顯著,其平均準(zhǔn)確率為78.4%,平均查全率為75.2%,平均F值為76.7%.

      Abstract:Aiming at the problem that the current Chinese micro-blog emotional analysis methods were not comprehensive, which led to poor sentiment analysis results, a Chinese micro-blog emotional analysis method based on semantic rules and expression weighting was proposed.On the basis of using traditional emotion dictionary to analyze the emotion tendency of Chinese micro-blog, negative words, degree adverbs and network neologisms were incorporated into the general emotion dictionary.According to the unique language characteristics and sentence pattern characteristics of Chinese micro-blog text, the method of emotional analysis from words to clauses and then to complex sentences was adopted to analyze the whole Chinese micro-blog.Expression weighting and semantic rules were used to perform weight summation to determine emotional tendency.The experimental results showed that compared with the other three Chinese micro-blog emotional analysis methods,the proposed method was more effective.It had an average precision rate of 78.4%, an average recall rate of 75.2%, and an average F value of 76.7%.

      0 引言

      伴隨著互聯(lián)網(wǎng)和社交媒體的不斷發(fā)展及廣泛應(yīng)用,其所承載和產(chǎn)生的數(shù)據(jù)信息迅速增長(zhǎng).微博中承載著海量有價(jià)值的信息,如何對(duì)其進(jìn)行合理的分析和利用,受到了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注.用戶通過(guò)微博平臺(tái)可以隨時(shí)隨地獲取信息、表達(dá)情感,海量的微博信息包含著用戶對(duì)事件、產(chǎn)品、政策等的態(tài)度、意見(jiàn)和評(píng)價(jià),對(duì)這些信息進(jìn)行情感趨向分析,能夠很好地挖掘網(wǎng)絡(luò)群體的行為規(guī)律,獲得潛在信息.因而,如何快速準(zhǔn)確地分析微博情感傾向是當(dāng)前研究的熱點(diǎn)之一.

      當(dāng)前微博情感分析的主流方法為基于語(yǔ)義的分析方法,該方法通過(guò)情感詞典統(tǒng)計(jì)出微博文本中情感詞的情感權(quán)值,對(duì)其進(jìn)行相關(guān)運(yùn)算,計(jì)算出整個(gè)語(yǔ)句或文本的情感值,由此判斷微博的情感傾向.

      國(guó)外的網(wǎng)絡(luò)社交媒體文本情感分析研究主要針對(duì)Twitter數(shù)據(jù).Y.Yu[1]提出了針對(duì)Twitter的情感分析方法,將從Twitter中提取的詞語(yǔ)與情感詞典中被標(biāo)注為正向或負(fù)向的情感詞語(yǔ)進(jìn)行比較,而后計(jì)算出文本的情感值.A.Pak等[2]在標(biāo)注Twitter文本情感極性數(shù)據(jù)集的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了基于樸素貝葉斯算法、支持向量機(jī)和條件隨機(jī)場(chǎng)的情感分類(lèi)器.E.Riloff等[3]利用人工定制模板,選取種子情感詞語(yǔ),運(yùn)用迭代法獲取了名詞詞性的情感詞語(yǔ),以此對(duì)微博進(jìn)行情感傾向分析.

      由于國(guó)內(nèi)外語(yǔ)言結(jié)構(gòu)和表達(dá)方式不同,中文微博的情感分析比英文微博的情感分析要復(fù)雜得多.國(guó)內(nèi)的網(wǎng)絡(luò)社交媒體文本情感分析研究主要針對(duì)新浪微博數(shù)據(jù)展開(kāi).朱嫣嵐等[4]基于HowNet中情感詞匯的情感信息,通過(guò)語(yǔ)義相似度和語(yǔ)義相關(guān)場(chǎng)來(lái)計(jì)算詞語(yǔ)情感傾向,以提高情感分析的準(zhǔn)確率.譚皓等[5]引進(jìn)表情符和注意力機(jī)制,將表情符和詞語(yǔ)同時(shí)訓(xùn)練,使用表情加權(quán)與普通情感詞相結(jié)合的方式進(jìn)行情感分類(lèi).李繼東[6]結(jié)合普通情感詞典和語(yǔ)義規(guī)則計(jì)算感情值,對(duì)中文微博進(jìn)行情感分析.王文等[7]基于普通情感詞典計(jì)算語(yǔ)義相似度,考慮正面情感增強(qiáng)因素,綜合表情和語(yǔ)義規(guī)則獲得情感傾向結(jié)果.劉志明等[8]通過(guò)對(duì)比3種機(jī)器學(xué)習(xí)算法、3種特征權(quán)重計(jì)算方法和3種特征選擇算法后發(fā)現(xiàn),使用支持向量機(jī)、詞頻-逆文本頻率(TF-IDF)和信息增益(IG)選擇特征項(xiàng)權(quán)重時(shí),情感傾向分析效果最佳.但是上述研究對(duì)于影響中文微博情感傾向分析結(jié)果的因素考慮不夠全面,導(dǎo)致情感傾向分析結(jié)果欠佳.

      鑒于此,本文擬提出一種基于語(yǔ)義規(guī)則和表情加權(quán)的中文微博情感分析方法,根據(jù)中文微博特有的語(yǔ)言特點(diǎn),在情感詞典的基礎(chǔ)上,融入語(yǔ)義規(guī)則和表情符號(hào),計(jì)算文本情感值以確定微博情感傾向,以期有效改善中文微博情感分析結(jié)果.

      1 中文微博情感分析方法與流程

      中文微博情感分析方法的流程一般分為以下4個(gè)步驟:

      1)通過(guò)微博爬蟲(chóng)和API接口獲取微博語(yǔ)料信息;

      2)對(duì)獲取的微博數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)中文分詞將微博文本中的句子劃分為詞語(yǔ),并進(jìn)行詞性標(biāo)注;

      3)對(duì)微博文本情感詞和常用的表情符號(hào)進(jìn)行抽取和極性標(biāo)注;

      4)借助情感詞典和語(yǔ)義規(guī)則計(jì)算情感值,對(duì)其進(jìn)行加權(quán)處理,根據(jù)最終情感值將微博文本劃分為正向、中性和負(fù)向3類(lèi).

      中文微博情感分析流程如圖1所示.

      1.1 中文微博語(yǔ)料的收集和文本預(yù)處理

      中文微博數(shù)據(jù)的獲取方法主要有兩種:一種是通過(guò)爬蟲(chóng)獲取微博數(shù)據(jù),將解析到的數(shù)據(jù)流內(nèi)容轉(zhuǎn)換成文本存入數(shù)據(jù)庫(kù),該方法可以收集大量的微博數(shù)據(jù),但受限于訪問(wèn)速度,且需要下載大量的頁(yè)面,因而效率不高;另一種是利用微博官方API獲取數(shù)據(jù)[9],但如果僅使用API接口,所采集到的數(shù)據(jù)范圍不夠廣泛,并且微博API開(kāi)放接口會(huì)限制每段時(shí)間的請(qǐng)求次數(shù),而過(guò)度或者惡意調(diào)用又會(huì)對(duì)微博平臺(tái)性能產(chǎn)生不良影響.

      因此,本文使用爬蟲(chóng)與API接口相結(jié)合的方式來(lái)獲取微博數(shù)據(jù),而后對(duì)其進(jìn)行預(yù)處理.對(duì)沒(méi)有價(jià)值的信息進(jìn)行降噪處理,如刪除微博中的廣告、具有轉(zhuǎn)發(fā)性質(zhì)的微博、只含有表情符號(hào)的微博等.本文運(yùn)用當(dāng)前使用頻率較高、性能較穩(wěn)定、準(zhǔn)確率較高的jieba組件(Python版)對(duì)獲取的微博文本進(jìn)行分詞處理,并分析詞法,標(biāo)注詞性.

      1.2 微博文本表情符號(hào)標(biāo)注

      表情符號(hào)直接影響著微博這種短文本的最終情感分析結(jié)果.中文微博中常常存在大量的表情符號(hào),其中使用最為廣泛的就是微博中的默認(rèn)表情符和輸入法中自帶的emoji表情符[10].這些表情符大多具有明顯的情感傾向,在輸入表情符號(hào)時(shí),會(huì)出現(xiàn)相對(duì)應(yīng)的標(biāo)注,可以利用它們進(jìn)行明確的情感傾向劃分.

      對(duì)于表情符號(hào)的情感分析研究主要有3種方式:將文本中表情符的情感極性直接作為句子的情感極性,忽略文本信息對(duì)情感極性的影響;將表情符和情感詞視為相同級(jí)別的元素,賦予相同的權(quán)值進(jìn)行情感極性計(jì)算;將表情符和文本視為相同級(jí)別的元素,但使用不同的權(quán)值對(duì)微博情感極性進(jìn)行計(jì)算[11].本文選擇第3種方式對(duì)微博的情感值進(jìn)行計(jì)算.通過(guò)人工方式選擇微博常用的表情符號(hào),刪除其中不具有情感傾向的表情符號(hào).常用表情符情感傾向標(biāo)注如表1所示.

      除了對(duì)表情符號(hào)進(jìn)行情感極性標(biāo)注,本文對(duì)表情符號(hào)的情感強(qiáng)度也進(jìn)行了相應(yīng)的標(biāo)注.利用王文等[7]對(duì)正向和負(fù)向表情情感權(quán)值的定義,正向表情情感權(quán)值在(0,1]區(qū)間內(nèi)取值,負(fù)向表情情感權(quán)值在[-1,0)內(nèi)取值,部分表情符號(hào)及其權(quán)值如表2所示.

      1.3 微博文本情感詞的抽取和標(biāo)注

      微博文本情感詞的抽取和標(biāo)注離不開(kāi)情感詞典.在情感分析領(lǐng)域,目前使用較為廣泛的情感詞典有知網(wǎng)的HowNet情感詞典、大連理工大學(xué)詞匯本體庫(kù)和臺(tái)灣大學(xué)的中文情感詞典[12].

      三者各有優(yōu)缺點(diǎn),HowNet情感詞典和中文情感詞典對(duì)正向和負(fù)向情感詞進(jìn)行了細(xì)致的劃分,但未標(biāo)注情感詞詞性及其情感權(quán)值,而詞匯本體庫(kù)雖然不如HowNet情感詞典詞匯豐富,卻對(duì)詞性和情感權(quán)值都進(jìn)行了標(biāo)注.因此,本文將融合HowNet情感詞典和詞匯本體庫(kù)來(lái)確定情感詞的極性及其情感權(quán)值,并在此基礎(chǔ)上,針對(duì)微博文本特點(diǎn),加入否定詞詞庫(kù)、網(wǎng)絡(luò)新詞詞庫(kù)和程度副詞詞庫(kù),以提高情感分析的準(zhǔn)確性.

      在對(duì)網(wǎng)絡(luò)新詞進(jìn)行詞性標(biāo)注時(shí),引入PMI算法,通過(guò)計(jì)算基準(zhǔn)詞與網(wǎng)絡(luò)新詞之間的相似度來(lái)判斷其情感極性,具體公式為若SO-PMI(word1)>0,則網(wǎng)絡(luò)新詞word1為正向情感詞匯,否則為負(fù)向情感詞匯.

      在對(duì)微博進(jìn)行情感分析時(shí),應(yīng)充分考慮到微博文本中程度副詞和否定詞對(duì)情感極性判定的影響.程度副詞會(huì)加重或減輕微博情感傾向的程度,根據(jù)藺璜等[13]對(duì)程度副詞的特點(diǎn)、范圍和分類(lèi)的研究,將程度副詞分為4個(gè)級(jí)別,即極度、高度、中度和微度,如果某個(gè)情感詞語(yǔ)前出現(xiàn)多個(gè)程度副詞,只對(duì)其前面出現(xiàn)的3個(gè)以內(nèi)程度副詞進(jìn)行權(quán)值求積,超出3個(gè)的程度副詞按無(wú)效詞處理.否定詞在情感分析中的作用更是不容小覷,若一個(gè)分句中存在兩個(gè)否定詞,雙重否定則表示為否定之否定即肯定.因此,本文將否定詞的權(quán)值設(shè)置為負(fù)值,用累乘的方式來(lái)計(jì)算其情感權(quán)值[14].部分網(wǎng)絡(luò)新詞、程度副詞和否定詞示例見(jiàn)表3—表5.

      1.4 語(yǔ)義規(guī)則

      中文的微博情感分析不同于英文微博,不僅要考慮情感詞(表情符、否定詞、網(wǎng)絡(luò)新詞和程度副詞)的權(quán)值,還要考慮語(yǔ)義規(guī)則對(duì)整體情感分析的影響[15].本文的語(yǔ)義規(guī)則主要包括句型關(guān)系語(yǔ)義規(guī)則和句間關(guān)系語(yǔ)義規(guī)則.

      1.4.1 句型關(guān)系語(yǔ)義規(guī)則

      在進(jìn)行情感分析時(shí),先根據(jù)標(biāo)點(diǎn)符號(hào)將復(fù)句分割成若干個(gè)小的分句,再對(duì)每個(gè)分句進(jìn)行分析.用戶在發(fā)布微博時(shí),常用的句型主要有陳述句、問(wèn)句和感嘆句.陳述句對(duì)整體的情感影響不大;問(wèn)句又分為反問(wèn)句和疑問(wèn)句,反問(wèn)句會(huì)使整個(gè)句子的情感傾向從正向變?yōu)樨?fù)向或者從負(fù)向變?yōu)檎颍蓡?wèn)句通常只是傳遞疑惑的態(tài)度,句子本身無(wú)情感變化;感嘆句具有加強(qiáng)情感傾向的作用[16].如果用si來(lái)表示整個(gè)句子的影響權(quán)值,那么這3種句型的影響權(quán)值如下:陳述句si=1;疑問(wèn)句si=0,反問(wèn)句si=-1.5;趙天奇等[17]研究發(fā)現(xiàn),當(dāng)感嘆句si=2時(shí)合格率最大,本文根據(jù)目前中文微博的語(yǔ)言習(xí)慣,對(duì)其研究成果進(jìn)行改進(jìn),如果感嘆句的尾部只有1個(gè)或2個(gè)感嘆號(hào),則si=2,如果有3個(gè)或3個(gè)以上感嘆號(hào),則si=3.

      1.4.2 句間關(guān)系語(yǔ)義規(guī)則

      除句型關(guān)系外,句間關(guān)系也會(huì)對(duì)情感分析產(chǎn)生重要的影響.在中文的日常表達(dá)中,復(fù)句存在眾多句間關(guān)系,如并列關(guān)系、遞進(jìn)關(guān)系、選擇關(guān)系、轉(zhuǎn)折關(guān)系、假設(shè)關(guān)系、條件關(guān)系、因果關(guān)系等,本文僅對(duì)中文微博中出現(xiàn)頻率較高的轉(zhuǎn)折、遞進(jìn)和假設(shè)3種句間關(guān)系進(jìn)行權(quán)值分析.通常使用集合{C1,C2,…,Ci,Cj…,Cn}來(lái)表示整個(gè)復(fù)句,其中Ci用于表示復(fù)句中的分句,S(Ci)用于表示影響權(quán)值.

      1) 轉(zhuǎn)折關(guān)系影響權(quán)值:對(duì)于存在轉(zhuǎn)折詞“但是”“然而”“卻”的句型,其情感表達(dá)的重點(diǎn)在后半句,因此其S(Ci)=0,S(Cj)=1;對(duì)于只有一個(gè)轉(zhuǎn)折前接詞(如“盡管……”)的句型,其情感表達(dá)的重點(diǎn)在含有轉(zhuǎn)折詞的分句中,因此其S(Ci)=1,S(Cj)=0.

      2) 遞進(jìn)關(guān)系影響權(quán)值:遞進(jìn)關(guān)系常用的關(guān)聯(lián)詞有“不但……而且”“甚至”“更”等,帶有關(guān)聯(lián)詞的句子所表達(dá)的情感更加強(qiáng)烈,所以其S(Ci)=1,S(Cj)=1.5.

      3) 假設(shè)關(guān)系影響權(quán)值:如果是形如“如果……那么”的肯定句型時(shí),前面分句的情感傾向更強(qiáng)一些,則S(Ci)=1,S(Cj)=0.5;如果是形如“如果不……就”的否定形式時(shí),因?yàn)橛蟹穸ㄔ~,則S(Ci)=-1,S(Cj)=-0.5.

      1.5 本文方法流程

      根據(jù)上述分析,在對(duì)中文微博文本進(jìn)行情感分析時(shí),首先應(yīng)對(duì)整個(gè)中文微博文本進(jìn)行詞語(yǔ)劃分,統(tǒng)計(jì)情感詞,然后對(duì)網(wǎng)絡(luò)新詞、程度副詞和否定詞進(jìn)行權(quán)值分析,將這些權(quán)值進(jìn)行累乘計(jì)算,再融入表情符號(hào)和語(yǔ)義規(guī)則進(jìn)行權(quán)值求和,以確定其情感傾向.本文提出的中文微博情感分析方法流程如圖2所示.

      其中,adv表示用于修飾情感詞的情感副詞權(quán)值,Neg表示否定詞權(quán)值,new表示網(wǎng)絡(luò)新詞權(quán)值,sen表示情感詞在情感詞典中的情感權(quán)值.

      整個(gè)句子的情感值需要考慮到語(yǔ)義規(guī)則對(duì)情感傾向的影響,首先是對(duì)于分句而言的句型關(guān)系,根據(jù)上文對(duì)句型關(guān)系的分析,以E(ti)來(lái)表示融入句型關(guān)系的分句情感權(quán)值,其計(jì)算公式為

      轉(zhuǎn)折、遞進(jìn)和假設(shè)關(guān)系在復(fù)句中對(duì)情感分析有著重要的影響,對(duì)其情感權(quán)值進(jìn)行求值時(shí),要先對(duì)各個(gè)分句的情感權(quán)值進(jìn)行求和,再乘以句型關(guān)系權(quán)值,以最終確定復(fù)句的情感權(quán)值,其計(jì)算公式為

      其中,E>0.1表示微博情感傾向?yàn)檎?,值越大則正向情感越強(qiáng)烈;E∈[-0.1,1]表示微博情感傾向?yàn)橹行郧楦?E<-0.1表示微博情感傾向?yàn)樨?fù)向,值越小則負(fù)向情感越強(qiáng)烈.

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

      為驗(yàn)證本文提出的情感分析方法的有效性,將其與文獻(xiàn)[5-7]的3種方法進(jìn)行對(duì)比實(shí)驗(yàn).采用將網(wǎng)絡(luò)爬蟲(chóng)與API接口相結(jié)合的方式從新浪微博中獲取8000條微博數(shù)據(jù),剔除無(wú)效數(shù)據(jù),經(jīng)過(guò)篩選,有效微博為6834條,通過(guò)人工的方式將這6834條微博進(jìn)行情感標(biāo)注后得到具有正向情感傾向的微博1358條,具有中性情感傾向的微博2349條,具有負(fù)向情感傾向的微博3127條.

      在信息檢索、模式識(shí)別等領(lǐng)域,準(zhǔn)確率(P)和查全率(R)是最基本的評(píng)價(jià)指標(biāo),可以從不同側(cè)面對(duì)結(jié)果進(jìn)行質(zhì)量評(píng)估,而F值是綜合這兩項(xiàng)指標(biāo)的評(píng)估指標(biāo),用于綜合反映實(shí)驗(yàn)結(jié)果的整體質(zhì)量.在對(duì)微博情感進(jìn)行分析時(shí),選擇這3項(xiàng)指標(biāo)作為判別分析結(jié)果的標(biāo)準(zhǔn),其計(jì)算公式分別為

      P=TPTP+FP

      R=TPTP+FN

      F=2P×RP+R

      其中,TP表示微博情感分析中正確分類(lèi)的微博文本數(shù)量,F(xiàn)P表示檢索到但分類(lèi)錯(cuò)誤的微博文本數(shù)量,F(xiàn)N表示未檢索到但屬于此類(lèi)別的微博文本數(shù)量.本文使用Matlab分析計(jì)算結(jié)果.

      2.2 結(jié)果與分析

      4種情感傾向分析方法對(duì)6834條有效微博數(shù)據(jù)的測(cè)試結(jié)果如圖3—圖5所示.

      由圖3可知,文獻(xiàn)[7]方法對(duì)中文微博分析平均準(zhǔn)確率高于文獻(xiàn)[5]方法和文獻(xiàn)[6]方法,說(shuō)明在中文微博情感傾向分析中,表情加權(quán)和語(yǔ)義規(guī)則對(duì)情感分析具有一定的積極作用.本文方法針對(duì)中文微博的語(yǔ)言特點(diǎn)和獨(dú)有的表情特點(diǎn),在結(jié)合了表情加權(quán)和語(yǔ)義規(guī)則的基礎(chǔ)上,又融入一些特殊的影響情感傾向的情感詞,從多個(gè)方面對(duì)情感傾向進(jìn)行分析,對(duì)情感傾向的判別具有一定的修正作用,相比較其他3種方法,本文提出的微博情感傾向分析的平均準(zhǔn)確率達(dá) 78.4%,整體上提高了情感傾向分析的準(zhǔn)確率.

      由圖4可知,4種情感傾向分析方法的平均查全率都大于70%,而本文方法的平均查全率最高,為 75.2%.這是因?yàn)橹形奈⒉┍容^口語(yǔ)化且時(shí)效性強(qiáng),經(jīng)常出現(xiàn)一些新興的網(wǎng)絡(luò)詞匯,而普通情感詞并不包含這些.因此,本文方法在普通情感詞中同時(shí)融合否定詞、程度副詞和網(wǎng)絡(luò)新詞的方式,對(duì)情感傾向的分析更加全面、準(zhǔn)確.

      由圖5可知,本文方法的平均F值最高,為76.7%,其中中性傾向的中文微博F值整體上都低于正向和負(fù)向情感傾向的F值.這主要是因?yàn)檎蚝拓?fù)向情感傾向的中文微博通常都帶有明顯的情感傾向標(biāo)志,而中性情感傾向的中文微博容易因?yàn)橹形恼Z(yǔ)言特點(diǎn)造成誤判,例如“垃圾分類(lèi)是一個(gè)嚴(yán)肅的問(wèn)題”,“嚴(yán)肅”一詞,在情感詞典中被劃分為負(fù)向情感詞,但此文本是在闡述事實(shí),是一種中性情感,這就影響了中性情感分析的結(jié)果.

      整體而言,隨著實(shí)驗(yàn)方法中衡量微博情感傾向的因素增多,正向、中性和負(fù)向傾向的中文微博情感分析指標(biāo)都有所提高,而通過(guò)融入表情符、語(yǔ)義規(guī)則、否定詞、程度副詞和網(wǎng)絡(luò)新詞眾多特征后,中文微博情感傾向分析的平均準(zhǔn)確率、平均查全率和平均F值都有一定程度的提高.但即使從多方面考慮影響微博情感傾向的因素并對(duì)其偏差進(jìn)行修正,本文方法的平均準(zhǔn)確率仍未突破80%.造成這種狀況的原因可能是,用戶在發(fā)布微博時(shí),存在語(yǔ)言、符號(hào)和表情濫用的情況,或者文本中存在著諷刺意味,這對(duì)微博情感傾向的分析帶來(lái)較大的干擾.

      3 結(jié)語(yǔ)

      針對(duì)目前中文微博情感分析方法考慮因素不全面,從而導(dǎo)致情感分析結(jié)果不佳的問(wèn)題,本文根據(jù)中文獨(dú)特的語(yǔ)言方式和微博文本信息量大、時(shí)效性強(qiáng)、隨意性強(qiáng)等特點(diǎn),充分考慮影響情感分析結(jié)果的各方面因素,提出了一種基于語(yǔ)義規(guī)則和表情加權(quán)的中文微博情感分析方法.該方法從微博文本的多方面特征考慮,在傳統(tǒng)情感詞的基礎(chǔ)上進(jìn)行拓展,融入了否定詞、程度副詞、網(wǎng)絡(luò)新詞,并使用表情加權(quán)和語(yǔ)義規(guī)則進(jìn)行權(quán)值求和確定情感傾向.實(shí)驗(yàn)結(jié)果表明,本文提出的中文微博情感分析法效果顯著,相較于其他3種分析方法,本文方法的平均準(zhǔn)確率(78.4%)、平均查全率(75.2%)和平均F值(76.7%)相對(duì)較高.但該方法對(duì)于歧義句的分析效果還不令人滿意,在對(duì)具有諷刺意味的語(yǔ)句進(jìn)行情感分析時(shí),發(fā)生誤判的概率較高,后續(xù)將會(huì)結(jié)合具體領(lǐng)域和情境對(duì)中文微博情感分析做更深入的研究.參考文獻(xiàn):

      [1] YU Y.Text emotional analysis based on Twitter data[J].Information and Computer,2018,46(19):151.

      [2] PAK A,PAROUBEK P.Twitter as a corpus for sentiment analysis and opinion mining[C]∥European Language Resource Association.Proceedings of International Conference on Language Resource and Evaluation.Valletta:LREC,2010:1320.

      [3] RILOFF E,WIEBE J.Learning extraction patterns for subjective expressions[C]∥Association for Computational Linguistics.Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP-03).Sapporo:EMNLP,2013:105.

      [4] 朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(1):14.

      [5] 譚皓,鄧樹(shù)文,錢(qián)濤,等.基于表情符注意力機(jī)制的微博情感分析模型[J].計(jì)算機(jī)應(yīng)用研究,2019,36(9):2647.

      [6] 李繼東.基于擴(kuò)展詞典和規(guī)則的中文微博情感分析[D].北京:北京交通大學(xué),2018.

      [7] 王文,王樹(shù)鋒,李洪華.基于文本語(yǔ)義和表情傾向的微博情感分析方法[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(6):733.

      [8] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類(lèi)實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1.

      [9] 于韜,李偉,代麗偉.基于Python的新浪新聞爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2018(9):188.

      [10]林江豪,顧也力,周詠梅,等.基于表情符號(hào)的情感詞典的構(gòu)建研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(6):181.

      [11]梁亞偉.基于表情詞典的中文微博情感分析模型研究[J].現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版),2015(21):7.

      [12]宋沛玉.面向中文微博情感分析的多特征融合方法研究[D].廣州:廣東工業(yè)大學(xué),2018.

      [13]藺璜,郭姝慧.程度副詞的特點(diǎn)范圍與分類(lèi)[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003(2):71.

      [14]楊立月,王移芝.微博情感分析的情感詞典構(gòu)造及分析方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(2):13.

      [15]姜杰,夏睿.機(jī)器學(xué)習(xí)與語(yǔ)義規(guī)則融合的微博情感分類(lèi)方法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,53(2):247.

      [16]陳國(guó)蘭.基于情感詞典與語(yǔ)義規(guī)則的微博情感分析[J].情報(bào)探索,2016(2):1.

      [17]趙天奇,姚海鵬,方超,等.語(yǔ)義規(guī)則與表情加權(quán)融合的微博情感分析方法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,28(4):503.

      [18]王志濤,於志文,郭斌,等.基于詞典和規(guī)則集的中文微博情感分析[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(8):218.

      鄯善县| 应用必备| 綦江县| 夏河县| 根河市| 威海市| 北票市| 颍上县| 安图县| 宝兴县| 静宁县| 积石山| 高平市| 肥乡县| 武清区| 东宁县| 额济纳旗| 育儿| 宣威市| 台山市| 宁国市| 通辽市| 丹江口市| 鄂州市| 四子王旗| 清水县| 大足县| 昭苏县| 咸丰县| 甘孜| 和平县| 茌平县| 巍山| 汉阴县| 阜南县| 临邑县| 台东市| 宁明县| 阿克陶县| 义马市| 铜梁县|