• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于擴展詞典與語義規(guī)則的中文微博情感分析

      2018-03-13 07:23:59李繼東王移芝
      計算機與現(xiàn)代化 2018年2期
      關(guān)鍵詞:復(fù)句博文連詞

      李繼東,王移芝

      (北京交通大學(xué)計算機與信息技術(shù)學(xué)院,北京 100044)

      0 引 言

      微型博客作為Web2.0時代新生的社會化媒體平臺,是一個用于信息分享、信息傳播和信息獲取的平臺,具有實時性、開放性與自由性的特點,用戶可以通過微博自由和便捷地獲得信息和表達情感。這使得微博成為近幾年來國內(nèi)最為熱門的互聯(lián)網(wǎng)應(yīng)用之一。根據(jù)新浪微博發(fā)布的《微博2016 Q3財報》顯示,新浪微博的月活躍用戶達到2.97億,年對年增長34%。

      由于人們一般是通過微博表情達意,抒發(fā)自己的觀點和態(tài)度,所以這些微博數(shù)據(jù)中包含了海量的情感文本信息。對這些數(shù)據(jù)加以利用,分析這些情感文本信息可以獲得巨大的潛在價值:對政府來說,將網(wǎng)民們對新頒發(fā)制度的評價和討論進行匯總分析可以知道人民對于政府政策的看法和意見;對于企業(yè)來說,將用戶對于公司和產(chǎn)品的評價和反饋進行匯總分析,可以更好地促進公司的發(fā)展和產(chǎn)品的研發(fā);對于消費者來說,將其他網(wǎng)友對于某些商品的意見和評論進行匯總分析可以為自己購買商品時提供參考依據(jù)和標(biāo)準(zhǔn)。

      而且微博情感分析也涉及數(shù)據(jù)挖掘、信息檢索等眾多領(lǐng)域,具有廣泛的應(yīng)用價值。因此如何能自動準(zhǔn)確地處理和分析微博文本情感信息已經(jīng)成為當(dāng)前的研究熱點。本文從此目的出發(fā),通過對爬取的9萬條微博數(shù)據(jù)進行分析,基于擴展的情感詞典和語義規(guī)則的方法對微博的情感值進行計算,實現(xiàn)一個面向中文微博的情感分析系統(tǒng)。

      1 相關(guān)工作

      當(dāng)前文本情感分析的方法主要有基于語義的和基于機器學(xué)習(xí)的情感分析方法。所謂的基于語義,就是先統(tǒng)計出微博文本中的情感詞,給情感詞賦予情感權(quán)值,然后再通過加權(quán)求和方法得出單個語句以及整個文本的情感值。而基于機器學(xué)習(xí)的方法就是將微博看成分類問題來處理,使用機器學(xué)習(xí)的方法構(gòu)造分類器,使用標(biāo)注好的訓(xùn)練集訓(xùn)練分類器,將文本分為正面、負面和中性情感3類。常用的方法有支持向量機(SVM)、樸素貝葉斯法(NB)、K最近鄰法(KNN)和中心向量法等。

      國外的研究主要是針對Twitter的數(shù)據(jù)進行情感分析。Barbosa和Feng[1]通過將對Twitter進行情感分析的結(jié)果做為訓(xùn)練數(shù)據(jù),選用特征,采用二步分類法對微博數(shù)據(jù)進行分類。Jiang和Yu等人[2]運用五折交叉的方法驗證了情感詞典和主題相關(guān)的特征可以提高分類效果的準(zhǔn)確性。Go等人[3]在采用樸素貝葉斯、最大熵和支持向量機3種機器學(xué)習(xí)方法的同時,加入了表情符號這一微博特殊特征,大大提高了微博情感傾向判別的準(zhǔn)確率。

      中文微博的情感研究起步較晚,國內(nèi)的研究主要是針對新浪微博的數(shù)據(jù)進行展開。肖江等人[4]針對中文微博創(chuàng)建了微博領(lǐng)域情感詞典,并驗證了該分析策略具有一定的可行性和準(zhǔn)確率。梁亞偉[5]考慮到表情符號在微博情感分析中的重要性,采用加窗的方法計算表情符號的情感強度,實現(xiàn)了自動化的微博表情情感詞典的構(gòu)建。周劍鋒等人[6]通過對微博語料進行分詞統(tǒng)計,篩選情感新詞,使用PMI算法計算情感新詞的情感傾向和強度,構(gòu)建微博情感詞典,并結(jié)合規(guī)則對中文微博進行無監(jiān)督情感分析。陳曉東[7]通過引入情感基準(zhǔn)詞的同義詞對PMI算法進行了改進,通過實驗證明對改善數(shù)據(jù)稀疏問題起到了一定作用。

      基于機器學(xué)習(xí)的方法一般適用于新聞報道、論壇等長文本數(shù)據(jù)集和傳統(tǒng)情感分析。而微博文本短小精悍、口語化,還富含表情符號,所以基于機器學(xué)習(xí)的中文微博情感分析方法存在處理過程復(fù)雜、判斷準(zhǔn)確率低等問題[8]。本文采用基于語義的方法,在現(xiàn)有的研究成果和分析方法的基礎(chǔ)上,通過改進的SO-PMI算法來創(chuàng)建微博領(lǐng)域詞典,并考慮語義規(guī)則對微博文本情感傾向的影響,采用擴展的情感詞典加語義規(guī)則的分析策略進行微博情感計算,并利用微博表情詞典對最終的結(jié)果加以修正。

      2 情感詞典的構(gòu)建

      情感詞典是情感分析的基礎(chǔ),能否構(gòu)建一個覆蓋面廣、質(zhì)量高的情感詞典會直接影響情感分析的效果。現(xiàn)有的情感詞典使用較多的有:知網(wǎng)情感詞典、臺灣大學(xué)的簡體中文情感極性詞典、大連理工情感詞典[9]。其中大連理工情感詞典情感詞匯的數(shù)量最多,而且詞典中對情感詞匯的詞性、情感強度、情感極性都進行了標(biāo)注,所以本文以該詞典作為創(chuàng)建基礎(chǔ)情感詞典的基礎(chǔ)。

      2.1 基礎(chǔ)情感詞典

      本文在大連理工情感詞典的基礎(chǔ)上,對知網(wǎng)情感詞典和臺灣大學(xué)的簡體中文情感極性詞典進行整合和優(yōu)化,將3者整合成一部基礎(chǔ)情感詞典。考慮到不同情感詞典的構(gòu)建方法的不同,可能存在同一情感詞在不同的情感詞典中情感極性不同的情況,本文采用投票規(guī)則和優(yōu)先權(quán)規(guī)則:當(dāng)情感詞同時出現(xiàn)在3部情感詞典中,有2個詞典中的極性是一致的,就將該情感詞極性定為這2個詞典的極性;如果情感詞只出現(xiàn)在2部或者1部情感詞典中,或者出現(xiàn)在3部詞典中但是在3部詞典中極性都不一樣,這個時候根據(jù)權(quán)威性,設(shè)定優(yōu)先權(quán)“知網(wǎng)情感詞典>大連理工情感詞典>臺灣大學(xué)情感詞典”[10],然后按照這個優(yōu)先權(quán)來確定詞匯的極性。

      在通常情況下,不同的情感詞具有不同的語氣和情感強度,例如:“愉快”和“驚喜”,“傷心”和“絕望”等,在進行微博情感分析時,需要給情感詞匯賦予不同的權(quán)值。本文采用大連理工情感詞典中原有情感權(quán)值的分類,將情感詞的情感權(quán)值分為5個強度,用1,3,5,7,9來表示,1位強度最小,9位強度最大[11],并且將正向情感詞標(biāo)注極性為1,反向情感詞極性為2?;A(chǔ)情感詞典的具體格式如表1所示。

      表1 基礎(chǔ)情感詞典示例

      情感詞名稱權(quán)值情感極性絕望92傷心52驚喜71愉快51

      隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了很多的網(wǎng)絡(luò)詞匯。這些詞匯不同于傳統(tǒng)的詞語,它們更加的精簡以及口語化,部分網(wǎng)絡(luò)詞匯也具有強烈的情感色彩。例如:“腦殘”、“抓狂”、“稀飯”等,由于當(dāng)前熱門的輸入法都會根據(jù)用戶的打字習(xí)慣來識別網(wǎng)絡(luò)新詞并加入自己的詞庫[12],本文通過人工的方式從當(dāng)前用戶使用量最多的3大輸入法“搜狗輸入法”[13]、“百度輸入法”和“QQ輸入法”的詞庫中整理篩選出150個最常用的并且具有強烈感情色彩的網(wǎng)絡(luò)新詞,并給各個網(wǎng)絡(luò)新詞賦予不同的權(quán)值以及情感極性,然后加入基礎(chǔ)情感詞典。

      2.2 領(lǐng)域情感詞典的創(chuàng)建和PMI算法的拓展

      基礎(chǔ)情感詞典囊括的情感詞是有限的,而且由于微博文本具有明顯的非正式、口語化的特點,微博中可能出現(xiàn)很多特殊情感詞匯,這些詞匯無法在傳統(tǒng)的情感詞典中找到。因此,本文構(gòu)建一個專門的微博領(lǐng)域情感詞典。首先獲取情感詞候選詞,然后通過計算確定候選詞的情感極性,最后將情感詞加入到微博領(lǐng)域情感詞典中。本文在對微博語料進行分析整理時發(fā)現(xiàn),微博文本中出現(xiàn)的包含情感色彩的新詞一般都是和程度級別詞語一起使用,例如“非常給力”中的“給力”,“扎心得不得了”中的“扎心”等,所以可以通過程度級別詞語來發(fā)現(xiàn)微博新情感詞。本文選用知網(wǎng)的程度級別詞語詞典,當(dāng)在微博文本中發(fā)現(xiàn)程度詞后,將該程度詞之后的2,3,4個字符劃分出來作為候選情感詞,一些程度詞如“之極”“之至”“不得了”等,將這些程度詞前面的2,3,4個字符劃分出來作為候選情感詞,對這些情感候選詞做預(yù)處理、篩選、傾向性判斷。

      然后,計算候選詞與基準(zhǔn)詞之間的語義相似度,這里采用的方法是PMI算法,基本思想就是統(tǒng)計2個詞語在文本中同時出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,關(guān)聯(lián)度越高。

      根據(jù)式(1)計算候選詞與基準(zhǔn)詞之間的語義相似度。

      (1)

      其中p(pwords & word)表示基準(zhǔn)詞pwords和候選詞word在微博文本中同時出現(xiàn)的概率,p(pwords)表示基準(zhǔn)詞pwords單獨出現(xiàn)的概率,p(word)表示候選詞word單獨出現(xiàn)的概率。

      然后,通過計算候選詞與褒貶基準(zhǔn)詞SO-PMI值的差值來確定候選詞的情感傾向,根據(jù)式(2)計算結(jié)果確定候選詞情感傾向。

      (2)

      式(2)中Pwords為正向基準(zhǔn)詞組,Nwords為負向基準(zhǔn)詞組,word為候選詞。當(dāng)SO-PMI(word)>0時,候選詞word為正向詞;當(dāng)SO-PMI(word)<0時,候選詞word為負向詞;當(dāng)SO-PMI(word)=0時,候選詞為中性詞。然后將確定了情感傾向的候選詞加入到微博領(lǐng)域情感詞典中。

      關(guān)于PMI算法中基準(zhǔn)詞的選取,郭葉等人[14]論證了采用40對基準(zhǔn)詞的情況下準(zhǔn)確率能達到81.37%,當(dāng)前構(gòu)建微博領(lǐng)域詞典的研究在基準(zhǔn)詞的選取時,都是選取中文詞匯作為基準(zhǔn)詞。但是使用PMI算法不可避免地會出現(xiàn)數(shù)據(jù)稀疏的問題[15],在一些情況下,當(dāng)候選詞與基準(zhǔn)情感詞共現(xiàn)的次數(shù)為0時,就會造成候選詞的SO-PMI值為0,從而被認定為中性詞。但是微博文本中含有大量的包含強烈情感色彩的微博表情,例如“真的很膈應(yīng)”這條微博,候選詞“膈應(yīng)”并沒有與其他情感詞匯一起出現(xiàn),但是博文中卻出現(xiàn)了一個具有強烈情感色彩的表示“惡心”的表情。所以本文對PMI算法進行了擴展,在選取基準(zhǔn)詞時,按照詞頻的從高到低人工選擇出20對具有強烈的情感色彩的詞語,褒貶傾向的詞語各10對,同時選出20對具有強烈情感色彩的微博表情,褒貶傾向的表情各10對。

      2.3 微博表情符號詞典

      微博文本中很多表情都包含強烈的情感色彩,有時可以通過微博中的表情判斷出微博的情感傾向性。本文通過對抓取的微博數(shù)據(jù)進行分詞和詞頻統(tǒng)計[16],按照從高到低的順序人工篩選出127個微博表情符號,將這些表情標(biāo)注情感傾向性和情感強度之后加入微博表情詞典。

      2.4 程度副詞詞典

      在對微博文本進行情感分析時需要考慮程度副詞的影響,程度副詞的使用會直接影響微博所表達的情感的強弱。本文采用知網(wǎng)的程度級別詞典(中文版),詞典中共有219個程度級別詞語。程度級別詞典如表2所示。

      表2 程度級別詞典

      等級權(quán)重程度級別詞語極量2非常,極其,極度,…高量1.5多么,分外,格外,…中量1.2更加,更為,還,…低量0.5多多少少,怪,好生,…

      2.5 否定詞典

      否定詞修飾情感詞匯時,一般都會改變文本的情感極性,如果正向的情感詞前面有否定詞修飾,情感傾向就會變?yōu)樨撓?,反之亦然。同時還存在雙重否定詞的情況,當(dāng)有雙重否定詞修飾時,一般不會改變句子的情感傾向。所以本文構(gòu)建了一個否定詞典,將詞典中的否定詞權(quán)值設(shè)為-1,雙重否定詞權(quán)值設(shè)為1。否定詞典如表3所示。

      表3 否定詞典

      類型權(quán)值詞語否定詞-1不,沒,無,非,莫,弗,勿,毋,未,否,別,無,休,…雙重否定詞1不是不,不可能不,無不,無非,不無,未必不,不得不,…

      2.6 連詞詞典

      連詞是句子之間的連接詞,連詞有轉(zhuǎn)折連詞,遞進連詞、因果連詞、讓步連詞、假設(shè)連詞等,句子之間連詞的不同對文本情感傾向的分析也有一定的影響。本文整理收集常用連詞構(gòu)建了一個連詞詞典,如表4所示。

      表4 連詞詞典

      詞性詞語轉(zhuǎn)折連詞卻,但是,然而,而,偏偏,…遞進連詞并,并且,而且,同,及,況且,…因果連詞因此,所以,是故,以致,以便,…讓步連詞雖然,固然,盡管,縱然,即使,…假設(shè)連詞那么,若是,要是,倘若,若,…

      至此,微博文本情感傾向性分析所需情感詞典的構(gòu)建已經(jīng)完成,情感詞典共由基礎(chǔ)情感詞典、微博領(lǐng)域情感詞典、微博表情符號詞典、程度詞典、否定詞典、連詞詞典6部分組成。

      3 微博文本語義規(guī)則

      微博文本的情感分析光依靠情感詞典是不夠的,需要同時考慮語義規(guī)則和詞語搭配對情感分析的影響。下面針對情感分析時需要考慮的詞語搭配、句型規(guī)則和句間規(guī)則進行闡述。

      3.1 詞語搭配分析規(guī)則

      主要分析程度級別詞語、否定詞以及雙重否定詞修飾情感詞時對情感分析的影響。

      1)程度級別詞語修飾規(guī)則。當(dāng)情感詞前出現(xiàn)程度級別詞語修飾時,情感傾向與情感詞保持一致,但是情感強度會根據(jù)前面修飾的程度級別詞語的不同有所增強或減弱。本文在創(chuàng)建程度級別詞語詞典時,對詞典中每一個詞語都進行了權(quán)值的標(biāo)注,例如:“非常開心”,“非?!钡臋?quán)值是2,當(dāng)前的情感強度就會在情感詞“開心”的情感強度的基礎(chǔ)上乘上2。

      2)否定詞語修飾規(guī)則。當(dāng)情感詞前面出現(xiàn)否定詞修飾時,則當(dāng)前的情感傾向與情感詞前面修飾的否定詞的個數(shù)有關(guān)。當(dāng)出現(xiàn)奇數(shù)個否定詞時,情感傾向與情感詞相反;當(dāng)出現(xiàn)偶數(shù)個否定詞時,情感傾向與情感詞一致。在實驗中計算時,通過情感詞的情感強度乘上(-1)的n次方來實現(xiàn),n表示否定詞出現(xiàn)的次數(shù)。如果情感詞前面出現(xiàn)的是雙重否定詞,則當(dāng)前的情感傾向與情感詞一致,在計算時雙重否定詞的權(quán)值被設(shè)為1。

      3)程度詞否定詞同時修飾規(guī)則。當(dāng)情感詞前面有程度級別詞語和否定詞同時修飾時,情感強度可能會有增強或者減弱,這個依據(jù)否定詞和程度詞語兩者出現(xiàn)的位置。當(dāng)否定詞出現(xiàn)在程度詞前時,例如:“今天不是很高興”整體表達的是不高興的傾向,但是強度較“不高興”有所減弱;當(dāng)程度詞出現(xiàn)在否定詞前時,例如:“今天很不高興”同樣表達的是不高興的傾向,但是強度較“不高興”有所增強。

      3.2 句型分析規(guī)則

      常見的中文句型有陳述句、疑問句和感嘆句。其中疑問句中的反問句會使得整句的情感傾向變成相反的傾向。感嘆句不會改變整句的情感傾向,但是會增強整句的情感強度。這里所分析的句型規(guī)則都是應(yīng)用在一個完整的句子上的,即先將微博文本通過“?”“!”“。”和“;”分割成多個復(fù)句,可以用集合{C1,C2,C3,…,Ci}來表示微博文本劃分后復(fù)句的集合,Ci表示第i個復(fù)句。這里用Wi表示當(dāng)前句型規(guī)則對整個復(fù)句情感值的影響權(quán)值。在實驗計算時,針對各種句型的規(guī)則如下:

      1)陳述句規(guī)則。如果復(fù)句Ci是陳述句,那么Wi=1。

      2)疑問句規(guī)則。如果復(fù)句Ci為疑問句,即句子以“?”結(jié)尾,并且含有反問標(biāo)志詞“難道”、“怎能”等,或者句子不以“?”結(jié)尾,但是也含有反問標(biāo)志詞時,那么Wi=-1.5。如果句子以“?”結(jié)尾但是不含有反問標(biāo)志詞,那么Wi=1。

      3)感嘆句規(guī)則。如果復(fù)句Ci為感嘆句,即句子以“!”結(jié)尾,那么Wi=2。

      3.3 句間分析規(guī)則

      除了對整個復(fù)句的分析之外,還需要考慮在復(fù)句中各個子句之間的句間關(guān)系,這個也會對文本的情感分析造成一定的影響。會造成影響的句間關(guān)系有轉(zhuǎn)折、遞進、假設(shè)關(guān)系。定義集合{E1,E2,E3,…,Ei,…,Ej}為復(fù)句C中的分句集合,Si表示句間關(guān)系對分句Ei的影響權(quán)值。

      1)轉(zhuǎn)折關(guān)系規(guī)則。轉(zhuǎn)折關(guān)系一般會發(fā)生情感傾向的翻轉(zhuǎn),后句與前句的情感傾向相反,并且情感傾向的決定一般在后句上。具體規(guī)則如下:

      ①如果復(fù)句C中只有單一轉(zhuǎn)折后接詞出現(xiàn)(如“但是”“但”“可是”等)且出現(xiàn)在分句Ek中,或者復(fù)句C中有成對的轉(zhuǎn)折標(biāo)志詞(如“雖然……但是……”)出現(xiàn),但是轉(zhuǎn)折后接詞出現(xiàn)在分句Ek中,則S1,S2,S3,…,Sk-1=0,而Sk,Sk+1,Sk+2,…,Sj=1。

      ②如果復(fù)句C中只有單一的轉(zhuǎn)折前接詞出現(xiàn)(如“雖然”“盡管”等)且出現(xiàn)在分句Ek中,則S1,S2,S3,…,Sk-1=1,而Sk,Sk+1,Sk+2,…,Sj=0。

      2)遞進關(guān)系規(guī)則。遞進關(guān)系中,分句的情感強度后句會比前句有所增強。規(guī)則如下:

      如果復(fù)句C中出現(xiàn)遞進關(guān)系標(biāo)志詞(如“更有甚者”“更加”)且出現(xiàn)在分句Ek中,則S1,S2,S3…,Sk-1=1,而Sk,Sk+1,Sk+2,…,Sj=1.5。

      3)假設(shè)關(guān)系規(guī)則。假設(shè)關(guān)系在實際的語境中,一般情感表達的重心在前句,后句的語氣則有所弱化,而且如果是否定假設(shè),則句子的情感傾向會變?yōu)橄喾吹膬A向。規(guī)則如下:

      ①如果復(fù)句C中沒有出現(xiàn)否定假設(shè)標(biāo)志詞,而出現(xiàn)假設(shè)關(guān)系后接詞(如“那么”)且出現(xiàn)在分句Ek中,則S1,S2,S3,…,Sk-1=1,而Sk,Sk+1,Sk+2,…,Sj=0.5。

      ②如果復(fù)句C中出現(xiàn)否定假設(shè)標(biāo)志詞(如“如果不”),而假設(shè)后接詞(如“那么”)出現(xiàn)在分句Ek中,那么S1,S2,S3,…,Sk-1=-1,而Sk,Sk+1,Sk+2,…,Sj=-0.5。

      上述3種句間關(guān)系都會對情感分析造成一定的影響,至于其他的句間關(guān)系如并列關(guān)系、因果關(guān)系、一般關(guān)系,這些關(guān)系一般并不會對前后句造成情感傾向和情感強度上的變化,所以本文不作具體規(guī)定,Si則全部設(shè)為1。

      3.4 特殊語義規(guī)則

      Shen等人[17]經(jīng)過統(tǒng)計研究發(fā)現(xiàn),50%以上的微博中,最后一個分句表現(xiàn)的情感極性能代表整條微博的情感極性,本文通過對抓取的微博數(shù)據(jù)進行整理分析發(fā)現(xiàn),一般微博的最后一個分句表達的情感傾向確實最接近博主想要表達的情感傾向?;谶@個結(jié)論,本文在進行微博文本情感分析時采用了如下特殊規(guī)則:

      當(dāng)微博的最后一條分句的情感值經(jīng)過計算后不為0時,將最后一條分句的情感傾向作為整條微博的情感傾向;如果最后一條分句的情感值經(jīng)計算為0,也就是最后一條分句不表達情感傾向時,再按照本文所提的基于情感詞典和語義規(guī)則來對整條微博進行情感分析。

      3.5 微博文本與表情加權(quán)規(guī)則

      在進行微博分析時,當(dāng)前的研究一般是將微博表情直接等同于情感詞典中的情感詞使用。王文等人[8]通過研究,提出將表情情感值與文本情感值加權(quán)作為最后的結(jié)果,這樣可以為細粒度的情感數(shù)值計算提供方便且充分利用了表情符號的信息,而且文中研究當(dāng)表情與文本的權(quán)值比例為0.4和0.6時,加權(quán)后微博的情感傾向性判斷準(zhǔn)確率有明顯的提升。因此,本文算法也沿用0.4和0.6這一加權(quán)比例,對微博文本進行最終的情感加權(quán)計算。

      4 微博綜合情感計算

      本文前面已經(jīng)創(chuàng)建了情感詞典,并且對文本情感分析時可能對分析結(jié)果造成影響的語義規(guī)則進行了分析并制定了規(guī)則,給出了各種規(guī)則的相關(guān)參數(shù)。本章通過這些詞典、參數(shù)對微博文本進行綜合的情感計算。計算過程從范圍的由小到大,先計算詞語的情感值,接著是分句的情感值,然后是復(fù)句的情感值,最后是整條微博的情感值。

      4.1 情感詞語的情感值

      當(dāng)通過情感詞典匹配到情感詞時,設(shè)置一個大小為5的滑動窗口,向情感詞前匹配5個字的長度,看是否存在程度副詞或者否定詞。這里設(shè)程度副詞權(quán)值為Deg,否定詞的權(quán)值為Den(Den為多個否定詞最后的綜合權(quán)值,采用單個否定詞的權(quán)值相乘來得到),情感詞匯i的情感強度為Wi,最終情感詞的情感值為E(Wi):

      1)只有程度副詞修飾,則E(Wi)=Deg×Wi。

      只有否定詞修飾,則E(Wi)=Den×Wi。

      3)程度副詞出現(xiàn)在否定詞前面(如“很不高興”),則E(Wi)=Deg×Den×Wi。

      4)程度副詞出現(xiàn)在否定詞后面(如“不是很高興”),則E(Wi)=0.5×Den×Wi。

      4.2 分句的情感值

      設(shè)分句Si的情感值為E(Si),則E(Si)可以表示為:

      E(Si)=(∑E(Wi))×Vi

      (3)

      式(3)中,E(Wi)表示分句內(nèi)第i個情感詞語的情感值,Vi表示當(dāng)前分句Si的句間關(guān)系權(quán)值。分句Si的情感值就是分句內(nèi)所有情感詞語的情感值之和再乘以當(dāng)前分句的句間關(guān)系權(quán)值。

      4.3 復(fù)句的情感值

      設(shè)復(fù)句Ci的情感值為E(Ci),則E(Ci)可以表示為:

      E(Ci)=(∑E(Si))×Wi

      (4)

      式(4)中,E(Si)為復(fù)句內(nèi)第i個分句的情感值,Wi為當(dāng)前復(fù)句的句型關(guān)系權(quán)值。復(fù)句Ci的情感值E(Ci)就是復(fù)句內(nèi)所有分句的情感值之和再乘以當(dāng)前復(fù)句的句型關(guān)系權(quán)值。

      4.4 文本的綜合情感值

      文本的綜合情感值設(shè)為Etext,則Etext可以表示為:

      Etext=∑E(Ci)

      (5)

      式(5)中,E(Ci)表示微博文本中復(fù)句Ci的情感值,微博文本內(nèi)容的情感值等于文本內(nèi)復(fù)句的情感值之和。

      4.5 微博表情的情感值

      設(shè)微博表情符號的綜合情感值為Eemotion,則Eemotion可以表示為:

      Eemotion=∑Emoi

      (6)

      式(6)中,Emoi表示微博中第i個表情符號的情感值。微博表情的綜合情感值等于當(dāng)前微博內(nèi)各個表情的情感值之和。

      4.6 微博的最終情感值

      設(shè)當(dāng)前微博的最終情感值為E,當(dāng)前微博的最后一條分句的情感值為E(Slast),如果E(Slast)>0,則將這條微博判定為正向微博;如果E(Slast)<0,則將這條微博判定為負向微博。如果E(Slast)=0,再接著計算整條微博的最終情感值。這時候E可以表示為:

      E=0.6×Etext+0.4×Eemotion

      (7)

      式(7)為通過微博文本和微博表情進行加權(quán)計算后得出的微博的最終情感值。如果E>0,則當(dāng)前微博情感為正向情感;如果E=0,則為中性情感;如果E<0,則為負向情感。

      5 微博情感分析實驗

      5.1 實驗數(shù)據(jù)

      本文從新浪微博“社會”“娛樂”“體育”“影視”“政治”5個方面共爬取微博數(shù)據(jù)80000條。通過文中介紹的構(gòu)造情感詞典的方法,創(chuàng)建的基礎(chǔ)情感詞典中共有情感詞9412個,其中正向情感詞4702個,負向情感詞4710個;按照文中介紹的方法創(chuàng)建微博領(lǐng)域情感詞典,詞典中共有新情感詞3622個,其中正向情感詞1978個,負向情感詞1644個。測試數(shù)據(jù)集是從各個領(lǐng)域中平衡地選出3000條測試微博,經(jīng)過人工標(biāo)注后,3000條微博數(shù)據(jù)包含的正向、負向和中性情感微博數(shù)如表5所示。

      表5 微博數(shù)據(jù)統(tǒng)計表

      正向微博負向微博中性微博微博總數(shù)91286412243000

      5.2 實驗性能評價指標(biāo)

      本次實驗的評估指標(biāo)采用的是目前使用廣泛的正確率(Precision)、召回率(Recall)和綜合度量指標(biāo)F值(F):

      (8)

      (9)

      (10)

      5.3 實驗結(jié)果與分析

      為了驗證本文構(gòu)建的微博領(lǐng)域詞典的作用和基于規(guī)則集的情感分析方法的有效性,本文通過表6中的方法對測試數(shù)據(jù)進行了實驗,并對結(jié)果進行分析與評價。

      表6 對比實驗結(jié)果

      實驗方法微博類別PrecisionRecallF基礎(chǔ)詞典+表情正向0.6980.6910.694負向0.6920.6690.680中性0.5840.6570.618基礎(chǔ)詞典+領(lǐng)域詞典+表情正向0.7210.7130.717負向0.7050.6120.655中性0.5630.6680.611基礎(chǔ)詞典+領(lǐng)域詞典+語義規(guī)則+表情正向0.7540.7230.738負向0.7410.6530.694中性0.6150.6820.647

      通過以上3組實驗,對實驗結(jié)果進行如下分析:

      1)通過實驗結(jié)果看出,僅僅依靠基礎(chǔ)情感詞典和微博表情加權(quán)進行分析的準(zhǔn)確率不是很高。一方面是由于微博中包含了很多新的領(lǐng)域情感詞,這些情感詞在基礎(chǔ)情感詞典中是沒有包含的,另一方面,中文的表述比較復(fù)雜,反問、反語、欲揚先抑、欲抑先揚等語義規(guī)則如果不考慮的話,會對情感傾向的分析造成不小的影響。所以提高情感詞典的覆蓋面和考慮語義規(guī)則對情感分析時一個很重要的原因。

      2)通過對判為正向的微博數(shù)據(jù)進行分析發(fā)現(xiàn),一些判斷失誤的原因主要是因為微博使用了反諷的表達形式,比如“風(fēng)婆婆您好厲害啊,5,6級的吹還不過癮,還7,8級的狂歡”,可以看到本微博中包含了“厲害”“狂歡”多個正向情感詞,所以被判定為正向情感微博,但是其實博主是采用了反諷的表達方式,所以在對這些特殊的表達方式方面還需要進一步的研究。

      3)由上面3組的實驗結(jié)果可以看出,中性情感微博判斷準(zhǔn)確率比正向和負向的都要低,通過對誤判的中性微博進行分析發(fā)現(xiàn),大部分誤判的原因是因為這些中性微博中存在一些作為副詞出現(xiàn)的情感形容詞,比如“中國房地產(chǎn)和房價只能漲不能跌,不是民生問題,而是一個嚴肅的政治問題”,句中的“嚴肅”在基礎(chǔ)情感詞典中是作為反向情感詞存在的,但是其實這只是博主在闡述一個事實,并沒有反向的情感傾向,所以這就造成了對分析的影響。

      4)通過第二組和第三組實驗對比發(fā)現(xiàn),在加入語義規(guī)則之后,負向微博的F值提升最大,說明加入語義規(guī)則對負向微博的情感分析效果最好。通過對測試的負向微博進行分析,發(fā)現(xiàn)在考慮到反問、轉(zhuǎn)折等規(guī)則后,之前的一些判斷錯誤的微博也可以判斷正確,如“難道這樣有意思嗎?”,這條微博在之前就被錯誤的判定為正向微博,在加入語義規(guī)則后則可以準(zhǔn)確判斷。

      5)還有一些誤判的結(jié)果是由一詞多義造成的,這個問題很普遍,在不同的語境下,同一個詞語表達的是不同傾向的意義,比如“你真是太厲害了”和“看給你厲害的,你咋不上天呢”,2句中都有情感詞“厲害”,但是2句的情感傾向確實截然相反,盡管可以對一詞多義的詞語進行篩選,但是由于微博語言的自由和隨意性,還是不斷地有一詞多義的詞語出現(xiàn),所以這種情況也對實驗的結(jié)果造成了影響。

      實驗表明,在對情感詞典進行擴展,并加入了語義規(guī)則的考慮之后,都使得微博情感分析的效果得到提升,與加入擴展的領(lǐng)域詞典相比,加入語義規(guī)則之后的提升效果更加明顯。在考慮準(zhǔn)確率、召回率、F值的評價標(biāo)準(zhǔn)下,本文的基于擴展的情感詞典和語義規(guī)則的情感分析方法具有一定的改善效果。

      6 結(jié)束語

      本文對已有的微博情感分析方法進行分析研究,通過分析整合知網(wǎng)、臺灣大學(xué)以及大連理工3部情感詞典,構(gòu)建范圍更廣的基礎(chǔ)情感詞典,并且通過輸入法把網(wǎng)絡(luò)新詞加入基礎(chǔ)情感詞典中。還通過分析微博情感新詞出現(xiàn)特征,根據(jù)程度詞發(fā)現(xiàn)新詞并通過SO-PMI算法分析語義相似度,從而構(gòu)建微博領(lǐng)域情感詞典。最后對語義規(guī)則進行分析以及考慮微博符號表情加權(quán)問題,提出基于擴展的情感詞典和語義規(guī)則的微博情感分析方法,并通過實驗驗證了此方法的有效性。

      后續(xù)的工作將著手考慮更多的特殊語法和表達形式,比如反語,還有一詞多義的問題;同時可以根據(jù)微博的特殊性,在情感分析時還可以從微博話題、微博轉(zhuǎn)發(fā)、用戶關(guān)系等方面來考慮??傊?,中文微博不斷地更新發(fā)展,微博的情感分析也是一個比較熱門的研究領(lǐng)域,還有很多方法需要進行更深入的研究。

      [1] Barbosa L, Feng Junlan. Robust sentiment detection on Twitter from biased and noisy data[C]// Proceedings of the 23rd International Conference on Computational Linguistics: Posters. 2010:36-44.

      [2] Jiang Long, Yu Mo, Zhou Ming, et al. Target-dependent Twitter sentiment classification[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011:151-160.

      [3] Go A, Bhayani R, Huang Lei. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, 2009,44(1):1-12.

      [4] 肖江,丁星,何榮杰. 基于領(lǐng)域情感詞典的中文微博情感分析[J]. 電子設(shè)計工程, 2015,23(12):18-21.

      [5] 梁亞偉. 基于表情詞典的中文微博情感分析模型研究[J]. 現(xiàn)代計算機, 2015(14):7-10.

      [6] 周劍鋒,陽愛民,周詠梅. 基于中文微博的情感詞典構(gòu)建及分類方法[J]. 計算機與數(shù)字工程, 2014,42(10):1773-1776.

      [7] 陳曉東. 基于情感詞典的中文微博情感傾向性分析研究[D]. 武漢:華中科技大學(xué), 2012.

      [8] 王文,王樹鋒,李洪華. 基于文本語義和表情傾向的微博情感分析方法[J]. 南京理工大學(xué)學(xué)報, 2014,38(6):733-738.

      [9] 徐琳宏,林鴻飛,潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報學(xué)報, 2008,27(2):180-185.

      [10] 陽愛民,林江豪,周詠梅. 中文文本情感詞典構(gòu)建方法[J]. 計算機科學(xué)與探索, 2013,7(11):1033-1039.

      [11] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報, 2006,20(1):14-20.

      [12] 陳國蘭. 基于情感詞典和語義規(guī)則的微博情感分析[J]. 情報探索, 2016(2):1-6.

      [13] 張昊昊,石博瑩,劉栩宏. 基于權(quán)值算法的中文情感分析系統(tǒng)研究與實現(xiàn)[J]. 計算機應(yīng)用研究, 2012,29(12):4571-4573.

      [14] 郭葉. 中文句子情感傾向分析[D]. 北京:北京郵電大學(xué), 2010.

      [15] 王振宇,吳澤衡,胡方濤. 基于HowNet和PMI的詞語情感極性計算[J]. 計算機工程, 2012,38(15):187-189.

      [16] 桂斌,楊小平,張中夏,等. 基于微博表情符號的情感詞典構(gòu)建研究[J]. 北京理工大學(xué)學(xué)報, 2014,34(5):537-541.

      [17] Shen Yang, Li Shuchen, Zheng Ling, et al. Emotion mining research on micro-blog[C]// 2009 1st IEEE Symposium on Web Society. 2009:71-75.

      [18] 趙天齊,姚海鵬,方超,等. 語義規(guī)則與表情加權(quán)融合的微博情感分析方法[J]. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版), 2016,28(4):503-510.

      猜你喜歡
      復(fù)句博文連詞
      你會用連詞嗎?
      連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
      第一次掙錢
      漢語復(fù)句學(xué)說的源流
      連詞that引導(dǎo)的賓語從句
      韓國語復(fù)句結(jié)構(gòu)的二分說
      誰和誰好
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      西夏語中的對比連詞 djij2
      西夏學(xué)(2016年1期)2016-02-12 02:24:02
      打電話2
      崇左市| 通渭县| 静乐县| 南乐县| 邵阳县| 郴州市| 湖南省| 揭西县| 桃源县| 资溪县| 澄江县| 赣州市| 平遥县| 于田县| 镇雄县| 桑日县| 武邑县| 盐津县| 峨山| 新化县| 鹿泉市| 镇巴县| 师宗县| 塔城市| 肥城市| 甘肃省| 贡嘎县| 吴堡县| 远安县| 石屏县| 通海县| 万盛区| 营口市| 乐昌市| 仙桃市| 柞水县| 拉孜县| 天全县| 阿荣旗| 柏乡县| 明星|