陳 欣,楊小兵,姚雨虹
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
隨著社交網(wǎng)絡(luò)和電子商務(wù)的快速發(fā)展,微博、Twitter、微信、QQ、Face-book、淘寶、京東等社交網(wǎng)絡(luò)和購(gòu)物平臺(tái)給人們的生活帶來(lái)了很大的影響,越來(lái)越多的用戶喜歡在社交媒體上發(fā)表自己的看法,而不只是瀏覽和接收信息[1]。在國(guó)內(nèi),微博已經(jīng)成為許多年輕人分享和獲取信息的核心平臺(tái)。在這些信息中包含著喜、怒、哀、樂(lè)等個(gè)人情緒,對(duì)這些信息中的情緒進(jìn)行分析可以獲得用戶的內(nèi)心活動(dòng)、分析用戶的性格特點(diǎn)。分析人們對(duì)于公眾事件和社會(huì)現(xiàn)象的態(tài)度可以更好的檢測(cè)和控制事件進(jìn)展。因此,對(duì)微博等社交媒體中的文本進(jìn)行情緒分析有重要的意義[2]。
情緒分析主要包含兩個(gè)任務(wù):情緒識(shí)別和情緒分類[3]。情緒識(shí)別就是判斷目標(biāo)文本是否包含情緒,情緒分類是在情緒識(shí)別的基礎(chǔ)上,從人類的心理學(xué)角度出發(fā),多維度地描述人的情緒狀況。本文選用的NLPCC2013和NLPCC2014數(shù)據(jù)集中包含有情緒和無(wú)情緒(None)兩大類[4],其中有情緒的文本包含七種基本情緒:喜愛(ài)(Like)、快樂(lè)(Happiness)、憤怒(Anger)、悲傷(Sadness)、恐懼(Fear)、驚訝(Surprise)、厭惡(Disgust)。
目前,網(wǎng)絡(luò)上文本數(shù)據(jù)的情緒分析常用的研究方法主要分為三類:基于詞典和規(guī)則[5]的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)[6]的方法、基于深度學(xué)習(xí)[7-8]的方法?;谠~典和規(guī)則的情緒分類方法能夠體現(xiàn)文本的非結(jié)構(gòu)化特征,解釋性強(qiáng),運(yùn)算速度快。但是由于網(wǎng)絡(luò)詞匯比較復(fù)雜,高質(zhì)量的情緒詞典難以構(gòu)建,維護(hù)比較復(fù)雜且不易擴(kuò)展。傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要通過(guò)對(duì)數(shù)據(jù)集進(jìn)行特征提取,訓(xùn)練分類模型,然后對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。但是該方法依賴于提取的特征,而且需要構(gòu)建復(fù)雜的特征工程,并結(jié)合依存關(guān)系分析?;谏疃葘W(xué)習(xí)的方法利用神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)提取文本特征,神經(jīng)網(wǎng)絡(luò)的多層非線性結(jié)構(gòu)可以捕捉文本的深層次特征,實(shí)現(xiàn)對(duì)文本的深層理解。常用的深度學(xué)習(xí)模型包括:循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)[7]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[8]等。
隨著深度學(xué)習(xí)在圖像視覺(jué)等領(lǐng)域取得優(yōu)異的成果[9],一些研究者開始將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于情感分析任務(wù)中。李等人[10]提出一種多通道雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,將現(xiàn)有情感資源和語(yǔ)言知識(shí)與BLSTM相結(jié)合,獲取到更充分的情感信息。趙等人[11]將LSTM和CNN相結(jié)合,然后添加注意力機(jī)制,實(shí)現(xiàn)對(duì)文本隱式情感的分析。近年來(lái),注意力(Attention)機(jī)制成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),并且取得不錯(cuò)的結(jié)果。Bahdanau等[12]最早將Attention應(yīng)用于機(jī)器翻譯任務(wù)中。Vaswani等人[13]使用Attention的方法做自然語(yǔ)言處理任務(wù),文中提出了一種Self-attention方法,使得每個(gè)詞語(yǔ)都能夠獲取全局語(yǔ)義信息。Li等人[14]將Self-attention和雙向LSTM相結(jié)合應(yīng)用于情感分類任務(wù)中,在準(zhǔn)確率上有很大提升。
基于詞典和規(guī)則的傳統(tǒng)情感分析方法過(guò)度依賴詞典的作用,忽略了文本整體的語(yǔ)義關(guān)系,現(xiàn)有的深度學(xué)習(xí)方法直接對(duì)文本整體進(jìn)行編碼,沒(méi)有重視現(xiàn)有知識(shí)庫(kù)的作用。因此本文將情感語(yǔ)義信息和注意力機(jī)制的深度學(xué)習(xí)模型融合,并添加樣本平衡模塊,構(gòu)造了一種新的情緒分析模型(Attention convolution model combining fine-grained sentiment dictionary and sample balance,DB-AC)。
本文的主要貢獻(xiàn)如下:
1) 收集現(xiàn)有的情感資料,分別對(duì)情緒詞、情感詞以及詞匯的詞性進(jìn)行整合,構(gòu)建了一個(gè)包含情感信息、情緒信息、詞性信息的細(xì)粒度情感詞典,并將詞匯的情感信息融合到詞向量中。
2) 提出了一種基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的情緒分析方法,并將細(xì)粒度情感詞典和樣本平衡模塊融入模型中,通過(guò)設(shè)計(jì)相關(guān)實(shí)驗(yàn)驗(yàn)證了該模型在情緒分析任務(wù)和情感分類任務(wù)中的有效性。
3) 通過(guò)設(shè)計(jì)實(shí)驗(yàn),驗(yàn)證了在深度學(xué)習(xí)模型中引入細(xì)粒度情感詞典和樣本平衡模塊對(duì)情緒分析任務(wù)的提升作用。實(shí)驗(yàn)證明,本文模型的性能超越了傳統(tǒng)的深度學(xué)習(xí)模型。
傳統(tǒng)的融合情感詞典的模型,只把正面情感詞、負(fù)面情感詞、程度副詞、否定詞作為特征,融合在文本轉(zhuǎn)化的詞向量中。本文對(duì)現(xiàn)有的情感詞典進(jìn)行整理,構(gòu)建了細(xì)粒度微博情感詞典。其中,程度副詞、否定詞、主張?jiān)~主要基于董振東構(gòu)建的知網(wǎng)《Hownet》情感詞典進(jìn)行構(gòu)建;正面情感詞、負(fù)面情感詞是根據(jù)《Hownet》情感詞典和大連理工大學(xué)的《情感本體庫(kù)》[15]進(jìn)行匯總;情緒分類和詞性種類以《情感本體庫(kù)》為依據(jù);并構(gòu)建了否定詞詞典。如表1所示。
本文提出的DB-AC模型首先對(duì)中文微博文本進(jìn)行預(yù)處理,將微博文本轉(zhuǎn)化為包含細(xì)粒度情感信息的詞向量,然后添加平衡樣本模塊,將處理后的詞向量輸入到Attention模型中,再經(jīng)過(guò)卷積層進(jìn)行特征提取,池化層選擇局部最優(yōu)特征,輸入到一個(gè)多層感知器(MLP),最后對(duì)輸出的向量使用Softmax分類器進(jìn)行計(jì)算。根據(jù)功能的不同,本文將模型分為三個(gè)層次,詞向量輸入層、語(yǔ)義獲取層、情緒分類輸出層。整體架構(gòu)如圖1所示。
圖1 DB-AC模型結(jié)構(gòu)圖Figure 1 DB-AC model diagram
詞向量輸入層為整個(gè)模型的輸入,主要包括三部分:文本預(yù)處理、詞向量表示、平衡樣本。
微博文本的預(yù)處理分為數(shù)據(jù)清洗和中文分詞兩個(gè)步驟。數(shù)據(jù)清洗是刪除和情緒分析無(wú)關(guān)的信息,如微博文本中的鏈接、@用戶、一些標(biāo)點(diǎn)符號(hào)等。目前常用的中文分詞工具有結(jié)巴分詞、哈工大LTP分詞、中科院計(jì)算所設(shè)計(jì)的NLPIR分詞等,本文使用結(jié)巴分詞作為分詞工具。
詞向量由四部分組成:文本向量VT、詞性向量VP、情感向量VE、情緒向量VM。其中,文本向量的獲取可以看作查詞典的過(guò)程。詞典中單個(gè)向量的維度為d,詞語(yǔ)個(gè)數(shù)為N,詞典Vd×N通過(guò)大規(guī)模語(yǔ)料采用詞向量訓(xùn)練模型得到。本文采用的是北京師范大學(xué)中文信息處理研究所與中國(guó)人民大學(xué)DBIIR實(shí)驗(yàn)室[16-17]開源的中文微博詞向量。對(duì)于一個(gè)文本序列T={t1,t2,…,tn},將文本中詞語(yǔ)的詞向量拼接起來(lái),就可以得到整個(gè)文本序列的詞向量表示,拼接方式如式(1)所示:
VT=V1⊕V2⊕…⊕Vn
(1)
其中:Vi∈Vd×n表示ti對(duì)應(yīng)于詞典中的元素,⊕表示行向量拼接操作。訓(xùn)練模型得到的詞向量能夠很好地表示詞語(yǔ)的語(yǔ)義信息,但是忽略了詞語(yǔ)的情感信息、詞性信息,因此本文加入了詞性向量、情感向量和情緒向量。根據(jù)《情感詞匯本體庫(kù)》的分類標(biāo)準(zhǔn),詞性分為7類,分別是名詞(Noun)、動(dòng)詞(Verb)、形容詞(Adj)、副詞(Adv)、網(wǎng)絡(luò)詞語(yǔ)(Nw)、成語(yǔ)(Idiom)、介詞短語(yǔ)(Prep)。情緒也分為7類:樂(lè)(Happiness)、好(Like)、怒(Anger)、哀(Sadness)、懼(Fear)、惡(Disgust)、驚(Surprise)。詞性信息和情緒信息采用類似One-hot編碼方式分別表示為7維向量VP和VM。情感分為6類,分別是正面情緒詞、負(fù)面情緒詞、程度副詞、主張?jiān)~、否定詞、中性詞,表示為6維向量VE。為了降低稀疏性,VP、VM和VE都初始化為[-0.1,0.1]之間的隨機(jī)值。最后將文本向量和情緒信息融合在一起構(gòu)造出詞向量X作為輸入,如公式(2)所示:
X=VT⊕VP⊕VE⊕VM
(2)
由于樣本類別嚴(yán)重不均衡,所以在語(yǔ)義獲取之前添加一步樣本平衡操作。本文采用的樣本平衡技術(shù)是將欠采樣和過(guò)采樣有效結(jié)合。具體過(guò)程如下:樣本數(shù)設(shè)定為m條,首先使用隨機(jī)欠采樣方法對(duì)大于m條的數(shù)據(jù)執(zhí)行m次欠采樣,然后對(duì)于低于m條的數(shù)據(jù)執(zhí)行m次過(guò)采樣。最后,得到w組平衡樣本,然后將w組平衡樣本合并到訓(xùn)練集樣本中進(jìn)行訓(xùn)練,如圖2所示。
圖2 樣本平衡模塊示意圖Figure 2 Sample balance module diagram
在文本情緒分析的過(guò)程中,為了提高模型效果,除了需要考慮詞語(yǔ)之間的語(yǔ)義依賴關(guān)系,還要考慮各詞語(yǔ)對(duì)于情緒分類的影響程度,影響較大的詞語(yǔ)需要賦予更高的權(quán)重。因此需要添加注意力機(jī)制,從輸入數(shù)據(jù)中找到顯著相關(guān)信息。CNN方便并行,而且容易捕捉到一些全局的結(jié)構(gòu)信息。因此,本文采用CNN和注意力機(jī)制對(duì)微博文本的語(yǔ)義信息進(jìn)行分析。
2.2.1 Attention層
本文將詞向量輸入到注意力機(jī)制中,注意力機(jī)制對(duì)微博文本和情緒詞合成的詞向量進(jìn)行處理,確定顯著信息。Attention函數(shù)的本質(zhì)可以被描述為一個(gè)查詢(Query)到一系列鍵值(Key-Value)對(duì)的映射,如圖3所示:
圖3 Attention函數(shù)示意圖Figure 3 Attention function diagram
Attention計(jì)算主要分為三步:第一步是計(jì)算Query和每個(gè)Key的相似度,獲取權(quán)重,常用的相似度函數(shù)有點(diǎn)積、拼接、感知機(jī)等;第二步是使用Softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值Value加權(quán)求和得到結(jié)果。目前在NLP研究中,Key和Value通常用同一值表示,即Key=Value。其函數(shù)如公式(3)所示:
(3)
其中Q∈Rn×dk,K∈Rm×dk,V∈Rm×dk。Attention層作用是將n×dk的序列Q編碼成了一個(gè)新的n×dv的序列。本文采用Self-Attention結(jié)構(gòu),即Attention(X,X,X),X表示輸入序列。
2.2.2 卷積層
卷積層可以通過(guò)不同的卷積核對(duì)輸入的序列進(jìn)行局部特征提取。長(zhǎng)度為h的卷積核可以把序列分為{X0:h-1,X1:h,…,Xi:i+h-1,…,Xn-h+1:n},對(duì)每一個(gè)分量做卷積操作得到卷積特征如下:
C=(c1,c2,…,cn-h+1)
(4)
其中,ci是對(duì)分量Xi:i+h-1進(jìn)行卷積操作后提取的特征。每次滑動(dòng)窗口得到的ci計(jì)算如下:
ci=relu(W·Xi:i+h-1+b)
(5)
W為卷積核權(quán)重,b為偏置。
2.2.3 池化層
池化層就是對(duì)卷積后得到的特征矩陣C執(zhí)行下采樣操作,從中選取局部最優(yōu)特征,本文采用的是最大池化進(jìn)行采樣,得到的特征表示為:
li=max(c1,c2,…,cn-h+1)
(6)
之后將得到的特征組合得到向量L:
L=(l1,l2,…,ln)
(7)
最后,將前一層輸入到一個(gè)多層感知器(MLP),得到更高層的特征表示。本文的模型選擇不含任何隱含層的MLP,對(duì)其輸出向量進(jìn)行非線性函數(shù)f變換,得到情緒標(biāo)簽的得分向量:
Score(S)=f(WhL+bh)
(8)
其中:Score(S)∈R|M|為情緒標(biāo)簽的得分向量;M表示情緒標(biāo)簽集合;Wh和bh分別為MLP的參數(shù)矩陣和偏置量,本文采用RELU函數(shù)完成非線性變換。然后對(duì)情緒得分向量執(zhí)行Softmax運(yùn)算:
(9)
本文采用NLPCC2013和NLPCC2014情感評(píng)測(cè)任務(wù)的兩個(gè)公開數(shù)據(jù)集組織實(shí)驗(yàn),每個(gè)數(shù)據(jù)集中均包含一個(gè)訓(xùn)練集和一個(gè)測(cè)試集。數(shù)據(jù)集中的內(nèi)容來(lái)自新浪微博,每條微博都有一個(gè)情感標(biāo)簽,共有8種不同的情感標(biāo)簽,即None、Happiness、Like、Sadness、Disgust、Anger、Fear和Surprise。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示。其中,2014年的訓(xùn)練集(14 train)中有兩條微博的文本內(nèi)容為空,將其移除,最終得到13 998條微博。
表2 各情緒數(shù)據(jù)統(tǒng)計(jì)表Table 2 Statistics of each emotion
由表2可以看出,8種標(biāo)簽下的數(shù)據(jù)比例很不均衡,所以本文添加樣本平衡模塊先進(jìn)行數(shù)據(jù)預(yù)處理。為了進(jìn)一步驗(yàn)證本文提出的模型性能,設(shè)計(jì)了情緒識(shí)別任務(wù)和正負(fù)情感分類任務(wù)。在正負(fù)情感分類任務(wù)中,將Happiness和Like作為正向標(biāo)簽,Anger、Sadness、Fear、Disgust作為負(fù)向標(biāo)簽。情緒識(shí)別任務(wù)中,將none作為客觀標(biāo)簽,其他7項(xiàng)作為正向標(biāo)簽。兩個(gè)實(shí)驗(yàn)的數(shù)據(jù)集劃分如表3所示:
表3 情感二分類數(shù)據(jù)集Table 3 Sentiment binary classification dataset
參數(shù)設(shè)置會(huì)直接影響模型效果,通過(guò)不斷調(diào)參優(yōu)化,本文提出的DB-AC模型參數(shù)如表4所示。
表4 模型參數(shù)設(shè)置Table 4 Model parameter settings
MNB模型(Multinomial na?ve bays):MNB模型是傳統(tǒng)機(jī)器學(xué)習(xí)的代表,在很多情感分類任務(wù)中都取得了優(yōu)秀的效果。
CNN模型(Multichannel convolutional neural network):該模型采用多通道卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行情感分類,這是早期研究者采用卷積神經(jīng)網(wǎng)絡(luò)做自然語(yǔ)言處理任務(wù)的模型之一。
ATT模型(Self-Attention):該模型直接使用自注意力模型訓(xùn)練進(jìn)行分類。
ATT-CNN模型(Attention convolutional neural network model):該模型通過(guò)多通道卷積神經(jīng)網(wǎng)絡(luò)和自注意力模型進(jìn)行融合實(shí)現(xiàn)情緒分析。
E-AC模型(Attention convolution model combining sentiment dictionary):該模型使用傳統(tǒng)的情感詞典與詞向量相融合,然后通過(guò)多通道卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制做訓(xùn)練。
D-AC模型(Attention convolution model combining fine-grained sentiment dictionary):該模型在詞向量中融合細(xì)粒度情感信息,然后通過(guò)多通道卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制訓(xùn)練模型。
DB-AC模型:該模型在詞向量中融合細(xì)粒度情感信息,然后添加樣本平衡模塊,最后通過(guò)多通道卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制進(jìn)行訓(xùn)練。
3.4.1 NLPCC情感測(cè)評(píng)任務(wù)
按照NLPCC的中文微博情感評(píng)測(cè)任務(wù)的相關(guān)要求和評(píng)價(jià)指標(biāo),本文分別對(duì)NLPCC2013和NLPCC2014數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)分析,結(jié)果如表5和表6所示:
表5 NLPCC2013實(shí)驗(yàn)結(jié)果Table 5 NLPCC2013 experimental results
表6 NLPCC2014實(shí)驗(yàn)結(jié)果Table 6 NLPCC2014 experimental results
從表5和表6可以看出,DB-AC模型在所有的指標(biāo)上都取得最好的結(jié)果,與D-AC模型相比在2013年數(shù)據(jù)集上,F-measure提升了0.06%,微平均F1和宏平均F1分別提升了0.71%和0.41%,2014年數(shù)據(jù)集上,F-measure提升了0.04%,微平均F1和宏平均F1分別提升了1.96%和2.31%。此外,對(duì)于宏平均F1和微平均F1的效果有明顯提升。宏平均F1和微平均F1是對(duì)情緒進(jìn)行識(shí)別,不同標(biāo)簽數(shù)據(jù)量差別很大,比如2013年訓(xùn)練集中“Like”有595條、“Fear”有49條,樣本量嚴(yán)重不均衡,所以樣本平衡模塊的添加對(duì)于宏平均和微平均的影響比較顯著。
D-AC模型的效果僅次于DB-AC模型,在兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn)總體排第2位。與傳統(tǒng)情感詞典的E-AC模型相比,在2013年數(shù)據(jù)集上,F-measure提高0.44%,微平均F1和宏平均F1分別提升0.24%和0.28%,2014年數(shù)據(jù)集上,分別提升0.86%、0.26%和0.63%。體現(xiàn)了細(xì)粒度情感詞典的分類效果要好于傳統(tǒng)的情感詞典。
本文提出的DB-AC模型在2014年數(shù)據(jù)集上的宏平均和微平均值明顯比2013年效果好,是因?yàn)?014年訓(xùn)練集是13 988條而2013年訓(xùn)練集只有4 000條,數(shù)據(jù)量提升后模型得到更充分的訓(xùn)練。而2014年數(shù)據(jù)集的F-measure普遍低于2013年,說(shuō)明2014年情緒識(shí)別任務(wù)的難度高于2013年,與文獻(xiàn)[18-20]的結(jié)論一致。
此外,D-AC模型和DB-AC模型的效果明顯優(yōu)于ATT-CNN模型,說(shuō)明細(xì)粒度情感詞典的引入對(duì)情緒分析任務(wù)有很大幫助。
3.4.2 情緒識(shí)別任務(wù)
為了充分驗(yàn)證細(xì)粒度情感詞典和樣本平衡模塊對(duì)于情緒識(shí)別任務(wù)性能的影響,本文將添加以下實(shí)驗(yàn)進(jìn)行比分析:以CNN、ATT(Self-Attention)、ATT-CNN模型為基準(zhǔn)模型,分別添加情感詞典(傳統(tǒng))、情感詞典(細(xì)粒度)、情感詞典(細(xì)粒度)+樣本平衡模塊進(jìn)行實(shí)驗(yàn),使用NLPCC2013和NLPCC2014的數(shù)據(jù)集分別驗(yàn)證,實(shí)驗(yàn)結(jié)果采用F-measure作為指標(biāo)進(jìn)行評(píng)價(jià),如圖4、圖5所示:
圖4 NLPCC2013情緒識(shí)別任務(wù)Figure 4 NLPCC2013 emotion recognition task
圖5 NLPCC2014情緒識(shí)別任務(wù)Figure 5 NLPCC2014 emotion recognition task
從圖4和圖5中可以看出,在主客觀分類實(shí)驗(yàn)中ATT-CNN系列模型都取得了最好的結(jié)果,說(shuō)明自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的融合對(duì)于微博文本情緒識(shí)別任務(wù)有明顯的提升。添加情感詞典(細(xì)粒度)的模型效果都優(yōu)于情感詞典(傳統(tǒng))的效果,表明了細(xì)粒度情感詞典相比較傳統(tǒng)的情感詞典可以更好地識(shí)別主客觀特征。對(duì)于所有的模型,添加情感詞典的效果都有明顯提升,說(shuō)明情感特征對(duì)于情緒分析任務(wù)有很大的幫助。
此外,樣本平衡模塊的添加對(duì)于各組實(shí)驗(yàn)F-measure的結(jié)果影響不太明顯,這是因?yàn)榍榫w識(shí)別任務(wù)判斷微博是否包含情緒,有無(wú)情緒的數(shù)據(jù)分別有7 247條和6 753條數(shù)據(jù)(2013數(shù)據(jù)集),9 804條和10 194條數(shù)據(jù)(2014數(shù)據(jù)集),樣本已經(jīng)比較均衡,所以影響不是很大。
3.4.3 正負(fù)情感分類任務(wù)
正負(fù)情感分類任務(wù)同樣是二分類問(wèn)題,其中2013年數(shù)據(jù)集中有3 596條正向情感文本、3 317條負(fù)向情感文本;在2014年數(shù)據(jù)集上正負(fù)情感文本分別有5 146條與4 134條。實(shí)驗(yàn)結(jié)果如圖6、圖7所示。
圖6和圖7的結(jié)果表明,在正負(fù)情感分類任務(wù)中,融合細(xì)粒度情感詞典并添加樣本平衡模塊的ATT-CNN模型仍然取得了最好的結(jié)果。其中,各組實(shí)驗(yàn)中,融合細(xì)粒度情感詞典的模型性能都高于傳統(tǒng)的情感詞典,這說(shuō)明細(xì)粒度的情感詞典對(duì)于正負(fù)情感分類實(shí)驗(yàn)同樣具有較大貢獻(xiàn)。其中2014年數(shù)據(jù)集上的結(jié)果明顯優(yōu)于2013年,是因?yàn)?014年的樣本數(shù)據(jù)量比2013年多,模型得到更充分的訓(xùn)練。
圖6 NLPCC2013正負(fù)情感分類結(jié)果Figure 6 Positive and negative sentiment classification results from NLPCC2013
圖7 NLPCC2014正負(fù)情感分類結(jié)果Figure 7 positive and negative sentiment classification results from NLPCC2014
本文提出了一種基于CNN和注意力機(jī)制的微博情緒分析模型,利用現(xiàn)有的情感分析資源構(gòu)建了一個(gè)包含情感語(yǔ)料、情緒語(yǔ)料、語(yǔ)義信息的細(xì)粒度情感詞典。將情感詞典和注意力機(jī)制相結(jié)合,有效地增強(qiáng)了模型對(duì)于微博文本情緒的分析能力。通過(guò)兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證,細(xì)粒度情感詞典能夠提高情緒分析的性能。同時(shí),本模型添加的樣本平衡模塊,有效降低了樣本不均衡對(duì)于模型的影響。本文提出的模型在NLPCC2013和NLPCC2014中文微博情緒分析任務(wù)中表現(xiàn)出優(yōu)越的性能。下一步將對(duì)詞性信息對(duì)于情緒分析的影響做更詳細(xì)的分析。