范守祥,姚俊萍,李曉軍,程開原
火箭軍工程大學301 教研室,陜西西安710025
方面信息情感分類是方面級別情感分析的重要任務,其目的是判斷給定文本中目標方面信息在上下文環(huán)境下的情感極性,基本思路是將目標方面信息的情感特征轉化為數(shù)值特征以便進行自動分類,重點是解決相同文本中不同目標方面信息差異情感對應問題。比如在評論文本“The food was mediocre and the service was severely slow.”中,方面信息“food”和“service”分別對應了中性和負面的情感屬性。早期研究主要使用情感詞典匹配以及傳統(tǒng)機器學習如支持向量機等分類方法,隨著深度學習方法在各領域的廣泛使用,方面情感領域也產生了各種基于循環(huán)神經網絡(recurrent neural network,RNN)、卷積神經網絡(convolutional neural network,CNN)、記憶網絡(memory network,MN)、膠囊網絡的情感分類方法。在這些方法中,注意力機制往往作為一種重要的信息篩選機制引入神經網絡模型設計,起到提取情感信息特征的重要作用。
基于深度學習的方面信息情感分類方法優(yōu)勢在于可以自動提取方面信息情感特征,而無需人工構建特征集,模型經訓練后可以達到較高的分類準確度。但此類方法同樣存在一些問題,比如,目前在方面信息情感分類領域常用RNN 進行信息底層編碼,雖能保留序列中的上下文信息,但隨著序列長度的增加,信息傳遞過程中的丟失現(xiàn)象也更加嚴重[1],致使不同方面信息的情感特征差異嚴重弱化,導致多方面信息文本情感分類準確度降低。此外,注意力機制雖然能夠模擬獲取信息過程中不同信息重要性差異,但存在過于關注高頻信息[2],忽略低頻有益信息的問題,在方面信息情感分類任務中會導致兩方面問題:一是多方面信息文本中不同方面信息情感同質化、中性方面信息情感化問題;二是除高頻信息以外的外圍信息在方面信息情感特征表示中的作用較弱,無法較好地提取非單一情感詞表示的復雜方面情感特征。
針對上述存在的問題,本文提出一種多模特征融合的方面信息情感分類方法。將文本中方面情感信息分為單點情感信息、多點情感信息以及局部情感信息三類情感信息表達模式。首先利用傳統(tǒng)注意力機制傾向于關注高頻詞語的特點提取并編碼單點情感信息,并利用注意力分值與長度控制參數(shù)截取離散的多詞組合作為多點情感信息,通過介詞、連詞以及符號等的位置信息確定局部情感信息;而后利用RNN 對提取的多點與局部情感信息進行編碼,有效降低編碼序列長度,融合三類情感信息特征形成最終方面信息情感的特征表達;最后在數(shù)據(jù)集上進行訓練,優(yōu)化注意力分布,使模型適應多種方面情感信息表達模式,提高對復雜情感表達的分類準確度。實驗表明,本文提出的方面信息情感分類方法能夠使分類效果得到較大提升。
神經網絡模型可以將原始文本特征提取為抽象特征,用于文本語義分析或情感分析。在方面信息情感分類任務中,需要將文本中的情感信息傳播到最終特征表示中,最早文獻[3]提出一種自適應遞歸神經網絡(adaptive recursive neural network,AdaRNN)模型,可以通過上下文和句法結構將情感信息傳播到最終特征表示中,解決目標依賴的情感極性分類問題。隨著深度學習技術應用的深入,利用該技術進行方面情感分析受到越來越多關注。
目前使用基于深度學習的方法解決方面信息情感分類問題主要有以下3 種思路。1)從文本整體語義中提取方面信息情感特征。文本語義是情感的載體,于是可以把語義特征作為情感特征對方面情感極性進行分類。比如文獻[4]利用長短時記憶(long short-term memory,LSTM)網絡可以捕獲序列語義信息的特點,提出了TD-LSTM(target-dependent long short-term memory)和TC-LSTM(target-connection long short-term memory)兩種構建特定方面信息情感特征的方法,構造兩個分別從句子左側和右側捕獲語義信息且將方面信息分別作為語義傳播終點的LSTM 網絡,并將兩個網絡序列末尾的隱層串聯(lián)起來形成最終情感特征表示;文獻[5]利用CNN 的特征抽取能力抽取文本的情感特征,使用序列方向上最大池化操作進一步剔除不重要的情感信息,獲取了方面信息情感的特征表示,解決了LSTM 網絡結構復雜及序列依賴等問題;文獻[6]認為與方面信息相關的情感語義往往是連續(xù)詞語組成的語塊而非孤立詞語,提出利用雙向LSTM 網絡(Bi-LSTM)和條件隨機場(conditional random field,CRF)注意力相結合產生方面情感特征的方法。2)利用方面信息與上下文關系提取方面情感特征。表達方面信息情感的往往是句子中具有強烈情感信息的部分,如具有修辭關系的形容詞或短語。文獻[7]利用MN 多層注意力機制多次從記憶中提取情感信息;文獻[8]使用注意力機制從兩種不同的記憶模塊中分別提取與方面信息相關的單詞級和短語級情感信息;文獻[9]提出使用交叉注意力使上下文與方面信息中詞語相互關注生成有側重的方面情感特征的方法;文獻[10]提出在底層Bi-LSTM 編碼的不同位置加入不同類型注意力機制,從不同角度提取上下文情感信息,且融入方面語義信息提升情感分類能力。3)考慮句間關系提取方面情感特征。在方面情感分類任務中,常將整個評論或者方面信息所在句子作為分析對象,但句間關系對方面的情感信息也有很大影響。比如文獻[11]利用分層LSTM 網絡獲取句內與句間信息,且利用注意力機制分別提取方面信息的局部與整體特征;文獻[12]提出一種雙層Bi-LSTM 模型,第1 層Bi-LSTM 網絡捕獲句子內部的情感信息,而第2 層Bi-LSTM網絡捕獲其他句子傳遞來的情感信息;與之類似,文獻[13]根據(jù)標點符號和一些連詞將評論切分為獨立子句,在雙層Bi-LSTM 網絡結構基礎上,在各層中加入注意力機制,兼顧句內與子句間重要情感信息。
與上述方法和思路不同,本文使用門限循環(huán)單元(gated recurrent unit,GRU)網絡以及注意力機制作為情感信息提取的基本工具,在多點情感信息獲取上,通過注意力分值和預設長度參數(shù)控制序列離散情感信息的選擇與截取,克服常規(guī)注意力機制在提取情感信息時過度傾向于高頻信息的問題,優(yōu)化注意力在離散情感信息上的分布情況,同時利用GRU 網絡對提取的多點情感信息進行編碼,減少長序列信息在編碼中的信息丟失的問題,提高序列情感信息編碼效果。在局部情感信息上,雖然與文獻[13]相類似使用連詞與符號對文本進行分割,但關注點不同,且本文利用介詞對文本進行分割,重點關注情感信息的局部連續(xù)性以及封閉性。通過對三類情感信息特征的提取與有效整合,達到提高方面信息情感分類效果的目的。
本文提出一種多模特征融合的方面信息情感分類模型,分別對單點情感信息、多點情感信息以及局部情感信息三類方面情感信息進行提取與編碼,并融合三類情感信息特征形成最終目標方面信息情感特征表示。使用雙層雙向GRU 網絡(Bi-GRU)對文本進行初始編碼,利用注意力機制對單點情感信息進行提取、利用單點情感信息提取過程中的注意力得分以及預設長度控制參數(shù)獲取多點情感信息,再利用位置信息定位局部方面情感信息。接下來對上述三類情感信息提取與編碼過程進行詳細描述,模型整體結構如圖1所示。
圖1 模型總體結構圖Figure 1 Overall structure diagram of the model
方面信息情感分類是在給定具有方面信息情感表達的文本序列S={x1,x2,···,xn}以及句中方面信息序列A={xn-i,xn-i+1,···,xn-i+k}(k≤i) 條件下,判斷方面信息A的情感極性C屬于{正面、負面、中性} 的問題。為便于模型描述,文中使用E={e1,e2,···,en}表示文本序列對應詞向量矩陣,使用P={p1,p2,···,pn}表示文本序列對應的詞性向量矩陣。
單點情感信息特征提取針對文本中使用單一情感詞承載情感信息的模式進行特征提取。傳統(tǒng)注意力機制傾向于關注高頻信息,基于這一特點,本文將此類高頻信息作為單點情感信息。同時,對于構建方面信息情感特征來說,重點是建立具有當前方面信息特殊性的情感特征,一般做法是引入當前方面信息特征到方面信息情感特征中。在此,本文借鑒文獻[7]構建當前方面信息情感特征的方式,將方面信息特征與情感特征點對點相加。在底層,使用Bi-GRU 對文本序列進行編碼,使用輸出層作為序列中每個詞的當前特征表示,使每個詞語融入上下文信息,更好地適應當前語句的整體語義。在文本序列中加入詞性信息,有助于模型加強依據(jù)詞性信息選取情感信息的能力。單點情感信息具體計算過程如下:
式中:“;”表示詞向量與詞性向量在特征方向上的拼接操作,O ∈R2n表示文本序列的輸出向量矩陣,n表示GRU 網絡隱狀態(tài)大小,t ∈Rn為當前方面信息融入情感特征后的特征向量,d(S,A) 為注意力衰減系數(shù),s ∈Rl表示當前方面信息對文本序列中各詞的注意力分值,c ∈Rn表示當前方面信息的情感特征向量,l表示當前文本序列長度,W1,W2∈R2n×n,b1,b2∈Rn為可學習參數(shù)。在計算t時,利用式(3)~(5) 反復提取特征3 次,得到t最終特征表示,并將其作為單點情感信息特征表示。t的初始輸入為當前方面信息特征向量,由于方面信息本身經常出現(xiàn)多詞表達形式,其中的每個單詞在整體方面信息含義中所起作用并不相同,故方面信息特征向量同樣采用注意力機制進行計算,公式如下:
式中:OA為從輸出向量矩陣中提取的方面信息特征向量矩陣,Oaverage表示輸出向量矩陣沿序列方向求均值得到的文本整體含義特征向量。一般而言,與當前方面信息相關的情感信息位于其較近范圍內,比如修辭關系、主系表關系等,故在式(3) 計算注意力分值時加入衰減系數(shù)1/d(S,A),對注意力分值進行修正,d(S,A) 通過lg(10+Δ) 進行計算,Δ表示文本序列中各詞與方面信息距離,對于多詞方面信息,以方面信息首尾詞作為距離計算基準。
文本中單個詞語注意力采用如下方法:
式中:“;”表示向量在特征方向上的拼接操作,W3∈R2n為可學習參數(shù)。
在文本情感實際表達過程中,一方面,除了經常使用單一情感詞表達當前方面信息情感外,也常表現(xiàn)為文本中多個離散詞語共同決定當前方面信息情感的表達模式。此時,情感載體并非簡單的具有情感信息的單一詞語,而是呈現(xiàn)出諸如敘述、比喻、反問等更加復雜的情感表達模式。比如在文本“we requested they re-slice the sushi,and it was returned to us in small cheese-like cubes.”中,方面信息“sushi”的情感并不能借助其中的某個詞語來表達,而是融入到語義的敘述中。另一方面,根據(jù)對句子的理解,文本中承載情感信息的詞語并不是所有詞語,而是其中一部分,這說明句子可以被簡化為包含核心情感以及語義詞語的簡潔形式。比如在上例中,“requested re-slice returned small cheese-like cubes”這些詞語所構成的語義敘述核心基本決定了方面信息“sushi”情感極性為負向情感。在不同的句子中,對情感信息表達沒有貢獻的詞語數(shù)量不同,但對情感表達發(fā)揮作用的詞語卻是有限的,可以在一定程度上進行量化,故可以通過控制參與情感表達的核心詞語長度來增強方面信息情感特征的差異化水平,降低非情感信息在特征提取過程中對情感特征的不良影響?;谏鲜鰞煞N考慮,本文設計了結合注意力分值提取定長情感信息的多點情感信息提取策略,并將這些定長情感信息輸入到GRU 網絡中進行編碼,得到多點情感信息的特征表達。計算過程如下所示:
式中:函數(shù)f(O,s,η) 表示從當前文本序列特征向量矩陣O中,按照s中注意力分值由高到低排序,提取前η個詞語對應特征向量表示,即Oη ∈Rn×η作為當前文本序列的簡化特征表示形式;hη ∈Rn表示Oη輸入單向GRU 網絡后得到的隱狀態(tài)向量,作為當前文本序列的多點情感信息特征表示。
情感信息具有一定的封閉性,即情感信息存在于相對完整的語義表述單元中。在多方面信息的文本中,適當切割文本將每個方面信息的情感信息封閉在各自的子句空間中,可以對方面信息情感分類起到很好的促進作用。之前的研究大多在修辭結構分析的基礎上以連詞和標點符號作為分割子句的標志,比如文獻[13]利用了連詞對句子進行切分。在對方面情感信息進行建模研究過程中,本文對具有錯誤分類結果的樣本進行了大量分析,發(fā)現(xiàn)在具有中性情感的方面信息情感判斷上存在較大問題。中性方面信息往往沒有相應的情感詞語作為表達,常存在于條件、陳述事實等表達模式中,此時使用注意力機制往往因關注高頻信息而產生情感極性判斷錯誤的問題。比如在文本“the sauce is excellent(very fresh) with dabs of real mozzarella.”中,“dabs of real mozzarella”是具有中性情感極性的方面信息,但是常規(guī)注意力會將分值更多地分配給具有顯著正向情感信息的“excellent”,導致該方面信息情感極性判斷錯誤??梢钥闯?,方面信息“dabs of real mozzarella”僅僅作為該句中另一個方面信息“the sauce”表現(xiàn)為正向情感極性的條件,本身不具有正向或負向情感。針對這個問題,本文提出在方面信息的整體特征表示中加入了局部情感信息特征編碼,可以增強對此類情感特征判斷能力。在實際處理過程中,根據(jù)當前方面信息的位置信息,使用預定義分割控制信息,按照就近原則選擇距離當前方面信息最近的分割控制信息,確定局部情感信息序列,并將該文本序列輸入到GRU 網絡中進行編碼,得到局部情感信息的特征表達。具體計算過程如下:
式中:函數(shù)g(O,p,λ) 表示局部情感信息序列截取操作,p表示當前文本序列對應的詞性序列,λ ∈{“,′′,“.”,“WP”,“WDT”,“CC”,“IN”,“WRB”,“WP$”} 表示預定義分割控制信息,Oλ ∈Rn×η′表示當前方面信息局部情感序列特征矩陣,hλ ∈Rn表示Oλ輸入單向GRU網絡后得到的隱狀態(tài)向量,作為當前文本序列的局部情感信息特征表示。
通過上述模型計算后,可以得到當前方面信息的單點情感信息特征、多點情感信息特征以及局部情感信息特征,將此三類特征進行拼接作為當前方面信息最終的情感特征表示,使當前方面信息特征中融入三類情感表達模式的特征信息,而后對此特征進行情感分類,分為正向情感、負向情感以及中性情感三類,具體計算過程如下:
式中:“;”表示三類情感特征在特征方向上的拼接操作,ot ∈R3n表示當前方面信息最終情感特征表示,P(y|θ)∈R3表示當前方面信息預測的情感極性概率分布,y={positive,neutral,negative},θ表示模型中所有參數(shù),W4∈R3n×3,b3∈R3為可學習參數(shù)。最終,通過交叉熵計算模型損失并對模型參數(shù)進行訓練,其中模型參數(shù)的函數(shù)為
式中:y′表示標準情感類別對應索引值。在當前方面信息中融入三類情感表達模式的特征,可以優(yōu)化模型在訓練過程中注意力分布,弱化其中某一類情感表達模式特征的錯誤對整體分類效果的影響,達到提高分類精度的目的。
本實驗采用SemEval-2014 任務4[14]中的評論數(shù)據(jù)集,包含Laptop 評論數(shù)據(jù)集和Restaurant 評論數(shù)據(jù)集,該數(shù)據(jù)集是方面情感分析領域使用最為廣泛的數(shù)據(jù)集。采用與文獻[1]實驗相同的處理方式,去除掉數(shù)據(jù)集中具有“Conflict”標簽的評論樣本,故數(shù)據(jù)集中樣本情感標簽類別分為“Positive”“Neutral”“Negative”三類,詳情參見表1。評論預處理過程中使用NLTK(Natural Language Toolkit)[15]將文本分割為單詞序列,使用斯坦福大學的自然語言處理工具包Stanford-CoreNLP[16]對評論文本進行詞性解析,獲取單詞詞性信息。
表1 樣本數(shù)據(jù)信息統(tǒng)計表Table 1 Statistical of sample data
為提高模型通用性與實驗可對比性,詞向量以及詞性向量使用300 維Glove 預訓練詞向量進行初始化,未登錄詞以及詞性標簽采用隨機初始化。模型中所有GRU 網絡隱層大小設定為300,采用dropout 策略防止參數(shù)過擬合,dropout 率設定為0.1,batch 大小設定為32,使用Adam 優(yōu)化算法[17]更新模型參數(shù),學習率設定為0.001。使用準確率與F1 值作為評價指標。
為充分評估模型的有效性,將與下列3 類方法進行對比,第1 類為基于RNN 或注意力機制的方法,即單獨使用RNN 或注意力機制提取方面情感信息的方法;第2 類為基于RNN 和注意力機制的方法,即同時使用RNN 以及注意力機制提取方面情感信息的方法;第3 類為其他方法,包括使用卷積網絡或知識遷移等方法。
3.2.1 基于循環(huán)神經網絡或注意力機制的方法
1)TD-LSTM[4]:利用LSTM 網絡分別從文本序列首尾兩個方向開始進行序列情感信息編碼過程中,并將目標方面信息作為信息傳遞的終點,得到特定目標方面信息情感特征。
2)記憶網絡(memory network,MemNet)[7]:利用注意力機制多次從記憶空間中抽取方面情感信息,最終形成方面情感信息特征表示。3)注意力編碼網絡-全局向量(attentional encoder network-global vectors,AEN-GloVe)[18]:使用注意力機制替代RNN 對文本信息進行編碼,提取有效方面情感信息,從而以較輕量的模型以及資源占用提供有效的方面信息情感分類結果。
3.2.2 基于循環(huán)神經網絡和注意力機制的方法
1)ATAE-LSTM(attention-based LSTM with aspect embedding)[19]:在LSTM 網絡的輸入和輸出端均加入方面信息特征表示,強化方面信息對其特定情感信息傳遞的控制,并通過注意力機制對情感信息進行提取,形成最終方面信息情感分類特征表示。
2)交互注意力網絡(interactive attention networks,IAN)[9]:使用LSTM 網絡和注意力機制作為基本編碼組件,通過在上下文與方面信息之間相互學習注意力,分別得到上下文以及方面信息的特征表示,而后將兩者拼接得到當前方面信息的情感特征表示。
3)RAM(recurrent attention network on memory)[1]:使用Bi-LSTM 網絡編碼文本序列構造記憶信息,并通過位置權重適配針對當前方面信息的記憶,而后通過多層以非線性方式相連接的注意力機制獲取方面情感信息分類特征表示。
4)LSTM+SynATT+TarRep[20]:使用預定義目標方面信息加權和對當前目標方面信息進行重新表示,并在注意力機制中融入句法信息,底層使用LSTM 進行編碼。
3.2.3 其他方法
1)門控卷積網絡(gated convolutional network with aspect embedding,GCAE)[5]:使用不同大小卷積核提取文本中語言模式信息,并通過Tanh-Relu 門單元過濾出情感信息,構建當前方面信息情感分類特征表示。
2)PRET+MULT[21]:使用LSTM 和注意力機制作為底層編碼組件,通過共享預訓練模型參數(shù)以及多任務學習兩種方式將文檔級別的情感分類信息遷移到方面級別情感分析任務中,達到增強分類效果的目的。
3)TransCap(transportation system capability)[22]:通過構建遷移膠囊網絡,將文檔級別的情感標注信息遷移到方面級別情感分類任務中,以此來增強方面信息情感分類效果。
本文提出方法與對比方法的性能情況如表2所示。在表2中,帶“#”的測試數(shù)據(jù)取自文獻[1],帶“*”的測試數(shù)據(jù)取自文獻[22],其余數(shù)據(jù)取自各自論文中實驗結果數(shù)據(jù),分項最高分值使用加粗字體標記;測試結果數(shù)據(jù)在長度控制參數(shù)η=6 條件下得出??傮w上,從表格中可以看出,本文提出方法在所有方法中呈現(xiàn)出較高性能水平。同時,所有方法都存在Restaurant 評論數(shù)據(jù)測試結果好于Laptop 評論數(shù)據(jù)測試結果情況,說明在方面信息情感表達模式上,Laptop 評論比Restaurant 評論更加靈活多變,規(guī)律性更難被模型學習。另外樣本數(shù)據(jù)的不平衡性也可能是導致這種現(xiàn)象的原因之一。
表2 方法性能對比統(tǒng)計表Table 2 Statistical of method performance comparison
在“RNN&ATT”類方法中,TD-LSTM 方法僅使用了LSTM 網絡對文本信息進行編碼,在構建區(qū)分不同方面情感信息能力上將方面信息作為Bi-LSTM 編碼終點,但仍無法擺脫長距離文本信息在LSTM 網絡編碼過程中的信息丟失問題;在MemNet 方法中,僅使用多層注意力從記憶中提取情感信息,由于注意力本身傾向于關注高頻信息,且在多層注意力之間特征使用線性方式連接,使得該方法對正確情感信息的提取以及不同方面情感信息的區(qū)分能力均偏弱,在兩個數(shù)據(jù)集的測試結果上,與本文提出方法在準確率上的差距分別達到5.75%、3.29%,在F1 值指標上的差距分別達到8.42%、5.86%;AEN-Glove 方法雖未使用LSTM 網絡作為模型編碼組件,但是使用了Intra-MHA(intra multi-head attention)和Inter-MHA(inter multi-head attention)兩種注意力機制分別對上下文以及方面信息進行編碼,且在注意力編碼組件中加入了逐點的卷積變換操作進一步提取情感特征,整體性能水平比MemNet 有較大提升,在Restaurant 評論數(shù)據(jù)集上的測試準確率與本文提出方法相同,但在F1 值指標上,兩個數(shù)據(jù)集的測試結果上均弱于本文方法,分別存在1.98%、1.25% 的差距,說明在不同情感表達模式中正確提取情感信息的綜合能力上不如本文所提出方法。
在“RNN & ATT”類方法中,4 種方法均同時使用了LSTM 網絡以及注意力機制構建模型,但都僅將LSTM 網絡作為底層編碼組件,借以在各詞的特征表示中融入當前上下文信息,以便更好地適應當前語義環(huán)境。而本文在使用LSTM 網絡對文本進行底層編碼的基礎上,在多點情感信息以及局部情感信息的頂層特征表達上同樣使用了LSTM 網絡提取情感特征,充分利用其對短距離序列情感信息的優(yōu)異提取能力,故綜合性能水平均優(yōu)于此類中4種方法。ATAE-LSTM 方法與IAN 方法在模型架構上較為相近,但IAN 方法中引入了交互注意力機制,根據(jù)上下文對方面信息進行了重新編碼,使得測試結果略好于ATAE-LSTM 方法;RAM 方法與本文提出方法在性能水平上較為接近,原因在于構建記憶組件時不僅使用了LSTM 網絡融合上下文信息,而且加入了位置權重,在多層注意力使用上層間采用非線性連接,提高了對多方面情感信息識別能力;LSTM+SynATT+TarRep 方法在注意力使用上借助了句法信息,但目前句法信息解析易出現(xiàn)錯誤,導致在利用此類信息時實驗結果會出現(xiàn)波動;本文在模型中加入了詞性信息,雖也存在受詞性解析結果錯誤影響的問題,但利用了多模特征的相互確認與糾正得到一定改善,使綜合性能得到一定提升。
GCAE 方法僅使用卷積網絡以及特定門機制提取情感信息,雖然它的性能較弱,但其并行性好、計算速度快;PRET+MULT 方法和TransCap 方法中均利用了文檔級情感標注數(shù)據(jù)提升方面級情感分析任務,對于提升文本特征融合上下文信息的能力具有積極意義,但在應對多樣情感表達模式的情感判斷上能力較弱。
直覺上,文本中影響當前方面信息情感極性的詞語是有限的。為進一步分析多點情感特征提取過程中長度控制參數(shù)η對情感特征提取效果的影響,本文使η在[2,8]范圍內變化,得到如表3所示的實驗結果。從表3中可以初步看出,當長度控制參數(shù)η=6 時,得到各數(shù)據(jù)集測試最佳性能值。當2 ≤η<6 時,測試性能指標呈現(xiàn)波動上升趨勢,而當6<η≤8 時呈現(xiàn)下降趨勢。初步分析認為,在長度控制參數(shù)小于最佳參數(shù)值時,保留的多點情感信息缺乏不同方面信息情感極性區(qū)分能力,容易丟失重要情感信息,致使性能指標下降,而在大于最佳參數(shù)值時,由于保留的多點情感信息中摻雜部分無用信息,弱化了有益情感信息在最終方面信息情感特征表示中的作用,導致性能指標出現(xiàn)下降。
表3 長度控制參數(shù)效果Table 3 Results of length control parameter
為進一步驗證所提方法在最終方面情感特征融入各類特征有效性,本文進行了相關消融實驗,主要包括排除單點情感特征實驗(OURS-w/o-SSR)、排除多點情感特征實驗(OURS-w/o-MSR)、排除局部情感特征實驗(OURS-w/o-PSR)、排除多點與局部情感特征實驗(OURS-w/o-MSR&PSR)、排除單點與局部情感特征實驗(OURS-w/o-SSR&PSR)、排除單點與多點情感特征實驗(OURS-w/o-SSR&MSR),具體實驗結果如表4所示,其中,包含多點情感特征(MSR)實驗測試結果數(shù)據(jù)在長度控制參數(shù)η=6 條件下得出。
表4 消融實驗結果Table 4 Ablation results
從上述實驗結果可以看出,排除三類情感特征中的任意一種或兩種,性能指標均出現(xiàn)不同程度下降,表明三類特征對文本中方面信息情感極性判斷均發(fā)揮重要作用。在Laptop 評論數(shù)據(jù)集測試結果中,在分別排除了SSR(1)、MSR(2)、PSR(3) 情感特征后,準確率與F1值出現(xiàn)上升趨勢,而在分別保留SSR(4)、MSR(5)、PSR(6) 情感特征后,準確率與F1 值出現(xiàn)下降趨勢,初步表明在Laptop 評論數(shù)據(jù)集中,SSR、MSR、PSR 特征對最終方面信息情感極性判斷發(fā)揮作用依次減弱。在Restaurant 評論數(shù)據(jù)集測試結果中,僅排除PSR(3) 與僅保留PSR(6) 情感特征均出現(xiàn)同類組中最差性能指標結果,表明上述情感特征并非獨立發(fā)揮作用,而是在相互關聯(lián)中發(fā)揮作用,既相互印證又弱化彼此出現(xiàn)錯誤對整體性能的影響。為進一步說明模型在解決多方面信息文本中不同方面信息情感同質化、中性方面信息情感化問題的效果,在消融實驗的基礎上對多方面信息文本(MUL_AS)、多方面信息且存在不同極性情感類別的文本(MUL_DIF_AS)以及中性情感極性文本(NEU_AS)的情感分類性能進行了統(tǒng)計,具體數(shù)據(jù)見表5,其中Laptop 數(shù)據(jù)集對應上述三類文本數(shù)量分別為367、101 和169,Restaurant 評論數(shù)據(jù)集相應文本數(shù)量為818、219 和196。從表5可以看出,在兩個數(shù)據(jù)集上,均表現(xiàn)出保留情感特征的種類越多、分類效果越好的情況,說明各類情感特征在解決不同方面信息情感同質化、中性方面信息情感化問題上發(fā)揮重要作用;在MUL_AS、MUL_DIF_AS、NEU_AS 文本中,情感分類的性能呈現(xiàn)明顯下降趨勢,說明三類文本情感分類難度逐漸增加;在僅保留SSR(4、11)情感特征的實驗中,文本情感分類性能基本均為最低水平,說明MSR 和PSR 在多方面信息以及中性方面信息的情感分類上發(fā)揮重要作用,同時在去除PSR(3、4、5、10、11、12)情感特征的實驗中,中性方面信息情感分類水平均處于較低水平,再次說明了其在中性方面信息情感分類上發(fā)揮的重要作用。
表5 三類方面信息情感分類性能Table 5 Performance based on three kinds of sentiment classification information
表6展示了消融實驗中對特定樣本注意力分布以及情感類別跟蹤結果。其中,序號1 的數(shù)據(jù)為本文完整模型下數(shù)據(jù),序號2~6 的數(shù)據(jù)分別對應于表3中1~5 的方法,由于方法6中僅保留了局部情感特征,故沒有注意力數(shù)據(jù)。
從表6可以看出:注意力隨著保留情感特征的不同發(fā)生相應變化。在本文完整模型1 中,方面信息“Indian”“food”對上下文的注意力分布集中在“know”“real”“n’t”“it”幾個詞語上,較為準確地表達出方面信息情感;在排除MSR(3) 和僅保留SSR(5) 情感特征的兩個模型中均出現(xiàn)了注意力過于集中的情況,表現(xiàn)出傳統(tǒng)注意力機制的關注偏置問題;在排除SSR(2)和僅保留MSR(6) 情感特征的兩個模型中能明顯看出,由于MSR 的作用,上下文中各詞的注意力分布趨于平緩,反映出MSR 能夠有效緩解傳統(tǒng)注意力過于關注高頻信息的問題,強化上下文中高頻信息以外詞語對情感特征的作用。
表6 特定樣本注意力分布以及情感類別跟蹤結果Table 6 Tracking results of Attention distribution and sentiment of specific sample
本文針對方面信息情感分類任務,提出一種基于多模特征融合的方面信息情感分類方法,根據(jù)方面信息情感表達模式不同,區(qū)分為單點情感信息、多點情感信息、局部情感信息三類。在實現(xiàn)方式上,結合注意力機制和循環(huán)神經網絡自身特點,使用多層注意力重點提取單點情感信息,利用注意力分值和長度控制參數(shù)提取離散情感詞作為多點情感信息,通過詞性與符號等位置信息提取局部情感信息,通過信息融合實現(xiàn)各類特征相互確認與糾錯,達到增強復雜情感表達模式下方面信息情感分類能力的目的。實驗結果表明,通過區(qū)分三類情感信息并提取融合相應特征的方式可以有效提升方面信息情感極性判斷效果,與對比方法相比,在兩個數(shù)據(jù)集上可以使準確率平均提高3.31%、4.17%,F(xiàn)1 值指標平均提高2.04%、4.89%,并且三類情感特征對整體分類效果的作用呈現(xiàn)強弱變化以及相互關聯(lián)的特點。在后續(xù)的工作中,將對各類特征的作用機理進行深入研究,進一步優(yōu)化模型對特征的提取與利用效果。