劉璐瑤 張換香 張景 惠麗峰
摘? 要: 方面級情感分類旨在確定句子中特定方面的情感極性。獲取深層次方面級語義情感信息和方面級標記數(shù)據(jù)的缺乏是本領域研究的兩個難點。本文提出一種基于語義注意力機制和膠囊網(wǎng)絡的混合模型(SATTCap)。運用方面級歸納式遷移方式,將易獲取的文檔級評論知識中的情感語義遷移到方面級情感語義中,輔助方面級情感分類。另外基于重構語義依存的注意力機制提取深層次特征信息,采用方面路由方法,將深層次的方面級語義表示封裝到語義膠囊中,然后采用Softmax預測。在公共數(shù)據(jù)集SemEval2014上對本文方法進行評估,結果表明,該模型在方面級情感分類任務上的表現(xiàn)是有效的。
關鍵詞: 方面級; 情感分類; 注意力機制; 膠囊網(wǎng)絡
中圖分類號:TP18? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)06-65-04
Semantic mining model based on aspect-level sentiment classification
Liu Luyao1, Zhang Huanxiang2, Zhang Jing3, Hui Lifeng2
(1. Inner Mongolia University of Science and Technology, School of Information Engineering, Baotou, Inner Mongolia 014010, China;
2. Inner Mongolia University of Science and Technology, School of Innovation and Entrepreneurship Education;
3. Inner Mongolia University of Science and Technology, School of Science)
Abstract: Aspect-level sentiment classification aims to determine the polarity of a particular aspect of a sentence. Obtaining deep aspect-level semantic sentiment information and the lack of aspect-level labeled data are two difficulties in this field. In this paper, a hybrid model based on semantic attention mechanism and capsule network (SATTCap) is proposed. The aspect-level inductive transfer method is used to transfer the sentiment semantics from easily accessible document-level comment knowledge to aspect-level sentiment semantics, which assists aspect-level sentiment classification. In addition, the deep feature information is extracted based on the attention mechanism of reconstructed semantic dependency. The deep aspect-level semantic representation is encapsulated into the semantic capsule by the aspect routing method, and then Softmax is used for sentiment prediction. The proposed method is evaluated on the public dataset SemEval 2014. Experimental results show that it is effective in the performance of aspect-level sentiment classification task.
Key words: aspect-level; sentiment classification; attention mechanism; capsule network
0 引言
方面級情感分析是細粒度情感分類任務。目的是預測句子相對特定方面的情感極性。傳統(tǒng)的方面級情感分類任務通常忽略了詞間語義的重要性,難以準確地對方面級文本進行分類。鑒于此,本文提出了一種基于語義注意力機制和膠囊網(wǎng)絡的方面級情感分類模型(SATTCap)。通過句法依賴關系獲得句子的局部注意信息,可有效地提取句子的特征信息。進一步,為獲取深層次方面級語義情感信息,本文提出基于重構語義依存的注意力機制來提取深層次特征信息,進行方面級情感分類。此外,基于方面級標記數(shù)據(jù)的缺乏是本領域研究的一個難點,因此,本文從在線網(wǎng)站輕松獲取文檔級標記的數(shù)據(jù),將文檔級評論知識中的情感語義遷移到方面級情感語義中,輔助方面級情感分類。在兩個公開數(shù)據(jù)集上評估了該模型,實驗結果證明了我們的模型的有效性。
1 相關工作
近年來,一些基于深度學習的方面級情感分類方法被提出,取得了良好的結果。例如,Tang等人[1]提出一種目標依賴LSTM (TD-LSTM)模型來捕捉方面詞與其上下文之間的關聯(lián)。Li等人[2]提出一種遷移網(wǎng)絡,該網(wǎng)絡從雙向RNN層產(chǎn)生信息中提取和方面相關的特征。為進一步考慮詞間的語義相關性。Ma等人[3]將常識知識結合到深度注意神經(jīng)序列模型中以提升方面級情感分析性能。Bao等人[4]在注意模型中利用詞典信息強化了關鍵信息,使模型變得更靈活和健壯。Pu等人[5]設計了一種以多任務學習方式將依賴知識轉(zhuǎn)移到方面級情感分析的注意機制模型。
許多研究將膠囊神經(jīng)網(wǎng)絡及圖卷積網(wǎng)絡模型運用到了情感分析中。如Gong等人[6]在膠囊網(wǎng)絡的基礎上設計了兩種動態(tài)路由策略,來獲得上下文表征。Chen等人[7]采用膠囊網(wǎng)絡及遷移學習來共同學習方面上下文信息。Chen等人[8]結合詞匯依賴圖通過自注意網(wǎng)絡的潛在圖的信息獲得方面表征。Hou等人[9]將依賴樹等句法結構與圖神經(jīng)網(wǎng)絡結合,通過依賴關系學習方面情感信息。He等人[10]基于LSTM模型提出了一個多任務框架,將方面級任務與文檔級任務結合在一起。受此啟發(fā),本文運用歸納遷移方法,將易獲取的文檔級評論知識中的情感語義遷移到方面級情感語義中,輔助方面級情感分類。
2 情感分析模型
2.1 模型定義
給定句子[S=w1,…,wa,…,wL],其中[L]表示單詞數(shù)量,[wa]是句子的一個方面,方面級情感分類任務目的是確定句子相對于方面[wa]的情感極性。
2.2 SATTCap模型
SATTCap模型如圖1所示,由文本嵌入、特征提取、方面信息融合和情感預測四部分構成。文本嵌入是將句子轉(zhuǎn)換成輸入向量。特征提取是通過BiLSTM(雙向長短期記憶)和局部Attention提取重要的上下文特征。方面信息融合旨在根據(jù)上下文融合卷積提取的含有方面的特征,計算上下文的方面權重。情感分類是生成類膠囊對情感極性進行預測。
2.2.1 文本嵌入
文本嵌入是將輸入的句子轉(zhuǎn)換成向量,本文分為單詞查找層和位置查找層,這兩層分別映射成兩個向量列表,將其拼接形成最終的輸入向量。設[Ew]為預先訓練好的單詞嵌入查找表,由此將句子[S]中單詞序列映射成單詞向量列表[e1,…,ea,…,eL]。此外使用了另一個位置查找層。對于方面級任務,通過計算從每個上下文單詞到方面[wa]的絕對距離,我們可以得到[S]的附加位置序列。對于文檔級任務位置序列為零序列。設[Ep]是具有隨機初始化的位置嵌入查找表,位置查找層將位置序列映射到位置向量列表[p1,…,pa,…,pL]。每一個單詞的最終表示形式為[xi=ei⊕pi1≤i≤L],句子的輸入向量表示為[X=x1,…,xL]。
2.2.2 特征提取
⑴ 句子編碼層
為了獲取句子的上下文信息,通過BiLSTM網(wǎng)絡,對輸入句子進行編碼。對于前向LSTM,給出隱藏狀態(tài)[ht-1]和單詞嵌入[xi],計算出隱含狀態(tài)[ht=lstmxi,ht-i]。后向LSTM與前向LSTM類似,只是輸入序列相反。將二者的隱藏狀態(tài)拼接,形成每個單詞的隱藏狀態(tài),[ht=tanhht;ht],最終獲得句子的上下文表征為[H=h1,…,hn]。
⑵ 基于語義距離的局部注意力層
考慮到語義相關性對語義依存分析的重要性,基于傳統(tǒng)的語義依存樹中的依存關系,本文增加了節(jié)點之間的相似度信息,計算方面詞及所有與其連通的詞之間的相關性,根據(jù)詞間相關性大小調(diào)整依存樹的結構。假設依存樹由[T=R,N,E]給出,其中[N]是包括根節(jié)點[R]在內(nèi)的節(jié)點集合,[N=nr,n1,…,na,…,nL],其中[na]表示方面節(jié)點,[N]的每個節(jié)點[ n]包含節(jié)點信息[in=v,p,la∈N],其中[v]表示節(jié)點值,[p]表示該節(jié)點的詞性,[la]表示節(jié)點相對方面節(jié)點[na]的位置。[E]是有向加權邊的集合。每條[ei→j∈E]有一個權值[We=d],其中[d]表示[ei]和[ej]之間的依存關系。重構依存樹的算法詳見算法1,部分過程如下:
l 引入相關性函數(shù)[Snni,na=ni?nani×na]計算節(jié)點[na]其他所有節(jié)點的相關性。
l 如果[Snni,na>Snnj,na],則[ini]和[inj]進行節(jié)點信息交換。
l 對于T中任意兩個節(jié)點[ni]和[nj],如果[ei→j≠?],則更新[We]。
算法1 重構依存樹算法
[輸入:a tree and aspect nodes 輸出:a new tree 1: FOR [ni]IN[T]: 2: computed correlation? [Snni,na] 3:? ?FOR [nj] IN [T] : 4:? ?computed correlation [Snnj,na] 5:? ? ?IF ([Snni,na>Snnj,na]): 6:? ? ? ?switching [ini] and [inj] 7:? ? ?END IF 8:? ? IF([ei→j≠?]): 11:? ? ? [We=d] 12:? ? END IF 13:? END FOR 14: END FOR ]
圖2中,基于傳統(tǒng)語義和基于重構語義距離在句子“菜品是別人推薦的特別清新爽口”中方面詞“菜品”的比較,“清新”和“爽口”是表示情感的關鍵詞,基于位置的距離標記分別為6和7,基于傳統(tǒng)語義距離標記分別為5和7,基于重構語義距離標記分別為1和2,由此可見,基于重構語義的距離能夠更好的整合語義信息。
引入注意力機制,選取語義距離內(nèi)[C]個詞[ei],[i∈1,C]計算注意力權重。[M=tanhWhHWeei⊕eN],[ α=softmaxWTM],[ r=HαT], 獲得句子最終的特征為[R=r1,…,rc]。計算每個詞[ei]與隱藏信息[H]的注意力權重[α=α1,…,αc],對于沒有含有目標詞的文檔級句子,注意力權重[αi]設為1。進行[C]次迭代來獲取文檔級句子特征[R]。
⑶ 方面信息融合
將上一層得到的特征聚合為一組與方面相關的語義膠囊,用方面路由的方法來計算方面權重[βi=sigmoidR+T*Ea+b],[Ea]是方面嵌入,[T]是一個傳遞矩陣,用于將[Ea]映射為標量值和基本偏差。生成的路由權重[βi]將方面信息與其上下文相融合。
對于文檔級任務,文檔中沒有方面信息,所以將文檔級任務中的[βi]設置為1。計算得到方面路由權重[β=β1,…, βC],然后與上一層的特征信息進行元素乘法得到與方面相關的特征[M=R⊙β]。
⑷ 情感分類
引入了兩種類型的類膠囊共六個。每個類膠囊分別用于計算兩個任務每個類的分類概率。語義膠囊[i]生成指向類膠囊[j]的“預測向量”[uji=WijMi],[Wij]是權重矩陣,[Mi]是上一層到分類層的輸入向量,將上一層生成的所有“預測向量”與耦合系數(shù)[Cij]相乘求和,獲得類膠囊[j]的向量表示[Sj],最后使用非線性擠壓函數(shù),得到類膠囊[j]的最終表示[vj=squashSj]即情感預測值。
3 實驗及結果分析
3.1 實驗數(shù)據(jù)集
本文使用的數(shù)據(jù)集是SemEval2014 Task 4中公開的Restaurant和Laptop,分別帶有三種極性標簽:積極、中立、消極。20%作為測試集,剩余80%進行訓練。另外,文檔級數(shù)據(jù)集是Yelp、Amazon和Twitter,其所有文檔都附帶了五星評級(1-5)。我們設定得分<3的是消極,=3的為中立,>3的積極。每個數(shù)據(jù)集包含30000個具有平衡類標簽的樣本。模型中分成兩種組合:{Restaurant+Yelp, Laptop+Amazon},{Restaurant+Twitter,Laptop+Twitter}。本文研究模型在各種類型的輔助信息的執(zhí)行情況。表1顯示了這些數(shù)據(jù)集的統(tǒng)計情況。
3.2 實驗參數(shù)設置
本實驗使用840B的Glove作為預訓練的詞向量,使用學習率為0.001,批量為128的Adam優(yōu)化器如果在5次運行中性能沒有改善,就停止訓練。以準確度(Acc)和F1-score值(F1)作為評價指標,指標值越高性能越好。
3.3 實驗及結果分析
為評估本文模型的有效性,我們將與基線模型ATAE-LSTM,IAN,PBAN,RAM,CEA,IARM,GCAE,TransCap進行對比。實驗結果如表2所示。
本文模型在兩個數(shù)據(jù)集上都優(yōu)于其他基線。在基于LSTM的模型中,PBAN和IAN是注意力機制方法獲得了較高的性能,IAN是通過對方面應用注意機制而不是簡單地平均詞嵌入來加強目標特征。GCAE是基于CNN的模型,無法捕捉上下文單詞之間的長期依賴關系,表現(xiàn)最差。我們的模型可以有效提高評論文本情感分析的精度與準確度。另外,為了評估語義距離的有效性,以目標詞為中心,在固定的[C]個窗口內(nèi)按位置選擇注意的詞。實驗結果如表3所示,可以發(fā)現(xiàn)基于語義距離的詞注意比基于位置距離更有效。
為評估文檔級任務對模型的影響,通過加載不同文檔級數(shù)據(jù),得到性能變化如表4所示。結果顯示{Restaurant+Yelp, Laptop+Amazon}提供了有用的領域的知識,但它們的標簽不太準確,所以影響較小。{Restaurant+Twitter, Laptop+Twitter}中的標簽是手動注釋的,比較可靠,性能表現(xiàn)明顯。
4 總結
本文基于方面級情感分析任務,提出了一種基于語義注意機制和膠囊網(wǎng)絡的混合模型。使用語義距離更好地建模局部上下文,更好的提取語義特征。引用了一個遷移學習框架,將文檔中情感信息遷移到方面級任務輔助情感分類。另外采用膠囊網(wǎng)絡中動態(tài)路由進行方面信息表示。在兩個SemEval數(shù)據(jù)集的實驗表明,我們的模型具有較好的性能。
參考文獻(References):
[1] D. Tang, B. Qin, X. Feng, et al, Effective LSTMs for
target-dependent sentiment classification[J].Computer Science,2015:3298-3307
[2] X. Li, L. Bing, W. Lam, et al, Transformation networks for
target-oriented sentiment classification[J]. 56th Annual Meeting of the Association for Computational Linguistics, ACL, Melbourne, Australia,2018:946-956
[3] Y. Ma, H. Peng, T. Khan, et al, Sentic LSTM: a hybrid
network for targeted aspect-based sentiment analysis[J].Cogn. Comput,2018,10(4):639-650
[4] L. Bao, P. Lambert, Attention and lexicon regularized
LSTM for aspect-based sentiment analysis[C]//57th Annual Meeting of the Association for Computational Linguistics,2019:253-259
[5] L. Pu, Y. Zou, J. Zhang, et al., Using dependency
information to enhance attention mechanism for aspect-based sentiment analysis[M], Natural Language Processing and Chinese Computing-8th {CCF} International Conference,2019:672-684
[6] J. Gong, X. Qiu, S. Wang, and X. Huang. 2018.
Information aggregation via dynamic routing for sequence encoding[C]//in Conference on Computational Linguistics (COLING 2018),2018:2742-2752
[7] Z. Chen, T. Qian. Transfer capsule network for aspect level
sentiment classification[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,2019:547-556
[8] C. Chen, Z. Teng, and Y. Zhang, Inducing target specific
latent structures for aspect sentiment classification[C]//Proceedings of the 2020 Conference on Empirical Methods in NaturalLanguage Processing,2020:5596-5607
[9] X. Hou, P. Qi, G. Wang, et al, Graph ensemble learning
over multiple dependency trees for aspect-level sentiment classification[C]//Proceedings of the 2021 Conference of the North American Chapter ofthe Association for Computational Linguistics,2021:2884-2894
[10] R. He,W S. Lee,H T. Ng, et al. Exploiting Document
knowledge for aspect-level sentiment classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,2018:579-585