萬紅新 彭欣悅
DOI:10.19850/j.cnki.2096-4706.2021.08.008
摘? 要:隨著社交媒體的發(fā)展,網(wǎng)絡(luò)上產(chǎn)生了大量的評論類文本數(shù)據(jù),這些數(shù)據(jù)蘊含了豐富的情感信息。對這些文本數(shù)據(jù)進行情感極性分類,需要提取評價對象-情感詞的匹配關(guān)系。文章提出了基于約束LDA主題模型的評價對象-情感詞關(guān)系提取模型CE-LDA,將語義先驗知識嵌入到LDA模型,在有效提取評價對象和情感詞的同時,發(fā)現(xiàn)它們之間的關(guān)聯(lián)性。通過實驗分析,CE-LDA模型對于評價對象和情感詞及其關(guān)聯(lián)關(guān)系的提取具有較好的效果。
關(guān)鍵詞:語義知識;主題模型;約束嵌入;情感分類
中圖分類號:TP311? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)08-0027-03
Extraction of Association Relationship between Evaluation Object and
Emotion Words Based on Constrained LDA
WAN Hongxin,PENG Xinyue
(School of Mathematics and Computer Science,Jiangxi Science & Technology Normal University,Nanchang? 330038,China)
Abstract:With the development of social media,a large amount of comment text data has been generated on the internet,which contain rich emotion information. To classify the sentiment polarity of these text data,it is necessary to extract the matching relationship between the evaluation object and the emotion words. An the evaluation object and the emotion words relationship extracting model CE-LDA based on the constrained LDA topic model is proposed,which embeds semantic prior knowledge into the LDA model,and discovers the relevance between evaluation object and emotion words while effectively extracting them. Through experimental analysis,the CE-LDA model has a good effect on the extraction of evaluation object,emotion words and their associated relationships.
Keywords:semantic knowledge;topic model;constraint embedding;emotion classification
0? 引? 言
互聯(lián)網(wǎng)的發(fā)展普及使得網(wǎng)絡(luò)上產(chǎn)生了大規(guī)模的評論類文本數(shù)據(jù)。如何有效提取海量文本中存在的情感知識,是文本數(shù)據(jù)挖掘面臨的挑戰(zhàn)問題。應(yīng)用情感分析技術(shù)可以對評論類文本進行情感極性分類,了解輿情走向,從而實現(xiàn)輿情管控和疏導(dǎo)。要有效實現(xiàn)情感分類,首先要能夠提取評價對象和情感詞,并發(fā)現(xiàn)它們之間的匹配關(guān)系,在此基礎(chǔ)上才可能進行情感分析。
現(xiàn)有評價對象-情感詞提取模型和算法存在的主要問題有:
(1)語義先驗知識的提取。中文文本語義結(jié)構(gòu)復(fù)雜,模型對于中文語義難以理解,需要提取語義信息引入到模型。
(2)中文文檔的有效表示。網(wǎng)絡(luò)文本的數(shù)據(jù)量極其龐大,需要有效降低文檔表示的向量維度。
(3)模型的語義嵌入。需要設(shè)計有效的語義知識嵌入機制,提高模型對中文文本的語義理解能力。
針對已有模型在評價對象和情感詞提取中存在的問題,本文提出了加入語義知識的CE-LDA(Constraint Embedded LDA)模型,提升模型對于復(fù)雜文本中評價對象和情感詞的識別度。
1? 研究現(xiàn)狀
LDA(Latent Dirichlet Allocation)主題模型[1]是一種概率型文本生成模型,可以利用模型進行關(guān)鍵詞聚類,從而提取評價對象、評價詞及其關(guān)聯(lián)關(guān)系。
譚旭等(2018)[2]結(jié)合文本解析和深度學(xué)習(xí)來實現(xiàn)文本數(shù)據(jù)的多層次特征選擇及情感極性分類,并結(jié)合LDA模型和時間序列分析實現(xiàn)動態(tài)的多粒度的情感分析;Titov等(2008)[3]將LDA主題模型擴展為廣粒度的MG-LDA(Multi-Grain LDA)模型,進行了全局評價對象和局部評價對象的區(qū)分;Lin等(2009)[4]對LDA模型進行改進,將情感特征作為層結(jié)構(gòu)加入LDA,設(shè)計了JST(Joint Sentiment Topic)模型來抽取評價對象和評價詞;Ozyurt等(2020)[5]考慮到數(shù)據(jù)稀疏問題和缺乏共現(xiàn)模式,設(shè)計了SS-LDA(Sentence Segment LDA)模型用于提取商品特征屬性;Thenmozhi等(2019)[6]提出了基于LDA的話題提取模型,跟蹤和分析可以為各種領(lǐng)域的決策意見提供參考的情感信息;Albuquerque等(2019)[7]提出了基于適用于不同類型數(shù)據(jù)的Rlda分析模型:模型的數(shù)據(jù)聚類分析可以應(yīng)用于生態(tài)、遙感、營銷和金融等不同領(lǐng)域;彭云等(2017)[8]提出了語義關(guān)聯(lián)介入的SRC-LDA(Semantic Relation constrained LDA)模型,用語義先驗知識嵌入到LDA模型,提高模型對于上下文關(guān)系的理解力;Lu等(2011)[9]利用種子詞語來強化主題和評價詞之間的關(guān)系,提出了STM(Sentiment Topic Model)主題模型,可以實現(xiàn)文檔級別和句子級別的主題提取;Park等(2019)[10]通過基于LDA的主題建模來識別和預(yù)測文本主題信息,在加權(quán)參數(shù)的幫助下提取與未來相關(guān)的風(fēng)險主題;崔雪蓮等(2018)[11]基于LDA模型提出了無監(jiān)督的評論文本的情感分析主題模型,利用情感詞典的詞語褒貶性進一步計算,從而獲取情感極性分類。
2? 模型設(shè)計
在LDA模型中嵌入詞語的語義關(guān)系先驗知識,來影響LDA模型的詞語屬于主題的概率分布,發(fā)現(xiàn)更多的符合語義要求的評價詞和情感詞,并通過主題聚類來挖掘它們之間的關(guān)聯(lián)關(guān)系。語義關(guān)系主要考慮評價對象詞語之間的主題必然關(guān)系和互斥關(guān)系。
2.1? 評價對象之間的必然語義關(guān)系
必然語義關(guān)系是指這類評價對象詞語在主題分布中,盡可能地分配到同一主題。評價對象的必然語義聯(lián)系主要考慮同義詞,同義詞在主題分配時,分配到同一主題的概率要高于非同義詞,這樣可以提高主題對于評價對象的內(nèi)聚度,如商品評論中的“價格”“價位”和“價碼”等詞語,如圖1所示,其中有邊直接連接的評價對象具有必然語義關(guān)系。利用同義詞詞典可以實現(xiàn)評價對象的必然語義關(guān)系。
2.2? 評價對象之間的互斥語義關(guān)系
利用句法依存和詞性分析,可以實現(xiàn)互斥語義關(guān)系的提取,如以上2個例句中的評價對象可表示為如圖2所示,其中有邊直接連接的評價對象具有互斥關(guān)系。
互斥語義關(guān)系是評價對象詞語在主題分布中,盡可能地分配到不同主題。這種關(guān)系可以從句式結(jié)構(gòu)中進行挖掘,一般一個完整句子中評價對象不會重復(fù)出現(xiàn),如商品評論中的句子“不但價格合適,而且外形也很漂亮”“色彩很亮,重量很輕,運行速度也飛快!”等,這些句子中的評價對象基本不會重現(xiàn),可以利用這種互斥關(guān)系來影響主題的詞語分配。
2.3? CE-LDA模型設(shè)計
CE-LDA模型在標準LDA模型基礎(chǔ)上,將提取的語義信息引入到主題-詞語分配,提高LDA模型的語義關(guān)系理解能力。
2.3.1? 語義約束
在詞語進行主題分配時,查找詞語的必然語義關(guān)系集合Sm和互斥語義關(guān)系集合Sc,如果詞語存在于相應(yīng)集合中,則和主題已分配的詞語進行關(guān)系確認,并找出已分配詞語和當前詞語的關(guān)系。如果主題與詞語關(guān)系屬于Si,則增加當前詞語屬于該主題的概率,否則減少屬于該主題的概率。
2.3.2? CE-LDA模型
CE-LDA模型依然保持為三層結(jié)構(gòu):文檔層、主題層和詞語層。只是在主題-詞語分配時,需要根據(jù)當前詞語與已分配主題詞語的必然關(guān)系和互斥關(guān)系進行概率的調(diào)整。CE-LDA模型設(shè)計如圖3所示,符號說明如表1所示。
2.3.3? 評價對象和情感詞關(guān)聯(lián)關(guān)系提取算法
算法主要考慮主題-文檔分布θ、主題-詞語分布φ以及受約束的主題-詞語分布φm和φc,具體步驟為:
(1)選擇主題分布θ~Dirichlet(α)。
(2)選擇詞語分布φ:
1)if(r=1)選擇詞語分布φc~ζc·Dirichlet(β);(ζc是互斥語義關(guān)系權(quán)重參數(shù))。
2)else if(r=2)選擇詞語分布φm~ζm·Dirichlet(β);(ζm是必然語義關(guān)系權(quán)重參數(shù))。
3)else選擇分配概率φ~Dirichlet(β)。
(3)對于待分配的文檔詞語w:
1)主題分布概率z~θ。
2)if(w∈Sm)選擇詞語w~φm。
3)if(w∈Sc)選擇詞語w~φc。
4)else選擇詞語w~φ。
(4)文檔-主題分布參數(shù)θ和詞語-主題分布參數(shù)φ如式(1)和(2)所示。
3? 實驗比較和分析
實驗數(shù)據(jù)來源于淘寶購物平臺用戶的“平板電腦”商品評論文本數(shù)據(jù),共采集98 647篇文檔,包含374 632個句子。對商品評論文本數(shù)據(jù)的評價對象-情感詞的關(guān)聯(lián)關(guān)系提取進行比較,主要考察關(guān)系提取的召回率,對比的模型包括:JST模型、STM模型和CE-LDA模型。用召回率來評估評價對象-情感詞的關(guān)聯(lián)關(guān)系的提取率,如圖4所示。其中,橫坐標表示主題個數(shù),縱坐標表示召回率。
從圖4不同模型的召回率對比可以發(fā)現(xiàn),隨著主題個數(shù)的增加,召回率都在提升,這是由于主題詞語增加后,必然會發(fā)現(xiàn)更多的關(guān)聯(lián)關(guān)系。CE-LDA模型的提取率優(yōu)于其他模型,尤其是當主題數(shù)設(shè)置為90~120個時,其他模型的關(guān)系提取率沒有顯著提升,而CE-LDA模型的提取率明顯高于其他模型。由于在CE-LDA模型中嵌入了2類語義約束,使得主題內(nèi)部的內(nèi)聚度提高,而主題之間的耦合度減少。
4? 結(jié)? 論
在海量的中文網(wǎng)絡(luò)文本數(shù)據(jù)挖掘中,復(fù)雜的語義關(guān)系增加了評價對象和情感詞的挖掘難點。CE-LDA模型對現(xiàn)有LDA模型進行了改進,提出了約束型的LDA主題模型,將詞語間的必然語義關(guān)系和互斥語義關(guān)系加入LDA。通過對不同模型的評價對象和評價詞關(guān)聯(lián)關(guān)系提取進行比較和分析,發(fā)現(xiàn)本文提出的CE-LDA模型的召回率優(yōu)于其他模型。通過實驗數(shù)據(jù)表明,在LDA模型中引入語義先驗知識,可以改善LDA概率型模型對于詞語語義關(guān)系理解的不足,在主題-詞語分配中提高詞語的主題內(nèi)聚度,同時降低詞語的耦合度,提升主題對詞語關(guān)系的識別度和區(qū)分度,從而更有效地提取評價對象詞、情感詞及其之間的關(guān)聯(lián)關(guān)系。
參考文獻:
[1] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003,3(3):993-1022.
[2] 譚旭,吳俊江,徐磊,等.面向深度學(xué)習(xí)的多維度中文網(wǎng)絡(luò)輿情分析 [J].小型微型計算機系統(tǒng),2018,39(7):1471-1477.
[3] TITOV I,MCDONALD R. Modeling online reviews with multi-grain topic models [C]//Proceedings of the 17th international conference on World Wide Web(WWW).New York:Association for Computing Machinery,2008:111-120.
[4] LIN C H,HE Y L. Joint sentiment/topic model for sentiment analysis [C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management(ACM CIKM).New York:Association for Computing Machinery,2009:375-384.
[5] OZYURT B,AKCAYOL M A. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis:SS-LDA [J].Expert Systems with Applications,2020,168:114-231.
[6] THENMOZHI M,INDIRA R,DHARANI R. Using Lexicon and Random Forest Classifier for Twitter Sentiment Analysis [J].International Journal of Computer Science and Engineering,2019,7(6):591-594.
[7] ALBUQUERQUE P,VALLE D,LI D J. Bayesian LDA for mixed-membership clustering analysis:The Rlda package [J].Knowledge-Based Systems,2019,163:988-995.
[8] 彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取 [J].軟件學(xué)報,2017,28(3):676-693.
[9] LU B,OTT M,CARDIE C,et al. Multi-aspect Sentiment Analysis With Topic Models [C]//Proceedings of the 11th IEEE International Conference on Data Mining Workshops(ICDMW).Vancouver:IEEE,2011:81-88.
[10] PARK I,YOON B,KIM S,et al. Technological Opportunities Discovery for Safety Through Topic Modeling and Opinion Mining in the Fourth Industrial Revolution:The Case of Artificial Intelligence [J].IEEE Transactions on Engineering Management,2019,99:1-16.
[11] 崔雪蓮,那日薩,劉曉君.基于主題相似性的在線評論情感分析 [J].系統(tǒng)管理學(xué)報,2018,27(5):821-827.
作者簡介:萬紅新(1970—),女,漢族,江西南昌人,教授,碩士,研究方向:數(shù)據(jù)挖掘、軟件工程;彭欣悅(2001—),女,漢族,江西宜春人,研究方向:軟件工程、數(shù)據(jù)庫技術(shù)。
收稿日期:2021-03-16
基金項目:江西省高校人文社科項目(JC191 17);江西省教育廳科技項目(GJJ201127);江西科技師范大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(2021 11318002)