趙煜,邵必林,邊根慶
(西安建筑科技大學(xué)管理學(xué)院, 710055, 西安)
一種融合詞序信息的多粒度文本話題情感聯(lián)合模型
趙煜,邵必林,邊根慶
(西安建筑科技大學(xué)管理學(xué)院, 710055, 西安)
針對(duì)基本話題模型只能抽取粗粒度上下文信息的問(wèn)題,通過(guò)對(duì)潛在狄里克雷分配(LDA)模型進(jìn)行擴(kuò)展,建立了一種利用詞序信息的多粒度話題情感聯(lián)合模型(MTSU-Col)。MTSU-Col模型客觀表達(dá)了詞匯、全局/局部話題、情感標(biāo)簽和詞序信息之間的關(guān)聯(lián)關(guān)系,使模型中話題和情感的建模更加符合文本的語(yǔ)義表達(dá),有效解決了現(xiàn)有話題、情感分析方法存在的領(lǐng)域依賴問(wèn)題,從而實(shí)現(xiàn)了文本多粒度話題信息和情感傾向信息的同步非監(jiān)督獲取。實(shí)驗(yàn)表明:利用MTSU-Col模型對(duì)文本進(jìn)行情感傾向性分類,可使綜合評(píng)價(jià)指標(biāo)F1值達(dá)到84%,整體性能與監(jiān)督分類方法支持向量機(jī)(SVM)類似,均優(yōu)于未采用詞序信息的分析方法。由于挖掘話題集合具有層次化、語(yǔ)義相關(guān)的特點(diǎn),因此MTSU-Col模型對(duì)觀點(diǎn)挖掘是可行、有效的。
話題模型;文本情感分析;聯(lián)合模型;詞序信息
網(wǎng)絡(luò)評(píng)論文本具有海量化、復(fù)雜化的特點(diǎn),促使人們利用自動(dòng)評(píng)論文本挖掘技術(shù)[1]進(jìn)行人工難以完成的深層次、智能化的評(píng)論文本分析。評(píng)論文本挖掘包括話題挖掘技術(shù)、文本情感傾向性分類技術(shù)以及觀點(diǎn)挖掘技術(shù)。話題挖掘技術(shù)主要抽取文本中的客觀信息[2],但無(wú)法抽取情感語(yǔ)義信息。情感傾向性分類技術(shù)利用各類文本分類算法判別文本的主客觀屬性或褒貶傾向?qū)傩訹3-4],這一類方法只能對(duì)整篇評(píng)論進(jìn)行情感分析,缺乏對(duì)話題等深層次語(yǔ)義對(duì)象的情感分析,因此無(wú)法進(jìn)行細(xì)粒度文本情感信息獲取。觀點(diǎn)挖掘技術(shù)在獲取客觀話題信息和主觀情感傾向性信息的基礎(chǔ)上,挖掘話題與子話題、話題與情感傾向信息之間的關(guān)聯(lián)信息[5-6],但評(píng)價(jià)特征集合沒(méi)有明確的語(yǔ)義關(guān)系[6],需要利用領(lǐng)域知識(shí)解決評(píng)價(jià)特征集合的冗余問(wèn)題[5]。
潛在狄里克雷分配(LDA)模型[7]是一個(gè)完全的生成模型,具有良好的數(shù)學(xué)基礎(chǔ)和拓展性,LDA模型及其擴(kuò)展模型在文本分類、情感分析等領(lǐng)域受到了越來(lái)越多的關(guān)注[8-12]。Lin等(記為L(zhǎng)in模型)在LDA模型中加入了情感標(biāo)記節(jié)點(diǎn),模型中文本與多個(gè)文本-話題條件分布相關(guān),詞匯生成需同時(shí)考慮話題和情感信息[10]。利用Lin模型進(jìn)行篇章級(jí)情感分析的整體效果優(yōu)于監(jiān)督分類方法,但Lin模型僅面向篇章級(jí)分析,無(wú)法挖掘評(píng)價(jià)特征之間的語(yǔ)義關(guān)系。Titov等提出了完整的評(píng)價(jià)特征挖掘方法和情感傾向性預(yù)測(cè)方法[11],由于需要外部信息來(lái)輔助情感傾向性判斷,屬于監(jiān)督學(xué)習(xí)方法。Jo等提出的方法[12]是以假定句子中所有的詞來(lái)自一致的話題和情感為前提條件,強(qiáng)制性地縮小了詞匯之間的主題聯(lián)系,與客觀情況并不相符。
針對(duì)上述研究存在的問(wèn)題,本文提出了一種利用詞序信息的多粒度話題情感聯(lián)合模型(MTSU-Col),用戶可以同步進(jìn)行評(píng)價(jià)對(duì)象挖掘和情感傾向性分類2個(gè)任務(wù)。該模型將LDA模型進(jìn)行擴(kuò)展,同時(shí)融入了文本的情感和話題信息,每個(gè)句子都采樣情感標(biāo)簽,每個(gè)詞都采樣全局/局部主題標(biāo)簽,利用詞序信息建模方法[13]使MTSU-Col模型更加貼近文本的真實(shí)語(yǔ)義。MTSU-Col模型采用非監(jiān)督學(xué)習(xí)方法,不需要任何領(lǐng)域相關(guān)的先驗(yàn)知識(shí),具有領(lǐng)域獨(dú)立性。實(shí)驗(yàn)表明,MTSU-Col模型挖掘的評(píng)價(jià)特征集合具有明確的語(yǔ)義關(guān)系,從而大量減少了冗余評(píng)價(jià)特征,篇章級(jí)情感傾向性分類的整體效果優(yōu)于一般的監(jiān)督分類方法。
MTSU-Col模型將話題分為全局話題和局部話題,全局話題混合分布固定不變,局部話題混合分布隨上下文環(huán)境變化。評(píng)論文本由短句構(gòu)成,由于字?jǐn)?shù)較少,短句通常是文本情感表達(dá)的基本單元,因此MTSU-Col模型在句子級(jí)采樣情感標(biāo)簽并引入滑動(dòng)窗口隨機(jī)變量中起到了記錄局部話題變化的作用。
假設(shè)語(yǔ)料庫(kù)中包含D個(gè)文檔,共有K1個(gè)全局話題,K2個(gè)局部話題;共有S種文本情感;文本d由H個(gè)句子構(gòu)成;每個(gè)滑動(dòng)窗口由M個(gè)句子構(gòu)成;每個(gè)句子由N個(gè)詞匯構(gòu)成。對(duì)語(yǔ)料庫(kù)進(jìn)行去重操作后,詞匯表中的詞匯數(shù)量為V。利用貝葉斯網(wǎng)絡(luò)表示MTSU-Col模型如圖1所示。
圖1 MTSU-Col模型
MTSU-Col模型生成過(guò)程的描述如下:當(dāng)xn=0詞匯由話題、情感相關(guān)的詞匯概率分布采樣;當(dāng)xn=1詞匯采樣自詞匯連接的概率分布。MTSU-Col模型生成過(guò)程如下。
Gibbs采樣算法是MCMC(Markov Chain Monte Carlo)算法的一種,多用于貝葉斯圖模型求解中。與變分貝葉斯方法相比較,Gibbs采樣方法描述簡(jiǎn)單且容易實(shí)現(xiàn),是目前LDA及擴(kuò)展模型最常用的參數(shù)估計(jì)方法[8,14]。本文采用Gibbs采樣算法對(duì)MTSU-Col模型進(jìn)行推理。
為了描述方便,定義wi為詞匯記號(hào),表示wi出現(xiàn)在第d個(gè)文本的第n個(gè)位置,屬于文本d的第h個(gè)句子;lh表示wi所屬句子的情感標(biāo)注結(jié)果;zi表示詞匯記號(hào)wi所屬話題。依據(jù)MTSU-Col模型生成過(guò)程分為2種情況。
(1)當(dāng)xi=0時(shí),wi出現(xiàn)在句子h的滑動(dòng)窗口o中,屬于全局話題z,且lh=l時(shí)的條件后驗(yàn)分布如下
P(zi=z,ρi=1,oi=o,lh=l|z-i,ρ-i,o-i,l-h,W)
(1)
(2)當(dāng)xi=1時(shí),wi根據(jù)詞匯連接的概率分布產(chǎn)生,因此當(dāng)wi出現(xiàn)在句子的滑動(dòng)窗口中,屬于全局話題,且lh=l的條件后驗(yàn)分布如下
P(zi=z,ρi=1,oi=o,lh=l|z-i,ρ-i,o-i,l-h,W)
(2)
當(dāng)xi=1時(shí),詞匯記號(hào)屬于局部話題的條件后驗(yàn)分布同理可得。
當(dāng)xi=1時(shí),xi的條件后驗(yàn)分布如下
P(xi|x-i,W,z,ρ,o,l)=
(3)
利用馬爾可夫鏈?zhǔn)諗繝顟B(tài)下的抽樣樣本,舍棄詞匯記號(hào),將w作為唯一性詞,估計(jì)MTSU-Col模型參數(shù)如下
(4)
(5)
(6)
(7)
MTSU-Col模型主要用于文本情感傾向性分類和全局/局部話題挖掘2個(gè)任務(wù),因此本文依據(jù)這2個(gè)任務(wù)對(duì)MTSU-Col模型進(jìn)行驗(yàn)證。
3.1 數(shù)據(jù)集預(yù)處理
本文實(shí)驗(yàn)數(shù)據(jù)集由3部分構(gòu)成,第1部分來(lái)自中科院譚松波研究員收集的中文情感挖掘語(yǔ)料集,選取其中酒店類評(píng)價(jià)文本,第2和第3部分是搜集于主流電商網(wǎng)站的關(guān)于書(shū)籍和手機(jī)的評(píng)價(jià)文本。針對(duì)短文本的特點(diǎn),預(yù)處理過(guò)程還采取3項(xiàng)特殊措施,分別是:①僅選取出現(xiàn)頻次高于4次的詞匯進(jìn)行實(shí)驗(yàn);②將“,”號(hào)也作為分句的標(biāo)志;③將包含感情色彩的“?”、“!”號(hào)作為詞匯對(duì)待。
情感詞典是提高文本情感傾向性分類效果的有效手段。本文首先采用知網(wǎng)提供的負(fù)面和正面評(píng)價(jià)詞語(yǔ)作為基礎(chǔ)情感詞典,再對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),從基礎(chǔ)情感詞典中篩選出頻率高于30的情感詞,構(gòu)成實(shí)驗(yàn)情感詞典,整個(gè)構(gòu)造過(guò)程與領(lǐng)域無(wú)關(guān)。在MTSU-Col模型推斷的初始化階段,若實(shí)驗(yàn)詞匯記號(hào)出現(xiàn)在情感詞典中,則將詞匯記號(hào)情感傾向性初始化為對(duì)應(yīng)值。
3.2 話題挖掘和情感分類實(shí)驗(yàn)
對(duì)MTSU-Col模型推斷時(shí),超參數(shù)賦值依據(jù)文獻(xiàn)[10-11,13-14]中的經(jīng)驗(yàn)值;全局話題數(shù)的確定通常采用多次實(shí)驗(yàn)調(diào)整法進(jìn)行設(shè)置[10-11],本文也采用該方法;與文獻(xiàn)[11]處理方法一致,實(shí)驗(yàn)將局部話題數(shù)設(shè)置為評(píng)價(jià)特征數(shù);情感標(biāo)注類別數(shù)設(shè)置為2。在LDA模型及其擴(kuò)展模型的推斷過(guò)程中,常用實(shí)驗(yàn)方法是將Gibbs抽樣過(guò)程迭代500~2 000次,實(shí)驗(yàn)將迭代次數(shù)設(shè)置為2 000次。
3.2.1 多粒度話題挖掘?qū)嶒?yàn) LDA模型是一種具有代表性的話題模型,實(shí)驗(yàn)將LDA模型與MTSU-Col模型的話題挖掘效果進(jìn)行對(duì)比,驗(yàn)證了利用詞序信息、層次話題結(jié)構(gòu)擴(kuò)展LDA模型的有效性。LDA模型中的參數(shù)設(shè)置與MTSU-Col模型一致,部分褒貶話題挖掘結(jié)果如表1所示。
由表1可以看出,褒義全局詞匯集是對(duì)單詞類書(shū)籍的評(píng)價(jià),貶義局部詞匯集是書(shū)籍翻譯質(zhì)量的貶義評(píng)價(jià)。說(shuō)明MTSU-Col模型挖掘的全局話題與評(píng)價(jià)對(duì)象相對(duì)應(yīng),局部話題與評(píng)價(jià)特征相對(duì)應(yīng)。與MTSU-Col模型相比較,LDA模型挖掘的話題沒(méi)有將評(píng)價(jià)對(duì)象和評(píng)價(jià)特征區(qū)分開(kāi),話題1詞匯集中既包含對(duì)數(shù)據(jù)庫(kù)類書(shū)籍的整體評(píng)價(jià),如“入門(mén)”、“基礎(chǔ)”等詞,也包含用戶對(duì)書(shū)籍內(nèi)容的評(píng)價(jià),如“難”、“懂”等詞。話題2詞匯集是關(guān)于書(shū)籍包裝的話題,既出現(xiàn)了“新”、“厚”等褒義詞,也出現(xiàn)了“破”、“舊”等貶義詞,不具有挖掘情感信息的功能。這驗(yàn)證了MTSU-Col模型在多層次話題挖據(jù)方面的有效性。
表1 話題挖掘?qū)Ρ葘?shí)驗(yàn)結(jié)果
3.2.2 篇章級(jí)情感傾向性分類實(shí)驗(yàn) Pang提出的利用支持向量機(jī)(SVM)的篇章級(jí)情感傾向性分析方法[3]是目前常用的標(biāo)準(zhǔn)比較系統(tǒng),其中采用一元文法屬性分類的結(jié)果最優(yōu)。本文的實(shí)驗(yàn)采用了該比較系統(tǒng)(記為Pang)。為了驗(yàn)證融入詞序信息對(duì)篇章級(jí)情感分類結(jié)果的有效性,實(shí)驗(yàn)將不包含詞序信息的話題情感聯(lián)合模型(MTSU)作為比較系統(tǒng),對(duì)MTSU模型的超參數(shù)賦值以及Gibbs采樣設(shè)置與本文模型相一致。
針對(duì)短文本的特點(diǎn),本文采用“,”號(hào)作為分句標(biāo)志、引入領(lǐng)域無(wú)關(guān)情感詞典等2項(xiàng)措施,來(lái)提高篇章級(jí)情感分析的準(zhǔn)確率。措施驗(yàn)證實(shí)驗(yàn)結(jié)果如下。
從表2中可以得到:文本預(yù)處理階段采用“,”號(hào)作為分句標(biāo)志,解決了評(píng)價(jià)文本書(shū)寫(xiě)不規(guī)范,“,”號(hào)前后的句義表達(dá)不同的問(wèn)題,有效提高了評(píng)價(jià)文本情感傾向性分類的準(zhǔn)確率;情感詞典是文本情感分析的重要參考依據(jù),利用語(yǔ)料庫(kù)詞頻信息對(duì)通用情感詞典進(jìn)行過(guò)濾,提高了文本情感傾向性分類的準(zhǔn)確率。
表2 文本情感傾向性的預(yù)測(cè)準(zhǔn)確率
對(duì)大規(guī)模數(shù)據(jù)集合進(jìn)行檢索和選取時(shí),一般均采用準(zhǔn)確率、召回率及綜合評(píng)價(jià)指標(biāo)F1值作為數(shù)據(jù)分析結(jié)果的衡量指標(biāo)。3種分析方法的實(shí)驗(yàn)結(jié)果如圖2~圖4所示。
圖2 文本情感傾向性分類的準(zhǔn)確率對(duì)比
圖3 文本情感傾向性分類的召回率對(duì)比
圖4 文本情感傾向性分類的F1值對(duì)比
由圖2~圖4可以看出:利用本文模型對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行文本情感傾向性分類的平均準(zhǔn)確率達(dá)到了83%,與Pang方法相比,只降低了1%,與MTSU模型相比,則提高了3%;本文模型的F1值達(dá)到了84%,低于Pang方法0.7%,高于MTSU模型3%,驗(yàn)證了將詞序信息融入文本情感分析方法的有效性與客觀性。
本文針對(duì)基本話題模型只能抽取粗粒度上下文信息的問(wèn)題,利用詞匯搭配信息對(duì)LDA模型進(jìn)行擴(kuò)展,建立了一種融合詞序信息的多粒度話題情感聯(lián)合模型MTSU-Col模型。MTSU-Col模型考慮了詞匯生成過(guò)程中全局/局部話題、句子情感標(biāo)簽之間的關(guān)聯(lián)關(guān)系,對(duì)詞序信息的建模使MTSU-Col模型更加貼近文本的真實(shí)語(yǔ)義,得到的結(jié)論如下。
(1)利用MTSU-Col模型進(jìn)行文本情感傾向性分類的平均準(zhǔn)確率達(dá)到83%,平均F1值達(dá)到84%,整體性能與監(jiān)督分類方法SVM類似,且均優(yōu)于未采用詞序信息的分析方法,挖掘話題集合具有層次化、語(yǔ)義相關(guān)的特點(diǎn)。
(2)MTSU-Col模型更有利于提取文本真實(shí)語(yǔ)義,并且既不需要大量人工語(yǔ)料庫(kù)標(biāo)注,也不依賴于領(lǐng)域相關(guān)的先驗(yàn)知識(shí),是一種整體性能優(yōu)秀的非監(jiān)督文本情感信息分析方法。
(3)MTSU-Col模型對(duì)LDA模型進(jìn)行了多粒度話題擴(kuò)展,并融入了豐富的語(yǔ)言結(jié)構(gòu)信息,進(jìn)一步提高了文本觀點(diǎn)挖掘結(jié)果的層次性和語(yǔ)義相關(guān)性。
[1] LIU B, ZHANG L.A survey on opinion mining and sentiment analysis [M].Berlin, Germany: Springer, 2012: 415-463.
[2] MEI Q, ZHAI C.Discovering evolutionary theme patterns from text-an exploration of temporal text mining [C]∥Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM, 2005: 198-207.
[3] PANG B, LEE L.Opinion mining and sentiment analysis [J].Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135.
[4] TANG H, TAN S, CHENG X.A survey on sentiment detection of reviews [J].Expert Systems with Applications, 2009, 36(7): 10760-10773.
[5] CARENINI G, NG R, PAULS A.Multi-document summarization of evaluative text [C]∥Proceedings of the 11th European Chapter of the Association for Computational Linguistics.Trento, Italy: ACL, 2006: 3-7.
[6] HU M, LIU B.Mining and summarizing customer reviews [C]∥The 10th ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2004.New York, USA: ACM, 2004: 168-177.
[7] BLEI D M, NG A Y, JORDAN M I.Latent Dirichlet allocation [J].Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[8] 徐戈, 王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展 [J].計(jì)算機(jī)學(xué)報(bào), 2011, 34(8): 1423-1436.
XU Ge, WANG Houfeng.The development of topics models in natural language processing [J].Chinese Journal of Computers, 2011, 34(8): 1423-1436.
[9] 馮時(shí), 景珊, 楊卓, 等.基于LDA模型的中文微博話題意見(jiàn)領(lǐng)袖挖掘 [J].東北大學(xué)學(xué)報(bào), 2013, 34(4): 490-494.
FENG Shi, JING Shan, YANG Zhuo, et al.Detecting topical opinion leaders based on LDA model in Chinese microblogs [J].Journal of Northeastern University, 2013, 34(4): 490-494.
[10]LIN C, HE Y.Joint sentiment/topic model for sentiment analysis [C]∥The 18th ACM Conference on Information and Knowledge Management.New York, USA: ACM, 2009: 375-384.
[11]TITOV I, MCDONALD R.Modeling online reviews with multi-grain topic models [C]∥The 17th International World Wide Web Conference 2008.New York, USA: ACM, 2008: 111-120.
[12]JO Y, OH A.Aspect and sentiment unification mode for online review analysis [C]∥The 4th ACM International Conference on Web Search and Data Mining.New York, USA: ACM, 2011: 815-824.
[13]GRIFFITHS T, STEYVERS M, TENENBAUM J B.Topics in semantic representation [J].Psychological Review, 2007, 114(2): 211-244.
[14]GRIFFITHS T, STEYVERS M.Finding scientific topics [C]∥Proceedings of the National Academy of Sciences.New York, USA: United States National Academy of Sciences, 2004: 5228-5235.
(編輯 趙煒)
AJointModelforMulti-GranularityTopicsandSentimentswithFusingWordOrderInformation
ZHAO Yu,SHAO Bilin,BIAN Genqing
(School of Management, Xi’an University of Architecture and Technology, Xi’an 710055, China)
A joint model for multi-granularity topics and sentiments (MTSU-Col model) based on an extension to LDA model by incorporating collocation is proposed to solve the problem that the basic topic model captures only coarse-granularity contextual information.The MTSU-Col model objectively expresses the correlative relationship among words, globallocal topics, sentiment labels and collocation, allows us to infer topics and sentiment information, and provides a closer match to real semantic representation contained in texts.The MTSU-Col model synchronously realizes an unsupervised mining of multi-granularity topics and sentiment information, and effectively solves the domain dependent problem in existing methods.Experimental results show that the proposed model achievesF1of 84% for sentiment classification, and its performance is comparable to the performance of SVM methods.Since the mining collection of topics is hierarchy and semantic related, it is feasible and effective to use the proposed model for opinion mining.
topic model; text sentiment analysis; unification model; collocation
2014-03-26。
趙煜(1981—),男,博士生;邵必林(通信作者),男,教授,博士生導(dǎo)師。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61272458)。
10.7652/xjtuxb201411018
TP391
:A
:0253-987X(2014)11-0103-06