• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種語義弱監(jiān)督LDA的商品評論細粒度情感分析算法

      2018-07-04 13:12:16萬紅新鐘林輝
      小型微型計算機系統(tǒng) 2018年5期
      關鍵詞:特征詞詞頻極性

      彭 云,萬紅新,鐘林輝

      1(江西師范大學 計算機信息工程學院,南昌 330022)2(江西科技師范大學 數(shù)學與計算機科學學院,南昌 330038)

      1 引 言

      情感分析(sentiment analysis),也叫觀點挖掘(opinion mining),主要研究和分析人們對實體對象,如商品、服務、組織、個人、問題、事件和主題及其屬性,所表達的觀點、情感、評價和態(tài)度[1,2].商品評論的情感分析,主要有三個層面:① 文檔級別的情感分析;② 句子級別的情感分析;③ 特征級別的情感分析.文檔和句子級別的情感分析可以獲取商品總體性的情感極性分類,即商品的總體評級(分)或粗粒度的商品評價;特征級別的情感分析是一種細粒度的情感分析,可以獲取關于商品局部性的結構、屬性和功能等方面的情感評價情況,更能滿足用戶了解商品細節(jié)方面評價的需求.要實現(xiàn)商品評論的細粒度情感分析,首先要有效提取商品特征和情感詞,繼而發(fā)現(xiàn)特征和情感詞之間的關聯(lián)關系.LDA(latent Dirichlet allocation)主題模型[3]具有文本降維和主題聚類功能,可以實現(xiàn)大規(guī)模商品評論數(shù)據(jù)的主題詞提取,進一步發(fā)現(xiàn)特征詞和情感詞.但由于LDA是無監(jiān)督的概率模型,偏向于發(fā)現(xiàn)以文檔為單位的高頻共現(xiàn)關系,很難發(fā)現(xiàn)低頻及隱含在句式結構中的特征詞和情感詞,并且缺乏對詞語關聯(lián)和情感隸屬等語義關系的理解,造成情感極性分類的準確性不高,具體表現(xiàn)如下:

      1)難以提取無特征情感詞.在中文商品評論中,經(jīng)常會在單個句子中省去特征詞而直接使用情感詞,稱之為無特征情感詞,如句子“很清晰”“很便宜”中的“清晰”“便宜”,分別省去了特征詞“屏幕”“價格”.LDA模型對無特征情感詞進行主題分配時,由于特征詞的缺失,可能會將這類情感詞錯誤分配到其他頻率較高的特征詞所在的主題,從而影響此類情感詞的提取效果.

      2)難以發(fā)現(xiàn)次級特征詞和低頻情感詞.次級特征詞是描述局部特征詞屬性的更細粒度的詞語,一般和局部特征詞關聯(lián)且詞頻遠低于其關聯(lián)的局部特征詞,如“電池的續(xù)航力很強大”“屏幕靈敏度很高”“鏡頭有灰塵”中的“續(xù)航力”“靈敏度”“灰塵”.LDA模型往往難以發(fā)現(xiàn)這類頻率較低且隱藏在句式結構中的次級特征詞.在中文商品評論中,有些情感詞只用來修飾某一個或某一類特征詞,如“價格很公道”“色彩很鮮艷”中的“公道”“鮮艷”等.這類情感詞詞頻相對于通用情感詞要低很多,其和特征詞的共現(xiàn)關系容易被其他高頻情感詞所湮沒,使得LDA模型難以發(fā)現(xiàn)這類低頻情感詞.

      3)高詞頻的全局特征詞對局部特征詞的分配產(chǎn)生干擾.全局特征詞具有較高的詞頻,如相機評論中的“相機”“質量”等,標準LDA在主題詞的概率分配過程中偏向于發(fā)現(xiàn)此類特征詞,造成相對低頻局部特征詞的分配概率較低,如相機評論中的“屏幕”“價格”等.由于全局特征詞具有較高的詞頻及文檔頻率,通常會以較高概率值分配到不同主題,而低頻的局部特征詞的分配概率值相對較低,從而影響了這一類特征詞的提取率.

      4)主題對情感的語義理解不明晰.LDA是詞袋模型,對情感詞詞義、否定詞和修飾程度副詞缺乏語義理解能力,難以判斷詞語情感的極性及強弱,如“好”“壞”“非常好”“不壞”等.沒有情感語義先驗知識的引入,LDA難以識別這些情感詞是正面、負面以及其情感強度.由于缺乏對情感詞的語義理解,沒有引入否定詞和程度副詞等語義關系,LDA僅從詞語概率分布來識別情感詞及情感極性,容易造成分布關系下主題情感分配的隨機性,難以實現(xiàn)真實語義表達的情感極性分類.

      2 相關研究

      LDA是一種無監(jiān)督概率生成模型,不需要進行人工數(shù)據(jù)標注,結構包括三層:文檔、主題和詞語,主要思想是:① 文檔是主題的隨機混合;② 主題是滿足一定概率分布的詞語組合.LDA將表達文本的詞向量轉化為主題向量,大大地降低了文本維度,同時在文本生成過程中可以提取主題詞.由于LDA傾向于產(chǎn)生全局性的主題詞,為了提取更多的局部主題詞,許多研究對LDA主題模型進行了改進和擴展,加入先驗知識,形成弱監(jiān)督或半監(jiān)督機制下的LDA主題模型.

      一些研究利用改進的LDA主題模型進行特征詞和情感詞的提取.Titov等(2008)[4]將標準LDA模型擴展為多粒度主題模型(multi-grain LDA,MG-LDA),并假設全局主題傾向于捕獲商品總體屬性而局部主題傾向于捕獲用戶評價的商品特征,在此基礎上對全局主題和局部主題兩類不同類型的主題建模;Titov等(2008)[5]對MG-LDA模型進行了擴展,提出了MAS(multi-aspect sentiment)模型,使得MAS可以進行基于特征的細粒度主題建模;Moghaddam等(2011)[6]將評價文本分解為情感短語的形式,提出了ILDA(Interdependent LDA)模型,試圖從情感短語中提取特征詞及對應的情感詞;Mukherjee等(2012)[7]提出的TME(topic and multi-expression)模型對評論中共現(xiàn)的各類情感短語和主題建模,并利用最大熵知識改善TME中的Beta先驗分布的粗糙度和微弱性;Chen等(2014)[8]利用詞語之間的must-links和cannot-links關系約束用來改善LDA提取特征詞和情感詞的效果,提出了AMC(automatically generated must-links and cannot-links)主題模型;彭云等(2015)[9]提出了詞聚類LDA的商品特征詞提取算法,利用詞語的相似度和相關度來約束LDA的主題-詞語分配,以提取更多的特征詞.

      一些研究將情感因素融入到LDA主題模型,在提取特征詞和情感詞的同時,實現(xiàn)情感的極性分類.Lin等(2009)[10]在原始LDA模型的基礎上,加入了情感層并考慮每一個情感不同的特征分布,提出了JST( joint sentiment topic)模型用來同時識別主題和情感.JST模型采用預先定義的情感詞集作為先驗知識加入到LDA,在主題的后驗分布的初始化中利用先驗知識來決定詞語的情感標簽和所屬主題.模型的先驗知識忽略了特征詞和情感詞的關聯(lián)性;Li等(2010)[11]也是在標準LDA模型中加入了情感層,提出了Sentiment-LDA模型,實現(xiàn)基于主題的情感分析;Jo等(2011)[12]假設一個句子僅有一個特征,且句子中的所有詞語都由某一個特征來生成,首先提出了SLDA(sentence-LDA)模型,其主要任務是用來發(fā)現(xiàn)特征詞.在此基礎上提出了ASUM(aspect and sentiment unification model)模型,它是SLDA模型的擴展,將特征和情感合并同時進行建模,用來發(fā)現(xiàn)特征詞-情感詞匹配單元.由于沒有特征詞和情感詞先驗關聯(lián)知識的引入,僅依賴LDA本身的先驗分布難以識別一些句子級別的詞語關系;孫艷等(2013)[13]考慮到有監(jiān)督、半監(jiān)督的評論文本數(shù)據(jù)集的標注工作量較大,且存在標注樣本不容易獲取的問題,提出一種無監(jiān)督的主題情感混合模型 (unsupervised topic and sentiment unification,UTSU)模型,通過在標準LDA模型中融入情感來實現(xiàn)文檔級別的情感分類;黃發(fā)良等(2016)[14]針對網(wǎng)絡短文本情感挖掘問題,提出一種基于LDA和互聯(lián)網(wǎng)短評行為理論相結合的主題情感混合模型TSCM(topic sentiment combining model).TSCM模型假設評論中每個句子的主題分布是不同的,產(chǎn)生詞語的流程是先確定詞語的情感極性,再確定詞語的主題,并考慮了詞語之間的關聯(lián)關系;Lu等(2011)[15]提出了STM(sentiment topic model)模型,利用極少量先驗知識(種子詞形式)來加強主題和特征詞的直接關聯(lián)性;歐陽繼紅等(2015)[16]基于主題情感混合模型JST和R-JST(reverse joint sentiment topic model),考慮到整體分布與局部分布的關系會影響分類效果,提出了情感分析主題模型MG-JST(multi grain JST)和MG-R-JST(multi grain reverse JST);Poria等(2016)[17]為了有效實現(xiàn)特征級別的觀點挖掘,將非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù),對評價對象和評價極性的關聯(lián)性進行建模.提出的Sentic LDA模型不僅僅關注詞語共現(xiàn)頻率,而且利用詞語關聯(lián)性和常識推理將標準LDA的主題聚類功能從語法級提升到語義級;熊蜀峰等(2016)[18]針對商品短評論中的文本稀疏問題,提出了一個短文本的聯(lián)合情感-主題模型SSTM(Short-text sentiment-topic model)來解決稀疏性問題.不同于一般主題模型中通常采用的基于文檔產(chǎn)生過程的建模方法,直接對整個語料集合的產(chǎn)生過程建模.在產(chǎn)生文檔集的過程中,每次采樣的一個詞對中的詞語具有相同的情感極性和主題.

      通過對LDA主題模型方法的研究現(xiàn)狀進行分析,可以發(fā)現(xiàn)LDA主題模型適于提取全局特征詞和全局情感詞,難以滿足細粒度情感分析的要求.同時LDA是詞袋型概率生成模型,缺乏語義理解能力使得提取的主題詞往往難以滿足情感分析的語義要求.本文將基于大數(shù)據(jù)背景下的中文商品評論文本的語法及語義結構特點,在保留LDA的大容量文本主題詞提取功能的基礎上,從語義約束角度對主題模型進行弱監(jiān)督改造,提升LDA對中文商品評論文本的語義理解能力,使它能夠按照預定語義目標進行主題詞挖掘,實現(xiàn)商品評論的細粒度情感分析.

      3 語義知識獲取

      3.1 詞語關聯(lián)知識

      以句子為單位基于依存句法分析和詞性分析來發(fā)現(xiàn)特征詞和特征詞、特征詞和情感詞之間的關聯(lián)關系,并通過改進的PMI(pointwise mutual information)、詞頻關聯(lián)等算法計算關聯(lián)強度,最后利用這些關聯(lián)關系和關聯(lián)強度來影響LDA模型中詞語的主題分配,以便發(fā)現(xiàn)更多的低頻特征詞、低頻情感詞及其關聯(lián)關系.

      3.1.1 無特征情感詞的關聯(lián)組合

      1)構建候選關聯(lián)組合集

      利用依存句法關系發(fā)現(xiàn)句子中的典型特征詞-情感詞句法結構,并加以詞性關系限制得到候選關聯(lián)組合集,設置規(guī)則如下:

      規(guī)則1.依存句法關系滿足SBV,詞性關系滿足名詞+形容詞,其中的名詞對應特征詞,形容詞對應情感詞.

      圖1 例1的依存句法分析及詞性標注Fig.1 Dependency parsing and POS tagging for example 1

      例1.“這款相機非常不錯.”“屏幕大而且像素很高.”2個句子的依存句法分析及詞性標注如圖1所示.其中,句1的關聯(lián)組合單元為<相機,不錯>,句2具有并列關系,關聯(lián)組合單元為<屏幕,大>和<像素,高>.

      通過規(guī)則1可以構建候選關聯(lián)組合集Sca1,利用S-PMI(sentence PMI)計算Sca1中的元素的詞語關聯(lián)度,公式如式(1).

      (1)

      其中,fc(wi,wj)是詞語wi和wj在句子中的共現(xiàn)頻率,f(wi)是wi的詞頻,f(wj)是wj的詞頻.

      2)捕捉缺省特征詞

      捕捉符合缺省特征詞的句式結構,并提取其中的情感詞,設置規(guī)則如下:

      規(guī)則2.依存句法關系滿足ADV或ADV+ADV,詞性關系滿足副詞+形容詞,其中的形容詞可視為情感詞.

      例2.“很清晰.”“而且很便宜.”2個句子的依存句法分析及詞性標注如圖2所示.其中,句1中的情感詞“清晰”、句2中的情感詞“便宜”都缺省特征詞.

      圖2 例2的依存句法分析及詞性標注Fig.2 Dependency parsing and POS tagging for example 2

      對于滿足規(guī)則2中缺省了特征詞的情感詞,在候選關聯(lián)組合集Sca1中查找與其關聯(lián)度值最大的特征詞作為其關聯(lián)特征詞,歸一化后構建缺省特征詞-情感詞集合Sdo.

      3.1.2 低頻情感詞與特征詞的關聯(lián)組合

      1)構建候選關聯(lián)組合集

      低頻情感詞和特征詞的句式結構關系同樣滿足規(guī)則1,可以利用規(guī)則1提取的候選關聯(lián)組合集Sca1,在此基礎上計算關聯(lián)度.

      例3.“價格很公道;”“做工很精細.”2個句子的依存句法分析及詞性標注如圖3所示.其中,句1的關聯(lián)組合單元為<價格,公道>,句2的關聯(lián)組合單元為<做工,精細>.

      圖3 例3的依存句法分析及詞性標注Fig.3 Dependency parsing and POS tagging for example 3

      2)抽取局部特征詞-低頻情感詞的關聯(lián)集合

      低頻情感詞一般只修飾比較固定的特征詞,一些低頻的情感詞很難被LDA發(fā)現(xiàn).為了提高低頻情感詞與其修飾的特征詞的關聯(lián)度,從詞頻比與共現(xiàn)頻率差值進行分析,即不僅考察共現(xiàn)頻率,而且考察相互的專有性,其關聯(lián)度計算如式(2).

      (2)

      其中,ζ1是詞頻閾值,p′是候選關聯(lián)組合中wi和wj的詞頻比,f′(wi)是wi詞頻與共現(xiàn)頻率fc(wi,wj)的差值.

      取關聯(lián)度值大于一定閾值的關聯(lián)組合并進行歸一化后構成局部特征詞-低頻情感詞集合Sao.

      3.1.3 次級特征詞與局部特征詞的關聯(lián)組合

      1)構建候選關聯(lián)組合集

      提取符合次級特征詞與局部特征詞的基本句式結構,構建候選關聯(lián)組合集Sca2,設置規(guī)則如下:

      規(guī)則3.①依存句法關系滿足ATT+SBV,ATT中詞性關系滿足名詞+名詞,前部名詞對應局部特征詞,后部名詞對應次級特征詞,SBV中詞性關系滿足名詞+形容詞;②依存句法關系滿足SBV+VOB,詞性關系滿足名詞+名詞,前部名詞對應局部特征詞,后部名詞對應次級特征詞.

      例4.“電池續(xù)航力很強大.”“鏡頭有灰塵.”2個句子的依存句法分析及詞性標注如圖4所示.其中,句1的關聯(lián)組合單元為<電池,續(xù)航力>,句2的關聯(lián)組合單元為<鏡頭,灰塵>.

      圖4 例4的依存句法分析及詞性標注Fig.4 Dependency parsing and POS tagging for example 4

      2)抽取次級特征詞與局部特征詞的關聯(lián)集合

      為了區(qū)別于全局特征和局部特征的關系,如“相機的屏幕”等,在計算次級特征詞與局部特征詞的關聯(lián)性時要滿足一定的詞頻要求,即次級特征詞的詞頻要低于某一閾值.由于次級特征詞一般只與固定的局部特征詞相關聯(lián),且和局部特征詞的共現(xiàn)頻率基本與本身詞頻相當,其關聯(lián)度計算如式(3).

      (3)

      其中,ζ2是詞頻閾值,f′(wj)是wj詞頻與共現(xiàn)頻率fc(wi,wj)的差值.

      高于詞頻閾值ζ2的特征詞,一般與全局特征詞關聯(lián),通過LDA模型較容易發(fā)現(xiàn),不屬于次級特征詞,如“相機的價格”中的“價格”不屬于次級特征詞,所以關聯(lián)度置為0,即LDA模型無需利用這類詞語間的關聯(lián)性.

      低于詞頻閾值ζ2的特征詞為次級特征詞,且關聯(lián)度越高,則希望LDA模型將其和所關聯(lián)的局部特征詞分配到同一主題的概率越高.取關聯(lián)度值大于一定閾值的關聯(lián)組合并進行歸一化后構成局部特征詞-次級特征詞集合Saa.

      3.2 全局特征詞的識別

      全局特征詞和全局情感詞在句子中存在較明顯的修飾關系,利用它們之間高頻率的共現(xiàn)關系可以識別全局特征詞.設置包含少量全局情感詞的種子詞集合Seedgo(w),從滿足規(guī)則1的候選關聯(lián)組合集中查找且滿足一定共現(xiàn)頻率閾值的特征詞,并加入到全局特征詞集合Sga(w);通過全局特征詞又可以繼續(xù)從候選關聯(lián)組合集中查找滿足規(guī)則1且滿足一定共現(xiàn)頻率閾值ζ3的情感詞,并加入到全局情感詞集合Sgo(w);經(jīng)過不斷反復迭代,直到?jīng)]有新的全局特征詞和全局情感詞被發(fā)現(xiàn),最終形成全局特征詞集合Sga(w)和全局情感詞集合Sgo(w).其迭代發(fā)現(xiàn)過程如圖5所示.

      3.3 主題的情感隸屬

      由于SWS-LDA增加了情感層,需要計算情感-主題概率分布.在主題分配到情感的計算中,因為吉布斯抽樣難以反映情感的語義極性,所以采用模糊隸屬度值來表示主題的情感歸屬度,從而實現(xiàn)主題的真實情感極性分配.

      圖5 全局特征詞和全局情感詞迭代過程Fig.5 Iterative process of global aspect words and global opinion words

      3.3.1 發(fā)現(xiàn)情感關聯(lián)詞組

      由于情感詞經(jīng)常會有程度副詞和否定詞進行修飾,如“價格很貴”“價格不貴”“價格不很貴”“屏幕很不清晰”等,導致同樣的情感詞,其所表達的情感極性和強度都有所差異.所以,首先利用句法分析發(fā)現(xiàn)情感詞的關聯(lián)詞組,即不僅僅獲取單個情感詞,而是將否定詞和程度副詞也同時提取,這樣才能獲得較完整的情感語義.利用以下規(guī)則來發(fā)現(xiàn)情感詞關聯(lián)詞組:

      規(guī)則4.一個單句中滿足SBV(主謂關系)+ ADV(狀中結構)依存結構關系,或SBV(主謂關系)+ ADV(狀中結構)+ ADV(狀中結構)依存結構關系,對應的“副詞(或否定副詞‘不’)+ 形容詞”,或“副詞(或否定副詞‘不’)+ 否定副詞‘不’(或副詞)+ 形容詞”構成情感詞關聯(lián)詞組,其中形容詞為情感詞.

      根據(jù)規(guī)則4,從圖6中可以識別出情感詞關聯(lián)詞組“很貴”“不貴”“不很貴”“很不清晰”.

      圖6 詞性標注和依存句法分析Fig.6 Dependency parsing and POS tagging for the examples

      3.3.2 設計情感層的隸屬函數(shù)

      主題到情感層的隸屬度由主題所包含的情感詞來決定,主要考慮三個因素:1)正向情感詞和負向情感詞的數(shù)量比率;2)正向情感詞和負向情感詞的主題分配概率;3)情感詞表達的強度,主要通過否定詞和程度副詞來反映,如“屏幕清晰”和“屏幕很清晰”、“價格很貴”和“價格不貴”等.

      情感副詞的強度值設置結合中文商品評論特點,按照語義表達程度將強度值置為4個級別,如表1所示.

      文檔和主題到情感層的模糊隸屬函數(shù)設計如式(4)所示.

      (4)

      其中,

      表1 程度副詞及強度值Table 1 Adverb degree and intensity value

      3.3.3 多極性決策二叉樹的構造

      設計多極性決策二叉樹來決定主題的情感極性歸屬,并且極性的個數(shù)可以根據(jù)需要動態(tài)設置.通過多層次的極性評價,可以更細粒度的獲取主題的情感強度,提供更細膩的情感分析.情感極性級數(shù)為n級的決策二叉樹構造如圖7所示.

      圖7 多極性決策二叉樹Fig.7 Binary tree for multi polarity decision

      在主題的情感極性模糊隸屬計算基礎上,可以將隸屬度值進一步映射到?jīng)Q策樹的多級極性區(qū)間,通過決策樹判斷主題的極性級別,映射公式如式(5).

      (5)

      其中,maxμk和minμk分別是最大μk(t)值和最小μk(t)值.

      4 SWS-LDA模型設計

      4.1 SWS-LDA約束機制

      將特征詞和情感詞的關聯(lián)關系、全局特征詞和主題的情感模糊隸屬語義約束加入到LDA,其約束機制的設計如下:

      1)特征詞和情感詞的主題分配.在對詞語w進行主題分配時,首先以句子為單位找到詞語w前一位置相鄰詞語wp,然后判斷是否存在于集合Sdo、Saa或Sao中.如果存在,則需要在LDA的概率分配中進行約束,根據(jù)候選關聯(lián)組合的關聯(lián)度值來增強句子中匹配詞語間的分配概率,即詞語wp和w被分配到同一主題的概率高于LDA的原始分配概率.

      2)全局特征詞的主題分配.對詞語進行主題分配時,可先進行是否全局特征詞的判斷.如果是全局特征詞,在計算其屬于每個主題的抽樣概率時,已有主題分配的全局特征詞的個數(shù)對其分配到某個主題產(chǎn)生影響.如詞語w是全局特征詞,已有主題ti分配了n個全局特征詞,主題tj分配了m個全局特征詞,如果n>m,則詞語w分配到主題ti的概率要大于tj.這樣進行主題詞分配,可以將全局特征詞集中分配到少量主題下.

      圖8 SWS-LDA模型圖Fig.8 SWS-LDA model

      3)主題隸屬于情感的語義關系約束.利用模糊隸屬函數(shù)來計算主題的情感隸屬度值,并利用決策二叉樹來判斷當前主題的情感極性.如主題t的情感隸屬度值為0.54,則可以判斷t的情感極性為IV級.

      4.2 SWS-LDA結構設計

      在LDA中加入情感層,并引入語義弱監(jiān)督約束:詞語關聯(lián)、全局特征詞和主題情感隸屬,構建的SWS-LDA模型如圖8所示,模型結構包括四層:文檔層、情感層、主題層和詞語層,圖中的符號說明見表2.

      表2 SWS-LDA模型符號說明Table 2 Notation of SWS-LDA

      SWS-LDA模型的文檔生成算法如表3所示.

      表3 SWS-LDA文檔生成算法Table 3 Text generation algorithm of SWS-LDA

      4.3 SWS-LDA參數(shù)估計

      (6)

      (7)

      (8)

      (9)

      5 實驗結果與分析

      5.1 數(shù)據(jù)集選擇及設置

      數(shù)據(jù)采集于淘寶網(wǎng)(www.taobao.com)、天貓(www.tmall.com)和京東商城(www.jd.com)的商品評論數(shù)據(jù),共采集了213 628篇“數(shù)碼相機”評論文檔.為了避免評論文檔字數(shù)太少而影響可信度,剔除了少于50個字的評論文檔,得到104 785篇評論文檔,共包含679 213個句子.分詞工具采用中科院ICTCLAS,依存句法分析采用哈工大LTP[19].進行實驗效果比較的主題模型分別為SWS-LDA、JST[10]和ASUM[12],分詞后保留詞性為名詞、動名詞和形容詞的文檔為初始數(shù)據(jù)集,均采用Gibbs抽樣進行參數(shù)估計.主題模型測試集和訓練集評價文檔數(shù)的比例設置為1:10.相關系數(shù)設置為:文檔-主題概率分布參數(shù)α為50/K,K為主題個數(shù),top-n取值為20(即在每個主題中取按概率降序排列的前top-n個詞語作為主題詞);主題-詞語概率分布參數(shù)β為0.01,情感-主題概率分布參數(shù)γ為0.01;抽樣次數(shù)為1 000次,采用10-fold交叉驗證.

      5.2 評價標準

      采用人工方式標注數(shù)碼相機評論數(shù)據(jù)中的特征詞集、情感詞集及關聯(lián)組合集,其中特征詞集元素個數(shù)為221,情感詞集元素個數(shù)為196(其中正向情感詞120個,負向情感詞76個),關聯(lián)組合集元素個數(shù)為395.以人工標注的數(shù)據(jù)作為基準對實驗結果進行評價,采用準確率P(Precision)和召回率R(Recall)來評估不同模型的效果進行比較和分析.

      (10)

      (11)

      (12)

      (13)

      召回率計算如式(14)所示,其中Ni@top-n是主題i下top-n個詞語中提取的不重復的準確特征詞、情感詞或關聯(lián)組合個數(shù),Ns是人工標注的對應詞語個數(shù).

      (14)

      5.3 實驗比較分析

      5.3.1 特征詞提取

      特征詞提取的準確率和召回率如圖9和圖10所示.其中,橫坐標為主題個數(shù)K,縱坐標為準確率P或召回率R.

      圖9 特征詞提取的準確率比較Fig.9 Precision comparison of aspect words extraction

      從圖9和圖10可以看出,在主題數(shù)目大于等于80的時候,由于JST難以捕捉低頻特征詞,準確率值下降較快且明顯低于SWS-LDA和ASUM;由于SWS-LDA加入了全局特征詞分類的約束,在詞語的主題分配中減少了全局特征詞的干擾,所以在主題數(shù)增加過程中,SWS-LDA準確率值下降并不明顯.

      圖10 特征詞提取的召回率比較Fig.10 Recall comparison of aspect words extraction

      從召回率值的變化來看,在主題數(shù)較高的時候,SWS-LDA的召回率具有較明顯的優(yōu)勢,表明對低頻特征詞有較好的識別度,而其他模型難以進一步發(fā)現(xiàn)低頻特征詞.例如,SWS-LDA可以發(fā)現(xiàn)低頻的次級特征詞,如與局部特征詞“屏幕”相關聯(lián)的次級特征詞“靈敏度”,從而提高了召回率.

      5.3.2 情感詞提取

      情感詞提取的準確率、召回率如圖11和圖12所示.其中,橫坐標為主題個數(shù)K,縱坐標為準確率P或召回率R.

      圖11 情感詞提取的準確率比較Fig.11 Precision comparison of opinion words extraction

      從圖11和圖12可以看出,通過關聯(lián)性可以提高低頻情感詞的分配概率,而對于關聯(lián)于特征詞的低頻情感詞發(fā)現(xiàn)具有較好效果.SWS-LDA的R值隨著主題數(shù)的增加其上升趨勢很迅速,也說明了一些低頻情感詞通過關聯(lián)約束更好地匹配到了相對應的高頻特征詞,隨著這類特征詞的提取而提高了與其關聯(lián)情感詞的發(fā)現(xiàn)率.例如,一些低頻情感詞,如“公道”、“鮮艷”等,在ASUM和JST中沒有發(fā)現(xiàn),而在SWS-LDA模型中得以發(fā)現(xiàn).

      圖12 情感詞提取的召回率比較Fig.12 Recall comparison of opinion words extraction

      5.3.3 關聯(lián)組合提取

      關聯(lián)組合提取的準確率和召回率可以考察模型的聚合能力,即關聯(lián)程度高的詞語應盡量分配到同一主題.關聯(lián)組合提取的P和R如圖13和圖14所示.其中,橫坐標為主題個數(shù)K,縱坐標為準確率P或召回率R.

      從圖13和圖14可以看出,在主題數(shù)較少的情況下,3個模型的準確率差別不明顯,原因在于少量主題下分配概率高的都是高頻的特征詞和情感詞.但隨著主題數(shù)的增加,由于JST和ASUM的詞語分配概率無法顧及中低頻特征詞和情感詞的關聯(lián)性,難以同時發(fā)現(xiàn)這類特征詞和情感詞,造成準確率值的下降幅度很明顯.

      圖13 關聯(lián)組合提取的準確率比較Fig.13 Precision comparison of association groups extraction

      從召回率看,JST傾向于發(fā)現(xiàn)高頻共現(xiàn)詞語,這就導致了分配概率較高的詞語在各主題下重復性較高,而使得召回率低下.ASUM雖然加入了情感層和種子情感詞先驗,但一個句子一個特征詞的假設限制了發(fā)現(xiàn)并列句等復雜句式的特征詞和情感詞關聯(lián)性,隨著主題數(shù)的增加,召回率慢慢趨向于平穩(wěn)而難以明顯提高.SWS-LDA模型的關聯(lián)性約束使得更有利于發(fā)現(xiàn)低頻共現(xiàn)的特征詞和情感詞的關聯(lián)性,所以隨著主題數(shù)的增加,其召回率呈不斷增加的趨勢.例如,對于ASUM和JST模型難以發(fā)現(xiàn)的一些低頻關聯(lián)組合,如<價格,公道>等,SWS-LDA模型可以將其分配到同一主題.

      圖14 關聯(lián)組合提取的召回率比較Fig.14 Recall comparison of association groups extraction

      5.3.4 主題情感極性分類的準確率

      主題情感極性分類的準確率如圖15所示,其中橫坐標為主題個數(shù)K,縱坐標為準確率P.

      圖15 主題情感極性分類的準確率比較Fig.15 Precision comparison of sentiment polarity classification

      從圖15可以看出,由于SWS-LDA的主題和一類特征具有對應性,且通過特征-情感詞的語義約束可以提取更多的特征-情感匹配關系,有利于基于主題進行準確情感分類,如“價位很實惠”“外觀很霸氣”等一些低頻共現(xiàn)匹配關系的識別,JST和ASUM很難識別此類關系;而“價格低,屏幕很清晰,操控很方便”中的<價格,清晰>、<屏幕,低>、<操控,清晰>等非匹配關系由于在同一評論文檔中具有一定共現(xiàn)性,容易被JST和ASUM錯誤識別為匹配關系,從而降低了主題對于情感識別的準確性.由于加入了主題-情感隸屬影響,在SWS-LDA引入模糊情感決策約束機制,更能真實反映主題的情感取值,相對于JST和ASUM的情感概率分配的隨機性來說更具有優(yōu)勢.

      6 結束語

      由于LDA主題模型可以從大規(guī)模的文本數(shù)據(jù)中提取主題詞,并通過主題聚類發(fā)現(xiàn)潛在的特征詞和情感詞之間的關系,許多研究利用LDA模型實現(xiàn)基于主題的情感分析.但由于LDA模型語義理解能力的不足,同時偏向于提取粗粒度的特征詞和情感詞,往往不能滿足細粒度情感分析的語義要求,尤其是面向具有復雜語法及語義結構的中文商品評論.

      本文根據(jù)中文商品評論的特點,充分考慮LDA主題模型文檔-主題-詞語的概率分配機制的基礎上,定義了三類語義約束并進行語義獲取,包括:詞語語義關聯(lián)、全局特征詞識別和主題情感隸屬.其中詞語間的語義關聯(lián)約束可以提升中低頻特征詞和情感詞的識別度,全局特征詞的識別可以提高特征詞的主題內(nèi)聚度,主題情感隸屬可以更準確地描述主題的情感極性歸屬.將獲取的語義約束作為先驗知識引入LDA,指導其進行主題-詞語和主題-情感分配,將無監(jiān)督的LDA轉變?yōu)槿醣O(jiān)督形式,可以提取更符合語義要求的特征詞和情感詞.實驗結果表明,提出的SWS-LDA模型在特征詞、情感詞及其關聯(lián)關系的提取中具有較高的準確率和召回率,其細粒度情感極性分類的準確性也得到了較大程度的提升.

      [1] Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.

      [2] Liu B.Sentiment analysis and opinion mining[M].California,USA:Morgan & Claypool Publishers,2012.

      [3] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.

      [4] Titov I,McDonald R T.Modeling online reviews with multi-grain topic models[C].Proceedings of the 17th International Conference on World Wide Web (WWW),2008:111-120.

      [5] Titov I,McDonald R T.A joint model of text and aspect ratings for sentiment summarization[C].Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics (ACL),2008:308-316.

      [6] Moghaddam S,Ester M.ILDA:Interdependent LDA model for learning latent aspects and their ratings from online product reviews[C].Proceedings of the 34th International Conference on Research and Development in Information Retrieval (SIGIR),2011:665-674.

      [7] Mukherjee A,Liu B.Modeling review comments[C].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL),2012:320-329.

      [8] Chen Z Y,Liu B.Mining topics in documents:standing on the shoulders of big data[C].Proceedings of the 20th International Conference on Knowledge Discovery and Data Mining (SIGKDD),2014:1116-1125.

      [9] Peng Yun,Wan Chang-xuan,Jiang Teng-jiao,et al.An algorithm based on words clustering LDA for product aspects extraction[J].Journal of Chinese Computer Systems,2015,36(7):1458-1463.

      [10] Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the 18th ACM Conference on Information and Knowledge Management (CIKM),2009:375-384.

      [11] Li F T,Huang M L,Zhu X Y.Sentiment analysis with global topics and local dependency[C].Proceedings of the 24th Conference on Artificial Intelligence (AAAI),2010:1371-1376.

      [12] Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the 4th ACM International Conference on Web Search and Data Mining (WSDM),2011:815-824.

      [13] Sun Yan,Zhou Xue-guang,F(xiàn)u Wei.Unsupervised topic and sentiment unification model for sentiment analysis[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1):102-108.

      [14] Huang Fa-liang,Li Chao-xiong,Yuan Chang-an,et al.Mining sentiment for web short texts based on TSCM model[J].Acta Electronica Sinica,2016,44(8):1887-1891.

      [15] Lu B,Ott M,Cardie C,et al.Multi-aspect sentiment analysis with topic models[C].Proceedings of the 11th IEEE International Conference on Data Mining (ICDM),2011:81-88.

      [16] Ouyang Ji-hong,Liu Yan-hui,Li Xi-ming,et al.Multi-grain sentiment/topic model based on LDA[J].Acta Electronica Sinica,2015,43(9):1875-1880.

      [17] Poria S,Chaturvedi I,Cambria E,et al.Sentic LDA:Improving on LDA with semantic similarity for aspect-based sentiment analysis[C].Proceedings of the 2016 International Joint Conference on Neural Networks (IJCNN),2016:4465-4473.

      [18] Xiong Shu-feng,Ji Dong-hong.A short text sentiment-topic model for product review analysis[J].Acta Automatica Sinica,2016,42(8):1227-1237.

      [19] Che W X,Li Z H,Liu T.LTP:A Chinese language technology platform[C].Proceedings of the 23rd International Conference on Computational Linguistics (COLING),2010:13-16.

      附中文參考文獻:

      [9] 彭 云,萬常選,江騰蛟,等.一種詞聚類LDA的商品特征提取算法[J].小型微型計算機系統(tǒng),2015,36(7):1458-1463.

      [13] 孫 艷,周學廣,付 偉.基于主題情感混合模型的無監(jiān)督文本情感分析[J].北京大學學報(自然科學版),2013,49(1):102-108.

      [14] 黃發(fā)良,李超雄,元昌安,等.基于TSCM模型的網(wǎng)絡短文本情感挖掘[J].電子學報,2016,44(8):1887-1891.

      [16] 歐陽繼紅,劉燕輝,李熙銘,等.基于LDA的多粒度主題情感混合模型[J].電子學報,2015,43(9):1875-1880.

      [18] 熊蜀峰,姬東鴻.面向產(chǎn)品評論分析的短文本情感主題模型[J].自動化學報,2016,42(8):1227-1237.

      猜你喜歡
      特征詞詞頻極性
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      跟蹤導練(四)
      基于改進TFIDF算法的郵件分類技術
      產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
      表用無極性RS485應用技術探討
      一種新型的雙極性脈沖電流源
      電源技術(2015年5期)2015-08-22 11:18:28
      詞頻,一部隱秘的歷史
      面向文本分類的特征詞選取方法研究與改進
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      石狮市| 合作市| 阿克陶县| 龙岩市| 九台市| 融水| 灵宝市| 永善县| 莱西市| 镇江市| 都江堰市| 革吉县| 繁峙县| 泰兴市| 贵阳市| 济源市| 汝州市| 两当县| 五华县| 乾安县| 贡山| 仁布县| 墨脱县| 万年县| 施甸县| 克东县| 海南省| 孝感市| 南岸区| 惠水县| 安达市| 蕉岭县| 宁武县| 怀柔区| 虹口区| 当雄县| 绥中县| 容城县| 江阴市| 东明县| 嘉兴市|