一種基于LDA主題模型的評(píng)論文本情感分類方法

2017-07-24 17:38:30周詠梅陽愛民周劍峰林江豪

數(shù)據(jù)采集與處理 2017年3期

王偉周詠梅,2 陽愛民,2 周劍峰林江豪

(1.廣東外語外貿(mào)大學(xué)思科信息學(xué)院，廣州,510006；2.廣東外語外貿(mào)大學(xué)語言工程與計(jì)算實(shí)驗(yàn)室，廣州,510006；3.廣東外語外貿(mào)大學(xué)圖書館，廣州,510006；4.廣東外語外貿(mào)大學(xué)財(cái)務(wù)處, 廣州,510420)

王偉1周詠梅1,2陽愛民1,2周劍峰3林江豪4

針對(duì)互聯(lián)網(wǎng)出現(xiàn)的評(píng)論文本情感分析，引入潛在狄利克雷分布(Latent Dirichlet allocation,LDA)模型，提出一種分類方法。該分類方法結(jié)合情感詞典，依據(jù)指定的情感單元搭配模式，提取情感信息，包括情感詞和上、下文。使用主題模型發(fā)掘情感信息中的關(guān)鍵特征，并融入到情感向量空間中。最后利用機(jī)器學(xué)習(xí)分類算法，實(shí)現(xiàn)中文評(píng)論文本的情感分類。實(shí)驗(yàn)結(jié)果表明，提出的方法有效降低了特征向量的維度，并且在文本情感分類上有很好的效果。

評(píng)論文本；情感單元；潛在主題；情感分析；機(jī)器學(xué)習(xí)

引言

互聯(lián)網(wǎng)的蓬勃發(fā)展方便了網(wǎng)民觀點(diǎn)的表達(dá)與傳播，導(dǎo)致出現(xiàn)了大量主觀性的在線文本信息。這些在線文本的情感分析已經(jīng)成為自然語言處理的一個(gè)研究熱點(diǎn)。文本情感分析是指對(duì)包含用戶表示的觀點(diǎn)、喜好和情感等的主觀性文本進(jìn)行檢測(cè)、分析以及挖掘[1]。對(duì)于一些群體性事件，分析網(wǎng)民情緒的變化過程實(shí)際上就是對(duì)網(wǎng)絡(luò)輿情進(jìn)行演化建模及趨勢(shì)預(yù)測(cè)，為有關(guān)部門進(jìn)行輿論引導(dǎo)提供決策依據(jù)[2]。除此之外，文本情感分析技術(shù)也被成功運(yùn)用到產(chǎn)品營(yíng)銷、股價(jià)預(yù)測(cè)等領(lǐng)域，因此研究在線文本的情感傾向具有很重要的理論和實(shí)用價(jià)值。目前文本情感分析的研究成果主要可歸結(jié)為基于語義分析和基于機(jī)器學(xué)習(xí)的兩大類方法?；谡Z義分析的方法大多依靠已有的情感詞典、語義規(guī)則等來判別情感極性。楊佳能等[3]提出基于PageRank算法判定情感詞集的極性并計(jì)算其強(qiáng)度，進(jìn)而構(gòu)建新聞評(píng)論情感詞典。唐浩浩等[4]提出一種基于詞親和度的算法識(shí)別微博詞語語義傾向，以此構(gòu)建出高質(zhì)量的情感詞典，從而提高微博文本情感分析的準(zhǔn)確率。文獻(xiàn)[5，6]也做了基于語義規(guī)則實(shí)現(xiàn)情感分類的相關(guān)研究?；跈C(jī)器學(xué)習(xí)的方法主要是選取大量有意義的特征來實(shí)現(xiàn)分類。Pang等[7]首次使用3種機(jī)器學(xué)習(xí)方法，對(duì)電影評(píng)論的“積極”和“消極”情感進(jìn)行分類。文獻(xiàn)[8]定義了7種詞語搭配模型，以微博語料為基礎(chǔ)，構(gòu)建二元詞語搭配詞庫。相關(guān)研究也探討了利用深度學(xué)習(xí)(Deep learning)對(duì)文本情感進(jìn)行分析。梁軍等[9]利用遞歸神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)與任務(wù)相關(guān)的特征，算法性能接近當(dāng)前采用許多手工標(biāo)注特征的傳統(tǒng)算法，節(jié)省了大量人工標(biāo)注的工作量。

在線評(píng)論文本存在大量新詞、語法不規(guī)范等特點(diǎn)[8]，使得中文評(píng)論文本情感分析存在困難與挑戰(zhàn)。相關(guān)研究引入了近幾年發(fā)展起來的主題模型。文獻(xiàn)[10,11]利用潛在狄利克雷分布(Latent Dirichlet allocation,LDA)模型實(shí)現(xiàn)文本的聚類和分類。文獻(xiàn)[12]提出基于主題的情感向量空間模型，它將文本的潛在主題特征融入到情感模型中，實(shí)驗(yàn)證明主題概率模型在情感分類任務(wù)上有良好的性能。本文結(jié)合上下文知識(shí)，提出一種基于LDA主題模型的中文評(píng)論文本情感分析方法。這種方法以語料庫為基礎(chǔ)，結(jié)合情感詞典，依據(jù)指定的情感單元搭配模式，抽取出情感詞和上下文知識(shí)，使用LDA模型挖掘文本中關(guān)鍵的情感特征，并利用支持向量機(jī)(Support vector machine, SVM)方法進(jìn)行分類，實(shí)驗(yàn)表明了本文提出方法的有效性。

1 評(píng)論文本情感分類方法框架

圖1 提出的評(píng)論文本情感分類方法基本框架Fig.1 Framework of sentiment analysis for comment texts

本文提出的評(píng)論文本情感分類方法基本框架如圖1所示。主要包括利用LDA主題模型訓(xùn)練情感單元和基于主題的情感向量空間建模。構(gòu)建模型之前，先對(duì)評(píng)論文本進(jìn)行預(yù)處理，主要是對(duì)語料進(jìn)行分詞、詞性標(biāo)注等，篩選出屬于目標(biāo)詞性的詞語。利用情感詞典，依據(jù)提前定義的情感單元搭配模式，抽取能夠表征評(píng)論文本情感的信息，即情感詞和上下文。然后使用LDA主題模型，對(duì)選取出的情感信息進(jìn)行訓(xùn)練，得到評(píng)論文本的關(guān)鍵情感特征。將得到的關(guān)鍵情感特征作為特征向量的特征項(xiàng)，構(gòu)建基于主題的文本情感向量空間，利用支持向量機(jī)方法實(shí)現(xiàn)對(duì)評(píng)論文本的情感分類。其中，LDA是一種3層貝葉斯概率模型，包含“文檔-主題-詞”3層結(jié)構(gòu)。2003年David M B等[13]提出的最初模型只引入1個(gè)超參數(shù)α使每個(gè)文檔的主題概率分布服從Dirichlet分布。隨后，Griffiths等[14]引入另一個(gè)超參數(shù)β使每個(gè)主題的詞概率分布也服從Dirichlet分布。從而，LDA模型發(fā)展為一個(gè)完整的產(chǎn)生式概率生成模型。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)方法，建模時(shí)做了詞袋(Bag of words)假設(shè)，即只考慮詞語出現(xiàn)的次數(shù)而不考慮詞語的順序。當(dāng)有X篇文本，主題數(shù)為K，詞語數(shù)為N時(shí)，一篇文本中第i個(gè)詞語的概率為

(1)

LDA模型針對(duì)一個(gè)文本的生成過程為：(1)文本d的主題從主題分布中抽取得到，即從Dirichlet(α)抽樣出θd；(2)對(duì)于抽取出的主題zi，從Dirichlet(β)抽樣出φz；(3)對(duì)于詞語wi和主題zi，抽樣得到P(zi|θ)和P(wi|zi,φ)；(4)重復(fù)上述步驟直至遍歷文本中每一個(gè)詞語。具體模型如圖2所示，各符號(hào)的含義如表1所示。本文引入LDA模型的生成思想對(duì)文本情感進(jìn)行分析。一篇文本的生成過程基于某一類主要情感，有目的地選取能夠表達(dá)相應(yīng)情感或者潛在情感的關(guān)鍵詞語，通過關(guān)鍵詞語的組合和排列，得到主觀性的情感文本。因此利用LDA模型發(fā)掘文本中基于主題的關(guān)鍵情感特征，并融入情感向量模型來實(shí)現(xiàn)文本的情感極性判別。

表1 LDA圖模型各符號(hào)含義

2 情感信息抽取

僅僅依靠情感詞難以完成實(shí)際的情感分類任務(wù)，因此將上下文知識(shí)融合到本文提出的模型中。利用語料庫和情感詞典，抽取指定詞性搭配模式的情感詞和上下文，構(gòu)建三元搭配單元。

2.1 情感詞典

本文研究包含情感詞的文本情感極性，對(duì)不包含情感詞的文本暫不考慮。一個(gè)較完整的情感詞典對(duì)情感分析很重要。整合HowNet極性詞典、臺(tái)灣大學(xué)的NTUSD情感詞典和大連理工大學(xué)信息檢索研究室的情感本體庫[16]，去除重復(fù)詞語，得到完整情感詞集。利用各個(gè)詞典的標(biāo)注結(jié)果，對(duì)每一個(gè)情感詞進(jìn)行褒貶投票。對(duì)于投票傾向一致的情感詞自動(dòng)加入本文所用情感詞典，否則采用人工標(biāo)注方式并且多次校對(duì)。

2.2 提取情感單元

構(gòu)造情感單元的目的是最大可能地獲取文本中與情感有關(guān)的信息。本文提出的三元情感單元既包括與情感有直接關(guān)系的情感特征，也考慮了間接影響情感傾向的上下文。三元情感單元定義：u=，其中u為情感單元；w為情感詞語；e，f為上下文詞語；w，e，f三者滿足以下兩個(gè)條件：

(1) 詞性搭配滿足8種模式：,< adj, prepw, n>,< adj, prepw, v>,,< v, prepw, n >,< n, prepw, adj >,< n, prepw, n >,< n, prepw, v >，其中adj為形容詞，v為動(dòng)詞，n為名詞，prepw為情感詞w的詞性并且prepw∈{adj, v, n}。

(2) 以一個(gè)句子為范圍，在滿足條件(1)的情況下，e、f為距離w最近的上下文詞語。此處的句子是指由標(biāo)點(diǎn)符號(hào)分割而成的語言單位。在抽取之前，需要對(duì)語料先進(jìn)行分詞、詞性標(biāo)注以及刪除停用詞等非目標(biāo)詞性的詞。抽取過程主要依賴于預(yù)先指定的詞性搭配模式。抽取步驟為：

(1)利用整合得到的情感詞典，匹配出文檔d中出現(xiàn)的情感詞wi。

(2)對(duì)于情感詞wi，根據(jù)提出的8種詞性搭配模式提取滿足條件的上下文詞語ei和fi，組合得到情感單元ui。

(3)重復(fù)上述兩個(gè)步驟，直至遍歷文檔d中所有詞語。提取情感單元后的文檔d*表示為：d*= {u1,u2,…,um}，其中m為文檔d中情感詞數(shù)量。

3 融合主題的情感向量空間模型構(gòu)建

3.1 情感特征

提取情感特征是文本情感分析的技術(shù)重點(diǎn)和難點(diǎn)之一，有效的特征項(xiàng)是正確分類的關(guān)鍵。類似LDA生成思想，本文認(rèn)為一篇文本是基于某一類主要情感有目的地選取表達(dá)對(duì)應(yīng)情感或者潛在情感的詞語，組合之后得到的。本文得到情感特征的主要過程是抽取出上下文詞匯，配合情感詞，通過LDA模型選取出關(guān)鍵的情感特征，以此作為向量空間的特征項(xiàng)。本文用于分類的情感特征包括上下文詞匯和情感詞。每一篇文檔可表示為

d= [con1, con2, …, conm,w1,w2, …,wn]

(2)

圖3 關(guān)鍵特征項(xiàng)抽取步聚Fig.3 Framework of extracting key features

式中：d為文檔的向量表示；coni為上下文詞語；m為上下文詞語數(shù)目；wi為情感詞；n為情感詞數(shù)目。按照2.2節(jié)抽取得到的情感單元包含了全部上下文詞匯和情感詞，容易出現(xiàn)維數(shù)較大的問題，并不適合構(gòu)造特征向量，需要結(jié)合LDA模型計(jì)算出關(guān)鍵特征項(xiàng)，實(shí)現(xiàn)降維的效果。本文所提取的關(guān)鍵特征項(xiàng)是指文檔d*所屬最大概率主題中概率值較大的詞語。LDA模型訓(xùn)練后得到“文檔-主題”概率矩陣DT和“主題-詞語”概率矩陣TW。利用得到的矩陣抽取關(guān)鍵特征項(xiàng),圖3為步驟流程，具體步驟如下：

(1)將已提取情感單元的文檔集D*作為L(zhǎng)DA模型的輸入。

(2)訓(xùn)練LDA模型得到“文檔-主題”矩陣DT和“主題-詞語”矩陣TW。

(4)對(duì)應(yīng)矩陣TW中的主題Tmax，將詞語按照模型訓(xùn)練后的概率值大小排序，然后以比例1/p抽取得到關(guān)鍵特征項(xiàng)，降低特征項(xiàng)的維度，p取正整數(shù)。

(5)重復(fù)步驟(3)，(4)直至遍歷文檔集D*所有文檔，然后整合全部關(guān)鍵特征項(xiàng)并去除重復(fù)項(xiàng)。

3.2 特征權(quán)重

向量空間的特征權(quán)重采用tfidf值。tfidf值是一種普遍使用并且有效的權(quán)重計(jì)算方法。它強(qiáng)調(diào)某一個(gè)詞在一篇文檔中的重要性，表示為

tfidf = TF × IDF

(3)

式中：TF =h/g，IDF = log(1 +t/r) ，TF為詞頻，h為詞語w在文檔d出現(xiàn)的次數(shù)，g為文檔d的詞語數(shù)量，IDF為逆向文件頻率，t為總文檔數(shù)，r為包含詞語w的文檔數(shù)量。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)測(cè)標(biāo)準(zhǔn)

實(shí)驗(yàn)數(shù)據(jù)來源于譚松波[17]搜集的關(guān)于酒店的中文情感評(píng)論語料。對(duì)于數(shù)據(jù)集中不包含情感詞的文本暫不考慮。整理語料得到10 000條評(píng)論文本，其中包括7 000條正向文本，3 000條負(fù)向文本。隨機(jī)選取3 000條語料作為實(shí)驗(yàn)語料，數(shù)據(jù)集信息如表2所示。數(shù)據(jù)預(yù)處理采用中科院ICTCLAS分詞工具對(duì)實(shí)驗(yàn)語料進(jìn)行分詞、詞性標(biāo)注。實(shí)驗(yàn)中的機(jī)器學(xué)習(xí)分類器選用SVM，工具選取臺(tái)灣大學(xué)林智仁開發(fā)的LibSVM。

表2 實(shí)驗(yàn)數(shù)據(jù)

本文對(duì)不包含情感詞的語料暫不考慮，并且認(rèn)為包含情感詞的文本具有單一情感極性，分類結(jié)果只有正向或負(fù)向。對(duì)于每一個(gè)文本都能進(jìn)行分類的語料集，評(píng)判分類器性能的正確率(Precision)、召回率(Recall)和F相等。因此采用總體準(zhǔn)確率作為本文方法的分類性能評(píng)價(jià)指標(biāo)，公式為

(4)

式中：Oaccuracy為總體準(zhǔn)確率，Correct(ci)是分類為ci并且正確的文檔數(shù)，Doc(ci)是類別為ci的文檔總數(shù)。

4.2 實(shí)驗(yàn)結(jié)果分析

本文實(shí)驗(yàn)的情感類別分為正向情感和負(fù)向情感兩類。利用本文方法與快速主成分分析法[18]分別提取出低維度空間下的情感特征，作情感極性判別實(shí)驗(yàn)對(duì)比分析。所用LDA模型參數(shù)設(shè)置如下：α=0.5，β=0.1，主題數(shù)K選取不同的正整數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比分析，其中α和β為L(zhǎng)DA模型的超參數(shù)。

圖4 不同主題數(shù)下的實(shí)驗(yàn)結(jié)果Fig.4 Experimental results with different K

(1)LDA模型的參數(shù)實(shí)驗(yàn)。選取部分實(shí)驗(yàn)語料，對(duì)主題數(shù)K取不同的正整數(shù)進(jìn)行實(shí)驗(yàn)，得到的實(shí)驗(yàn)結(jié)果如圖4所示。明顯可知總體準(zhǔn)確率相對(duì)穩(wěn)定，維持在79%左右?？傮w準(zhǔn)確率最高和最低的實(shí)驗(yàn)結(jié)果分別是K=1和K=20，兩者相差只有0.89%。實(shí)驗(yàn)語料針對(duì)同個(gè)話題下的評(píng)論語料，話題內(nèi)容較集中，造成主題數(shù)K對(duì)本文方法的分類性能影響不大。

(2)情感分類實(shí)驗(yàn)。將LDA模型主題數(shù)K取3，訓(xùn)練迭代次數(shù)為100，對(duì)實(shí)驗(yàn)1，2，3和本文方法進(jìn)行對(duì)比分析，實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)1依據(jù)本文2.2節(jié)內(nèi)容提取情感單元作為情感特征。實(shí)驗(yàn)2利用LDA模型提取文本中的特征。實(shí)驗(yàn)3則在實(shí)驗(yàn)1的基礎(chǔ)上采用快速主成分分析法提取主要特征作為向量空間的特征項(xiàng)。本文方法利用LDA模型訓(xùn)練實(shí)驗(yàn)1得到的情感特征選取出概率值較大的主題詞，并將其作為情感特征項(xiàng)。由表3可知，相較于實(shí)驗(yàn)1～3，本文方法總體準(zhǔn)確率有明顯提高。實(shí)驗(yàn)1得到的負(fù)向準(zhǔn)確率高達(dá)90%，但是正向準(zhǔn)確率較低，導(dǎo)致總體準(zhǔn)確率只接近70%，正負(fù)向分類性能明顯不平衡。實(shí)驗(yàn)1和本文方法提取的正向情感詞占總特征項(xiàng)詞數(shù)的比例都接近15%，但是實(shí)驗(yàn)3的正向準(zhǔn)確率達(dá)到了78.92%，說明特征項(xiàng)中情感詞的比例并不是造成實(shí)驗(yàn)1正向準(zhǔn)確率低的主要原因。主要原因是提取的情感詞能否作為有效的特征項(xiàng)。實(shí)驗(yàn)1利用情感詞典識(shí)別出情感詞，但是部分正向情感詞存在傾向性弱或者極性依附于語境的問題，例如“節(jié)省”，“隨意”和“清淡”等詞匯，因此該方法對(duì)情感詞典的質(zhì)量要求較高。本文方法則利用LDA模型自動(dòng)訓(xùn)練出情感單元中的有效情感詞作為情感向量空間的特征項(xiàng)，提高了分類的準(zhǔn)確率，并且不過度依賴于情感詞典。另外本文方法相對(duì)于實(shí)驗(yàn)1，維數(shù)大幅度下降且取得了良好的分類效果，說明本文方法適用于大規(guī)模語料的分析任務(wù)。與本文方法不同，實(shí)驗(yàn)2不提取文本的情感單元，直接利用LDA模型訓(xùn)練文本的主題特征，得到的分類準(zhǔn)確率低于本文方法的分類準(zhǔn)確率，驗(yàn)證了對(duì)文本的情感單元進(jìn)行提取能夠有效地優(yōu)化情感分類的效果。實(shí)驗(yàn)3利用FastPCA方法對(duì)特征向量進(jìn)行主成分分析，實(shí)現(xiàn)了同樣程度的降維效果。從表3可知，本文方法相對(duì)實(shí)驗(yàn)3分類總體準(zhǔn)確率高，說明本文方法在降維方面表現(xiàn)更出色，可以有效地提取出評(píng)論文本的關(guān)鍵特征項(xiàng)。

表3 實(shí)驗(yàn)結(jié)果

5 結(jié)束語

本文將LDA模型引入到文本情感分析的研究中?；贚DA模型的生成思想，認(rèn)為一篇評(píng)論文本是基于某一類主要情感有目的地選取詞語，表達(dá)相應(yīng)的情感或者潛在情感。因此本文通過構(gòu)建一個(gè)較完整的情感詞典，以中文評(píng)論語料庫為基礎(chǔ)，依據(jù)指定的情感單元搭配模式，匹配出情感詞和上下文詞匯，構(gòu)造情感單元。通過LDA模型訓(xùn)練文本的情感單元，計(jì)算得到“文檔-主題”矩陣和“主題-詞語”矩陣，以此抽取出能夠有效表征情感的關(guān)鍵特征項(xiàng)，并將其融入到情感模型中。最后利用機(jī)器學(xué)習(xí)的方法，對(duì)中文評(píng)論文本的情感進(jìn)行分類，實(shí)驗(yàn)取得了很好的分類效果。同時(shí)實(shí)驗(yàn)證明相比于一般的降維方法，本文提出的方法更有優(yōu)勢(shì)。該方法能夠結(jié)合主題模型挖掘詞語之間潛在的語義關(guān)聯(lián)，對(duì)文本進(jìn)行有效的降維。本文研究還有很多可以改進(jìn)的空間，在情感單元的構(gòu)造過程中只考慮了上下文詞匯，對(duì)更復(fù)雜的句子語境缺乏深入討論。下一步會(huì)考慮利用依存句法的知識(shí)，挖掘句子中潛在語境和情感信息，并應(yīng)用到文本情感分類中。

[1] 魏韡,向陽,陳千. 中文文本情感分析綜述[J]. 計(jì)算機(jī)應(yīng)用,2011,31(12):3321-3323.

Wei Wei, Xiang Yang, Chen Qian. Survey on Chinese text sentiment analysis[J]. Journal of Computer Applications,2011, 31(12):3321-3323.

[2] 周耀明,李弼程. 一種自適應(yīng)網(wǎng)絡(luò)輿情演化建模方法[J]. 數(shù)據(jù)采集與處理,2013,28(1):69-76.

Zhou Yaoming, Li Bicheng. Adaptive evolution modeling method of internet public opinion[J]. Journal of Data Acquisition and Processing,2013,28(1):69-76.

[3] 楊佳能,陽愛民,周詠梅. 基于語義分析的中文微博情感分類方法[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2014,49(11):14-21,30.

Yang Jianeng,Yang Aimin, Zhou Yongmei.Sentiment classification method of Chinese micro-blog based on semantic analysis[J]. Journal of Shandong University:Natural Science ,2014,49(11):14-21,30.

[4] 唐浩浩,王波,周杰,等. 基于詞親和度的微博詞語語義傾向識(shí)別算法[J]. 數(shù)據(jù)采集與處理,2015,30(1):137-147.

Tang Haohao, Wang Bo, Zhou Jie, et al. Semantic orientation identification terms from Chinese micro-blogs based on word affinity measure[J]. Journal of Data Acquisition and Processing, 2015, 30(1): 137-147.

[5] 張晶,朱波,梁琳琳,等. 基于情緒因子的中文微博情緒識(shí)別與分類[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014,50(1):79-84.

Zhang Jing, Zhu Bo, Liang Linlin, et al.Recognition and classification of emotions in the Chinese microblog based on emotional factor[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2014,50(1):79-84.

[6] 趙文清,侯小可,沙海虹. 語義規(guī)則在微博熱點(diǎn)話題情感分析中的應(yīng)用[J]. 智能系統(tǒng)學(xué)報(bào),2014,9(1):121-125.

Zhao Wenqing, Hou Xiaoke, Sha Haihong. Application of semantic rules to sentiment analysis of microblog hot topics[J]. CAAI Transactions on Intelligent Systems,2014,9(1):121-125.

[7] Pang B, Lee L, Vaithyanathan S.Thumbs up: Sentiment classification using machine learning techniques[C]∥Conference on Empirical Methods in Natural Language Processing.[S.l.]:Association for Computational Linguistics,2002:79--86..

[8] 周劍峰,陽愛民,周詠梅,等. 基于二元搭配詞的微博情感特征選擇[J]. 計(jì)算機(jī)工程,2014,40(6):162-165.

Zhou Jianfeng, Yang Aimin,Zhou Yongmei, et al. Micro-blog sentiment feature selection based on bigram collocation[J]. Computer Engineering,2014, 40(6):162-165.

[9] 梁軍,柴玉梅,原慧斌,等. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報(bào),2014,28(5):155-161.

Liang Jun, Chai Yumei, Yuan Huibin, et al. Deep learning for Chinese micro-blog sentiment analysis[J]. Journal of Chinese Information,2014,28(5):155-161

[10]王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報(bào)科學(xué),2015,33(1):63-68.

Wang Peng, Gao Cheng, Chen Xiaomei. Research on LDA model based on text clustering[J]. Information Science,2015,33(1):63-68

[11]李湘東,廖香鵬,黃莉. LDA模型下書目信息分類系統(tǒng)的研究與實(shí)現(xiàn)[J]. 現(xiàn)代圖書情報(bào)技術(shù),2014,30(5):18-25.

Li Xiangdong, Liao Xiangpeng, Huang Li. Research and implementation of bibliographic information classification system in LDA model[J]. New Technology of Library and Information Service,2014,30(5):18-25.

[12]王磊,苗奪謙,張志飛,等. 基于主題的文本句情感分析[J]. 計(jì)算機(jī)科學(xué),2014,41(3):32-35.

Wang Lei, Miao Duoqian, Zhang Zhifei, et al. Emotion analysis on text sentences based on topics[J]. Computer Science,2014,41(3):32-35.

[13]David M B. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:1-6.

[14]Griffiths T L. Finding scientific topics[J]. Proceedings of the National Academy of Sciences, 2004,101:5228-5235.

[15]Dowling J E, Wald G.The biological function of vitamin A acid[J].Proceeding of the National Academy of Sciences of the United States of America, 1960,46(5):587.

[16]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.

Xu Linhong, Lin Hongfei, Pan Yu, et al. Construction the affective lexicon ontology[J]. Journal of The China Society For Scientific and Technical Information, 2008, 27(2): 180-185.

[17]羅毅, 李利, 譚松波,等. 基于中文微博語料的情感傾向性分析[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2014,49(11):1-7.

Luo Yi, Li Li, Tan Songbo, et al.Sentiment analysis on Chinese Micro-blog corpus[J].Journal of Shandong University Natural Science,2014,49(11):1-7.

[18]Sharma A, Paliwal K K. Fast principal component analysis using fixed-point algorithm[J]. Pattern Recognition Letters, 2007, 28(10):1151-1155.

Method of Sentiment Analysis for Comment Texts Based on LDA

Wang Wei1, Zhou Yongmei1,2, Yang Aimin1,2, Zhou Jianfeng3, Lin Jianghao4

(1.Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou, 510006, China；2.Laboratory for Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou, 510006, China；3.Library, Guangdong University of Foreign Studies, Guangzhou, 510006, China；4.Financial Department, Guangdong University of Foreign Studies, Guangzhou, 510420, China)

A method of sentiment analysis for online comment texts is proposd based on the latent Dirichlet allocation (LDA) model. The method extracts the sentiment information containing sentiment words and context with the sentiment word dictionary according to the specified collocation patterns of sentiment unit. Use the LDA model to mine the key features of the sentiment information and then combine them into the sentiment vector space. The machine-learning algorithm is used to classify the sentiment polarity of Chinese comment texts. After experiment, the presented method is proved to be effective in reducing dimensionality and text sentiment classification.

comment text; sentiment unit; latent topic; sentiment analysis; machine learning

國家社會(huì)科學(xué)基金(12BYY045 )資助項(xiàng)目;教育部“新世紀(jì)”優(yōu)秀人才支持計(jì)劃(NCET-12-0939)資助項(xiàng)目;廣東省教育廳科技創(chuàng)新(2013KJCX0067)資助項(xiàng)目;廣州市社會(huì)科學(xué)規(guī)劃(15Q16)資助項(xiàng)目;廣東外語外貿(mào)大學(xué)研究生科研創(chuàng)新(14GWCXXM-36)資助項(xiàng)目;廣東外語外貿(mào)大學(xué)校級(jí)(14Q3)資助項(xiàng)目;廣東省普通高校青年創(chuàng)新人才類(299-X5122106)資助項(xiàng)目。

2015-06-19；

2015-07-31

TP391