李天彩 王 波 毛二松 席耀一
(解放軍信息工程大學(xué) 河南 鄭州 450002)
?
基于Skip-gram模型的微博情感傾向性分析
李天彩王波毛二松席耀一
(解放軍信息工程大學(xué)河南 鄭州 450002)
摘要為了更好地對微博進行表示,提高微博情感傾向性識別的準(zhǔn)確度,提出一種基于Skip-gram模型的微博情感傾向性分析方法。首先,使用Skip-gram模型在中文數(shù)據(jù)上進行訓(xùn)練得到詞向量;然后,利用詞向量在詞語表示上的優(yōu)勢,以及一定程度上滿足加法組合運算的特性,通過向量相加獲得微博的向量表示以及正負(fù)情感向量;最后,通過計算微博向量和正負(fù)情感向量的相似度判斷微博的情感傾向。在NLP&CC2012數(shù)據(jù)上進行實驗,結(jié)果表明,該方法能夠有效識別微博的情感傾向,較傳統(tǒng)的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分別提高了23%和26%。
關(guān)鍵詞微博情感分析Skip-gram模型詞向量微博向量
0引言
微博的情感傾向性分析是指對微博消息所表示的情感進行識別,判斷它的傾向性是正面還是負(fù)面。根據(jù)中國互聯(lián)網(wǎng)信息中心CNNIC(China Internet Network Information Center)2014年7月發(fā)布的全國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告[1]指出,我國網(wǎng)民規(guī)模達(dá)6.32億,其中微博用戶2.75億,占整體網(wǎng)民的43.6%。雖然較2013年的微博用戶的數(shù)量略有下降,但是微博的平臺效應(yīng)更加明顯,內(nèi)容更加豐富,網(wǎng)民參與微博上的討論,發(fā)表意見和看法的活動也越來越頻繁。因此,對微博中包含的情感進行分析,獲得網(wǎng)民對熱點事件的情感傾向?qū)浨楸O(jiān)測、輔助決策等具有重要的意義。
目前,情感傾向性分析主要包括基于規(guī)則和基于統(tǒng)計兩類方法?;谝?guī)則的方法一般是通過情感詞典獲取詞的情感傾向性,然后通過句法規(guī)則對微博消息進行處理,最后通過加權(quán)計算獲得微博消息的情感傾向性。2012年,馮時等人[2]提出了一種基于句法依存分析技術(shù)的博客文本情感傾向性分析算法SOAD(Sentiment Orientation Analysis Based on Syntactic Dependency)。通過分析句法依存樹得到含有情感詞的依存關(guān)系對,然后依據(jù)設(shè)定的規(guī)則計算博客文本的情感傾向性。2013年,Guo等人[3]改進了依存句法分析技術(shù),并將其用于微博的分析。該方法在句法樹中考慮了表情符號和標(biāo)點符號的影響,通過句法樹中詞語到核心情感詞的距離來計算詞語的情感傾向?;谝?guī)則的方法需要對文本進行句法分析,但是微博消息一般比較簡短,存在著大量的集外詞,上下文存在交錯,往往不具有標(biāo)準(zhǔn)的句法結(jié)構(gòu),這使得基于規(guī)則的方法適用性受到了限制。
基于統(tǒng)計的方法分為有監(jiān)督的方法和無監(jiān)督的方法[4]。其中,有監(jiān)督的方法一般是通過有標(biāo)注的訓(xùn)練數(shù)據(jù)提取特征并訓(xùn)練分類器,再對測試數(shù)據(jù)進行情感分析。2010年,Barbosa等人[5]利用已進行情感分類的Twitter數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),使用得到的特征信息對Twitter進行情感分類。2012年,謝麗星等人[6]使用了表情符號的規(guī)則方法、情感詞典的規(guī)則方法和基于SVM的層次結(jié)構(gòu)的多策略方法對微博的情感分析進行了深入細(xì)致的研究,并指出與英文微博相比中文微博語義更加豐富,主題更加多樣。有監(jiān)督的方法一般可以得到較高的準(zhǔn)確度,但是其性能與訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量有很大的關(guān)系。由于很難獲得大規(guī)模高質(zhì)量的人工標(biāo)注數(shù)據(jù),有監(jiān)督方法的性能受到了限制;并且有監(jiān)督的方法存在領(lǐng)域可移植性較差的不足,在一個領(lǐng)域數(shù)據(jù)上訓(xùn)練得到的模型移植到新的領(lǐng)域時性能會明顯下降,需要在新的訓(xùn)練數(shù)據(jù)上重新進行訓(xùn)練。無監(jiān)督的方法一般是通過對數(shù)據(jù)進行統(tǒng)計分析,通過概率模型計算微博中的情感分布,然后進行情感傾向性判斷。2009年,Lin等人[7]提出了一種基于LDA(Latent Dirichlet Allocation)模型改進的模型,稱為JST模型。JST模型在LDA模型的文檔和主題之間加入了情感層,使其成為一個4層的概率模型,在采樣過程中對每個詞采樣主題標(biāo)簽和情感標(biāo)簽,通過統(tǒng)計主題標(biāo)簽和情感標(biāo)簽的對應(yīng)關(guān)系得到每個主題的情感分布。2011年,Jo等人[8]提出了ASUM模型。假設(shè)每個句子只有一個主題,在采樣過程中對每個句子采樣其主題標(biāo)簽和情感標(biāo)簽。2013年,Ding等人[9]提出了HDP-LDA(Hierarchical Dirichlet Process-Latent Dirichlet Allocation)模型。該模型利用了HDP模型可以自動確定主題個數(shù)的優(yōu)勢,挖掘短語級別的情感傾向,但是該方法需要通過詞性標(biāo)注識別短語對,短語識別的準(zhǔn)確度會影響情感分析的結(jié)果,并且該模型中需要設(shè)定大量的參數(shù),降低了其領(lǐng)域可移植性?;谥黝}模型的情感傾向性分析取得了較傳統(tǒng)方法更準(zhǔn)確的結(jié)果,但是從大量的實驗和實踐中發(fā)現(xiàn),LDA模型、PLSA(Probabilistic Latent Semantic Analysis)模型等主題模型并不適用于大規(guī)模數(shù)據(jù)的訓(xùn)練和處理。該類模型中都需要假設(shè)數(shù)據(jù)服從指數(shù)分布,但是真實環(huán)境下的數(shù)據(jù),尤其是互聯(lián)網(wǎng)上的數(shù)據(jù),服從的是長尾分布[10]。該類模型過于偏重從高頻數(shù)據(jù)中歸納語義,忽視了對低頻數(shù)據(jù)的處理,所以并不適用于描述長尾數(shù)據(jù)。
為了發(fā)揮無監(jiān)督方法可移植性好的優(yōu)勢,同時結(jié)合微博數(shù)據(jù)量大,內(nèi)容多樣的特點,本文提出了一種基于Skip-gram模型的微博情感傾向性分析方法。Skip-gram模型是Mikolov等人[11]提出的一種可以在大規(guī)模數(shù)據(jù)集上進行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型。本文使用Skip-gram模型在中文數(shù)據(jù)集上進行訓(xùn)練,得到詞向量后,將其用于微博的情感傾向性分析。實驗結(jié)果表明,本文提出的方法較傳統(tǒng)的無監(jiān)督的方法性能得到了有效提高。
1詞向量
詞向量的基本思想是將每個詞映射成一個k維實數(shù)向量,一般取1000維以下。Mikolov等人[11]指出相比于傳統(tǒng)的語言模型,基于神經(jīng)網(wǎng)絡(luò)語言模型[12]NNML(Neural Network Language Model)得到的詞向量對詞的表示更加準(zhǔn)確。Mikolov等人[13]提出的Skip-gram模型是對現(xiàn)有模型的改進,它可以快速地完成對數(shù)十億詞的大規(guī)模數(shù)據(jù)的訓(xùn)練,得到的詞向量在詞語表示上更加準(zhǔn)確。Skip-gram模型可以通過Hierarchical Softmax[14]和Negative Sampling[13]兩種框架構(gòu)造實現(xiàn)。本文使用的是基于Hierarchical Softmax構(gòu)造的Skip-gram模型。
目前對詞向量的研究主要是針對詞聚類、同義詞判斷和詞性分析等任務(wù),主要是利用詞向量對詞語進行表示,通過向量計算詞與詞之間的相似程度。本文使用Mikolov等人[11]提出的Skip-gram(http://code.google.com/p/word2vec)模型在中文數(shù)據(jù)上進行訓(xùn)練,對得到的詞向量進行實驗發(fā)現(xiàn),詞向量在中文詞語的表示上也表現(xiàn)出較好的性能。例如使用詞向量計算“北京”、“和諧”、“奸商”和“貪污”這4個詞語兩兩之間的相似度時,“北京”與“和諧”、“奸商”與“貪污”的相似度明顯高于其他組合。
根據(jù)Mikolov等人[13]的研究,使用Skip-gram模型訓(xùn)練得到的詞向量除了用來計算詞與詞之間的相似度之外,一定程度上還滿足加法組合運算。Mikolov等人在文獻(xiàn)[11,13]中都舉了例子對這點進行說明:
vector(″Paris″)-vector(″France″)+vector(″Italy″)
≈vector(″Rome″)
(1)
vector(″King″)-vector(″Man″)+vector(″Woman″)
≈vector(″Queen″)
(2)
vector(″Russia″)+vector(″river″)≈vector(″Volga River″)
(3)
如式(1)、式(2)所示,“King”和“Man”的關(guān)系類似于“Queen”和“Woman”的關(guān)系,當(dāng)使用“King”和“Woman”的詞向量減去“Man”的詞向量得到的結(jié)果非常接近于“Queen”的詞向量?!癙aris”、“France”、“Italy”和“Rome”也滿足類似的關(guān)系。式(3)中“Russia”和“river”的詞向量的和與“Volga River”很相近,這說明對詞向量進行加法運算,得到的向量仍然是有意義的,而且其表示的語義與之前的詞都是相關(guān)的。在中文數(shù)據(jù)上進行測試,也存在類似的關(guān)系:
vector(″中國″)-vector(″北京″)+vector(″華盛頓″)
≈vector(″美國″)
(4)
vector(″中國″)+vector(″男籃″)≈vector(″姚明″)
(5)
2微博情感傾向性分析
使用Skip-gram模型訓(xùn)練得到的詞向量不僅在詞語的表示上較傳統(tǒng)的方法更加準(zhǔn)確,而且能通過加法組合運算挖掘詞與詞之間的語義關(guān)系。本文根據(jù)這些特點提出了一種新的微博情感傾向性分析方法。
在微博的情感分析中,由于微博長度較短,包含的詞語較少,使用向量空間模型進行表示時會出現(xiàn)嚴(yán)重的特征稀疏。而且在微博中常常會有網(wǎng)絡(luò)語言和流行新詞出現(xiàn),基于知識庫的方法受到更新速度的限制,一般無法及時收錄這些詞語或是更新已有詞的新含義。因此本文方法中將微博表示成其包含詞的詞向量的集合,使用大量公開數(shù)據(jù)進行訓(xùn)練得到詞向量用于挖掘詞語之間的語義關(guān)系。
wbm={v(w1),v(w2),v(w3),…,v(wNm)}
(6)
其中wbm表示序號為m的微博消息,v(wi)表示wbm中第i個詞的詞向量,Nm表示wbm中詞的個數(shù)。
Skip-gram模型訓(xùn)練得到的詞向量一定程度上滿足加法組合運算,將多個詞的詞向量進行相加得到的新向量仍然表示與這些詞相關(guān)的語義。因此本文提出關(guān)于微博向量的假設(shè)如下:
假設(shè)一條微博消息所包含詞的詞向量進行相加得到的向量和仍然與這條微博的語義相關(guān),并且可以反映其情感傾向。微博向量的計算式如下所示:
(7)
其中v(wbm)表示wbm中所有詞的詞向量相加并進行歸一化之后得到的向量,本文將其稱為微博向量。通過實驗證明,這樣的假設(shè)是符合真實情況的,例如式(8)、式(9)所示:
vector(″英雄″)+vector(″出″)+vector(″少年″)
≈vector(″英勇″)
(8)
vector(″中國″)+vector(″需要″)+vector(″這樣″)+
vector(″人才″)≈vector(″真才實學(xué)″)
(9)
這兩條微博都來自NLP&CC2012微博情感分析測試數(shù)據(jù)中“90后當(dāng)教授”事件相關(guān)的微博中。從內(nèi)容來看,兩句都反映的是正面的情感,計算向量和之后得到的向量也與反映正面情感的詞相近,這說明可以使用微博向量對微博消息進行表示。
本文還通過對情感詞典中的正負(fù)情感詞進行詞向量相加定義了正面情感向量和負(fù)面情感向量的計算式如下:
(10)
(11)
其中,S+表示正面情感,S-表示負(fù)面情感,v(POS)和v(NEG)分別表示正面和負(fù)面情感向量。當(dāng)對一條微博消息進行情感傾向性分析時,通過式(12)的判別函數(shù)進行判斷。
(12)
(13)
(14)
其中,S0表示中性,sim(v(wbm),v(POS))表示微博向量與正面情感向量的余弦相似度,sim(v(wbm),v(NEG))表示微博向量與負(fù)面情感向量的余弦相似度,t是判斷微博情感傾向的閾值。當(dāng)sim(v(wbm),v(POS))>t時,說明wbm的情感與正面情感更相近,判斷wbm屬于正面微博;當(dāng)sim(v(wbm),v(NEG))>t時,說明wbm的情感與負(fù)面情感更相近,判斷wbm屬于負(fù)面微博;當(dāng)微博與正負(fù)情感向量的相似度都較小時,說明微博的正負(fù)傾向性都不明顯,判斷wbm是中性微博。
當(dāng)只需要進行正負(fù)情感傾向性判斷時,判別函數(shù)可以簡化如下:
(15)
3實驗與結(jié)果分析
3.1實驗數(shù)據(jù)
實驗的訓(xùn)練數(shù)據(jù)來源于“搜狗實驗室”的“全網(wǎng)新聞數(shù)據(jù)”(http://www.sogou.com/labs/dl/ca.html),包含3.79億個詞。使用的情感詞典是通過合并HowNet情感詞典[15]、NTUSD詞典[16]、學(xué)生褒貶詞典[17]得到的。測試數(shù)據(jù)集來源于微博情感傾向性分析研究領(lǐng)域的通用數(shù)據(jù)NLP&&CC2012[18],包括20個話題,每個話題標(biāo)注大約100條微博,共記2023條微博。其中包含正面情感傾向微博307條,負(fù)面情感傾向微博1406條,以及310條中立傾向的微博。由于現(xiàn)有研究很多都沒有考慮中立傾向的微博,為了便于對比,本文實驗只分析微博的正負(fù)面情感傾向性。
3.2評價方法
為了評價情感傾向性分析方法的性能,本文實驗選取與NLP&&CC2012相同的評價方法,即準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值:
(16)
(17)
(18)
其中,S表示情感傾向,S={S+,S-},PS、RS和FS分別表示在對情感傾向為S的類別進行評價的準(zhǔn)確率、召回率和F1值。整體的情感傾向性的性能可以通過F1S值加權(quán)求和得到,公式如下:
(19)
其中,F(xiàn)avg表示正負(fù)面微博F1值的加權(quán)平均值,NS表示情感傾向為S的微博消息的數(shù)量。
3.3實驗設(shè)置與結(jié)果分析
為了驗證該方法的有效性,本文選取文獻(xiàn)[7]提出的JST和文獻(xiàn)[8]提出的ASUM進行對比實驗,結(jié)果分別記為JST和ASUM;本文方法結(jié)果記為MBV(Micro-Blog Vector)。JST和ASUM按照文獻(xiàn)[9]中的方法設(shè)置最優(yōu)參數(shù);MBV中Skip-gram模型的參數(shù)按照文獻(xiàn)[11]中設(shè)置。設(shè)置以下2組實驗:
(1) 綜合性能對比實驗
分別利用上述3種方法進行實驗,評估其綜合性能。其中,對JST、ASUM和MBV的結(jié)果取10次求平均作為其最終結(jié)果。其中,Ppos表示正面微博的準(zhǔn)確率,Rpos表示正面微博的召回率,F(xiàn)pos表示正面微博的F1值,Pneg表示負(fù)面微博的準(zhǔn)確率,Rneg表示負(fù)面微博的召回率,F(xiàn)neg表示負(fù)面微博的F1值,F(xiàn)avg表示正負(fù)面微博F1值的加權(quán)平均值。綜合性能對比情況如表1所示。
表1 不同方法的綜合性能對比實驗
由表1可以看出,三種方法結(jié)果中MBV的Favg值為0.840,明顯高于JST的0.607和ASUM的0.574,而且MBV在正面微博和負(fù)面微博的情感傾向性分析中也都顯示了明顯的優(yōu)勢。三種方法的Fpos都較低,這是因為實驗數(shù)據(jù)不平衡,負(fù)面傾向的微博有1406條,遠(yuǎn)多于正面傾向的微博,將負(fù)面微博誤判為正面微博的數(shù)量更多,造成正面微博的準(zhǔn)確率相對較低。除此之外,因為JST和ASUM都是基于主題模型的方法,當(dāng)實驗數(shù)據(jù)中正負(fù)面情感的微博數(shù)量不平衡時,通過主題模型得到的主題中包含負(fù)面情感詞的概率較大,將微博判斷為負(fù)面的概率也隨之增大,這進一步導(dǎo)致JST和ASUM的Rpos較低。與此同時,這種情感判斷的傾向性會使得JST和ASUM的Pneg較高,但是Rneg較低,F(xiàn)neg也相對較低。ASUM的Fpos高于JST,這是因為ASUM假設(shè)數(shù)據(jù)中正負(fù)面微博比例相當(dāng),導(dǎo)致相當(dāng)一部分負(fù)面微博誤識別為正面微博,使得Rpos較高,從而導(dǎo)致Fpos偏高,但是ASUM的這種假設(shè)會導(dǎo)致Fneg相應(yīng)偏小,整體性能低于JST。MBV中以詞語的詞向量表示為基礎(chǔ),訓(xùn)練過程中不需要對訓(xùn)練數(shù)據(jù)中正負(fù)面內(nèi)容的比例進行規(guī)定。除此之外,通過情感詞的詞向量計算情感向量作為對正負(fù)面情感的表示也可以避免情感詞典不平衡和不完整對情感分析的影響。總的來說,MBV使用微博向量對微博包含的語義信息進行表示。通過計算微博向量與正負(fù)面情感的語義相似度進行情感傾向性判斷,更符合對人類認(rèn)知內(nèi)容的過程,實驗結(jié)果也表明該方法明顯優(yōu)于JST和ASUM。
本文提出的方法是在大規(guī)模無標(biāo)注的訓(xùn)練數(shù)據(jù)上進行訓(xùn)練,具有良好的領(lǐng)域可移植性。為了驗證本文提出的方法在單個微博事件的情感傾向性分析中的性能,本文對實驗中使用的20個事件的情感傾向性分析結(jié)果進行了單獨計算,得到的結(jié)果如表2所示。
表2 單個微博事件情感傾向性分析
從表2中可以看出,“皮鞋果凍”、“瘋狂的大蔥”、“名古屋市長否認(rèn)南京大屠殺”等事件對應(yīng)的Favg高于其他事件,這是因為與這些事件相關(guān)的微博中大部分都是表示譴責(zé)和批評,使用了較多具有強烈的負(fù)面情感傾向的詞,使微博向量明顯的傾向于負(fù)面情感向量。而在“蘋果封殺360”、“國旗下討伐教育制度”等事件中,有較多的微博包含了支持一方反對另一方的內(nèi)容,如“他的勇氣實在令人佩服,這個社會就是黑暗的”等。由于本文的方法將微博內(nèi)容看成詞袋,無法區(qū)分評論的對象,當(dāng)包含多個對象多種情感時該方法的準(zhǔn)確性降低??傮w來說,本文提出的方法在大多數(shù)屬于不同領(lǐng)域的單個事件的情感傾向性分析中都取得了較好的結(jié)果,說明本文的方法具有良好的領(lǐng)域可移植性。
(2) 平衡數(shù)據(jù)上的對比實驗
實驗(1)中,由于實驗數(shù)據(jù)中正負(fù)情感傾向的微博數(shù)量差別較大,數(shù)據(jù)存在不平衡。為了增強實驗對比的可靠性,本文從實驗數(shù)據(jù)中分別選取正負(fù)面微博各307條構(gòu)建了一份平衡數(shù)據(jù)用于進行對比實驗,結(jié)果如圖1所示。
圖1 平衡數(shù)據(jù)對比實驗結(jié)果
由圖1可以看到,在平衡數(shù)據(jù)上進行實驗,MBV的Fpos和Fneg均明顯高于JST和ASUM。三種方法的Fpos都高于實驗(1)的結(jié)果,這是因為負(fù)面微博被錯判為正面微博的數(shù)量減少,使Ppos得以提高,進而提高了Fpos。JST和ASUM的Fneg都低于實驗(1)中的結(jié)果,這符合之前的結(jié)果分析。除此之外,ASUM在平衡語料上的結(jié)果優(yōu)于JST,這是因為平衡語料符合ASUM正負(fù)面微博比例相當(dāng)?shù)募僭O(shè),ASUM表現(xiàn)更好。MBV對每條微博計算一個微博向量作為其表示,與正負(fù)面情感向量計算語義相似度進行情感傾向性判斷。不同微博計算微博向量表示和進行情感傾向性判斷的過程是相互獨立的,因此不會受到待測數(shù)據(jù)中正負(fù)面內(nèi)容的比例不同的影響。綜合實驗(1)和實驗(2)的結(jié)果,本文的方法具有良好的領(lǐng)域可移植性,在非平衡數(shù)據(jù)還是平衡數(shù)據(jù)上,性能均優(yōu)于傳統(tǒng)方法,這充分證明了本文方法的有效性和優(yōu)越性。
4結(jié)語
本文利用Skip-gram模型在中文數(shù)據(jù)上進行訓(xùn)練,利用詞向量在詞語表示上的優(yōu)勢,以及在一定程度上滿足加法組合運算的特性,提出了一種使用微博向量對微博進行表示,并將其用于微博情感傾向性分析的方法。通過在非平衡數(shù)據(jù)和平衡數(shù)據(jù)上分別進行實驗,證明了本文提出的方法較傳統(tǒng)的JST模型和ASUM模型性能上有了很大的提高,并且具有良好的領(lǐng)域可移植性。本文的方法中是使用微博向量對一條微博進行表示,該方法同樣可以適用于其他句子級的情感傾向性分析任務(wù)中。除此之外,Skip-gram模型對詞語表示的準(zhǔn)確度可以通過擴大訓(xùn)練數(shù)據(jù)的規(guī)模和領(lǐng)域范圍進行提高,所以本文方法的性能還有進一步提高的空間。
本文的方法中還存在一些不足,主要包括以下兩個方面的問題:首先是沒有對微博中用詞不規(guī)范的情況進行處理,在微博中經(jīng)常會出現(xiàn)錯別字、散光字、火星文等,如“老白姓”、“弓雖”等,當(dāng)微博內(nèi)容較短時會影響結(jié)果;其次是本文雖然取得了較好的結(jié)果,但是構(gòu)造微博向量的方法較為簡單,沒有考慮詞語的前后順序及否定詞的影響。在下一步工作中,如何解決這兩個問題,將是研究的重要方向。
參考文獻(xiàn)
[1] 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告(2014年7月)[R].北京:中國互聯(lián)網(wǎng)信息中心,2014.
[2] 馮時,付永陳,陽鋒,等.基于依存句法的博文情感傾向性分析研究[J].計算機研究與發(fā)展,2012,49(11):2395-2406.
[3] Fuliang Guo,Gang Zhou.Research on micro-blog sentiment orientation analysis based on improved dependency parsing[C]//Proceedings of the 2013 3rd International Conference on Consumer Electronics,Communications and Networks,Xianning,China,2013:546-550.
[4] Bing Liu,Lei Zhang.A survey of opinion mining and sentiment analysis[M].New York:Springer US,2012:415-463.
[5] Barbosa L,Junlan Feng.Robust sentiment detection on twitter from biased and noisy data[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Uppsala,Sweden,2010:36-44.
[6] 謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報,2012,26(1):73-83.
[7] Chenghua Lin,Yulan He.Joint sentiment topic model for sentiment analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management Hong Kong,China,2009:375-384.
[8] Jo Yohan,Oh Alice.Aspect and Sentiment Unification Model for Online Review Analysis[C]//Proc. of the fourth ACM international conference on Web search and data mining,2011:815-824.
[9] Wanying Ding,Xiaoli Song,Lifan Guo.A novel hybrid HDP-LDA model for sentiment analysis[C]//Proceedings of the 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technology,Atlanta,USA,2013,1(1):329-336.
[10] Kevin P Murphy.Machine Learning-A Probabilistic Perspective[M].Cambridge,Massachusetts London,England: The MIT Press,2012:2-3.
[11] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations,2013.
[12] Yoshua B,Rejean D,Pascal V,et al.A neural probabilistic language model[J].The Journal of Machine Learning Research,2003,3(6):1137-1155.
[13] Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Neural Information Procesing Systems Foundation,2013.
[14] Frederic M,Yoshua B.Hierarchical probabilistic neural network language model[C]//Proceedings of the international workshop on artificial intelligence and statistics,2005.
[15] 董振東,董強.HowNet情感詞典[EB/OL].[2013-07-28].http://www.keenage.com.
[16] Ku Lunwei,Lo Yongsheng,Chen Hsinhsi.Using Polarity Scores of Words for Sentence-level Opinion Extraction[C]//Proc.of NTCIR-6 workshop meeting,2007:316-322.
[17] 張偉,劉縉,郭先珍.學(xué)生褒貶義詞典[M].北京:中國大百科全書出版社,2004.
[18] 中國計算機學(xué)會.微博情感分析評測數(shù)據(jù)[EB/OL].[2012-09-12].http://tcci.ccf.org.cn/conference/2012/.
收稿日期:2014-12-13。李天彩,碩士生,主研領(lǐng)域:情感分析,會話抽取。王波,副教授。毛二松,碩士生。席耀一,博士生。
中圖分類號TP391.4
文獻(xiàn)標(biāo)識碼A
DOI:10.3969/j.issn.1000-386x.2016.07.027
ANALYSING MICROBLOGGING SENTIMENT ORIENTATION BASED ON SKIP-GRAM MODEL
Li TiancaiWang BoMao ErsongXi Yaoyi
(ThePLAInformationEngineeringUniversity,Zhengzhou450002,Henan,China)
AbstractIn order to represent microblogs better and to improve the accuracy of microblogging sentiment orientation identification, we presented a Skip-gram model-based microblogging sentiment orientation analysis method. First, we used Skip-gram model in training on Chinese dataset to get word vector; then, we took use of the advantage of word vector on word representation and its feature of satisfying in certain extent the addition combinational operation to obtain the vector representation of microblogs and the positive and negative sentiment vectors by vectors addition; finally, we determined the microblogging sentiment orientation by computing the similarity between microblogging vectors and positive and negative sentiment vectors. Experiment was carried out on NLP&CC2012 data, the results showed that our method could effectively identify the sentiment orientation of microblogs, and improved the average F1-measure by 23% and 26% respectively compared with traditional JST and ASUM.
KeywordsMicrobloggingSentiment analysisSkip-gram modelWord vectorMicroblogging vector