徐學(xué)可,譚松波,劉 悅,程學(xué)旗,吳瓊
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100190)
?
面向在線顧客點(diǎn)評(píng)的屬性依賴情感知識(shí)學(xué)習(xí)
徐學(xué)可1,2,譚松波1,劉 悅1,程學(xué)旗1,吳瓊1
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100190)
該文研究屬性依賴情感知識(shí)學(xué)習(xí)。首先提出了一個(gè)新穎的話題模型,屬性觀點(diǎn)聯(lián)合模型(Joint Aspect/Opinion model, JAO),來(lái)同時(shí)抽取評(píng)論實(shí)體屬性及屬性相關(guān)觀點(diǎn)詞信息。在此基礎(chǔ)上,對(duì)于各個(gè)屬性,構(gòu)造屬性依賴的詞關(guān)系圖,并在該圖上應(yīng)用馬爾科夫隨機(jī)行走過(guò)程來(lái)計(jì)算觀點(diǎn)詞到少量褒、貶種子詞的游走時(shí)間(Hitting Time),進(jìn)而估計(jì)這些詞的屬性依賴的情感極性分值。在餐館點(diǎn)評(píng)數(shù)據(jù)上的實(shí)驗(yàn)表明所提出的方法能有效抽取屬性相關(guān)觀點(diǎn)詞,同時(shí)有效估計(jì)其屬性依賴的情感極性分值。
顧客點(diǎn)評(píng);屬性觀點(diǎn)聯(lián)合模型;游走時(shí)間;屬性依賴情感知識(shí)
隨著Web 2.0的迅猛發(fā)展,越來(lái)越多的顧客通過(guò)Amazon、京東等在線電子商務(wù)平臺(tái)對(duì)各種產(chǎn)品或服務(wù)發(fā)表個(gè)人觀點(diǎn)。這些在線顧客點(diǎn)評(píng)中蘊(yùn)含著巨大的商業(yè)價(jià)值。同時(shí)由于其爆炸式的增長(zhǎng),我們迫切需要情感分析工具,來(lái)自動(dòng)高效地抽取、分析及歸納其中的情感信息[1-11]。通常而言,顧客總是針對(duì)評(píng)論實(shí)體的特定屬性(aspect)(如餐館的環(huán)境、服務(wù)等)發(fā)表觀點(diǎn);另一方面,不同的用戶往往關(guān)注不同的屬性。因此面向點(diǎn)評(píng)的情感分析應(yīng)該細(xì)化到屬性層次。在屬性層次情感分析應(yīng)用中,高質(zhì)量的情感知識(shí)資源起著基礎(chǔ)性作用[12]。然而由于顧客情感表達(dá)往往具有屬性依賴性[12-13],通用情感知識(shí)往往并不適合,屬性依賴(aspect-dependent)的情感知識(shí)有助于屬性層次情感分析應(yīng)用,具體而言: 針對(duì)特定屬性,顧客通常使用專門(mén)的觀點(diǎn)詞來(lái)傳達(dá)情感。例如,人們使用“舒適”、“浪漫”來(lái)形容餐館的環(huán)境,使用“友好”、“熱情”來(lái)描繪餐館服務(wù)。相對(duì)于通用觀點(diǎn)詞,這些專屬的觀點(diǎn)詞可以幫助人們從評(píng)論文本中抽取屬性相關(guān)的更有意義的情感信息[13]。
觀點(diǎn)詞的褒貶情感極性往往是屬性依賴的。同個(gè)觀點(diǎn)詞在描繪不同屬性時(shí),往往傳達(dá)不同的情感極性。例如,在酒店評(píng)論中,人們喜歡房間“大”,卻厭惡噪音“大”。此外,很多觀點(diǎn)詞僅僅對(duì)特定屬性有情感極性,如“private”一般來(lái)講是中性的,但對(duì)于餐館的環(huán)境來(lái)說(shuō),卻是褒義的。識(shí)別屬性依賴的情感極性有助于屬性層次情感分類任務(wù)[12]。
因此,本文研究屬性依賴情感知識(shí)學(xué)習(xí),也就是說(shuō),我們從給定領(lǐng)域的顧客點(diǎn)評(píng)(如餐館點(diǎn)評(píng))中抽取顧客經(jīng)常點(diǎn)評(píng)的重要實(shí)體屬性;對(duì)各個(gè)屬性,抽取屬性相關(guān)的觀點(diǎn)詞,同時(shí)估計(jì)其屬性依賴的情感極性分值。針對(duì)這一任務(wù),本文提出了一個(gè)兩階段方法。在第一個(gè)階段,我們對(duì)LDA(Latent Dirichlet Allocation)[14]模型進(jìn)行擴(kuò)展,提出了一個(gè)新穎的話題模型,屬性觀點(diǎn)聯(lián)合模型(Joint Aspect/Opinion model, JAO),來(lái)同時(shí)抽取實(shí)體屬性及屬性相關(guān)觀點(diǎn)詞信息。相對(duì)于現(xiàn)有模型[13],JAO不需要任何領(lǐng)域知識(shí)或者人工標(biāo)注數(shù)據(jù),具有更好的領(lǐng)域適應(yīng)性。在第一階段基礎(chǔ)上,對(duì)于各個(gè)屬性,我們構(gòu)造屬性專屬(aspect-specific)的詞關(guān)系圖,在該圖上,應(yīng)用馬爾科夫隨機(jī)行走過(guò)程來(lái)計(jì)算觀點(diǎn)詞到褒、貶種子詞的游走時(shí)間(Hitting Time)[15],進(jìn)而估計(jì)觀點(diǎn)詞的屬性依賴情感極性分值。相對(duì)于現(xiàn)有方法,我們方法僅僅需要淺層次的詞共現(xiàn)信息,不需要深層自然語(yǔ)言處理[12]或者人工提供的信息[16],因而具有更高的語(yǔ)言獨(dú)立性和領(lǐng)域適應(yīng)性。
1.1 屬性抽取
部分工作抽取點(diǎn)評(píng)中的評(píng)價(jià)對(duì)象作為屬性。抽取方法主要包括NLP[9,17]、Data Mining[17]、基于模板的方法[6]、基于規(guī)則的方法[18]等。
近年來(lái),統(tǒng)計(jì)話題模型如PLSA(Probabilistic Latent Semantic Analysis)[19]、LDA[14]及其變種在屬性抽取中得到廣泛應(yīng)用。在這些工作中,屬性視為隱含話題,表示為詞空間上的概率分布。這樣所抽取的每個(gè)屬性具有完備一致的語(yǔ)義表示。 Titov 等人[20]提出多粒度的話題模型(MG-LDA),利用句子滑動(dòng)窗口層次的詞共現(xiàn)信息,從產(chǎn)品點(diǎn)評(píng)中抽取局部話題(local topics)以對(duì)應(yīng)實(shí)體的不同屬性。Ling等人[21]用少量的關(guān)鍵詞來(lái)預(yù)定義屬性,分別利用Dirichlet 先驗(yàn)或正則約束來(lái)引導(dǎo)屬性的抽取,使得抽取的屬性與預(yù)定義屬性對(duì)齊。不同于這些模型,我們提出的JAO模型不僅抽取屬性,同時(shí)能抽取屬性相關(guān)觀點(diǎn)詞。
1.2 屬性情感知識(shí)學(xué)習(xí)
Brody 等人[16]提出了一個(gè)兩階段方法來(lái)學(xué)習(xí)屬性情感知識(shí)。首先,采用Local LDA模型抽取屬性。然后抽取修飾屬性相關(guān)名稱的形容詞作為觀點(diǎn)詞,利用情感極性圖的標(biāo)簽擴(kuò)散方法學(xué)習(xí)這些觀點(diǎn)詞的屬性依賴情感極性分值。不同于他們的方法,我們?cè)诘谝浑A段同時(shí)抽取屬性及屬性相關(guān)觀點(diǎn)詞。MaxEnt-LDA模型[13]是第一個(gè)同時(shí)抽取屬性及屬性相關(guān)觀點(diǎn)詞的一體化模型。該模型整合了一個(gè)使用標(biāo)注數(shù)據(jù)學(xué)習(xí)的最大熵分類器來(lái)區(qū)分觀點(diǎn)詞跟客觀詞,但并沒(méi)有進(jìn)一步考慮觀點(diǎn)詞的情感極性。Lu等人[12]提出了基于優(yōu)化學(xué)習(xí)框架的屬性依賴情感極性學(xué)習(xí)方法。其優(yōu)化目標(biāo)函數(shù)中整合了多種關(guān)于情感極性的約束知識(shí)。但該方法依賴通常難以獲得的情感等級(jí)評(píng)分等人工給定信息。此外該方法中屬性是預(yù)先定義的,并且表示為人工指定的少量關(guān)鍵詞。所有這些限制了該方法在不同領(lǐng)域的應(yīng)用。
1.3 其他相關(guān)工作
還有不少工作雖然不是直接針對(duì)屬性情感知識(shí)學(xué)習(xí),但也與本文工作相關(guān)。Hassan等人[22]考慮利用隨機(jī)行走計(jì)算不考慮任何屬性的通用情感極性。由于許多觀點(diǎn)詞的褒貶情感極性依屬性不同而變化,該方法不可能準(zhǔn)確反映這些觀點(diǎn)詞的情感極性。此外,該方法利用WordNet這個(gè)英語(yǔ)本體知識(shí)庫(kù)來(lái)構(gòu)造詞關(guān)系圖,這限制了該方法在其他語(yǔ)言上的應(yīng)用。Lin等人[23]提出了JST模型,針對(duì)不同情感(褒或貶)抽取相應(yīng)情感傾向的話題。Jo等人[24]提出ASUM模型,來(lái)對(duì)JST進(jìn)行了改進(jìn),使得抽取的話題對(duì)應(yīng)于實(shí)體的屬性。類似JST,ASUM沒(méi)有顯式地學(xué)習(xí)屬性相關(guān)的情感知識(shí),而是針對(duì)不同情感(褒或貶),抽取帶相應(yīng)情感傾向的屬性,所抽取的情感傾向的屬性沒(méi)有顯式地區(qū)分觀點(diǎn)與客觀信息,而是二者高度混雜。
2.1 模型描繪
傳統(tǒng)LDA模型主要利用文檔層次的詞共現(xiàn)信息來(lái)抽取全局性的隱含話題。由于一篇評(píng)論文檔往往涉及到實(shí)體的多個(gè)屬性,所抽取話題往往不能對(duì)應(yīng)于屬性[20]。由于一個(gè)短句往往只涉及一個(gè)屬性[25]。因此為了讓抽取的話題對(duì)應(yīng)于屬性,我們可以利用短句層次的詞共現(xiàn)信息。然而,直接在短句集合上進(jìn)行挖掘,往往受到短句數(shù)據(jù)稀疏性影響。為此,我們引入虛擬文檔(Virtual Document),每個(gè)虛擬文檔對(duì)應(yīng)一個(gè)詞,我們將出現(xiàn)該詞的所有短句連接構(gòu)造相應(yīng)的虛擬文檔。我們的模型應(yīng)用到虛擬文檔集上而不是短句集或點(diǎn)評(píng)文檔集上。這樣,我們就可以充分利用短句層次詞共現(xiàn)信息,同時(shí)克服短句的數(shù)據(jù)稀疏性問(wèn)題,來(lái)更好地抽取屬性。除了抽取屬性信息,我們的模型進(jìn)一步整合觀點(diǎn)詞典知識(shí)來(lái)顯式地區(qū)分觀點(diǎn)詞與客觀詞, 進(jìn)而抽取屬性相關(guān)觀點(diǎn)詞。
給定特定領(lǐng)域顧客點(diǎn)評(píng)集,其中點(diǎn)評(píng)中每個(gè)短句視為一個(gè)詞序列,我們可以構(gòu)造D個(gè)虛擬文檔,每個(gè)虛擬文檔視為相應(yīng)短句的詞序列連接構(gòu)成的一個(gè)大詞序列,而每個(gè)詞是一個(gè)詞典中的一個(gè)項(xiàng)目,這里詞典中包含V個(gè)詞,分別記為w=1,...,V。虛擬文檔vd中的第n個(gè)詞wvd,n與兩個(gè)變量關(guān)聯(lián): zvd,n和ζd,s,n。其中,zvd,n表示屬性;ζd,s,n為主客觀標(biāo)簽(subjectivitylabel),表示該詞是傳達(dá)情感(褒或貶)的觀點(diǎn)詞(ζd,s,n=opn)還是不傳達(dá)情感的客觀詞(ζd,s,n=fact)。根據(jù)JAO模型,虛擬文檔集的產(chǎn)生過(guò)程如下。
1.對(duì)于每個(gè)屬性z:(a)對(duì)主客觀標(biāo)簽opn跟fact,分別從參數(shù)為β的Dirichlet分布中選擇一個(gè)詞分布:Φz(mì),fact~Dir(β);Φz(mì),opn~Dir(β).2.對(duì)每個(gè)虛擬文檔vd(a)從參數(shù)為α的Dirichlet分布選擇一個(gè)屬性分布:θvd~Dir(α)(b)對(duì)vd中的每個(gè)詞wvd,n:(i)按屬性分布θvd采樣一個(gè)屬性:zvd,n~θvd(ii)按主客觀標(biāo)簽分布vvd,n選擇一個(gè)主客觀標(biāo)簽:ζvd,n~vvd,n(1)如果ζd,s,n=opn,按詞分布Φz(mì)vd,n,opn產(chǎn)生wvd,n:wvd,n~Φz(mì)vd,n,opn(2)否則,按詞分布Φz(mì)vd,n,fact產(chǎn)生wvd,n:wvd,n~Φz(mì)vd,n,fact
圖1 虛擬文檔集產(chǎn)生過(guò)程的圖形表示
2.2 如何區(qū)分觀點(diǎn)詞跟客觀詞
(1)
這樣,主客觀標(biāo)簽ζvd,n的賦值很大程度上由wvd,n是否出現(xiàn)在觀點(diǎn)詞典中決定。我們的方法雖然簡(jiǎn)單,但效果很好,實(shí)驗(yàn)表明優(yōu)于需要標(biāo)注數(shù)據(jù)的MaxEnt-LDA模型[13]。
值得注意的是,我們的模型可以通過(guò)將不同來(lái)源的知識(shí)(如觀點(diǎn)詞典、觀點(diǎn)表達(dá)語(yǔ)法模式)應(yīng)用到詞wvd,n的上下文特征cvd,n來(lái)設(shè)置νvd,n,來(lái)更好識(shí)別觀點(diǎn)詞。這是我們將來(lái)工作的重點(diǎn)。
2.3 模型參數(shù)估計(jì)
我們采用collapsedGibbssampling[26]方法來(lái)對(duì)所有zvd,n及ζvd,n變量的賦值進(jìn)行后驗(yàn)估計(jì)。根據(jù)collapsedGibbssampling,變量賦值按一個(gè)給定所有其他變量賦值及觀察數(shù)據(jù)下的條件概率分布依序選擇產(chǎn)生。這里,zvd,n和ζvd,n的賦值根據(jù)公式(2)的條件概率分布聯(lián)合選擇產(chǎn)生:
(2)
其中w是虛擬文檔集的總詞序列;T是事先指定的屬性個(gè)數(shù);z及ζ分別是這個(gè)詞序列(除了vd中第n個(gè)詞外)上詞的屬性及主客觀標(biāo)簽賦值序列;是vd中詞的個(gè)數(shù)。是vd中詞被賦值為屬性t的次數(shù)。)w上任何詞(或者詞w)賦值為屬性t及主客觀標(biāo)簽l的次數(shù)。以上所有次數(shù)統(tǒng)計(jì)都排除vd的第n個(gè)詞。
(3)
其中Φt,fact體現(xiàn)了屬性t的客觀語(yǔ)義,而Φt,opn中的高概率詞是屬性t相關(guān)觀點(diǎn)詞。
給定一個(gè)屬性,我們首先構(gòu)造屬性專屬的詞關(guān)系圖;然后計(jì)算觀點(diǎn)詞到少量褒、貶種子詞的游走時(shí)間來(lái)估計(jì)這些詞的屬性依賴情感極性分值。
3.1 詞關(guān)系圖構(gòu)造
(4)
這里|S|為語(yǔ)料中子句的總數(shù);cz(wi)出現(xiàn)詞i的所有短句的帶權(quán)個(gè)數(shù)和;cz(wi,wj)為同時(shí)出現(xiàn)詞i及j的所有短句的帶權(quán)個(gè)數(shù)和。 每個(gè)“個(gè)數(shù)”的權(quán)重為相應(yīng)短句的屬性相關(guān)度。 短句s的屬性相關(guān)度按公式(5)計(jì)算。
(5)
3.2 游走時(shí)間計(jì)算
(6)
(7)
對(duì)于上式的第一項(xiàng):
(8)
(9)
顯然對(duì)于i∈S有hz(i|S)=0。最終我們得到計(jì)算游走時(shí)間的如下線性系統(tǒng):
(10)
為了計(jì)算情感極性,我們分別有褒、貶種子觀點(diǎn)詞集:S+及S-。這里S+及S-來(lái)源于文獻(xiàn)[24]。相應(yīng)的,給定圖中的一個(gè)詞i,我們可以分別有如下游走時(shí)間:hz(i|S+)及hz(i|S-)。這里hz(i|S+)值越低,表明詞i跟褒義種子觀點(diǎn)詞語(yǔ)義距離越小,因而也傾向于褒義。對(duì)于hz(i|S-)也同理。
最終我們計(jì)算屬性依賴情感極性分值如下:
(11)
該值靠近0是表明詞i相對(duì)屬性z傳達(dá)貶義極性,靠近1表明褒義??偟那楦袠O性計(jì)算流程如下:
1 對(duì)每個(gè)詞,初始化hz0(i|S+)=0,hz0(i|S-)=02 迭代執(zhí)行以下步驟,直到收斂2.1 對(duì)于每個(gè)圖中的詞(非褒義種子詞)i,i?S+,計(jì)算:hzt+1(i|S+)=∑j?S+Wzi,j×hzt(j|S+)+13 迭代執(zhí)行以下步驟,直到收斂3.1 對(duì)于每個(gè)圖中的詞(非貶義種子詞)i,i?S-,計(jì)算:hzt+1(i|S-)=∑j?S-Wzi,j×hzt(j|S-)+14 令hz(i|S+)及hz(i|S-)為最終收斂游走時(shí)間值,則每個(gè)詞的情感極性分值計(jì)算如下polarity(z,i)=hz(i|S-)hz(i|S+)+hz(i|S-)
我們使用一個(gè)公開(kāi)的餐館點(diǎn)評(píng)集[27]。該數(shù)據(jù)集包含從CitySearch網(wǎng)站采集的52 264篇顧客點(diǎn)評(píng)。該數(shù)據(jù)集已經(jīng)做了包括句子分割、詞性標(biāo)注等預(yù)處理。對(duì)每個(gè)句子我們根據(jù)冒號(hào)和逗號(hào)進(jìn)一步分割,得到短句,然后進(jìn)一步去除停用詞。最終每個(gè)短句都轉(zhuǎn)化為帶詞性標(biāo)注的詞序列。如 "the quality is good" 變換為 "quality_noun good_adj"
4.1 JAO評(píng)估
為了進(jìn)行JAO的學(xué)習(xí),我們需要構(gòu)造虛擬文檔。我們僅僅選擇點(diǎn)評(píng)集中出現(xiàn)次數(shù)不少于20次的形容詞、名詞、動(dòng)詞及副詞來(lái)構(gòu)造虛擬文檔。出現(xiàn)次數(shù)過(guò)少的詞對(duì)應(yīng)的虛擬文檔往往沒(méi)有充分的共現(xiàn)信息;而其他詞性的詞往往是一些不具備實(shí)義的沒(méi)有屬性區(qū)分能力的功能詞。對(duì)于每個(gè)選擇的詞,我們把出現(xiàn)該詞的所有短句的詞序列連接,構(gòu)成相應(yīng)虛擬文檔的詞序列。我們執(zhí)行100輪Gibbs sampling迭代。JAO的參數(shù)設(shè)置如下: 根據(jù)文獻(xiàn)[16],屬性個(gè)數(shù)T設(shè)置為14;對(duì)于超參數(shù),按照現(xiàn)有研究的慣例[26]設(shè)置α=50/T及β=0.1,沒(méi)有針對(duì)我們的數(shù)據(jù)進(jìn)行專門(mén)調(diào)式。實(shí)驗(yàn)中采用的觀點(diǎn)詞典(見(jiàn)2.2節(jié))來(lái)源于兩個(gè)公開(kāi)的知識(shí)庫(kù):MPQASubjectivityLexicon*http://www.cs.pitt.edu/mpqa/與SentiWordNet*http://sentiwordnet.isti.cnr.it/
4.1.1JAO結(jié)果實(shí)例
表1給出了JAO在餐館點(diǎn)評(píng)集上的結(jié)果實(shí)例。對(duì)于每個(gè)屬性,我們按照Φt,fact及Φt,opn(見(jiàn)式(3))分別列出了排序靠前的客觀詞及觀點(diǎn)詞。這里我們僅僅列出了主要屬性的結(jié)果,忽略一些類似的或者比較瑣碎的屬性。從表中我們可以發(fā)現(xiàn)我們的模型能有效挖掘顧客經(jīng)常評(píng)論的主要餐館屬性信息,如服務(wù), 環(huán)境等。對(duì)于各個(gè)屬性,所抽取的客觀詞能很好的描繪該屬性的語(yǔ)義。更重要的是,大體上, 所抽取的屬性相關(guān)觀點(diǎn)詞與相應(yīng)屬性緊密相聯(lián),具有很好的屬性區(qū)分能力,同時(shí)能對(duì)該屬性提供非常有意義的情感信息。
表1 JAO運(yùn)行實(shí)例(為了增加可讀性我們?nèi)コ嗽~性標(biāo)注,屬性相關(guān)觀點(diǎn)詞加標(biāo)記*)
4.1.2 與MaxEnt-LDA比較
MaxEnt-LDA模型[13]是第一個(gè)抽取屬性及屬性相關(guān)觀點(diǎn)詞的一體化模型。該模型與JAO模型完成同樣地任務(wù)。 原文給出了MaxEnt-LDA在相同的餐館點(diǎn)評(píng)集上的運(yùn)行實(shí)例,總共給出了四個(gè)屬性(“Food”, “Staff”, “Order Taking” 及“Ambience”) 上的結(jié)果。 我們請(qǐng)兩個(gè)標(biāo)注人員來(lái)人工判別觀點(diǎn)詞是否跟相應(yīng)屬性緊密相聯(lián)。表1給出了其中一人的評(píng)估結(jié)果(以* 標(biāo)記屬性相關(guān)觀點(diǎn)詞)。平均二者結(jié)果,MaxEnt-LDA所挖掘觀點(diǎn)詞僅僅52.5%確實(shí)是屬性相關(guān)觀點(diǎn)詞,而JAO在對(duì)應(yīng)的4個(gè)屬性上的結(jié)果是約80%。這表明JAO能更有效的抽取屬性相關(guān)觀點(diǎn)詞。此外MaxEnt-LDA整合了一個(gè)預(yù)先使用標(biāo)注數(shù)據(jù)學(xué)習(xí)的最大熵分類器來(lái)區(qū)分觀點(diǎn)詞跟客觀詞,我們的模型并不需要標(biāo)注數(shù)據(jù),因而具有更好的領(lǐng)域適應(yīng)性。
4.1.3 自動(dòng)定量評(píng)估
直覺(jué)上,一個(gè)觀點(diǎn)詞跟某個(gè)屬性的關(guān)聯(lián)程度可以由多大程度上僅僅根據(jù)該觀點(diǎn)詞就能推斷出相應(yīng)的屬性來(lái)度量。因此,我們可以通過(guò)利用屬性相關(guān)觀點(diǎn)詞進(jìn)行屬性識(shí)別,來(lái)更加客觀準(zhǔn)確評(píng)估JAO的屬性相關(guān)觀點(diǎn)詞抽取性能。餐館評(píng)論數(shù)據(jù)包含了大概3 400個(gè)帶屬性信息的人工標(biāo)注句子。這里候選屬性集包括8個(gè)人工定義屬性{"Staff", "Food", "Ambience", "Price", "Anecdote", "Misc"}。參考文獻(xiàn)[13]的做法,我們從中選擇顧客經(jīng)常評(píng)論的3個(gè)重要屬性: "Staff", "Food", "Ambience";忽略其他語(yǔ)義信息不明確的屬性如"Misc"。
具體而言,對(duì)于一個(gè)人工定義屬性a,我們根據(jù)自動(dòng)學(xué)習(xí)的屬性觀點(diǎn)模型與句子語(yǔ)言模型的負(fù)KL距離來(lái)對(duì)所有標(biāo)注句子進(jìn)行排序。我們利用排序位置N上的準(zhǔn)確率作為性能度量指標(biāo)。我們這里句子語(yǔ)言模型由基于Dirichlet的極大似然估計(jì)方法學(xué)習(xí)。而對(duì)于a,相應(yīng)的屬性觀點(diǎn)模型如下
(12)
這里Ta為JAO自動(dòng)學(xué)習(xí)到的對(duì)應(yīng)到a的屬性集*可能有多個(gè)JAO自動(dòng)挖掘的屬性對(duì)應(yīng)到一個(gè)人工屬性,如“Food-Meal”,“Food- Bakery”等對(duì)應(yīng)到人工定義屬性“Food”。這是由于JAO能有效抽取細(xì)粒度的屬性。;VO為觀點(diǎn)詞典。對(duì)非觀點(diǎn)詞,我們將概率值設(shè)為0。這樣我們就可以只利用觀點(diǎn)詞來(lái)進(jìn)行屬性識(shí)別。
作為比較,我們考慮以下方法估計(jì)屬性觀點(diǎn)模型:
Gen. 我們用通用觀點(diǎn)模型作為屬性觀點(diǎn)模型。每個(gè)觀點(diǎn)詞的概率值均等,不區(qū)分是否屬相相關(guān)。
Bol. 我們首先選取標(biāo)注為相應(yīng)屬性的句子,然后利用Bol詞權(quán)重計(jì)算模型,來(lái)計(jì)算每個(gè)觀點(diǎn)詞的在這些句子中的權(quán)重,反映該詞的屬性區(qū)分能力,進(jìn)而推斷該詞在屬性觀點(diǎn)模型中的概率值。值得注意的是Bol直接利用了標(biāo)注數(shù)據(jù)及一個(gè)高效的權(quán)重計(jì)算模型Bol[28]來(lái)進(jìn)行訓(xùn)練,而所用標(biāo)注數(shù)據(jù)同時(shí)用來(lái)測(cè)試。因而B(niǎo)ol是個(gè)非常強(qiáng)的方法??梢宰鳛闊o(wú)監(jiān)督方法(比如我們方法)的所能達(dá)到的性能的上界。
此外,由于MaxEnt-LDA學(xué)習(xí)所需的標(biāo)注數(shù)據(jù)不公開(kāi),我們沒(méi)辦法利用MaxEnt-LDA學(xué)習(xí)屬性觀點(diǎn)模型來(lái)進(jìn)行比較。
圖2給出了,在三個(gè)屬性上,不同方法的準(zhǔn)確率(Precision)隨排序位置N的變化曲線。我們看到,我們的方法遠(yuǎn)遠(yuǎn)優(yōu)于Gen,同時(shí)非常接近Bol, 甚至
圖2 準(zhǔn)確率(Precision)隨排序位置N的變化曲線
在staff屬性上超過(guò)Bol;同時(shí)當(dāng)N較小時(shí),準(zhǔn)確率非常高。從中驗(yàn)證了我們的方法所抽取觀點(diǎn)詞跟相應(yīng)屬性緊密聯(lián)系。
4.2 情感極性分值評(píng)估
4.2.1 結(jié)果實(shí)例
表2給出了屬性依賴情感極性學(xué)習(xí)的實(shí)例,從中我們可以看出我們的基于游走時(shí)間的方法可以有效學(xué)習(xí)屬性相關(guān)觀點(diǎn)詞依賴于特定屬性的情感極性。例如,“heavy”對(duì)于MainDishes來(lái)說(shuō)口味過(guò)重,是貶義詞;“private”一般來(lái)講是中性的,但對(duì)于餐館的氣氛屬性來(lái)說(shuō),卻是褒義的。
表2 屬性依賴情感極性學(xué)習(xí)的實(shí)例
4.2.2 自動(dòng)定量評(píng)估
Brody等人[16]針對(duì)餐館點(diǎn)評(píng)數(shù)據(jù)集構(gòu)造了屬性依賴情感極性分值的答案數(shù)據(jù),該數(shù)據(jù)涉及8個(gè)標(biāo)注屬性(見(jiàn)表3),對(duì)于每個(gè)屬性,有一系列屬性相關(guān)的形容詞,每個(gè)形容詞都由人工標(biāo)注了專屬的情感極性分值,范圍為從-2到2。為了利用該數(shù)據(jù)對(duì)屬性依賴的情感極性分值學(xué)習(xí)進(jìn)行定量評(píng)估,我們?nèi)斯さ貙⒚總€(gè)標(biāo)注屬性對(duì)應(yīng)到一個(gè)JAO自動(dòng)學(xué)習(xí)的屬性,利用該自動(dòng)屬性信息,構(gòu)造詞關(guān)系圖,進(jìn)而學(xué)習(xí)情感極性分值。
作為基準(zhǔn)(baseline),我們采用不考慮屬性的游走時(shí)間方法,也就是在構(gòu)造詞關(guān)系圖時(shí),利用經(jīng)典的逐點(diǎn)互信息方法來(lái)計(jì)算詞之間的關(guān)系權(quán)重。
屬性依賴情感極性學(xué)習(xí)的相關(guān)工作包括: Brody等人[16]利用基于情感極性圖的標(biāo)簽擴(kuò)散方法,判別屬性依賴的情感極性。 Lu等人[12]提出了優(yōu)化學(xué)習(xí)的屬性依賴情感極性學(xué)習(xí)框架。但該方法依賴人工標(biāo)注信息,如情感等級(jí)信息。而我們的數(shù)據(jù)中并沒(méi)有此類信息,不能采用該方法做比較。因此我們這里只采用Brody的方法作為基準(zhǔn)(記做Brody)。
在表3中,Kendall’s tau 指標(biāo)來(lái)度量根據(jù)不同自動(dòng)方法產(chǎn)生的情感極性分值排序與跟人工分值給出的排序的吻合程度。表中Brody+是在Brody基礎(chǔ)上引入人工標(biāo)注信息的變種[16],因而性能更好。Brody跟Brody+的結(jié)果直接來(lái)源于原文[16]。
1) 我們的方法在幾乎在所有屬性上顯著優(yōu)于ASUM, 這是由于ASUM本身不是直接針對(duì)情感知識(shí)學(xué)習(xí),因而并不能很好學(xué)習(xí)觀點(diǎn)詞的情感極性。
2) 平均來(lái)看,我們的方法顯著優(yōu)于Brody跟Brody+。此外,我們的方法僅僅需要淺層的共現(xiàn)信息,不像Brody和Brody+需要進(jìn)行深層自然語(yǔ)言處理,因而具有更高的效率和語(yǔ)言獨(dú)立性。
3) 我們方法相對(duì)于Brody及Brody+在不同屬性上性能非常穩(wěn)定。這是由于我們的方法充分利用全局性詞關(guān)系信息,克服數(shù)據(jù)稀疏性問(wèn)題,從而獲得更可靠情感極性分值。
4) 我們的方法在不同屬性上幾乎一致優(yōu)于不考慮屬性的游走時(shí)間方法(除了屬性Drinks*這是由于“Drinks”屬性的評(píng)論經(jīng)常與其他屬性的混雜,因而不能有效地從語(yǔ)料中挖掘。我們僅僅從自動(dòng)挖掘的屬性中選擇盡可能相關(guān)的對(duì)應(yīng)到“Drinks”),這表明考慮在構(gòu)造詞關(guān)系圖時(shí)利用屬性偏移的逐點(diǎn)互信息方法來(lái)計(jì)算詞之間的關(guān)系權(quán)重能獲得更加準(zhǔn)確的屬性依賴的情感極性分值。
表3 不同方法在Kendall’s tau 指標(biāo)上的比較
本文研究屬性依賴情感知識(shí)學(xué)習(xí),提出了屬性觀點(diǎn)聯(lián)合模型及基于游走時(shí)間的情感極性計(jì)算方法。相比現(xiàn)有方法,我們的方法不依賴領(lǐng)域知識(shí)、人工標(biāo)注及深層次的自然語(yǔ)言處理,因而具有更好的效率和領(lǐng)域適應(yīng)性。在將來(lái),對(duì)于JAO,我們計(jì)劃整合更多來(lái)源的各種知識(shí)來(lái)更好識(shí)別觀點(diǎn)詞。目前對(duì)于情感極性學(xué)習(xí)中的詞關(guān)系圖構(gòu)造,我們目前主要利用共現(xiàn)信息來(lái)度量詞之間的關(guān)系。將來(lái)計(jì)劃引入更多的知識(shí), 來(lái)更好地度量詞關(guān)系。
[1] 黃萱菁, 張奇,吳苑斌. 文本情感傾向分析[J]. 中文信息學(xué)報(bào),2011, 25(6):118-126.
[2] 姚天昉, 程希文, 徐飛玉, 等. 文本意見(jiàn)挖掘綜述[J]. 中文信息學(xué)報(bào), 2008, 22(5):71-80.
[3] 趙妍妍, 秦兵, 劉 挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.
[4] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2725-2728.
[5] 吳瓊, 譚松波, 程學(xué)旗.中文情感傾向性分析的相關(guān)研究進(jìn)展[J]. 信息技術(shù)快報(bào), 2010,8(4):16-38.
[6] 宋曉雷, 王素格, 李紅霞.面向特定領(lǐng)域的產(chǎn)品評(píng)價(jià)對(duì)象自動(dòng)識(shí)別研究[J]. 中文信息學(xué)報(bào), 2010, 24(1): 89-93.
[7] 楊源, 馬云龍, 林鴻飛. 評(píng)論挖掘中產(chǎn)品屬性歸類問(wèn)題研究[J]. 中文信息學(xué)報(bào),2012, 26(3):104-108.
[8] 徐琳宏, 林鴻飛, 趙晶. 情感語(yǔ)料庫(kù)的構(gòu)建和分[J]. 中文信息學(xué)報(bào),2008, 22(1):116-122.
[9] 劉鴻宇, 趙妍妍, 秦兵, 等. 評(píng)價(jià)對(duì)象抽取及其傾向性分析[J]. 中文信息學(xué)報(bào),2010, 24(1):84-88.
[10] 李壽山, 黃居仁. 基于Stacking組合分類方法的中文情感分類研究[J]. 中文信息學(xué)報(bào),2010, 24(5):56-61.
[11] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報(bào),2012, 26(1):73-83.
[12] Yue Lu, Malu Castellanos, Umeshwar Dayal, et al. Automatic Construction of a Context-Aware Sentiment Lexicon: An Optimization Approach[C]//Proceedings of WWW’11, 2011.
[13] Wayne Xin Zhao, Jing Jiang, Hongfei Yan, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 56-65.
[14] David M Blei, Andrew Y Ng, Michael I. Jordan. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003,3(3): 993-1022.
[15] Qiaozhu Mei, Dengyong Zhou, Kenneth Church. Query suggestion using hitting time[C]//Proceedings of the 17th ACM conference on Information and knowledge management (CIKM ’08), 2008.
[16] Samuel Brody, Noemie Elhadad. An unsupervised aspect-sentiment model for online reviews[C]//Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT ’10), 2010.
[17] Minqing Hu, Bing Liu. Mining and summarizing customer reviews[C]//Proceedings of SIGKDD,2004: 168-177.
[18] L Zhuang, F Jing, X Zhu. Movie review mining and summarization[C]//Proceedings of CIKM ’06, 2006: 43-50.
[19] Thomas Hofmann. Probabilistic latent semantic indexing[C]//Proceedings of SIGIR ’99, 1999: 50-57.
[20] I Titov, R McDonald. Modeling online reviews with multi-grain topic models[C]//Proceeding WWW ’08,2008: 111-120.
[21] X Ling, Q Mei, C Zhai, et al. Mining multi-faceted overviews of arbitrary topics in a text collection[C]//Proceeding of the 14th ACM SIGKDD, 2008:497-505.
[22] A Hassan, D Radev. Identifying text polarity using random walks[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL ’10), 2010:395-403.
[23] C Lin, Y He. Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM conference on Information and knowledge management (CIKM ’09), 2009: 375-384.
[24] Yohan Jo, Alice H. Oh. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the fourth ACM international conference on Web search and data mining (WSDM ’11).2011: 815-824.
[25] J Zhu, H Wang, B. K. Tsou, et al. Multi-aspect opinion polling from textual reviews[C]//Proceeding of CIKM ’09, 2009: 1799-1802.
[26] Thomas L Griffiths, Mark Steyvers. Finding scientific topics [J]. Proceedings of the National Academy of Sciences,2004, 101(Suppl 1): 5228-5535.
[27] Gayatree Ganu, Noémie Elhadad, Amélie Marian. Beyond the stars: Improving rating predictions using review text content[C]//Proceedings of International Workshop on the Web and Databases, 2009.
[28] Ben He, Craig Macdonald, Jiyin He, et al. An effective statistical approach to blog post opinion retrieval[C]//Proceeding of CIKM 2008, 2008: 1063-1072.
Learning Aspect-Dependent Sentiment Knowledge for Online Customer Reviews
XU Xueke1,2,TAN Songbo1,LIU Yue1,CHENG Xueqi1,WU Qiong1
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academic of Sciences, Beijing 100190, China)
This paper addresses the problem of learning aspect-dependent sentiment knowledge. Specifically, a novel topic model, called Joint Aspect/Opinion Model (JAO), is proposed to detect aspects and aspect-specific opinion words simultaneoasly in an unsupervised manner. Then, we propose to infer aspect-dependent sentiment polarity scores for these opinion words based on the hitting times from the words to a handful of positive/negative seed words, by applying Markov random walks over an aspect-specific word relation graph. Experimental results on restaurant review data show the effectiveness of the proposed approaches.
online customer review; joint aspect/opinion model; hitting time; aspect-dependent sentiment knowledge
徐學(xué)可(1983—),博士,助理研究員,主要研究領(lǐng)域?yàn)閃eb觀點(diǎn)檢索與挖掘、文本分類及自然語(yǔ)言處理。E?mail:xuxueke@software.ict.a(chǎn)c.cn譚松波(1978—),博士,副研究員,主要研究領(lǐng)域?yàn)榍楦蟹治?,文本分類,機(jī)器學(xué)習(xí)等。E?mail:tansongbo@software.ict.a(chǎn)c.cn劉悅(1971—),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔z索,社區(qū)挖掘與分析,分布式計(jì)算等。E?mail:liuyue@ict.a(chǎn)c.cn
1003-0077(2015)03-0121-09
2012-05-07 定稿日期: 2012-07-09
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)項(xiàng)目(2010AA012502、2010AA012503);國(guó)家自然科學(xué)基金資助項(xiàng)目(60933005、60903139、61100083)
TP391
A