林莉媛,王中卿,李壽山,周國(guó)棟
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上積累了海量的產(chǎn)品評(píng)論,這些評(píng)論表達(dá)了用戶的觀點(diǎn)和情感。這些評(píng)論可以幫助用戶在購(gòu)買產(chǎn)品時(shí)做決定,也可以幫助產(chǎn)品供應(yīng)商對(duì)產(chǎn)品做出改進(jìn)。然而,由于網(wǎng)絡(luò)中存在的產(chǎn)品評(píng)論量太大,同時(shí)在評(píng)論中還存在大量廣告等無(wú)意義的評(píng)論,使得完整的閱讀與分析這么多的評(píng)論顯得相當(dāng)?shù)馁M(fèi)時(shí)費(fèi)力。因此,本文提出基于多文檔的文本情感摘要將這些評(píng)論進(jìn)行濃縮、提煉,幫助用戶消化網(wǎng)絡(luò)上大量的觀點(diǎn)。
文本情感摘要(Opinion Summarization)可以在很大程度上幫助用戶更好的理解網(wǎng)絡(luò)上大量的情感信息,是自然語(yǔ)言處理研究中的一個(gè)重要課題。文本情感摘要可以應(yīng)用在很多方面。例如,對(duì)搜索引擎返回結(jié)果的支持,對(duì)問(wèn)答系統(tǒng)的支持,對(duì)話題檢測(cè)與跟蹤的支持等。由于人工的抽取文本情感摘要耗時(shí)耗力,自動(dòng)的文本情感摘要就成了迫切需要解決的問(wèn)題。
文本情感摘要,通常指從評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子[1-4]。借鑒主題文本摘要任務(wù)[5-6],我們將文本情感摘要看成是所有評(píng)論中句子的排序問(wèn)題。與文本主題摘要不同的是,文本情感摘要不僅需要考慮所抽取句子的主題相關(guān)性,而且還需要考慮句子中是否帶有情感。以前的關(guān)于文本情感摘要的研究大部分都是簡(jiǎn)單的將句子的主題和情感傾向分別打分并進(jìn)行線性求和[7-8]。事實(shí)上,在評(píng)論文本中,句子間的主題與情感表達(dá)密切相關(guān),他們之間的關(guān)系對(duì)摘要的產(chǎn)生有很大的影響。
在本文中,為了充分考慮評(píng)論的句子間的基于主題與基于情感的聯(lián)系,我們提出了一種基于情感的PageRank框架從產(chǎn)品評(píng)論語(yǔ)料中抽取文本情感摘要。具體來(lái)講,我們首先構(gòu)建一個(gè)基于主題和情感的雙層圖模型,并應(yīng)用PageRank算法將圖模型中主題信息和情感信息有效的融合在一起,進(jìn)而抽取出最有代表性的句子作為某個(gè)產(chǎn)品評(píng)論的文本情感摘要。一般而言,PageRank算法本身已經(jīng)考慮到句子的主題相關(guān)性,因此在本文中沒(méi)有特別考慮主題相關(guān)性。實(shí)驗(yàn)證明,我們的方法和已有的方法相比在ROUGE值上能有顯著的提高。此外,針對(duì)中文的文本情感摘要的研究并未涉及。因此,為了充分的分析如何解決中文文本情感摘要問(wèn)題,我們收集和標(biāo)注了一個(gè)基于產(chǎn)品評(píng)論的中文多文檔文本情感摘要語(yǔ)料。
本文其他部分的組織結(jié)構(gòu)為:第二部分介紹了摘要的相關(guān)工作;第三部分描述了我們所收集和標(biāo)注的語(yǔ)料;第四部分提出基于PageRank的多文檔文本情感摘要方法;第五部分詳細(xì)介紹了實(shí)驗(yàn)結(jié)果;第六部分對(duì)本文進(jìn)行了總結(jié)并提出了下一步工作。
自動(dòng)文摘的目的在于通過(guò)機(jī)器對(duì)大規(guī)模的電子文本快速地進(jìn)行濃縮、提煉,生成文章的主旨。已有的相關(guān)研究主要集中在主題的文本摘要,即文本主題摘要。該任務(wù)旨在抽取多文本中與某一固定主題相關(guān)的文本摘要。文本主題摘要的研究已經(jīng)經(jīng)歷了很長(zhǎng)一段時(shí)間。文獻(xiàn)[9]中提出通過(guò)打破特征獨(dú)立性的假設(shè),使用決策樹(shù)來(lái)建立句子摘要的問(wèn)題模型;文獻(xiàn)[7]中使用基于中心向量的方法給文本集中的句子排序,在排序過(guò)程中該方法使用了聚類中心、位置關(guān)系和TFIDF等特征;文獻(xiàn)[10]給出了一種無(wú)監(jiān)督的概率的方法用于建立所有文本的隱式抽象內(nèi)容的模型,通過(guò)內(nèi)容之間的關(guān)系生成連貫的、無(wú)冗余的摘要,基于圖模型的方法也被用到了自動(dòng)文摘的句子排序中;文獻(xiàn)[11]中提出基于聚類的PageRank和HITS算法來(lái)充分利用聚類的信息給句子排序。
文本情感摘要屬于情感分析研究里面的一個(gè)基本問(wèn)題。然而,現(xiàn)有的關(guān)于情感分析的研究主要集中在文本的情感傾向分類研究上面[12-13],而對(duì)于文本情感摘要的研究還比較少。文獻(xiàn)[14-15]通過(guò)抽取評(píng)論文本中的評(píng)價(jià)對(duì)象,評(píng)價(jià)詞,評(píng)價(jià)持有者等信息來(lái)構(gòu)建評(píng)論的文本情感摘要,但這種方法還是很難讓用戶對(duì)產(chǎn)品的評(píng)價(jià)有深入的理解,例如,“為什么某個(gè)方面會(huì)有較高的評(píng)分”。為了進(jìn)一步幫助用戶理解評(píng)論的的觀點(diǎn),我們需要生成簡(jiǎn)潔的文字總結(jié),找出主要的觀點(diǎn)、情感,這也就是文本情感摘要需要研究的任務(wù)。
文獻(xiàn)[11]中給出了一種基于稱為Opinosis的圖模型,該模型通過(guò)計(jì)算圖中各個(gè)節(jié)點(diǎn)的權(quán)值生成冗余度很低的基于理解的文本情感摘要;文獻(xiàn)[9]根據(jù)句子的信息量和可讀性對(duì)句子進(jìn)行排序,然后選擇和排序多個(gè)評(píng)論文本里面的句子生成摘要;文獻(xiàn)[10]針對(duì)抽取對(duì)話語(yǔ)料中的文本情感摘要進(jìn)行的初步研究,主要針對(duì)基于線性模型和圖模型兩個(gè)方式抽取對(duì)話語(yǔ)料的文本情感摘要;文獻(xiàn)[16]提出了一種基于情感的PageRank模型和HITS模型用來(lái)進(jìn)行挖掘與分析問(wèn)題和答案兩者之間的關(guān)系。
由于針對(duì)中文文本情感摘要的研究較少,公共語(yǔ)料缺乏,我們從亞馬遜中文網(wǎng)①http://www.amazon.cn中收集15個(gè)主題(產(chǎn)品)的評(píng)論語(yǔ)料。表1中列出了該15種產(chǎn)品。每個(gè)主題包含200篇評(píng)論,其中包含褒義評(píng)論和貶義評(píng)論。在這15個(gè)主題中,每個(gè)主題平均包含12 690個(gè)單詞。我們將在每個(gè)主題的200篇評(píng)論中抽取最有代表性的句子作為每個(gè)主題的文本情感摘要。
為了抽取每個(gè)主題的產(chǎn)品評(píng)論的文本情感摘要,我們挑選了3名標(biāo)注者,從每個(gè)主題的評(píng)論中抽取4~8句的句子作為該主題的摘要。每名標(biāo)注者的標(biāo)注過(guò)程都是相互獨(dú)立的。我們抽取的文本情感摘要的標(biāo)準(zhǔn)是選擇觀點(diǎn)和內(nèi)容在整個(gè)評(píng)論中出現(xiàn)頻率較高,且覆蓋面較廣的評(píng)論語(yǔ)句。由于我們關(guān)注的是對(duì)產(chǎn)品的評(píng)論,所以如果評(píng)論中出現(xiàn)不是對(duì)于產(chǎn)品本身的觀點(diǎn)的評(píng)論將不予考慮。例如,“評(píng)論亞馬遜的客服太差”,“快遞很慢”等。
表1 15種產(chǎn)品
我們計(jì)算了這15個(gè)主題的文本情感摘要和原始文檔的平均壓縮比,壓縮比為0.9%。
不同于傳統(tǒng)的文本摘要[7,14],文本情感摘要不僅僅要考慮抽取出的句子的主題相關(guān)性,同時(shí)還要考慮其中包含的情感,并且句子與句子間的主題相關(guān)性和情感并不是相互獨(dú)立的,為了將情感和主題信息更好的融合到文本情感摘要中,我們提出了一種基于PageRank的文本情感摘要的方法。具體來(lái)講,我們通過(guò)將PageRank算法應(yīng)用到一個(gè)基于主題和情感的雙層圖模型,將主題信息和情感信息有效的融合在一起,從而抽取出最有代表性的句子作為產(chǎn)品的文本情感摘要。
PageRank是一種被廣泛應(yīng)用的隨機(jī)游走(Random Walk)模型[14,17-18]。在文本摘要中,該模型首先構(gòu)建一張有向圖表示句子之間的關(guān)系,接著利用基于圖的排序算法計(jì)算每句話的排序值。排序值大的句子被認(rèn)為具有代表性的句子,將被選中為文本的摘要。
設(shè)S是某個(gè)主題的所有句子的集合。我們構(gòu)建一張有向圖G,其中頂點(diǎn)集VS是集合S中的句子,邊E是句子之間的關(guān)系。節(jié)點(diǎn)i到節(jié)點(diǎn)j的轉(zhuǎn)移概率p(i→j)用來(lái)定義兩節(jié)點(diǎn)之間的邊的權(quán)重。表示為式(1):
其中f(i→j)為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的相似度,本文中使用余弦相似度(Cosine)[19]作為相似度計(jì)算方式,如式(2)所示:
如果兩個(gè)節(jié)點(diǎn)的轉(zhuǎn)移概率大于0,則表示這兩個(gè)節(jié)點(diǎn)之間存在關(guān)系,為了避免自身轉(zhuǎn)移我們?cè)O(shè)置f(i→j)=0。值得注意的是一般情況下p(i→j)不一定等于p(j→i)。
以圖G為基礎(chǔ),句子si的打分c(si)可以由其他和si有關(guān)聯(lián)的句子推導(dǎo)出,在PageRank算法中它可以以遞歸的方式表現(xiàn)出來(lái),如式(3)所示:
在計(jì)算過(guò)程中μ是一個(gè)阻尼因子,在PageRank算法中常被設(shè)置為0.85[18]。所有句子的初始值都設(shè)為1,算法采用迭代的方式直至收斂[14]。
當(dāng)?shù)Y(jié)束,所有句子的打分被確定后,排序值高的句子我們就認(rèn)為具有較高的信息量且與主題相關(guān)度高,并選擇這樣的句子作為構(gòu)建摘要的句子。
我們提出一種新的基于雙層圖模型的PageR-ank框架用來(lái)將主題信息和情感信息融合到文本情感摘要中。在我們的雙層圖模型中,上層為句子間的情感聯(lián)系,下層為通過(guò)基于主題的PageRank模型計(jì)算得到的句子間的主題聯(lián)系。圖1描述了基于雙層圖模型的PageRank框架。
圖1 雙層圖模型的PageRank
上述雙層圖模型可以表示為圖G′=〈VS,E,Θ〉,其中VS={si}代表句子集合,E={eij|si,sj∈Vs}代表句子與句子間的關(guān)系,Θ代表句子與句子間的情感聯(lián)系。
我們?cè)诰渥优c句子間的轉(zhuǎn)移概率上增加一個(gè)因子θij用來(lái)代表句子si和sj間的情感聯(lián)系。因此,新的句子si和sj間的轉(zhuǎn)移概率被定義為式(4):
計(jì)算句子i和j的轉(zhuǎn)移概率的關(guān)鍵在于計(jì)算i和j的相似度f(wàn)(i→j,θij),而直接計(jì)算f(i→j,θij)一般比較困難,因此我們通過(guò)擴(kuò)展每個(gè)句子的特征向量的方式計(jì)算f(i→j,θij)。通常的,句子是基于Unigram或者Bigram構(gòu)建其特征向量。為了加入情感因子θij,我們先判斷每個(gè)句子是否帶有情感,如果帶有情感則為該句的特征向量加入一個(gè)opinion特征。所加入的opinion特征值λ大于0。我們通過(guò)詞計(jì)數(shù)(Term-counting)的方式判斷一句話是否為情感句。具體來(lái)講,如果句子s包含情感詞,我們認(rèn)為該句帶有情感;如果s不包含情感詞時(shí),我們認(rèn)為該句沒(méi)有情感。通過(guò)為情感句加入opinion特征可以使兩個(gè)帶有情感的句子聯(lián)系更加緊密,同時(shí)兩個(gè)同樣極性的情感句i和j的相似度f(wàn)(i→j,θij)也隨之增大。在判斷句子是否包含情感詞時(shí),本文使用實(shí)驗(yàn)室已經(jīng)收集并標(biāo)注好的中文情感詞集,正面情感詞數(shù)量為846個(gè),負(fù)面情感詞數(shù)量為809個(gè)。
本文收集了15個(gè)主題的產(chǎn)品評(píng)論,每個(gè)主題有200篇評(píng)論,并由3人對(duì)其進(jìn)行標(biāo)注。語(yǔ)料中的每一個(gè)語(yǔ)句使用基于詞的Unigram構(gòu)建的特征向量表示。我們把人工標(biāo)注的結(jié)果作為評(píng)價(jià)標(biāo)準(zhǔn),評(píng)測(cè)的工具是ROUGE-1.5.5[19]。在以下的實(shí)驗(yàn)結(jié)果中,分別給出了基于ROUGE-1、ROUGE-2、ROUGE-W指標(biāo)的結(jié)果。其中ROUGE-N中的N表示n元語(yǔ)法,ROUGE-N的值是指候選的摘要與參考的摘要集合之間的n元語(yǔ)法召回率。ROUGEW的含義為加權(quán)最長(zhǎng)公共子序列。在實(shí)驗(yàn)中,首先比較了不同文本情感摘要方法的效果,其次分析了抽取的不同數(shù)量的句子對(duì)文本情感摘要結(jié)果的影響,最后分析情感特征opinion的特征值也即情感信息對(duì)文本情感摘要結(jié)果的影響。
由于情感文本摘要任務(wù)還比較新,相關(guān)工作比較少。因此,本文只是和基于主題的PageRank算法及隨機(jī)抽取的方法進(jìn)行比較(表2)。
·Random:在每個(gè)主題中隨機(jī)選擇5句作為該主題的文本情感摘要,由于結(jié)果存在隨機(jī)性,所報(bào)告的結(jié)果是重復(fù)20次的平均值。該Random結(jié)果作為本實(shí)驗(yàn)的基準(zhǔn)系統(tǒng)(Baseline)。
·PageRank:傳統(tǒng)的基于主題的PageRank算法。通常情況下,PageRank算法可以在文本摘要中獲得比較好的效果。
·Bi-Rank:本文提出的融合主題和情感信息的基于雙層圖模型的PageRank算法。
·Human:人工抽取每個(gè)主題的文本情感摘要的結(jié)果。
表2 四種方法的實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果來(lái)看,由于沒(méi)有考慮句子間的主題相關(guān)性和情感信息,Random的實(shí)驗(yàn)效果不理想。PageRank考慮到了句子間的主題相關(guān)性,由ROUGE-1,ROUGE-2和ROUGE-W的實(shí)驗(yàn)結(jié)果與Random比具有明顯的提升。而我們的方法中,既考慮了句子間的主題相關(guān)性又考慮句子的情感信息,實(shí)驗(yàn)效果比PageRank也有明顯的提高并且雖然在ROUGE-2和ROUGE-W這兩列中比人工標(biāo)注差,但在ROUGE-1上接近了人工標(biāo)注的效果。表2的結(jié)果也證實(shí)了文本中的句子不僅具有主題相關(guān)性,并且句子間的主題相關(guān)性具有一定的聯(lián)系。而且在摘要中我們不能忽略情感這一重要信息。
從上面的例子可以看出,Bi-Rank抽取的句子與人工抽取的結(jié)果最相近,同時(shí)也最能表達(dá)用戶的情感信息。
圖3給出了opinion特征值在不同取值時(shí)的實(shí)驗(yàn)結(jié)果。在圖3中給出當(dāng)特征值達(dá)到6時(shí),實(shí)驗(yàn)效果最好。在評(píng)論中人們的情感是一個(gè)很強(qiáng)烈的信息,我們不能忽略它在摘要中的重要作用,但是也不能只考慮情感信息。特征值6表明我們將情感信息擺在了一個(gè)重要的位置,但其在文本情感摘要方法中需結(jié)合主題信息一同起作用(即也不能讓其起主導(dǎo)作用,特征值不能過(guò)高)。
圖3 不同的特征值的實(shí)驗(yàn)結(jié)果
本文提出了一種新的基于情感信息的PageR-ank的方法,應(yīng)用于中文的多文檔文本情感摘要任務(wù)。該方法的特色在于其同時(shí)充分考慮句子之間的主題相關(guān)性和情感相關(guān)性。實(shí)驗(yàn)結(jié)果表明該方法取得了一定的效果,能夠得到具有一定總結(jié)性的摘要。在接下去的工作中我們將收集更多其他領(lǐng)域的評(píng)論語(yǔ)料用于測(cè)試本文的方法,并且我們將考慮如何把情感信息更好的融合到PageRank中,使其效果有進(jìn)一步提升。
[1] Hu M,Liu B.Mining and Summarizing Customer Reviews[C]//Proceedings of SIGKDD-04.2004.
[2] Titov I,Mc-donald R.A Joint Model of Text and Aspect Ratings for Sentiment Summarization[C]//Proceedings of ACL-08.2008.
[3] Carenini Giuseppe,Ng Raymond,Pauls Adam.Multi-Document Summarization of Evaluative Text[C]//Proceedings of EACL-06,2006:305-312.
[4] Carenini Giuseppe,Cheung Jackie Chi Kit.Extractive vs.NLG-based Abstractive Summarization of Evaluative Text:The Effect of Corpus Controversiality[C]//Proceedings of the 5th International Natural Language Generation Conference(INLG),2008:33-41.
[5] Kevin Lerman,Sasha Blair-Goldensohn,Ryan McDonald.Sentiment Summarization:Evaluating and Learning User Preferences[C]//Proceedings of EACL-09,2009:514-522.
[6] Kevin Lerman,McDonald Ryan.Contrastive Summarization:An Experiment with Consumer Reviews[C]//Proceedings of Human Language Technologies:the 2009Annual Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT),Companion Volume:short Papers,2009:113-116.
[7] Radev D,Jing H,Stys M,et al.Centroid-based Summarization of Multiple Documents[J].Information Processing and Management.2004(40):919-938.
[8] Wan X.Using Bilingual Information for Cross-Language Document Summarization[C]//Proceedings of ACL-11.2011.
[9] Hitoshi Nishikawa,Takaaki Hasegawa,Yoshihiro Matsuo,Genichiro Kikui.Opinion summarization with integer linear programming formulation for sentence extraction and ordering[C]//Proceedings of COLING.2010.
[10] Wang D,Liu Y.A Pilot Study of Opinion Summarization in Conversations[C]//Proceedings of ACL-11.2011.
[11] Ganesan K,Zhai C,Han J.Opinosis:A Graph-Based Approach to Abstractive Summarization of Highly Redundant Opinions[C]//Proceedings of COLING-2008.2008.
[12] Lin,C.Training a Selection Function for Extraction[C]//Proceedings of CIKM-99.1999.
[13] Celikyilmaz A,Hakkani-Tur D.Discovery of Topically Coherent Sentences for Extractive Summarization[C]//Proceedings of ACL-11.2011.
[14] Wan X,Yang J.Multi-document Summarization using Cluster-based Link Analysis[C]//Proceedings of SIGIR-08.2008.
[15] Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02.2002.
[16] Li S,Huang C,Zhou G,et al.Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of ACL-10.2010.
[17] Li F,Tang Y,Huang M,et al.Answering Opinion Questions with Random Walks on Graphs[C]//Proceedings of ACL-10.2010.
[18] Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing Order to the Web[J].Technical Report,Stanford Digital Libraries.1998.
[19] Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrival[M].ACM Press and Addison Wesley.1999.
[20] Lin C.ROUGE:a Package for Automatic Evaluation of Summaries[C]//Proceedings of ACL-04Workshop on Text Summarization Branches Out.2004.
[21] 張瑾,王小磊,許洪波.自動(dòng)文摘評(píng)價(jià)方法總述[J].中文信息學(xué)報(bào),2008,2(3):81-88.