李艷翠,林莉媛,周國(guó)棟
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)
電子商務(wù)逐漸改變了人們的購(gòu)物方式,許多電子商務(wù)網(wǎng)站如亞馬遜、淘寶和京東等,不僅成為電子商品展示與交易的平臺(tái),而且允許用戶對(duì)商品發(fā)表評(píng)論。這些評(píng)論可以給潛在用戶提供購(gòu)物參考,同時(shí)可以幫助生產(chǎn)商分析、了解產(chǎn)品的市場(chǎng)反映。然而,一件熱門(mén)的商品往往有成百上千條評(píng)論,并且評(píng)論中存在一些觀點(diǎn)偏激,甚至文不對(duì)題等質(zhì)量差的評(píng)論。一次性閱讀完這些評(píng)論費(fèi)時(shí)、費(fèi)力,文本摘要可以幫助用戶快速有效地閱讀評(píng)論,但文本摘要主要針對(duì)語(yǔ)言嚴(yán)謹(jǐn)、文檔結(jié)構(gòu)規(guī)范、陳述客觀事實(shí)的科技文獻(xiàn)和新聞等。用戶評(píng)論文本簡(jiǎn)短、風(fēng)格多樣化、結(jié)構(gòu)靈活松散、內(nèi)容帶有主觀性,文本情感摘要(Opinion Summarization)就是對(duì)用戶評(píng)論的觀點(diǎn)和情感進(jìn)行歸納、總結(jié)以幫助用戶消化這些評(píng)論文本的情感信息。文本情感摘要可以幫助用戶更好的理解網(wǎng)絡(luò)上大量的情感信息,并且可以給搜索引擎、問(wèn)答系統(tǒng)、話題檢測(cè)與跟蹤提供支持等。
在文本情感摘要的研究中,根據(jù)輸出的不同可以將其分成兩類: 第一類是輸出產(chǎn)品的各方面特征信息,例如,評(píng)價(jià)對(duì)象(Opinion Target)、評(píng)價(jià)詞(Opinion Word)、評(píng)價(jià)持有者(Opinion Holder)等信息[1-2];第二類是從評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子[3-6]。目前,對(duì)于第二類文本情感摘要的研究相對(duì)較少,語(yǔ)料較貧乏,本文主要研究后者。
目前,文本情感摘要的研究主要集中在無(wú)監(jiān)督學(xué)習(xí)方法的研究上,文獻(xiàn)[7]根據(jù)句子的信息量、連貫性及相似性,利用整數(shù)線性規(guī)劃對(duì)句子進(jìn)行排序和選擇摘要。文獻(xiàn)[8]研究基于線性模型和圖模型兩種方式抽取對(duì)話語(yǔ)料中的文本情感摘要,實(shí)驗(yàn)表明兩種方法效果都好于基準(zhǔn)系統(tǒng)。文獻(xiàn)[9]手工標(biāo)注了各30個(gè)主題的中文多文檔評(píng)論語(yǔ)料,采用基于情感的PageRank模型從產(chǎn)品評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子構(gòu)建文本情感摘要,實(shí)驗(yàn)結(jié)果可以看出該方法取得了一定的效果,能夠得到具有一定總結(jié)性的摘要,說(shuō)明情感信息對(duì)文本情感摘要有一定的幫助。參考文獻(xiàn)[9]的標(biāo)注方法,本文手工標(biāo)注了30個(gè)主題的英文多文檔評(píng)論語(yǔ)料,在英文評(píng)論語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明評(píng)論質(zhì)量對(duì)情感摘要有重要的影響,能夠有效的提高自動(dòng)情感摘要的準(zhǔn)確率。傳統(tǒng)的基于無(wú)監(jiān)督學(xué)習(xí)的文本情感摘要無(wú)法很好的融合評(píng)論文本中的主題相關(guān)性、情感相關(guān)性和評(píng)論質(zhì)量信息等。
文獻(xiàn)[10-12]采用有監(jiān)督學(xué)習(xí)的方法在文本摘要上都取得了不錯(cuò)效果。因此,本文將文本情感摘要看成是一個(gè)二元分類問(wèn)題,即將句子分為情感摘要句和非情感摘要句,將主題、情感和評(píng)論質(zhì)量作為特征加入到機(jī)器學(xué)習(xí)方法中研究有監(jiān)督學(xué)習(xí)方法在文本情感摘要中的應(yīng)用。本文采用文獻(xiàn)[9]中所標(biāo)中文語(yǔ)料及本文新標(biāo)英文語(yǔ)料,其中中英文產(chǎn)品評(píng)論各30個(gè)主題,采用有監(jiān)督的方法研究文本情感信息和評(píng)論質(zhì)量信息對(duì)文本情感摘要的影響。
本文第2部分介紹語(yǔ)料標(biāo)注情況;第3部分介紹文本情感摘要系統(tǒng)框架;第4部分介紹實(shí)驗(yàn)設(shè)置,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析與比較;最后總結(jié)全文。
由于多文檔文本情感摘要的研究較少,語(yǔ)料不足,本文語(yǔ)料采用文獻(xiàn)[9]中所標(biāo)中文多文檔文本情感摘要語(yǔ)料和參考文獻(xiàn)[9]標(biāo)注方法所標(biāo)注的英文多文檔文本摘要語(yǔ)料。本節(jié)簡(jiǎn)要介紹語(yǔ)料的來(lái)源及對(duì)語(yǔ)料的處理、標(biāo)注方法和標(biāo)注一致性。
語(yǔ)料來(lái)源是分別從亞馬遜中文網(wǎng)* http://www.amazon.cn和亞馬遜英文網(wǎng)* http://www.amazon.com收集的30個(gè)主題(產(chǎn)品)的評(píng)論,每個(gè)主題中的評(píng)論均包含褒義評(píng)論和貶義評(píng)論。中文評(píng)論和英文評(píng)論中均包括了電子產(chǎn)品、書(shū)籍、影視和生活用品等的評(píng)論。中文評(píng)論中每個(gè)主題有200篇評(píng)論,包括評(píng)論的內(nèi)容和作者的打分;英文評(píng)論中每個(gè)主題有500篇評(píng)論,包括評(píng)論的內(nèi)容、作者打分以及其他用戶對(duì)該評(píng)論的投票信息(即有多少人認(rèn)為該評(píng)論有用)。
在進(jìn)行自動(dòng)情感摘要前需要對(duì)自然語(yǔ)言文本進(jìn)行預(yù)處理。根據(jù)需要先對(duì)原始語(yǔ)料進(jìn)行句子識(shí)別,對(duì)語(yǔ)料中的每個(gè)主題的多文檔集合以句子為單元進(jìn)行分句處理。分句處理后整個(gè)段落被分為一個(gè)個(gè)的單句,每個(gè)單句一行。對(duì)于中文文本,句子中詞與詞之間沒(méi)有明顯的分詞信息,故采用中國(guó)科學(xué)院開(kāi)發(fā)的ICTCLAS* http://ictclas.org/[EB]分詞工具對(duì)收集的30個(gè)主題的中文語(yǔ)料進(jìn)行分詞。
標(biāo)注文本情感摘要的標(biāo)準(zhǔn)是選擇觀點(diǎn)和內(nèi)容在整個(gè)評(píng)論中出現(xiàn)頻率最高、覆蓋面最廣的評(píng)論語(yǔ)句。標(biāo)注不考慮非產(chǎn)品評(píng)論,例如,“評(píng)論亞馬遜的客服太差”,“快遞很慢”等。標(biāo)注中文語(yǔ)料時(shí),從每個(gè)主題中抽取110個(gè)單詞左右的原文本作為摘要[9]。標(biāo)注英文語(yǔ)料時(shí),從每個(gè)主題中抽取120個(gè)左右的單詞原文本作為摘要。圖1和圖2給出了中文語(yǔ)料“KANSOON 凱速 KA05型 靜音雙輪健腹輪 美腹瘦腹腹肌輪 帶1cm加厚防滑墊”和英文語(yǔ)料“Kingston 8 GB Class 4 SDHC Flash Memory Card SD48GB”的文本情感摘要中一名標(biāo)注者的標(biāo)注結(jié)果。
圖1 中文標(biāo)注示例
圖2 英文標(biāo)注示例
標(biāo)注結(jié)束后,對(duì)語(yǔ)料進(jìn)行統(tǒng)計(jì),表1給出了中英文原始句子數(shù)、標(biāo)注句子數(shù)、原始單詞數(shù)、標(biāo)注單詞數(shù)及壓縮比統(tǒng)計(jì)結(jié)果。表1中原文句子數(shù)是指語(yǔ)料中30個(gè)主題的所有句子數(shù)目;標(biāo)注句子數(shù)指30個(gè)主題人工標(biāo)注的平均句子數(shù);句子壓縮比是標(biāo)注句子數(shù)與原文句子數(shù)的比值。
表1 壓縮比統(tǒng)計(jì)結(jié)果
表2給出了人工標(biāo)注的一些統(tǒng)計(jì)數(shù)據(jù)。表2中,英文1、2、3表示標(biāo)注英文語(yǔ)料的3名標(biāo)注者,中文1、2、3表示標(biāo)注中文語(yǔ)料的3名標(biāo)注者??偩渥訑?shù)是指30個(gè)主題中每名標(biāo)注者抽取的句子總數(shù),平均句子數(shù)是指每個(gè)主題的平均句子數(shù)。總單詞數(shù)是指30個(gè)主題中每名標(biāo)注者抽取的單詞總數(shù),平均單詞數(shù)是指每個(gè)主題的平均單詞數(shù)。
表2 人工標(biāo)注數(shù)據(jù)統(tǒng)計(jì)值
人工摘要具有很強(qiáng)的主觀性,由于標(biāo)注者對(duì)語(yǔ)義理解的不同以及知識(shí)背景的不同,使標(biāo)注結(jié)果存在一定的主觀性差異。表3給出了人工標(biāo)注的ROUGE值。由表3中ROUGE值結(jié)果可以看出標(biāo)注者們對(duì)文本內(nèi)容的概括相對(duì)一致,其抽取的文本的一致性較高。
表3 人工標(biāo)注ROUGE值
圖3的例子也說(shuō)明了標(biāo)注者的一致性,對(duì)于“KANSOON 凱速 KA05型 靜音雙輪健腹輪 美腹瘦腹腹肌輪 帶1cm加厚防滑墊”的評(píng)論,兩名標(biāo)注者都關(guān)注到了“健身輪非常輕巧,配的墊子挺厚的,就是有點(diǎn)小,試用了一下,軸承非常順滑,一點(diǎn)都不卡阻,所以用起來(lái)很舒服”,說(shuō)明本文所用標(biāo)注集具有一定的可信度。
中文1: 挺好的,無(wú)聲靜音,正在持續(xù)鍛煉中。健身輪非常輕巧,配的墊子挺厚的,就是有點(diǎn)小,試用了一下,軸承非常順滑,一點(diǎn)都不卡阻,所以用起來(lái)很舒服。質(zhì)量還行,方便實(shí)用,若能堅(jiān)持,應(yīng)對(duì)健腹還是會(huì)有點(diǎn)效果。收到后我也試了一下,確實(shí)很能鍛煉腹肌,商品是那種比較輕的塑料做的,感覺(jué)很結(jié)實(shí),價(jià)錢(qián)也比超市便宜。鍛煉幾天才評(píng)論,鍛煉的效果不錯(cuò),鍛煉后第二天腹部微痛。
中文2: 健身輪非常輕巧,配的墊子挺厚的,就是有點(diǎn)小,試用了一下,軸承非常順滑,一點(diǎn)都不卡阻,所以用起來(lái)很舒服。塑料感蠻強(qiáng)的,不過(guò)應(yīng)該不會(huì)一下子就沒(méi)用的,外圈不會(huì)很硬,不傷地板挺好,使用起來(lái)也沒(méi)有聲音,生命在于運(yùn)動(dòng)嘛!有點(diǎn)令人失望,東西并不怎么樣,做工很粗糙,又小,看上去不值這個(gè)價(jià)錢(qián),我覺(jué)得墊子不怎么小,但是味道特大,不過(guò)在室外放幾天也就好了,包裝盒上只有英文說(shuō)明,沒(méi)有廠址、廠名、電話,給人感覺(jué)就是一個(gè)三無(wú)產(chǎn)品。安裝方便,快遞速度很不錯(cuò)。
圖3 一致性標(biāo)注示例
圖4給出了有監(jiān)督學(xué)習(xí)的文本情感摘要框架。訓(xùn)練語(yǔ)料首先進(jìn)行預(yù)處理,在預(yù)處理訓(xùn)練語(yǔ)料后,訓(xùn)練文本中正類(摘要類)為人工標(biāo)注的句子,負(fù)類(非摘要類)為文本中去除正類的句子,且這些句子與正類中的句子的相似度小于一定的閾值,本文實(shí)驗(yàn)中中文設(shè)定為0.65,英文設(shè)定為0.75。由于負(fù)類文本數(shù)明顯大于正類文本數(shù), 而樣本分布的不平衡往往會(huì)使傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法在分類過(guò)程中嚴(yán)重偏向多樣本類別,從而導(dǎo)致分類的性能急劇下降。因此,本文對(duì)訓(xùn)練語(yǔ)料進(jìn)行了隨機(jī)欠采樣,隨機(jī)選擇與正類樣本數(shù)目一樣的負(fù)類樣本進(jìn)行實(shí)驗(yàn)。因?yàn)殡S機(jī)欠采樣存在一定的偶然因素,所以本文報(bào)告的結(jié)果是進(jìn)行20次實(shí)驗(yàn)取平均值。本文抽取文本內(nèi)特征、主題特征、情感特征和質(zhì)量特征(英文)生成訓(xùn)練實(shí)例,然后利用最大熵分類器得到分類模型。測(cè)試文本首先進(jìn)行預(yù)處理,抽取特征向量,然后生成測(cè)試實(shí)例,分類器根據(jù)訓(xùn)練好的模型對(duì)測(cè)試實(shí)例進(jìn)行分類,最后根據(jù)分類結(jié)果生成文本情感摘要。
圖4 基于有監(jiān)督學(xué)習(xí)的文本情感摘要框架
在機(jī)器學(xué)習(xí)的分類方法中,特征選擇是關(guān)鍵的一步。本文選用了4種特征構(gòu)建句子的特征向量,分別為文本內(nèi)特征、PageRank特征、情感特征和質(zhì)量特征。中英文參數(shù)的設(shè)定是在做無(wú)監(jiān)督方法時(shí)通過(guò)實(shí)驗(yàn)確定的,具體請(qǐng)參考文獻(xiàn)[9]。
? 文本內(nèi)特征: 1)基于詞的Unigram特征,特征的權(quán)值為句子中詞的詞頻數(shù); 2)句子長(zhǎng)度特征,特征權(quán)值為: 句子單詞數(shù)/5。
? PageRank特征: 特征權(quán)值為文本內(nèi)句子通過(guò)基礎(chǔ)PageRank算法計(jì)算得到的打分值。此特征參考文獻(xiàn)[13],將每句話視為一個(gè)節(jié)點(diǎn),句子之間的文本余弦相似度為邊之間的權(quán)重,從而構(gòu)建網(wǎng)絡(luò),并計(jì)算每句話的Page-Rank值。
? 情感特征: 選用詞計(jì)數(shù)方法加入“opinion”特征作為情感特征,中文中特征權(quán)值為1.5,英文中特征權(quán)值為2.0。詞計(jì)數(shù)(Term-counting)的方式: 具體來(lái)講,如果句子s包含情感詞,則認(rèn)為該句帶有情感;如果s不包含情感詞,則認(rèn)為該句沒(méi)有情感。
本文實(shí)驗(yàn)中使用的語(yǔ)料和第2節(jié)介紹的30個(gè)主題的中文評(píng)論和30個(gè)主題的英文評(píng)論,人工標(biāo)注的結(jié)果作為評(píng)價(jià)標(biāo)準(zhǔn),評(píng)測(cè)工具使用ROUGE-1.5.5,評(píng)測(cè)指標(biāo)是ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4。中文抽取110個(gè)單詞左右的句子構(gòu)建摘要,英文抽取120個(gè)單詞左右的句子構(gòu)建摘要。監(jiān)督學(xué)習(xí)使用3.2中描述的特征,采用MALLET機(jī)器學(xué)習(xí)工具包* http://mallet.cs.umass.edu/中的最大熵分類器,分類算法的所有參數(shù)都設(shè)置為默認(rèn)值。詞計(jì)數(shù)方法使用的情感詞中文選用實(shí)驗(yàn)室已經(jīng)收集并標(biāo)注好的中文情感詞集,其中正面情感詞數(shù)量為846,負(fù)面情感詞數(shù)量為809;英文來(lái)自于MPQA*http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/的情感詞集。
實(shí)驗(yàn)中,將25個(gè)主題的評(píng)論文本作為訓(xùn)練語(yǔ)料,剩余的5個(gè)主題的評(píng)論文本作為測(cè)試語(yǔ)料,進(jìn)行6組實(shí)驗(yàn),每組實(shí)驗(yàn)的測(cè)試語(yǔ)料都不同,得到30個(gè)主題的文本情感摘要。由于訓(xùn)練文本中負(fù)類是隨機(jī)選取的,所以實(shí)驗(yàn)中有監(jiān)督學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果為20組實(shí)驗(yàn)結(jié)果取平均值。表4和表5分別為中文和英文的實(shí)驗(yàn)結(jié)果,表4和表5中:
Unigram表示只采用基于詞的Unigram特征的實(shí)驗(yàn)結(jié)果;
Uni_Len表示只采用文本內(nèi)特征的實(shí)驗(yàn)結(jié)果;
AddTopic為在使用文本內(nèi)特征的基礎(chǔ)上添加了PageRank特征的實(shí)驗(yàn)結(jié)果;
AddOpinion指的是在已經(jīng)使用了文本內(nèi)特征和PageRank特征的基礎(chǔ)上,進(jìn)一步添加情感特征的實(shí)驗(yàn)結(jié)果;
AddHelpful為進(jìn)一步添加評(píng)論質(zhì)量特征的實(shí)驗(yàn)結(jié)果;
PageRank指的是文獻(xiàn)[9]所用傳統(tǒng)基于主題的無(wú)監(jiān)督PageRank算法的實(shí)驗(yàn)結(jié)果;
Bi-Rank指的是文獻(xiàn)[9]提出的融合主題和情感信息的基于雙層圖模型的PageRank算法實(shí)驗(yàn)結(jié)果;
PageRankTerm,helpful是指融合主題信息、情感信息和評(píng)論質(zhì)量信息的PageRank方法;
Random指每個(gè)主題中隨機(jī)抽取句子作為該主題的文本情感摘要,由于結(jié)果存在隨機(jī)性,所報(bào)告的結(jié)果是隨機(jī)抽取20次的平均值的結(jié)果;
Human為人工抽取每個(gè)主題的文本情感摘要的結(jié)果。
表4 中文有監(jiān)督學(xué)習(xí)的文本情感摘要結(jié)果
表5 英文有監(jiān)督學(xué)習(xí)的文本情感摘要結(jié)果
從表4和表5的實(shí)驗(yàn)結(jié)果來(lái)看,由于沒(méi)有考慮句子間的主題相關(guān)性和情感信息,Random的實(shí)驗(yàn)效果在中英文上的效果均不理想。文獻(xiàn)[9]所用考慮了句子間的主題相關(guān)性的PageRank的實(shí)驗(yàn)結(jié)果在ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4上優(yōu)于Random。而文獻(xiàn)[9]提出的融合主題和情感信息的基于雙層圖模型的PageRank算法,既考慮了句子間的主題 相 關(guān) 性 又 考 慮了句子的情感信息,在中英文的實(shí)驗(yàn)上均表明實(shí)驗(yàn)效果比PageRank也有明顯的提高。
文獻(xiàn)[9]用的是無(wú)監(jiān)督的方法,本文用的是有監(jiān)督學(xué)習(xí)的方法。比較表4和表5中的Bi-Rank和AddOpinion的中英文情感摘要結(jié)果,可以看出ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4的實(shí)驗(yàn)結(jié)果均有所提高。其中,表4中,本文AddTopic比文獻(xiàn)[9]最好結(jié)果Bi-Rank在ROUGE-1上高1.7個(gè)百分點(diǎn),表5中,AddOpinion比Bi-Rank在ROUGE-1上提高了0.9個(gè)百分點(diǎn)。表5中PageRankTerm,helpful和AddHelpful均為添加評(píng)論質(zhì)量特征的實(shí)驗(yàn)結(jié)果,有監(jiān)督學(xué)習(xí)方法在ROUGE-1的表現(xiàn)上比無(wú)監(jiān)督學(xué)習(xí)方法高了1.6個(gè)百分點(diǎn)??梢?jiàn),采用有監(jiān)督學(xué)習(xí)的方法得到的文本情感摘要的效果優(yōu)于無(wú)監(jiān)督學(xué)習(xí)方法的實(shí)驗(yàn)效果。
比較表4中的最好結(jié)果AddTopic和人工抽取的摘要結(jié)果,可知,用有監(jiān)督的方法抽取的摘要ROUGE-1值比人工抽取的摘要結(jié)果低3.3%,表5中的最好結(jié)果AddHelpful中ROUGE-1值僅比人工抽取的情感摘要低2.3%。由實(shí)驗(yàn)結(jié)果可知,有監(jiān)督學(xué)習(xí)方法能更有效的利用主題信息、情感信息和評(píng)論質(zhì)量信息,獲得的文本情感摘要更接近人工摘要的結(jié)果。
表4和表5中的數(shù)據(jù)顯示,當(dāng)考慮了句子間的主題相關(guān)性時(shí),文本情感摘要的結(jié)果在中文和英文語(yǔ)料上都有了一定的提高。當(dāng)使用了情感特征時(shí),中文和英文的摘要結(jié)果在ROUGE-1上都提高了約1個(gè)百分點(diǎn),這說(shuō)明情感信息是情感文本的一個(gè)重要內(nèi)容,其對(duì)文本情感摘要有著重要的影響。從表5可以發(fā)現(xiàn),當(dāng)進(jìn)一步使用評(píng)論質(zhì)量特征時(shí),英文文本情感摘要的結(jié)果與AddOpinion相比在ROUGE-1上提高了0.9個(gè)百分點(diǎn),而其他幾個(gè)指標(biāo)也有相應(yīng)的提升,這表明質(zhì)量好的評(píng)論其涵蓋的信息更多,更能為讀者提供幫助,同時(shí),讀者也更相信質(zhì)量好的評(píng)論。
本文研究了有監(jiān)督學(xué)習(xí)方法在文本情感摘要中的應(yīng)用,使用最大熵分類方法分別作用在中文和英文多文檔文本上,抽取情感摘要,并與無(wú)監(jiān)督學(xué)習(xí)方法進(jìn)行了對(duì)比。由實(shí)驗(yàn)結(jié)果可以看出有監(jiān)督學(xué)習(xí)方法與無(wú)監(jiān)督學(xué)習(xí)方法相比在ROUGE值上有顯著的提高,這說(shuō)明在文本情感摘要中,有監(jiān)督學(xué)習(xí)方法能夠更有效的利用情感文本的主題信息、情感信息和評(píng)論質(zhì)量信息。同時(shí),實(shí)驗(yàn)結(jié)果說(shuō)明了情感信息和質(zhì)量信息可以幫助文本情感摘要,這表明情感文本的主題信息和情感信息密切相關(guān),在情感摘要中不能忽略情感的重要性,同時(shí)質(zhì)量高的情感文本能更有效的幫助讀者進(jìn)行閱讀。
[1] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2004: 168-177.
[2] Titov I, McDonald R. A joint model of text and aspect ratings for sentiment summarization [J]. Urbana, 2008, 51: 61801.
[3] Carenini G, Cheung J C K, Pauls A. Multi-document summarization of evaluative text [J]. Computational Intelligence, 2013, 29(4): 545-576.
[4] Carenini G, Cheung J C K. Extractive vs. NLG-based abstractive summarization of evaluative text: The effect of corpus controversiality[C]//Proceedings of the Fifth International Natural Language Generation Conference. Association for Computational Linguistics, 2008: 33-41.
[5] Lerman K, Blair-Goldensohn S, McDonald R. Sentiment summarization: evaluating and learning user preferences[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009: 514-522.
[6] Lerman K, McDonald R. Contrastive summarization: an experiment with consumer reviews[C]//Proceedings of human language technologies: The 2009 annual conference of the North American chapter of the association for computational linguistics, companion volume: Short papers. Association for Computational Linguistics, 2009: 113-116.
[7] Nishikawa H, Hasegawa T, Matsuo Y, et al. Opinion summarization with integer linear programming formulation for sentence extraction and ordering[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 910-918.
[8] Wang D, Liu Y. A pilot study of opinion summarization in conversations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 331-339.
[9] 林莉媛,王中卿,李壽山等. 基于PageRank的中文多文檔文本情感摘要[J]. 中文信息學(xué)報(bào).2014, 28(2): 85-90.
[10] Liu F, Liu F, Liu Y. Automatic keyword extraction for the meeting corpus using supervised approach and bigram expansion[C]//Proceedings of spoken Language Technology Workshop, 2008. SLT 2008. IEEE. IEEE, 2008: 181-184.
[11] Wong K F, Wu M, Li W. Extractive summarization using supervised and semi-supervised learning[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 985-992.
[12] Li C, Qian X, Liu Y. Using supervised bigram-based ILP for extractive summarization[C]//Proceedings of ACL.2013: 1004-1013.
[13] Shen D, J Sun, H Li, et al. Document Summarization using Conditional Random Fields[C]//Proceeding of the IJCAI-07.
[14] Hong Y, Lu J, Yao J, et al. What reviews are satisfactory: novel features for automatic helpfulness voting[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012: 495-504.