基于有監(jiān)督學(xué)習(xí)方法的多文檔文本情感摘要

2014-03-01 10:06:41李艷翠林莉媛周國(guó)棟

中文信息學(xué)報(bào) 2014年6期

李艷翠，林莉媛，周國(guó)棟

(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006；2. 河南科技學(xué)院信息工程學(xué)院，河南新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室，江蘇蘇州 215006)

1 引言

電子商務(wù)逐漸改變了人們的購(gòu)物方式，許多電子商務(wù)網(wǎng)站如亞馬遜、淘寶和京東等，不僅成為電子商品展示與交易的平臺(tái)，而且允許用戶對(duì)商品發(fā)表評(píng)論。這些評(píng)論可以給潛在用戶提供購(gòu)物參考，同時(shí)可以幫助生產(chǎn)商分析、了解產(chǎn)品的市場(chǎng)反映。然而，一件熱門(mén)的商品往往有成百上千條評(píng)論，并且評(píng)論中存在一些觀點(diǎn)偏激，甚至文不對(duì)題等質(zhì)量差的評(píng)論。一次性閱讀完這些評(píng)論費(fèi)時(shí)、費(fèi)力，文本摘要可以幫助用戶快速有效地閱讀評(píng)論，但文本摘要主要針對(duì)語(yǔ)言嚴(yán)謹(jǐn)、文檔結(jié)構(gòu)規(guī)范、陳述客觀事實(shí)的科技文獻(xiàn)和新聞等。用戶評(píng)論文本簡(jiǎn)短、風(fēng)格多樣化、結(jié)構(gòu)靈活松散、內(nèi)容帶有主觀性，文本情感摘要(Opinion Summarization)就是對(duì)用戶評(píng)論的觀點(diǎn)和情感進(jìn)行歸納、總結(jié)以幫助用戶消化這些評(píng)論文本的情感信息。文本情感摘要可以幫助用戶更好的理解網(wǎng)絡(luò)上大量的情感信息，并且可以給搜索引擎、問(wèn)答系統(tǒng)、話題檢測(cè)與跟蹤提供支持等。

在文本情感摘要的研究中，根據(jù)輸出的不同可以將其分成兩類：第一類是輸出產(chǎn)品的各方面特征信息，例如，評(píng)價(jià)對(duì)象(Opinion Target)、評(píng)價(jià)詞(Opinion Word)、評(píng)價(jià)持有者(Opinion Holder)等信息[1-2]；第二類是從評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子[3-6]。目前，對(duì)于第二類文本情感摘要的研究相對(duì)較少，語(yǔ)料較貧乏，本文主要研究后者。

目前，文本情感摘要的研究主要集中在無(wú)監(jiān)督學(xué)習(xí)方法的研究上，文獻(xiàn)[7]根據(jù)句子的信息量、連貫性及相似性，利用整數(shù)線性規(guī)劃對(duì)句子進(jìn)行排序和選擇摘要。文獻(xiàn)[8]研究基于線性模型和圖模型兩種方式抽取對(duì)話語(yǔ)料中的文本情感摘要，實(shí)驗(yàn)表明兩種方法效果都好于基準(zhǔn)系統(tǒng)。文獻(xiàn)[9]手工標(biāo)注了各30個(gè)主題的中文多文檔評(píng)論語(yǔ)料，采用基于情感的PageRank模型從產(chǎn)品評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子構(gòu)建文本情感摘要，實(shí)驗(yàn)結(jié)果可以看出該方法取得了一定的效果，能夠得到具有一定總結(jié)性的摘要，說(shuō)明情感信息對(duì)文本情感摘要有一定的幫助。參考文獻(xiàn)[9]的標(biāo)注方法，本文手工標(biāo)注了30個(gè)主題的英文多文檔評(píng)論語(yǔ)料，在英文評(píng)論語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明評(píng)論質(zhì)量對(duì)情感摘要有重要的影響，能夠有效的提高自動(dòng)情感摘要的準(zhǔn)確率。傳統(tǒng)的基于無(wú)監(jiān)督學(xué)習(xí)的文本情感摘要無(wú)法很好的融合評(píng)論文本中的主題相關(guān)性、情感相關(guān)性和評(píng)論質(zhì)量信息等。

文獻(xiàn)[10-12]采用有監(jiān)督學(xué)習(xí)的方法在文本摘要上都取得了不錯(cuò)效果。因此，本文將文本情感摘要看成是一個(gè)二元分類問(wèn)題，即將句子分為情感摘要句和非情感摘要句，將主題、情感和評(píng)論質(zhì)量作為特征加入到機(jī)器學(xué)習(xí)方法中研究有監(jiān)督學(xué)習(xí)方法在文本情感摘要中的應(yīng)用。本文采用文獻(xiàn)[9]中所標(biāo)中文語(yǔ)料及本文新標(biāo)英文語(yǔ)料，其中中英文產(chǎn)品評(píng)論各30個(gè)主題，采用有監(jiān)督的方法研究文本情感信息和評(píng)論質(zhì)量信息對(duì)文本情感摘要的影響。

本文第2部分介紹語(yǔ)料標(biāo)注情況；第3部分介紹文本情感摘要系統(tǒng)框架；第4部分介紹實(shí)驗(yàn)設(shè)置，對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析與比較；最后總結(jié)全文。

2 語(yǔ)料介紹

由于多文檔文本情感摘要的研究較少，語(yǔ)料不足，本文語(yǔ)料采用文獻(xiàn)[9]中所標(biāo)中文多文檔文本情感摘要語(yǔ)料和參考文獻(xiàn)[9]標(biāo)注方法所標(biāo)注的英文多文檔文本摘要語(yǔ)料。本節(jié)簡(jiǎn)要介紹語(yǔ)料的來(lái)源及對(duì)語(yǔ)料的處理、標(biāo)注方法和標(biāo)注一致性。

2.1 語(yǔ)料來(lái)源及處理

語(yǔ)料來(lái)源是分別從亞馬遜中文網(wǎng)* http://www.amazon.cn和亞馬遜英文網(wǎng)* http://www.amazon.com收集的30個(gè)主題(產(chǎn)品)的評(píng)論，每個(gè)主題中的評(píng)論均包含褒義評(píng)論和貶義評(píng)論。中文評(píng)論和英文評(píng)論中均包括了電子產(chǎn)品、書(shū)籍、影視和生活用品等的評(píng)論。中文評(píng)論中每個(gè)主題有200篇評(píng)論，包括評(píng)論的內(nèi)容和作者的打分；英文評(píng)論中每個(gè)主題有500篇評(píng)論，包括評(píng)論的內(nèi)容、作者打分以及其他用戶對(duì)該評(píng)論的投票信息(即有多少人認(rèn)為該評(píng)論有用)。

在進(jìn)行自動(dòng)情感摘要前需要對(duì)自然語(yǔ)言文本進(jìn)行預(yù)處理。根據(jù)需要先對(duì)原始語(yǔ)料進(jìn)行句子識(shí)別，對(duì)語(yǔ)料中的每個(gè)主題的多文檔集合以句子為單元進(jìn)行分句處理。分句處理后整個(gè)段落被分為一個(gè)個(gè)的單句，每個(gè)單句一行。對(duì)于中文文本，句子中詞與詞之間沒(méi)有明顯的分詞信息，故采用中國(guó)科學(xué)院開(kāi)發(fā)的ICTCLAS* http://ictclas.org/[EB]分詞工具對(duì)收集的30個(gè)主題的中文語(yǔ)料進(jìn)行分詞。

2.2 標(biāo)注方法

標(biāo)注文本情感摘要的標(biāo)準(zhǔn)是選擇觀點(diǎn)和內(nèi)容在整個(gè)評(píng)論中出現(xiàn)頻率最高、覆蓋面最廣的評(píng)論語(yǔ)句。標(biāo)注不考慮非產(chǎn)品評(píng)論，例如，“評(píng)論亞馬遜的客服太差”，“快遞很慢”等。標(biāo)注中文語(yǔ)料時(shí)，從每個(gè)主題中抽取110個(gè)單詞左右的原文本作為摘要[9]。標(biāo)注英文語(yǔ)料時(shí)，從每個(gè)主題中抽取120個(gè)左右的單詞原文本作為摘要。圖1和圖2給出了中文語(yǔ)料“KANSOON 凱速 KA05型靜音雙輪健腹輪美腹瘦腹腹肌輪帶1cm加厚防滑墊”和英文語(yǔ)料“Kingston 8 GB Class 4 SDHC Flash Memory Card SD48GB”的文本情感摘要中一名標(biāo)注者的標(biāo)注結(jié)果。

圖1 中文標(biāo)注示例

圖2 英文標(biāo)注示例

2.3 語(yǔ)料統(tǒng)計(jì)

標(biāo)注結(jié)束后，對(duì)語(yǔ)料進(jìn)行統(tǒng)計(jì)，表1給出了中英文原始句子數(shù)、標(biāo)注句子數(shù)、原始單詞數(shù)、標(biāo)注單詞數(shù)及壓縮比統(tǒng)計(jì)結(jié)果。表1中原文句子數(shù)是指語(yǔ)料中30個(gè)主題的所有句子數(shù)目；標(biāo)注句子數(shù)指30個(gè)主題人工標(biāo)注的平均句子數(shù)；句子壓縮比是標(biāo)注句子數(shù)與原文句子數(shù)的比值。

表1 壓縮比統(tǒng)計(jì)結(jié)果

表2給出了人工標(biāo)注的一些統(tǒng)計(jì)數(shù)據(jù)。表2中，英文1、2、3表示標(biāo)注英文語(yǔ)料的3名標(biāo)注者，中文1、2、3表示標(biāo)注中文語(yǔ)料的3名標(biāo)注者?？偩渥訑?shù)是指30個(gè)主題中每名標(biāo)注者抽取的句子總數(shù)，平均句子數(shù)是指每個(gè)主題的平均句子數(shù)。總單詞數(shù)是指30個(gè)主題中每名標(biāo)注者抽取的單詞總數(shù)，平均單詞數(shù)是指每個(gè)主題的平均單詞數(shù)。

表2 人工標(biāo)注數(shù)據(jù)統(tǒng)計(jì)值

2.4 標(biāo)注一致性

人工摘要具有很強(qiáng)的主觀性，由于標(biāo)注者對(duì)語(yǔ)義理解的不同以及知識(shí)背景的不同，使標(biāo)注結(jié)果存在一定的主觀性差異。表3給出了人工標(biāo)注的ROUGE值。由表3中ROUGE值結(jié)果可以看出標(biāo)注者們對(duì)文本內(nèi)容的概括相對(duì)一致，其抽取的文本的一致性較高。

表3 人工標(biāo)注ROUGE值

圖3的例子也說(shuō)明了標(biāo)注者的一致性，對(duì)于“KANSOON 凱速 KA05型靜音雙輪健腹輪美腹瘦腹腹肌輪帶1cm加厚防滑墊”的評(píng)論，兩名標(biāo)注者都關(guān)注到了“健身輪非常輕巧，配的墊子挺厚的，就是有點(diǎn)小，試用了一下，軸承非常順滑，一點(diǎn)都不卡阻，所以用起來(lái)很舒服”，說(shuō)明本文所用標(biāo)注集具有一定的可信度。

中文1：挺好的，無(wú)聲靜音，正在持續(xù)鍛煉中。健身輪非常輕巧，配的墊子挺厚的，就是有點(diǎn)小，試用了一下，軸承非常順滑，一點(diǎn)都不卡阻，所以用起來(lái)很舒服。質(zhì)量還行,方便實(shí)用,若能堅(jiān)持,應(yīng)對(duì)健腹還是會(huì)有點(diǎn)效果。收到后我也試了一下，確實(shí)很能鍛煉腹肌，商品是那種比較輕的塑料做的，感覺(jué)很結(jié)實(shí)，價(jià)錢(qián)也比超市便宜。鍛煉幾天才評(píng)論，鍛煉的效果不錯(cuò)，鍛煉后第二天腹部微痛。

中文2：健身輪非常輕巧，配的墊子挺厚的，就是有點(diǎn)小，試用了一下，軸承非常順滑，一點(diǎn)都不卡阻，所以用起來(lái)很舒服。塑料感蠻強(qiáng)的，不過(guò)應(yīng)該不會(huì)一下子就沒(méi)用的，外圈不會(huì)很硬，不傷地板挺好，使用起來(lái)也沒(méi)有聲音，生命在于運(yùn)動(dòng)嘛！有點(diǎn)令人失望，東西并不怎么樣，做工很粗糙，又小，看上去不值這個(gè)價(jià)錢(qián)，我覺(jué)得墊子不怎么小，但是味道特大，不過(guò)在室外放幾天也就好了，包裝盒上只有英文說(shuō)明，沒(méi)有廠址、廠名、電話，給人感覺(jué)就是一個(gè)三無(wú)產(chǎn)品。安裝方便，快遞速度很不錯(cuò)。

圖3 一致性標(biāo)注示例

3 基于有監(jiān)督學(xué)習(xí)的多文檔文本情感摘要系統(tǒng)

3.1 系統(tǒng)框架

圖4給出了有監(jiān)督學(xué)習(xí)的文本情感摘要框架。訓(xùn)練語(yǔ)料首先進(jìn)行預(yù)處理，在預(yù)處理訓(xùn)練語(yǔ)料后，訓(xùn)練文本中正類(摘要類)為人工標(biāo)注的句子，負(fù)類(非摘要類)為文本中去除正類的句子，且這些句子與正類中的句子的相似度小于一定的閾值，本文實(shí)驗(yàn)中中文設(shè)定為0.65，英文設(shè)定為0.75。由于負(fù)類文本數(shù)明顯大于正類文本數(shù)，而樣本分布的不平衡往往會(huì)使傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法在分類過(guò)程中嚴(yán)重偏向多樣本類別，從而導(dǎo)致分類的性能急劇下降。因此，本文對(duì)訓(xùn)練語(yǔ)料進(jìn)行了隨機(jī)欠采樣，隨機(jī)選擇與正類樣本數(shù)目一樣的負(fù)類樣本進(jìn)行實(shí)驗(yàn)。因?yàn)殡S機(jī)欠采樣存在一定的偶然因素，所以本文報(bào)告的結(jié)果是進(jìn)行20次實(shí)驗(yàn)取平均值。本文抽取文本內(nèi)特征、主題特征、情感特征和質(zhì)量特征(英文)生成訓(xùn)練實(shí)例，然后利用最大熵分類器得到分類模型。測(cè)試文本首先進(jìn)行預(yù)處理，抽取特征向量，然后生成測(cè)試實(shí)例，分類器根據(jù)訓(xùn)練好的模型對(duì)測(cè)試實(shí)例進(jìn)行分類，最后根據(jù)分類結(jié)果生成文本情感摘要。

圖4 基于有監(jiān)督學(xué)習(xí)的文本情感摘要框架

3.2 特征選擇

在機(jī)器學(xué)習(xí)的分類方法中，特征選擇是關(guān)鍵的一步。本文選用了4種特征構(gòu)建句子的特征向量，分別為文本內(nèi)特征、PageRank特征、情感特征和質(zhì)量特征。中英文參數(shù)的設(shè)定是在做無(wú)監(jiān)督方法時(shí)通過(guò)實(shí)驗(yàn)確定的，具體請(qǐng)參考文獻(xiàn)[9]。

? 文本內(nèi)特征： 1)基于詞的Unigram特征，特征的權(quán)值為句子中詞的詞頻數(shù)； 2)句子長(zhǎng)度特征，特征權(quán)值為：句子單詞數(shù)/5。

? PageRank特征：特征權(quán)值為文本內(nèi)句子通過(guò)基礎(chǔ)PageRank算法計(jì)算得到的打分值。此特征參考文獻(xiàn)[13]，將每句話視為一個(gè)節(jié)點(diǎn)，句子之間的文本余弦相似度為邊之間的權(quán)重，從而構(gòu)建網(wǎng)絡(luò)，并計(jì)算每句話的Page-Rank值。

? 情感特征：選用詞計(jì)數(shù)方法加入“opinion”特征作為情感特征，中文中特征權(quán)值為1.5，英文中特征權(quán)值為2.0。詞計(jì)數(shù)(Term-counting)的方式：具體來(lái)講，如果句子s包含情感詞，則認(rèn)為該句帶有情感；如果s不包含情感詞，則認(rèn)為該句沒(méi)有情感。

4 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)中使用的語(yǔ)料和第2節(jié)介紹的30個(gè)主題的中文評(píng)論和30個(gè)主題的英文評(píng)論，人工標(biāo)注的結(jié)果作為評(píng)價(jià)標(biāo)準(zhǔn)，評(píng)測(cè)工具使用ROUGE-1.5.5，評(píng)測(cè)指標(biāo)是ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4。中文抽取110個(gè)單詞左右的句子構(gòu)建摘要，英文抽取120個(gè)單詞左右的句子構(gòu)建摘要。監(jiān)督學(xué)習(xí)使用3.2中描述的特征，采用MALLET機(jī)器學(xué)習(xí)工具包* http://mallet.cs.umass.edu/中的最大熵分類器，分類算法的所有參數(shù)都設(shè)置為默認(rèn)值。詞計(jì)數(shù)方法使用的情感詞中文選用實(shí)驗(yàn)室已經(jīng)收集并標(biāo)注好的中文情感詞集，其中正面情感詞數(shù)量為846，負(fù)面情感詞數(shù)量為809；英文來(lái)自于MPQA*http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/的情感詞集。

實(shí)驗(yàn)中，將25個(gè)主題的評(píng)論文本作為訓(xùn)練語(yǔ)料，剩余的5個(gè)主題的評(píng)論文本作為測(cè)試語(yǔ)料，進(jìn)行6組實(shí)驗(yàn)，每組實(shí)驗(yàn)的測(cè)試語(yǔ)料都不同，得到30個(gè)主題的文本情感摘要。由于訓(xùn)練文本中負(fù)類是隨機(jī)選取的，所以實(shí)驗(yàn)中有監(jiān)督學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果為20組實(shí)驗(yàn)結(jié)果取平均值。表4和表5分別為中文和英文的實(shí)驗(yàn)結(jié)果，表4和表5中：

Unigram表示只采用基于詞的Unigram特征的實(shí)驗(yàn)結(jié)果；

Uni_Len表示只采用文本內(nèi)特征的實(shí)驗(yàn)結(jié)果；

AddTopic為在使用文本內(nèi)特征的基礎(chǔ)上添加了PageRank特征的實(shí)驗(yàn)結(jié)果；

AddOpinion指的是在已經(jīng)使用了文本內(nèi)特征和PageRank特征的基礎(chǔ)上，進(jìn)一步添加情感特征的實(shí)驗(yàn)結(jié)果；

AddHelpful為進(jìn)一步添加評(píng)論質(zhì)量特征的實(shí)驗(yàn)結(jié)果；

PageRank指的是文獻(xiàn)[9]所用傳統(tǒng)基于主題的無(wú)監(jiān)督PageRank算法的實(shí)驗(yàn)結(jié)果；

Bi-Rank指的是文獻(xiàn)[9]提出的融合主題和情感信息的基于雙層圖模型的PageRank算法實(shí)驗(yàn)結(jié)果；

PageRankTerm，helpful是指融合主題信息、情感信息和評(píng)論質(zhì)量信息的PageRank方法；

Random指每個(gè)主題中隨機(jī)抽取句子作為該主題的文本情感摘要，由于結(jié)果存在隨機(jī)性，所報(bào)告的結(jié)果是隨機(jī)抽取20次的平均值的結(jié)果；

Human為人工抽取每個(gè)主題的文本情感摘要的結(jié)果。

表4 中文有監(jiān)督學(xué)習(xí)的文本情感摘要結(jié)果

表5 英文有監(jiān)督學(xué)習(xí)的文本情感摘要結(jié)果

從表4和表5的實(shí)驗(yàn)結(jié)果來(lái)看，由于沒(méi)有考慮句子間的主題相關(guān)性和情感信息，Random的實(shí)驗(yàn)效果在中英文上的效果均不理想。文獻(xiàn)[9]所用考慮了句子間的主題相關(guān)性的PageRank的實(shí)驗(yàn)結(jié)果在ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4上優(yōu)于Random。而文獻(xiàn)[9]提出的融合主題和情感信息的基于雙層圖模型的PageRank算法，既考慮了句子間的主題相關(guān) 性又考慮了句子的情感信息，在中英文的實(shí)驗(yàn)上均表明實(shí)驗(yàn)效果比PageRank也有明顯的提高。

文獻(xiàn)[9]用的是無(wú)監(jiān)督的方法，本文用的是有監(jiān)督學(xué)習(xí)的方法。比較表4和表5中的Bi-Rank和AddOpinion的中英文情感摘要結(jié)果，可以看出ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4的實(shí)驗(yàn)結(jié)果均有所提高。其中，表4中，本文AddTopic比文獻(xiàn)[9]最好結(jié)果Bi-Rank在ROUGE-1上高1.7個(gè)百分點(diǎn)，表5中，AddOpinion比Bi-Rank在ROUGE-1上提高了0.9個(gè)百分點(diǎn)。表5中PageRankTerm,helpful和AddHelpful均為添加評(píng)論質(zhì)量特征的實(shí)驗(yàn)結(jié)果，有監(jiān)督學(xué)習(xí)方法在ROUGE-1的表現(xiàn)上比無(wú)監(jiān)督學(xué)習(xí)方法高了1.6個(gè)百分點(diǎn)?？梢?jiàn)，采用有監(jiān)督學(xué)習(xí)的方法得到的文本情感摘要的效果優(yōu)于無(wú)監(jiān)督學(xué)習(xí)方法的實(shí)驗(yàn)效果。

比較表4中的最好結(jié)果AddTopic和人工抽取的摘要結(jié)果，可知，用有監(jiān)督的方法抽取的摘要ROUGE-1值比人工抽取的摘要結(jié)果低3.3%，表5中的最好結(jié)果AddHelpful中ROUGE-1值僅比人工抽取的情感摘要低2.3%。由實(shí)驗(yàn)結(jié)果可知，有監(jiān)督學(xué)習(xí)方法能更有效的利用主題信息、情感信息和評(píng)論質(zhì)量信息，獲得的文本情感摘要更接近人工摘要的結(jié)果。

表4和表5中的數(shù)據(jù)顯示，當(dāng)考慮了句子間的主題相關(guān)性時(shí)，文本情感摘要的結(jié)果在中文和英文語(yǔ)料上都有了一定的提高。當(dāng)使用了情感特征時(shí)，中文和英文的摘要結(jié)果在ROUGE-1上都提高了約1個(gè)百分點(diǎn)，這說(shuō)明情感信息是情感文本的一個(gè)重要內(nèi)容，其對(duì)文本情感摘要有著重要的影響。從表5可以發(fā)現(xiàn)，當(dāng)進(jìn)一步使用評(píng)論質(zhì)量特征時(shí)，英文文本情感摘要的結(jié)果與AddOpinion相比在ROUGE-1上提高了0.9個(gè)百分點(diǎn)，而其他幾個(gè)指標(biāo)也有相應(yīng)的提升，這表明質(zhì)量好的評(píng)論其涵蓋的信息更多，更能為讀者提供幫助，同時(shí)，讀者也更相信質(zhì)量好的評(píng)論。

5 結(jié)語(yǔ)

本文研究了有監(jiān)督學(xué)習(xí)方法在文本情感摘要中的應(yīng)用，使用最大熵分類方法分別作用在中文和英文多文檔文本上，抽取情感摘要，并與無(wú)監(jiān)督學(xué)習(xí)方法進(jìn)行了對(duì)比。由實(shí)驗(yàn)結(jié)果可以看出有監(jiān)督學(xué)習(xí)方法與無(wú)監(jiān)督學(xué)習(xí)方法相比在ROUGE值上有顯著的提高，這說(shuō)明在文本情感摘要中，有監(jiān)督學(xué)習(xí)方法能夠更有效的利用情感文本的主題信息、情感信息和評(píng)論質(zhì)量信息。同時(shí)，實(shí)驗(yàn)結(jié)果說(shuō)明了情感信息和質(zhì)量信息可以幫助文本情感摘要，這表明情感文本的主題信息和情感信息密切相關(guān)，在情感摘要中不能忽略情感的重要性，同時(shí)質(zhì)量高的情感文本能更有效的幫助讀者進(jìn)行閱讀。

[1] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2004: 168-177.

[2] Titov I, McDonald R. A joint model of text and aspect ratings for sentiment summarization [J]. Urbana, 2008, 51: 61801.

[3] Carenini G, Cheung J C K, Pauls A. Multi-document summarization of evaluative text [J]. Computational Intelligence, 2013, 29(4): 545-576.

[4] Carenini G, Cheung J C K. Extractive vs. NLG-based abstractive summarization of evaluative text: The effect of corpus controversiality[C]//Proceedings of the Fifth International Natural Language Generation Conference. Association for Computational Linguistics, 2008: 33-41.

[5] Lerman K, Blair-Goldensohn S, McDonald R. Sentiment summarization: evaluating and learning user preferences[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009: 514-522.

[6] Lerman K, McDonald R. Contrastive summarization: an experiment with consumer reviews[C]//Proceedings of human language technologies: The 2009 annual conference of the North American chapter of the association for computational linguistics, companion volume: Short papers. Association for Computational Linguistics, 2009: 113-116.

[7] Nishikawa H, Hasegawa T, Matsuo Y, et al. Opinion summarization with integer linear programming formulation for sentence extraction and ordering[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 910-918.

[8] Wang D, Liu Y. A pilot study of opinion summarization in conversations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 331-339.

[9] 林莉媛，王中卿，李壽山等. 基于PageRank的中文多文檔文本情感摘要[J]. 中文信息學(xué)報(bào).2014, 28(2): 85-90.

[10] Liu F, Liu F, Liu Y. Automatic keyword extraction for the meeting corpus using supervised approach and bigram expansion[C]//Proceedings of spoken Language Technology Workshop, 2008. SLT 2008. IEEE. IEEE, 2008: 181-184.

[11] Wong K F, Wu M, Li W. Extractive summarization using supervised and semi-supervised learning[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 985-992.

[12] Li C, Qian X, Liu Y. Using supervised bigram-based ILP for extractive summarization[C]//Proceedings of ACL.2013: 1004-1013.

[13] Shen D, J Sun, H Li, et al. Document Summarization using Conditional Random Fields[C]//Proceeding of the IJCAI-07.

[14] Hong Y, Lu J, Yao J, et al. What reviews are satisfactory: novel features for automatic helpfulness voting[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012: 495-504.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看