• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于有監(jiān)督學(xué)習(xí)方法的多文檔文本情感摘要

      2014-03-01 10:06:41李艷翠林莉媛周國(guó)棟
      中文信息學(xué)報(bào) 2014年6期
      關(guān)鍵詞:語(yǔ)料特征文本

      李艷翠,林莉媛,周國(guó)棟

      (1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

      1 引言

      電子商務(wù)逐漸改變了人們的購(gòu)物方式,許多電子商務(wù)網(wǎng)站如亞馬遜、淘寶和京東等,不僅成為電子商品展示與交易的平臺(tái),而且允許用戶對(duì)商品發(fā)表評(píng)論。這些評(píng)論可以給潛在用戶提供購(gòu)物參考,同時(shí)可以幫助生產(chǎn)商分析、了解產(chǎn)品的市場(chǎng)反映。然而,一件熱門(mén)的商品往往有成百上千條評(píng)論,并且評(píng)論中存在一些觀點(diǎn)偏激,甚至文不對(duì)題等質(zhì)量差的評(píng)論。一次性閱讀完這些評(píng)論費(fèi)時(shí)、費(fèi)力,文本摘要可以幫助用戶快速有效地閱讀評(píng)論,但文本摘要主要針對(duì)語(yǔ)言嚴(yán)謹(jǐn)、文檔結(jié)構(gòu)規(guī)范、陳述客觀事實(shí)的科技文獻(xiàn)和新聞等。用戶評(píng)論文本簡(jiǎn)短、風(fēng)格多樣化、結(jié)構(gòu)靈活松散、內(nèi)容帶有主觀性,文本情感摘要(Opinion Summarization)就是對(duì)用戶評(píng)論的觀點(diǎn)和情感進(jìn)行歸納、總結(jié)以幫助用戶消化這些評(píng)論文本的情感信息。文本情感摘要可以幫助用戶更好的理解網(wǎng)絡(luò)上大量的情感信息,并且可以給搜索引擎、問(wèn)答系統(tǒng)、話題檢測(cè)與跟蹤提供支持等。

      在文本情感摘要的研究中,根據(jù)輸出的不同可以將其分成兩類: 第一類是輸出產(chǎn)品的各方面特征信息,例如,評(píng)價(jià)對(duì)象(Opinion Target)、評(píng)價(jià)詞(Opinion Word)、評(píng)價(jià)持有者(Opinion Holder)等信息[1-2];第二類是從評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子[3-6]。目前,對(duì)于第二類文本情感摘要的研究相對(duì)較少,語(yǔ)料較貧乏,本文主要研究后者。

      目前,文本情感摘要的研究主要集中在無(wú)監(jiān)督學(xué)習(xí)方法的研究上,文獻(xiàn)[7]根據(jù)句子的信息量、連貫性及相似性,利用整數(shù)線性規(guī)劃對(duì)句子進(jìn)行排序和選擇摘要。文獻(xiàn)[8]研究基于線性模型和圖模型兩種方式抽取對(duì)話語(yǔ)料中的文本情感摘要,實(shí)驗(yàn)表明兩種方法效果都好于基準(zhǔn)系統(tǒng)。文獻(xiàn)[9]手工標(biāo)注了各30個(gè)主題的中文多文檔評(píng)論語(yǔ)料,采用基于情感的PageRank模型從產(chǎn)品評(píng)論語(yǔ)料中抽取一系列有序的能夠代表評(píng)論廣泛意見(jiàn)的句子構(gòu)建文本情感摘要,實(shí)驗(yàn)結(jié)果可以看出該方法取得了一定的效果,能夠得到具有一定總結(jié)性的摘要,說(shuō)明情感信息對(duì)文本情感摘要有一定的幫助。參考文獻(xiàn)[9]的標(biāo)注方法,本文手工標(biāo)注了30個(gè)主題的英文多文檔評(píng)論語(yǔ)料,在英文評(píng)論語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明評(píng)論質(zhì)量對(duì)情感摘要有重要的影響,能夠有效的提高自動(dòng)情感摘要的準(zhǔn)確率。傳統(tǒng)的基于無(wú)監(jiān)督學(xué)習(xí)的文本情感摘要無(wú)法很好的融合評(píng)論文本中的主題相關(guān)性、情感相關(guān)性和評(píng)論質(zhì)量信息等。

      文獻(xiàn)[10-12]采用有監(jiān)督學(xué)習(xí)的方法在文本摘要上都取得了不錯(cuò)效果。因此,本文將文本情感摘要看成是一個(gè)二元分類問(wèn)題,即將句子分為情感摘要句和非情感摘要句,將主題、情感和評(píng)論質(zhì)量作為特征加入到機(jī)器學(xué)習(xí)方法中研究有監(jiān)督學(xué)習(xí)方法在文本情感摘要中的應(yīng)用。本文采用文獻(xiàn)[9]中所標(biāo)中文語(yǔ)料及本文新標(biāo)英文語(yǔ)料,其中中英文產(chǎn)品評(píng)論各30個(gè)主題,采用有監(jiān)督的方法研究文本情感信息和評(píng)論質(zhì)量信息對(duì)文本情感摘要的影響。

      本文第2部分介紹語(yǔ)料標(biāo)注情況;第3部分介紹文本情感摘要系統(tǒng)框架;第4部分介紹實(shí)驗(yàn)設(shè)置,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析與比較;最后總結(jié)全文。

      2 語(yǔ)料介紹

      由于多文檔文本情感摘要的研究較少,語(yǔ)料不足,本文語(yǔ)料采用文獻(xiàn)[9]中所標(biāo)中文多文檔文本情感摘要語(yǔ)料和參考文獻(xiàn)[9]標(biāo)注方法所標(biāo)注的英文多文檔文本摘要語(yǔ)料。本節(jié)簡(jiǎn)要介紹語(yǔ)料的來(lái)源及對(duì)語(yǔ)料的處理、標(biāo)注方法和標(biāo)注一致性。

      2.1 語(yǔ)料來(lái)源及處理

      語(yǔ)料來(lái)源是分別從亞馬遜中文網(wǎng)* http://www.amazon.cn和亞馬遜英文網(wǎng)* http://www.amazon.com收集的30個(gè)主題(產(chǎn)品)的評(píng)論,每個(gè)主題中的評(píng)論均包含褒義評(píng)論和貶義評(píng)論。中文評(píng)論和英文評(píng)論中均包括了電子產(chǎn)品、書(shū)籍、影視和生活用品等的評(píng)論。中文評(píng)論中每個(gè)主題有200篇評(píng)論,包括評(píng)論的內(nèi)容和作者的打分;英文評(píng)論中每個(gè)主題有500篇評(píng)論,包括評(píng)論的內(nèi)容、作者打分以及其他用戶對(duì)該評(píng)論的投票信息(即有多少人認(rèn)為該評(píng)論有用)。

      在進(jìn)行自動(dòng)情感摘要前需要對(duì)自然語(yǔ)言文本進(jìn)行預(yù)處理。根據(jù)需要先對(duì)原始語(yǔ)料進(jìn)行句子識(shí)別,對(duì)語(yǔ)料中的每個(gè)主題的多文檔集合以句子為單元進(jìn)行分句處理。分句處理后整個(gè)段落被分為一個(gè)個(gè)的單句,每個(gè)單句一行。對(duì)于中文文本,句子中詞與詞之間沒(méi)有明顯的分詞信息,故采用中國(guó)科學(xué)院開(kāi)發(fā)的ICTCLAS* http://ictclas.org/[EB]分詞工具對(duì)收集的30個(gè)主題的中文語(yǔ)料進(jìn)行分詞。

      2.2 標(biāo)注方法

      標(biāo)注文本情感摘要的標(biāo)準(zhǔn)是選擇觀點(diǎn)和內(nèi)容在整個(gè)評(píng)論中出現(xiàn)頻率最高、覆蓋面最廣的評(píng)論語(yǔ)句。標(biāo)注不考慮非產(chǎn)品評(píng)論,例如,“評(píng)論亞馬遜的客服太差”,“快遞很慢”等。標(biāo)注中文語(yǔ)料時(shí),從每個(gè)主題中抽取110個(gè)單詞左右的原文本作為摘要[9]。標(biāo)注英文語(yǔ)料時(shí),從每個(gè)主題中抽取120個(gè)左右的單詞原文本作為摘要。圖1和圖2給出了中文語(yǔ)料“KANSOON 凱速 KA05型 靜音雙輪健腹輪 美腹瘦腹腹肌輪 帶1cm加厚防滑墊”和英文語(yǔ)料“Kingston 8 GB Class 4 SDHC Flash Memory Card SD48GB”的文本情感摘要中一名標(biāo)注者的標(biāo)注結(jié)果。

      圖1 中文標(biāo)注示例

      圖2 英文標(biāo)注示例

      2.3 語(yǔ)料統(tǒng)計(jì)

      標(biāo)注結(jié)束后,對(duì)語(yǔ)料進(jìn)行統(tǒng)計(jì),表1給出了中英文原始句子數(shù)、標(biāo)注句子數(shù)、原始單詞數(shù)、標(biāo)注單詞數(shù)及壓縮比統(tǒng)計(jì)結(jié)果。表1中原文句子數(shù)是指語(yǔ)料中30個(gè)主題的所有句子數(shù)目;標(biāo)注句子數(shù)指30個(gè)主題人工標(biāo)注的平均句子數(shù);句子壓縮比是標(biāo)注句子數(shù)與原文句子數(shù)的比值。

      表1 壓縮比統(tǒng)計(jì)結(jié)果

      表2給出了人工標(biāo)注的一些統(tǒng)計(jì)數(shù)據(jù)。表2中,英文1、2、3表示標(biāo)注英文語(yǔ)料的3名標(biāo)注者,中文1、2、3表示標(biāo)注中文語(yǔ)料的3名標(biāo)注者??偩渥訑?shù)是指30個(gè)主題中每名標(biāo)注者抽取的句子總數(shù),平均句子數(shù)是指每個(gè)主題的平均句子數(shù)。總單詞數(shù)是指30個(gè)主題中每名標(biāo)注者抽取的單詞總數(shù),平均單詞數(shù)是指每個(gè)主題的平均單詞數(shù)。

      表2 人工標(biāo)注數(shù)據(jù)統(tǒng)計(jì)值

      2.4 標(biāo)注一致性

      人工摘要具有很強(qiáng)的主觀性,由于標(biāo)注者對(duì)語(yǔ)義理解的不同以及知識(shí)背景的不同,使標(biāo)注結(jié)果存在一定的主觀性差異。表3給出了人工標(biāo)注的ROUGE值。由表3中ROUGE值結(jié)果可以看出標(biāo)注者們對(duì)文本內(nèi)容的概括相對(duì)一致,其抽取的文本的一致性較高。

      表3 人工標(biāo)注ROUGE值

      圖3的例子也說(shuō)明了標(biāo)注者的一致性,對(duì)于“KANSOON 凱速 KA05型 靜音雙輪健腹輪 美腹瘦腹腹肌輪 帶1cm加厚防滑墊”的評(píng)論,兩名標(biāo)注者都關(guān)注到了“健身輪非常輕巧,配的墊子挺厚的,就是有點(diǎn)小,試用了一下,軸承非常順滑,一點(diǎn)都不卡阻,所以用起來(lái)很舒服”,說(shuō)明本文所用標(biāo)注集具有一定的可信度。

      中文1: 挺好的,無(wú)聲靜音,正在持續(xù)鍛煉中。健身輪非常輕巧,配的墊子挺厚的,就是有點(diǎn)小,試用了一下,軸承非常順滑,一點(diǎn)都不卡阻,所以用起來(lái)很舒服。質(zhì)量還行,方便實(shí)用,若能堅(jiān)持,應(yīng)對(duì)健腹還是會(huì)有點(diǎn)效果。收到后我也試了一下,確實(shí)很能鍛煉腹肌,商品是那種比較輕的塑料做的,感覺(jué)很結(jié)實(shí),價(jià)錢(qián)也比超市便宜。鍛煉幾天才評(píng)論,鍛煉的效果不錯(cuò),鍛煉后第二天腹部微痛。

      中文2: 健身輪非常輕巧,配的墊子挺厚的,就是有點(diǎn)小,試用了一下,軸承非常順滑,一點(diǎn)都不卡阻,所以用起來(lái)很舒服。塑料感蠻強(qiáng)的,不過(guò)應(yīng)該不會(huì)一下子就沒(méi)用的,外圈不會(huì)很硬,不傷地板挺好,使用起來(lái)也沒(méi)有聲音,生命在于運(yùn)動(dòng)嘛!有點(diǎn)令人失望,東西并不怎么樣,做工很粗糙,又小,看上去不值這個(gè)價(jià)錢(qián),我覺(jué)得墊子不怎么小,但是味道特大,不過(guò)在室外放幾天也就好了,包裝盒上只有英文說(shuō)明,沒(méi)有廠址、廠名、電話,給人感覺(jué)就是一個(gè)三無(wú)產(chǎn)品。安裝方便,快遞速度很不錯(cuò)。

      圖3 一致性標(biāo)注示例

      3 基于有監(jiān)督學(xué)習(xí)的多文檔文本情感摘要系統(tǒng)

      3.1 系統(tǒng)框架

      圖4給出了有監(jiān)督學(xué)習(xí)的文本情感摘要框架。訓(xùn)練語(yǔ)料首先進(jìn)行預(yù)處理,在預(yù)處理訓(xùn)練語(yǔ)料后,訓(xùn)練文本中正類(摘要類)為人工標(biāo)注的句子,負(fù)類(非摘要類)為文本中去除正類的句子,且這些句子與正類中的句子的相似度小于一定的閾值,本文實(shí)驗(yàn)中中文設(shè)定為0.65,英文設(shè)定為0.75。由于負(fù)類文本數(shù)明顯大于正類文本數(shù), 而樣本分布的不平衡往往會(huì)使傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法在分類過(guò)程中嚴(yán)重偏向多樣本類別,從而導(dǎo)致分類的性能急劇下降。因此,本文對(duì)訓(xùn)練語(yǔ)料進(jìn)行了隨機(jī)欠采樣,隨機(jī)選擇與正類樣本數(shù)目一樣的負(fù)類樣本進(jìn)行實(shí)驗(yàn)。因?yàn)殡S機(jī)欠采樣存在一定的偶然因素,所以本文報(bào)告的結(jié)果是進(jìn)行20次實(shí)驗(yàn)取平均值。本文抽取文本內(nèi)特征、主題特征、情感特征和質(zhì)量特征(英文)生成訓(xùn)練實(shí)例,然后利用最大熵分類器得到分類模型。測(cè)試文本首先進(jìn)行預(yù)處理,抽取特征向量,然后生成測(cè)試實(shí)例,分類器根據(jù)訓(xùn)練好的模型對(duì)測(cè)試實(shí)例進(jìn)行分類,最后根據(jù)分類結(jié)果生成文本情感摘要。

      圖4 基于有監(jiān)督學(xué)習(xí)的文本情感摘要框架

      3.2 特征選擇

      在機(jī)器學(xué)習(xí)的分類方法中,特征選擇是關(guān)鍵的一步。本文選用了4種特征構(gòu)建句子的特征向量,分別為文本內(nèi)特征、PageRank特征、情感特征和質(zhì)量特征。中英文參數(shù)的設(shè)定是在做無(wú)監(jiān)督方法時(shí)通過(guò)實(shí)驗(yàn)確定的,具體請(qǐng)參考文獻(xiàn)[9]。

      ? 文本內(nèi)特征: 1)基于詞的Unigram特征,特征的權(quán)值為句子中詞的詞頻數(shù); 2)句子長(zhǎng)度特征,特征權(quán)值為: 句子單詞數(shù)/5。

      ? PageRank特征: 特征權(quán)值為文本內(nèi)句子通過(guò)基礎(chǔ)PageRank算法計(jì)算得到的打分值。此特征參考文獻(xiàn)[13],將每句話視為一個(gè)節(jié)點(diǎn),句子之間的文本余弦相似度為邊之間的權(quán)重,從而構(gòu)建網(wǎng)絡(luò),并計(jì)算每句話的Page-Rank值。

      ? 情感特征: 選用詞計(jì)數(shù)方法加入“opinion”特征作為情感特征,中文中特征權(quán)值為1.5,英文中特征權(quán)值為2.0。詞計(jì)數(shù)(Term-counting)的方式: 具體來(lái)講,如果句子s包含情感詞,則認(rèn)為該句帶有情感;如果s不包含情感詞,則認(rèn)為該句沒(méi)有情感。

      4 實(shí)驗(yàn)結(jié)果與分析

      本文實(shí)驗(yàn)中使用的語(yǔ)料和第2節(jié)介紹的30個(gè)主題的中文評(píng)論和30個(gè)主題的英文評(píng)論,人工標(biāo)注的結(jié)果作為評(píng)價(jià)標(biāo)準(zhǔn),評(píng)測(cè)工具使用ROUGE-1.5.5,評(píng)測(cè)指標(biāo)是ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4。中文抽取110個(gè)單詞左右的句子構(gòu)建摘要,英文抽取120個(gè)單詞左右的句子構(gòu)建摘要。監(jiān)督學(xué)習(xí)使用3.2中描述的特征,采用MALLET機(jī)器學(xué)習(xí)工具包* http://mallet.cs.umass.edu/中的最大熵分類器,分類算法的所有參數(shù)都設(shè)置為默認(rèn)值。詞計(jì)數(shù)方法使用的情感詞中文選用實(shí)驗(yàn)室已經(jīng)收集并標(biāo)注好的中文情感詞集,其中正面情感詞數(shù)量為846,負(fù)面情感詞數(shù)量為809;英文來(lái)自于MPQA*http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/的情感詞集。

      實(shí)驗(yàn)中,將25個(gè)主題的評(píng)論文本作為訓(xùn)練語(yǔ)料,剩余的5個(gè)主題的評(píng)論文本作為測(cè)試語(yǔ)料,進(jìn)行6組實(shí)驗(yàn),每組實(shí)驗(yàn)的測(cè)試語(yǔ)料都不同,得到30個(gè)主題的文本情感摘要。由于訓(xùn)練文本中負(fù)類是隨機(jī)選取的,所以實(shí)驗(yàn)中有監(jiān)督學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果為20組實(shí)驗(yàn)結(jié)果取平均值。表4和表5分別為中文和英文的實(shí)驗(yàn)結(jié)果,表4和表5中:

      Unigram表示只采用基于詞的Unigram特征的實(shí)驗(yàn)結(jié)果;

      Uni_Len表示只采用文本內(nèi)特征的實(shí)驗(yàn)結(jié)果;

      AddTopic為在使用文本內(nèi)特征的基礎(chǔ)上添加了PageRank特征的實(shí)驗(yàn)結(jié)果;

      AddOpinion指的是在已經(jīng)使用了文本內(nèi)特征和PageRank特征的基礎(chǔ)上,進(jìn)一步添加情感特征的實(shí)驗(yàn)結(jié)果;

      AddHelpful為進(jìn)一步添加評(píng)論質(zhì)量特征的實(shí)驗(yàn)結(jié)果;

      PageRank指的是文獻(xiàn)[9]所用傳統(tǒng)基于主題的無(wú)監(jiān)督PageRank算法的實(shí)驗(yàn)結(jié)果;

      Bi-Rank指的是文獻(xiàn)[9]提出的融合主題和情感信息的基于雙層圖模型的PageRank算法實(shí)驗(yàn)結(jié)果;

      PageRankTerm,helpful是指融合主題信息、情感信息和評(píng)論質(zhì)量信息的PageRank方法;

      Random指每個(gè)主題中隨機(jī)抽取句子作為該主題的文本情感摘要,由于結(jié)果存在隨機(jī)性,所報(bào)告的結(jié)果是隨機(jī)抽取20次的平均值的結(jié)果;

      Human為人工抽取每個(gè)主題的文本情感摘要的結(jié)果。

      表4 中文有監(jiān)督學(xué)習(xí)的文本情感摘要結(jié)果

      表5 英文有監(jiān)督學(xué)習(xí)的文本情感摘要結(jié)果

      從表4和表5的實(shí)驗(yàn)結(jié)果來(lái)看,由于沒(méi)有考慮句子間的主題相關(guān)性和情感信息,Random的實(shí)驗(yàn)效果在中英文上的效果均不理想。文獻(xiàn)[9]所用考慮了句子間的主題相關(guān)性的PageRank的實(shí)驗(yàn)結(jié)果在ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4上優(yōu)于Random。而文獻(xiàn)[9]提出的融合主題和情感信息的基于雙層圖模型的PageRank算法,既考慮了句子間的主題 相 關(guān) 性 又 考 慮了句子的情感信息,在中英文的實(shí)驗(yàn)上均表明實(shí)驗(yàn)效果比PageRank也有明顯的提高。

      文獻(xiàn)[9]用的是無(wú)監(jiān)督的方法,本文用的是有監(jiān)督學(xué)習(xí)的方法。比較表4和表5中的Bi-Rank和AddOpinion的中英文情感摘要結(jié)果,可以看出ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-SU4的實(shí)驗(yàn)結(jié)果均有所提高。其中,表4中,本文AddTopic比文獻(xiàn)[9]最好結(jié)果Bi-Rank在ROUGE-1上高1.7個(gè)百分點(diǎn),表5中,AddOpinion比Bi-Rank在ROUGE-1上提高了0.9個(gè)百分點(diǎn)。表5中PageRankTerm,helpful和AddHelpful均為添加評(píng)論質(zhì)量特征的實(shí)驗(yàn)結(jié)果,有監(jiān)督學(xué)習(xí)方法在ROUGE-1的表現(xiàn)上比無(wú)監(jiān)督學(xué)習(xí)方法高了1.6個(gè)百分點(diǎn)??梢?jiàn),采用有監(jiān)督學(xué)習(xí)的方法得到的文本情感摘要的效果優(yōu)于無(wú)監(jiān)督學(xué)習(xí)方法的實(shí)驗(yàn)效果。

      比較表4中的最好結(jié)果AddTopic和人工抽取的摘要結(jié)果,可知,用有監(jiān)督的方法抽取的摘要ROUGE-1值比人工抽取的摘要結(jié)果低3.3%,表5中的最好結(jié)果AddHelpful中ROUGE-1值僅比人工抽取的情感摘要低2.3%。由實(shí)驗(yàn)結(jié)果可知,有監(jiān)督學(xué)習(xí)方法能更有效的利用主題信息、情感信息和評(píng)論質(zhì)量信息,獲得的文本情感摘要更接近人工摘要的結(jié)果。

      表4和表5中的數(shù)據(jù)顯示,當(dāng)考慮了句子間的主題相關(guān)性時(shí),文本情感摘要的結(jié)果在中文和英文語(yǔ)料上都有了一定的提高。當(dāng)使用了情感特征時(shí),中文和英文的摘要結(jié)果在ROUGE-1上都提高了約1個(gè)百分點(diǎn),這說(shuō)明情感信息是情感文本的一個(gè)重要內(nèi)容,其對(duì)文本情感摘要有著重要的影響。從表5可以發(fā)現(xiàn),當(dāng)進(jìn)一步使用評(píng)論質(zhì)量特征時(shí),英文文本情感摘要的結(jié)果與AddOpinion相比在ROUGE-1上提高了0.9個(gè)百分點(diǎn),而其他幾個(gè)指標(biāo)也有相應(yīng)的提升,這表明質(zhì)量好的評(píng)論其涵蓋的信息更多,更能為讀者提供幫助,同時(shí),讀者也更相信質(zhì)量好的評(píng)論。

      5 結(jié)語(yǔ)

      本文研究了有監(jiān)督學(xué)習(xí)方法在文本情感摘要中的應(yīng)用,使用最大熵分類方法分別作用在中文和英文多文檔文本上,抽取情感摘要,并與無(wú)監(jiān)督學(xué)習(xí)方法進(jìn)行了對(duì)比。由實(shí)驗(yàn)結(jié)果可以看出有監(jiān)督學(xué)習(xí)方法與無(wú)監(jiān)督學(xué)習(xí)方法相比在ROUGE值上有顯著的提高,這說(shuō)明在文本情感摘要中,有監(jiān)督學(xué)習(xí)方法能夠更有效的利用情感文本的主題信息、情感信息和評(píng)論質(zhì)量信息。同時(shí),實(shí)驗(yàn)結(jié)果說(shuō)明了情感信息和質(zhì)量信息可以幫助文本情感摘要,這表明情感文本的主題信息和情感信息密切相關(guān),在情感摘要中不能忽略情感的重要性,同時(shí)質(zhì)量高的情感文本能更有效的幫助讀者進(jìn)行閱讀。

      [1] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2004: 168-177.

      [2] Titov I, McDonald R. A joint model of text and aspect ratings for sentiment summarization [J]. Urbana, 2008, 51: 61801.

      [3] Carenini G, Cheung J C K, Pauls A. Multi-document summarization of evaluative text [J]. Computational Intelligence, 2013, 29(4): 545-576.

      [4] Carenini G, Cheung J C K. Extractive vs. NLG-based abstractive summarization of evaluative text: The effect of corpus controversiality[C]//Proceedings of the Fifth International Natural Language Generation Conference. Association for Computational Linguistics, 2008: 33-41.

      [5] Lerman K, Blair-Goldensohn S, McDonald R. Sentiment summarization: evaluating and learning user preferences[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009: 514-522.

      [6] Lerman K, McDonald R. Contrastive summarization: an experiment with consumer reviews[C]//Proceedings of human language technologies: The 2009 annual conference of the North American chapter of the association for computational linguistics, companion volume: Short papers. Association for Computational Linguistics, 2009: 113-116.

      [7] Nishikawa H, Hasegawa T, Matsuo Y, et al. Opinion summarization with integer linear programming formulation for sentence extraction and ordering[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 910-918.

      [8] Wang D, Liu Y. A pilot study of opinion summarization in conversations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 331-339.

      [9] 林莉媛,王中卿,李壽山等. 基于PageRank的中文多文檔文本情感摘要[J]. 中文信息學(xué)報(bào).2014, 28(2): 85-90.

      [10] Liu F, Liu F, Liu Y. Automatic keyword extraction for the meeting corpus using supervised approach and bigram expansion[C]//Proceedings of spoken Language Technology Workshop, 2008. SLT 2008. IEEE. IEEE, 2008: 181-184.

      [11] Wong K F, Wu M, Li W. Extractive summarization using supervised and semi-supervised learning[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 985-992.

      [12] Li C, Qian X, Liu Y. Using supervised bigram-based ILP for extractive summarization[C]//Proceedings of ACL.2013: 1004-1013.

      [13] Shen D, J Sun, H Li, et al. Document Summarization using Conditional Random Fields[C]//Proceeding of the IJCAI-07.

      [14] Hong Y, Lu J, Yao J, et al. What reviews are satisfactory: novel features for automatic helpfulness voting[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012: 495-504.

      猜你喜歡
      語(yǔ)料特征文本
      如何表達(dá)“特征”
      在808DA上文本顯示的改善
      不忠誠(chéng)的四個(gè)特征
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      抓住特征巧觀察
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      平罗县| 镇原县| 拜泉县| 鄂温| 惠东县| 南召县| 荆门市| 永寿县| 岢岚县| 榆林市| 古田县| 皮山县| 青田县| 福贡县| 迭部县| 阳新县| 靖州| 盐津县| 伊宁县| 阿拉善左旗| 隆昌县| 鄄城县| 井陉县| 萨迦县| 闻喜县| 福安市| 汕尾市| 瑞丽市| 东丰县| 平陆县| 肥乡县| 盖州市| 阳西县| 潮州市| 盐津县| 壶关县| 滁州市| 西畴县| 临澧县| 咸宁市| 黔西|