• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析

      2011-07-05 08:38:16江,侯敏,王
      中文信息學(xué)報(bào) 2011年2期
      關(guān)鍵詞:傾向性詞典語義

      楊 江,侯 敏,王 寧

      (1. 中國傳媒大學(xué) 文學(xué)院,北京 100024; 2. 中國傳媒大學(xué) 有聲媒體語言分中心,北京 100024)

      1 引言

      隨著我國互聯(lián)網(wǎng)事業(yè)的迅速發(fā)展,網(wǎng)絡(luò)作為一種新型媒體不但成為各種社會(huì)思潮、利益訴求和意識(shí)形態(tài)較量的場所,而且也是民眾評(píng)議時(shí)政、談是論非、交流觀點(diǎn)的集散地。有關(guān)網(wǎng)絡(luò)輿情監(jiān)測(cè)的研究由此引起研究人員的重視。網(wǎng)絡(luò)輿情監(jiān)測(cè)中一個(gè)重要的內(nèi)容是對(duì)各種言論進(jìn)行傾向性分析,利用計(jì)算機(jī)自動(dòng)地挖掘和處理文本中的觀點(diǎn)、情感、態(tài)度、傾向等主觀性信息,這類研究又稱作“情感分析”或“觀點(diǎn)挖掘”。近年來,由于在觀點(diǎn)搜索、輿情分析、產(chǎn)品推薦、自動(dòng)問答系統(tǒng)等諸多領(lǐng)域有著重要的應(yīng)用,傾向性分析越來越受到人們的關(guān)注。

      傾向性分析以主觀性文本為處理對(duì)象。主觀性文本“主要描述了作者對(duì)事物、人物、事件等的個(gè)人(或群體、組織等)想法或看法”[1]。其中,評(píng)論文是一類典型且常見的主觀性文本,它針對(duì)具體的人、物、事件,就其有關(guān)方面做出主觀的批評(píng)議論。評(píng)論文,尤其是新聞評(píng)論,是社會(huì)輿論的集中反映。因此,評(píng)論文的傾向性分析對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)具有重要的價(jià)值和意義。

      2 相關(guān)工作

      目前傾向性分析通常在詞語、句子和篇章3個(gè)語言層級(jí)上展開,所采用的技術(shù)主要有基于語義的方法和基于機(jī)器學(xué)習(xí)的方法?;谡Z義的方法認(rèn)為傾向性本質(zhì)上是一種語義,一般可以從計(jì)算詞語的傾向性開始逐級(jí)獲得句子和篇章的傾向性?;跈C(jī)器學(xué)習(xí)的方法則把傾向性分析看作一類特殊的分類問題,關(guān)鍵的環(huán)節(jié)在于構(gòu)造合適的分類器以及選擇恰當(dāng)?shù)奶卣鳌?/p>

      研究篇章傾向性的工作以Turney[2]、Pang等[3]、Yi等[4]為代表。Turney采用無指導(dǎo)的學(xué)習(xí)算法對(duì)評(píng)論文進(jìn)行褒貶分類,首先通過計(jì)算給定詞或短語與“excellent”和“poor”的互信息差來度量其語義傾向,然后將文本中詞和短語的平均語義傾向作為給定評(píng)論文的整體傾向。Pang等分別使用樸素貝葉斯(Na?ve Bayes)、最大熵(Maximum Entropy)和支持向量機(jī)(SVM)三種分類模型對(duì)電影評(píng)論文本的傾向性分類進(jìn)行了研究,選取的特征包括詞語的一元組、二元組、詞性、位置以及特征的頻數(shù)和特征出現(xiàn)與否等。Yi等首先使用語法分析器對(duì)句子進(jìn)行語法分析,然后參照情感詞匯表和情感模式庫對(duì)句子進(jìn)行傾向性分類,并將其運(yùn)用到文本的傾向性分類中。

      由于語言是具有層級(jí)體系的符號(hào)系統(tǒng),因此篇章的整體傾向性分析要以句子和詞語的傾向性為基礎(chǔ)。Wiebe等[5]的研究表明,形容詞可以作為判別句子主客觀性的依據(jù)。Kim和 Hovy[6]、Wiebe和 Riloff[7]探討了主客觀句子的分類,Yu Hong等[8]提出了面向自動(dòng)問答系統(tǒng)的觀點(diǎn)句抽取方法,再對(duì)抽取的觀點(diǎn)句進(jìn)行情感分類,判斷其極性。Hu和Liu[9]通過WordNet的同義詞—反義詞關(guān)系,得到情感詞匯及其情感傾向,然后由句子中占優(yōu)勢(shì)的情感詞匯的語義傾向決定該句子的極性。Wang等[10]選取形容詞和副詞作為特征,提出了基于啟發(fā)式規(guī)則與貝葉斯分類技術(shù)相融合的評(píng)論句子語義傾向分類方法。王根、趙軍[11]提出了一種基于多重冗余標(biāo)記的CRFs句子情感分析方法,劉康、趙軍[12]進(jìn)行了基于層疊CRFs模型的句子褒貶度分析的研究。

      與以往的研究不同,本文提出一種基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向分析方法。文章余下部分組織如下:第3節(jié)對(duì)本文研究的問題進(jìn)行了分析,描述了提出的方法;第4節(jié)介紹了評(píng)論文的主題識(shí)別和主題情感句的抽??;第5節(jié)闡述了基于主題情感句的評(píng)論文傾向性分析;第6節(jié)給出實(shí)驗(yàn)結(jié)果及其分析;最后一節(jié)是結(jié)論。

      3 問題分析和方法描述

      3.1 篇章結(jié)構(gòu)和淺層篇章結(jié)構(gòu)

      篇章的整體傾向性是其組成部分傾向性的總和,但各組成部分在特定篇章中的重要程度卻有不同。這是因?yàn)椴煌奈恼麦w裁有不同的篇章結(jié)構(gòu),而篇章結(jié)構(gòu)體現(xiàn)了組成部分的重要程度。

      篇章結(jié)構(gòu)是篇章內(nèi)部的語言組織規(guī)律,又分為宏觀結(jié)構(gòu)和微觀結(jié)構(gòu),主要包括開頭和結(jié)尾、過渡和照應(yīng)、段落層次關(guān)系及謀篇布局的手段和方法。篇章結(jié)構(gòu)在形式上標(biāo)志了篇章內(nèi)容的層次性,在意義上保證了篇章內(nèi)容的完整性,在邏輯上體現(xiàn)了篇章內(nèi)容的連貫性??梢哉f,篇章結(jié)構(gòu)是篇章形式、意義和邏輯的統(tǒng)一體。從形式上看,篇章內(nèi)部大于句子的意義單位中,自然段是人們可以自然察覺到的基本單位,節(jié)、章等則是建立在自然段基礎(chǔ)上的更大意義單位。從意義上看,篇章由若干個(gè)意義段組成,篇章的中心意義是各意義段的中心意義按一定邏輯關(guān)系的組合。

      意義段是篇章內(nèi)部表達(dá)相對(duì)完整意義的自然段的集合,小到一個(gè)自然段,大到一個(gè)章節(jié)。不同文體劃分意義段的依據(jù)不盡相同。就議論文而言,一篇典型的議論文依據(jù)其結(jié)構(gòu)模式可以分為“引論”(或“總論”)、“分論”和“結(jié)論”等意義段。劃分意義段對(duì)理解文章的篇章結(jié)構(gòu)、把握中心思想具有重要意義。

      淺層篇章結(jié)構(gòu)指的是較大篇章單位(如意義段)之間的語義關(guān)系,是篇章總體上的、高層次的語義結(jié)構(gòu)。它是一種宏觀結(jié)構(gòu),體現(xiàn)的是篇章主題思想的構(gòu)建方式,忽略較小篇章單位(如句子)之間的結(jié)構(gòu)關(guān)系。進(jìn)行淺層篇章結(jié)構(gòu)分析的目的,在于直接、快速地獲取篇章的中心思想,進(jìn)而準(zhǔn)確地得到篇章的整體傾向性。

      3.2 評(píng)論文的特點(diǎn)

      評(píng)論文是議論文的一種,也稱作“評(píng)論”,根據(jù)所評(píng)論的對(duì)象,分為人物評(píng)論、時(shí)事評(píng)論、經(jīng)濟(jì)評(píng)論、政治評(píng)論、軍事評(píng)論、文學(xué)評(píng)論(含書評(píng))、藝術(shù)評(píng)論(含影評(píng)、劇評(píng)、樂評(píng))、商品評(píng)論(如汽車評(píng)論)、服務(wù)評(píng)論(如機(jī)場服務(wù)評(píng)論)等。評(píng)論文具有以下特點(diǎn):

      (1) 主題明確。評(píng)論文與一般的議論文不同,它總是針對(duì)具體的人、物、事件的有關(guān)方面做出評(píng)議,議論的對(duì)象明確。

      (2) 一篇評(píng)論文通常只有一個(gè)主題,評(píng)論者對(duì)主題有明確的傾向性。有的評(píng)論文會(huì)對(duì)主題的下位主題展開議論,但不影響其對(duì)該主題的基本立場。對(duì)下位主題的評(píng)論同樣具有上述兩個(gè)特點(diǎn)。

      (3) 評(píng)論文的主題與其標(biāo)題有著密切的關(guān)系。評(píng)論文為了讓讀者看到標(biāo)題即了解主旨,通常會(huì)用精煉的語言道出文章的主題,有時(shí)甚至概括出主題和主旨。因此,一般來說,總可以在標(biāo)題中找到文章的主題。

      (4) 評(píng)論文的結(jié)構(gòu)通常遵循一定的“范式”。概括起來,評(píng)論文的結(jié)構(gòu)有3種基本類型:歸納型、演繹型和演繹歸納結(jié)合型,并分別對(duì)應(yīng)3種主要的表達(dá)模式:“分—總”式、“總—分”式、“總—分—總”式。評(píng)論者對(duì)主題的情感表達(dá)一般會(huì)出現(xiàn)在“總論”和“結(jié)論”部分,而“分論”部分的情感不影響其基本的傾向。在有的評(píng)論文中,對(duì)下位主題的情感表達(dá)會(huì)出現(xiàn)在“分論”部分。

      對(duì)560篇評(píng)論文*所有評(píng)論文收集自HUhttp://opinion.people.com.cn/U。的考察印證了評(píng)論文的上述4個(gè)特點(diǎn)。統(tǒng)計(jì)數(shù)據(jù)見表1。

      表1 評(píng)論文各項(xiàng)特點(diǎn)統(tǒng)計(jì)結(jié)果

      3.3 以主題情感句表示的評(píng)論文淺層篇章結(jié)構(gòu)

      由以上分析得知,評(píng)論文的傾向性通過若干意義段按照特定的表達(dá)模式反映出來,其整體傾向一般出現(xiàn)在“總說”部分。因此,一個(gè)自然而簡單的想法是,通過劃分意義段和判定表達(dá)模式的方法對(duì)評(píng)論文做篇章結(jié)構(gòu)分析后,僅需對(duì)“總說”部分所在的意義段進(jìn)行傾向性分析,即可獲得評(píng)論文的整體傾向。

      然而,篇章結(jié)構(gòu)自動(dòng)分析本身是一件困難的工作,這個(gè)過程中損失的精度直接影響著篇章傾向性分析的準(zhǔn)確率。為了避免完全的篇章結(jié)構(gòu)分析,同時(shí)又能在一定程度上利用文章的篇章結(jié)構(gòu)信息,我們引入主題情感句的概念,利用主題情感句能夠隱式地表達(dá)評(píng)論文的篇章結(jié)構(gòu)這一特點(diǎn),對(duì)評(píng)論文進(jìn)行傾向性分析。

      主題情感句是主觀性文本中包含主題概念及與之相關(guān)的情感傾向的句子,它既包含著文章的主題,又表達(dá)了針對(duì)該主題的主觀態(tài)度。就評(píng)論文而言,主題情感句是表達(dá)文章中心思想(這里指主題和情感)的最典型、最直接、最有力的手段。主題情感句對(duì)于主題情感的表達(dá)具有鮮明的特點(diǎn)。首先,主題情感句在主題上是“同質(zhì)”的。也就是說,主題情感句針對(duì)相同的主題發(fā)表意見。這就使得每個(gè)主題情感句中的情感可以計(jì)算。以往的研究文獻(xiàn)[2-3]沒有考慮主題及與之相關(guān)的情感應(yīng)該相互對(duì)應(yīng)這一問題,導(dǎo)致有可能把不同主題情感或不相關(guān)情感混合在一起計(jì)算,影響了結(jié)論的可信度。其次,主題情感句與文章主題的語義相似度潛在地反映了主題情感句與不同意義段的相關(guān)度。主題情感句與文章主題的語義相似度越大,它出現(xiàn)在“總說”部分的可能性就越大;反之,出現(xiàn)在“分說”部分的可能性則越大。再次,主題情感句的分布情況,包括分布的密度和廣度,不但隱式地表示了評(píng)論文的篇章結(jié)構(gòu)是“總—分”,“分—總”抑或是其他類型,而且還或多或少地體現(xiàn)了作者對(duì)所討論主題的情感強(qiáng)度,對(duì)深層次的情感分析有所幫助。

      總之,對(duì)評(píng)論文傾向性分析而言,充分利用文章的篇章結(jié)構(gòu)既符合人的思維方式,也能帶來極大的幫助。在當(dāng)前完全的篇章結(jié)構(gòu)分析難以獲得滿意效果的情況下,采用以情感主題句表示的淺層篇章結(jié)構(gòu)分析方法,不失為一個(gè)好的策略。

      3.4 方法描述

      綜上所述,我們提出一種基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析方法?;镜乃悸肥?,在確定評(píng)論文主題的基礎(chǔ)上,抽取出主題句;然后對(duì)主題句進(jìn)行主客觀分類,抽取出主題情感句;計(jì)算主題情感句與評(píng)論文主題的語義相似度,選取相似度最高的若干個(gè)句子計(jì)算情感傾向,將其平均值作為評(píng)論文的整體傾向。下面分別進(jìn)行論述。

      4 評(píng)論文主題識(shí)別和主題情感句抽取

      4.1 評(píng)論文主題識(shí)別

      將評(píng)論文的主題概念表示為詞語串集合T={Wn1,Wn2, …,Wni},其中,Wni是一個(gè)或多個(gè)詞語組成的詞語串。評(píng)估Wni是否屬于T,依據(jù)的指標(biāo)是其位置和頻次信息。Wni的位置信息表明了其分布度D(Wni):Wni在評(píng)論文中的分布越廣,它與主題相關(guān)的可能性越大。Wni的頻率信息表明了其重要度I(Wni):Wni在評(píng)論文中出現(xiàn)次數(shù)越多,其重要性越大,與主題相關(guān)的可能性也越大。由此,將Wni隸屬于T的程度稱為Wni的隸屬度,Wni的隸屬度C(Wni)定義為:

      C(Wni)=α·D(Wni) +β·I(Wni)

      (1)

      其中,α和β是加權(quán)系數(shù),用以調(diào)節(jié)D(Wni)和I(Wni)的權(quán)重。

      為了快速有效地獲取評(píng)論文的主題,采用一種基于n元詞語匹配的方法進(jìn)行識(shí)別。按照下述算法獲取T:

      (1) 對(duì)評(píng)論文標(biāo)題和正文進(jìn)行分詞標(biāo)注,分詞標(biāo)注結(jié)果分別存入隊(duì)列Tq和Bq中。

      (2) 當(dāng)n≤m時(shí)(其中,1≤m≤Tq中詞語的個(gè)數(shù),n初始值為1并自增),循環(huán)執(zhí)行以下操作:連續(xù)地從Tq中取出一個(gè)n元詞語串Wni,并在Bq中進(jìn)行查找;如果Bq中存在Wni,則將其插入索引表G={Wni, position, frequency}中。規(guī)定當(dāng)n=1時(shí),W1i必須為實(shí)詞。

      (3) 根據(jù)公式(1)分別計(jì)算每個(gè)Wni的隸屬度,將隸屬度大于預(yù)設(shè)閾值Lc的Wni加入T中。

      4.2 評(píng)論文主題情感句抽取

      主題情感句是主觀性文本中包含主題概念及與之相關(guān)的情感傾向的句子,它既是主題句,又是情感句。主題情感句決定評(píng)論文的情感極性,是判別評(píng)論文整體傾向的關(guān)鍵?;谥黝}情感句的評(píng)論文傾向性分析方法將與主題無關(guān)的情感要素排除在外,使所分析的情感具有“主題同質(zhì)性”,從而獲得可計(jì)算性。主題情感句的抽取分為兩個(gè)步驟。

      (1) 從評(píng)論文中抽取主題句。在已確定主題概念T的前提下,抽取主題句即選取與T在語義上相似度較高的句子,其相似度大小主要取決于二者等同詞串*即形式完全相同的詞或詞串。的數(shù)量、等同詞串的長度*即詞串中所含詞語的數(shù)量。、非等同詞的語義相似度、候選主題句的位置等因素。根據(jù)索引表G中每個(gè)Wni的位置信息,可以確定一部分主題句。由于這些句子中含有一個(gè)或多個(gè)等同詞串Wni,按照Wni的數(shù)量及長度賦予一個(gè)相應(yīng)較高的權(quán)值,表示這些句子與主題T的相似度較高。對(duì)于其他句子,根據(jù)劉群﹑李素建[13]提出的基于《知網(wǎng)》的詞匯語義相似度計(jì)算方法,依次計(jì)算其所含詞語與T中長度為1的Wni的語義相似度??紤]句子在文本和段落中的位置,將所有相似度大于預(yù)定閾值Ls的句子確定為主題句。為了獲得較高的召回率,Ls的值通常設(shè)置得較小。

      (2) 從主題句中抽取主題情感句。從主題句中抽取情感句,其實(shí)質(zhì)是進(jìn)行主客觀分類。這里采用一種基于詞典匹配的方法,使用預(yù)先編制好的情感詞典來判別一個(gè)句子是否含有情感傾向。

      通過以上步驟抽取評(píng)論文中的若干個(gè)主題情感句,每個(gè)句子均帶有一個(gè)表示其與主題語義距離的權(quán)值,將這些句子稱為候選主題情感句。

      5 基于主題情感句的評(píng)論文傾向性分析

      基于3.3節(jié)的認(rèn)識(shí),在評(píng)論文中,與主題相似度越高的主題情感句,越有可能成為作者表達(dá)基本傾向的關(guān)鍵句子。同時(shí),為了避免過度依賴于少數(shù)候選主題情感句,又要求對(duì)更多的句子進(jìn)行分析。因此,從候選主題情感句集中選取的用于最后分析和計(jì)算的句子數(shù)量,是一個(gè)值得考慮的問題。評(píng)論文主題情感句的數(shù)量是不定的,這受多種因素影響。根據(jù)我們對(duì)560篇評(píng)論文的考察發(fā)現(xiàn),一般而言,一篇評(píng)論文所包含的主題情感句不多于7個(gè),而平均的主題情感句數(shù)量約為4個(gè)。此外,篇幅較長的評(píng)論文,其所包含的主題情感句也通常較多。由此,定義一個(gè)可調(diào)節(jié)的參數(shù)γ(依據(jù)所分析的評(píng)論文篇幅與參考篇幅確定),則對(duì)于任一評(píng)論文,其所需分析的主題情感句數(shù)量N(tss)為:

      從候選主題情感句集中提取N(tss)個(gè)權(quán)值最大的句子,將所有句子的傾向性(sentence orientation, SO)的平均值作為評(píng)論文的整體傾向O(r),即:

      對(duì)于句子的傾向性分析,采用基于詞典的語義方法進(jìn)行。對(duì)于每一個(gè)待分析的句子,首先使用依存句法分析器對(duì)句子成分做依存分析,然后依據(jù)一個(gè)預(yù)先編制好的情感詞典計(jì)算句子中情感表達(dá)式的情感傾向,并以此作為句子的傾向性。分析過程中主要考慮了以下句法和上下文因素:(1)情感表達(dá)式與主題的關(guān)系;(2)情感表達(dá)式與其修飾成分的關(guān)系,包括否定詞、強(qiáng)調(diào)成分等;(3)連接詞語;(4)話語標(biāo)記;(5)標(biāo)點(diǎn)符號(hào)。

      6 實(shí)驗(yàn)及結(jié)果

      6.1 數(shù)據(jù)

      實(shí)驗(yàn)中使用的語料為漢語時(shí)事評(píng)論,原始語料采集自人民網(wǎng)觀點(diǎn)頻道(Uhttp://opinion.people.com.cn),均經(jīng)過了清洗和基本整理,使必要的文本結(jié)構(gòu)信息可用。從中隨機(jī)挑選出400篇文本,訓(xùn)練和指導(dǎo)3名標(biāo)注人員獨(dú)立地標(biāo)注其情感主題句和整體傾向性。以下是部分標(biāo)注結(jié)果。

      表2 測(cè)試語料部分標(biāo)注結(jié)果

      對(duì)標(biāo)注結(jié)果進(jìn)行了一致性檢查,最終得到370篇(其中,正向情感文本86篇,負(fù)向情感文本284篇)標(biāo)注結(jié)果完全一致的評(píng)論文,將其作為測(cè)試數(shù)據(jù)。

      6.2 資源和工具

      為了進(jìn)行傾向性分析,實(shí)驗(yàn)使用了以下資源和工具。

      (1) 情感詞典。我們手工建設(shè)了一部正向情感詞典(CUCPosSentDic)和一部負(fù)向情感詞典(CUCNegSentDic),分別收集詞條9 701和11 681例。每個(gè)詞條均包含詞性、正向情感值和負(fù)向情感值。不同于其他情感詞典,我們由專家對(duì)詞語的情感傾向進(jìn)行5級(jí)賦值。所收詞條部分來源于“知網(wǎng)”情感分析用詞語集(beta版)和NTUSD(“國立”臺(tái)灣大學(xué)情感詞典),也收錄了《學(xué)生褒貶義詞典》、《褒義詞詞典》、《貶義詞詞典》等詞典條目。

      (2) 影響傾向性分析的上下文詞典。包含否定詞、連接詞、話語標(biāo)記等詞典。

      (3) 知網(wǎng)(2000版)。使用了免費(fèi)的知網(wǎng)(2000版)用于詞語相似度計(jì)算。

      (4) 語言技術(shù)平臺(tái)LTP。使用了其中的依存句法分析器用于句法分析。

      (5) 中國傳媒大學(xué)分詞標(biāo)注軟件(CUCSeg)。使用CUCseg進(jìn)行詞語切分和標(biāo)注。

      6.3 實(shí)驗(yàn)結(jié)果

      主題情感句的抽取是本文工作中至關(guān)重要的環(huán)節(jié),我們對(duì)此進(jìn)行了實(shí)驗(yàn)。采用傳統(tǒng)的準(zhǔn)確率(precision)、召回率(recall)以及F1值(F-measure)等評(píng)價(jià)指標(biāo)對(duì)性能進(jìn)行衡量。實(shí)驗(yàn)結(jié)果如表3所示。

      表3 主題情感句實(shí)驗(yàn)結(jié)果

      可見,當(dāng)隸屬度閾值Ls為0.55時(shí),可以獲得較好的準(zhǔn)確率和召回率。

      對(duì)于評(píng)論文整體傾向性分析實(shí)驗(yàn),采用準(zhǔn)確率這一指標(biāo)衡量本文方法的性能。分別采用Turney[2]、Pang等[3]以及本文所述方法在同一測(cè)試數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果與Turney[2]、Pang等[3]在不同英文測(cè)試數(shù)據(jù)上所報(bào)告的結(jié)果比較如表4所示。

      表4 評(píng)論文傾向性分析實(shí)驗(yàn)結(jié)果

      顯然,本文的方法在準(zhǔn)確率上有較大提高。

      我們對(duì)49個(gè)錯(cuò)誤結(jié)果進(jìn)行了分析,檢查了各個(gè)環(huán)節(jié)的中間分析結(jié)果。分析顯示,約有35%的錯(cuò)誤來自主題識(shí)別階段,大約49%的錯(cuò)誤是由于對(duì)主題情感句分析錯(cuò)誤所導(dǎo)致,此外還有約4%的錯(cuò)誤由情感詞典造成。因此,提高主題識(shí)別的準(zhǔn)確率,加強(qiáng)對(duì)句子級(jí)傾向性的研究以及編制更好的情感詞典,將有助于提高基于主題情感句的評(píng)論文傾向性分析結(jié)果。

      7 結(jié)論

      漢語評(píng)論文的特點(diǎn)使得我們可以利用情感主題句表示它的淺層篇章結(jié)構(gòu)。本文由此提出了一種基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析方法。該方法采用一種基于n元詞語匹配的方法識(shí)別主題,通過對(duì)比與主題的語義相似度和進(jìn)行主客觀分類抽取出候選主題情感句,計(jì)算其中相似度最高的若干個(gè)句子的傾向性,將其平均值作為評(píng)論文的整體傾向性?;跍\層篇章結(jié)構(gòu)的評(píng)論文傾向性分析方法避免了進(jìn)行完全篇章結(jié)構(gòu)分析,排除了與主題無關(guān)的主觀性信息,實(shí)驗(yàn)結(jié)果表明,該方法準(zhǔn)確率較高,切實(shí)可行。本文后續(xù)的研究工作將在加強(qiáng)句子級(jí)傾向性分析、改進(jìn)情感詞典等方面展開。

      致謝

      本文使用了哈爾濱工業(yè)大學(xué)信息檢索研究中心提供的“語言技術(shù)平臺(tái)LTP”以及“知網(wǎng)(2000版)”,情感詞典部分詞語來自“知網(wǎng)”情感分析用詞語集(beta版)和NTUSD,趙晗冰、李楠參與了情感詞典的編制和部分?jǐn)?shù)據(jù)的標(biāo)注,在此一并表示感謝。

      [1] 姚天昉,程希文,徐飛玉,等.文本意見挖掘綜述[J].中文信息學(xué)報(bào),2008,22(3): 71-80.

      [2] P. D. Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews [C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics. USA: 2002: 417-424.

      [3] B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing. Philadelphia, USA: 2002: 79-86.

      [4] J. Yi, T. Nasukawa, R. Bunescu, and W. Niblack. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques [C]//Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM-2003). Melbourne, Florida: 2003: 427-434.

      [5] J. Wiebe. Learning subjective adjectives from corpora[C]//Proceedings of the 17th National Conference on Artificial intelligence. Menlo Park. Calif. AAAI Press, 2000:735-740.

      [6] S.-M. Kim and E. Hovy. Determining the Sentiment of Opinions[C]//Proceedings of COLING-04, the Conference on Computational Linguistics (COLING-2004). Geneva, Switzerland: 2004: 1367-1373.

      [7] J. Wiebe, E. Riloff. Creating Subjective and Objective Sentence Classifiers from Unannotated Text[C]//Proceedings of CICLING, Mexico City, Mexico: 2005: 486-497.

      [8] H. Yu and V. Hatzivassiloglou. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//Proceedings of EMNLP-03, 8th Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan: 2003: 129-136.

      [9] M. Hu, B. Liu. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD. Seattle, USA, 2004:168-177.

      [10] C. Wang, J. Lu, G. Zhang. A semantic classification approach for online Product reviews[C]//Proceedings of the 2005 IEEE/WIC/ACM International Conference on web intelligence. Hongkong, China, 2005: 276- 279.

      [11] 王根,趙軍. 基于多重冗余標(biāo)記CRFs的句子情感分析研究[J].中文信息學(xué)報(bào),2007,21(5): 51-55.

      [12] 劉康,趙軍. 基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學(xué)報(bào),2008,22(1): 123-128.

      [13] 劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會(huì),臺(tái)北,2002:4-7.

      猜你喜歡
      傾向性詞典語義
      基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
      語言與語義
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
      “沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
      語言與翻譯(2015年4期)2015-07-18 11:07:43
      認(rèn)知范疇模糊與語義模糊
      一種面向博客群的主題傾向性分析模型
      乌兰县| 尖扎县| 中西区| SHOW| 旺苍县| 西城区| 沈阳市| 红原县| 洱源县| 清水河县| 白山市| 罗甸县| 永清县| 赤壁市| 华容县| 遂宁市| 凯里市| 吉林省| 申扎县| 绥阳县| 白山市| 阿瓦提县| 泰和县| 临泽县| 农安县| 赫章县| 东丽区| 深水埗区| 平顶山市| 吉木乃县| 明水县| 达拉特旗| 香河县| 九寨沟县| 六盘水市| 察隅县| 洪江市| 哈尔滨市| 谢通门县| 芦溪县| 澳门|