• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于語(yǔ)義的新聞標(biāo)題情感分析

      2018-04-20 03:27王菲爾
      文教資料 2018年35期
      關(guān)鍵詞:情感分析人民日?qǐng)?bào)詞典

      王菲爾

      摘? ? 要: 新聞標(biāo)題作為新聞最重要的部分,其中暗含新聞作者的情感傾向,也會(huì)影響閱讀者對(duì)新聞的看法。本文基于語(yǔ)義對(duì)新聞標(biāo)題進(jìn)行情感分析,使用情感詞典提取情感詞,并匹配句中含有否定詞、程度副詞、連詞,以及感嘆句、反問(wèn)句的情況下的語(yǔ)義規(guī)則,進(jìn)行新聞標(biāo)題情感值計(jì)算。選擇新浪新聞和人民日?qǐng)?bào)新聞標(biāo)題作為語(yǔ)料,也想借情感分析探究新聞文本的自身特點(diǎn)。

      關(guān)鍵詞: 語(yǔ)義? ? 詞典? ? 情感分析? ? 新浪新聞? ? 人民日?qǐng)?bào)

      引言

      新聞標(biāo)題是以最精練的文字將新聞中最重要、最新鮮的內(nèi)容提示給讀者。標(biāo)題不但涵括了新聞的內(nèi)容,而且也代表了新聞寫作者對(duì)這篇新聞的評(píng)價(jià)。因此往往暗含新聞寫作者自身的情感傾向?,F(xiàn)在,新聞作者為了吸引讀者注意,往往采用夸大的情緒描述新聞標(biāo)題,也導(dǎo)致了對(duì)新聞內(nèi)容的不實(shí)反映,這種現(xiàn)象被稱為“標(biāo)題黨”。但是在一些權(quán)威新聞媒體上,這種現(xiàn)象比較克制。新聞標(biāo)題中暗含的情感傾向,對(duì)閱讀者的影響也很大,由此產(chǎn)生的輿論效應(yīng),不可忽視。因此,本文選取新聞文本中最重要的組成部分之一——新聞標(biāo)題,對(duì)其進(jìn)行情感分析,以期對(duì)新聞文本的情感傾向性做出判斷,并為進(jìn)一步的輿情分析提供幫助。如何對(duì)新聞標(biāo)題中的情感作出恰當(dāng)?shù)陌芽?,也是本文想要通過(guò)情感分析探討的內(nèi)容。

      當(dāng)前常用的文本情感分析方法主要有兩種。一是基于機(jī)器學(xué)習(xí)的情感分析,采用傳統(tǒng)的文本分類技術(shù),將情感詞匯作為提取的特征詞,并結(jié)合其他特征訓(xùn)練分類器。常用的方法有樸素貝葉斯(NB)、支持向量機(jī)(SVM)、最大熵(ME)等。國(guó)外如Pang等[1]采用上述方法,對(duì)影評(píng)數(shù)據(jù)進(jìn)行情感分類,并比較三種機(jī)器學(xué)習(xí)方法,結(jié)果顯示支持向量機(jī)的方法達(dá)到最大準(zhǔn)確率。國(guó)內(nèi)研究有徐軍等[2]用樸素貝葉斯和最大熵的方法對(duì)新聞及評(píng)論語(yǔ)料進(jìn)行情感分類,最高準(zhǔn)確率達(dá)90%。昝紅英等[3]采用SVM+規(guī)則的方法研究新聞文本情感傾向,并與Bayes+KNN+規(guī)則的方法進(jìn)行比較,驗(yàn)證前一種方法的普適性。潘云仙[4]用基于JST的模型進(jìn)行新聞文本情感分析,對(duì)新聞標(biāo)題進(jìn)行極性判斷。基于機(jī)器學(xué)習(xí)的方法對(duì)訓(xùn)練文本的質(zhì)量要求很高,且容易忽視語(yǔ)句的上下文信息。因此本文采用另一種基于語(yǔ)義的情感分析方法。這種方法基于情感詞典和語(yǔ)義規(guī)則設(shè)計(jì)算法,結(jié)合了詞匯的語(yǔ)義特征和上下文信息,更為合理。如Turney等[5]用點(diǎn)互信息計(jì)算詞匯語(yǔ)義相關(guān)度,來(lái)判斷情感詞的極性。劉群等[6]提出基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算,提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確率。朱嫣嵐等[7]用基于HowNet的詞匯語(yǔ)義相似度,計(jì)算詞語(yǔ)的情感傾向。李晨等[8]基于情感詞典和語(yǔ)義規(guī)則相結(jié)合,構(gòu)建了正負(fù)面情感詞典、否定詞詞典、程度副詞詞典、轉(zhuǎn)折歸總詞典,計(jì)算新聞文本的情感傾向。此外,更多的對(duì)新聞標(biāo)題或新聞文本情感傾向性的研究,是從新聞學(xué)本身出發(fā)的。如李小將[9]探究報(bào)紙新聞標(biāo)題制作中情感因素的運(yùn)用;樊耀聰[10]探究情感因素在新聞傳播中的應(yīng)用等。

      基于現(xiàn)有的研究成果,可以看出這些研究大都以提高情感分析準(zhǔn)確率為目標(biāo),少有通過(guò)情感分析對(duì)新聞文本本身進(jìn)行解讀。而本文以新聞標(biāo)題作為切入點(diǎn),將著重利用情感分析的結(jié)果,探究新聞文本的自身特點(diǎn)。本文將選取“新浪新聞”、《人民日?qǐng)?bào)》新聞作為語(yǔ)料,通過(guò)對(duì)兩家新聞標(biāo)題情感傾向性的對(duì)比,分析各自新聞標(biāo)題的特點(diǎn),并探討新聞寫作中情感把控的問(wèn)題。

      1.新聞文本情感分析的實(shí)驗(yàn)流程

      本文采用基于語(yǔ)義的方法對(duì)新聞標(biāo)題進(jìn)行情感分析,基本流程見(jiàn)圖1.1。

      1.1語(yǔ)料收集

      本文分別整理收集“新浪新聞”和《人民日?qǐng)?bào)》新聞標(biāo)題各5000條,共計(jì)10000條新聞標(biāo)題,構(gòu)成情感分析的語(yǔ)料庫(kù)。標(biāo)題選擇范圍基本是兩年以內(nèi)的新聞,內(nèi)容涵蓋時(shí)政、地方、法治、國(guó)際、軍事、財(cái)經(jīng)、汽車、房產(chǎn)、教育、科技、彩票、娛樂(lè)、金融、體育、食品、旅游、健康、教育、游戲、時(shí)尚等方面。

      1.2文本預(yù)處理

      本文采用中科院漢語(yǔ)詞法分析系統(tǒng)ICTCLAS[11]進(jìn)行分詞及詞性標(biāo)注,其主要功能還有命名實(shí)體識(shí)別、新詞識(shí)別等。系統(tǒng)采用CHMM(層疊形馬爾可夫模型)進(jìn)行分詞,分詞速度996KB/s,分詞精度98.45%,是目前準(zhǔn)確率較高且較有效率的分詞系統(tǒng)。

      1.3情感詞提取

      首先建立情感詞典。情感詞典的建構(gòu)是情感分析中至關(guān)重要的一步,對(duì)情感分析的結(jié)果有很大的影響。目前較為常用的中文情感詞典有Hownet情感分析用詞語(yǔ)集,其中包括了正負(fù)面評(píng)價(jià)詞語(yǔ)集、正負(fù)面情感詞語(yǔ)集、主張?jiān)~語(yǔ)集和程度詞語(yǔ)集;臺(tái)灣大學(xué)NTUSD(National Taiwan University Sentiment Dictionary)包含了正面情感詞典和負(fù)面情感詞典;以及大連理工大學(xué)的中文情感詞匯本體庫(kù)[12],對(duì)多部情感詞典進(jìn)行整理歸納,較為全面,還對(duì)每個(gè)情感詞匯的詞性種類、情感分類、強(qiáng)度、極性等做了標(biāo)注,將情感分為7大類、21小類,是目前比較成熟的中文情感詞典。下表將大致描述這三部情感詞典的詞匯分布情況。

      表中可以看出,大連理工大學(xué)的中文情感詞匯本體庫(kù)在情感詞匯數(shù)量上占絕大優(yōu)勢(shì)。因此,本文在中文情感詞匯本體庫(kù)的基礎(chǔ)上建立情感詞典,對(duì)其進(jìn)行篩選,刪除一些新聞文本不適用的詞語(yǔ),并添加一些新聞文本中常見(jiàn)的情感詞語(yǔ),如“泥潭”“中國(guó)夢(mèng)”“破獲”等。最終,詞典共含有13249個(gè)正面情感詞語(yǔ),13581個(gè)負(fù)面情感詞語(yǔ),合計(jì)26830個(gè)。

      1.4語(yǔ)義規(guī)則匹配

      在計(jì)算新聞標(biāo)題的情感值之前,除了對(duì)情感詞的情感值進(jìn)行計(jì)算,還需要基于語(yǔ)義規(guī)則對(duì)情感詞進(jìn)行加權(quán)處理,標(biāo)題中其他影響情感傾向的因素有否定詞、程度副詞、連詞、反問(wèn)句、感嘆句等。

      程度副詞同樣會(huì)影響詞語(yǔ)情感傾向的強(qiáng)度,這時(shí)詞語(yǔ)的情感值受程度副詞語(yǔ)義強(qiáng)度的影響發(fā)生變化。程度副詞權(quán)值表示為M■。本文基于HowNet的中文程度級(jí)別詞語(yǔ),構(gòu)建程度副詞表,并設(shè)置程度副詞權(quán)重。

      連詞連接兩個(gè)句子時(shí),句子的情感傾向會(huì)因連詞的不同而產(chǎn)生變化。常見(jiàn)的類型有并列、承接、遞進(jìn)、選擇、轉(zhuǎn)折、假設(shè)、因果、條件、解說(shuō)、目的。其中,遞進(jìn)、轉(zhuǎn)折、假設(shè)、因果類的連詞會(huì)增強(qiáng)連詞后的情感強(qiáng)度。用Mconj表示這些連詞的權(quán)值。

      特殊句式如反問(wèn)句、感嘆句都能增強(qiáng)語(yǔ)氣程度,因此也有加強(qiáng)情感傾向的效果。反問(wèn)句通過(guò)反問(wèn)標(biāo)記詞識(shí)別,并且問(wèn)句的標(biāo)志“?”也給反問(wèn)句識(shí)別提供了幫助。反問(wèn)句權(quán)值用Mreh表示,設(shè)為-2。感嘆句則較為簡(jiǎn)單,直接通過(guò)“!”識(shí)別。感嘆句權(quán)值用Mex表示,設(shè)為2。

      其中α為常數(shù),當(dāng)α=1.6時(shí),情感識(shí)別準(zhǔn)確率最高。這樣確實(shí)可以減少上述情況的發(fā)生。

      (3)新聞中常用描述性語(yǔ)言編寫標(biāo)題,其中不含有情感詞匯,但往往也表達(dá)了情感傾向。尤其是對(duì)犯罪案件或社會(huì)問(wèn)題的描述類標(biāo)題,其表達(dá)的是負(fù)面情感,但這種情感經(jīng)常無(wú)法識(shí)別出。

      (4)情感詞典中的詞匯不夠全面,也會(huì)導(dǎo)致識(shí)別的準(zhǔn)確率下降。新浪新聞中存在大量網(wǎng)絡(luò)情感詞匯,在情感詞典中有待補(bǔ)充。此外,還有許多多義情感詞,在何種語(yǔ)義條件下不含有情感傾向,也是今后語(yǔ)義規(guī)則中要考慮的問(wèn)題。

      2.3數(shù)據(jù)分析

      2.3.1新聞標(biāo)題情感詞

      本文對(duì)“新浪新聞”標(biāo)題和《人民日?qǐng)?bào)》新聞標(biāo)題的情感詞進(jìn)行統(tǒng)計(jì)分析。分別對(duì)新聞標(biāo)題中含有的情感詞的數(shù)量、情感分類、詞頻等作出統(tǒng)計(jì)。

      “新浪新聞”標(biāo)題含有1482個(gè)情感詞,其中正面情感詞842個(gè),負(fù)面情感詞640個(gè);《人民日?qǐng)?bào)》新聞標(biāo)題含有1043個(gè)情感詞,其中正面情感詞799個(gè),負(fù)面情感詞244個(gè)。新浪新聞標(biāo)題所含情感詞數(shù)量遠(yuǎn)高于《人民日?qǐng)?bào)》。這也體現(xiàn)了門戶網(wǎng)站新聞標(biāo)題較為情緒化,為奪人眼球而多采用富有情感的詞語(yǔ);而國(guó)家權(quán)威新聞機(jī)構(gòu)的新聞標(biāo)題更為嚴(yán)肅。這一點(diǎn)在正負(fù)面情感詞的數(shù)量上同樣體現(xiàn)?!靶吕诵侣劇睒?biāo)題正負(fù)面情感詞數(shù)量幾乎相當(dāng),而門戶網(wǎng)站也的確會(huì)采用負(fù)面情感傾向的標(biāo)題來(lái)吸引閱讀者的注意?!度嗣袢?qǐng)?bào)》新聞標(biāo)題負(fù)面情感詞數(shù)量遠(yuǎn)低于正面情感詞,作為權(quán)威新聞媒體,也忌諱過(guò)多地?cái)U(kuò)散負(fù)面情緒。

      兩家新聞標(biāo)題使用最多的負(fù)面情感詞匯都是貶責(zé)類(NN)的情感詞匯,這體現(xiàn)了新聞的批判性。正面情感詞匯則是贊揚(yáng)類(PH)詞匯,在這一項(xiàng)上,《人民日?qǐng)?bào)》的使用量甚至超過(guò)了“新浪新聞”,褒揚(yáng)也是新聞媒體常用的新聞態(tài)度。安心類(PE)、相信類(PG)的詞匯使用,《人民日?qǐng)?bào)》也在“新浪新聞”之上,“讓人民安心”“成為可信賴的對(duì)象”等表述在《人民日?qǐng)?bào)》新聞標(biāo)題中也確實(shí)十分常見(jiàn)。

      此外,本文還對(duì)兩家新聞標(biāo)題情感詞匯進(jìn)行詞頻統(tǒng)計(jì),各挑選出了20個(gè)最常用的標(biāo)題情感詞匯。具體如下:

      可以很明顯地看出,人民日?qǐng)?bào)的高頻詞匯使用頻率遠(yuǎn)高于新浪新聞,也體現(xiàn)了人民日?qǐng)?bào)新聞報(bào)道涵蓋范圍的狹隘,較之門戶網(wǎng)站新聞?lì)悇e的多樣,人民日?qǐng)?bào)新聞更多聚焦于國(guó)家、政治、社會(huì)方面,娛樂(lè)性較弱。人民日?qǐng)?bào)高頻詞“發(fā)展”“創(chuàng)新”“建設(shè)”“改革”等,幾乎全是描述社會(huì)主義建設(shè)的詞匯,而新浪新聞高頻詞“教育”“專家”“創(chuàng)業(yè)”“技藝”等,則涵蓋了教育、科技、經(jīng)濟(jì)等領(lǐng)域,使用頻率第二高的“勇士”一詞,則常見(jiàn)于體育領(lǐng)域。且新浪新聞高頻詞分布較為平均,也說(shuō)明了其新聞涉及領(lǐng)域全面。

      2.3.2新聞標(biāo)題情感值

      本文通過(guò)基于語(yǔ)義的計(jì)算,得出人民日?qǐng)?bào)和新浪新聞的標(biāo)題情感值。具體情感傾向分布見(jiàn)下表:

      可見(jiàn)中性情感新聞標(biāo)題依然占據(jù)近半,體現(xiàn)了客觀是新聞的重要特性之一。負(fù)面情感與正面情感的分布也與情感詞匯的極性分布基本一致,也印證了上文所說(shuō)。門戶網(wǎng)站多采用情感豐富的新聞標(biāo)題,尤其是更會(huì)吸引閱讀者的負(fù)面情感標(biāo)題,以期收獲更多點(diǎn)擊率。國(guó)家權(quán)威新聞機(jī)構(gòu)不宜博人眼球或擴(kuò)散較多負(fù)面情緒,負(fù)面情感標(biāo)題較少;而其報(bào)道內(nèi)容又多與國(guó)家黨政的發(fā)展有關(guān),因此正面情感較多。其中人民日?qǐng)?bào)正面情感遠(yuǎn)超新浪新聞,與人民日?qǐng)?bào)高頻詞匯使用頻率遠(yuǎn)高于新浪新聞?dòng)嘘P(guān)。

      此外,本文還分別選取了兩家新聞標(biāo)題情感值的極值進(jìn)行對(duì)比。見(jiàn)下表:

      人民日?qǐng)?bào)負(fù)面新聞標(biāo)題的極值集中在重大案件或國(guó)家重大問(wèn)題上,對(duì)這些行為或現(xiàn)象進(jìn)行嚴(yán)厲批判;正面新聞報(bào)道的極值則與國(guó)家發(fā)展有關(guān),褒揚(yáng)了國(guó)家社會(huì)發(fā)展中積極的一面,或者鼓勵(lì)大眾為國(guó)家發(fā)展做出努力。無(wú)論正負(fù)面新聞,人民日?qǐng)?bào)在進(jìn)行褒貶時(shí),都采用嚴(yán)肅口吻,較為客觀地描述事件,采用的情感詞匯也對(duì)強(qiáng)烈情緒的表達(dá)十分克制。反觀新浪標(biāo)題,則在情感上更加強(qiáng)烈,且多采用“?”“!”等標(biāo)點(diǎn)符號(hào),增強(qiáng)情感表達(dá)。負(fù)面情感標(biāo)題中社會(huì)新聞?wù)紦?jù)絕大多數(shù),內(nèi)容也不都是批判,只是用大量負(fù)面情感詞匯的疊加來(lái)增強(qiáng)視覺(jué)效果,吸引閱讀者。正面情感新聞標(biāo)題也大都是娛樂(lè)、體育、新聞、八卦,同樣用多個(gè)正面情感詞匯的疊加和標(biāo)點(diǎn),來(lái)達(dá)到最大情感表達(dá)。

      3.總結(jié)

      本文借助情感詞典,并基于語(yǔ)義規(guī)則,對(duì)新聞標(biāo)題的情感傾向進(jìn)行分析,通過(guò)對(duì)標(biāo)題中否定詞、程度副詞、連詞、反問(wèn)句及感嘆句的語(yǔ)義規(guī)則匹配,從而提高新聞標(biāo)題情感識(shí)別的準(zhǔn)確率。選擇人民日?qǐng)?bào)和新浪新聞的新聞標(biāo)題作為語(yǔ)料,對(duì)情感分析的結(jié)果進(jìn)行探討。

      把人民日?qǐng)?bào)作為國(guó)家權(quán)威新聞媒體代表,新浪新聞作為門戶網(wǎng)站等非權(quán)威新聞媒體代表,情感分析對(duì)比發(fā)現(xiàn):情感表達(dá)方面,國(guó)家權(quán)威新聞媒體的新聞標(biāo)題所表達(dá)的情感克制,客觀陳述事實(shí),負(fù)面情感少,體現(xiàn)了權(quán)威媒體的嚴(yán)肅性;門戶網(wǎng)站的新聞標(biāo)題情感表達(dá)強(qiáng)烈,多用標(biāo)點(diǎn)以及極性情感詞的疊加,以增強(qiáng)視覺(jué)效果,達(dá)到吸引閱讀者的目的。情感內(nèi)容表現(xiàn)方面,權(quán)威媒體新聞內(nèi)容狹隘,多集中于國(guó)家政治,娛樂(lè)性弱;門戶網(wǎng)站新聞涉及范圍廣泛,娛樂(lè)性強(qiáng)。這也給新聞寫作者帶來(lái)了一些思考。為了增加新聞點(diǎn)擊量與閱讀量,夸大新聞標(biāo)題情感表達(dá),使標(biāo)題與事實(shí)不符,這確實(shí)可能會(huì)吸引一些讀者。但這樣卻失了新聞寫作的原則。真實(shí)客觀,如實(shí)報(bào)道,不強(qiáng)加情感,才是新聞寫作應(yīng)有的原則。

      本文基于語(yǔ)義的新聞標(biāo)題情感分析,也有一些不足之處。第一,所采用的情感詞典還不夠全面,會(huì)有一些情感詞匯沒(méi)有涉及;第二,樣本容量不夠大,只有一萬(wàn)條語(yǔ)料,還無(wú)法準(zhǔn)確檢驗(yàn)這種情感分析方法的正確率,對(duì)新聞標(biāo)題的情感分析也無(wú)法形成強(qiáng)有力的支撐;第三,語(yǔ)義規(guī)則也不夠全面,有許多遺漏的語(yǔ)義規(guī)則。這些不足之處也是今后此類情感分析可以完善的方向。

      參考文獻(xiàn):

      [1]Bo P., Lee L.. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004:271.

      [2]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007(06):95-100.

      [3]昝紅英,郭明,柴玉梅,吳云芳.新聞報(bào)道文本的情感傾向性研究[J].計(jì)算機(jī)工程,2010,36(15):20-22.

      [4]潘云仙.基于JST模型的新聞文本情感分類研究[D].保定:河北大學(xué),2015.

      [5]Turney P. D.. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews[C]// Meeting of the Association for Computational Linguistics. 2002:417-424.

      [6]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002.

      [7]朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(01):14-20.

      [8]李晨,朱世偉,魏墨濟(jì),于俊鳳,李新天.基于詞典與規(guī)則的新聞文本情感傾向性分析[J].山東科學(xué),2017,30(01):115-121.

      [9]李小將.論報(bào)紙新聞標(biāo)題制作中情感因素的運(yùn)用[J].新聞研究導(dǎo)刊,2015,6(12):140.

      [10]樊耀聰.情感因素在新聞傳播中的應(yīng)用[D].西安:西北大學(xué),2014.

      [11]張華平等.ICTCLAS中文分詞系統(tǒng).http://www.nlpir.org/.

      [12]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.

      [13]陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學(xué),2012:35.

      [14]杜振雷.面向微博短文本的情感分析研究[D].北京:北京信息科技大學(xué),2013:46-47.

      猜你喜歡
      情感分析人民日?qǐng)?bào)詞典
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      《胡言詞典》(合集版)刊行
      百色市| 开江县| 大兴区| 永吉县| 广丰县| 千阳县| 绿春县| 达孜县| 巍山| 三门县| 黄龙县| 鄂尔多斯市| 滁州市| 丰都县| 克山县| 綦江县| 盐津县| 彩票| 淮安市| 禹州市| 霍州市| 汤原县| 朝阳市| 开平市| 深水埗区| 台东市| 丁青县| 泉州市| 望奎县| 岳阳县| 云浮市| 五峰| 嵩明县| 安塞县| 和硕县| 循化| 汝州市| 南岸区| 济源市| 泸定县| 永善县|