• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法

      2020-09-04 10:46:40曹軍博許飛翔郭鴻燕尹列東
      關(guān)鍵詞:語(yǔ)料詞典語(yǔ)料庫(kù)

      葉 霞,曹軍博+,許飛翔,郭鴻燕,尹列東

      (1.火箭軍工程大學(xué) 作戰(zhàn)保障學(xué)院,陜西 西安 710025;2.中國(guó)航天科工集團(tuán)第二研究院 北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所,北京 100039)

      0 引 言

      在文本情感分析任務(wù),文本的情感信息主要由文本中的情感詞體現(xiàn),這些情感詞決定了文本整體的情感傾向[1]。研究人員根據(jù)自己的研究領(lǐng)域,人工將相關(guān)情感詞以及對(duì)應(yīng)的情感傾向值提取出來(lái),整理形成基礎(chǔ)情感詞典。情感詞典在文本情感分析任務(wù)中具有至關(guān)重要的作用,現(xiàn)有的基礎(chǔ)情感詞典主要針對(duì)基礎(chǔ)的、通用的情感詞進(jìn)行歸納整理,一般沒(méi)有收錄新產(chǎn)生的情感詞,難以滿足特定領(lǐng)域語(yǔ)料庫(kù)的文本情感分析任務(wù)。由于不同領(lǐng)域的情感表達(dá)方式不同,甚至有可能同一個(gè)詞語(yǔ)在不同領(lǐng)域表達(dá)相反的極性,很難構(gòu)建一個(gè)復(fù)雜的情感詞典滿足所有要求[2]。楊小平等[3]利用神經(jīng)網(wǎng)絡(luò)對(duì)大量中文語(yǔ)料訓(xùn)練,提出基于轉(zhuǎn)化約束集的情感詞典構(gòu)建方法,構(gòu)建的情感詞典在情感語(yǔ)義描述方面效果明顯。林江豪等[4]針對(duì)領(lǐng)域情感詞典在情感和語(yǔ)義表達(dá)方面的不足,根據(jù)TF-IDF(term frequency-inverse document frequency)值可以度量詞匯的重要程度,提出基于詞向量的領(lǐng)域情感詞典構(gòu)建方法,該方法可以有效實(shí)現(xiàn)情感詞的語(yǔ)義和情感表示。何成萬(wàn)等[5]利用在情感詞典中加入領(lǐng)域情感詞,構(gòu)建輔助詞典進(jìn)行輔助情感分析,該方法在手機(jī)領(lǐng)域文本級(jí)情感傾向性分析中取得了較好的成績(jī)。

      綜上所述,本文提出一種領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法,首先利用少量的情感種子詞,在語(yǔ)料庫(kù)中識(shí)別出有可能是情感詞的候選情感詞,然后利用改進(jìn)的PMI(pointwise mutual information)算法判斷是否屬于正負(fù)情感詞,從而得到符合該語(yǔ)料領(lǐng)域的情感詞典。

      1 中文基礎(chǔ)情感詞典

      目前網(wǎng)絡(luò)上存在大量的情感詞典,它們是由很多研究人員根據(jù)自己的實(shí)際需要生成的不同領(lǐng)域情感詞典。其中知網(wǎng)(HowNet)中文情感詞典[3]、臺(tái)灣大學(xué)NTUSD(national taiwan university sentiment dictionary)中文情感詞典[7]和大連理工大學(xué)中文情感詞匯本體庫(kù)[8]是被廣泛使用的最具代表性的情感詞典。將這些情感詞典匯集到一起,形成中文情感基礎(chǔ)詞典。常用情感詞典概要情況見(jiàn)表1。

      表1 常見(jiàn)情感詞典

      1.1 HowNet詞典

      知網(wǎng)中文情感詞典HowNet是由董振東教授構(gòu)建的被學(xué)術(shù)界廣泛認(rèn)可的基礎(chǔ)情感詞典。HowNet分為中英文各小類詞典,包括正(負(fù))情感詞、正(負(fù))評(píng)價(jià)詞、主張?jiān)~以及程度副詞共6類。通常情況下,每個(gè)情感詞都存在一個(gè)或者多個(gè)“概念”,而HowNet詞典將每個(gè)情感詞的“概念”細(xì)化到“義原”的層次。也就是說(shuō)可以通過(guò)計(jì)算兩個(gè)詞的義原相似度達(dá)到求解兩個(gè)詞之間的相似性,這是HowNet詞典被廣泛使用的原因。HowNet詞典的中文情感詞分類見(jiàn)表2。

      表2 HowNet中文情感詞分類

      1.2 NTUSD

      NTUSD是臺(tái)灣大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室對(duì)外公開(kāi)的簡(jiǎn)體中文情感詞典。NTUSD詞典相對(duì)于HowNet詞典而言比較簡(jiǎn)單,只對(duì)情感詞進(jìn)行了正負(fù)極性的判斷。NTUSD詞典收錄了一些情感短語(yǔ)以及副詞和情感詞的組合,如“勇敢的事跡”,“迷人的美”,“非常大方”等,這些詞一般不會(huì)被其它基礎(chǔ)情感詞典收錄。NTUSD詞典中包含正向情感詞2810個(gè),負(fù)向情感詞8276個(gè)。

      1.3 中文情感詞匯本體庫(kù)

      中文情感詞匯本體庫(kù)是大連理工大學(xué)信息檢索研究室在林鴻飛教授的指導(dǎo)下整理和標(biāo)注的一個(gè)中文情感本體庫(kù)。該本體庫(kù)從不同角度描述一個(gè)詞語(yǔ)或短語(yǔ),包括詞語(yǔ)詞性種類、情感類別、情感強(qiáng)度及極性等信息;情感詞匯本體庫(kù)將情感詞分為7大類,21小類,共收錄27 466個(gè)詞語(yǔ),其中負(fù)向詞10 783個(gè),正向詞11 229個(gè),中性詞5454個(gè),具體分類見(jiàn)表3。

      表3 詞匯本體庫(kù)分類

      表3中的中性詞也包含了部分情感詞,這部分情感詞在詞匯本體庫(kù)中具有可正可負(fù)的情感傾向。如果將某中性詞歸類為正向情感,但該詞在實(shí)際語(yǔ)境下卻具有負(fù)向的情感傾向,由于各種語(yǔ)境下的語(yǔ)料是隨機(jī)的,因此會(huì)產(chǎn)生不可預(yù)計(jì)的情感誤差,反之亦然。在這種情況下,該類詞無(wú)法明確情感類型,故將其劃分為中性詞,不記入總詞典。

      2 情感詞典自適應(yīng)學(xué)習(xí)方法

      2.1 領(lǐng)域情感詞典構(gòu)建流程

      進(jìn)行文本情感分析時(shí),采用已有中文基礎(chǔ)情感詞典具有一定通用性,但對(duì)于特定語(yǔ)料文本,如果構(gòu)建一個(gè)針對(duì)性更強(qiáng)的領(lǐng)域情感詞典,情感分析的效果將會(huì)更好[9]。本文構(gòu)建一種領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法,針對(duì)特定語(yǔ)料庫(kù),根據(jù)一部分基礎(chǔ)情感種子詞,經(jīng)過(guò)自適應(yīng)學(xué)習(xí),生成領(lǐng)域情感詞典。中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法如圖1所示。

      圖1 領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)框架

      首先從中文基礎(chǔ)情感詞典中選取一定數(shù)量的情感詞,作為情感種子詞。然后利用CBOW(continuous bog-of-word model)模型[10]訓(xùn)練得到領(lǐng)域語(yǔ)料的詞向量,利用詞向量空間,獲取領(lǐng)域語(yǔ)料中與種子詞附近相似度超過(guò)一定閾值的詞,作為候選情感詞;同時(shí)分析領(lǐng)域語(yǔ)料中出現(xiàn)在種子詞附近的句法規(guī)則,如連詞關(guān)系等,也可以獲得候選情感詞。最后利用改進(jìn)的PMI判定算法[11]逐個(gè)對(duì)候選情感詞進(jìn)行分類,形成最終的領(lǐng)域情感詞典。

      2.2 種子詞選取

      在進(jìn)行相似度計(jì)算時(shí),在語(yǔ)義上與情感表達(dá)強(qiáng)烈的情感詞相似的詞更加可能是情感詞,相反情感表達(dá)較弱的詞,容易與中性詞相似[12]。所以選擇情感表達(dá)明確的情感詞作為情感種子詞。種子詞既是生成候選情感詞的依據(jù),又作為判定算法的基準(zhǔn)詞,在判定算法中,通常需要設(shè)定正向情感詞和負(fù)向情感詞。因此種子詞需要成對(duì)進(jìn)行選取,一組種子詞包括一個(gè)正向情感詞和一個(gè)負(fù)向情感詞,例如“美麗”與“丑陋”。一對(duì)種子詞需情感極性明確且對(duì)立,具有一定的代表性。

      本文選取了30對(duì)正負(fù)情感種子詞,見(jiàn)表4。這些情感種子詞有兩個(gè)來(lái)源。其中28對(duì)種子詞來(lái)自大連理工大學(xué)中文情感詞匯本體庫(kù),按照該基礎(chǔ)情感詞典中的情感詞使用頻率,通過(guò)人工篩選得到。另外,以文獻(xiàn)[13]中的情感詞為基礎(chǔ)與本文實(shí)驗(yàn)領(lǐng)域語(yǔ)料進(jìn)行交集運(yùn)算后,挑選補(bǔ)充了兩對(duì)正負(fù)情感種子詞:[“爽快”,“沉悶”]、[“著名”,“無(wú)名”]。

      表4 正負(fù)情感種子詞

      2.3 候選情感詞的抽取

      2.3.1 基于CBOW模型的候選情感詞抽取

      CBOW模型使用當(dāng)前詞的前后c個(gè)詞作為輸入來(lái)生成當(dāng)前詞的詞向量,其中,c的取值在區(qū)間[1,windows]上隨機(jī)選擇一個(gè)整數(shù)。CBOW模型利用深度學(xué)習(xí)技術(shù),采用無(wú)監(jiān)督的方式,將語(yǔ)料庫(kù)中的所有單詞映射成固定維數(shù)的實(shí)數(shù)向量。在獲得的詞向量空間中,詞與詞的相似性體現(xiàn)了語(yǔ)義的相似性[14]。因此,與已知情感詞有相似語(yǔ)義的詞,比沒(méi)有相似語(yǔ)義的詞更有可能是情感詞。

      根據(jù)CBOW模型,本文首先將領(lǐng)域語(yǔ)料進(jìn)行訓(xùn)練,獲得詞向量空間,并不斷找尋與種子情感詞相似性超過(guò)一定閾值T的詞,將其抽取出來(lái),作為候選情感詞。

      2.3.2 基于句法規(guī)則的候選情感詞抽取

      (1)連詞關(guān)系

      連詞關(guān)系主要包含了并列和轉(zhuǎn)折兩種關(guān)系。通常情況下,文本中出現(xiàn)具有并列或者轉(zhuǎn)折關(guān)系的兩個(gè)詞都是情感詞,并且具有并列關(guān)系的兩個(gè)詞的情感極性相同,轉(zhuǎn)折關(guān)系的兩個(gè)詞情感極性相反[15]。例如在句子“這家/酒店/干凈/又/衛(wèi)生”和“這家/酒店/不僅/服務(wù)/好/而且/也/很/實(shí)惠”中,連詞“又”,“不僅…而且”是并列連詞,所連接的兩個(gè)詞都是正向情感詞;在句子“這個(gè)/手機(jī)/雖然/好看/,/但是/太貴/了”中,“雖然…但是”是轉(zhuǎn)折連詞,所連接的兩個(gè)詞是情感極性相反的情感詞。

      在中文中一般轉(zhuǎn)折連詞所連接的兩個(gè)詞,在句子中通常距離相差較遠(yuǎn)。為了利用連詞關(guān)系來(lái)找到候選情感詞,采用Stanford parser[16]方法,對(duì)語(yǔ)料進(jìn)行句法和語(yǔ)法的分析,篩選出與情感種子詞具有連詞關(guān)系的詞語(yǔ),并將這些詞放入到候選情感詞的集合中去。

      (2)句法模板的短語(yǔ)識(shí)別

      評(píng)論文本的語(yǔ)言自由度很大,隨著互聯(lián)網(wǎng)的發(fā)展,新的詞匯也在不斷的更新,為了自適應(yīng)獲取新的詞匯,建立一些基礎(chǔ)的句法規(guī)則進(jìn)行匹配,見(jiàn)表5。其中d表示副詞,a表示形容詞,n表示名詞,nz表示其它專有名詞,ng表示名詞性語(yǔ)素,v表示謂詞,z表示狀態(tài)詞。

      表5 句法規(guī)則

      句法規(guī)則第1條表示,要抽取第一個(gè)詞是副詞d,第二詞是形容詞a,第三個(gè)詞不是名詞n的短語(yǔ)組合。根據(jù)表5的句法規(guī)則,可判斷句子規(guī)則和詞的情感傾向。

      之所以采用這些模式,是因?yàn)榫哂衋,d詞性標(biāo)簽的詞經(jīng)常用于情感表達(dá)。通過(guò)句法擴(kuò)展可以在領(lǐng)域語(yǔ)料中獲得更加豐富的情感詞、更加準(zhǔn)確的情感信息。

      2.4 改進(jìn)的PMI情感詞判定算法

      2.4.1 PMI算法

      描述的是兩個(gè)事物之間的相關(guān)性,在情感分析中,可以通過(guò)計(jì)算兩個(gè)詞之間的點(diǎn)互信息值來(lái)判斷詞的相似性?;赑MI的計(jì)算方法常常用于判斷中文詞語(yǔ)的情感極性。首先選取一些基準(zhǔn)詞,這些基準(zhǔn)詞需要包含正向和負(fù)向的情感,通過(guò)計(jì)算候選情感詞與這些基準(zhǔn)詞在語(yǔ)料庫(kù)中的共現(xiàn)概率,確定新詞的正負(fù)情感極性。

      式(1)表示詞word1和詞word2之間的PMI相似性值

      (1)

      其中,P(word)表示word在語(yǔ)料庫(kù)中獨(dú)立出現(xiàn)的概率;P(word1&word2)表示詞word1和word2的真實(shí)共現(xiàn)概率,如果這兩個(gè)詞之間相互獨(dú)立,則兩個(gè)詞的共現(xiàn)概率為P(word1)P(word2)。

      基于PMI的情感詞極性判定方法,就是判斷一個(gè)詞與一組情感詞的相似性大小的差值,如式(2)所示

      SO(word)=PMI(word,PosWord)-PMI(word,NegWord)

      (2)

      情感極性SO(word)代表詞word與正向情感詞PosWord的PMI值和詞word與負(fù)向情感詞NegWord的PMI值的差值。設(shè)定合適的閾值就可以將詞劃分為正向、中性與負(fù)向情感詞。

      2.4.2 改進(jìn)的SO_PMI算法

      根據(jù)大數(shù)定理,當(dāng)樣本足夠多的時(shí)候,樣本的頻率可以視為樣本的概率[17]。P(word)表示樣本的頻率,如式(3)所示

      (3)

      其中,count({N|word∈N})表示詞word的個(gè)數(shù),N表示總詞數(shù)。

      但是,由于基于PMI的計(jì)算過(guò)分依賴語(yǔ)料庫(kù),一些不經(jīng)常使用的情感詞在語(yǔ)料庫(kù)中的頻率很低,代入式(3)計(jì)算后,將會(huì)產(chǎn)生較大的誤差,對(duì)這類情感詞很難獲取正確的情感極性。針對(duì)這一不足,對(duì)概率式(3)進(jìn)行改進(jìn),P(word)計(jì)算公式如式(4)所示

      (4)

      其中,tfword是詞word在文檔d中出現(xiàn)的頻率,dfword,+是指訓(xùn)練集中包含word的正例文檔數(shù),N+表示訓(xùn)練語(yǔ)料中的總正例文檔數(shù),N-表示訓(xùn)練語(yǔ)料中的總負(fù)例文檔數(shù)。

      設(shè)正向情感詞PosWords={PosWord1,PosWord2,…,PosWordn},負(fù)向情感詞為NegWords={NegWord1,NegWord2,…,NegWordn},對(duì)于候選情感詞word,基于PMI的詞語(yǔ)極性SO_PMI(word)的計(jì)算公式如式(5)所示

      (5)

      當(dāng)SO_PMI(word)值大于正向情感詞閾值,將其分配到正向情感詞典中,若是小于負(fù)向情感詞閾值,則將其劃分到負(fù)向情感詞典中,最終得到正負(fù)向情感詞典。

      2.5 領(lǐng)域情感詞典構(gòu)建算法

      根據(jù)前面的分析,本文提出領(lǐng)域情感詞典自適應(yīng)學(xué)生構(gòu)建方法,算法如下所述。

      算法1:領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)過(guò)程

      輸入:大眾點(diǎn)評(píng)語(yǔ)料,情感種子詞集合SD,正向情感閾值P,負(fù)向情感閾值N,相似度閾值T。

      輸出:正向情感詞典POS與負(fù)向情感詞典NEG。

      步驟1 初始化情感詞典,令Negative=set(),Positive=set(),U=SD。

      步驟2 利用工具對(duì)語(yǔ)料進(jìn)行分詞及詞性標(biāo)注。

      步驟3 將分詞后的語(yǔ)料作為輸入,通過(guò)CBOW模型得到詞向量空間。

      步驟4 forSDinU:

      (1)計(jì)算SD在詞向量空間中相似度大于T的詞new_word,執(zhí)行U.add(new_word)。

      (2)對(duì)語(yǔ)料進(jìn)行句法規(guī)則分析,若詞new_word和種子詞具有連詞關(guān)系,則U.add(new_word)。

      步驟5 重復(fù)步驟4,當(dāng)U不再增加時(shí),U=U-SD。

      步驟6 利用SD作為基準(zhǔn)詞,對(duì)于每一個(gè)U中的詞,計(jì)算SO_PMI,如果SO_PMI>P,則將該詞放入POS正向情感詞典中,SO_PMI

      3 實(shí)驗(yàn)過(guò)程

      實(shí)驗(yàn)環(huán)境為:Python 3,對(duì)領(lǐng)域語(yǔ)料采用Jieba分詞工具進(jìn)行分詞。本文實(shí)驗(yàn)所用的語(yǔ)料庫(kù)是利用爬蟲(chóng),從大眾點(diǎn)評(píng)網(wǎng)站上爬取到的真實(shí)語(yǔ)料。情感種子詞為2.2節(jié)選取的30對(duì)正負(fù)情感詞。

      3.1 種子詞數(shù)量影響實(shí)驗(yàn)

      實(shí)驗(yàn)中一共有30對(duì)種子詞,為了探索不同種子詞數(shù)對(duì)最后候選情感詞的生成影響程度。實(shí)驗(yàn)將相似度閾值保持一致,分別采用10對(duì)、20對(duì)、30對(duì)種子詞作為輸入,觀察生成的候選情感詞的數(shù)量變化。結(jié)果如圖2所示。

      圖2 不同數(shù)量種子詞生成候選情感詞的結(jié)果

      在相同相似值的情況下,增加種子詞的數(shù)量,能加快獲得情感候選詞的速度,由圖2可以看出:種子詞的數(shù)量越多,每次迭代獲得的情感候選詞的數(shù)量也在增加,迭代也越快達(dá)到收斂,最終獲得候選情感詞集趨于相同。

      因此可以得到這樣的結(jié)論。

      (1)一個(gè)情感詞是可以通過(guò)多次的語(yǔ)義相似傳遞得到另一個(gè)情感詞;

      (2)種子詞的數(shù)量不會(huì)影響情感候選詞的生成。

      3.2 相似度閾值T選取實(shí)驗(yàn)

      為了獲得一個(gè)較為恰當(dāng)?shù)脑~向量閾值T,開(kāi)展以下探索性實(shí)驗(yàn)。為了粗略估計(jì)閾值T的選取范圍,使用種子詞“美麗”與“丑陋”作為初步實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果中顯示的是每個(gè)語(yǔ)料中觀察的詞與種子詞的相似度值。實(shí)驗(yàn)結(jié)果如圖3所示。

      從圖3可以看出,實(shí)驗(yàn)對(duì)“美麗”與“丑陋”這一對(duì)種子詞附近30個(gè)詞進(jìn)行觀察。種子詞“美麗”使用頻率較多,附近有很多詞,并且相似度都比較高,發(fā)現(xiàn)存在“智慧”、“精彩”、“動(dòng)人”等表達(dá)情感的詞匯。種子詞“丑陋”附近高相似度的詞匯變少,但是其周圍還是存在表達(dá)情感的詞匯,如“艷麗”、“自信”等。當(dāng)觀察的詞與種子詞相似度值越高時(shí),該詞為情感候選詞的可能性越高,但同時(shí)入選的情感詞越少。因此首次選取相似度閾值T=0.69為最低相似度進(jìn)行測(cè)試。

      根據(jù)3.1節(jié)實(shí)驗(yàn),種子詞數(shù)量對(duì)情感候選詞的生成最終影響不十分明顯,本實(shí)驗(yàn)中選擇10對(duì)種子詞。選擇語(yǔ)料中的詞,判斷它與種子詞的相似度值,若大于閾值,則判定為情感詞。判定的準(zhǔn)確性采用將該詞與已知的情感詞典進(jìn)行對(duì)比,以幫助選擇最佳閾值T的取值。實(shí)驗(yàn)針對(duì)閾值T分別取0.69、0.7、0.71、0.72、0.75的值進(jìn)行對(duì)比,結(jié)果如圖4所示。圖4表示不同相似度閾值下的迭代次數(shù)與發(fā)現(xiàn)候選情感詞次數(shù),以及每次迭代出現(xiàn)的已知情感詞百分比的實(shí)驗(yàn)結(jié)果。

      圖4 相似度閾值選取實(shí)驗(yàn)

      由圖4顯示的實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論。

      (1)不論閾值選取多少,算法循環(huán)迭代6次之后,候選情感詞數(shù)量趨于穩(wěn)定;

      (2)相似度閾值越大,選擇出的候選情感詞數(shù)量就越少,這說(shuō)明每次選擇詞的語(yǔ)義與種子詞更加相似;

      (3)在多次迭代后,候選情感詞的比例維持在0.11附近,隨著相似度的增加,比例值變化幅度不大。

      根據(jù)實(shí)驗(yàn)結(jié)果,可以觀察到,選取相似度閾值T=0.71時(shí),其能夠迭代的次數(shù)更多,情感詞的比例相對(duì)稍高,這表示能相對(duì)獲得更多的情感詞并減少中性詞的出現(xiàn)。因此,本實(shí)驗(yàn)的結(jié)果,選取相似度閾值T=0.71。按選取的閾值,得到候選情感詞。

      3.3 候選情感詞判定實(shí)驗(yàn)

      根據(jù)圖1給出的領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)框架,由前面的實(shí)驗(yàn)選取合適的種子詞數(shù)量及相似度閾值后,按算法1通過(guò)CBOW詞向量方法和句法規(guī)則的方法得到候選情感詞。現(xiàn)在需要對(duì)這些候選情感詞進(jìn)行判定。為驗(yàn)證本文提出方法的有效性,開(kāi)展候選情感詞判定算法的對(duì)比性實(shí)驗(yàn)。

      本實(shí)驗(yàn)以基準(zhǔn)系統(tǒng)WordNet[18](本文簡(jiǎn)寫為WN),PMI算法和本文改進(jìn)的SO_PMI算法進(jìn)行對(duì)比性實(shí)驗(yàn)。各自的判定方法分別如下。

      (1)基于WordNet的情感詞典構(gòu)建方法:利用WordNet語(yǔ)義知識(shí)庫(kù)去判斷情感候選詞與種子詞之間的語(yǔ)義相似性,進(jìn)而得到候選情感詞的情感極性。

      (2)基于PMI的情感極性判別算法:通過(guò)計(jì)算候選情感詞與所有種子詞的SO值之和,來(lái)判斷候選情感詞的正負(fù)情感傾向。

      (3)基于SO_PMI的情感極性差別方法:計(jì)算值,當(dāng)大于正向情感詞閾值,判定為正向情感詞,小于負(fù)向情感詞閾值,判定為負(fù)向情感詞,最終得到正負(fù)向情感詞典。根據(jù)文獻(xiàn)[16]將正向情感詞的閾值P設(shè)置為0.01,負(fù)向情感感詞的閾值N設(shè)置為-0.02。

      以種子詞10對(duì),20對(duì),30對(duì)的形式分別開(kāi)展實(shí)驗(yàn)。利用已知詞典與人工的方式判斷構(gòu)建的情感詞典的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果分別見(jiàn)表6、表7、表8。

      表6 種子詞為10對(duì)的判定實(shí)驗(yàn)結(jié)果/%

      表7 種子詞為20對(duì)的判定實(shí)驗(yàn)結(jié)果/%

      表8 種子詞為30對(duì)的實(shí)驗(yàn)結(jié)果/%

      從以上實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),在種子詞數(shù)量變化的情況下,基于WordNet方法的平均正確率相對(duì)較低,這是由于情感詞典的同義詞庫(kù)不能覆蓋語(yǔ)料庫(kù)中的所有詞,對(duì)于不在情感詞典中的詞無(wú)法識(shí)別,也不能擴(kuò)充?;谠~向量的PMI方法,能夠無(wú)差別的獲取更多的情感詞,但正確率仍然不高。本文提出的SO_PMI方法在種子詞數(shù)為10對(duì),20對(duì),30對(duì)的情況下,均獲得了較高的平均正確率,驗(yàn)證了本文方法的優(yōu)越性。

      4 結(jié)束語(yǔ)

      領(lǐng)域文本情感分析的準(zhǔn)確性取決于情感詞典是否包含該領(lǐng)域的特殊情感詞,但由于新的情感詞不斷出現(xiàn),對(duì)領(lǐng)域情感詞典的構(gòu)建帶來(lái)了挑戰(zhàn)。本文提出一種中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法,通過(guò)在基礎(chǔ)情感詞典中選取一定數(shù)量的種子詞,對(duì)領(lǐng)域語(yǔ)料采取基于CBOW詞向量和基于句法規(guī)則兩種方式抽取出候選情感詞,再通過(guò)改進(jìn)的SO_PMI算法判定候選情感詞的極性,最終形成領(lǐng)域情感詞典。實(shí)驗(yàn)結(jié)果表明,本文方法能夠自適應(yīng)學(xué)習(xí)領(lǐng)域情感詞,情感詞極性識(shí)別準(zhǔn)確率較高。

      猜你喜歡
      語(yǔ)料詞典語(yǔ)料庫(kù)
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      广西| 上栗县| 永新县| 长丰县| 滦南县| 鹰潭市| 江西省| 麻城市| 慈溪市| 泾阳县| 疏勒县| 和龙市| 宜宾市| 定远县| 漳浦县| 剑阁县| 乌兰察布市| 夏河县| 金堂县| 永泰县| 涿州市| 武宣县| 大港区| 红原县| 岐山县| 元朗区| 崇明县| 铁岭市| 玉环县| 沙河市| 唐山市| 海口市| 清新县| 永靖县| 扎兰屯市| 扶沟县| 衡水市| 吴旗县| 夏邑县| 青州市| 新沂市|