中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法

2020-09-04 10:46:40曹軍博許飛翔郭鴻燕尹列東

計(jì)算機(jī)工程與設(shè)計(jì) 2020年8期

葉霞，曹軍博+，許飛翔，郭鴻燕，尹列東

(1.火箭軍工程大學(xué) 作戰(zhàn)保障學(xué)院，陜西西安 710025；2.中國(guó)航天科工集團(tuán)第二研究院北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所，北京 100039)

0 引言

在文本情感分析任務(wù)，文本的情感信息主要由文本中的情感詞體現(xiàn)，這些情感詞決定了文本整體的情感傾向[1]。研究人員根據(jù)自己的研究領(lǐng)域，人工將相關(guān)情感詞以及對(duì)應(yīng)的情感傾向值提取出來(lái)，整理形成基礎(chǔ)情感詞典。情感詞典在文本情感分析任務(wù)中具有至關(guān)重要的作用，現(xiàn)有的基礎(chǔ)情感詞典主要針對(duì)基礎(chǔ)的、通用的情感詞進(jìn)行歸納整理，一般沒(méi)有收錄新產(chǎn)生的情感詞，難以滿足特定領(lǐng)域語(yǔ)料庫(kù)的文本情感分析任務(wù)。由于不同領(lǐng)域的情感表達(dá)方式不同，甚至有可能同一個(gè)詞語(yǔ)在不同領(lǐng)域表達(dá)相反的極性，很難構(gòu)建一個(gè)復(fù)雜的情感詞典滿足所有要求[2]。楊小平等[3]利用神經(jīng)網(wǎng)絡(luò)對(duì)大量中文語(yǔ)料訓(xùn)練，提出基于轉(zhuǎn)化約束集的情感詞典構(gòu)建方法，構(gòu)建的情感詞典在情感語(yǔ)義描述方面效果明顯。林江豪等[4]針對(duì)領(lǐng)域情感詞典在情感和語(yǔ)義表達(dá)方面的不足，根據(jù)TF-IDF(term frequency-inverse document frequency)值可以度量詞匯的重要程度，提出基于詞向量的領(lǐng)域情感詞典構(gòu)建方法，該方法可以有效實(shí)現(xiàn)情感詞的語(yǔ)義和情感表示。何成萬(wàn)等[5]利用在情感詞典中加入領(lǐng)域情感詞，構(gòu)建輔助詞典進(jìn)行輔助情感分析，該方法在手機(jī)領(lǐng)域文本級(jí)情感傾向性分析中取得了較好的成績(jī)。

綜上所述，本文提出一種領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法，首先利用少量的情感種子詞，在語(yǔ)料庫(kù)中識(shí)別出有可能是情感詞的候選情感詞，然后利用改進(jìn)的PMI(pointwise mutual information)算法判斷是否屬于正負(fù)情感詞，從而得到符合該語(yǔ)料領(lǐng)域的情感詞典。

1 中文基礎(chǔ)情感詞典

目前網(wǎng)絡(luò)上存在大量的情感詞典，它們是由很多研究人員根據(jù)自己的實(shí)際需要生成的不同領(lǐng)域情感詞典。其中知網(wǎng)(HowNet)中文情感詞典[3]、臺(tái)灣大學(xué)NTUSD(national taiwan university sentiment dictionary)中文情感詞典[7]和大連理工大學(xué)中文情感詞匯本體庫(kù)[8]是被廣泛使用的最具代表性的情感詞典。將這些情感詞典匯集到一起，形成中文情感基礎(chǔ)詞典。常用情感詞典概要情況見(jiàn)表1。

表1 常見(jiàn)情感詞典

1.1 HowNet詞典

知網(wǎng)中文情感詞典HowNet是由董振東教授構(gòu)建的被學(xué)術(shù)界廣泛認(rèn)可的基礎(chǔ)情感詞典。HowNet分為中英文各小類詞典，包括正(負(fù))情感詞、正(負(fù))評(píng)價(jià)詞、主張?jiān)~以及程度副詞共6類。通常情況下，每個(gè)情感詞都存在一個(gè)或者多個(gè)“概念”，而HowNet詞典將每個(gè)情感詞的“概念”細(xì)化到“義原”的層次。也就是說(shuō)可以通過(guò)計(jì)算兩個(gè)詞的義原相似度達(dá)到求解兩個(gè)詞之間的相似性，這是HowNet詞典被廣泛使用的原因。HowNet詞典的中文情感詞分類見(jiàn)表2。

表2 HowNet中文情感詞分類

1.2 NTUSD

NTUSD是臺(tái)灣大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室對(duì)外公開(kāi)的簡(jiǎn)體中文情感詞典。NTUSD詞典相對(duì)于HowNet詞典而言比較簡(jiǎn)單，只對(duì)情感詞進(jìn)行了正負(fù)極性的判斷。NTUSD詞典收錄了一些情感短語(yǔ)以及副詞和情感詞的組合，如“勇敢的事跡”，“迷人的美”，“非常大方”等，這些詞一般不會(huì)被其它基礎(chǔ)情感詞典收錄。NTUSD詞典中包含正向情感詞2810個(gè)，負(fù)向情感詞8276個(gè)。

1.3 中文情感詞匯本體庫(kù)

中文情感詞匯本體庫(kù)是大連理工大學(xué)信息檢索研究室在林鴻飛教授的指導(dǎo)下整理和標(biāo)注的一個(gè)中文情感本體庫(kù)。該本體庫(kù)從不同角度描述一個(gè)詞語(yǔ)或短語(yǔ)，包括詞語(yǔ)詞性種類、情感類別、情感強(qiáng)度及極性等信息；情感詞匯本體庫(kù)將情感詞分為7大類，21小類，共收錄27 466個(gè)詞語(yǔ)，其中負(fù)向詞10 783個(gè)，正向詞11 229個(gè)，中性詞5454個(gè)，具體分類見(jiàn)表3。

表3 詞匯本體庫(kù)分類

表3中的中性詞也包含了部分情感詞，這部分情感詞在詞匯本體庫(kù)中具有可正可負(fù)的情感傾向。如果將某中性詞歸類為正向情感，但該詞在實(shí)際語(yǔ)境下卻具有負(fù)向的情感傾向，由于各種語(yǔ)境下的語(yǔ)料是隨機(jī)的，因此會(huì)產(chǎn)生不可預(yù)計(jì)的情感誤差，反之亦然。在這種情況下，該類詞無(wú)法明確情感類型，故將其劃分為中性詞，不記入總詞典。

2 情感詞典自適應(yīng)學(xué)習(xí)方法

2.1 領(lǐng)域情感詞典構(gòu)建流程

進(jìn)行文本情感分析時(shí)，采用已有中文基礎(chǔ)情感詞典具有一定通用性，但對(duì)于特定語(yǔ)料文本，如果構(gòu)建一個(gè)針對(duì)性更強(qiáng)的領(lǐng)域情感詞典，情感分析的效果將會(huì)更好[9]。本文構(gòu)建一種領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法，針對(duì)特定語(yǔ)料庫(kù)，根據(jù)一部分基礎(chǔ)情感種子詞，經(jīng)過(guò)自適應(yīng)學(xué)習(xí)，生成領(lǐng)域情感詞典。中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法如圖1所示。

圖1 領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)框架

首先從中文基礎(chǔ)情感詞典中選取一定數(shù)量的情感詞，作為情感種子詞。然后利用CBOW(continuous bog-of-word model)模型[10]訓(xùn)練得到領(lǐng)域語(yǔ)料的詞向量，利用詞向量空間，獲取領(lǐng)域語(yǔ)料中與種子詞附近相似度超過(guò)一定閾值的詞，作為候選情感詞；同時(shí)分析領(lǐng)域語(yǔ)料中出現(xiàn)在種子詞附近的句法規(guī)則，如連詞關(guān)系等，也可以獲得候選情感詞。最后利用改進(jìn)的PMI判定算法[11]逐個(gè)對(duì)候選情感詞進(jìn)行分類，形成最終的領(lǐng)域情感詞典。

2.2 種子詞選取

在進(jìn)行相似度計(jì)算時(shí)，在語(yǔ)義上與情感表達(dá)強(qiáng)烈的情感詞相似的詞更加可能是情感詞，相反情感表達(dá)較弱的詞，容易與中性詞相似[12]。所以選擇情感表達(dá)明確的情感詞作為情感種子詞。種子詞既是生成候選情感詞的依據(jù)，又作為判定算法的基準(zhǔn)詞，在判定算法中，通常需要設(shè)定正向情感詞和負(fù)向情感詞。因此種子詞需要成對(duì)進(jìn)行選取，一組種子詞包括一個(gè)正向情感詞和一個(gè)負(fù)向情感詞，例如“美麗”與“丑陋”。一對(duì)種子詞需情感極性明確且對(duì)立，具有一定的代表性。

本文選取了30對(duì)正負(fù)情感種子詞，見(jiàn)表4。這些情感種子詞有兩個(gè)來(lái)源。其中28對(duì)種子詞來(lái)自大連理工大學(xué)中文情感詞匯本體庫(kù)，按照該基礎(chǔ)情感詞典中的情感詞使用頻率，通過(guò)人工篩選得到。另外，以文獻(xiàn)[13]中的情感詞為基礎(chǔ)與本文實(shí)驗(yàn)領(lǐng)域語(yǔ)料進(jìn)行交集運(yùn)算后，挑選補(bǔ)充了兩對(duì)正負(fù)情感種子詞：[“爽快”,“沉悶”]、[“著名”，“無(wú)名”]。

表4 正負(fù)情感種子詞

2.3 候選情感詞的抽取

2.3.1 基于CBOW模型的候選情感詞抽取

CBOW模型使用當(dāng)前詞的前后c個(gè)詞作為輸入來(lái)生成當(dāng)前詞的詞向量，其中，c的取值在區(qū)間[1,windows]上隨機(jī)選擇一個(gè)整數(shù)。CBOW模型利用深度學(xué)習(xí)技術(shù)，采用無(wú)監(jiān)督的方式，將語(yǔ)料庫(kù)中的所有單詞映射成固定維數(shù)的實(shí)數(shù)向量。在獲得的詞向量空間中，詞與詞的相似性體現(xiàn)了語(yǔ)義的相似性[14]。因此，與已知情感詞有相似語(yǔ)義的詞，比沒(méi)有相似語(yǔ)義的詞更有可能是情感詞。

根據(jù)CBOW模型，本文首先將領(lǐng)域語(yǔ)料進(jìn)行訓(xùn)練，獲得詞向量空間，并不斷找尋與種子情感詞相似性超過(guò)一定閾值T的詞，將其抽取出來(lái)，作為候選情感詞。

2.3.2 基于句法規(guī)則的候選情感詞抽取

(1)連詞關(guān)系

連詞關(guān)系主要包含了并列和轉(zhuǎn)折兩種關(guān)系。通常情況下，文本中出現(xiàn)具有并列或者轉(zhuǎn)折關(guān)系的兩個(gè)詞都是情感詞，并且具有并列關(guān)系的兩個(gè)詞的情感極性相同，轉(zhuǎn)折關(guān)系的兩個(gè)詞情感極性相反[15]。例如在句子“這家/酒店/干凈/又/衛(wèi)生”和“這家/酒店/不僅/服務(wù)/好/而且/也/很/實(shí)惠”中，連詞“又”，“不僅…而且”是并列連詞，所連接的兩個(gè)詞都是正向情感詞；在句子“這個(gè)/手機(jī)/雖然/好看/，/但是/太貴/了”中，“雖然…但是”是轉(zhuǎn)折連詞，所連接的兩個(gè)詞是情感極性相反的情感詞。

在中文中一般轉(zhuǎn)折連詞所連接的兩個(gè)詞，在句子中通常距離相差較遠(yuǎn)。為了利用連詞關(guān)系來(lái)找到候選情感詞，采用Stanford parser[16]方法，對(duì)語(yǔ)料進(jìn)行句法和語(yǔ)法的分析，篩選出與情感種子詞具有連詞關(guān)系的詞語(yǔ)，并將這些詞放入到候選情感詞的集合中去。

(2)句法模板的短語(yǔ)識(shí)別

評(píng)論文本的語(yǔ)言自由度很大，隨著互聯(lián)網(wǎng)的發(fā)展，新的詞匯也在不斷的更新，為了自適應(yīng)獲取新的詞匯，建立一些基礎(chǔ)的句法規(guī)則進(jìn)行匹配，見(jiàn)表5。其中d表示副詞，a表示形容詞，n表示名詞，nz表示其它專有名詞，ng表示名詞性語(yǔ)素，v表示謂詞，z表示狀態(tài)詞。

表5 句法規(guī)則

句法規(guī)則第1條表示，要抽取第一個(gè)詞是副詞d，第二詞是形容詞a，第三個(gè)詞不是名詞n的短語(yǔ)組合。根據(jù)表5的句法規(guī)則，可判斷句子規(guī)則和詞的情感傾向。

之所以采用這些模式，是因?yàn)榫哂衋，d詞性標(biāo)簽的詞經(jīng)常用于情感表達(dá)。通過(guò)句法擴(kuò)展可以在領(lǐng)域語(yǔ)料中獲得更加豐富的情感詞、更加準(zhǔn)確的情感信息。

2.4 改進(jìn)的PMI情感詞判定算法

2.4.1 PMI算法

描述的是兩個(gè)事物之間的相關(guān)性，在情感分析中，可以通過(guò)計(jì)算兩個(gè)詞之間的點(diǎn)互信息值來(lái)判斷詞的相似性?；赑MI的計(jì)算方法常常用于判斷中文詞語(yǔ)的情感極性。首先選取一些基準(zhǔn)詞，這些基準(zhǔn)詞需要包含正向和負(fù)向的情感，通過(guò)計(jì)算候選情感詞與這些基準(zhǔn)詞在語(yǔ)料庫(kù)中的共現(xiàn)概率，確定新詞的正負(fù)情感極性。

式(1)表示詞word1和詞word2之間的PMI相似性值

(1)

其中，P(word)表示word在語(yǔ)料庫(kù)中獨(dú)立出現(xiàn)的概率；P(word1&word2)表示詞word1和word2的真實(shí)共現(xiàn)概率，如果這兩個(gè)詞之間相互獨(dú)立，則兩個(gè)詞的共現(xiàn)概率為P(word1)P(word2)。

基于PMI的情感詞極性判定方法，就是判斷一個(gè)詞與一組情感詞的相似性大小的差值，如式(2)所示

SO(word)=PMI(word,PosWord)-PMI(word,NegWord)

(2)

情感極性SO(word)代表詞word與正向情感詞PosWord的PMI值和詞word與負(fù)向情感詞NegWord的PMI值的差值。設(shè)定合適的閾值就可以將詞劃分為正向、中性與負(fù)向情感詞。

2.4.2 改進(jìn)的SO_PMI算法

根據(jù)大數(shù)定理，當(dāng)樣本足夠多的時(shí)候，樣本的頻率可以視為樣本的概率[17]。P(word)表示樣本的頻率，如式(3)所示

(3)

其中，count({N|word∈N})表示詞word的個(gè)數(shù)，N表示總詞數(shù)。

但是，由于基于PMI的計(jì)算過(guò)分依賴語(yǔ)料庫(kù)，一些不經(jīng)常使用的情感詞在語(yǔ)料庫(kù)中的頻率很低，代入式(3)計(jì)算后，將會(huì)產(chǎn)生較大的誤差，對(duì)這類情感詞很難獲取正確的情感極性。針對(duì)這一不足，對(duì)概率式(3)進(jìn)行改進(jìn)，P(word)計(jì)算公式如式(4)所示

(4)

其中，tfword是詞word在文檔d中出現(xiàn)的頻率，dfword,+是指訓(xùn)練集中包含word的正例文檔數(shù)，N+表示訓(xùn)練語(yǔ)料中的總正例文檔數(shù)，N-表示訓(xùn)練語(yǔ)料中的總負(fù)例文檔數(shù)。

設(shè)正向情感詞PosWords={PosWord1,PosWord2,…,PosWordn}，負(fù)向情感詞為NegWords={NegWord1,NegWord2,…,NegWordn}，對(duì)于候選情感詞word，基于PMI的詞語(yǔ)極性SO_PMI(word)的計(jì)算公式如式(5)所示

(5)

當(dāng)SO_PMI(word)值大于正向情感詞閾值，將其分配到正向情感詞典中，若是小于負(fù)向情感詞閾值，則將其劃分到負(fù)向情感詞典中，最終得到正負(fù)向情感詞典。

2.5 領(lǐng)域情感詞典構(gòu)建算法

根據(jù)前面的分析，本文提出領(lǐng)域情感詞典自適應(yīng)學(xué)生構(gòu)建方法，算法如下所述。

算法1：領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)過(guò)程

輸入：大眾點(diǎn)評(píng)語(yǔ)料，情感種子詞集合SD，正向情感閾值P，負(fù)向情感閾值N，相似度閾值T。

輸出：正向情感詞典POS與負(fù)向情感詞典NEG。

步驟1 初始化情感詞典，令Negative=set()，Positive=set()，U=SD。

步驟2 利用工具對(duì)語(yǔ)料進(jìn)行分詞及詞性標(biāo)注。

步驟3 將分詞后的語(yǔ)料作為輸入，通過(guò)CBOW模型得到詞向量空間。

步驟4 forSDinU：

(1)計(jì)算SD在詞向量空間中相似度大于T的詞new_word，執(zhí)行U.add(new_word)。

(2)對(duì)語(yǔ)料進(jìn)行句法規(guī)則分析，若詞new_word和種子詞具有連詞關(guān)系，則U.add(new_word)。

步驟5 重復(fù)步驟4，當(dāng)U不再增加時(shí)，U=U-SD。

步驟6 利用SD作為基準(zhǔn)詞，對(duì)于每一個(gè)U中的詞，計(jì)算SO_PMI，如果SO_PMI>P，則將該詞放入POS正向情感詞典中，SO_PMI

3 實(shí)驗(yàn)過(guò)程

實(shí)驗(yàn)環(huán)境為：Python 3，對(duì)領(lǐng)域語(yǔ)料采用Jieba分詞工具進(jìn)行分詞。本文實(shí)驗(yàn)所用的語(yǔ)料庫(kù)是利用爬蟲(chóng)，從大眾點(diǎn)評(píng)網(wǎng)站上爬取到的真實(shí)語(yǔ)料。情感種子詞為2.2節(jié)選取的30對(duì)正負(fù)情感詞。

3.1 種子詞數(shù)量影響實(shí)驗(yàn)

實(shí)驗(yàn)中一共有30對(duì)種子詞，為了探索不同種子詞數(shù)對(duì)最后候選情感詞的生成影響程度。實(shí)驗(yàn)將相似度閾值保持一致，分別采用10對(duì)、20對(duì)、30對(duì)種子詞作為輸入，觀察生成的候選情感詞的數(shù)量變化。結(jié)果如圖2所示。

圖2 不同數(shù)量種子詞生成候選情感詞的結(jié)果

在相同相似值的情況下，增加種子詞的數(shù)量，能加快獲得情感候選詞的速度，由圖2可以看出：種子詞的數(shù)量越多，每次迭代獲得的情感候選詞的數(shù)量也在增加，迭代也越快達(dá)到收斂，最終獲得候選情感詞集趨于相同。

因此可以得到這樣的結(jié)論。

(1)一個(gè)情感詞是可以通過(guò)多次的語(yǔ)義相似傳遞得到另一個(gè)情感詞；

(2)種子詞的數(shù)量不會(huì)影響情感候選詞的生成。

3.2 相似度閾值T選取實(shí)驗(yàn)

為了獲得一個(gè)較為恰當(dāng)?shù)脑~向量閾值T，開(kāi)展以下探索性實(shí)驗(yàn)。為了粗略估計(jì)閾值T的選取范圍，使用種子詞“美麗”與“丑陋”作為初步實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果中顯示的是每個(gè)語(yǔ)料中觀察的詞與種子詞的相似度值。實(shí)驗(yàn)結(jié)果如圖3所示。

從圖3可以看出，實(shí)驗(yàn)對(duì)“美麗”與“丑陋”這一對(duì)種子詞附近30個(gè)詞進(jìn)行觀察。種子詞“美麗”使用頻率較多，附近有很多詞，并且相似度都比較高，發(fā)現(xiàn)存在“智慧”、“精彩”、“動(dòng)人”等表達(dá)情感的詞匯。種子詞“丑陋”附近高相似度的詞匯變少，但是其周圍還是存在表達(dá)情感的詞匯，如“艷麗”、“自信”等。當(dāng)觀察的詞與種子詞相似度值越高時(shí)，該詞為情感候選詞的可能性越高，但同時(shí)入選的情感詞越少。因此首次選取相似度閾值T=0.69為最低相似度進(jìn)行測(cè)試。

根據(jù)3.1節(jié)實(shí)驗(yàn)，種子詞數(shù)量對(duì)情感候選詞的生成最終影響不十分明顯，本實(shí)驗(yàn)中選擇10對(duì)種子詞。選擇語(yǔ)料中的詞，判斷它與種子詞的相似度值，若大于閾值，則判定為情感詞。判定的準(zhǔn)確性采用將該詞與已知的情感詞典進(jìn)行對(duì)比，以幫助選擇最佳閾值T的取值。實(shí)驗(yàn)針對(duì)閾值T分別取0.69、0.7、0.71、0.72、0.75的值進(jìn)行對(duì)比，結(jié)果如圖4所示。圖4表示不同相似度閾值下的迭代次數(shù)與發(fā)現(xiàn)候選情感詞次數(shù)，以及每次迭代出現(xiàn)的已知情感詞百分比的實(shí)驗(yàn)結(jié)果。

圖4 相似度閾值選取實(shí)驗(yàn)

由圖4顯示的實(shí)驗(yàn)結(jié)果，可以得出以下結(jié)論。

(1)不論閾值選取多少，算法循環(huán)迭代6次之后，候選情感詞數(shù)量趨于穩(wěn)定；

(2)相似度閾值越大，選擇出的候選情感詞數(shù)量就越少，這說(shuō)明每次選擇詞的語(yǔ)義與種子詞更加相似；

(3)在多次迭代后，候選情感詞的比例維持在0.11附近，隨著相似度的增加，比例值變化幅度不大。

根據(jù)實(shí)驗(yàn)結(jié)果，可以觀察到，選取相似度閾值T=0.71時(shí)，其能夠迭代的次數(shù)更多，情感詞的比例相對(duì)稍高，這表示能相對(duì)獲得更多的情感詞并減少中性詞的出現(xiàn)。因此，本實(shí)驗(yàn)的結(jié)果，選取相似度閾值T=0.71。按選取的閾值，得到候選情感詞。

3.3 候選情感詞判定實(shí)驗(yàn)

根據(jù)圖1給出的領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)框架，由前面的實(shí)驗(yàn)選取合適的種子詞數(shù)量及相似度閾值后，按算法1通過(guò)CBOW詞向量方法和句法規(guī)則的方法得到候選情感詞。現(xiàn)在需要對(duì)這些候選情感詞進(jìn)行判定。為驗(yàn)證本文提出方法的有效性，開(kāi)展候選情感詞判定算法的對(duì)比性實(shí)驗(yàn)。

本實(shí)驗(yàn)以基準(zhǔn)系統(tǒng)WordNet[18](本文簡(jiǎn)寫為WN)，PMI算法和本文改進(jìn)的SO_PMI算法進(jìn)行對(duì)比性實(shí)驗(yàn)。各自的判定方法分別如下。

(1)基于WordNet的情感詞典構(gòu)建方法：利用WordNet語(yǔ)義知識(shí)庫(kù)去判斷情感候選詞與種子詞之間的語(yǔ)義相似性，進(jìn)而得到候選情感詞的情感極性。

(2)基于PMI的情感極性判別算法：通過(guò)計(jì)算候選情感詞與所有種子詞的SO值之和，來(lái)判斷候選情感詞的正負(fù)情感傾向。

(3)基于SO_PMI的情感極性差別方法：計(jì)算值，當(dāng)大于正向情感詞閾值，判定為正向情感詞，小于負(fù)向情感詞閾值，判定為負(fù)向情感詞，最終得到正負(fù)向情感詞典。根據(jù)文獻(xiàn)[16]將正向情感詞的閾值P設(shè)置為0.01，負(fù)向情感感詞的閾值N設(shè)置為-0.02。

以種子詞10對(duì)，20對(duì)，30對(duì)的形式分別開(kāi)展實(shí)驗(yàn)。利用已知詞典與人工的方式判斷構(gòu)建的情感詞典的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果分別見(jiàn)表6、表7、表8。

表6 種子詞為10對(duì)的判定實(shí)驗(yàn)結(jié)果/%

表7 種子詞為20對(duì)的判定實(shí)驗(yàn)結(jié)果/%

表8 種子詞為30對(duì)的實(shí)驗(yàn)結(jié)果/%

從以上實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)，在種子詞數(shù)量變化的情況下，基于WordNet方法的平均正確率相對(duì)較低，這是由于情感詞典的同義詞庫(kù)不能覆蓋語(yǔ)料庫(kù)中的所有詞，對(duì)于不在情感詞典中的詞無(wú)法識(shí)別，也不能擴(kuò)充?；谠~向量的PMI方法，能夠無(wú)差別的獲取更多的情感詞，但正確率仍然不高。本文提出的SO_PMI方法在種子詞數(shù)為10對(duì)，20對(duì)，30對(duì)的情況下，均獲得了較高的平均正確率，驗(yàn)證了本文方法的優(yōu)越性。

4 結(jié)束語(yǔ)

領(lǐng)域文本情感分析的準(zhǔn)確性取決于情感詞典是否包含該領(lǐng)域的特殊情感詞，但由于新的情感詞不斷出現(xiàn)，對(duì)領(lǐng)域情感詞典的構(gòu)建帶來(lái)了挑戰(zhàn)。本文提出一種中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法，通過(guò)在基礎(chǔ)情感詞典中選取一定數(shù)量的種子詞，對(duì)領(lǐng)域語(yǔ)料采取基于CBOW詞向量和基于句法規(guī)則兩種方式抽取出候選情感詞，再通過(guò)改進(jìn)的SO_PMI算法判定候選情感詞的極性，最終形成領(lǐng)域情感詞典。實(shí)驗(yàn)結(jié)果表明，本文方法能夠自適應(yīng)學(xué)習(xí)領(lǐng)域情感詞，情感詞極性識(shí)別準(zhǔn)確率較高。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看