宋洪偉,宋佳穎,付國(guó)宏
(黑龍江大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,黑龍江 哈爾濱 150080)
?
基于模糊推理機(jī)的漢語(yǔ)主觀句識(shí)別
宋洪偉,宋佳穎,付國(guó)宏
(黑龍江大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,黑龍江 哈爾濱 150080)
該文提出一種基于詞匯模糊集合的模糊推理機(jī)以識(shí)別漢語(yǔ)主觀句。首先,根據(jù)主、客觀詞概念的模糊性,我們定義了兩個(gè)相應(yīng)的模糊集合,并在模糊統(tǒng)計(jì)方法下,利用TF-IDF從訓(xùn)練語(yǔ)料中獲取隸屬度函數(shù)。然后制定了兩個(gè)模糊IF-THEN規(guī)則,并據(jù)此實(shí)現(xiàn)了一個(gè)模糊推理機(jī)以識(shí)別漢語(yǔ)主觀句。NTCIR-6中文數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明我們的方法具有一定的可行性。
主觀句識(shí)別;模糊集合;模糊IF-THEN規(guī)則;模糊推理機(jī)
隨著Web2.0技術(shù)的興起與迅猛發(fā)展,意見挖掘已經(jīng)成為自然語(yǔ)言處理的一個(gè)研究熱點(diǎn)[1-2]。作為意見挖掘的一個(gè)重要子任務(wù),主觀句識(shí)別的主要目的是從網(wǎng)絡(luò)用戶生成文本中將帶有主觀性信息的意見句從描述客觀事實(shí)的客觀句中識(shí)別出來(lái)。對(duì)于意見挖掘系統(tǒng),主觀句識(shí)別能降低系統(tǒng)的復(fù)雜度并提高系統(tǒng)的性能,因此具有極其重要的意義。
雖然近年來(lái)主觀句識(shí)別的相關(guān)技術(shù)已經(jīng)得到快速發(fā)展,但是對(duì)于面向大規(guī)模開放性網(wǎng)絡(luò)文本的意見挖掘系統(tǒng)來(lái)說(shuō),主觀句識(shí)別問(wèn)題仍然沒(méi)有得到很好的解決。一方面,由于意見挖掘的相關(guān)研究工作仍處于早期階段,所以沒(méi)有足夠的標(biāo)注語(yǔ)料用于主觀句識(shí)別模型的訓(xùn)練;另一方面,現(xiàn)階段的研究工作大部分都在概率統(tǒng)計(jì)的框架下看待和解決主觀句識(shí)別問(wèn)題,很少有人在模糊集合論的框架下,探索漢語(yǔ)主、客觀性表示模糊界限的本質(zhì)特性。因此,如果能發(fā)現(xiàn)主觀性文本的本質(zhì)特征并據(jù)此提出一種簡(jiǎn)潔的模型,對(duì)于主觀句識(shí)別工作甚至是意見挖掘領(lǐng)域的其他工作都具有重大的意義。
針對(duì)以上問(wèn)題,本文在模糊集合論框架下,提出一種基于詞匯模糊集合的模糊推理機(jī)來(lái)識(shí)別漢語(yǔ)主觀句。首先,為了更好地識(shí)別出漢語(yǔ)主、客觀性表示的模糊界限,我們定義了詞匯的主、客觀詞匯模糊集合,并在模糊統(tǒng)計(jì)方法下,利用TF-IDF公式計(jì)算不同詞匯分別對(duì)主、客觀詞匯模糊集合的隸屬度。然后,本文制定了兩條模糊IF-THEN規(guī)則,并用模糊推理的方法對(duì)其進(jìn)行解析,以得到句子主、客觀性的置信度。最后,使用重心解模糊法對(duì)得到的置信度進(jìn)行解模糊操作,并利用制定的判別規(guī)則得到句子的主客觀類別。
本文接下來(lái)的安排如下: 第二節(jié)簡(jiǎn)要介紹了相關(guān)工作及背景。第三節(jié)描述我們方法的具體細(xì)節(jié)。第四節(jié)給出了在NTCIR-6[3]中文數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果。最后,第五節(jié)給出了本文工作的結(jié)論以及未來(lái)研究的展望。
為了完成主觀句識(shí)別任務(wù),現(xiàn)階段的研究工作大部分采用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來(lái)訓(xùn)練分類器。為了從描述性客觀文本中分離出主觀句,Yu和Hatzivassiloglou[4]提出了三個(gè)不同的方法,分別叫做基于句子相似度的方法、融合多特征的樸素貝葉斯分類器和多重樸素貝葉斯分類器。其實(shí)驗(yàn)結(jié)果顯示多特征和多重分類器的融合對(duì)主觀性識(shí)別有很大的幫助。與Yu和Hatzivassiloglou不同,Pang和Lee[5]將文檔級(jí)別文本和句子級(jí)別文本的主觀性識(shí)別任務(wù)統(tǒng)一起來(lái),并形式化地將它們看作為一個(gè)面向圖的最小切割的問(wèn)題,由此他們實(shí)現(xiàn)了一個(gè)基于最小切割的主客觀分類器。他們認(rèn)為通過(guò)此方法,不論是傳統(tǒng)的主觀詞線索還是文檔內(nèi)的上下文信息都能被融合起來(lái)完成主觀性識(shí)別任務(wù)。蒙新泛和王厚峰[6]則研究了基于不同機(jī)器學(xué)習(xí)模型的分類器在利用上下文信息時(shí)對(duì)漢語(yǔ)主觀句識(shí)別的影響,他們的實(shí)驗(yàn)表明在使用上下文信息的簡(jiǎn)單特征時(shí),基于條件隨機(jī)場(chǎng)模型的分類器就已經(jīng)能夠獲得比基于支持向量機(jī)模型和最大熵模型的分類器更好的效果。近年來(lái),為了解決標(biāo)注語(yǔ)料稀疏問(wèn)題,人們開始探索如何使用更加復(fù)雜的弱監(jiān)督機(jī)器學(xué)習(xí)方法。Lin等人[7]提出了一個(gè)叫做subjLDA的基于隱含狄利克雷分布的層次貝葉斯模型。與需要大規(guī)模標(biāo)注語(yǔ)料為指導(dǎo)的傳統(tǒng)分類方法不同,他們采用弱監(jiān)督的生成模型學(xué)習(xí)方法,這種方法只需要少量領(lǐng)域相關(guān)的主觀性線索詞。最近,Jiang[8]則提出了一種融合多主題信息的基于隱含狄利克雷分布的弱監(jiān)督機(jī)器學(xué)習(xí)模型,他的方法能夠同時(shí)考慮多個(gè)主題對(duì)主觀句識(shí)別任務(wù)的影響。
主觀句識(shí)別任務(wù)的另一個(gè)關(guān)鍵問(wèn)題是如何發(fā)現(xiàn)高質(zhì)量的主觀性線索。主觀性特征詞作為主觀性線索的最小單位,最先被相關(guān)研究工作探索用來(lái)完成主觀句識(shí)別的任務(wù)。首先引起人們注意的主觀性特征詞是形容詞。Hatzivassiloglou和Wiebe[9]在一個(gè)簡(jiǎn)單的分類器中全面地研究了形容詞的特性,包括形容詞的動(dòng)態(tài)極性、語(yǔ)義傾向及其等級(jí)對(duì)主觀性識(shí)別的影響,其結(jié)果表明形容詞對(duì)主觀性文本具有很強(qiáng)的指示作用。除了形容詞,Riloff等人[10]還研究了主觀性名詞對(duì)主觀句識(shí)別任務(wù)的影響。他們的研究表明,主觀性名詞雖然十分重要,但是在實(shí)際應(yīng)用中很少被使用。除此之外,Wiebe和Mihalcea[11]的研究表明詞語(yǔ)的詞義與主觀性的關(guān)聯(lián)非常緊密。為了突破以單個(gè)詞作為線索面臨的性能上的瓶頸,一些研究工作開始嘗試探索N元模型在主觀性識(shí)別中的作用。葉強(qiáng)等人[12]探索基于2-POS模型的連續(xù)雙詞詞類組合模式方法自動(dòng)判別主觀句。隨后,Wilson和Raaijmakers[13]比較了分別用基于字的N元語(yǔ)法、詞的N元語(yǔ)法和音素的N元語(yǔ)法所訓(xùn)練的主觀性分類器的表現(xiàn)。除了細(xì)粒度的詞匯級(jí)別線索,隨后的研究工作進(jìn)一步地考慮了其他粗粒度的主觀性線索,比如在主觀句識(shí)別任務(wù)中考慮序列模式[14]。為了自動(dòng)獲得大規(guī)模的序列模式,Jindal和Liu[15]則研究利用序列模式挖掘算法從語(yǔ)料中自動(dòng)地提取基于類別的序列模式,進(jìn)而用這些序列模式完成面向產(chǎn)品評(píng)論的主觀性比較句識(shí)別任務(wù)。此外,Karamibekr和Ghorbani[16]以主觀性動(dòng)詞為關(guān)鍵詞,手工建立了一系列啟發(fā)式規(guī)則,進(jìn)而從社會(huì)焦點(diǎn)評(píng)論文本中匹配出能代表主觀句的主觀性三元組,并以此識(shí)別主觀句。
在本文中,我們處理漢語(yǔ)句子級(jí)別的主觀性分類問(wèn)題。與現(xiàn)存的主觀性識(shí)別系統(tǒng)相比較,我們從模糊集合論的角度出發(fā),提出了一種新的基于詞匯模糊集合的模糊推理機(jī)來(lái)識(shí)別漢語(yǔ)主觀句,初步的實(shí)驗(yàn)結(jié)果表明我們的方法能夠更準(zhǔn)確地識(shí)別出主客觀句之間的細(xì)微差別。
在本節(jié)中,我們會(huì)詳細(xì)介紹我們提出的漢語(yǔ)主觀句識(shí)別方法,包括詞匯模糊集合定義及其隸屬度函數(shù)的構(gòu)造方法、模糊IF-THEN規(guī)則和模糊推理機(jī)。
3.1 詞匯模糊集合
由于自然語(yǔ)言本身的模糊性,詞匯的主、客觀性之間并沒(méi)有明確的劃分,這直接導(dǎo)致句子在主、客觀性之間的模糊性。因此,本文研究利用主、客觀詞匯模糊集合描述詞匯在主客觀性之間的細(xì)微差別,進(jìn)而完成漢語(yǔ)句子的主觀性識(shí)別工作。主、客觀詞匯模糊集合定義如下。
定義1 主觀詞匯模糊集合: 設(shè)論域X為所有詞匯的集合,則論域X上的主觀詞匯模糊集合SUB是X到 [0,1]的一個(gè)映射:
(1)
對(duì)于x∈X,μSUB稱為主觀詞匯模糊集合SUB的隸屬度函數(shù),μSUB(x)稱為x屬于主觀詞匯模糊集合SUB的隸屬度。
定義2 客觀詞匯模糊集合: 設(shè)論域X為所有詞匯的集合,則論域X上的客觀詞匯模糊集合OBJ是X到 [0,1]的一個(gè)映射:
(2)
對(duì)于x∈X,μOBJ稱為客觀詞匯模糊集合OBJ的隸屬度函數(shù),μOBJ(x)稱為x屬于客觀性詞匯模糊集合OBJ的隸屬度。
由定義可知,隸屬度函數(shù)是描述模糊集合的重要組成部分,如何合理構(gòu)建隸屬度函數(shù)是有效應(yīng)用模糊集合的關(guān)鍵。
3.2 隸屬度函數(shù)
目前,構(gòu)建隸屬度函數(shù)最常見的方法有模糊統(tǒng)計(jì)法、參考函數(shù)法等[17]。為了避免參考函數(shù)法等方法受個(gè)人主觀影響過(guò)大的缺點(diǎn),本文使用模糊統(tǒng)計(jì)法計(jì)算每個(gè)詞匯分別屬于主/客觀詞匯模糊集合的隸屬度。
模糊統(tǒng)計(jì)法是一種客觀方法: 通過(guò)N次重復(fù)獨(dú)立統(tǒng)計(jì)實(shí)驗(yàn)來(lái)確定所有特征詞中的某個(gè)特征詞對(duì)主、客觀詞匯模糊集合的隸屬度。在本文中,每次模糊統(tǒng)計(jì)實(shí)驗(yàn)主要包含以下四個(gè)要素: (1)所有特征詞構(gòu)成的論域X;(2)X中的一個(gè)固定特征詞x;(3)X中一個(gè)隨機(jī)變動(dòng)的主/客觀詞匯集合A*(普通集合);(4)X中一個(gè)以A*作為彈性疆域的主/客觀詞匯模糊集合A,A制約著A*的變動(dòng)范圍。
雖然模糊統(tǒng)計(jì)法在形式上類似于概率統(tǒng)計(jì)法,并且二者均是用確定性手段研究事物的不確定性。但是,模糊統(tǒng)計(jì)法與概率統(tǒng)計(jì)法分別屬于兩種不同的數(shù)學(xué)模型,它們有著本質(zhì)區(qū)別。直觀地說(shuō),概率統(tǒng)計(jì)方法可以理解為考察“變動(dòng)的點(diǎn)”是否落在“不動(dòng)的圈內(nèi)”,而模糊統(tǒng)計(jì)方法則可理解為考察“變動(dòng)的圈”是否覆蓋住“不動(dòng)的點(diǎn)”。
本文在模糊統(tǒng)計(jì)方法下利用TF-IDF公式構(gòu)建隸屬度函數(shù)。TF-IDF公式形式簡(jiǎn)潔、實(shí)現(xiàn)便捷,并且相對(duì)于其他復(fù)雜的統(tǒng)計(jì)量,在標(biāo)注語(yǔ)料稀疏的情況下性能更穩(wěn)定,因此被廣泛用于構(gòu)建隸屬度函數(shù)。首先,我們根據(jù)訓(xùn)練語(yǔ)料構(gòu)建出一個(gè)特征詞的頻率矩陣,如式(3)所示。
(3)
其中,aij是第i個(gè)特征詞出現(xiàn)在第j類句子中的次數(shù),aij指示出第i個(gè)特征詞與第j類句子的關(guān)聯(lián)度。M為訓(xùn)練語(yǔ)料中的特征詞個(gè)數(shù),本文選取詞頻數(shù)超過(guò)三次的詞作為特征詞。N為訓(xùn)練語(yǔ)料中句子的類別數(shù),在本文的主觀句識(shí)別任務(wù)中N取2,即1代表主觀句、2代表客觀句。
接著,為了平衡每個(gè)特征詞出現(xiàn)在主觀句與客觀句中的分布,我們利用式(4)對(duì)頻率矩陣中的每個(gè)詞向量進(jìn)行歸一化處理,歸一化的值用bij表示。
(4)
接著,我們計(jì)算了每個(gè)特征詞的逆文檔頻率值,如式(5)所示。
(5)
其中|D|代表訓(xùn)練語(yǔ)料中的所有句子數(shù)目,|Sij|代表包含第i個(gè)特征詞的第j類句子的數(shù)目。
然后,我們將式(4)與式(5)用乘積進(jìn)行組合,以進(jìn)一步表示第i個(gè)特征詞與第j類句子的關(guān)聯(lián)度。此時(shí)得到的值用cij表示,如式(6)所示。
(6)
最后,為了滿足主、客觀詞匯模糊集合定義中對(duì)隸屬度的約束條件,我們對(duì)關(guān)聯(lián)度cij進(jìn)行歸一化處理,最終得到特征詞xi對(duì)主、客觀性詞匯模糊集合Aj的隸屬度μAj(xi)。
(7)
至此,我們定義了主/客觀詞匯模糊集合來(lái)描述主/客觀詞匯這兩個(gè)模糊概念,并用模糊統(tǒng)計(jì)方法得到相應(yīng)的隸屬度函數(shù)。接下來(lái),我們以上述內(nèi)容為基礎(chǔ),在模糊推理框架下,制定和解析本文所采用的模糊IF-THEN規(guī)則。
3.3 模糊TF-THEN規(guī)則
基于模糊IF-THEN規(guī)則的分類模型是一種較為常見的分類方法,模糊IF-THEN規(guī)則被廣泛地認(rèn)為是分類知識(shí)較好的表示[18]。模糊IF-THEN規(guī)則可通過(guò)兩種方法產(chǎn)生: 自動(dòng)產(chǎn)生方法和人工編寫方法。當(dāng)應(yīng)用于比較復(fù)雜的系統(tǒng)中,基于自動(dòng)產(chǎn)生模糊IF-THEN規(guī)則的方法的模糊分類系統(tǒng)從數(shù)據(jù)中產(chǎn)生規(guī)則,這樣會(huì)面臨大量的模糊IF-THEN規(guī)則,獲取和優(yōu)化模糊IF-THEN規(guī)則并不是一個(gè)很容易的任務(wù)。本文為了系統(tǒng)的簡(jiǎn)潔和高效,結(jié)合漢語(yǔ)表達(dá)的特點(diǎn),選擇采用人工制定的方法編寫如下兩條多維復(fù)合模糊IF-THEN規(guī)則。
RSUB:IFx1IS主觀詞匯or…orxnIS主觀詞匯,THENsIS主觀句
ROBJ:IFx1IS客觀詞匯or…orxnIS客觀詞匯,THENsIS客觀句
其中,特征詞xi是從訓(xùn)練語(yǔ)料中抽取得到的,n為句子s所包含的特征詞的數(shù)目。本文所討論的模糊IF-THEN規(guī)則是一種復(fù)合模糊命題,而復(fù)合模糊命題的真值可由它所包含的原子模糊命題的真值確定。
當(dāng)模糊命題P∈U的形式為“P:xISA”時(shí),我們稱P為原子模糊命題[18]。其中,x是變量,A是某個(gè)模糊概念對(duì)應(yīng)的模糊集合。當(dāng)一個(gè)模糊命題P是原子模糊命題時(shí),其真值取為變量x對(duì)模糊集合A的隸屬度μA(x),即式(8)所示。
(8)
至此,本文制定了具有良好可讀性和解析性的模糊IF-THEN規(guī)則。接下來(lái),我們介紹如何利用模糊推理機(jī)對(duì)模糊IF-THEN規(guī)則進(jìn)行解析。
3.4 模糊推理機(jī)
經(jīng)典的推理模型本質(zhì)上是一個(gè)精確的數(shù)學(xué)模型。它不僅要求規(guī)則是明確的,同時(shí)輸入必須是與規(guī)則的前件相同,才能得到與后件相同的結(jié)論。當(dāng)推理是從一個(gè)或幾個(gè)模糊的前提推導(dǎo)出一個(gè)模糊的結(jié)論時(shí),推理就成為了模糊推理,需要基于模糊數(shù)學(xué)的理論和方法來(lái)演算和處理。
針對(duì)漢語(yǔ)主觀句識(shí)別任務(wù),我們基于模糊數(shù)學(xué)的理論設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)對(duì)上文提出的模糊IF-THEN規(guī)則進(jìn)行解析的系統(tǒng),本文稱之為模糊推理機(jī)。模糊推理機(jī)主要有三個(gè)模塊: 輸入模糊化模塊、模糊推理模塊和解模糊化模塊。
(1) 輸入模糊化模塊
模糊推理機(jī)的第一個(gè)階段是對(duì)給定輸入句子進(jìn)行模糊化操作,即選擇主觀句識(shí)別系統(tǒng)的輸入變量,并根據(jù)輸入變量的隸屬度函數(shù)來(lái)恰當(dāng)?shù)卮_定這些變量所隸屬的模糊集合[17]。輸入模糊化模塊的具體步驟如下:
1. 首先利用查詞典的方法,在輸入句子S中找出在文檔頻率矩陣中出現(xiàn)過(guò)的特征詞。
2. 然后,利用最大隸屬度原則來(lái)確定特征詞所隸屬的模糊集合,如公式(9)、(10)所示。
(9)
(10)
其中,μk(x)代表特征詞x所具有的最大隸屬度,k代表最大隸屬度對(duì)應(yīng)的模糊集合。
(2) 模糊推理模塊
通常,模糊IF-THEN規(guī)則的前件部分具有多個(gè)輸入,這時(shí)需要運(yùn)用模糊算子對(duì)這些多輸入進(jìn)行推理,以得到一個(gè)確定數(shù)值來(lái)表示對(duì)規(guī)則后件部分的置信度。由于模糊算子是由邏輯連接詞決定的,因此我們先給出本文采用的“邏輯或”基本邏輯連接詞的定義。
定義3 設(shè)U為模糊IF-THEN規(guī)則的集合,P,Q∈U。則P與Q的邏輯連接詞“邏輯或”對(duì)應(yīng)模糊集合的并運(yùn)算,其真值為式(11)所示。
(11)
顯然,“邏輯或”連接詞的真值與模糊集合的并運(yùn)算結(jié)果是等價(jià)的。而由于模糊集合的特性,模糊集合的并運(yùn)算實(shí)質(zhì)上就是簡(jiǎn)單的max算子,這使得基于模糊集合的應(yīng)用系統(tǒng)計(jì)算方便、可靠。但是因?yàn)榭陀^世界現(xiàn)象錯(cuò)綜復(fù)雜,簡(jiǎn)單的max算子已經(jīng)無(wú)法適應(yīng)客觀世界現(xiàn)象賦予“邏輯或”的所有涵義。因此需要我們根據(jù)不同的任務(wù)背景,尋找合理的模糊算子以建立適合的模糊推理模型。
針對(duì)漢語(yǔ)主觀句識(shí)別任務(wù),本文模仿人腦進(jìn)行模糊推理過(guò)程的特點(diǎn),選擇模糊集合廣義并運(yùn)算中的max算子與代數(shù)和算子。這兩種模糊算子可以從不同角度解析我們的模糊IF-THEN規(guī)則。
(12)
具體地,在當(dāng)前句子S中,當(dāng)模糊運(yùn)算符At取上述模糊算子時(shí),對(duì)應(yīng)的形式分別為:
1. 當(dāng)At為max算子時(shí),
(13)
2. 當(dāng)At為代數(shù)和操作時(shí),
(14)
至此,在模糊推理框架下,我們得到了模糊IF-THEN規(guī)則的輸出值。下面,我們將介紹如何對(duì)模糊IF-THEN規(guī)則的輸出值進(jìn)行解模糊化。
(3) 解模糊化模塊
由于經(jīng)過(guò)模糊推理后得到的是句子S對(duì)所有模糊IF-THEN規(guī)則Rk的置信度,因此必須進(jìn)行解模糊化,將輸出變?yōu)橐粋€(gè)確定的值。常用的解模糊化方法有: 重心解模糊法、最大隸屬度法[17]等。本文采用重心解模糊法進(jìn)行解模糊化操作,其形式如公式(15)[19]所示。
(15)
其中,yk是調(diào)節(jié)參數(shù),本文通過(guò)隨機(jī)梯度下降法計(jì)算其最優(yōu)值。
首先,我們?cè)谧钚∑钅P拖?,使用如下目?biāo)函數(shù):
(16)
然后,對(duì)其進(jìn)行求偏導(dǎo)得到梯度函數(shù):
(17)
最后,使用如下公式迭代地求解yk:
(18)
其中,p為當(dāng)前的迭代次數(shù),η為學(xué)習(xí)速率。
最終,式(15)中的Y被映射到[iOBJ-Δ,iSUB+Δ]。在本文中,iOBJ取值為0,iSUB取值1。Δ為系統(tǒng)自身的誤差。為了得到識(shí)別結(jié)果,本文使用如下判別策略:
其中,Δ1為調(diào)節(jié)參數(shù),Δ1的值影響系統(tǒng)的健壯性。為了盡可能地提高本文系統(tǒng)的魯棒性,我們?cè)O(shè)定Δ1取值為0.5。
至此,我們已經(jīng)全面介紹了本文使用的模糊推理機(jī)的理論基礎(chǔ)和實(shí)現(xiàn)細(xì)節(jié)。模糊推理機(jī)的執(zhí)行過(guò)程是本文漢語(yǔ)主觀句識(shí)別系統(tǒng)的核心部分,下面給出了模糊推理機(jī)的具體算法流程。
算法:基于模糊推理機(jī)的漢語(yǔ)主觀句識(shí)別算法Input:句子sOutput:句子s的主客觀類別:主觀性或者客觀性1:預(yù)處理:分詞,詞性標(biāo)注;2:SD(S)=03:for對(duì)s中的每個(gè)詞語(yǔ)w4: ifw是特征詞,then5: 通過(guò)公式(9)計(jì)算μk(w),并加入到集合ASk,k∈{SUB,OBJ}中6: endif7:endfor8:通過(guò)模糊運(yùn)算公式(10)計(jì)算句子s分別對(duì)主觀句及客觀句的置信度。9:通過(guò)公式(11)計(jì)算句子s的模糊輸出值Y。10:ifY∈iOBJ-Δ1,iOBJ+Δ1[],then11: s被識(shí)別為客觀句12:elseifY∈iSUB-Δ1,iSUB+Δ1[],then13: s被識(shí)別為主觀句14:endif
4.1 實(shí)驗(yàn)數(shù)據(jù)及測(cè)評(píng)方法
為了驗(yàn)證上述方法的有效性,我們采用 NTCIR-6[3]中文訓(xùn)練和測(cè)試數(shù)據(jù),表1給出了數(shù)據(jù)的基本統(tǒng)計(jì)信息。為了評(píng)價(jià)系統(tǒng)的性能,本文采用 NTCIR-6的LWK-Lenient評(píng)價(jià)標(biāo)準(zhǔn)給出的精確率(Precision)、 召 回 率(Recall)和F-值(F-score)三個(gè)評(píng)價(jià)指標(biāo)。
表1 實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)信息
4.2 實(shí)驗(yàn)結(jié)果與分析
本文第一組對(duì)比實(shí)驗(yàn)的目的是驗(yàn)證基于模糊統(tǒng)計(jì)TF-IDF方法的詞匯模糊集合對(duì)主觀句識(shí)別的有效性,表2是實(shí)驗(yàn)的結(jié)果。
表2 不同特征表示法的主觀句識(shí)別結(jié)果
在本組實(shí)驗(yàn)中,所使用的分類器均為基于代數(shù)和算子及重心解模糊器的模糊推理機(jī)。不同的是,詞頻統(tǒng)計(jì)TF-IDF方法使用傳統(tǒng)的概率統(tǒng)計(jì)方法計(jì)算每個(gè)特征詞的權(quán)重;而模糊統(tǒng)計(jì)TF-IDF方法則使用本文所提出的模糊統(tǒng)計(jì)方法來(lái)計(jì)算每個(gè)特征詞的隸屬度。表2所示的實(shí)驗(yàn)結(jié)果顯示,在某種程度上,基于模糊統(tǒng)計(jì)的詞匯模糊集合表示法能夠更好地利用模糊推理機(jī)來(lái)區(qū)分漢語(yǔ)句子的主客觀性之間的區(qū)別。我們分析認(rèn)為,由于本文系統(tǒng)的出發(fā)點(diǎn)是希望先盡可能地區(qū)分出特征詞在主客觀性之間的區(qū)別,進(jìn)而更準(zhǔn)確地實(shí)現(xiàn)句子在主客觀性之間的比較。而概率統(tǒng)計(jì)TF-IDF方法考察的是在某特定類別下所有特征詞的分布情況;模糊統(tǒng)計(jì)TF-IDF方法考察的則是某特定特征詞在主客觀類別中的分布情況,二者之間的側(cè)重點(diǎn)不同。實(shí)驗(yàn)結(jié)果也證明了詞匯模糊集合在區(qū)分主客觀的細(xì)微差別時(shí)的有效性。
為了進(jìn)一步研究模糊推理機(jī)對(duì)主觀性識(shí)別的有效性,本文的第二組實(shí)驗(yàn)對(duì)比驗(yàn)證了不同模糊算子對(duì)模糊推理機(jī)的影響,表3是實(shí)驗(yàn)的結(jié)果。
在本組實(shí)驗(yàn)中,我們采用本文提出的模糊推理機(jī)來(lái)實(shí)現(xiàn)主觀性識(shí)別工作。為了研究不同模糊算子對(duì)模糊推理機(jī)的影響,本組實(shí)驗(yàn)在模糊推理階段分別采用max算子及代數(shù)和算子實(shí)現(xiàn)“邏輯或”操作。實(shí)驗(yàn)結(jié)果顯示,基于代數(shù)和算子的廣義模糊并運(yùn)算要明顯好于基于max算子的模糊并運(yùn)算,整體F-值提高了2.7%。我們分析認(rèn)為,在基于模糊推理的主觀句識(shí)別任務(wù)中,當(dāng)執(zhí)行“邏輯或”推理時(shí),max算子利用當(dāng)前句子中隸屬于主/客觀詞匯集合程度最大的特征詞來(lái)代表句子從屬于主/客觀句的程度。這種明顯的偏置性,忽視了當(dāng)前句子中的其他主/客觀詞匯。代數(shù)和算子則通過(guò)累加操作保留了當(dāng)前句子中的所有主/客觀詞匯的特征,在一定程度上改善了max算子對(duì)高隸屬度特征的偏置現(xiàn)象。因此代數(shù)和算子能夠更好地利用模糊推理機(jī)描述漢語(yǔ)句子在主客觀性之間的不同。
表3 不同模糊算子的主觀句識(shí)別結(jié)果
為了驗(yàn)證模糊推理機(jī)結(jié)合模糊集合分類模型相比于其他常用分類模型的優(yōu)勢(shì),我們考察了不同分類器對(duì)模糊集合的影響。結(jié)果如表4所示。
表4 不同分類方法的主觀句識(shí)別結(jié)果
在本組實(shí)驗(yàn)中,為了驗(yàn)證模糊推理機(jī)結(jié)合模糊集合對(duì)主觀性識(shí)別的有效性,我們以詞匯模糊集合為基礎(chǔ),研究不同類型的分類器對(duì)模糊集合的影響。實(shí)驗(yàn)結(jié)果顯示,模糊推理機(jī)與模糊集合的組合要明顯好于基于模糊集合的樸素貝葉斯分類器和支持向量機(jī),這在一定程度上說(shuō)明,相比于樸素貝葉斯分類器和支持向量機(jī),模糊推理機(jī)能夠更好地利用模糊集合來(lái)區(qū)分漢語(yǔ)句子的主客觀性之間的區(qū)別。我們分析認(rèn)為,相比于樸素貝葉斯和模糊推理機(jī),支持向量機(jī)模型更加復(fù)雜,且性能容易受語(yǔ)料稀疏性的制約。此外,雖然樸素貝葉斯分類器與模糊推理機(jī)在形式上非常相似,但是兩者屬于不同的模型: 樸素貝葉斯模型屬于生成模型,而模糊推理機(jī)是一種邏輯推理模型。由此可以看出,模糊推理機(jī)能夠更好地利用模糊集合來(lái)區(qū)分漢語(yǔ)句子的主客觀性之間的區(qū)別,實(shí)驗(yàn)結(jié)果也驗(yàn)證了模糊推理機(jī)的有效性。
表5 本文系統(tǒng)與NTCIR-6最好系統(tǒng)的比較
表5比較了本文系統(tǒng)的最好結(jié)果和NTCIR-6中最好系統(tǒng)的結(jié)果。在UMCP-1[3]系統(tǒng)中,他們首先采用自動(dòng)獲取與人工校對(duì)相結(jié)合的方法來(lái)構(gòu)建情感詞典,然后利用給定句子中的情感詞數(shù)量來(lái)判斷該句是否為主觀句。
實(shí)驗(yàn)結(jié)果顯示,本文系統(tǒng)的最好結(jié)果較UMCP-1[3]系統(tǒng)的F-值提高了0.4%。這在一定程度上說(shuō)明,在模糊數(shù)學(xué)理論基礎(chǔ)之上,將模糊集合與模糊推理方法有機(jī)融合具有可行性。但是在召回率方面有所下降,我們分析可能是由于訓(xùn)練語(yǔ)料稀疏使得某些特征詞的隸屬度估計(jì)不準(zhǔn)確。而與UMCP-1[3]系統(tǒng)相比,本文的系統(tǒng)可以自動(dòng)地識(shí)別主觀句,而無(wú)需通過(guò)手工校對(duì)的方式對(duì)情感詞典進(jìn)行人工維護(hù)。因此本文系統(tǒng)的適用性更大,能夠更好地處理大規(guī)模開放性網(wǎng)絡(luò)文本中各式各樣的主觀句。
本文提出了一種基于模糊推理機(jī)的漢語(yǔ)主/客觀句分類系統(tǒng),并采用NTCIR-6數(shù)據(jù)對(duì)系統(tǒng)進(jìn)行了測(cè)試。實(shí)驗(yàn)表明我們的方法有一定的可行性,這在一定程度上說(shuō)明: 在模糊集合框架下,將模糊集合與模糊推理方法融合能夠很好地區(qū)分主客觀句子在概念外沿上的細(xì)微區(qū)別。雖然在所進(jìn)行的實(shí)驗(yàn)中,我們系統(tǒng)的準(zhǔn)確率和F-值達(dá)到最高,但召回率略低。我們分析可能是由于訓(xùn)練語(yǔ)料太小,這使得某些特征詞的隸屬度估計(jì)不準(zhǔn)確;同時(shí)重心解模糊法的參數(shù)也得不到精確的計(jì)算。因此,在將來(lái)的工作中我們將研究如何提高特征詞的質(zhì)量,并進(jìn)一步擴(kuò)大訓(xùn)練語(yǔ)料庫(kù)。
[1] Liu B. Sentiment analysis and subjectivity[J]. Handbook of natural language processing, 2010, 2: 627-666.
[2] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.
[3] Seki Y, Evans D, Ku L, et al. Overview of opinion analysis pilot task at NTCIR-6[C]//Proceedings of NTCIR-6 Workshop Meeting. 2007: 265-278.
[4] Hong Y, Hatzivassiloglou V. Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of EMNLP’03, 2003: 129-136.
[5] Pang B, Lee. A sentimental education: Sentiment
analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of ACL’04, 2004: 271-278.
[6] 蒙新泛, 王厚峰. 主客觀識(shí)別中的上下文因素的研究[J]. 中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展 (2007-2009), 2009: 594-599.
[7] Lin C, He Y, Everson R. Sentence Subjectivity Detection with Weakly-Supervised Learning[C]// Proceedings of IJCNLP. 2011: 1153-1161.
[8] Jiang W. Study on Identification of Subjective Sentences in Product Reviews Based on Weekly Supervised Topic Model[J]. Journal of Software, 2014, 9(7): 1952-1959.
[9] Hatzivassiloglou V,Wiebe J. Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of ACL’00, 2000: 299-305.
[10] Riloff E, Wiebe J, Wilson T. Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of HLT-NAACL’03, 2003: 25-32.
[11] Wiebe J, Mihalcea R. Word sense and subjectivity[C]//Proceedings of COLING-ACL’06, 2006: 1065-1072.
[12] 葉強(qiáng), 張紫瓊, 羅振雄. 面向互聯(lián)網(wǎng)評(píng)論情感分析的中文主觀性自動(dòng)判別方法研究[J]. 系統(tǒng)信息學(xué)報(bào), 2007,1(1): 79-91.
[13] Wilson T, Raaijmakers S. Comparing word, character, and phoneme n-grams for subjective utterance recognition[C]// Proceedings of INTERSPEECH. 2008: 1614-1617.
[14] Riloff E, Wiebe J, Phillips W. Exploiting subjectivity classification to improve information extraction[C]//Proceedings of AAAI’05, 2005: 1106-1111.
[15] Jindal N, Liu B. Identifying comparative sentences in text documents[C]//Proceedings of SIGIR’06, 2006: 244-251.
[16] Karamibekr M, Ghorbani A. Sentence subjectivity analysis in social domains[C]//Proceedings of the 2013 IEEE /ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, 2013: 268-275.
[17] 張小紅, 裴道武, 代建華. 模糊數(shù)學(xué)與 Rough 集理論[M]. 北京: 清華大學(xué)出版社, 2013.
[18] 陽(yáng)愛(ài)民. 模糊分類模型及其集成方法[M]. 北京: 科學(xué)出版社, 2008.
[19] Rustamov S. Application of Neuro-Fuzzy Model for Text and Speech Understanding Systems[C]//Proceedings of PCI’12, 2012: 1-4.
Chinese Subjective Sentence Recognition Based on Fuzzy Inference Machine
SONG Hongwei, SONG Jiaying, FU Guohong
(School of Computer Science and Technology, Heilongjiang University, Harbin, Heilongjiang 150080, China)
This paper presents a fuzzy inference machine for Chinese subjectivity identification. We first define two fuzzy sets for lexical subjectivity and objectivity, respectively. Then, we apply TF-IDF to acquire the relevant membership functions from the training data. Finally, we define two fuzzy IF-THEN rules and thus build a fuzzy inference machine for Chinese subjective sentence recognition. We conduct two experiments on the NTCIR-6 Chinese opinion data. The experimental results demonstrate the feasibility of the proposed method.
subjectivity recognition; fuzzy sets; fuzzy IF-THEN rules; fuzzy inference machine
宋洪偉(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:songhongwei@live.cn宋佳穎(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、情感分析。E-mail:jy_song@outlook.com付國(guó)宏(1968—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、文本挖掘。E-mail:ghfu@hotmail.com
1003-0077(2015)05-0160-07
2015-07-30 定稿日期: 2015-09-20
國(guó)家自然科學(xué)基金(60973081, 61170148);黑龍江省人力資源和社會(huì)保障廳留學(xué)人員科技活動(dòng)項(xiàng)目
TP391
A