郗亞輝
(河北大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,河北 保定 071002)
產(chǎn)品評論中領(lǐng)域情感詞典的構(gòu)建
郗亞輝
(河北大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,河北 保定 071002)
領(lǐng)域情感詞典是情感分析最重要的基礎(chǔ)。由于產(chǎn)品評論的數(shù)量巨大、領(lǐng)域眾多,如何自動構(gòu)建領(lǐng)域情感詞典已經(jīng)成為近年來的一個研究熱點(diǎn)。該文提出了一個兩階段的領(lǐng)域情感詞典構(gòu)建算法。第一階段,利用情感詞間的點(diǎn)互信息和上下文約束,使用基于約束的標(biāo)簽傳播算法構(gòu)造基本情感詞典;第二階段,根據(jù)情感沖突的頻率來識別領(lǐng)域相關(guān)情感詞,并根據(jù)其上下文約束以及修飾的特征完善領(lǐng)域情感詞典。實(shí)驗(yàn)結(jié)果表明,該方法在實(shí)際產(chǎn)品評論數(shù)據(jù)集上取得了較好的效果。
情感分析;領(lǐng)域情感詞典;上下文約束;基于約束的標(biāo)簽傳播算法
飛速發(fā)展的Web技術(shù)及電子商務(wù)正在極大改變著人們的工作和生活方式,越來越多的人習(xí)慣于網(wǎng)上購買商品,網(wǎng)絡(luò)也成為各種產(chǎn)品的重要銷售渠道。為了提高消費(fèi)者的購物體驗(yàn),電子商務(wù)網(wǎng)站大都允許消費(fèi)者對其購買的產(chǎn)品發(fā)表評論。在這些產(chǎn)品評論中,包含了大量的消費(fèi)者對產(chǎn)品各方面特征的評價觀點(diǎn)信息。這些信息不僅可以幫助消費(fèi)者全面、綜合地了解其他消費(fèi)者對產(chǎn)品的評價,從而挑選出更適合自己的產(chǎn)品;還可以幫助生產(chǎn)廠商通過評論來了解自己產(chǎn)品的優(yōu)點(diǎn)以及不足,從而改進(jìn)產(chǎn)品的設(shè)計、獲得競爭優(yōu)勢[1-2]。
網(wǎng)絡(luò)上存在著大量的產(chǎn)品評論,有些熱門商品可能包含成千上萬的評論。巨大的評論數(shù)量使得消費(fèi)者和生產(chǎn)廠商很難通過人工對產(chǎn)品評論進(jìn)行分析和處理,獲取產(chǎn)品評論中包含的大量有用信息。因此,以獲取產(chǎn)品評論中有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù)——“評論挖掘”,吸引了越來越多學(xué)者的關(guān)注。
評論觀點(diǎn)的情感分析是產(chǎn)品評論挖掘的基本任務(wù)之一[1],其目標(biāo)是準(zhǔn)確識別出消費(fèi)者對產(chǎn)品不同特征所發(fā)表評價觀點(diǎn)的情感傾向——褒義或貶義。情感詞或詞組是人們表達(dá)觀點(diǎn)的最基本的語言單元,情感詞典則是情感分析的基礎(chǔ)。近年來,很多學(xué)者已經(jīng)建立了一些情感詞典,例如,General Inquirer[3],Liu提供的情感詞典[1],SentiWordNet[4],知網(wǎng)的情感分析用詞語集[5],臺灣大學(xué)的NTU 情感詞典[6]以及大連理工大學(xué)的情感詞匯本體庫[7]。這些詞典主要是以手工或半自動的方式編輯生產(chǎn),其領(lǐng)域適應(yīng)性受到限制。
有些情感詞在不同領(lǐng)域中具有不同的情感傾向,甚至在同一領(lǐng)域中當(dāng)修飾不同產(chǎn)品特征時也具有不同的情感傾向。例如,在手機(jī)評論中,“高”修飾“價格”時表示褒義,而修飾“屏幕分辨率”時表示貶義。因此,使用通用的情感詞典無法準(zhǔn)確獲取這些領(lǐng)域相關(guān)情感詞的情感傾向。由于產(chǎn)品評論的數(shù)量巨大、領(lǐng)域眾多,不可能依靠領(lǐng)域?qū)<胰斯そ㈩I(lǐng)域情感詞典。所以如何自動或半自動地建立領(lǐng)域情感詞典已經(jīng)成為情感分析的重要工作。
本文的主要工作是討論如何利用情感詞的共現(xiàn)信息以及情感詞上下文的先驗(yàn)知識來自動建立領(lǐng)域情感詞典。我們的工作基于以下兩個假設(shè): (1)在產(chǎn)品評論中,情感詞之間存在一些固有的先驗(yàn)知識。例如,并列關(guān)系的情感詞往往具有相同的情感傾向,而轉(zhuǎn)折關(guān)系的情感詞往往具有相反的情感傾向; (2)領(lǐng)域情感詞典中的情感詞可以分為領(lǐng)域無關(guān)和領(lǐng)域相關(guān)的兩部分。領(lǐng)域無關(guān)的情感詞在不同領(lǐng)域中保持相同的情感傾向,而領(lǐng)域相關(guān)的情感詞在不同領(lǐng)域中可能具有不同的情感傾向。依靠一些先驗(yàn)知識,可以通過上下文中領(lǐng)域無關(guān)情感詞的情感傾向來推測領(lǐng)域相關(guān)情感詞的情感傾向。例如,在句子“屏幕大,外觀漂亮”中,雖然我們不知道“大”的情感傾向,但我們可以通過“漂亮”來推測“大”的情感傾向。
基于上面的假設(shè),本文在文獻(xiàn)[8]的基礎(chǔ)上提出了一個兩階段的領(lǐng)域情感詞典構(gòu)造方法。第一階段,利用情感詞間的共現(xiàn)信息和上下文約束關(guān)系,使用基于約束的標(biāo)簽傳播算法構(gòu)造基本情感詞典,為每一個情感詞分配固定的情感傾向;第二階段,識別領(lǐng)域相關(guān)情感詞,并根據(jù)其在語料中的上下文信息對情感詞修飾的不同特征分配不同的情感傾向。
近年來,情感詞典的構(gòu)建已經(jīng)成為很多學(xué)者關(guān)注的問題。情感詞典構(gòu)建的方式主要分為兩類: 基于詞典資源的方法和基于語料庫的方法。
2.1 基于詞典資源的方法
基于詞典資源的方法主要利用現(xiàn)有的一些詞典資源(例如,英文的WordNet、GI,中文的HowNet、同義詞詞林)中詞之間的同義詞、反義詞等聯(lián)系以及詞的注釋來建立情感詞典。
Hu和Liu[9]人工選取了一些褒義和貶義的形容詞作為種子集,并利用WordNet的同義詞和反義詞聯(lián)系對種子集進(jìn)行擴(kuò)展建立情感詞典。Kamps等[10]利用WordNet的同義詞集構(gòu)建形容詞之間的聯(lián)系,如果兩個形容詞是同義詞則在它們之間建立一條邊,從而構(gòu)成了一張圖。情感詞的傾向由其在圖中與“good”和“bad”的最短距離決定。Rao和Ravichandran[11]利用WordNet的同義詞、上位詞聯(lián)系來構(gòu)建詞之間的邊,從而形成了一張圖。同時,給出了一個包含褒義和貶義詞的訓(xùn)練集,使用基于圖的半監(jiān)督學(xué)習(xí)算法mincuts、randomized mincuts和label propagation將圖中的點(diǎn)劃分為褒義和貶義兩類。Esuli等[4,12]人工建立了褒義詞、貶義詞、中性詞種子集,利用WordNet的同義詞聯(lián)系來擴(kuò)展種子集,然后利用擴(kuò)展結(jié)果同義詞集的注釋文本作為訓(xùn)練集建立分類器來判斷詞的情感傾向。
朱嫣嵐等[13]選擇了k對褒義、貶義的基準(zhǔn)詞,利用HowNet的語義相似度和語義相關(guān)場兩種計算方法,計算一個詞與褒義和貶義基準(zhǔn)詞集的相似度的差值作為該詞的情感傾向分值。路斌等[14]利用同義詞詞林中的同義詞詞群,根據(jù)褒貶義種子詞進(jìn)行擴(kuò)展,從而建立情感詞典。徐琳宏等[7]結(jié)合現(xiàn)有的一些詞典、語義網(wǎng)絡(luò)資源以及情感語料,采用手工情感分類和自動獲取強(qiáng)度兩種方法構(gòu)建了情感詞匯本體。周詠梅等[15]首先利用HowNet獲取中文詞語對應(yīng)的各項英文義元;其次使用SentiWordNet數(shù)據(jù)庫檢索每個英文義元所處的各個同義詞集合;接著計算這些同義詞集合的平均情感強(qiáng)度值得到每個義元的情感傾向性強(qiáng)度值;最后計算各項義元的平均情感強(qiáng)度值,即得到中文詞語的情感傾向強(qiáng)度值。
2.2 基于語料庫的方法
基于語料庫的方法假設(shè)在語料庫中共同出現(xiàn)的情感詞擁有相同的情感傾向,利用語料中的共現(xiàn)信息、上下文信息等計算情感詞的情感傾向。
Turney[16]利用一些特定的語法模式抽取形容詞和副詞作為候選情感詞,然后計算情感詞與“excellent”和“poor”之間的點(diǎn)互信息(PMI)的差值來判別其情感傾向。PMI 使用搜索引擎 AltaVista 返回的 hits 值計算每個詞與種子情感詞的相似度。Turney和Littman[17]進(jìn)一步將初始的褒義和貶義詞種子集擴(kuò)展為七個詞,并計算詞和種子集點(diǎn)互信息的綜合值來判斷情感詞的情感傾向。Hatzivassiloglou等[18]利用大規(guī)模語料中的連接詞來識別形容詞的情感傾向,首先使用對數(shù)線性回歸模型(log-liner regression model)預(yù)測由不同連接詞連接的形容詞對是否具有相同或相反的情感傾向,然后根據(jù)形容詞之間的聯(lián)系利用聚類算法將形容詞聚為褒義和貶義的兩類。Kanayama和Nasukawa[19]提出了一種無監(jiān)督的算法建立領(lǐng)域情感詞典。首先,他們建立了初始的具有明確情感傾向(詞的情感傾向和領(lǐng)域無關(guān))的情感詞典,然后通過分析領(lǐng)域相關(guān)語料中語句內(nèi)部和語句間的文本和連接詞來獲取新詞的情感傾向從而擴(kuò)展情感詞典,最終形成特定領(lǐng)域的情感詞典。Ding和Liu[20]考慮了即使在同一領(lǐng)域中,修飾不同產(chǎn)品特征時某些情感詞也具有不同的情感傾向,利用語句內(nèi)和語句間的文本和連接詞來判斷描述特定產(chǎn)品特征的情感詞的情感傾向。Lau等[21]不僅利用了情感詞之間的上下文關(guān)系,而且利用了文檔和情感詞間的關(guān)系來建立領(lǐng)域情感詞典。Huang等[8]使用句法分析和主觀線索字典抽取情感詞,然后根據(jù)PMI建立情感詞之間的聯(lián)系圖,并抽取語言學(xué)規(guī)則(例如,un、dis等前綴修飾的詞一般和原詞表示相反的情感傾向)以及語料中的并列、轉(zhuǎn)折關(guān)系作為限制條件。結(jié)合情感詞間的聯(lián)系圖以及限制條件,利用基于約束的標(biāo)簽傳播算法來獲取情感詞的情感傾向。
王素格,李德玉等[22]在利用PMI計算中文詞的情感傾向時,除了考慮一個詞和褒義詞、貶義詞種子集的關(guān)系外,還考慮了該詞和其同義詞集的關(guān)系,同時基于詞的類別區(qū)分能力提出了特定領(lǐng)域中褒義詞和貶義詞種子集的選取方法。杜偉夫等[23]將詞語情感傾向計算問題歸結(jié)為優(yōu)化問題,首先利用HowNet相似度和PMI值構(gòu)建情感詞間的無向圖,然后利用以“最小切分”為目標(biāo)的目標(biāo)函數(shù)對該圖進(jìn)行劃分,并使用模擬退火算法進(jìn)行求解。
本文提出了一個兩階段的領(lǐng)域情感詞典構(gòu)造方法。第一階段,使用情感詞間的PMI統(tǒng)計值和上下文約束關(guān)系建立情感詞間的相似性矩陣,然后利用基于約束的標(biāo)簽傳播算法在情感詞褒貶義種子集上不斷迭代來構(gòu)造基本情感詞典,為每一個情感詞分配固定的情感傾向。第二階段,根據(jù)情感詞出現(xiàn)情感沖突的頻率來識別領(lǐng)域相關(guān)情感詞,并根據(jù)其在語料中的上下文信息對修飾的不同產(chǎn)品特征分配不同的情感傾向。
3.1 領(lǐng)域情感詞典
領(lǐng)域情感詞典由一系列特定領(lǐng)域中的情感詞及其情感傾向構(gòu)成,我們將領(lǐng)域情感詞典的每一個元素定義為一個四元組 (D,W,F,P)。其中,D表示情感詞典的適用領(lǐng)域;W表示情感詞;F表示情感詞修飾的產(chǎn)品特征,如果情感詞在特定領(lǐng)域中表示相同的情感,則F表示為“ALL”;P表示情感詞的情感傾向(褒義為1,貶義為-1)。
3.2 產(chǎn)品特征及其情感詞的獲取
為了構(gòu)建領(lǐng)域情感詞典,需要抽取產(chǎn)品評論中所包含的產(chǎn)品特征及其對應(yīng)的情感詞。產(chǎn)品特征及其情感的抽取是產(chǎn)品評論挖掘的基本工作之一,很多學(xué)者已經(jīng)提出了各種算法來完成這項工作[1,24-26]。本文利用雙向傳播算法[26]完成產(chǎn)品特征及其情感詞的抽取工作。雙向傳播算法利用情感詞和產(chǎn)品特征之間、情感詞之間、產(chǎn)品特征之間的句法依存關(guān)系模式抽取產(chǎn)品特征和情感詞,不需要標(biāo)注大量的訓(xùn)練數(shù)據(jù),只需要一部分情感詞種子,利用特定的句法依存關(guān)系模式不斷迭代來獲取新的產(chǎn)品特征和情感詞,并對抽取的產(chǎn)品特征和情感詞進(jìn)行排序以提高準(zhǔn)確率。雙向傳播算法定義了四類規(guī)則來抽取產(chǎn)品特征和情感詞(表1)。使用規(guī)則R1i利用情感詞抽取情感詞,使用規(guī)則R2i利用情感詞抽取產(chǎn)品特征,使用規(guī)則R3i利用產(chǎn)品特征抽取產(chǎn)品特征,使用規(guī)則R4i利用產(chǎn)品特征抽取情感詞。
表1中第二列是產(chǎn)品特征和觀點(diǎn)之間的句法依存關(guān)系模式,第三列是抽取規(guī)則的限制條件,最后一列是結(jié)果。箭頭代表著句法依存關(guān)系,例如,“S→S-Dep→F”表示S通過依存關(guān)系S-Dep依存于F。
表1 產(chǎn)品特征和情感詞的抽取規(guī)則
表中,s(f)表示抽取的觀點(diǎn)(產(chǎn)品特征),{S}({F})和S-Dep(F-Dep)表示已獲取的觀點(diǎn)(產(chǎn)品特征)以及其句法依存關(guān)系,H表示任意單詞。POS(S)(POS(F))是S(F)的詞性信息。{JJ}和{NN}、{NN,VV}是觀點(diǎn)和產(chǎn)品特征應(yīng)滿足的詞性集。本文抽取形容詞作為觀點(diǎn),名詞和動詞作為產(chǎn)品特征。{MR}代表產(chǎn)品特征和觀點(diǎn)間可能存在的依存關(guān)系,例如,SBV,VOB,ATT等。{CONJ}表示并列連詞依存關(guān)系。
3.3 產(chǎn)品評論中情感詞的上下文約束
情感詞的上下文約束是指情感詞和其上下文的情感詞間,由于存在并列、轉(zhuǎn)折等關(guān)系,從而保持相同或相反的情感傾向。一些學(xué)者已經(jīng)將這些關(guān)系運(yùn)用到情感分析中[8,18-21]。本文提取了以下四種情感詞間的上下文約束。
(1) 并列關(guān)系
具有并列關(guān)系的兩個情感詞一般具有相同的情感傾向。例如,“外觀美麗、大方”。
(2) 轉(zhuǎn)折關(guān)系
具有轉(zhuǎn)折關(guān)系的兩個情感詞一般具有相反的情感傾向。例如,“屏幕分辨率雖然比較低,但是顯示效果不錯?!?/p>
(3) 語句內(nèi)情感關(guān)系
產(chǎn)品評論中,經(jīng)常在同一句話中出現(xiàn)對多個產(chǎn)品特征的評價,這些評價的情感詞往往具有相同的情感傾向。例如,“外觀大方,屏幕分辨率很高,價格實(shí)惠。”
(4) 語句間情感關(guān)系
產(chǎn)品評論中,人們經(jīng)常在相鄰的句子中表達(dá)相同的情感傾向。例如,“屏幕分辨率高,色彩鮮艷。電池續(xù)航時間長。”
3.4 基本情感詞典的構(gòu)造
3.4.1 情感詞聯(lián)系圖
(1)
3.4.2 約束傳播
PMI利用了兩個情感詞間的共現(xiàn)統(tǒng)計信息,但是沒有考慮兩個情感詞間的上下文語義約束信息(例如,并列、轉(zhuǎn)折關(guān)系等)。為了利用情感詞間的上下文語義約束,我們提取了四種約束: 并列關(guān)系、轉(zhuǎn)折關(guān)系、語句內(nèi)情感關(guān)系、語句間情感關(guān)系。我們將一般具有相同情感傾向的并列關(guān)系、語句內(nèi)情感關(guān)系、語句間情感關(guān)系定義為正向約束關(guān)系,一般具有相反情感傾向的轉(zhuǎn)折關(guān)系定義為反向約束關(guān)系。
(2)
但這些約束關(guān)系只能影響與其相關(guān)的局部情感詞,而不能擴(kuò)展到整個情感詞集[21]。我們將抽取的上下文約束進(jìn)一步傳播,作為先驗(yàn)知識以修正情感詞間的相似性矩陣A,其算法如下:
(1) 基于相似矩陣A構(gòu)造權(quán)重矩陣W如式(3)所示。
(3)
(2) 構(gòu)造矩陣S=Z-1/2WZ-1/2,Z是對角矩陣,其第i行i列的值等于W第i行值的和。
(3) 通過式(4)進(jìn)行垂直傳播,直到收斂。
(4)
(4) 通過式(5)進(jìn)行水平傳播,直到收斂。
(5)
3.4.3 基于約束的標(biāo)簽傳播
標(biāo)簽傳播算法是一個優(yōu)秀的基于圖的半監(jiān)督學(xué)習(xí)算法,具有很好的效率和收斂性[27]。本文結(jié)合經(jīng)過約束傳播修正的情感詞相似性矩陣A和標(biāo)簽傳播算法來計算情感詞的情感傾向,構(gòu)造基本情感詞典。
結(jié)合約束傳播的結(jié)果,對相似性矩陣A進(jìn)行式(6)修正。
(6)
(7)
(1) 按如下公式更新情感傾向向量ft的值,每個情感詞的情感傾向都受其相鄰情感詞情感傾向的影響如式(8)所示。
ft+1=Tft
(8)
(2) 將情感詞種子集對應(yīng)的向量元素值復(fù)原如式(9)所示。
(9)
(3) 重復(fù)上述過程直到收斂。
收斂后,可以得到情感傾向向量ft。如果情感詞對應(yīng)的向量元素的值大于0,則認(rèn)為其情感傾向是褒義的。如果情感詞對應(yīng)的向量元素的值小于0,則認(rèn)為其情感傾向是貶義的。
3.5 領(lǐng)域相關(guān)情感詞的識別
(1) 獲取所有特征情感詞實(shí)例集合FO;
(2) 遍歷FO中的特征情感詞實(shí)例對(foi,foi+1);
(3) 如果foi和foi+1的情感詞間不存在正向和反向約束關(guān)系,跳轉(zhuǎn)到(2);
獲取領(lǐng)域相關(guān)情感詞集DS后,可以根據(jù)這些情感詞修飾的產(chǎn)品特征進(jìn)一步修正基本情感詞典,從而得到領(lǐng)域相關(guān)情感詞典,其算法如下。其中,集合OFS是四元組(W,F,Pos,Neg)的集合,W表示情感詞,F(xiàn)表示情感詞修飾的產(chǎn)品特征,Pos表示褒義傾向的計數(shù),Neg表示貶義傾向的計數(shù)。
(1) 獲取所有特征情感詞實(shí)例集合FO;
(2) 遍歷FO中的特征情感詞實(shí)例foi;
(3) 如果foi的情感詞xm∈DS,尋找foi的前后實(shí)例foi-1和foi+1;
(4) 將foi-1和foi+1中優(yōu)先級較大的賦予fo′,優(yōu)先級順序?yàn)椴⒘嘘P(guān)系、轉(zhuǎn)折關(guān)系、語句內(nèi)情感關(guān)系、語句間情感關(guān)系;
(5) 如果fo′中情感詞為褒義,則在OFS中尋找與fo′的產(chǎn)品特征和情感詞對應(yīng)的四元組(W,F,Pos,Neg),并將Pos的值加1,跳轉(zhuǎn)到(2);
(6) 如果fo′中情感詞為貶義,則在OFS中尋找與fo′的產(chǎn)品特征和情感詞對應(yīng)的四元組(W,F,Pos,Neg),并將Neg的值加1,跳轉(zhuǎn)到(2);
(7) 遍歷集合OFS,根據(jù)Pos和Neg中較大的值來決定其情感傾向并加入到領(lǐng)域情感詞典中。
4.1 實(shí)驗(yàn)數(shù)據(jù)
本文的產(chǎn)品評論數(shù)據(jù)都取自一些電子商務(wù)網(wǎng)站以及評論網(wǎng)站。網(wǎng)絡(luò)上存在著大量的電子商務(wù)網(wǎng)站以及評論網(wǎng)站,經(jīng)過分析我們選擇了亞馬遜、京東商城、中關(guān)村在線、it168這四個典型的網(wǎng)站作為我們評論數(shù)據(jù)的來源。電子產(chǎn)品是網(wǎng)絡(luò)上評論數(shù)量最多的一類產(chǎn)品,本文選擇了以上網(wǎng)站中的手機(jī)、數(shù)碼相機(jī)這兩種典型電子產(chǎn)品的評論來構(gòu)造實(shí)驗(yàn)用的評論數(shù)據(jù)集。表2給出了數(shù)據(jù)集中評論和句子的數(shù)量。
表2 實(shí)驗(yàn)數(shù)據(jù)集
4.2 產(chǎn)品特征和情感詞抽取及約束關(guān)系分析
產(chǎn)品特征及其對應(yīng)情感詞的抽取是構(gòu)建領(lǐng)域情感詞典的基礎(chǔ)工作。本文利用雙向傳播算法同時抽取產(chǎn)品特征及其情感詞,抽取結(jié)果的準(zhǔn)確率和召回率見表3。
表3 產(chǎn)品特征及其情感詞的抽取結(jié)果
情感詞在上下文中的并列關(guān)系、轉(zhuǎn)折關(guān)系、語句內(nèi)情感關(guān)系、語句間情感關(guān)系是我們工作的重要基礎(chǔ)。我們在這些關(guān)系的基礎(chǔ)上利用基于約束的標(biāo)簽傳播算法建立基本情感詞典,并進(jìn)一步利用這些關(guān)系完善了領(lǐng)域情感詞典。這四種情感詞上下文約束關(guān)系在語料中所占的比例以及置信度見表4。
表4 語料中不同上下文約束關(guān)系所占的比例及置信度
4.3 實(shí)驗(yàn)結(jié)果
本文提出了一個兩階段的領(lǐng)域相關(guān)情感詞典構(gòu)造方法。為了驗(yàn)證該方法的有效性,我們在表5中對比了幾種不同算法的結(jié)果。其中,HowNet代表文獻(xiàn)[12]中基于HowNet語義相似度的方法;Cilin代表文獻(xiàn)[13]中基于同義詞詞林的方法;PMI代表在當(dāng)前語料庫中基于PMI的方法;ChConsLP代表針對中文語料改進(jìn)后的文獻(xiàn)[21]中方法,但只使用了并列和轉(zhuǎn)折兩種關(guān)系;ImChConsLP代表本文提出的方法。為了便于比較,表5的結(jié)果都是基于領(lǐng)域內(nèi)選擇的十對褒貶義種子集。
表5 實(shí)驗(yàn)結(jié)果
從表5的結(jié)果中可以看出,本文提出的方法在兩個領(lǐng)域中都取得了最好的F-measure值。HowNet和《同義詞詞林》都是手工編制的詞典,包含了大量詞匯,因此HowNet和Cilin這兩種方法的召回率都比較高。但這兩種方法都沒有考慮領(lǐng)域情感詞的情感傾向,因此準(zhǔn)確率較低。PMI利用語料上的點(diǎn)互信息統(tǒng)計值來計算情感詞的情感傾向,相對于HowNet和Cilin來說具有更高的準(zhǔn)確率。但對于一些語料中出現(xiàn)頻率較少的情感詞存在數(shù)據(jù)稀疏的問題,因此召回率較低。ChConsLP和ImChConsLP相對于PMI在準(zhǔn)確率和召回率上都取得了更好的效果,證明了情感詞的上下文約束關(guān)系和標(biāo)簽傳播算法的有效性。同時,ImChConsLP比ChConsLP在準(zhǔn)確率和召回率上都有所提高,證明了本文提出方法的有效性。
本文使用了并列關(guān)系、轉(zhuǎn)折關(guān)系、語句內(nèi)情感關(guān)系、語句間情感關(guān)系來建立基本情感詞典以及修正領(lǐng)域情感詞典。表6對比了使用不同上下文約束關(guān)系以及修正領(lǐng)域情感詞典的效果。其中,ChConsLP使用了并列關(guān)系和轉(zhuǎn)折關(guān)系,ChConsLP1在ChConsLP的基礎(chǔ)上增加了語句內(nèi)情感關(guān)系和語句間情感關(guān)系,ImChConsLP在ChConsLP1的基礎(chǔ)上利用四種上下文約束關(guān)系以及情感詞修飾的特征進(jìn)行了領(lǐng)域情感詞典的修正。
表6 使用不同上下文約束關(guān)系及修正領(lǐng)域情感詞典的結(jié)果
從表6的結(jié)果中可以看出,加入了語句內(nèi)情感關(guān)系和語句間情感關(guān)系后準(zhǔn)確率和召回率都有所提高,證明了語句內(nèi)情感關(guān)系和語句間情感關(guān)系能有效提高情感傾向計算的效果。ImChConsLP利用四種上下文約束關(guān)系計算情感沖突頻率來識別領(lǐng)域相關(guān)情感詞,并利用情感詞在語料中的上下文信息對其修飾的不同特征分配不同的情感傾向,從而進(jìn)一步提高了準(zhǔn)確率。但由于修飾不同產(chǎn)品特征時具有不同情感傾向的情感詞在整個語料中所占比例較小,因此準(zhǔn)確率的改善較小。
表7對比了褒貶義種子數(shù)量對實(shí)驗(yàn)結(jié)果的影響。從結(jié)果中可以看出: (1)隨著種子數(shù)量的增長,準(zhǔn)確率和召回率都有所提高,但對召回率的影響較小。(2)當(dāng)種子由五對變成十對時,在手機(jī)語料中準(zhǔn)確率提高了1.7%,在數(shù)碼相機(jī)語料中準(zhǔn)確率提高了1.2%。當(dāng)再增加更多種子時,準(zhǔn)確率提高并不顯著。因此,本文提出的算法使用較小的種子集就可以得到較好的效果。
表7 褒貶義種子數(shù)量對實(shí)驗(yàn)結(jié)果的影響
情感詞典是進(jìn)行情感分析的基礎(chǔ)。但有些情感詞在不同領(lǐng)域中具有不同的情感傾向,甚至在同一領(lǐng)域中修飾不同產(chǎn)品特征時也具有不同的情感傾向。因此,建立領(lǐng)域情感詞典能更好地識別情感詞的情感傾向。本文提出了一個兩階段的領(lǐng)域情感詞典構(gòu)建方法,并在手機(jī)和數(shù)碼相機(jī)兩種電子產(chǎn)品評論語料集上驗(yàn)證了該方法的有效性。同時,使用較小的種子集就可以取得理想的準(zhǔn)確率和召回率。本文只判別了情感詞的情感傾向,如何判斷情感傾向的強(qiáng)度將是今后工作的一個重要問題。
[1] M HU, B LIU. Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004: 168-177.
[2] A M Popescu, O Etzioni. Extracting product features and opinions from review[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing, 2005: 339-346.
[3] P Stone, D Dunphy, M Smith, et al. The General Inquirer: A Computer Approach to Content Analysis[M]. Cambridge: MIT Press, 1966.
[4] S Baccianella, A Esuli, F Sebastian. SENTIWORDNET3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining[C]//Proceedings of the Seventh Conference on International Language Resources and Evaluation, 2010: 2200-2204.
[5] 知網(wǎng), 董振東: http://www.keenage.com/[EB/OL].
[6] L W Ku, H H Chen. Mining Opinions from the Web: Beyond Relevance Retrieval[J]. Journal of the American Society for Information Science and Technology.2007, 58(12): 1838-1850.
[7] 徐琳宏,林鴻飛,潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報學(xué)報, 2008, 27(2): 180-185.
[8] S Huang, Z Niu, C Shi. Automatic Construction of Domain-specific Sentiment Lexicon Based on Constrained Label Propagation[J]. Knowledge-Based Systems, 2013, 56: 191-200.
[9] M HU, B LIU. Mining Opinion Features in Customer Reviews[C]//Proceedings of 9th National Conference on Artificial Intelligence, 2004: 755-760.
[10] J Kamps, M Marx, R J Mokken, et al. Using Wordnet to Measure Semantic Orientations of Adjectives[C]//Proceedings of the 4th International Conference on International Language Resources and Evaluation, 2004: 1115-1118.
[11] D Rao, D Ravichandran. Semi-supervised Polarity Lexicon Induction[C]//Proceedings of the 12thConference of the European Association of Computational Linguistics, 2009: 675-682.
[12] A Esuli, F Sebastiani. Sentiwordnet: A Publicly Available Lexical Resource for Opinion Mining[C]//Proceedings of the 5th Conference on Language Resources and Evaluation, 2006: 417-422.
[13] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報, 2006, 20(1): 14-20.
[14] 路斌,萬小軍,楊建武,等. 基于同義詞詞林的詞匯褒貶計算[C] . 第七屆中文信息處理國際會議論文集. 武漢, 中國: 電子工業(yè)出版社, 2007: 17-23.
[15] 周詠梅,楊佳能,陽愛民. 面向文本情感分析的中文情感詞典構(gòu)建方法[J]. 山東大學(xué)學(xué)報(工 學(xué) 版), 2013,43(6): 27-33.
[16] P D Turney. Thumbs Up or Thumbs Down?: Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 417-424.
[17] P D Turney, M L Littman. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transaction on Information System, 2003, 21(4): 315-346.
[18] V Hatzivassiloglou, K R McKeown. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 8th Conference on European Chapter of the Association for Computational Ling, 1997: 174-181.
[19] H Kanayama, T Nasukawa. Fully Automatic Lexicon Expansion for Domain-Oriented Sentiment Analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006: 355-363.
[20] X Ding, B Liu. The Utility of Linguistic Rules in Opinion Mining[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2007: 811-812.
[21] R Y K Lau, C L Lai, P D Bruza, et al. Leveraging Web 2.0 Data for Scalable Semi-supervised Learning of Domain-specific Sentiment Lexicons[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management, 2011: 2457-2460.
[22] 王素格, 李德玉, 魏英杰, 等. 基于同義詞的詞匯情感傾向判別方法[J]. 中文信息學(xué)報, 2009,23(5): 68-74.
[23] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語義傾向計算方法[J]. 計算機(jī)研究與發(fā)展, 2009, 46(10): 1713-1720.
[24] G Qiu, B Liu, J Bu et al. Expanding domain sentiment lexicon through double propagation[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence,2009: 1199-1204.
[25] L Zhang, B Liu, S H Lim, et al. Extracting and ranking product features in opinion documents [C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010: 1462-1470.
[26] Y Xi. 產(chǎn)品評論特征及觀點(diǎn)抽取研究[J]. 情報學(xué)報, 2014,33(3): 326-336.
[27] F Wang, C Zhang. Label Propagation through Linear Neighborhoods[C]//Proceedings of the 23rd International Conference on Machine Learning, 2006: 985-992.
Construction of Domain-specific Sentiment Lexicon in Product Reviews
XI Yahui
(College of Mathematics and Computer Science, HeBei University, Baoding, Hebei 071002,China)
Domain-specific sentiment lexicon plays an important role in sentiment analysis system. Due to the huge number of the product review in diverse domains , automatic construction of domain-specific sentiment lexicon is a challenging task. This paper proposes a two-phrase automatic construction algorithm of domain-specific sentiment lexicon. In the first phrase, the constrained label propagation algorithm is applied to the construction of base sentiment lexicon by using PMI and contextual constraints. In the second phrase, the domain-specific sentiment words are exacted by the frequency of sentiment conflict, and the domain-specific sentiment lexicon is improved according to the contextual constraints and the product feature modified by the sentiment word. Experiments on diverse real-life datasets show promising results.
sentiment analysis; domain-specific sentiment lexicon; contextual constraints; constrained label propagation algorithm
郗亞輝(1977-),副教授,主要研究領(lǐng)域?yàn)槲谋就诰?、信息檢索。E?mail:xiyahui@hbu.edu.cn
1003-0077(2016)05-0136-09
2014-12-04 定稿日期: 2015-06-09
國家自然科學(xué)基金(61170039)
TP391
A