一種擴(kuò)展式CRFs的短語情感傾向性分析方法研究

2015-04-25 09:57:36烏達(dá)巴拉汪增福

中文信息學(xué)報(bào) 2015年1期

關(guān)鍵詞：傾向性短語詞語

烏達(dá)巴拉，汪增福

(1. 中國科學(xué)技術(shù)大學(xué) 自動(dòng)化系，安徽合肥 230027；2. 中國科學(xué)院合肥智能機(jī)械研究所，安徽合肥 230031)

一種擴(kuò)展式CRFs的短語情感傾向性分析方法研究

烏達(dá)巴拉1,2，汪增福1,2

(1. 中國科學(xué)技術(shù)大學(xué) 自動(dòng)化系，安徽合肥 230027；2. 中國科學(xué)院合肥智能機(jī)械研究所，安徽合肥 230031)

短語情感傾向性分析是文本情感分析的重要研究內(nèi)容。該文將短語情感傾向性分析問題視作序列標(biāo)注問題，利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)短語的情感傾向性判斷。條件隨機(jī)場(chǎng)模型是利用序列特征處理序列標(biāo)注問題的經(jīng)典方法，然而現(xiàn)有條件隨機(jī)場(chǎng)模型無法將詞語的情感傾向性分析與短語的情感傾向性分析相結(jié)合，從而造成準(zhǔn)確率不高。因此，該文提出一種擴(kuò)展式條件隨機(jī)場(chǎng)模型YACRFs。該模型在鏈?zhǔn)綏l件隨機(jī)場(chǎng)模型的基礎(chǔ)上進(jìn)行擴(kuò)充，將詞語情感傾向性分析與短語情感傾向性分析有效地結(jié)合起來，引入了情感詞匯、短語規(guī)則模板以及詞性等特征。與傳統(tǒng)的規(guī)則方法和統(tǒng)計(jì)分類方法進(jìn)行對(duì)比實(shí)驗(yàn)，該文提出方法取得了最高準(zhǔn)確率81.07%。進(jìn)一步地，在應(yīng)用于句子情感傾向性分析的實(shí)驗(yàn)中得到了94.30%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，該文所提出的YACRFs模型能夠顯著提高短語情感傾向性判斷結(jié)果的準(zhǔn)確率。

短語;情感傾向性分析;條件隨機(jī)場(chǎng)

1 引言

文本情感傾向性分析是對(duì)文本信息資源的情感分類“支持、反對(duì)或中立”和情緒分類“喜悅、憤怒、悲哀、恐懼、驚慌”等的合稱。文本情感分析研究作為自然語言處理、人工智能、信息檢索以及數(shù)據(jù)挖掘等多個(gè)領(lǐng)域的重要研究內(nèi)容，具有廣泛的應(yīng)用前景。例如，在商業(yè)領(lǐng)域，銷售方可以通過跟蹤用戶對(duì)產(chǎn)品的回饋意見來獲得改進(jìn)產(chǎn)品質(zhì)量的針對(duì)性意見，消費(fèi)者也可以通過網(wǎng)上真實(shí)的產(chǎn)品評(píng)論信息來調(diào)整個(gè)人的購買意向。

就情感分類“支持、反對(duì)或中立”的研究而言，文本情感傾向性分析可分為詞語級(jí)、短語級(jí)、句子級(jí)以及文檔級(jí)的研究[1]。具體例子如表1所示。

表1 各級(jí)文本情感傾向性實(shí)例

早期的研究主要集中在詞語級(jí)的情感傾向性判斷，識(shí)別新的情感詞匯以及確定其語義傾向[2-9]。句子級(jí)和文檔級(jí)的情感傾向判斷研究是指將語句和篇章作為一個(gè)整體進(jìn)行情感傾向性的判斷[10-13]。然而無論是詞語級(jí)的、句子級(jí)的，還是文檔級(jí)的情感傾向性分析都存在一定的局限性。就詞語級(jí)的情感傾向性分析而言，由于自然語言本身的靈活性和復(fù)雜性，單個(gè)詞語的情感極性存在一定的歧義性[例如，句子“Polo車的性能較高，但是價(jià)格也較高?！敝械那耙粋€(gè)詞“高”表現(xiàn)出褒義(支持)，但是后面的“高”則含有貶義(反對(duì))傾向]；此外，隨著網(wǎng)絡(luò)語言的迅速演變，新詞、新詞義和錯(cuò)詞層出不窮，導(dǎo)致未登錄詞的比例和影響增大。至于句子級(jí)或文檔級(jí)的情感傾向性分析研究，一條句子或一篇文檔的情感傾向性并不能只靠所包含的情感詞匯決定。一個(gè)情感詞的極性會(huì)受到與它有一定上下文相關(guān)性的其他詞的影響而改變。例如，否定詞可以改變一個(gè)情感詞的極性(如“這款車的性能不好”)，實(shí)詞之間相互聯(lián)系也可以改變其極性(如“該配方可扼殺細(xì)菌”)等。而且，真實(shí)文本往往包含多個(gè)對(duì)象，不同的對(duì)象所涉及到的觀點(diǎn)、態(tài)度等主觀信息是有差異的。相比而言，短語級(jí)的情感傾向性分析研究將詞語組，即由情感詞以及與該情感詞相關(guān)的詞，如修飾它的副詞、形容詞、連詞或它所修飾的目標(biāo)詞等組合而成，作為一個(gè)整體來考慮文本的情感極性和情感強(qiáng)度。不僅可以提高詞語級(jí)情感傾向性分析結(jié)果，還可以很方便地應(yīng)用到句子或文檔的情感傾向性判斷。

鑒于以上分析，本文研究基于短語的文本情感傾向性分析。然而截至目前，國內(nèi)外在短語級(jí)的情感傾向性分析方面的研究較少。目前的研究主要分為兩類：一類是利用預(yù)先定義的種子詞集、規(guī)則(例如，由褒義詞+中性詞的組合構(gòu)成的詞語組的情感傾向?yàn)榘x)以及預(yù)先定義的短語情感信息等來判斷，并未進(jìn)行更深入的算法分析[13]。并且這些研究也并非專門針對(duì)短語進(jìn)行分析，而只是將短語情感類別信息作為句子或是文檔的情感傾向判斷分類器的一類特征；另一類是采用有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)方法，如支持向量機(jī)(Support Vector Machine, SVM)和條件隨機(jī)場(chǎng)(Condition Random Fields, CRFs)等，對(duì)短語進(jìn)行情感類別標(biāo)注[14-17]。盡管SVM或CRFs等統(tǒng)計(jì)模型可以挖掘真實(shí)文本中蘊(yùn)含的用戶提供的知識(shí)，但是它們?cè)谕诰蚋鼮閺?fù)雜的、潛在的關(guān)聯(lián)任務(wù)(例如，詞語級(jí)情感傾向性判斷與短語級(jí)情感傾向性判斷的關(guān)聯(lián))時(shí)表現(xiàn)得力所不及。

據(jù)此，本文提出一種擴(kuò)展式的條件隨機(jī)場(chǎng)模型YACRFs (Yet Another Condition Random Fields) 對(duì)短語進(jìn)行情感傾向性分析。YACRFs是在CRFs模型的基礎(chǔ)上進(jìn)行擴(kuò)展，將詞語級(jí)與短語級(jí)的情感傾向性判斷問題有效地關(guān)聯(lián)起來，同步實(shí)現(xiàn)詞語級(jí)的傾向性判斷與短語情感傾向性判斷，通過詞語級(jí)情感傾向性對(duì)短語級(jí)情感傾向性產(chǎn)生的直接或間接影響提高短語情感傾向性判斷的結(jié)果。由于目前沒有公開的短語情感傾向性標(biāo)注語料庫，因此首先構(gòu)造小規(guī)模的短語情感傾向性類別信息標(biāo)注語料庫。在此基礎(chǔ)上，對(duì)該語料進(jìn)行句法分析，獲取短語。本文所指短語亦由具有某種特定句法關(guān)系的連續(xù)或非連續(xù)的詞語組構(gòu)成。例如，表1例子中的句子“在一般情況下，官方發(fā)布消息講求準(zhǔn)確、真實(shí)，因而在未弄清事實(shí)之前會(huì)惜墨如金”就由“在一般情況下”、“官方發(fā)布消息”、“講求準(zhǔn)確、真實(shí)”、“在未弄清事實(shí)之前”、“惜墨如金”等幾個(gè)短語構(gòu)成。進(jìn)而，本文將短語情感傾向性分視作對(duì)短語的情感傾向性類別信息的標(biāo)注問題，即給定任意一條短語NP或VP，判定它的情感傾向性為(0/-1/1)。本文采用了3類特征，包括情感詞匯特征、規(guī)則模板特征、詞性特征。實(shí)驗(yàn)結(jié)果證明，本文提出方法有效提高了短語情感傾向性判斷的準(zhǔn)確率。相比傳統(tǒng)的情感傾向性分析方法取得了最高準(zhǔn)確率81.07%的值。模型中使用的3類特征對(duì)提高短語情感傾向性的判斷具有顯著幫助。進(jìn)一步，將短語級(jí)的結(jié)果應(yīng)用于句子情感傾向性分析的實(shí)驗(yàn)，得到了94.3%的準(zhǔn)確率，從而證明了本文提出方法的實(shí)際應(yīng)用價(jià)值。

本文的貢獻(xiàn)包含以下兩點(diǎn)： (1)本文率先提出將短語情感傾向性分析問題作為序列標(biāo)注問題加以解決。由于短語情感傾向性的復(fù)雜性，單一地對(duì)短語進(jìn)行情感傾向性分析或是通過詞語的情感傾向性分析間接想得到短語的情感傾向性分析往往準(zhǔn)確率不高。而在條件隨機(jī)場(chǎng)模型的框架下我們可以方便地對(duì)其進(jìn)行擴(kuò)展，融合多種特征，實(shí)現(xiàn)多層級(jí)的情感傾向性的標(biāo)注，從而更好地解決短語情感傾向性的問題；(2)本文人工構(gòu)造了小規(guī)模的短語情感傾向性標(biāo)注語料庫供實(shí)驗(yàn)所用，望該語料庫對(duì)后期實(shí)驗(yàn)有所貢獻(xiàn)。

2 模型

2.1 短語獲取

短語是由兩個(gè)或兩個(gè)以上的詞語組合構(gòu)成的。在計(jì)算語言學(xué)中，短語可以是具有一定句法關(guān)系的詞語組，也可以是不具有任何關(guān)系的連續(xù)詞語組。在短語識(shí)別及獲取的研究中，研究者多是針對(duì)具有一定句法關(guān)系的詞語組開展相應(yīng)的研究。本文亦是針對(duì)具有一定句法關(guān)系的短語，開展情感傾向性的分析。本文采用Stanford Parser句法分析器*http://nlp.stanford.edu/software/lex-parser.shtml來獲取相應(yīng)的短語。如圖1所示為本文抽取的短語示例(樹狀表示) 。

圖1 短語表示示例(樹狀表示)

2.2 特征選取

本文在實(shí)現(xiàn)短語情感傾向性分析過程中，共使用了三類特征。具體包括：

(1) 情感詞匯特征(Polarity)：情感詞匯特征是指由情感詞匯構(gòu)成的特征集。情感詞匯是指那些能夠表達(dá)支持/反對(duì)或者喜歡/厭惡等意見或情感傾向的詞。情感詞匯的極性包含正(即支持/喜歡)、負(fù)(即反對(duì)/厭惡)和中性等3種。以動(dòng)詞極性詞為例，高興、欣賞、快樂等詞的極性為正；而討厭、失敗、憎恨等詞的極性為負(fù)；寫、做、工作等詞的極性為中性。一般而言，除非包含改變一個(gè)詞或者短語情感極性的另外的詞，否則，包含情感極性詞的短語與該情感詞匯的極性一致。

由于目前情感詞匯詞典收錄有限，本文考慮將同義詞或同類詞也納入到情感詞匯特征行列，即假設(shè)同義詞或同類詞具有相同的情感傾向。在同義詞或同類詞的計(jì)算中，許多學(xué)者利用WordNet等類義詞典計(jì)算詞的語義相似度。最簡單的一類計(jì)算語義相似度的方法便是計(jì)算兩個(gè)詞在該樹狀結(jié)構(gòu)上的距離。簡單地講，兩個(gè)詞之間的距離越短，則相似度越大。本文采用潛在語義分析(Latent Semantic Analysis, LSA)算法實(shí)現(xiàn)兩個(gè)詞之間的距離。

(2) 規(guī)則模板特征(Pattern)。規(guī)則模板特征是指由本文設(shè)計(jì)的具有一定句法關(guān)系的詞語組構(gòu)成的連續(xù)或非連續(xù)的模板構(gòu)成的特征集。因此，此處規(guī)則并非語言學(xué)意義上的規(guī)則，而是根據(jù)設(shè)計(jì)的具有一定的句法關(guān)系的模板抽取出大量的特征。初始設(shè)計(jì)的模板包含改變一個(gè)詞或者短語情感極性的另外的詞，即詞之間相互影響情感傾向性。比如由否定詞構(gòu)成的規(guī)則模板。因此，規(guī)則模板特征所表現(xiàn)的既是詞語之間的直接關(guān)聯(lián)關(guān)系，也是短語內(nèi)部詞語之間的隱含關(guān)系。

規(guī)則模板的構(gòu)造是在選取一定的產(chǎn)生情感傾向性改變?cè)~的基礎(chǔ)上，在指定的窗口內(nèi)與其具有一定的句法關(guān)系的詞構(gòu)成。

(3) 詞性特征(Part of Speech, POS)：詞性特征是指由詞語的詞性構(gòu)成的特征。詞性作為詞語本身固有的特性也將會(huì)影響一個(gè)詞語的情感傾向。比如，形容詞多為帶有情感色彩的詞語，一般而言，形容詞的情感傾向不是正就是負(fù)。而且有些詞取不同的詞性時(shí)其情感傾向性不一樣，例如，“對(duì)”這個(gè)詞當(dāng)作為介詞時(shí)其情感傾向?yàn)橹行裕?dāng)作動(dòng)詞時(shí)其情感傾向?yàn)檎?。而詞語的情感傾向性是直接影響短語情感傾向性的一個(gè)重要因素。因此，在短語的情感傾向性判斷過程中詞語的詞性也是一個(gè)重要的特征之一。

2.3 情感傾向類別標(biāo)注模型

本文將短語的情感傾向性判斷問題轉(zhuǎn)化為序列標(biāo)注問題。目前應(yīng)用于自動(dòng)標(biāo)注的模型有很多，例如，自動(dòng)轉(zhuǎn)換機(jī)、隱馬爾可夫模型、最大熵模型、支持向量機(jī)和條件隨機(jī)場(chǎng)模型等。條件隨機(jī)場(chǎng)模型在目前的應(yīng)用中得到了state-of-the-art的結(jié)果[18]。

CRFs是一個(gè)無向圖模型的框架，它能夠被用來定義在給定一組需要標(biāo)記的觀察序列的條件下，求解一個(gè)標(biāo)記序列的概率分布。

定義1 假設(shè)X={xt},Y={yt}(t=1，…，T) 分別表示需要標(biāo)記的觀察序列和它相應(yīng)的標(biāo)記序列的分布隨機(jī)變量，那么CRFs(X,Y)就是一個(gè)以觀察序列X為條件的無向圖模型。在給定觀察序列X的條件下，標(biāo)記序列Y的概率分布如式(1)～(2)所示。

(1)

(2)

鏈?zhǔn)綏l件隨機(jī)場(chǎng)模型(Linear-Chain Condition Random Fields, LCRFs) 是目前在自然語言處理任務(wù)中比較常用的一種CRFs模型，可以說是條件隨機(jī)場(chǎng)模型中的一個(gè)特例。但是目前的LCRFs模型無法同步實(shí)現(xiàn)詞語級(jí)的情感傾向性和短語的情感傾向性判斷任務(wù)，而詞語級(jí)和短語級(jí)的情感傾向性存在復(fù)雜的關(guān)聯(lián)關(guān)系，相互影響其情感傾向性的判斷。為此，本文提出采用一種擴(kuò)展式的條件隨機(jī)場(chǎng)模(Yet Another Condition Random Fields, YACRFs) 來處理該問題。圖2顯示了鏈?zhǔn)紺RFs與擴(kuò)展式CRFs的簡單例子，圖2(a)為LCRFs模型，圖2(b)為YACRFs模型。

圖2(a) LCRFs模型簡單例子

定義2 設(shè)G=是一個(gè)線性鏈條件隨機(jī)場(chǎng)。X是序列觀測(cè)數(shù)據(jù)隨機(jī)變量,Y是狀態(tài)標(biāo)注序列隨機(jī)變量。YACRFs可定義為式(3)。

YACRFs仍是一個(gè)無向圖模型，圖中節(jié)點(diǎn)表示隨機(jī)變量，邊是節(jié)點(diǎn)與節(jié)點(diǎn)之間的某種概率依賴關(guān)系。如圖2(b)所示節(jié)點(diǎn)構(gòu)成了3個(gè)鏈?zhǔn)浇Y(jié)構(gòu)，其中x鏈?zhǔn)强捎^察的詞語序列(xij表示第i個(gè)短語的第j個(gè)單詞)，y鏈?zhǔn)窃~語的情感傾向類別，z鏈為短語的情感傾向類別。同時(shí)，x,y,z之間又構(gòu)成了一個(gè)團(tuán)(Clique)，即C為由這三個(gè)鏈中節(jié)點(diǎn)構(gòu)成的一個(gè)集合。而在LCRFs模型中xi表示第i個(gè)短語，yi表示第i個(gè)短語的情感傾向類別?？梢钥闯?，YACRFs模型中短語的情感類別信息被更細(xì)致化，在模型的構(gòu)建中考慮到了詞語的情感傾向性類別信息對(duì)其產(chǎn)生的影響。詞語情感傾向類別的值與特征fi以及yi-1相關(guān)，而短語的情感傾向類別zi的值與特征fi與yi有關(guān)。

2.4 參數(shù)估計(jì)與推理

進(jìn)一步對(duì)上述公式(4)求偏導(dǎo)數(shù)，得到式(5)。

為了減少過度擬合造成的損失，往往通過減去一個(gè)估計(jì)量λk/σ2實(shí)現(xiàn)。利用L-BFGS(LimitedMemoryBFGS)算法可對(duì)參數(shù)訓(xùn)練過程進(jìn)行進(jìn)一步的優(yōu)化。

推理(Inference)過程也稱為解碼(Decoding)過程，即根據(jù)已知訓(xùn)練模型，對(duì)未知變量的解釋或推理。在本文中，即根據(jù)已知訓(xùn)練模型，獲取短語的情感傾向類別。本文采用Viterbi算法實(shí)現(xiàn)整個(gè)解碼過程。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

目前，尚未發(fā)現(xiàn)有可供公開評(píng)測(cè)短語情感傾向性的語料庫。因此，本文首先需要構(gòu)造訓(xùn)練和測(cè)試的語料庫。本文采用的中文語料來源于網(wǎng)絡(luò)產(chǎn)品評(píng)論文本。

語料庫的構(gòu)造步驟包括：首先整理評(píng)論文本語料，并對(duì)評(píng)論文本進(jìn)行預(yù)處理，包括去除語言不規(guī)范、繁體以及內(nèi)容重復(fù)的內(nèi)容；然后將篇章級(jí)的文檔轉(zhuǎn)換為句子級(jí)的文檔，以一句一行的格式存儲(chǔ)；最后，利用句法分析器抽取短語。本文共抽取了28 000條短語。

短語情感傾向性標(biāo)注語料庫的構(gòu)造流程包括： (1)由兩名標(biāo)注者分別對(duì)抽取的短語進(jìn)行獨(dú)立標(biāo)注，每條短語被標(biāo)注為三個(gè)值{1，-1，0}(0:中性，1: 褒義/正，-1: 貶義/反)；(2)計(jì)算兩名標(biāo)注者的一致性，通過計(jì)算Kappa值來選取結(jié)果，如果Kappa值超過0.8，則說明兩者標(biāo)注結(jié)果的一致性很高，保留該短語的情感信息，否則去掉該短語。依照上述過程，本文共從上述候選的短語中得到25 000條短語。

本文采用的評(píng)價(jià)指標(biāo)僅為準(zhǔn)確率P。具體定義為P=|A∩B|/|A|。其中A表示分類器識(shí)別為正例的數(shù)據(jù)集合，B表示人工標(biāo)注為正例的數(shù)據(jù)集合。

3.2 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

本文實(shí)驗(yàn)包括3部分： (1)為驗(yàn)證本文提出方法的有效性，開展了與傳統(tǒng)的情感傾向性分析方法的對(duì)比實(shí)驗(yàn)；(2)為了驗(yàn)證本文提出統(tǒng)計(jì)分類方法的有效性以及不同特征對(duì)統(tǒng)計(jì)模型產(chǎn)生的影響，開展了幾類統(tǒng)計(jì)計(jì)算模型以及在其基礎(chǔ)上加入不同特征的對(duì)比實(shí)驗(yàn)；(3)將抽取得到的短語結(jié)果應(yīng)用到句子情感分析，以驗(yàn)證本文提出方法的實(shí)際應(yīng)用價(jià)值。

3.2.1 與傳統(tǒng)的情感傾向性分析方法的比較

本文實(shí)驗(yàn)共設(shè)計(jì)了三組模型供對(duì)比分析。(1) 分層模型(CascadedModel)。第一層是對(duì)詞語進(jìn)行情感傾向性判斷，首先根據(jù)HowNet情感詞匯庫中的詞為基本詞匯，去掉停用詞以及不常用的詞匯；第二層對(duì)短語進(jìn)行情感傾向性判斷，此時(shí)第一層的詞語情感傾向性判斷的結(jié)果是該層的輸入，會(huì)根據(jù)第一層的結(jié)果和相應(yīng)的規(guī)則，對(duì)短語進(jìn)行情感傾向性判斷；(2) 投票競爭(Voting)模型。短語的情感傾向通過詞語的情感傾向性投票競爭而產(chǎn)生。Voting模型需要設(shè)置Voting規(guī)則。本文簡單設(shè)置了Voting規(guī)則，即包含1值的高則短語的傾向值取1，包含-1值的高則短語情感傾向值取-1，否則短語的情感傾向值為0；(3)統(tǒng)計(jì)分類模型(StatisticalModel)。統(tǒng)計(jì)模型對(duì)數(shù)據(jù)進(jìn)行建模，可以挖掘真實(shí)文本中潛在的關(guān)聯(lián)模式。此處實(shí)驗(yàn)中采用的統(tǒng)計(jì)模型是本文提出的YACRFs模型，該模型采用的特征是本文設(shè)計(jì)的所有三類特征。

之所以選擇以上三類模型進(jìn)行對(duì)比實(shí)驗(yàn)是因?yàn)樗鼈兎謩e代表了不同的思想。首先本文設(shè)計(jì)的情感傾向性分析模型YACRFs的主旨思想是基于概率統(tǒng)計(jì)的思想，而且就目前而言，概率統(tǒng)計(jì)模型在自然語言處理、人工智能和模式識(shí)別等領(lǐng)域的應(yīng)用相當(dāng)廣泛；其次本文設(shè)計(jì)的分層模型Cascaded的主要思想是基于規(guī)則的方法，而基于規(guī)則的方法是基于語言學(xué)基礎(chǔ)的，在面向自然語言信息處理的研究過程中其份量仍然是不可小視；投票競爭(Voting)模型是最為簡單的方法，可以說是一種折中的方法。利用詞語的情感傾向性結(jié)果，通過投票決定短語的情感傾向性。

表2 三組模型對(duì)比實(shí)驗(yàn)結(jié)果

從表2三組模型的對(duì)比實(shí)驗(yàn)結(jié)果可以看出以下結(jié)論：本文設(shè)計(jì)的統(tǒng)計(jì)計(jì)算模型得到了最高的值，其次為Cascaded 模型,Voting模型的結(jié)果最為差。Cascaded 模型和Voting模型都較強(qiáng)地依賴情感詞典，首先通過搜尋情感詞匯判斷詞語的情感傾向性，而本文實(shí)驗(yàn)中設(shè)計(jì)的語料中26%的短語隱含情感詞匯，還有35%的短語中的情感詞匯屬于未登錄詞(Out of Vocabulary, OOV)，因此在第一步得到的結(jié)果就可能達(dá)不到令人滿意的效果。在下一步Cascaded 模型將會(huì)根據(jù)本文設(shè)計(jì)的規(guī)則模板，最終確定短語的情感傾向，只要符合規(guī)則模板的詞語組將會(huì)得到正確的情感傾向。但是Voting模型完全是通過投票，即誰的(正、負(fù)以及中性)投票結(jié)果多，短語的情感傾向性將會(huì)跟誰一致。這樣的判斷不可以說完全錯(cuò)誤，但是針對(duì)隱含情感詞匯的短語而言是無法得到正解的。例如，“坐不住”該短語的情感傾向性為“負(fù)”，但是投票過程中“坐”和“住”的情感傾向?yàn)椤爸行浴?，即便“不”的情感傾向?yàn)椤柏?fù)”，該短語的情感傾向仍為“中性”而不是“負(fù)”。統(tǒng)計(jì)模型之所以可以得到較好的結(jié)果，是因?yàn)樵谝欢ㄒ?guī)模的訓(xùn)練集內(nèi)，對(duì)數(shù)據(jù)進(jìn)行建模，可以挖掘真實(shí)文本中隱含的信息。因此，針對(duì)具有隱含情感信息的詞匯以及未登錄詞匯的問題，統(tǒng)計(jì)模型較之規(guī)則方法和投票競爭的折中方法可以得到更好的效果。

3.2.2 與典型的幾類統(tǒng)計(jì)計(jì)算模型以及在其基礎(chǔ)上分別加入不同的特征的對(duì)比

除了上述三種方法的對(duì)比實(shí)驗(yàn)之外，本文還分別采用四種統(tǒng)計(jì)計(jì)算模型進(jìn)行對(duì)比實(shí)驗(yàn)：隱馬爾可夫模型(Hidden Markov Model, HMM)、支持向量機(jī)(SVM*http://www.csie.ntu.edu.tw/～cjlin/libsvm/)、條件隨機(jī)場(chǎng)(CRFs*http://mallet.cs.umass.edu/grmm/index.php)以及一種擴(kuò)展式條件隨機(jī)場(chǎng)模型(YACRFs)。HMM是典型的產(chǎn)生式模型，而實(shí)驗(yàn)中采用的其他三個(gè)模型(SVM, CRFs, YACRFs)屬于判別式模型。同時(shí)為了驗(yàn)證不同特征對(duì)統(tǒng)計(jì)模型產(chǎn)生的影響，在實(shí)驗(yàn)中針對(duì)本文設(shè)計(jì)的三類特征：情感詞匯(Polarity)、規(guī)則模板 (Pattern)以及詞性類別信息(POS)分別作了相應(yīng)的實(shí)驗(yàn)。之所以設(shè)計(jì)該實(shí)驗(yàn)首先是因?yàn)楸疚脑O(shè)計(jì)的情感傾向性分析模型的主旨思想是基于概率統(tǒng)計(jì)模型，為了驗(yàn)證本文提出方法的優(yōu)越性，與幾種典型的概率統(tǒng)計(jì)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。其次是驗(yàn)證統(tǒng)計(jì)模型在采取不同特征時(shí)的不同效果以及本文選取特征的優(yōu)越性。實(shí)驗(yàn)結(jié)果如表3所示。

表3 四種統(tǒng)計(jì)模型對(duì)比實(shí)驗(yàn)結(jié)果

從表3四種統(tǒng)計(jì)模型對(duì)比實(shí)驗(yàn)結(jié)果可以得到如下的結(jié)果： (1) 本文設(shè)計(jì)的YACRFs模型的結(jié)果最好，HMM的效果比SVM的效果好，但是不及CRFs；(2)不同的特征對(duì)不同模型有不同的貢獻(xiàn)度。具體而言，HMM模型采用規(guī)則模板特征的效果要比引入情感詞匯特征的要高，但是判別式模型的結(jié)果卻是采用情感詞匯特征的效果要比利用規(guī)則模板特征的要高。從這一結(jié)果分析，判別式模型(SVM, CRFs, YACRFs)對(duì)粒度細(xì)致的特征有更好的效果；而產(chǎn)生式模型(HMM)可以能更好地抓住內(nèi)在聯(lián)系。從分別采用三類特征的結(jié)果來看，判別式模型在采用情感詞匯特征時(shí)的效果最好，而產(chǎn)生式模型采用規(guī)則模板特征時(shí)的結(jié)果最好；從聯(lián)合使用三類特征的結(jié)果來看，并非所有模型在使用三類特征時(shí)都取得了較好的結(jié)果。從結(jié)果可以看到的一點(diǎn)是“情感詞匯特征”與“規(guī)則模板特征”的聯(lián)合使用并沒有得到預(yù)想的效果。HMM模型和SVM模型在此兩種特征的混合特征的情況下得到的結(jié)果都比分別采用的結(jié)果低。而CRFs和YACRFs模型在三類特征混合的情況下都得到了最高值?？梢哉f明條件隨機(jī)場(chǎng)模型在特征使用過程中的優(yōu)越性。

3.2.3 應(yīng)用于句子情感傾向性分析中的實(shí)驗(yàn)

本文為了驗(yàn)證短語情感傾向性分析結(jié)果對(duì)句子情感傾向性分析過程中產(chǎn)生的影響，將詞語級(jí)(word)的結(jié)果對(duì)句子產(chǎn)生的影響以及短語級(jí)(phrase)的結(jié)果對(duì)句子產(chǎn)生的影響進(jìn)行了對(duì)比。本節(jié)采用的模型是Voting模型以及CRFs模型。本部分采用的句子級(jí)的測(cè)試數(shù)據(jù)包括2 000條句子，來源于構(gòu)造短語情感傾向性語料時(shí)用到的網(wǎng)絡(luò)產(chǎn)品評(píng)論文本的句子級(jí)結(jié)果。

表4 詞語級(jí)和短語級(jí)的結(jié)果對(duì)句子級(jí)的情感分析產(chǎn)生影響的對(duì)比實(shí)驗(yàn)

對(duì)表4實(shí)驗(yàn)結(jié)果縱向分析，CRFs的結(jié)果相差5.05%，而Voting系統(tǒng)的結(jié)果差異比較大，準(zhǔn)確率相差19.63%。很明顯，句子情感傾向分析結(jié)果由于短語級(jí)的應(yīng)用得到了更高的值。Voting系統(tǒng)是直接利用正、負(fù)或中性的個(gè)數(shù)競爭來決定情感傾向。顯然，將句子劃分成幾個(gè)短語，再通過短語的情感傾向判斷句子的情感傾向比以詞為單位通過單個(gè)詞顯示的情感信息判斷句子的情感傾向更有利；從橫向分析的話，就基于短語的系統(tǒng)(Voting和CRFs)之間的差異相比應(yīng)用詞語而言要小不少。說明，短語級(jí)的情感傾向性分析對(duì)系統(tǒng)性能的提高都有一定的幫助，尤其是針對(duì)一些弱勢(shì)的系統(tǒng)。將句子投影到短語空間時(shí)，可以說是通過建立詞與詞之間的關(guān)系，再到詞與短語之間的關(guān)系，然后到短語與短語之間的關(guān)系，最后確定句子的情感傾向性。這樣的過程，可以解決詞與詞之間的相互關(guān)系改變其情感傾向的問題，而將句子投影到詞與空間是無法做到這一步的。

4 結(jié)論

本文提出了一種擴(kuò)展式條件隨機(jī)場(chǎng)模型進(jìn)行短語的情感傾向性分析的研究。該模型擴(kuò)展了傳統(tǒng)的條件隨機(jī)場(chǎng)模型，解決了詞語和短語不能同步標(biāo)注的問題，并綜合使用了3類特征，即：情感詞匯特征、規(guī)則模板特征以及詞性特征。實(shí)驗(yàn)結(jié)果表明，本文采用的情感傾向性類別標(biāo)注模型和 3類特征對(duì)于短語情感傾向性判斷都是有效的。進(jìn)一步地，應(yīng)用于句子級(jí)情感傾向性的實(shí)驗(yàn)證明了本文方法更具實(shí)際意義。

[1] Bo Pang, Lillian Lee. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008，2(1-2):1-135.

[2] Turney Peter. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classi?cation of reviews[C]//Proceedings of 40th Meeting of the Association for Computational Linguistics, Philadelphia, PA.2002: 417-424.

[3] Jaap Kamps, Maarten Marx, Robert J Mokken, et al. Using wordnet to measure semantic orientation of adjectives[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), 2004,4: 1115-1118.

[4] Amit Goyal, Hal Daum’e III. Generating Semantic Orientation Lexicon using Large Data and Thesaurus[C]//Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis, Portland, Oregon, USA, ACL-HLT 2011: 37-43.

[5] 朱嫣嵐,閔錦，周雅倩等. 基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.

[6] 李純，喬保軍，曹元大，等.基于語義分析的詞匯傾向識(shí)別研究[J]. 模式識(shí)別與人工智能,2008,21(4) :482-487.

[7] 杜偉夫,譚松波，程學(xué)旗.一種新的情感詞匯語義傾向計(jì)算方法[J].計(jì)算機(jī)研究與發(fā)展.2009,46(10) : 1713-1720.

[8] Esuli Andrea， Fabrizio Sebastiani. SentiWordNet: A publicly available lexical resource for opinion mining[C]//Proceedings of 5th International Conference on Language Resources and Evaluation (LREC), Genoa. 2006： 417-422.

[9] Delip Rao， Deepak Ravichandran. Sem-Supervised Polarity Lexicon Induction[C]//Proceedings of EACL.2009: 675-682.

[10] Daisuke Ikeda, Hiroya Takamura, Lev-Arie Ratinov, et al. Learning to Shift the Polarity of Words for Sentiment Classification[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing,2008: 296-303.

[11] Shotaro Matsumoto, Hiroya Takamura, Manabu Okumura. Sentiment classification using word sub-sequences and dependency sub-trees[C]//Proceedings of PAKDD’05, Lecture Notes in Computer Science, 2005: 301-311.

[12] Ryan McDonald, Kerry Hannan, Tyler Neylon, et al. Structured Models for Fine-to-Coarse Sentiment Analysis[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic, 2007: 432-439.

[13] Tetsuji Nakagawa, Kentaro Inuiand Sadao Kurohashi. Dependency Tree-based Sentiment Classification using CRFs with Hidden[C]//Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL, Los Angeles, California, 2010: 786-794.

[14] Theresa Wilson, Janyce Wiebe, Paul Hoffmann. Recognizing contextual polarity in phrase level sentiment analysis[C]//Proceedings of the 2005 Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP-05), Vancouver, 2005: 347-354.

[15] Theresa Wilson, Janyce Wiebe, Paul Hoffmann. Recognizing Contextual Polarity: an exploration of features for phrase-level sentiment analysis[J]. Computational Linguistics. 2009,35(3): 347-354.

[16] Hiroya Takamura, Takashi Inui, Manabu Okumura. Latent Variables Models for Semantic Orientation of Phrases[C]//Proceedings of 11th Conference of the European Chapter of the Association for Computational Linguistics. 2006: 201-208.

[17] Hiroya Takamura, Takashi Inui. Extracting Semantic Orientations of Phrases from Dictionary[C]//Proceedings of NAACL HLT 2007, Rochester, NY, 2007: 292-299.

[18] Charles Sutton, Andrew McCallum, Khashayar Rohanimanesh. Dynamic Conditional Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data[J]. Journal of Machine Learning Research . 2007:693-723.

[19] 李本陽，關(guān)毅，董喜雙，等，基于單層標(biāo)注級(jí)聯(lián)模型的篇章情感傾向分析[J].中文信息學(xué)報(bào)，2012,26(4):9-20.

烏達(dá)巴拉(1981—)，碩士，助理研究員，主要研究領(lǐng)域?yàn)樽匀徽Z言處理、情感分析、模式識(shí)別。E?mail：hwdbl@126．com汪增福(1960—)，博士，研究員，博士生導(dǎo)師，主要研究領(lǐng)域?yàn)橐暵犛X信息處理、模式識(shí)別、智能機(jī)器人。E?mail：zfwang@ustc．edu．cn

中國中文信息學(xué)會(huì)頒發(fā)2014年度“錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)”“漢王青年創(chuàng)新獎(jiǎng)”及“拓爾思優(yōu)秀博士學(xué)位論文獎(jiǎng)”

2014年12月20—21日，中國中文信息學(xué)會(huì)學(xué)術(shù)年會(huì)暨理事會(huì)在北京中國科技會(huì)堂隆重舉行，會(huì)上頒發(fā)了“錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)”，“漢王青年創(chuàng)新獎(jiǎng)”，以及中國中文信息學(xué)會(huì)優(yōu)秀博士學(xué)位論文“拓爾思優(yōu)秀博士學(xué)位論文獎(jiǎng)”；邀請(qǐng)了6位專家進(jìn)行了學(xué)術(shù)報(bào)告。來自中國科協(xié)、民政部、教育部、國家自然科學(xué)基金委等部委的領(lǐng)導(dǎo)和中文信息處理領(lǐng)域的專家學(xué)者420余人參加了本次會(huì)議。

大會(huì)開幕式由中國中文信息學(xué)會(huì)副理事長兼秘書長、中國科學(xué)院軟件研究所孫樂研究員主持。中國中文信息學(xué)會(huì)理事長李生教授致歡迎詞，中國科協(xié)副主席、黨組副書記、書記處張勤書記，民政部民間組織管理局廖鴻局長，教育部語言文字信息管理司張浩明司長，基金委劉克處長做了重要講話，肯定了學(xué)會(huì)工作所取得的成績，從不同的角度分析了中文信息處理的應(yīng)用需求與戰(zhàn)略發(fā)展。廖鴻局長還向?qū)W會(huì)頒發(fā)了學(xué)會(huì)在民政部2014年評(píng)估中獲得的4A等級(jí)證書。

“錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)”是經(jīng)科技部批準(zhǔn)設(shè)立的中文信息處理領(lǐng)域的最高科學(xué)技術(shù)獎(jiǎng)，主要授予該領(lǐng)域在基本方法或關(guān)鍵技術(shù)上有原始創(chuàng)新或重大突破，對(duì)推動(dòng)我國中文信息處理事業(yè)或行業(yè)進(jìn)步起到重要作用，創(chuàng)造出較大經(jīng)濟(jì)效益或社會(huì)效益的項(xiàng)目或個(gè)人。2014年評(píng)選產(chǎn)生了“錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)”一等獎(jiǎng)兩項(xiàng)、二等獎(jiǎng)1項(xiàng)，兩項(xiàng)一等獎(jiǎng)分別授予了中國科學(xué)院計(jì)算技術(shù)研究所程學(xué)旗、沈華偉等完成的“社會(huì)化媒體數(shù)據(jù)的分析與檢索”，中國科學(xué)院自動(dòng)化研究所宗成慶等完成的“多語種信息采集處理與分析系統(tǒng)”；二等獎(jiǎng)授予了西北民族大學(xué)于洪志等完成的“云環(huán)境的藏語遠(yuǎn)程教育系統(tǒng)”。

“漢王青年創(chuàng)新獎(jiǎng)”設(shè)立于2010年，主要授予在中文信息處理領(lǐng)域做出突出貢獻(xiàn)的青年學(xué)者。2014年該獎(jiǎng)項(xiàng)分別授予了清華大學(xué)計(jì)算機(jī)系的劉洋副研究員和中國科學(xué)院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室的劉康副研究員。

中國中文信息學(xué)會(huì)優(yōu)秀博士學(xué)位論文“拓爾思優(yōu)秀博士論文獎(jiǎng)”于今年首次頒發(fā)，該獎(jiǎng)項(xiàng)專項(xiàng)基金由北京拓爾思信息技術(shù)股份有限公司捐資并設(shè)立，旨在鼓勵(lì)中文信息處理領(lǐng)域的博士研究生在讀博期間面向前沿方向、立足原始創(chuàng)新、開拓進(jìn)取，勇創(chuàng)世界領(lǐng)先的研究成果。首屆優(yōu)秀博士論文獎(jiǎng)由清華大學(xué)計(jì)算機(jī)系布凡同學(xué)獲得，論文題目是《文本信息度量研究》；優(yōu)秀博士論文提名獎(jiǎng)分別由北京大學(xué)計(jì)算機(jī)學(xué)院的王泉和東北大學(xué)計(jì)算機(jī)學(xué)院的肖桐獲得，其論文題目分別為《正則化潛在語義索引：一種新型大規(guī)模話題建模方法》和《樹到樹統(tǒng)計(jì)機(jī)器翻譯優(yōu)化學(xué)習(xí)及解碼方法研究》。

學(xué)術(shù)年會(huì)上6位國內(nèi)著名專家進(jìn)行學(xué)術(shù)報(bào)告，他們分別是上海交通大學(xué)副校長梅宏院士、中國社會(huì)科學(xué)院語言研究所沈家煊學(xué)部委員，中國科學(xué)院計(jì)算技術(shù)研究所倪光南院士、北京大學(xué)金芝教授、中山大學(xué)張軍教授以及百度公司沈抖博士，他們從不同角度闡述了中文信息處理領(lǐng)域的前沿動(dòng)態(tài)及未來趨勢(shì)，深入分析了計(jì)算機(jī)、語言、認(rèn)知等學(xué)科的充分交叉與融合，有力地促進(jìn)了中文信息處理領(lǐng)域的理論創(chuàng)新、技術(shù)交流與產(chǎn)學(xué)研合作。

學(xué)術(shù)年會(huì)后，中國中文信息學(xué)會(huì)第7屆理事會(huì)第4次全體會(huì)議上，全體理事討論了2014年度工作報(bào)告，研討了學(xué)會(huì)工委會(huì)和專委會(huì)建設(shè)，頒發(fā)了2014年度“學(xué)會(huì)工作優(yōu)秀獎(jiǎng)”，獲獎(jiǎng)?wù)邽橛嗾凉淌冢鲞x了周明研究員和李茹教授為學(xué)會(huì)常務(wù)理事。并就學(xué)會(huì)未來的工作思路開展了討論。

Phrase-level Sentiment Analysis Approach Based on Yet Another CRFs

Odbal1,2, WANG Zengfu1,2

(1. Department of Automation, University of Science and Technology of China, Hefei, Anhui 230027, China;2. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei, Anhui 230031, China )

This paper treat the phrase-level sentiment analysis as a sequence annotation problem, and proposes an extension model of conditional random fields, YACRFs, to annotate sentiment orientation of phrases. In contrast to previous works focusing on linear-chain CRFs, which corresponds tonite-state machines wtih efficient exact inference algorithms,we wish to label sequence data in multiple interacting ways—for example, performing word based semantic orientations tagging and phrase-level sentiment analysis simultaneously, increasing joint accuracy by sharing information between them. The proposed model incorporates the word emotional orientation analysis process and the phrase analysis through the incorporation of the features of polarity words, phrase rules template as well as part of speech characteristics. Experiments shows the proposed model performs best with an accuracy of 81.07%. And applied the results in sentence-level sentiment analysis, it brings again the best accuracy of 94.30%.

phrase; sentiment analysis; condition random fields

1003-0077(2015)01-0155-08

2012-08-23 定稿日期： 2012-11-22

TP391