宋佳穎 黃旭 付國(guó)宏
?
基于詞語(yǔ)情感隸屬度特征的情感極性分類(lèi)
宋佳穎 黃旭 付國(guó)宏?
黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 哈爾濱150080; ?通信作者, E-mail: ghfu@hotmail.com
在模糊集合論框架下探索基于詞語(yǔ)情感隸屬度的情感極性分類(lèi)特征表示方法。以TF-IDF為權(quán)重分別構(gòu)建情感特征詞語(yǔ)的正向、負(fù)向極性隸屬度, 并以隸屬度對(duì)數(shù)比作為分類(lèi)特征值構(gòu)建基于支持向量機(jī)的情感極性分類(lèi)系統(tǒng)。在產(chǎn)品評(píng)論、NLPCC2014情感分類(lèi)評(píng)測(cè)數(shù)據(jù)和IMDB英文影評(píng)等數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明, 基于情感隸屬度特征的系統(tǒng)優(yōu)于基于布爾、頻度和詞向量等特征表示的系統(tǒng), 驗(yàn)證了所提出的基于情感隸屬度特征表示的有效性。
情感極性分類(lèi); 模糊集合論; 隸屬度; 支持向量機(jī)
隨著Web 2.0的興起和社會(huì)媒體的迅速發(fā)展, 情感分析(亦稱(chēng)意見(jiàn)挖掘)已成為自然語(yǔ)言處理研究的一個(gè)熱點(diǎn), 并在近年得到快速發(fā)展, 各種情感分析系統(tǒng)層出不窮。由于機(jī)器學(xué)習(xí)方法性能的不斷提升, 使得情感分類(lèi)能夠得到效果較好的基線系統(tǒng), 機(jī)器學(xué)習(xí)框架能夠從選取的特征中學(xué)習(xí)不同類(lèi)別的指向信息, 其參數(shù)、特征集和權(quán)重的確定對(duì)分類(lèi)性能起決定性作用。因此, 本文將特征的選擇和表示作為重點(diǎn)探索的內(nèi)容。隨著基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的發(fā)展, 基于詞袋(bag-of-words)的模型逐漸受到排斥, 神經(jīng)網(wǎng)絡(luò)模型不再只是對(duì)詞語(yǔ)的羅列而更多地考察了詞序關(guān)系, 在大規(guī)模的無(wú)監(jiān)督訓(xùn)練下往往能得到更多的語(yǔ)義信息, 因此在抽取、語(yǔ)音識(shí)別、翻譯、校對(duì)等工作中發(fā)揮了優(yōu)勢(shì)。同時(shí), 很多情感分析工作已將詞語(yǔ)、段落的向量表示作為特征權(quán)重應(yīng)用于分類(lèi)框架[1–4], 但通過(guò)對(duì)比發(fā)現(xiàn), 這類(lèi)方法在情感分類(lèi)問(wèn)題的解決上依然有很大的改進(jìn)空間。雖然N-grams語(yǔ)言模型考慮了詞語(yǔ)的窗口內(nèi)上下文, 但很少有數(shù)據(jù)能夠滿(mǎn)足多窗口的上下文短語(yǔ)概率計(jì)算, N-grams存在數(shù)據(jù)稀疏和高維度的限制, 對(duì)于詞語(yǔ)間的語(yǔ)義距離的衡量依然模糊。與N-grams相對(duì)的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNNs)語(yǔ)言模型[2], 其內(nèi)部結(jié)構(gòu)能夠更好地進(jìn)行平滑預(yù)測(cè), 從而放寬了上下文的窗口限制, 在很多應(yīng)用中優(yōu)于傳統(tǒng)的N-grams。因此, 我們利用RNNs作為本文的一組基線方法。然而, 在新方法不斷涌現(xiàn)的今天, 詞袋模型仍然存在優(yōu)勢(shì), 某些語(yǔ)料數(shù)據(jù)在傳統(tǒng)的樸素貝葉斯(Na?ve Bayes, NB)、支持向量機(jī)(Support Vector Machine, SVM)分類(lèi)框架下, 結(jié)合優(yōu)化的特征、權(quán)重集, 依然能夠獲得更好的分類(lèi)結(jié)果[5]。
本文從優(yōu)化特征及權(quán)重的角度出發(fā), 在已經(jīng)取得很好效果的NB-SVM基礎(chǔ)上, 進(jìn)一步探索更佳的SVM應(yīng)用方法。我們針對(duì)產(chǎn)品評(píng)論語(yǔ)料, 應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[2](recurrent neural network based language model, RNNLM), 通過(guò)貝葉斯法則判定正負(fù)極性, 應(yīng)用Paragraph Embedding生成的句子向量作為特征, 通過(guò)SVM分類(lèi)器判定極性[3]。應(yīng)用NB-SVM[5]結(jié)合N-grams特征判定極性作為本文的基線方法。受到情感表達(dá)外沿模糊性的啟發(fā), 我們嘗試用模糊集合理論挖掘詞語(yǔ)的正負(fù)情感間的細(xì)微差別, 結(jié)合模糊推理的詞匯模糊集合的情感隸屬度確定方法, 將正負(fù)情感極性隸屬度有效融合作為特征表示方法, 提出基于詞語(yǔ)情感隸屬度特征的分類(lèi)框架, 并完成與上述各種分類(lèi)方法的比對(duì), 實(shí)驗(yàn)結(jié)果說(shuō)明了本文提出的分類(lèi)方法對(duì)于情感極性分類(lèi)的有效性。
1 相關(guān)研究
情感分析問(wèn)題通常分為兩大解決線路, 分別是基于詞典的情感分類(lèi)方法[6–7]和基于語(yǔ)料庫(kù)的情感分類(lèi)方法[5,8–9]。由于通用詞典對(duì)于各類(lèi)型、領(lǐng)域的文本覆蓋度不足, 基于詞典的方法的效用逐漸弱化, 而基于對(duì)語(yǔ)料庫(kù)中信息進(jìn)行統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法越來(lái)越受到重視。Yang等[9]將句子級(jí)情感分類(lèi)看做序列標(biāo)注問(wèn)題, 將有情感標(biāo)簽的句子作為輸入, 通過(guò)條件隨機(jī)場(chǎng)和后序正規(guī)化(posterior regul-arization)來(lái)學(xué)習(xí)參數(shù), 利用上下文短句的語(yǔ)境和評(píng)價(jià)對(duì)象, 對(duì)不含有情感詞語(yǔ)的短句進(jìn)行情感傾向預(yù)測(cè), 對(duì)各類(lèi)特征進(jìn)行整合, 包括詞典模板、轉(zhuǎn)折連接、意見(jiàn)共指等。隨著情感分析研究的不斷深入以及基于語(yǔ)言模型的新型語(yǔ)義表示方法[2,10]的出現(xiàn), 各種基于神經(jīng)網(wǎng)絡(luò)模型的向量表示方法[10–13]也應(yīng)用到情感分析領(lǐng)域。由于這些基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型能夠在無(wú)監(jiān)督的條件下挖掘一定的語(yǔ)義信息, 這些向量表示的獲取也成為當(dāng)前的研究熱點(diǎn)。Le等[3]通過(guò)詞語(yǔ)的向量表達(dá)預(yù)測(cè)上下文的詞向量, 將句子向量看做一個(gè)特殊的主題詞向量, 應(yīng)用隨機(jī)梯度下降訓(xùn)練詞語(yǔ)語(yǔ)義向量表示, 用這些詞向量進(jìn)一步推斷句子向量, 將得到的向量表示作為支持向量機(jī)分類(lèi)器的特征完成句子情感分類(lèi)。Bespalov等[13]通過(guò)淺層語(yǔ)義分析得到詞的向量表示, 進(jìn)一步將文本表示為N-grams特征向量對(duì)應(yīng)的線性權(quán)重向量用于情感分析。Tang等[14]在大規(guī)模微博語(yǔ)料庫(kù)中, 以微博表情符號(hào)作為弱情感標(biāo)簽, 通過(guò)3種神經(jīng)網(wǎng)絡(luò)模型有監(jiān)督的訓(xùn)練, 得到面向情感語(yǔ)義的詞向量表示, 將詞向量表示作為特征放入SVM分類(lèi)器中, 得到不錯(cuò)的效果。Wang等[5]分別對(duì)樸素貝葉斯和SVM這兩種常用的分類(lèi)模型的適用情況進(jìn)行分析, 提出應(yīng)用樸素貝葉斯對(duì)數(shù)頻次比作為SVM特征權(quán)重的分類(lèi)模型, 通過(guò)實(shí)驗(yàn)證明這種簡(jiǎn)單的模型對(duì)于情感分類(lèi)任務(wù)十分有效。本文在Wang等[5]工作的基礎(chǔ)上, 以相關(guān)理論為依據(jù), 進(jìn)一步對(duì)特征權(quán)重優(yōu)化, 以得到更佳的分類(lèi)性能。
2 情感分類(lèi)方法
2.1 情感詞語(yǔ)模糊集合
正向詞語(yǔ)模糊集合: 設(shè)論域?yàn)樗性~語(yǔ)的集合, 則論域上的正向情感詞語(yǔ)模糊集合POS 是到[0,1]的一個(gè)映射POS:→[0, 1]。對(duì)于∈,POS稱(chēng)為正向詞語(yǔ)模糊集合POS的隸屬度函數(shù),POS()稱(chēng)為屬于詞語(yǔ)模糊集合POS的隸屬度。
負(fù)向詞語(yǔ)模糊集合: 設(shè)論域?yàn)樗性~語(yǔ)的集合, 則論域上的負(fù)向情感詞語(yǔ)模糊集合NEG是到[0, 1]的一個(gè)映射N(xiāo)EG:→[0, 1]。對(duì)于∈,NEG稱(chēng)為負(fù)向詞語(yǔ)模糊集合NEG的隸屬度函數(shù),NEG()稱(chēng)為屬于詞語(yǔ)模糊集合NEG的隸屬度。
由上述定義可知, 這些隸屬度函數(shù)的確定是模糊集合理論能否有效投入應(yīng)用的關(guān)鍵。
2.2 情感分類(lèi)的TF-IDF
2.2.1 情感詞語(yǔ)頻率TF
定義(i)∈|V|是訓(xùn)練樣例的特征的頻數(shù), 即(i)代表特征V在樣例中出現(xiàn)的次數(shù)。對(duì)于所有的訓(xùn)練樣例, 可以定義正負(fù)兩類(lèi)特征頻數(shù)向量如:
其中是為了數(shù)據(jù)平滑設(shè)置的參數(shù)。
根據(jù)上面得到特征頻數(shù)向量, 對(duì)TFPOS和TFNEG分別除以其自身向量的頻數(shù)總和進(jìn)行歸一化處理, 進(jìn)一步計(jì)算其對(duì)數(shù)比, 如式(3)所示:
2.2.2 情感詞語(yǔ)的逆文檔頻率IDF
NB-SVM是將文檔詞頻信息的歸一化對(duì)數(shù)比作為特征權(quán)重, 其形式如式(3)所示。受到基于模糊推理的詞語(yǔ)隸屬度構(gòu)建方法[15]的啟發(fā), 我們通過(guò)分析認(rèn)為, 在歸一化頻數(shù)的基礎(chǔ)上, 融合特征對(duì)應(yīng)各個(gè)類(lèi)別的逆文檔頻率(IDF)信息, 能夠使特征具有更好的類(lèi)別指向性, 從而削弱在各類(lèi)極性的情感句中大量出現(xiàn)的無(wú)關(guān)特征對(duì)分類(lèi)性能的影響, 可以作為詞語(yǔ)的模糊情感極性隸屬度的一種表示方法。因此, 為詞語(yǔ)計(jì)算對(duì)應(yīng)的正負(fù)兩類(lèi)的IDFPOS和IDFNEG, 如式(4)和(5)所示:
其中, Countpos表示含有特征且極性為正向的樣例的數(shù)量, 反之為負(fù)向, 計(jì)算時(shí)同樣使用加1平滑。pos和neg分別表示訓(xùn)練數(shù)據(jù)中正向極性樣例和負(fù)向極性樣例的數(shù)量。
2.3 詞語(yǔ)情感隸屬度
常見(jiàn)的隸屬度函數(shù)確定方法包括模糊統(tǒng)計(jì)法、例證法、專(zhuān)家經(jīng)驗(yàn)法等。為了避免在選擇時(shí)受到主觀因素的過(guò)多影響, 本文采用模糊統(tǒng)計(jì)法計(jì)算每個(gè)詞語(yǔ)的正、負(fù)情感隸屬度。模糊統(tǒng)計(jì)法是通過(guò)次重復(fù)獨(dú)立統(tǒng)計(jì)實(shí)驗(yàn)來(lái)確定某個(gè)特征詞對(duì)正、負(fù)情感詞語(yǔ)模糊集合的隸屬度, 其形式上與概率統(tǒng)計(jì)法比較類(lèi)似, 但二者分別屬于不同的數(shù)學(xué)模型。
我們以TF-IDF表示法為原型, 通過(guò)對(duì)頻數(shù)向量的歸一化, 平衡詞頻對(duì)極性類(lèi)別的影響。歸一化向量對(duì)應(yīng)的與相同極性的IDF的積做為每個(gè)特征對(duì)于正負(fù)情感極性的最終隸屬度, 正負(fù)情感隸屬度計(jì)算如式(6)和(7)所示:
2.4 詞語(yǔ)情感隸屬度特征表示
2.3節(jié)定義了基于TF-IDF的詞語(yǔ)情感隸屬度 函數(shù), 能夠給每個(gè)特征確定它隸屬于兩個(gè)情感極性模糊集合的程度。為了量化正負(fù)情感隸屬度大小對(duì)特征的情感指向的作用, 我們將兩類(lèi)隸屬度函數(shù)值進(jìn)行融合, 把正負(fù)情感隸屬度的對(duì)數(shù)比作為特征權(quán)重值, 特征的權(quán)重計(jì)算方法如式(8)所示:
2.5 支持向量機(jī)SVM
支持向量機(jī)的基本原理是通過(guò)對(duì)有類(lèi)標(biāo)記的訓(xùn)練數(shù)據(jù)構(gòu)造相應(yīng)的模型, 繼而應(yīng)用模型通過(guò)測(cè)試數(shù)據(jù)中的屬性特征來(lái)預(yù)測(cè)其對(duì)應(yīng)的類(lèi)標(biāo)記。訓(xùn)練數(shù)據(jù)形式是成對(duì)的樣例和標(biāo)簽(x,y),=1,…, 其中x∈R,∈{-1,+1}。為了解決某些樣本點(diǎn)線性不可分, 引入松弛變量≥0, 改變約束條件為y(·x+b)≥1-, 目標(biāo)函數(shù)由原來(lái)的變?yōu)?/p>
其中,> 0是懲罰系數(shù), 它決定了對(duì)于誤分類(lèi)的懲罰的大小, 一般根據(jù)實(shí)際問(wèn)題確定。由于Linear①是應(yīng)對(duì)大規(guī)模訓(xùn)練任務(wù)的快捷有效的SVM分類(lèi)器, 且Linear能夠支持L2-regularized邏輯回歸(LR)和L2-loss, L1-loss線性支持向量機(jī), 因此選擇Linear作為本文的SVM工具, 可選訓(xùn)練參數(shù)為0, 即應(yīng)用L2正規(guī)化邏輯回歸, 對(duì)應(yīng)的式(9)中。
3 實(shí)驗(yàn)結(jié)果與分析
為了對(duì)上述方法進(jìn)行全面的驗(yàn)證, 分別對(duì)汽車(chē)領(lǐng)域產(chǎn)品評(píng)論、NLPCC 2014評(píng)測(cè)②的數(shù)據(jù)和英文影評(píng)IMDB①數(shù)據(jù)進(jìn)行情感極性分類(lèi)。下面給出相應(yīng)的實(shí)驗(yàn)設(shè)置、結(jié)果及其分析。
3.1 實(shí)驗(yàn)設(shè)置
如表1所示, 我們給出三類(lèi)實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)信息, 語(yǔ)料分別是從汽車(chē)之家②爬取的汽車(chē)領(lǐng)域的多品牌網(wǎng)絡(luò)用戶(hù)評(píng)價(jià)、NLPCC2014評(píng)測(cè)中的情感分類(lèi)任務(wù)數(shù)據(jù)(多領(lǐng)域產(chǎn)品評(píng)論)和IMDB (大規(guī)模英文公開(kāi)影評(píng))。其中IMDB數(shù)據(jù)共有影評(píng)10萬(wàn)句, 使用方法與Le等[3]相同, 包含有標(biāo)注的25000條訓(xùn)練語(yǔ)句、25000條測(cè)試語(yǔ)句, 其余5萬(wàn)句是無(wú)標(biāo)注的語(yǔ)句, 僅在無(wú)監(jiān)督地訓(xùn)練詞向量時(shí)使用, 標(biāo)注的語(yǔ)句分為正向極性、負(fù)向極性?xún)深?lèi)標(biāo)簽。實(shí)驗(yàn)的評(píng)測(cè)指標(biāo)為準(zhǔn)確率(accuracy, Acc)、精確率(Precision,)、召回率(Recall,)和-測(cè)度()。
表1 語(yǔ)料統(tǒng)計(jì)信息
為了進(jìn)一步驗(yàn)證基于情感隸屬度的特征表示的有效性, 本文還考慮用以下4種方法作為實(shí)驗(yàn)的基線方法。
1)RNNLM + Na?veBayes: Mikolov等[2]提出的基于遞歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型(RNNLM), 在語(yǔ)音識(shí)別實(shí)驗(yàn)的結(jié)果中驗(yàn)證了RNNLM明顯優(yōu)于N-gram 語(yǔ)言模型。此處RNNLM基于簡(jiǎn)單的Elman神經(jīng)網(wǎng)絡(luò)[16], 它是一個(gè)包含輸入層、隱藏狀態(tài)層和輸出層的神經(jīng)網(wǎng)絡(luò), 能夠允許應(yīng)用更大窗口的上下文來(lái)完成對(duì)序列中其他詞的預(yù)測(cè), 在訓(xùn)練時(shí)能做到更好的數(shù)據(jù)平滑。但在實(shí)際訓(xùn)練中, 上下文的窗口大小還會(huì)受梯度下降效率的限制。本文利用RNN語(yǔ)言模型, 借助貝葉斯法則計(jì)算每個(gè)測(cè)試樣例屬于正負(fù)極性類(lèi)別的概率, 從而完成分類(lèi)。本文RNNLM相關(guān)實(shí)驗(yàn)應(yīng)用RNNLM Toolkit③完成, 具體訓(xùn)練參數(shù)設(shè)定為–hidden(50), –direct–order(3), –direct(200), –class(100), –debug(2), –bptt(4), –bptt–block(10)。
2)Paragraph Vector + SVM: Le等[3]提出的無(wú)監(jiān)督的對(duì)句子、段落或文本預(yù)測(cè)得到定長(zhǎng)的向量表示, 可以作為特征用于有監(jiān)督的分類(lèi)框架。具體地, 將句子向量看做一個(gè)特殊的主題詞向量, 應(yīng)用隨機(jī)梯度下降訓(xùn)練詞語(yǔ)語(yǔ)義向量表示, 再用這些詞向量進(jìn)一步推斷句子向量表示, 將得到的向量表示作為支持向量機(jī)分類(lèi)器的特征完成句子情感分類(lèi)。其中, 句子向量合成的相關(guān)實(shí)驗(yàn)借助word2vec④完成。在訓(xùn)練句子向量階段, 我們選擇的語(yǔ)言模型為Skip-Gram, 向量維度設(shè)定了不同的大小(100, 200 和300), 訓(xùn)練的窗口大小設(shè)定為10, 同時(shí)使用HS和NEG方法, 其他參數(shù)為默認(rèn)值。
3)Bool + SVM: 最傳統(tǒng)的布爾權(quán)重支持向量機(jī)應(yīng)用, 同樣作為本文的基線系統(tǒng)實(shí)驗(yàn), 分別考察不同特征集結(jié)合布爾權(quán)重的分類(lèi)效果。
4)NB-SVM: 由Wang等[5]提出的線性分類(lèi)器, 是由歸一化特征頻數(shù)的對(duì)數(shù)比作為特征權(quán)重的、基于支持向量機(jī)的分類(lèi)框架。
為了全面對(duì)比特征與特征權(quán)重的結(jié)合對(duì)分類(lèi)效果的影響, 選擇在相關(guān)研究中常用且有效的類(lèi)別指向信息[3,5]作為本文的特征集: 1)基于N-grams的特征集, 包含一元語(yǔ)法詞組(uni-gram)、二元語(yǔ)法詞組(bigram)和三元語(yǔ)法詞組(trigram); 2)基于詞性信息的特征集, 包括名詞、動(dòng)詞、形容詞、代詞、數(shù)詞、量詞等實(shí)詞。由于否定副詞和一些程度副詞也是對(duì)情感表達(dá)有指向作用的詞匯, 本文將副詞特征也加入實(shí)詞特征中。
3.2 實(shí)驗(yàn)結(jié)果與分析
3.2.1 汽車(chē)評(píng)論語(yǔ)料情感極性分類(lèi)結(jié)果
針對(duì)汽車(chē)產(chǎn)品評(píng)論設(shè)置的實(shí)驗(yàn)及其結(jié)果如表2所示, 在Paragraph Vector相關(guān)實(shí)驗(yàn)中, 鑒于對(duì)生成的語(yǔ)義向量表示準(zhǔn)確性的考慮, 在無(wú)監(jiān)督的向量訓(xùn)練階段, 我們?cè)谟?xùn)練語(yǔ)料中加入26729句爬取得到的網(wǎng)絡(luò)汽車(chē)評(píng)論作為背景語(yǔ)料, 幫助得到更為有效的embedding向量表示。在生成句子向量表示時(shí), 分別考察了不同維度大小對(duì)結(jié)果的影響, 表2
表2 汽車(chē)評(píng)論情感極性分類(lèi)結(jié)果
說(shuō)明: 粗體數(shù)字表示該指標(biāo)下的最好結(jié)果。下同。
第一列括號(hào)內(nèi)的數(shù)字表示生成的向量的維數(shù)。本文提出的將詞語(yǔ)情感隸屬度對(duì)數(shù)比作為特征權(quán)重的方法, 在實(shí)驗(yàn)結(jié)果中以Fuzzy + SVM作為標(biāo)記。
從表2可以看出, 在特征選擇方面, 通常三元語(yǔ)法特征優(yōu)于二元語(yǔ)法特征, 二元語(yǔ)法特征優(yōu)于一元語(yǔ)法特征, 但在SVM結(jié)合布爾權(quán)重和應(yīng)用NB-SVM時(shí)卻不符合我們的理論推斷。分析其原因?yàn)檎Z(yǔ)料規(guī)模較小, 數(shù)據(jù)稀疏造成結(jié)果的不穩(wěn)定性; 另外, 簡(jiǎn)單的布爾權(quán)重使得大部分三元特征的權(quán)重為1, 無(wú)法很好地衡量這些多詞組特征的情感指向比重。在句子向量(Paragraph vector)和情感隸屬度對(duì)數(shù)比特征的SVM (Fuzzy + SVM)實(shí)驗(yàn)結(jié)果中, 特征不同時(shí)呈現(xiàn)的分類(lèi)性能都符合常規(guī)的理論推斷, 在一定程度說(shuō)明三元語(yǔ)法特征較二元、一元特征具有更好的限定性, 能夠更準(zhǔn)確地獲取句中的詞序關(guān)系。同時(shí), 從準(zhǔn)確率方面來(lái)看, 雖然實(shí)詞特征較一元的詞語(yǔ)特征更為有效, 但依然不如二元、三元短語(yǔ)特征, 說(shuō)明高階的短語(yǔ)特征使組合的詞語(yǔ)具有更準(zhǔn)確的限定性, 更全面涵蓋句子情感信息。在分類(lèi)效果方面, 可以看出原有方法中的NB-SVM具有較好的分類(lèi)性能, 隨著特征的優(yōu)化, 能夠得到更佳的結(jié)果, 同時(shí)其結(jié)果優(yōu)于基于RNN語(yǔ)言模型和句子向量合成的方法, 說(shuō)明雖然語(yǔ)義向量信息的獲取能夠促進(jìn)抽取、相似度衡量等工作的發(fā)展, 但如何從語(yǔ)義信息中有針對(duì)性的挖掘情感信息, 仍有待研究。本文提出的fuzzy+SVM在同等特征集作用時(shí), 取得優(yōu)于NB-SVM的分類(lèi)效果, 進(jìn)一步說(shuō)明在確定特征權(quán)重時(shí), 在特征頻數(shù)歸一化的基礎(chǔ)上, 融合IDF信息后, 去除了在正負(fù)極性中都大量出現(xiàn)的特征對(duì)隸屬度的影響, 使得到的特征情感隸屬度能更全面描述各個(gè)特征對(duì)于類(lèi)別的指向作用。
3.2.2 NLPCC2014評(píng)測(cè)數(shù)據(jù)情感極性分類(lèi)結(jié)果
為了進(jìn)一步驗(yàn)證方法的性能, 使用NLPCC評(píng)測(cè)的公開(kāi)數(shù)據(jù)進(jìn)行實(shí)驗(yàn), 本輪實(shí)驗(yàn)主要考察性能較好且比較接近的三類(lèi)基于支持向量機(jī)的方法。由于數(shù)據(jù)規(guī)模的限制會(huì)在很大程度上影響無(wú)監(jiān)督訓(xùn)練的過(guò)程, 本輪實(shí)驗(yàn)沒(méi)有采用訓(xùn)練句子向量作為特征, 表3列出同樣使用NLPCC數(shù)據(jù)的Wang等[17]的結(jié)果用于比對(duì)。
表3 NLPCC2014評(píng)測(cè)數(shù)據(jù)集上的情感分類(lèi)結(jié)果
從表3可以看出: 1)同類(lèi)方法不同特征相對(duì)比, 呈現(xiàn)出三元語(yǔ)法特征優(yōu)于二元語(yǔ)法特征, 而二元語(yǔ)法特征也好于一元語(yǔ)法特征的現(xiàn)象, 這完全符合高階語(yǔ)法模型能夠更準(zhǔn)確地限定上下文的特點(diǎn), 同時(shí)反映出語(yǔ)料規(guī)模較小(如汽車(chē)評(píng)論)時(shí), 對(duì)理論的驗(yàn)證可能存在偏差, 容易對(duì)研究方法的走向形成錯(cuò)誤指引; 2)在NLPCC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 基于情感隸屬度對(duì)數(shù)比特征的系統(tǒng)在所有評(píng)測(cè)指標(biāo)中均取得最好性能。表3中, Wang等[17]采用的是通過(guò)深度學(xué)習(xí)得到的詞語(yǔ)向量特征表示結(jié)合邏輯回歸分類(lèi)器的方法。NLPCC2014評(píng)測(cè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明了本文提出的基于隸屬度的特征表示方法的有效性。
3.2.3 IMDB情感極性分類(lèi)結(jié)果
除中文產(chǎn)品評(píng)論和NLPCC2014評(píng)測(cè)數(shù)據(jù)集以外, 我們還選擇了常用于情感分類(lèi)任務(wù)的英文語(yǔ)料IMDB數(shù)據(jù), 并且應(yīng)用各類(lèi)方法的最好參數(shù)進(jìn)行情感分類(lèi), 包含代表性最強(qiáng)的trigram特征以及語(yǔ)義表示效果最好的300維向量特征。在完成句子向量特征的實(shí)驗(yàn)Paragraph Vector時(shí), 我們?cè)跓o(wú)監(jiān)督訓(xùn)練階段沒(méi)有借助其他數(shù)據(jù), 而是使用完整的IMDB數(shù)據(jù)(共100000句)訓(xùn)練得到對(duì)應(yīng)的句子向量。實(shí)驗(yàn)結(jié)果如表4所示。
表4 IMDB數(shù)據(jù)集上的情感分類(lèi)結(jié)果
從表4可以看出, 在IMDB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果中, 本文方法得到的綜合準(zhǔn)確率和值都表現(xiàn)出最大優(yōu)勢(shì), 精確率和召回率均處于較好位置, 說(shuō)明本文確定的情感隸屬度是對(duì)詞語(yǔ)極性和強(qiáng)度的有效度量。Wang等[5]針對(duì)IMDB數(shù)據(jù)得到91.22%的準(zhǔn)確率, 相比之下, 本文提出的基于詞語(yǔ)情感隸屬度的特征值表示方法更具有實(shí)際意義。由于本文方法完全是基于語(yǔ)料庫(kù)的統(tǒng)計(jì)方法, 不對(duì)語(yǔ)言種類(lèi)、領(lǐng)域做任何限定, 上述結(jié)果中的英文數(shù)據(jù)實(shí)驗(yàn)就形成了本文方法有效性的完整印證。
4 結(jié)論與展望
根據(jù)情感極性分類(lèi)研究現(xiàn)狀, 在現(xiàn)有方法的基礎(chǔ)上, 本文以TF-IDF為原型, 融合模糊推理的隸屬度確定方法, 進(jìn)一步為詞語(yǔ)設(shè)定了情感極性隸屬度, 從而得到基于詞語(yǔ)情感隸屬度的特征值表示方法。分別對(duì)汽車(chē)領(lǐng)域評(píng)論、NLPCC評(píng)測(cè)數(shù)據(jù)和IMDB數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 結(jié)果顯示, 通過(guò)優(yōu)化特征和權(quán)重, 在傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)框架下依然能夠取得很好的分類(lèi)性能。
雖然本文實(shí)驗(yàn)取得了預(yù)期結(jié)果, 證明了融合的情感隸屬度特征值對(duì)于情感分類(lèi)問(wèn)題的有效性, 但沒(méi)能在整體框架下實(shí)現(xiàn)全面創(chuàng)新, 僅取得小幅度的提高。后續(xù)工作應(yīng)該全面深化對(duì)問(wèn)題的研究, 擴(kuò)大數(shù)據(jù)規(guī)模, 并挖掘更有效的有指向性的特征。
[1]Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions // Proceedings of EMNLP’11. East Stroudsburg, 2011: 151–161
[2]Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model // Proceedings of INTERSPEECH’10. Chiba, 2010: 1045–1048
[3]Le Q V, Mikolov T. Distributed representations of sentences and documents. Procedings of the 31st International Conference on Machine Learning. Beijing, 2014: 1188–1196
[4]Zhang Dongwen, Xu Hua, Su Zengcai, et al. Chinese comments sentiment classification based on word2vec and SVM perf. Expert Systems with Applications, 2015, 42(4): 1857–1863
[5]Wang S, Manning C D. Baselines and bigrams: simple, good sentiment and topic classification // Proceedings of ACL’12. Jeju Island, 2012: 90–94
[6]Ding Xiaowen, Liu Bing, Yu P S. A holistic lexicon-based approach to opinion mining // Proceedings of WSDM’08. New York, 2008: 231–240
[7]Taboada M, Brooke J, Tofiloski M, et al. Lexicon-based methods for sentiment analysis. Computational Linguistics, 2011, 37(2): 267–307
[8]Wang Hongning, Lu Yue, Zhai Chengxiang. Latent aspect rating analysis on review text data: a rating regression approach // Proceedings of SIGKDD’10. New York, 2010: 783–792
[9]Yang Bishan, Cardie C. Context-aware learning for sentence-level sentiment analysis with posterior regularization // Proceedings of ACL’14. Baltimore, 2014: 325–335
[10]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[R/OL]. (2013-09-07)[2015-03-21]. http://arxiv. org/abs/1301.3781
[11]Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a senti-ment treebank // Proceedings of EMNLP’13. Seattle, 2013: 1631–1642
[12]Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798–1828
[13]Bespalov D, Bai B, Qi Y, et al. Sentiment classification based on supervised latent N-gram analysis // Proceedings of CIKM’11. Glasgow, 2011: 375–382
[14]Tang Duyu, Wei Furu, Yang Nan, et al. Learning sentiment-specific word embedding for twitter sentiment classification // Proceedings of ACL’14. Baltimore, 2014: 1555–1565
[15]Aida-zade K, Rustamov S, Mustafayev E, et al. Human-computer dialogue understanding hybrid system // Proceedings of the 2012 International Symposium on Innovations in Intelligent Systems and Applications (INISTA). Trabzon, 2012: 1–5
[16]Elman J L. Distributed representations, simple recurrent networks, and grammatical structure. Machine Learning, 1991, 7(2/3): 195–225
[17]Wang Yuan, Li Zhaohui, Liu Jie, et al. Word vector modeling for sentiment analysis of product reviews // CCIS (NLPCC’14). Shenzhen, 2014, 496: 168–180
Exploiting Lexical Sentiment Membership-Based Features to Polarity Classification
SONG Jiaying, HUANG Xu, FU Guohong?
School of Computer Science and Technology, Heilongjiang University, Harbin 150080; ?Corresponding author, E-mail: ghfu@hotmail.com
A lexical sentiment membership based feature representation was presented for Chinese polarity classification under the framework of fuzzy set theory. TF-IDF weighted words are used to construct the corresponding positive and negative polarity membership for each feature word, and the log-ratio of each membership is computed. A support vector machines based polarity classifier is built with the membership log-ratios as its features. Furthermore, the classifier is evaluated over different datasets, including a corpus of reviews on automobile products, the NLPCC2014 data for sentiment classification evaluation and the IMDB film comments. The experimental results show that the proposed sentiment membership feature representation outperforms the state of the art feature representations such as the Boolean features, the frequent-based features and the word embeddings based features.
sentiment polarity classification; fuzzy sets; membership; supported vector machines
10.13209/j.0479-8023.2016.004
TP391
2015-06-06;
2015-08-18; 網(wǎng)絡(luò)出版日期: 2015-09-29
國(guó)家自然科學(xué)基金(61170148)和黑龍江省人力資源和社會(huì)保障廳留學(xué)人員科技活動(dòng)項(xiàng)目資助
①http://www.csie.ntu.edu.tw/~cjlin/liblinear
②http://tcci.ccf.org.cn/conference/2014/pages/page04_eva.html
① http://ai.stanford.edu/~amaas/data/sentiment/
② http://www.autohome.com.cn/
③ http://www.fit.vutbr.cz/~imikolov/rnnlm/
④ https://code.google.com/p/word2vec/