陸正球 王麟閣 周春良
(寧波大紅鷹學(xué)院信息工程學(xué)院,浙江 寧波 315175)
摘 要:隨著各類社交媒體上的評論數(shù)據(jù)數(shù)量的急劇增加,從大量的評論數(shù)據(jù)中挖掘出其所包含的情感信息具有越來越高的商業(yè)價值。本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交媒體情感分類模型,首先通過包含酒店評論在內(nèi)的語料庫完成詞向量的初始化,而后通過卷積網(wǎng)絡(luò)層、隱含層、嵌入層和分類層完成評論數(shù)據(jù)的情感分類。實驗結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的情感分類模型無論是面對不同維度的詞向量模型還是不同比例的測試集,都能夠得到較高的分類準確率。
關(guān)鍵詞:情感分析;卷積神經(jīng)網(wǎng)絡(luò);詞向量
中圖分類號:TP391.41;TP183 文獻標識碼:A 文章編號:2096-4706(2018)02-0089-04
Social Media Text Sentiment Analysis Based on Convolutional Neural Network
LU Zhengqiu,WANG Linge,ZHOU Chunliang
(Ningbo Dahongying University School of Information Engineering,Ningbo 315175,China)
Abstract:With the number of comments on all kinds of social media increased dramatically,it has higher and higher commercial value while mining emotional information contained in a large number of comments. This article puts forward a social media sentiment classification model based on convolutional neural network. It at first finishes the word vector initialization through a corpus of hotel reviews,and then realizes the sentiment classification through convolutional network layer,hidden layer,embed layer and classification layer. Experiment results show that the emotion classification model based on convolutional neural network can get higher classification accuracy in terms of different dimension word vector models or in different proportion of test sets.
Keywords:sentiment analysis;convolutional neural network;word vector
0 引 言
隨著互聯(lián)網(wǎng)的迅猛發(fā)展和各類社交媒體的涌現(xiàn),世界各地的用戶已經(jīng)習(xí)慣于在互聯(lián)網(wǎng)上發(fā)表意見、表達情感。例如,在微博和微信等社交媒體上,人們可以自由地以文本、圖片等形式發(fā)表對公共熱點事件的評論,可以在電商平臺上瀏覽商品并對商品的質(zhì)量進行評論,也可以在酒店網(wǎng)站上對酒店住宿服務(wù)進行評論。這些評論中包含個人情感取向,因此如何高效挖掘隱藏于這些評論中的觀點,并對這些海量用戶生成的數(shù)據(jù)進行情感分析,將有助于政府獲取大眾對于有關(guān)政策的意見,商家也可以根據(jù)用戶對商品的評論調(diào)整營銷策略。因此,針對社交媒體的情感分析已成為國內(nèi)外相關(guān)領(lǐng)域的研究熱點。
1 情感分類方法
1.1 基于情感詞典的文本情感分類方法
在基于情感詞典的情感分析方法中,一般是將文本看作詞語或多詞短語的集合。它的核心模式是“詞典+規(guī)則”,也就是將判斷情感極性的主要依據(jù)放在情感詞上面,并設(shè)計相應(yīng)的判斷規(guī)則。文獻[1]是基于詞典的情感分類方法中最具代表性的,通過分析評論中的形容詞和副詞短語的語義指向來預(yù)測評論的類別,將互聯(lián)網(wǎng)上的評論分為“推薦”和“不推薦”兩類。
而后Kamps和Marx[2]使用Word Net判斷詞語的情感傾向性。Budanitsky和Hirst[3]利用情感相似度來計算詞語的情感傾向性。文獻[4]根據(jù)情感詞典包含的有情感傾向的詞或短語得到正面情感或負面情感的得分。
1.2 基于機器學(xué)習(xí)的文本情感分類方法
基于機器學(xué)習(xí)的文本情感分析方法的優(yōu)勢在于,它們具有對多種特征建模的能力。Pang等人利用基本的詞特征和樸素貝葉斯、最大熵和支持向量機等機器學(xué)習(xí)方法來解決情感分析問題。
隨后,Pang和Lee等人[5]通過加入預(yù)處理過濾器去除客觀句,讓同一個電影評價數(shù)據(jù)集的準確率從82.9%提升到86.4%。Cui等人[6]則證明了區(qū)分式分類器比一般的模型更加適用于情感分析任務(wù)。
Read等人[7]提出了一個對于領(lǐng)域、主題和時效沒有依賴的用于情感分析的機器學(xué)習(xí)算法,Li等人[8]提出的機器學(xué)習(xí)算法能夠動態(tài)地生成新的語料,解決了語料不平衡問題。Yu等人[9]研究發(fā)現(xiàn)協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)算法能夠達到最好的分類性能。Liu等人[10]提出的自適應(yīng)多分類SVM模型,可以將一個普通情感分類器轉(zhuǎn)變成一個主題自適應(yīng)的情感分類器。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的情感分類
當(dāng)前,深度學(xué)習(xí)逐漸成為機器學(xué)習(xí)的熱門研究方向,其在不同應(yīng)用問題上的推廣能力也得到了一定的驗證,如圖像識別、語音識別等。越來越多的學(xué)者開始嘗試將深度學(xué)習(xí)引入自然語言處理領(lǐng)域,進而彌補了傳統(tǒng)的機器學(xué)習(xí)方法的不足。由此,本文提出基于卷積神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督學(xué)習(xí)模型用來解決文本的情感分析任務(wù)。
2.1 卷積神經(jīng)網(wǎng)絡(luò)概念
卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用的是普通的神經(jīng)元網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。卷積(Convolution)在泛函分析中是作用在兩個函數(shù)上的一種數(shù)學(xué)算子,所生成的函數(shù)是表征函數(shù)f與g經(jīng)過翻轉(zhuǎn)和平移的重疊部分的面積。
設(shè)f(x)和g(x)是R1上兩個可積函數(shù),則這兩個函數(shù)的卷積可以由以下公式求得:
(1)
通常卷積神經(jīng)網(wǎng)絡(luò)中包含4種不同的層,他們分別是:輸入層、卷積層、池化層、全連接層。其中卷積層完成對輸入數(shù)據(jù)的局部特征的描述,池化層可在此基礎(chǔ)上進一步提取出局部特征中最重要的部分。
2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的情感分類模型
基于卷積神經(jīng)網(wǎng)絡(luò)的情感分類模型包括情感文本輸入層、卷積網(wǎng)絡(luò)層、隱含層、嵌入層和分類層,如圖1所示。
2.2.1 輸入層
輸入層針對輸入語句中的每個詞語查詢向量列表以得到對應(yīng)的詞向量,本文使用Word2Vec將網(wǎng)絡(luò)上爬取的社交媒體文本數(shù)據(jù)進行初始化,同時將社交媒體上弱標注信息進行離散化打標簽,通過標簽分配,將評論語句劃分到正面和負面兩個集合中。
2.2.2 卷積網(wǎng)絡(luò)層
卷積網(wǎng)絡(luò)層包含多個卷積濾波器,每個濾波器通過滑動能容納n個詞匯的窗口進行卷積計算,進而生成局部特征值,計算公式如下:
u(i)= f(W T xi:(i+n-1)+b) (2)
其中xi:(i+n-1)表示輸入語句位置i窗口中詞向量首尾相接的向量,而后獲取向量u中最顯著的特征值。
2.2.3 隱含層
隱含層將所有神經(jīng)元之間全連接,以卷積網(wǎng)絡(luò)層的結(jié)果作為輸入,通過非線性激活函數(shù)得到更高層次的特征向量h,采用標準的前向傳播方式。
h=f(Wh ν+bh) (3)
其中,Wh是權(quán)重矩陣,bh是偏置向量。
2.2.4 嵌入層
在嵌入層中引入上下文向量。類似輸入層獲取詞向量列表,從上下文向量中查詢所有上下文,列表的初始值由隨機初始化獲得。嵌入層的計算公式如下:
(4)
其中h是隱含層的輸出結(jié)果,a是上下文向量。
3 實驗
首先從互聯(lián)網(wǎng)上爬取經(jīng)過處理的酒店評論數(shù)據(jù)進行訓(xùn)練和測試,一共6000條數(shù)據(jù),其中積極評價和消極評價各3000條,實驗結(jié)果最后以10折交叉驗證的方式對模型的正確率進行評估。
本文卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試實驗環(huán)境如表1所示。
卷積首先對不同詞向量下的酒店評價準確率進行測試,并與線性SVM算法進行比較,本文采用了50、100和200維度下的詞向量進行評價語句的映射,實驗結(jié)果如圖2所示,可以看到基于CNN的文本情感分類的準確率都高于SVM算法。
而在卷積神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)集中訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的分割比例對文本情感分類也有一定的影響,不同測試集的情感分類的準確率如圖3所示。從中可以看出,在只有10%的訓(xùn)練數(shù)據(jù)的情況下,情感分類的準確率已經(jīng)接近80%,主要原因在于酒店評論中加入了弱標注信息,并進行了一定的噪聲處理。
圖3 不同測試集比例下的準確率
此外,滑動窗口的大小對卷積神經(jīng)網(wǎng)絡(luò)有一定的影響,這里采用多種形式,包括單一滑動窗口和多滑動窗口,實驗對比結(jié)果如表2所示。實驗結(jié)果表明,當(dāng)窗口數(shù)量的個數(shù)包含5的時候,數(shù)據(jù)的準確率較高。
4 結(jié) 論
本文對社交媒體文本的情感分類問題進行了研究,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)算法的情感分類模型,并對6000條酒店評論數(shù)據(jù)進行了測試,結(jié)果表明基于卷積神經(jīng)網(wǎng)絡(luò)的情感分類方法具有較高的準確率。
參考文獻:
[1] Turney P D. Thumbs Up or Thumbs Down:Semantic Orientation Applied to Unsupervised Classification of Reviews [C]//Proceedings of Annual Conference of the Association for Computational Linguistics,2002:417-424.
[2] Kamps J and Marx M. Words with Attitude[C]//Proceedings of International Conference on Global Word Net,2002:332-341.
[3] Budanitsky A,Hirst G. Evaluating Wordnet-based Measures of Lexical Semantic Relatedness [J].Computational Linguistics,2006,32(1):13-47.
[4] Pang B,Lee L. Opinion Mining and Sentiment Analysis [J]. Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.
[5] Pang B,Lee L,Vaithyanathan S. Thumbs up:Sentiment Classification using Machine Learning Techniques [C]//Proceedings of Annual Conference of the Association for Computational Linguistics,2002:79-86.
[6] Cui H,Mittal V,Datar M. Comparative Experiments on Sentiment Classification for Online Product Reviews [C]//Proceedings of American Association of Artificial Intelligence,2006:1265-1270.
[7] Read J,Carroll J.Weakly Supervised Techniques for Domain-independent Sentiment Classification [C]//Proceedings of International Conference on Information and Knowledge Management Workshop on Topic-sentiment Analysis for Mass Opinion,2009:45-52.
[8] Li S,Wang Z,Zhou G,Lee S Y M. Semi-supervised Learning for Imbalanced Sentiment Classification [C]//Proceedings of International Joint Conference on Artificial Intelligence,2011:1826-1831.
[9] Yu N,Kübler S. Filling the Gap:Semi-supervised Learning for Opinion Detection across Domains [C]//Proceedings of Annual Conference of the Association for Computational Linguistics,2011:200-209.
[10] Liu S,Li F,Li F,Cheng X,Shen H. Adaptive Co-training SVM for Sentiment Classification on Tweets [C]//Proceedings of International Conference on Information and Knowledge Management,2013:2079-2088.