情感分類研究進(jìn)展

2017-06-23 12:48:09管子玉何金紅彭進(jìn)業(yè)

計(jì)算機(jī)研究與發(fā)展 2017年6期

關(guān)鍵詞：極性詞典語(yǔ)句

陳龍管子玉何金紅彭進(jìn)業(yè)

(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院西安 710127)

情感分類研究進(jìn)展

陳龍管子玉何金紅彭進(jìn)業(yè)

(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院西安 710127)

(longchen@stumail.nwu.edu.cn)

文本情感分析是多媒體智能理解的重要問(wèn)題之一.情感分類是情感分析領(lǐng)域的核心問(wèn)題，旨在解決評(píng)論情感極性的自動(dòng)判斷問(wèn)題.由于互聯(lián)網(wǎng)評(píng)論數(shù)據(jù)規(guī)模與日俱增，傳統(tǒng)基于詞典的方法和基于機(jī)器學(xué)習(xí)的方法已經(jīng)不能很好地處理海量評(píng)論的情感分類問(wèn)題.隨著近年來(lái)深度學(xué)習(xí)技術(shù)的快速發(fā)展，其在大規(guī)模文本數(shù)據(jù)的智能理解上表現(xiàn)出了獨(dú)特的優(yōu)勢(shì)，越來(lái)越多的研究人員青睞于使用深度學(xué)習(xí)技術(shù)來(lái)解決文本分類問(wèn)題.主要分為2個(gè)部分：1)歸納總結(jié)傳統(tǒng)情感分類技術(shù)，包括基于字典的方法、基于機(jī)器學(xué)習(xí)的方法、兩者混合方法、基于弱標(biāo)注信息的方法以及基于深度學(xué)習(xí)的方法；2)針對(duì)前人情感分類方法的不足，詳細(xì)介紹所提出的面向情感分類問(wèn)題的弱監(jiān)督深度學(xué)習(xí)框架.此外，還介紹了評(píng)論主題提取相關(guān)的經(jīng)典工作.最后，總結(jié)了情感分類問(wèn)題的難點(diǎn)和挑戰(zhàn)，并對(duì)未來(lái)的研究工作進(jìn)行了展望.

情感分析；情感分類；深度學(xué)習(xí)；弱監(jiān)督；主題提取

進(jìn)入Web2.0時(shí)代已歷十余載，互聯(lián)網(wǎng)的迅猛發(fā)展和移動(dòng)終端的快速普及為用戶提供了發(fā)表和分享個(gè)人言論的廣闊平臺(tái).日常生活中，人們經(jīng)常登陸不同類型網(wǎng)站(如社交網(wǎng)站、電商網(wǎng)站等)發(fā)表和分享個(gè)人觀點(diǎn)：在社交網(wǎng)站上評(píng)論新聞時(shí)事、在電商網(wǎng)站上快速瀏覽商品評(píng)論、在影評(píng)網(wǎng)站上發(fā)表影片觀后感等.這些評(píng)論中包含個(gè)人情感取向，通過(guò)分析評(píng)論中的情感取向可以有效把握輿情趨勢(shì)，進(jìn)而惠及政府和民眾.政府可以通過(guò)分析社交媒體數(shù)據(jù)來(lái)體察民意，從而合理制定或調(diào)整相關(guān)政策；商家能夠從商品評(píng)論摘要中得到消費(fèi)者的反饋信息，進(jìn)而優(yōu)化營(yíng)銷策略；消費(fèi)者則可以通過(guò)閱讀其他用戶發(fā)表的商品評(píng)論來(lái)決定是否購(gòu)買.圖1所示為一條商品評(píng)論摘要，其中紅色文字為商品的正面評(píng)論摘要，綠色文字為商品的負(fù)面評(píng)論摘要，深紅色方框中文字表示勾選的正面評(píng)論摘要示例.

Fig. 1 Summarization of product reviews圖1 商品評(píng)論摘要

分析上述不同類型評(píng)論數(shù)據(jù)中所包含的個(gè)人主觀情感取向需要使用情感分析技術(shù).情感分析(sentiment analysis)，又稱評(píng)論挖掘(opinion mining)，它利用自然語(yǔ)言處理(natural language processing, NLP)、文本分析、機(jī)器學(xué)習(xí)、計(jì)算語(yǔ)言學(xué)(computa-tional linguistics)等方法對(duì)帶有情感色彩的文本進(jìn)行分析、處理、推理和歸納.其標(biāo)準(zhǔn)定義為：情感分析是對(duì)文本中關(guān)于某個(gè)實(shí)體的觀點(diǎn)、情感、情緒及態(tài)度的計(jì)算研究[1].通俗地講，情感分析的目標(biāo)就是明確評(píng)論者對(duì)所評(píng)論對(duì)象的態(tài)度.而情感分析最基本任務(wù)是在文檔(document)、句子(sentences)或主題(topic，也稱為feature或aspect，下文統(tǒng)稱aspect)等不同層次上，將給定的評(píng)論文本分為積極(positive)、消極(negative)、中立(neutral)三個(gè)類別.在此基礎(chǔ)之上，還可以根據(jù)實(shí)際問(wèn)題設(shè)定多極情感分類目標(biāo)，如將新聞評(píng)論分為“悲傷”、“樂(lè)觀”、“憤怒”.

目前，情感分析技術(shù)已經(jīng)在政治、金融等領(lǐng)域嶄露頭角.文獻(xiàn)[2]通過(guò)情感分析技術(shù)分析社交網(wǎng)站Twitter上用戶的情感變化，結(jié)果顯示通過(guò)情感分析技術(shù)得到的用戶情感變化趨勢(shì)與傳統(tǒng)問(wèn)卷調(diào)查方法的結(jié)果驚人地一致.如圖2所示，研究人員對(duì)比了2008年5月至2010年5月期間美國(guó)民意調(diào)查結(jié)果(黑色實(shí)線)與同時(shí)期Twitter用戶情感指數(shù)分析結(jié)果(藍(lán)色實(shí)線)，參數(shù)window表示天數(shù)，參數(shù)r表示圖2中2個(gè)結(jié)果的相關(guān)度.圖2中兩者的相關(guān)性竟高達(dá)80%.文獻(xiàn)[3]將情感分析技術(shù)用于股票行情預(yù)測(cè)，如圖3所示.圖3中藍(lán)線表示“冷靜”情緒指數(shù)(CALM)，該指數(shù)通過(guò)情感分析技術(shù)獲得;紅線表示道瓊斯工業(yè)平均指數(shù)(DIJA).實(shí)驗(yàn)結(jié)果表明，“冷靜”情緒指數(shù)沿時(shí)間軸向后推移3 d和道瓊斯工業(yè)平均指數(shù)具有很高的一致性.因此，可以根據(jù)“冷靜”情緒指數(shù)來(lái)預(yù)測(cè)股票行情.

Fig. 2 Comparison between the result of sentiment analysis and polls[2]圖2 情感分析結(jié)果與民意調(diào)查結(jié)果對(duì)比[2]

Fig. 3 Comparison between CALM and Dow Jones industrial average (DIJA)[3]圖3 CALM指數(shù)與道瓊斯工業(yè)平均指數(shù)(DIJA)對(duì)比[3]

當(dāng)前，互聯(lián)網(wǎng)用戶規(guī)模與日俱增.據(jù)《2016年互聯(lián)網(wǎng)趨勢(shì)報(bào)告》統(tǒng)計(jì)顯示，目前全球互聯(lián)網(wǎng)用戶數(shù)已超30億，互聯(lián)網(wǎng)全球滲透率達(dá)到42%.其中，中國(guó)互聯(lián)網(wǎng)用戶數(shù)量達(dá)6.68億，位居世界首位.日益膨脹的互聯(lián)網(wǎng)用戶群產(chǎn)生了規(guī)模龐大的評(píng)論文本數(shù)據(jù).據(jù)《2015年度微博用戶發(fā)展報(bào)告》統(tǒng)計(jì)，微博的日活躍用戶量達(dá)1億，日均產(chǎn)生數(shù)據(jù)量達(dá)1 037 GB.另?yè)?jù)統(tǒng)計(jì)*https://about.twitter.com/company，世界知名社交網(wǎng)站Twitter日均發(fā)布的推文(tweet)數(shù)量達(dá)5億條.如何有效分析和處理如此規(guī)模龐大的評(píng)論數(shù)據(jù)成為了研究者們面臨的新挑戰(zhàn).為了應(yīng)對(duì)該挑戰(zhàn)，研究者們提出了多種情感分析技術(shù)，如評(píng)論摘要技術(shù)[4-5]、對(duì)比句分析方法[6]、評(píng)論投票技術(shù)[7]等.這些情感分析技術(shù)的關(guān)鍵問(wèn)題有2個(gè)：1)提取評(píng)論主題；2)對(duì)評(píng)論內(nèi)容進(jìn)行情感分類.

1 評(píng)論主題提取方法

評(píng)論主題(topic)，又稱方面(aspect)、特征(feature)，表示用戶評(píng)論的對(duì)象.評(píng)論主題的提取目標(biāo)是提取或推測(cè)出評(píng)論對(duì)象的文字表達(dá)，如詞匯、短語(yǔ)等.評(píng)論中的主題一般分為2類：1)顯式(explicit)主題;2)隱式(implicit)主題.顯式主題是指主題的文字表達(dá)直接存在于評(píng)論中，如手機(jī)評(píng)論“The apps are amazing.”中的主題詞“apps”;而隱式表達(dá)中不包含主題的文字表達(dá)，但可以從語(yǔ)義上推測(cè)出評(píng)論的主題，如從數(shù)碼相機(jī)評(píng)論“While light, it will not easily fit in pockets.”中可以推測(cè)出2個(gè)主題詞“weight”和“size”.以下內(nèi)容將分為2個(gè)部分來(lái)梳理這2類主題的提取方法.

1.1 顯式主題的提取方法

顯式主題的提取方法主要分為2類：基于語(yǔ)言規(guī)則的方法和基于概率模型的方法.

基于語(yǔ)言規(guī)則的方法中，文獻(xiàn)[8]所提出的方法最為經(jīng)典.該方法首先利用自然語(yǔ)言處理工具NLProcessor 2000對(duì)評(píng)論數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注(part-of-speech tag, POS tag);再使用Apriori算法挖掘評(píng)論數(shù)據(jù)中頻繁出現(xiàn)的詞匯和短語(yǔ)(即集合大小小于3的頻繁項(xiàng)集)，用這些頻繁項(xiàng)集構(gòu)建候選主題集合;之后，對(duì)候選主題集合進(jìn)行過(guò)濾.該文提出了2種過(guò)濾方法.

1) 緊密度過(guò)濾.該方法用于判斷候選主題集合中的短語(yǔ)是否緊密，若不緊密則被過(guò)濾掉.判斷標(biāo)準(zhǔn)有2個(gè)：①在一條評(píng)論語(yǔ)句S中，若存在候選集中的一個(gè)短語(yǔ)，則計(jì)算組成該短語(yǔ)的2個(gè)詞匯在語(yǔ)句S中的距離，若距離小于3個(gè)詞則稱該短語(yǔ)在語(yǔ)句S中緊密；②在整個(gè)數(shù)據(jù)集中，若滿足標(biāo)準(zhǔn)1的語(yǔ)句至少有2條，則稱該詞組是緊密的.因此，不滿足標(biāo)準(zhǔn)2的短語(yǔ)會(huì)被過(guò)濾掉.例如3條評(píng)論語(yǔ)句：“Thebatterylifeis long.”，“The phone has longbatterylife.”，“Thebatteryis good enough, but I spent wholelifeto get used to the huge screen.”其中，候選主題詞 “batterylife”在第1，2句是緊密的.第3句話中，“battery”和“l(fā)ife”的距離大于3，不滿足標(biāo)準(zhǔn)1.如果在整個(gè)評(píng)論數(shù)據(jù)集中同時(shí)出現(xiàn)上述3句話，則“batterylife”是一個(gè)緊密詞組，因?yàn)闈M足“batterylife”緊密條件的句子在整個(gè)數(shù)據(jù)集中出現(xiàn)了2次.該方法目的是過(guò)濾掉那些頻繁共現(xiàn)但無(wú)法構(gòu)成詞組的詞集合.

2) 冗余過(guò)濾.該方法定義了一個(gè)判定值p-support.p-support指滿足下列2個(gè)條件的評(píng)論語(yǔ)句數(shù)量：①該語(yǔ)句中出現(xiàn)的主題詞或短語(yǔ)是名詞或者名詞詞組；②該語(yǔ)句中不能出現(xiàn)任何詞組是該主題詞的超集(superset).我們通過(guò)舉例說(shuō)明p-support如何取值.例如，候選集中詞匯“manual”出現(xiàn)在10個(gè)句子中，它的超集“manual mode”和“manual setting”也出現(xiàn)在評(píng)論數(shù)據(jù)中，2個(gè)詞組出現(xiàn)在不同評(píng)論語(yǔ)句里的次數(shù)分別為4次和3次，且2個(gè)詞組沒(méi)有出現(xiàn)在同一句話里.那么，“manual”的p-support值為10-4-3=3.論文中將p-support的閾值設(shè)為3，候選集中p-support值小于3的詞會(huì)被過(guò)濾掉.該方法主要目的是過(guò)濾掉非名詞詞匯和詞組.

在過(guò)濾步驟之后，文獻(xiàn)[8]作者還提出了一種非頻繁主題的提取方法.該文作者通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)了如下規(guī)律：評(píng)論者評(píng)價(jià)頻繁主題所用到的情感詞與其評(píng)價(jià)非頻繁主題所用到的情感詞相同.例如，“Redeyeis veryeasyto correct.”和“The camera comes with an excellenteasyto installsoftware”這2句話都用到了情感詞“easy”，分別評(píng)價(jià)2個(gè)不同的主題“Redeye”和“software”.其中，“software”為評(píng)論中頻繁出現(xiàn)的主題，“Redeye”則是非頻繁主題，情感詞“easy”將兩者聯(lián)系了起來(lái).通過(guò)“頻繁主題”→“情感詞”→“非頻繁主題”的挖掘模式可以獲得更多非頻繁主題.Zhuang等人[9]提出利用主題和情感詞之間的關(guān)系來(lái)提取主題.該方法首先利用語(yǔ)法依賴關(guān)系解析工具(如MINIPAR[10])得到如圖4所示的語(yǔ)法依賴關(guān)系圖，圖4中例句為“Thismovieis not amasterpiece.”其中，“movie” 和“masterpiece”分別被標(biāo)注為主題和情感詞.圖4中的依賴關(guān)系為“NN-nsubj-VB-dobj-NN”.其中，“NN”和“VB”是詞性標(biāo)簽，“nsubj”和“dobj”是依賴關(guān)系標(biāo)簽.文獻(xiàn)[9]作者通過(guò)大量訓(xùn)練數(shù)據(jù)來(lái)捕捉這種依賴關(guān)系，再利用這種依賴關(guān)系提取“主題-情感詞”對(duì)兒，從而得到評(píng)論語(yǔ)句的主題.

Fig. 4 Grammatical dependency graph on a review sentence[9]圖4 評(píng)論語(yǔ)法依賴關(guān)系圖

Fig. 5 The cluster-based method for apect words’ extraction[18]圖5 基于聚類的主題詞提取方法

也有研究工作提出使用基于概率模型的方法來(lái)進(jìn)行主題提取.Jin等人[11]提出了一種詞匯化隱馬爾可夫模型(lexicalized HMM)來(lái)提取評(píng)論主題.不同于傳統(tǒng)隱馬爾可夫模型，該文作者將詞性標(biāo)注、詞典等特征融入了HMM.Lu等人[12]則提出了一種基于概率的隱含情感分析方法(probabilistic latent semantic analysis， PLSA)來(lái)提取短評(píng)論中的主題.該文作者認(rèn)為短評(píng)論的組成要素有2個(gè)：1)修飾詞modifier;2)被修飾對(duì)象head term.因此，一條評(píng)論可以表達(dá)為〈head term,modifier〉的形式，如〈quality,good〉，〈ship,fast〉等.一般來(lái)說(shuō)，被修飾詞為主題，修飾詞為情感詞.文獻(xiàn)[12]作者利用head term與modifier之間的共現(xiàn)信息將這種表達(dá)形式融入到PLSA模型中.該文中提出的基于PLSA的方法將k-unigram語(yǔ)言模型定義為k個(gè)主題模型(topic model)，每個(gè)模型都是head term的多項(xiàng)式分布，用來(lái)捕捉對(duì)應(yīng)的主題；再利用EM算法估計(jì)模型參數(shù).其他研究工作還使用到了條件隨機(jī)場(chǎng)(conditional random fields)[13]、LDA模型(latent Dirichlet allocation)[14-16].

1.2 隱式主題的提取方法

隱式主題的表達(dá)形式呈現(xiàn)多樣化特點(diǎn).其中，形容詞表達(dá)是最常見(jiàn)的一種形式[17].在評(píng)論數(shù)據(jù)中，一個(gè)形容詞常用來(lái)評(píng)價(jià)某一特定的主題.例如，“heavy”常用于評(píng)價(jià)“weight”，“beautiful”常用來(lái)評(píng)價(jià)“l(fā)ook”或“appearance”.但是，隱式主題的提取工作的難點(diǎn)在于：對(duì)于不同領(lǐng)域的評(píng)論，相同的文字表達(dá)形式(如形容詞)可能會(huì)指代不同的主題.例如，“heavy”在數(shù)碼相機(jī)評(píng)論“the camera is too heavy”指代“weight”，而在一條微博“Alas! The heavy day!”中則指代“weather”.因此，如何捕捉文字表達(dá)與隱式主題之間的對(duì)應(yīng)關(guān)系成為隱式主題提取方法的關(guān)鍵.前人研究工作中，多數(shù)研究者都嘗試捕捉這種隱含關(guān)系.Hai等人[18]提出一種兩步驟的方法來(lái)挖掘評(píng)論中的隱式主題：步驟1利用關(guān)聯(lián)規(guī)則挖掘方法挖掘評(píng)論集中頻繁共現(xiàn)的情感詞和主題詞，以情感詞作為條件、主題詞作為結(jié)論生成關(guān)聯(lián)規(guī)則[情感詞，主題詞]；步驟2對(duì)步驟1生成的關(guān)聯(lián)規(guī)則[情感詞，主題詞]中的主題詞進(jìn)行聚類，形成多個(gè)主題詞簇.將主題詞簇與情感詞再次組合形成新的關(guān)聯(lián)規(guī)則[情感詞，主題詞簇].對(duì)于給定的情感詞，該方法能夠找到對(duì)應(yīng)的主題詞簇，并將該簇中最有代表性的主題詞作為所要提取的隱式主題.Su等人[19]則提出一種聚類方法，如圖5所示.圖5中，實(shí)線左側(cè)為主題詞或短語(yǔ)，右邊為情感詞.該方法先分別對(duì)實(shí)線兩側(cè)詞匯進(jìn)行相似度聚類，再利用互增強(qiáng)關(guān)系(mutual reinforcement principle)來(lái)挖掘主題詞或短語(yǔ)與情感詞的對(duì)應(yīng)關(guān)系.當(dāng)句子只有情感詞時(shí)，通過(guò)挖掘出的關(guān)系來(lái)找到最可能的主題詞.

總結(jié)上述主題提取方法的研究工作.針對(duì)顯式主題提取的研究工作中，基于語(yǔ)言規(guī)則的方法在同一領(lǐng)域內(nèi)具有較強(qiáng)的適用性，但是推廣能力有限，同一規(guī)則不一定適用于其他領(lǐng)域.此外，語(yǔ)言規(guī)則設(shè)計(jì)需要大量的數(shù)據(jù)分析和嚴(yán)謹(jǐn)?shù)囊?guī)則設(shè)定.基于概率模型的方法具有一定的推廣能力，但在大規(guī)模評(píng)論數(shù)據(jù)上的效率較低.隱式主題的提取難度較大，關(guān)鍵挑戰(zhàn)在于如何準(zhǔn)確捕捉文字表達(dá)與隱含主題之間的映射關(guān)系.

2 傳統(tǒng)情感分類方法

情感分類(sentiment classification)是情感分析技術(shù)的核心問(wèn)題，其目標(biāo)是判斷評(píng)論中的情感取向.按區(qū)分情感的粒度可分成2種分類問(wèn)題：1)正/負(fù)(positive/negative)二分類或者正面/負(fù)面/中立(positive/negative/neutral)三分類；2)多元分類，如對(duì)新聞評(píng)論進(jìn)行“樂(lè)觀”、“悲傷”、“憤怒”、“驚訝”四元情感分類[20]，對(duì)商品評(píng)論進(jìn)行1星～5星五元情感分類[21]等.第1類分類問(wèn)題因?yàn)楦咭话阈远艿綇V泛關(guān)注.以下將著重介紹針對(duì)第1類分類問(wèn)題的方法.主流情感分類方法按技術(shù)路線主要分為5類：1)基于詞典的方法；2)基于機(jī)器學(xué)習(xí)的方法；3)詞典與機(jī)器學(xué)習(xí)混合的方法；4)基于弱標(biāo)注信息的方法；5)基于深度學(xué)習(xí)的方法.以下，我們將介紹這5類方法中的經(jīng)典工作.

2.1 基于詞典(Lexicon-based)的情感分類方法

基于詞典方法的核心模式是“詞典+規(guī)則”，即以情感詞典作為判斷評(píng)論情感極性的主要依據(jù)[22]，同時(shí)兼顧評(píng)論數(shù)據(jù)中的句法結(jié)構(gòu)，設(shè)計(jì)相應(yīng)的判斷規(guī)則(如but從句與主句情感極性相反).文獻(xiàn)[4-5,23]是基于詞典的情感分類方法中最具代表性的工作.文獻(xiàn)[23]中，Turney認(rèn)為評(píng)論中包含形容詞或副詞的詞組是判定整條評(píng)論情感極性的依據(jù).該文提出分別計(jì)算待判定詞匯與“excellent”以及待判定詞與“poor”之間的互信息，然后對(duì)兩者求差得出詞組的情感分值：

SO(phrase)=PMI(phrase,“excellent”)-PMI(phrase,“poor”)，

(1)

其中，SO(phrase)為詞組(phrase)的情感分值;PMI為互信息，利用詞之間的共現(xiàn)關(guān)系計(jì)算得到.計(jì)算整條評(píng)論中所有詞組互信息差值的均值，將該均值作為整條評(píng)論的情感分值.情感分值的正負(fù)和大小分別表示評(píng)論的情感極性和強(qiáng)弱.對(duì)一條評(píng)論的計(jì)算結(jié)果如表1所示，該條評(píng)論的情感分值大于零，因此被判斷為正面極性,分值越大情感極性越強(qiáng).論文實(shí)驗(yàn)數(shù)據(jù)共計(jì)410條評(píng)論，橫跨手機(jī)評(píng)論、電影評(píng)論等不同領(lǐng)域.實(shí)驗(yàn)結(jié)果顯示，該方法實(shí)現(xiàn)了最低65.83%、最高84.0%的分類準(zhǔn)確率.

Table 1 A Processed Review Judged to be Positive by Forlum (1) [23]

文獻(xiàn)[4]中，該文作者認(rèn)為評(píng)論中形容詞的極性是判定評(píng)論情感極性的主要指標(biāo)，提出將形容詞(如“good”,“bad”等)作為情感詞建立情感詞典，再根據(jù)詞典中情感詞的極性來(lái)判斷評(píng)論的情感極性.該文提出通過(guò)語(yǔ)義詞網(wǎng)絡(luò)WordNet中形容詞的近義詞集和反義詞集來(lái)判定評(píng)論中的形容詞極性.如圖6所示，實(shí)線箭頭表示近義詞關(guān)系，虛線箭頭表示反義詞關(guān)系.假設(shè)已知WordNet網(wǎng)絡(luò)中任何一個(gè)詞的情感極性，便可以利用網(wǎng)絡(luò)中的近義詞/反義詞關(guān)系獲取更多詞匯的情感極性，進(jìn)而建立起相應(yīng)的情感詞典.情感極性關(guān)系為：互為近義詞關(guān)系的詞匯具有相同情感極性，互為反義詞關(guān)系的詞匯具有相反情感極性.該方法具體步驟如下：1)從評(píng)論中統(tǒng)計(jì)出最頻繁出現(xiàn)的n個(gè)形容詞(該文中實(shí)驗(yàn)取值n=30)建立種子集，人工標(biāo)注種子集中所有詞匯的極性；2)在WordNet中以種子集中的詞匯為源頭，根據(jù)上述近義詞、反義詞的情感極性關(guān)系，迭代地自動(dòng)標(biāo)注其他形容詞的情感極性，從而得到WordNet形容詞情感詞典；3)根據(jù)該詞典和簡(jiǎn)單規(guī)則判別評(píng)論的極性.該文實(shí)驗(yàn)數(shù)據(jù)來(lái)自亞馬遜購(gòu)物網(wǎng)站，包含數(shù)碼相機(jī)、DVD播放器、MP3播放器及手機(jī)4類商品評(píng)論.該方法在測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)了平均84.2%的準(zhǔn)確率.文獻(xiàn)[5]在文獻(xiàn)[4]研究工作的基礎(chǔ)上，進(jìn)一步考慮提出情感詞與評(píng)論主題詞之間的距離對(duì)整條評(píng)論情感極性的影響.如式(2)所示，其中，Score(f)指評(píng)論主題詞f的情感分值；wi是該評(píng)論語(yǔ)句中除主題詞外的所有詞匯；SO(wi)是詞匯wi的情感極性值，可查詢情感詞典獲得，若為正面極性則SO(wi)=1，若為負(fù)面極性則SO(wi)=-1；dis(wi,f)指詞wi與主題詞f之間的詞數(shù)目.

(2)

Fig. 6 Bipolar adjective structure[4]圖6 雙極性形容詞結(jié)構(gòu)

由式(2)可知，離主題詞越遠(yuǎn)的詞對(duì)情感極性影響程度越弱;相反，離主題詞越近的詞對(duì)情感極性影響程度越強(qiáng).此外，文獻(xiàn)[5]作者還提出了一些句法規(guī)則來(lái)調(diào)整評(píng)論語(yǔ)句的情感極性.該文實(shí)驗(yàn)結(jié)果表明，該方法的分類性能顯著高于同類方法，在抓取的亞馬遜商品評(píng)論數(shù)據(jù)[2]上實(shí)現(xiàn)了92%的精確度和91%的召回率.

簡(jiǎn)要總結(jié)2.1節(jié)工作.基于詞典的情感分類方法本質(zhì)上依賴于情感詞典和判斷規(guī)則的質(zhì)量，而兩者都需要人工設(shè)計(jì)，如建立詞典所使用的初始種子詞列表需要人工給定，判斷規(guī)則的設(shè)計(jì)則需要人工分析數(shù)據(jù)集中評(píng)論語(yǔ)句的句法結(jié)構(gòu).因此，這類方法的優(yōu)劣很大程度上取決于人工設(shè)計(jì)和先驗(yàn)知識(shí)，推廣能力較差.如今，新事物借助于社交媒體平臺(tái)得以快速傳播，網(wǎng)絡(luò)新詞、舊詞新義的層出不窮使得語(yǔ)言的更新周期變短，詞匯的語(yǔ)義不斷衍變，從而導(dǎo)致原先情感詞典中的部分詞匯不再適用于新的語(yǔ)言環(huán)境.此外，基于詞典的方法無(wú)法解決隱含觀點(diǎn)(implicit opinions)的挖掘問(wèn)題，如客觀評(píng)論語(yǔ)句“I bought the mattress a week ago, and a valley appeared today”指出床墊出現(xiàn)了質(zhì)量問(wèn)題，但采用了一種客觀性的文字表達(dá)形式.這種客觀語(yǔ)句是評(píng)論的重要表達(dá)形式之一[24]，包含比主觀表達(dá)更多的有價(jià)值信息，對(duì)用戶幫助更大.但是，由于句中沒(méi)有出現(xiàn)任何情感詞導(dǎo)致基于詞典的方法無(wú)法判斷情感極性.正如文獻(xiàn)[25]中所述，基于詞典的方法只能通過(guò)專案(ad-hoc)的方式提取顯式觀點(diǎn).此外，情感詞的情感極性還依賴于上下文內(nèi)容，同一情感詞的情感極性會(huì)隨著所評(píng)價(jià)主題的不同發(fā)生變化[26].例如在手機(jī)評(píng)論中，“l(fā)arge”在評(píng)價(jià)“battery”時(shí)表達(dá)負(fù)面情感，而在評(píng)價(jià)“screen”時(shí)表達(dá)正面情感.

以下，我們羅列了較為成熟的開(kāi)源情感詞典：

1) GI(the general inquirer)[27].該情感詞典給出了較全面的詞條屬性.對(duì)每一個(gè)情感詞都給出了對(duì)應(yīng)的情感極性(negative/positive)、詞性(如NN,NNs,ADJ等)、客觀性指數(shù)等屬性.

2) LIWC(linguistic inquiry and word count)[28].該情感詞典組織結(jié)構(gòu)如表2所示，表格第1列Category表示情感詞類別(如第1行為否定詞)，第2列Example則給出了每個(gè)情感類別對(duì)應(yīng)的正則表達(dá)式.

Table 2 The Structure of Sentiment Lexicon LIWC表2 情感詞典LIWC的組織結(jié)構(gòu)

Notes: *means regular expression.

3) MPQA(multi-perspective question answering).

由Wiebe等人[29-30]建立，詞典包含2 718個(gè)正面情感詞和4 912個(gè)負(fù)面情感詞.每個(gè)詞條具有5個(gè)屬性：情感極性(Polarity：positive/negative)、情感強(qiáng)度(Strength：weaksubj/strongsubj)、詞個(gè)數(shù)、詞性(Part-of-speech：adj/noun/verb/anypos…)以及是否為過(guò)去式(Stemmed：y/n).

4) Opinion Lexicon[4].該詞典包含2 006個(gè)正面情感詞和4 783個(gè)負(fù)面情感詞.其獨(dú)特之處在于同時(shí)包含情感詞的標(biāo)準(zhǔn)形式和其他形式，如俚語(yǔ)、拼寫(xiě)錯(cuò)誤、語(yǔ)法變形以及社交媒體標(biāo)記等.

5) SentiWordNet[31].該詞典對(duì)語(yǔ)義詞網(wǎng)絡(luò)WordNet中所有詞匯進(jìn)行情感極性分類并給出情感極性的量化分?jǐn)?shù)(PosScore/NegScore).

對(duì)基于詞典的情感分類方法而言，選擇最優(yōu)情感詞典也是需要注意的問(wèn)題.對(duì)比同一詞匯在不同詞典中的一致性得到如表3所示的對(duì)比結(jié)果.表3中計(jì)算的分?jǐn)?shù)表示2個(gè)詞典的不一致程度.其中，分?jǐn)?shù)的分母代表2個(gè)不同詞典的交集中的詞匯總數(shù)，分?jǐn)?shù)的分子代表情感極性不一致的詞匯數(shù)目.對(duì)于不一致的詞條則需要根據(jù)實(shí)際數(shù)據(jù)進(jìn)行人工修正，這也是基于詞典方法的缺點(diǎn)之一.

Table 3 The Degree of Inconsistency Between Different Sentiment Lexicons

2.2 基于機(jī)器學(xué)習(xí)的方法

Pang等人[32]于2002年首次提出使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法解決情感分類問(wèn)題.該文針對(duì)文檔層次(document-level)的二元情感分類問(wèn)題，即判斷整條評(píng)論的極性.該工作實(shí)驗(yàn)對(duì)比了不同特征組合與不同機(jī)器學(xué)習(xí)方法在電影評(píng)論情感分類問(wèn)題上的效果.實(shí)驗(yàn)結(jié)果如表4所示，實(shí)驗(yàn)結(jié)果表明，相比于樸素貝葉斯分類(naive Bayes, NB)和最大熵模型(maximum entropy, ME)，支持向量機(jī)(support vector machine, SVM)的分類效果更好，它與Unigrams特征結(jié)合進(jìn)行情感分類的準(zhǔn)確率達(dá)到了82.9%.

Table 4 Performance Comparison of SVM, NB and ME[32]表4 SVM, NB and ME方法情感分類準(zhǔn)確率對(duì)比[32]

Notes：The bold values mean the best accuracy value among the three classifiers.

此后，多數(shù)機(jī)器學(xué)習(xí)方法的研究工作將重點(diǎn)放在如何設(shè)計(jì)更多有效的分類特征上.研究者嘗試了不同類特征組合在情感分類上的效果，Dave等人[33]對(duì)比了Unigrams特征和Bigrams特征在情感分類問(wèn)題上的效果，實(shí)驗(yàn)結(jié)果如表5所示.該實(shí)驗(yàn)證明了相同條件下使用Bigrams特征比使用Unigrams特征的分類準(zhǔn)確率要高.

Table 5 Performance Comparison on Unigrams and Bigrams[33]表5 使用 Unigrams特征和Bigrams特征的分類結(jié)果比較[33]

Mullen和Collier[34]在前人研究工作基礎(chǔ)上，設(shè)計(jì)出更優(yōu)秀的特征組合，并利用支持向量機(jī)分類器進(jìn)行情感極性分類.該方法所提出特征組合中包含特征：詞匯的互信息特征(pointwise mutual information, PMI)[23]、Osgood語(yǔ)義區(qū)分度(Osgood semantic differentiation with WordNet)[35]、主題相似度特征(topic proximity)和句法關(guān)系特征(syntactic-relation features)[22].其中，詞匯的Osgood語(yǔ)義區(qū)分度包括3個(gè)指標(biāo)：強(qiáng)度(強(qiáng)或弱)、活躍度(積極或消極)、評(píng)估值(好或壞)，這3個(gè)指標(biāo)來(lái)源于查理斯·奧斯古德語(yǔ)義區(qū)分度理論(Charles Osgood’s theory of semantic differentiation)[36].為了提取詞匯的Osgood語(yǔ)義區(qū)分度特征，作者利用WordNet來(lái)傳播這3個(gè)指標(biāo)，其思想與文獻(xiàn)[4]中生成情感詞典的思想相似：利用WordNet中少量已知詞匯的Osgood語(yǔ)義區(qū)分度指標(biāo)來(lái)推斷更多詞匯的Osgood語(yǔ)義區(qū)分度指標(biāo).該工作結(jié)合上述多種特征對(duì)評(píng)論進(jìn)行情感分類，實(shí)驗(yàn)數(shù)據(jù)采用文獻(xiàn)[23]中的數(shù)據(jù)集.實(shí)驗(yàn)結(jié)果如表6所示.從實(shí)驗(yàn)結(jié)果上看，該文中提出的基于混合特征的分類方法Hybrid SVM(Turney/Osgood and Lemmas)在分類準(zhǔn)確率上明顯優(yōu)于使用其他特征組合的分類方法.

Table 6 Performance Comparison of Different Features[34](SVM with Linear Kernel)

Notes：The bold values mean the best accuracy value among the different methods.

Saleh等人[37]在3個(gè)不同數(shù)據(jù)集上進(jìn)行了27組實(shí)驗(yàn)，分別測(cè)試了不同特征選擇方法對(duì)情感分類效果的影響.實(shí)驗(yàn)選擇支持向量機(jī)作為分類模型，數(shù)據(jù)集有3個(gè)：1)Pang和Lee在文獻(xiàn)[38]中的數(shù)據(jù)集；2)Taboada和Grieve在文獻(xiàn)[39]中的數(shù)據(jù)集；3)SINAI數(shù)據(jù)集中的數(shù)碼相機(jī)子集，實(shí)驗(yàn)采用10折交叉驗(yàn)證(10-FCV)方法來(lái)測(cè)試分類器的性能.3組情感分類實(shí)驗(yàn)結(jié)果如表7～9所示:

Table 7 Performance Comparison of Different Features on Pang Dataset[37]

Table 8 Performance Comparison of Different Features on Taboada Dataset[37]

Table 9 Performance Comparison of Different Features on SINAI Dataset[37]

實(shí)驗(yàn)結(jié)果表明，使用TF-IDF和Trigrams的特征組合在Pang數(shù)據(jù)集上實(shí)現(xiàn)了最高84.65%的分類準(zhǔn)確率；使用TF-IDF和Trigrams特征組合在Taboada數(shù)據(jù)集上實(shí)現(xiàn)了最高73.25%的分類準(zhǔn)確率；使用TF-IDF和Bigrams特征組合在SINAI數(shù)據(jù)集上實(shí)現(xiàn)了最高91.51%的分類準(zhǔn)確率.

Zhang等人[40]使用樸素貝葉斯(NB)和支持向量機(jī)(SVM)分類器對(duì)酒店評(píng)論進(jìn)行情感分類.作者對(duì)評(píng)論數(shù)據(jù)分別提取Unigrams,Bigrams和Trigrams特征，如表10和表11所示.上述特征采用2種表達(dá)方式：二值(binary)和頻率(frequency).二值表達(dá)用0或1表示一個(gè)特征是否出現(xiàn)在評(píng)論文檔中；頻率表達(dá)則是統(tǒng)計(jì)特征在評(píng)論文檔中的出現(xiàn)次數(shù).實(shí)驗(yàn)測(cè)試了使用不同數(shù)量n-gram特征進(jìn)行情感分類的準(zhǔn)確率，結(jié)果如表12所示，其中，表格第1列為不同類別特征，n-gram和n-gram_freq分別表示基于二值表達(dá)的n-gram特征和基于頻率表達(dá)的n-gram特征，NB和SVM對(duì)應(yīng)2種分類器，表格中分類結(jié)果由2部分組成：括號(hào)外數(shù)字為情感分類準(zhǔn)確率，括號(hào)內(nèi)數(shù)字為特征數(shù)目.從結(jié)果可以看出，使用NB和基于二值的Bigram特征在特征數(shù)目落入900至1 100區(qū)間時(shí)，能夠達(dá)到最高95.67%的分類準(zhǔn)確率(accuracy).使用SVM和基于頻率的Bigram特征在特征數(shù)目為1 950時(shí)，能夠達(dá)到最高分類準(zhǔn)確率94.83%.

Table 10 n-gram Feature Selected from Binary-Based Documents[40]

Table 11n-gram Feature Selected from Frequency-Based Documents[40]

Table 12 The Best Performance on Different Number of Features[40]

Notes：The bold values mean best accuracy, and the values in the parentheses means the number ofn-gram features.

簡(jiǎn)要總結(jié)上述基于機(jī)器學(xué)習(xí)技術(shù)的情感分類研究工作：

1) 特征工程(feature engineering)是此類研究工作的核心.情感分類任務(wù)中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、Part-of-Speech(POS)特征、句法特征[41]、TF-IDF特征等.然而，這類方法仍舊依賴于人工設(shè)計(jì)，研究過(guò)程中容易受到人為因素的影響.此外，人工設(shè)計(jì)的特征在不同領(lǐng)域的推廣能力較差，在某一領(lǐng)域表現(xiàn)優(yōu)秀的特征集不一定在其他領(lǐng)域也同樣優(yōu)秀[42].

2) 基于機(jī)器學(xué)習(xí)的情感分類方法多使用經(jīng)典分類模型如支持向量機(jī)、樸素貝葉斯、最大熵模型等.其中，多數(shù)分類模型的性能依賴于標(biāo)注數(shù)據(jù)集的質(zhì)量[43]，而獲取高質(zhì)量的標(biāo)注數(shù)據(jù)則需要耗費(fèi)大量的人工成本.

2.3 詞典與機(jī)器學(xué)習(xí)混合的方法

部分情感分類的研究工作將基于詞典的方法和基于機(jī)器學(xué)習(xí)的方法相融合.這類混合方法的思路主要分為2種：1)將“詞典+規(guī)則”視作簡(jiǎn)單的分類器，然后融合多種不同分類器進(jìn)行情感分類;2)將詞典信息作為一種特征與現(xiàn)有特征(如句法特征、POS特征等)進(jìn)行組合，然后選擇最優(yōu)的特征組合進(jìn)行情感分類.以下，我們對(duì)這類方法中的代表性工作進(jìn)行簡(jiǎn)要介紹.

Prabowo等人[44]提出了一種基于規(guī)則的分類器(rule-based classifier, RBC)和支持向量機(jī)分類器(SVM)[32]混合的方法,解決文檔級(jí)別的情感分類問(wèn)題.其中，RBC設(shè)定了3種規(guī)則：

1) 基于情感詞的判定規(guī)則[情感詞]→[+/-].其中，“+/-”表示“正面情感/負(fù)面情感”.該規(guī)則根據(jù)出現(xiàn)在評(píng)論中的情感詞的極性來(lái)判斷整條評(píng)論的情感極性,情感詞的極性通過(guò)查詢GI詞典[27]獲得.具體實(shí)例如[excellent]→[+]，[absurd]→[-].

2) 基于主題詞的判定規(guī)則，如[#more expen-sive than?]→[-].其中，“#”表示主題詞，“?”表示被比較的對(duì)象.該規(guī)則主要針對(duì)包含多主題詞的對(duì)比句的情感分類問(wèn)題.例如“A is more expensive than B”，若主題詞為A，則該評(píng)論的情感極性為負(fù)，即[#more expensive than?]→[-];若B為主題詞，則評(píng)論的情感極性為正，即[?more expensive than #]→[+].

3) 基于互信息的判斷規(guī)則[PMI of review]→[+/-].該規(guī)則基于Turney的研究工作[23]，計(jì)算整條評(píng)論中所有詞組互信息差值的均值，根據(jù)均值的正負(fù)來(lái)判斷評(píng)論的情感極性.

上述3種判定規(guī)則中，基于情感詞的判定規(guī)則和基于互信息的判定規(guī)則屬于基于詞典的情感分類方法.SVM采用文獻(xiàn)中[23]的方法，該方法屬于機(jī)器學(xué)習(xí)方法.該文作者將上述2種分類器混合進(jìn)行情感分類：先使用RBC進(jìn)行分類，若得到分類結(jié)果則返回該結(jié)果；若沒(méi)得到分類結(jié)果，則使用SVM分類器進(jìn)行情感分類.實(shí)驗(yàn)數(shù)據(jù)集來(lái)自文獻(xiàn)[38]，該數(shù)據(jù)集包含電影、商品和社交網(wǎng)站3個(gè)不同領(lǐng)域的評(píng)論數(shù)據(jù).該混合方法在實(shí)驗(yàn)數(shù)據(jù)集上達(dá)到了90.45%的準(zhǔn)確率.

Fang Ji等人[45]提出將詞典信息融入到支持向量機(jī)分類器中，解決語(yǔ)句級(jí)別的情感分類問(wèn)題.該方法中，作者將評(píng)論語(yǔ)句中的名詞、動(dòng)詞、形容詞和副詞作為該語(yǔ)句的Unigrams特征詞.例如，一條評(píng)論語(yǔ)句“The case is rigid so it gives the camera extra nice protection.”通過(guò)判斷詞性可以抽取句中的Unigram特征詞序列：〈case，rigid，give，camera，extra，nice，protection〉.若Unigrams特征詞序列中出現(xiàn)了包含于MPQA[29]中的情感詞，則將該情感詞的極性詞(positive或negative)插入到特征詞序列中.例如，上述詞序列中“nice”的情感極性為“positive”，則將“postive”插入到語(yǔ)句的詞序列中得到〈case，rigid，give，camera，extra，nice，protection，positive〉.若詞序列中出現(xiàn)多個(gè)情感詞，仍按上述方法在Unigrams特征詞序列中插入相應(yīng)的極性詞.然后，利用Bag-of-Words模型將特征詞序列轉(zhuǎn)化成對(duì)應(yīng)的特征向量.特征向量中的元素代表詞序列中詞匯出現(xiàn)的次數(shù).例如，詞序列中出現(xiàn)了2個(gè)“positive”和2個(gè)“negative”，則對(duì)應(yīng)的特征向量中“positive”和“negative”位置都為2.通過(guò)這種方法將詞典信息融入到語(yǔ)句的特征向量中，再使用支持向量機(jī)分類器進(jìn)行情感分類.不同于上述Fang Ji等人的工作，Abbasi等人[46]將研究重點(diǎn)放在特征工程上，提出了一種新的特征選擇技術(shù)，稱為特征關(guān)系網(wǎng)絡(luò)(feature relation network, FRN).該技術(shù)融合了規(guī)則特征、n-grams特征、句法特征等多種特征，達(dá)到了較高的分類性能.

綜上所述，盡管混合方法改進(jìn)了基于詞典和基于機(jī)器學(xué)習(xí)方法的性能，但本質(zhì)上并沒(méi)有從特征設(shè)計(jì)和詞典構(gòu)建中解放出來(lái).

2.4 基于弱標(biāo)注信息的方法

由于人工標(biāo)注訓(xùn)練數(shù)據(jù)費(fèi)時(shí)費(fèi)力，近年來(lái)情感分析領(lǐng)域的研究者開(kāi)始考慮從用戶產(chǎn)生的數(shù)據(jù)中挖掘有助于訓(xùn)練情感分類器的信息，如評(píng)論的評(píng)分(ratings)、微博中的表情符號(hào)等.由于互聯(lián)網(wǎng)用戶的“標(biāo)注”行為沒(méi)有統(tǒng)一標(biāo)準(zhǔn)，具有較大隨意性，所產(chǎn)生的標(biāo)注信息存在噪聲(如高評(píng)分的負(fù)面評(píng)論)，因此我們將這種標(biāo)注信息稱為弱標(biāo)注信息.弱標(biāo)注信息能夠在一定程度上反映評(píng)論的情感語(yǔ)義，因此很多研究者嘗試在情感分類研究工作中引入弱標(biāo)注信息.

Qu等人[47]提出使用包含評(píng)分信息的評(píng)論數(shù)據(jù)作為弱標(biāo)注數(shù)據(jù)訓(xùn)練概率模型來(lái)解決語(yǔ)句的情感分類問(wèn)題.T?ckstr?m等人[48]提出利用條件隨機(jī)場(chǎng)(conditional random fields, CRF)模型結(jié)合文檔標(biāo)簽(即評(píng)論評(píng)分)和語(yǔ)句標(biāo)簽來(lái)解決情感分類問(wèn)題.但是，上述2種方法都還依賴于人工設(shè)計(jì)的特征.

Maas等人[49]提出在概率模型中引入評(píng)論評(píng)分信息來(lái)學(xué)習(xí)反應(yīng)情感屬性的詞向量，然后用一篇文檔中所有詞的詞向量平均值作為特征學(xué)習(xí)情感分類器.Tang等人[50]提出利用推文中的表情符號(hào)(如“:)”表示開(kāi)心)作為情感標(biāo)簽來(lái)訓(xùn)練一種C&W模型[51]的變種，從而學(xué)習(xí)出反映情感屬性的詞向量.對(duì)于給定的一篇推文，對(duì)其詞的詞向量進(jìn)行最大、最小和平均池化(pooling)操作，進(jìn)而獲得該推文的特征表達(dá)向量.最后，利用該特征表達(dá)向量進(jìn)行情感分類.上述2種方法都沒(méi)有考慮如何減輕弱標(biāo)注信息中的噪聲影響.此外，盡管這2種方法能夠自動(dòng)生成用于情感分類的特征表達(dá)，但只是簡(jiǎn)單的池化操作，并不能很好地捕捉文本到高層語(yǔ)義的復(fù)雜映射函數(shù).而捕捉這種復(fù)雜映射函數(shù)正是深層神經(jīng)網(wǎng)絡(luò)的專長(zhǎng).接下來(lái)我們將介紹基于深度學(xué)習(xí)的情感分類方法.

2.5 基于深度學(xué)習(xí)的方法

自2006年無(wú)監(jiān)督逐層學(xué)習(xí)技術(shù)(greedy layer-wise training)[52]的提出，深度學(xué)習(xí)逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域的熱門研究方向.深度神經(jīng)網(wǎng)絡(luò)模仿人腦的分層組織結(jié)構(gòu)，具有指數(shù)倍于淺層計(jì)算模型的表達(dá)能力，理論上能夠更好地捕捉從數(shù)據(jù)本身到高層語(yǔ)義的復(fù)雜映射函數(shù).目前，深度學(xué)習(xí)模型在不同應(yīng)用問(wèn)題上的推廣能力得到了一定驗(yàn)證[53]，如圖像識(shí)別[54-57]、語(yǔ)音識(shí)別[58-60]、藥物分子活性預(yù)測(cè)[61-62]等.更令人驚喜的是，深度學(xué)習(xí)還在很多自然語(yǔ)言理解任務(wù)上得到了令人滿意的效果，如智能問(wèn)答系統(tǒng)[63]、自然語(yǔ)言翻譯[64-65]、情感分析[50,66-72]等.其中，情感分析作為自然語(yǔ)言理解的重要應(yīng)用之一，也受到了越來(lái)越多研究者的廣泛關(guān)注.

正如第2節(jié)第1段所述，情感分析的核心在于解決情感分類問(wèn)題.因此，很多研究工作嘗試使用深度學(xué)習(xí)技術(shù)來(lái)解決情感分類問(wèn)題.現(xiàn)有研究工作中，針對(duì)情感分類問(wèn)題的深度學(xué)習(xí)方法有2個(gè)主要步驟：1)從海量評(píng)論語(yǔ)料中學(xué)習(xí)出語(yǔ)義詞向量(word embedding)；2)通過(guò)不同的語(yǔ)義合成(semantic composition)方法用詞向量得到所對(duì)應(yīng)句子或文檔的特征表達(dá)[73].現(xiàn)有合成方法主要基于語(yǔ)義合成性原理(principle of compositionality)[74]，該原理指出：長(zhǎng)文本(如一個(gè)句子、一篇文檔)的語(yǔ)義由它的子成分(如詞匯、短語(yǔ))的語(yǔ)義按不同規(guī)則組合而成.本質(zhì)上講，語(yǔ)義合成就是利用原始詞向量合成更高層次的文本特征向量.

Bespalov等人[66]提出通過(guò)潛在語(yǔ)義分析(latent semantic analysis)初始化詞向量，再用帶權(quán)重的n-gram特征進(jìn)行線性組合從而得到整篇文檔的情感特征向量.Glorot等人[67]提出利用除噪堆疊自編碼器(stacked denoising autoencoder, SDA)來(lái)解決海量評(píng)論數(shù)據(jù)情感分類中的領(lǐng)域適應(yīng)性問(wèn)題(domain adaptation)[75].自編碼器是一種通過(guò)重建自身輸入進(jìn)行模型優(yōu)化的特征學(xué)習(xí)器.除噪堆疊自編碼器是Bengio等人提出的堆疊自編碼器(stacked autoencoder)[76]的一種擴(kuò)展算法.作者用無(wú)監(jiān)督方法訓(xùn)練該深度模型去捕捉不同領(lǐng)域數(shù)據(jù)之間的共性表達(dá)，在22個(gè)不同類別的商品評(píng)論數(shù)據(jù)上進(jìn)行模型的推廣能力測(cè)試.實(shí)驗(yàn)結(jié)果顯示，與同類方法相比，SDA方法達(dá)到了較低的平均傳輸推廣誤差(averaged transfer generalization errors)10.9%.該文獻(xiàn)表明，基于除噪堆疊自編碼器的深度學(xué)習(xí)系統(tǒng)可以通過(guò)無(wú)監(jiān)督方法提取不同領(lǐng)域評(píng)論文本的潛在共性特征，從而有效地解決跨領(lǐng)域情感分類問(wèn)題.Socher 等人在2011—2013年間的研究工作中[68-70]提出了一系列基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network, RecNN)的分類模型來(lái)解決情感分類問(wèn)題.RecNN模型通過(guò)遞歸計(jì)算來(lái)學(xué)習(xí)變長(zhǎng)語(yǔ)句的特征向量.Kim[71]則使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)來(lái)解決情感分類問(wèn)題.實(shí)驗(yàn)結(jié)果表明，卷積神經(jīng)網(wǎng)絡(luò)的分類性能明顯優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò).對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型的研究，Kalchbrenner等人[72]提出了一種新穎的卷積神經(jīng)網(wǎng)絡(luò)模型，該模型特點(diǎn)在于采用了動(dòng)態(tài)k-max池化(dynamick-max pooling)操作和多層卷積神經(jīng)網(wǎng)絡(luò)層相結(jié)合的結(jié)構(gòu).不同于上述工作，有研究者提出使用序列模型如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)來(lái)解決情感分類問(wèn)題，例如文獻(xiàn)[77]中，作者提出使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)，將評(píng)論語(yǔ)句建模成詞序列來(lái)解決情感分類問(wèn)題.與CNN相比，LSTM可以捕捉到評(píng)論語(yǔ)句中的長(zhǎng)依賴關(guān)系(long-term dependencies)，可以從整體上“理解”評(píng)論的情感語(yǔ)義.

相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法，深層神經(jīng)網(wǎng)絡(luò)的表達(dá)能力有了質(zhì)的飛躍，并擺脫了特征工程的束縛.利用語(yǔ)義合成性原理通過(guò)不同深度模型將低層詞向量合成高層文本情感語(yǔ)義特征向量，從而得到文本的高層次情感語(yǔ)義表達(dá)，有效提升了模型的推廣能力.但是，上述針對(duì)文本情感分類問(wèn)題的深度學(xué)習(xí)方法仍然在較大程度上依賴于有標(biāo)注訓(xùn)練數(shù)據(jù)，即依賴于有監(jiān)督學(xué)習(xí)方法來(lái)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)[50-51,78].大規(guī)模的訓(xùn)練數(shù)據(jù)是深度學(xué)習(xí)成功的關(guān)鍵.然而，要獲得有標(biāo)注訓(xùn)練數(shù)據(jù)，便要耗費(fèi)大量的人力成本.通過(guò)人工標(biāo)注方式獲得大規(guī)模有標(biāo)注訓(xùn)練數(shù)據(jù)的成本十分高昂.盡管傳統(tǒng)的無(wú)監(jiān)督預(yù)訓(xùn)練技術(shù)能夠利用無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，但是該方法只有在數(shù)據(jù)分布與要預(yù)測(cè)的語(yǔ)義之間具有較強(qiáng)相關(guān)性時(shí)才能很好地發(fā)揮作用[79].但是，文本中的詞共現(xiàn)信息通常與所要預(yù)測(cè)的情感語(yǔ)義沒(méi)有很強(qiáng)的相關(guān)性[49].因此，缺乏大規(guī)模的訓(xùn)練數(shù)據(jù)已成為深度學(xué)習(xí)在情感分類問(wèn)題上的瓶頸.

3 基于弱監(jiān)督深度學(xué)習(xí)的情感分類

傳統(tǒng)的情感分類方法中，基于詞典的方法依賴詞典設(shè)計(jì)，基于機(jī)器學(xué)習(xí)的方法則倚重特征設(shè)計(jì)，兩者要求相關(guān)人員具有較高的領(lǐng)域知識(shí)和研究經(jīng)驗(yàn)，且方法的推廣能力較差.近年來(lái)深度學(xué)習(xí)在情感分類問(wèn)題上表現(xiàn)優(yōu)秀.但是，缺乏標(biāo)注的訓(xùn)練數(shù)據(jù)是深度學(xué)習(xí)的瓶頸問(wèn)題.互聯(lián)網(wǎng)用戶產(chǎn)生的弱標(biāo)注信息給我提供了突破瓶頸的新思路.由于弱標(biāo)注信息與評(píng)論情感語(yǔ)義具有一定的相關(guān)性，因此可以用于訓(xùn)練深度模型來(lái)解決情感分類問(wèn)題.

Fig. 7 Network architecture in general for sentence sentiment classification圖7 語(yǔ)句情感分類的通用網(wǎng)絡(luò)結(jié)構(gòu)

為此，我們提出了一種利用深層神經(jīng)網(wǎng)絡(luò)和弱標(biāo)注信息解決情感分類問(wèn)題的新思路：利用互聯(lián)網(wǎng)上產(chǎn)生的海量弱標(biāo)注評(píng)論數(shù)據(jù)作為訓(xùn)練集訓(xùn)練深度模型進(jìn)行情感分類任務(wù).但是，使用弱標(biāo)注數(shù)據(jù)的挑戰(zhàn)在于如何盡量減輕數(shù)據(jù)中噪聲對(duì)模型訓(xùn)練過(guò)程的影響.針對(duì)該挑戰(zhàn)，我們?cè)O(shè)計(jì)了一種弱監(jiān)督深度學(xué)習(xí)框架(weakly-supervised deep learning, WDE)來(lái)解決文本情感分類問(wèn)題.其總體框架如圖7所示.該框架以評(píng)論語(yǔ)句s作為輸入，抽取低層次定長(zhǎng)的特征向量表達(dá)，并在隱含層引入了上下文信息.訓(xùn)練方法采用“弱監(jiān)督預(yù)訓(xùn)練+有監(jiān)督學(xué)習(xí)微調(diào)”的思路來(lái)訓(xùn)練深層網(wǎng)絡(luò)模型.框架的核心是弱監(jiān)督預(yù)訓(xùn)練方法，該方法利用弱標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練出一個(gè)能夠捕捉文本語(yǔ)句情感語(yǔ)義分布的嵌入空間(embedding layer)，如圖7所示，使得具有相同情感極性的語(yǔ)句互相接近，而具有不同情感極性的語(yǔ)句互相遠(yuǎn)離.得到較好的嵌入空間之后，再增加分類層(classification layer)，如圖7所示，用少量有標(biāo)注數(shù)據(jù)訓(xùn)練最終分類模型.

我們將該框架應(yīng)用在商品評(píng)論情感分類問(wèn)題上.通過(guò)分析大量商品評(píng)論數(shù)據(jù)，我們發(fā)現(xiàn)：一條商品評(píng)論的評(píng)分在一定程度上能夠反映這條評(píng)論的情感取向.因此，我們提出利用一條評(píng)論的評(píng)分信息作為該評(píng)論中所有語(yǔ)句的情感標(biāo)簽來(lái)訓(xùn)練深度模型.但是，商品評(píng)論的評(píng)分是一種弱標(biāo)注標(biāo)簽，評(píng)論中可能存在實(shí)際情感語(yǔ)義與評(píng)分不一致的情況，如一條5星級(jí)的評(píng)論中仍然存在負(fù)面評(píng)論語(yǔ)句，具體實(shí)例如圖8所示，圖8中框內(nèi)語(yǔ)句為負(fù)面評(píng)價(jià)語(yǔ)句.

Fig. 8 A negative sentence in a 5-stars review圖8 一條5星評(píng)論中的負(fù)面語(yǔ)句

我們將這種情感語(yǔ)義與評(píng)分不相符的標(biāo)注數(shù)據(jù)稱為噪聲.為了確定噪聲的影響，我們?nèi)斯?biāo)注了一些語(yǔ)句(人工標(biāo)注集在實(shí)驗(yàn)部分有詳細(xì)說(shuō)明)，并統(tǒng)計(jì)噪聲數(shù)據(jù)在人工標(biāo)注語(yǔ)句中的占比情況，即：人工標(biāo)注數(shù)據(jù)集中，屬于4,5星評(píng)論的語(yǔ)句中人工標(biāo)注為負(fù)面評(píng)價(jià)的語(yǔ)句所占百分比，以及屬于1,2星評(píng)論的語(yǔ)句中人工標(biāo)注為正面評(píng)價(jià)的語(yǔ)句所占百分比.統(tǒng)計(jì)結(jié)果如圖9所示.在人工標(biāo)注數(shù)據(jù)中，上述2個(gè)占比值都超過(guò)了10%，總體上看，噪聲占總量的13.4%.這表明弱標(biāo)注數(shù)據(jù)中存在一定噪聲，直接作為有標(biāo)注信息會(huì)影響模型的訓(xùn)練效果，因此無(wú)法直接用于深度模型的有監(jiān)督訓(xùn)練.

Fig. 9 Percentages of wrong-labeled sentences by ratings in our labeled review dataset圖9 標(biāo)注數(shù)據(jù)中以評(píng)分錯(cuò)標(biāo)語(yǔ)句的比例

為解決該問(wèn)題，我們?cè)O(shè)計(jì)了一種抗噪聲的預(yù)訓(xùn)練方法，即前文所述的“弱監(jiān)督預(yù)訓(xùn)練”方法.該方法的目標(biāo)是通過(guò)預(yù)訓(xùn)練得到一個(gè)能夠捕捉語(yǔ)句情感語(yǔ)義分布的嵌入空間，從弱標(biāo)注數(shù)據(jù)中汲取有用信息的同時(shí)，避免其對(duì)最終分類模型的直接影響.以下內(nèi)容，我們將按如下順序組織：1)詳細(xì)介紹2種實(shí)現(xiàn)WDE框架的深度模型，包括基于CNN的深度模型和基于LSTM的深度模型；2)具體給出弱監(jiān)督預(yù)訓(xùn)練方法并簡(jiǎn)要描述有監(jiān)督微調(diào)步驟；3)我們通過(guò)實(shí)驗(yàn)驗(yàn)證了2種深度模型在商品評(píng)論情感分類問(wèn)題上的效果.

Fig. 10 The CNN network architecture for sentence sentiment classification WDE-CNN圖10 基于CNN的深度模型WDE-CNN

3.1 基于CNN的深度模型介紹

由于卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)句級(jí)別的情感分類問(wèn)題上表現(xiàn)優(yōu)秀[71]，因此我們選擇卷積神經(jīng)網(wǎng)絡(luò)作為WDE的一種模型實(shí)現(xiàn).該模型稱為WDE-CNN，是文獻(xiàn)[51,71]中CNN模型的一種變體結(jié)構(gòu)，其結(jié)構(gòu)如圖10所示.圖10中，將一條評(píng)論語(yǔ)句s輸入到模型中，w1,w2,…,wt表示句子中的詞語(yǔ)，對(duì)每個(gè)詞語(yǔ)查詢?cè)~向量列表X得到對(duì)應(yīng)的詞向量x1,x2,…,xt.從而將語(yǔ)句s=〈w1,w2,…,wt〉轉(zhuǎn)化為〈x1,x2,…,xt〉.我們使用Word2Vec在谷歌新聞?wù)Z料庫(kù)上的訓(xùn)練結(jié)果[80]來(lái)初始化詞向量列表，對(duì)于不在谷歌新聞?dòng)?xùn)練結(jié)果中的詞匯則隨機(jī)初始化.

卷積層(convolutional layer)包含多個(gè)卷積濾波器，每個(gè)濾波器通過(guò)滑動(dòng)能容納n個(gè)詞匯的窗口進(jìn)行卷積計(jì)算，進(jìn)而生成局部特征值，計(jì)算公式如下：

u(i)=f(WTxi:(i+h-1)+b),

(3)

最大池化層(max pooling layer)對(duì)向量u中所有u(i)求最大值以獲取其中最顯著的特征值[51]:

(4)

其中，j表示第j個(gè)卷積濾波器.在最大池化層中，最大池化操作提取特征圖顯著特征的同時(shí)還生成了定長(zhǎng)的特征向量v.

需要說(shuō)明的是，詞容量為g的卷積濾波器本質(zhì)上是一個(gè)特征采集器，用來(lái)提取句子的n-gram特征.對(duì)輸入的n-gram匹配其相應(yīng)的w從而得到高層次特征值.該方法雖然與傳統(tǒng)情感分類工作中的特征選擇方法[42]相像，但其優(yōu)勢(shì)在于特征是自動(dòng)學(xué)習(xí)的而非人工設(shè)計(jì).考慮到機(jī)器學(xué)習(xí)方法常使用unigrams,bigrams和trigrams特征[42]，因此我們使用不同詞容量的卷積濾波器，設(shè)置參數(shù)n=1,2,3.

隱含層(Hidden layer)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同，所有神經(jīng)元之間全連接.該層以v(j)作為輸入，通過(guò)非線性激活函數(shù)得到更高層次的特征向量h.計(jì)算是標(biāo)準(zhǔn)的前向傳播(forward)計(jì)算:

h=f(Whidv+bhid),

(5)

其中，Whid為權(quán)重矩陣，bhid為偏置(bias)向量.

隱含層之后為嵌入層(embedding layer)，該層輸入由2個(gè)部分拼接而成：隱含層的輸出向量h和句子s的上下文向量asen.在商品評(píng)論中，上下文向量是對(duì)商品某一具體主題(aspect)的語(yǔ)義表達(dá)，如“battery life”是“cell phone”的一個(gè)主題.引入上下文向量的原因在于，相似或相同文字表達(dá)對(duì)于不同的上下文可能會(huì)表現(xiàn)出完全相反的情感極性，例如“the screen is big”和“the size is big”.與輸入層獲取詞向量方法類似，所有上下文向量都可以從上下文向量列表A中查詢獲得，該列表的初始值由隨機(jī)初始化獲得.嵌入層的計(jì)算為

(6)

3.2 基于LSTM的深度模型

基于CNN的深度模型中，卷積濾波器的詞容量有限，導(dǎo)致其無(wú)法捕捉到句子中的長(zhǎng)距離依賴關(guān)系.因此，我們提出一種基于LSTM的深度模型實(shí)現(xiàn)，稱為WDE-LSTM.LSTM是RNN的一種特殊類型.RNN網(wǎng)絡(luò)根據(jù)前一次迭代過(guò)程的隱層輸出和當(dāng)前的數(shù)據(jù)輸入來(lái)更新隱層的狀態(tài)，使神經(jīng)元具有了“記憶”功能，可以更自然地處理文本數(shù)據(jù).LSTM則在RNN基礎(chǔ)上引入了門機(jī)制，利用3種不同的門函數(shù)，即輸入門、遺忘門和輸出門，來(lái)控制記憶的長(zhǎng)短.一個(gè)LSTM記憶單元在時(shí)刻t的前向計(jì)算過(guò)程為[81]

dt=f(Wiuxt+Uiuzt-1+biu).

(7)

it=σ(Wigxt+Uigzt-1+big).

(8)

ft=σ(Wfgxt+Ufgzt-1+bfg).

(9)

ot=σ(Wogxt+Uogzt-1+bog).

(10)

ct=it×dt+ft×ct-1.

(11)

zt=ot×f(ct-1).

(12)

Fig. 11 The LSTM network architecture for sentence sentiment classification (WDE-LSTM)圖11 基于LSTM的語(yǔ)句情感分類網(wǎng)絡(luò)結(jié)構(gòu)(WDE-LSTM)

式(7)～(11)中，{W*,U*,b*}*∈{ig,iu,og,fg}是模型的參數(shù)集合，×表示2個(gè)向量的元素乘積;dt,it,ft,ot分別表示時(shí)刻t記憶單元的輸入單元、輸入門、遺忘門和輸出門的輸出值;ct表示時(shí)刻t記憶單元的內(nèi)部狀態(tài)，zt表示時(shí)刻t記憶單元的輸出;σ(·)是sigmoid激活函數(shù)，f(·)是雙曲正切激活函數(shù).以上述結(jié)構(gòu)LSTM作為基本構(gòu)件，我們?cè)O(shè)計(jì)了基于LSTM的深度模型，如圖11所示:

模型的輸入與WDE-CNN模型相同.LSTM層包含2組不同方向的LSTM形成了一個(gè)雙向RNN結(jié)構(gòu)[82]，該層的操作為

與WDE-CNN相似，在LSTM層之后，我們進(jìn)行了最大池化操作以提取顯著特征值，從而得到定長(zhǎng)的特征向量v，計(jì)算方法如式(13)所示.最大池化層之上各層結(jié)構(gòu)操作與WDE-CNN相同:

(13)

3.3 基于弱標(biāo)注數(shù)據(jù)的預(yù)訓(xùn)練方法

3.1節(jié)和3.2節(jié)2種模型都采用嵌入層的弱監(jiān)督預(yù)訓(xùn)練方法.其思想是：通過(guò)預(yù)訓(xùn)練得到一個(gè)可以較好捕捉數(shù)據(jù)情感語(yǔ)義分布的嵌入空間，之后再使用少量有標(biāo)注數(shù)據(jù)學(xué)習(xí)目標(biāo)預(yù)測(cè)函數(shù).相較而言，前人基于弱標(biāo)注信息的訓(xùn)練方法通常直接學(xué)習(xí)目標(biāo)預(yù)測(cè)函數(shù).這種做法會(huì)使弱標(biāo)注信息中的噪聲直接影響預(yù)測(cè)函數(shù).而我們提出的訓(xùn)練方法避免了直接使用弱標(biāo)注信息訓(xùn)練目標(biāo)預(yù)測(cè)函數(shù)，能在一定程度上削弱噪聲對(duì)預(yù)測(cè)函數(shù)學(xué)習(xí)的影響.

弱監(jiān)督預(yù)訓(xùn)練方法首先將5級(jí)評(píng)分離散化為二值標(biāo)簽，標(biāo)簽分配的規(guī)則是：將評(píng)分高于3星的評(píng)論中的句子標(biāo)為正面標(biāo)簽l(s)=pos，將評(píng)分低于3星的評(píng)論中的句子標(biāo)為負(fù)面標(biāo)簽l(s)=neg，其中l(wèi)(s)表示句子s的弱標(biāo)注標(biāo)簽.通過(guò)標(biāo)簽分配，我們將評(píng)論語(yǔ)句劃分到2個(gè)集合里.弱監(jiān)督學(xué)習(xí)的訓(xùn)練目標(biāo)是讓P集合和N集合各自內(nèi)部的語(yǔ)句更接近，同時(shí)使分別屬于2個(gè)集合的語(yǔ)句相互遠(yuǎn)離.

一種直觀的訓(xùn)練方法是，采樣句子對(duì)，利用隨機(jī)梯度下降法(stochastic gradient descent, SGD)對(duì)句子對(duì)進(jìn)行操作[83]：如果2句話的弱標(biāo)簽相同，則減小它們?cè)谇度肟臻g中的距離；反之，則增大它們?cè)谇度肟臻g中的距離.但是，當(dāng)采樣到噪聲時(shí)會(huì)導(dǎo)致語(yǔ)句向錯(cuò)誤類別移動(dòng).為了減弱噪聲影響，我們提出一種三元訓(xùn)練準(zhǔn)則，每次采樣弱標(biāo)注數(shù)據(jù)中的3條評(píng)論語(yǔ)句組成三元組，再利用Ranking Loss[51]目標(biāo)函數(shù)對(duì)嵌入空間中語(yǔ)句的相對(duì)距離進(jìn)行懲罰，目標(biāo)函數(shù)為

dst(s1,s2))，

(14)

(15)

Fig. 12 Comparison between pair-based training and triplet-based training圖12 二元訓(xùn)練準(zhǔn)則與三元訓(xùn)練準(zhǔn)則對(duì)比

式(14)中，λ表示間隔；〈s1,s2,s3〉表示訓(xùn)練集中一組三元采樣，其中句子標(biāo)簽l(s1)=l(s2)≠l(s3)；dst(·)表示語(yǔ)句在神經(jīng)網(wǎng)絡(luò)嵌入層所表示的空間中的歐式距離，該距離的計(jì)算方法如式(15)所示.式(14)目標(biāo)函數(shù)的含義是：讓具有相同弱標(biāo)簽的語(yǔ)句s1與s2之間的距離至少比具有相反弱標(biāo)簽的語(yǔ)句s1與s3之間的距離小λ.預(yù)訓(xùn)練過(guò)程中，三元采樣方法的具體步驟是：先從P或者N中隨機(jī)選其中之一，然后隨機(jī)抽取該集合中的2個(gè)語(yǔ)句，再?gòu)牧硪粋€(gè)集合中隨機(jī)抽取1個(gè)語(yǔ)句.

圖12為二元訓(xùn)練準(zhǔn)則與三元訓(xùn)練準(zhǔn)則的對(duì)比圖.圖12中，圓圈表示弱標(biāo)簽為pos的樣本；三角表示弱標(biāo)簽為neg的樣本；黑色為錯(cuò)標(biāo)語(yǔ)句(即噪聲，實(shí)際語(yǔ)義與標(biāo)簽不符的句子)；白色為正確標(biāo)注語(yǔ)句;①,②,③為3種包含錯(cuò)標(biāo)語(yǔ)句的采樣實(shí)例.對(duì)于二元訓(xùn)練準(zhǔn)則(圖12(a)所示)，例①、例②中錯(cuò)標(biāo)語(yǔ)句在訓(xùn)練過(guò)程中會(huì)向錯(cuò)誤類別的語(yǔ)句靠近；例③中，錯(cuò)標(biāo)語(yǔ)句則遠(yuǎn)離了其正確類別的語(yǔ)句.對(duì)比來(lái)看，對(duì)于三元訓(xùn)練準(zhǔn)則而言，目標(biāo)函數(shù)確保s1與s2之間的距離至少比s1與s3之間的距離小λ.例①中由于同時(shí)采樣到2個(gè)錯(cuò)標(biāo)語(yǔ)句，因此仍然會(huì)導(dǎo)致s2和s3向錯(cuò)誤類方向移動(dòng).例②和例③中則混合了2種情況：一個(gè)語(yǔ)句向正確方向移動(dòng)，而另一個(gè)向錯(cuò)誤方向移動(dòng).因此，在三元訓(xùn)練準(zhǔn)則中，例②和例③中的噪聲對(duì)訓(xùn)練過(guò)程的影響弱于二元訓(xùn)練準(zhǔn)則中的噪聲對(duì)訓(xùn)練過(guò)程的影響.此外，在三元準(zhǔn)則訓(xùn)練過(guò)程中，如果2對(duì)句子的距離之差大于間隔參數(shù)λ，那么預(yù)訓(xùn)練目標(biāo)函數(shù)Lweak的導(dǎo)數(shù)為零.這種情況下，在訓(xùn)練過(guò)程中句子不發(fā)生任何移動(dòng).例如，在圖12(b)的例②中，s2的真實(shí)類別是neg，因此s2不應(yīng)該向s1移動(dòng).由于s3與s1之間的距離較大，使得預(yù)訓(xùn)練目標(biāo)函數(shù)中2對(duì)句子的距離之差大于λ.因此，訓(xùn)練過(guò)程中句子不發(fā)生任何移動(dòng)，s1與s2不會(huì)互相靠近.對(duì)比來(lái)看，在圖12(a)的例①和例②中，s1與s2會(huì)朝對(duì)方移動(dòng)直至兩者之間的距離變?yōu)?.此時(shí)，噪聲對(duì)訓(xùn)練過(guò)程的影響較大.上述分析表明，與二元訓(xùn)練準(zhǔn)則相比，三元訓(xùn)練準(zhǔn)則在一定程度上減弱了噪聲對(duì)訓(xùn)練過(guò)程的影響.

3.4 有監(jiān)督學(xué)習(xí)微調(diào)模型

通過(guò)弱監(jiān)督預(yù)訓(xùn)練步驟，我們得到了能夠較好捕捉情感語(yǔ)義分布的模型.有監(jiān)督微調(diào)步驟用該模型的參數(shù)作為有監(jiān)督訓(xùn)練的初始參數(shù)，同時(shí)在嵌入層上添加分類層，學(xué)習(xí)目標(biāo)分類函數(shù).分類層采用Softmax輸出函數(shù)，用少量人工標(biāo)注的數(shù)據(jù)對(duì)整個(gè)模型進(jìn)行有監(jiān)督訓(xùn)練，從而得到最終的分類模型.

3.5 實(shí)驗(yàn)驗(yàn)證

我們?cè)趤嗰R遜評(píng)論數(shù)據(jù)集上驗(yàn)證2種實(shí)現(xiàn)WDE模型的性能.我們從公開(kāi)的亞馬遜評(píng)論數(shù)據(jù)集[84]上收集了3類商品的評(píng)論數(shù)據(jù)：數(shù)碼相機(jī)、手機(jī)和筆記本電腦，所有評(píng)論數(shù)據(jù)都包括相應(yīng)評(píng)分信息.我們利用文獻(xiàn)[5]中的方法提取了107個(gè)商品主題關(guān)鍵詞(aspect keywords).之后，我們對(duì)所有評(píng)論數(shù)據(jù)進(jìn)行了分句并過(guò)濾掉無(wú)aspect keywords和多aspect keywords的語(yǔ)句.經(jīng)過(guò)以上預(yù)處理操作我們得到了1 143 721條弱標(biāo)注語(yǔ)句.另外，我們?nèi)斯?biāo)注了11 754條語(yǔ)句用于有監(jiān)督訓(xùn)練.標(biāo)注工作包含2個(gè)部分：主客觀標(biāo)注和正負(fù)情感標(biāo)注.其中，主客觀標(biāo)注的目的是為了進(jìn)一步分析情感分類方法分別在主觀和客觀語(yǔ)句上的性能.標(biāo)注數(shù)據(jù)被隨機(jī)劃分為訓(xùn)練集(50%)、驗(yàn)證集(20%)和測(cè)試集(30%).標(biāo)注數(shù)據(jù)詳細(xì)情況如表13所示:

Table 13 Statistics of the Labeled Dataset表13 人工標(biāo)注數(shù)據(jù)集

3.5.1 WDE-CNN和WDE-LSTM與其他分類方法對(duì)比實(shí)驗(yàn)

實(shí)驗(yàn)中采用的對(duì)照組方法描述如下：

1) Lexicon.基于詞典的方法[5].

2) SVM.“支持向量機(jī)+n-gram特征”是情感分類中最常見(jiàn)的一種方法[32]，實(shí)驗(yàn)中我們使用trigrams特征，并使用Liblinear分類器[85].

3) NBSVM.文獻(xiàn)[86]中將NB分類器和SVM分類器融合在情感分類上取得了較好的效果.

4) SSWE.SSWE通過(guò)在弱標(biāo)注信息上訓(xùn)練神經(jīng)網(wǎng)絡(luò)以得到詞向量.給定一條語(yǔ)句，對(duì)語(yǔ)句中所包含詞的詞向量求最大、最小和均值，從而得到語(yǔ)句的特征向量表達(dá)進(jìn)行情感分類[50].

5) SentiWV.該方法使用評(píng)分信息訓(xùn)練詞向量，再使用線性分類器進(jìn)行情感分類[49].用詞向量生成語(yǔ)句特征表達(dá)的過(guò)程與SSWE相同.

6) CNN-rand.在有標(biāo)注數(shù)據(jù)集上訓(xùn)練基于CNN的網(wǎng)絡(luò)模型(如圖10所示)，隨機(jī)初始化網(wǎng)絡(luò)參數(shù).

7) LSTM-rand.在有標(biāo)注數(shù)據(jù)集上訓(xùn)練基于LSTM的網(wǎng)絡(luò)模型(如圖11所示)，隨機(jī)初始化網(wǎng)絡(luò)參數(shù).

8) CNN-weak.直接將弱標(biāo)注數(shù)據(jù)當(dāng)作有標(biāo)注數(shù)據(jù)訓(xùn)練基于CNN的網(wǎng)絡(luò)模型(使用基于LSTM的網(wǎng)絡(luò)模型效果相似，因此只展示基于CNN的網(wǎng)絡(luò)模型的結(jié)果).

表14展示了實(shí)驗(yàn)結(jié)果.通過(guò)對(duì)比可以看出，WDE-CNN和WDE-LSTM的準(zhǔn)確率和Macro-F1值都超越了其他方法;另外，WDE-CNN和WDE-LSTM在小規(guī)模有標(biāo)注訓(xùn)練數(shù)據(jù)上的性能也明顯優(yōu)于其他方法.如圖13所示，在只采用10%訓(xùn)練數(shù)據(jù)的情況下，2種方法都達(dá)到了80%左右的分類準(zhǔn)確率，顯著高于其他模型.原因在于WDE中引入了商品評(píng)分這種與句子情感語(yǔ)義有一定關(guān)聯(lián)性的弱標(biāo)注信息，并通過(guò)三元訓(xùn)練準(zhǔn)則和“弱監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)”訓(xùn)練框架減弱了噪聲對(duì)模型訓(xùn)練過(guò)程的影響，較好地將弱標(biāo)注數(shù)據(jù)中的大量有用信息“記憶”到深度模型中.從表14中還可以看出，CNN-weak效果較差，說(shuō)明弱標(biāo)注數(shù)據(jù)并不能直接用于有監(jiān)督學(xué)習(xí).

Table 14 Performance Comparison表14 性能比較

Notes：The bold values mean the best accuracy and Marco-F1 values among the different methods.

Fig. 13 Impact of labeled training data size on each method’s performance圖13 不同規(guī)模訓(xùn)練集對(duì)模型分類性能的影響

3.5.2 WDE-CNN與WDE-LSTM對(duì)比

與WDE-CNN相比，WDE-LSTM模型中的LSTM層可以捕捉評(píng)論語(yǔ)句中的長(zhǎng)距離依賴關(guān)系，因此WDE-LSTM更善于從整體上“理解”句子的語(yǔ)義.我們對(duì)2個(gè)模型在測(cè)試數(shù)據(jù)上的分類結(jié)果進(jìn)行了詳細(xì)分析，發(fā)現(xiàn)：1)WDE-CNN更善于對(duì)句法結(jié)構(gòu)簡(jiǎn)單的語(yǔ)句進(jìn)行分類，例如“Sound is not that good”;2)對(duì)于句法結(jié)構(gòu)復(fù)雜的語(yǔ)句，WDE-LSTM則更加適用.表15展示的是WDE-LSTM分類正確而WDE-CNN分類錯(cuò)誤的例句，表格第2列是評(píng)論語(yǔ)句的真實(shí)情感標(biāo)簽.可以看到，前兩句話都是轉(zhuǎn)折句，轉(zhuǎn)折詞前后子句的情感極性發(fā)生了反轉(zhuǎn).由于WDE-CNN提取的是局部特征，情感含義沖突的局部文字表達(dá)容易導(dǎo)致錯(cuò)誤分類，如第1句中的“not the greatest”和“is ok”.最后1句話中，否定詞“None”和表達(dá)用戶觀點(diǎn)的內(nèi)容之間的距離超出了滑動(dòng)窗口的最大容量，因此WDE-CNN很難捕捉到兩者之間的依賴關(guān)系.對(duì)于WDE-LSTM而言，它可以從整體上捕捉語(yǔ)句內(nèi)的長(zhǎng)距離依賴關(guān)系，從而能夠正確分類句法結(jié)構(gòu)復(fù)雜的語(yǔ)句.

Table 15 Example Sentences on Which WDE-LSTM Makes Correct Prediction While WDE-CNN Fails

Fig. 14 Impact of λ on classification performance圖14 不同λ取值對(duì)情感分類性能的影響

3.5.3 預(yù)訓(xùn)練間隔參數(shù)λ對(duì)模型分類性能的影響

預(yù)訓(xùn)練目標(biāo)函數(shù)式(14)中的間隔參數(shù)λ本質(zhì)上是控制我們要將弱標(biāo)注正類和弱標(biāo)注負(fù)類分開(kāi)的程度.若λ參數(shù)設(shè)定過(guò)小會(huì)導(dǎo)致無(wú)法有效捕捉情感分布，而λ參數(shù)設(shè)定過(guò)大會(huì)導(dǎo)致噪聲影響被放大.在實(shí)驗(yàn)中，我們測(cè)試了不同λ取值對(duì)分類結(jié)果的影響.首先需要設(shè)定λ的測(cè)試范圍.由于嵌入層特征是300維的向量且神經(jīng)元的輸出值范圍為[-1,1].這就形成了一個(gè)超立方體，立方體內(nèi)任意2點(diǎn)間的最大距離約為35.因此，我們將λ的測(cè)試范圍設(shè)為1～30之間.圖14展示了不同λ值對(duì)最終情感分類性能的影響.從圖14中可以看出，當(dāng)λ>15時(shí)，分類性能嚴(yán)重下降；在λ<15時(shí)，WDE-CNN和WDE-LSTM都達(dá)到了較高的分類準(zhǔn)確率.此外，當(dāng)λ取值較大時(shí)(即大于嵌入空間最大距離的一半)，模型經(jīng)過(guò)長(zhǎng)時(shí)間訓(xùn)練更容易陷入飽和區(qū)域[87].綜合上述分析和實(shí)驗(yàn)結(jié)果，我們將設(shè)置優(yōu)化目標(biāo)間隔參數(shù)λ=5.

4 總結(jié)與展望

本文對(duì)情感分類技術(shù)進(jìn)行了系統(tǒng)性歸納，并著重介紹了弱監(jiān)督深度學(xué)習(xí)在情感分類問(wèn)題上的最新研究進(jìn)展.本節(jié)我們簡(jiǎn)要梳理傳統(tǒng)情感分類方法的不足，并總結(jié)弱監(jiān)督深度學(xué)習(xí)的要點(diǎn)和挑戰(zhàn).

傳統(tǒng)情感分類方法中，基于詞典的方法過(guò)于依賴情感詞典的構(gòu)建，而機(jī)器學(xué)習(xí)方法的關(guān)鍵在于特征設(shè)計(jì).無(wú)論是生成情感詞典還是設(shè)計(jì)分類特征，都要求相關(guān)人員具有豐富的領(lǐng)域知識(shí).此外，傳統(tǒng)機(jī)器學(xué)習(xí)方法中的分類特征一般只能針對(duì)特定問(wèn)題，推廣能力有限.相比而言，深度模型擁有更強(qiáng)大的表達(dá)能力，能夠更好地學(xué)習(xí)從數(shù)據(jù)到情感語(yǔ)義的復(fù)雜映射函數(shù).但是，深度模型的訓(xùn)練是關(guān)鍵挑戰(zhàn).一方面，由于文本數(shù)據(jù)分布與所要預(yù)測(cè)的情感語(yǔ)義之間沒(méi)有很強(qiáng)的相關(guān)性，所以無(wú)監(jiān)督預(yù)訓(xùn)練方法在情感分類問(wèn)題上效果欠佳;另一方面，有監(jiān)督訓(xùn)練方法需要大量有標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練深度模型，而獲得大規(guī)模有標(biāo)注評(píng)論語(yǔ)句需要耗費(fèi)大量人力進(jìn)行數(shù)據(jù)標(biāo)注工作.

基于弱監(jiān)督的深度學(xué)習(xí)方法則提供了一種解決情感分類問(wèn)題的新思路：先使用互聯(lián)網(wǎng)用戶產(chǎn)生的大量評(píng)分信息對(duì)深度模型進(jìn)行弱監(jiān)督預(yù)訓(xùn)練得到一個(gè)能夠捕捉情感語(yǔ)義分布的語(yǔ)句高層特征表達(dá)，再利用少量有標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)預(yù)測(cè)情感極性.該方法引入了互聯(lián)網(wǎng)用戶產(chǎn)生的弱標(biāo)注數(shù)據(jù)作為深度模型的訓(xùn)練集，能夠較好地利用弱標(biāo)注數(shù)據(jù)中的有用信息.對(duì)于采用其他互聯(lián)網(wǎng)用戶產(chǎn)生的弱標(biāo)注數(shù)據(jù)(如tagging數(shù)據(jù)、表情符號(hào)等)來(lái)訓(xùn)練深度模型也有借鑒意義.相比于其他深度學(xué)習(xí)方法，基于弱監(jiān)督的深度學(xué)習(xí)方法的優(yōu)勢(shì)有3點(diǎn)：1)該方法更容易獲取訓(xùn)練數(shù)據(jù)且很大程度上減少了人工標(biāo)注成本;2)該方法中深度模型的預(yù)訓(xùn)練方法具有抗噪能力，能有效減弱訓(xùn)練數(shù)據(jù)中噪聲對(duì)模型訓(xùn)練過(guò)程的影響;3)該方法可以推廣應(yīng)用到很多文本智能理解應(yīng)用問(wèn)題上.互聯(lián)網(wǎng)中存在大量的用戶產(chǎn)生的文本弱標(biāo)注信息，如百度知道問(wèn)答社區(qū)的最佳答案*https://zhidao.baidu.com/.、美味書(shū)簽網(wǎng)站的用戶標(biāo)簽*https://del.icio.us/.等.

因此，可以將基于弱監(jiān)督的深度學(xué)習(xí)方法推廣到相應(yīng)的文本智能理解應(yīng)用問(wèn)題上，如智能問(wèn)答系統(tǒng)、推薦系統(tǒng)等等.另一方面，基于弱監(jiān)督的深度學(xué)習(xí)方法性能的好壞一定程度上取決于弱標(biāo)注數(shù)據(jù)中噪聲的影響.因此，如何有效過(guò)濾弱標(biāo)注數(shù)據(jù)中的噪聲是未來(lái)研究工作中亟待解決的問(wèn)題.

由于情感分類在不同現(xiàn)實(shí)場(chǎng)景中有著廣泛應(yīng)用，如電影票房預(yù)測(cè)、股指預(yù)測(cè)、政府政策調(diào)控等.因此，探索更好的情感分類方法仍然會(huì)是情感分類領(lǐng)域的熱點(diǎn)問(wèn)題.另外，如何將WDE有效地應(yīng)用在其他包含弱標(biāo)注信息的問(wèn)題上也是未來(lái)的重要挑戰(zhàn)之一.

[1]Medhat W, Hassan A, Korashy H. Sentiment analysis algorithms and applications: A survey[J]. Ain Shams Engineering Journal, 2014, 5(4): 1093-1113

[2]O’connor B, Balasubramanyan R, Routledge B R, et al. From tweets to polls: Linking text sentiment to public opinion time series[C] // Proc of the 4th Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010: 122-129

[3]Bollen J, Mao Huina, Zeng Xiaojun. Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011, 2(1): 1-8

[4]Hu Mingqi, Liu Bing. Mining and summarizing customer reviews[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004: 168-177

[5]Ding Xiaowen, Liu Bing, Yu P S. A holistic lexicon-based approach to opinion mining[C] //Proc of Int Conf on Web Search and Web Data Mining. New York: ACM, 2008: 231-240

[6]Liu Bing, Hu Miaowen, Cheng Junsheng. Opinion observer: Analyzing and comparing opinions on the Web[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2005: 342-351

[7]Zhu Jingbo, Wang Huizhen, Zhu Muhua, et al. Aspect-based opinion polling from customer reviews[J]. IEEE Trans on Affective Computing, 2011, 2(1): 37-49

[8]Hu Mingqi, Liu Bing. Mining opinion features in customer reviews[C] //Proc of the 19th National Conf on Artifical Intelligence. Menlo Park, CA: AAAI, 2004: 755-760

[9]Zhuang Li, Jing Feng, Zhu Xiaoyan. Movie review mining and summarization[C] //Proc of Conf on Information and Knowledge Management. New York：ACM, 2006: 43-50

[10]Lin D. Dependency-Based Evaluation of Minipar[G] //Treebanks. Berlin: Springer, 2003: 317-329

[11]Jin Weijin, Ho H H, Srihari R K. OpinionMiner: A novel machine learning system for Web opinion mining and extraction[C] //Proc of the 15th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2009: 1195-1204

[12]Lu Yue, Zhai Chengxiang, Sundaresan N. Rated aspect summarization of short comments[C] //Proc of Int World Wide Web Conf. New York: ACM, 2009: 131-140

[13]Jakob N, Gurevych I. Extracting opinion targets in a single- and cross-domain setting with conditional random fields[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2010: 1035-1045

[14]Branavan S R K, Chen H, Eisenstein J, et al. Learning document-level semantic properties from free-text annotations[J]. Journal of Artificial Intelligence Research, 2014, 34(1): 569-603

[15]Zhao W X, Jiang Jing, Yan Hongfei, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2010: 56-65

[16]Brody S, Elhadad N. An unsupervised aspect-sentiment model for online reviews[C] //Proc of North American Chapter of the Association of Computational Linguistics. New York: ACM, 2010: 804-812

[17]Zhang Lei, Liu Bing. Aspect and Entity Extraction for Opinion Mining[M]. Berlin: Springer, 2014

[18]Hai Zhen, Chang Kuiyu, Kim J. Implicit feature identification via co-occurrence association rule mining[C] //Proc of Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2011: 493-514

[19]Su Qi, Xu Xinying, Guo Honglei, et al. Hidden sentiment association in Chinese Web opinion mining[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2008: 959-968

[20]Duan Xiuting, He Tingting, Song Le. Research on sentiment classification of blog based on PMI-IR[C] //Proc of 2010 Int Conf on Natural Language Processing and Knowledge Engineering (NLP-KE). Piscataway, NJ: IEEE, 2010: 1-6

[21]Lu Yao, Kong Xiangfei, Quan Xiaojun, et al. Exploring the sentiment strength of user reviews[C] //Proc of Int Conf on Web-Age Information Management. Berlin: Springer, 2010: 471-482

[22]Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C] //Proc of Int Conf on Knowledge Capture. New York: ACM, 2003: 70-77

[23]Turney P D. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews[C] //Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2002: 417-424

[24]Feldman R. Techniques and applications for sentiment analysis[J]. Communications of the ACM, 2013, 56(4): 82-89

[25]Zhang Lei, Liu Bing. Identifying noun product features that imply opinions[C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 575-580

[26]Lu Yue, Castellanos M, Dayal U, et al. Automatic construction of a context-aware sentiment lexicon: An optimization approach[C] //Proc of Int World Wide Web Conf. New York: ACM, 2011: 347-356

[27]Stone P J, Dunphy D C, Smith M S. The general inquirer: A computer approach to content analysis[J]. American Journal of Sociology, 1968, 73(5): 375-376

[28]Pennebaker J W, Francis M E, Booth R J. Linguistic inquiry and word count 2001[J]. Lawrence Erlbaum Associates Mahwah Nj, 2001, 10(2): 22-32

[29]Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C] //Proc of the Conf on Human Language Technology and Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2005: 347-354

[30]Riloff E, Wiebe J. Learning extraction patterns for subjective expressions[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2003: 105-112

[31]Baccianella S, Esuli A, Sebastiani F. SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining[C] //Proc of Int Conf on Language Resources and Evaluation. Piscataway, NJ: IEEE, 2010: 2200-2204

[32]Pang B, Lee L, Vaithyanathan S. Thumbs up?: Sentiment classification using machine learning techniques[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2002: 79-86

[33]Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews[C] //Proc of Int World Wide Web Conf. New York: ACM, 2003: 519-528

[34]Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2004: 412-418

[35]Kamps J, Marx M. Words with attitude[C] //Proc of the 14th Belgian-Netherlands Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2002: 332-341

[36]Osgood C E. The nature and measurement of meaning[J]. Psychological Bulletin, 1952, 49(3): 197-237

[37]Saleh M R, Mart N-Valdivia M T, Montejo-R Ez A, et al. Experiments with SVM to classify opinions in different domains[J]. Expert Systems with Applications, 2011, 38(12): 14799-14804

[38]Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C] //Proc of Meeting on Association for Computational Linguistics. Cambridge, MA: MIT Press, 2004: 271-278

[39]Taboada M, Grieve J. Analyzing appraisal automatically[C] //Proc of AAAI Spring Symp. Menlo Park, CA: AAAI, 2004: 158-161

[40]Ye Qiang, Zhang Ziqiong, Law R. Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J]. Expert Systems with Applications, 2009, 36(3): 6527-6535

[41]Feng Shi, Fu Yongchen, Yang Feng, et al. Blog sentiment orientation analysis on dependency parsing[J]. Journal of Computer Research and Development, 2012, 49(11): 2395-2406 (in Chinese)

(馮時(shí), 付永陳, 陽(yáng)鋒, 等. 基于依存句法的博文情感傾向分析研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2012, 49(11): 2395-2406)

[42]Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135

[43]Sindhwani V, Melville P. Document-word co-regularization for semi-supervised sentiment analysis[C] //Proc of the 8th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2008: 1025-1030

[44]Prabowo R, Thelwall M. Sentiment analysis: A combined approach[J]. Journal of Informetrics, 2009, 3(2): 143-157

[45]Fang Ji, Chen B. Incorporating lexicon knowledge into SVM learning to improve sentiment classification[C] //Proc of the Workshop on Sentiment Analysis Where AI Meets Psychology (SAAIP). New York: ACM, 2011: 94-100

[46]Abbasi A, Chen H, Salem A. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums[J]. ACM Trans on Information Systems, 2008, 26(3): 12-47

[47]Qu Lizhen, Gemulla R, Weikum G. A weakly supervised model for sentence-level semantic orientation analysis with multiple experts[C] //Proc of the 2012 Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Cambridge, MA: MIT Press, 2012: 149-159

[48]T?ckstor?m O, Mcdonald R. Semi-supervised latent variable models for sentence-level sentiment analysis[C] //Proc of the Meeting of the 49th Annual Meeting of Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 569-574

[49]Maas A L, Daly R E, Pham P T, et al. Learning word vectors for sentiment analysis[C] //Proc of the Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 142-150

[50]Tang Duyu, Qin Bing, Liu Ting. Deep learning for sentiment analysis: Successful approaches and future challenges[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2015, 5(6): 292-303

[51]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(Aug): 2493-2537

[52]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554

[53]Yu Kai, Jia Lei, Chen Yuqiang, et al. Deep learning: Yesterday, today and tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804 (in Chinese)

(余凱, 賈磊, 陳雨強(qiáng), 等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9): 1799-1804)

[54]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105

[55]Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 35(8): 1915-1929

[56]Tompson J, Jain A, Lecun Y, et al. Joint training of a convolutional network and a graphical model for human pose estimation[J]. Eprint Arxiv, 2014: 1799-1807

[57]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9

[58]Mikolov T, Deoras A, Povey D, et al. Strategies for training large scale neural network language models[C] //Proc of Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 196-201

[59]Hinton G, Deng Li, Yu Dong, et al. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97

[60]Sainath T N, Mohamed A R, Kingsbury B, et al. Deep convolutional neural networks for LVCSR[C] //Proc of Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2013: 8614-8618

[61]Leung M K, Xiong H Y, Lee L J, et al. Deep learning of the tissue-regulated splicing code[J]. Bioinformatics, 2014, 30(12): 121-129

[62]Xiong Huiyuan, Alipanahi B, Lee L J, et al. The human splicing code reveals new insights into the genetic determinants of disease[J]. Science, 2015, 347(6218): 1254806-1254806

[63]Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. Computer Science, 2014, 8(4): 23-33

[64]Jean S, Cho K, Memisevic R, et al. On using very large target vocabulary for neural machine translation[J]. Computer Science, 2015(10): 35-45

[65]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3104-3112

[66]Bespalov D, Bai Bing, Qi Yanyu, et al. Sentiment classification based on supervised latentn-gram analysis[C] //Proc of ACM Conf on Information and Knowledge Management. New York: ACM, 2011: 375-382

[67]Glorot X, Bordes A, Bengio Y. Domain adaptation for large-scale sentiment classification: A deep learning approach[C] //Proc of Int Conf on Machine Learning. New York: ACM, 2011: 513-520

[68]Socher R, Huval B, Manning C D, et al. Semantic compositionality through recursive matrix-vector spaces[C] //Proc of Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Cambridge, MA: MIT Press, 2012: 1201-1211

[69]Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2011: 151-161

[70]Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2013: 1631-1642

[71]Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint, arXiv: 1408. 5882, 2014

[72]Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint, arXiv: 1404. 2188, 2014

[73]Mitchell J, Lapata M. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8): 1388-1429

[74]Frege G. On sense and nominatum[J]. Philosophy of Science, 1949, 59(16): 35-39[75]Wu Qiong, Liu Yue, Shen Huawei, et al. A unified framework for cross-domain sentiment classification,[J]. Journal of Computer Research and Development, 2013, 50(8): 1683-1689 (in Chinese)

(吳瓊, 劉悅, 沈華偉, 等. 面向跨領(lǐng)域情感分類的統(tǒng)一框架[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(8): 1683-1689)

[76]Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007: 153-160

[77]Zhu Xiaodan, Sobihani P, Guo Hongyu.Long short-term memory over recursive structures[C] //Proc of Int Conf on Machine Learning. New York: ACM, 2015: 1604-1612

[78]Hu Baoting, Lu Zhengdong, Li Hang, et al. Convolutional neural network architectures for matching natural language sentences[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2042-2050

[79]Bengio Y. Learning deep architectures for AI[J]. Foundations & Trends in Machine Learning, 2009, 2(1): 1-127

[80]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 3111-3119

[81]Greff K, Srivastava R K, Koutnik J, et al. LSTM: A search space odyssey[J]. IEEE Trans on Neural Networks & Learning Systems, 2016(7): 10-18

[82]Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5/6): 602-610

[83]Weston J, Ratle F, Mobahi H, et al. Deep Learning via Semi-Supervised Embedding[G] //Neural Networks: Tricks of the Trade. Berlin: Springer, 2012: 639-655

[84]Mcauley J, Pandey R, Leskovec J. Inferring networks of substitutable and complementary products[C] //Proc of the 21st ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2015: 785-794[85]Fan R E, Chang K W, Hsieh C J, et al. LIBLINEAR: A library for large linear classification[J]. Journal of Machine Learning Research, 2008, 9(Aug): 1871-1874

[86]Wang S, Manning C D. Baselines and bigrams: Simple, good sentiment and topic classification[C] //Proc of the 50th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2012: 90-94

[87]Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828

Guan Ziyu, born in 1982. Received his BSc and PhD degrees in computer science from Zhejiang University, in 2004 and 2010, respectively. Full professor in the School of Information Science and Technology of Northwest University. His main research interests include attributed graph mining and search, machine learning, expertise modeling and retrieval, and recommender systems.

He Jinhong, born in 1983. Received his BSc degree in management engineering from People’s Liberation Army Guilin Air Force Academy in 2009. After serving in the army for 3 years, he joined Northwest University. His main research interests include image processing, machine learning and information security.

Peng Jinye, born in 1964. Received his MSc degree in radio electronics from Northwest University in 1996 and received his PhD degree in signal and information processing from Northwestern Polytech-nical University in 2002. Full professor in Northwest University in 2003. He was awarded as “New Century Excellent Talent” by the Ministry of Education of China in 2007. His main research interests include machine learning, imagevideo analysis and retrieval, and face recognition.

A Survey on Sentiment Classification

Chen Long, Guan Ziyu, He Jinhong, and Peng Jinye

(SchoolofInformationScienceandTechnology,NorthwestUniversity,Xi’an710127)

Sentiment analysis in text is an important research field for intelligent multimedia understanding. The aim of sentiment classification is to predict the sentiment polarity of opinionated text, which is the core of sentiment analysis. With rapid growth of online opinionated content, the traditional approaches such as lexicon-based methods and classic machine learning methods cannot well handle large-scale sentiment classification problems. In recent years, deep learning has achieved good performance on the intelligent understanding of large-scale text data and has attracted a lot of attention. More and more researchers start to address text classification problems with deep learning. The content of this survey is organized as two parts. We firstly summarize the traditional approaches including lexicon-based methods, machine learning based methods, hybrid methods, methods based on weakly labeled data and deep learning based methods. Secondly, we introduce our proposed weakly-supervised deep learning framework to deal with the defects of the previous approaches. Moreover, we briefly summarize the research work on the extraction of opinion aspects. Finally, we discuss the challenges and future work on sentiment classification.

sentiment analysis; sentiment classification; deep learning; weak-supervision; aspects extraction

, born in 1989.

his BSc degree in electronic information engin-eering from City College, Xi’an Jiaotong University in 2012 and received his MSc degree in electronics and communications engineering from Northwest University, Xi’an, China, in 2015. PhD candidate at the School of Information Science and Technology, Northwest University, Xi’an, China. His main research interests include deep learning, sentiment analysis, text mining and natural language processing.

2016-11-10；

2017-03-14

國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61522206) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61522206).

管子玉(ziyuguan@nwu.edu.cn)

TP181

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

情感分類研究進(jìn)展

1 評(píng)論主題提取方法

2 傳統(tǒng)情感分類方法

3 基于弱監(jiān)督深度學(xué)習(xí)的情感分類

4 總結(jié)與展望