李長(zhǎng)鏡 趙書良 池云仙 羅燕
摘要 文本情感分析是多媒體智能理解的重要問題之一,情感分類是情感分析領(lǐng)域的核心問題,旨在解決評(píng)論情感極性的自動(dòng)判斷問題。隨著近年來深度學(xué)習(xí)技術(shù)的快速發(fā)展,其在大規(guī)模文本數(shù)據(jù)的智能理解上表現(xiàn)出了獨(dú)特的優(yōu)勢(shì),越來越多的研究人員青睞于使用深度學(xué)習(xí)技術(shù)來解決文本分類問題。
【關(guān)鍵詞】文本分類 情感分析 分類方法
1 引言
文本情感分類可以被看成為一類特殊的文本分類問題,目前的絕大多數(shù)研究將文本的情感傾向性按褒義(正向)、貶義(負(fù)向)這兩種類別來進(jìn)行極性分類,少數(shù)研究也涉及到三類(褒義、貶義和中立)。文本的粒度再被處理后可以在不同的級(jí)別上進(jìn)行分類研究,如文檔級(jí)和詞語級(jí)等等,由于其處理的范圍不同,根據(jù)其研究領(lǐng)域我們可以將情感分類研究再一次進(jìn)行分類,單領(lǐng)域和跨領(lǐng)域情感以及單語言、跨語言情感是目前比較合適的、科學(xué)的分類標(biāo)準(zhǔn)。
2 文本情感分類面臨的問題
2.1 數(shù)據(jù)稀疏性問題
隨著智能手機(jī)、平板電腦等移動(dòng)設(shè)備的普及,以及微博、在線社區(qū)等社會(huì)媒體的興起,人們表達(dá)情感的方式也越來越多,實(shí)現(xiàn)的途徑也更加多樣化,同時(shí)可以隨時(shí)隨刻發(fā)表自己的觀點(diǎn),不再受時(shí)間與空間的限制。同時(shí)在這個(gè)過程中,人們?cè)诎l(fā)表觀點(diǎn)或者進(jìn)行評(píng)論時(shí)更多的時(shí)應(yīng)用簡(jiǎn)約化的短文本,進(jìn)一步加劇了數(shù)據(jù)稀疏性這個(gè)問題。數(shù)據(jù)稀疏性問題給文本情感分類帶來極大困難。
2.2 標(biāo)注樣本獲取困難的問題
如果想要有監(jiān)督學(xué)習(xí)方法具有用戶滿意的分類特征,就需要在進(jìn)行模型的前期訓(xùn)練時(shí),有針對(duì)性的標(biāo)注大量典型樣本。而人工標(biāo)注樣本過程主要存在兩方面的問題,
(1)許多情況下,人工標(biāo)注樣本需要耗費(fèi)大量的人力物力,進(jìn)而增加了巨大的成本。
(2)樣本標(biāo)注的準(zhǔn)確度或者標(biāo)準(zhǔn)會(huì)隨著人的主觀意識(shí)而發(fā)生變化,這一現(xiàn)象直接影響了研究的結(jié)果的準(zhǔn)確度,直接造成一定的誤差,不利于研究的順利進(jìn)行。
2.3 情感資源的不平衡性問題
隨著當(dāng)今社會(huì)科技的不斷進(jìn)步,互聯(lián)網(wǎng)信息的呈現(xiàn)出多元化的特點(diǎn)尤其是在語言方面,這直接影響了情感資源的不平衡性,舉個(gè)例子,英國(guó)早年在情感分析問題上進(jìn)行了一系列的研究,其研究成果也影響了全國(guó)各地的研究學(xué)者的研究,這成果就包括了標(biāo)注語料、情感詞典等,而相比之下我國(guó)的國(guó)語標(biāo)注語料、情感詞典等資源也就相對(duì)較少,其原因也不僅僅是我國(guó)的研究時(shí)間較晚,更多的是情感資源在不同語言間具有分布不平衡性,這種不平衡性直接導(dǎo)致了各個(gè)國(guó)家在此研究方向或者領(lǐng)域的高度。
3 基于情感分析的文本分類方法
3.1 文檔級(jí)情感分類
3.1.1 基于有監(jiān)督學(xué)習(xí)的文檔情感分類方法
這類方法中,需要先將文檔表示為相應(yīng)的特征向量,然后在標(biāo)注樣本上訓(xùn)練分類器,再用分類器來對(duì)新文檔進(jìn)行分類。Pang等人首先將有監(jiān)督機(jī)器學(xué)習(xí)方法應(yīng)用于文檔情感分類問題中,比較了樸素貝葉斯、最大熵和支持向量機(jī)這幾種方法在電影評(píng)論數(shù)據(jù)集上的褒貶分類效果,發(fā)現(xiàn)文本情感分類比傳統(tǒng)文本分類更具挑戰(zhàn)性。
這種分類方法研究深度相對(duì)較高,同時(shí)也在一些實(shí)際應(yīng)用中得到了比較理想的分類結(jié)果。同時(shí),因?yàn)槿魏我粋€(gè)分類器都具有自己的優(yōu)劣勢(shì),針對(duì)不同領(lǐng)域,分類器效果也存在差別,每一種分類器都有其最優(yōu)的應(yīng)用領(lǐng)域,因此要有效選擇分類器,進(jìn)而發(fā)揮其最佳分類效果。
3.1.2 基于無監(jiān)督學(xué)習(xí)的文檔情感分類方法
無監(jiān)督學(xué)習(xí)方法與監(jiān)督學(xué)習(xí)方法不同的是在樣本標(biāo)注方面上,這一研究在文檔情感分類上直接吸引了一批研究學(xué)者的興趣,這里面就有一些有名的學(xué)者,如Turney計(jì)算情感短語與種子詞間的點(diǎn)對(duì)互信息(PMI)值并進(jìn)行了用形容詞和副詞的短語來作為情感短語的舉措,在此基礎(chǔ)上計(jì)算情感短語的情感傾向值。
他的這種方法具有獨(dú)特的優(yōu)勢(shì)和先創(chuàng)性,獨(dú)立性強(qiáng)、應(yīng)用范圍廣、便于應(yīng)用,并且無需使用人工標(biāo)注樣本,但是由于在發(fā)展初期,其缺點(diǎn)也是顯而易見的,其詞匯量有限,情感詞匯的領(lǐng)域相關(guān)性以及在文章中的邏輯性都不是非常理想,這也導(dǎo)致了分類標(biāo)準(zhǔn)的不是很差強(qiáng)人意。因此,如何突破情感詞典資源的各種限制性因素對(duì)無監(jiān)督情感分類方法的影響,也是未來需要值得關(guān)注的研究?jī)?nèi)容。
3.1.3 基于半監(jiān)督學(xué)習(xí)的文檔情感分類方法
半監(jiān)督學(xué)習(xí)的方法是相對(duì)于監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法而言的,其關(guān)鍵點(diǎn)在于有效利用未標(biāo)注數(shù)據(jù),來進(jìn)一步提升分類性能,這種方法目前已經(jīng)廣泛應(yīng)用于文本情感分類,在使用這種方法的同時(shí)也需要注意分類模型假設(shè)的正確性,并不是未標(biāo)注數(shù)據(jù)越多分類效果就越好,有時(shí)會(huì)得到相反的結(jié)果。
3.2 句子級(jí)情感分類
3.2.1 句子的主客觀分類
在實(shí)際評(píng)論中,包含了許多對(duì)客觀事實(shí)進(jìn)行直接描述的句子,比如,“今天我和朋友一起逛了蘇果超市,買了蘋果、橘子還有香蕉”就是對(duì)客觀事實(shí)直接描述的句子,沒人任何的感情以及修飾在里邊。
3.2.2 句子的情感傾向性分類
有監(jiān)督學(xué)習(xí)方法在句子的情感傾向性分類的研究中具有非常重要的地位,在此基礎(chǔ)上多重標(biāo)記CRF的分級(jí)模型、將馬爾科夫邏輯網(wǎng)與深度學(xué)習(xí)相結(jié)合、基于表情符號(hào)的規(guī)則方法、基于情感詞典的規(guī)則方法、基于SVM的多策略方法也相繼被一些研究學(xué)者提出來,這些分類方法也在實(shí)踐中進(jìn)行了試驗(yàn),如在中文微博數(shù)據(jù)集上進(jìn)行了情感分類。
3.3 詞語級(jí)情感分類
詞語級(jí)情感分類研究側(cè)重于對(duì)所研究?jī)?nèi)容的極性判斷,基于語義詞典的方法和基于語料庫(kù)的方法是當(dāng)前社會(huì)及科研中經(jīng)常用的到方法。
3.3.1 基于語義詞典的方法
基于語義詞典的方法顧名思義是與詞語的語義相關(guān),根據(jù)目前已有的詞典提供的解釋以及相反、同義詞、相近等意思來進(jìn)行詞語級(jí)情感分類。Kim等人是基于此種方法,假設(shè)同義詞為正向極性,反義詞為負(fù)向極性,他們通過定義種子詞為動(dòng)詞和形容詞以及利用這些詞匯進(jìn)行情感詞匯的擴(kuò)充,同時(shí)通過對(duì)它們?cè)~義的意思進(jìn)行極性判斷,這種方法一出隨即就有大量的研究學(xué)者研究與模仿,其中頗有名氣的便是Hassan等人,他們一方面在他們的基礎(chǔ)上進(jìn)行研究,另一方面用WordNet來構(gòu)建了詞的語義關(guān)系圖,并在圖上使用馬爾可夫隨機(jī)游走模型來計(jì)算給定詞的情感極性。
3.3.2 基于語料庫(kù)的方法
基于語料庫(kù)的方法的關(guān)鍵或者核心就在于詞語與詞語之間的共現(xiàn)關(guān)系,利用這種關(guān)系來確立情感詞的傾向性,最早進(jìn)行這方面的研究學(xué)者有Hatzivassiloglou,他們挖掘出來的形容詞主要是來自于華爾街日?qǐng)?bào)語料庫(kù),依據(jù)的原理就是利用連接詞的關(guān)系來確定情感詞的傾向性。盡管進(jìn)行了大量研究工作,但是就情感判斷而言難度依然很大,特別是很多情況下沒有明顯的情感傾向性,但應(yīng)用在一些特定領(lǐng)域或環(huán)境中就表現(xiàn)出情感傾向性的的詞匯進(jìn)行識(shí)別時(shí),還存在很大的不足。
3.4 跨語言情感分類
單語言環(huán)境下的文本情感分類是當(dāng)前研究的重點(diǎn),但是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上出現(xiàn)越來越多的情感詞典、情感語料,并且充斥著各種不同的語言,這直接帶來了情感基礎(chǔ)資源的分布極不均衡,這也是進(jìn)行跨語言情感分類研究的原因之一。目前跨語言情感分類的研究面臨著一系列的難點(diǎn)問題,主要包含語言遷移、情感分析本身兩方面的問題,語言遷移主要表現(xiàn)在不同的語言所表達(dá)的情感思想差異巨大,再進(jìn)行語言情感的轉(zhuǎn)換會(huì)丟失大部分的信息,而在情感分析方面最大的問題是容易造成情感歧義的干擾,Kevin等人將跨語言情感分類看成為領(lǐng)域適配( domainadaptation)問題,并認(rèn)為即使應(yīng)用非常完美的翻譯工具,跨語言情感分類仍然會(huì)面臨領(lǐng)域適配的挑戰(zhàn),會(huì)導(dǎo)致精度退化。
總的來說,跨語言情感分類還存在許多不足之處,仍要進(jìn)行大量的工作,不斷完善當(dāng)前存在的不足,這也是文本情感分類中一個(gè)非常重要的關(guān)注方向。
4 總結(jié)
文本情感分類研究涉及的領(lǐng)域范圍非常廣泛,包括自然語言處理、機(jī)器智能、大數(shù)據(jù)處理等,與此同時(shí)自然語言處理研究是一個(gè)非常復(fù)雜的工作,文本情感分類也具有很強(qiáng)的挑戰(zhàn)性,該領(lǐng)域的研究工作雖然取得了長(zhǎng)足進(jìn)步,但目前仍然存在一些亟需解決的問題,需要進(jìn)一步探索創(chuàng)新。
參考文獻(xiàn)
[1]宋光鵬,文本的情感傾向分析研究[D].北京郵電大學(xué),2008.
[2]倪茂樹,基于語義理解的觀點(diǎn)評(píng)論挖掘研究[D].大連理工大學(xué),2007.
[3]楊立公,朱儉,湯世平,文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2013 (06).
[4]王光,邱云飛,史慶偉,集合CHI與IG的特征選擇方法[J],計(jì)算機(jī)應(yīng)用研究,2012 (07).