陳 迪,程 朗,王志鋒,熊錦鵬,張玉茹,黎高贊
華中師范大學(xué) 人工智能教育學(xué)部,武漢430079
隨著大數(shù)據(jù)時代的來臨,網(wǎng)絡(luò)論壇已成為人們生活的一部分,用戶能方便快捷地在論壇上發(fā)表自己的觀點或?qū)λ擞^點進行評論。論壇適應(yīng)了參與者協(xié)作、交互、討論等需要,并能提供有效的指導(dǎo)和反饋[1],成為廣受歡迎的在線交流工具之一,如線上教育論壇、企業(yè)產(chǎn)品推廣論壇、地方性論壇以及興趣交流性論壇等。與注重人與人之間關(guān)系鏈的微博、推特等社交平臺相比,論壇更注重內(nèi)容本身。其文本信息豐富且龐大,包含針對具體問題不同用戶的見解看法、特定用戶對事物廣泛認知的反映、熱點話題下的討論和關(guān)注、問題的提出與解答、用戶與用戶之間的交流互動等等。
這些數(shù)據(jù)在不同的領(lǐng)域都存在著巨大價值。在教育領(lǐng)域,Vo等指出比起問卷調(diào)查等注重于學(xué)生整體情緒的反饋方式,線上論壇能為學(xué)生提供一個經(jīng)常性發(fā)布學(xué)習(xí)歷程的場所,對學(xué)習(xí)論壇的數(shù)據(jù)分析能更好把握學(xué)生的情緒變化和差異,展現(xiàn)更全面的學(xué)生學(xué)習(xí)體驗[2];在金融經(jīng)濟領(lǐng)域,南曉莉指出信息操縱者通過論壇發(fā)帖、評論等方式可以影響其他投資者,達到操縱市場的目的[3];在信息安全領(lǐng)域,Kleinberg等指出通過對特定論壇的監(jiān)控和挖掘,可以有效識別潛在輿情,預(yù)防異常事件的發(fā)生[4]。
情感挖掘是數(shù)據(jù)挖掘的一種,適用于對論壇數(shù)據(jù)進行處理,主要涉及自然語言處理技術(shù)和信息提取技術(shù),對文本進行挖掘和分析,根據(jù)上下文和所獲極性來判斷特定文本傾向性、潛在論點、觀點或情感狀態(tài)[5]。與意見挖掘不同,雖然都涉及處理自然語言以確定用戶的態(tài)度,但情感挖掘更關(guān)注于檢測、分類和評估用戶面對不同事件、主題、問題、服務(wù)或興趣領(lǐng)域時的心理活動狀態(tài)[6]。研究表明,隨著計算機技術(shù)和論壇等線上平臺的蓬勃發(fā)展,以情感挖掘為主題的發(fā)表文章在2005年到2015年期間增長了近50倍,且在下一個十年仍會持續(xù)增長[7],有效提取論壇數(shù)據(jù)的情感信息已然成為國外學(xué)者關(guān)注的熱點。論壇情感挖掘在諸多領(lǐng)域都有重要應(yīng)用,如調(diào)查用戶滿意度、為用戶自動推薦服務(wù)、對產(chǎn)品進行優(yōu)化,甚至預(yù)測心理健康等。然而國內(nèi)學(xué)者對論壇數(shù)據(jù)的分析主要集中于主題挖掘,對情感挖掘關(guān)注度不夠。本文旨在對論壇情感挖掘進行綜述,以幫助研究者更全面地認識這一領(lǐng)域。
情感挖掘?qū)儆谧匀徽Z言處理范疇,是識別給定文本情緒極性的任務(wù)。隨著越來越多網(wǎng)民熱衷于在論壇中表達情緒,論壇情感挖掘無疑在了解大眾情緒、把握輿情發(fā)展等方面具有巨大價值。目前針對論壇文本進行情感挖掘的技術(shù)主要分為兩類:基于情感詞典的方法和基于機器學(xué)習(xí)的方法。
情感詞能在一定程度上體現(xiàn)文本情感傾向?;谇楦性~典的方法就是將文本看作一個無序的詞匯集合,根據(jù)一定規(guī)則進行處理,提取預(yù)選詞,再根據(jù)情感詞典所提供的對應(yīng)詞情感值,進行數(shù)值累加,最終得到文本的情感極性分析結(jié)果??梢园l(fā)現(xiàn),基于情感詞典的方法在挖掘有效性上很大程度取決于詞典準(zhǔn)確度。
基于情感詞典的情感計算,核心是情感權(quán)重及情感計算規(guī)則。論壇情感挖掘的研究中,諸多學(xué)者對基于情感詞典的情緒分析方法提出了改進方案。按切入點不同,這些改進方案可以分為基于詞典構(gòu)建與基于分析方法兩類。
1.1.1 基于詞典構(gòu)建的技術(shù)方案對比分析
考慮到基于情感詞典的情緒分析方法對情感詞典本身的依賴性,可以通過構(gòu)造準(zhǔn)確度更高、覆蓋面更廣的情感詞典來提高分析的可靠性。總的來說,情感詞典按構(gòu)建方式可以分為人工構(gòu)造和自動構(gòu)造兩類。目前大部分通用詞庫都是按人工構(gòu)建的方式構(gòu)造的,表1給出常用通用情感詞庫的名稱及其基本說明。
表1 常用通用情感詞庫Table 1 Universal sentiment lexicon
上述通用詞庫涉及英文和中文兩種語言,雖然通用性強,但基于人工構(gòu)建的詞庫往往需要耗費大量的人力物力去構(gòu)建和維護,在實際應(yīng)用中表現(xiàn)并不理想。因此,情感詞典的自動構(gòu)造一直是研究者關(guān)注的重點。情感詞典的自動構(gòu)造又可以分為基于語義知識庫和基于語料庫兩類方法。
基于已有專家標(biāo)注的、較為完善的語義知識庫(如WordNet等),通過詞與詞之間的聯(lián)系,可以構(gòu)建出通用性較好的情感詞典。如利用語義知識庫查找同義詞或反義詞,對人工構(gòu)造的少量帶有正、負極感情詞進行擴展。Hu等正是利用同義關(guān)系和反義關(guān)系來拓展詞典以分析評論文本[8],Kamps等則通過相互迭代所需步數(shù)判定詞義相同程度[9]。一些完善的知識庫會給出詞的相關(guān)解釋,因此合理運用解釋文本也是一個思路,如Andreevskaia等的遍歷知識庫,提取釋義中含有種子詞的詞語,進行消歧等處理后構(gòu)建情感詞典[10],而張明則通過檢查某詞在《現(xiàn)代漢語詞典》中釋義情感極性是否一致,判斷該詞是否為上下文相關(guān)情感詞,區(qū)別處理,從而構(gòu)建得到上下文無關(guān)情感詞典和上下文相關(guān)情感詞典[11]。
基于語料庫,是指直接通過語料中詞的共現(xiàn)信息或上下文信息,構(gòu)造領(lǐng)域適用性較好的情感詞典。連詞往往承接著前后的極性,如轉(zhuǎn)折連詞一般會改變情感極性,并列連詞則會使情感極性得以保持。Hatzivassiloglou最先提出將連詞關(guān)系應(yīng)用于情感詞典構(gòu)建,并通過實驗證明連詞前后情感的極性關(guān)系[12]。在此基礎(chǔ)上,王科等利用評論語料,將所有形容詞視作情感詞,考慮否定詞和轉(zhuǎn)折詞的影響,忽略虛擬句中包含的情感,總結(jié)出極性轉(zhuǎn)移規(guī)則,構(gòu)造在特定分析任務(wù)上表現(xiàn)更優(yōu)的中文情感詞典[13]。詞語共現(xiàn)法逐點互信息(Pointwise Mutual Information,PMI)[14]是常被用來衡量詞間獨立性的經(jīng)典模型之一,Turney基于此模型,考察情感詞與已知極性的詞的緊密程度,進而判斷情感傾向[15]。表2給出自動構(gòu)建情感詞典方法總結(jié),表3給出這兩種方法的優(yōu)勢與劣勢。
表2 自動構(gòu)建情感詞典方法總結(jié)Table 2 Summary of automatical construction of sentiment dictionary
表3 自動構(gòu)建情感詞典方法對比Table 3 Comparison of automatical construction of sentiment dictionary
詞典自動構(gòu)造是基于詞典情感分析方法的重要問題。情緒得分計算的本質(zhì)是與詞典中的詞進行匹配,因此構(gòu)造出的詞典的精確度、覆蓋范圍、通用性及領(lǐng)域適用性至關(guān)重要。由表3的對比可以看出,基于語料庫的構(gòu)造法在特定領(lǐng)域具有較高精確度和覆蓋范圍,然而通用性不如基于知識庫構(gòu)造的詞典;而基于知識庫的構(gòu)造法雖然構(gòu)造效率高,但在特定領(lǐng)域的情感詞往往較少,這意味著可能無法挖掘出垂直領(lǐng)域的隱含情感??紤]到各有優(yōu)劣,綜合使用這兩種方法可以得到綜合性能更完善的情感詞典,其本質(zhì)思想是利用語義知識庫檢查兩個詞的標(biāo)準(zhǔn)語義關(guān)系,再用語料庫中的關(guān)系進行約束。如文獻[16]利用WordNet進行同義反義詞擴展,再提取語料庫的連詞,分解形成的關(guān)系限制矩陣從而構(gòu)成詞典。
結(jié)合兩種方法的構(gòu)造法雖然有其優(yōu)勢,但對比機器學(xué)習(xí)特別是深度學(xué)習(xí)的分析方法,其優(yōu)勢并不明顯,而且需要投入更多時間進行設(shè)計。隨著時代發(fā)展,基于情感詞典的方法更多定位于方便快速得到分析結(jié)果,因此實際應(yīng)用中往往根據(jù)具體任務(wù)尋找構(gòu)造法的平衡點或側(cè)重點,如文獻[17]構(gòu)造了側(cè)重于消極情緒的詞典,并忽略表情符號的影響,這是因為該研究的目的是宏觀上了解新冠疫情對旅游業(yè)的影響,對于個例準(zhǔn)確度的要求不高,得到情感挖掘結(jié)果是為了后續(xù)分析。
1.1.2 改進分析方法的技術(shù)方案現(xiàn)狀對比
考慮到基于情感詞典的情緒分析方法對情感詞典本身的依賴性,除了改進情感詞典本身的性能外,還將情感詞典與特定分析方法相結(jié)合,得到更可靠的情感挖掘結(jié)果。
在基于情感詞典的情感挖掘方法中情感值的計算很關(guān)鍵。如許諾等在分析天涯論壇球迷情感時,對情感強度的計算充分考慮詞鄰近否定詞和副詞的影響。他們利用大連理工大學(xué)的中文情感詞匯庫進行正性和負性計算,將HowNet作為否定程度詞典,最后將帖子中出現(xiàn)球隊、教練、球員及其別名句子的情感值進行加和,在此基礎(chǔ)上定義球隊情感傾向強度值[18]。為研究旅客情緒是否相互依存,Neidhardt等對旅游相關(guān)在線論壇進行分析,基于SentiWordNet情感詞典與2013年發(fā)布在該論壇上的所有評論,構(gòu)建用戶關(guān)系網(wǎng)絡(luò)。他們進行情感計算時考慮了表情符號,引入了一個衡量用戶寫評論時心情的可靠指標(biāo)[19]。陽林認為,同一情感類別的情感詞的強度應(yīng)加強區(qū)分,而不同文本中同一情感詞的強度也要強調(diào)差異,因此提出一種新的情感權(quán)重計算方法,為情感確定性大的詞賦予更大的權(quán)重,反之則賦予小權(quán)重[20]。
情感詞典構(gòu)造的過程中需要判斷詞與詞間的獨立性,以達到判斷極性的目的,因此可以改進獨立性判斷模型??紤]到基于PMI的計算過分依賴于語料庫,而往往一些生僻情感詞或表情符號在語料庫中出現(xiàn)頻率較低,姚艷秋等人對PMI算法的概率式進行改進,提出一種Laplace平滑情感判定(LS-SO)算法來使情感詞典自動擴充。該算法用以判斷請求詞的情感傾向,決定是否加入基本情感詞庫并進行后續(xù)操作[21]?;谶@種改進后的PMI判定算法,葉霞等人提出一種情感詞典自適應(yīng)學(xué)習(xí)方法,來解決互聯(lián)網(wǎng)新的情感詞不斷出現(xiàn)的問題[22]。他們選取30對正負情感種子詞的情感詞,使用CBOW(Continuous Bag-of-Word model)模型[23]將語料庫中的所有單詞映射成固定維數(shù)的實數(shù)向量,通過檢查相似度是否超過閾值、句法是否滿足特定規(guī)則等,選出候選情感詞。
僅僅關(guān)注詞與詞間的獨立性與共現(xiàn)信息,將文本視為無序的詞匯集合是不全面的。事實上,情感的表達離不開詞語間的組合規(guī)則。為彌補情感詞典的這點缺陷,蘭秋軍等[24]提出了一種將情感詞典與句法分析相結(jié)合的情感分析方法。首先對論壇語料或待分析文本進行預(yù)處理,提取其中不含主謂賓的短文本和包含主謂賓的文本分別進行處理,然后結(jié)合依存關(guān)系的詞性組合設(shè)定情感計算規(guī)則并提取主干詞的修飾詞,依照8項具體規(guī)則完成情感傳遞及計算,從而實現(xiàn)文本的情感分類。該方案充分利用了句子內(nèi)部的語法規(guī)則,一定程度上克服了情感詞典的局限性,但句子間的依賴聯(lián)系、上下文語境等仍是需要進一步研究的問題。針對這點,張克亮等在HowNet情感詞典基礎(chǔ)上,引入HNC語境框架處理語境[25]。概念層次網(wǎng)絡(luò)(HNC)理論是一種以概念層和句法分析層為基礎(chǔ),結(jié)合自然語言的表層結(jié)構(gòu)和深層語義的理論。他們從微觀情感分析入手,把握文本宏觀情感傾向,使語義理解更精準(zhǔn)可靠。
上述方案雖切入點不同,但都是將情感詞典與分析方法結(jié)合,以得到更準(zhǔn)確的分析結(jié)果。文獻[18-20]從情感值的計算入手,許諾等對論壇情感強度計算進行細化,Neidhardt將表情符號情感引入計算范圍,陽林則對情感權(quán)重賦值方法進行改進;文獻[21-22]從獨立性模型的改進入手,姚艷秋等對詞間獨立性判斷模型的概率式提出改進,葉霞等則將應(yīng)用改進后模型解決新詞問題;文獻[24-25]考慮到詞間組合關(guān)系與上下文語意對極性影響,蘭秋軍等將情感詞典與依存句法分析相結(jié)合,張克亮等則將情感詞典與HNC語境框架相結(jié)合。
情感詞典挖掘方法的核心是情感權(quán)重及情感計算規(guī)則設(shè)計,無論是詞典構(gòu)造還是結(jié)合特定分析方法,都是圍繞這點進行改進的。其優(yōu)勢在于簡單易用,能夠較快得到分析結(jié)果,適用于處理規(guī)模較小的論壇數(shù)據(jù)。然而情感詞典局限于“詞典”,很難跟上論壇信息更新速度,也難以適應(yīng)人們對情緒分析結(jié)果與日俱增的要求。
情感詞典的方法雖得到了一定程度的應(yīng)用,但其缺陷卻顯而易見。例如:“我在這里等了很長時間?!边@句話表達了消極的情緒,但其中不包含任何情感詞,用情感詞典的方法無法檢測出來。同時,基于情感詞典分析的精確與否在很大程度上取決于詞典在具體任務(wù)中表現(xiàn)出來的準(zhǔn)確度,推廣能力較差。而機器學(xué)習(xí)的方法能從大量語料中自動獲取信息以構(gòu)建情感計算模型,已逐漸成為論壇情感挖掘領(lǐng)域的主流。基于機器學(xué)習(xí)的情感挖掘方法可以大致分為兩類:基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
1.2.1 傳統(tǒng)機器學(xué)習(xí)情感挖掘方法研究
傳統(tǒng)機器學(xué)習(xí)情感挖掘方法首先對文本進行分詞和句法分析,然后根據(jù)論壇的文本特點或特定的挖掘目標(biāo)制定合適的特征集(特征的提取一般是通過人工建模的方式來實現(xiàn)),再利用機器學(xué)習(xí)算法實現(xiàn)情感分類,從而構(gòu)建情感計算模型。
傳統(tǒng)機器學(xué)習(xí)一般是有監(jiān)督學(xué)習(xí),常見分類器有樸素貝葉斯、邏輯回歸、支持向量機(Support Vector Machine,SVM)等[26],研究者根據(jù)實際任務(wù)訓(xùn)練不同分類器,并對特征進行選擇和處理以提高模型的表現(xiàn)。如Figea等通過對仇恨色彩濃烈的論壇進行情感分析以識別極端分子,將帖子分配給三個專家進行注釋并取平均值,再進行篩選和處理。隨后基于注釋創(chuàng)建和選擇特征,獲得數(shù)據(jù)獨立特征和數(shù)據(jù)依賴特征,最后分別采用隨機森林、支持向量機和自適應(yīng)提升算法進行對比分析,完成情感挖掘[27]。Xing等人為探究學(xué)生的成就情感表達與綴學(xué)率的關(guān)系,對MOOCs上的論壇數(shù)據(jù)分別使用樸素貝葉斯、邏輯回歸、支持向量機和決策樹四種模型,并對結(jié)果進行對比分析[28]。
雖然模型和算法可以逼近機器學(xué)習(xí)的上限,但數(shù)據(jù)和特征卻決定了機器學(xué)習(xí)的上限,因此特征選擇是傳統(tǒng)機器學(xué)習(xí)應(yīng)用于論壇情感挖掘中的重要問題。對于論壇文本模型,選出特征的最優(yōu)組合不僅可以減少計算機運算資源,同時也是分析結(jié)果可靠與否的關(guān)鍵。Abbasi等為發(fā)現(xiàn)論壇中的極端主義組織,從情感層面入手,設(shè)計了熵加權(quán)遺傳算法用于特征選擇[29],其中心思想是依據(jù)不同文體的句法特征和語義特征,選取最適宜該文體的特征組合,從而減少所需的特征選擇。該方案的主要特色在于根據(jù)文體的不同,適當(dāng)減少了特征項,從而降低機器學(xué)習(xí)的數(shù)據(jù)處理量。Ghosh等利用三種不同的特征選擇方法選擇特征子集,再采用并集、交集和修正并集等統(tǒng)計方法對這些特征子集進行合并,得到包括公共選擇特征在內(nèi)的所有排名靠前的特征,最后利用該特征向量訓(xùn)練分類器,在三個評論數(shù)據(jù)集中得到92.31%的準(zhǔn)確率[30]。
將傳統(tǒng)機器學(xué)習(xí)的方法與特定方法相結(jié)合,能得到比單一方法更準(zhǔn)確的分析結(jié)果。Ramesh等在機器學(xué)習(xí)的基礎(chǔ)上引入統(tǒng)計方法,開發(fā)了一個弱監(jiān)督的情感挖掘方法[31]。該方法的實驗對象是MOOCs論壇,首先使用SeededLDA主題建模方式[32]編碼與情感相關(guān)的內(nèi)容,將這些內(nèi)容按不同的情感層面細分,將其結(jié)果簡稱為aspects。在此基礎(chǔ)上,引入統(tǒng)計關(guān)系模型Hinge-loss Markov Random Fields[33]作為概率模型框架,來關(guān)聯(lián)具體情感與相應(yīng)的aspect,從而得到一個弱監(jiān)督的在線課程情感模型。該方法從論壇主題識別入手,獲得該論壇的文本內(nèi)容與學(xué)生情感之間的關(guān)聯(lián)規(guī)則,從而根據(jù)文本判斷情感,實現(xiàn)情感模型的弱監(jiān)督化。李鼎提出采用情感詞典和機器學(xué)習(xí)加權(quán)方式相結(jié)合的情感挖掘方法[34],將基于情感詞典方法粒度細分析、精準(zhǔn)分析能直接作用于詞傾向性上等優(yōu)點,與機器學(xué)習(xí)在文本不同數(shù)據(jù)集上體現(xiàn)出的穩(wěn)定性優(yōu)點相結(jié)合。
文獻[27-28]將模型直接應(yīng)用于具體任務(wù),F(xiàn)igea等通過論壇帖子的情感識別極端分子,Xing等則研究情感表達與綴學(xué)率的關(guān)系。前者實驗表明采用數(shù)據(jù)依賴特征比數(shù)據(jù)獨立特征表現(xiàn)好,而且SVM比其他兩種分類器表現(xiàn)好,后者也指出四種模型中SVM性能最優(yōu),由此可見論壇情感挖掘中,良好的特征結(jié)合支持向量機的分析結(jié)果較為可靠,可作為研究者實際任務(wù)的參考,另外,兩者在特征選取時均用了Linguistic Inquiry and Word Count(LIWC)詞典[35],一定程度上說明傳統(tǒng)機器學(xué)習(xí)應(yīng)用于論壇數(shù)據(jù)時,特征選擇表現(xiàn)出一定通用性;文獻[29-30]從特征提取入手,Abbasi等針對極端主義情感挖掘,提出了一套減少特征項的方法,Ghosh等則對特征選取進行計算和細化。隨著硬件性能的提升,單純?yōu)榻档陀嬎懔亢喕卣黜椧驯容^少見,當(dāng)前的研究更多注重于選出最優(yōu)特征,簡化特征也多是以此為目的,很多時候特征工程的完成度決定最終分析結(jié)果的好壞;文獻[31,34]結(jié)合機器學(xué)習(xí)與其他手段,Ramesh等結(jié)合關(guān)聯(lián)性設(shè)計弱監(jiān)督的情感挖掘方案,李鼎則將情感詞典和機器學(xué)習(xí)加權(quán)方式相結(jié)合。機器學(xué)習(xí)具有較強兼容性,能與其他計算機技術(shù)或分析方法建立聯(lián)系,早在2013年Vohra就說明了結(jié)合詞典和機器學(xué)習(xí)方法的有效性[36],兩者的綜合使用既可以避免情感詞典挖掘方法中上下文對情感詞的影響,也在一定程度上克服了機器學(xué)習(xí)方法預(yù)測準(zhǔn)確性對訓(xùn)練樣本的質(zhì)量和覆蓋率的過度依賴。
1.2.2 基于深度學(xué)習(xí)的情感挖掘技術(shù)研究
深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支,也是機器學(xué)習(xí)發(fā)展的主流趨勢[37]。傳統(tǒng)機器學(xué)習(xí)的方法在論壇情感挖掘上表現(xiàn)并不盡如人意,主要原因有三個:一是模型嚴(yán)重依賴于特征工程,需要人工提取特征進行訓(xùn)練,工作量繁瑣而巨大;二是由于特征被提前設(shè)定,模型難以充分利用訓(xùn)練數(shù)據(jù);三是基于領(lǐng)域知識提取的特征無法被很好地遷移到新的任務(wù)。深度學(xué)習(xí)在自然語言處理上獲得巨大成功后,研究者對這種方法投入極大關(guān)注。深度學(xué)習(xí)使計算機自動進行特征計算,在自然語言處理領(lǐng)域表現(xiàn)為將文本數(shù)據(jù)嵌入低維連續(xù)的特征向量中。這種方法避免了通過人工干預(yù)來提取特征的工程過程,而是讓計算機對數(shù)據(jù)中描述本質(zhì)的抽象特征表達進行描述學(xué)習(xí)。由于計算機自始至終都在自己學(xué)習(xí),無需人工干預(yù),深度學(xué)習(xí)也被稱為端到端機器學(xué)習(xí)。
近年來,深度學(xué)習(xí)方法已成為情感挖掘領(lǐng)域的主流。由于論壇情感分析的主要工作是預(yù)測用戶觀點,而深度學(xué)習(xí)模型是對人類思維的預(yù)測或模仿,因此深度學(xué)習(xí)模型比淺層模型提供了更高的準(zhǔn)確性。隨著深度學(xué)習(xí)網(wǎng)絡(luò)不斷發(fā)展,特別是注意力機制[38]、自注意力機制[39]、Transformer[40]模型以及18年后各預(yù)訓(xùn)練語言模型的提出,自然語言處理迎來了新一輪的浪潮。從模型結(jié)構(gòu)出發(fā),情感挖掘中的主流深度學(xué)習(xí)模型可以被分為以下幾類:(1)基于前饋神經(jīng)網(wǎng)絡(luò),主要由多層前饋層與最后的分類層構(gòu)成;(2)基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),能處理時序數(shù)據(jù)的詞間關(guān)系及文本結(jié)構(gòu);(3)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN),使用長度不同的卷積核對文本進行卷積,表征句子向量;(4)基于注意力機制,對句子中每個詞的權(quán)重進行計算;(5)基于混合框架,結(jié)合各種深度學(xué)習(xí)模型,搭建新的網(wǎng)絡(luò)框架;(6)基于預(yù)訓(xùn)練語言模型。表4從模型分類的角度總結(jié)了自然處理領(lǐng)域常見的深度學(xué)習(xí)模型,并給出其優(yōu)勢和不足。
表4 深度學(xué)習(xí)模型總結(jié)Table 4 Summary of deep learning model
目前深度學(xué)習(xí)已被廣泛運用于論壇情感挖掘中,但BERT、ELMo等新一代深度學(xué)習(xí)技術(shù)更多應(yīng)用于社交網(wǎng)絡(luò)和開源數(shù)據(jù)集,在論壇數(shù)據(jù)上的應(yīng)用不多。可以預(yù)見,當(dāng)這些技術(shù)更成熟后,論壇情感挖掘也將引來新一輪革命。
深度學(xué)習(xí)方法在諸多研究中被證明能獲得比傳統(tǒng)機器學(xué)習(xí)方法更可靠的分析結(jié)果。如Pousada等為檢測在線課堂整體情感氛圍,開發(fā)了教學(xué)情感檢測系統(tǒng)(ETT),分別運用神經(jīng)網(wǎng)絡(luò)、隨機森林和支持向量機三種方法,將學(xué)生發(fā)布的帖子分為積極、中性和消極三種情感。結(jié)果表明神經(jīng)網(wǎng)絡(luò)表現(xiàn)優(yōu)于其他兩種方法[50]。Li等為克服中文情感分析資源中標(biāo)注語料庫和任務(wù)適應(yīng)模型的不足,在電影論壇挖掘時設(shè)計了新的遞歸神經(jīng)深層模型,取得了比支持向量機、樸素貝葉斯和最大熵更高的性能[51]。Park等為發(fā)現(xiàn)隱藏自己信息的患者群體,對健康相關(guān)網(wǎng)絡(luò)論壇上信息進行挖掘,提出了一個基于情緒分析和深度學(xué)習(xí)的性別檢測模型。他們分別采用不同進行實驗。結(jié)果表明支持向量機算法優(yōu)于其他傳統(tǒng)機器學(xué)習(xí)算法,但三種算法都沒有很好地識別女性類,而是將大部分用戶劃分為男性類,即傳統(tǒng)的機器學(xué)習(xí)算法對于女性類別有很高的誤分類率,而卷積神經(jīng)網(wǎng)絡(luò)克服了這一缺點,準(zhǔn)確率超過90%[52]。Li等為識別信用卡犯罪分子,對俄羅斯黑客論壇進行情感挖掘,提出了一個通用和規(guī)模化的深度學(xué)習(xí)框架,包含滾雪球抽樣(snowball sampling)、線索分類(thread classification)和遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)。為評價模型的有效性和優(yōu)良性,他們進行了對比實驗,結(jié)果表明,此深度學(xué)習(xí)框架比基于傳統(tǒng)機器學(xué)習(xí)的淺層分類器學(xué)習(xí)效果更好[53]。表5給出上述研究者實驗?zāi)康?、所用模型以及實驗結(jié)果對比。
從表5歸納的對比實驗結(jié)果可以發(fā)現(xiàn),多數(shù)情況下,深度學(xué)習(xí)技術(shù)取得的情感分析結(jié)果要遠遠優(yōu)于傳統(tǒng)機器學(xué)習(xí)技術(shù)。一方面,傳統(tǒng)機器學(xué)習(xí)的人工構(gòu)造特征過程難以把控。而深度學(xué)習(xí)在一定程度上克服了這個缺點,在論壇情感挖掘中取得了很好的效果;另一方面,深度學(xué)習(xí)的巨大優(yōu)勢在于能夠在海量數(shù)據(jù)中挖掘到價值巨大的隱藏信息[54],而得益于信息計算機硬件以及數(shù)據(jù)量的爆炸性提升,越來越多研究者致力于更強大的深度網(wǎng)絡(luò)模型,深度學(xué)習(xí)技術(shù)在論壇情感挖掘上擁有了廣闊的舞臺和前景。但深度學(xué)習(xí)仍存在許多問題需要改進,特別是一些至關(guān)重要的基礎(chǔ)性問題,如梯度的爆炸和消失、模型解釋困難、相關(guān)參數(shù)設(shè)置、隨著網(wǎng)絡(luò)層數(shù)的增加導(dǎo)致模型訓(xùn)練復(fù)雜、如何保持一定的準(zhǔn)確率而提高訓(xùn)練速度等等。深度學(xué)習(xí)的應(yīng)用仍有待進一步研究。
表5 模型對比Table 5 Model comparison
隨著國際化腳步的加快和教育水平的提高,更多人掌握了多門外語,瀏覽他國論壇信息的需求也在與日俱增。在出國旅行、國際文化交流或?qū)W術(shù)研討等活動中,常常涉及提取其他語言論壇信息的過程。因此,多語言網(wǎng)絡(luò)論壇的出現(xiàn)是大趨勢,情感挖掘在日后發(fā)展中很可能涉及雙語言甚至多語言數(shù)據(jù)處理,這將為情感分析帶來極大挑戰(zhàn)。
跨語言問題的解決有多種方案,常見的是利用一門語言的情緒資源去分析另一門語言。實際上目前跨語言分析的關(guān)注度比多語言分析要高,因為現(xiàn)階段多語言論壇出現(xiàn)不多,而情感分析資源卻一直具有分布不均衡性,即比較完善的、開放的語義知識庫或語料庫主要是英文資源庫,其他語言的情緒分析資源庫較為匱乏或不夠完善。如HowNet這樣的中文情感詞典雖有一定認可度,卻忽略了語言靈活性的特點,且無法保證低頻詞的質(zhì)量和穩(wěn)定性。因此,有學(xué)者提出將英語資源庫應(yīng)用于其他語言情感分析任務(wù)的方案。Banea等人嘗試?yán)脵C器翻譯,直接將羅馬尼亞語的資源庫翻譯為英語,然后進行情緒分析和觀點分析[55]。Wan使用英語情緒分析資源來分析中文論壇上的產(chǎn)品評論,提出一種基于語料庫的雙語協(xié)同訓(xùn)練方法來擴展詞典[56],將標(biāo)注好的英文評論和一定數(shù)量的未標(biāo)注中文評論作為輸入,然后利用平行語料庫,使每一條評論都與英文資源和中文資源相關(guān)聯(lián),然后統(tǒng)一放入訓(xùn)練好的分類器中進行聯(lián)合訓(xùn)練,進而得到情緒極性分類。
同時,由于目前一些論壇上已出現(xiàn)了多語言混合使用的問題,也有學(xué)者針對多語言論壇情感分析展開研究。為克服本國論壇使用雙語言給情感挖掘帶來的障礙,Al-Rowaily等針對安全輿情檢測,開發(fā)了雙語情緒分析詞典BiSAL[57]。由于Al-Rowaily等的目標(biāo)是檢測與安全輿情相關(guān)的情感傾向,因此BiSAL詞典只需關(guān)注激進主義、威脅、沖突等相關(guān)的詞。他們對情感詞分配不同范圍的極性分?jǐn)?shù),但由于阿拉伯語沒有類似英語的公開完善的情感語料庫,因此采用了半自動化的方式分析阿拉伯語情感詞的極性分?jǐn)?shù)。該詞典為雙語數(shù)據(jù)源設(shè)計了情感極性測定結(jié)果的統(tǒng)一格式。Zhou等人對亞馬遜多語言產(chǎn)品評論的情感分類任務(wù)進行了實驗研究,提出了弱共享深度神經(jīng)網(wǎng)絡(luò)(Weakly Shared Deep Neural Networks),目的是幫助兩種語言共享情感標(biāo)簽[58]。通過構(gòu)建多個弱共享的特征層,捕獲特定語言和跨語言的共同特征。他們的數(shù)據(jù)集包含了法語、德語、英語和日語四種語言。與現(xiàn)有的研究相比,旨在通過反推的跨語言信息傳遞過程縮短源語言和目標(biāo)語言數(shù)據(jù)特征空間的重疊。結(jié)果表明,此方法在涉及多語言的情感分類任務(wù)上,尤其當(dāng)標(biāo)簽不足時,表現(xiàn)優(yōu)于大部分多語言分析方案。表6給出目前論壇多語言問題的解決方案及評價。
表6 解決論壇多語言問題方法對比Table 6 Solutions of multi-language problem
論壇誕生的初衷是為人們提供一個線上交流場所。一直以來,特定論壇的用戶大部分是由對特定主題感興趣的人群構(gòu)成,例如某高校論壇的用戶大部分是該高校的師生,某球類運動論壇的用戶則大部分是對該運動感興趣的人群。所以特定論壇構(gòu)成用戶的討論往往是針對大主題下的一系列小主題展開的,討論內(nèi)容不會太過于分散,即具有主題較集中的性質(zhì)。然而,隨著用戶急劇增多和數(shù)據(jù)量的爆炸式增長,特定論壇的用戶組成越來越復(fù)雜,內(nèi)容也趨于多元化。如高校論壇出現(xiàn)對某專業(yè)研究方向的深入探討,球類運動論壇出現(xiàn)對“網(wǎng)紅”球星的爭論等。從發(fā)展趨勢看,同一論壇包含主題差異極大帖子的概率會越來越大,而主題間的差異會對情感挖掘形成挑戰(zhàn)。
一個急需解決的問題是情感詞的多變性問題,即同樣的詞隨著論壇主題或描述對象的不同表現(xiàn)出不同情感極性,如“低”,在“性能低”中是消極情緒,而在“風(fēng)險低”中卻是積極情緒。鄧東提出了基于主題識別的情感詞典構(gòu)造算法[59],并應(yīng)用于twitter和豆瓣論壇。其主要思路是在概率模型基礎(chǔ)上,挖掘出文本潛在主題并與詞建立對應(yīng)關(guān)系,再引入一個新潛在變量來考察情感變化情況。同樣針對多變性,董麗麗等人在對商品論壇數(shù)據(jù)做傾向性分析時,提出將靜態(tài)情感詞典、動態(tài)情感詞典、修飾詞詞典、關(guān)聯(lián)強度詞典整合得到組合詞典的方法[60]。他們進行句法分析,將得到的詞語間的依存關(guān)系對作為輸入,使用組合詞典輸出得到情感詞的上下文極性。實驗表明,他們的工作不僅降低了情感詞多變性對分析結(jié)果的影響,更量化了評論對象對情感詞極性的影響。
由于主題多元化而形成的另一個問題是適用性問題,即針對某一主題開發(fā)的情感分析方法是否適用于同一論壇下的其他主題,如在線學(xué)習(xí)論壇中不同課程的帖子所討論的內(nèi)容具有較大差異性。針對MOOC論壇上不同課程的帖子,Wei等提出了基于遷移學(xué)習(xí)框架的情感分析方案,他們先用卷積運算提取特征,再用LSTM考慮長期語義關(guān)系,最后將在一個課程上訓(xùn)練的模型遷移至另一個課程并進行微調(diào),實驗表明該框架能對新課程進行良好泛化[61]。王崢等則提出一種基于傳統(tǒng)機器學(xué)習(xí)的方法,訓(xùn)練了兩個協(xié)同工作的分類器[62]。首先利用N-gram模型獲得特征后輸入SVM模型進行訓(xùn)練,同時,利用決策樹識別一些簡單語法組成的句子語境,以彌補第一個分類器的不足。該方案能較為有效地解決語境識別問題。表7給出目前解決語境復(fù)雜性問題的方案及評價。
表7 解決語境復(fù)雜性問題方法對比Table 7 Solutions of complexity of context
情感詞的多變性和主題適用性是論壇情感挖掘的重要問題,而隨著論壇主題趨于多元化,解決方案的提出迫在眉睫。目前針對跨領(lǐng)域論壇帶來的語境復(fù)雜性的解決方案各有缺陷,成熟的標(biāo)準(zhǔn)方案仍有待進一步研究。
論壇情感挖掘技術(shù)被應(yīng)用于越來越多的領(lǐng)域,可靠、準(zhǔn)確的情感分析結(jié)果也日漸被人們重視。為更好地完成任務(wù),選取適合的挖掘方法是十分必要的,然而目前還未能找到一套方法,幫助研究者快速準(zhǔn)確選定適合于特定任務(wù)的挖掘模型。有學(xué)者[27-28,50-53]采用對比實驗的方法,將不同挖掘技術(shù)應(yīng)用于同一任務(wù),橫向分析實驗結(jié)果以找到最適合的模型。對比實驗的方法有一定的優(yōu)勢,即結(jié)論有實驗數(shù)據(jù)支撐,讓人信服。然而對比實驗分散了研究者的精力。如果能夠找到一套選取模型的方法,幫助研究者提前排除不適合的挖掘技術(shù),使得精力能放在對最佳模型的優(yōu)化上面,無疑能更好地完成情感挖掘任務(wù)。
目前研究者對模型的選取主要有兩種方式,一種是依靠經(jīng)驗,即依靠自身領(lǐng)域知識并不斷試錯,找到適用于特定情感分析任務(wù)的挖掘模型;另一種則是依靠理論指導(dǎo),即分析他人研究成果找到最適用于當(dāng)前任務(wù)的大致范圍。情感挖掘技術(shù)可被分為基于情感詞典和基于機器學(xué)習(xí)兩種方法,理論指導(dǎo)的模型預(yù)先選取方法需綜合對比其優(yōu)缺點,結(jié)合任務(wù)的實際需求,最終完成選定。以大規(guī)模在線課程(Massive Open Online Course,MOOCs)論壇為例,可靠的情感分析能幫助教師有效把握學(xué)生學(xué)習(xí)狀態(tài),得到課堂改進方案,其中挖掘方案的選取會直接影響結(jié)果。表8總結(jié)各種方案應(yīng)用于MOOCs的實驗結(jié)果。
從表8可以看出,同樣是對MOOCs進行情感挖掘,分析準(zhǔn)確率卻有較大差異,這是因為各挖掘模型的表現(xiàn)受訓(xùn)練數(shù)據(jù)量、具體任務(wù)、模型結(jié)構(gòu)、算法優(yōu)化等因素的影響。同時從表中也可看出,雖然通用情感詞典的分析準(zhǔn)確率不高,針對任務(wù)構(gòu)建的領(lǐng)域情感詞典的表現(xiàn)卻優(yōu)于機器學(xué)習(xí)方法,因此不結(jié)合具體任務(wù),很難判斷機器學(xué)習(xí)方案和情感詞典方案孰優(yōu)孰劣。然而相關(guān)研究顯示,2005年到2015年十年間,大部分情感挖掘工作都采用機器學(xué)習(xí)方案,基于情感詞典的挖掘方案只占約27.15%[65]。這個趨勢近年來持續(xù)保持,特別是深度學(xué)習(xí)在自然語言處理領(lǐng)域大獲成功后,基于情感詞典進行挖掘的研究越來越少。主要原因是論壇用戶言論不像書面用語那么嚴(yán)謹(jǐn),語法雜亂無章,難以找到標(biāo)準(zhǔn)的句法規(guī)則。同時,論壇上頻繁出現(xiàn)的含蓄情感詞、歧義情感詞、新興情感詞、諷刺情感詞以及依賴對象情感詞等,是基于情感詞典的方法的一大挑戰(zhàn)。但另一方面,使用人工設(shè)計并組合構(gòu)建的領(lǐng)域情感詞典進行特征提取,再結(jié)合機器學(xué)習(xí)算法甚至深度學(xué)習(xí)算法[66],其表現(xiàn)有可能超過一般的深度學(xué)習(xí)模型。如何結(jié)合具體任務(wù)選取合適的挖掘方案,是有待進一步研究的問題。
表8 MOOCs挖掘方案對比Table 8 Methods of MOOCs mining
近年來很多研究者在預(yù)先選取模型時會傾向于深度學(xué)習(xí)模型,并對深度學(xué)習(xí)模型進行改進,以期得到更準(zhǔn)確的分析結(jié)果。Park等對網(wǎng)絡(luò)論壇上健康相關(guān)的信息進行挖掘時[52],為探究深度網(wǎng)絡(luò)的進一步改進,在設(shè)計輸入時,他們分別采用了隨機字嵌入方法和word2Vec方法進行詞向量化,并使用了ADAM[67]進行算法優(yōu)化。由于采用的文本數(shù)據(jù)集具有口語化的特點,實驗結(jié)果表明隨機字嵌入方法優(yōu)于word2Vec方法。Capuano等將注意力機制與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,開發(fā)出一套能檢測出文本意圖、主題、情感、困惑和緊迫感分類工具,應(yīng)用于MOOC論壇并取得了優(yōu)于其他方法的分類結(jié)果[68]。Chen等以當(dāng)時中國臺灣最大的線上論壇“PTT論壇”為數(shù)據(jù)來源,設(shè)計三個實驗來分析不同深度學(xué)習(xí)模式在不同參數(shù)(包括激活函數(shù)和網(wǎng)絡(luò)層選擇)組合下的表現(xiàn)。結(jié)果表明使用激活函數(shù)Tanh訓(xùn)練的預(yù)測模型,當(dāng)Bi-LSTM網(wǎng)絡(luò)層數(shù)為2層時,其預(yù)測精度和F1測度分別為92.68%和88.41%,證明了Bi-LSTM比LSTM具有更好的性能,并且關(guān)聯(lián)的Tanh激活函數(shù)能更好地改善預(yù)測效果情緒分類[69]。
深度學(xué)習(xí)在論壇情感分析上有很好的應(yīng)用場景,然而現(xiàn)階段仍存在諸多不足,如內(nèi)部神經(jīng)網(wǎng)絡(luò)導(dǎo)致計算量大、對設(shè)備配置要求極高、需要的數(shù)據(jù)集數(shù)量龐大且難獲取、可解釋性差等。而情感詞典與傳統(tǒng)機器學(xué)習(xí)的方法也有其獨特優(yōu)勢,如運算量較小、能進一步研究影響因素、能針對領(lǐng)域等。挖掘不同論壇情感信息時文本結(jié)構(gòu)、句法類型、需重點捕獲詞義以及可用數(shù)據(jù)都會有所不同,找到最適模型的鎖定方法是論壇情感挖掘發(fā)展中的一大挑戰(zhàn)。
論壇情緒挖掘技術(shù)結(jié)合了多學(xué)科的研究問題,它涉及了語義分析、自然語言處理、概率統(tǒng)計、機器學(xué)習(xí)等領(lǐng)域的知識,隨著數(shù)據(jù)挖掘和其他相關(guān)技術(shù)的發(fā)展,未來論壇情緒挖掘技術(shù)的研究可集中在以下幾個方面。
通過對論壇情感挖掘現(xiàn)狀的梳理與對比,發(fā)現(xiàn)比起傳統(tǒng)機器學(xué)習(xí)以及情感詞典方法,深度學(xué)習(xí)技術(shù)具有更大的潛力,未來論壇情感挖掘方案很可能會基于深度學(xué)習(xí)模型展開。為得到可靠的分析結(jié)果,大量的訓(xùn)練數(shù)據(jù)不可或缺。然而,隨著互聯(lián)網(wǎng)制度的完善,數(shù)據(jù)的保護越來越被看重,爬蟲等數(shù)據(jù)獲取方法會面臨侵犯隱私等問題,無法獲得足夠訓(xùn)練數(shù)據(jù)或?qū)⒊蔀檎搲楦蟹治龅钠款i。遷移學(xué)習(xí)是解決數(shù)據(jù)來源問題的有效途徑,已在計算機視覺領(lǐng)域得到有效驗證,而近年來各種預(yù)訓(xùn)練模型的提出,本質(zhì)上也是遷移學(xué)習(xí)在自然語言處理上的嘗試,取得了理想的結(jié)果。如BERT、EMLo等語言模型非常強大,Zheng等人的實驗表明[46],BERT在論壇情感分析的準(zhǔn)確率上遠優(yōu)于word2vec等模型。但目前這些預(yù)訓(xùn)練語言模型尚不成熟,更多是在實驗層面的研究,在論壇情感挖掘上的應(yīng)用實例尚且不多,其大規(guī)模運用或成為未來一大趨勢。
目前看來,絕大多數(shù)論壇數(shù)據(jù)挖掘研究都主要集中在主題、情感、線程結(jié)構(gòu)等單一層面,但事實證明,多維信息融合的數(shù)據(jù)挖掘,能提高論壇挖掘效率。例如文獻[70]通過檢測線程內(nèi)用戶問題貼的滿意度來推導(dǎo)該線程的問答關(guān)系,以此鑒定線程中的問題是否解決,從而為用戶提供最佳的檢索結(jié)果列表,是一個將情感分析與線程結(jié)構(gòu)提取相結(jié)合的典型實例。
隨著數(shù)字媒體技術(shù)的發(fā)展,論壇內(nèi)容不再局限于文本,而是融合了視頻、圖像和音頻等媒體的多樣化形式,用戶表達情感的渠道得到很大拓展。然而目前情感分析任務(wù)更多關(guān)注于文本內(nèi)容,對其他情緒表達方式關(guān)注不足。未來的論壇情感分析需要充分考慮這類媒體的挖掘,視音頻情感分析、圖片處理、跨媒體共同特征學(xué)習(xí)等技術(shù)會成為未來發(fā)展的一大趨勢。
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,從論壇中挖掘出的復(fù)雜數(shù)據(jù)已無法被直觀理解和解釋,而可視化技術(shù)能幫助人們通過視覺認知發(fā)現(xiàn)數(shù)據(jù)潛藏的內(nèi)涵,從而獲取有用的知識??梢暬瘓D表形式多樣,對不同任務(wù)應(yīng)采用不同的可視化形式,如Gallagher等引入廣義的詞位移圖,這種可視化方式可以展現(xiàn)單個單詞對兩個文本之間的變化,并做出有意義和可解釋的總結(jié),為在診斷調(diào)查、假設(shè)生成和實質(zhì)性解釋領(lǐng)域提供更詳細的視角[71]。而對于論壇數(shù)據(jù),可視化分析技術(shù)已被證實是探索的直觀有效的方式。目前已存在較為完善的論壇可視化研究案例,如Fu等設(shè)計了一個可視化分析系統(tǒng)——iforum[72],實現(xiàn)了大規(guī)模MOOC論壇數(shù)據(jù)的動態(tài)模式互動探索,通過可視化圖像顯示比較了不同用戶群體的行為模式特點,揭示了線程的結(jié)構(gòu)模式,以及上述信息與論壇的時間動態(tài)的聯(lián)系。
論壇信息具有大規(guī)模、多維度、隱藏信息豐富等得天獨厚的特點,而隨著論壇數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)的不斷發(fā)展,今后論壇數(shù)據(jù)可視化或許能成為一大研究熱點。