周莉 楊小儷
摘 要: 在復雜的網(wǎng)絡(luò)輿論生態(tài)中,突發(fā)事件中的輿情發(fā)展更具多變性和難以預(yù)測性,通用情感詞典已難以適應(yīng)當前突發(fā)事件文本情感分析的需要,建立面向突發(fā)事件應(yīng)急管理的專業(yè)情感詞典,對于提升網(wǎng)民情感分析的準確度和及時把握輿情走向具有重要意義。據(jù)此,采用機器采集加人工構(gòu)建的方式,以近5年的10起暴雨洪澇災(zāi)害的微博評論文本為語料,建立“突發(fā)事件·暴雨洪澇”情感詞典。經(jīng)檢驗發(fā)現(xiàn),該詞典顯著提高了暴雨洪澇文本情感分析的正確率和召回率,為突發(fā)事件的應(yīng)急管理提供了更為精確和可操作的決策基礎(chǔ)。
關(guān)鍵詞: 突發(fā)事件; 應(yīng)急管理; 情感詞典; 暴雨洪澇; 網(wǎng)絡(luò)輿情
中圖分類號: G206;G254 文獻標識碼: A DOI: 10.3963/j.issn.1671-6477.2019.04.002
一、 研究背景
互聯(lián)網(wǎng)的快速發(fā)展和社交媒體的廣泛應(yīng)用給突發(fā)事件的應(yīng)急管理帶來極大挑戰(zhàn)。新媒體環(huán)境下,信息的傳播呈現(xiàn)出“病毒式”擴散的特點,突發(fā)事件在網(wǎng)上被曝光后,影響力迅速呈現(xiàn)指數(shù)增長。在此背景下,傳統(tǒng)分散式、簡單化的突發(fā)事件應(yīng)急管理系統(tǒng)面臨極大挑戰(zhàn)。合理運用文本情感分析技術(shù),透過網(wǎng)上的海量文本數(shù)據(jù)準確分析網(wǎng)絡(luò)輿情走向,及時疏導網(wǎng)民情緒成為突發(fā)事件應(yīng)急管理的關(guān)鍵。
文本情感分析的方法多種多樣,其中情感詞典作為分析過程中的重要工具,其準確性和覆蓋率會在很大程度上影響分析效果[1]。目前中文情感詞典多為通用情感詞典,在對特定專業(yè)領(lǐng)域的文本進行情感分析時,準確率并不高,特別是在面對某一特定領(lǐng)域內(nèi)的突發(fā)事件時,文本分析效果不佳。因此,針對不同類型的突發(fā)事件建立專業(yè)領(lǐng)域的情感詞典對于提升突發(fā)事件的應(yīng)急管理效果具有重要的現(xiàn)實意義。本文嘗試采用機器采集加人工構(gòu)建的方式,以突發(fā)事件中的“暴雨洪澇”災(zāi)害為例,探索突發(fā)事件中情感詞典的構(gòu)建路徑。
二、 文獻回顧
(一) 不同路徑的文本情感分析研究
文本情感分析,即對于情緒文本內(nèi)容的語義分析,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[2]。目前進行文本情感分析的路徑多樣。按照文本內(nèi)容,可分為基于商品評論的文本情感分析和基于輿情的文本情感分析;按照文本粒度,可分為詞語級、語句級和篇章級的文本情感分析;按照分析方法,可分為基于機器學習和基于語義分析的文本情感分析,這也是最常見的分類方法[3]。
基于機器學習的方法是將情感分析問題看作是一個分類問題,用標注好的訓練集來訓練機器學習算法得到分類模型,用于以后的情感分類[4]。這類分析主要通過兩種方式來實現(xiàn),一種是有監(jiān)督的機器學習法,這種方法使用機器學習的模型,用已標注的訓練數(shù)據(jù)訓練出一個較好的模型,利用這個模型來預(yù)測文本的情感極性。機器學習模型包括支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)、最大熵(Maximum Entropy,ME)等[5]。另一種是無監(jiān)督的方法,這種方法被稱為文本聚類(Clustering),即按照某種準則對文本集合進行組織或劃分,使得相似的文本劃分到同一簇中,差異較大的文本劃分到不同簇中。[6]
基于語義的方法主要利用情感詞典及句式詞庫分析文本語句的特殊結(jié)構(gòu)及情感傾向詞,采用權(quán)值算法進行情感分類[7]。比如楊超在HowNet和NTUSD兩種詞典的基礎(chǔ)上進行拓展,建立了一個新的、具有傾向程度的詞典,開發(fā)了一個半自動化輿情分析系統(tǒng),提供細致、準確的評論傾向性分析[8]。相比基于機器學習的方法,基于語義的方法更符合突發(fā)事件文本情感分析中快速、準確的要求。首先,基于語義的方法不需要對大量語料進行標注,只要有合適完備的情感詞典,采用簡單快速的方法就能得到較好的文本情感分析效果[9],這能在很大程度上節(jié)約時間,提高突發(fā)事件應(yīng)急管理的反應(yīng)效率;其次,基于語義的文本情感分析更穩(wěn)定,隨著測試語料的增加,基于情感詞典的分類性能保持穩(wěn)定,并優(yōu)于機器學習法[10]。
在基于語義的方法中,豐富且準確的情感詞典是提高分析準確性的關(guān)鍵[1]。目前國內(nèi)能運用的中文詞典資源非常有限,主要有知網(wǎng)(HowNet)、LIWC(Linguistic Inquiry and Word Count)和中文情感詞匯本體庫(DUTIR)。這些情感詞典都是通用詞典,在分析專業(yè)性文本的時候容易出現(xiàn)偏差,特別是遇到跨領(lǐng)域歧義詞匯和專業(yè)情感詞匯時分析效果不佳。因此,構(gòu)建起一套突發(fā)事件專業(yè)詞典對于提高突發(fā)事件中網(wǎng)絡(luò)情感文本分析的效果,從而更有針對性地開展應(yīng)急管理具有重要意義。
(二) 情感詞典的構(gòu)建方法
情感詞典,顧名思義就是由帶有褒義或者貶義色彩的情感詞匯組成的一個詞典[11],主要應(yīng)用于基于語義的文本情感分析研究中。構(gòu)建情感詞典主要有兩類方法,自動構(gòu)建和人工構(gòu)建。
情感詞典的自動構(gòu)建方法主要有三種:一是基于知識庫,通過完備的開放的語義知識庫(如英文的wordnet),挖掘其中各個詞語之間的關(guān)系,用詞關(guān)系拓展、迭代路徑和釋義拓展等方法構(gòu)建情感詞典。二是基于語料庫,通過對某特定領(lǐng)域的大量語料進行分析,比如通過語料中各連詞的特性判斷前后兩個形容詞之間相似程度,來構(gòu)建情感詞典。三是基于知識庫與語料庫結(jié)合的方法,組合的方法多種多樣,比如根據(jù)詞與詞之間的相似關(guān)系構(gòu)建詞間關(guān)系圖,然后利用已知詞性的情感詞,推測其他情感詞的極性?;蛘呦壤蒙倭繕俗⒃~確定文本片段的極性,再結(jié)合抽取結(jié)果,繼續(xù)判斷未知文本片段的情感[1]。
人工構(gòu)建的方法主要有兩種形式,一種是直接根據(jù)語料文本來人工構(gòu)建新詞典。比如唐超在研究網(wǎng)絡(luò)情緒的演進時,首先利用爬蟲軟件抓取網(wǎng)上的評論文本,在完成文本清洗后,邀請專家對文本中的情緒關(guān)鍵詞進行提取和標注,然后采用主成分分析法提取出主要網(wǎng)絡(luò)情緒關(guān)鍵詞,最后由專家對這些網(wǎng)絡(luò)情緒關(guān)鍵詞進行賦值,構(gòu)建網(wǎng)絡(luò)情緒詞典[12]。另一種是結(jié)合語料文本,在現(xiàn)有情感詞典的基礎(chǔ)上人工進行拓展,構(gòu)建新詞典。比如中文版的LIWC詞典是由黃金蘭等人以英文版的LIWC2007詞典為藍本,進行翻譯和同義詞添加后,由研究小組集體討論,人工拓展修改而成[13]。
由于前期尚未有專門用于突發(fā)事件網(wǎng)絡(luò)輿情文本分析的的情感詞典,本研究通過修改拓展原有詞典來構(gòu)建新詞典的方法難以實現(xiàn),考慮到操作的可行性,我們選擇直接用語料來構(gòu)建突發(fā)事件情感詞典。在具體的構(gòu)建方法上,我們主要借鑒了唐超等采用的人工提取和標注的方法進行突發(fā)事件情感詞典的構(gòu)建。
(三) 情緒分類理論與詞典要素設(shè)置
關(guān)于情緒的結(jié)構(gòu),主要有情緒分類和情緒維度兩大理論解釋取向[14]。情緒維度取向的研究認為,情緒是高度相關(guān)的連續(xù)體,各種情緒在幾個基本維度上高度相關(guān)[15],比如Russel的“效價-喚醒”模型。情緒分類理論認為人的情緒是由幾種相對獨立的基本情緒以及在此基礎(chǔ)上形成的幾種復合情緒構(gòu)成,比如Ekman的基本情緒分類說,他認為存在快樂(joy)、悲傷(disstress)、憤怒(anger)、恐懼(fear)、厭惡(disgust)和驚訝(surprise)6種基本情緒[16]。
以情緒理論為基礎(chǔ),結(jié)合情感詞典在實際應(yīng)用環(huán)境中的需要,不同的情感詞典會設(shè)置不同的要素。上文提到的HowNet詞庫和DUTIR詞典均以情緒分類理論為基礎(chǔ),HowNet詞庫將所有詞匯分為情感類、評價類、程度類和主張類,其中情感類和評價類下細分出正面和負面兩類詞匯;DUTIR則將所有詞匯分為樂、好、怒、哀、懼、惡、驚7大類,其下有安心、尊重失望等21個小類,每一個情緒詞的詞性、極性和強度都作出了相應(yīng)的標注。中文版LIWC詞典則是以情緒維度理論為基礎(chǔ),根據(jù)情緒類別和喚醒程度,將所有詞匯分為正向高喚醒、正向低喚醒、負向高喚醒和負向低喚醒四類,喚醒程度較高的詞匯將會被收納進來,最終將入選的詞匯分為正向和負向兩類。
由于不同突發(fā)事件類別的情緒構(gòu)成各不相同,采用單一的情感分類理論不利于實現(xiàn)對事件輿情的精準分析。因此本研究參考Russel的“效價—喚醒”模型,結(jié)合“暴雨洪澇”災(zāi)害中網(wǎng)民情緒的實際情況,在情感詞典中設(shè)置了6種情緒基本類型,分別是憤怒、擔憂、悲傷、驚恐、樂觀、關(guān)心、感激,各情緒類別的效價與喚醒度具體如圖1。
由于目前應(yīng)用情感詞典的文本情感分析軟件還未能實現(xiàn)細致的文本情緒分類,為了方便后續(xù)的分析,本次研究將所有情緒詞按照所屬情感類別的效價分成正向情緒詞和負向情緒詞兩類,其中正向情緒包括樂觀、關(guān)心和感激,負向情緒包括憤怒、擔憂、悲傷和驚恐。
三、 構(gòu)建方法
(一) 事件選擇
突發(fā)事件共有自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會安全事件四大類,由于自然災(zāi)害相較于其他種類的突發(fā)事件而言性質(zhì)更單純,更適合作為語義分析的突破口。而“暴雨洪澇”又是自然災(zāi)害中發(fā)生頻率最高的災(zāi)種,所以本文選擇以“暴雨洪澇”為主題,作為突發(fā)事件情感詞典的示范應(yīng)用。本文參考《中國氣象年鑒》中“暴雨洪澇”章節(jié)的內(nèi)容,選取了近5年10處最為嚴重的暴雨洪澇災(zāi)害作為研究案例,它們分別是2012年的重慶和北京、2013年的浙江和四川、2014年的鳳凰和深圳,2015的上海和武漢,2016年的武漢和安徽。
(二) 樣本選取
為了保證樣本豐富且具有代表性,本次研究選擇當前使用頻率最高的微博平臺——新浪微博作為文本抓取的平臺。由于每次暴雨洪澇災(zāi)害的發(fā)生時間和輿情關(guān)注點不同,根據(jù)其各自的特點我們設(shè)置了不同的關(guān)鍵詞和時間段進行微博搜索(如表1)。
隨后,我們將各個事件所屬時間段內(nèi)的微博按照評論數(shù)量由多到少的順序進行排序,選擇每個事件中評論量最多的前兩條微博,用爬蟲軟件對微博下的評論者ID、評論內(nèi)容以及評論時間進行抓取,得到共計73 622條評論(如表1)。
(三) 分析程序
1.數(shù)據(jù)清洗。數(shù)據(jù)清洗主要是剔除原始文本中的無效內(nèi)容,以便開展后續(xù)的文本處理工作。本次數(shù)據(jù)清洗刪除了以下兩種內(nèi)容的評論文本:第一種是無意義評論文本,包括廣告、空白、表情符號以及“轉(zhuǎn)發(fā)微博”,第二種是與微博內(nèi)容無關(guān)的評論內(nèi)容,主要指含有“回復@XXX:”的內(nèi)容以及“@XXX:”的評論,因為此類文本大多是朋友間在評論區(qū)的聊天或者是對罵,不是對微博正文內(nèi)容的看法或者討論,如果一起加入分析容易影響分析效果。清洗后的具體評論數(shù)目如表1。
2.分詞與詞頻統(tǒng)計。數(shù)據(jù)清洗完畢后,我們將文本數(shù)據(jù)集中進行分詞。文本數(shù)據(jù)被分為兩部分,編號1~9的文本進行分詞,用于構(gòu)建情感詞典,編號10的文本用于測試情感詞典的效度。本次分詞選用的是由中國科學院計算技術(shù)研究所研發(fā)的NLPIR分詞系統(tǒng),該系統(tǒng)是當前認可度較高的漢語詞法分析器。為了提高分詞的精準度,在機器分詞的基礎(chǔ)上,本次研究加入了人工檢查分詞結(jié)果的環(huán)節(jié),對機器分詞后的數(shù)據(jù)進行修正。
分詞完畢后,得到一個有23 420個詞匯的詞表,我們根據(jù)詞表中各個詞匯的詞頻進一步的篩選。第一步是刪除與表達情感無關(guān)聯(lián)的詞匯,如“你”、“我”、“他”、“的”等。第二步是設(shè)置閾值,考慮到情感詞典的容量以及情感詞匯所需具備的代表性,我們將本次研究的閾值設(shè)定為9,即出現(xiàn)次數(shù)在9次及以上的詞匯將被選入第二輪的情感詞篩選與分類。經(jīng)統(tǒng)計,閾值內(nèi)的詞匯共有629個。
3.情感詞篩選與分類。本次研究邀請了17位在校大學生作為編碼員,對閾值內(nèi)的629個詞匯進行篩選與賦值。
首先是情感詞篩選。請編碼員采用三級評定的方式對629個詞匯進行判定,能夠喚起情緒信息或者是情感體驗的詞即為情緒詞,判定為“是”,不能喚起則判定為“否”,情感喚起傾向不明確的則判定為“不確定”。在他們篩選完成后,由研究者將所有編碼員的篩選結(jié)果進行整合,將半數(shù)以上編碼員,即9位及9位以上的實驗者均判定為“是”的詞匯挑選出來,建立初步的情感詞庫。
其次是劃分情感類別。本次情感詞典中共設(shè)置了6種情緒基本類型,分別是憤怒、擔憂、悲傷、驚恐、樂觀、關(guān)心、感激,請編碼員按照這六種情緒類別對情感詞庫內(nèi)的詞匯進行分類,無法被分類的情感詞則標注無。然后由研究者進行綜合統(tǒng)計,每個情感詞得分最多的那個情感類別就是這個情感詞所屬的類別,如果某一詞匯有三分之一的編碼員,即6人及6人以上標注無,則將這個詞匯剔除出情感詞典。
(四) 情感詞典示例
“突發(fā)事件·暴雨洪澇”情感詞典包含7個情感類別共計611個詞匯,其中憤怒詞218個,擔憂詞74個,悲傷詞60個,驚恐詞23個,樂觀詞144個,關(guān)心詞56,感激詞36個,表2為情感詞典的部分示例。
四、 效度檢驗
為了測試“突發(fā)事件·暴雨洪澇”情感詞典的應(yīng)用效果,我們采用對比的方式,將本詞典加載至LIWC上,比較在分析同一批“暴雨洪澇”微博評論文本的情感傾向時,加載本詞典前與加載本詞典后,文本情感判斷的準確率是否發(fā)生了變化。目前LIWC等情感分類軟件只能做到將文本分為正向情感文本和負向情感文本,為了方便進行準確率的對比,我們按照大類,即正向和負向,將“突發(fā)事件·暴雨洪澇”情感詞典加載至LIWC中進行分析。
(一) 標注語料
為了保證測試結(jié)果的準確有效,我們使用并未參與情感詞典構(gòu)建的“安徽暴雨”案例語料進行測試。此案例共搜集微博評論5297條,經(jīng)過數(shù)據(jù)清洗,留下3266條微博評論文本。研究員對所有微博的傾向性按照“正向、中性、負向”進行標注,得到正面評論1835條,負面評論1172條,中立評論259條。為確保標注結(jié)果可靠,另一位研究員對隨機抽取的10%的文本進行標注,對比兩者的結(jié)果,進行信度檢驗。通過SPSS的可信度分析,Cronbachs alpha系數(shù)為0.836,達到科學研究的信度。
(二) 測試流程及結(jié)果
我們首先使用LIWC自帶詞典對測試案例文本進行情感分析,分析結(jié)果如表3。由表4可知,使用LIWC自帶詞典時,LIWC檢測出54條正面評論文本,其中34條人工標注為正面,20條人工標注為負面,正確率為63.6%,召回率為1.9%;檢測出58條評論文本為負面,其中47條人工標注為負面,9條人工標注為正面,2條人工標注為中立,正確率為81%,召回率為4%。
由此可見分析效果并不理想,首先體現(xiàn)在LIWC檢測出來的含有情感傾向的文本數(shù)量極少,正面評論文本和負面評論文本的測出比率都低于5%;其次是正確率不理想,在檢測為正面情緒的評論文本中,只有63.5%被人工標注為正面情緒文本。同時,從整體上看,LIWC分析出來的網(wǎng)民情緒傾向與人工標注的網(wǎng)民情緒傾向相反,人工標注文本中正面評論數(shù)與負面評論數(shù)的比例約為1.6:1,即正面情緒多于負面情緒,而在LIWC自帶詞典的測試結(jié)果中,正面評論數(shù)與負面評論數(shù)的比例約為0.93:1,即負面情緒多于正面情緒。
隨后我們在LIWC自帶詞典上加載本詞典對測試案例文本進行情感分析,具體結(jié)果如表4。由表4可知,加載本詞典后,LIWC檢測出正面文本489條,其中464條人工標注為正面,23條人工標注為負面,2條人工標注為中立,正確率為94.9%,召回率為25.3%;檢測出116條負面評論,其中93條人工標注為負面,18條人工標注為正面,5條人工標注為中立,正確率為80.2%,召回率為7.9%。
由此可知,加載本詞典之后,文本情感的分析效果有了較大的提升。首先準確率有了極大的提高,特別是正面情緒文本的檢測正確率從63.6%提升到了94.9%,其次是召回率有了較大的提高,正面情緒文本的測出比率從1.9%提高到了25.3%。同時,從整體上來看,檢測出來的正面情緒文本與負面情緒文本的比例為4.15:1,與人工標注的網(wǎng)民情緒傾向,即正面情緒多于負面情緒的結(jié)果一致。
在不區(qū)分情感類別的情況下,加載詞典前后的文本整體情感分析效果如表5。召回率、正確率和F值是判斷情緒詞典分類效果的三個重要指標,從表格中我們可以看出,在加載“突發(fā)事件·暴雨洪澇”情感詞典后,這三個指標的數(shù)值都有了顯著的提升,特別是正確率從72.6%提升至93%,可見“突發(fā)事件·暴雨洪澇”情感詞典的建立對于提升突發(fā)事件應(yīng)急管理中的輿情分析效果有較大的提升作用。
綜合以上實驗分析結(jié)果,我們可以確定“突發(fā)事件·暴雨洪澇”情感詞典在分析暴雨洪澇一類突發(fā)事件的網(wǎng)絡(luò)評論文本時,在文本情感分析方面的效果有顯著提升,其建立具有較大的應(yīng)用價值和借鑒意義,對于未來文本情感分析的發(fā)展路徑主要有以下啟示:
其一,構(gòu)建專業(yè)領(lǐng)域情感詞典對于突發(fā)事件應(yīng)急管理是非常必要的。從LIWC的文本分析結(jié)果中我們可以看出,現(xiàn)有的通用情感詞典無法有效實現(xiàn)專業(yè)領(lǐng)域中突發(fā)事件的文本情感分析,特別在面對微博這種網(wǎng)絡(luò)短文本時分析效果有待提升。而有針對性地建立起面向各個領(lǐng)域的專屬情感詞典,能夠在很大程度上提升文本情感分析的準確性。此外,情感詞典的分析特性讓研究者不需要在文本分析之前進行大量的文本標注工作,節(jié)約了大量的時間。這些都對提升應(yīng)急管理主體對輿情的掌控能力,實現(xiàn)對突發(fā)事件中網(wǎng)民情緒波動的及時捕捉,進而提升突發(fā)事件應(yīng)急管理的效率具有重大意義。
其二,通過人工的方式來構(gòu)建領(lǐng)域性情感詞典是可行。在計算機技術(shù)迅猛發(fā)展的背景下,通過機器學習的方式進行文本情感詞典構(gòu)建成為主流,這種方式看似客觀準確,實際上仍然存在一定的局限性。通過此次的實驗結(jié)果我們了解到,要實現(xiàn)對情緒文本的準確判斷,人工提取和判斷是十分重要的介入手段,人工構(gòu)建情感詞典的方式雖然相較于機器自動構(gòu)建費時費力,但是依然是重要且可行的。從最終的研究結(jié)果中我們可以看出,以這種方式構(gòu)建起來的詞典的分析效果具有更強的穩(wěn)定性和準確性。
其三,在情感詞典的構(gòu)建過程中,應(yīng)謹慎對待人工分析與機器處理的關(guān)系。人工的優(yōu)勢在于準確,機器的優(yōu)勢在于快速,兩相結(jié)合才能達到最佳效果。本研究在機器分詞時加入了人工檢查環(huán)節(jié),在人工篩選情感詞以及判斷情感詞所屬情感類別時,邀請了17位實驗者參與實驗,采用全人工投票的方式,挑選出最多實驗者認可的情感詞,并將最多人認可的情感類別標注為該情感詞的情感類別,以期在保證人工分析準確性的同時避免主觀性帶來的影響。
此外,雖然實驗結(jié)果中的召回率整體偏低,但這并不影響我們肯定突發(fā)事件情感詞典在提升文本情感分析效果方面的作用。LIWC是通過統(tǒng)計內(nèi)置情感詞典中的情感詞在測試文本中所占的比重來判斷文本的情感傾向,而在寥寥幾句的微博評論短文本中,出現(xiàn)相應(yīng)情感詞的幾率相較長文本低很多,故召回率整體偏低。但是因為試驗中統(tǒng)一采用的都是LIWC軟件,且在加入突發(fā)事件情感詞典后,正確率和召回率都有了較大程度的提高,這足以說明建立突發(fā)事件情感詞典能有效提升突發(fā)事件的文本情感分析準確性。
在網(wǎng)絡(luò)輿情多變,突發(fā)事件應(yīng)急管理面臨巨大挑戰(zhàn)的今天,建立突發(fā)事件網(wǎng)絡(luò)情緒詞典具有重要的研究及應(yīng)用意義。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第39次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2016年12月,中國互聯(lián)網(wǎng)普及率達到53.2%,網(wǎng)民規(guī)模達7.31億,與此同時,人民網(wǎng)輿情監(jiān)測室對社會熱點事件的統(tǒng)計表明,44.4%的事件由互聯(lián)網(wǎng)披露而引發(fā)公眾關(guān)注??梢姡苿踊ヂ?lián)網(wǎng)快速發(fā)展和社交媒體廣泛應(yīng)用已經(jīng)徹底顛覆了傳統(tǒng)媒體環(huán)境下的民眾輿論生態(tài),社交媒體平臺成為了民眾表達觀點的重要場域。在這樣的媒介環(huán)境下,突發(fā)事件的影響力被放大,發(fā)展進程也更加多變和不可知,此時我們更加需要建立精細程度高、反應(yīng)速度快的應(yīng)急管理體系來控制和減弱突發(fā)事件帶來的負面影響。突發(fā)事件情緒詞典的構(gòu)建有助于提升輿情分析的準確度,針對不同的突發(fā)事件類型構(gòu)建領(lǐng)域情感詞典,將為突發(fā)事件中網(wǎng)絡(luò)表達的情感分析提供優(yōu)質(zhì)的分析工具,也為突發(fā)事件的應(yīng)急管理提供更為精確和可操作的決策基礎(chǔ)。
[參考文獻]
[1] ?王科,夏睿.情感詞典自動構(gòu)建方法綜述[J].自動化學報,2016,42(4):495-511.
[2] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
[3] BingLiu.Sentiment Analysis and Opinion Mining[M].Williston:Morgan&Claypool Publishers,2012:4.
[4] 劉志明,劉魯.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應(yīng)用,2012,48(1):1-4.
[5] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計算機應(yīng)用研究,2015,32(4):978-981.
[6] 劉強.文本的特征提取及KNN分類優(yōu)化問題研究[D].廣州:華南理工大學,2009:1.
[7] 馬龍,宮玉龍.文本情感分析研究綜述[J].電子科技,2014,27(11):180-184.
[8] 楊超,馮時,王大玲,等.基于情感詞典拓展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J].小型微型計算機系統(tǒng),2010,31(4):691-695.
[9] Xu Ge,Meng Xinfan,Wang Houfeng.Build Chinese emotion lexicons using a graph-based algorithm and multiple resources[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING 10).Strouds-burg,PA,USA:Association for Computational Linguistics,2010:1209-1217.
[10]陽愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計算機科學與探索,2013,7(11):1033-1039.
[11]肖紅,許少華.基于句法分析和情感詞典的網(wǎng)絡(luò)輿情傾向性分析研究[J],小型微型計算機系統(tǒng),2014,35(4):811-813.
[12]唐超.網(wǎng)絡(luò)情緒演進的實證研究[J].情報雜志,2012,31(10):48-52.
[13]黃金蘭,林以正,謝亦泰等.中文版“語文探索與字詞計算”詞典之建立[J].中華心理學刊,2012,54(2):185-201.
[14]樂國安,董穎紅.情緒的基本結(jié)構(gòu):爭論、應(yīng)用及其前瞻[J].南開學報:哲學社會科學版,2013(1):140-150.
[15]Waston D,Clark LA.“Measurement and Mismeasurement of Mood:Recurrent and Emergent Issues”.Journal of Personality Assessment,1997,68(2):267.
[16]Ekman P,F(xiàn)riesen WV.“Constants across Cultures in the Face and Emotion”,Journal of Personality and Social Psychology.1971,17(2):124.
(責任編輯 王婷婷)
Abstract:In the complex network public-opinion ecology,the development of public opinion in emergencies is more and more changeable and unpredictable.The general sentiment lexicon has a great difficulty to adapt to the current emotional analysis in unexpected events.It is of great significance to establish an emergency sentiment lexicon,because it can improve the accuracy of sentiment analysis and forecast the public opinion timely.In this paper,we use the method of machine acquisition and artificial construction to establish the “emergency:rainstorm and flood” sentiment lexicon,with 10 rainstorm and flood disasters microblogging commentary in recent 5 years.It has been found that the emergency sentiment lexicon has significantly improved the correct rate and recall rate of the emotional analysis of the rainstorm and flooding disasters microblogging commentary,and provided a more accurate and operational basis for the emergency management.
Key words:emergency; emergency management; sentiment lexicon; rainstorm and flooding disasters; internet public opinion