成建國,張鴻星,唐 彥,王汪送,張 進,李曉東,馮 鈞
(1. 水利部水利信息中心,北京 100053;2. 水利部水資源司,北京 100053;3. 河海大學計算機與信息學院,江蘇 南京 210098)
突發(fā)涉水事件的輿情分析研究
成建國1,張鴻星2,唐 彥3,王汪送3,張 進3,李曉東3,馮 鈞3
(1. 水利部水利信息中心,北京 100053;2. 水利部水資源司,北京 100053;3. 河海大學計算機與信息學院,江蘇 南京 210098)
互聯(lián)網(wǎng)信息公開、迅速、透明且易于收集,對于突發(fā)性水利事件的分析,互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析是一個發(fā)展趨勢,這種方式能以較小代價快速獲取數(shù)據(jù),分析得到有價值的信息,正成為輔助常規(guī)水利事件監(jiān)測處理的有力方式。在研究和應(yīng)用現(xiàn)狀分析的基礎(chǔ)上,通過對搜索引擎、社交論壇和新聞報道等渠道采集相關(guān)數(shù)據(jù)并分析挖掘,提出面向突發(fā)事件的熱度和情感分析模型,并對 2017 年嘉陵江鉈污染突發(fā)事件,從 9 個情感維度進行分析。微博用戶的陳述、憤怒、擔心的比重較大,論壇評論的用戶大部分都表示出較理性的心態(tài),新聞評論的網(wǎng)友多處于擔心和追責狀態(tài),負面情緒偏多。突發(fā)涉水事件的輿情傳播很快,因為事件應(yīng)急處理措施快速生效,水污染情況得到有效控制,事件輿情逐漸趨于穩(wěn)定。
突發(fā)性水利事件;大數(shù)據(jù)挖掘;輿情;事件熱度分析;情感分析
21 世紀以來,新聞傳媒經(jīng)歷了去中心化變革,在深刻和廣泛影響社會公眾日常生活的同時,也深刻改變甚至顛覆了傳統(tǒng)的輿情掌握和應(yīng)對模式,給政府部門應(yīng)對突發(fā)事件提供新渠道的同時也提出新的更高的要求,如何用好這一新渠道成為重要課題。
水與人民生活息息相關(guān),水的信息是網(wǎng)絡(luò)輿論關(guān)注的熱點,一些負面信息的曝光很容易使相關(guān)單位走上輿論關(guān)注的風口浪尖,成為網(wǎng)絡(luò)輿情的焦點。近年來,多例有關(guān)環(huán)保部門的水污染事件引發(fā)了網(wǎng)絡(luò)一波又一波輿情熱議潮,如 2004 沱江“3· 02”特大水污染、2005 年韶關(guān)北江鎘污染等事故,2005 年松花江、2007 年太湖的水污染及 2015 年的甘肅隴星銻尾礦泄漏等事件。 國家環(huán)??偩终{(diào)查顯示,自 2005 年松花江特大水污染事件以來,我國平均每兩三天便發(fā)生一起與水有關(guān)的污染事故[1]。
水污染會對水資源保護工作造成重大影響,因此水利部門對水污染事件密切關(guān)注。目前,對涉水突發(fā)事件的監(jiān)測通常是通過衛(wèi)星遙感影像、地面水文、水質(zhì)站網(wǎng)的上報系統(tǒng)等方面獲悉,從而根據(jù)情況制定相應(yīng)的處置措施。但是,目前的監(jiān)測模式還存在很多不足,如衛(wèi)星遙感影像監(jiān)測無法做到全時態(tài)的覆蓋,也很難監(jiān)控水體水質(zhì)的變化;地面水文站網(wǎng)在覆蓋范圍和監(jiān)測頻次等方面都極有可能導致漏測、遲測。
互聯(lián)網(wǎng)時代,大家都喜歡通過微博、微信、QQ、論壇、新聞留言評論等互聯(lián)網(wǎng)平臺溝通交流?;ヂ?lián)網(wǎng)信息具有快速、公開的特點,人人均可收集分析,若能快速獲取涉水相關(guān)動態(tài)數(shù)據(jù)并進行分析處理,提取應(yīng)用,相對傳統(tǒng)監(jiān)測方式更具時效性、直觀性。在大數(shù)據(jù)時代,通過互聯(lián)網(wǎng)輿情大數(shù)據(jù)的方式針對水利事件進行分析,正成為輔助常規(guī)水利事件監(jiān)測處理方面不可或缺的一種有效方式[2-3]。
在及時、直觀的同時,互聯(lián)網(wǎng)信息也具有結(jié)構(gòu)化程度不高、數(shù)據(jù)隱蔽等特點,給快速獲取和有效分析帶來了很大的挑戰(zhàn),也就是需要能夠在微信、微博、論壇、新聞等新媒體中及時獲取突發(fā)事件的相關(guān)數(shù)據(jù),并通過數(shù)據(jù)分析模型有效提取并準確掌握輿情信息和走勢。
針對挑戰(zhàn),研究了一套具有水利特點的數(shù)據(jù)爬取詞庫和規(guī)則庫,并研發(fā)了互聯(lián)網(wǎng)數(shù)據(jù)偵測系統(tǒng),及時抓取涉水突發(fā)事件互聯(lián)網(wǎng)輿情數(shù)據(jù)。在此基礎(chǔ)上,研究了一套基于改進熱詞權(quán)重的事件熱度分析模型,并設(shè)計了一個基于情感向量的情感分析模型。
網(wǎng)絡(luò)輿情的研究有很多,主要體現(xiàn)在以下 2 個方面:
1)在事件分析方面。ZHANG X M[4],SAKAKI T[5],NGUYEN D T[6]等著手于事件的演變過程進行分析。ZHOU D Y 等[7]提出使用基于詞典的方式過濾無關(guān)詞,利用貝葉斯模型進行事件提取和分類。ADEDOYIN-Olowe M 等[8]通過學習的方式對不同領(lǐng)域應(yīng)用不同的事件窗口檢測事件,然而,這個方法偏向于持續(xù)時間短的事件。一些學者還從地理位置等方面著手對地點鮮明的事件進行探測研究[9-10]。
2)在情感分析方面。WEN S Y 等[11]針對微博數(shù)據(jù)的情感分析,設(shè)計了一種通過使用情感詞典和支持向量機分析每一條微博句子獲得 2 種情感標簽的方法,然后通過綜合分析 2 種情感標簽組成的結(jié)果集獲得最終的情感分類。LI S S 等[12]通過使用因子圖模型解決情感標簽的上下文依賴問題,將句子的情感標簽與上下文語境有效地聯(lián)系起來。RAO Y H 等[13]設(shè)計的情感分析方法中,主要針對短文本的情感詞稀疏性提出主題層次的最大熵模型(TME),TME 通過對潛在主題、多種情感標簽和人工打分進行綜合建模生成主題特征。TANG D Y 等[14]針對現(xiàn)有 Twitter 的數(shù)據(jù),使用深度置信網(wǎng)絡(luò)進行了詞性表達的分析。李巖等[15]設(shè)計了基于短文本聚類及用戶評論情感分析的微博輿情系統(tǒng)。王志國[16]針對微博文本分類的相關(guān)技術(shù),對社會熱點描述的微博文本信息進行了分類提取。SHEN Y 等[17]將情感詞分類,構(gòu)建了詞語權(quán)重字典用來計算博文情感值。張瑜等[18]將主題分類模型引入到輿情監(jiān)測中,并在此基礎(chǔ)上,以時間脈絡(luò)進行面向主題的情感分析。柳位平等[19]采用種子詞庫 HowNet 語義相似度計算的方法構(gòu)建了中文基礎(chǔ)情感詞詞典。周詠梅等[20]提出構(gòu)建基于 HowNet 和 SentiWordNet 的中文情感詞典法。
本研究借鑒情感分析法,對突發(fā)性事件的網(wǎng)絡(luò)輿情進行情感和熱度分析,并以“嘉陵江鉈污染”事件為例,基于新浪微博、論壇及新聞評論數(shù)據(jù)進行研究。
每個事件都是由 1 組信息表示的,每個事件都有 1~2 個描述詞,比如“嘉陵江鉈污染”是 2017 年5 月嘉陵江鉈污染事件的描述字。通過智能網(wǎng)絡(luò)爬取系統(tǒng)從微博和百度平臺中把包含這個描述詞相關(guān)數(shù)據(jù)爬取到,這組信息可以是任意長度的文本、單詞等。每條信息由平臺、時間、內(nèi)容組成。事件熱度分析模型將優(yōu)先處理與數(shù)據(jù)庫熱詞匹配的問題,提出熱詞的 3 個特征:TF-IDF 特征及詞相關(guān)度和長度,并定義熱詞的動態(tài)權(quán)重。
2.1 定義熱詞的動態(tài)權(quán)重
給定一個單詞wi和一個時間T,其權(quán)重WT是詞的重要性IT、詞相關(guān)度RT和長度Lwi的乘積,計算公式為
所以,時間T的熱詞選取問題定義如下:對數(shù)據(jù)庫進行預處理得到N個常用候選熱詞集Hcw,對Hcw中單詞的動態(tài)權(quán)重進行降序排列,得到一個函數(shù):f(x) =y,
式中:y表示Hcw中前x個詞的累計動態(tài)權(quán)重,通過圖形變換和極值求得最適合的熱詞數(shù)目對Hcw進行一次篩選得到事件熱詞集合HW。
2.2 事件的熱度向量
給定時間段Tn,得到熱詞集合HW,則事件熱度向量記為EPTn,與時間間隔ti內(nèi)的事件熱度記為EPti可以分別由公式 (2) 和 (3) 表示:
式中:Wti(wi) 和Fwi分別表示熱詞HW的權(quán)重和在時間間隔ti內(nèi)出現(xiàn)的次數(shù)。
傳統(tǒng)的基于情感詞典的文本情感分類,是對人的記憶和判斷思維最簡單的模擬??梢愿鶕?jù)特定情況記憶一些基本詞匯,如積極詞語有“樂觀”、“信任”,消極詞語有“抱怨”、“憤怒”、“追責”,中性詞語有“陳述”、“提醒”、“答疑”、“擔心”等共9 個情感詞包,從而在大腦中形成一個基本的語料庫。情感分析由文本的預處理、分詞、相似度比較及生成情感向量等部分組成,以對微博文本進行情感分析。
3.1 文本的預處理
由網(wǎng)絡(luò)爬蟲等工具從微博、論壇和新聞報道上爬取出的原始語料,帶有大量不需要的信息,需要對語料進行處理。本研究處理的微博評論集合樣例如表 1 所示。
表 1 處理后的論壇評論集合
3.2 評論內(nèi)容的分詞
給定處理后的評論集合 C = {c1,c2,…,cm},每一條評論 ci都以句子的形式存在,因此可以表示成詞組的有限序列,即 ci= < S1,S2,…,Sm>,其中Si是一個中文詞組。使用中文分詞器對評論內(nèi)容進行分詞,從而形成一組組詞組序列 Si,如表 1 中的第 1 條微博評論,經(jīng)過中文分詞之后形成的詞組序列為:<怎么、最近、我、大、廣元、的、新聞、這么、多 >。
3.3 情感向量的計算
在《知網(wǎng)》中,每個詞是由概念進行描述的,而每個概念又是由義原描述的,所有的義原通過一個有層次的樹狀結(jié)構(gòu)組織到一起。對于詞語 S1和S2,如果 S1描述為 S11,S12,…,S1n,S2描述為 S21,S22,…,S2n,則 S1和 S2的相似度為概念之間的相似度的最大值[21],計算公式如下:
這樣 2 個詞語之間的相似度就轉(zhuǎn)化為概念之間的相似度,同樣概念之間的相似度又會轉(zhuǎn)化為義原之間的相似度計算,其中 2 個義原之間的相似度計算如下:
式中:p1,p2表示義原;d 表示 p1和 p2在義原樹體系上的路徑長度;a 是一個可調(diào)節(jié)的參數(shù)。相似度范圍在 0~1 之間,越高表示越相似。
多條記錄的情感分類結(jié)果如表 2 所示。
根據(jù)相似度比較得到的情感分類結(jié)果,若相似,則該情感分類設(shè)置為 1,否則視為 0。本研究使用情感向量 E ={ei1,ei2,…,ei9} 描述每一條評論的情感屬性,其中第 i 行表示第 i 條評論。情感向量生成的結(jié)果如表 3 所示,若該條評論只有屬于某一種情緒的詞語,則該情緒對應(yīng)的值為 1,其他維度的值都為 0。
1)情感詞包的情感向量和,表示所有評論的每一個詞包的情感向量之和 wj,計算公式如下:
式中:j 表示第 j 個情感詞包,取值為 1~9。
2)根據(jù)最后的情感向量的和,得出情緒分布圖。情感傾向的計算公式如下:
式中:+ 表示 1~2 號正向情感維度;-表示 6~9 號負向情感維度,將其求和之后可得該條評論的情感值。
本研究針對評論中的情感詞提取并做情感傾向性分析,情感分析算法具體步驟如下:
a. 對于每條評論 ci,使用中文分詞器進行分詞,形成 < S1,S2,…,Sn>。
b. 對于每一組詞組序列 < S1,S2,…,Sn>,利用公式 (4) 及 (5) 對每個詞語與已有詞包中的詞語進行相似度比較,判定詞語的情緒分類。
c. 對于每一組詞組序列 < S1,S2,…,Sn>,根據(jù)已經(jīng)判定的情緒分類計算每種情緒占的比例,從而形成一條情感向量 e ={e1,e2,…,en},其中 n 表示有n 種情緒分類。
d. 將所有的情感向量集中起來,形成情感向量矩陣 M,利用公式 (6) 即可計算出評論集合 C 中每種情緒所占的比例。
e. 對每一列情感詞包的情感向量求和后,利用公式 (7) 得到情緒分布圖。
表 2 記錄情感分類表
表 3 情感向量表
2017 年 5 月 5 日 18 時,四川省廣元市環(huán)境監(jiān)測中心站監(jiān)測發(fā)現(xiàn)嘉陵江入川斷面水質(zhì)異常,西灣水廠水源地水質(zhì)鉈元素超標 4.6 倍。廣元市立即采取凈水處理、泄洪、加密監(jiān)測等應(yīng)急措施,經(jīng)與相關(guān)專家及部門綜合研判,初步判定污染源為川陜界上游輸入型、一次性污染團。廣元市西灣水廠立即停產(chǎn),并啟動城市應(yīng)急供水。2017 年 6 日晚上 9 點,監(jiān)測數(shù)據(jù)顯示西灣水廠水源地水質(zhì)鉈元素濃度已降至 0.000 1 mg/L,達到國家標準,上游無新增污染物,嘉陵江流域水質(zhì)趨于穩(wěn)定;5 月 7 日 8 時開始恢復性供水; 截至 5 月 7 日晚上 10 點,嘉陵江廣元流域鉈濃度持續(xù)呈穩(wěn)步下降趨勢。
本次試驗采用嘉陵江鉈污染事件,通過對各大平臺收集的數(shù)據(jù)進行整理、分詞,提取高權(quán)重關(guān)鍵詞可以看出,群眾主要關(guān)注的是污染地區(qū)(嘉陵江、廣元、西灣水廠)、環(huán)境污染、超標指數(shù)、飲水、危害、影響、追責和情緒抒發(fā)等方面:根據(jù)每條評論的情感向量,生成評論的情感向量矩陣,并進行統(tǒng)計求和得到如表 4 所示的不同媒體平臺的情感向量。
根據(jù)微博評論情感分類結(jié)果可以得出圖 1 所示的分析結(jié)果。從圖中可以明顯看出微博方面,陳述、憤怒、擔心的比重較大。例如,有網(wǎng)友客觀地指出“我們國家整體的自來水質(zhì)著實有很大上升空間”;也有網(wǎng)友憂心“鉈是劇毒啊,四川和重慶的朋友當心了!”。微博上的網(wǎng)友部分情緒達到憤怒,抱怨和擔憂也有較大比重;也有部分較理性,總體處于偏負面狀態(tài)。
根據(jù)論壇評論情感分類結(jié)果可以得出圖 2 所示的分析結(jié)果。論壇方面,陳述、答疑的比例較大。例如:有吧友答復“應(yīng)該沒有影響哦,有水就放心用,也可以儲備點嘛”;也有網(wǎng)友進行調(diào)侃式的抱怨道“城區(qū)套路深,我已回農(nóng)村!”。論壇評論的用戶大部分都表示出了一種比較理性的心態(tài)。
表 4 微博、論壇、新聞評論的綜合情感向量
圖 1 微博情緒分布柱狀圖
圖 2 論壇情緒分布柱狀圖
根據(jù)新聞評論情感分類結(jié)果可以得出圖 3 所示的分析結(jié)果。新聞評論層面的追責、陳述、憤怒的比重較大。部分網(wǎng)友表示“不找出真兇,將嚴重削弱某某某的社會信任度”,憤慨地表明追責的必要性;也有網(wǎng)友進行答疑“不要瞎說,受污染的水源必須在入川前截流”,陳述客觀事實,安撫群眾。新聞評論的網(wǎng)友多處于憂心忡忡和憤懣追責狀態(tài),總體較為負面。
圖 3 新聞評論情緒分布柱狀圖
從情感柱狀圖中,可以看到對此事件的情感傾向,有對此事表達憤怒的,有擔心的,有信任和樂觀的,從而形成帶有負能量的、中性的、正能量的情感傾向。微博、新聞評論及論壇的樣本的情感分布圖如圖 4~6 所示,從分布可以看出,負面、較負面的情緒占據(jù)了主導地位,正面和較正面的情緒相對來說少很多。與微博和新聞評論的樣本分布有一定的不同,論壇情緒分布呈現(xiàn)出不一樣的傾向,其中,正面、較正面的比例超過 50%,而負面、較負面的情緒占比遠小于另外 2 種數(shù)據(jù)源中的情形。論壇情緒相對正面的原因可能是其用戶參與及時度不及微博與新聞評論。2017 年 5 月 9 日開始輿情趨于穩(wěn)定;5月 10 日 20 時起,嘉陵江各監(jiān)測斷面全線達標;5 月 11 日,廣元市人民政府終止應(yīng)急響應(yīng)。
圖 4 微博情感分布圖
圖 5 論壇情感分布
圖 6 新聞情感分布圖
2017 年 5 月 5—10 日,廣元市人民政府第一時間發(fā)布官方信息《嘉陵江水質(zhì)污染應(yīng)急監(jiān)測快報》第84 期,及時通報事件進展和監(jiān)測情況,全國 70 余家媒體平臺跟蹤轉(zhuǎn)載。職能部門持續(xù)開展輿情監(jiān)測,對媒體和公眾普遍關(guān)注問題主動答疑釋惑,對穩(wěn)定社會情緒起到積極作用。
互聯(lián)網(wǎng)信息公開、透明,且易與收集,對于突發(fā)性水利事件的分析,互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析是突發(fā)事件數(shù)據(jù)收集的有效手段。通過對搜索引擎及論壇和新聞報道的相關(guān)數(shù)據(jù)進行采集和大數(shù)據(jù)挖掘,提出了面向突發(fā)事件的事件熱度和情感分析模型,為了驗證模型的有效性,對嘉陵江鉈污染突發(fā)事件的輿情進行了深入分析討論,發(fā)現(xiàn)廣大網(wǎng)民對涉水突發(fā)事件所持有的態(tài)度、觀點、評論,識別出情感傾向,更好地理解用戶的行為,為政府部門更好應(yīng)對處置突發(fā)涉水事件提供支撐。本模型相對以往監(jiān)測的方式,具有真實性、時效性,可以準確分析把控輿情和事件發(fā)展態(tài)勢,實現(xiàn)正面宣傳、正確引導網(wǎng)絡(luò)輿情,幫助制定有效措施減少涉水突發(fā)事件的損失和負面影響,有助于強化地方監(jiān)測預警體系建設(shè),推進部門間、區(qū)域間環(huán)境應(yīng)急聯(lián)動,提高環(huán)境風險防范和應(yīng)急能力,確保國家環(huán)境安全。
當然,針對中文的情感分析還有許多值得研究的地方。例如分析微博等社交網(wǎng)絡(luò)圖片,豐富情感詞庫,提升分詞匹配速度和準確率,這些都需要結(jié)合涉水突發(fā)事件的特點,采用深度學習等新技術(shù)進行進一步分析和挖掘。
[1] 崔偉中,劉晨. 松花江和沱江等重大水污染事件的反思[J]. 水資源保護,2006 (1): 1-4.
[2] 馮鈞,許瀟,唐志賢,等. 水利大數(shù)據(jù)及其資源化關(guān)鍵技術(shù)研究[J]. 水利信息化,2013 (4): 6-9.
[3] 馮鈞,唐志賢,盛震宇,等. 水利數(shù)據(jù)中心數(shù)據(jù)交換平臺設(shè)計探討[J]. 水利信息化,2014 (1): 15-19.
[4] ZHANG X M, CHEN X M, CHEN Y, et al. Event detection and popularity prediction in microblogging[J]. Neurocomputing, 2015 (149): 1469-1480.
[5] SAKAKI T, OKAZAKI M, MATSUO Y. Tweet analysis for real-time event detection and earthquake reporting system development[J]. IEEE Transactions on Knowledge & Data Engineering, 2013, 25 (4): 919-931.
[6] NGUYEN D T, JUNG J E. Real-time event detection for online behavioral analysis of big social data[J]. Future Generation Computer Systems, 2017 (66): 137-145.
[7] ZHOU D Y, CHEN L Y, HE Y L. An unsupervised framework of exploring events on twitter: Filtering, extraction and categorization[C]//Twenty-Ninth AAAI Conference on Arti fi cial Intelligence. Imego:AAAI Press, 2015: 2468-2474.
[8] ADEDOYIN-Olowe M, GABER M M, DANCAUSA C M, et al. A rule dynamics approach to event detection in Twitter with its application to sports and politics[J]. Expert Systems with Applications, 2016, 55: 351-360.
[9] ZHANG C, ZHOU G Y, YUAN Q, et al. GeoBurst: Real-time local event detection in geo-tagged tweet streams[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 513-522.
[10] GUO J J, GONG Z G. A nonparametric model for event discovery in the geospatial-temporal space[C]//ACM International on Conference on Information and Knowledge Management. New York:ACM, 2016: 499-508.
[11] WEN S Y, WAN X J. Emotion classi fi cation in microblog texts using class sequential rules[C]//Proceedings of the Twenty-Eighth AAAI conference on Arti fi cial Intelligence. Quebec:Association for the Advancement of Arti fi cial Intelligence, 2014: 187-193.
[12] LI S S, HUANG L ,WANG R, et al.Sentence-level emotion classification with label and context dependence[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics. Beijing:Association for Computational Linguistics, 2015: 1045-1053.
[13] RAO Y H, XIE H R, LI J, et al. Social emotion classi fi cation of short text via topic-level maximum entropy model[J]. Information & Management, 2016 (53) : 978-986.
[14] TANG D Y, QIN B, LIU T, et al. Learning sentence representation for emotion classi fi cation on microblogs[J]. Natural Language Processing and Chinese Computing, 2013, 400: 212-223.
[15] 李巖,韓斌,趙劍. 基于短文本及情感分析的微博輿情分析[J]. 計算機應(yīng)用與軟件,2013 (12): 240-243.
[16] 王志國. 網(wǎng)絡(luò)輿情監(jiān)控過程中微博文本分類處理的實現(xiàn)方法[J]. 圖書情報導刊,2016 (12): 129-133.
[17] SHEN Y, LI S C, ZHENG L, et al. Emotion mining research on microblog[C]// Web Society, 2009.SWS'09.1st IEEE Symposium on. Lanzhou: IEEE, 2009: 71-75.
[18] 張瑜,李兵,劉晨玥. 面向主題的微博熱門話題輿情監(jiān)測研究——以“北京單雙號限行常態(tài)化”輿情分析為例[J]. 中文信息學報,2015 (5): 143-151,159.
[19] 柳位平,朱艷輝,栗春亮,等. 中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J]. 計算機應(yīng)用,2009 (10): 2875-2877.
[20] 周詠梅,楊佳能,陽愛民. 面向文本情感分析的中文情感詞典構(gòu)建方法[J]. 山東大學學報(工學版),2013 (6): 27-33.
[21] 劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學,2002,7 (2): 59-76.
Study on public opinion analysis of sudden water events
CHENG Jianguo1, ZHANG Hongxing2, TANG Yan3, WANG Wangsong3, ZHANG Jin3, LI Xiaodong3, FENG Jun3
(1. Water Resources Information Center, the Ministry of Water Resources, Beijing 100053, China; 2. Water Resources Division, the Ministry of Water Resources, Beijing 100053, China; 3. College of Computer and Information, Hohai University, Nanjing 211100, China)
Internet information disclosure is transparency and easy to collect. For the analysis of sudden water events, Internet public opinion analysis is a large trend of development. This analysis can be very small input to obtain valuable information, and get valuable result, is becoming an indispensable way to assist in the routine monitoring of water events. On the basis of analyzing the research and application situation, through search engine, micro-blog, forums and Internet news reports big data related to water incident event, the article proposes an event heat analysis model and emotional analysis model. Both models are used for discovering the public opinion of the Jialing River thallium pollution in 2017. It is analyzed from nine emotional dimension, is discovered that statement, anger and worrisome are the main emotions in micro-blog, the forum users expresses a rather rational emotion, while the news commenters are more negative, expressing a strong desire to find the people and organization accountable for this incident. The public sentiment become stable since the incident is emergency disposal plan works effectively.
sudden water event; big data mining; public opinion; event heat analysis; sentiment analysis
P426.616
A
1674-9405(2017)04-0021-07
10.19364/j.1674-9405.2017.04.005
2017-06-30
國家自然科學基金項目(61370091)
成建國(1978-),男,貴州畢節(jié)人,高級工程師,從事水利信息化和水文水資源研究、建設(shè)及行業(yè)管理工作。