施利萍
摘 要 隨著自媒體社會網(wǎng)絡(luò)的快速發(fā)展,大量網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生,給網(wǎng)絡(luò)輿情監(jiān)控帶來了嚴峻的挑戰(zhàn)。本文分析了大數(shù)據(jù)時代網(wǎng)絡(luò)輿情的現(xiàn)狀和特點,通過對大數(shù)據(jù)的主要技術(shù)Hadoop技術(shù)的研究,結(jié)合突發(fā)公共事件的特點,探索了如何構(gòu)建基于Hadoop平臺的突發(fā)公共事件網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。
關(guān)鍵詞 突發(fā)公共事件 網(wǎng)絡(luò)輿情 Hadoop
中圖分類號:C91 文獻標識碼:A
1大數(shù)據(jù)時代對網(wǎng)絡(luò)輿情監(jiān)控的影響
隨著近年來我國網(wǎng)民數(shù)量的激增和移動智能設(shè)備的普及,社交網(wǎng)絡(luò)等新媒體工具逐漸滲透到人們的生活當中,突發(fā)公共事件在網(wǎng)上傳播的速度越來越快,人們對突發(fā)公共事件的關(guān)注度越來越高。網(wǎng)絡(luò)傳播中的各類信息,既有積極的、正面的,也有虛假的、反動的不良言論。部分社會矛盾在網(wǎng)民的關(guān)注下,會急劇放大、集聚、引爆,一旦失去控制將進一步危害國家安全和社會穩(wěn)定。因此針對網(wǎng)絡(luò)輿論的管理及監(jiān)控,政府部門需要進行有效的引導(dǎo)和治理,實現(xiàn)對網(wǎng)絡(luò)輿情的實時監(jiān)控,防止事態(tài)惡化。而借助大數(shù)據(jù)技術(shù)的優(yōu)勢,輿情信息工作部門可以從網(wǎng)上海量的、多樣的信息數(shù)據(jù)中迅速分析、挖掘出有價值的輿情信息,大數(shù)據(jù)將在突發(fā)公共事件網(wǎng)絡(luò)輿情信息工作中發(fā)揮重要的作用。
2大數(shù)據(jù)在網(wǎng)絡(luò)輿情中的應(yīng)用
2.1突發(fā)公共事件輿情監(jiān)控系統(tǒng)
突發(fā)公共事件網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要通過在線收集定位網(wǎng)絡(luò)信息,識別有害消息,利用統(tǒng)計分析進行輿情識別發(fā)現(xiàn),然后發(fā)布預(yù)警公告。該類系統(tǒng)一般具有信息采集、信息預(yù)處理和分析與輿情服務(wù)三大功能。信息采集部分實現(xiàn)自動抓取數(shù)據(jù)源(論壇、博客、網(wǎng)站、微信、微博等)上新聞、帖子發(fā)布及回復(fù)、聊天記錄等信息;通過網(wǎng)頁去重、標準化、關(guān)鍵詞篩選、主題分析等工作對信息預(yù)處理后識別出有價值的信息,分析事件的背景和特征,分析事件的關(guān)聯(lián)性、背后隱藏的規(guī)律和發(fā)展趨勢,提供突發(fā)公共事件預(yù)警支持;最后將輿情信息用圖表方式直觀化、拓寬報送及發(fā)送渠道,利用移動互聯(lián)技術(shù)實現(xiàn)輿情信息集納和推送。
2.2關(guān)鍵技術(shù)Hadoop技術(shù)
當前國內(nèi)外許多機構(gòu)開展了關(guān)于云計算技術(shù)的研究,其中最為著名的是由Apache 開發(fā),基于Google文件系統(tǒng)設(shè)計思想的Hadoop開源框架。Hadoop是當前較為流行的分布式計算框架,它為處理海量數(shù)據(jù),充分發(fā)揮集群的處理能力以及存儲能力提供了方案。Hadoop平臺基礎(chǔ)架構(gòu)由三大核心組件組成,分別是分布式計算模型MapReduce、分布式文件系統(tǒng)HDFS(Hadoop Distrubuted File System)、數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫HBase。
3基于Hadoop平臺的突發(fā)公共事件網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)
3.1輿情信息采集和存儲
將來自于網(wǎng)站、微信、微博、論壇等國內(nèi)外著名網(wǎng)站的輿情數(shù)據(jù),采用網(wǎng)頁抽取技術(shù),可進行關(guān)鍵詞采集、語義話題采集,通過關(guān)鍵詞管理、URL管理、過濾詞典及分類管理等系統(tǒng)管理配置,同時進行網(wǎng)頁解析,利用Dom 解析html 和抽取信息。
Hadoop平臺上,通過HDFS就能實現(xiàn)文件的讀寫,但為了使數(shù)據(jù)更清晰、程序更簡便,選擇將數(shù)據(jù)寫入HBase。完全分布模式下HBase的運行基于HDFS文件系統(tǒng),HBase處在HDFS和MapReduce的中間,可通過MapReduce實現(xiàn)算法對HBase進行操作,系統(tǒng)將經(jīng)過預(yù)處理的用戶數(shù)據(jù)上傳到HBase分布式數(shù)據(jù)庫中。HDFS作為面向大數(shù)據(jù)應(yīng)用的分布式文件系統(tǒng),在底層提供高性能的硬件資源管理和存儲管理支持,實現(xiàn)輿情大數(shù)據(jù)的高效存取和交換。Hive作為建立數(shù)據(jù)倉庫模型的ETL工具,對信息數(shù)據(jù)進行提?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)等處理過程,形成數(shù)據(jù)索引和輿情詞匯庫,建立輿情數(shù)據(jù)倉庫,將這些信息數(shù)據(jù)加載到Hbase數(shù)據(jù)庫中,Hbase采用面向列的稀疏存儲模式,以非關(guān)系型數(shù)據(jù)庫N0SQL替代傳統(tǒng)關(guān)系型數(shù)據(jù)庫,解決當前web2.0社交網(wǎng)絡(luò)大規(guī)模、高并發(fā)的數(shù)據(jù)處理問題。
3.2輿情監(jiān)控分析
輿情監(jiān)控分析是系統(tǒng)的關(guān)鍵模塊,主要完成最新消息、熱點話題、活躍人物追蹤、熱點區(qū)域追蹤、傳播途徑分析、走勢分析、網(wǎng)絡(luò)社會關(guān)系分析等功能。利用Hadoop框架中的HDFS 分布式文件系統(tǒng)和MapReduce編程模型進行開發(fā),根據(jù)專家?guī)熘薪⒌妮浨樗阉饕?guī)則及存儲的URL地址,實現(xiàn)抓取的新輿情信息分類,對熱點話題追蹤,并進行情感偏好分析,標記出信息的情感屬性,統(tǒng)計分析輿情情感歸屬分類,進行詞性(正面、負面、中立)的判斷,預(yù)測出輿情未來的發(fā)展形勢及走向趨勢。最終通過事件趨勢圖、觀點百分比餅圖、頻率分布網(wǎng)狀圖、負面輿情度直方圖等豐富的圖表形式發(fā)布展示到用戶界面,為更進一步的輿情分析和研判提供更直觀的決策參考。
4結(jié)語
本文分析了大數(shù)據(jù)時代網(wǎng)絡(luò)輿情的現(xiàn)狀和特點,以及當前網(wǎng)絡(luò)輿情信息工作存在的問題,通過對大數(shù)據(jù)的主要技術(shù)Hadoop技術(shù)的研究,結(jié)合突發(fā)公共事件的特點,探索了如何構(gòu)建基于Hadoop平臺的突發(fā)公共事件網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。
參考文獻
[1] 史玉珍,單冬紅.基于Hadoop的網(wǎng)絡(luò)輿情監(jiān)控平臺的研究[J].電子測試,2015(05):71-73.
[2] 張寧熙.大數(shù)據(jù)在突發(fā)公共事件網(wǎng)絡(luò)輿情信息工作中的應(yīng)用[J].現(xiàn)代情報,2015(06):38-42.