聶方彥
摘要:輿情應(yīng)對的基本前提是輿情研判,也即將輿情按照輕重緩急程度歸類,然后采取不同的應(yīng)對措施。將輿情劃分為4個(gè)等級,結(jié)合模糊C均值(FCM)算法定義了一個(gè)對輿情的自動聚類判別模型,并運(yùn)用樣本輿情對模型進(jìn)行了驗(yàn)證分析。在輿情應(yīng)對中,可將模型得出的結(jié)果作為應(yīng)對的輔助手段,提升輿情應(yīng)對的精準(zhǔn)度和實(shí)時(shí)性,提高各級輿情部門的應(yīng)對能力。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情等級;模糊C均值;自動聚類
DOIDOI:10.11907/rjdk.171144
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2017)006-0130-02
0 引言
網(wǎng)絡(luò)輿情是指在現(xiàn)代通信網(wǎng)絡(luò)體系中人們對社會現(xiàn)象(問題)展開討論形成的各種觀點(diǎn)、輿論。網(wǎng)絡(luò)輿情對社會政治、經(jīng)濟(jì)、民生等產(chǎn)生的影響是巨大的。輿情一旦產(chǎn)生,就需要適當(dāng)加以引導(dǎo),不然其負(fù)面影響在網(wǎng)絡(luò)上的無限放大極有可能對社會各方面產(chǎn)生極大的破壞作用。在互聯(lián)網(wǎng)這一典型大數(shù)據(jù)環(huán)境下,每時(shí)每刻圍繞眾多網(wǎng)絡(luò)輿論議題產(chǎn)生的數(shù)據(jù)都是海量的,海量的輿情數(shù)據(jù)加重了輿情研判的難度。
傳統(tǒng)的輿情應(yīng)對方式很難在第一時(shí)間發(fā)現(xiàn)潛在的可能會引起重大輿情的事件,無法對潛在的重大輿情進(jìn)行響應(yīng)?,F(xiàn)有輿情應(yīng)對機(jī)制都是建立在輿情研判基礎(chǔ)之上的,也就是說先對輿情可能會發(fā)生什么影響進(jìn)行評估(分級),然后再采取不同的應(yīng)對措施。文獻(xiàn)[1]、[2]在對輿情進(jìn)行分級的基礎(chǔ)上設(shè)計(jì)了不同的應(yīng)對措施。按照網(wǎng)絡(luò)輿情分級應(yīng)對原則,越早判別輿情風(fēng)險(xiǎn)等級,就越能采取好的應(yīng)對措施。然而在現(xiàn)實(shí)中,如何對眾多網(wǎng)絡(luò)輿情進(jìn)行及時(shí)分級卻是一件較為困難的事,如果采用人工判別模式,極有可能錯(cuò)過輿情應(yīng)對的最佳時(shí)機(jī)。
模糊C-均值(Fuzzy C-means,F(xiàn)CM)算法[3]是數(shù)據(jù)聚類分析中的著名算法,它能較好地處理事件間存在的模糊特性。本文收集網(wǎng)絡(luò)輿情相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,應(yīng)用FCM算法對輿情引發(fā)事件進(jìn)行聚類分析,自動歸類輿情事件級別,以提高輿情應(yīng)對的精準(zhǔn)性和及時(shí)性。
1 輿情等級劃分
目前我國還沒有輿情等級劃分的國家規(guī)范。《中華人民共和國突發(fā)事件應(yīng)對法》第3條規(guī)定,按照社會危害程度、影響范圍等因素,自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件分為特別重大、重大、較大和一般4級。以此為依據(jù),很多研究也將輿情劃分為類似的等級。例如,曹學(xué)艷等[2]基于網(wǎng)絡(luò)輿情熱度,提出一種引發(fā)輿情突發(fā)事件的動態(tài)分類分級方法,輿情事件在輿情演化過程中可動態(tài)歸類為I級、II級、III級、IV級。張浩[4]依據(jù)引發(fā)輿情的10個(gè)因素,把網(wǎng)絡(luò)輿情劃分為輕度、中度、重度、危險(xiǎn)、極度危險(xiǎn)5個(gè)等級。王娟[1]根據(jù)輿情性質(zhì)、影響程度、涉及范圍等因素,將捕捉到的各種輿情信息劃歸為網(wǎng)絡(luò)民意、負(fù)面輿情、重大輿情3種不同的預(yù)警等級,然后分別建立分級響應(yīng)機(jī)制。根據(jù)現(xiàn)存輿情等級劃分的研究成果,本文在對輿情進(jìn)行聚類自動分級時(shí),按照輿情規(guī)模、影響等因素把輿情歸類為4個(gè)等級,分別對應(yīng)一般(1級)、較大(2級)、大(3級)、重大(4級)輿情。
2 FCM聚類
FCM算法是一種基于目標(biāo)函數(shù)的模糊聚類算法,主要用于數(shù)據(jù)的聚類分析,該算法理論成熟,廣泛應(yīng)用于各種工程領(lǐng)域。FCM通過模糊隸屬度函數(shù)處理聚類數(shù)據(jù)的邊界模糊特性,使數(shù)據(jù)有可能隸屬于不同類別的屬性得到充分體現(xiàn)。理論和實(shí)證研究表明FCM算法是一種優(yōu)秀的聚類方法。
3 輿情數(shù)據(jù)采集與處理
在應(yīng)用FCM算法對輿情事件進(jìn)行自動聚類分級時(shí),首先需要將網(wǎng)絡(luò)上浩如煙海雜亂無章的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)字化處理。可能會引發(fā)網(wǎng)絡(luò)輿情的事件發(fā)生后,媒體(如報(bào)紙、門戶網(wǎng)站、論壇、博客,或微媒體如微博、微信等)會發(fā)表各種關(guān)于事件的討論和評述,討論的規(guī)模和熱度上去后就有可能引發(fā)重大輿情。故對事件引發(fā)的輿情研判可以通過檢索媒體的傳播規(guī)模研究它的發(fā)展趨勢。事件發(fā)生后,經(jīng)各種媒體傳播和報(bào)道,可以形成關(guān)于事件的各種議題,對這些議題進(jìn)行提煉可得如圖1所示的事件關(guān)鍵詞云。因此,對于整個(gè)事件引發(fā)的輿情規(guī)??赏ㄟ^類似圖1所示的關(guān)鍵詞云進(jìn)行統(tǒng)計(jì)挖掘得出。
為獲取關(guān)于輿情事件的數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘工具統(tǒng)計(jì)輿情事件議題在各種媒體出現(xiàn)的數(shù)量,再按時(shí)間頻度進(jìn)行歸類,可得到應(yīng)用于FCM算法的數(shù)據(jù)。表1給出的數(shù)據(jù)是輿情事件發(fā)生后,輿情相關(guān)議題在各種媒體上的統(tǒng)計(jì)量,該數(shù)據(jù)借助新浪微輿情網(wǎng)站[5]輿情統(tǒng)計(jì)分析工具得到。由表1可以看出,事件引發(fā)的輿情越大,相關(guān)議題在各種媒體上出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)值越大。表1統(tǒng)計(jì)的數(shù)據(jù)并不是輿情事件剛發(fā)生時(shí)的數(shù)據(jù),而且時(shí)間跨度也超過10天,因此不能作為輿情精準(zhǔn)預(yù)測的依據(jù)。本研究應(yīng)用這些輿情數(shù)據(jù)驗(yàn)證模型的準(zhǔn)確性。真正應(yīng)用本文模型進(jìn)行輿情等級判別時(shí),數(shù)據(jù)的采集可以更實(shí)時(shí),且時(shí)間跨度也可根據(jù)輿情預(yù)測的精準(zhǔn)度要求把時(shí)間區(qū)間定義得更窄些,例如依據(jù)輿情判別的黃金4小時(shí)等。表1是采集的原始數(shù)據(jù),運(yùn)用FCM算法進(jìn)行聚類時(shí),需要對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,減少數(shù)據(jù)的量級對聚類效果的影響。
4 輿情等級劃分模型
基于FCM算法實(shí)現(xiàn)輿情事件的等級劃分,其模型如圖2所示。在模型中,首先基于關(guān)鍵詞云在各媒體挖掘輿情事件的報(bào)道量,然后對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再應(yīng)用FCM算法進(jìn)行聚類分析,最后輸出輿情等級類別,用于指導(dǎo)輿情應(yīng)對。
5 模型驗(yàn)證與分析
采集歷史上發(fā)生的若干個(gè)輿情樣本對模型進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。在運(yùn)用模型進(jìn)行聚類分析之前,通過專家將采集到的輿情樣本按照定義的輿情級別手工分類,其中各級別輿情事件分別采集4個(gè)樣本,共16個(gè)輿情樣本。實(shí)驗(yàn)輿情樣本既包括重大輿情事件如“魏則西事件”,也包括近年一些頻繁發(fā)生的輿情事件如“大學(xué)畢業(yè)生被就業(yè)”。表2列出了運(yùn)用本文模型聚類結(jié)果與專家判別結(jié)果的比較。
從表2可以看出,對于樣本輿情,本文模型的判別結(jié)果與專家判別結(jié)果存在一定差異,如將專家判定為一般(1級)輿情的一個(gè)樣本判別為較大(2級)輿情,將一個(gè)3級輿情判定為重大輿情。輿情等級的劃分本身就有模糊性,F(xiàn)CM算法是一種基于模糊集理論的聚類算法,運(yùn)用該算法對輿情等級進(jìn)行聚類分析可以得到較好結(jié)果。實(shí)際運(yùn)用中,可在該模型給出結(jié)果基礎(chǔ)上再經(jīng)專家判別,就可更精準(zhǔn)地實(shí)現(xiàn)對輿情的定位,也為輿情判別節(jié)約了大量時(shí)間。
6 結(jié)語
輿情應(yīng)對貴在精準(zhǔn)與及時(shí),傳統(tǒng)的輿情判別依靠人工方式既費(fèi)時(shí)又可能掛一漏萬。模糊C均值是一種基于模糊集理論的聚類分析方法,它能處理事件本身存在的模糊特性。本文依據(jù)FCM思想構(gòu)建了一個(gè)輿情等級自動判別的聚類模型,并應(yīng)用歷史輿情數(shù)據(jù)對模型進(jìn)行了驗(yàn)證分析。實(shí)驗(yàn)表明該模型可以作為輿情應(yīng)對的輔助工具,幫助進(jìn)行輿情分析,以實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)的輿情處理。
參考文獻(xiàn):
[1]王娟.網(wǎng)絡(luò)輿情的分級響應(yīng)與處置[J].人民論壇,2012(29):27-30.
[2]曹學(xué)艷,宋彥寧,李仕明.基于網(wǎng)絡(luò)輿情熱度的突發(fā)事件動態(tài)分類分級研究[J].電子科技大學(xué)學(xué)報(bào):社科版,2014(2):24-27.
[3]翟麗麗,張影,王京.基于廣度優(yōu)先搜索的變異加權(quán)模糊C-均值聚類算法[J].統(tǒng)計(jì)與決策,2016(15):9-14.
[4]張浩.互聯(lián)網(wǎng)輿情等級劃分機(jī)制研究[J].通訊世界,2015(8):229-230.
[5]新浪微輿情[EB/OL].[2016-12-28].http://www.wyq.cn/
(責(zé)任編輯:杜能鋼)