基于模糊C均值的輿情等級分類模型研究

2017-07-12 09:10聶方彥

軟件導(dǎo)刊 2017年6期

聶方彥

摘要：輿情應(yīng)對的基本前提是輿情研判，也即將輿情按照輕重緩急程度歸類，然后采取不同的應(yīng)對措施。將輿情劃分為4個(gè)等級，結(jié)合模糊C均值（FCM）算法定義了一個(gè)對輿情的自動聚類判別模型，并運(yùn)用樣本輿情對模型進(jìn)行了驗(yàn)證分析。在輿情應(yīng)對中，可將模型得出的結(jié)果作為應(yīng)對的輔助手段，提升輿情應(yīng)對的精準(zhǔn)度和實(shí)時(shí)性，提高各級輿情部門的應(yīng)對能力。

關(guān)鍵詞：網(wǎng)絡(luò)輿情；輿情等級；模糊C均值；自動聚類

DOIDOI：10.11907/rjdk.171144

中圖分類號：TP319

文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2017）006-0130-02

0 引言

網(wǎng)絡(luò)輿情是指在現(xiàn)代通信網(wǎng)絡(luò)體系中人們對社會現(xiàn)象（問題）展開討論形成的各種觀點(diǎn)、輿論。網(wǎng)絡(luò)輿情對社會政治、經(jīng)濟(jì)、民生等產(chǎn)生的影響是巨大的。輿情一旦產(chǎn)生，就需要適當(dāng)加以引導(dǎo)，不然其負(fù)面影響在網(wǎng)絡(luò)上的無限放大極有可能對社會各方面產(chǎn)生極大的破壞作用。在互聯(lián)網(wǎng)這一典型大數(shù)據(jù)環(huán)境下，每時(shí)每刻圍繞眾多網(wǎng)絡(luò)輿論議題產(chǎn)生的數(shù)據(jù)都是海量的，海量的輿情數(shù)據(jù)加重了輿情研判的難度。

傳統(tǒng)的輿情應(yīng)對方式很難在第一時(shí)間發(fā)現(xiàn)潛在的可能會引起重大輿情的事件，無法對潛在的重大輿情進(jìn)行響應(yīng)?，F(xiàn)有輿情應(yīng)對機(jī)制都是建立在輿情研判基礎(chǔ)之上的，也就是說先對輿情可能會發(fā)生什么影響進(jìn)行評估（分級），然后再采取不同的應(yīng)對措施。文獻(xiàn)[1]、[2]在對輿情進(jìn)行分級的基礎(chǔ)上設(shè)計(jì)了不同的應(yīng)對措施。按照網(wǎng)絡(luò)輿情分級應(yīng)對原則，越早判別輿情風(fēng)險(xiǎn)等級，就越能采取好的應(yīng)對措施。然而在現(xiàn)實(shí)中，如何對眾多網(wǎng)絡(luò)輿情進(jìn)行及時(shí)分級卻是一件較為困難的事，如果采用人工判別模式，極有可能錯(cuò)過輿情應(yīng)對的最佳時(shí)機(jī)。

模糊C-均值（Fuzzy C-means，F(xiàn)CM）算法[3]是數(shù)據(jù)聚類分析中的著名算法，它能較好地處理事件間存在的模糊特性。本文收集網(wǎng)絡(luò)輿情相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化，應(yīng)用FCM算法對輿情引發(fā)事件進(jìn)行聚類分析，自動歸類輿情事件級別，以提高輿情應(yīng)對的精準(zhǔn)性和及時(shí)性。

1 輿情等級劃分

目前我國還沒有輿情等級劃分的國家規(guī)范。《中華人民共和國突發(fā)事件應(yīng)對法》第3條規(guī)定，按照社會危害程度、影響范圍等因素，自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件分為特別重大、重大、較大和一般4級。以此為依據(jù)，很多研究也將輿情劃分為類似的等級。例如，曹學(xué)艷等[2]基于網(wǎng)絡(luò)輿情熱度，提出一種引發(fā)輿情突發(fā)事件的動態(tài)分類分級方法，輿情事件在輿情演化過程中可動態(tài)歸類為I級、II級、III級、IV級。張浩[4]依據(jù)引發(fā)輿情的10個(gè)因素，把網(wǎng)絡(luò)輿情劃分為輕度、中度、重度、危險(xiǎn)、極度危險(xiǎn)5個(gè)等級。王娟[1]根據(jù)輿情性質(zhì)、影響程度、涉及范圍等因素，將捕捉到的各種輿情信息劃歸為網(wǎng)絡(luò)民意、負(fù)面輿情、重大輿情3種不同的預(yù)警等級，然后分別建立分級響應(yīng)機(jī)制。根據(jù)現(xiàn)存輿情等級劃分的研究成果，本文在對輿情進(jìn)行聚類自動分級時(shí)，按照輿情規(guī)模、影響等因素把輿情歸類為4個(gè)等級，分別對應(yīng)一般（1級）、較大（2級）、大（3級）、重大（4級）輿情。

2 FCM聚類

FCM算法是一種基于目標(biāo)函數(shù)的模糊聚類算法，主要用于數(shù)據(jù)的聚類分析，該算法理論成熟，廣泛應(yīng)用于各種工程領(lǐng)域。FCM通過模糊隸屬度函數(shù)處理聚類數(shù)據(jù)的邊界模糊特性，使數(shù)據(jù)有可能隸屬于不同類別的屬性得到充分體現(xiàn)。理論和實(shí)證研究表明FCM算法是一種優(yōu)秀的聚類方法。

3 輿情數(shù)據(jù)采集與處理

在應(yīng)用FCM算法對輿情事件進(jìn)行自動聚類分級時(shí)，首先需要將網(wǎng)絡(luò)上浩如煙海雜亂無章的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)字化處理。可能會引發(fā)網(wǎng)絡(luò)輿情的事件發(fā)生后，媒體（如報(bào)紙、門戶網(wǎng)站、論壇、博客，或微媒體如微博、微信等）會發(fā)表各種關(guān)于事件的討論和評述，討論的規(guī)模和熱度上去后就有可能引發(fā)重大輿情。故對事件引發(fā)的輿情研判可以通過檢索媒體的傳播規(guī)模研究它的發(fā)展趨勢。事件發(fā)生后，經(jīng)各種媒體傳播和報(bào)道，可以形成關(guān)于事件的各種議題，對這些議題進(jìn)行提煉可得如圖1所示的事件關(guān)鍵詞云。因此，對于整個(gè)事件引發(fā)的輿情規(guī)?？赏ㄟ^類似圖1所示的關(guān)鍵詞云進(jìn)行統(tǒng)計(jì)挖掘得出。

為獲取關(guān)于輿情事件的數(shù)據(jù)，應(yīng)用數(shù)據(jù)挖掘工具統(tǒng)計(jì)輿情事件議題在各種媒體出現(xiàn)的數(shù)量，再按時(shí)間頻度進(jìn)行歸類，可得到應(yīng)用于FCM算法的數(shù)據(jù)。表1給出的數(shù)據(jù)是輿情事件發(fā)生后，輿情相關(guān)議題在各種媒體上的統(tǒng)計(jì)量，該數(shù)據(jù)借助新浪微輿情網(wǎng)站[5]輿情統(tǒng)計(jì)分析工具得到。由表1可以看出，事件引發(fā)的輿情越大，相關(guān)議題在各種媒體上出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)值越大。表1統(tǒng)計(jì)的數(shù)據(jù)并不是輿情事件剛發(fā)生時(shí)的數(shù)據(jù)，而且時(shí)間跨度也超過10天，因此不能作為輿情精準(zhǔn)預(yù)測的依據(jù)。本研究應(yīng)用這些輿情數(shù)據(jù)驗(yàn)證模型的準(zhǔn)確性。真正應(yīng)用本文模型進(jìn)行輿情等級判別時(shí)，數(shù)據(jù)的采集可以更實(shí)時(shí)，且時(shí)間跨度也可根據(jù)輿情預(yù)測的精準(zhǔn)度要求把時(shí)間區(qū)間定義得更窄些，例如依據(jù)輿情判別的黃金4小時(shí)等。表1是采集的原始數(shù)據(jù)，運(yùn)用FCM算法進(jìn)行聚類時(shí)，需要對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，減少數(shù)據(jù)的量級對聚類效果的影響。

4 輿情等級劃分模型

基于FCM算法實(shí)現(xiàn)輿情事件的等級劃分，其模型如圖2所示。在模型中，首先基于關(guān)鍵詞云在各媒體挖掘輿情事件的報(bào)道量，然后對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，再應(yīng)用FCM算法進(jìn)行聚類分析，最后輸出輿情等級類別，用于指導(dǎo)輿情應(yīng)對。

5 模型驗(yàn)證與分析

采集歷史上發(fā)生的若干個(gè)輿情樣本對模型進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。在運(yùn)用模型進(jìn)行聚類分析之前，通過專家將采集到的輿情樣本按照定義的輿情級別手工分類，其中各級別輿情事件分別采集4個(gè)樣本，共16個(gè)輿情樣本。實(shí)驗(yàn)輿情樣本既包括重大輿情事件如“魏則西事件”，也包括近年一些頻繁發(fā)生的輿情事件如“大學(xué)畢業(yè)生被就業(yè)”。表2列出了運(yùn)用本文模型聚類結(jié)果與專家判別結(jié)果的比較。

從表2可以看出，對于樣本輿情，本文模型的判別結(jié)果與專家判別結(jié)果存在一定差異，如將專家判定為一般（1級）輿情的一個(gè)樣本判別為較大（2級）輿情，將一個(gè)3級輿情判定為重大輿情。輿情等級的劃分本身就有模糊性，F(xiàn)CM算法是一種基于模糊集理論的聚類算法，運(yùn)用該算法對輿情等級進(jìn)行聚類分析可以得到較好結(jié)果。實(shí)際運(yùn)用中，可在該模型給出結(jié)果基礎(chǔ)上再經(jīng)專家判別，就可更精準(zhǔn)地實(shí)現(xiàn)對輿情的定位，也為輿情判別節(jié)約了大量時(shí)間。

6 結(jié)語

輿情應(yīng)對貴在精準(zhǔn)與及時(shí)，傳統(tǒng)的輿情判別依靠人工方式既費(fèi)時(shí)又可能掛一漏萬。模糊C均值是一種基于模糊集理論的聚類分析方法，它能處理事件本身存在的模糊特性。本文依據(jù)FCM思想構(gòu)建了一個(gè)輿情等級自動判別的聚類模型，并應(yīng)用歷史輿情數(shù)據(jù)對模型進(jìn)行了驗(yàn)證分析。實(shí)驗(yàn)表明該模型可以作為輿情應(yīng)對的輔助工具，幫助進(jìn)行輿情分析，以實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)的輿情處理。

參考文獻(xiàn)：

[1]王娟.網(wǎng)絡(luò)輿情的分級響應(yīng)與處置[J].人民論壇，2012（29）：27-30.

[2]曹學(xué)艷，宋彥寧，李仕明.基于網(wǎng)絡(luò)輿情熱度的突發(fā)事件動態(tài)分類分級研究[J].電子科技大學(xué)學(xué)報(bào)：社科版，2014（2）：24-27.

[3]翟麗麗，張影，王京.基于廣度優(yōu)先搜索的變異加權(quán)模糊C-均值聚類算法[J].統(tǒng)計(jì)與決策，2016（15）：9-14.

[4]張浩.互聯(lián)網(wǎng)輿情等級劃分機(jī)制研究[J].通訊世界，2015（8）：229-230.

[5]新浪微輿情[EB/OL].[2016-12-28].http：//www.wyq.cn/

（責(zé)任編輯：杜能鋼）

基于模糊C均值的輿情等級分類模型研究

404 Not Found