陳蒙 李學(xué)志
摘? 要:近年來,互聯(lián)網(wǎng)的快速發(fā)展帶來了社交媒體網(wǎng)絡(luò)的激增,廣大民眾可以在網(wǎng)上分享信息、知識和觀點。然而,一旦出現(xiàn)突發(fā)事件,蜂擁而來的信息會對公眾造成沖擊,需要對信息的發(fā)展變化做出正確的預(yù)測并及時發(fā)現(xiàn)潛在的危機(jī)。有鑒于此,首先,構(gòu)建一個基于突發(fā)事件的網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系,通過評論家算法計算各指標(biāo)的權(quán)重,求得綜合評價值,進(jìn)而推斷網(wǎng)絡(luò)輿情預(yù)警水平;其次,利用基于遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)輿情預(yù)警模型;最后,以突發(fā)事件河南水災(zāi)為例進(jìn)行實證分析。
關(guān)鍵詞:BP 神經(jīng)網(wǎng)絡(luò);遺傳算法;網(wǎng)絡(luò)輿情;輿情預(yù)警;預(yù)警指標(biāo);批評家
中圖分類號:TP391.3? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)19-0018-06
Research on Network Public Opinion Early Warning Mechanism Based
on GA-BP Algorithm
CHEN Meng, LI Xuezhi
(School of Information Engineering, Xinjiang Institute of Technology, Aksu? 843100, China)
Abstract: In recent years, the rapid development of the Internet has led to the proliferation of social media networks, where vast numbers of people can share information, knowledge and opinions online. However, once an emergency occurs, the information flooding in will impact the public, so it is necessary to make a correct prediction of the development and change of information and timely discover the potential crisis. In view of this, firstly, build a network public opinion early warning index system based on emergencies, calculate the weight of each index through the critic algorithm, get the comprehensive evaluation value, and then infer the network public opinion early warning level; secondly, BP neural network based on genetic algorithm optimization is used to build network public opinion early warning model. Finally, take Henan flood as an example for empirical analysis.
Keywords: BP neural network; genetic algorithm; network public opinion; public opinion early warning; early warning index; critic
0? 引? 言
在互聯(lián)網(wǎng)時代,互聯(lián)網(wǎng)絡(luò)對個人行為模式、觀點、政治態(tài)度和情感傾向的影響越來越大。網(wǎng)絡(luò)輿論在其整個傳播過程中都會對社會產(chǎn)生巨大的負(fù)面影響。對任一實體任何意見/情緒平均傾向的計算和評估,有助于組織和個人了解當(dāng)前形勢或獲得一個對不熟悉事物的正確認(rèn)識。網(wǎng)絡(luò)輿情預(yù)警研究已引起了學(xué)術(shù)界的廣泛關(guān)注,實現(xiàn)網(wǎng)絡(luò)輿情預(yù)警的關(guān)鍵在于建立評價指標(biāo)體系和預(yù)測模型。現(xiàn)有的研究大部分重復(fù)性較強(qiáng),過分強(qiáng)調(diào)指標(biāo)體系的可解釋性,往往導(dǎo)致預(yù)測精度不高。構(gòu)建一個具有網(wǎng)絡(luò)輿情預(yù)警作用的指標(biāo)體系結(jié)構(gòu)[1],需要綜合考慮其預(yù)警水平和預(yù)測方法。為此,本文采用一種客觀、嚴(yán)謹(jǐn)、可復(fù)制的方法——“批評家”方法,該方法不僅注重不同指標(biāo)之間權(quán)重的影響,還兼顧預(yù)警指標(biāo)沖突對預(yù)測效果的影響,結(jié)合遺傳算法和BP神經(jīng)網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)模型,用以預(yù)測網(wǎng)絡(luò)輿情水平[2]。
1? 網(wǎng)絡(luò)輿情危機(jī)預(yù)警指標(biāo)體系
1.1? 構(gòu)建網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系
進(jìn)行網(wǎng)絡(luò)輿情預(yù)警的前提條件是構(gòu)建一個科學(xué)合理的指標(biāo)體系。所構(gòu)建的基于突發(fā)事件的網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系,不僅要反映出網(wǎng)絡(luò)輿情中存在的問題,而且能夠?qū)W(wǎng)絡(luò)輿情事件進(jìn)行預(yù)警[3]。體系中指標(biāo)維度的選擇會對輿情預(yù)警的全面性和準(zhǔn)確性產(chǎn)生直接影響,在構(gòu)建指標(biāo)體系的過程中,須參考表1中列出的六條基本原則。
考慮到突發(fā)事件發(fā)生時網(wǎng)絡(luò)輿情傳播過程的變化規(guī)律,通過前期調(diào)研以及反復(fù)整改和篩選,創(chuàng)建一個由4個一級指標(biāo)、11個二級指標(biāo)構(gòu)成的重大突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系[3]。該指標(biāo)體系中的各項指標(biāo)均在獲取能力范圍之內(nèi),滿足表1的構(gòu)建原則。
最重要的一點是,所有這些指標(biāo)都可以量化。所構(gòu)建的網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系如表2所示。
這些指標(biāo)的數(shù)據(jù)來源于新浪微博和百度指數(shù)。微博的開放性和快速傳播可以迅速地將大眾觀點轉(zhuǎn)化為網(wǎng)絡(luò)民意。百度提供了百度指數(shù),用于查找特定主題和帖子的數(shù)量。我們將新浪微博和百度指數(shù)組合在一起進(jìn)行研究分析,梳理出的指標(biāo)體系結(jié)構(gòu)具有充分的合理性和代表性。
從表2中可以看出,指標(biāo)體系分為以下幾個維度:
(1)第一級指標(biāo)體系主要包括關(guān)注度、參與、擴(kuò)散和狀態(tài)四個維度。關(guān)注度是指網(wǎng)友和新聞媒體對話題的關(guān)注度,主要通過話題的搜索量和新聞媒體報道量來衡量。參與是指網(wǎng)友對話題的討論程度,可以用“發(fā)帖”“評論”“轉(zhuǎn)發(fā)”“點贊”等的數(shù)量來衡量。擴(kuò)散代表了輿論在傳播過程中的擴(kuò)散趨勢,可以用某些指標(biāo)值的變化程度來解釋。狀態(tài)描述了公眾輿論本身的一部分性質(zhì)。
(2)第二級指標(biāo)的詳細(xì)描述。關(guān)注度由兩個二級指標(biāo)組成:搜索量表示網(wǎng)友搜索話題的數(shù)量。媒體報道量是指新聞媒體報道中與之相關(guān)新聞的數(shù)量。參與包括三個二級指標(biāo):發(fā)帖量是指網(wǎng)絡(luò)中針對該網(wǎng)絡(luò)輿情的發(fā)文量。評論量和轉(zhuǎn)發(fā)量反映了與輿情相關(guān)博文的評論和轉(zhuǎn)發(fā)的數(shù)量。點贊量是指博文被點贊的次數(shù)。擴(kuò)散包含四個二級指標(biāo),用于描述索引的搜索量、發(fā)帖量、評論量和轉(zhuǎn)發(fā)量以及點贊量的變化。狀態(tài)由兩個二級索引組成。可視化是以與輿論界相關(guān)的圖片和視頻的形式描述用戶發(fā)布的博文數(shù)量占博文總數(shù)量的比例。真實性是指通過實名認(rèn)證的用戶所發(fā)布有關(guān)輿情的博文數(shù)與已發(fā)布博文總數(shù)的比值。
1.2? 計算指標(biāo)的權(quán)重
通過評論家算法計算各指標(biāo)的權(quán)重,得到各指標(biāo)的綜合評價值。評論家算法基于兩個基本概念——指標(biāo)可變性和指標(biāo)沖突——確定指標(biāo)的客觀權(quán)重。
指標(biāo)可變性是指同一指標(biāo)評價觀測值之間的差異,以標(biāo)準(zhǔn)差的形式表示。指標(biāo)之間的沖突性用相關(guān)系數(shù)來表示。若是各個指標(biāo)之間的正相關(guān)性比較高一些,表明所涉及指標(biāo)之間的沖突性比較小,指標(biāo)的權(quán)重較小。若是有N個樣本和多個評價指標(biāo),原始數(shù)據(jù)矩陣可表示為:
(1)
一般來說,每個指標(biāo)的維度是不同的。出于統(tǒng)一指標(biāo)方面的考慮,為了讓各個指標(biāo)具有可比性,需要對所獲取的初始糙數(shù)據(jù)進(jìn)行規(guī)范化操作。但是,不推薦使用標(biāo)準(zhǔn)化操作。原因是各個指標(biāo)被標(biāo)準(zhǔn)化之后標(biāo)準(zhǔn)差都是1,沒有可比性。毫無疑問,此時使用評論家方法是毫無意義的。因此,為了合理使用評論家方法,區(qū)分正、負(fù)指標(biāo),我們選擇了歸一化方法。
如果指標(biāo)為正極,則有:
(2)
如果指標(biāo)為負(fù)極,則有:
(3)
去除指標(biāo)維度對評價結(jié)果的影響后,可以分別表示指標(biāo)可變性和指標(biāo)沖突。指標(biāo)可變性為各個指標(biāo)的標(biāo)準(zhǔn)差:
(4)
(5)
指標(biāo)沖突是由不同指標(biāo)之間的系數(shù)構(gòu)成的,其中,rjk為第j個指標(biāo)選項與第k個指標(biāo)選項的系數(shù)。結(jié)合指標(biāo)可變性和指標(biāo)沖突,可以計算出各指標(biāo)的信息量:
Cj=Sj×Rj? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
最后,根據(jù)信息量確定各指標(biāo)的權(quán)重:
(7)
根據(jù)指標(biāo)選項的權(quán)重值,可以得出每個指標(biāo)項的綜合評價值,進(jìn)而對其進(jìn)行分級。
2? 遺傳算法改進(jìn)BP神經(jīng)網(wǎng)絡(luò)算法
BP神經(jīng)網(wǎng)絡(luò)算法可以在內(nèi)部訓(xùn)練和調(diào)節(jié)投入產(chǎn)出模型的映射關(guān)系[3]。結(jié)構(gòu)圖如圖1所示。x1,x2,…xn表示輸入層的神經(jīng)元。輸入層和隱含層之間的連接強(qiáng)度用wij表示。隱含層(hidden layer)與輸出層(output layer)之間的連接強(qiáng)度則用?jk表示。θj為隱含層節(jié)點的閾值。γk為輸出層節(jié)點的閾值。隱含層的激活函數(shù)為f。輸出層的激活函數(shù)為?。Ij為神經(jīng)元j的凈輸入值。
(8)
(9)
細(xì)胞傳輸?shù)男盘栐跊]有達(dá)到最大值的情況下是不會急劇增加的。Is為輸出層的輸入,Yk為輸出層的輸出。
(10)
(11)
BP神經(jīng)網(wǎng)絡(luò)的反向傳播過程和正向傳播過程構(gòu)成一個迭代,迭代在達(dá)到預(yù)測精度或滿足目標(biāo)需求時停止,此時訓(xùn)練過程結(jié)束。正向傳播是將輸入層到輸出層的數(shù)據(jù)按照相應(yīng)的權(quán)值和閾值進(jìn)行傳遞。若是在計算無誤的情況下未達(dá)到既定結(jié)點,將會進(jìn)行反向傳播。在反向傳播的過程中,需要不斷地動態(tài)更新輸入層和隱含層的權(quán)值及閾值[4],然后繼續(xù)迭代,直到滿足要求,達(dá)到預(yù)期目標(biāo)后才停止迭代。BP算法過程如圖2所示。
目前,遺傳算法的全局搜索最優(yōu)特征可以彌補(bǔ)BP神經(jīng)網(wǎng)絡(luò)算法在具體應(yīng)用過程中受初始權(quán)值影響的不足。遺傳算法的主要步驟包括編碼變量、生成初始集或初始解空間、分配適應(yīng)度值、復(fù)制、交叉、變異、迭代,直到訓(xùn)練結(jié)束。采用GA-BP神經(jīng)網(wǎng)絡(luò)算法對網(wǎng)絡(luò)輿情水平進(jìn)行預(yù)測,GA-BP算法的過程如圖3所示。
圖3中的N表示初始解空間的數(shù)量,這些初始解空間是在確定編碼方法后隨機(jī)生成的。這些末端的染色體具有極高的適應(yīng)性,用于進(jìn)一步去學(xué)習(xí)和訓(xùn)練,N還將作為神經(jīng)網(wǎng)絡(luò)的初始權(quán)重參與到運(yùn)算當(dāng)中。這種方法可以減小對BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值的影響。
GA-BP算法的運(yùn)算過程包含以下6個步驟:
(1)選用一個碼串來表示所研究問題的解,每個碼串表示一個解。
(2)隨機(jī)生成初始種群,即研究問題的初始解空間。
(3)將編碼字符串轉(zhuǎn)換為優(yōu)化參數(shù),根據(jù)編碼的目標(biāo)函數(shù)計算初始種群適應(yīng)度值。
(4)根據(jù)適應(yīng)度值依次進(jìn)行復(fù)制、交叉和變異,這樣做的目的是找到最優(yōu)個體。
(5)回到步驟3和步驟4,直到滿足終止要求。之前編碼的個體不斷進(jìn)化得到研究問題的最優(yōu)解。
(6)在網(wǎng)絡(luò)模型中引入初始權(quán)值和閾值進(jìn)行訓(xùn)練,直到達(dá)到要求的訓(xùn)練次數(shù)或是要求的誤差上限。
3? 實證分析
據(jù)官方統(tǒng)計,河南省鄭州地區(qū)自2021年7月17日至7月20日三天的降雨量就已經(jīng)達(dá)到往年一整年的降雨總量。并且自高強(qiáng)度降雨以來,已造成全省139個縣(市、區(qū))累計1 464個鄉(xiāng)鎮(zhèn)受災(zāi)[5]。在這樣一個公共事件中,關(guān)于災(zāi)情更新、支援救援信息在網(wǎng)絡(luò)中不斷傳播,形成一股輿情。本文選取河南水災(zāi)作為網(wǎng)絡(luò)輿情事件的案例進(jìn)行研究,7月17日至7月23日熱度趨勢如圖4所示。
3.1? 數(shù)據(jù)采集和預(yù)處理
網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系中,引入微博平臺和百度指標(biāo)的二級指標(biāo)數(shù)據(jù)。大部分二級索引數(shù)據(jù)可以通過微博高級搜索和百度指數(shù)直接獲得,也可以通過其他二級索引計算得到。有一部分索引數(shù)據(jù)需要借助于其他技術(shù)獲取。下面使用的數(shù)據(jù)集是通過網(wǎng)絡(luò)中的數(shù)據(jù)共享獲取的,接下來我們將詳細(xì)介紹有關(guān)新浪微博輿情數(shù)據(jù)集的構(gòu)建方法。
第一步是建立并動態(tài)維護(hù)一個高度機(jī)密的活躍微博用戶池,在所有用戶中只占據(jù)很小的比例。若要構(gòu)建微博活躍用戶池,首先建立一個包含2.5億微博用戶的池,然后根據(jù)四條規(guī)則篩選出活躍的微博用戶池,過濾規(guī)則如表3所示。由此形成了2 000萬的微博活躍用戶池,占微博用戶總數(shù)的8%。
第二步是使用Python抓取活躍用戶在指定時間內(nèi)發(fā)布的與河南水災(zāi)相關(guān)的博文,建立微博輿情數(shù)據(jù)集,接下來就可以從數(shù)據(jù)集中過濾提取出對應(yīng)的二級指標(biāo)數(shù)據(jù)。基于河南水災(zāi)的發(fā)展態(tài)勢,初步選取并收集自2021年7月20日至7月30日時間段的網(wǎng)絡(luò)輿情數(shù)據(jù)作為實驗數(shù)據(jù)。由于各指標(biāo)間差異較大,為便于后續(xù)研究,將各指標(biāo)數(shù)據(jù)按照式(2)或式(3)進(jìn)行歸一化處理。
3.2? 設(shè)置early警告級別
對網(wǎng)絡(luò)輿情的水平進(jìn)行劃分,主要目的是更好地對突發(fā)事件進(jìn)行網(wǎng)絡(luò)預(yù)警。根據(jù)前面介紹的評論家方法,計算出的權(quán)重twj(j=1,2,…,11),如表4所示。
根據(jù)各指標(biāo)的權(quán)重可計算出各時間節(jié)點的綜合評價指標(biāo)(CEI)。每個時間節(jié)點的綜合評價指標(biāo)值等于每個指標(biāo)在該時間節(jié)點的評價指標(biāo)權(quán)重值之和。例如,第1個時間節(jié)點的CEI為:
(12)
其中,為第i個時間節(jié)點第j個指標(biāo)歸一化后的值;為第i個時間節(jié)點第j個指標(biāo)的評價指標(biāo)。
因此,可以獲得每個時間節(jié)點的CEI。為便于輿情分級,將計算得到的CEI進(jìn)行適當(dāng)轉(zhuǎn)換,使其取值范圍在0~100之間。變換公式為:
(13)
根據(jù)突發(fā)公共事件可能的危機(jī)程度,劃分出一些預(yù)警等級:Ⅰ級(特別嚴(yán)重)、Ⅱ級(嚴(yán)重)、Ⅲ級(較重)和Ⅳ級(一般)[2],根據(jù)實際情況將預(yù)警等級劃分為5個等級,分別為1級(特別重大預(yù)警)、2級(重大預(yù)警)、3級(較大預(yù)警)、4級(一般預(yù)警)和5級(安全預(yù)警)。預(yù)警等級分類如表5所示。
3.3? 預(yù)警等級預(yù)測
采用GA-BP方法,要確定網(wǎng)絡(luò)的層數(shù)以及每層的節(jié)點數(shù)[6]。涉及到網(wǎng)絡(luò)結(jié)構(gòu)的輸入層(Input layer)、隱含層(hidden layer)、輸出層(output layer)。由于前面討論的網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系中有11個二級指標(biāo),因此輸入層的節(jié)點數(shù)設(shè)為11[7]。網(wǎng)絡(luò)輿情預(yù)警等級化分為5級,因此輸出層的節(jié)點數(shù)設(shè)為5。通常,隱含層節(jié)點的數(shù)量沒有確定的值,在這種情況下,使用以下公式來計算隱含層節(jié)點的數(shù)量:
N=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (14)
其中,N為隱含層節(jié)點數(shù),m為輸入層節(jié)點數(shù),m=11;n為輸出層節(jié)點數(shù),n=5;a是一個常數(shù),范圍為(0,10]。顯然,為了確定隱含層節(jié)點的數(shù)量,必須確定a的值。為此,神經(jīng)網(wǎng)絡(luò)從[0,10]開始遍歷,通過比較BP神經(jīng)網(wǎng)絡(luò)的預(yù)測性能來選擇人工神經(jīng)網(wǎng)絡(luò)的最優(yōu)值。在進(jìn)行擬合BP神經(jīng)網(wǎng)絡(luò)操作之前,對所有數(shù)據(jù)進(jìn)行上文討論的操作處理。數(shù)據(jù)分為兩類:訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。預(yù)測結(jié)果的擬合曲線如圖5所示。
使用Matlab R2016a軟件進(jìn)行操作,訓(xùn)練集和測試集的預(yù)測精度和誤差如表6所示。
如表6所示,當(dāng)a=4時,性能最好。根據(jù)式(14),設(shè)隱含層節(jié)點數(shù)N為8。因此,BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)由11個節(jié)點的輸入層、8個節(jié)點的隱含層和5個節(jié)點的輸出層組成[8]。根據(jù)11-8-5的網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)具有11×8+8=96個初始權(quán)值和8+5=13個初始閾值,共計96+13=109個初始參數(shù),亦為遺傳算法的個體編碼長度。利用神經(jīng)網(wǎng)絡(luò)預(yù)測誤差構(gòu)造適應(yīng)度函數(shù)F:
(15)
其中,K為訓(xùn)練集的樣本數(shù),為預(yù)測預(yù)警等級,yi為實際預(yù)警等級。利用適應(yīng)度函數(shù)F生成高質(zhì)量的解。亦可以借助于最優(yōu)的個體編碼值提高網(wǎng)絡(luò)模型的預(yù)測能力。為了充分利用所有數(shù)據(jù)集,對程序進(jìn)行20次的循環(huán),以獲得平均輸出,如圖6所示。該預(yù)測模型可以達(dá)到較高的精度,誤差極小。
4? 結(jié)? 論
本文通過反復(fù)整改、篩選、分析以及調(diào)研,構(gòu)建突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系,通過提出評論家方法,確定出指標(biāo)體系中所涉及的各個指標(biāo)的權(quán)重值,進(jìn)而去劃分每個時間點的網(wǎng)絡(luò)輿情預(yù)警的級別?;谶z傳算法的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)輿情的預(yù)警模型,并且對今年夏季的突發(fā)事件河南水災(zāi)進(jìn)行實例預(yù)測,結(jié)果表明,構(gòu)建出的網(wǎng)絡(luò)輿情預(yù)警模型在預(yù)測精度和均方誤差上均達(dá)到最優(yōu)水平。
參考文獻(xiàn):
[1] 馮江平,張月,趙舒貞,等.網(wǎng)絡(luò)輿情評價指標(biāo)體系的構(gòu)建與應(yīng)用 [J].云南師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2014,46(2):75-84.
[2] 李中亞,徐朝,袁旭峰.基于BP神經(jīng)網(wǎng)絡(luò)和遺傳算法的年負(fù)荷預(yù)測與分析 [J].貴州電力技術(shù),2014,17(2):19-21.
[3] 侯萍,催孟杰.基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)警研究 [J].電子商務(wù),2020(12):70-73.
[4] 王卓然,王曉雨,王博,等.微型色譜柱制備及其GC譜線分離性能的優(yōu)化 [J].微納電子技術(shù),2021,58(5):433-438+451.
[5] 徐雯.基于GA-BP網(wǎng)絡(luò)的高校創(chuàng)業(yè)人數(shù)預(yù)測研究 [J].長春工程學(xué)院學(xué)報(自然科學(xué)版),2020,21(4):90-93+116.
[6] 朱晨飛,黃淑華,何杭松,等.基于BP_Adaboost算法的網(wǎng)絡(luò)輿情危機(jī)預(yù)警 [J].中國公共安全(學(xué)術(shù)版),2017(4):95-101.
[7] 朱小波,次晉芳.基于改進(jìn)PSO-BP神經(jīng)網(wǎng)絡(luò)算法在一般盜竊犯罪預(yù)測中的應(yīng)用 [J].計算機(jī)應(yīng)用與軟件,2020,37(1):37-42+75.
[8] 孫玲芳,周加波,林偉健,等.基于BP神經(jīng)網(wǎng)絡(luò)和遺傳算法的網(wǎng)絡(luò)輿情危機(jī)預(yù)警研究 [J].情報雜志,2014,33(11):18-24.
作者簡介:陳蒙(1991—),女,漢族,河南南陽人,講師,碩士研究生,研究方向:網(wǎng)絡(luò)輿情。