王陽
[摘要]互聯(lián)網(wǎng)的飛躍發(fā)展,既孕育著機(jī)遇,同時也帶來了前所未有的挑戰(zhàn)。網(wǎng)絡(luò)輿情的特點使其成為一把雙刃劍。為此,本文通過對微博文本的獲取與處理,得到關(guān)于該微博熱門話題的基于時間序列的離散數(shù)據(jù)序列,然后采用萬有引力算法優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)對微博輿情進(jìn)行預(yù)測。通過微博輿情的時間序列進(jìn)行實證研究,在預(yù)測性能上與現(xiàn)有的預(yù)測模型進(jìn)行對比,證明該模型在該預(yù)測領(lǐng)域的可行性和有效性。
[關(guān)鍵詞]RBF神經(jīng)網(wǎng)絡(luò);微博輿情;萬有引力算法;預(yù)測模型
[中圖分類號]TP183 [文獻(xiàn)標(biāo)識碼]A 文章編號:1671-0037(2016)12-32-4
1引言
隨著網(wǎng)絡(luò)的興起和網(wǎng)絡(luò)技術(shù)的普及,微博走人更多普通大眾的生活,影響力越來越大。社會各界越來越重視微博上的輿情。由于在微博上發(fā)布消息具有及時性、任意性,并且信息傳播很迅速,傳播的范圍廣泛,造成微博上的信息既有真實的,也有虛假的。一些人利用微博傳播謠言,污染社會環(huán)境,對人民生活造成很大的負(fù)面影響。但是,由于微博平臺用戶數(shù)量巨大、每天產(chǎn)生海量輿情信息量,靠人工被動檢測無法滿足監(jiān)管要求。因此,研究微博輿情預(yù)測模型具有重要的現(xiàn)實意義。
目前,可以用于網(wǎng)絡(luò)輿情發(fā)展趨勢預(yù)測分析的方法有最小均方算法差分、混沌系統(tǒng)、自回歸移動平均(ARIMA)、動力系統(tǒng)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。由于網(wǎng)絡(luò)輿情發(fā)展趨勢的預(yù)測具有復(fù)雜性和非線性、采用傳統(tǒng)統(tǒng)計學(xué)的方法具有一定的局限性,機(jī)器學(xué)習(xí)方法中支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)是目前用于非線性系統(tǒng)預(yù)測最主要的兩種方法。支持向量機(jī)是基于統(tǒng)計學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法,它在解決非線性問題中表現(xiàn)出很多優(yōu)勢,但是對比神經(jīng)網(wǎng)絡(luò)類的算法在預(yù)測準(zhǔn)確性沒有太大的優(yōu)勢,而且算法對參數(shù)的選擇很大程度上依賴于人工。人工神經(jīng)網(wǎng)絡(luò)經(jīng)過長時間的訓(xùn)練,對非線性函數(shù)可以達(dá)到任意精度。
目前RBF神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛和成功的神經(jīng)網(wǎng)絡(luò)之一,它結(jié)構(gòu)簡單、可塑性強(qiáng),并且具有全局最優(yōu)逼近能力與良好的推廣能力,但是在進(jìn)行輿情預(yù)測的時候,RBF神經(jīng)網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性與神經(jīng)網(wǎng)絡(luò)基函數(shù)的中心,方差(寬度)以及隱含層到輸出層的權(quán)值有著密切的聯(lián)系。傳統(tǒng)的RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)選擇限制了在網(wǎng)輿情預(yù)測中的應(yīng)用。
引力搜索算法(gravitational search algorithm,GSA)是伊朗科爾曼大學(xué)的Rashedi等于2009年底提出的一種種群優(yōu)化算法,算法的提出基于萬有引力定律和牛頓第二定律。文獻(xiàn)[18]驗證了相比遺傳算法等,在全局尋優(yōu)能力上,GSA的性能有明顯的優(yōu)勢。目前,GSA已經(jīng)成功應(yīng)用于機(jī)器學(xué)習(xí)、電力系統(tǒng)優(yōu)化、模式識別等領(lǐng)域。
在對微博輿情的預(yù)測中,本文引入了萬有引力算法來優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)隱層單元數(shù)通過聚類算法確定后,采用GSA優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)。仿真實驗證明算法具有較好的非線性擬合能力和較高的預(yù)測精度。
2 RBF神經(jīng)網(wǎng)絡(luò)
RBF神經(jīng)網(wǎng)絡(luò)是一種前饋型式神經(jīng)網(wǎng)絡(luò),其結(jié)果如圖1所示。
圖1 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
類似于多層前向網(wǎng)絡(luò),RBF網(wǎng)絡(luò)是由三層網(wǎng)絡(luò)組成的。第一層輸入層由感知單元組成;第二層為隱含層,根據(jù)實際問題的需要,隱單元的個數(shù)選取會相應(yīng)不同,徑向基函數(shù)是隱單元的轉(zhuǎn)換函數(shù);第三層為輸出層,是對隱單元輸出的線性加權(quán)和,學(xué)習(xí)速度快。
RBF神經(jīng)網(wǎng)絡(luò)主要由以下兩個部分構(gòu)成,如下式
(1)、(2)所示:
RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測性能取決于對這些參數(shù)的選取。因此,必須采用合適的優(yōu)化算法,選取最優(yōu)的參數(shù),以用來在預(yù)測時提高模型的性能。
3萬有引力算法
3.1改進(jìn)的萬有引力算法
3.1.1改進(jìn)引力系數(shù)。對于GSA來說,引力系數(shù)G(t)是一個重要的參數(shù)。在尋優(yōu)的開始階段,GSA需要一個較大的G(t)去引導(dǎo)種群快速地探索尋優(yōu)區(qū)域;但是在尋優(yōu)的后期過程中,算法需要較小的G(t)在搜索空間中執(zhí)行局部搜索。在標(biāo)準(zhǔn)GSA中,G(t)是指數(shù)函數(shù),下降速度很快,導(dǎo)致GSA的全局搜索能力迅速衰退,降低全局收斂速度。
為了使GSA探索最優(yōu)解空間更快更準(zhǔn)確,使用線性函數(shù)對引力系數(shù)G(t)進(jìn)行改進(jìn),公式如下所示:
在每一代中,當(dāng)一個新位置的適應(yīng)度值小于原先的那個時,它就可以取代當(dāng)前個體的位置。
4基于改進(jìn)GSA算法的RBF神經(jīng)網(wǎng)絡(luò)算法的設(shè)計
將RBF神經(jīng)網(wǎng)絡(luò)的主要參數(shù),編碼成每個粒子的位置。種群按照引力算法尋優(yōu)過程不斷優(yōu)化直至找到最優(yōu)個體。將萬有引力算法得到的最優(yōu)個體對RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行賦值。
算法的基本步驟如下:
①使用K-均值方法確定聚類中心的位置和個數(shù);
②設(shè)定算法的參數(shù):種群規(guī)模N,引力系數(shù)G0以及β,最大迭代次數(shù)。并將神經(jīng)網(wǎng)絡(luò)參數(shù)作為GSA和IGSA的位置進(jìn)行優(yōu)化;
③計算每個個體此時的適應(yīng)度值;
④計算個體的Mi(t),根據(jù)公式更新G(t);
⑤計算每個個體所受力的總和,根據(jù)公式計算粒子的加速度;
⑥更新個體的速度和位置;
⑦判斷是否滿足收斂條件,滿足,輸出結(jié)果;否則,執(zhí)行③。
5仿真實驗
5.1微博輿情時間序列的獲取
獲取實驗數(shù)據(jù)的步驟:首先通過調(diào)用新浪微博開放平臺接口,采集微博數(shù)據(jù),存入數(shù)據(jù)庫;然后采用聚類方法獲取時間段內(nèi)的微博熱點話題;最后統(tǒng)計出微博話題時間數(shù)據(jù)序列,得到實驗數(shù)據(jù)。
5.2輿情預(yù)測模型驗證
將“雙十一”等網(wǎng)絡(luò)輿情發(fā)展趨勢時間序列數(shù)據(jù)從2015年11月1日到12月5日產(chǎn)生的35個分量的時間序列數(shù)據(jù)分成兩個樣本數(shù)據(jù)集,分別用來訓(xùn)練和預(yù)測神經(jīng)網(wǎng)絡(luò)模型。表1為各種算法的預(yù)測精度對比。圖3給出了不同算法在“雙十一”網(wǎng)絡(luò)輿情發(fā)展趨勢在10個預(yù)測樣本中的預(yù)測實驗結(jié)果分析。
實驗主要分為兩個部分,第一部分驗證了文本聚類算法的有效性;第二部分驗證改進(jìn)萬有引力算法優(yōu)化的微博輿情預(yù)測模型的有效性。在實驗中,通過對三個模型的實驗結(jié)果進(jìn)行對比發(fā)現(xiàn),模型3對微博輿情的預(yù)測精度及速度最好。本文的算法模型可以更好地預(yù)測網(wǎng)絡(luò)話題的發(fā)展趨勢,預(yù)測結(jié)果有利于政府對輿情信息的監(jiān)控和引導(dǎo),也有利于社會的和諧穩(wěn)定。
6結(jié)論
由于預(yù)測的目標(biāo)、內(nèi)容、范圍不同,形成了多樣化的預(yù)測方法。一般預(yù)測方法的模型構(gòu)建是非常有難度的。本文運(yùn)用改進(jìn)神經(jīng)網(wǎng)絡(luò)構(gòu)建預(yù)測模型,實現(xiàn)更好地描述網(wǎng)絡(luò)輿情的發(fā)展趨勢,預(yù)測結(jié)果利于政府對輿情信息的監(jiān)控和引導(dǎo),也有利于社會的和諧穩(wěn)定。