黃敏,胡學(xué)鋼
1.安徽廣播電視大學(xué),合肥 230022
2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009
基于支持向量機(jī)的網(wǎng)絡(luò)輿情混沌預(yù)測(cè)
黃敏1,胡學(xué)鋼2
1.安徽廣播電視大學(xué),合肥 230022
2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009
網(wǎng)絡(luò)輿情是社會(huì)輿情的重要組成部分,相對(duì)于傳統(tǒng)新聞媒體,它的互動(dòng)性更強(qiáng),用戶既是信息接收者,又是信息發(fā)起者,使得信息在網(wǎng)絡(luò)上傳播更加及時(shí)和迅速,負(fù)面的網(wǎng)絡(luò)輿情將會(huì)對(duì)社會(huì)公共安全形成較大威脅,因此對(duì)網(wǎng)絡(luò)輿情變化進(jìn)行分析和建模,并對(duì)其發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),可以幫助有關(guān)部門制定正確的輿論引導(dǎo)策略,對(duì)維護(hù)社會(huì)和諧穩(wěn)定具有重要的現(xiàn)實(shí)意義[1-2]。
當(dāng)前網(wǎng)絡(luò)輿情預(yù)測(cè)方法主要分為兩類:傳統(tǒng)統(tǒng)計(jì)學(xué)預(yù)測(cè)方法和機(jī)器學(xué)習(xí)預(yù)測(cè)方法。傳統(tǒng)統(tǒng)計(jì)學(xué)預(yù)測(cè)方法有自回歸(AR)、滑動(dòng)平均(MA)、差分自回歸移動(dòng)平均(ARIMA)等[3-5]。該類方法簡(jiǎn)單、易實(shí)現(xiàn),尤其是ARIMA極具彈性,它可表示各種不同種類的時(shí)間序列模型,融合了時(shí)間序列分析和回歸分析的優(yōu)點(diǎn),在網(wǎng)絡(luò)輿情變化預(yù)測(cè)應(yīng)用最為廣泛,然而ARIMA是一種線性預(yù)測(cè)模型,網(wǎng)絡(luò)輿情變化受到多種因素的影響,具有非線性,ARIMA無(wú)法捕捉網(wǎng)絡(luò)輿情變化的非線性變化特點(diǎn),從而影響了預(yù)測(cè)精度[6]。機(jī)器學(xué)習(xí)算法主要有人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸機(jī)(SVR)等。該類方法基于非線性理論建模,可以更加準(zhǔn)確地描述網(wǎng)絡(luò)輿情變化,較傳統(tǒng)的線性預(yù)測(cè)模型,預(yù)測(cè)精度得到進(jìn)一步提高,結(jié)果更加理想[7-10]。由于網(wǎng)絡(luò)輿情有人的參與,用戶有自己的偏好和思想,導(dǎo)致網(wǎng)絡(luò)輿情具有較強(qiáng)混沌性,當(dāng)前機(jī)器學(xué)習(xí)算法均忽略了網(wǎng)絡(luò)輿情的混沌特性,因此建立的模型不能全面、準(zhǔn)確描述網(wǎng)絡(luò)輿情變化,預(yù)測(cè)準(zhǔn)確性有待進(jìn)一步提高[11]。
針對(duì)網(wǎng)絡(luò)輿情變化的混沌性,將混沌理論引入到網(wǎng)絡(luò)輿情建模預(yù)測(cè)中,并與SVR相結(jié)合,提出一種基于相空間重構(gòu)和支持向量回歸機(jī)相融合的網(wǎng)絡(luò)輿情預(yù)測(cè)模型(PHR-SVR),并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證PHR-SVR的有效性。
相空間重構(gòu)是混沌理論的基礎(chǔ),主要思想是:系統(tǒng)任一分量的演化是由與其相互作用的其他分量決定的,它的相關(guān)分量的信息隱藏在這一分量的演化過(guò)程中,因此可以通過(guò)分析某一分量的時(shí)間序列,了解原系統(tǒng)的動(dòng)力學(xué)特性,提取和恢復(fù)出原系統(tǒng)的規(guī)律[12]。
設(shè)時(shí)間序列為:x(t),t=1,2,…,N,通過(guò)選擇合適的嵌入維數(shù)m和延遲時(shí)間τ,就可以對(duì)其進(jìn)行重構(gòu),得到一個(gè)多維向量序列X(t),從而挖掘隱藏于時(shí)間序列的信息,恢復(fù)原動(dòng)力系統(tǒng)。
式中,M=N-(m-1)τ,M為相點(diǎn)個(gè)數(shù)。
2.1 樣本數(shù)據(jù)來(lái)源
選擇“長(zhǎng)春嬰兒隨車被盜案”作為網(wǎng)絡(luò)輿情的源事件,由于天涯社區(qū)是鳳凰網(wǎng)和艾瑞咨詢集團(tuán)共同發(fā)布的“全球中文論壇100強(qiáng)”中排名第一的論壇,在知名度和影響度上具有優(yōu)勢(shì),其數(shù)據(jù)具有代表性,因此選擇天涯社區(qū)中的論壇數(shù)據(jù)作為網(wǎng)絡(luò)輿情的數(shù)據(jù)源。從2013年3月4日上午10時(shí)天涯社區(qū)中出現(xiàn)第一個(gè)關(guān)于“長(zhǎng)春嬰兒隨車被盜案”事件的源帖開(kāi)始,到2013年3月8日10時(shí)為止,共采集96小時(shí)的帖子數(shù)作為研究對(duì)象,具體如圖1所示。
圖1 收集的網(wǎng)絡(luò)輿情數(shù)據(jù)
2.2 數(shù)據(jù)預(yù)處理
從圖1可知,網(wǎng)絡(luò)輿情變化范圍比較大,為了避免取值范圍大的數(shù)據(jù)淹沒(méi)了取值范圍小的數(shù)據(jù);且SVR核函數(shù)的值依賴于特征向量的內(nèi)積,數(shù)據(jù)過(guò)大會(huì)對(duì)訓(xùn)練過(guò)程產(chǎn)生不利影響,為此,在數(shù)據(jù)輸入到SVR之前對(duì)其進(jìn)行歸一化處理,歸一化公式為:
式中,x′表示歸一化后的值,xmax和xmin分別表示最大值和最小值[13]。
2.3 網(wǎng)絡(luò)輿情相空間重構(gòu)
2.3.1 互信息法計(jì)算延遲時(shí)間
(1)構(gòu)建網(wǎng)絡(luò)輿情量時(shí)間序列{x(t)}的二維相圖,令(x,y)=[x(t),x(t+τ)],τ=1。
(2)在二維相圖中畫(huà)出吸引子的矩形框,并將矩形框劃分成等間距的小格子,x0和y0是格子的起始點(diǎn),Δx和Δy分別是x和y方向上小格子的長(zhǎng)度,Mx和My分別是x和y方向上格子的數(shù)目。
式中,H(X)代表X的不確定程度,P(xi)是xi發(fā)生的概率,q為狀態(tài)總數(shù),H(X,Y)為X和Y的聯(lián)合信息熵,P(xi,yi)為事件xi與yi同時(shí)發(fā)生的聯(lián)合概率。
(4)令τ=τ+1,返回步驟(2)。
網(wǎng)絡(luò)輿情時(shí)間序列的互信息函數(shù)變化曲線如圖2所示。從圖2可知,當(dāng)τ=3時(shí),互信息函數(shù)達(dá)到第一極小值,所以網(wǎng)絡(luò)輿情時(shí)間序列的τ=3。
圖2 網(wǎng)絡(luò)輿情的延遲時(shí)間計(jì)算
2.3.2 G-P法選擇嵌入維數(shù)
(1)根據(jù)互信息法求出τ=3,嵌入維數(shù)的初值為m=1。
(2)選擇合適的臨界距離r,根據(jù)式(6)計(jì)算Cn(r),向量距離采用∞范數(shù)計(jì)算,即兩個(gè)向量最大分量差作為向量距離。
式中,M為相點(diǎn)的個(gè)數(shù),r為臨界距離,θ為Heaviside單位函數(shù)。
(3)用最小二乘法擬合lgC(r)n~lgr曲線中的直線段,直線的斜率為關(guān)聯(lián)維數(shù)D。
(4)增加嵌入維數(shù),即m=m+1,返回步驟(2)。
網(wǎng)絡(luò)輿情時(shí)間序列在不同嵌入維數(shù)下的關(guān)聯(lián)維數(shù),如圖3所示。從圖3可知,當(dāng)嵌入維數(shù)m=5時(shí),關(guān)聯(lián)維數(shù)達(dá)到飽和狀態(tài),這表明網(wǎng)絡(luò)輿情時(shí)間序列的最優(yōu)m=5。
圖3 網(wǎng)絡(luò)輿情的嵌入維數(shù)計(jì)算
2.4 網(wǎng)絡(luò)輿情時(shí)間序列的混沌性識(shí)別
混沌系統(tǒng)具有對(duì)初始值敏感的特性,若系統(tǒng)的最大Lyapunov指數(shù)λ1>0,則該系統(tǒng)一定是混沌的?;谛?shù)據(jù)量法求取最大Lyapunov指數(shù)計(jì)算步驟如下:
(1)對(duì)時(shí)間序列x(t),t=1,2,…,N,進(jìn)行快速傅里葉變換,計(jì)算出平均周期p。
(2)利用互信息法計(jì)算延遲時(shí)間τ。
(3)根據(jù)延遲時(shí)間τ和嵌入維數(shù)m重構(gòu)相空間X(t),t= 1,2,…,M。
(4)找相空間中每個(gè)點(diǎn)X(t)的最近鄰點(diǎn)X(t?),并限制短暫分離,即
式中,t=1,2,…,M。
(5)對(duì)相空間中每個(gè)點(diǎn)X(t),計(jì)算出該鄰域點(diǎn)對(duì)的i個(gè)離散時(shí)間步長(zhǎng)后的距離dt(i)。
式中,q為非零dt(i)的數(shù)目,并用最小二乘法做出回歸直線,該直線的斜率為最大Lyapunov指數(shù)。
通過(guò)計(jì)算得到網(wǎng)絡(luò)輿情時(shí)間序列的平均周期p=1,嵌入維數(shù)m=5,延遲時(shí)間τ=3,利用最小二乘法擬合直線,其斜率為最大Lyapunov指數(shù),得到λmax=0.001 52>0,這表明,網(wǎng)絡(luò)輿情時(shí)間序列具有弱混沌特性。
2.5 支持向量機(jī)算法
2.5.1 支持向量機(jī)回歸
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力[14]。SVR的回歸估計(jì)函數(shù)為:
式中,w表示權(quán)向量,b表示偏置向量。
使得預(yù)測(cè)的期望風(fēng)險(xiǎn)函數(shù)最?。?/p>
在求解實(shí)際問(wèn)題時(shí),只需利用支持向量進(jìn)行求解,于是回歸估計(jì)函數(shù)為:
式中,σ為徑向基核函數(shù)的寬度。
2.5.2 支持向量機(jī)回歸的網(wǎng)絡(luò)輿情預(yù)測(cè)模型
給定網(wǎng)絡(luò)輿情時(shí)間序列的數(shù)據(jù)集D={x(t),t=1,2,…,N},取延遲時(shí)間τ=3,嵌入維數(shù)m=5,按照上述的相空間重構(gòu)方法,就可以得到相空間域中的數(shù)據(jù)集為:D?={X(t), Y(t)},t=1,2,…,M,其中X(t)={}x(t),x(t+τ),…,x[t+(m-1)τ],Y(t)=x(t+1+(m-1)τ),t=1,2,…,M,寫(xiě)成矩陣形式為:
相空間域的預(yù)測(cè)模型就是用相空間中的點(diǎn)X(t)預(yù)測(cè)出Y(t),即找到一個(gè)映射函數(shù)F,使得:
本文通過(guò)利用SVR來(lái)求取該映射函數(shù),基于PHR-SVR的建模過(guò)程如圖4所示。
圖4 PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測(cè)流程
3.1 仿真環(huán)境
在PIV 3.0 GHz CPU,2 GB RAM,操作系統(tǒng)為Windows 2000環(huán)境,通過(guò)VC++編程實(shí)現(xiàn)算法。采用ARIMA、SVR(沒(méi)有相空間重構(gòu))、PHR-BPNN作為對(duì)比模型。采用均方誤差(RMSE)和平均相對(duì)百分比誤差(MAPE)作為模型優(yōu)劣評(píng)價(jià)標(biāo)準(zhǔn)。它們定義如下:
式中,xt和分別為實(shí)際值和模型預(yù)測(cè)值,n為樣本數(shù)。
3.2 結(jié)果與分析
3.2.1 一步預(yù)測(cè)
由于原始訓(xùn)練樣本為65,而且最優(yōu)嵌入維數(shù)為m=5,那么重構(gòu)后就得到66-5=61個(gè)新的訓(xùn)練集。首先采用含有61個(gè)數(shù)據(jù)進(jìn)行訓(xùn)練,并進(jìn)行一步預(yù)測(cè),然后將預(yù)測(cè)點(diǎn)的真實(shí)值加入到訓(xùn)練集中,再進(jìn)行一步預(yù)測(cè),依此類推,最后得出30個(gè)測(cè)試集的一步預(yù)測(cè)值,再將最后預(yù)測(cè)值與測(cè)試集的真實(shí)值進(jìn)行比較,并計(jì)算相應(yīng)的RMSE和MAPE。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為5-11-1;通過(guò)粒子群算法得到SVR最優(yōu)的C=100,σ=1.715,ARIMA模型選擇ARIMA(3,2,2)。各模型對(duì)網(wǎng)絡(luò)輿情測(cè)試集的預(yù)測(cè)結(jié)果如圖5所示,它們相應(yīng)的RMSE和MAPE見(jiàn)表1。
圖5 網(wǎng)絡(luò)輿情一步預(yù)測(cè)結(jié)果
表1 各模型的一步預(yù)測(cè)性能對(duì)比
從表1和圖5的結(jié)果進(jìn)行分析,可以得到如下結(jié)論:
(1)相對(duì)于ARIMA,PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測(cè)精度大幅度提高,這主要由于ARIMA無(wú)法捕捉到網(wǎng)絡(luò)輿情時(shí)間序列的非線性變化特點(diǎn),而PHR-SVR利用SVR的非線性預(yù)測(cè)能力有效提高了網(wǎng)絡(luò)輿情的預(yù)測(cè)精度。
(2)相對(duì)于SVR,PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測(cè)誤差值更小,預(yù)測(cè)值與真實(shí)值十分接近,這主要由于PHR-SVR通過(guò)采用PHR挖掘隱含于網(wǎng)絡(luò)輿情時(shí)間序列的信息,可以更加準(zhǔn)確、全面地對(duì)網(wǎng)絡(luò)輿情變化趨勢(shì)進(jìn)行描述,得到更加可靠的預(yù)測(cè)結(jié)果,進(jìn)一步提高了網(wǎng)絡(luò)輿情預(yù)測(cè)精度。
(3)相對(duì)于PHR-BPNN,PHR-SVR的預(yù)測(cè)結(jié)果始終比較穩(wěn)定,且預(yù)測(cè)結(jié)果的RMSE、MAPE值遠(yuǎn)遠(yuǎn)小于PHR-BPNN,這主要由于SVR很好地克服了BP神經(jīng)網(wǎng)絡(luò)過(guò)擬合、局部極小和網(wǎng)絡(luò)參數(shù)難以確定的難題,泛化能力更強(qiáng),預(yù)測(cè)精度更高。
3.2.2 多步預(yù)測(cè)
網(wǎng)絡(luò)輿情預(yù)測(cè)時(shí)間一般要求有較大的提前量,采用一步預(yù)測(cè)(即僅對(duì)當(dāng)前時(shí)間下一小時(shí)網(wǎng)絡(luò)輿情進(jìn)行預(yù)測(cè)),既不能有效反映網(wǎng)絡(luò)輿情變化趨勢(shì),也無(wú)法針對(duì)一些負(fù)面網(wǎng)絡(luò)輿情作出有效和及時(shí)的應(yīng)對(duì),因此,有必要將一步預(yù)測(cè)擴(kuò)展到多步預(yù)測(cè)方法,于是采用多步預(yù)測(cè)法預(yù)測(cè)未來(lái)24 h的網(wǎng)絡(luò)輿情,所有模型均采用迭代法的多步預(yù)測(cè)法,即重復(fù)使用一步向前預(yù)測(cè)若干次,并把上一次的預(yù)測(cè)值視做系統(tǒng)輸出真值,應(yīng)用于下一次預(yù)測(cè)中[15]。各模型的預(yù)測(cè)結(jié)果真實(shí)值與預(yù)測(cè)值對(duì)比見(jiàn)圖6。它們的RMSE和MAPE見(jiàn)表2。
從圖6和表2可以看出,ARIMA、SVR、PHR-BPNN網(wǎng)絡(luò)輿情的多步預(yù)測(cè)精度較低,誤差相當(dāng)高,預(yù)測(cè)結(jié)果不可靠,預(yù)測(cè)結(jié)果實(shí)際應(yīng)用價(jià)值較低,而PHR-SVR預(yù)測(cè)誤差明顯小于對(duì)比模型,而且PHR-SVR對(duì)網(wǎng)絡(luò)輿情變化的趨勢(shì)預(yù)測(cè)比較準(zhǔn)確,預(yù)測(cè)性能要優(yōu)于對(duì)比模型,預(yù)測(cè)結(jié)果具有較大的實(shí)際價(jià)值。
圖6 多步預(yù)測(cè)法的預(yù)測(cè)結(jié)果對(duì)比
表2 各模型的多步預(yù)測(cè)性能對(duì)比
3.2.3 其他網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測(cè)
為了使模型的性能更具說(shuō)服力,采用2013年4月最熱門的話題“解放軍新式軍車號(hào)牌曝光”、“蘋果公司向中國(guó)消費(fèi)者致歉”、“美媒體稱中國(guó)向中朝邊境調(diào)軍隊(duì)”、“浙江大姐中國(guó)式過(guò)馬路被罰,追著交警吐口水”、“日本允許臺(tái)灣漁船在釣魚(yú)島捕魚(yú)”、“劉志軍被曝光涉嫌受賄6千萬(wàn)元”進(jìn)行測(cè)試實(shí)驗(yàn),得到的一步預(yù)測(cè)誤差見(jiàn)表3。從表3可知,PHR-SVR獲得較好的預(yù)測(cè)精度,預(yù)測(cè)誤差控制在有效的范圍(5%)以內(nèi),結(jié)果表明,PHR-SVR是一種預(yù)測(cè)精度高、通用性好的網(wǎng)絡(luò)輿情預(yù)測(cè)模型。
表3 PHR-SVR對(duì)其他網(wǎng)絡(luò)熱點(diǎn)話題一步預(yù)測(cè)誤差
網(wǎng)絡(luò)輿情受到多種影響因素的綜合影響,具有時(shí)變性、混沌性,是一種復(fù)雜的變化系統(tǒng),傳統(tǒng)預(yù)測(cè)算法難以建立準(zhǔn)確的預(yù)測(cè)模型。針對(duì)網(wǎng)絡(luò)輿情的混沌變化特點(diǎn),采用混沌理論和SVR建立了一種基于PHR-SVR的網(wǎng)絡(luò)輿情預(yù)測(cè)模型。結(jié)果表明:相對(duì)于對(duì)比模型,PHR-SVR提高了網(wǎng)絡(luò)輿情預(yù)測(cè)精度,預(yù)測(cè)結(jié)果更加穩(wěn)定,更加準(zhǔn)確描述了網(wǎng)絡(luò)輿情復(fù)雜的變化趨勢(shì),預(yù)測(cè)結(jié)果有助于正確把握網(wǎng)絡(luò)輿情的發(fā)展,從而有助于科學(xué)合理地引導(dǎo)、管理各種網(wǎng)絡(luò)輿情傳播平臺(tái),促進(jìn)和諧社會(huì)構(gòu)建工作的開(kāi)展。
[1]王來(lái)華.輿情研究概論——理論、方法和現(xiàn)實(shí)熱點(diǎn)[M].天津:天津社會(huì)科學(xué)院出版社,2007.
[2]方薇,何留進(jìn),宋良圖.因特網(wǎng)上輿情傳播的預(yù)測(cè)建模和仿真研究[J].計(jì)算機(jī)科學(xué),2012,39(2):203-207.
[3]劉常昱,胡曉峰,司光亞,等.基于小世界網(wǎng)絡(luò)的輿論傳播模型研究[J].系統(tǒng)仿真學(xué)報(bào),2006,18(12):608-6l0.
[4]錢愛(ài)玲,瞿彬彬,盧炎生,等.多時(shí)間序列關(guān)聯(lián)規(guī)則分析的論壇輿情趨勢(shì)預(yù)測(cè)[J].南京航空航天大學(xué)學(xué)報(bào),2012,44(6):904-910.
[5]高輝,王沙沙,傅彥.Web輿情的長(zhǎng)期趨勢(shì)預(yù)測(cè)方法[J].電子科技大學(xué)學(xué)報(bào),201l,40(3):440-445.
[6]張虹,鐘華,趙兵.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢(shì)預(yù)報(bào)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31):159-161.
[7]方薇,何留進(jìn).采用元胞自動(dòng)機(jī)的網(wǎng)絡(luò)輿情傳播模型研究[J].計(jì)算機(jī)應(yīng)用,2010,30(3):751-755.
[8]劉勘,李晶,劉萍.基于馬爾可夫鏈的輿情熱度趨勢(shì)分析[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(36):170-173.
[9]周耀明,李弼程.一種自適應(yīng)網(wǎng)絡(luò)輿情演化建模方法[J].數(shù)據(jù)采集與處理,2013,28(1):69-75.
[10]Zeng J P,Zhang S Y,Wu C R,et al.Predictive model for Internet public opinion[C]//Fourth International Conference on Fuzzy Systems and Knowledge Discovery.Haikou:IEEE Press,2007:7-11.
[11]Zeng J P,Zhang S Y,Wu C R,et al.Modeling topic propagation over the Internet[J].Mathematical and Computer Modeling of Dynamic Systems,2009,15(1):83-93.
[12]張春濤,馬千里,彭宏.基于信息熵優(yōu)化相空間重構(gòu)參數(shù)的混沌時(shí)間序列預(yù)測(cè)[J].物理學(xué)報(bào),2010,59(11):7623-7629.
[13]黃虎,蔣葛夫,嚴(yán)余松,等.基于支持向量回歸機(jī)的區(qū)域物流需求預(yù)測(cè)模型及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2008,25(9):2738-2740.
[14]趙云,肖嵬,陳阿林.基于加權(quán)支持向量回歸的網(wǎng)絡(luò)流量預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(21):103-106.
[15]洪貝,胡昌華,姜學(xué)鵬.基于證據(jù)理論的迭代多步預(yù)測(cè)方法研究[J].控制理論與應(yīng)用,2010,27(12):1737-1742.
HUANG Min1,HU Xuegang2
1.Anhui Radio&TV University,Hefei 230022,China
2.School of Computer and Information,Hefei University of Technology,Hefei 230009,China
In order to improve the prediction accuracy of internet public opinion,this paper proposes an internet public opinion prediction model based on chaotic theory and Support Vector Regression.The internet public opinion time series proves to be with chaos characteristics,and then delay time and embedding dimension are calculated using mutual information method and G-P method respectively according to takens theorem,and the internet public opinion time series is reconstructed in phase space. The internet public opinion forecasting model is established using Support Vector Regression,and the simulation experiment is carried out with comparison models.The experimental results show that,compared with other models,the proposed model has improved the prediction accuracy and stability of internet public opinion and the prediction results have practical value.
internet public opinion;Support Vector Regression(SVR);phase space reconstruction;chaotic theory
精確預(yù)測(cè)網(wǎng)絡(luò)輿情發(fā)展趨勢(shì),對(duì)防止負(fù)面網(wǎng)絡(luò)輿情對(duì)公共安全威脅具有重要意義,針對(duì)網(wǎng)絡(luò)輿情變化的時(shí)變性、混沌性,提出一種基于支持向量機(jī)的網(wǎng)絡(luò)輿情混沌預(yù)測(cè)模型(PHR-SVR)。證明了網(wǎng)絡(luò)輿情具有混沌特性,根據(jù)Takens定理分別采用互信息法和G-P法確定延遲時(shí)間和嵌入維數(shù)重構(gòu)網(wǎng)絡(luò)輿情時(shí)間序列相空間;在相空間中,利用支持向量回歸機(jī)(SVR)建立網(wǎng)絡(luò)輿情預(yù)測(cè)模型,與其他預(yù)測(cè)模型進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,相對(duì)于對(duì)比模型,PHR-SVR提高了網(wǎng)絡(luò)輿情的預(yù)測(cè)精度和可靠性,預(yù)測(cè)結(jié)果具有一定實(shí)用價(jià)值。
網(wǎng)絡(luò)輿情;支持向量回歸機(jī);相空間重構(gòu);混沌理論
A
TP393
10.3778/j.issn.1002-8331.1307-0248
HUANG Min,HU Xuegang.Internet public opinion chaotic prediction based on Support Vector Regression machine. Computer Engineering and Applications,2013,49(24):130-134.
安徽省教育廳自然科學(xué)基金(No.KJ2013B091)。
黃敏(1977—),女,講師,研究方向:數(shù)據(jù)挖掘;胡學(xué)鋼(1961—),男,教授,博士生導(dǎo)師,研究方向:知識(shí)工程,數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)。
2013-07-19
2013-09-04
1002-8331(2013)24-0130-05
CNKI出版日期:2013-10-17http://www.cnki.net/kcms/detail/11.2127.TP.20131017.1529.020.html