王雪松,趙躍龍
1.佛山職業(yè)技術(shù)學(xué)院電子信息系,廣東佛山528137
2.華南理工大學(xué)計算機科學(xué)與工程學(xué)院,廣州510640
近年來,互聯(lián)網(wǎng)始終處于一種高速發(fā)展的態(tài)勢,相對于10年前網(wǎng)絡(luò),目前網(wǎng)絡(luò)覆蓋面更廣,用戶數(shù)量更龐大,應(yīng)用范圍更寬,這些變化給人們帶來了方便的同時,也給網(wǎng)絡(luò)管理帶來巨大挑戰(zhàn)[1]。網(wǎng)絡(luò)流量預(yù)測可以發(fā)現(xiàn)網(wǎng)絡(luò)流量異常,有利于更好地管理網(wǎng)絡(luò),受到網(wǎng)絡(luò)研究工作者關(guān)注[2]。
傳統(tǒng)網(wǎng)絡(luò)流量預(yù)測方法主要有自回歸法(AR)、自回歸移動平均(ARMA)等線性預(yù)測技術(shù),尤其是ARMA模型融合了回歸分析和時間序列分析功能,在網(wǎng)絡(luò)流量預(yù)測中取得了不錯效果[3-4]。隨著網(wǎng)絡(luò)流量研究的不斷深入,研究者們發(fā)現(xiàn)網(wǎng)絡(luò)流量不僅具有線性變化特性,同時具有隨機、混沌性和突變性等非線性變化特性,而傳統(tǒng)方法無法描述網(wǎng)絡(luò)流量的非線性變化特性,應(yīng)用范圍受限[5]。隨著非線性理論發(fā)展,出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)、支持向量機、相關(guān)向量機等網(wǎng)絡(luò)流量預(yù)測模型,并且獲得了較理想的預(yù)測效果[6-9]。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練樣本數(shù)量大的條件下,才可以獲得較高的網(wǎng)絡(luò)流量預(yù)測精度,當(dāng)訓(xùn)練樣本有限時,預(yù)測結(jié)果存在過擬合現(xiàn)象;支持向量機、相關(guān)向量機雖然泛化能力優(yōu)異,但是存在訓(xùn)練耗時長,效率低,不能滿足網(wǎng)絡(luò)流量在線的要求[10-11]。正則化回聲狀態(tài)網(wǎng)絡(luò)模型(Regularized Echo State Network,RESN)是一種新型的神經(jīng)網(wǎng)絡(luò),不僅克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)過擬合的缺陷,同時解決了支持向量機等訓(xùn)練效率低的缺陷,在網(wǎng)絡(luò)流量預(yù)測中得了廣泛的應(yīng)用[12]。但是大量研究表明,RESN雖然可以獲得較好的非線性網(wǎng)絡(luò)流量預(yù)測結(jié)果,但是實際網(wǎng)絡(luò)流量受到多種因素綜合影響,不僅存在非線性變化特性,同時存在線性變化特性,這樣RESN難以對線性變化特性準(zhǔn)確刻畫。因此對于復(fù)雜多變的網(wǎng)絡(luò)流量,單一的RESN或ARMA均難以建立準(zhǔn)確的預(yù)測模型,預(yù)測精度有待進一步提高。
針對ARMA和RESN存在的不足,為了獲得更加理想的網(wǎng)絡(luò)流量預(yù)測結(jié)果,提出一種基于ARMA-RESN的網(wǎng)絡(luò)流量預(yù)測模型(ARMA-RESN)。首先利用ARMA強大的線性擬合能力,對網(wǎng)絡(luò)流量進行建模,得到線性變化預(yù)測結(jié)果,然后采用非線性捕捉能力優(yōu)異的RESN對網(wǎng)絡(luò)流量非線性變化特性進行預(yù)測,對兩者預(yù)測值進行融合得到網(wǎng)絡(luò)流量的最終預(yù)測結(jié)果,并采用具體網(wǎng)絡(luò)流量數(shù)據(jù)進行仿真實驗,以驗證ARMA-RESN的可行性和優(yōu)越性。
ARMA是一種線性預(yù)測能力優(yōu)異的時間序列模型,其由AR和移動平均(MA)兩部分組成,描述當(dāng)前時刻預(yù)測值同時與以前時刻自身值和誤差擾動直接相關(guān)。當(dāng)AR=0時,ARMA模型變化為MA(q)模型,MA=0時,ARMA模型變?yōu)锳R(p)模型[13]。AR(p)模型為:
式中,ε(t)表示誤差;v和φi(i=1,2,…,p)為待估計的參數(shù)。
如果ε(t)自相關(guān),那么MA(q)模型可以表示為:
式中,Θj(j=1,2,…,q)為待估計的參數(shù);a(t)是零均值白噪聲。
綜合上述可知,ARMA(p,q)模型為:
如果階數(shù)n比較大,那么AR(n)模型可以近似等價為ARMA(p,q),則有:
式中,an(t)表示階數(shù)為n時的誤差項。
根據(jù)式(5)可以得到an(t)的估計值:
根據(jù)式an(t)可以建立ARMA(p,q)模型:
通過采用AIC準(zhǔn)則確定ARMA模型的參數(shù)n、p和q,即:
RESN是一種由輸入層、內(nèi)部儲備池和輸出層組成的非線性遞歸神經(jīng)網(wǎng)絡(luò),儲備池起到存儲歷史信息的作用,是RESN的核心部分,保證了網(wǎng)絡(luò)的回聲性質(zhì)。RESN狀態(tài)方程為:
式中,sigmoid為激活函數(shù);Win和Wx分別為輸入和儲備池內(nèi)部的連接矩陣;u(t)、x(t)分別表示t時刻的輸入向量和儲備池內(nèi)部狀態(tài)向量。
那么RESN的輸出方程為:
式中,y(t)為t時刻的輸出向量;Wout為輸出連接向量,是惟一需要通過訓(xùn)練進行求解的參數(shù)。
輸出權(quán)值對RESN性能起著關(guān)鍵作用,常采用最小二乘法進行求解,目標(biāo)函數(shù)的最小化形式為:
式中,X=[x(1),x(2),…,x(l)]T,Y=[y(1),y(2),…,y(l)]T,X∈Rl×N,N為儲備池節(jié)點數(shù);l為訓(xùn)練樣本數(shù)。
對于大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù),訓(xùn)練樣本數(shù)常大于儲備池節(jié)點數(shù),那么,根據(jù)式(10)得到解:
設(shè)狀態(tài)矩陣X的奇異值分解為:
式中,U=(u1,u2,…,ul)和V=(v1,v2,…,vl)是酉陣,對角矩陣Σ=diag(σ1,…,σr,σr+1,…,σN)。
如果X的秩為r,那么奇異值為:
X+可以描述為:
有
對于實際采集的網(wǎng)絡(luò)流量數(shù)據(jù)常含有擾動信號ep,則目標(biāo)值變?yōu)?Y+ep,輸出權(quán)值計算公式變?yōu)椋?/p>
根據(jù)式(16)可知,奇異值大小與輸出權(quán)值幅值是一種反比例關(guān)系,如果奇異值過小,那么RESN模型就會得到病態(tài)解,ep對過大,網(wǎng)絡(luò)泛化性能就越差。為解決該難題,在目標(biāo)函數(shù)中增加正則項,并將嶺回歸方法應(yīng)用于RESN模型的儲備池網(wǎng)絡(luò)中,以提高泛化能力,那么有:值產(chǎn)生不利影響。
式中,u∈R+表示正則項系數(shù)。
其與最小化代價函數(shù)等價:
由于施加正則項,防止σi過小現(xiàn)象的發(fā)生,使輸出權(quán)值幅值減小,對模型誤差項和復(fù)雜度進行較好的平衡,使RESN模型具有更優(yōu)的泛化能力。
RESN可以對非線性函數(shù)輸入、輸出映射的關(guān)系進行較好擬合,然而網(wǎng)絡(luò)流量受到多種因素影響,實際收集的網(wǎng)絡(luò)流量數(shù)據(jù)一般包括非線性和線性特性,因此RESN對于網(wǎng)絡(luò)流量的線性性能不能較好刻畫,難以得到滿意的網(wǎng)絡(luò)流量預(yù)測效果。鑒于以上分析,提出一種ARMA-RESN的網(wǎng)絡(luò)流量預(yù)測模型(ARMA-RESN),采用ARMA和RESN分別對網(wǎng)絡(luò)流量線性和非線性特性進行建模與預(yù)測,以刻畫網(wǎng)絡(luò)流量的動力學(xué)變化特性,以提高預(yù)測精度。ARMA-RESN的網(wǎng)絡(luò)流量預(yù)測模型工作流程如圖1所示。
圖1 網(wǎng)絡(luò)流量的工作流程圖
為驗證ARMA-RESN網(wǎng)絡(luò)流量預(yù)測模型的有效性,數(shù)據(jù)源于標(biāo)準(zhǔn)流量文庫:http://netnew s.nctu.edu.tw/~new s/innreport/的每小時網(wǎng)絡(luò)訪問流量作為仿真對象,共獲得3 000個數(shù)據(jù),具體如圖2所示。選擇前2 500個數(shù)據(jù)作為訓(xùn)練集,建立網(wǎng)絡(luò)流量預(yù)測模型,其余500個樣本作為測試集對模型性能進行檢驗。
圖2 標(biāo)準(zhǔn)文庫的網(wǎng)絡(luò)流量數(shù)據(jù)
同時為了測試ARMA-RESN的魯棒性,采用含有噪聲的網(wǎng)絡(luò)流量進行對比仿真實驗,具體如圖3所示,其中前800個數(shù)據(jù)作為訓(xùn)練集,其余200個數(shù)據(jù)作為測試。所有仿真實驗環(huán)境均為W indow s XP操作系統(tǒng),Intel?CoreTMi3-2120 2.8 GHz CPU,4 GB RAM,采用VC++編程實現(xiàn)。
圖3 含噪的網(wǎng)絡(luò)流量數(shù)據(jù)
ARMA對圖2的網(wǎng)絡(luò)流量的預(yù)測結(jié)果及預(yù)測誤差如圖4和5所示,對含噪的網(wǎng)絡(luò)流量的預(yù)測結(jié)果及預(yù)測誤差如圖6和7所示。從圖4~7可知,ARMA可以較好地對網(wǎng)絡(luò)流量的線性變化規(guī)律進行描述,但是預(yù)測結(jié)果誤差比較大,尤其對于含噪網(wǎng)絡(luò)流量數(shù)據(jù),預(yù)測誤差大幅度增加,預(yù)測結(jié)果極不穩(wěn)定。這表明ARMA不能對非線性、隨機變化特點進行準(zhǔn)確描述,難以建立預(yù)測精度高的網(wǎng)絡(luò)流量預(yù)測模型,應(yīng)用范圍受限。
圖4 ARMA的標(biāo)準(zhǔn)網(wǎng)絡(luò)流量預(yù)測結(jié)果
圖5 ARMA的標(biāo)準(zhǔn)網(wǎng)絡(luò)流量預(yù)測誤差
圖6 RESN的含噪網(wǎng)絡(luò)流量預(yù)測結(jié)果
圖7 RESN的含噪網(wǎng)絡(luò)流量預(yù)測誤差
圖8 標(biāo)準(zhǔn)網(wǎng)絡(luò)流量的延遲時間計算
圖9 標(biāo)準(zhǔn)網(wǎng)絡(luò)流量的嵌入維數(shù)計算
圖10 含噪網(wǎng)絡(luò)流量的延遲時間計算
圖11 含噪網(wǎng)絡(luò)流量的嵌入維數(shù)計算
計算網(wǎng)絡(luò)流量真實值與ARMA的預(yù)測結(jié)果之間的誤差,得到殘差序列,然后采用相關(guān)系數(shù)法和關(guān)聯(lián)維法分別確定殘差序列的延遲時間和嵌入維數(shù),分別如圖8~圖11所示。從圖8~圖11可知,對于標(biāo)準(zhǔn)網(wǎng)絡(luò)流量數(shù)據(jù),最優(yōu)延遲時間τ=3,m=5。對于含噪網(wǎng)絡(luò)流量數(shù)據(jù),最優(yōu)延遲時間τ=6,m=3。
采用τ=3,m=5對標(biāo)準(zhǔn)網(wǎng)絡(luò)流量數(shù)據(jù)進行重構(gòu),τ=6,m=3對含噪網(wǎng)絡(luò)流量數(shù)據(jù)進行重構(gòu),建立相應(yīng)的RESN網(wǎng)絡(luò)流量預(yù)測模型,它們的預(yù)測結(jié)果分別如圖12和圖13所示。從圖12和圖13可知,RESN模型可以對網(wǎng)絡(luò)流量的非線性變化特征進行準(zhǔn)確刻畫,預(yù)測十分理想。然后將ARMA和RESN的預(yù)測結(jié)果進行融合,得到網(wǎng)絡(luò)流量的最終預(yù)測結(jié)果,分別如圖14和15所示。從圖14和15可知,ARMA-RESN的預(yù)測精度相當(dāng)?shù)母?,網(wǎng)絡(luò)流量的實際值和預(yù)測值吻合得相當(dāng)?shù)暮茫A(yù)測誤差相當(dāng)小,預(yù)測誤差變化比較平穩(wěn),網(wǎng)絡(luò)流量預(yù)測結(jié)果十分可靠。
圖12 RESN的標(biāo)準(zhǔn)網(wǎng)絡(luò)流量殘差預(yù)測結(jié)果
圖13 RESN的含噪網(wǎng)絡(luò)流量殘差預(yù)測結(jié)果
圖14 ARMA-RESN的標(biāo)準(zhǔn)網(wǎng)絡(luò)流量預(yù)測結(jié)果
圖15 ARMA-RESN的含噪網(wǎng)絡(luò)流量預(yù)測結(jié)果
為了使ARMA-RESN的網(wǎng)絡(luò)流量預(yù)測結(jié)果具有可比性,選擇ARMA、RESN、支持向量機(RVM)、RBF神經(jīng)網(wǎng)絡(luò)(RBFNN)、文獻[14]的改進RESN模型(SVESM)和文獻[15]的改進RESN模型(ESGP)進行對比實驗。采用均方根誤差(RMSE)和平均絕對百分率誤差(MAPE)作為預(yù)測性能的評價指標(biāo),它們計算公式為:
對于網(wǎng)絡(luò)流量測試集,不同模型的預(yù)測誤差見表1。對表1的各模型誤差進行分析可以得到如下結(jié)論:
(1)單一ARMA模型和RESN模型的網(wǎng)絡(luò)流量預(yù)測誤差比較大,主要由于網(wǎng)絡(luò)流量受到多種因素綜合影響,具有時變性、非線性、自相似性等變化特點,單一線性或非線性模型難以建立預(yù)測精度高的網(wǎng)絡(luò)流量預(yù)測模型,應(yīng)用范圍受限。
(2)相對于ARMA模型,改進RESN模型(ESGP、SVESM)獲得較高的預(yù)測精度,這主要是由于改進RESN模型具有更強的非線性建模能力,因此獲得比較理想的網(wǎng)絡(luò)流量預(yù)測結(jié)果。
(3)相對于SVM、RBFNN,ARMA-RESN的預(yù)測誤差更小,預(yù)測精度更高,這表明ARMA-RESN較好地克服了SVM、RBFNN的不足,預(yù)測結(jié)果更優(yōu)。
(4)ARMA-RESN預(yù)測值與網(wǎng)絡(luò)流量真實值偏差最小,預(yù)測精度最高,明顯好于其他模型。主要因為實際收集的網(wǎng)絡(luò)流量數(shù)據(jù)含有較大隨機誤差,ARMA-RESN模型對誤差進行了補償,使預(yù)測值與網(wǎng)絡(luò)流量真實值之間的偏差減少,更好地描繪了網(wǎng)絡(luò)流量變化特性。
表1 不同模型網(wǎng)絡(luò)流量預(yù)測誤差比較
網(wǎng)絡(luò)流量受到多種因素的影響,具有混沌性、非線性和時變性等變化特點,是一個復(fù)雜的動力變化系統(tǒng),傳統(tǒng)模型或單一模型存在預(yù)測精度低的缺陷,為了提高網(wǎng)絡(luò)流量預(yù)測精度,提出一種基于ARMA-RESN的網(wǎng)絡(luò)流量預(yù)測模型。首先分別采用自回歸移動平均和回聲狀態(tài)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量線性變化特征和非線性變化特性進行建模與預(yù)測,然后對自回歸移動平均和回聲狀態(tài)網(wǎng)絡(luò)的預(yù)測結(jié)果進行融合,得到網(wǎng)絡(luò)流量最終預(yù)測結(jié)果,最后采用多個網(wǎng)絡(luò)流量數(shù)據(jù)以及多個對比模型進行了仿真對比實驗。仿真結(jié)果表明,相對于其他網(wǎng)絡(luò)流量預(yù)測模型,ARMA-RESN不僅提高了網(wǎng)絡(luò)流量的預(yù)測精度,而且具有更好的魯棒性。
[1]王升輝,裘正定.結(jié)合多重分形的網(wǎng)絡(luò)流量非線性預(yù)測[J].通信學(xué)報,2007,28(2):45-57.
[2]王兆霞,孫雨耕,陳增強,等.基于模糊神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)業(yè)務(wù)流量預(yù)測研究[J].通信學(xué)報,2005,26(3):136-140.
[3]Yu G Q,Zhang C S.Switching ARIMA model based forecasting for traffic flow[C]//Proceedings of ICASSP,2004,2:429-432.
[4]姜明,吳春明,胡大民.網(wǎng)絡(luò)流量預(yù)測中的時間序列模型比較研究[J].電子學(xué)報,2009,37(11):2353-2359.
[5]黨小超,郝占軍.季節(jié)周期性Elman網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分析與應(yīng)用[J].計算機工程與應(yīng)用,2010,46(28):98-101.
[6]孟慶芳,陳月輝,馮志全,等.基于局域相關(guān)向量機回歸模型的小尺度網(wǎng)絡(luò)流量的非線性預(yù)測[J].物理學(xué)報,2013,62(13):1-7.
[7]Wang J S,Gao Z W.Network traffic modeling and prediction based on RBF neural network[J].Computer Engineering and Applications,2008,44(13):6-11.
[8]黃悅.改進型Elman網(wǎng)絡(luò)用于網(wǎng)絡(luò)流量預(yù)測[J].計算機工程與應(yīng)用,2010,46(24):121-123.
[9]傅秀文,鄭明春.基于改進的BP神經(jīng)網(wǎng)絡(luò)的Overlay網(wǎng)絡(luò)流量預(yù)測[J].計算機工程與應(yīng)用,2012,48(12):83-87.
[10]馮華麗,劉淵,陳冬.QPSO算法優(yōu)化BP網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測[J].計算機工程與應(yīng)用,2012,48(3):102-104.
[11]黨小超,郝占軍.基于改進Elman神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測[J].計算機應(yīng)用,2010,30(10):2648-2652.
[12]宋彤,李菡.小波回聲狀態(tài)網(wǎng)絡(luò)的混沌時間序列預(yù)測[J].物理學(xué)報,2012,61(8):1-7.
[13]許培,陳其工,葛愿,等.基于ARMA模型的NCS前向時延預(yù)測研究[J].計算機工程與應(yīng)用,2013,49(20):91-95.
[14]彭宇,王建民,彭喜元.基于回聲狀態(tài)網(wǎng)絡(luò)的時間序列預(yù)測方法研究[J].電子學(xué)報,2010,21(8):1609-1617.
[15]王建民,彭宇,彭喜元,等.基于擴展卡爾曼濾波的回聲狀態(tài)網(wǎng)絡(luò)在線訓(xùn)練算法[J].儀器儀表學(xué)報,2011,32(7):1514-1520.