李融
溫州廣播電視大學(xué),浙江溫州 410205
基于CS-HRVM的網(wǎng)絡(luò)流量預(yù)測
李融
溫州廣播電視大學(xué),浙江溫州 410205
為了獲得更加理想的網(wǎng)絡(luò)流量預(yù)測結(jié)果,準(zhǔn)確刻畫網(wǎng)絡(luò)流量的變化趨勢,提出一種基于布谷鳥搜索算法優(yōu)化組合核相關(guān)向量機的網(wǎng)絡(luò)流量預(yù)測模型(CS-HRVM)。首先針對網(wǎng)絡(luò)流量的混沌特性,采用相空間理論建立網(wǎng)絡(luò)流量的多維學(xué)習(xí)樣本,并采用組合核函數(shù)構(gòu)建相關(guān)向量機,然后將學(xué)習(xí)樣本輸入到相關(guān)向量機中進行訓(xùn)練,并采用布谷鳥搜索算法對模型參數(shù)進行優(yōu)化,從而建立網(wǎng)絡(luò)流量預(yù)測模型,最后采用仿真實驗對模型性能進行仿真對比實驗。結(jié)果表明,CS-HRVM獲得了比其他網(wǎng)絡(luò)流量預(yù)模型更高的預(yù)測精度,而且可以對含噪網(wǎng)絡(luò)流量進行準(zhǔn)確預(yù)測。
網(wǎng)絡(luò)流量;相空間重構(gòu);相關(guān)向量機;組合核函數(shù);布谷鳥算法
隨著互聯(lián)網(wǎng)規(guī)模的不斷擴大,網(wǎng)絡(luò)用戶急劇增加,網(wǎng)絡(luò)擁塞的頻率越來越高,成為一個令網(wǎng)絡(luò)管理員頭疼的難題,因此網(wǎng)絡(luò)流量預(yù)測是網(wǎng)絡(luò)管理的基礎(chǔ)和關(guān)鍵,因此建立性能優(yōu)異的網(wǎng)絡(luò)流量預(yù)測模型,精確對網(wǎng)絡(luò)運行狀態(tài)進行準(zhǔn)確跟蹤,以提高網(wǎng)絡(luò)流量的預(yù)測精度,成為網(wǎng)絡(luò)研究中的一個熱點問題[1]。
針對網(wǎng)絡(luò)流量預(yù)測問題,許多學(xué)者和專家對其進行了廣泛的探索,提出一些性能較好的網(wǎng)絡(luò)流量預(yù)測算法[2]。線性算法主要有:滑動平均、指數(shù)平滑、多元回歸等[3-4],它們可以對短期的網(wǎng)絡(luò)流量進行準(zhǔn)確預(yù)測,但由于網(wǎng)絡(luò)流量受到很多因素綜合影響,具有混沌性、強烈的時變性,這樣導(dǎo)致線性模型難以準(zhǔn)確反映網(wǎng)絡(luò)流量的變化特點,預(yù)測精度與實際要求有一定的差距[5]。另一類算法為非線性算法,它們主要包括神經(jīng)網(wǎng)絡(luò)、馬爾可夫鏈、支持向量機、極限學(xué)習(xí)等[6-8],相對于線性預(yù)測算法,它們具有較好的非線性學(xué)習(xí)能力,可以對網(wǎng)絡(luò)流量變化特點進行準(zhǔn)確預(yù)測,網(wǎng)絡(luò)流量得到進一步提高,但是這些方法均存在各自的不足,網(wǎng)絡(luò)流量預(yù)測精度有待進一步提高。相關(guān)向量機(Relevance Vector Machine,RVM),其結(jié)合稀疏貝葉斯學(xué)習(xí)理論優(yōu)點,相對于支持向量機,RVM只需設(shè)置核參數(shù),且核函數(shù)不用滿足Mercer條件,為網(wǎng)絡(luò)流量提供了一種新的預(yù)測工具[9]。
為了提高網(wǎng)絡(luò)流量預(yù)測精度,準(zhǔn)確刻畫網(wǎng)絡(luò)流量的變化特點,綜合布谷鳥搜索算法和相關(guān)向量機的優(yōu)點,提出一種布谷鳥搜索算法優(yōu)化組合核相關(guān)向量機的網(wǎng)絡(luò)流量預(yù)測模型(CS-HRVM)。首先針對網(wǎng)絡(luò)流量的混沌性,通過相空重構(gòu)構(gòu)建RVM的學(xué)習(xí)樣本,然后將學(xué)習(xí)樣本輸入到RVM進行訓(xùn)練,采用組合核函數(shù)構(gòu)建RVM網(wǎng)絡(luò)流量預(yù)測模型,并通過谷鳥搜索算法找到模型的最優(yōu)參數(shù),最后進行了仿真實驗,實驗結(jié)果表明,CS-HRVM提高了網(wǎng)絡(luò)流量的預(yù)測精度,并且具有一定的魯棒性。
1.1 RVM模型
式中,wi為模型的權(quán)值;N為樣本數(shù);K(x,xi)為核函數(shù)。RVM模型的結(jié)構(gòu)如圖1所示。
圖1 RVM模型結(jié)構(gòu)
假定目標(biāo)函數(shù)是獨立的,且來自帶噪聲的模型:
式中,εn為噪聲。
訓(xùn)練樣本集的似然函數(shù)為:
為了避免通過最大似然法求解最優(yōu)w導(dǎo)致的過擬合現(xiàn)象,采用稀疏Bayesian方法對權(quán)值w賦予先驗的條件概率分布:
根據(jù)Bayesian公式,對所有未知參數(shù)有如下后驗公式:
則權(quán)值w的后驗概率可以表示為:
利用delta函數(shù)來做近似運算,將相關(guān)向量學(xué)習(xí)轉(zhuǎn)變成尋求超參數(shù)后驗?zāi)J絾栴},即α最大化p(α,δ2|y)∝p(y|α,δ2)p(α)p(δ2)。用delta函數(shù)的峰值來逼近超參數(shù)后驗p(α,δ2|y),在先驗情況一致條件下,僅需p(y|α,δ2)取最大值,即
式中,N為樣本數(shù)據(jù)的個數(shù);μi為第i個后驗平均權(quán);γi=1-Σij;Σij為第i個對角元素。
從計算過程可以看出,隨著迭代次數(shù)的增加,大部分αi將趨于無窮大,與之相對應(yīng)的wi將趨于0,使大部分核函數(shù)矩陣的項不會參與到實際預(yù)測計算中,實現(xiàn)模型的稀疏化。
1.2 布谷鳥搜索算法
布谷鳥搜索(Cuckoo Search,CS)算法模擬布谷鳥種群的寄生繁衍策略,并結(jié)合了鳥類及果蠅特殊的Levy flight模式,全局搜索能力強,適合用于多目標(biāo)優(yōu)化問題求解。為了模擬布谷鳥的尋巢行為,CS設(shè)定了三個規(guī)則,具體為:
(1)布谷鳥一次下一個蛋,代表待求解問題的一種解決方案,并隨機放在一個鳥巢中進行孵化。
(2)一部分鳥巢放著優(yōu)質(zhì)蛋,即好的解決方案,這些鳥巢將被保留到下一代。
(3)可利用鳥巢的數(shù)量是固定的,布谷鳥蛋被寄主鳥發(fā)現(xiàn)的概率為Pa∈(0,1),一旦某個鳥巢被發(fā)現(xiàn),寄主鳥就丟棄鳥蛋或者鳥巢,尋找新的鳥巢,以免影響尋找優(yōu)問題的解。
式中,?表示步長控制量;⊕表示點對點乘法。
位置更新后,隨機產(chǎn)生一個[0,1]的數(shù)r,如果r>Pa,那么x就進行隨機改變,反之不變,最后保留測試值較好的一組鳥巢位置y,此時仍然記為x[11]。
2.1 組合核函數(shù)
相關(guān)向量機通過核映射實現(xiàn)了數(shù)據(jù)空間、特征空間和類別空間的非線性變換,因此核函數(shù)及核參數(shù)的選取至關(guān)重要,當(dāng)前RVM使用的核函數(shù)很多,如多項式核函數(shù),Sigmoid函數(shù),徑向基函數(shù)等,但歸納起來大致可分為全局核函數(shù)和局部核函數(shù)兩類[12]。全局核函數(shù)的一個典型是多項式核函數(shù),局部核函數(shù)的一個典型是RBF核函數(shù)。鑒于全局核函數(shù)泛化能力,學(xué)習(xí)能力弱,而局部核函數(shù)學(xué)習(xí)能力強,泛化能力弱,為了提升RVM的性能,得到學(xué)習(xí)能力和泛化能力都較強的核函數(shù),核函數(shù)組合的方法很多,但最終的組合核函數(shù)要滿足mercer條件。本文將通過組合兩種具有代表性的局部核函數(shù)(RBF核函數(shù))和全局核函數(shù)(多項式核函數(shù))的映射特性,構(gòu)造一種組合核函數(shù),此組合核函數(shù)滿足Mercer條件,其表達式為:
2.2 布谷鳥算法的組合核參數(shù)尋優(yōu)步驟
步驟1設(shè)置RVM的參數(shù)d、δ、λ取值范圍和CS算法相關(guān)參數(shù)。
步驟4根據(jù)Levy flight對其他鳥巢進行更新,得到一組新的鳥巢位置,并對鳥巢位置優(yōu)劣進行評價。
步驟7找出步驟6最后找到pt中最優(yōu)的一個鳥巢位置x(t)b,并判斷其是否達到結(jié)束條件,如果滿足,則停止搜索,反之,則返回步驟3繼續(xù)尋找最優(yōu)權(quán)值。
步驟8將最優(yōu)鳥巢位置進行解碼,得到RVM的最優(yōu)參數(shù)(d、δ、λ)值。
綜合可知,CS-HRVM的工作流程如圖2所示。
圖2 CS-HRVM的工作流程
3.1 仿真環(huán)境
為了測試CS-HRVM的網(wǎng)絡(luò)流量預(yù)測模型的有效性,在P4核2.8 GHz CPU,4 GB RAM,window s XP操作系統(tǒng)的電腦,采用VC++編程實現(xiàn)仿真實驗。數(shù)據(jù)來源于http://new sfeed.ntcu.net/~new s/2013/的主節(jié)點路由器2013年5月1日到6月21日的每小時訪問流量,得到1 200個數(shù)據(jù),選擇前100個數(shù)據(jù)作為訓(xùn)練樣本集,建立網(wǎng)絡(luò)流量預(yù)測模型,然后采用最后200個網(wǎng)絡(luò)流量數(shù)據(jù)對網(wǎng)絡(luò)預(yù)測模型的性能進行測試,網(wǎng)絡(luò)流量數(shù)據(jù)具體如圖3所示。
圖3 網(wǎng)絡(luò)流量數(shù)據(jù)
在RVM訓(xùn)練過程中,過大或過小的網(wǎng)絡(luò)流量數(shù)據(jù)對訓(xùn)練效率產(chǎn)生不利影響,為此對其進行預(yù)處理,具體如下:
式中,x(i)和x′(i)分別表示原始和預(yù)處理后的值;max()和m in()分別為取最大和最小值函數(shù)。
3.2 對比模型及評價指標(biāo)
為了使CS-HRVM的預(yù)測結(jié)果更具說服力,CS優(yōu)化RBF核函數(shù)RVM(RBF-RVM)、CS優(yōu)化多項式核函數(shù)RVM(poly-RVM)、粒子群算法優(yōu)化組合核RVM(PSO-HRVM)、遺傳算法優(yōu)化組合核RVM(GA-HRVM)進行對比實驗,并采用絕對誤差ERR,平均絕對誤差MAE和相對誤差PERR作為評價指示,它們具體定義如下:
式中,xi和x分別為網(wǎng)絡(luò)流量真實值和預(yù)測值,Np為測試樣本數(shù)。
3.3 重構(gòu)網(wǎng)絡(luò)流量樣本
網(wǎng)絡(luò)流量受到多種因素的影響,具有混沌性,同時收集到的網(wǎng)絡(luò)流量是一維時間序列,因此需要通過相空間重理想的延遲時間(τ)和嵌入維數(shù)(m)對重構(gòu)網(wǎng)絡(luò)流量學(xué)習(xí)樣本,得到最優(yōu)τ=1,m=5時,從而采用τ=1,m=5對預(yù)處理的網(wǎng)絡(luò)流量數(shù)據(jù)進行重構(gòu),得到RVM的網(wǎng)絡(luò)流量學(xué)習(xí)樣本。
3.4 結(jié)果與分析
3.4.1 不含噪的預(yù)測結(jié)果分析
首先將1 000個訓(xùn)練樣本進行歸一化處理消除樣本值差異太大的不利影響,然后輸入到HRVM中進行學(xué)習(xí),并采用布谷鳥算法搜索參數(shù)d、δ、λ的值,得到的值見表1,然后采用表1的參數(shù)建立網(wǎng)絡(luò)流預(yù)測模型,其中CS-HRVM擬合和預(yù)測結(jié)果如圖4。對圖4進行分析,可以看出,CS-HRVM可以對網(wǎng)絡(luò)流量的變化趨勢進行準(zhǔn)確的跟蹤,預(yù)測值與真實值之間的偏差相當(dāng)小,偏差變化范圍相當(dāng)小,獲得比較高精度的網(wǎng)絡(luò)流量擬合和預(yù)測結(jié)果。
表1 不同網(wǎng)絡(luò)流量模型的參數(shù)值比較
圖4 CS-HRVM的網(wǎng)絡(luò)流量預(yù)測結(jié)果
CS-HRVM、GA-HRVM、PSO-HRVM、RBF-RVM以及poly-RVM網(wǎng)絡(luò)流量預(yù)測結(jié)果的MAE、PERR值見表2。對表2進行分析可知,可以得到如下結(jié)果:
(1)RBF-RVM以及poly-RVM的預(yù)測誤差比較大,預(yù)測精度高,這表明單一核函數(shù)的RVM只能夠?qū)W(wǎng)絡(luò)流量的線性或非線性變化趨勢進行預(yù)測,無法建立精度高的網(wǎng)絡(luò)流量預(yù)測模型。
(2)相對于單核的相關(guān)向量機,CS-HRVM、GA-HRVM、PSO-HRVM的網(wǎng)絡(luò)流量預(yù)測精度得到不同程度的提高,這表明它們可以從多個方面對網(wǎng)絡(luò)流量的變化趨勢進行預(yù)測,預(yù)測結(jié)果更加理想。
(3)相對于GA-HRVM、PSO-HRVM,CS-HRVM的網(wǎng)絡(luò)流量預(yù)測效果更優(yōu),這主要是由于布谷鳥算法可以獲得更優(yōu)的模型參數(shù),較好地克服遺傳算法、粒子群優(yōu)化算法存在的局部極優(yōu)缺陷,證明了本文采用布谷鳥算法對模型參數(shù)進行優(yōu)化是有效的、可行性,有利于建立更優(yōu)的網(wǎng)絡(luò)流量預(yù)測模型。
表2 不同網(wǎng)絡(luò)流量模型的預(yù)測誤差比較
表3 不同模型的含噪網(wǎng)絡(luò)流量預(yù)測誤差比較
3.4.2 含噪的測結(jié)果分析
采用CS-HRVM、GA-HRVM、PSO-HRVM、RBF-RVM以及poly-RVM對含噪的網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)測,預(yù)測結(jié)果如圖5所示。從圖5可以看出,CS-HRVM的預(yù)測誤差較小,預(yù)測結(jié)果穩(wěn)定可靠,模型的魯棒性較強。
圖5 CS-HRVM的含噪網(wǎng)絡(luò)流量預(yù)測結(jié)果
不同模型的含噪網(wǎng)絡(luò)流量預(yù)測誤差見表3。從表3可知,對于含噪網(wǎng)絡(luò)流量,CS-HRVM同樣可以獲得更優(yōu)的網(wǎng)絡(luò)流量預(yù)測結(jié)果,證明了CS-HRVM的優(yōu)越性。
網(wǎng)絡(luò)流量是一個復(fù)雜、多變的系統(tǒng),具有非線性、混沌性和突變性變化規(guī)律,采用傳統(tǒng)網(wǎng)絡(luò)流量難以準(zhǔn)確建立相應(yīng)的預(yù)測模型,同時單一核函數(shù)的相關(guān)相向量也無法全面、準(zhǔn)確刻畫網(wǎng)絡(luò)流量的變化趨勢,為了獲得更加理想的網(wǎng)絡(luò)流量預(yù)測結(jié)果,提出一種基于布谷鳥搜索算法優(yōu)化組合核相關(guān)向量機的網(wǎng)絡(luò)流量預(yù)測模型,并通過仿真對比實驗測試本文模型的性能。仿真實驗結(jié)果表明,CS-HRVM是一種預(yù)測精度、魯棒性強的網(wǎng)絡(luò)流量預(yù)測模型。
[1]Ames T,Rego C,Glover F.Multistart tabu search and diversification strategies for the quadratic assignment problem[J].IEEE Transactions on Systems,Man,and Cybernetics:Part A Systems and Humans,2009,39:579-596.
[2]王升輝,裘正定.結(jié)合多重分形的網(wǎng)絡(luò)流量非線性預(yù)測[J].通信學(xué)報,2007,28(2):45-50.
[3]Silva C G.Time series forecasting with a nonlinear model and the scatter search meta-heuristic[J].Information Sciences,2008,178(16):3288-3299.
[4]Este A,Gringoli F,Salgarelli L.Support vector machines for TCP traffic classification[J].Computer Networks,2009,53(14):2476-2490.
[5]Qi H L,Zhao H,Liu W W,et al.Parameters optimization and nonlinearity analysis of grating eddy current displacement sensor using neural network and genetic algorithm[J].Journal of Zhejiang University Science A,2009,10(8):1205-1212.
[6]黨小超,郝占軍.基于改進Elman神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測[J].計算機應(yīng)用,2010,30(10):2648-2652.
[7]王俊松,高志偉.基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量建模及預(yù)測[J].計算機工程與應(yīng)用,2008,44(13):6-11.
[8]羅赟騫,夏靖波,王渙彬.混沌-支持向量機回歸在流量預(yù)測中的應(yīng)用研究[J].計算機科學(xué),2009,6(7):244-246.
[9]張穎路.基于遺傳算法優(yōu)化支持向量機的網(wǎng)絡(luò)流量預(yù)測[J].計算機科學(xué),2008,35(5):177-179.
[10]趙春暉,張燚.相關(guān)向量機分類方法的研究進展與分析[J].智能系統(tǒng)學(xué)報,2012,7(4):294-301.
[11]Tipping M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,12(1):211-244.
[12]Yang X S,Deb S.Engineering optimization by cuckoo search[J].International Journal of Mathematical Modeling and Numerical optimization,2010,11(4):330-343.
LI Rong
Wenzhou Radio & Television University, Wenzhou, Zhejiang 410205, China
In order to obtain good forecasting results and describe the change rules network flow, a novel network flow forecasting model is proposed based on Hybrid kernels Relevance Vector Machine and Cuckoo Search algorithm(CS-HRVM).Firstly, the learning samples are obtained by using phase reconstruction theory, and the hybrid kernels function is used to establish the relevance vector machine, and then the learning samples are input into relevance vector machine to train, and the cuckoo searching algorithm is used to optimize the parameters of model and build the model of network flow, finally,the simulation experiments are carried out to test the performance of the model. The results show that CS-HRVM has obtained higher forecasting accuracy compared with other network flow forecasting model, and can forecast accurately network flow which includes noise.
network flow; phase space reconstruction; relevance vector machine; hybrid kernel function; cuckoo search algorithm
LI Rong. Network flow forecasting based on hybrid kernels RVM and cuckoo search algorithm. Computer Engineering and Applications, 2014, 50(17):90-94.
A
TP391
10.3778/j.issn.1002-8331.1312-0394
浙江省教育科學(xué)規(guī)劃研究課題(No.2014SCG344)。
李融(1977—),男,講師,主要研究領(lǐng)域:計算機應(yīng)用、遠程教育、網(wǎng)絡(luò)與信息安全、高校智能化建設(shè)。
2013-12-26
2014-03-10
1002-8331(2014)17-0090-05