郭海蓉
(成都醫(yī)學(xué)院 現(xiàn)代教育技術(shù)中心, 成都 610500)
隨著大數(shù)據(jù)時代的到來,各個領(lǐng)域的數(shù)據(jù)向海量、大規(guī)模方向發(fā)展,尤其是網(wǎng)絡(luò)流量數(shù)據(jù),每天有大量流量數(shù)據(jù)產(chǎn)生,它們不斷的在網(wǎng)絡(luò)上進行傳輸,使得網(wǎng)絡(luò)流量管理系統(tǒng)的負載日益嚴重,到了周末或者節(jié)假日,網(wǎng)絡(luò)的速度極慢,而且經(jīng)常出現(xiàn)網(wǎng)絡(luò)擁塞,如何改善網(wǎng)絡(luò)流量的傳輸速度和網(wǎng)絡(luò)流量的管理效率引起了人們的高度關(guān)注[1]。
網(wǎng)絡(luò)流量的建模與預(yù)測是一種網(wǎng)絡(luò)管理的重要技術(shù),其對將來一段時間內(nèi)的網(wǎng)絡(luò)流量變化趨勢進行預(yù)測,得到的預(yù)測結(jié)果可以提供給網(wǎng)絡(luò)管理者,讓他們提前準備一定的網(wǎng)絡(luò)流量管理方案進行應(yīng)對,因此當前存在許多網(wǎng)絡(luò)流量預(yù)測模型[2]。當前網(wǎng)絡(luò)流量預(yù)測模型可以劃分為兩種:周期性的網(wǎng)絡(luò)流量預(yù)測模型和隨機性的網(wǎng)絡(luò)流量預(yù)測模型[3,4],其中周期性預(yù)測模型認為網(wǎng)絡(luò)流量是一種周期性的變化規(guī)律,在一段時間內(nèi)有一定的相似性,如聚類分析的網(wǎng)絡(luò)流量預(yù)測模型,通過聚類分析算法從歷史樣本中選擇與當前預(yù)測點相似的樣本組成訓(xùn)練樣本,然后采用回歸算法實現(xiàn)網(wǎng)絡(luò)流量預(yù)測,而實際上網(wǎng)絡(luò)流量不僅只有周期性變化規(guī)律,由于受到上網(wǎng)用戶的行為影響,其具有十分強烈的隨機性,因此周期性預(yù)測模型只能描述網(wǎng)絡(luò)流量的局部變化特點,無法對網(wǎng)絡(luò)流量變化特點進行全面描述,網(wǎng)絡(luò)流量的穩(wěn)定性差[5];隨機性的網(wǎng)絡(luò)流量預(yù)測模型基于非線性理論進行建模與分析,通過引入一些機器學(xué)習(xí)算法如極限學(xué)習(xí)機、神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和學(xué)習(xí)[6-8],其網(wǎng)絡(luò)流量預(yù)測的性能要優(yōu)于周期性預(yù)測模型,成為網(wǎng)絡(luò)流量預(yù)測研究中的主要方向。當前周期性預(yù)測模型或者隨機的預(yù)測模型均采用單機處理模式,而現(xiàn)代網(wǎng)絡(luò)流量數(shù)據(jù)朝大規(guī)模方向發(fā)展,使得單機處理模式缺陷十分明顯,不能適應(yīng)現(xiàn)代網(wǎng)絡(luò)流量預(yù)測的發(fā)展要求[9]。
根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)變化特點,為了解決單機處理技術(shù)的局限性,以提高網(wǎng)絡(luò)流量預(yù)測效果,設(shè)計了基于大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測模型,并與其它模型進行了對照實驗,本文模型的網(wǎng)絡(luò)流量預(yù)測精度高,網(wǎng)絡(luò)流量訓(xùn)練時間短,相對于對比模型,本文的網(wǎng)絡(luò)流量預(yù)測結(jié)果具有顯著的優(yōu)越性。
云計算技術(shù)是在互聯(lián)網(wǎng)的基礎(chǔ)上發(fā)展起來的、專門針對海量數(shù)據(jù)的一種處理技術(shù),集成了分布式處理、并行計算等優(yōu)點,其采用Map/Reduce計算模型,基于分層次計算,處理數(shù)據(jù)的速度相當快,其工作基本思想為:將一個大數(shù)據(jù)集拆分為多個子數(shù)據(jù),每一個子數(shù)據(jù)集對應(yīng)一個Map任務(wù),然后采用不同節(jié)點對Map任務(wù)進行執(zhí)行,得到中間處理結(jié)果,最后通過Reduce對中間處理結(jié)果進行收集和融合,得到最終處理結(jié)果,其工作原理如圖1所示。
圖1 Map/Reduce的工作原理
受流體狀態(tài)機模型的啟發(fā),有學(xué)者提出了回聲狀態(tài)網(wǎng)絡(luò),解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的瓶頸問題,其包括前端輸入、儲備池和輸出層,它們對應(yīng)的向量分別如式(1)、(2)、(3)。
u(n)=(u1(n),u2(n),…,uK(n))T
(1)
x(n)=(x1(n),x2(n),…,xN(n))T
(2)
y(n)=(y1(n),y2(n),…,yL(n))T
(3)
在第n個時刻,回聲狀態(tài)網(wǎng)絡(luò)的狀態(tài)更新方程和輸出計算公式分別為式(4)、(5)。
x(n+1)=f1(Winu(n+1)+Wx(n))
(4)
y(n+1)=f2(Woutx(n+1))
(5)
式中,Win、W、Wout分別表示前端輸入、儲備池和輸出層的連接權(quán)值,f1和f2分別表示儲備池和輸出層的激活函數(shù)。
回聲狀態(tài)網(wǎng)絡(luò)的工作步驟:
(1)根據(jù)具體預(yù)測問題,初始化儲備池大小、譜大小、輸入縮放系數(shù)、稀疏度等參數(shù)。
(2)建立輸入樣本和期望輸出之間的映射關(guān)系。
(3)由于在回聲狀態(tài)網(wǎng)絡(luò)學(xué)習(xí)過程中,Win、W的值固定不變,對Wout進行訓(xùn)練,根據(jù)式(5)和訓(xùn)練樣本u(n)對期望信號y(n)進行逼近,具體為式(6)。
Woutx(n)≈yt(n+1)
(6)
根據(jù)式(3)可知,狀態(tài)向量x(n)由u(n)決定,即:u(n)?x(n),輸入向量和期望輸出序列之間的映射關(guān)系為[10]式(7)。
u(n)→yt(n)
(7)
(4)設(shè)狀態(tài)矩陣向量為X,其對應(yīng)的期望的輸出向量為Y,則有式(8)。
Y=WoutX
(8)
其中,Wout訓(xùn)練目標可以表示為式(9)。
(9)
采用違逆法對Wout進行訓(xùn)練,得到Wout式(10)。
Wout=Yt×X+
(10)
式中,X+表示X的違逆矩陣。
(5)根據(jù)訓(xùn)練得到的Wout對實際輸出信號進行預(yù)測,預(yù)測結(jié)果為式(11)。
(11)
大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測原理為:首先采集大規(guī)模的網(wǎng)絡(luò)流量歷史數(shù)據(jù),然后根據(jù)云計算技術(shù)的Map/Reduce處理模式對其進行細分,得到多個數(shù)據(jù)量相對較小的子訓(xùn)練樣本集合,并引入數(shù)據(jù)挖掘技術(shù)中的狀態(tài)回聲網(wǎng)絡(luò)對子訓(xùn)練樣本集合的網(wǎng)絡(luò)流量進行預(yù)測,最后對子訓(xùn)練樣本集合的網(wǎng)絡(luò)流量預(yù)測結(jié)果進行融合,輸出網(wǎng)絡(luò)流量的最終預(yù)測結(jié)果,具體工作原理如圖2所示。
圖2 大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測原理
(1)對于一個網(wǎng)絡(luò)管理系統(tǒng)中的服務(wù)器歷史數(shù)據(jù)進行收集。
(2)Map端將大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)集進行細分,得到許多子數(shù)據(jù)集。
(3)每一個網(wǎng)絡(luò)流量子數(shù)據(jù)集通過一個Map任務(wù)處理,即通過回聲狀態(tài)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量進行訓(xùn)練。
(4)得到每一個網(wǎng)絡(luò)流量子數(shù)據(jù)集的回聲狀態(tài)網(wǎng)絡(luò)預(yù)測結(jié)果,并將結(jié)果輸出到Reduce端。
(5)Reduce端對Map傳來的網(wǎng)絡(luò)流量子數(shù)據(jù)集預(yù)測結(jié)果進行合并,得到網(wǎng)絡(luò)流量的最終預(yù)測結(jié)果。
為了分析大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測的有效性,云計算平臺共包含5個節(jié)點,1個節(jié)點作為服務(wù)器,另外4個作為普通節(jié)點,它們具體配置方式如表1所示。
采用不同規(guī)模的網(wǎng)絡(luò)流量數(shù)據(jù)作為實驗對象,共5個網(wǎng)絡(luò)流量數(shù)據(jù)集合,它們的大小如表2所示。
為了分析回聲狀態(tài)網(wǎng)絡(luò)用于網(wǎng)絡(luò)流量建模的優(yōu)越性,選擇BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測模型進行對比測試,采用數(shù)據(jù)處理技術(shù)均為云處理技術(shù),統(tǒng)計5個網(wǎng)絡(luò)流量數(shù)據(jù)集合的預(yù)測精度,結(jié)果如圖3所示。
表1 云計算平臺的節(jié)點配置
表2 5個網(wǎng)絡(luò)流量數(shù)據(jù)集的規(guī)模
圖3 5個網(wǎng)絡(luò)流量數(shù)據(jù)集合的預(yù)測精度對比
對圖3的5個網(wǎng)絡(luò)流量數(shù)據(jù)集合預(yù)測精度進行對比和分析,可以發(fā)現(xiàn),回聲狀態(tài)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測精度明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測精度,降低了網(wǎng)絡(luò)流量預(yù)測誤差,這是因為回聲狀態(tài)網(wǎng)絡(luò)可以對網(wǎng)絡(luò)流量隨機性、復(fù)雜性的變化特點進行高精度建模,建立了更優(yōu)的網(wǎng)絡(luò)流量預(yù)測模型,對比結(jié)果驗證了本文將回聲狀態(tài)網(wǎng)絡(luò)引入到網(wǎng)絡(luò)流量預(yù)測中的思想是正確的,可以得到理想的網(wǎng)絡(luò)流量預(yù)測結(jié)果。
為了測試云計算處理技術(shù)的優(yōu)越性,選擇單機處理技術(shù)進行對比測試,以單機處理技術(shù)的訓(xùn)練時間作為標準,建模方法均采用狀態(tài)回聲網(wǎng)絡(luò),在不同數(shù)據(jù)規(guī)模條件下,本文模型的網(wǎng)絡(luò)流量訓(xùn)練時間減少倍數(shù)如圖4所示。
從圖4的實驗結(jié)果可以看出,當網(wǎng)絡(luò)流量數(shù)據(jù)很小時,云計算處理技術(shù)和單機處理技術(shù)需要的時間相差不大,單機處理技術(shù)的訓(xùn)練相對更少,這是因為云計算處理技術(shù)要經(jīng)過Map和Reduce兩個階段,但是隨著網(wǎng)絡(luò)流量規(guī)模的不斷增大,云計算處理技術(shù)的優(yōu)勢慢慢得以體現(xiàn),網(wǎng)絡(luò)流量預(yù)測建模的訓(xùn)練時間不斷在減少,而且網(wǎng)絡(luò)流量數(shù)據(jù)越大,網(wǎng)絡(luò)流量建模訓(xùn)練時間減少的幅度就越大,優(yōu)勢越明顯,對比測試結(jié)果表明,本文模型加快了網(wǎng)絡(luò)流量訓(xùn)練速度,降低計算時間復(fù)雜度,提高了網(wǎng)絡(luò)流量預(yù)測建模的效率,可以滿足網(wǎng)絡(luò)流量管理在線要求。
圖4 網(wǎng)絡(luò)流量訓(xùn)練時間對比
網(wǎng)絡(luò)用戶的急增,業(yè)務(wù)種類的多樣性增加,每一天網(wǎng)絡(luò)上的流量數(shù)據(jù)呈指數(shù)級增長,網(wǎng)絡(luò)流量管理面臨巨大的挑戰(zhàn),為了提高網(wǎng)絡(luò)流量的準確性,結(jié)合網(wǎng)絡(luò)流量非線性、復(fù)雜、海量的特點,設(shè)計了一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量非線性預(yù)測模型,首先結(jié)合網(wǎng)絡(luò)流量的大規(guī)模特性,引入云計算處理模式對訓(xùn)練樣本進行分解操作,減少網(wǎng)絡(luò)流量訓(xùn)練的時間和空間復(fù)雜度,然后引入數(shù)據(jù)挖掘技術(shù)中的回聲狀態(tài)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量的非線性變化特點進行擬合,實現(xiàn)網(wǎng)絡(luò)流量高精度預(yù)測,對比結(jié)果表明,本文模型的網(wǎng)絡(luò)流量建模效率高,網(wǎng)絡(luò)流量的預(yù)測誤差明顯低于當前經(jīng)典的網(wǎng)絡(luò)流量預(yù)測結(jié)果,本文模型可以應(yīng)用于大規(guī)模網(wǎng)絡(luò)流量管理系統(tǒng)中,具有一定的實際應(yīng)用價值。