• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LSTM網(wǎng)絡(luò)的移動云計算多元負(fù)載預(yù)測模型

      2021-06-29 07:20:44陳絲雨
      計算機與現(xiàn)代化 2021年6期
      關(guān)鍵詞:特征選擇數(shù)據(jù)中心預(yù)測

      陳絲雨,莊 毅,李 靜

      (南京航空航天大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)

      0 引 言

      2006年,Google公司初次在業(yè)界會議中提出了“云計算”這一概念[1],促成了目前正如火如荼推進(jìn)的移動互聯(lián)網(wǎng)革命。用戶在云計算模式下,無需購置大量實體設(shè)備,而是可以按使用量從基礎(chǔ)架構(gòu)及服務(wù)提供商中對虛擬的計算資源按需付費,包含網(wǎng)絡(luò)、存儲等資源。近年來隨著網(wǎng)絡(luò)帶寬速度的提升和智能設(shè)備的普及,云計算的關(guān)注熱點從主機開始向移動設(shè)備轉(zhuǎn)移。移動終端設(shè)備面臨著移動支付、移動游戲、移動教育以及虛擬現(xiàn)實技術(shù)這樣更加復(fù)雜的用戶需求帶來的極大的計算、存儲、安全等方面的挑戰(zhàn),移動云計算(Mobile Cloud Computing, MCC)技術(shù)[2]應(yīng)運而生。移動云計算將移動互聯(lián)網(wǎng)與云計算技術(shù)聯(lián)合起來,移動云計算的用戶通過網(wǎng)絡(luò)運營商或是無線接入連接到部署在不同地方的移動云計算數(shù)據(jù)中心,云數(shù)據(jù)中心海量的存儲和高速的計算能力為移動設(shè)備彌補了運算性能、電池續(xù)航和存儲空間有限的不足[3]。

      隨著移動云計算技術(shù)的發(fā)展,許多科技公司都為其云服務(wù)產(chǎn)品提供了彈性的自動伸縮功能,能夠在系統(tǒng)運行時動態(tài)改變系統(tǒng)的資源分配量。在云數(shù)據(jù)中心精確地進(jìn)行資源管理可以使云服務(wù)供應(yīng)商能夠最大化數(shù)據(jù)中心利用率,通過減少開啟的機器數(shù)量來促進(jìn)數(shù)據(jù)中心綠色計算,同時將其運營成本降至最低?,F(xiàn)有的資源管理方案通常分為被動與主動管理資源2種。在被動管理方案下,當(dāng)主機工作負(fù)載增加或減少到預(yù)設(shè)的特定閾值時,將進(jìn)行資源管理或虛擬機遷移。但是,這種方案下,可能會導(dǎo)致因為虛擬機的供應(yīng)和遷移耗時過長而無法應(yīng)對工作負(fù)載突然變化所造成的違反服務(wù)水平協(xié)議(Service-Level Agreement, SLA)的問題。主動管理方案則通過識別云計算中心中資源使用模式、預(yù)測未來時間的主機工作負(fù)載來對云計算中心中的虛擬機或其他資源動態(tài)調(diào)整,可解決被動資源管理方案中對負(fù)載變化響應(yīng)慢的問題。所以,準(zhǔn)確估計云數(shù)據(jù)中心中的資源負(fù)載情況可以大幅度提高云數(shù)據(jù)中心的運行效率以及計算資源的利用率,有助于預(yù)先計劃資源容量和實現(xiàn)智能資源拓展,對滿足SLA具有重要意義。因此,云計算中的負(fù)載預(yù)測已成為研究的熱點。并且由于移動云計算環(huán)境下多用戶共同托管的任務(wù)具有動態(tài)和隨時間變化的特點,因此準(zhǔn)確估計數(shù)據(jù)中心未來的資源使用率具有挑戰(zhàn)性。

      現(xiàn)有的一些負(fù)載預(yù)測算法主要可以分成以下3類,傳統(tǒng)的基于時間序列數(shù)據(jù)的負(fù)載統(tǒng)計預(yù)測模型、基于機器學(xué)習(xí)的負(fù)載預(yù)測模型和混合集成的負(fù)載預(yù)測模型。前者的數(shù)據(jù)規(guī)律通過對大量數(shù)據(jù)進(jìn)行統(tǒng)計分析得到,統(tǒng)計預(yù)測模型有自回歸(AutoRegressive, AR)[4]模型、自回歸移動平均(AutoRegressive Moving Average, ARMA)[5]模型和差分自回歸移動平均(AutoRegressive Integrated Moving Average, ARIMA)[6]模型等。但不幸的是,這些模型高度依賴所收集數(shù)據(jù)的固定形式和工作人員有經(jīng)驗的參數(shù)調(diào)整,并且傳統(tǒng)方法很難進(jìn)行長時間預(yù)測。最近,人們開始使用機器學(xué)習(xí)技術(shù)應(yīng)對這些問題,機器學(xué)習(xí)方法作為新興工具被用在了負(fù)載預(yù)測中,如貝葉斯方法[7]、支持向量機算法(SVM)[8]、隨機森林算法[9]、神經(jīng)網(wǎng)絡(luò)等。很多機器學(xué)習(xí)模型過于簡單導(dǎo)致無法有效利用長期依賴關(guān)系、預(yù)測精度不高,難以針對移動云計算負(fù)載波動大、無周期的特點進(jìn)行預(yù)測。結(jié)合了傳統(tǒng)的預(yù)測算法和機器學(xué)習(xí)方法的集成預(yù)測算法研究已經(jīng)成為解決負(fù)荷預(yù)測問題的趨勢。通過將多種預(yù)測模型相結(jié)合,預(yù)測模型往往可以得到更好的性能。但是這些方法都使用單變量預(yù)測,無法準(zhǔn)確地捕獲其他特征對目標(biāo)工作負(fù)載的影響。

      本文提出了一種新穎的利用聯(lián)合特征選擇策略,是無抽取的小波變換方法后的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的編-解碼結(jié)構(gòu)模型——AR-LSTM-ED負(fù)載預(yù)測模型。LSTM作為神經(jīng)網(wǎng)絡(luò)的一種特殊形式,解決了很多機器學(xué)習(xí)模型忽略長期依賴的問題,本文將采用LSTM作為編碼器-解碼器網(wǎng)絡(luò)的組成部分,進(jìn)一步結(jié)合了自回歸模型(AR)以處理負(fù)載中的線性數(shù)據(jù)。

      本文的主要研究工作及貢獻(xiàn)如下:

      1)針對資源的預(yù)測不僅取決于其過去的趨勢(如在單變量時間序列預(yù)測中),而且還取決于其他資源度量趨勢的問題,比如在預(yù)測CPU負(fù)載時還需考慮與CPU資源利用率最相關(guān)的其他資源特征的使用情況(如內(nèi)存存儲量、磁盤使用率等),但是云數(shù)據(jù)中心中其他特征多且復(fù)雜,本文設(shè)計了多變量資源聯(lián)合特征選擇策略,可以選擇出各個數(shù)據(jù)中心中對目標(biāo)資源負(fù)載預(yù)測有效的關(guān)鍵特征,不僅可以減少預(yù)測模型的訓(xùn)練時間,還提高了在線預(yù)測的準(zhǔn)確性。并且提出了基于無抽取小波變換的分解方法,可以將原始時間序列各個子成分分離,并對各個尺度上的子序列進(jìn)行單獨預(yù)測,以應(yīng)對移動云計算中高采樣頻率和負(fù)載動態(tài)變化帶來的問題。

      2)本文提出一種將經(jīng)典的自回歸(AR)模型和編-解碼器(Encoder-Decoder)網(wǎng)絡(luò)進(jìn)行融合的AR-LSTM-ED負(fù)載預(yù)測模型,采用自回歸(AR)模型作為線性組件,與LSTM組成的編-解碼網(wǎng)絡(luò)的非線性特性結(jié)合,提升模型對負(fù)載線性方面的負(fù)載預(yù)測能力和對長期負(fù)載信息的捕捉能力。

      最后,本文使用Google云計算數(shù)據(jù)集驗證算法,對比實驗結(jié)果表明,本文提出的方法在Google云計算數(shù)據(jù)集上取得了比現(xiàn)有基準(zhǔn)算法更好的性能。

      1 相關(guān)研究

      主機負(fù)載預(yù)測由于其對改善資源分配和提高資源利用率等潛在的作用,始終受到研究人員的大量關(guān)注。通過大量閱讀國內(nèi)外文獻(xiàn),筆者認(rèn)為負(fù)載預(yù)測技術(shù)的研究方法可以分為3個類別,分別為傳統(tǒng)的基于時間序列數(shù)據(jù)的負(fù)載統(tǒng)計預(yù)測方法、基于機器學(xué)習(xí)技術(shù)的負(fù)載預(yù)測模型和多種算法混合集成的負(fù)載預(yù)測模型。

      傳統(tǒng)的基于時間序列數(shù)據(jù)的統(tǒng)計預(yù)測方法目前已經(jīng)擁有了很多成熟的算法,具有代表性的算法主要有AR模型[4]、ARMA模型[5]和ARIMA模型[6]。Kumar等人[10]為了更準(zhǔn)確地預(yù)測未來的工作量來降低能源成本,使用最新的自回歸移動平均(ARMA)類型的模型,如分形自回歸聚合滑動模型與使用奇異頻譜分析模型的預(yù)測性能進(jìn)行比較,發(fā)現(xiàn)在預(yù)測網(wǎng)絡(luò)的突發(fā)負(fù)載變化時,最簡單的ARIMA模型優(yōu)于其他復(fù)雜的ARMA類模型。他們表明當(dāng)輸入大小增加時,分形自回歸聚合滑動模型反而會耗費大量計算時間,所以增加輸入的負(fù)載序列大小不一定能提供更好的預(yù)測結(jié)果。Dinda等人[11]使用了一個公開可用的數(shù)據(jù)集,其中包含4種類型的UNIX分布式系統(tǒng)工作負(fù)載跟蹤。他們在數(shù)據(jù)集上比較使用了AR模型、MA(Moving Average Model)模型和ARIMA模型,通過評估預(yù)測模型來構(gòu)建相對準(zhǔn)確地用于主機負(fù)載性能和網(wǎng)絡(luò)帶寬的在線預(yù)測系統(tǒng),研究發(fā)現(xiàn)簡單的AR模型具有最佳的預(yù)測能力,然而Dinda等人只對短期單步的未來時間進(jìn)行了預(yù)測。

      在近年來研究較多的新興方法中,機器學(xué)習(xí)方法得到關(guān)注,具有代表性的有貝葉斯方法、支持向量機算法(SVM)、隨機森林算法、神經(jīng)網(wǎng)絡(luò)和自然啟發(fā)式算法[12]等。Zhong等人[13]提出了一種基于支持向量機的WWSVM模型,使用母小波變換作為SVM中的核函數(shù),并且根據(jù)樣本的重要性為樣本加權(quán)。Bey等人[14]開發(fā)了一種用于CPU負(fù)載的單步預(yù)測模型,該模型對通過C-均值聚類過程獲得的CPU負(fù)載的聚類狀態(tài)使用模糊推理和貝葉斯網(wǎng)絡(luò)來預(yù)測未來的CPU負(fù)載。Yang等人[15]提出了一種新的方法預(yù)測主機負(fù)載,該方法將自動編碼器用作回波狀態(tài)網(wǎng)絡(luò)的遞歸特征層。他們?yōu)榱烁玫乇硎据斎?,引入了自動編碼器來學(xué)習(xí)輸入數(shù)據(jù),能更好地捕獲負(fù)載跡線之間的相似性。Zhang等人[16]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型訓(xùn)練網(wǎng)絡(luò)并預(yù)測云集群中的工作負(fù)載狀況,并通過對正交實驗設(shè)計結(jié)果的分析找到最佳的參數(shù)組合。研究表明基于RNN的方法適合求解負(fù)載時間序列,但它只能解決短期時間序列,當(dāng)面對長期時間序列預(yù)測任務(wù)時基于RNN的方法表現(xiàn)得不是很好。Song等人[17]使用改進(jìn)的RNN即LSTM網(wǎng)絡(luò)來預(yù)測提前多步的工作量,實驗結(jié)果表明LSTM網(wǎng)絡(luò)具有學(xué)習(xí)長期依賴的能力和良好的自適應(yīng)能力,并且在2個數(shù)據(jù)集中均取得了良好的成果。

      隨著對負(fù)載預(yù)測算法研究的不斷深入,集成的資源負(fù)載預(yù)測算法是近年來的研究熱點。結(jié)合多種預(yù)測方法,預(yù)測模型往往可以得到更好的性能。主要有機器學(xué)習(xí)預(yù)測方法和傳統(tǒng)的統(tǒng)計預(yù)測方法的結(jié)合、自然啟發(fā)式算法和機器學(xué)習(xí)預(yù)測方法的結(jié)合等。Bi等人[18]提出了一種混合方法,結(jié)合了小波分解和ARIMA統(tǒng)計方法來對下一個時間間隔進(jìn)行預(yù)測。在這種方法中,任務(wù)序列通過Savitzky-Golay濾波進(jìn)行平滑,然后通過將平滑后的序列小波分解為多個序列,再通過ARIMA模型預(yù)測共同獲得到達(dá)任務(wù)的數(shù)量。與包括單ARIMA預(yù)測方法和一些典型的神經(jīng)網(wǎng)絡(luò)預(yù)測方法相比,該方法可獲得更好的預(yù)測結(jié)果。Mason等人[19]提出了一項提前預(yù)測主機CPU消耗水平的研究,這項研究使用了進(jìn)化神經(jīng)網(wǎng)絡(luò)(ENN)來做出這些預(yù)測,采取了一些優(yōu)化算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò):粒子群優(yōu)化(PSO)方法、協(xié)方差矩陣適應(yīng)的進(jìn)化策略(CMA-ES)方法或差分進(jìn)化(DE)方法。他們的實驗結(jié)果表明,盡管CPU利用率數(shù)據(jù)中存在大量的噪音,但是經(jīng)過CMA-ES、PSO和DE訓(xùn)練的進(jìn)化神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生比其他更為準(zhǔn)確的預(yù)測。Iqbal等人[20]提出了一種新穎的利用多個機器學(xué)習(xí)方法集成的算法以估計數(shù)據(jù)中心的資源利用率,該方法可以自適應(yīng)地從多個傳統(tǒng)機器學(xué)習(xí)技術(shù)中自動識別最合適的模型,該研究利用歷史資源使用情況的統(tǒng)計特征和多個機器學(xué)習(xí)預(yù)測模型的結(jié)果訓(xùn)練隨機決策森林分類器,從而自動決定適當(dāng)?shù)念A(yù)測模型。但是該方法主要使用序列的統(tǒng)計特征訓(xùn)練機器學(xué)習(xí)分類器,而不能利用神經(jīng)網(wǎng)絡(luò)捕獲時間序列的特征。

      經(jīng)過大量文獻(xiàn)的閱讀,筆者發(fā)現(xiàn)RNN是許多建模場景的熱門話題。在包括數(shù)據(jù)中心資源預(yù)測的場景下,RNN和它的改進(jìn)方法如LSTM、門控循環(huán)單元(Gated Recurrent Unit, GRU)表現(xiàn)良好。但是現(xiàn)有的方法大多數(shù)只考慮了單一特征來進(jìn)行預(yù)測,比如預(yù)測CPU資源時只是利用歷史CPU資源軌跡來輸入模型,因此本文提出了利用聯(lián)合特征選擇算法的策略來進(jìn)行多元相關(guān)性特征選擇,利用無抽取小波變換分解原始序列;進(jìn)一步考慮采用自回歸模型和編解碼框架下的長短期記憶-網(wǎng)絡(luò)相結(jié)合的AR-LSTM-ED模型來增強主機負(fù)載的預(yù)測。

      2 AR-LSTM-ED多元云主機負(fù)載預(yù)測模型

      移動云計算數(shù)據(jù)中心的主機負(fù)載是波動大且非線性的,建立準(zhǔn)確的模型來預(yù)測主機負(fù)載尤為重要。LSTM網(wǎng)絡(luò)模型是RNN的一種改進(jìn)的變體,可以充分利用RNN在處理非線性問題和長期時間序列數(shù)據(jù)方面的優(yōu)勢,阻止RNN中存在的梯度爆炸和梯度消失問題的產(chǎn)生[31]。此外鑒于LSTM以及由LSTM所組成的編-解碼器(Encoder-Decoder)結(jié)構(gòu)在自然語言處理上所取得的成功,其表現(xiàn)出對于時間序列很強的建模性能,本文在主機負(fù)載模型中引入這一結(jié)構(gòu)。因為利用單一特征進(jìn)行預(yù)測往往會丟失掉其他特征對目標(biāo)預(yù)測序列的影響信息,所以本文提出的云數(shù)據(jù)中心負(fù)載預(yù)測模型通過聯(lián)合特征選擇將一組與目標(biāo)預(yù)測變量高度相關(guān)的特征作為多元負(fù)載預(yù)測輸入的一部分,以提高預(yù)測精度。

      2.1 特征聯(lián)合選擇

      在云數(shù)據(jù)中心中,如果任由資源無監(jiān)管自行運行,會面臨難以預(yù)計的危險,因此云數(shù)據(jù)中心的監(jiān)控系統(tǒng)無時不刻地監(jiān)視著復(fù)雜的數(shù)據(jù)中心主機運行,也記錄了大量的系統(tǒng)監(jiān)測數(shù)據(jù)和性能指標(biāo),如CPU資源利用率、網(wǎng)絡(luò)帶寬使用量、磁盤利用率、當(dāng)前任務(wù)數(shù)量等。這些特征之間彼此相對獨立,也有一些具有關(guān)聯(lián)或因果關(guān)系。目前現(xiàn)有的主機負(fù)載預(yù)測算法大多數(shù)只通過單變量來進(jìn)行預(yù)測[16-17],比如只通過歷史CPU資源利用率來預(yù)測未來CPU資源利用率,歷史網(wǎng)絡(luò)帶寬使用量來預(yù)測未來帶寬使用量。在文獻(xiàn)[21]中可觀察到通過分析其他特征有利于分析和理解目標(biāo)特征。比如,如果內(nèi)存使用率在同一時期從20%增長到90%,預(yù)測內(nèi)存會繼續(xù)增長,且系統(tǒng)會開始分頁到磁盤,增大磁盤利用率,這就在云主機負(fù)載預(yù)測問題中提出了多元時間序列預(yù)測的需求。在仔細(xì)考慮給定的系統(tǒng)后,領(lǐng)域?qū)<铱梢赃x擇這組多元特征,但是很難找到這樣的專家,并且為不同的移動云數(shù)據(jù)中心對不同的工作負(fù)載進(jìn)行所需的工作是不可行的。因此,本文的目標(biāo)是設(shè)計一個有效的聯(lián)合特征選擇算法來選擇與目標(biāo)預(yù)測特征最相關(guān)的多元特征集,可以為多種工作負(fù)載下的云平臺提供作用。采取這種策略可以使預(yù)測模型結(jié)果更加準(zhǔn)確,使模型時間和空間復(fù)雜度保持在可計算的水平。

      定義1 云數(shù)據(jù)中心中k個主機收集到的特征向量集合M={M1,M2,…,Mi,…,Mk},第i個主機的特征向量集合Mi={P1,P2,…,Pj,…,Pm},其中P1到Pm為定期從主機收集得到的m個特征,如CPU利用率、內(nèi)存使用率、磁盤輸入/輸出時間、磁盤空間、正在運行的任務(wù)數(shù)等。每個特征Pj均具有T個觀測值,即Pj={pj1,pj2,…,pjt,…,pjT}。

      需要從所有m個特征集合中選擇與目標(biāo)預(yù)測特征最相關(guān)的s個特征,而云資源主機的負(fù)載是高度動態(tài)的,且會隨著時間波動,較難發(fā)現(xiàn)其規(guī)律性。如果使用預(yù)測模型在候選的特征集合中進(jìn)行窮舉搜索需要大量時間,且采用單一的相關(guān)性指標(biāo)不能準(zhǔn)確刻畫負(fù)載的相關(guān)性。因此,本文將使用一種魯棒性的聯(lián)合模型,對目標(biāo)預(yù)測特征與其他待選特征的關(guān)聯(lián)性進(jìn)行挖掘。其中包括3種相關(guān)性評價算法,Pearson相關(guān)系數(shù)算法[22]、Spearman相關(guān)系數(shù)算法[23]和最大互信息系數(shù)算法(Maximal Information Coefficient, MIC)[24]。Pearson相關(guān)系數(shù)從波形相似度來判斷特征變量之間的相關(guān)性;Spearman相關(guān)系數(shù)從序列變動趨向一致性來計算特征變量是否相關(guān);MIC相關(guān)系數(shù)算法根據(jù)概率密度分布的特征計算特征變量間的相關(guān)性。所有這些技術(shù)都需要計算候選資源特征與目標(biāo)預(yù)測特征之間的成對關(guān)系。

      Pearson相關(guān)系數(shù)算法用于度量2個特征序列之間的線性相關(guān)程度,2個負(fù)載資源特征Px和Py之間的Pearson相關(guān)系數(shù)rpearPx,Py的計算公式如式(1)[22]:

      (1)

      其中,cov(Px,Py)為資源特征Px和Py的協(xié)方差,μPx和μPy分別表示特征Px和Py的平均值,σPx和σPy分別表示特征Px和Py的標(biāo)準(zhǔn)差,任意資源特征Px表示為Px={px1,px2,…,pxT}。rpearPx,Py的值介于[-1,1]之間,如果Px和Py這2個特征變量彼此獨立,則rpearPx,Py值為0。

      Spearman相關(guān)系數(shù)利用單調(diào)方程評價2個特征變換的強度和趨向,比如2個變量可能一起變化,但并不一定以相同的速率在一致的方向變化。已知Px和Py是分別為具有T個觀測值的2個資源特征,通過將等級1分別分配給Px和Py中T個觀測值中的最低值,將等級2分別分配給下一個最低值,依此類推,獲得Px和Py中每個值的等級,被觀測的第t時刻Px和Py等級的差值為d′t。Spearman相關(guān)系數(shù)rspearPx,Py的計算方法如式(2)[23]:

      (2)

      最大互信息系數(shù)算法本質(zhì)上是計算2個特征間的互信息值,最大互信息系數(shù)主要利用互信息和網(wǎng)格劃分方法進(jìn)行計算。任意資源特征Px均具有T個觀測值,Px={px1,px2,…,pxT}。Px和Py間的互信息系數(shù)MIPx,Py的計算方法如式(3)[26]:

      (3)

      其中,p(px,py)表示px和py的聯(lián)合概率密度,p(px)和p(py)分別表示px和py的邊緣概率密度。在給定的網(wǎng)格分辨率下,對由資源變量px和py構(gòu)成的二維散點圖按照不同的劃分方案進(jìn)行劃分,取劃分方案中互信息值的最大值,將該最大值進(jìn)行歸一化。改變網(wǎng)格分辨率,求出不同網(wǎng)格尺度下最大的互信息值,把該值作為資源變量px和py的MIC值。MIC系數(shù)MICPx,Py的計算方法如式(4)[24]:

      (4)

      其中,a和b表示將變量Px的值域分成a段,將變量Py的值域分成b段,B(T)是一個關(guān)于觀測規(guī)模T的函數(shù),表示網(wǎng)格劃分a×b的上限。一般地,當(dāng)B(T)=T0.6時效果最好,因此本文中也采用該值,Px和Py的相關(guān)性和MIC的絕對值正相關(guān)。

      根據(jù)以上3種技術(shù)可以得出不同特征的3種相關(guān)度系數(shù)值,可聯(lián)合表示負(fù)載數(shù)據(jù)局部的波形相似度、變化趨勢和概率密度分布特點。若將3種指標(biāo)值隨機加權(quán)會影響特征選擇的準(zhǔn)確性和穩(wěn)定性,因此本文提出結(jié)合熵權(quán)法[25]的聯(lián)合特征選擇算法,如果相關(guān)度指標(biāo)能提供的信息量越大,在所有技術(shù)指標(biāo)的整體評價中的作用也就更大,占整體技術(shù)指標(biāo)的權(quán)重就應(yīng)該越高。而信息熵的大小和信息量成正比。因此,通過對計算出的指標(biāo)的信息熵計算可以得出每種指標(biāo)的信息量,根據(jù)指標(biāo)的信息量分配權(quán)重,得出具有魯棒性的相關(guān)性指標(biāo)。

      聯(lián)合特征選擇算法具體步驟如算法1所示。

      算法1 聯(lián)合特征選擇算法

      輸入:數(shù)據(jù)中心中的某臺主機的負(fù)載特征向量集合M={M1,M2,…,Mi,…,Mk},目標(biāo)預(yù)測特征集合Px。Mi中共有m個負(fù)載特征向量,Mi={P1,P2,…,Pj,…,Pm}。任意的負(fù)載特征向量Pj都具有T個觀測值,即Pj={pj1,pj2,…,pjt,…,pjT}。目標(biāo)預(yù)測特征集合Px初始時包含在Mi中。

      輸出:候選特征MZi={P1,P2,…,Ps}。

      步驟2 因為最大互信息值的取值在[0,1]之間,rpearPx,Py和rspearPx,Py的取值在[-1,1]之間,所以將相關(guān)度矩陣的各子項取絕對值,令CMj,u=|CMj,u|。

      步驟3 依據(jù)計算公式(5)分別計算3項指標(biāo)的信息熵Eu的值。

      (5)

      步驟4 根據(jù)公式(6)計算3項指標(biāo)對應(yīng)的權(quán)重wu:

      (6)

      步驟5 根據(jù)得到的權(quán)重wu和公式(7)計算聯(lián)合關(guān)聯(lián)度CMj的值:

      (7)

      步驟6 初始化輸出候選特征矩陣MZi={},在Mi中選取聯(lián)合關(guān)聯(lián)度值CMj中最大的s個特征向量,將選中的特征向量Pj加入MZi。

      步驟7 得到MZi={P1,P2,…,Ps}為聯(lián)合特征選擇算法最終輸出的候選特征。

      聯(lián)合特征選擇輸出的MZi為AR-LSTM-ED預(yù)測模型的輸入信息。目標(biāo)預(yù)測特征集合Px的分解方法將在下一節(jié)中介紹。

      2.2 無抽取小波分解

      由于在移動云計算負(fù)載預(yù)測領(lǐng)域,數(shù)據(jù)采集間隔短,采集頻率越來越高,一方面可以得到更多的信息,另一方面會引入大量的隨機噪聲。雖然這些隨機噪聲在采集頻率較低的數(shù)據(jù)中也同樣存在,但是低頻的采集起到了低通濾波的作用,平滑了時間序列,過濾掉了高頻噪聲。與此相反,在移動云計算負(fù)載數(shù)據(jù)中這一問題更加嚴(yán)重。因為移動云計算中心無時無刻不在處理來自各地移動設(shè)備的任務(wù),它的負(fù)載序列很難具有周期性和平穩(wěn)性,甚至有用的信息都可能會被噪聲淹沒。對高頻快速變化的負(fù)載數(shù)據(jù)直接預(yù)測難以達(dá)到滿意的效果,可以利用時間序列分解和神經(jīng)網(wǎng)絡(luò)組合的混合模型來進(jìn)行預(yù)測。所以本節(jié)引入了一種無抽取小波分解方法作為移動云計算負(fù)載預(yù)測模型的基礎(chǔ)。

      時間序列分解方法將不同的時序數(shù)據(jù)進(jìn)行變換,分解成一系列低耦合的子成分,有利于進(jìn)一步分析與預(yù)測。小波變換通過一些特定的母小波去描述輸入信號,比如縮小或放大原始信號、將原始信號平移等。近年來,越來越多時間序列研究領(lǐng)域的學(xué)者開始將小波變換引入到時序預(yù)測方向上[18],可以使用小波變換對原負(fù)載序列進(jìn)行解析,分解成多個較平穩(wěn)的細(xì)節(jié)信號和一個近似信號,從而挖掘出序列中的規(guī)律以及變化趨向。小波分解通常使用基于多分辨率分析的Mallat算法[27],該方式可以用于對非平穩(wěn)時間序列進(jìn)行預(yù)測,但是在分解過程中,每當(dāng)獲取到新的時間序列時,小波變換的系數(shù)需要重新計算,導(dǎo)致同樣的歷史序列分解出的分量發(fā)生改變,計算量大,沒有充足的時間對變換后的數(shù)據(jù)進(jìn)行再次訓(xùn)練。Mallat算法這種不具有時移不變性的方法難以滿足移動云計算負(fù)載預(yù)測模型對于在線預(yù)測的要求,而無抽取的à trous離散小波變換算法[28]解決了這一問題,任意時刻t序列的分解都不需要t時刻之后的數(shù)據(jù)來計算,所以在得到新的時序數(shù)據(jù)時,無需重新計算系數(shù)。并且具有時移不變性,同一時刻的各個分解序列可以直接產(chǎn)生關(guān)聯(lián),適用于云計算中心負(fù)載在線預(yù)測的場景。因此本文采用à trous小波變換將目標(biāo)預(yù)測序列Px分解成式(8)的形式,Px={px1,px2,…,pxT},à trous小波分解得到的序列長度仍然是T。

      (8)

      集合{D1,D2,…,DJ,SJ}為目標(biāo)負(fù)載序列Px分解到分辨率為M的小波分解序列集合,其中SJ是目標(biāo)負(fù)載序列Px的近似信號序列,而Dj為目標(biāo)負(fù)載序列Px的細(xì)節(jié)信號序列,SJ={sJ1,sJ2,…,sJT},Dj={dj1,dj2,…,djT},都具有T個觀測值。將卷積核定義為k(h),分辨率為j的分解序列在時間t處的近似信號sjt由卷積核k對原始時間序列進(jìn)行卷積操作,如式(9):

      (9)

      對負(fù)載序列進(jìn)行分辨率為m的分解后的序列Dj在時刻t處的細(xì)節(jié)信號djt由sjt表示,如式(10):

      djt=sjt-s(j-1)t

      (10)

      為了適應(yīng)移動云負(fù)載的預(yù)測,降低小波變換的計算量,本文采用簡單的濾波器k(h)=[1/2,1/2]作為低通濾波器,計算近似信號的方法如式(11):

      sjt=0.5(s(j-1)(t-2j)+s(j-1)t)

      (11)

      根據(jù)式(9)和式(11)可以將Px分解為式(8)的形式。通過上述變換可以看出,在任意時刻t都不需要t時刻之后的數(shù)據(jù)來計算近似信號和細(xì)節(jié)信號分量,可滿足本文研究中的實時性要求,并且因為負(fù)載數(shù)據(jù)不斷變換和更新,前面計算得到的負(fù)載信號分量可被后面的計算使用;并且如果數(shù)據(jù)不斷更新(即獲得新的測量結(jié)果),則不必重新計算之前分解的信號,提高了計算效率。另外,考慮分解的層數(shù)過多會產(chǎn)生太多細(xì)節(jié)信號,層數(shù)過少近似信號不夠平滑。根據(jù)實驗,本文將分辨率J設(shè)置為3,可以分解出較為平滑的近似信號,最終可以將目標(biāo)負(fù)載序列Px根據(jù)式(8)分解,得到3個不同分辨率下的細(xì)節(jié)信號序列D1、D2、D3和一個近似信號序列S3。這些序列將作為預(yù)測特征的內(nèi)部特征輸入到本文的模型中,且由于變換的冗余性,他們的時間長度與原始的目標(biāo)負(fù)載序列Px相等,所以每一個時間序列的同一個時間點可以建立直接聯(lián)系,之間的規(guī)律可以被下一節(jié)提出的模型獲取到。

      2.3 AR-LSTM-ED模型

      本文提出一種與AR模型相結(jié)合的編解碼框架下的長短期記憶網(wǎng)絡(luò)模型,即AR-LSTM-ED模型,該模型不僅可以捕捉不同時間序列的長期時間依賴關(guān)系,還可以增強基本LSTM的線性預(yù)測能力,對處理移動云負(fù)載序列預(yù)測問題具有良好的性能。AR-LSTM-ED模型由2個基本組件組成,包括線性組件和非線性組件,其架構(gòu)圖如圖1所示。本文采用經(jīng)典的AR模型作為線性組件來捕捉輸入序列中的線性成分。非線性組件采取了編-解碼器的結(jié)構(gòu),包括LSTM網(wǎng)絡(luò)構(gòu)成的編碼器部分和解碼器部分,編碼器封裝了輸入向量時序數(shù)據(jù)中信息的編碼形式,解碼器將編碼器構(gòu)建的表示形式解碼為預(yù)測輸出序列。

      圖1 AR-LSTM-ED模型架構(gòu)圖

      主機負(fù)載時間序列依據(jù)時間順序分成固定窗口大小的相連續(xù)的歷史序列和預(yù)測序列:歷史和預(yù)測序列分別用作AR-LSTM-ED的輸入和受監(jiān)督的輸出標(biāo)簽。輸入向量為X,由聯(lián)合特征選擇算法中得到的MZi={P1,P2,…,Ps}、原始目標(biāo)負(fù)載序列Px和根據(jù)式(9)分解后得到的序列{D1,D2,D3,S3}構(gòu)成,即X={Px,P1,P2,…,Ps,D1,D2,D3,S3}。且X具有T個觀測點,即X={x1,x2,…,xt,…,xω},輸入AR-LSTM-ED模型得到的輸出預(yù)測序列為Y,Y={yω+1,…,yt,…,yω+t′}。t′=1時Y是主機未來單個時間間隔的預(yù)測負(fù)載序列,序列長度為1;t′>1時是未來多個時間間隔的預(yù)測負(fù)載序列。參考文獻(xiàn)[10],本文用于從云數(shù)據(jù)中心中收集數(shù)據(jù)的最小間隔為5 min。

      隨著深度學(xué)習(xí)近年來的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)被越來越多地應(yīng)用到實際問題中,RNN是一個能夠?qū)顟B(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞的網(wǎng)絡(luò)[29]。但是,當(dāng)歷史負(fù)載序列很長時,RNN將無法從遠(yuǎn)離當(dāng)前時刻的負(fù)載中學(xué)習(xí)信息,時間步t中的信息傳輸?shù)较乱粋€時間步時,上一步中信息的影響將減小。并且,RNN在建立長期依賴模型時常常會受到梯度無法在較長序列中傳遞產(chǎn)生的消失問題和梯度爆炸問題的困擾[31]。而RNN的一種改良的變體LSTM網(wǎng)絡(luò)可以解決RNN中的梯度消失問題[32],在處理負(fù)載預(yù)測相關(guān)的時間序列問題中表現(xiàn)出更強的優(yōu)勢。因此,本文選擇了LSTM模型作為基本負(fù)載預(yù)測模型。

      LSTM網(wǎng)絡(luò)使用多個門控機制來跟蹤序列的狀態(tài),門控單元有4種類型:忘記門ft、輸入門it、單元門gt和輸出門ot,它們共同控制如何將信息更新為狀態(tài),如圖2[33]所示。LSTM網(wǎng)絡(luò)通常通過忘記門來增強學(xué)習(xí)長期依賴的能力,可以學(xué)習(xí)需要記憶早先成千上萬甚至數(shù)百萬個離散時間步長發(fā)生的事件的任務(wù),即使在重大事件之間存在較長的延遲,LSTM網(wǎng)絡(luò)仍可以工作。

      圖2 LSTM的體系結(jié)構(gòu)

      當(dāng)LSTM網(wǎng)絡(luò)接收時間步t時刻的輸入xt時,根據(jù)公式(12)[18],4個門都會進(jìn)行更新。忘記門ft用來控制記住還是遺忘上一個時間步的單元狀態(tài)ct-1,ft取值為[0,1],表示上一個時間步的單元狀態(tài)遺忘的概率。輸入門it負(fù)責(zé)確定當(dāng)前輸入xt的重要程度,即負(fù)載數(shù)據(jù)xt中哪些信息能夠被儲存在神經(jīng)元中,單元門gt對輸入執(zhí)行非線性變換,而輸出門ot控制新的單元狀態(tài)ct進(jìn)入到LSTM網(wǎng)絡(luò)的當(dāng)前輸出的ht的量,ht是隱藏狀態(tài)。

      (12)

      其中,Wf、Wi、Wg和Wo是權(quán)重矩陣,激活函數(shù)是非線性的Sigmoid函數(shù),bf、bi、bg和bo是偏差向量。從式(13)中可以看到,當(dāng)前時間步t的單元狀態(tài)ct在單元門ft、it、gt的控制下進(jìn)行更新。最后,根據(jù)式(14)使用ot和ct更新本層的輸出。

      ct=ft×ct-1+it×gt

      (13)

      ht=ot×tanh(ct)

      (14)

      本文研究的任務(wù)是預(yù)測移動云計算中心中目標(biāo)負(fù)載在未來一個時刻或多個時刻的值,輸入向量X為多個時間步的序列,所以是一個多對多或多對一的序列預(yù)測形式。由于Encoder-Decoder模型[32]能夠使用編碼器將輸入的序列編碼轉(zhuǎn)換為固定長度的向量,并使用解碼器解析這個固定長度的向量并輸出需要長度的預(yù)測序列,且輸入和輸出都可以是不定長序列,對于本文中對單步或多步負(fù)載預(yù)測問題具有普適性,所以本文將編-解碼器引入。編碼器和解碼器各由一個LSTM網(wǎng)絡(luò)構(gòu)成,編碼器將t時刻輸入變量xt映射到隱藏狀態(tài)ht,ht中包含更高維的信息,使用另一個基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)作為解碼器對編碼的輸入信息進(jìn)行解碼,解碼器的輸入ht由上一次編碼器得到,解碼器的輸出sω為需要的預(yù)測長度形式的序列。

      經(jīng)過LSTM網(wǎng)絡(luò)的學(xué)習(xí),可以得到解碼器的輸出sω,最后用一個全連接層將其轉(zhuǎn)為非線性組件部分的最終預(yù)測結(jié)果YED,全連接層的輸出計算如式(15):

      YED=WEDst+bED

      (15)

      其中,st是Decoder部分的預(yù)測輸出結(jié)果,WED和bED是全連接層需要學(xué)習(xí)的參數(shù)。

      (16)

      如式(17)所示,將AR線性組件的預(yù)測結(jié)果Yar和長短期內(nèi)存編碼器-解碼器的預(yù)測結(jié)果YED集成而獲得最終AR-LSTM-ED模型預(yù)測結(jié)果Y,且Y={yω+1,…,yt,…,yω+t′}。t′=1時Y表示對主機未來一個時間步預(yù)測的負(fù)載序列,序列長度為1;t′>1時Y表示對未來t′個時間步預(yù)測的負(fù)載序列。其中,yt表示AR-LSTM-ED模型在時間步t的最終預(yù)測。

      Y=YED+Yar

      (17)

      3 基于AR-LSTM-ED的移動云計算多元負(fù)載預(yù)測算法

      基于AR-LSTM-ED的移動云計算多元負(fù)載預(yù)測算法分為4個部分,分別為預(yù)處理階段、小波分解階段、模型訓(xùn)練階段和負(fù)載預(yù)測階段。具體步驟如下:

      步驟1 在數(shù)據(jù)預(yù)處理步驟中,使用邏輯歸約函數(shù)對移動云數(shù)據(jù)中心的監(jiān)控數(shù)據(jù)集中的主機負(fù)載數(shù)據(jù)進(jìn)行歸一化。然后將歸一化后得到的主機特征向量集合和目標(biāo)預(yù)測特征集合,通過算法1進(jìn)行聯(lián)合特征選擇和目標(biāo)負(fù)載變化相關(guān)性最高的關(guān)鍵特征P1,P2,…,Ps以降低監(jiān)測開銷及模型復(fù)雜度。

      步驟2 在小波分解處理步驟中,提取出目標(biāo)預(yù)測負(fù)載序列,使用非抽取小波變換算法根據(jù)式(9)和式(11)將目標(biāo)預(yù)測負(fù)載分解為3個細(xì)節(jié)信號分量D1、D2、D3和一個近似信號S3。

      步驟3 在模型訓(xùn)練階段,取出監(jiān)控數(shù)據(jù)集中得到的原始目標(biāo)序列、步驟1中得到的外部多元特征序列和步驟2中得到的內(nèi)部小波分解序列,合并得到X={Px,P1,P2,…,Ps,D1,D2,D3,S3}作為監(jiān)控數(shù)據(jù)集輸入到AR-LSTM-ED模型中。負(fù)載訓(xùn)練樣本的序列長度為T,將其分割為歷史序列長度為ω,預(yù)測序列長度為t′的片段進(jìn)行訓(xùn)練,得到AR-LSTM-ED模型對訓(xùn)練數(shù)據(jù)集的預(yù)測誤差,不停調(diào)整參數(shù)進(jìn)行訓(xùn)練,得到最優(yōu)模型。

      步驟4 負(fù)載預(yù)測階段,利用步驟3中訓(xùn)練好的AR-LSTM-ED模型根據(jù)式(12)~式(17)對監(jiān)控數(shù)據(jù)集中的輸入序列進(jìn)行預(yù)測,得到輸出序列。

      本文提出的基于AR-LSTM-ED的移動云計算多元負(fù)載預(yù)測算法框架如圖3所示。

      圖3 基于AR-LSTM-ED的移動云計算多元負(fù)載預(yù)測算法框架

      4 實驗與結(jié)果分析

      4.1 數(shù)據(jù)集和預(yù)處理

      在本文中,一個從真實云環(huán)境中收集的數(shù)據(jù)集[10]將用于評估本文提出的基于AR-LSTM-ED的移動云計算多元負(fù)載預(yù)測算法的性能。這個數(shù)據(jù)集記錄了谷歌公司的云計算數(shù)據(jù)中心中大約12000臺服務(wù)器的工作負(fù)載信息,包括了各個任務(wù)的資源、調(diào)度等信息,例如調(diào)度類型、事件類型、資源請求、優(yōu)先級、資源利用率等。在本實驗中,將專注于預(yù)測未來的CPU使用趨勢。同時,其他的資源特征因為與CPU使用率存在相關(guān)性,因此也用于多元預(yù)測CPU使用率。如果對其他的資源如內(nèi)存、磁盤使用量、帶寬進(jìn)行預(yù)測,本文提出的算法仍然是實用的。

      數(shù)據(jù)集中的每個作業(yè)在不同的時刻都伴隨有一組資源請求和資源使用量度。云計算中心中的每臺主機都提供長期應(yīng)用程序和批處理工作的任務(wù)負(fù)載,給定時間不同主機上正在運行的任務(wù)的總負(fù)載是該主機的實時負(fù)載。本文首先需要對不同任務(wù)的負(fù)載數(shù)據(jù)進(jìn)行分析和聚類預(yù)處理從而得到需要的在一段觀測時間的不同類型的負(fù)載數(shù)據(jù)。對數(shù)據(jù)集處理和分析后獲得的資源特征名稱及描述分別是CPU(CPU使用率)、JOBS(正在運行的作業(yè)總數(shù))、MEM(內(nèi)存使用率)、VM(分配但不一定使用的內(nèi)存使用量)、UPC(未映射的頁面緩存量)、TPC(總頁面緩存使用量)、MAXM(最大內(nèi)存使用率)、DIO(磁盤I/O時間總和)、DSP(磁盤空間使用量)、MAXC(最大CPU使用率)、MAXD(采樣頻率間隔內(nèi)最大磁盤I/O時間)、CPI(每個指令在所有節(jié)點上的平均周期)、MAI(每條指令的平均內(nèi)存訪問)。在本文的實驗中,以上數(shù)據(jù)集中按時間順序7∶3劃分訓(xùn)練集和測試集,訓(xùn)練集為歷史已知數(shù)據(jù),測試集為訓(xùn)練集之后的未知數(shù)據(jù),可以避免未來時間的信息泄露導(dǎo)致預(yù)測不準(zhǔn)的問題。數(shù)據(jù)采樣頻率為5 min一次。所有時間序列數(shù)據(jù)通過極大極小歸一化操作歸一化到0~1的范圍。

      圖4 聯(lián)合關(guān)聯(lián)度值

      在本文提出的聯(lián)合特征選擇策略中,以上13個特征的序列為特征向量集合Mi,CPU使用率的序列作為目標(biāo)預(yù)測集合Px,根據(jù)算法1,得出了除了目標(biāo)預(yù)測特征CPU外的12項特征的聯(lián)合關(guān)聯(lián)值,如圖4所示。將s=5作為閾值,通過選擇聯(lián)合關(guān)聯(lián)度值最高的5個特征,得到候選特征MEM、VM、MAXM、DSP、MAXC作為AR-LSTM-ED模型的輸入。聯(lián)合特征選擇技術(shù)能避免某一關(guān)聯(lián)度指標(biāo)失效的情況,可以從全部可用的特征集中識別出最相關(guān)的特征集,具有有效性和可行性。

      4.2 實驗設(shè)計及參數(shù)設(shè)定

      表1給出了本文方法的超參數(shù)。超參數(shù)是通過多種方式確定的。根據(jù)預(yù)測的序列長度分成單步和多步預(yù)測,單步預(yù)測對未來下一個時間步的負(fù)載值進(jìn)行預(yù)測,得到的預(yù)測序列的長度為1;多步預(yù)測對未來多個時間步的CPU負(fù)載值進(jìn)行預(yù)測,預(yù)測序列的長度分別為2、6和12。通過網(wǎng)格搜索確定編、解碼器網(wǎng)絡(luò)層中隱藏狀態(tài)的個數(shù),通過自相關(guān)性分析得到輸入模型的歷史窗口長度ω。

      表1 AR-LSTM-ED模型的參數(shù)值范圍

      遠(yuǎn)程依賴性是時序數(shù)列中的一種常見現(xiàn)象,下一步驟負(fù)載值的增加或是減少受到序列中幾個過去時間負(fù)載滯后的影響[36]。自相關(guān)是數(shù)據(jù)的特征,它顯示相同變量在不同時間點的值之間的相似程度。自相關(guān)系數(shù)為可以表示這種遠(yuǎn)程依賴性的參數(shù),參考文獻(xiàn)[34],序列第t步的自相關(guān)系數(shù)rt的計算方法如式(18)所示,rt越大,自相關(guān)性越大:

      (18)

      其中,xi代表序列中第i個樣本的值,μx為序列的均值。計算歷史窗口長度ω的公式如式(19)所示,其中,χs(rt)是指示函數(shù),S={rt|rt≤thresholdr},thresholdr為自相關(guān)系數(shù)的閾值,可以求出輸入模型的歷史窗口長度ω。

      (19)

      本文對數(shù)據(jù)中心負(fù)載進(jìn)行了自相關(guān)分析,數(shù)據(jù)中心CPU利用率負(fù)載特征的自相關(guān)圖如圖5所示。將自相關(guān)閾值thresholdr設(shè)定為0.6,經(jīng)過計算可得歷史窗口長度ω=17,本文的預(yù)測模型選擇歷史負(fù)載序列X={x1,…,xt,…,x17}作為輸入。

      圖5 數(shù)據(jù)中心CPU利用率負(fù)載特征的自相關(guān)圖

      4.3 實驗評估

      (20)

      (21)

      為了度量聯(lián)合特征選擇算法的效果,需要對特征選擇后的數(shù)據(jù)集進(jìn)行預(yù)測實驗,本文實驗中的特征包含圖4中的12個特征和1個目標(biāo)預(yù)測特征。將使用本文提出的聯(lián)合特征選擇算法的結(jié)果和其他算法結(jié)果對比,如單一的特征選擇方法和選擇全部特征的方法??梢詮谋?中發(fā)現(xiàn),對于使用全部特征的多元AR-LSTM-ED模型的誤差小于僅使用CPU特征的模型誤差,這表示多元特征預(yù)測具有有效性。在多元特征方法中,使用Pearson相關(guān)系數(shù)選擇特征的方法效果不如選擇全部特征的預(yù)測效果,此時Pearson相關(guān)系數(shù)不能很好地挖掘其他特征負(fù)載序列與CPU負(fù)載序列的相關(guān)性,而采用其他相關(guān)系數(shù)選擇特征的方法預(yù)測效果較好,本文所提出的聯(lián)合特征選擇策略具有有效避免某一指標(biāo)下關(guān)聯(lián)度評判失效的情況,具有魯棒性。且聯(lián)合特征選擇策略比起單特征預(yù)測可以提供更多的信息提高預(yù)測效果,還可以在保證預(yù)測效果的情況下減少冗余特征變量從而減少構(gòu)建預(yù)測模型所需的時間。本文又對進(jìn)行小波分解和不進(jìn)行小波分解方法的預(yù)測準(zhǔn)確性進(jìn)行實驗,“WD”表示小波分解,對AR-LSTM-ED模型而言,在結(jié)合小波分解后的最終預(yù)測結(jié)果優(yōu)于不經(jīng)過分解的結(jié)果。經(jīng)過分解后的近似信號相當(dāng)于在原始CPU序列上進(jìn)行了平滑濾波,可以更加準(zhǔn)確地預(yù)測趨勢,而不用受到分解出的高頻的細(xì)節(jié)信號影響。

      表2 各模型預(yù)測CPU資源準(zhǔn)確性對比

      為了更準(zhǔn)確地評估本文提出的基于AR-LSTM-ED多元預(yù)測算法模型的預(yù)測性能,另外選擇了ARIMA算法模型[22]、LSTM算法模型[11]、SVR算法模型和BiLSTM算法模型作為比較實驗的基準(zhǔn)。本文將模型預(yù)測的時間步分別設(shè)置為單步和多步預(yù)測,實驗中多步預(yù)測為預(yù)測2、6、12個時間步,時間步間隔時間同采樣的間隔一致,為5 min一次。根據(jù)圖5的自相關(guān)分析發(fā)現(xiàn)CPU負(fù)載序列不平穩(wěn),所以ARIMA算法對負(fù)載序列執(zhí)行一次差分,將時間序列的差分次數(shù)d設(shè)置為1,將自回歸項的數(shù)量p設(shè)置為3,移動平均項數(shù)q=2,即ARIMA算法的參數(shù)設(shè)置為(3,1,2)。ARIMA算法模型和SVR算法模型中使用單特征,即只使用了CPU特征進(jìn)行預(yù)測。其他LSTM和BiLSTM算法與文獻(xiàn)[12]不同的是,本文采用聯(lián)合特征選擇得到的是外部特征集合和CPU負(fù)載特征小波變換后得到的內(nèi)部特征,而不僅僅是單一CPU的特征。

      本文對上述不同的預(yù)測模型進(jìn)行實驗,并對結(jié)果進(jìn)行繪圖分析。圖6表現(xiàn)了單步預(yù)測中本文提出的模型和ARIMA、LSTM、SVR、BiLSTM這4種算法的預(yù)測結(jié)果以及實際情況下采集到的CPU利用率的對比。

      圖6 實際負(fù)載序列與不同預(yù)測模型的預(yù)測結(jié)果序列

      從圖7中可以直觀地看出本文提出的AR-LSTM-ED預(yù)測算法對于谷歌數(shù)據(jù)集在單步預(yù)測時的預(yù)測結(jié)果更接近實際數(shù)據(jù),但無法直觀地分辨預(yù)測誤差。為了更清楚地看到結(jié)果,圖7展示了本文提出的算法和ARIMA、LSTM、SVR、BiLSTM算法的單步預(yù)測結(jié)果和實際負(fù)載值的差,從中可以看到,本文提出的算法的預(yù)測誤差大多數(shù)情況下遠(yuǎn)小于ARIMA算法,稍小于其他算法。

      圖7 采用不同預(yù)測模型的單步預(yù)測誤差

      本文計算了單步預(yù)測下每種算法與原始負(fù)載相比的誤差,采用式(20)和式(21)的RMSE和MAE這2種評估指標(biāo)對預(yù)測結(jié)果進(jìn)行定量評估,評估結(jié)果如表3所示。

      表3 各模型預(yù)測CPU資源準(zhǔn)確性對比

      由表3可見,無論是RMSE還是MAE的評估指標(biāo),本文提出的基于AR-LSTM-ED的多元負(fù)載預(yù)測算法模型的預(yù)測精準(zhǔn)度都要高于其他模型。盡管ARIMA具備完善的理論基礎(chǔ),但它很難將非線性的歷史負(fù)載序列預(yù)測模型轉(zhuǎn)換為固定的預(yù)測形式,所以面對復(fù)雜的負(fù)載變化,誤差較大。在基于LSTM的方法中,本文方法的得分均優(yōu)于基本LSTM和BiLSTM模型,這表明編-解碼器體系結(jié)構(gòu)的有效性,編碼器網(wǎng)絡(luò)可以提取上下文的隱藏特征和整個序列的隱藏特征,并且解碼器網(wǎng)絡(luò)可以選擇輸出預(yù)測未來負(fù)載時隱藏的特征,并且線性AR模塊增加了處理線性分量的能力。為了進(jìn)一步評估本文所提模型的效果,在單步預(yù)測的基礎(chǔ)上,本文分別預(yù)測了未來2步、6步、12步的負(fù)載,即預(yù)測窗口長度t′=2,6,12。得到的結(jié)果如圖8所示,可以看出本文提出的AR-LSTM-ED模型得分優(yōu)于其他的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

      5 結(jié)束語

      預(yù)測資源使用情況對于在云服務(wù)器中做出更好的自動擴展和負(fù)載平衡決策非常有用[20],并且有助于云服務(wù)供應(yīng)商為他們的客戶提供更好的服務(wù)質(zhì)量并獲取最大的利潤。本文提出了一種用于云計算資源負(fù)載預(yù)測的新穎模型——AR-LSTM-ED模型。相比同類RNN的方法,本文使用聯(lián)合特征選擇策略和非抽取式小波分解方法得到目標(biāo)預(yù)測資源負(fù)載的外部和內(nèi)部特征來對目標(biāo)云負(fù)載進(jìn)行多元方式的預(yù)測。聯(lián)合特征選擇技術(shù)對移動云計算監(jiān)控中心得到的多個特征自動選取與目標(biāo)負(fù)載特征最相關(guān)外部特征序列,小波分解將不穩(wěn)定的目標(biāo)負(fù)載特征分解為低頻和高頻的4個內(nèi)部特征序列。該模型利用LSTM編解碼器網(wǎng)絡(luò)處理長期序列預(yù)測問題的優(yōu)勢,提取歷史序列的隱藏特征并預(yù)測工作量,同時使用AR模塊彌補了LSTM在線性預(yù)測方面的不足,增強了AR-LSTM-ED模型的預(yù)測能力。實驗結(jié)果表明本文的模型相比于同類研究具有更好的預(yù)測效果。

      猜你喜歡
      特征選擇數(shù)據(jù)中心預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      酒泉云計算大數(shù)據(jù)中心
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      民航綠色云數(shù)據(jù)中心PUE控制
      電子測試(2018年11期)2018-06-26 05:56:24
      不必預(yù)測未來,只需把握現(xiàn)在
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應(yīng)用
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      南城县| 依安县| 安泽县| 响水县| 金平| 西充县| 碌曲县| 万年县| 鹤岗市| 咸阳市| 金沙县| 绵竹市| 同仁县| 博野县| 包头市| 大田县| 达孜县| 伽师县| 修水县| 广灵县| 余江县| 南京市| 通江县| 芦溪县| 西安市| 克山县| 滨州市| 嘉黎县| 顺平县| 外汇| 平阳县| 恭城| 大关县| 乌兰察布市| 秭归县| 淮北市| 台中市| 安多县| 施秉县| 常熟市| 永福县|