基于強(qiáng)化學(xué)習(xí)的云資源混合式彈性伸縮算法

2022-02-14 10:55:30吳曉軍張成原盛任曉春王瑋

西安交通大學(xué)學(xué)報 2022年1期

關(guān)鍵詞：資源量實例利用率

近年來,云計算行業(yè)快速崛起。云計算的虛擬化概念和自動伸縮功能使計算或應(yīng)用外包到云成為一種常見的范式

,以按需購買和按需付費模式使用資源可以節(jié)約資源和成本。但是,云環(huán)境的高度靈活性使資源伸縮問題變得更加復(fù)雜

。云環(huán)境中的工作負(fù)載是不確定的,這一點在涉及面向用戶的應(yīng)用程序中尤為突出

。

自動伸縮是一種調(diào)整應(yīng)用程序資源量以滿足不斷變化的工作負(fù)載需求,同時最小化成本或資源的技術(shù)

。目前,已經(jīng)提出了許多自動伸縮方法,這些方法可以分為響應(yīng)式和預(yù)測式兩種

。響應(yīng)式方法主要包括基于閾值的策略、排隊論和控制論等,預(yù)測式方法則包含時間序列分析和強(qiáng)化學(xué)習(xí)方法。由于提前做出了伸縮決策,預(yù)測式方法的伸縮及時性比響應(yīng)式要好。時間序列分析通常包含兩個階段,第一階段是工作量預(yù)測,第二階段是根據(jù)預(yù)測的工作量做出擴(kuò)展決策

。然而,許多時間序列分析方法都是基于閾值來做出伸縮決策,存在閾值設(shè)置過程復(fù)雜并且難以確定達(dá)到閾值后擴(kuò)展或收縮的實例數(shù)的問題。基于強(qiáng)化學(xué)習(xí)(RL)的伸縮方法具有自適應(yīng)性和魯棒性

,不需要任何先驗知識,可以確保當(dāng)工作負(fù)載動態(tài)變化時應(yīng)用軟件的資源利用處于相對穩(wěn)定的狀態(tài),因此RL是云環(huán)境中進(jìn)行自動伸縮的一種有前景的方法。

目前的工作大部分都集中于在水平伸縮領(lǐng)域進(jìn)行

。但是,水平伸縮通常面臨動作空間難以準(zhǔn)確設(shè)置的問題。在水平伸縮中,如果將RL的每個狀態(tài)的動作設(shè)置為(-1,0,1),那么面對負(fù)載急劇增加情形需要多次調(diào)整才能有效減少違反服務(wù)質(zhì)量請求(QoS),影響資源調(diào)度的及時性和動態(tài)性,還影響用戶體驗;如果將動作空間范圍設(shè)置得過大,則會導(dǎo)致算法收斂慢,而且在強(qiáng)化學(xué)習(xí)的探索階段隨機(jī)選擇的動作可能會造成意料之外的實例數(shù)大范圍變化而使系統(tǒng)不穩(wěn)定。此外,盡管水平伸縮是管理云環(huán)境中資源的常用方法,但是也存在一些水平伸縮無法處理的情況

。例如,某個實例上堆積了遠(yuǎn)超其處理能力的任務(wù)時,傳統(tǒng)的水平伸縮方法雖然能檢測出應(yīng)用違反QoS數(shù)上升,并且會添加實例,但并不能有效解決問題,反而會產(chǎn)生額外的成本。

事實上,應(yīng)用可在垂直和水平兩個方向上進(jìn)行伸縮。其中,垂直伸縮是指更改單個實例的計算資源量。云環(huán)境中的應(yīng)用程序很容易出現(xiàn)許多影響CPU和內(nèi)存等資源的本地性能問題,通過這種伸縮,可以調(diào)節(jié)單個應(yīng)用實例的性能。水平伸縮指增加或減少實例。兩種方法各有利弊:垂直伸縮通常較快且平滑,可以處理單個實例出現(xiàn)問題的情況,但能力范圍有限;水平伸縮通過增減應(yīng)用實例的數(shù)量來調(diào)整應(yīng)用能力,通常較慢且粗粒度,對環(huán)境變化的反應(yīng)不及時,而且每個實例都需要消耗一定的基礎(chǔ)資源來維持自身運轉(zhuǎn),但可以在較大范圍內(nèi)伸縮,保證應(yīng)用的能力滿足需要。良好的伸縮策略應(yīng)結(jié)合垂直伸縮和水平伸縮,然而目前大多數(shù)工作忽略了垂直伸縮。少數(shù)將RL應(yīng)用于垂直伸縮的工作也存在狀態(tài)空間和動作空間太大、算法可伸縮性差等問題。例如,Kardani-Moghaddam等將強(qiáng)化學(xué)習(xí)應(yīng)用于垂直伸縮,將狀態(tài)空間和動作空間構(gòu)建為所有實例的狀態(tài)和動作的笛卡爾積,算法復(fù)雜度隨著實例數(shù)增加而指數(shù)上升,導(dǎo)致這項工作算法訓(xùn)練時間長且在算法可伸縮性方面有限,原文獻(xiàn)中也限制了最大實例數(shù)

。

針對這些問題,本文提出了一個分組的基于強(qiáng)化學(xué)習(xí)的混合式自動伸縮算法(BGRL),強(qiáng)化學(xué)習(xí)算法選擇資源自動伸縮問題中最常用的

學(xué)習(xí)算法

。該算法將水平伸縮和垂直伸縮相結(jié)合,通過將應(yīng)用實例進(jìn)行邏輯分組的方式使強(qiáng)化學(xué)習(xí)狀態(tài)空間和動作空間固定,不隨實例數(shù)變化而變化,解決了現(xiàn)有的RL算法空間爆炸及算法可伸縮性受限問題。通過匯集所有組的意見決定水平伸縮動作,解決了現(xiàn)有解決方案中設(shè)置水平伸縮動作空間時所面臨的性能與穩(wěn)定性的取舍問題。

1 相關(guān)工作

式中:

為調(diào)整成本,是垂直伸縮操作引入的恒定代價;

為性能損失成本,是當(dāng)請求違反QoS時支付的性能損失;

為運行應(yīng)用程序的資源單位成本,與分配的CPU資源量成正比。

、

分別是不同成本的非負(fù)權(quán)重,

=1。在式(7)的原文獻(xiàn)中存在3種權(quán)重分配方式:①

01,

90,

09;②

01,

09,

90;③

33,

33。

調(diào)查結(jié)果表明，在廣東省青云山自然保護(hù)區(qū)通過紅外相機(jī)調(diào)查野生動物的分布是有效的檢測手段之一，為地面和林下活動警惕的物種監(jiān)測提供了有效手段，值得長期和擴(kuò)大范圍應(yīng)用。但由于各種條件的限制，本次調(diào)查僅限于森林動態(tài)監(jiān)測樣地范圍內(nèi)，且野外調(diào)查和相機(jī)實際工作時間較短，投入的相機(jī)數(shù)量有限，尚難以全面準(zhǔn)確地評估該地區(qū)鳥類和獸類的多樣性格局及重要物種的分布和種群狀況，特別是斑靈貍、豹貓、白鷴等關(guān)鍵物種的分布和密度，為進(jìn)一步掌握野生動物的資源現(xiàn)狀，亟需在大范圍內(nèi)開展長期的調(diào)查和監(jiān)測工作，并合理增加紅外相機(jī)的數(shù)量(按公里網(wǎng)格法)，擴(kuò)大監(jiān)測區(qū)域和延長監(jiān)測時間，從而更全面地掌握該地區(qū)野生動物現(xiàn)狀及分布格局。

資源的自動伸縮問題通常基于監(jiān)視(M)、分析(A)、計劃(P)和執(zhí)行(W)這種MAPE架構(gòu)來解決。遵循這種架構(gòu),Aslanpour等提出了一種成本感知型自動擴(kuò)展框架,重點關(guān)注執(zhí)行級別的可能改進(jìn)

。該框架使用基于閾值的規(guī)則來更改系統(tǒng)中虛擬機(jī)的數(shù)量。盡管基于閾值的決策在解釋和實現(xiàn)方面既簡單又方便,但是缺乏適應(yīng)環(huán)境變化的靈活性使得該類解決方案不是最佳選擇。基于閾值的擴(kuò)展策略是一種響應(yīng)策略,存在資源調(diào)度不及時的問題。此外,閾值設(shè)置應(yīng)基于大量數(shù)據(jù)分析,并且每種情況的閾值未必適用于其他情況。在響應(yīng)式方法中,雖然基于排隊論的方法應(yīng)用于受工作負(fù)載變化影響較小的系統(tǒng)時可以看作預(yù)測算法,但在其他情況下,它仍然是響應(yīng)式算法

。更重要的是,基于排隊論的模型是系統(tǒng)的近似估計模型,所做出的決策可能不適合系統(tǒng)的實際情況?？刂普摲椒ㄖ饕糜谥贫憫?yīng)式擴(kuò)展策略,并且僅適用于緩慢變化的工作負(fù)載。當(dāng)工作負(fù)載突然變化時,其模型參數(shù)無法在短時間內(nèi)更新為合理值

。

定理 2.4 度量空間([0,1], ρG)中的Cauchy-列收斂,即([0,1], ρG)是完備度量空間。

為了使框架實現(xiàn)更高的適應(yīng)性,強(qiáng)化學(xué)習(xí)是一種不錯的選擇。但是,基于強(qiáng)化學(xué)習(xí)的解決方案遭受狀態(tài)和動作空間爆炸、緩慢收斂的困擾。Ghobaei-Arani等利用

學(xué)習(xí)作為MAPE架構(gòu)中計劃階段的一部分。這些決策是馬爾可夫決策表和

表的組合,用于決定系統(tǒng)中虛擬機(jī)的添加和刪除

。Arabnejad等引入了

學(xué)習(xí)和SARSA學(xué)習(xí)的模糊版本,使用監(jiān)控指標(biāo)上的模糊規(guī)則作為解決方案,以減少狀態(tài)數(shù),從而減小

表規(guī)模

。Horovitz等提出了一種在容器調(diào)度中使用RL動態(tài)改變實例伸縮閾值的算法,該算法根據(jù)實例數(shù)確定狀態(tài),與傳統(tǒng)的RL算法相比,大大減小了狀態(tài)空間的規(guī)模

。這些工作使用基于閾值或基于規(guī)則的技術(shù)來減少狀態(tài)數(shù)量,雖然可以有效減小RL算法規(guī)模,但是難免會使算法準(zhǔn)確性受損。本文采用的分組建模方式可以使算法的狀態(tài)空間固定,在不受應(yīng)用規(guī)模限制的同時可以收集所有實例的狀態(tài),之后再做出決策。

將RL應(yīng)用于資源伸縮時,還會遭遇動作空間難以準(zhǔn)確設(shè)置的問題。為此,Yang等提出了一種基于模型的RL算法,以便在微服務(wù)場景中使用系統(tǒng)知識

。但是,該算法的每個狀態(tài)相對應(yīng)的動作數(shù)是固定的。因此,當(dāng)處理流量急劇變化時,該算法不能解決重復(fù)伸縮的問題,導(dǎo)致違反服務(wù)級別協(xié)議或浪費資源。Horovitz等提出的算法通過動態(tài)動作來尋找每個狀態(tài)的最佳動作和最佳動作附近的可行動作,這樣可以將動作空間規(guī)模固定在一個較小值

。但是,此算法依賴于

函數(shù)的單峰特性,且動作空間改變時,新動作的

設(shè)置存在問題。本文的水平伸縮動作是由多個智能體組的伸縮動作匯集而成的,這樣既保證了資源伸縮的及時性和準(zhǔn)確性,又避免了重復(fù)伸縮的問題。

最后,目前的研究工作很少考慮垂直和水平伸縮的組合,而且受限于算法規(guī)模,現(xiàn)有的同時考慮垂直和水平伸縮的RL算法通常會在算法伸縮準(zhǔn)確性方面做出讓步。例如,Rossi等提出的利用RL的基于容器應(yīng)用的水平和垂直伸縮算法,為了避免算法規(guī)模爆炸,規(guī)定應(yīng)用的所有實例在資源量上保持一致,即垂直伸縮動作是全局性的,所有實例同步執(zhí)行,這樣的規(guī)定顯然忽略了不同實例可能需要不同資源量的情況

。本文結(jié)合了垂直和水平兩個方向上的伸縮,并把垂直動作細(xì)分到每個實例,可以更細(xì)粒度地調(diào)節(jié)應(yīng)用性能。

2 基于強(qiáng)化學(xué)習(xí)的混合式伸縮算法

針對相關(guān)工作中提到的將強(qiáng)化學(xué)習(xí)應(yīng)用在云資源混合式伸縮問題時面臨的算法空間爆炸、收斂速度慢、動作空間難以準(zhǔn)確設(shè)置等問題,本文提出了基于強(qiáng)化學(xué)習(xí)的分組的混合式伸縮算法。

2.1 BGRL算法邏輯結(jié)構(gòu)

圖1描繪了本文BGRL算法的邏輯結(jié)構(gòu)。用戶將請求發(fā)送到應(yīng)用的負(fù)載均衡器,負(fù)載均衡器將這些請求分配到現(xiàn)有的應(yīng)用實例中。每個實例都包含了本地監(jiān)測模塊和本地伸縮模塊。本地監(jiān)測模塊負(fù)責(zé)監(jiān)視并更新該實例的狀態(tài)信息,在本文中指CPU利用率和請求的平均響應(yīng)時間。每個本地伸縮模塊執(zhí)行垂直伸縮動作來更改該實例資源。在應(yīng)用層面由水平伸縮模塊執(zhí)行水平方向上增減實例的操作。

邏輯分組是指在邏輯上本文將應(yīng)用程序?qū)嵗譃槿舾蓚€智能體組和一個閾值組,即如果目前應(yīng)用包含

個實例,則將

表示為

圖2中,控制字符/R/標(biāo)示一個多幀的開始;/A/,標(biāo)示一個多幀的結(jié)束;/Q/,標(biāo)示鏈路配置信息傳輸?shù)拈_始;/C/為鏈路配置信息,共由1四字節(jié)組成,這些配置數(shù)據(jù)由用戶在初始化時寫入配置寄存器中,用于定義JESD204B系統(tǒng)的工作模式;/D/為用于填充多幀的數(shù)據(jù),并無實際意義。

(1)

式中:

表示智能體組容量;

表示智能體組數(shù)量;

表示閾值組中的實例數(shù)。

圖2顯示了BGRL算法自動伸縮的主要過程。本文將應(yīng)用運行過程劃分為若干個時間間隔,在每個時間間隔末進(jìn)行混合式伸縮。每個實例通過監(jiān)測模塊定期收集該實例狀態(tài),在每個伸縮過程開始時,強(qiáng)化學(xué)習(xí)模塊收集所有實例最新狀態(tài),在邏輯上將所有實例劃分為若干智能體組和一個閾值組,每個智能體組代表一個強(qiáng)化學(xué)習(xí)智能體,智能體組的狀態(tài)由組內(nèi)所有實例的狀態(tài)聯(lián)合組成。圖2中,

=5,

=2,

=3。

所有智能體組共同訓(xùn)練一個強(qiáng)化學(xué)習(xí)算法,通過并行學(xué)習(xí),可以加快算法收斂速度。本文中的RL算法動作空間包括組內(nèi)各實例垂直伸縮動作和應(yīng)用級別的水平伸縮動作,垂直伸縮動作發(fā)回給智能體組,由組內(nèi)各實例中垂直伸縮模塊執(zhí)行。水平伸縮動作由所有智能體組訓(xùn)練得到的水平動作匯集發(fā)送給閾值組,由水平伸縮模塊在閾值組內(nèi)進(jìn)行增減實例的操作。

如果閾值組實例數(shù)到達(dá)

,則該閾值組升為智能體組,并開啟一個新的閾值組。如果閾值組中無實例且需要刪減實例,則挑選一個智能體組降為閾值組。最后,閾值組中的實例進(jìn)行基于閾值的垂直伸縮。如果系統(tǒng)實例數(shù)不足以構(gòu)成一個智能體組,則根據(jù)系統(tǒng)狀態(tài)進(jìn)行基于閾值的水平伸縮。

BGRL算法流程如下。

輸入:

表,

的最小值

,智能體組容量

,所有實例最新狀態(tài)信息

。

24end if

舉例：基于特征b33a589d3627bc6f2e5bd0e6b42f 53b6，探測到URL http://198.98.122.172/cunty.sh，進(jìn)而截取獲得IP 198.98.122.172，針對這個IP進(jìn)行端口探測和協(xié)議識別198.98.122.172:50

1 根據(jù)

并行更新

表;

2 根據(jù)

將所有實例分為

個智能體組和一個閾值組;

3 根據(jù)閾值規(guī)則對閾值組實例進(jìn)行垂直伸縮;

20 減少-

個應(yīng)用實例;

5 初始化水平伸縮變量

=0;

臨床中甲狀腺功能亢進(jìn)癥又稱甲亢,其指由多種的病因所導(dǎo)致的甲狀腺的激素分泌過度,引發(fā)的以神經(jīng)、循環(huán)或消化系統(tǒng)興奮性的升高與代謝亢進(jìn)為主要的臨床表現(xiàn)的一種綜合征[1]。目前的臨床資料認(rèn)為,甲狀腺功能亢進(jìn)癥與自身的免疫系統(tǒng)有關(guān),為器官特異性的自身免疫系統(tǒng)疾病。

6 for

=1 to

7 計算第

個智能體組的狀態(tài)

;

12 選擇

表中狀態(tài)

對應(yīng)的最佳動作;

現(xiàn)階段，隨著我國科技水平的不斷提升，智能手機(jī)已經(jīng)得到了廣泛的普及。學(xué)生能夠借助手機(jī)來進(jìn)入到淘寶、京東、拼多多等網(wǎng)站進(jìn)行網(wǎng)購，網(wǎng)購商品繁多、操作簡單，這在一定程度上拓展了學(xué)生的消費需求。

9 if

then

10 隨機(jī)選擇伸縮動作;

“數(shù)學(xué)益智游戲”校本課程由學(xué)校自身組織、規(guī)劃，不僅活動方案由學(xué)校自身研究設(shè)計，而且課程實施力量也來自學(xué)校內(nèi)部，因此課程開發(fā)時要注意發(fā)揮校內(nèi)教師的作用，調(diào)動教師參與的積極性。根據(jù)前期的問卷調(diào)查和訪談，我們了解到實施游戲教學(xué)的形式會受到班額大，空間范圍小的限制，因此，我們結(jié)合學(xué)校現(xiàn)有條件開發(fā)了系列數(shù)學(xué)游戲微課程（見圖2）。教師各顯神通，有的用手機(jī)錄制，有的用PPT錄制，有的用超級錄屏或Camatasia Studio錄屏軟件……課程的跨時空性大大地提高了數(shù)學(xué)游戲開展的可操作性。

11 else

8 產(chǎn)生一個0到1的隨機(jī)數(shù)

;

13 end if

14 將垂直動作發(fā)回第

個智能體組執(zhí)行;

15 將水平伸縮動作計入

;

16 end for

17 if

>0 then

18 增加

個應(yīng)用實例;

19 else if

<0 then

4 if

>0 then

21 end if

為確保建設(shè)項目取得預(yù)期的建設(shè)成效，學(xué)校出臺了《廣東開放大學(xué)、廣東理工職業(yè)學(xué)院“創(chuàng)新強(qiáng)校工程”項目管理辦法》《廣東開放大學(xué)、廣東理工職業(yè)學(xué)院“創(chuàng)新強(qiáng)校工程”資金管理辦法》《廣東開放大學(xué)、廣東理工職業(yè)學(xué)院“創(chuàng)新強(qiáng)校工程”項目驗收辦法》等系列制度，通過制度的完整性和規(guī)范性，既為項目的建設(shè)提供了各項制度保障，又為各項目的合規(guī)依規(guī)建設(shè)提供了制度約束。

22else

23 根據(jù)閾值規(guī)則對閾值組進(jìn)行水平伸縮;

1.1一般資料2016年1月至2017年2月我院選取50例高血壓左室肥厚伴左心衰竭患者作為觀察組,同期選取了體檢者50例作為對照組。觀察組有23例女性和27例男性,最小35歲,最大75歲,平均(56.7±6.1)歲;對照組有25例男性和25例女性,最小35歲,最大73歲,平均(54.8±6.7)歲。兩組的普通資料對比不存在統(tǒng)計學(xué)差異性,能夠進(jìn)行比較分析。

輸出:更新后的

表和

。

式中

代表平均響應(yīng)時間的最大可接受值。

;

27end if

28輸出更新后的

表和

。

2.5 對農(nóng)藥殘留問題的認(rèn)識農(nóng)藥的不科學(xué)使用容易造成農(nóng)藥殘留量超限，危害人類健康。在此次調(diào)查研究中，83.4%的煙農(nóng)認(rèn)為煙草存在農(nóng)藥殘留問題，對人體有危害，26.6%的煙農(nóng)認(rèn)為煙草經(jīng)過了烘烤過程，后期還要經(jīng)過燃燒，不存在農(nóng)藥殘留。95.8%的煙農(nóng)認(rèn)為農(nóng)藥殘留量逐年降低，也有4.2%的人認(rèn)為時好時壞，主要根據(jù)當(dāng)年病蟲害發(fā)生情況而存在差異。

2.2 Q學(xué)習(xí)設(shè)置

學(xué)習(xí)是針對連續(xù)時間半馬爾可夫決策問題的一種RL,它是自動伸縮中最常用的算法,通常由以下要素描述。

(1)探索率

。強(qiáng)化學(xué)習(xí)類似于一個試錯的學(xué)習(xí),需要從智能體與環(huán)境的交互中發(fā)現(xiàn)優(yōu)的策略,同時又不至于在試錯的過程中丟失太多的獎勵。本文使用在探索和利用之間進(jìn)行權(quán)衡的標(biāo)準(zhǔn)策略——

貪婪策略。其中,探索(發(fā)現(xiàn)新的路徑)和利用(選擇當(dāng)前最佳)就是進(jìn)行決策時需要平衡的兩個方面。所以,當(dāng)選擇動作時,會以一定的概率

選擇隨機(jī)動作,進(jìn)行那些未知領(lǐng)域的探索。

(2)狀態(tài)

。狀態(tài)

表示觀察到的環(huán)境狀態(tài)。形成狀態(tài)空間的候選因素很多,例如,響應(yīng)時間、CPU利用率、內(nèi)存利用率、I/O利用率等。因為CPU利用率可以最有效地反映應(yīng)用程序的資源利用率,并且響應(yīng)時間可以最直觀地反映用戶體驗,所以本文選擇CPU利用率和響應(yīng)時間來確定狀態(tài)空間。在本文中每一個智能體組擁有

個實例,用

]表示實例

的狀態(tài),其中,

是實例

的CPU利用率,

表示實例

的最新平均響應(yīng)時間。相應(yīng)地,狀態(tài)

表示為

]

(2)

本文將CPU利用率離散化為

個等級,平均響應(yīng)時間離散化為

個等級,則狀態(tài)空間規(guī)模為(

)

。

(3)動作

。動作

指根據(jù)觀察到的環(huán)境狀態(tài)所采取的策略。本文的動作空間包含水平動作和垂直動作。水平動作

取值范圍為(-1,0,1),表示增減的實例數(shù)。每個實例的垂直動作

取值范圍也是(-1,0,1),表示該實例增減的CPU資源量。本文假設(shè)每個CPU資源處理能力相同且每個實例具有一個共同的CPU上限。每次學(xué)習(xí)得到動作空間

表示為

]

(3)

不難算出,動作空間大小為3

。相應(yīng)地,本算法

表規(guī)模為

)

。

通過邏輯分組,本文提出算法中的狀態(tài)和動作空間規(guī)模不再隨實例數(shù)量變化而變化,解決了傳統(tǒng)基于RL的資源伸縮算法的動作空間和狀態(tài)空間維度爆炸問題。并且,最終執(zhí)行的水平動作

是多個智能體組學(xué)習(xí)結(jié)果的匯集,最終的水平動作取值范圍為

≤

(4)

當(dāng)負(fù)載急劇增加時,最多可以增加

個實例,可以保證達(dá)到系統(tǒng)性能要求的速度,而且也避免了設(shè)置水平伸縮動作空間時面臨的性能與穩(wěn)定性的取舍問題。

(4)獎勵

?；?/p>

學(xué)習(xí)的資源自動伸縮算法的最終目的是保證服務(wù)QoS和資源利用率。所以,本文中

學(xué)習(xí)的獎勵

由QoS和CPU利用率兩個部分組成。

QoS代表了用戶的要求及滿意度。當(dāng)系統(tǒng)負(fù)載上升造成服務(wù)資源不足時,會造成服務(wù)QoS下降,用戶體驗變差。通常QoS有可用性、響應(yīng)時間、吞吐量、可靠性等度量指標(biāo)。本文將智能體組內(nèi)平均響應(yīng)時間

作為QoS指標(biāo),響應(yīng)時間定義為從任務(wù)提交到完成的等待時間。

盡管當(dāng)CPU利用率低時可以為用戶帶來較高的QoS,但是也意味著資源浪費,增加了應(yīng)用運行成本。因此,在

中應(yīng)考慮資源利用率,本文中即指智能體組內(nèi)CPU利用率

,該參數(shù)可以幫助決策朝著提高資源利用率方向發(fā)展。

為了在保證QoS的情況下盡可能提高CPU利用率,本文設(shè)定獎勵函數(shù)

為

(5)

25if

then

3 實驗對比與分析

3.1 工作負(fù)載構(gòu)建與RL參數(shù)設(shè)置

實驗環(huán)境被仿真為一個云計算應(yīng)用,一開始具有60個應(yīng)用實例。仿真中使用的應(yīng)用程序工作負(fù)載如圖3所示,這種工作負(fù)載模式是通過重放由Gulisano等收集的實際應(yīng)用程序數(shù)據(jù)集而產(chǎn)生的

。工作負(fù)載以請求的方式添加到應(yīng)用程序的負(fù)載均衡器,負(fù)載均衡器按照各實例的CPU資源量以相應(yīng)的概率將請求發(fā)送到實例的任務(wù)隊列中,當(dāng)實例空閑則會從任務(wù)隊列中取出任務(wù)并完成。另外,為了模擬實際情況中可能會出現(xiàn)的單個實例的局部問題,本文隨機(jī)選擇若干個時間間隔,使某個實例堆積過量任務(wù)。

本文采用恒定的學(xué)習(xí)率

05和折現(xiàn)因子

9,探索率

被初始化為1,并從1減小到0

1以便在使用

貪婪策略學(xué)習(xí)的初始迭代中提供更高的探索能力,算法訓(xùn)練次數(shù)為10

。每個實例的最大CPU資源量設(shè)置為7,實例默認(rèn)CPU資源量為4,

設(shè)置為1 s。閾值組的伸縮規(guī)則為當(dāng)實例CPU利用率超過80%時增加一個CPU,當(dāng)利用率低于40%時減少一個CPU。當(dāng)應(yīng)用實例數(shù)小于

時,即無法組成一個智能體組時,則根據(jù)應(yīng)用的全局CPU利用率以同樣的閾值規(guī)則做水平伸縮。

3.2 評價指標(biāo)

為全面衡量算法性能,本文除平均CPU利用率和平均響應(yīng)時間外,增加了違反QoS的百分比和平均CPU資源量兩個指標(biāo)。評價指標(biāo)體現(xiàn)了應(yīng)用性能和運行成本,這是使用云或邊緣云時需要衡量的重點

。本文將響應(yīng)時間超過2 s的請求視為違反QoS的請求,違反QoS百分比即違反QoS的請求數(shù)與總請求數(shù)的比值。

政策性農(nóng)業(yè)保險費用是由中央和地方財政統(tǒng)一承擔(dān)，中央占40%，省級占20%，市縣占20%，農(nóng)戶占20%。如果財政部門補(bǔ)貼資金由于當(dāng)年的財政發(fā)生問題而沒有發(fā)放，保險公司對農(nóng)戶的理賠將無法順利進(jìn)行，這會對農(nóng)戶正常利益造成影響。甘肅省屬于經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)，經(jīng)濟(jì)建設(shè)發(fā)展速度過慢。由于近幾年各種農(nóng)業(yè)保險險種的增加和范圍的擴(kuò)大，很容易導(dǎo)致財政預(yù)算過大、無法及時發(fā)放的問題，不但會影響保險公司進(jìn)行理賠，也會對地區(qū)創(chuàng)新保險險種造成影響。如果政府在當(dāng)年財政預(yù)算中對于農(nóng)業(yè)保險的補(bǔ)助相應(yīng)減少，也會影響保險的發(fā)展。

此外,為了綜合評估算法,本文從文獻(xiàn)[21]中引入歸一化成本

(

(6)

資源伸縮決策通常是對系統(tǒng)性能下降的響應(yīng)。但是,應(yīng)用程序的特性、工作負(fù)載變化、資源共享沖突等因素都可能影響性能。因此,云環(huán)境中資源伸縮方案需要具有較強(qiáng)的學(xué)習(xí)能力和自適應(yīng)性。

比較原文獻(xiàn)的實驗結(jié)果后,本文選擇第3種權(quán)重分配方式,因為該方式平衡了3種部署目標(biāo),在原文獻(xiàn)中表現(xiàn)最佳。

3.3 對比算法

為了評估BGRL的性能,將BGRL與基于閾值的水平伸縮算法THS、基于強(qiáng)化學(xué)習(xí)的分組的水平伸縮算法HGRL以及近期的文獻(xiàn)[21]中的算法HVSRL做比較。HVSRL是根據(jù)全局狀態(tài)來進(jìn)行水平伸縮和垂直伸縮的強(qiáng)化學(xué)習(xí)算法,其中垂直伸縮是所有實例同步伸縮,并未細(xì)分到單個實例。在THS算法中本文設(shè)置CPU利用率上下限分別為80%和40%,當(dāng)應(yīng)用程序的全局CPU利用率超過上限時則增加一個實例,當(dāng)CPU利用率低于下限時則刪除一個實例。通過與最常見的基于閾值的伸縮算法比較,可以評估BGRL的常規(guī)性能。HGRL是BGRL刪除垂直伸縮功能的退化算法,通過與該算法比較,可以評估垂直伸縮對于應(yīng)用性能的提升,以及凸顯出現(xiàn)局部性能問題時垂直伸縮的作用。

3.4 實驗結(jié)果與分析

考慮到算法準(zhǔn)確性與穩(wěn)定性之間的權(quán)衡,需要選擇適當(dāng)?shù)?/p>

。由式(1)可以看出

決定了如何進(jìn)行邏輯分組:

較大則算法狀態(tài)空間和動作空間大,學(xué)習(xí)時并行度小,算法訓(xùn)練時間長;

較小則每次訓(xùn)練包含的應(yīng)用信息少,算法準(zhǔn)確性會下降。而且,水平動作

的上下限

由

和實例數(shù)

決定。較小的

可能會使系統(tǒng)不穩(wěn)定,極端情況如當(dāng)

=1時,每個實例自成一個智能體組,可能某個時間段內(nèi)工作負(fù)載少,所有組學(xué)習(xí)到的水平動作都是減少一個實例,則下一個時間段內(nèi)應(yīng)用將無實例,較大的

則會使系統(tǒng)在負(fù)載急劇變化時來不及做出適當(dāng)調(diào)整,產(chǎn)生大量違反QoS的請求。因此,本文首先比較了不同

時的算法效果,結(jié)果如表1所示。

該系統(tǒng)往往與電網(wǎng)企業(yè)辦公大樓中其他非數(shù)據(jù)中心區(qū)域設(shè)備(如辦公空調(diào))共用，根據(jù)PUE的定義，只需統(tǒng)計系統(tǒng)與數(shù)據(jù)中心關(guān)聯(lián)的部分耗電量，而此部分耗電量難以直接測量，只能通過估算的方法得出，具體如下：

從表1中可以看出,當(dāng)

=3,4時算法表現(xiàn)較好。

=3時算法違反QoS百分比最低,僅為0.51%,CPU利用率較高,超過了82%,使用CPU資源量較少;

=4時算法的CPU利用率最高,達(dá)到了84.43%,使用的CPU資源量最少?？紤]到實際場景中減少違反QoS百分比更為重要,本文選擇

=3。

=3時BGRL和其他3種算法的實驗結(jié)果如圖4～7所示。

從圖4和圖5可以看出,當(dāng)面對工作負(fù)載急劇上升的情況時,THS需要多個時間間隔才能增加足夠的實例以滿足應(yīng)用需求,在此期間THS的CPU利用率將達(dá)到100%,必然產(chǎn)生大量違反QoS的請求。THS只在CPU利用率超過閾值范圍時才進(jìn)行伸縮。從圖5可以看出,THS存在許多資源量連續(xù)不變的時間間隔,可見THS對負(fù)載的變化不敏感,而且THS伸縮變化慢,所以THS的CPU利用率曲線和工作負(fù)載變化的曲線相似。

與此不同的是,3種強(qiáng)化學(xué)習(xí)算法都通過自適應(yīng)伸縮使自身的資源量與工作負(fù)載相對應(yīng),所以圖5中3種強(qiáng)化學(xué)習(xí)算法的CPU資源量曲線與工作負(fù)載曲線相似,圖4中3種強(qiáng)化學(xué)習(xí)算法的CPU利用率也較為穩(wěn)定。但是,HSVRL的狀態(tài)空間是整個應(yīng)用的全局狀態(tài),根據(jù)全局狀態(tài)選擇全局動作,其垂直伸縮動作是所有實例同步垂直伸縮,所以HSVRL的曲線會出現(xiàn)較大波動,如圖4和圖5中時間間隔在3 500左右時HSVRL的變化。與BGRL相比,HGRL只能進(jìn)行水平伸縮,無法對實例進(jìn)行細(xì)粒度調(diào)節(jié)所以其資源量變化較大。BGRL使用了虛擬分組,可以選擇恰當(dāng)?shù)乃缴炜s動作以及具體到單個實例的垂直伸縮動作,所以表現(xiàn)最優(yōu),使用的CPU資源量最少最貼合負(fù)載變化,CPU利用率最高最穩(wěn)定。

本研究發(fā)現(xiàn)，在卵巢惡性腫瘤中，B7-H4和(或)B7-H6蛋白的表達(dá)率為91.38%，高于其在卵巢良性腫瘤中的表達(dá)率(27.91%，P<0.05)，提示其與卵巢惡性腫瘤的發(fā)病密切相關(guān)。本研究結(jié)果還顯示，B7-H4和(或)B7-H6蛋白的表達(dá)率與患者年齡、組織類型、p53蛋白表達(dá)情況有關(guān)(P<0.05)，但未顯示其與組織分化程度、FIGO臨床分期及CA125表達(dá)情況的相關(guān)性，可能與樣本量較小有關(guān)。此外，本研究中的標(biāo)本均為石蠟標(biāo)本，由于包埋固定劑與抗原交聯(lián)作用，會封閉一部分抗原，且固定時間越久，抗原封閉的越多，使弱表達(dá)的抗原呈現(xiàn)假陰性，也可能導(dǎo)致結(jié)果偏倚。

違反QoS通常由兩種情況造成:①負(fù)載急劇增加時應(yīng)用資源不夠;②沒有解決實驗中模擬的個別實例出現(xiàn)的局部問題。從圖7可以看出,面對一開始負(fù)載急劇增加的情況,THS由于擴(kuò)展不及時而產(chǎn)生了大量的違反QoS的請求,圖6中相應(yīng)位置也可以看到此時THS的平均響應(yīng)時間很長,而3個強(qiáng)化學(xué)習(xí)算法都解決了該問題。另外,THS和HGRL只能進(jìn)行水平伸縮而無法有效處理局部問題,HVSRL是根據(jù)全局狀態(tài)對所有實例同步垂直伸縮,所以并不總是能解決局部問題,反而可能因為不恰當(dāng)?shù)膭幼鳟a(chǎn)生更多違反QoS的請求。本文提出的BGRL算法收集每個實例的信息并將垂直伸縮動作細(xì)分到單個實例,可以快速地解決局部問題,表現(xiàn)最好,平均響應(yīng)時間最穩(wěn)定,違反QoS百分比最小。

表2展示了4種算法在實驗過程中的違反QoS百分比、平均CPU利用率、平均CPU資源量、平均響應(yīng)時間以及歸一化成本

等。

從表2可以看出,與THS相比,3個強(qiáng)化學(xué)習(xí)算法在違反QoS百分比和平均響應(yīng)時間方面都有明顯改善,這主要是因為在實驗一開始負(fù)載急劇增加時,強(qiáng)化學(xué)習(xí)算法處理效果較好。BGRL通過細(xì)粒度的垂直伸縮使其在違反QoS百分比、平均CPU利用率、平均CPU資源量等方面表現(xiàn)最優(yōu),分別為0.52%,80.14%以及338.23。但是,在平均響應(yīng)時間方面不如HGRL和HVSRL,這是因為HGRL和HVSRL總是使用了更多的CPU資源,正常情況下請求能更快被處理。在歸一化成本

方面,雖然HVSRL與HGRL在CPU資源量和違反QoS百分比上各有優(yōu)勢,但是前者的

比后者要大0.1,這主要是因為垂直伸縮需要付出額外成本。BGRL雖然也包含垂直伸縮,但在違反QoS百分比和使用的資源量上改善明顯,所以BGRL的

最小。

4 結(jié) 論

本文提出了一種解決云中資源自動伸縮問題的算法BGRL,該算法結(jié)合了水平和垂直兩個方向上伸縮的優(yōu)勢。BGRL使用了邏輯分組,將應(yīng)用實例分為了若干個智能體組和一個閾值組,使伸縮問題的規(guī)模固定,算法可伸縮性不再受限,多個智能體組共同學(xué)習(xí)使應(yīng)用總是能采取恰當(dāng)?shù)幕旌鲜缴炜s。通過仿真實驗,證明了本文混合式伸縮算法的明顯優(yōu)勢。實驗結(jié)果顯示,與現(xiàn)有算法相比,BGRL使應(yīng)用資源量更貼合負(fù)載變化,系統(tǒng)穩(wěn)定性更高,在保證QoS和減少使用的資源上表現(xiàn)優(yōu)異。

在未來的工作中,將考慮如何預(yù)測工作負(fù)載變化,并將其作為強(qiáng)化學(xué)習(xí)的狀態(tài)之一,以實現(xiàn)更符合應(yīng)用需求的自動伸縮。

[1] ZHANG Jian, YANG Yang, WANG Zhibo. Outsourcing large-scale systems of linear matrix equations in cloud computing [C]//Proceedings of the 2016 IEEE 22nd International Conference on Parallel and Distributed Systems (ICPADS). Piscataway, NJ, USA: IEEE, 2016: 438-447.

[2] 龔強(qiáng). 云計算關(guān)鍵技術(shù)之彈性伸縮控制技術(shù)認(rèn)知研究 [J]. 信息技術(shù), 2014, 38(1): 1-2, 6.

GONG Qiang. Research on the cognition of elastic retractable control technology: one of the key technology of cloud computing [J]. Information Technology, 2014, 38(1): 1-2, 6.

[3] DEAN J, BARROSO L A. The tail at scale [J]. Communications of the ACM, 2013, 56(2): 74-80.

[4] AL-DHURAIBI Y, PARAISO F, DJARALLAH N, et al. Elasticity in cloud computing: state of the art and research challenges [J]. IEEE Transactions on Services Computing, 2018, 11(2): 430-447.

[5] SINGH P, GUPTA P, JYOTI K, et al. Research on auto-scaling of web applications in cloud: survey, trends and future directions [J]. Scalable Computing: Practice and Experience, 2019, 20(2): 399-432.

[6] LORIDO-BOTRAN T, MIGUEL-ALONSO J, LOZANO J A. A review of auto-scaling techniques for elastic applications in cloud environments [J]. Journal of Grid Computing, 2014, 12(4): 559-592.

[7] 李茹楊, 彭慧民, 李仁剛, 等. 強(qiáng)化學(xué)習(xí)算法與應(yīng)用綜述 [J]. 計算機(jī)系統(tǒng)應(yīng)用, 2020, 29(12): 13-25.

LI Ruyang, PENG Huimin, LI Rengang, et al. Overview on algorithms and applications for reinforcement learning [J]. Computer Systems & Applications, 2020, 29(12): 13-25.

[8] 易鳴. 基于微服務(wù)架構(gòu)應(yīng)用平臺的資源調(diào)度優(yōu)化研究 [D]. 濟(jì)南: 山東大學(xué), 2020: 9-11.

[9] 王天澤. 基于灰色模型的云資源動態(tài)伸縮功能研究 [J]. 軟件導(dǎo)刊, 2018, 17(4): 131-134.

WANG Tianze. Research on cloud resources auto-scaling based on grey model [J]. Software Guide, 2018, 17(4): 131-134.

[10]尚小東, 張煜, 郭成昊. 基于作戰(zhàn)任務(wù)優(yōu)先級的容器云彈性伸縮系統(tǒng) [J]. 指揮信息系統(tǒng)與技術(shù), 2020, 11(3): 36-43.

SHANG Xiaodong, ZHANG Yu, GUO Chenghao. Container cloud elastic scaling system based on mission priority [J]. Command Information System and Technology, 2020, 11(3): 36-43.

[11]SHEKHAR S, ABDEL-AZIZ H, BHATTACHARJEE A, et al. Performance interference-aware vertical elasticity for cloud-hosted latency-sensitive applications [C]//Proceedings of the 2018 IEEE 11th International Conference on Cloud Computing (CLOUD). Piscataway, NJ, USA: IEEE, 2018: 82-89.

[12]KARDANI-MOGHADDAM S, BUYYA R, RAMAMOHANARAO K. ADRL: a hybrid anomaly-aware deep reinforcement learning-based resource scaling in clouds [J]. IEEE Transactions on Parallel and Distributed Systems, 2021, 32(3): 514-526.

[14]ASLANPOUR M S, GHOBAEI-ARANI M, NADJARAN TOOSI A. Auto-scaling web applications in clouds: a cost-aware approach [J]. Journal of Network and Computer Applications, 2017, 95: 26-41.

[15]ALI-ELDIN A, TORDSSON J, ELMROTH E. An adaptive hybrid elasticity controller for cloud infrastructures [C]//Proceedings of the 2012 IEEE Network Operations and Management Symposium. Piscataway, NJ, USA: IEEE, 2012: 204-212.

[16]PATIKIRIKORALA T, COLMAN A. Feedback controllers in the cloud [C]//Proceedings of the 2010 APSEC. Sydney, Australia: APSEC, 2010: 39.

[17]GHOBAEI-ARANI M, JABBEHDARI S, POURMINA M A. An autonomic resource provisioning approach for service-based cloud applications: a hybrid approach [J]. Future Generation Computer Systems, 2018, 78: 191-210.

[18]ARABNEJAD H, PAHL C, JAMSHIDI P, et al. A comparison of reinforcement learning techniques for fuzzy cloud auto-scaling [C]//Proceedings of the 2017 17th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). Piscataway, NJ, USA: IEEE, 2017: 64-73.

[19]HOROVITZ S, ARIAN Y. Efficient cloud auto-scaling with SLA objective using

-learning [C]//Proceedings of the 2018 IEEE 6th International Conference on Future Internet of Things and Cloud (FiCloud). Piscataway, NJ, USA: IEEE, 2018: 85-92.

[20]YANG Zhe, NGUYEN P, JIN Haiming, et al. MIRAS: model-based reinforcement learning for microservice resource allocation over scientific workflows [C]//Proceedings of the 2019 IEEE 39th International Conference on Distributed Computing Systems (ICDCS). Piscataway, NJ, USA: IEEE, 2019: 122-132.

[21]ROSSI F, NARDELLI M, CARDELLINI V. Horizontal and vertical scaling of container-based applications using reinforcement learning [C]//2019 IEEE 12th International Conference on Cloud Computing (CLOUD). Piscataway, NJ, USA: IEEE, 2019: 329-338.

[22]GULISANO V, JERZAK Z, VOULGARIS S, et al. The DEBS 2016 grand challenge [C]//Proceedings of the 10th ACM International Conference on Distributed and Event-based Systems. New York, USA: ACM, 2016: 289-292.

[23]LI Yuqing, DAI Wenkuan, GAN Xiaoying, et al. Cooperative service placement and scheduling in edge clouds: a deadline-driven approach[J/OL]. IEEE Transactions on Mobile Computing, 2021 [2021-06-01]. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9361310.

[24]YOU Wencong, JIAO Lei, LI Jun, et al. Scheduling DDoS cloud scrubbing in ISP networks via randomized online auctions [C]//Proceedings of the IEEE Conference on Computer Communications. Piscataway, NJ, USA: IEEE, 2020: 1658-1667.