張超越 余積寶 王紫陽 張歡
摘? ?要:計算機集群是目前中大型系統(tǒng)建設的重要發(fā)展方向,計算機集群技術是支撐國家戰(zhàn)略威懾手段和戰(zhàn)略安全的中堅力量。目前,國內對其工作效能評估尚無有效的方法和模型。本文采用由美國空軍提出的ADC系統(tǒng)效能評估模型,對中大型計算機集群的工作效能進行了建模。將集群狀態(tài)分為正常、降級和故障3種情況,以概率論為基礎,推導出了可行性的計算矩陣。根據(jù)計算機集群的工作能力、計算速度、實時推算能力3個指標給出了集群能力的計算方法。最后對模型進行仿真得到計算機集群工作效能隨單個計算節(jié)點的平均故障間隔時間和工作時長的變化關系,對于計算機集群的應用和指標設計具有重要指導意義。
關鍵詞:計算機集群? ADC模型? 工作效能
計算機集群可以通過多臺計算機完成同一工作,具有高性價比、高可靠性和高計算速度的特點[1]。作為集群的核心設備,計算機集群節(jié)點的性能顯得尤為重要。以計算機集群節(jié)點的性能為基礎,對集群的工作效能進行評估,能夠有效掌握集群目前的能力,同時在合理調度使用節(jié)點方面,有著指導性的作用。本文將基于美國空軍經典的ADC系統(tǒng)效能評估模型[2],建立可適用于計算機集群的工作效能評估模型[3],用于對同一體制的集群進行工作效能評估。
1? ADC效能評估模型
本文采用的效能評估模型最初由美國空軍提出,簡稱ADC模型。該模型最終用一個向量來表示系統(tǒng)的工作效能[4],整個系統(tǒng)的n個明顯不同的狀態(tài)是建立該向量的基礎。美國空軍給出的系統(tǒng)效能表達式如式(1)所示。
式中,A是一個向量,為系統(tǒng)可用性因子。用于度量系統(tǒng)是否能夠正常使用,可以對使用前的系統(tǒng)是否處于正常狀態(tài)進行量度,確認系統(tǒng)是否正常工作。
D是一個矩陣,為系統(tǒng)可靠性因子。用于度量系統(tǒng)在工作過程中的可靠性,測算系統(tǒng)在工作過程中不發(fā)生故障的概率。
C也是一個向量,為系統(tǒng)的能力因子。這是使用者最關心的指標,也是最能體現(xiàn)系統(tǒng)效能的指標。用于表示系統(tǒng)完成工作任務能力的量度。
明顯可以看出,基于以上的評估模型,如果系統(tǒng)的狀態(tài)、故障概率和能力指標不一致,那么獲得的效能評估結果也就不一致。
2? 計算機集群工作效能建模
2.1 可用性因子建模
把計算機集群處于不同工作狀態(tài)的概率用可用性因子A來表示[5]。計算機集群由多個相互獨立的計算節(jié)點組成,可以分為正常節(jié)點和故障節(jié)點。與傳統(tǒng)單個計算機不同,即使故障計算節(jié)點較多,計算機集群仍能工作,只是性能會下降[6]。
計算機集群的工作效能直接受故障節(jié)點影響,可以將計算機集群工作狀態(tài)分為正常狀態(tài)、降級狀態(tài)和故障狀態(tài),其中降級狀態(tài)指計算機集群的性能受到影響,但是仍然能夠擔負工作任務。故障節(jié)點的數(shù)量不同,計算機集群性能降級的情況也可以細分為很多種。根據(jù)故障節(jié)點的數(shù)量對計算機集群的工作狀態(tài)進行定義,并建立簡化模型:
狀態(tài)1:系統(tǒng)工作正常,故障節(jié)點數(shù)量少于計算機集群節(jié)點總數(shù)量的4%;
狀態(tài)2:系統(tǒng)性能降級,故障節(jié)點數(shù)量在計算機集群節(jié)點總數(shù)量的4%~16%之間;
狀態(tài)3:系統(tǒng)工作故障,故障節(jié)點數(shù)量大于計算機集群節(jié)點總數(shù)量的16%。
此時,計算機集群的可用性因子A可以表示為以下向量:
單個計算節(jié)點變?yōu)楣收瞎?jié)點的平均間隔時間為t1,通過修復使故障節(jié)點恢復成正常節(jié)點的間隔時間為t2,單個計算節(jié)點變?yōu)楣收瞎?jié)點的概率可以表示為PW。
那么n個正常節(jié)點同時變?yōu)楣收瞎?jié)點的概率為:
接著推導a1的表達式,即故障節(jié)點數(shù)量少于計算節(jié)點總數(shù)量4%的概率。設計算機集群節(jié)點總數(shù)量為N,那么當故障節(jié)點數(shù)量少于時,計算機集群處于正常狀態(tài)。計算機集群處于正常工作狀態(tài)的概率a1為:
同理可得,計算機集群處于故障工作狀態(tài)的概率,既a3的表達式為:
2.2 可靠性因子建模
系統(tǒng)可靠性因子D同樣分為三個階段:d1、d2、d3,對應可用性因子A的三個階段。在系統(tǒng)工作過程中,系統(tǒng)存在狀態(tài)之間的轉換,比如系統(tǒng)從正常工作狀態(tài)轉換為降級狀態(tài),我們將這個過程命名為:d12。類似的,我們命名d23為降級狀態(tài)轉換為故障狀態(tài),d13為正常工作狀態(tài)轉換為故障狀態(tài)。由此類推,可以得到矩陣如下:
式(11)表示系統(tǒng)在正常工作過程中變換到各種狀態(tài)的概率矩陣。我們假設在工作狀態(tài)下無法修復故障節(jié)點,并且故障節(jié)點無法自動恢復,所以式(11)可以簡化為:
假設一次系統(tǒng)工作時長為t,那么整個過程中單個計算節(jié)點正常工作的概率為:
2.3 能力因子建模
系統(tǒng)能力因子向量表示了計算機集群在三個不同狀態(tài)下的作戰(zhàn)能力。采用計算機集群的工作能力、計算速度、實時推算能力三個評價因子,表示為β1、β2和β3,三個評價因子的權重根據(jù)實際應用情況確定,表示為ω1、ω2和ω3,則能力因子向量C可表示為:
當計算機集群處于正常工作狀態(tài)時,β1、β2和β3的取值均為1;當計算機集群處于故障狀態(tài)時,β1、β2和β3的取值均為0;當計算機集群處于性能降級狀態(tài)時,計算機集群的工作能力β1下降為0.5,β2計算速度下降為0.5,實時推算能力β3下降為0.8。那么,能力因子向量C可表示為:
3? 計算機集群工作效能仿真
為了對某型計算機集群進行工作效能評估,在搭建有效模型時,我們采用以下仿真參數(shù)。
(1)計算機集群節(jié)點數(shù)量:N=50。
(2)故障節(jié)點修復間隔時間:t2=10h。
(3)三個評價因子的權重取值為:(ω1、ω2、ω3)=(0.5,0.5,0.8)。
在上述參數(shù)設定下,系統(tǒng)工作時長t=20h時,計算機集群工作效能隨單個計算節(jié)點平均故障時間的變化趨勢如圖1所示。由圖1可得,在故障節(jié)點校正間隔時間和系統(tǒng)工作時長的約束下,單個計算節(jié)點平均故障時間小于6000h時,計算機集群的工作效能隨單個計算節(jié)點平均故障時間的增加先上升后下降;單個計算節(jié)點平均故障時間為3000h時,計算機集群的工作效能達到第一個峰值,隨后開始下降;當單個計算節(jié)點平均故障時間大于6000h時,計算機集群的工作效能開始隨著單個計算節(jié)點平均故障時間的增加而增加;當單個計算節(jié)點平均故障時間大于100000h時,計算機集群工作效能接近最佳值。
當單個計算節(jié)點平均故障時間一定時,計算機集群的工作效能隨系統(tǒng)工作時長的變化趨勢如圖2所示。由圖2可得,當單個計算節(jié)點平均故障時間一定時,計算機集群的工作效能隨系統(tǒng)工作時長的增加而減少;單個計算節(jié)點平均故障時間越小,計算機集群的工作效能隨系統(tǒng)工作時長的增加而減小的速度越快。
4? 結語
本文針對計算機集群的工作效能評估,對正常、降級和故障3種狀態(tài)進行分析。通過仿真結果可知,計算機集群的工作效能受單個計算節(jié)點的平均故障時間和系統(tǒng)工作時長的影響。當系統(tǒng)工作時長和故障節(jié)點校正間隔時間一定,單個計算節(jié)點的平均故障時間小于6000h時,計算機集群的工作效能并不是線性增加的,當單個計算節(jié)點的平均故障時間大于6000h時,計算機集群的工作效能隨單個計算節(jié)點的平均故障時間的增加而增加;當單個計算節(jié)點的平均故障時間和故障節(jié)點修復間隔時間一定時,系統(tǒng)工作時長越大,計算機集群的工作效能將會降低,單個計算節(jié)點的平均故障時間越短,計算機集群的工作效能下降的速度越快。
參考文獻
[1] William W.Hargrove.The Do-It-Yourself[J].Scientific American,2011-10-18(2):72-79.
[2] 李耀,馮明翰.基于ADC模型的雷達網工作效能評估[J].火控雷達技術,2016(2):96-99.
[3] 梁桂琳,周曉紀,王亞瓊.基于ADC模型的遙感武器系統(tǒng)地面系統(tǒng)效能評估[J].指揮控制與仿真,2018(5):96-99.
[4] 董雪.基于ADC模型的潛艇作戰(zhàn)系統(tǒng)效能評估與工具實現(xiàn)[D].南京:南京航空航天大學,2018.
[5] 李彤巖,王培國,張婷.基于ADC模型的通信網絡效能評估方法研究[J].電子技術應用,2015(9):621-625.
[6] 梁波.計算機集群節(jié)點的狀態(tài)測量與節(jié)能優(yōu)化的研究[D].湘潭:湘潭大學,2015.