• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)驅(qū)動的自適應(yīng)容錯技術(shù)研究

      2019-01-02 03:44:50劉睿濤陳左寧
      計算機工程 2018年12期
      關(guān)鍵詞:超級計算機檢查點節(jié)點

      劉睿濤,陳左寧

      (1.數(shù)學工程與先進計算國家重點實驗室,江蘇 無錫 214215; 2.國家并行計算機工程技術(shù)研究中心,北京 100190)

      0 概述

      超級計算機性能的提升帶來了系統(tǒng)規(guī)模的不斷增大。其中,10P量級高性能計算機的規(guī)模目前已經(jīng)達到數(shù)萬處理器規(guī)模。不斷增加的系統(tǒng)規(guī)模與復雜度,在高性能計算領(lǐng)域帶來了巨大的可靠性挑戰(zhàn)。據(jù)估算,E量級高性能計算機的平均無故障時間只有30 min左右[1-3]。針對超級計算機的故障特征,科研人員進行了相關(guān)研究,對以藍色基因系統(tǒng)為代表的多個大型系統(tǒng)的故障分析,建立了初步的故障特征模型,但其中有些研究的故障類型較少[4-6],還有些研究的故障單元粒度較粗[7-9],缺乏對超級計算機全面的細粒度故障分析。目前,研究人員對Taitan超級計算機的大規(guī)模GPU故障進行了分析,但由于缺乏精確的故障時間信息,其分析只能以24 h為最大時間精度[10]。

      為解決系統(tǒng)可用性問題,基于檢查點/重啟的容錯技術(shù)得到廣泛應(yīng)用。研究人員通過對系統(tǒng)故障建模,并對檢查點進行了優(yōu)化,但未從應(yīng)用運行模式上進行失效模型的分析[7]。近年來,隨著故障預測研究的不斷深入,并取得一定進展[11-15]。但是,超級計算機的容錯由于未能與系統(tǒng)的實際可靠性數(shù)據(jù)相結(jié)合,在大規(guī)模并行應(yīng)用上未獲得最佳的運行效率。此外,由于超級計算機越來越高的復雜度,指數(shù)分布的故障模型是否適應(yīng)P級超級計算機,可應(yīng)用以此為依據(jù)導出的檢查點間隔優(yōu)化策略[16],需要結(jié)合超級計算機進行分析。

      根據(jù)實際運行環(huán)境的可靠性對檢查點時機進行優(yōu)化,指導系統(tǒng)級或應(yīng)用級檢查點的執(zhí)行,可有效降低檢查點開銷,提升超級計算機的可用性。本文以神威太湖之光系統(tǒng)為研究主體,分析該超級計算機中復雜多樣的系統(tǒng)故障,建立了面向超級計算機復雜故障的部件級和應(yīng)用級失效模型,并以該模型為基礎(chǔ),給出數(shù)據(jù)驅(qū)動的自適應(yīng)容錯模型,設(shè)計自適應(yīng)優(yōu)化算法。

      1 故障分類與采集方法

      1.1 神威太湖之光系統(tǒng)

      神威太湖之光計算機系統(tǒng)是一臺數(shù)十億億次(100 petaflops)級超級計算機,能有效支持計算密集型、通信密集型和I/O密集型應(yīng)用。該系統(tǒng)包括40 960個CPU,每個機倉由4個運算超節(jié)點組成。每個超節(jié)點包括32個運算插件卡和1個網(wǎng)絡(luò)背板。每個運算插件卡上集成8個CPU和1個集成網(wǎng)絡(luò)卡。CPU節(jié)點采用異構(gòu)眾核處理器,片上集成260個異構(gòu)核心,采用計算陣列和分布式共享存儲相結(jié)合的異構(gòu)眾核體系結(jié)構(gòu)。CPU節(jié)點配置大容量DDR3-2133存儲器芯片,采用PCIe 3.0接口,提供高帶寬系統(tǒng)數(shù)據(jù)交換能力。太湖之光系統(tǒng)的組織結(jié)構(gòu)如圖1所示。

      圖1 太湖之光系統(tǒng)組織結(jié)構(gòu)

      1.2 數(shù)據(jù)采集與故障分類

      1.2.1 數(shù)據(jù)采集

      太湖之光通過一套覆蓋包括主機計算系統(tǒng)在內(nèi)的全系統(tǒng)監(jiān)控與維護診斷基礎(chǔ)設(shè)施進行全機主要目標的監(jiān)控、診斷與維護。分布式故障采集框架如圖2所示。

      圖2 分布式故障采集框架

      該基礎(chǔ)設(shè)施主要包括維護BMC(Base Board Management Controller)、運算維護板PM(Processor Management)、頂層網(wǎng)絡(luò)維護板TNM(Top Net Management)及監(jiān)控軟件。

      維護BMC用于實現(xiàn)對插件內(nèi)CPU及其主存、HCA芯片的維護和監(jiān)控。BMC是維護系統(tǒng)的最基礎(chǔ)部件,向下提供多條并行維護通道與被維護的器件連接,向上與維護管理網(wǎng)絡(luò)互連,構(gòu)成可伸縮的維護系統(tǒng)。運算維護板(PM)位于運算中板的背面,每個運算底板一塊,用來實現(xiàn)對中板內(nèi)所有計算網(wǎng)絡(luò)插件(CN)、運算節(jié)點BMC、以太網(wǎng)交換板等目標的管理、監(jiān)控。

      借助分布式的故障采集框架,在太湖之光系統(tǒng)上設(shè)置了以下故障傳感器:

      1)CPU節(jié)點故障傳感器;

      2)IBA卡故障傳感器;

      3)電源故障傳感器;

      4)溫度傳感器;

      5)軟件傳感器。

      傳感器設(shè)置和數(shù)據(jù)采集覆蓋了全部計算單元。通過故障采集框架,對分布于系統(tǒng)的傳感器獲取的數(shù)據(jù)進行在線實時存儲,建立系統(tǒng)的故障分析大數(shù)據(jù)集。

      故障傳播會導致故障之間的相關(guān)性,對故障分析帶來影響[17-19]。為了確保能夠獲得真實故障源,避免故障傳播,太湖之光系統(tǒng)采用了軟硬件協(xié)同設(shè)計方法?;谟布O(shè)計,在CPU節(jié)點和其他主要部件上采用了主動與被動隔離設(shè)計。例如,當計算核心檢測到自身發(fā)生不可糾錯或故障時,將主動進行自我隔離,主要包括阻止該計算核心到其他部件的請求、丟棄該計算核心的響應(yīng)。故障部件也可以通過軟件設(shè)置進行隔離。在軟件設(shè)計上,當部件的不可糾錯或故障被檢測到時,軟件基礎(chǔ)架構(gòu)對相關(guān)的應(yīng)用進行容錯處理,并對故障部件立即隔離。

      1.2.2 故障分類

      故障記錄主要包括故障主體(CPUID,COREID)、故障標識(FAULT_TYPE_ID)、故障名稱(FAULT_NAME)、發(fā)生時間(OCCUR_TIME)、實時溫度(CPU_TEMP)、故障現(xiàn)場(FAULT_SCENE)等項目。故障主體描述故障發(fā)生目標,包括CPU核心、CPU控制部件、內(nèi)存、HCA、電源、維護部件等。故障標識和故障名稱涵蓋了CPU主核與從核故障、CPU控制部件故障、內(nèi)存故障、HCA故障、維護部件故障、供電部件和冷卻部件故障等詳細故障類型。發(fā)生時間記錄了故障發(fā)生的時間(精確到秒級)。CPU溫度記錄了故障發(fā)生時CPU的實時溫度。故障現(xiàn)場記錄了故障的詳細現(xiàn)場信息。

      為了對故障進行統(tǒng)計分析,根據(jù)系統(tǒng)結(jié)構(gòu)和組裝特征,將各類詳細故障類型歸類為CPU故障(不包括DRAM內(nèi)存)、內(nèi)存故障、CPU節(jié)點故障(包含CPU和DRAM)、計算插件卡故障、互連設(shè)備故障、維護設(shè)備故障、電源設(shè)備故障和冷卻設(shè)備故障等故障大類,每個故障大類又根據(jù)部件微結(jié)構(gòu)進一步細分為詳細的故障類型。例如內(nèi)存故障細分為內(nèi)存單錯和內(nèi)存多錯故障等,CPU故障細分為各計算部件故障和相關(guān)控制部件故障等。

      根據(jù)故障嚴重程度和處理方式,每個故障又分為非嚴重故障和嚴重故障。非嚴重故障是指不會導致系統(tǒng)失效的非正常狀態(tài)或可由硬件自行糾錯的非正常狀態(tài)(例如,可糾正的DRAM單錯)。嚴重故障是指立即會導致系統(tǒng)失效的非正常狀態(tài)或必須由軟件系統(tǒng)進行容錯干預的非正常狀態(tài)。

      太湖之光系統(tǒng)有170多個詳細故障類型,其中導致主機系統(tǒng)失效的嚴重故障有108類。

      1.3 數(shù)據(jù)預處理

      數(shù)據(jù)預處理是指對故障進行分類和過濾、優(yōu)化故障分析以及提升分析效率[20]。

      在大規(guī)模并行計算機運行中,失效是指系統(tǒng)在遇到某些故障時,無法通過硬件自身的自動容錯機制進行在線修復并繼續(xù)運行。對非嚴重故障,硬件系統(tǒng)可以通過糾錯機制自動恢復(例如ECC檢糾單錯)。對嚴重故障,則無法自動修復,此時系統(tǒng)會中斷正常運行,造成系統(tǒng)失效,需要在帶外系統(tǒng)和軟件的干預下進行容錯和恢復。系統(tǒng)失效由嚴重故障引起,因而在進行失效時間分析時,需過濾掉非嚴重故障。

      本文數(shù)據(jù)預處理是對原始故障記錄進行排重和過濾,保留與失效有關(guān)的嚴重故障,避免信息丟失,確保失效分析有效性,以加速分析過程。

      數(shù)據(jù)預處理包括3步:1)過濾掉在線故障記錄中的不合格記錄,例如帶有空缺項記錄(空缺項記錄很少,主要由監(jiān)控程序異常造成);2)對重復數(shù)據(jù)進行去重,例如同一時刻同一目標的相同故障記錄,借助數(shù)據(jù)庫sql查詢技術(shù),實現(xiàn)數(shù)據(jù)去冗;3)根據(jù)故障分類及等級選取所需故障類型,篩除不相關(guān)故障。

      本文選取太湖之光系統(tǒng)3年時間(2014-07-01—2017-07-01)的故障數(shù)據(jù)作為數(shù)據(jù)源。經(jīng)過數(shù)據(jù)預處理,可將分析數(shù)據(jù)壓縮至原始數(shù)據(jù)的13%,如圖3所示。

      2 面向復雜故障的多層失效模型

      2.1 細粒度失效分布模型

      從時間上對故障進行量化分析,可以定量描述故障分布,掌握系統(tǒng)動態(tài)可靠性特征,為容錯優(yōu)化提供基礎(chǔ)。

      從圖4可以看出,系統(tǒng)對可靠性影響最大的是主機計算系統(tǒng)(主要包括CPU、內(nèi)存和互連系統(tǒng)等)。本節(jié)以太湖之光主機系統(tǒng)的CPU節(jié)點為基本部件單元,在不同時間區(qū)間上分析其失效間隔時間,并建立細粒度失效分布模型。

      圖4 太湖之光故障分布模型

      1)分析方法

      指數(shù)(Exponential)分布(T~E(λ))、對數(shù)正態(tài)(Lognormal)分布(T~LN(μ,σ2))、Weibull分布(T~W(m,η))和Gamma分布(T~Γ(α,λ))是具有代表性的幾種壽命分布[21]。4種分布的密度函數(shù)如表1所示。

      表1 典型壽命分布

      本文選用上述數(shù)學模型,按照劃定的時間區(qū)間,在相同時空維度上對比分析系統(tǒng)內(nèi)各基本故障單元的失效時間特征。 通過最大似然估計法,采用累積失效分布數(shù)據(jù)對候選分布參數(shù)進行擬合。然后使用Kolmogorov-Smirnov檢驗候選分布與實際數(shù)據(jù)符合度,產(chǎn)生的P值作為模型擬合度評估標準。P值越低,符合度越差;反之,則越好。一般要求P值大于閾值0.05,才認為該分布與實際數(shù)據(jù)符合。

      2)太湖之光失效時間分析

      根據(jù)實際失效數(shù)據(jù),本文繪制了太湖之光系統(tǒng)中隨機選取的2個CPU節(jié)點在不同時間區(qū)間上的失效間隔時間分析(圖5)。其中,實線曲線表示實際失效間隔時間數(shù)據(jù),其他虛線曲線分別對應(yīng)擬合的Weibull、Gamma和對數(shù)正態(tài)分布,圖5(a)、圖5(d)為第1時間區(qū)間(2014-07-01—2015-07-01),圖5(a)、圖5(e)為第2時間區(qū)間(2015-07-01—2016-07-01),圖5(c)、圖5(f)為第3時間區(qū)間(2016-07-01—2017-07-01)。

      圖5 不同時間區(qū)間的失效間隔時間分布示例

      從圖5可以看出,在3個不同時間區(qū)間上,指數(shù)分布模型是與CPU節(jié)點的實際失效數(shù)據(jù)最不符合的分布,Weibull、Gamma和對數(shù)正態(tài)分布與實際失效數(shù)據(jù)符合度較好。

      表2是隨機選取的2個CPU節(jié)點失效間隔時間分布參數(shù)與擬合度分析。與真實故障數(shù)據(jù)對應(yīng)的對指數(shù)分布、對數(shù)正態(tài)分布、Gamma分布和Weibull分布參數(shù)及Kolmogorov-Smirnov檢驗產(chǎn)生的p值在表中列出。

      以CPU節(jié)點(4-3-26-1-1)為例:

      在第1時間區(qū)間內(nèi),指數(shù)分布的K-S檢驗p-value=0.017 665 46,小于通常的分布檢驗符合度標準0.05,與實際失效數(shù)據(jù)不符合;Weibull、Gamma和對數(shù)正態(tài)分布分布都符合實際失效數(shù)據(jù),Weibull符合度最好(p-value=0.912 390 5),其次是Gamma(p-value=0.779 198 4),最后是對數(shù)正態(tài)分布(p-value=0.179 714 3)。

      在第2時間區(qū)間內(nèi),指數(shù)分布和Gamma分布與實際失效數(shù)據(jù)不符合(指數(shù)分布的p-value=4.229 95e-14,Gamma分布的p-value=0.046 696 84),對數(shù)正態(tài)分布符合度最好(p-value=0.668 755 8),其次是Weibull分布(p-value=0.149 518)。

      在第3時間區(qū)間內(nèi),這4個分布與實際失效數(shù)據(jù)都符合,符合度最好的是Weibull分布(p-value=0.990 419 4),其次是Gamma分布(p-value =0.722 965 8)和對數(shù)正態(tài)分布(p-value=0.462 257),最后是指數(shù)分布(p-value=0.149 760 3)。

      表2 太湖之光失效分布及參數(shù)

      此外容易發(fā)現(xiàn),在CPU節(jié)點(4-3-26-1-1)上,雖然Weibull分布與實際失效間隔時間符合度最好,但不同時間區(qū)間上,其Weibull分布參數(shù)有較明顯差異(第1時間區(qū)間,m=0.592 533 5,壽命特征η=476 345.9;第2時間區(qū)間,m=0.405 037 4,η=50 703.25;第3時間區(qū)間,m=0.623 815 7,η=446 174.6)。這說明同一個部件的失效分布模型參數(shù)隨著時間也在不斷變化,并且CPU節(jié)點(4-3-26-1-1)在3個時間段上的故障數(shù)也不同。進一步深入分析發(fā)現(xiàn),在這3個時間段上,該CPU的負載有不同的特征。

      同樣,對表2另一個CPU節(jié)點失效數(shù)據(jù)的擬合分析顯示,Weibull分布與實際失效間隔時間符合度最好,可以用于定量描述故障單元的失效間隔時間。并且發(fā)現(xiàn)相同類型不同位置的故障單元之間,與其失效間隔時間對應(yīng)的Weibull分布的參數(shù)也不相同。

      對太湖之光系統(tǒng)不同粒度的所有故障單元進行分析顯示,Weibull分布與故障單元的實際失效數(shù)據(jù)符合度最好,并且在不同的時間區(qū)間內(nèi),其形狀參數(shù)和壽命參數(shù)都不同。這說明雖然同一個部件的失效分布模型可以用Weibull分布進行描述,但根據(jù)故障單元運行負載的變化,分布參數(shù)也會隨之變化。

      3)結(jié)果分析

      (1)同一部件隨著時間或負載的變化,與其失效時間對應(yīng)的Weibull分布參數(shù)不斷變化。

      (2)類型相同但位置不同的部件,與其失效時間對應(yīng)的Weibull分布參數(shù)不盡相同。

      (3)同一部件在不同時期的故障率(或故障數(shù))不同。

      2.2 應(yīng)用級失效模型

      并行應(yīng)用規(guī)模用計算單元(計算單元以CPU節(jié)點為基本單位)數(shù)量進行定量描述??梢宰鋈缦潞侠砑僭O(shè):在并行應(yīng)用運行過程中,所有計算單元的故障之間獨立。事實上,通過1.2.1節(jié)分析可知,該假設(shè)合理。

      在大規(guī)模并行系統(tǒng)中,并行應(yīng)用的各個任務(wù)之間關(guān)系一般有2種:強相關(guān)性和弱相關(guān)性。強相關(guān)性是指并行應(yīng)用的任務(wù)之間有相互依賴關(guān)系,在任務(wù)的不同階段需要進行交互。弱相關(guān)性是指并行應(yīng)用的任務(wù)之間基本無依賴關(guān)系,無交互關(guān)系。

      對于具有任務(wù)強相關(guān)性的并行應(yīng)用,在任何一個任務(wù)或其運行部件發(fā)生失效時,將影響到整個并行應(yīng)用,一般需要檢查點重啟機制重新部署并行應(yīng)用。對于具有任務(wù)弱相關(guān)性的并行應(yīng)用,在任何一個任務(wù)或其運行部件發(fā)生失效時,根據(jù)容錯模式可以采取降級運行,刪除失效任務(wù),或者重新部署失效任務(wù),使其恢復運行,都不會影響并行應(yīng)用中的其他任務(wù)。

      對于任務(wù)強相關(guān)性的并行應(yīng)用,只要該應(yīng)用使用的計算單元之一發(fā)生了嚴重故障,就會導致該應(yīng)用運行中斷。因此,在分析這種并行應(yīng)用的失效模式時,采用其所使用計算單元的串聯(lián)模型。

      對于任務(wù)弱相關(guān)性的并行應(yīng)用,可將其視為與獨立任務(wù)一一對應(yīng)的多個應(yīng)用。以獨立任務(wù)為單位,分析失效模型。

      1)任務(wù)強相關(guān)性并行應(yīng)用失效模型

      應(yīng)用規(guī)模用N表示,Fjob(N,t)表示規(guī)模為N的應(yīng)用在t時刻之前失效的概率,Fnode(N,t)表示個數(shù)為N的計算單元集合在t時刻之前發(fā)生失效的概率,Fi(t)表示計算單元i在t時刻之前發(fā)生失效的概率。那么有:

      (1)

      規(guī)模為N的任務(wù)強相關(guān)性應(yīng)用的故障概率模型如圖6所示。

      圖6 規(guī)模為N的強相關(guān)性應(yīng)用失效模型

      若ftimei是計算單元i的上次發(fā)生故障時間,則有:

      Fi(t)=FTBF(t-ftimei)=

      (2)

      其中,t≥ftimei,t為時鐘時間,ftimei是計算單元i的上次發(fā)生故障時間或開始運行的時間。

      從而式(1)演變?yōu)?

      (3)

      (4)

      其中,t≥max(ftime1,ftime2,…,ftimeN),Fjob(N,t)是應(yīng)用的可靠性分布函數(shù),fjob(N,t)是應(yīng)用的失效概率密度函數(shù)。至此,應(yīng)用級失效分布模型建立,可據(jù)此進行應(yīng)用的可靠性和容錯優(yōu)化分析。

      規(guī)模為N的應(yīng)用平均無故障時間為:

      (5)

      從失效分布模型可以看出,該模型與幾個參數(shù)密切相關(guān),包括應(yīng)用規(guī)模N、應(yīng)用啟動時間starttime、各計算單元上次故障發(fā)生時間ftimei、各計算單元的形狀參數(shù)mi和壽命分布參數(shù)ηi,如表3所示。

      表3 應(yīng)用失效模型參數(shù)及含義

      在應(yīng)用運行過程中,應(yīng)用的平均無故障時間可以根據(jù)式(5)進行計算。但注意到在應(yīng)用發(fā)生了故障之后,發(fā)生故障的計算單元的ftimei相應(yīng)發(fā)生變化。另外,從2.1節(jié)分析發(fā)現(xiàn),計算單元的失效分布模型參數(shù)(mi和ηi)也隨時間或負載而變化??梢?應(yīng)用失效分布模型是動態(tài)變化的。

      2)任務(wù)弱相關(guān)性并行應(yīng)用失效模型

      將并行應(yīng)用按照獨立任務(wù)進行拆解,以獨立任務(wù)為單位,分別建立失效模型。獨立任務(wù)的失效模型與任務(wù)強相關(guān)性并行應(yīng)用一致。

      3 數(shù)據(jù)驅(qū)動自適應(yīng)容錯

      本節(jié)分析任務(wù)強相關(guān)性并行應(yīng)用。對于任務(wù)弱相關(guān)性并行應(yīng)用,可將并行應(yīng)用按照獨立任務(wù)進行拆解,然后以獨立任務(wù)為單位,優(yōu)化任務(wù)強相關(guān)性并行應(yīng)用的自適應(yīng)容錯方法。

      3.1 檢查點模型及優(yōu)化

      在任何采用檢查點/重啟技術(shù)的容錯系統(tǒng)中,都需要在檢查點開銷與計算開銷之間取得平衡,以實現(xiàn)最低開銷下的容錯。過于頻繁或者過長的檢查點間隔都會導致系統(tǒng)容錯開銷或丟失的計算量增大,一個最優(yōu)的檢查點策略才能盡量降低檢查點開銷,提高容錯效率。

      一般地,檢查點相關(guān)的參數(shù)包括檢查點保留開銷、檢查點間隔時間(或計算時間)、檢查點恢復開銷、因故障損失的計算時間等,檢查點參數(shù)如表4所示。

      表4 檢查點參數(shù)及含義

      典型的檢查點時序模型如圖7所示。對應(yīng)用進行檢查點容錯的過程如下:應(yīng)用開始執(zhí)行(starttime),并運行一段時間(持續(xù)Tc),之后進行一次檢查點保留(開銷Ts),之后循環(huán)往復執(zhí)行上述過程。當應(yīng)用相關(guān)的軟硬件資源發(fā)生失效(或嚴重故障)時(丟失計算量Tl),執(zhí)行檢查點恢復(開銷Tr),并從檢查點處繼續(xù)開始執(zhí)行,依次類推。

      圖7 作業(yè)檢查點時序模型

      一般地,在大規(guī)模并行系統(tǒng)中,應(yīng)用恢復時間相比計算時間和檢查點時間開銷非常小,在此處檢查點優(yōu)化分析中可以忽略不計。

      當應(yīng)用的故障發(fā)生時間T在[starttime+n(Tc+Ts),starttime+(n+1)(Tc+Ts)],n=0,1,…之間時,那么沒有用于計算的時間Tw=T-starttime-nTc。Tw是檢查點容錯的開銷,包括用于檢查點的時間和故障發(fā)生時丟失的計算時間。

      根據(jù)應(yīng)用級失效分布函數(shù),可以得到Tw的期望值(即平均檢查點容錯開銷):

      fjob(N,t)dt

      (6)

      當E(Tw)達到最小時,可以認為應(yīng)用的檢查點容錯開銷最小。在應(yīng)用規(guī)模確定后(N和Ts是常量),目標是尋找合適的Tc使得E(Tw)達到最小。這歸結(jié)為一個數(shù)學最優(yōu)化問題。本文采用最優(yōu)化方法和應(yīng)用數(shù)學包來解決尋找最優(yōu)化Tc的問題。

      3.2 動態(tài)自適應(yīng)的檢查點優(yōu)化

      在檢查點間隔優(yōu)化模型中,注意到應(yīng)用的失效概率密度函數(shù)f(t,N)參數(shù)中的ftimei,在應(yīng)用啟動后未發(fā)生故障的時間段內(nèi),可以用初始的參數(shù)值ftimei來計算Tc的最優(yōu)化解。但應(yīng)用發(fā)生了失效并重新啟動運行后,發(fā)生故障的計算單元的ftimei就要相應(yīng)地進行修正。因此,基于檢查點時序模型的優(yōu)化策略,在應(yīng)用發(fā)生失效之前,存在一個最優(yōu)檢查點間隔;當應(yīng)用發(fā)生失效后,需要更新應(yīng)用失效分布中故障計算單元的失效時間參數(shù)ftimei,并重新計算最優(yōu)檢查點時間間隔,如圖8所示。此外,從細粒度失效分布模型分析可以發(fā)現(xiàn),隨著系統(tǒng)負載的變化和時間的推移,計算單元的失效分布模型參數(shù)(mi和ηi)也隨之變化。計算單元失效分布參數(shù)的變化,說明應(yīng)用的失效分布是一個動態(tài)變化的模型,隨著系統(tǒng)實際運行進行動態(tài)變化。

      圖8 動態(tài)作業(yè)失效模型

      綜上所述,檢查點間隔優(yōu)化是一個動態(tài)更新過程,該過程具有自適應(yīng)特征。

      計算單元故障發(fā)生時間(ftimei)的調(diào)整,可以用系統(tǒng)記錄的嚴重故障發(fā)生時間直接替換即可。而失效分布參數(shù)(mi和ηi)的調(diào)整,本文采用基于p值的自適應(yīng)優(yōu)化方法進行動態(tài)調(diào)節(jié)。

      計算單元分布參數(shù)的調(diào)整,采用基于p值的自適應(yīng)分布模型參數(shù)優(yōu)化算法(算法1)。隨著故障采樣窗口的移動,以Kolmogorov-Smirnov檢驗的評估參數(shù)p-value作為標準,動態(tài)地對失效模型的參數(shù)進行修正,提高失效分布模型的準確度。

      算法1基于p值的自適應(yīng)分布模型參數(shù)優(yōu)化

      輸入計算單元i的擬合窗口寬度width,當前發(fā)生故障時間ftime,最近故障數(shù)據(jù)歷史采樣ftime1,ftime2,…,ftimewidth-1,最近擬合的Weibull分布參數(shù)mi和ηi

      輸出計算單元i的最新優(yōu)化Weibull分布參數(shù)mi和ηi

      步驟1need_refresh=false;

      threshold = 0.5;

      步驟2IF 參數(shù)mi和ηi為0(說明是第一次計算分布參數(shù)或者需要重新更新分布參數(shù))

      THEN

      選取最近的width個嚴重故障發(fā)生時間采樣數(shù)據(jù),采用最大似然估計法計算weibull分布的參數(shù);

      ELSEIF 參數(shù)mi和ηi都不為0

      THEN

      need_refresh = true;

      步驟3采用kolmogorov-smirnov檢驗,檢驗最近width個故障采樣與weibull分布擬合度,得到p-value。

      IF((p-value > threshold)‖(need_refresh==false))

      THEN

      輸出參數(shù)mi和ηi;

      ELSE IF (need_refresh == true)

      need_refresh = false;

      置參數(shù)mi和ηi為0;

      GOTO 步驟2;

      算法1的主要思想是通過對嚴重故障發(fā)生時間的采樣,利用最大似然估計法得到計算單元的分布參數(shù)。在出現(xiàn)新的故障后,視情況動態(tài)調(diào)整分布參數(shù)。采用Kolmogorov-Smirnov檢驗來評估是否需要重新調(diào)整分布參數(shù)。如果p-value表明基于原來參數(shù)的分布與最新故障采樣符合度達到要求,則無需調(diào)整分布參數(shù);否則,采用最大似然估計重新計算分布參數(shù)。

      4 實驗結(jié)果與分析

      4.1 實驗環(huán)境

      本文選取太湖之光系統(tǒng)的一個機倉(4機倉),以實際故障為依據(jù),分析檢查點優(yōu)化的策略及效果。故障數(shù)據(jù)采集周期為1 a。在該周期中,系統(tǒng)運行以計算密集型課題為主,兼顧訪存、通信和IO密集型課題。檢查點優(yōu)化過程如圖9所示。

      圖9 自適應(yīng)檢查點優(yōu)化

      表5是根據(jù)故障歷史數(shù)據(jù)計算得到的CPU節(jié)點的初始Weibull分布參數(shù)(K-S檢驗p-value值都大于0.5)。從表5可以看出,CPU節(jié)點之間的可靠性存在顯著差異。

      表5 CPU節(jié)點及其Weibull分布參數(shù)(m,η)

      4.2 檢查點間隔優(yōu)化分析

      使用檢查點優(yōu)化模型對2CPU、4CPU、8CPU、16CPU、32CPU和64CPU規(guī)模的應(yīng)用進行檢查點優(yōu)化分析。結(jié)合最優(yōu)化方法,得到典型的檢查點保留開銷下的最優(yōu)檢查點間隔時間,如表6所示。隨著保留開銷的增加,應(yīng)用的最優(yōu)保留間隔時間也隨之增加。不同規(guī)模應(yīng)用的平均中斷時間(Mean Time To Interrupt,MTTI)如圖10所示,可以看出,隨著應(yīng)用規(guī)模2的冪次遞增,應(yīng)用MTTI呈現(xiàn)指數(shù)級下降。一方面,是由于規(guī)模遞增導致的可靠性下降;另一方面,由于CPU節(jié)點的可靠度差異,可靠度低的節(jié)點顯著拉低了應(yīng)用運行環(huán)境整體可靠性。

      表6 最優(yōu)檢查點間隔時間Tc s

      圖10 不同規(guī)模的平均中斷時間

      最優(yōu)檢查點間隔曲線如圖11所示,隨著應(yīng)用MTTI的下降,應(yīng)用最優(yōu)化保留間隔也隨之減小,說明頻繁的故障需要更加頻繁地進行檢查點保留,才能保護好已經(jīng)完成的計算工作,降低故障損失。

      圖11 最優(yōu)化檢查點間隔

      圖12是不同應(yīng)用規(guī)模在典型檢查點保留開銷下,常用檢查點間隔時間與最優(yōu)檢查點間隔的容錯開銷對比。可以看出,在每種檢查點保留開銷(Ts=1 min、5 min、10 min、30 min)下,最優(yōu)保留間隔時間下檢查點容錯開銷都達到最小。例如,在4CPU應(yīng)用規(guī)模下,在檢查點保留開銷為1 min時,最優(yōu)檢查點間隔造成的容錯開銷相比典型檢查點保留間隔1 h、4 h、8 h和16 h下的容錯開銷,分別只有其90%、54%、37%和26%??梢?數(shù)據(jù)驅(qū)動的檢查點優(yōu)化方法,可以有效降低檢查點容錯開銷,提高容錯運行環(huán)境下的應(yīng)用執(zhí)行效率。

      圖12 各種應(yīng)用規(guī)模下不同保留間隔的容錯開銷對比

      此外,從2CPU~64CPU應(yīng)用規(guī)模的檢查點容錯開銷趨勢中可以看出,隨著規(guī)模上升,應(yīng)用可靠性下降,當一次檢查點保留開銷接近甚至明顯大于應(yīng)用MTTI時,最優(yōu)檢查點間隔下的容錯開銷相比其他檢查點間隔時間下的容錯開銷,已經(jīng)沒有明顯的優(yōu)勢。此時,容錯的開銷已經(jīng)接近應(yīng)用的MTTI,說明檢查點容錯已經(jīng)很難使用,因為應(yīng)用運行時間基本都用于進行容錯,真正執(zhí)行時間非常少。如果沒有有效地降低單次檢查點時間開銷的方法,則基于檢查點的容錯技術(shù)已經(jīng)沒有效果。如果在未來E級超級計算機中,應(yīng)用運行環(huán)境平均無故障時間接近或小于一次保留的時間開銷,那么檢查點技術(shù)無法保證應(yīng)用高效執(zhí)行,只有提高可靠性、降低保留開銷或者采用基于故障預測的前瞻容錯技術(shù)才能保證應(yīng)用的高效與容錯運行。

      5 結(jié)束語

      本文基于太湖之光超級計算機的維護與監(jiān)控基礎(chǔ)架構(gòu),介紹了故障的采集、分類和預處理機制。針對超級計算機的主機系統(tǒng)故障,建立細粒度的故障分布模型描述主機系統(tǒng)復雜多樣故障的特征,運用應(yīng)用級失效分布模型評估應(yīng)用運行的可靠性。利用超級計算機中典型的檢查點容錯技術(shù),根據(jù)計算單元的動態(tài)故障特征和應(yīng)用級失效模型,建立數(shù)據(jù)驅(qū)動的自適應(yīng)容錯模型。以太湖之光系統(tǒng)為例分析了檢查點優(yōu)化的方法和效果,驗證了數(shù)據(jù)驅(qū)動自適應(yīng)容錯的有效性。

      猜你喜歡
      超級計算機檢查點節(jié)點
      超級計算機
      CM節(jié)點控制在船舶上的應(yīng)用
      Spark效用感知的檢查點緩存并行清理策略①
      Analysis of the characteristics of electronic equipment usage distance for common users
      免疫檢查點抑制劑相關(guān)內(nèi)分泌代謝疾病
      基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
      超級計算機及其在航空航天領(lǐng)域中的應(yīng)用
      科技傳播(2019年22期)2020-01-14 03:06:36
      免疫檢查點抑制劑在腫瘤治療中的不良反應(yīng)及毒性管理
      美國制造出全球最快超級計算機
      每秒100億億次 中國超級計算機
      阜康市| 晴隆县| 寿宁县| 错那县| 无锡市| 宁津县| 博罗县| 桑日县| 上林县| 普兰店市| 西林县| 灵山县| 三都| 昌宁县| 北宁市| 仪陇县| 睢宁县| 石楼县| 财经| 上蔡县| 樟树市| 重庆市| 金昌市| 遂昌县| 乐安县| 开远市| 大方县| 刚察县| 临西县| 荔波县| 凤山市| 裕民县| 德化县| 菏泽市| 阳信县| 赤城县| 苏州市| 莱州市| 探索| 广州市| 鄢陵县|