齊莉
(吉林工程職業(yè)學(xué)院,吉林四平,136000)
根據(jù)云計(jì)算的特點(diǎn)和當(dāng)前云計(jì)算資源故障檢測(cè)的需求,設(shè)計(jì)了云計(jì)算資源故障檢測(cè)系統(tǒng)的框架。故障檢測(cè)模型的設(shè)計(jì)是基于深層神經(jīng)網(wǎng)絡(luò)故障檢測(cè)模型,利用稀疏自編碼器的并行結(jié)構(gòu)提取原始數(shù)據(jù)的特征,進(jìn)而提高故障數(shù)據(jù)的識(shí)別率,保證云計(jì)算系統(tǒng)的安全性和可靠性。搭建 hadoop 云計(jì)算平臺(tái),設(shè)計(jì)部署云計(jì)算資源故障檢測(cè)系統(tǒng),通過故障模擬,分析測(cè)試結(jié)果,驗(yàn)證系統(tǒng)的可行性。故障檢測(cè)系統(tǒng)具有實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)分析、自動(dòng)檢測(cè)和故障檢測(cè)模型自動(dòng)更新的優(yōu)點(diǎn)。它不僅能夠滿足云計(jì)算的安全需求,而且能夠保證系統(tǒng)的連續(xù)性。
近年來,計(jì)算機(jī)技術(shù)在全球范圍內(nèi)發(fā)展迅速,平臺(tái)化計(jì)算機(jī)技術(shù)研究方面也取得了很大的進(jìn)步。以通信、計(jì)算和存儲(chǔ)為核心的各種技術(shù)已經(jīng)在社會(huì)生活各個(gè)方面廣泛應(yīng)用,隨著近年來世界計(jì)算機(jī)技術(shù)飛速發(fā)展,基于計(jì)算機(jī)系統(tǒng)平臺(tái)得到了跨越式的發(fā)展,其復(fù)雜性不斷增加,計(jì)算機(jī)軟硬件系統(tǒng)的運(yùn)行和維護(hù)成本也在迅速上升,給計(jì)算機(jī)企業(yè)的發(fā)展帶來了許多阻力和不便。然而,云計(jì)算平臺(tái)的出現(xiàn)打破了這一限制,改變企業(yè)只能“購買整套硬件資源”的局面,使“租用計(jì)算機(jī)資源”成為可能。云計(jì)算作為一種新的計(jì)算方式,已經(jīng)成為專家和企業(yè)研究的熱點(diǎn)。一些大公司已經(jīng)推出了他們自己的云計(jì)算解決方案,像谷歌、亞馬遜和微軟這樣的大公司正試圖提供更強(qiáng)大、更可靠、更高效的云服務(wù),并重塑他們的盈利模式。
在對(duì)企業(yè)調(diào)查的時(shí)候,從中了解到,一個(gè)小時(shí)的云計(jì)算系統(tǒng)中斷可能會(huì)讓一家公司損失15 萬到645 萬美元,并可能造成巨大的聲譽(yù)損失。因此,有需要建立一個(gè)有高可用性的云端運(yùn)算系統(tǒng),以確保云端服務(wù)的連續(xù)性和用戶服務(wù)的可用性,在提高系統(tǒng)可用性的同時(shí)不僅要能夠保證關(guān)鍵業(yè)務(wù)數(shù)據(jù)信息的完整性,而且能夠保持應(yīng)用程序服務(wù)的中斷或無法迅速恢復(fù)。為了保證云計(jì)算系統(tǒng)的高可用性,必須有高效的故障診斷技術(shù),因此云計(jì)算故障檢測(cè)技術(shù)已成為云計(jì)算領(lǐng)域的一個(gè)重要研究方向。由于現(xiàn)時(shí)并沒有技術(shù)可確保云端運(yùn)算系統(tǒng)運(yùn)作正常,不會(huì)出現(xiàn)故障,因此有需要減少故障次數(shù)及恢復(fù)所需時(shí)間,以確??煽亢统掷m(xù)的云端運(yùn)算服務(wù),只有有效地偵測(cè)到系統(tǒng)故障并正確地恢復(fù),系統(tǒng)的可靠性才能得到保證。目前云環(huán)境下故障檢測(cè)方法主要從兩個(gè)方面進(jìn)行如下
(1)心跳策略的故障檢測(cè)方法:通過對(duì)云計(jì)算系統(tǒng)節(jié)點(diǎn)及節(jié)點(diǎn)間的鏈路間通信出現(xiàn)的故障進(jìn)行檢測(cè)。
(2)性能數(shù)據(jù)的故障檢測(cè)方法:通過分析云計(jì)算系統(tǒng)運(yùn)行時(shí)產(chǎn)生故障數(shù)據(jù)(CPU 內(nèi)存、硬盤、日志等)對(duì)云計(jì)算進(jìn)行故障檢測(cè)。
綜上所述,國(guó)內(nèi)外目前專門針對(duì)與平臺(tái)故障檢測(cè)與故障恢復(fù)能力測(cè)評(píng)的研究還非常少,雖然在故障檢測(cè)領(lǐng)域的相關(guān)研究中都會(huì)采取經(jīng)典測(cè)評(píng)指標(biāo)來驗(yàn)證故障檢測(cè)方法的準(zhǔn)確性、有效性等,但大都不成體系。
在故障檢測(cè)系統(tǒng)中,為能夠?qū)υ朴?jì)算環(huán)境下所有節(jié)點(diǎn)進(jìn)行監(jiān)控,保證對(duì)每個(gè)節(jié)點(diǎn)準(zhǔn)確覆蓋,必須對(duì)每個(gè)節(jié)點(diǎn)監(jiān)控模式進(jìn)行設(shè)計(jì),在大規(guī)模的監(jiān)控體系結(jié)構(gòu)中最常用有兩種模式:基于層次式的監(jiān)控模式和基于扁平的監(jiān)控模式
(1)在層次式的監(jiān)控模式中會(huì)分成不同的節(jié)點(diǎn),不同的組來進(jìn)行傳輸系統(tǒng)也會(huì)呈現(xiàn)出你個(gè)結(jié)構(gòu)圖,在每一個(gè)結(jié)構(gòu)組的節(jié)頭點(diǎn)都會(huì)對(duì)組內(nèi)其他節(jié)點(diǎn)進(jìn)行檢測(cè),也可以通過組內(nèi)的頭結(jié)點(diǎn)進(jìn)行上傳消息,實(shí)現(xiàn)了對(duì)全局的一個(gè)掌控,這樣清晰的系統(tǒng)節(jié)點(diǎn)排序組織,并大大降低對(duì)信息傳遞的難度以及復(fù)雜性。層次式構(gòu)圖如圖1 所示。
圖1 層次式監(jiān)控模式
(2)扁平結(jié)構(gòu)的模式節(jié)點(diǎn)沒有存在明顯的層次區(qū)分,二是呈現(xiàn)扁平化結(jié)構(gòu),該結(jié)構(gòu)最最常見的就是隨即散播檢測(cè)了,消息并不是任意節(jié)點(diǎn)之間的傳播,每一輪消息傳遞過程,每個(gè)節(jié)點(diǎn)會(huì)根據(jù)概率選擇某些節(jié)點(diǎn)進(jìn)行信息交換,在經(jīng)過多輪交換后系統(tǒng)中會(huì)確保信息到達(dá)所有節(jié)點(diǎn),根據(jù)概率交換避免信息的重復(fù)冗余。基于扁平模式的結(jié)構(gòu)圖如圖2 所示。
圖2 扁平結(jié)構(gòu)的模式
(1)云計(jì)算系統(tǒng)遠(yuǎn)比普通計(jì)算機(jī)系統(tǒng)復(fù)雜,即使能夠保證非常高的可靠性,也會(huì)出現(xiàn)一些故障或者錯(cuò)誤。這些故障或者錯(cuò)誤一般可以歸結(jié)為資源競(jìng)爭(zhēng)、配置錯(cuò)誤、軟件缺陷、硬件失效等,而且這些情況的出現(xiàn)往往具有不確定性,并且類似失誤難以再次重現(xiàn)等,但是這些故障的數(shù)量所占比卻例高達(dá)80%要保障云計(jì)算系統(tǒng)正常運(yùn)行,只靠在系統(tǒng)開發(fā)測(cè)試階段往往不夠,并且一般問題是在特定環(huán)境下發(fā)生,同時(shí)后臺(tái)管理員難以人工跟蹤定位問題,因此故障檢測(cè)技術(shù)被廣泛應(yīng)用。檢測(cè)技術(shù)通過對(duì)系統(tǒng)各個(gè)組件的故障檢測(cè),自動(dòng)及時(shí)有效檢測(cè)系統(tǒng)運(yùn)行狀態(tài),當(dāng)檢測(cè)系統(tǒng)發(fā)現(xiàn)系統(tǒng)中有出現(xiàn)的程序漏洞或者服務(wù)失效時(shí),及時(shí)報(bào)告給中心管理系統(tǒng)或者后臺(tái)服務(wù)者,為故障后提供故障策略,并對(duì)故障進(jìn)行定位操作,及時(shí)處理失效服務(wù),提高系統(tǒng)的穩(wěn)定性和可信度。所以,故障檢測(cè)系統(tǒng)必須能夠保證對(duì)云計(jì)算系統(tǒng)內(nèi)的組件等進(jìn)行實(shí)時(shí)跟蹤,獲取實(shí)時(shí)狀態(tài)數(shù)據(jù),檢測(cè)組件健康狀態(tài)。為保障了云計(jì)算系統(tǒng)的安全可靠性。
(2)云計(jì)算下的故障檢測(cè)系統(tǒng)主要是服務(wù)于云計(jì)算資源,故障檢測(cè)的目的是幫助管理員及時(shí)有效的發(fā)現(xiàn)云計(jì)算服務(wù)的各種故障或者潛在隱患錯(cuò)誤等,避免人工排查實(shí)現(xiàn)高自動(dòng)化檢測(cè)方式。從系統(tǒng)功能角度看,檢測(cè)系統(tǒng)主要是向用戶及時(shí)檢測(cè)云計(jì)算服務(wù)運(yùn)行時(shí)的實(shí)時(shí)狀態(tài),幫助用戶及時(shí)發(fā)現(xiàn)運(yùn)行時(shí)的故障服務(wù),能夠及時(shí)避免或者降低損失。
云計(jì)算平臺(tái)故障檢測(cè)與恢復(fù)能力的測(cè)評(píng)體系組成,包括負(fù)載、指標(biāo)、測(cè)試流程與評(píng)估模型四個(gè)部分。測(cè)評(píng)體系的組成部分,直接體現(xiàn)了云測(cè)評(píng)工具需要具備的功能需求。從負(fù)載的解析與選取中分析,云測(cè)評(píng)工具需要控制云計(jì)算平臺(tái)中虛擬機(jī)的運(yùn)行與終止,以及虛擬機(jī)中運(yùn)行的應(yīng)用程序的運(yùn)行與終止;選取的指標(biāo)決定了云測(cè)評(píng)工具中必須具備能夠獲取指定指標(biāo)信息的能力,同時(shí)將指標(biāo)進(jìn)行存儲(chǔ),用于最后的評(píng)估計(jì)算;測(cè)試流程的設(shè)計(jì),指導(dǎo)了云測(cè)評(píng)工具如何控制整個(gè)測(cè)試過程的執(zhí)行操作;最后,評(píng)估模型的建立,說明云測(cè)評(píng)工具需要具備對(duì)指標(biāo)的計(jì)算與分析能力,同時(shí)將測(cè)評(píng)結(jié)果提供給云測(cè)試用戶。此外,為了讓云測(cè)試用戶能夠直觀觀察測(cè)試結(jié)果,以 Web 界面的方式提供可視化展示的功能。以及,根據(jù)不同的用戶需求,在云計(jì)算平臺(tái)中,提供不同的故障注入方式。
云計(jì)算平臺(tái)故障檢測(cè)與恢復(fù)能力的測(cè)評(píng)工具的模塊劃分與工具功能劃分一一對(duì)應(yīng),主要分為 Web 模塊、測(cè)試流程控制模塊、指標(biāo)采集與存儲(chǔ)模塊、測(cè)試報(bào)表生成模塊與故障注入模塊。以下對(duì)不同模塊進(jìn)行簡(jiǎn)要介紹:
(1)Web 模塊主要提供工具功能的可視化顯示,便于云測(cè)試用戶的遠(yuǎn)程訪問和控制。通過網(wǎng)頁提供測(cè)試過程、配置信息和測(cè)試報(bào)告的可視化;
(2)故障注入模塊,負(fù)責(zé)支持多種針對(duì)云計(jì)算平臺(tái)的多種故障注入方式,主要分為計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)相關(guān)的資源故障與云計(jì)算平臺(tái)提供的計(jì)算、存儲(chǔ)等相關(guān)的服務(wù)故障。不同的故障,注入的方式也不同;
(3)測(cè)試報(bào)表產(chǎn)生模塊,基于評(píng)估模型的指導(dǎo),對(duì)獲取的性能指標(biāo)數(shù)據(jù)進(jìn)行分析計(jì)算得出評(píng)估指標(biāo)。生成的測(cè)試報(bào)表信息,包含測(cè)試日期、測(cè)試人員、云計(jì)算平臺(tái)環(huán)境配置、測(cè)試結(jié)果等多種信息,并存儲(chǔ)數(shù)據(jù)庫中;
(4)測(cè)試流程控制模塊,提供對(duì)云計(jì)算平臺(tái)故障檢測(cè)與恢復(fù)測(cè)試流程的控制,涉及對(duì)虛擬機(jī)的控制、虛擬機(jī)中負(fù)載發(fā)生工具執(zhí)行情況的控制、負(fù)載接收集群的配置、測(cè)試環(huán)境清理等多種環(huán)節(jié)的控制,保證測(cè)試流程的正常運(yùn)行,并最終為云測(cè)試用戶提供可視化的報(bào)表展示;
(5)指標(biāo)采集與存儲(chǔ)模塊,該模塊主要分為兩個(gè)部分,分別為指標(biāo)的采集與指標(biāo)的存儲(chǔ)。指標(biāo)的采集依賴于云計(jì)算平臺(tái)中運(yùn)行的負(fù)載工具,而指標(biāo)的存儲(chǔ)采用 Mongo DB 數(shù)據(jù)庫,有利于存儲(chǔ)多種格式的指標(biāo)信息。
隨著云計(jì)算部署模式越來也成熟,“云”的應(yīng)用領(lǐng)域也來越廣泛,人們對(duì)云計(jì)算可用性要求越來越高。云計(jì)算故障發(fā)生的時(shí)間越長(zhǎng)對(duì)企業(yè)和客戶的損失就越大,因此快速高效的故障檢測(cè)方法成為許多學(xué)者和專家的追求。計(jì)算機(jī)的出現(xiàn)徹底改變了整個(gè)互聯(lián)網(wǎng)商業(yè)模式,通過有效的資源共享和提高社會(huì)企業(yè)的效率,改變了傳統(tǒng) it 基礎(chǔ)設(shè)施的高硬件成本和低資源利用率。因此,隨著政府和研究機(jī)構(gòu)的廣泛推薦,越來越多的企業(yè)將其原有的業(yè)務(wù)系統(tǒng)遷移和部署到云計(jì)算平臺(tái)。云端運(yùn)算服務(wù)供應(yīng)商若要提升客戶體驗(yàn),達(dá)到客戶需求的目標(biāo),必須首先保證云端運(yùn)算系統(tǒng)運(yùn)作服務(wù)的可靠性,以確??蛻魳I(yè)務(wù)的正常運(yùn)作。