• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于孤立森林算法的分布式服務(wù)故障分析模型研究與應(yīng)用

      2021-05-29 06:25:00
      信息通信技術(shù) 2021年2期
      關(guān)鍵詞:運(yùn)維森林監(jiān)控

      中國聯(lián)合網(wǎng)絡(luò)通信有限公司濟(jì)南軟件研究院 濟(jì)南 250100

      引言

      隨著互聯(lián)網(wǎng)業(yè)務(wù)的全面發(fā)展,企業(yè)IT架構(gòu)發(fā)生重大變化,分布式云化架構(gòu)應(yīng)用越來越多,傳統(tǒng)運(yùn)維模式面臨越來越多的挑戰(zhàn),難以適應(yīng)業(yè)務(wù)的高速發(fā)展需求[1]。目前,信息化系統(tǒng)廣泛微服務(wù)化,運(yùn)維機(jī)器數(shù)量、容器數(shù)量、外部服務(wù)日均調(diào)用量、系統(tǒng)服務(wù)數(shù)量均顯著上升。在此規(guī)模下,支撐難度、運(yùn)維難度、排查問題難度呈幾何增長,對(duì)運(yùn)維模式及技術(shù)有更高的要求。

      互聯(lián)網(wǎng)業(yè)務(wù)具有業(yè)務(wù)無間斷在線、業(yè)務(wù)敏感性較高、負(fù)面影響大、傳播范圍廣、傳播速度快等特點(diǎn),對(duì)運(yùn)維要求越來越高,傳統(tǒng)運(yùn)維模式已無法適應(yīng)互聯(lián)網(wǎng)業(yè)務(wù)的高速發(fā)展需求,智能運(yùn)維(AIOps)成為必不可少的運(yùn)維利器[2]。

      在大型互聯(lián)網(wǎng)架構(gòu)中,為提升平臺(tái)計(jì)算能力及資源利用率,普遍采用分布式技術(shù)。然而使用分布式技術(shù)也會(huì)帶來一些潛在問題,若主機(jī)資源需求與資源分配不均勻、部分主機(jī)長時(shí)間負(fù)載過重,容易導(dǎo)致服務(wù)失效,造成服務(wù)中斷甚至數(shù)據(jù)丟失;同時(shí)當(dāng)系統(tǒng)發(fā)生故障時(shí),服務(wù)分散在不同主機(jī)會(huì)導(dǎo)致故障問題難以定位、故障排查耗時(shí)較長等問題[3]。

      通過國內(nèi)外相關(guān)文獻(xiàn)分析,目前針對(duì)分布式服務(wù)故障分析的研究仍處于初級(jí)階段。其中大部分系統(tǒng)是根據(jù)領(lǐng)域知識(shí)人工設(shè)定報(bào)警規(guī)則,難以自動(dòng)檢測(cè)故障并細(xì)粒度定位問題原因[4]。近年來機(jī)器學(xué)習(xí)算法廣泛應(yīng)用于各項(xiàng)領(lǐng)域,其中孤立森林算法是十分優(yōu)秀的異常檢測(cè)算法[5],然而目前尚未有研究人員將孤立森林算法應(yīng)用于大型分布式系統(tǒng)中進(jìn)行故障分析。

      針對(duì)上述優(yōu)缺點(diǎn)并借鑒國內(nèi)外相關(guān)文獻(xiàn),本文提出一種基于孤立森林算法的分布式服務(wù)故障分析模型。通過采集分布式環(huán)境中服務(wù)主機(jī)監(jiān)控?cái)?shù)據(jù)及服務(wù)調(diào)用耗時(shí)數(shù)據(jù),對(duì)采集到的時(shí)序數(shù)據(jù)通過滑動(dòng)平均算法計(jì)算生成閾值區(qū)間,并利用孤立森林算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行模型計(jì)算,構(gòu)建合適的異常分析模型,實(shí)現(xiàn)了分布式環(huán)境下服務(wù)故障分析功能,有效提升了運(yùn)維人員的工作效率并減輕了運(yùn)維人員的工作負(fù)擔(dān),同時(shí)協(xié)助運(yùn)維人員快速排查問題,達(dá)到對(duì)分布式服務(wù)故障快速定位快速處理的效果。

      1 相關(guān)算法

      1.1 滑動(dòng)平均算法

      滑動(dòng)平均算法是時(shí)間序列分析算法的一種,可以用來估計(jì)變量的局部均值,使得變量的更新與一段時(shí)間內(nèi)的歷史取值有關(guān)。比較常用的滑動(dòng)平均算法有簡(jiǎn)單移動(dòng)平均法、加權(quán)移動(dòng)平均法、自回歸滑動(dòng)平均模型等,目前工業(yè)界比較流行的滑動(dòng)平均算法為自回歸滑動(dòng)平均模型。

      自回歸滑動(dòng)平均模型(Auto-Regressive and Moving Average Model,ARMA)是研究時(shí)間序列的重要算法,根據(jù)時(shí)間序列數(shù)據(jù)逐項(xiàng)推移,依次計(jì)算包含一定項(xiàng)數(shù)的時(shí)序平均值,以反映長期趨勢(shì)[6]。

      ARMA模型的計(jì)算公式為:

      由于本文系統(tǒng)采集到的監(jiān)控?cái)?shù)據(jù)具有一定的時(shí)間序列性,因此選擇ARMA模型對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行時(shí)間序列分析,方便后續(xù)模型計(jì)算。

      1.2 孤立森立算法

      孤立森林算法是一種適用于連續(xù)數(shù)據(jù)的無監(jiān)督異常檢測(cè)方法,其基本思想是計(jì)算對(duì)象與對(duì)象之間的差異,通過檢測(cè)兩點(diǎn)距離或某一區(qū)域點(diǎn)的密度,計(jì)算異常點(diǎn)得分,分值越高,則代表對(duì)象越有可能是異常點(diǎn)[5]。

      對(duì)于如何查找哪些點(diǎn)容易被孤立,孤立森林算法使用了一套非常高效的策略。在構(gòu)建孤立森林模型中,遞歸地隨機(jī)分割數(shù)據(jù)集,直到所有樣本點(diǎn)都是孤立的。在這種隨機(jī)分割的策略下,異常點(diǎn)通常具有較短的路徑。即密度高的簇是需要被切很多次才能被孤立,而密度低的點(diǎn)很容易就可以被孤立。這里參考下面的圖1、2進(jìn)行說明。

      圖1 孤立森林算法示意圖

      圖2 平均分割路徑長度

      從圖2中可以直觀地看到,相對(duì)更異常的點(diǎn)x0只需要4次切割就從整體中被分離出來,而更加正常的點(diǎn)xi經(jīng)過了11次分割才從整體中分離出來。這里的分割方式采用的是,隨機(jī)選擇一個(gè)特征以及拆分的值(這個(gè)值位于該特征的最小值和最大值之間)。其中圖2展示了異常點(diǎn)的平均路徑長度小于正常點(diǎn)的平均路徑長度。

      2 基于孤立森林算法的分布式服務(wù)故障分析模型

      2.1 背景介紹

      分布式系統(tǒng)即一組異構(gòu)計(jì)算機(jī)和處理器通過網(wǎng)絡(luò)聯(lián)接在一起,通過機(jī)器間緊密配合,共同完成一項(xiàng)任務(wù)[1]。不同主機(jī)的性能都會(huì)對(duì)分布式系統(tǒng)中的服務(wù)有一定影響,因此本文的關(guān)鍵數(shù)據(jù)為分布式系統(tǒng)中不同服務(wù)下的主機(jī)性能數(shù)據(jù)。通過監(jiān)控工具實(shí)時(shí)采集分布式系統(tǒng)中各主機(jī)的性能指標(biāo)數(shù)據(jù),其中監(jiān)控工具采集到的主機(jī)性能特征指標(biāo)為:網(wǎng)絡(luò)流入流量、網(wǎng)絡(luò)流出流量、用戶CPU使用率、系統(tǒng)CPU使用率、CPU整體剩余情況、寫IO量、ICMP、數(shù)據(jù)庫連接數(shù)、數(shù)據(jù)庫慢SQL數(shù)量、數(shù)據(jù)庫長連接數(shù)量等,采集到的監(jiān)控?cái)?shù)據(jù)如表1所示。

      表1 監(jiān)控?cái)?shù)據(jù)

      針對(duì)分布式服務(wù)故障分析場(chǎng)景,本文的目標(biāo)是對(duì)監(jiān)控?cái)?shù)據(jù)構(gòu)建模型,給出故障的定位及原因。本模型需要完成的兩大任務(wù)是異常檢測(cè)及異常分析,其中異常檢測(cè)是通過AI異常檢測(cè)模型找出分布式服務(wù)中發(fā)生故障的主機(jī)及引起服務(wù)故障的性能指標(biāo),而異常分析是通過大數(shù)據(jù)統(tǒng)計(jì)分析出導(dǎo)致故障發(fā)生的異常信息。

      由于本文的異常檢測(cè)場(chǎng)景是在監(jiān)控?cái)?shù)據(jù)中尋找異常值,同時(shí)采集到的監(jiān)控?cái)?shù)據(jù)具有連續(xù)性,因此選擇孤立森林算法比較合適;同時(shí)采集到的監(jiān)控?cái)?shù)據(jù)具有時(shí)間序列性,因此選擇滑動(dòng)平均算法對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行時(shí)間序列分析。

      2.2 基于孤立森林算法的分布式服務(wù)故障分析模型

      基于孤立森林算法的分布式服務(wù)故障分析模型由兩部分組成,一個(gè)是異常檢測(cè)模型,另一個(gè)是異常分析模型,其中異常檢測(cè)模型為核心模型。

      異常檢測(cè)模型的主要思想是通過滑動(dòng)平均算法對(duì)一段時(shí)間內(nèi)單一主機(jī)單一性能指標(biāo)數(shù)據(jù)利用孤立森林算法進(jìn)行模型訓(xùn)練,生成異常檢測(cè)模型,對(duì)不同主機(jī)不同性能指標(biāo)數(shù)據(jù)進(jìn)行異常檢測(cè),從而實(shí)現(xiàn)對(duì)分布式服務(wù)故障進(jìn)行問題定位。

      目前工業(yè)界異常檢測(cè)場(chǎng)景中效果較好的算法即孤立森林算法,同時(shí)孤立森林算法是無監(jiān)督機(jī)器學(xué)習(xí)算法,無需對(duì)數(shù)據(jù)進(jìn)行人工打標(biāo)處理,能夠節(jié)省很多人工成本,因此本文選擇孤立森林算法構(gòu)建異常檢測(cè)模型。然而本文中采集到的監(jiān)控?cái)?shù)據(jù)具有時(shí)間序列性,因此選擇滑動(dòng)平均算法對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行時(shí)間序列分析,進(jìn)行數(shù)據(jù)處理,方可進(jìn)行模型訓(xùn)練。異常檢測(cè)模型流程圖如圖3所示。

      圖3 異常檢測(cè)模型流程圖

      異常檢測(cè)模型的核心代碼如下:

      異常檢測(cè)模型主要使用sklearn代碼庫中的Isolation Forest以及Numpy、Scipy等科學(xué)計(jì)算包分別實(shí)現(xiàn)了孤立森林算法及滑動(dòng)平均算法,針對(duì)不同主機(jī)不同指標(biāo)分別進(jìn)行模型訓(xùn)練,對(duì)訓(xùn)練好的模型統(tǒng)一進(jìn)行保存,方便系統(tǒng)調(diào)用。

      異常分析模型的主要思想是對(duì)一段時(shí)間內(nèi)異常檢測(cè)出的異常值進(jìn)行不同維度的大數(shù)據(jù)統(tǒng)計(jì)分析,通過對(duì)各種指標(biāo)進(jìn)行聚合,統(tǒng)計(jì)得出這一段時(shí)間內(nèi)哪些主機(jī)哪些指標(biāo)頻繁發(fā)生異常,并通過異常得分排序得出故障發(fā)生的IP及指標(biāo),從而為運(yùn)維人員節(jié)省大量時(shí)間及精力,提高了問題排查的效率。異常分析模型流程圖如圖4所示。

      圖4 異常分析模型流程圖

      從圖4可以看出,模型會(huì)針對(duì)實(shí)時(shí)獲取的監(jiān)控?cái)?shù)據(jù)調(diào)用已訓(xùn)練完成的異常檢測(cè)模型,生成異常檢測(cè)結(jié)果,再對(duì)一段數(shù)據(jù)內(nèi)調(diào)用到的異常檢測(cè)結(jié)果進(jìn)行大數(shù)據(jù)統(tǒng)計(jì),針對(duì)不同主機(jī)統(tǒng)計(jì)結(jié)果排序可以定位故障主機(jī),針對(duì)不同指標(biāo)統(tǒng)計(jì)結(jié)果排序可以定位故障指標(biāo),由此對(duì)故障進(jìn)行根因定位。

      3 基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)

      3.1 技術(shù)架構(gòu)

      基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)以機(jī)器學(xué)習(xí)、大數(shù)據(jù)框架為基礎(chǔ),結(jié)合AI、大數(shù)據(jù)等技術(shù)對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行建模分析,是集異常檢測(cè)、智能告警、故障智能分析、監(jiān)控視圖、業(yè)務(wù)視圖為一體的智能運(yùn)維平臺(tái)。其系統(tǒng)架構(gòu)如圖5所示。

      該架構(gòu)融合機(jī)器學(xué)習(xí)與大數(shù)據(jù)的分析流程,即獲取到基礎(chǔ)數(shù)據(jù)后,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理生成特征矩陣,然后對(duì)特征矩陣進(jìn)行特征分析,挑選出適合的特征進(jìn)行模型訓(xùn)練,最終對(duì)模型訓(xùn)練完成的數(shù)據(jù)進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)分析,生成所需的報(bào)表視圖。

      3.2 功能架構(gòu)

      基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)通過接入統(tǒng)一監(jiān)控平臺(tái)采集監(jiān)控?cái)?shù)據(jù),通過接入日志歸集平臺(tái)采集日志數(shù)據(jù),將采集到的歷史數(shù)據(jù)通過大數(shù)據(jù)框架進(jìn)行數(shù)據(jù)預(yù)處理,再將處理完成的特征數(shù)據(jù)通過機(jī)器學(xué)習(xí)核心框架構(gòu)建模型,最終通過可視化大盤將分析后的結(jié)果數(shù)據(jù)展示。其功能架構(gòu)圖如圖6所示。

      統(tǒng)一監(jiān)控平臺(tái):自主研發(fā)的跨平臺(tái)、支持多種中間件的IT綜合監(jiān)控平臺(tái),全面覆蓋IasS、PaaS、SaaS三層監(jiān)控。

      日志歸集平臺(tái):提供日志采集、檢索、告警、可視化大盤等功能,解決海量日志的管理難題。

      大數(shù)據(jù)、機(jī)器學(xué)習(xí)框架:基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)的核心,提供數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、特征工程、算法、建模等能力。

      3.3 智能告警功能

      系統(tǒng)將告警與異常檢測(cè)結(jié)合,基于動(dòng)態(tài)閾值,進(jìn)行智能告警,當(dāng)接收到告警時(shí)會(huì)自動(dòng)進(jìn)行信息壓縮整合、數(shù)據(jù)分析等操作。異常檢測(cè)生成的動(dòng)態(tài)閾值是基于海量歷史數(shù)據(jù)分析產(chǎn)生的,能夠反映業(yè)務(wù)趨勢(shì)的變化規(guī)律,使告警更精準(zhǔn),質(zhì)量更高,而且釋放了部分人工配置的繁瑣工作,工作效率大大提高。

      智能告警對(duì)告警消息進(jìn)行關(guān)聯(lián)分析,同時(shí)對(duì)各類信息進(jìn)行整合,如:數(shù)據(jù)庫存在長連接時(shí),會(huì)自動(dòng)對(duì)數(shù)據(jù)庫CPU、連接數(shù)、響應(yīng)時(shí)間等指標(biāo)進(jìn)行分析,并基于異常檢測(cè)確認(rèn)數(shù)據(jù)庫性能是否存在波動(dòng),檢測(cè)到異常時(shí)才會(huì)進(jìn)行消息發(fā)送,發(fā)送告警信息時(shí)會(huì)將數(shù)據(jù)庫的一系列信息進(jìn)行壓縮、合并,統(tǒng)一進(jìn)行發(fā)送。智能告警的功能流程圖如圖7所示。

      使用基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)的智能告警功能后,告警數(shù)量大幅度減少,告警質(zhì)量得到大大提高,告警信息更精確、更有效(告警數(shù)量由每天5 000多條壓縮至100條左右)。

      3.4 異常分析功能

      對(duì)異常檢測(cè)進(jìn)行改造,將多維度指標(biāo)數(shù)據(jù)進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)分析,自動(dòng)分析出故障時(shí)各指標(biāo)的影響占比并生成異常分析報(bào)表,快速定位故障問題,大大提高故障排查效率,故障排查耗時(shí)由30min縮短至2min。其中傳統(tǒng)運(yùn)維流程如圖8所示,異常分析流程如圖9所示。

      從以上圖8和圖9的對(duì)比中,傳統(tǒng)運(yùn)維當(dāng)接收到監(jiān)控告警后,需人工對(duì)不同主機(jī)不同組件的各個(gè)指標(biāo)進(jìn)行逐項(xiàng)排查,最終對(duì)排查結(jié)果進(jìn)行匯總定位根因,流程十分繁瑣,并需要耗費(fèi)大量人員精力。而基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)的異常分析功能流程十分清晰明了,同時(shí)引入了異常檢測(cè)模型,故障定位更加準(zhǔn)確,系統(tǒng)能夠采集到監(jiān)控告警后自動(dòng)對(duì)故障進(jìn)行統(tǒng)計(jì)分析,自動(dòng)得出定位根因,釋放了大量勞動(dòng)力,故障排查效率有所提高。

      圖5 基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)架構(gòu)圖

      圖6 基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)功能架構(gòu)圖

      圖7 智能告警示意圖

      4 基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)在中國聯(lián)通分布式架構(gòu)系統(tǒng)中的應(yīng)用效果

      目前,基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)已在中國聯(lián)通號(hào)卡系統(tǒng)等應(yīng)用上線,服務(wù)在故障發(fā)生時(shí),借助基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)能夠快速定位故障問題,有效減輕運(yùn)維人員的工作壓力。

      4.1 單指標(biāo)異常檢測(cè)

      單指標(biāo)異常檢測(cè)基于滑動(dòng)平均算法生成動(dòng)態(tài)閾值,再使用孤立森林算法構(gòu)建異常檢測(cè)模型,最終基于異常檢測(cè)模型實(shí)現(xiàn)實(shí)時(shí)異常檢測(cè)。

      使用滑動(dòng)平均算法、孤立森林算法對(duì)海量歷史數(shù)據(jù)進(jìn)行建模分析,實(shí)時(shí)發(fā)現(xiàn)海量數(shù)據(jù)中的異常點(diǎn),可以實(shí)現(xiàn)動(dòng)態(tài)調(diào)整閾值,生成異常檢測(cè)報(bào)表。其效果如圖10所示。

      4.2 多指標(biāo)異常分析

      目前,異常檢測(cè)僅能夠?qū)尉S度指標(biāo)實(shí)時(shí)計(jì)算,無法對(duì)多維度指標(biāo)進(jìn)行有效分析,多指標(biāo)異常分析是基于異常檢測(cè)進(jìn)行改造,對(duì)各指標(biāo)數(shù)據(jù)進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)分析,通過對(duì)各種指標(biāo)進(jìn)行聚合,分析出故障發(fā)生時(shí)各指標(biāo)的影響占比并生成異常分析報(bào)表。其效果如圖11所示。

      4.3 導(dǎo)航式故障排查

      導(dǎo)航式故障排查功能通過對(duì)現(xiàn)有的故障排查流程進(jìn)行總結(jié)固化為工作流,與單指標(biāo)異常檢測(cè)進(jìn)行結(jié)合,基于異常檢測(cè)動(dòng)態(tài)調(diào)整閾值,通過重點(diǎn)標(biāo)識(shí)故障指標(biāo),動(dòng)態(tài)生成故障分析報(bào)告。其效果如圖12所示。

      圖8 傳統(tǒng)運(yùn)維流程示意圖

      圖9 異常分析流程示意圖

      圖10 異常檢測(cè)報(bào)表

      圖11 異常分析報(bào)表

      圖12 導(dǎo)航式故障排查分析報(bào)表

      5 結(jié)論

      基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)上線使用后,告警質(zhì)量得到大大提高,告警信息更精確、更有效(告警數(shù)量由每天5000多條壓縮至100條左右),同時(shí)能夠快速定位故障問題,大大提高故障排查效率,故障排查耗時(shí)由30min縮短至2min。因此相對(duì)于傳統(tǒng)運(yùn)維模式,基于孤立森林算法的分布式服務(wù)故障分析系統(tǒng)在故障定位及故障分析等方面實(shí)現(xiàn)了自動(dòng)化、智能化,減少了運(yùn)維人員的投入,人力成本及運(yùn)維成本都有所降低,證明了基于孤立森林算法的分布式服務(wù)故障分析模型具有一定的可行性及有效性。

      基于孤立森林算法的分布式服務(wù)故障分析模型還有很多地方需要改進(jìn),由于本文特定場(chǎng)景的需求并沒有引入其它主機(jī)性能指標(biāo),在今后的研究工作中將引入更多性能指標(biāo)及異常檢測(cè)算法進(jìn)行多項(xiàng)驗(yàn)證,探索能否形成一套通用模型,可應(yīng)用于不同生產(chǎn)系統(tǒng),從而大大提高模型的魯棒性。

      猜你喜歡
      運(yùn)維森林監(jiān)控
      The Great Barrier Reef shows coral comeback
      運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
      你被監(jiān)控了嗎?
      Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
      風(fēng)電運(yùn)維困局
      能源(2018年8期)2018-09-21 07:57:24
      雜亂無章的光伏運(yùn)維 百億市場(chǎng)如何成長
      能源(2017年11期)2017-12-13 08:12:25
      看監(jiān)控?cái)z像機(jī)的4K之道
      哈Q森林
      哈Q森林
      哈Q森林
      西吉县| 化州市| 东辽县| 盘山县| 乌兰县| 张家界市| 万山特区| 麻江县| 望都县| 安图县| 登封市| 昭平县| 志丹县| 水富县| 灵台县| 元朗区| 衡水市| 巨野县| 石棉县| 安塞县| 远安县| 沾益县| 宝坻区| 原平市| 安丘市| 连南| 桑日县| 体育| 三亚市| 巢湖市| 开鲁县| 武胜县| 芦溪县| 台南市| 汽车| 本溪| 雷波县| 县级市| 儋州市| 固镇县| 香港 |