• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于無(wú)監(jiān)督學(xué)習(xí)的接口異常檢測(cè)及根因定位方法

      2023-11-22 10:28:28孫健飛
      江蘇通信 2023年5期
      關(guān)鍵詞:根因閾值維度

      孫健飛

      中國(guó)移動(dòng)通信集團(tuán)江蘇有限公司

      0 引言

      當(dāng)前,業(yè)務(wù)故障發(fā)現(xiàn)主要依賴對(duì)黃金指標(biāo)(如交易量、交易響應(yīng)時(shí)間、交易成功率)設(shè)定閾值或者同環(huán)比的對(duì)比。這種檢測(cè)方法適用場(chǎng)景單一,在面對(duì)業(yè)務(wù)系統(tǒng)中大量差異化的KPI 數(shù)據(jù)檢測(cè)時(shí)顯得力不從心;對(duì)監(jiān)控指標(biāo)需配置大量規(guī)則,且無(wú)法做到規(guī)則與業(yè)務(wù)指標(biāo)的準(zhǔn)確匹配,導(dǎo)致誤告警數(shù)量較多,需要投入人力篩選出有效告警。告警出現(xiàn)后,需對(duì)日志、報(bào)文進(jìn)行分析排查原因,無(wú)法快速有效地判定根因。近年來(lái),系統(tǒng)運(yùn)維領(lǐng)域開(kāi)始應(yīng)用AIops 技術(shù),以期提升運(yùn)維效率,減少人工成本,但當(dāng)前的技術(shù)主要采用有監(jiān)督學(xué)習(xí)算法進(jìn)行異常檢測(cè),采用單維分析方法進(jìn)行故障根因定位,存在以下問(wèn)題:

      有監(jiān)督學(xué)習(xí)易用性差:現(xiàn)有的AIops 算法,基本為有監(jiān)督學(xué)習(xí),使用時(shí)需要大量的人工標(biāo)注;難以適應(yīng)多樣時(shí)間序列的數(shù)據(jù)特性,難以支持不同領(lǐng)域的異常檢測(cè),普適性較差;為獲得更好的效果,需要頻繁調(diào)整參數(shù),易用性較差。

      單維分析根因定位難:故障出現(xiàn)后,需要人工對(duì)日志、報(bào)文進(jìn)行分析排查原因,隨著接口依賴關(guān)系的增多,不僅需要分析接口本身性能,還需要人工從地市、渠道、分組、資源池等多個(gè)維度,進(jìn)行聯(lián)合分析,工作量巨大且難以快速有效根因定位。

      因此,如何快速有效進(jìn)行接口監(jiān)控及故障定位是亟待解決的問(wèn)題。

      1 研究背景

      軟件系統(tǒng)作為服務(wù)或者能力提供方,通常以接口的形式對(duì)外提供服務(wù),供外部渠道調(diào)用。為了便于對(duì)內(nèi)部系統(tǒng)的服務(wù)接口進(jìn)行集中化管理,一般將能力開(kāi)放平臺(tái)作為內(nèi)外部系統(tǒng)交互的樞紐,將內(nèi)部系統(tǒng)的接口信息在能力開(kāi)放平臺(tái)進(jìn)行注冊(cè),由該平臺(tái)作為對(duì)外提供服務(wù)的核心網(wǎng)關(guān),便于對(duì)服務(wù)接口進(jìn)行統(tǒng)一管理,包括注冊(cè)、注銷、業(yè)務(wù)量監(jiān)控、失敗告警、性能監(jiān)測(cè)等。

      隨著業(yè)務(wù)規(guī)模的快速發(fā)展以及外部需求的日益增多,內(nèi)部系統(tǒng)服務(wù)接口數(shù)量也越來(lái)越多,如何對(duì)這些接口準(zhǔn)確地進(jìn)行異常指標(biāo)檢測(cè)、故障預(yù)警、根因定位,第一時(shí)間提醒運(yùn)維人員介入處理,成為亟待解決的運(yùn)維難題。目前,能力開(kāi)放平臺(tái)對(duì)所有接口都配置了固定閾值監(jiān)控,但是存在閾值設(shè)置依賴運(yùn)維專家經(jīng)驗(yàn)、閾值大小設(shè)定不合理、無(wú)法通過(guò)固定閾值覆蓋全部接口、告警誤報(bào)漏報(bào)、告警后根因定位困難等問(wèn)題,亟待采用一套智能化的、快速精準(zhǔn)的接口異常檢測(cè)及根因定位方法,進(jìn)行接口故障預(yù)警和性能管理。

      2 方案描述

      2.1 整體方案

      搭建大數(shù)據(jù)處理平臺(tái),接入能力開(kāi)放平臺(tái)實(shí)時(shí)訪問(wèn)日志,按分鐘級(jí)聚合出接口交易量、響應(yīng)時(shí)間、成功率、響應(yīng)率等核心指標(biāo)。

      建設(shè)業(yè)務(wù)指標(biāo)異常檢測(cè)和根因定位算法引擎,實(shí)現(xiàn)的算法包括變分自編碼器、漸進(jìn)梯度回歸樹(shù)、差分指數(shù)滑動(dòng)平均、極值理論、周期性中值檢測(cè)、LightGBM、蒙特卡洛搜索樹(shù)等。

      實(shí)現(xiàn)基于動(dòng)態(tài)閾值的告警設(shè)定、告警列表查看、異常指標(biāo)詳情查詢、根因定位查詢、算法頁(yè)面調(diào)參、模型訓(xùn)練等多種功能。

      算法引擎對(duì)接大數(shù)據(jù)處理平臺(tái)數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)指標(biāo)實(shí)時(shí)異常檢測(cè),發(fā)現(xiàn)異常后發(fā)送告警短信,并自動(dòng)觸發(fā)根因定位算法,給出故障根因,縮小故障排查范圍。系統(tǒng)架構(gòu)及數(shù)據(jù)流圖如圖1 所示。

      圖1 系統(tǒng)架構(gòu)及數(shù)據(jù)流圖

      2.2 功能架構(gòu)

      系統(tǒng)主要包括采集、存儲(chǔ)、分析、服務(wù)、展示這5 個(gè)層級(jí)。

      采集層:包括數(shù)據(jù)源層和數(shù)據(jù)處理層,通過(guò)Kafka 實(shí)時(shí)對(duì)接能力開(kāi)放平臺(tái)接口訪問(wèn)數(shù)據(jù);

      存儲(chǔ)層:主要存儲(chǔ)時(shí)序指標(biāo)、日志文檔、系統(tǒng)設(shè)置;

      分析層:實(shí)時(shí)聚合計(jì)算能開(kāi)訪問(wèn)數(shù)據(jù),供業(yè)務(wù)指標(biāo)異常檢測(cè)算法和業(yè)務(wù)多維根因定位算法消費(fèi);

      服務(wù)層:整合分析結(jié)果,向上層提供展示接口;

      展示層:告警信息、指標(biāo)異常波動(dòng)、根因定位分析、儀表盤(pán)統(tǒng)一展示。

      3 方法實(shí)現(xiàn)

      通過(guò)引入AI 組合算法,結(jié)合接口歷史數(shù)據(jù)指標(biāo)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),可對(duì)接口的成功率、響應(yīng)時(shí)長(zhǎng)、失敗量等性能指標(biāo)進(jìn)行實(shí)時(shí)異常檢測(cè),通過(guò)動(dòng)態(tài)閾值觸發(fā)機(jī)制實(shí)現(xiàn)智能告警,相較于傳統(tǒng)的固定閾值觸發(fā)告警,準(zhǔn)確度更高。異常檢測(cè)后,從故障接口出現(xiàn)時(shí)間段的大量交易明細(xì)中,利用渠道、應(yīng)用集群、業(yè)務(wù)可用性等維度組合檢測(cè)故障前后指標(biāo)的劣化趨勢(shì)進(jìn)行根因排序,可快速對(duì)故障進(jìn)行定界分析。

      3.1 引入時(shí)序數(shù)據(jù)解析框架,提升海量數(shù)據(jù)處理能力

      搭建大數(shù)據(jù)處理平臺(tái),接入能力開(kāi)放平臺(tái)實(shí)時(shí)訪問(wèn)日志,按照接口分類分鐘級(jí)聚合出交易量、響應(yīng)時(shí)間、成功率、響應(yīng)率等核心指標(biāo)。通過(guò)Kafka 搭建海量時(shí)序數(shù)據(jù)隊(duì)列,以滿足數(shù)據(jù)短期內(nèi)接入的緩沖需求,并選擇ElasticSearch 和InfluxDB 作為日志和指標(biāo)兩類時(shí)序數(shù)據(jù)的主要持久化數(shù)據(jù)庫(kù),以滿足大量日增時(shí)序數(shù)據(jù)的歸檔和索引需求。

      方案數(shù)據(jù)管理根據(jù)存儲(chǔ)策略和對(duì)應(yīng)存儲(chǔ)方式,將數(shù)據(jù)架構(gòu)分為數(shù)據(jù)管道、模型配置存儲(chǔ)、日志持久存儲(chǔ)和指標(biāo)持久存儲(chǔ)四個(gè)模塊,架構(gòu)模型如圖2 所示。

      圖2 數(shù)據(jù)管理架構(gòu)模型

      在數(shù)據(jù)處理設(shè)計(jì)上,提供流式數(shù)據(jù)處理組件,通過(guò)拖拽方式,對(duì)指定數(shù)據(jù)源數(shù)據(jù)進(jìn)行格式清洗,并輸出到指定數(shù)據(jù)源。

      3.2 構(gòu)建業(yè)務(wù)指標(biāo)異常檢測(cè)算法引擎,實(shí)現(xiàn)動(dòng)態(tài)閾值告警

      業(yè)務(wù)指標(biāo)異常檢測(cè)的整體架構(gòu)設(shè)計(jì)如圖3 所示。

      圖3 異常檢測(cè)設(shè)計(jì)架構(gòu)

      特征描述器:對(duì)于一條時(shí)間序列,首先對(duì)其特征進(jìn)行表述。關(guān)注的特征包括:通過(guò)算法自動(dòng)找到時(shí)間序列的周期、是否具有向上/向下的趨勢(shì)性、周期偏移情況、數(shù)據(jù)抖動(dòng)程度、上下界極限值、是否可以用閾值的方法、閾值采用多少合適。經(jīng)過(guò)特征描述器描述后的數(shù)據(jù)會(huì)帶有KPI 的關(guān)鍵特性信息,交給檢測(cè)器。

      檢測(cè)器:根據(jù)時(shí)間序列的特征,計(jì)算資源的分配以及數(shù)據(jù)的時(shí)間,合理選用不同的模型組合來(lái)訓(xùn)練并生成對(duì)應(yīng)的模型。通過(guò)分析KPI 歷史數(shù)據(jù),提取各項(xiàng)指標(biāo)的關(guān)鍵特征,最終生成檢測(cè)模型供后續(xù)分類器進(jìn)行異常判斷。

      分類器:根據(jù)當(dāng)前數(shù)據(jù)特性,并對(duì)比檢測(cè)器提供的模型特性,最終給出檢測(cè)結(jié)果。

      實(shí)現(xiàn)算法:變分自編碼器、漸進(jìn)梯度回歸樹(shù)、差分指數(shù)滑動(dòng)平均、極值理論、周期性中值檢測(cè)。

      數(shù)據(jù)積累到一定程度即可開(kāi)始在實(shí)際環(huán)境中在線檢測(cè),在線檢測(cè)使用已訓(xùn)練好的模型對(duì)應(yīng)的關(guān)鍵特征生成算法來(lái)生成新的時(shí)間點(diǎn)的特征,并用已訓(xùn)練好的模型對(duì)新的時(shí)間點(diǎn)的異常程度打分,在線檢測(cè)的過(guò)程中,需要對(duì)以下實(shí)際問(wèn)題進(jìn)行處理:

      (1)缺點(diǎn):某一固定時(shí)間采集點(diǎn)沒(méi)有數(shù)據(jù)。

      (2)亂序:后面的時(shí)間先到異常檢測(cè)算法,而之前時(shí)間的點(diǎn)還在隊(duì)列中。

      (3)特征變化:由于新的部署等情況,時(shí)間序列的特征與之前不一樣。

      對(duì)于每個(gè)時(shí)間點(diǎn)對(duì)應(yīng)的值,算法可以給出一個(gè)異常分?jǐn)?shù),根據(jù)異常檢測(cè)的默認(rèn)閾值,可以給出一個(gè)點(diǎn)是否是異常的結(jié)果,由于現(xiàn)實(shí)中時(shí)間序列的含義千差萬(wàn)別,一樣的時(shí)間序列如果含義不同,預(yù)期的異常檢測(cè)效果可能會(huì)不一樣,所以提供敏感度供用戶調(diào)整以達(dá)到用戶滿意的效果(用戶唯一需要調(diào)整的參數(shù),而且大多數(shù)時(shí)候并不需要調(diào)整),如果用戶不知道如何調(diào)整敏感度以達(dá)到他們預(yù)期的效果,方案也提供標(biāo)注反饋的方式,用戶將他認(rèn)為的異常漏報(bào)和正常誤報(bào)標(biāo)出,算法可以自動(dòng)調(diào)整以達(dá)到用戶預(yù)期的效果。

      針對(duì)不同的場(chǎng)景,選擇適合的算法來(lái)進(jìn)行異常檢測(cè)。大量的實(shí)驗(yàn)表明,沒(méi)有一種算法或者開(kāi)源解決方案能夠處理多樣的時(shí)間序列類型,而本方案的單指標(biāo)異常檢測(cè)算法也是多個(gè)算法的組合,通過(guò)特征描述器來(lái)指導(dǎo)用戶選擇特征和模型。

      3.3 建立根因智能分析方法,快速定位接口降質(zhì)原因

      KPI 指標(biāo)(請(qǐng)求量、失敗量、響應(yīng)時(shí)間等)與多維屬性(能力提供方、地市、渠道等),是接口重要的監(jiān)控內(nèi)容。當(dāng)一個(gè)KPI 的總體值發(fā)生異常時(shí),想要解除異常,定位出導(dǎo)致該異常的根因所在的位置是關(guān)鍵一步,然而,這一步常常是充滿挑戰(zhàn)的,尤其當(dāng)根因是多個(gè)維度屬性值組合的時(shí)候。主要困難和挑戰(zhàn)有以下兩個(gè)方面:

      (1)不同組合的訪問(wèn)量是相互依賴和影響的,真正的根因元素的訪問(wèn)量異常,可導(dǎo)致其他元素的訪問(wèn)量發(fā)生變化。

      (2)由于KPI 擁有多維屬性,因此隨著維度的增加或粒度的細(xì)化,元素的數(shù)目往往呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),可能需要在成千上萬(wàn)的多維屬性空間進(jìn)行搜索。

      一種典型場(chǎng)景,當(dāng)某個(gè)業(yè)務(wù)出現(xiàn)問(wèn)題時(shí),結(jié)合該業(yè)務(wù)多維度屬性信息(例如地市、機(jī)房、交易類型等)盡可能準(zhǔn)確地找到故障的根因集合,盡快恢復(fù)系統(tǒng)故障。

      要解決上述問(wèn)題,首先,需要解決由于元素間存在復(fù)雜關(guān)系導(dǎo)致的難以衡量任意一個(gè)元素集合接近根因的程度,本方案提出評(píng)判多維指標(biāo)體系中元素集合是異常根因的可能性的評(píng)分方法。其次,為了解決巨大空間的搜索問(wèn)題,使用“先聚類,再搜索”的搜索策略,以及多種剪枝方法,在不影響結(jié)果的前提下降低復(fù)雜度。

      業(yè)務(wù)指標(biāo)多維根因定位的整體架構(gòu)設(shè)計(jì)如圖4 所示。

      圖4 業(yè)務(wù)指標(biāo)多維根因定位設(shè)計(jì)架構(gòu)

      當(dāng)告警發(fā)生后,系統(tǒng)自動(dòng)觸發(fā)多維分析算法。算法會(huì)選取告警發(fā)生前后幾分鐘內(nèi)的數(shù)據(jù)作為根因定位的源數(shù)據(jù)。根據(jù)告警發(fā)生時(shí)刻的維度組合對(duì)其他時(shí)間的數(shù)據(jù)進(jìn)行缺失值填充、按維度聚合、KPI 計(jì)算等。例如,當(dāng)某接口成功率異常,系統(tǒng)會(huì)選取異常時(shí)間點(diǎn)前后的一批數(shù)據(jù)按照地市、提供方、渠道、IP 等分維度進(jìn)行預(yù)處理。處理完成后系統(tǒng)根據(jù)其數(shù)據(jù)規(guī)模來(lái)判斷采用何種檢測(cè)方式。算法采用的是可加和指標(biāo)(整體指標(biāo)值可由下層指標(biāo)加和得到,例如,總交易量指標(biāo)由各交易量相加得出)檢測(cè),維度組合分析過(guò)程中,其分析路徑為一個(gè)樹(shù)狀的結(jié)構(gòu)。在維度過(guò)多時(shí),葉子節(jié)點(diǎn)的交易量會(huì)非常小,極限情況下只會(huì)在0-1 之間波動(dòng),此時(shí)再使用葉子節(jié)點(diǎn)的變化來(lái)衡量上層節(jié)點(diǎn)的“影響”(Potential Score)會(huì)不準(zhǔn)確,所以數(shù)據(jù)評(píng)估的主要作用就是根據(jù)數(shù)據(jù)量選擇部分異常檢測(cè)或全局異常檢測(cè)。檢測(cè)完成后,系統(tǒng)針對(duì)每一個(gè)維度組合的異常檢測(cè)得分進(jìn)行極大值、極小值聚類,根據(jù)聚類結(jié)果確定搜索順序。系統(tǒng)的維度指標(biāo)通常較多,所以其維度組合也較多,如果對(duì)所有的維度組合都進(jìn)行根因搜索,計(jì)算量巨大,對(duì)系統(tǒng)性能消耗嚴(yán)重,所以要對(duì)不相關(guān)的維度組合進(jìn)行“剪枝”,“剪枝”過(guò)后的維度組合就會(huì)形成備選根因素的集合,最后經(jīng)過(guò)組合、合并形成最終的分析結(jié)果。多維指標(biāo)異常檢測(cè)示意如圖5 所示。

      圖5 多維指標(biāo)異常檢測(cè)示意圖

      規(guī)模較小的數(shù)據(jù)只對(duì)最外層(淺藍(lán)色)維度組合進(jìn)行異常檢測(cè),內(nèi)層異常得分直接來(lái)源于其子節(jié)點(diǎn)加和。方案會(huì)根據(jù)參考的歷史時(shí)間序列長(zhǎng)度以及算法訓(xùn)練的時(shí)間綜合選擇不同的異常檢測(cè)算法。主要用到的算法有LightGBM、極值理論。

      4 應(yīng)用效果

      目前,該方案已應(yīng)用于生產(chǎn)系統(tǒng)主要接口。接口觸發(fā)告警時(shí),將系統(tǒng)智能識(shí)別的結(jié)果與運(yùn)維人員判定進(jìn)行對(duì)比,結(jié)果一致,減少了運(yùn)維人員手動(dòng)排查問(wèn)題的工作量。

      2021 年06 月17 日17:27:00,接口VOUCHER 響應(yīng)時(shí)間突增到4.1 秒,響應(yīng)率突降到61%,系統(tǒng)成功率突降到61%,如圖6 所示。

      圖6 接口指標(biāo)異常檢測(cè)實(shí)例

      業(yè)務(wù)指標(biāo)異常發(fā)生后,系統(tǒng)自動(dòng)觸發(fā)多維度根因定位算法進(jìn)行根因分析,如圖7 所示。

      圖7 指標(biāo)多維根因分析實(shí)例

      原因分析:經(jīng)過(guò)系統(tǒng)對(duì)告警觸發(fā)的維度因素及數(shù)據(jù)的智能化分析,推薦出引發(fā)本次告警的TOP3 維度組合,包括接口使用方(CHANNEL_ID)、接口提供方(APPLYER_ID)、 主機(jī)(HOST), 從圖10 中可以看出, 具 體 為CHANNEL_ID=109000000030、APPLYER_ID=401000000002、HOST 為a19xtf2k6 和a19xtf2k7 的維度組合;從前兩項(xiàng)維度組合可以看出,指標(biāo)數(shù)據(jù)發(fā)生異常前,接口VOUCHER 平均響應(yīng)時(shí)間是0.3 秒,指標(biāo)數(shù)據(jù)發(fā)生異常后,接口VOUCHER平均響應(yīng)時(shí)間分別突增到8.4秒和10秒以上。此刻所監(jiān)控的整體接口響應(yīng)時(shí)間達(dá)到2.5 秒,較告警發(fā)生前性能下降88.5%??梢?jiàn)此維度組合的數(shù)據(jù)異常度最高。

      效果說(shuō)明: 經(jīng)過(guò)確認(rèn), 接口提供方APPLYER_ID=401000000002、HOST 為a19xtf2k6 和a19xtf2k7 的這兩臺(tái)機(jī)器,由于定時(shí)任務(wù)程序被異常觸發(fā),正在進(jìn)行自動(dòng)批量備份,占用了大量系統(tǒng)資源,主機(jī)CPU 使用率迅速被拉升,程序線程池被打滿,導(dǎo)致接口使用方調(diào)用VOUCHER 業(yè)務(wù)響應(yīng)時(shí)間升高。通過(guò)使用系統(tǒng)智能化的根因定位及異常檢測(cè)算法,從異常發(fā)生到根因定位耗時(shí)5 分鐘,傳統(tǒng)方法通過(guò)告警及日志分析定位預(yù)計(jì)耗時(shí)30 分鐘,節(jié)約了故障處理時(shí)長(zhǎng)。

      5 結(jié)束語(yǔ)

      本文基于無(wú)監(jiān)督學(xué)習(xí)技術(shù),實(shí)現(xiàn)了對(duì)業(yè)務(wù)指標(biāo)告警閾值的智能化設(shè)定,自適應(yīng)方式避免了繁瑣的手動(dòng)配置閾值工作。同時(shí),基于大數(shù)據(jù)和AI 技術(shù),利用現(xiàn)有的AI 中臺(tái)、數(shù)據(jù)中臺(tái)、技術(shù)中臺(tái),提出動(dòng)態(tài)基線異常檢測(cè)算法和業(yè)務(wù)根因多維定位算法,實(shí)現(xiàn)了對(duì)業(yè)務(wù)指標(biāo)異常的快速檢測(cè)、故障根因快速定位,提升了業(yè)務(wù)支撐系統(tǒng)的數(shù)智化能力。該方案具有易于復(fù)制、便于推廣的特點(diǎn),已在能力開(kāi)放平臺(tái)規(guī)模使用,可適配基于虛機(jī)、容器環(huán)境的各類業(yè)務(wù)系統(tǒng),也可進(jìn)一步在管理信息等其他領(lǐng)域系統(tǒng)中進(jìn)行推廣使用。

      猜你喜歡
      根因閾值維度
      根因分析法提高藥品不良反應(yīng)報(bào)告合格率
      淺論詩(shī)中“史”識(shí)的四個(gè)維度
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      基于矩陣編碼的自動(dòng)路測(cè)根因定位方法
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      根因分析法在提高科室備用藥品質(zhì)量管理中的應(yīng)用
      室內(nèi)表面平均氡析出率閾值探討
      光的維度
      燈與照明(2016年4期)2016-06-05 09:01:45
      “五個(gè)維度”解有機(jī)化學(xué)推斷題
      西林县| 资中县| 无为县| 文山县| 饶阳县| 连南| 麻江县| 波密县| 嘉义市| 曲周县| 襄汾县| 溧阳市| 荣成市| 枣庄市| 扶沟县| 鹰潭市| 含山县| 文化| 托克逊县| 通海县| 夹江县| 闽清县| 穆棱市| 吉木萨尔县| 乌审旗| 米脂县| 京山县| 准格尔旗| 共和县| 随州市| 建昌县| 中卫市| 莱西市| 沧源| 邹平县| 呼图壁县| 南漳县| 镇巴县| 乌拉特中旗| 宜宾市| 琼中|