• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      智能運維在金融行業(yè)的應(yīng)用研究

      2018-11-23 11:30:40李俊
      卷宗 2018年32期
      關(guān)鍵詞:智能運維大數(shù)據(jù)人工智能

      李俊

      摘 要:如何高效地進行大規(guī)模系統(tǒng)運維,一直是金融行業(yè)數(shù)據(jù)中心思考的問題。人工智能技術(shù)的發(fā)展正慢慢改變運維體系,讓運維更加智能成為了可能。本文介紹了智能運維的產(chǎn)生和發(fā)展,探討了智能運維的系統(tǒng)建設(shè)和關(guān)鍵場景以及技術(shù)。

      關(guān)鍵詞:大數(shù)據(jù);智能運維;人工智能

      1 引言

      隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、金融科技等技術(shù)的迅速發(fā)展,當前各個行業(yè)的企業(yè)紛紛進行數(shù)字化轉(zhuǎn)型以應(yīng)對日益激烈的市場競爭,企業(yè)的數(shù)字化服務(wù)越來越依賴于大型復(fù)雜的IT系統(tǒng)。為了更好的用戶體驗,這些IT系統(tǒng)需要可以穩(wěn)定、連續(xù)地運轉(zhuǎn),系統(tǒng)的部署、運行和維護都需要專業(yè)人員負責。傳統(tǒng)運維方式在大規(guī)模系統(tǒng)運維的時候常常會碰到一些問題。例如:百度在定位系統(tǒng)瓶頸時,影響網(wǎng)站PageView的屬性有運營商、省份、城市、移動設(shè)備類型、軟件版本號、移動模塊號、瀏覽器版本、服務(wù)器模塊等十幾個屬性,每個屬性有幾百億條數(shù)據(jù),運維人員人工分析其中的規(guī)律是不可行的。如何區(qū)分“正常狀態(tài)下實時交易量為零”與“故障狀態(tài)下實時交易量為零” 的不同情形,這需要結(jié)合多方面的數(shù)據(jù)進行智能判斷。

      2 智能運維的產(chǎn)生與發(fā)展

      智能運維(AIOps)這個概念最早由Gartner于2016年提出,將人工智能應(yīng)用于運維領(lǐng)域,基于已有的運維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過人工智能的方式來進一步解決傳統(tǒng)運維沒辦法解決的問題。

      學(xué)術(shù)上,多倫多大學(xué)的Geoffrey Hinton的教授和Yoshua Bengio、Yann LeCun一起提出了可行的深度學(xué)習(xí)方案,大幅的提高了計算機視覺在圖片識別的正確率。2012年Google Brain用16000個CPU核的計算平臺訓(xùn)練10億神經(jīng)元的深度網(wǎng)絡(luò),無外界干涉下自動識別出了貓。最近5-6年,人工智能特別是深度學(xué)習(xí)在圖像、聲音和語義等各個領(lǐng)域取得了長足的進步,為人工智能算法應(yīng)用于智能運維領(lǐng)域提供了理論基礎(chǔ)。

      近幾年一些互聯(lián)網(wǎng)公司不斷在智能運維進行探索和實踐,也取得了一定成果。Google使用“類神經(jīng)網(wǎng)絡(luò)”技術(shù)分析其眾多數(shù)據(jù)中心的工作情況,決定何時管理數(shù)據(jù)中心的設(shè)備,比如清理熱交換器,提高設(shè)備冷卻性能,大大提高數(shù)據(jù)中心的運維效率。百度實現(xiàn)了一套基于日志 Trace 的智能故障定位系統(tǒng)及其背后的一套技術(shù)方案,最終能夠?qū)崿F(xiàn)PageView根因定位能力,并能夠根據(jù)根因做統(tǒng)計上的多維度匯聚,該系統(tǒng)應(yīng)用于百度核心搜索系統(tǒng),極大的提升了重大異常問題定位效率。

      3 金融行業(yè)的智能運維應(yīng)用研究

      3.1 特色和挑戰(zhàn)

      和互聯(lián)網(wǎng)行業(yè)一樣,金融機構(gòu)IT系統(tǒng)規(guī)模都比較大,需要管理萬臺服務(wù)器級別以上的大規(guī)?;A(chǔ)設(shè)施。但是和互聯(lián)網(wǎng)行業(yè)不同的是,金融機構(gòu)面臨著嚴格的金融監(jiān)管要求,需要維持穩(wěn)定的金融秩序,系統(tǒng)的穩(wěn)定性和連續(xù)性要求極高,允許大的系統(tǒng)變更的次數(shù)要遠遠少于互聯(lián)網(wǎng)公司。金融機構(gòu)IT架構(gòu)以前采用大型機,現(xiàn)在是小型機為主,部分采用了X86服務(wù)器,云計算正在小規(guī)模試點,整體IT環(huán)境是多代共存。同時,商業(yè)軟件和開源軟件不同,面臨接口不開放,集成成本高的問題。所以,金融行業(yè)智能運維的場景和要求有一定的行業(yè)特色。

      3.2 智能運維系統(tǒng)設(shè)計

      圖1 智能運維系統(tǒng)邏輯架構(gòu)圖

      智能運維系統(tǒng)分成數(shù)據(jù)接入層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層和智能運維應(yīng)用層。邏輯架構(gòu)示意圖(圖1)如下。1)數(shù)據(jù)接入層:通過開放的API接口,廣泛接入企業(yè)IT系統(tǒng)的服務(wù)器、網(wǎng)絡(luò)、中間件、業(yè)務(wù)系統(tǒng)日志以及CMDB等與運維相關(guān)的數(shù)據(jù)。接入數(shù)據(jù)的形式不僅包括離線的歷史數(shù)據(jù)、還包括流式的實時數(shù)據(jù)。2)數(shù)據(jù)存儲層:對接入的運維大數(shù)據(jù)進行統(tǒng)一集中、高效的存儲和管理。流式數(shù)據(jù)通過消息隊列緩存以實現(xiàn)高速交換的需求,流式數(shù)據(jù)和離線數(shù)據(jù)最終進入運維數(shù)據(jù)倉庫。3)數(shù)據(jù)分析層:對集中整合的各個系統(tǒng)的運維數(shù)據(jù),采用多維分析、搜索、時間序列、知識圖譜、預(yù)測等多種分析技術(shù)以支撐智能運維應(yīng)用。4)智能運維應(yīng)用層:針對不同的智能運維場景,支持不同的應(yīng)用。包括實時智能監(jiān)控、日志聚合和檢索、異常檢測、根因分析、告警聚合服務(wù)和容量規(guī)劃等。

      3.3 智能運維系統(tǒng)和CMDB的關(guān)系

      CMDB是IT架構(gòu)中設(shè)備的各種配置信息,與服務(wù)支持和交付流程緊密相連,它是系統(tǒng)運維最底層最核心的數(shù)據(jù)庫。智能運維系統(tǒng)接入了CMDB的數(shù)據(jù),在CMDB基礎(chǔ)上建設(shè)了運維數(shù)據(jù)倉庫。運維數(shù)據(jù)倉庫和CMDB是整個運維系統(tǒng)的最重要的兩個資料庫。CMDB側(cè)重于操作、流程支持,是IT運營的核心數(shù)據(jù)庫。運維數(shù)據(jù)倉庫是海量運維數(shù)據(jù)存儲,用于做運維大數(shù)據(jù)分析,是智能運維的核心資料庫。

      3.4 關(guān)鍵場景與技術(shù)

      3.4.1 實時智能監(jiān)控

      對于金融交易系統(tǒng)一次小小的故障都會造成不小的經(jīng)濟損失,所以不僅需要監(jiān)控歷史數(shù)據(jù),同時需要監(jiān)控當前運行數(shù)據(jù),實時監(jiān)控反而更加重要。對于離線歷史數(shù)據(jù)的管理,系統(tǒng)將他們存放在運維數(shù)據(jù)倉庫中,這些數(shù)據(jù)大多為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),可以采用分布式的Hadoop HDFS存儲,支持海量數(shù)據(jù)而且便于擴展。對于流式實時數(shù)據(jù)的管理,系統(tǒng)接入層將數(shù)據(jù)實時推送到消息隊列Kafka組件中,然后通過Kafka交換,以減少對業(yè)務(wù)系統(tǒng)的影響。在數(shù)據(jù)分析層,對于流式數(shù)據(jù)的處理,系統(tǒng)通過Spark Streaming組件去獲取各平臺剛剛傳入Kafka的系統(tǒng)日志、應(yīng)用日志、監(jiān)控數(shù)據(jù)等數(shù)據(jù),實時發(fā)送到智能運維應(yīng)用,智能監(jiān)控通過可視化技術(shù)動態(tài)地將數(shù)據(jù)展現(xiàn)給運維人員。HDFS、Kafka、Spark Streaming這些都是Hadoop組件,它們被良好的集成在Hadoop技術(shù)體系中。

      3.4.2 日志聚合與檢索

      當運維人員需要排錯時,需要逐臺登錄服務(wù)器查看。另外,日志查詢方式比較單一, Windows 服務(wù)器需要手動查看Event Log,Linux服務(wù)器需要通過less、grep和awk等常見的Linux指令,無法從時間段、關(guān)鍵字、字段值統(tǒng)計等方面進行多維度查詢。智能運維平臺對日志聚合,統(tǒng)一存儲。而且通過ElasticaSearch組件對數(shù)據(jù)建立索引,便于檢索。不同于以往每次僅可查看數(shù)量有限的幾種日志,運維人員可通過智能運維平臺所提供的關(guān)鍵字、統(tǒng)計函數(shù)、單條件、多條件、模糊查找等功能,在多個系統(tǒng)中快速定位故障信息,幫助運維人員從全局視角查看系統(tǒng)的運維數(shù)據(jù)信息,大大縮短了故障分析的時間。

      3.4.3 異常檢測

      金融機構(gòu)通常會實時監(jiān)控交易系統(tǒng)的業(yè)務(wù)狀態(tài),每分鐘交易信息進行匯總統(tǒng)計。匯總信息包括業(yè)務(wù)量、交易成功率、交易響應(yīng)時間三個指標,各指標解釋如下:1)業(yè)務(wù)量:每分鐘總共發(fā)生的交易總筆數(shù);2)交易成功率:每分鐘交易成功筆數(shù)和業(yè)務(wù)量的比率;3)交易響應(yīng)時間:一分鐘內(nèi)每筆交易在后端處理的平均耗時(單位:毫秒)。當分支機構(gòu)網(wǎng)絡(luò)傳輸節(jié)點故障,前端交易無法上送請求,會導(dǎo)致業(yè)務(wù)量陡降。當分支機構(gòu)側(cè)參數(shù)數(shù)據(jù)變更或者配置錯誤,數(shù)據(jù)中心后端處理失敗率增加,影響交易成功率指標。當數(shù)據(jù)中心后端處理系統(tǒng)異常(如操作系統(tǒng)CPU負荷過大)引起交易處理緩慢,影響交易響應(yīng)時間指標。當數(shù)據(jù)中心后端處理系統(tǒng)應(yīng)用進程異常,導(dǎo)致交易失敗或響應(yīng)緩慢。當這三個指標出現(xiàn)業(yè)務(wù)量陡降、響應(yīng)時間陡升等情況,系統(tǒng)可能存在著潛在故障。通??梢詮慕灰琢?、交易類型、地域分布、交易時間段等多個維度進行分析,通過歷史和當前數(shù)據(jù)對比。但是金融系統(tǒng)的交易數(shù)據(jù)存在時間波動:工作日和非工作日的交易量存在差別,一天內(nèi)交易量存在業(yè)務(wù)低谷時間段和正常業(yè)務(wù)時間段。簡單的對比前一段時間的業(yè)務(wù)量,往往不夠精確,基于時間序列的Holt-Winters分析方法可以對數(shù)據(jù)進行二次指數(shù)平滑,提高異常檢測的精確度。

      3.4.4 根因分析

      異常檢測發(fā)現(xiàn)異常后,如何快速找到異常的根本原因?在傳統(tǒng)運維中,我們通常通過自上而下的方式逐級人工排查,也就是先從應(yīng)用系統(tǒng),再到數(shù)據(jù)庫、再到操作系統(tǒng),最后是服務(wù)器硬件、網(wǎng)絡(luò)等底層資源。這種方式可以分析出比較簡單、明顯的系統(tǒng)故障,但是無法有效的分析出性能瓶頸、內(nèi)存泄漏等一些復(fù)雜的多因素影響的問題。智能運維系統(tǒng)通過結(jié)合CMDB中的配置信息以及其他一些運維數(shù)據(jù),學(xué)習(xí)出故障的傳播路徑,幫助運維快速定位問題。同時運維專家也可以對故障根原因信息進行標注以改善人工智能的準確性,同時改善智能運維系統(tǒng)的智能水平。再進一步,當智能系統(tǒng)的智能水平達到一定程度后,系統(tǒng)甚至可以考慮自動采取措施來修復(fù)故障。

      3.4.5 告警聚合

      在傳統(tǒng)運維中,運維人員有時會陷入重復(fù)告警的困擾。例如一個服務(wù)器宕機,在它恢復(fù)運行的這段時間內(nèi),會不斷收到告警信息。與此同時,其關(guān)聯(lián)的應(yīng)用系統(tǒng)、中間件的各級資源也會不斷地產(chǎn)生報警。智能運維系統(tǒng)通過CMDB系統(tǒng)中的配置信息獲取監(jiān)控對象之間的依賴關(guān)系,自動尋找故障的底層故障點進行告警,忽略關(guān)聯(lián)告警信息。對于一段時間窗口告警信息,系統(tǒng)智能合并成一條信息,而不是反復(fù)重復(fù)告警。智能運維系統(tǒng)還可以通過CMDB系統(tǒng)中的變更信息,智能地忽略應(yīng)版本變更引起的告警信息。

      3.4.6 容量規(guī)劃

      在傳統(tǒng)運維中,容量規(guī)劃會更根據(jù)業(yè)務(wù)量的規(guī)模等因素來人為預(yù)估服務(wù)器的節(jié)點數(shù)、硬件配置等資源。通過基于運維系統(tǒng)產(chǎn)生的實際、真實的數(shù)據(jù),通過一些模型例如:ARMA 和GARCH 模型,來預(yù)測未來3個月或者1年需要的資源配置。這種基于數(shù)據(jù)的預(yù)測方法相對經(jīng)驗預(yù)估相對要科學(xué),并且準確得多,從而避免了資源的浪費。特別是在云計算的環(huán)境中,結(jié)合云計算彈性計算,按需分配的特點,極大的提高了數(shù)據(jù)中心的資源利用率。

      4 結(jié)語

      綜上所述,由于開源大數(shù)據(jù)技術(shù)和人工智能技術(shù)的發(fā)展,金融機構(gòu)在接入運維大數(shù)據(jù)、分析和存儲運維大數(shù)據(jù)以及一些智能運維場景的應(yīng)用已經(jīng)沒有技術(shù)障礙。但是,通過人工智能技術(shù)檢測出故障的根原因后,如何通過采取”自動修復(fù)“技術(shù)自動修復(fù)故障,在無需人工干預(yù)的場景下,還存在如何保證整體系統(tǒng)穩(wěn)定、安全等一系列的問題,還需要進一步研究和探索,以滿足金融機構(gòu)對高安全、高穩(wěn)定性的要求。

      參考文獻

      [1]袁俊德.以“七臺兩庫”領(lǐng)銜智能化運維[J].金融電子化,2017(08):75-77.

      [2]高建.陽光保險邁入智能運維1.0時代[J].金融電子化,2017(08):84-85.

      [3]楊斌.大數(shù)據(jù)技術(shù)領(lǐng)航智能運維[J].金融電子化,2017(08):86-87.

      猜你喜歡
      智能運維大數(shù)據(jù)人工智能
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      人工智能與就業(yè)
      綜合管廊智能運維關(guān)鍵技術(shù)研究及應(yīng)用
      智能監(jiān)控在居民分布式光伏系統(tǒng)運維中的應(yīng)用
      變電站視頻監(jiān)控系統(tǒng)智能運維的研究與實現(xiàn)
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      物聯(lián)網(wǎng)+配網(wǎng)智能運維的創(chuàng)新技術(shù)研究
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      下一幕,人工智能!
      南風窗(2016年19期)2016-09-21 16:51:29
      靖西县| 安新县| 聂拉木县| 禄丰县| 绥化市| 永城市| 九台市| 沂源县| 灵宝市| 宁津县| 德兴市| 达拉特旗| 辉南县| 漳州市| 淅川县| 垦利县| 买车| 丁青县| 秦安县| 河北省| 丽江市| 淅川县| 甘孜| 通辽市| 晋州市| 阿拉善右旗| 崇义县| 根河市| 多伦县| 金阳县| 法库县| 平南县| 东乌| 石家庄市| 孟州市| 陆良县| 邯郸县| 射阳县| 三门峡市| 高碑店市| 通江县|