商英俊 劉巖 尹廣彬
摘要:運維管理系統(tǒng)的發(fā)展有兩大促進因素,一是需求驅(qū)動,二是技術(shù)驅(qū)動。新型網(wǎng)絡架構(gòu)的出現(xiàn)以及被管對象新特征對運維提出了新的管理需求,同時人工智能和虛擬化等新技術(shù)的出現(xiàn),對于提升運維管理的智能性奠定了基礎(chǔ)。結(jié)合OODA思想,研究了運維管理的自感知、自分析、自決策、自優(yōu)化等智能管控能力,同時研究了基于信息熵的探針和探測站點選擇,結(jié)合實際需求研究遠程運維和自動巡檢,提升管理的時效性。
關(guān)鍵詞:自優(yōu)化;虛擬網(wǎng)絡功能編排;遠程運維;自動巡檢
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2021)18-61-3
0引言
智能運維是實現(xiàn)網(wǎng)絡運行狀態(tài)實時監(jiān)控、資源按需動態(tài)調(diào)控、故障快速定位診斷的重要手段。在網(wǎng)絡運行過程中,需要實時監(jiān)控網(wǎng)絡運行狀態(tài)和資源使用情況,基于應用需求,按需動態(tài)調(diào)控資源,及時排除故障。通過網(wǎng)絡的有效和高效運行,滿足多樣化業(yè)務的高要求。
1自感知
1.1應用需求感知
操作人員通過可視化向?qū)饺藱C界面,在應用和網(wǎng)絡能收稿日期:2021-06-24力之間形成映射關(guān)系,轉(zhuǎn)化為對網(wǎng)絡資源的需求,包括源和目的地址、帶寬、優(yōu)先級、安全等級和時效性。
1.2多手段網(wǎng)絡狀態(tài)感知
網(wǎng)絡狀態(tài)感知的手段主要有:①定時輪詢,基于配置文件靈活設定輪詢時間和參數(shù),定期進行重要關(guān)鍵參數(shù)的采集和感知。②主動上報,網(wǎng)絡被管設備基于trap機制主動上報自身運行狀態(tài)和活躍告警消息,全方位細粒度的數(shù)據(jù)采集是精準全面分析的基礎(chǔ)。③采集點部署流量探針等進行流量信息的實時采集和監(jiān)視,在采集節(jié)點部署探針需要根據(jù)網(wǎng)絡實時動態(tài)拓撲調(diào)整探針設備最佳部署位置,即探針的動態(tài)部署算法。
探針動態(tài)部署方法步驟[1-3]描述如下:
步驟1:基于多維感知手段實時監(jiān)測網(wǎng)絡運行狀態(tài)。
因此,可以用信息熵增益A、B表示每個探針信息熵增益。其中,信息熵增益B可在離線環(huán)境下計算并存儲,信息熵增益A基于計算推理的算法進行計算,可大幅度降低探針信息熵增益計算的在線計算復雜度,減少計算時間。
步驟6:備選探針集合中信息增益最大的探針,進行信息發(fā)送。
步驟7:計算網(wǎng)絡中剩余的不確定度( | ),代表網(wǎng)絡中所有節(jié)點,如下:
如果網(wǎng)絡中剩余的不確定度小于設定的閾值,表明探針已經(jīng)將網(wǎng)絡運行情況探測明白,結(jié)束探測;否則返回步驟4,繼續(xù)選擇和發(fā)送探測任務。
步驟8:將已發(fā)送探針的返回結(jié)果作為故障診斷的輸入,進行故障診斷和定位。
本方法將探針的信息熵增益簡化為2個條件熵之差,分別在離線和在線環(huán)境下計算,節(jié)省了在線計算時間,降低了計算復雜度。因此高動態(tài)網(wǎng)絡的故障探針的部署方法具有如下優(yōu)點:
①用信息熵增益A和B的差的絕對值來表示探針的信息增益,為了減少在線計算時間,一個條件熵可以在離線模式下計算;②為了降低計算復雜度,另一個條件熵基于近似推理法計算獲得。
1.3自決策
自決策[7-9]是基于網(wǎng)絡運行過程中的動態(tài)應用需求,實時更新網(wǎng)絡資源狀態(tài),或者根據(jù)網(wǎng)絡效能評估結(jié)果,進行資源優(yōu)化調(diào)控策略的動態(tài)生成。同時,智能運維需要調(diào)控位于不同地理位置、具有不同通信能力及屬于不同管理域的資源,需要進行跨域網(wǎng)絡功能編排,需要運維管理中心協(xié)同不同的管理域共同完成跨域的或者端到端的資源調(diào)控。
1.4自配置
自配置體現(xiàn)在兩方面,一是網(wǎng)絡開通前的靜態(tài)籌劃和快速開通,另一個是網(wǎng)絡運行過程中的動態(tài)調(diào)控配置。靜態(tài)籌劃和快速開通,提供向?qū)娇梢暬绘I開通配置。
同時在網(wǎng)絡運行過程中進行資源動態(tài)調(diào)控,靈活設定多參數(shù)閾值,并制定對應的資源調(diào)控策略。在網(wǎng)絡運行過程中,基于設定的閾值,當發(fā)現(xiàn)流量帶寬越限或節(jié)點鏈路故障等網(wǎng)絡異常事件發(fā)生時,自動觸發(fā)策略決策,實現(xiàn)網(wǎng)絡資源動態(tài)調(diào)控和自配置。
1.5自優(yōu)化
基于大數(shù)據(jù)對主動上報和被動感知的多維數(shù)據(jù)進行數(shù)據(jù)清洗、去重、標注、分析、融合和評估,分析網(wǎng)絡流量趨勢、基于任務的資源分配情況、故障率等,建立評估指標體系是網(wǎng)絡效能評估的第一步,選擇評估算法,評估體系的選擇也可以是客觀指標,以網(wǎng)絡健康度為例,評估指標體系包括實時性、資源利用率、快速組網(wǎng)能力、抗毀生存性、抗干擾性等多個一級指標,同時每個一級指標可以根據(jù)實際需要進行分解和細化。同時評估指標體系還可以從用戶的主觀角度進行設定,即基于用戶(QOE)的主觀評估。
在感知獲取的多維網(wǎng)絡數(shù)據(jù)的基礎(chǔ)上,基于網(wǎng)絡運行狀態(tài)和歷史數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡模型進行訓練和預測,最終實現(xiàn)網(wǎng)絡態(tài)勢預測,進而實現(xiàn)前瞻性的運維管控。
1.6 KVM和自動巡檢
通過智能化和自動化運維管理,減少管理員管理和操作負擔,提高管理效率。通過靈活設定和定時輪詢被監(jiān)控對象的告警參數(shù)閾值,實現(xiàn)告警精準定位、故障診斷和前瞻性預測,實現(xiàn)“零延時”運維[10]。提高管理的實時性、準確性和自動化程度。
基于遠程運維實現(xiàn)對遠程機房內(nèi)的路由器、交換機、服務器等運行狀態(tài)實時監(jiān)視和遠程操作控制。設定自動巡檢任務、任務開始時間、任務結(jié)束時間及巡檢對象,設定定時器,自動觸發(fā)自動巡檢任務,同時基于巡檢結(jié)果生成巡檢任務工作報告,分發(fā)推送至不同的值班首長。讓值班首長實時掌握值班崗位網(wǎng)絡情況,零時延處理網(wǎng)絡問題。
2結(jié)束語
運維管理系統(tǒng)的發(fā)展遵循需求牽引和技術(shù)驅(qū)動。一方面大數(shù)據(jù)、云計算、人工智能等一系列新技術(shù),以及高動態(tài)彈性網(wǎng)絡架構(gòu)的出現(xiàn),上述因素對運維管理提出了新的智能化的管控需求。另一方面,運維管理要適應新的彈性網(wǎng)絡架構(gòu),在管理體制、管控流程、管理架構(gòu)等方面進行適應性提高,同時虛擬化、大數(shù)據(jù)和人工智能等新技術(shù)也要引入運維管理,提升管理的智能性和主動性,實現(xiàn)真正的零接觸、零延時運維,實現(xiàn)無人值守運維。
參考文獻
[1]薛明.基于SNMP局域網(wǎng)流量監(jiān)測系統(tǒng)的應用研究[D].鄭州:鄭州大學,2006.
[2]李濤,張亞群,劉岱平.面向服務的校園網(wǎng)流量監(jiān)控系統(tǒng)設計與實現(xiàn)[J].現(xiàn)代計算機(專業(yè)版),2009(1):154-156.
[3]宋進紅,沈云琴.使用CactiEZ輕松構(gòu)建校園網(wǎng)絡流量監(jiān)控系統(tǒng)[J].河南城建學院學報,2009,18(4):57-59.
[4]段宗濤,林莎.基于SNMP的網(wǎng)絡流量監(jiān)控系統(tǒng)的設計與實現(xiàn)[J].微型機與應用,2006(11):25-27.
[5]董加敏,王斌.基于SNMP協(xié)議的高校網(wǎng)絡流量監(jiān)控管理系統(tǒng)的研究[J].廣州大學學報(自然科學版),2009,8(1):53-57.
[6]張彤,吳世榮.基于SNMP計算機網(wǎng)絡流量監(jiān)控系統(tǒng)研究[J].計算機技術(shù)與發(fā)展,2011,21(1):88-91.
[7]徐鶴,王汝傳.一種P2P流量監(jiān)控系統(tǒng)的設計及實現(xiàn)[J].計算機技術(shù)與發(fā)展,2009,19(10):6-10.
[8]趙英,黃九梅,董小國.網(wǎng)絡流量監(jiān)控系統(tǒng)的設計與實現(xiàn)[J].計算機應用.2004(24):32-33.