方暉
摘要:網(wǎng)絡的運維和管理與網(wǎng)絡的建設同等重要,網(wǎng)絡運維管理的質量會直接影響網(wǎng)絡的運行質量,如何有效地管理好網(wǎng)絡,保障網(wǎng)絡安全、穩(wěn)定、暢通無誤地運行,及早發(fā)現(xiàn)并排除潛在的故障隱患,成為IT運維部門必須面對的問題。文章基于ITIL v3的流程思想以及生命周期模型,提出了智能網(wǎng)絡運維協(xié)作支撐安全平臺體系構架周期框架,用于指導構建一體化的網(wǎng)絡運維體系,以提供優(yōu)質IT服務。
關鍵詞:信息化;網(wǎng)絡管理;網(wǎng)絡運維;ITIL
十八大以來,以習近平總書記為組長的中央網(wǎng)絡安全和信息化領導小組的成立,顯示出新時期國家建設信息化強國的決心,城市網(wǎng)絡光纖化工作及不斷提速的網(wǎng)絡帶寬也為信息化進程提供了加速動力,智慧城市、智慧家庭、智慧校園都成為未來一段時期信息化高速發(fā)展的熱點,網(wǎng)絡已經(jīng)無處不在,智慧生活將不是夢想,面對日益復雜化、多元化的網(wǎng)絡應用,網(wǎng)絡運維管理水平成為了直接影響甚至制約信息化推進的關鍵因素之一,如何快速高效地保障網(wǎng)絡可靠、穩(wěn)定、持續(xù)地運行,成為IT運維部門首要面對和思考的問題。如果有一個采用目前領先的網(wǎng)絡技術,依托用戶現(xiàn)有的網(wǎng)絡設備及網(wǎng)絡環(huán)境,集跨廠商的網(wǎng)絡產品管理、網(wǎng)絡服務器管理、設備的真實面版圖管理、網(wǎng)絡的遠程管理、完整物理拓撲結構自動生成管理、網(wǎng)絡設備負載與網(wǎng)絡流量一覽、網(wǎng)絡的歷史數(shù)據(jù)記錄與分析管理、自動分析網(wǎng)絡異常數(shù)據(jù)流動、自動問題源隔離、網(wǎng)絡的性能管理、網(wǎng)絡的故障管理、網(wǎng)絡用戶的分布定位管理、IP地址資源和服務資源的分布管理、跨地域的網(wǎng)絡分層次的協(xié)同管理等功能為一體的網(wǎng)絡運維協(xié)作管理平臺來監(jiān)查管理網(wǎng)絡,將可以提高IT運維部門工作效率,及時查處網(wǎng)絡危害,保證網(wǎng)絡持續(xù)、穩(wěn)定地運轉,從根本上解決網(wǎng)絡運維管理難的問題,極大地推動網(wǎng)絡信息化建設向前發(fā)展。
1傳統(tǒng)網(wǎng)絡運維系統(tǒng)存在的問題
傳統(tǒng)的運維技術服務系統(tǒng)主要存在以下幾方面不足。
(1)獨立運作,資源、配置等信息缺乏統(tǒng)一共享,信息孤島嚴重。運維支撐部門在解決故障或問題時各自為政,缺乏協(xié)同,相互之間資源不共享、信息保密,致使IT維護過程中配置資料等欠缺或不完整,往往需要長時間來調配相關資源和摸索查找相關故障點。
(2)缺乏規(guī)范化的運維管理操作流程及高效的管理工具,實際工作效率不高。隨著IT環(huán)境的多元化、復雜化,運維部門內部分工也逐漸專業(yè)化、明細化,一個工程師很難全面熟知所有的系統(tǒng),然而在實際的運維服務運作中,由于流程不規(guī)范,用戶習慣于直接向熟知的運維人員報障,導致運維人員很難按職責工作,內部分工完全失效。同時,現(xiàn)在大多IT運維部門還普遍缺乏對于整個系統(tǒng)的運維管理經(jīng)驗,多以人工的方式分散管理,以手工的機械方式進行統(tǒng)計工作,被動式地發(fā)現(xiàn)問題、解決問題,這些傳統(tǒng)的運維管理方式不僅耗費大量的人力、物力,而且效率遠遠無法滿足日益擴大的網(wǎng)絡應用需求,使得網(wǎng)絡管理人員在受到網(wǎng)絡規(guī)模化、復雜化帶來的網(wǎng)絡管理壓力的同時,還要受到降低成本和提高效率的需求壓力,網(wǎng)絡運維管理如何以最小化的IT資源產生最大化的效率,使網(wǎng)絡的性能和效能最優(yōu)化,網(wǎng)絡管理工具的選擇尤為重要。
(3)規(guī)劃存在局限性,缺乏長效。大多IT系統(tǒng)規(guī)劃僅著眼當前,與未來發(fā)展脫節(jié),導致后期大量“亡羊補牢”式的補丁工程,增加了投資成本。
(4)缺乏科學的量化依據(jù)和計量機制,績效考核主觀性強。由于缺乏量化考核工具和表現(xiàn)工作業(yè)績的具體數(shù)據(jù)為依據(jù),負責人對運維服務人員的工作績效很難量化,在很大程度上取決于個人的主觀印象,且用戶也無法對運維支持部門作出客觀準確的評價。
2智能網(wǎng)絡運維協(xié)作支撐平臺的設計
2.1ITIL簡介
ITIL即IT基礎架構庫,英文全稱為Information Technology Infrastructure Library,最早在1989年和1995年期間由英國中央計算機與電信局(Central Computing and Telecommunications Agency,CCTA,后來并入英國商務部(Office of Government Commerce,OGC))發(fā)布的,它的目標是提供低成本、高質量的IT服務,是業(yè)務和信息系統(tǒng)之間的紐帶。2001年到2003年期間,OGC發(fā)布了ITIL v2,其核心是服務提供與服務支持,側重于管理過程中各種流程的構建。2007年ITIL v3正式發(fā)布,ITIL v3被稱為最佳實踐框架的演進,它更加強調進一步提高IT服務效率,改善IT服務效力,實現(xiàn)IT服務促進業(yè)務管理的目標,實現(xiàn)IT服務、業(yè)務管理持續(xù)穩(wěn)定發(fā)展。ITIL v3可以看作是ITIL v2的擴展與深化,是一個描述IT服務管理最佳實踐的公共框架,同時也提供IT治理的框架,它的最大意義在于把IT服務與業(yè)務緊密地結合起來了,并從業(yè)務和用戶的角度,在ITIL v2的基礎上引入了服務生命周期管理理念,將ITIL v2中涉及的有關流程及職能納入生命周期模型的不同階段中,如圖1所示,它主要由核心組件、補充組件和網(wǎng)絡組件3個組件構成?!昂诵慕M件”由服務戰(zhàn)略、服務設計、服務轉換、服務實施和持續(xù)服務改進組成,涵蓋了IT服務的生命周期,從業(yè)務所需到最優(yōu)化服務,也包含了現(xiàn)有服務支持和服務交付的所有內容?!把a充組件”包括不同情況、行業(yè)和環(huán)境下的詳細內容和目標,幫助IT根據(jù)環(huán)境、經(jīng)濟條件和機構戰(zhàn)略定制部署ITIL的核心原則的信息?!熬W(wǎng)絡組件”提供了不同情況、行業(yè)和環(huán)境下共同所需的動態(tài)資源和典型材料,例如流程圖、定義、模版、業(yè)務案例和實例學習。ITIL基于流程,以客戶為中心,客戶可以結合自身的能力、要求,自定義并改善、規(guī)劃制定出符合自身的IT基礎架構及IT服務管理標準規(guī)范,提高IT資源的效能,使IT投資回報最大化,本平臺就是基于ITIL v3設計的。
2.2平臺主要功能設計
目前通用的網(wǎng)絡管理軟件逐漸增多,這些網(wǎng)絡管理系統(tǒng)往往給用戶提供了一個數(shù)據(jù)收集及查詢工具,希望用戶通過查詢數(shù)據(jù)來了解網(wǎng)絡中可能出現(xiàn)的故障,但實際上用戶并不能預期網(wǎng)絡中什么地方可能會出故障,只有當出現(xiàn)網(wǎng)絡中斷時,才會用這些工具來解決問題,這種“來電響應式”的事后網(wǎng)絡管理模式并不能滿足用戶對目前網(wǎng)絡管理的需要,用戶更加關心的是如何保證整個網(wǎng)絡應用系統(tǒng)的正常運行,如何運維好自己的網(wǎng)絡。
(1)事前管理。保證整個網(wǎng)絡上應用系統(tǒng)的正常持續(xù)運行是網(wǎng)絡運維管理的主要目的,為避免“來電響應式”事后網(wǎng)絡管理模式,本平臺將“事前”管理的模式納入了用戶網(wǎng)絡管理之中,可以做到防患于未然,在故障出現(xiàn)前把問題處理掉,大大降低了用戶網(wǎng)絡管理的風險。例如對路由器的CPU負載和交換機的Mem占產生較大影響的網(wǎng)絡病毒擴散、黑客攻擊等的二層的廣播和三層的掃描行為,通過平臺提供的實時網(wǎng)絡監(jiān)視相關信息,就能及時防止。
(2)自動勾畫出整個網(wǎng)絡的真實物理拓撲圖。本平臺能夠自動勾畫出整個網(wǎng)絡的真實物理拓撲圖,包括各個設備之間的真實連接,在這張拓撲圖上用藍、綠、黃、紅4種顏色和具體數(shù)值來表示網(wǎng)絡設備和相關物理鏈路的狀態(tài),用戶只需要通過顏色就可以了解到整個網(wǎng)絡的運行情況、發(fā)展趨勢和可能存在的故障隱患點,輕松地發(fā)現(xiàn)網(wǎng)絡“問題點”,以便及時采取相應措施,這就像一個人,如果時刻對自己身體的各種參數(shù)如血壓、心臟、體溫等進行監(jiān)視,一切正常,那么他是不會生病的,而在他生病前,一定有某個參數(shù)不正常,BTNM就是通過自己的物理拓撲圖來給網(wǎng)絡拍x光片,并將他展現(xiàn)在用戶面前,讓用戶可以一目了然地看清自己的網(wǎng)絡真實情況和實時運行情況,并及時發(fā)現(xiàn)隱患點,真正實現(xiàn)事前管理。
(3)通過圖形化“一目了然”地反映網(wǎng)絡的整體信息。網(wǎng)絡流量監(jiān)控是網(wǎng)管軟件基本功能,但大多軟件對流量監(jiān)控結果表述不詳,本平臺注重通過信息綜合來直觀地反映網(wǎng)絡的整體信息,例如:通過拓撲圖,可以監(jiān)控分析異常流量交換機端口,對端口流量、幀流量、廣播流量、丟包情況的詳細信息通過顏色和數(shù)據(jù)直觀顯示,為用戶具體的判斷處理提供明確依據(jù),如流量很小而幀流量很大,反映該端口上存在“黑客或病毒掃描”行為,而廣播流量大于100個/秒,通常不是視頻流就是網(wǎng)絡病毒。同時還可以進一步向你顯示鏈接該端口的用戶信息(包括IP地址、主機名等等),結合地址薄功能就可以實現(xiàn)全網(wǎng)、跨網(wǎng)段、跨VLAN的IP定位及IP Mac綁定,如果需要,通過數(shù)據(jù)流分析系統(tǒng)用戶還可以詳細查看該流量的組成,這些流量里面到底有什么東西。
(4)網(wǎng)絡設備真實“面版圖”管理。平臺提供最全的網(wǎng)絡設備的真實面版圖管理,支持設備真實、實時面版圖展現(xiàn),支持設備堆疊顯示。在面板圖上可以動態(tài)顯示端口、模塊的狀態(tài),支持所有設備端口連接狀況動態(tài)跟蹤,并可以直接查看端口所連設備、PC機等,并可對端口進行開、關的操作,非常方便。
(5)實現(xiàn)“機房無人值守”。平臺配置強大的預警和告警系統(tǒng),可對網(wǎng)絡中的異常情況進行告警,對網(wǎng)絡服務器的有關進程和訪問情況進行預警,同時還通過模擬用戶實際訪問行為的應用行為監(jiān)控,來實現(xiàn)對整個應用系統(tǒng)及數(shù)據(jù)庫系統(tǒng)的監(jiān)控。用戶只要將告警條件設好,本系統(tǒng)就能夠通過手機短消息、中文語音、系統(tǒng)消息框、電子郵件等多種方式向有關管理人員進行告警通知,并可自動執(zhí)行相關恢復性操作,真正實現(xiàn)了“機房無人值守”。
(6)有效的預警、各種歷史數(shù)據(jù)記錄及報表。及時的對網(wǎng)絡中可能存在的隱患進行有效的預警(告警對話框、郵件、短信)外,用戶的網(wǎng)絡在平時不出問題時,還可以通過生成各種歷史數(shù)據(jù)記錄及報表對用戶的網(wǎng)絡運行情況及資源使用情況進行綜合統(tǒng)計,平臺提供循環(huán)記錄統(tǒng)計,其記錄結果作為日后網(wǎng)絡健康檢查的依據(jù),如一根千兆鏈路上,平時的峰值只有2M的流量,而今天峰值卻達到4M,雖然對千兆鏈路來說,4M數(shù)值不算大,但是也應該告警,通過這樣就可以對整個網(wǎng)絡進行智能化的監(jiān)控和管理,而連續(xù)記錄可以體現(xiàn)出網(wǎng)絡現(xiàn)有資源的使用情況,為上一些新的應用及進一步的網(wǎng)絡改造提供數(shù)據(jù)依據(jù),體現(xiàn)了網(wǎng)管人員的工作價值。
(7)對網(wǎng)絡的狀態(tài)及發(fā)展趨勢進行監(jiān)控、數(shù)據(jù)流分析。對網(wǎng)絡的狀態(tài)及發(fā)展趨勢進行監(jiān)控以外,系統(tǒng)配置了數(shù)據(jù)流分析和監(jiān)控系統(tǒng),通過對數(shù)據(jù)流的數(shù)據(jù)包頭進行分析、統(tǒng)計和歸類,實現(xiàn)對整個網(wǎng)絡中數(shù)據(jù)流的組成的透明化并對異常行為(如缺省的IP地址掃描、幀數(shù)量異常及Session異常等)進行預警,用戶也可以根據(jù)需要自行定義告警條件及數(shù)據(jù)記錄規(guī)則。一旦觸發(fā)告警,系統(tǒng)會自動將告警前5分鐘及后5分鐘的情況記錄下來,以備日后可以再現(xiàn)及用戶進一步作分析需要。這就像馬路上的數(shù)字攝像頭一樣,BTNM數(shù)據(jù)流分析記錄模塊時刻監(jiān)視整個網(wǎng)絡數(shù)據(jù)流的組成,這樣可以及時發(fā)現(xiàn)網(wǎng)絡上的異常行為。
(8)系統(tǒng)及應用軟件、中間層監(jiān)控。關于系統(tǒng)及應用軟件方面,對提供windows、linux、unix操作系統(tǒng)、Oracle、SQLServer、MySQL等數(shù)據(jù)庫、WebLogic、WebSphere、IBM MQ等中間件、業(yè)務應用系統(tǒng)、EMAIL、WEB服務、FTP服務、DNS服務、DHCP、LDAP目錄服務、文件系統(tǒng)、應用進程、內存、CPU等進行全面深入的監(jiān)測,幫助網(wǎng)絡管理人員提升網(wǎng)絡服務質量。
(9)系統(tǒng)支持遠程管理模式。平臺支持遠程管理模式,用戶的遠程客戶端只要與網(wǎng)管服務器連通,即使通過撥號方式,也可以在遠端對整個網(wǎng)絡進行管理和配置,方便用戶對網(wǎng)絡進行管理。
2.3系統(tǒng)模塊設計
本平臺的主要模塊如圖2所示。
(1)網(wǎng)絡平臺管理模塊故障處理流程如圖3所示。
(2)數(shù)據(jù)流分析模塊的分析功能的設計有別于Sniffer等分析工具,無須專業(yè)背景,注重24小時自動進行數(shù)據(jù)分析,捕捉網(wǎng)絡數(shù)據(jù)異動
病毒掃描、網(wǎng)絡攻擊。支持跨IP網(wǎng)段分析捕捉各類異常網(wǎng)絡數(shù)據(jù)流,提供2~7層的數(shù)據(jù)分析,一旦捕捉到問題特征,在任何時刻均保留“此刻以前10分鐘原始數(shù)據(jù)”以供事后分析,避免了異常事件轉瞬即逝的困境,可以進行“數(shù)據(jù)回放”分析。幫助事后分析問題,具體如圖4所示。
(3)高級服務器管理模塊一是管理和監(jiān)視服務器操作系統(tǒng)的運行狀態(tài)和性能數(shù)據(jù),包括服務器的CPU負載、內存利用率、應用進程、文件系統(tǒng)、文件體積等信息的分析與監(jiān)視。二是管理和監(jiān)視服務器上各應用服務的運行狀態(tài)和性能數(shù)據(jù),包括HTTP、FTP、EMAIL、數(shù)據(jù)庫、DNS、DHCP、目錄服務以及各中間件等。
(4)系統(tǒng)安全監(jiān)控模塊基于人工免疫成熟檢測規(guī)則開發(fā),集成了優(yōu)秀檢測器的基礎上,對流量進行內容上的過濾匹配,經(jīng)過對數(shù)據(jù)集包內容的特征提取,自適應地構建自體集,在實際檢測中用同樣的包內容特征提取算法對網(wǎng)絡數(shù)據(jù)包定位匹配,對數(shù)據(jù)作出相應的判斷與處理。
4結語
正如習總書記指出的“沒有信息化,就沒有現(xiàn)代化”。在國家現(xiàn)代化建設的進程中,在信息化建設的重要時期,網(wǎng)絡的運維和管理與網(wǎng)絡的建設同等重要,作為IT運維部門,任重而道遠。