孫永亮 王宇
摘 要
本文在詳細(xì)分析了河南省電力公司信息系統(tǒng)運維現(xiàn)狀的基礎(chǔ)上,設(shè)計了一種新的基于用戶體驗的應(yīng)用性能管理系統(tǒng),借助網(wǎng)絡(luò)系統(tǒng)承載所有業(yè)務(wù)流量的先天優(yōu)勢,利用流量鏡像采集技術(shù)對網(wǎng)絡(luò)流量進(jìn)行可視化和精細(xì)化監(jiān)控與分析,面向業(yè)務(wù),從最終用戶體驗出發(fā),對河南電力關(guān)鍵業(yè)務(wù)系統(tǒng)網(wǎng)絡(luò)流量和應(yīng)用性能進(jìn)行實時監(jiān)控,通過可視化的業(yè)務(wù)性能和網(wǎng)絡(luò)性能關(guān)鍵監(jiān)控指標(biāo),對影響業(yè)務(wù)的相關(guān)性能問題進(jìn)行主動預(yù)警,快速識別潛在的風(fēng)險。
【關(guān)鍵詞】應(yīng)用性能管理 可視化 用戶體驗
“業(yè)務(wù)正在不斷的驅(qū)動著IT運維管理朝著以應(yīng)用為中心發(fā)展,與此同時,應(yīng)用也變得越來越難于管理?!薄狦artner
目前,國內(nèi)電力行業(yè)正處于高速發(fā)展階段,業(yè)務(wù)量與日劇增。由于各種關(guān)鍵業(yè)務(wù)和應(yīng)用都被承載在基礎(chǔ)架構(gòu)、WEB應(yīng)用、中間件和數(shù)據(jù)庫上,使得業(yè)務(wù)的復(fù)雜性和維護(hù)難度大幅增加。如何對這些復(fù)雜的業(yè)務(wù)系統(tǒng)進(jìn)行有效監(jiān)控和風(fēng)險防范,保障關(guān)鍵業(yè)務(wù)的高性能和高可用性,以及如何對現(xiàn)有的運維流程進(jìn)行優(yōu)化,不斷提升管理和運維水平已經(jīng)成為目前數(shù)據(jù)中心急需探索和解決的重要問題。
1 河南電力現(xiàn)狀
河南電力經(jīng)過多年的努力,IT運維管理水平有了長足的發(fā)展。但是通過對近幾年河南電力突發(fā)事件應(yīng)急處置過程及案例進(jìn)行分析和思考,可以看出在應(yīng)用性能監(jiān)控管理和突發(fā)事件應(yīng)急處置方面仍然存在可以提升的空間:
1.1 缺少對用戶真實體驗的監(jiān)控
對于用戶的真實體驗缺少系統(tǒng)的監(jiān)控和數(shù)據(jù)支撐。河南電力現(xiàn)階段的信息化建設(shè),投入了很大精力在IT系統(tǒng)的建設(shè)和對IT基礎(chǔ)架構(gòu)的維護(hù)上,但即使部署了最先進(jìn)的基礎(chǔ)架構(gòu),并不間斷地監(jiān)控PC、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫等組件的性能,客戶還是會偶爾抱怨系統(tǒng)運行緩慢。
1.2 信息高度不對稱、突發(fā)事件處置效率仍需要提升
由于信息系統(tǒng)復(fù)雜,系統(tǒng)間關(guān)聯(lián)關(guān)系強,涉及環(huán)節(jié)眾多,而監(jiān)控系統(tǒng)相對獨立,一旦出現(xiàn)問題,網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)庫、應(yīng)用分頭查找原因,各自為戰(zhàn),事件處置缺少明確方向,一方面需要付出較多的溝通和定位問題的時間成本,另一方面導(dǎo)致事件處理時間過長,影響被放大。
1.3 故障原因定位存在取證難、效率低,甚至互相推諉的問題
由于缺少全面的監(jiān)控,故障事后分析診斷條件不足,缺少故障現(xiàn)場溯源數(shù)據(jù),大多情況下只能對設(shè)備日志、交易日志等進(jìn)行分析,很難拿出有力的證據(jù)進(jìn)行取證,另外即使有故障現(xiàn)場數(shù)據(jù),問題分析人員面對海量的數(shù)據(jù)問題分析定位仍需要消耗較長的時間。
2 應(yīng)用性能管理系統(tǒng)的設(shè)計與實現(xiàn)
2.1 系統(tǒng)設(shè)計
2.1.1 系統(tǒng)設(shè)計原則
系統(tǒng)總體設(shè)計需要滿足未來的發(fā)展需要,既要安全可靠,不影響現(xiàn)有的網(wǎng)絡(luò)和業(yè)務(wù),又要具有一定的先進(jìn)性。在架構(gòu)設(shè)計和功能模塊的劃分上,應(yīng)充分的分析和整合項目的總體需求和預(yù)期的目標(biāo),盡量遵循高內(nèi)聚、低耦合的設(shè)計原則,既要保證各個模塊的獨立性,也要保證模塊間聯(lián)系的簡單性和易擴展性。
2.1.2 系統(tǒng)架構(gòu)設(shè)計
根據(jù)河南電力信息系統(tǒng)業(yè)務(wù)數(shù)量眾多、個別業(yè)務(wù)系統(tǒng)的訪問關(guān)系又非常復(fù)雜的特點,本文提出一種以網(wǎng)絡(luò)和應(yīng)用性能監(jiān)控分析平臺為核心,利用網(wǎng)絡(luò)鏡像數(shù)據(jù)包對網(wǎng)絡(luò)和關(guān)鍵業(yè)務(wù)的性能進(jìn)行實時監(jiān)控與分析的應(yīng)用性能管理系統(tǒng)。通過先進(jìn)的智能告警技術(shù),將告警信息發(fā)送給網(wǎng)管平臺進(jìn)行統(tǒng)一的管理和展現(xiàn)。網(wǎng)絡(luò)運維人員,利用監(jiān)控與分析平臺對出現(xiàn)的故障進(jìn)行快速的分析和定位。如圖1所示。
2.1.3系統(tǒng)功能設(shè)計
根據(jù)河南省電力公司的網(wǎng)絡(luò)環(huán)境的實際情況,利用多臺流量匯聚設(shè)備,對多個機房、多個監(jiān)控點的流量進(jìn)行采集和匯聚,對流量進(jìn)行分析、過濾處理后,按照一定的原則和要求,將過濾處理后的“干凈的”流量輸送給業(yè)務(wù)可視化監(jiān)控分析平臺。如圖2所示。
2.1.4 監(jiān)控指標(biāo)設(shè)計
根據(jù)對應(yīng)用系統(tǒng)性格的分析需要,系統(tǒng)的監(jiān)控指標(biāo)主要分為以下4種:
(1)網(wǎng)絡(luò)流量指標(biāo):反映業(yè)務(wù)的網(wǎng)絡(luò)流量及網(wǎng)絡(luò)傳輸效率,包括丟包、包重傳率、往返時間、重傳延時等;
(2)網(wǎng)絡(luò)性能指標(biāo):反映網(wǎng)絡(luò)傳輸質(zhì)量,包括包吞吐量、包流量、實際吞吐量、數(shù)據(jù)包凈荷等;
(3)應(yīng)用性能指標(biāo):反映應(yīng)用性能,包括交互數(shù)、重置率、數(shù)據(jù)傳輸時間、響應(yīng)時間等;
(4)頁面性能指標(biāo):反映HTTP訪問性能和訪問效率,用戶體驗,包括服務(wù)器重置率、連接數(shù)、連接失敗率、連接時間、連接請求數(shù)等;
2.1.5告警規(guī)則設(shè)計
基于監(jiān)控設(shè)備性能的考量,從監(jiān)控指標(biāo)中甄選出最具代表性,最能及時反映業(yè)務(wù)運行質(zhì)量的指標(biāo)作為告警監(jiān)控指標(biāo),設(shè)置相應(yīng)的告警閥值,以下為系統(tǒng)選取的告警指標(biāo):
(1)服務(wù)器響應(yīng)時間(Server Response Time)。
(2)服務(wù)器重置率(Server Reset Rate)。
(3)連接失敗率(Connections Failed Rate)。
(4)頁面時間(Page Time)。
(5)HTTP500錯誤(%)。
2.1.6數(shù)據(jù)存儲設(shè)計
為了能夠提供故障現(xiàn)場數(shù)據(jù)以及數(shù)據(jù)報表分析功能,系統(tǒng)需要提供強大的數(shù)據(jù)存儲能力。如圖3所示,系統(tǒng)的數(shù)據(jù)存儲區(qū)域分成2部分:
(1)原始網(wǎng)絡(luò)數(shù)據(jù):采用先進(jìn)先出的循環(huán)滾動式緩沖存儲區(qū),存儲所有鏡像的網(wǎng)絡(luò)流量,提供故障現(xiàn)場數(shù)據(jù)源。
(2)歸檔數(shù)據(jù)區(qū):與告警有關(guān)的信息包在滾存內(nèi)被打上快照標(biāo)記,被復(fù)制到歸檔區(qū),提供報表分析數(shù)據(jù)源。
3 系統(tǒng)實施效果
3.1 系統(tǒng)部署
根據(jù)河南電力的網(wǎng)絡(luò)情況,系統(tǒng)部署采用了兩臺流量聚合設(shè)備和一臺數(shù)據(jù)采集設(shè)備,完成對所有應(yīng)用系統(tǒng)流量數(shù)據(jù)的采集和分析,系統(tǒng)部署圖如圖4所示。endprint
3.2 應(yīng)用效果
通過基于用戶體現(xiàn)的應(yīng)用性能管理系統(tǒng)的實施,在河南電力搭建了統(tǒng)一的網(wǎng)絡(luò)及應(yīng)用性能可視化平臺,使基于業(yè)務(wù)的網(wǎng)絡(luò)及性能可視化管理在河南電力實現(xiàn)了真正的落地,在以下幾方面取得了良好的實際成果和效果。
3.2.1 在基于業(yè)務(wù)的監(jiān)控方面
實現(xiàn)了對業(yè)務(wù)全面的、精細(xì)的、多維度的、可視化監(jiān)控。既監(jiān)控了終端用戶訪問業(yè)務(wù)的用戶體驗情況,又監(jiān)控了各供電局訪問業(yè)務(wù)的整體性能情況;既監(jiān)控了業(yè)務(wù)在前端的平均性能情況,又監(jiān)控了業(yè)務(wù)在后端各個負(fù)載均衡、防火墻、服務(wù)器等關(guān)鍵節(jié)點的性能情況;既監(jiān)控了業(yè)務(wù)的網(wǎng)絡(luò)流量、帶寬占用情況,又監(jiān)控了業(yè)務(wù)的網(wǎng)絡(luò)性能、應(yīng)用性能情況;使得河南電力對全網(wǎng)所有關(guān)鍵業(yè)務(wù)“看”的更加全面和清晰;對業(yè)務(wù)網(wǎng)絡(luò)流量和性能的統(tǒng)計分析更加便捷和準(zhǔn)確;對業(yè)務(wù)故障問題的分析和定位更加快速和明確。
3.2.2 在業(yè)務(wù)梳理與主動運維方面
在平臺的建設(shè)過程中,總結(jié)了一套完整的業(yè)務(wù)梳理流程,使得對業(yè)務(wù)的梳理更加快捷,業(yè)務(wù)需求更加明確,業(yè)務(wù)訪問關(guān)系更加準(zhǔn)確。同時基于用戶體現(xiàn)的應(yīng)用性能管理系統(tǒng)建立了對業(yè)務(wù)的預(yù)警和告警機制,形成了問題發(fā)現(xiàn)、問題快速分析與定位、問題處理三位一體的主動運維流程。大幅提高了對業(yè)務(wù)故障的預(yù)警能力(業(yè)務(wù)故障預(yù)警率80%以上),縮短了問題發(fā)現(xiàn)的時間(從問題出現(xiàn)到運維人員發(fā)現(xiàn)的時間間隔在3-5分鐘左右),加快了問題分析定位的速度(對問題的分析和初步定位基本在5-8分鐘左右)。
3.2.3 數(shù)據(jù)分析方面
系統(tǒng)以分布式存儲的方式存儲了海量的全網(wǎng)業(yè)務(wù)流量的原始數(shù)據(jù)、性能統(tǒng)計數(shù)據(jù)、故障溯源數(shù)據(jù),通過將網(wǎng)絡(luò)及應(yīng)用性能可視化平臺集成到大數(shù)據(jù)環(huán)境中,能夠有效消除性能低下、可用性不足及可擴展性不佳所帶來的風(fēng)險和成本,為基于大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、云計算等研究提供了基礎(chǔ)條件。
4 結(jié)束語
應(yīng)用性能管理不僅僅是包含從網(wǎng)絡(luò)層面進(jìn)行分析的性能管理,完善的應(yīng)用性能體系還需要很長一段進(jìn)間的研究和實踐,但用我們可以先整合現(xiàn)有的應(yīng)用性能監(jiān)控平臺,并制定詳細(xì)的應(yīng)用性能監(jiān)控體系方案,逐步提高河南電力應(yīng)用性能管理水平,提升信息科技風(fēng)險管理水平。
參考文獻(xiàn)
[1](美)W.Richard Stevens.TCP/IP Illustarated Volume1:The Protocols[M].北京:機械工業(yè)出版社,2005.
[2](美) David Gourley,Brian Totty.HTTP:The Definitive Guard[M].北京:人民郵電出版社,2010.
[3]A.Biswas and P.Sinha,"Efficient real-time Linux interface for PCI devices:A study on hardening a Network Intrusion Detection System," in 5th System Administration and Network Engineering Conference. Aula Congress Centre,Delft,The Netherlands,2006.
作者簡介
孫永亮(1973-),男,現(xiàn)為國網(wǎng)河南省電力公司高級工程師。主要研究方向為企業(yè)信息化、通信技術(shù)管理工作。
作者單位
國網(wǎng)河南省電力公司 河南省鄭州市 450000endprint
3.2 應(yīng)用效果
通過基于用戶體現(xiàn)的應(yīng)用性能管理系統(tǒng)的實施,在河南電力搭建了統(tǒng)一的網(wǎng)絡(luò)及應(yīng)用性能可視化平臺,使基于業(yè)務(wù)的網(wǎng)絡(luò)及性能可視化管理在河南電力實現(xiàn)了真正的落地,在以下幾方面取得了良好的實際成果和效果。
3.2.1 在基于業(yè)務(wù)的監(jiān)控方面
實現(xiàn)了對業(yè)務(wù)全面的、精細(xì)的、多維度的、可視化監(jiān)控。既監(jiān)控了終端用戶訪問業(yè)務(wù)的用戶體驗情況,又監(jiān)控了各供電局訪問業(yè)務(wù)的整體性能情況;既監(jiān)控了業(yè)務(wù)在前端的平均性能情況,又監(jiān)控了業(yè)務(wù)在后端各個負(fù)載均衡、防火墻、服務(wù)器等關(guān)鍵節(jié)點的性能情況;既監(jiān)控了業(yè)務(wù)的網(wǎng)絡(luò)流量、帶寬占用情況,又監(jiān)控了業(yè)務(wù)的網(wǎng)絡(luò)性能、應(yīng)用性能情況;使得河南電力對全網(wǎng)所有關(guān)鍵業(yè)務(wù)“看”的更加全面和清晰;對業(yè)務(wù)網(wǎng)絡(luò)流量和性能的統(tǒng)計分析更加便捷和準(zhǔn)確;對業(yè)務(wù)故障問題的分析和定位更加快速和明確。
3.2.2 在業(yè)務(wù)梳理與主動運維方面
在平臺的建設(shè)過程中,總結(jié)了一套完整的業(yè)務(wù)梳理流程,使得對業(yè)務(wù)的梳理更加快捷,業(yè)務(wù)需求更加明確,業(yè)務(wù)訪問關(guān)系更加準(zhǔn)確。同時基于用戶體現(xiàn)的應(yīng)用性能管理系統(tǒng)建立了對業(yè)務(wù)的預(yù)警和告警機制,形成了問題發(fā)現(xiàn)、問題快速分析與定位、問題處理三位一體的主動運維流程。大幅提高了對業(yè)務(wù)故障的預(yù)警能力(業(yè)務(wù)故障預(yù)警率80%以上),縮短了問題發(fā)現(xiàn)的時間(從問題出現(xiàn)到運維人員發(fā)現(xiàn)的時間間隔在3-5分鐘左右),加快了問題分析定位的速度(對問題的分析和初步定位基本在5-8分鐘左右)。
3.2.3 數(shù)據(jù)分析方面
系統(tǒng)以分布式存儲的方式存儲了海量的全網(wǎng)業(yè)務(wù)流量的原始數(shù)據(jù)、性能統(tǒng)計數(shù)據(jù)、故障溯源數(shù)據(jù),通過將網(wǎng)絡(luò)及應(yīng)用性能可視化平臺集成到大數(shù)據(jù)環(huán)境中,能夠有效消除性能低下、可用性不足及可擴展性不佳所帶來的風(fēng)險和成本,為基于大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、云計算等研究提供了基礎(chǔ)條件。
4 結(jié)束語
應(yīng)用性能管理不僅僅是包含從網(wǎng)絡(luò)層面進(jìn)行分析的性能管理,完善的應(yīng)用性能體系還需要很長一段進(jìn)間的研究和實踐,但用我們可以先整合現(xiàn)有的應(yīng)用性能監(jiān)控平臺,并制定詳細(xì)的應(yīng)用性能監(jiān)控體系方案,逐步提高河南電力應(yīng)用性能管理水平,提升信息科技風(fēng)險管理水平。
參考文獻(xiàn)
[1](美)W.Richard Stevens.TCP/IP Illustarated Volume1:The Protocols[M].北京:機械工業(yè)出版社,2005.
[2](美) David Gourley,Brian Totty.HTTP:The Definitive Guard[M].北京:人民郵電出版社,2010.
[3]A.Biswas and P.Sinha,"Efficient real-time Linux interface for PCI devices:A study on hardening a Network Intrusion Detection System," in 5th System Administration and Network Engineering Conference. Aula Congress Centre,Delft,The Netherlands,2006.
作者簡介
孫永亮(1973-),男,現(xiàn)為國網(wǎng)河南省電力公司高級工程師。主要研究方向為企業(yè)信息化、通信技術(shù)管理工作。
作者單位
國網(wǎng)河南省電力公司 河南省鄭州市 450000endprint
3.2 應(yīng)用效果
通過基于用戶體現(xiàn)的應(yīng)用性能管理系統(tǒng)的實施,在河南電力搭建了統(tǒng)一的網(wǎng)絡(luò)及應(yīng)用性能可視化平臺,使基于業(yè)務(wù)的網(wǎng)絡(luò)及性能可視化管理在河南電力實現(xiàn)了真正的落地,在以下幾方面取得了良好的實際成果和效果。
3.2.1 在基于業(yè)務(wù)的監(jiān)控方面
實現(xiàn)了對業(yè)務(wù)全面的、精細(xì)的、多維度的、可視化監(jiān)控。既監(jiān)控了終端用戶訪問業(yè)務(wù)的用戶體驗情況,又監(jiān)控了各供電局訪問業(yè)務(wù)的整體性能情況;既監(jiān)控了業(yè)務(wù)在前端的平均性能情況,又監(jiān)控了業(yè)務(wù)在后端各個負(fù)載均衡、防火墻、服務(wù)器等關(guān)鍵節(jié)點的性能情況;既監(jiān)控了業(yè)務(wù)的網(wǎng)絡(luò)流量、帶寬占用情況,又監(jiān)控了業(yè)務(wù)的網(wǎng)絡(luò)性能、應(yīng)用性能情況;使得河南電力對全網(wǎng)所有關(guān)鍵業(yè)務(wù)“看”的更加全面和清晰;對業(yè)務(wù)網(wǎng)絡(luò)流量和性能的統(tǒng)計分析更加便捷和準(zhǔn)確;對業(yè)務(wù)故障問題的分析和定位更加快速和明確。
3.2.2 在業(yè)務(wù)梳理與主動運維方面
在平臺的建設(shè)過程中,總結(jié)了一套完整的業(yè)務(wù)梳理流程,使得對業(yè)務(wù)的梳理更加快捷,業(yè)務(wù)需求更加明確,業(yè)務(wù)訪問關(guān)系更加準(zhǔn)確。同時基于用戶體現(xiàn)的應(yīng)用性能管理系統(tǒng)建立了對業(yè)務(wù)的預(yù)警和告警機制,形成了問題發(fā)現(xiàn)、問題快速分析與定位、問題處理三位一體的主動運維流程。大幅提高了對業(yè)務(wù)故障的預(yù)警能力(業(yè)務(wù)故障預(yù)警率80%以上),縮短了問題發(fā)現(xiàn)的時間(從問題出現(xiàn)到運維人員發(fā)現(xiàn)的時間間隔在3-5分鐘左右),加快了問題分析定位的速度(對問題的分析和初步定位基本在5-8分鐘左右)。
3.2.3 數(shù)據(jù)分析方面
系統(tǒng)以分布式存儲的方式存儲了海量的全網(wǎng)業(yè)務(wù)流量的原始數(shù)據(jù)、性能統(tǒng)計數(shù)據(jù)、故障溯源數(shù)據(jù),通過將網(wǎng)絡(luò)及應(yīng)用性能可視化平臺集成到大數(shù)據(jù)環(huán)境中,能夠有效消除性能低下、可用性不足及可擴展性不佳所帶來的風(fēng)險和成本,為基于大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、云計算等研究提供了基礎(chǔ)條件。
4 結(jié)束語
應(yīng)用性能管理不僅僅是包含從網(wǎng)絡(luò)層面進(jìn)行分析的性能管理,完善的應(yīng)用性能體系還需要很長一段進(jìn)間的研究和實踐,但用我們可以先整合現(xiàn)有的應(yīng)用性能監(jiān)控平臺,并制定詳細(xì)的應(yīng)用性能監(jiān)控體系方案,逐步提高河南電力應(yīng)用性能管理水平,提升信息科技風(fēng)險管理水平。
參考文獻(xiàn)
[1](美)W.Richard Stevens.TCP/IP Illustarated Volume1:The Protocols[M].北京:機械工業(yè)出版社,2005.
[2](美) David Gourley,Brian Totty.HTTP:The Definitive Guard[M].北京:人民郵電出版社,2010.
[3]A.Biswas and P.Sinha,"Efficient real-time Linux interface for PCI devices:A study on hardening a Network Intrusion Detection System," in 5th System Administration and Network Engineering Conference. Aula Congress Centre,Delft,The Netherlands,2006.
作者簡介
孫永亮(1973-),男,現(xiàn)為國網(wǎng)河南省電力公司高級工程師。主要研究方向為企業(yè)信息化、通信技術(shù)管理工作。
作者單位
國網(wǎng)河南省電力公司 河南省鄭州市 450000endprint