顧純 顧建榮
摘要:隨著信息化技術(shù)的高速發(fā)展和廣泛應(yīng)用,高校的信息化環(huán)境正在發(fā)生巨變,運(yùn)維管理需要從一個全面的角度對網(wǎng)絡(luò)故障或應(yīng)用問題進(jìn)行快速定位和及時解決。全網(wǎng)流量與核心業(yè)務(wù)性能分析平臺面向業(yè)務(wù)的視角,全面監(jiān)控分析每個組成的應(yīng)用和運(yùn)行質(zhì)量,并快速定位影響業(yè)務(wù)系統(tǒng)運(yùn)行質(zhì)量的關(guān)鍵因素。文章根據(jù)上海工程技術(shù)大學(xué)實(shí)際全網(wǎng)流量與核心業(yè)務(wù)性能分析平臺及Web VPN的使用情況展開研究,詳細(xì)闡述了業(yè)務(wù)性能需求分析和業(yè)務(wù)可視化管理的實(shí)現(xiàn)方法,希望能為信息化相關(guān)人士提供一些參考。
關(guān)鍵詞:全網(wǎng)流量監(jiān)測;業(yè)務(wù)性能分析;VPN系統(tǒng)
中圖分類號:TP393? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)20-0031-03
隨著云計算、大數(shù)據(jù)、移動應(yīng)用等技術(shù)的高速發(fā)展,信息化系統(tǒng)將會變得越來越重要。因此保障基礎(chǔ)網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)的穩(wěn)定、持續(xù)、高效和安全,就成為高校信息化管理運(yùn)維工作最核心的問題。面對網(wǎng)絡(luò)的數(shù)據(jù)量、數(shù)據(jù)種類、數(shù)據(jù)速率以及數(shù)據(jù)復(fù)雜性不斷增加,這給運(yùn)維工作帶來了極大挑戰(zhàn)。傳統(tǒng)的應(yīng)用或網(wǎng)絡(luò)性能管理工具只能孤立地監(jiān)控業(yè)務(wù)系統(tǒng)中應(yīng)用、主機(jī)、網(wǎng)絡(luò)設(shè)備自身的性能指標(biāo),而對于用戶訪問體驗、業(yè)務(wù)整體運(yùn)行情況、故障快速定位等方面缺少有效的手段進(jìn)行監(jiān)控。本文根據(jù)上海工程技術(shù)大學(xué)實(shí)際的全網(wǎng)流量WEB VPN系統(tǒng)的使用情況展開研究,詳細(xì)論述了業(yè)務(wù)性能分析和業(yè)務(wù)可視化管理的實(shí)現(xiàn)方法。
1 高校核心業(yè)務(wù)系統(tǒng)運(yùn)維的挑戰(zhàn)
1.1 全網(wǎng)流量不可視、業(yè)務(wù)異常不能及時發(fā)現(xiàn)
學(xué)校數(shù)據(jù)中心擁有著眾多業(yè)務(wù)系統(tǒng)以及各種各樣的硬件系統(tǒng)。但對網(wǎng)絡(luò)中的流量狀況,如重要業(yè)務(wù)數(shù)據(jù)的傳輸路徑是怎樣的、哪些流量是合規(guī)的、哪些是不合規(guī)的、各類訪問規(guī)則是否生效、突發(fā)流量的源頭在哪、網(wǎng)絡(luò)和應(yīng)用系統(tǒng)的性能能否支撐業(yè)務(wù)的正常運(yùn)行、系統(tǒng)對高性能的要求是否達(dá)標(biāo)這些卻不可視。
同時,在進(jìn)行基礎(chǔ)網(wǎng)絡(luò)運(yùn)維工作時不能在第一時間完全感知校園網(wǎng)絡(luò)中存在的問題。很多網(wǎng)絡(luò)異常問題并不是由網(wǎng)絡(luò)運(yùn)維管理人員主動發(fā)現(xiàn)的,而是使用人員在使用的過程中發(fā)現(xiàn)網(wǎng)絡(luò)不通暢、業(yè)務(wù)訪問不了,再報修到信息化辦公室時,最后由網(wǎng)絡(luò)運(yùn)維管理人員再進(jìn)行問題排查、問題解決。此時,問題已經(jīng)產(chǎn)生,并且對網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)的運(yùn)行產(chǎn)生了一定的影響。
1.2 缺乏業(yè)務(wù)視角的監(jiān)控手段
隨著虛擬化技術(shù)不斷使用,支撐業(yè)務(wù)系統(tǒng)的應(yīng)用程序和網(wǎng)絡(luò)結(jié)構(gòu)也越來越復(fù)雜,管理人員急需對業(yè)務(wù)系統(tǒng)的整體架構(gòu)有所了解,避免影響故障排查的解決進(jìn)度。通過虛擬化平臺的監(jiān)控和網(wǎng)管軟件、流量業(yè)務(wù)分析軟件等系統(tǒng)的功能監(jiān)控,可以做到對業(yè)務(wù)系統(tǒng)在一定程度上的運(yùn)維保障。但是監(jiān)控的內(nèi)容之間互相沒有關(guān)聯(lián),數(shù)據(jù)上還是相互獨(dú)立的。如果從業(yè)務(wù)的角度進(jìn)行統(tǒng)一角度的監(jiān)控,就不會忽略排查業(yè)務(wù)系統(tǒng)異常時的任何細(xì)節(jié)。因此,改變“孤島式”的監(jiān)控手段,是高校全面分析業(yè)務(wù)異常和定位異常根源的有效手段。
1.3 缺乏對業(yè)務(wù)故障驗證、取證和界定的方式
網(wǎng)絡(luò)慢慢整合了大量業(yè)務(wù),那么這些業(yè)務(wù)運(yùn)行情況怎么樣,帶寬規(guī)劃、服務(wù)器性能或虛擬機(jī)性能分配夠不夠優(yōu)化,并沒有詳細(xì)的數(shù)據(jù)依據(jù),導(dǎo)致很難判斷[1]。
一旦出現(xiàn)系統(tǒng)故障、安全事件,現(xiàn)有系統(tǒng)日志和安全設(shè)備也只能記錄事件發(fā)生時的狀況,缺少必要的分析數(shù)據(jù),很難進(jìn)行事件的追蹤、還原、取證和責(zé)任界定,比如到底是系統(tǒng)的問題還是網(wǎng)絡(luò)的問題。導(dǎo)致責(zé)任不清,更重要的是不知道后續(xù)如何改進(jìn)。
2 高校全網(wǎng)流量與核心業(yè)務(wù)性能需求分析
高校全網(wǎng)流量與核心業(yè)務(wù)性能分析平臺可以由網(wǎng)絡(luò)回溯分析和業(yè)務(wù)性能管理兩部分組成[2]。網(wǎng)絡(luò)回溯分析的核心作用是實(shí)時采集、存儲并分析網(wǎng)絡(luò)關(guān)鍵鏈路的數(shù)據(jù)包,將其中應(yīng)用質(zhì)量分析和應(yīng)用性能警報上報到分析中心進(jìn)行關(guān)聯(lián)分析,也就是我們常說的網(wǎng)絡(luò)探針。業(yè)務(wù)性能管理則收集回溯系統(tǒng)上報的應(yīng)用性能指標(biāo)參數(shù)和應(yīng)用性能警報信息,以面向業(yè)務(wù)的視角全面監(jiān)控分析每個組成的應(yīng)用和運(yùn)行質(zhì)量,并快速定位影響業(yè)務(wù)系統(tǒng)運(yùn)行質(zhì)量的關(guān)鍵因素。同時還提供對業(yè)務(wù)的原始通訊數(shù)據(jù)長期保存和回溯分析能力,提供有效的分析手段和依據(jù)。
系統(tǒng)將部署在核心交換機(jī)和匯聚交換機(jī)上,將相應(yīng)的網(wǎng)絡(luò)流量做端口鏡像后傳給網(wǎng)絡(luò)回溯及流量分析系統(tǒng)探針[3]。業(yè)務(wù)性能管理平臺部署在網(wǎng)絡(luò)管理區(qū),與探針進(jìn)行實(shí)時通信。通過圖1可以看到核心交換機(jī)到防火墻的上行接口流量大約300M,峰值流量為1.33Gbps。
基于這種網(wǎng)絡(luò)探針的流量采集方法能夠監(jiān)聽并采集通過核心的所有通信,并通過統(tǒng)計分析得到流量信息,同時增加幾個匯聚交換機(jī)的采集點(diǎn)可以獲得相應(yīng)網(wǎng)段的流量數(shù)據(jù)。進(jìn)一步增強(qiáng)故障分析能力,幫助快速定位故障點(diǎn)。我們將選取有代表性的業(yè)務(wù),進(jìn)行詳細(xì)的業(yè)務(wù)性能分析與可視化展示。
3 Web VPN系統(tǒng)的性能分析
2022年3月,學(xué)校的教職工開始居家辦公和遠(yuǎn)程教學(xué)。為了保障學(xué)校各業(yè)務(wù)的安全開展,上海工程技術(shù)大學(xué)開啟了VPN遠(yuǎn)程辦公模式[4],模式的改變也給校外的管理運(yùn)維人員帶來極大的挑戰(zhàn):
1) 隨著遠(yuǎn)程辦公人數(shù)的突發(fā)式增長,對VPN設(shè)備并發(fā)連接數(shù)和VPN加解密吞吐量的要求有了極大的提高。為了確保辦公效率不受訪問質(zhì)量的影響,運(yùn)維人員需要實(shí)時關(guān)注用戶VPN訪問的各項網(wǎng)絡(luò)指標(biāo),一旦發(fā)現(xiàn)異常及時處置。
2) VPN的全面開放可能會引發(fā)一些安全問題,比如:教職工使用自有終端傳輸數(shù)據(jù)過程中攜帶病毒或木馬;非法訪問導(dǎo)致數(shù)據(jù)泄露等。運(yùn)維人員需要能夠及時發(fā)現(xiàn)來自VPN內(nèi)部的安全攻擊或一些異常的數(shù)據(jù)傳輸,如果安全事件一旦發(fā)生也可及時回溯及取證。
3) VPN遠(yuǎn)程辦公很可能成為一種常態(tài)化的辦公方式,通過一些宏觀指標(biāo)的可視化分析(總帶寬、使用人數(shù)等) ,對高校未來網(wǎng)絡(luò)規(guī)劃提供決策依據(jù)。
3.1 VPN系統(tǒng)梳理
上海工程技術(shù)大學(xué)Web VPN系統(tǒng)采用旁路部署方式,放置于數(shù)據(jù)中心內(nèi)網(wǎng)DMZ區(qū),校園網(wǎng)出口防火墻上對外開放443端口,讓系統(tǒng)可接收并響應(yīng)外網(wǎng)訪問請求,同時與校園內(nèi)網(wǎng)服務(wù)資源IP通信。用戶首先通過外網(wǎng)地址443端口訪問Web VPN系統(tǒng),然后輸入統(tǒng)一身份認(rèn)證賬號密碼完成CAS認(rèn)證,認(rèn)證通過后可以直接在頁面跳轉(zhuǎn)訪問各個核心業(yè)務(wù)系統(tǒng)[5]。
3.2 流量與業(yè)務(wù)性能分析的實(shí)現(xiàn)方法
學(xué)校流量統(tǒng)計如圖1所示,學(xué)校每天VPN系統(tǒng)的訪問人數(shù)約為6000人次;訪問峰值并發(fā)為9:00—10:00之間,峰值下行比特率為128Mbps;峰值并發(fā)訪問人數(shù)為71人。
在VPN系統(tǒng)訪問峰值時間段內(nèi)用戶訪問三次握手的平均時間基本上不超過20ms、丟包率不超過1%,說明用戶訪問體驗良好。
根據(jù)上海工程技術(shù)大學(xué)實(shí)際情況,對Web VPN和各個業(yè)務(wù)節(jié)點(diǎn)的網(wǎng)絡(luò)訪問性能設(shè)置閾值,一旦超過閾值則觸發(fā)告警信息,通過郵件等方式提醒運(yùn)維人員及時關(guān)注并處理。
WEB VPN監(jiān)控節(jié)點(diǎn)包括VPN系統(tǒng)本身、CAS系統(tǒng),用戶通過VPN訪問部分核心業(yè)務(wù)系統(tǒng),監(jiān)控指標(biāo)和閾值[6]設(shè)定如表1所示。
2022年5月17日早上8:10分收到Web VPN系統(tǒng)的監(jiān)控告警信息,提示移動校務(wù)平臺訪問應(yīng)用超時和新建會話數(shù)過高[7]。通過全流量回溯定位告警時間段展開分析,如圖2所示,發(fā)現(xiàn)服務(wù)器在8:00—8:20會話量突發(fā)性增長,且應(yīng)用響應(yīng)時間最高達(dá)到150ms。同時間段校務(wù)平臺三次握手平均時間平穩(wěn),最高比特率為200Mbps都在正常范圍內(nèi),基本排除網(wǎng)絡(luò)問題導(dǎo)致訪問卡慢。
如圖3所示,繼續(xù)分析發(fā)現(xiàn)當(dāng)天上午8:00—8:16校務(wù)管理平臺服務(wù)器的443和80業(yè)務(wù)端口會話總數(shù)分別高達(dá)74292和10230,短時間內(nèi)創(chuàng)建了大量會話。初步懷疑本次故障是由于客戶端大量新建會話導(dǎo)致。
進(jìn)一步解包分析可以看出流量中存在大量重傳數(shù)據(jù)包現(xiàn)象[8]:服務(wù)器端向客戶端發(fā)了RST包,說明會話已經(jīng)關(guān)閉,但是客戶端一直重傳,每個TCP會話都會重傳十幾次,從而引起通訊無響應(yīng)的告警信息。經(jīng)分析為大量客戶端新建會話數(shù)突增,達(dá)到校務(wù)管理平臺服務(wù)器支持最大會話量后,客戶端仍一直嘗試重傳,導(dǎo)致用戶訪問業(yè)務(wù)卡慢。
通過與業(yè)務(wù)部門的進(jìn)一步溝通最終確認(rèn)本次業(yè)務(wù)系統(tǒng)卡頓現(xiàn)象與2022年5月17日早上學(xué)生預(yù)約校車有關(guān),當(dāng)大量學(xué)生同時訪問移動校務(wù)平臺時,單節(jié)點(diǎn)的前端服務(wù)器性能不足。后續(xù)我們根據(jù)峰值時的并發(fā)訪問量,重新規(guī)劃了校務(wù)平臺的前端架構(gòu),增加了2個節(jié)點(diǎn)的前端服務(wù)器,通過nginx反向代理實(shí)現(xiàn)負(fù)載均衡。
通過網(wǎng)絡(luò)回溯,遵循一定的規(guī)則還可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)中的部分安全隱患:
1) 查看單位時間段內(nèi)整體流量的單播與廣播主播比。一般情況單播流量占比大于90%。
2) 查看單位時間段內(nèi)整體流量的TCP參數(shù)統(tǒng)計情況。在理想情況下TCP同步包與TCP同步確認(rèn)包應(yīng)為1:1。如果比例差距過大則需要把異常比例源找出。
3) 平均包長:正常使用應(yīng)用的平均包長為500~700字節(jié),如果有長時間過小或者過大的現(xiàn)象則需要對相應(yīng)應(yīng)用進(jìn)行細(xì)致觀察。
4) 未知TCP應(yīng)用和未知UDP應(yīng)用:大于1024端口并且RFC沒有定義的端口號。一般情況下網(wǎng)內(nèi)的P2P流量和用戶自定義應(yīng)用會統(tǒng)計到這類應(yīng)用中。
通過監(jiān)控可以發(fā)現(xiàn)Web VPN流量中存在大量沒有負(fù)荷的數(shù)據(jù)包,這些數(shù)據(jù)包的產(chǎn)生由于Web VPN的對外訪問地址被一些的境外IP地址掃描,一天高達(dá)3萬次。下挖數(shù)據(jù)包分析,可以看到境外IP在試探Web VPN開放了哪些端口,這些IP地址發(fā)送了一個SYN包后便無下一步動作,僅僅是單純的端口掃描。我們通過添加IP黑名單的方式對其進(jìn)行攔截。
3.3 業(yè)務(wù)系統(tǒng)性能可視化管理
文章通過對Web VPN流量進(jìn)行實(shí)時采集,針對全校師生的訪問情況制作了大屏展示[9],投放于機(jī)房監(jiān)控室,如圖4所示,進(jìn)行業(yè)務(wù)可視化管理。具體分三個維度展示:
1) Web VPN的實(shí)時訪問網(wǎng)絡(luò)質(zhì)量:包括兩個部分,實(shí)際訪問流量和用戶訪問響應(yīng)時間。
2) Web VPN的實(shí)時使用情況:包括實(shí)時會話數(shù)和當(dāng)天累計訪問人數(shù)[10]。
3) 用戶訪問行為:包括用戶實(shí)時訪問的業(yè)務(wù)類型和用戶實(shí)時流量的Top Ten。
通過對這三個維度實(shí)時數(shù)據(jù)的展示(也可以按照日、月、年等跨度出報表) ,可以直觀地了解該業(yè)務(wù)系統(tǒng)的具體使用情況,幫助人們更好地對業(yè)務(wù)系統(tǒng)及遠(yuǎn)程訪問網(wǎng)絡(luò)進(jìn)行改進(jìn)及合理規(guī)劃。
4 總結(jié)
通過全網(wǎng)流量與核心業(yè)務(wù)及自動化性能分析能力,智能發(fā)現(xiàn)校園網(wǎng)及數(shù)據(jù)中心內(nèi)部關(guān)鍵業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)、主機(jī)、應(yīng)用性能下降,快速分析影響性能的原因并對問題發(fā)生點(diǎn)進(jìn)行深度分析,從而有效防止業(yè)務(wù)整體性能水平降低,使運(yùn)維人員更加高效地應(yīng)對網(wǎng)絡(luò)運(yùn)維需求。
參考文獻(xiàn):
[1] 安航,李啟東,王超超.高校校園網(wǎng)絡(luò)流量分析及流控策略[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017(6):108-109.
[2] 覃青.科來 做網(wǎng)絡(luò)價值的“遠(yuǎn)見者”[J].產(chǎn)城,2019(7):40-41.
[3] 牛麗君,郭宇明,朱曉梅.網(wǎng)絡(luò)管理中流量采集技術(shù)的應(yīng)用[J].計算機(jī)與信息技術(shù),2006(11): 53-55.
[4] 黃超,王勇.VPN技術(shù)在校園網(wǎng)絡(luò)安全體系中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(8): 77, 79.
[5] 刁喆,孫鼎,袁藝.基于WebVPN系統(tǒng)的數(shù)字資源獲取安全機(jī)制研究[J].信息安全研究,2021,7(8):783-788.
[6] 王曉妮,趙衛(wèi).大數(shù)據(jù)時代高校OA系統(tǒng)安全問題及防御策略研究[J].信息技術(shù)與信息化,2018(6):129-131.
[7] 譚彬,梁業(yè)裕,李偉淵.基于流量的攻擊溯源分析和防護(hù)方法研究[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2019,32(12):57-64.
[8] 朱京毅,羅漢斌.基于動態(tài)行為與網(wǎng)絡(luò)流量分析技術(shù)的威脅檢測研究[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2020,33(12):25-29.
[9] 王振輝.數(shù)據(jù)可視化技術(shù)在高校學(xué)生管理中的應(yīng)用研究[J].電腦知識與技術(shù),2021,17(34):32-33.
[10] 賴清楠,郭強(qiáng),錢杰.基于流量的高校VPN用戶訪問行為分析[J].中國教育網(wǎng)絡(luò),2018(11):64-67.
【通聯(lián)編輯:代影】