胡丹
摘 要:本文針對IT網(wǎng)絡(luò)運(yùn)維中的幾種常見問題,結(jié)合自身網(wǎng)絡(luò)環(huán)境、運(yùn)維策略并參考ITIL中的基本管理要求,綜合分析出問題關(guān)鍵。利用IT運(yùn)維服務(wù)平臺的API數(shù)據(jù)接口采集實時運(yùn)維數(shù)據(jù),運(yùn)用R語言編程對運(yùn)維數(shù)據(jù)清洗后分析,并將數(shù)據(jù)可視化結(jié)果嵌入基于Rshiny技術(shù)構(gòu)建的網(wǎng)站進(jìn)行發(fā)布。分析結(jié)果也可作為優(yōu)化IT運(yùn)維服務(wù)平臺功能、建設(shè)適于自身業(yè)務(wù)場景的ITIL運(yùn)維標(biāo)準(zhǔn)的重要參考依據(jù)。使用該分析方法,解決了日常IT運(yùn)維中難以合理評估及量化運(yùn)維工作量、運(yùn)維團(tuán)隊缺乏數(shù)據(jù)支撐的調(diào)度策略優(yōu)化以及運(yùn)維技術(shù)人員難以直觀獲取大規(guī)模WIFI無線網(wǎng)部署環(huán)境下設(shè)備狀態(tài)的總體情況等常見運(yùn)維問題。
關(guān)鍵詞:數(shù)據(jù)分析;數(shù)據(jù)可視化;ITIL標(biāo)準(zhǔn);網(wǎng)絡(luò)故障;R語言
中圖分類號:TP307 ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? ? 文章編號:1003-5168(2021)30-0009-03
Abstract: In order to solve several common problems in IT service works, the key points of the problems are comprehensively analyzed in combination with its own network environment, operation strategies and with reference to the basic management requirements in ITIL. The real-time maintenance data are collected by using the API data interface of IT service system platform, then R language programming is used to clean and analyze the maintenance data and the results of data visual analysis on Rshiny website are published. The analysis results can also be used as an important reference for optimizing the function of IT service platform and building ITIL standards suitable for their own network scenarios. Using this analysis method, three common maintenance problems in IT services are solved: 1. It is difficult to reasonably evaluate and quantify the maintenance workload in daily IT services; 2. The operation and maintenance team lacks data supported scheduling strategy optimization; 3. It is difficult for technicians to directly obtain the overall equipment status of a large-scale WiFi wireless network.
Keywords: data analysis; data visualization; ITIL standard; network failure; R language
在業(yè)務(wù)日趨細(xì)分化、復(fù)雜化的今天,各類機(jī)構(gòu)的日常辦公與業(yè)務(wù)管理高度依賴于IT環(huán)境,運(yùn)行稍有不慎就可能造成巨大損失。因此,IT運(yùn)維工作的有效性與及時性顯得極為重要。大中型企事業(yè)單位的IT設(shè)備和業(yè)務(wù)系統(tǒng)數(shù)量眾多且架構(gòu)復(fù)雜,IT運(yùn)維難度極大。
ITIL、ITSM、ITSS等IT運(yùn)維標(biāo)準(zhǔn),雖然內(nèi)容有差異,但其核心思想均是通過運(yùn)用IT管理流程化、數(shù)據(jù)記錄標(biāo)準(zhǔn)化等方法,提高工作效率和服務(wù)質(zhì)量,從而更好地為業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行保駕護(hù)航。建立IT運(yùn)維標(biāo)準(zhǔn)和搭建IT運(yùn)維工具的目的也在于此,通過對IT業(yè)務(wù)進(jìn)行有序化、透明化的管理,各類IT運(yùn)維標(biāo)準(zhǔn)的底層是對IT基礎(chǔ)設(shè)施的設(shè)備管理,最上層是對業(yè)務(wù)系統(tǒng)的流程化管理。
1 研究說明
1.1 數(shù)據(jù)來源
本文研究數(shù)據(jù)來源于武漢大學(xué)IT運(yùn)維平臺中網(wǎng)絡(luò)故障報修數(shù)據(jù)和其公共無線WIFI網(wǎng)絡(luò)的設(shè)備監(jiān)控數(shù)據(jù),時間為2020年8月至2021年7月。其中,網(wǎng)絡(luò)故障報修事件2368起,無線網(wǎng)設(shè)備約1.5萬臺。
1.2 研究內(nèi)容
本次對以下IT運(yùn)維/網(wǎng)絡(luò)運(yùn)維中常見的痛點(diǎn)問題進(jìn)行研究并分析解決方案。
(1)日常運(yùn)維工作量難以合理評估和量化;
(2)運(yùn)維團(tuán)隊調(diào)整和優(yōu)化運(yùn)維策略缺乏充足并有效的運(yùn)維數(shù)據(jù)做支撐;
(3)技術(shù)人員難以直接獲得大規(guī)模WIFI無線網(wǎng)絡(luò)的整體設(shè)備狀態(tài)。
上述問題對應(yīng)到ITIL運(yùn)維模型時,問題(1)(2)主要對應(yīng)到運(yùn)維流程管理中的事件管理模塊。問題(3)主要涉及IT基礎(chǔ)架構(gòu)監(jiān)控中的故障管理,所監(jiān)控的設(shè)備子類為無線AC設(shè)備與無線AP設(shè)備。
1.3 研究工具
R語言是統(tǒng)計、預(yù)測分析和數(shù)據(jù)可視化的全球通用語言。它提供各種用于分析和理解數(shù)據(jù)的方法,從最基礎(chǔ)的到最前沿的,無所不包[1]。同時,R是一個開源項目,其是在很多操作系統(tǒng)上都可以免費(fèi)得到的優(yōu)秀工具。
文中部分R工具包:數(shù)據(jù)可視化包ggplot2;繪制地圖或2D/3D可視化的rayshader工具包;用于發(fā)布交互式web網(wǎng)站Shiny工具包。
2 研究結(jié)果可視化與分析
由于IT運(yùn)維體系中數(shù)據(jù)字段眾多,此處只介紹與分析過程和結(jié)果相關(guān)的字段。
涉及字段名稱及含義如下:(1)ID:工單編碼;(2)進(jìn)行狀態(tài):實時維修狀態(tài);(3)創(chuàng)建時間:工單創(chuàng)建時間;(4)故障區(qū)域:辦公區(qū)/宿舍區(qū);(5)校區(qū):1/2/3/4校區(qū);(6)樓棟:故障發(fā)生樓棟名;(7)故障類型:有線故障/無線故障。
2.1 各校區(qū)報修數(shù)量分析
針對本文1.2章節(jié)中問題(1),分析總體故障報修情況可用直方圖[2]、時間序列分析等方法,實現(xiàn)效果如圖1所示。
由圖1可知,運(yùn)維量和故障類型存在明顯的時間和地區(qū)分布差異。故障分布情況經(jīng)分析有如下特點(diǎn):無線網(wǎng)絡(luò)故障遠(yuǎn)多于有線網(wǎng)絡(luò)故障,因此無線網(wǎng)絡(luò)故障突發(fā)時對該時間段的運(yùn)維總量影響顯著;全年中每日運(yùn)維量與每日無線故障數(shù)的峰值分布基本一致,但有線網(wǎng)故障也有其自身的小高峰分布特點(diǎn);四個校區(qū)分別有不同的故障發(fā)生小高峰,一般這些峰值由局部設(shè)備升級、熱門網(wǎng)絡(luò)應(yīng)用造成網(wǎng)絡(luò)擁堵等原因造成。
進(jìn)一步分析可得,暑期開學(xué)和寒假開學(xué)時報修總量急劇增多,九月新生入校時報修量為全年最高,此時大部分報修故障為無線網(wǎng)絡(luò)故障。由各校區(qū)報修情況匯總來看,三校區(qū)故障所占比例最高,且該校區(qū)的故障峰值主要發(fā)生在暑期和寒假剛開學(xué)時,推斷可能是由于理工科在校學(xué)生對校園網(wǎng)體驗預(yù)期偏高,建議對網(wǎng)絡(luò)延遲較敏感或娛樂需求偏多的學(xué)生切換至電信運(yùn)營商賬號進(jìn)行資費(fèi)與體驗升級。
選取圖1部分實現(xiàn)代碼為例,如下:
data_read<- read_excel(“l(fā)ist_whu.xlsx”)
#將讀取自API接口的數(shù)據(jù)寫入excel
#讀取excel數(shù)據(jù)并導(dǎo)入數(shù)據(jù)框
data_it<-sqldf("select * from data_read
where 進(jìn)行狀態(tài) like ‘%closed%
and 創(chuàng)建時間 like ‘%%
and 樓棟 not like ‘%未填寫%
and 故障區(qū)域 like ‘%學(xué)生宿舍區(qū)%
and 校區(qū) like ‘%%")
#使用sql語法查詢實現(xiàn)清洗掉異常數(shù)據(jù)
#通過修改sql查詢條件,調(diào)整數(shù)據(jù)樣本
ggplot(data_it ,aes(創(chuàng)建日期,fill=故障類型)
windowsize =c(4000,2000))+geom_histogram(bins=300)+facet_grid(校區(qū)~.~故障類型,scales=‘free_x)
#使用ggplot2可視化分析包,繪制直方圖
#設(shè)置繪圖區(qū)的分辨率、樣本密度、子圖等
2.2 各樓棟報修數(shù)量分析(各校區(qū)分別排序)
為進(jìn)一步分析本文1.2章節(jié)中的問題(2),分析運(yùn)維總量中的故障類型和分布構(gòu)成等,對數(shù)據(jù)進(jìn)行熱圖分析[3],并將結(jié)果3D化。如圖2所示,不同樓棟在不同時間的報修量差異較大,通過細(xì)致研讀數(shù)據(jù)并繪圖,也分析部分深層運(yùn)維問題的成因和解決方案,以便及時調(diào)整運(yùn)維策略。
例如,針對出現(xiàn)運(yùn)維量陡增的樓棟,綜合分析背景和故障分布得知:2020年寒假前,二校區(qū)故障報修量陡增,經(jīng)分析,主要原因是宿舍網(wǎng)絡(luò)工程改造時后勤溝通不足;而2021年5月,當(dāng)年新的三學(xué)期制帶來的暑期網(wǎng)絡(luò)改造提前和校外學(xué)生搬遷回校,部分宿舍僅有一周時間安裝調(diào)試無線網(wǎng)絡(luò),雖已緊急組織團(tuán)隊趕工完成,但因部分建筑弱電結(jié)構(gòu)不合理造成部分網(wǎng)絡(luò)匯聚的結(jié)構(gòu)并不是最優(yōu)方案,需在學(xué)生入住后進(jìn)一步調(diào)整結(jié)構(gòu)解決問題,給運(yùn)維帶來較大難度。
代碼節(jié)選示例如下:
3d_it<-ggplot(data_it ,aes(創(chuàng)建日期,樓棟,fill=故障類型,color=故障類型))+geom_bin2d(bins=300)
#針對時間維度和樓棟地點(diǎn)進(jìn)行分類顯示
plot_gg(3d_it,windowsize = c(1920, 1080))
#2D熱圖結(jié)果保存并轉(zhuǎn)換為3D熱圖
runApp(“d:/data”, port = 2727,launch.browser =T,host = “127.0.0.1”)
#shiny工具包實現(xiàn)基于R語言的WEB發(fā)布
2.3 各類網(wǎng)絡(luò)設(shè)備狀態(tài)數(shù)據(jù)分析
由于當(dāng)前無線AP設(shè)備數(shù)量龐大、種類繁多,加之AC的單機(jī)性能有限等,本校擁有近十臺不同品牌、不同型號的AC控制器設(shè)備。一旦遇到設(shè)備小范圍故障,運(yùn)維人員需進(jìn)一步判斷是否可能發(fā)展成大范圍故障,同時需考慮到AP數(shù)量龐大帶來的設(shè)備巡檢困難。為解決本文1.2章節(jié)中的問題(3),即分析數(shù)據(jù)并繪制得到全校近1.5萬臺AP設(shè)備的可用性和分布情況、校區(qū)分布、不同AC控制器分布、不同AP型號分布等。
主要實現(xiàn)代碼如下:
ggplot(data_device ,aes(AP型號,所屬AC,fill=運(yùn)行狀態(tài)))+geom_jitter(bins=300)
3 結(jié)語
本文通過采集運(yùn)維事件數(shù)據(jù)和設(shè)備狀態(tài)數(shù)據(jù),對校內(nèi)IT運(yùn)維工作中的一些數(shù)據(jù)進(jìn)行可視化分析,并針對文中提出的幾個運(yùn)維常見問題進(jìn)行分析,并以分析結(jié)果為依據(jù)調(diào)整運(yùn)維策略。
在完成R語言編程的過程中,也發(fā)現(xiàn)R語言在類似分析研究工作中的優(yōu)缺點(diǎn)均較為明顯,希望嘗試本方法的分析人員需自行權(quán)衡。優(yōu)點(diǎn)有:代碼結(jié)構(gòu)清晰語法簡單,R語言對中文支持良好,結(jié)果直觀可讀性強(qiáng)等。缺點(diǎn)有:分析人員需同時具有一定的計算機(jī)和數(shù)學(xué)技能,R語言學(xué)習(xí)曲線略為陡峭,繪制部分高級圖表時對電腦性能有一定要求。
總體來說,本文對IT運(yùn)維數(shù)據(jù)的分析效果良好,該分析方法適于在該領(lǐng)域廣泛應(yīng)用。
參考文獻(xiàn):
[1] 卡巴科弗.R語言實戰(zhàn)[M].北京:人民郵電出版社,2013:1.
[2] 張杰.R語言數(shù)據(jù)可視化之美[M].北京:電子工業(yè)出版社,2019:157-158.
[3] 哈德利·威克姆.ggplot2:數(shù)據(jù)分析與圖形藝術(shù)[M].西安:西安交通大學(xué)出版社,2013:58-59.