王黎明,項(xiàng)捷,蔣健(中國(guó)移動(dòng)通信集團(tuán)浙江有限公司,杭州 310030)
基于數(shù)據(jù)挖掘的系統(tǒng)運(yùn)管能力提升*
王黎明,項(xiàng)捷,蔣健
(中國(guó)移動(dòng)通信集團(tuán)浙江有限公司,杭州 310030)
近幾年IT應(yīng)用技術(shù)飛速發(fā)展,企業(yè)私有云和容器技術(shù)使系統(tǒng)應(yīng)用越來(lái)越動(dòng)態(tài),與此同時(shí),移動(dòng)互聯(lián)網(wǎng)對(duì)于最終用戶的體驗(yàn)和安全保障也越來(lái)越高,但傳統(tǒng)的系統(tǒng)運(yùn)維與監(jiān)控?zé)o法適用這些變化。本文提出了一種通過(guò)網(wǎng)絡(luò)流量分組解析與大數(shù)據(jù)挖掘來(lái)提升IT系統(tǒng)運(yùn)管能力的解決方案。
IT;Spark;大數(shù)據(jù)分析
近幾年IT應(yīng)用技術(shù)飛速發(fā)展,虛擬化和資源池已經(jīng)成為企業(yè)IT基礎(chǔ)架構(gòu)的標(biāo)配,容器等新技術(shù)的出現(xiàn)與應(yīng)用,使得IT資源利用的動(dòng)態(tài)化進(jìn)入新的階段。與此同時(shí),傳統(tǒng)IT的監(jiān)控與運(yùn)維對(duì)這種動(dòng)態(tài)性出現(xiàn)了嚴(yán)重的不適應(yīng)性,即使是無(wú)代理監(jiān)控加上動(dòng)態(tài)部署也無(wú)法跟上應(yīng)用系統(tǒng)本身的動(dòng)態(tài)性。伴隨移動(dòng)互聯(lián)網(wǎng)的出現(xiàn),IT系統(tǒng)對(duì)于最終用戶的體驗(yàn)保障要求也越來(lái)越高,對(duì)應(yīng)用使用的安全性也提出了超越普通賬號(hào)權(quán)限的新要求。在這種情況下,本文提出了一種通過(guò)網(wǎng)絡(luò)流量采集計(jì)算與分析,實(shí)現(xiàn)動(dòng)態(tài)IT及應(yīng)用數(shù)據(jù)的挖掘,提升IT系統(tǒng)運(yùn)管能力。
1.1IT系統(tǒng)運(yùn)營(yíng)能力的問(wèn)題
基于動(dòng)態(tài)的應(yīng)用部署及運(yùn)行現(xiàn)狀,現(xiàn)階段IT系統(tǒng)運(yùn)營(yíng)主要面臨4大挑戰(zhàn)。
(1)客戶體驗(yàn)后知后覺(jué):傳統(tǒng)IT運(yùn)維模型無(wú)法推導(dǎo)出客戶感知體驗(yàn)的量化模型,使得對(duì)客戶感知體驗(yàn)無(wú)法監(jiān)控,只能等到客戶投訴才后知后覺(jué)。
(2)應(yīng)用優(yōu)化無(wú)據(jù)可依:應(yīng)用哪些功能常用,哪些經(jīng)常出錯(cuò),哪些又慢的讓客戶望而卻步?客戶喜歡怎樣使用應(yīng)用功能?這些問(wèn)題無(wú)法回答使得應(yīng)用優(yōu)化無(wú)據(jù)可依。
(3)系統(tǒng)監(jiān)控疏而有漏:復(fù)雜的IT基礎(chǔ)架構(gòu)導(dǎo)致系統(tǒng)監(jiān)控很難做到疏而不漏,應(yīng)用的快速迭代和IT資源的動(dòng)態(tài)使得系統(tǒng)監(jiān)控難以完全。
(4)安全風(fēng)險(xiǎn)層出不窮:除了應(yīng)用的賬號(hào)權(quán)限控制、系統(tǒng)的安全漏洞,現(xiàn)代應(yīng)用的安全更突出在賬號(hào)對(duì)應(yīng)自然人的行為模式上,即使賬號(hào)有權(quán)限,但使用非人,就是安全風(fēng)險(xiǎn)。
1.2IT監(jiān)控技術(shù)現(xiàn)狀
現(xiàn)有IT監(jiān)控運(yùn)維有如下的方式。
(1)主機(jī)監(jiān)控:主機(jī)代理和無(wú)代理監(jiān)控。該方式不適應(yīng)應(yīng)用動(dòng)態(tài)部署。
(2)應(yīng)用監(jiān)控:通過(guò)業(yè)務(wù)仿真模擬監(jiān)控。該方式為采樣式監(jiān)控,無(wú)法獲取應(yīng)用所有用戶的數(shù)據(jù)。
(3)全量監(jiān)控(如圖1所示):網(wǎng)絡(luò)流量、網(wǎng)頁(yè)插碼、應(yīng)用日志、平臺(tái)(J2EE/.NET)插件。
圖1 全量監(jiān)控技術(shù)圖
通過(guò)比較,采用網(wǎng)絡(luò)流量的全量監(jiān)控方式具有應(yīng)用無(wú)改造、可推廣效果好的特點(diǎn)。但同時(shí),大型的應(yīng)用系統(tǒng)的網(wǎng)絡(luò)流量達(dá)到每秒吉比特甚至10吉比特,每天的請(qǐng)求數(shù)達(dá)億級(jí),傳統(tǒng)的處理方式無(wú)法完全還原所有的應(yīng)用交互場(chǎng)景。
1.3大數(shù)據(jù)技術(shù)
基于Hadoop/Spark等技術(shù)的發(fā)展,海量存儲(chǔ)、離線甚至準(zhǔn)實(shí)時(shí)處理和平行擴(kuò)展能力不再是制約全量數(shù)據(jù)采集的瓶頸。再加上一些MPP數(shù)據(jù)庫(kù)和分布式內(nèi)存數(shù)據(jù)庫(kù)的出現(xiàn),使得全量數(shù)據(jù)能夠?qū)崿F(xiàn)實(shí)時(shí)從采集、監(jiān)控和分析的能力。
2.1功能架構(gòu)(如圖2所示)
圖2 大數(shù)據(jù)運(yùn)營(yíng)分析平臺(tái)功能架構(gòu)圖
整個(gè)平臺(tái)功能分為3層,采集層、應(yīng)用層和展示層。采集層以全量流量采集工具為主,再加上其它監(jiān)控工具的集成,實(shí)現(xiàn)應(yīng)用場(chǎng)景數(shù)據(jù)的全記錄,進(jìn)入大數(shù)據(jù)指標(biāo)庫(kù);應(yīng)用層對(duì)指標(biāo)庫(kù)進(jìn)行各種維度針對(duì)性的實(shí)時(shí)監(jiān)控分析,全方位保障客戶體驗(yàn)、業(yè)務(wù)使用、系統(tǒng)狀態(tài)和安全風(fēng)險(xiǎn);展示層提供管理展示功能,將分析結(jié)果通過(guò)可視化直觀展示。
2.2物理架構(gòu)(如圖3所示)
整個(gè)大數(shù)據(jù)運(yùn)營(yíng)平臺(tái)分為流量采集點(diǎn)(9個(gè)流量采集服務(wù)器)、分布式協(xié)議采集(4臺(tái))、大數(shù)據(jù)物理服務(wù)器(10臺(tái),單臺(tái)配置4個(gè)E5-2420/6核CPU,128G內(nèi)存,12個(gè)2TB SAS 7.2K硬盤(pán),4個(gè)吉比特光纖接口)和2臺(tái)管理主機(jī)。
圖3 大數(shù)據(jù)運(yùn)營(yíng)分析平臺(tái)物理架構(gòu)圖
2.3方案特點(diǎn)(如圖4所示)
圖4 大數(shù)據(jù)運(yùn)營(yíng)分析平臺(tái)特點(diǎn)
(1)數(shù)據(jù)存儲(chǔ)規(guī)則:根據(jù)訪問(wèn)熱度高低以及相應(yīng)數(shù)據(jù)業(yè)務(wù)價(jià)值,結(jié)合高性能MPP列式數(shù)據(jù)庫(kù),Spark平臺(tái),可以達(dá)到億級(jí)數(shù)據(jù)秒級(jí)查詢(xún)的性能,提供了實(shí)時(shí)高效的數(shù)據(jù)處理能力,以及大數(shù)據(jù)平臺(tái)海量存儲(chǔ)和集群處理優(yōu)勢(shì)。
(2)數(shù)據(jù)消費(fèi)生態(tài)圈:提供多樣化便捷的數(shù)據(jù)消費(fèi)方式,包括已部署應(yīng)用專(zhuān)題、開(kāi)放基于腳本以及直接SQL查詢(xún)3種方式,實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)給消費(fèi)者,消費(fèi)者將使用結(jié)果反哺給大數(shù)據(jù)平臺(tái),形成自?xún)?yōu)的數(shù)據(jù)消費(fèi)生態(tài)圈。
(3)自定義協(xié)議流式處理:通過(guò)開(kāi)發(fā)自定義協(xié)議流量解析,突破商業(yè)化采集軟件限制,可以更精確分析大數(shù)據(jù)內(nèi)在屬性,更方便靈活地處理流式數(shù)據(jù),與第三方應(yīng)用即時(shí)聯(lián)動(dòng)。
(4)客觀世界數(shù)據(jù)模型:提煉了用戶型模型、事件數(shù)據(jù)模型、性能數(shù)據(jù)模型和配置數(shù)據(jù)模型,對(duì)來(lái)自多個(gè)接入源數(shù)據(jù)進(jìn)行有效關(guān)聯(lián),并采用標(biāo)簽形式提升了對(duì)象維度,這樣更接近實(shí)際情況。
2.4方案應(yīng)用場(chǎng)景
2.4.1場(chǎng)景1:公司內(nèi)部員工使用感知監(jiān)測(cè)與深度分析
分析對(duì)象:公司領(lǐng)導(dǎo)、員工。分析系統(tǒng):管理信息系統(tǒng)。分析數(shù)據(jù):網(wǎng)絡(luò)流量數(shù)據(jù)、外網(wǎng)代理服務(wù)器出口數(shù)據(jù)。分析內(nèi)容:利用大數(shù)據(jù)采集和技術(shù)進(jìn)行處理、篩選,分析公司領(lǐng)導(dǎo)、員工訪問(wèn)管理信息系統(tǒng)上各類(lèi)應(yīng)用的體驗(yàn)和感知,如郵件、公文、合同、報(bào)賬等,找出體驗(yàn)差的薄弱點(diǎn)和問(wèn)題,進(jìn)行緊急保障和優(yōu)化,如圖5所示。
2.4.2場(chǎng)景2:一線營(yíng)業(yè)員業(yè)務(wù)操作行為分析
分析對(duì)象:一線營(yíng)業(yè)員。分析系統(tǒng):CRM系統(tǒng)。分析數(shù)據(jù):前臺(tái)操作軌跡數(shù)據(jù)和網(wǎng)絡(luò)流量數(shù)據(jù)。分析內(nèi)容:利用大數(shù)據(jù)技術(shù)分析營(yíng)業(yè)員在CRM系統(tǒng)前臺(tái)業(yè)務(wù)操作的情況,如菜單點(diǎn)擊熱度、業(yè)務(wù)的頁(yè)面跳轉(zhuǎn)頻次、頁(yè)面響應(yīng)情況等,從而對(duì)業(yè)務(wù)流程、界面設(shè)計(jì)進(jìn)行優(yōu)化,提升業(yè)務(wù)操作效率,如圖6所示。
圖5 公司內(nèi)部員工使用感知監(jiān)測(cè)與深度分析
圖6 一線營(yíng)業(yè)員業(yè)務(wù)操作行為分析
2.4.3場(chǎng)景3:以業(yè)務(wù)視角,構(gòu)建端到端的業(yè)務(wù)全息路徑
分析對(duì)象:重要業(yè)務(wù),如充值復(fù)機(jī)業(yè)務(wù)。分析數(shù)據(jù):應(yīng)用日志數(shù)據(jù)和資源配置數(shù)據(jù)。分析內(nèi)容:利用大數(shù)據(jù)技術(shù)分析充值業(yè)務(wù)流程中涉及各系統(tǒng)、各模塊的后臺(tái)應(yīng)用日志,準(zhǔn)實(shí)時(shí)統(tǒng)計(jì)充值復(fù)機(jī)業(yè)務(wù)端到端的時(shí)長(zhǎng)、可用性等指標(biāo),進(jìn)行全路徑展示、監(jiān)控和分析,如圖7所示。
2.4.4場(chǎng)景4:以系統(tǒng)視角,提高預(yù)警的準(zhǔn)確性
分析對(duì)象:CRM系統(tǒng)。分析數(shù)據(jù):業(yè)務(wù)探測(cè)數(shù)據(jù)、服務(wù)器性能數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)。分析內(nèi)容:基于業(yè)務(wù)邏輯與物理拓?fù)涞挠成淙⒁晥D部署采集點(diǎn),采集以往發(fā)生故障時(shí)前4 h的海量數(shù)據(jù)進(jìn)行分析(CRM每天產(chǎn)生1億條記錄,0.4 T數(shù)據(jù),大數(shù)據(jù)管理平臺(tái)4h可以分析6 000萬(wàn)條數(shù)據(jù)),發(fā)現(xiàn)業(yè)務(wù)成功率、業(yè)務(wù)量、業(yè)務(wù)響應(yīng)時(shí)長(zhǎng)3個(gè)關(guān)鍵指標(biāo),在故障發(fā)生前會(huì)產(chǎn)生異動(dòng)。通過(guò)分析異動(dòng)指標(biāo)的變化規(guī)律和趨勢(shì),重新調(diào)整閾值,提高預(yù)警對(duì)故障的準(zhǔn)確性與前瞻性,如圖8所示。
2.4.5場(chǎng)景5: 加強(qiáng)安全管理偵測(cè)手段,安全防繞行
分析對(duì)象:CRM使用人員。分析數(shù)據(jù):網(wǎng)絡(luò)流量數(shù)據(jù)。分析內(nèi)容:通過(guò)大數(shù)據(jù)技術(shù)對(duì)CRM系統(tǒng)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分析,找出CRM使用人員的各類(lèi)異常行為,如只查詢(xún)不辦理業(yè)務(wù)的操作,提供給安全管理人員進(jìn)行跟蹤,排查信息泄露行為和事件。
背景:信息安全保障工作日趨重要,但CRM系統(tǒng)對(duì)查詢(xún)類(lèi)操作缺少日志記錄,造成異常行為、違規(guī)操作難于捕捉,“破獲率”很低。
圖7 業(yè)務(wù)端到段全息路徑
圖8 系統(tǒng)預(yù)警分析
方式1:利用大數(shù)據(jù)分析出有前臺(tái)異常查詢(xún)行為的賬號(hào)、號(hào)碼,進(jìn)行核查、關(guān)聯(lián)分析,找出批量泄露客戶信息證據(jù),進(jìn)行判定。
方式2:通過(guò) “網(wǎng)絡(luò)釣魚(yú)”獲取信息泄露號(hào)碼,利用大數(shù)據(jù)檢索該號(hào)碼在可疑時(shí)間段的前臺(tái)查詢(xún)行為,進(jìn)行比對(duì)判定。
通過(guò)監(jiān)測(cè)實(shí)現(xiàn)了對(duì)公司領(lǐng)導(dǎo)等重要客戶的保障,減輕了運(yùn)維保障壓力;通過(guò)分析,找出電子報(bào)賬、供應(yīng)鏈為問(wèn)題多發(fā)系統(tǒng),進(jìn)行了針對(duì)性?xún)?yōu)化和升級(jí),相關(guān)內(nèi)部用戶投訴率下降51%。
修改了CRM頁(yè)面報(bào)錯(cuò)的9個(gè)不直觀熱詞;優(yōu)化了37個(gè)點(diǎn)的CRM頁(yè)面響應(yīng)速度;優(yōu)化了CRM系統(tǒng)的5個(gè)業(yè)務(wù)流程,效率提升一倍以上。
實(shí)現(xiàn)不同業(yè)務(wù)在不同路徑下效率、數(shù)量、成功率等指標(biāo)的準(zhǔn)實(shí)時(shí)監(jiān)測(cè)和動(dòng)態(tài)跟蹤,并利用邏輯與物理映射的全息視圖,實(shí)現(xiàn)告警與預(yù)警的精準(zhǔn)定位。
浙江公司每月會(huì)定期進(jìn)行安全例行稽查,2014年6月通過(guò)“網(wǎng)絡(luò)釣魚(yú)”的形式,成功捕獲兩起一線營(yíng)業(yè)員售賣(mài)用戶個(gè)人信息的行為。
Improving system operation ability based on big data mining
WANG Li-ming, XIANG Jie, JIANG Jian
(China Mobile Group Zhejiang Co., Ltd., Hangzhou 310030, China)
IT has made rapid improvement recent years. Private cloud even Docker makes application more and more dynamic. And Internet+ demands high customer experience and security. But traditional system operation and monitor is not suit to these changes. This article raises one solution based on application DPI and big data mining to improve operation ability of system operation.
IT; Spark; big data analysis
TN915
A
1008-5599(2016)08-0021-05
2016-07-16
* 中國(guó)移動(dòng)集團(tuán)級(jí)一類(lèi)科技創(chuàng)新成果,編號(hào)zj2015_LY005_004,原成果名稱(chēng)為《基于數(shù)據(jù)挖掘的系統(tǒng)運(yùn)管能力提升》。