張培,陸俊,張懿操,趙小陽,劉洋洋,張正銀
(1.中電投工程研究檢測評定中心有限公司;2.國網(wǎng)安徽省電力有限公司信息通信分公司)
在我國發(fā)展數(shù)字化轉(zhuǎn)型的時代背景下,數(shù)據(jù)流量的不斷增加,數(shù)據(jù)中心規(guī)模和容量也在成倍增長,其運(yùn)維管理則面臨很大挑戰(zhàn)。數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理從腳本運(yùn)維、工具運(yùn)維到平臺運(yùn)維,僅靠人力已無法滿足運(yùn)維管理需求,因此亟需運(yùn)維管理智能化。AIOps(Artificial Intelligence for IT Operations),即智能運(yùn)維,是將人工智能與運(yùn)維結(jié)合,將AI技術(shù)引入到運(yùn)維當(dāng)中,基于已有運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過機(jī)器的自我學(xué)習(xí)、自行分析決策,自動去執(zhí)行腳本[1]。顯然,隨著運(yùn)維技術(shù)手段的提升,數(shù)據(jù)中心越來越多運(yùn)維的工作都可以交由智能機(jī)器來自動完成,鮮有人員參與,這樣可以極大降低數(shù)據(jù)中心的人力成本,提升數(shù)據(jù)中心的競爭力。
當(dāng)前數(shù)據(jù)中心智能運(yùn)維研究與應(yīng)用在國內(nèi)外各行業(yè)中都屬于起步階段,一些大型互聯(lián)網(wǎng)行業(yè)、金融行業(yè)、技術(shù)廠商、科研機(jī)構(gòu)等進(jìn)行了應(yīng)用實踐。
阿里研發(fā)的智能故障管理平臺,以業(yè)務(wù)為導(dǎo)向,實現(xiàn)了基于機(jī)器學(xué)習(xí)特點的業(yè)務(wù)異常檢測,可以準(zhǔn)確、及時發(fā)現(xiàn)故障。百度實現(xiàn)基于智能流量調(diào)度的單機(jī)房故障自愈能力,將止損過程劃分為統(tǒng)一的感知、決策、執(zhí)行三個階段。京東金融實現(xiàn)了基于網(wǎng)絡(luò)拓?fù)涞母锤婢治?,結(jié)合調(diào)用鏈,通過時間相關(guān)性、權(quán)重、關(guān)聯(lián)規(guī)則算法、神經(jīng)網(wǎng)絡(luò)算法等,將告警分類篩選,快速找到告警根源,從而縮短故障排查及恢復(fù)時間。京東金融還在其云計算數(shù)據(jù)中心應(yīng)用了智能巡檢機(jī)器人,提升了機(jī)房及數(shù)據(jù)中心的巡檢效率和智能化管理水平。交通銀行通過數(shù)據(jù)中心運(yùn)維大數(shù)據(jù)平臺的建設(shè),將各類日志、告警等運(yùn)維數(shù)據(jù)統(tǒng)一集中存儲,通過關(guān)聯(lián)分析、建模預(yù)測等方式發(fā)現(xiàn)日志、告警信息中潛在的聯(lián)系,并建設(shè)監(jiān)控歷史數(shù)據(jù)分析、監(jiān)控告警智能分析以及日志智能檢索分析等大數(shù)據(jù)運(yùn)維應(yīng)用場景,實現(xiàn)了事前智能預(yù)警、事后快速定位故障[1]。
新型基礎(chǔ)設(shè)施建設(shè)綠色化、智能化的管理平臺是數(shù)據(jù)中心行業(yè)未來的發(fā)展趨勢。由于目前數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行存在能耗高、能效低等諸多問題,需對新產(chǎn)品、新技術(shù)的指標(biāo)信息進(jìn)行系統(tǒng)梳理,研究節(jié)能優(yōu)化算法和人工智能技術(shù)的應(yīng)用。鑒于數(shù)據(jù)管理方面存在著數(shù)據(jù)采集系統(tǒng)化不足、數(shù)據(jù)價值未充分有效挖掘、以數(shù)據(jù)服務(wù)為核心的業(yè)務(wù)模式尚未形成等問題,需要構(gòu)建關(guān)鍵參數(shù)指標(biāo)體系和以數(shù)據(jù)分析為核心的智能運(yùn)維服務(wù)體系,形成具備模塊化開發(fā)、靈活部署、持續(xù)迭代為特點的數(shù)據(jù)中心基礎(chǔ)設(shè)施智能運(yùn)維平臺,創(chuàng)建以數(shù)據(jù)為驅(qū)動的新服務(wù)模式。因此有必要建設(shè)基于全生命周期的數(shù)據(jù)中心一體化服務(wù)平臺,為產(chǎn)業(yè)鏈從業(yè)者提供全面有效的支持服務(wù)。
智能運(yùn)維的技術(shù)路線如圖1所示。通過對數(shù)據(jù)管理關(guān)鍵參數(shù)指標(biāo)體系、多源異構(gòu)數(shù)據(jù)采集及數(shù)據(jù)建模等數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)獲取方面的關(guān)鍵技術(shù)研究,需要研發(fā)數(shù)據(jù)采集裝置,在將專家診斷經(jīng)驗梳理為診斷規(guī)則、機(jī)器學(xué)習(xí)等基于數(shù)據(jù)分析診斷關(guān)鍵技術(shù)研究基礎(chǔ)上,開發(fā)可云端可本地部署、具有能源管理、能效管理、基于設(shè)備運(yùn)行數(shù)據(jù)的健康診斷、故障診斷、智能巡檢、智能維保等功能的數(shù)據(jù)中心基礎(chǔ)設(shè)施智能運(yùn)維平臺(可有標(biāo)準(zhǔn)版、云享版、輕量版)。
圖1 技術(shù)路線圖
健康可靠、高效節(jié)能運(yùn)行是數(shù)據(jù)中心基礎(chǔ)設(shè)施的剛性需求,通過對設(shè)備健康診斷、故障預(yù)測、能效提升、系統(tǒng)優(yōu)化等進(jìn)行系統(tǒng)性分析,梳理歸類整個基礎(chǔ)設(shè)施系統(tǒng)的采集數(shù)據(jù),建立數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)管理的關(guān)鍵指標(biāo)體系。
按照主系統(tǒng)、子系統(tǒng)、設(shè)備、設(shè)備參數(shù)指標(biāo)、參數(shù)指標(biāo)檢測方法等層級進(jìn)行系統(tǒng)化分類梳理,結(jié)合數(shù)據(jù)中心業(yè)務(wù)特征、工藝布局、供配電、制冷、環(huán)境監(jiān)控、運(yùn)行維護(hù)等領(lǐng)域從設(shè)計到運(yùn)行的專家經(jīng)驗,對數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行管理、維護(hù)進(jìn)行多維度的指標(biāo)分析,從而發(fā)現(xiàn)不同參數(shù)指標(biāo)之間關(guān)聯(lián)度。
智能運(yùn)維平臺對數(shù)據(jù)中心的能效評價指標(biāo)PUE進(jìn)行細(xì)分,從系統(tǒng)層面來分解為基礎(chǔ)設(shè)施效率DCIE[2]、制冷負(fù)載系數(shù)CLF、供電負(fù)載系統(tǒng)PLF,并據(jù)此建立數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)管理關(guān)鍵指標(biāo)體系,為運(yùn)行數(shù)據(jù)的有效獲取、精準(zhǔn)挖掘運(yùn)行數(shù)據(jù)價值奠定堅實基礎(chǔ)。
以CLF為例,根據(jù)空調(diào)系統(tǒng)能耗影響因子和子系統(tǒng)情況,將制冷負(fù)載系數(shù)CLF進(jìn)一步細(xì)分,包括室外環(huán)境、機(jī)房環(huán)境、末端系統(tǒng)能效、水輸配系統(tǒng)能效、制冷系統(tǒng)能效5個子系統(tǒng),并根據(jù)具體設(shè)備耗能情況再次細(xì)分。然后根據(jù)歷史數(shù)據(jù)分析數(shù)據(jù)中心不同設(shè)備的能耗以及能效情況,確定不同設(shè)備的能耗權(quán)重信息。不同設(shè)備選用的指標(biāo)不一樣,對于冷水機(jī)組為COP,對于水泵等為水泵的輸送效率,對于冷卻塔為冷卻塔效率,對于冷卻系統(tǒng)的水系統(tǒng)輸送部分采用水輸送系數(shù)(WTF)和輸送能效比(ER)。對于空調(diào)系統(tǒng)形式為水冷冷水機(jī)組的數(shù)據(jù)中心,CLF的因變量包括:室外干球溫度TW1、室外濕球溫度TW2、室內(nèi)干球溫度TN1、室內(nèi)濕球溫度TN2、冷凍水供水溫度TLG、凍水回水溫度TLH、冷機(jī)負(fù)荷率θ、水泵運(yùn)行臺數(shù)N1、水泵頻率η、冷卻塔開啟臺數(shù)N2、冷卻水供水溫度TQG、冷卻水回水溫度TQH、機(jī)房送風(fēng)溫度TS。PUE指標(biāo)逐層分解示意見圖2。
圖2 PUE指標(biāo)逐層分解示意圖
為提高數(shù)據(jù)獲取的廣泛性和兼容性,對數(shù)據(jù)中心基礎(chǔ)設(shè)施主流系統(tǒng)通過采用多源異構(gòu)數(shù)據(jù)采集技術(shù)進(jìn)行數(shù)據(jù)獲取,提高數(shù)據(jù)獲取的接入能力,減少重復(fù)性投資。
4.2.1 可靈活配置的模塊化數(shù)據(jù)采集裝置
采用插拔擴(kuò)展模塊的硬件架構(gòu),可根據(jù)數(shù)據(jù)中心基礎(chǔ)設(shè)施規(guī)模,通過有效的組合各種通信模塊,形成大、中、小型數(shù)據(jù)中心數(shù)據(jù)采集的數(shù)據(jù)采集裝置產(chǎn)品系列,靈活配置,提升數(shù)據(jù)采集裝置的端口擴(kuò)展能力與功能多樣性,有效減少數(shù)據(jù)采集裝置的開發(fā)成本和縮短開發(fā)時間。模塊化數(shù)據(jù)采集裝置的特點如下:
①能夠相互組網(wǎng),構(gòu)建大容量的傳感網(wǎng)絡(luò);
②高度集成化;
③接口模塊化靈活配置,互換性強(qiáng);
④支持多種通信協(xié)議,支持物聯(lián)網(wǎng)協(xié)議;
⑤多種通訊方式可選,可為用戶定制開發(fā)指定的通信協(xié)議。
4.2.2 基于無線傳輸技術(shù)的數(shù)據(jù)采集裝置
數(shù)據(jù)中心基礎(chǔ)設(shè)施場地復(fù)雜,節(jié)能運(yùn)行功能裝置的分布廣,在運(yùn)維工藝改造時,為了不影響數(shù)據(jù)中心運(yùn)行,減少工作量,目前新型傳感器、RFID和智能芯片等數(shù)據(jù)采集裝置采用無線傳輸,可以更好的采集到所需的數(shù)據(jù),同時便于用戶快捷部署?;跓o線網(wǎng)絡(luò)通訊的數(shù)據(jù)采集裝置,除包括數(shù)據(jù)采集的結(jié)構(gòu)外,核心部件是無線通信模塊?;跓o線傳輸技術(shù)的數(shù)據(jù)采集裝置特點如下:
①具有通訊管理、數(shù)據(jù)接收、協(xié)議轉(zhuǎn)換、數(shù)據(jù)處理轉(zhuǎn)發(fā)等功能,可同時接收多個無線傳感器數(shù)據(jù)、實現(xiàn)通訊接口和通信協(xié)議轉(zhuǎn)換;
②可通過5G、Wi-Fi、ZigBee、Lora、NB-loT等傳輸方式上行傳輸數(shù)據(jù);
③布置安裝方便,即插即用;
④減少布線施工成本;
⑤適用于項目改造和安裝環(huán)境惡劣場所。
數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行中會產(chǎn)生大量數(shù)據(jù),為解決這類數(shù)據(jù)分析算法難以高效復(fù)用的問題,我們在數(shù)據(jù)建模時通過創(chuàng)建標(biāo)準(zhǔn)化、完整性、特征性的方法來定義數(shù)據(jù)語義[3],應(yīng)用語義數(shù)據(jù)標(biāo)簽使數(shù)據(jù)自我描述,將語義數(shù)據(jù)模型標(biāo)準(zhǔn)化,并幫助計算機(jī)系統(tǒng)讀懂?dāng)?shù)據(jù)含義,提高數(shù)據(jù)處理和數(shù)據(jù)分析的效率,簡化跨系統(tǒng)、跨應(yīng)用、跨層級數(shù)據(jù)應(yīng)用時所消耗的大量人工和成本,實現(xiàn)數(shù)據(jù)分析算法高效復(fù)用,降低從大量智能設(shè)備及系統(tǒng)產(chǎn)生的數(shù)據(jù)中獲得價值的難度。
4.4.1 數(shù)據(jù)預(yù)處理及數(shù)據(jù)降維,提高數(shù)據(jù)質(zhì)量降低計算成本
我們對數(shù)量龐大的數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)使用主成分分析法(PCA)進(jìn)行數(shù)據(jù)降維;對影響安全運(yùn)行、節(jié)能運(yùn)行的眾多因素進(jìn)行影響因素權(quán)重分析,采用數(shù)據(jù)挖掘的Pearson相關(guān)系數(shù)、Sperman秩相關(guān)系數(shù)分析以及多元回歸等數(shù)據(jù)相關(guān)性分析方法,找出對安全、節(jié)能運(yùn)行影響最大的環(huán)境因素集,實現(xiàn)數(shù)據(jù)降維,降低計算成本。
針對數(shù)據(jù)可能存在的數(shù)據(jù)值恒定、數(shù)據(jù)值異常及數(shù)據(jù)值缺失等情況,通過EM算法解決模型中含缺失數(shù)據(jù)的問題;使用異常數(shù)據(jù)診斷模型(DSDM)解決數(shù)據(jù)異常問題;采用回歸分析、支持向量機(jī)SVM聚類分析、期望最大值EM算法等機(jī)器學(xué)習(xí)方法,對數(shù)據(jù)中心原始運(yùn)行數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗及預(yù)處理工作,以構(gòu)建完備數(shù)據(jù)集。
4.4.2 將專家診斷規(guī)則與機(jī)器學(xué)習(xí)算法相結(jié)合研究,提高智能診斷的適用性
我們把影響數(shù)據(jù)中心運(yùn)行最關(guān)鍵因素冷源系統(tǒng)作為研究對象,從節(jié)能及設(shè)備健康角度開展基于數(shù)據(jù)分析的智能診斷與智能調(diào)控技術(shù)研究?;跀?shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行特點及數(shù)據(jù)特征,將數(shù)據(jù)中心基礎(chǔ)設(shè)施領(lǐng)域?qū)<倚袠I(yè)知識、經(jīng)驗積累梳理為診斷規(guī)則,形成專家診斷規(guī)則庫,并在此基礎(chǔ)上搭建基于機(jī)器學(xué)習(xí)的智能診斷模型,二者相支撐融合,可解決對專家診斷規(guī)則的過度依賴以及基于算法的機(jī)器學(xué)習(xí)缺乏行業(yè)專家經(jīng)驗的問題,提高智能診斷規(guī)則和算法的適用性[4]。
隨著企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,數(shù)據(jù)中心基礎(chǔ)設(shè)施的智能運(yùn)維行業(yè)已經(jīng)形成了一片新藍(lán)海。國內(nèi)廠商紛紛進(jìn)入該領(lǐng)域推動了行業(yè)的發(fā)展,使中國的AIOps市場持續(xù)穩(wěn)定增長。據(jù)統(tǒng)計,中國市場規(guī)模在2023年達(dá)到3236.4億元,2020-2023年有望保持11.7%的復(fù)合增長率。電信運(yùn)營商、大型商業(yè)銀行等行業(yè)的核心系統(tǒng)升級換代不僅會創(chuàng)造新的IT基礎(chǔ)架構(gòu)建設(shè)需求,也為下游的運(yùn)維服務(wù)行業(yè)帶來增量市場,國內(nèi)第三方運(yùn)維服務(wù)商的市場份額相應(yīng)提升。同時,對于數(shù)據(jù)中心巡檢工作量大、漏檢、誤檢率高、硬件實時監(jiān)控要求大的場合,更加適合智能巡檢機(jī)器人的應(yīng)用。
目前數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維的智能化發(fā)展方向已經(jīng)是業(yè)內(nèi)共識,智能機(jī)器人的使用也越來越多,但智能機(jī)器人的大規(guī)模推廣仍然存在較多問題。目前智能機(jī)器人的功能還不完善,只能進(jìn)行比較簡單的巡檢工作,尚無法代替人完成核心的功能;同時,智能機(jī)器人成本比較高,而且如要能以更少的能量來換取更多的信息,這就需要進(jìn)一步研究,擴(kuò)大機(jī)器人的應(yīng)用場景并降低成本。
5.3.1 采集設(shè)備傳感器的校準(zhǔn)與更換
1)傳感器的校準(zhǔn)
傳感器屬于檢測系統(tǒng)中的關(guān)鍵部件,若傳感器的靈敏度或精度出現(xiàn)問題,則檢測結(jié)果會出現(xiàn)誤差,嚴(yán)重時可能因監(jiān)測失誤而引發(fā)的重大事故,故傳感器的校準(zhǔn)至關(guān)重要。我們依據(jù)相關(guān)校準(zhǔn)規(guī)程對傳感器進(jìn)行校準(zhǔn),通過給傳感器加上一個標(biāo)準(zhǔn)的被測量,然后調(diào)整傳感器的某些部件(或軟件參數(shù)),使得傳感器的輸出與被測量準(zhǔn)確對應(yīng),即確?;蝌炞C輸出和輸入之間的換算關(guān)系及性能指標(biāo)。
2)采集設(shè)備傳感器的更換
傳感器在使用過程中,如果沒有進(jìn)行很好的保護(hù)措施很容易因被撞擊、超載、電擊、老化、高溫、腐蝕等原因?qū)е聯(lián)p壞,如數(shù)字的信號數(shù)字亂跳,傳感器斷線,傳感器的屏蔽線不良、傳感器信號線或電源線短路等。
如果判斷傳感器是壞的,那就需要對損壞的傳感器進(jìn)行更換。由于各個廠家的傳感器型號、定義及特性都是不完全相同的,更換時最好選用原來廠家相同型號的傳感器,如果需要替代更換,我們則應(yīng)注意靈敏度、額定負(fù)荷、精度、阻抗、絲孔尺寸、接線順序等6個參數(shù)。
5.3.2 智能運(yùn)維系統(tǒng)維護(hù)與升級
智能運(yùn)維系統(tǒng)的整個使用壽命中,系統(tǒng)維護(hù)工作必不可少,其目的是要保證智能運(yùn)維系統(tǒng)正常而可靠地運(yùn)行,并能使系統(tǒng)不斷得到改善和提高。因此,要有計劃、有組織地對智能運(yùn)維系統(tǒng)進(jìn)行糾錯性、適應(yīng)性、完善性、預(yù)防性進(jìn)行提升,以保證系統(tǒng)中的各個要素隨著環(huán)境的變化始終處于最新的、正確的工作狀態(tài)。該系統(tǒng)維護(hù)的需求來源主要有以下方面:
①源于企業(yè)管理機(jī)制、策略的改變;
②來自用戶意見及對智能運(yùn)維系統(tǒng)更高的要求;
③來自于系統(tǒng)本身,系統(tǒng)本身存在一些缺陷需要改進(jìn);
④先進(jìn)技術(shù)的出現(xiàn);
⑤用戶需求的臨時性調(diào)整。
5.3.3 建設(shè)及維護(hù)成本控制
1)建設(shè)成本控制
數(shù)據(jù)中心智能運(yùn)維系統(tǒng)的成本主要由監(jiān)控服務(wù)器、監(jiān)控系統(tǒng)軟件、功能轉(zhuǎn)換模塊、傳感器、控制器、輔材、安裝、系統(tǒng)調(diào)試、維護(hù)等組成。為控制成本,需在既定工期、質(zhì)量、安全的前提下,通過目標(biāo)分析、階段性目標(biāo)的提出、跟蹤管理、實施中的反饋與決策來實施成本控制,不斷地對項目中的收入及支付的費(fèi)用加以統(tǒng)計和控制,把項目實際成本控制在計劃范圍內(nèi),若發(fā)現(xiàn)超支趨勢,及時采取補(bǔ)救措施,控制成本一般采取以下幾種方法:
①抓成本預(yù)測,從計劃上控制。根據(jù)項目特點和施工組織設(shè)計,組織人員進(jìn)行成本預(yù)測,編制人、材、機(jī)成本計劃。同時根據(jù)成本計劃制定項目的成本目標(biāo),作為后續(xù)過程對成本實施控制的依據(jù)。
②抓制度建設(shè),做到有章可循。對成本控制的人員、方法、步驟和內(nèi)容進(jìn)行規(guī)定,使成本控制有章可循。
③抓技術(shù)革新,從技術(shù)上控制。通過技術(shù)革新和論證等,采取新工藝、新材料、新方法,相對節(jié)約人、材、機(jī)的消耗,從而控制項目成本。
2)維護(hù)成本控制
數(shù)據(jù)中心基礎(chǔ)設(shè)施項目建設(shè)完成后,隨著數(shù)據(jù)中心業(yè)務(wù)的展開,對于系統(tǒng)運(yùn)維的需求也會增加,系統(tǒng)相關(guān)的維護(hù)費(fèi)也就隨之增加。系統(tǒng)的維護(hù)成本主要有硬件維護(hù)和軟件維護(hù)、人力資源成本等。降低系統(tǒng)維護(hù)成本有以下幾種途徑:
①根據(jù)業(yè)務(wù)需要集中統(tǒng)一對系統(tǒng)配套硬件設(shè)備進(jìn)行選型與采購、校準(zhǔn);
②系統(tǒng)維護(hù)中需要技術(shù)支持的項目部分進(jìn)行專業(yè)外包,提高系統(tǒng)維護(hù)效率;
③建立健全運(yùn)維管理相關(guān)制度,加強(qiáng)系統(tǒng)維護(hù)管理,提高運(yùn)維效率;
④加強(qiáng)運(yùn)維管理人員培訓(xùn),定期對運(yùn)維管理人員進(jìn)行系統(tǒng)操作培訓(xùn),規(guī)范操作流程杜絕人為失誤,制定詳細(xì)應(yīng)急計劃,提高故障應(yīng)急處理能力。
數(shù)據(jù)中心基礎(chǔ)設(shè)施智能運(yùn)維服務(wù)平臺的成功實施,可提高數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行的可靠性、安全性和能效性,節(jié)省運(yùn)維費(fèi)用,降低數(shù)據(jù)中心基礎(chǔ)設(shè)施對資源和能源的消耗,提高數(shù)據(jù)中心設(shè)計建造水平及基礎(chǔ)設(shè)施運(yùn)營效益。同時,還可向大型工礦企業(yè)、大型公建、智慧城市/社區(qū)等領(lǐng)域推廣,助力建筑基礎(chǔ)設(shè)施服務(wù)數(shù)字化轉(zhuǎn)型升級,推動各行業(yè)的數(shù)字化發(fā)展。