■文/公安部第一研究所 劉靜 徐常星 李滑冰
關(guān)鍵字:數(shù)據(jù)機房 基礎(chǔ)設(shè)施 運維 智能化
隨著信息技術(shù)及其應(yīng)用的不斷發(fā)展,數(shù)據(jù)中心的規(guī)模越來越大,數(shù)據(jù)機房內(nèi)的模塊數(shù)量從幾個增加到數(shù)十個,IT設(shè)備數(shù)量從上百臺增加至上萬臺。數(shù)據(jù)機房作為信息化核心,其運維管理問題越來越得到重視。為加強數(shù)據(jù)中心的運維管理工作,確保數(shù)據(jù)中心安全、可靠、持續(xù)和高效運行,為業(yè)務(wù)系統(tǒng)穩(wěn)定運行和信息資源綜合利用提供堅實的基礎(chǔ)支持,研究如何完善運維流程,提高管理效率,有效保障設(shè)備穩(wěn)定運行,最終實現(xiàn)數(shù)據(jù)中心機房運營維護的智能化將是必然發(fā)展趨勢。
數(shù)據(jù)機房一般由機房區(qū)、輔助區(qū)、支持區(qū)、管理區(qū)等功能區(qū)組成,數(shù)據(jù)機房的基礎(chǔ)設(shè)施主要包括機房、弱電系統(tǒng)、安防系統(tǒng)、電氣系統(tǒng)和空調(diào)系統(tǒng)等。
北京某地數(shù)據(jù)機房在建設(shè)初期規(guī)劃了動力、環(huán)境、消防、視頻、門禁、安防等眾多子系統(tǒng),對機房內(nèi)所有基礎(chǔ)設(shè)施、設(shè)備及環(huán)境進行監(jiān)控和管理。通過監(jiān)控系統(tǒng)采集數(shù)據(jù)中心機房眾多設(shè)備的數(shù)據(jù)參數(shù)和機房內(nèi)的環(huán)境參數(shù),以此來判斷機房設(shè)備是否出現(xiàn)故障或異常情況,以便運維人員作出正確判斷。隨著眾多業(yè)務(wù)的進駐,除數(shù)據(jù)中心機房內(nèi)涉及眾多不同品牌型號的基礎(chǔ)運維設(shè)備外,業(yè)務(wù)系統(tǒng)設(shè)備及業(yè)務(wù)用戶的增加,導致機房資產(chǎn)及人員管理的難度不斷增大。各子系統(tǒng)的離散、割據(jù),不能滿足運維管理信息的數(shù)據(jù)共享與應(yīng)用,資產(chǎn)的人工管理模式效率低下,已無法滿足運維管理需求。
針對該數(shù)據(jù)機房面臨的各子系統(tǒng)割據(jù)分散、資產(chǎn)管理效率低下的問題,需采用先進的科學技術(shù),并結(jié)合管理手段來解決。
技術(shù)上依據(jù)云計算和物聯(lián)網(wǎng)等技術(shù)構(gòu)建智能運維平臺。其解決方案的主要思想是將數(shù)據(jù)中心機房分層,包括采集層、平臺層和應(yīng)用層。采集層利用物聯(lián)網(wǎng)等技術(shù)搜集IT設(shè)備、動環(huán)設(shè)備、智能化設(shè)備等數(shù)據(jù)中心機房內(nèi)的所有信息化基礎(chǔ)設(shè)施的基本屬性信息、隸屬關(guān)聯(lián)關(guān)系、健康運行狀態(tài)等信息。平臺層將這些信息統(tǒng)一存儲、查看和分析處理,實時監(jiān)控其各項指標、性能及事件。應(yīng)用層根據(jù)各應(yīng)用場景,實現(xiàn)集成監(jiān)控、預(yù)測分析、智能運維等功能。
運用智能PDU、RFID等監(jiān)控和檢測設(shè)備采集數(shù)據(jù)機房人和事的實時數(shù)據(jù),整合各類運維監(jiān)控系統(tǒng),形成集成化的統(tǒng)一對外服務(wù),運用數(shù)據(jù)分析手段對收集的運維數(shù)據(jù)進行分析,形成數(shù)據(jù)機房運行狀況的實時態(tài)勢。
將機房區(qū)域、通道、機柜、列頭柜、設(shè)備、空調(diào)、UPS、電池組、發(fā)電機、水電各處節(jié)點等實體建立3D模型,并整合到實驗平臺進行可視化展示,作為數(shù)據(jù)查詢、查看的窗口。
將設(shè)備故障維修記錄、運維日報、月報電子化記錄管理等形成知識庫,建立應(yīng)急預(yù)案管理庫作為重大活動保障之需。
平臺整合并接入了動環(huán)監(jiān)測、樓控系統(tǒng)、智能PDU、RFID模塊、視頻監(jiān)控、出入口控制、服務(wù)器、交換機等數(shù)據(jù),根據(jù)該數(shù)據(jù)機房管理流程和使用特點,通過對相關(guān)數(shù)據(jù)的關(guān)聯(lián)、融合、分析,結(jié)合數(shù)據(jù)機房3D模型,實現(xiàn)動環(huán)、資產(chǎn)、人員、預(yù)案、監(jiān)控、能耗等應(yīng)用的統(tǒng)一可視化服務(wù)。
數(shù)據(jù)流程如圖1所示,以電子檔案管理數(shù)據(jù)庫為中心,將數(shù)據(jù)流分成三部分,一部分來自監(jiān)控設(shè)備推送的數(shù)據(jù),一部分來自用戶在管理過程中產(chǎn)生的基礎(chǔ)數(shù)據(jù),最后一部分為系統(tǒng)輸出的具有業(yè)務(wù)加工痕印的數(shù)據(jù),即用戶關(guān)心的信息。
圖1 運維平臺數(shù)據(jù)流程描述
監(jiān)控設(shè)備采集的數(shù)據(jù)具有鮮明的實時性、冗余性高等特點。數(shù)據(jù)傳輸過程中采用消息中間件搭建消息總線,用以滿足傳輸量;存儲上采用內(nèi)存數(shù)據(jù)庫,以滿足高速讀寫的需要;接收的消息數(shù)據(jù)用于實時計算被監(jiān)控對象的狀態(tài),并在系統(tǒng)界面上實時展示或告警提示。隨著時間流失,內(nèi)存數(shù)據(jù)庫定時將其數(shù)據(jù)寫入全文檢索庫便于日后查詢和檢索,同時根據(jù)分析主題需要,將內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)按照分析主題進行整理并寫入數(shù)據(jù)倉庫,保存在關(guān)系型數(shù)據(jù)庫中。
用戶在管理過程中產(chǎn)生的基礎(chǔ)數(shù)據(jù),主要是依靠人工或其它輔助設(shè)備(如身份證讀卡器)錄入人員、資產(chǎn)、設(shè)備、應(yīng)急方案等數(shù)據(jù),數(shù)據(jù)量適中,傳輸量不大,因此可直接存入關(guān)系型數(shù)據(jù)庫,并定時寫入全文檢索庫,以便檢索。
用戶指令需通過消息總線傳遞到被監(jiān)控設(shè)備。
系統(tǒng)輸出數(shù)據(jù)是對設(shè)備和用戶管理數(shù)據(jù)進行加工后生成的數(shù)據(jù),是試驗平臺向用戶傳遞機房運維管理過程的重要信息。傳輸量跟用戶訪問量相關(guān),系統(tǒng)設(shè)計時從并發(fā)性、支持用戶的在線數(shù)、延遲性等方面進行規(guī)劃,以達到低延遲、高并發(fā)的目標。
數(shù)據(jù)中心機房運維管理平臺根據(jù)運維管理工作的需要,除具備權(quán)限管理、日志管理、界面展示等基本功能外,還可實現(xiàn)3D立體可視化展示、數(shù)據(jù)管理、動環(huán)監(jiān)測管理等功能。
在3D立體可視化展示過程中,能高仿真展示完整機房,并能展示設(shè)備實時數(shù)據(jù)。智能運維管理平臺系統(tǒng)能從園區(qū)逐層展開直至被管理的設(shè)備,層級包括:園區(qū)—數(shù)據(jù)樓或動力樓—樓層—機房—動力設(shè)備—用電設(shè)備。
在數(shù)據(jù)管理功能項下,具備對實時數(shù)據(jù)及歷史數(shù)據(jù)進行保存、查詢、編輯、導出等功能。
動環(huán)監(jiān)測管理包括對機房環(huán)境的溫濕度監(jiān)測、動力系統(tǒng)(配電系統(tǒng)、UPS電池、發(fā)電機等)監(jiān)測、能耗的采集與統(tǒng)計等。在數(shù)據(jù)機房的動環(huán)管理過程中,借助物聯(lián)網(wǎng)技術(shù),實現(xiàn)對機房全環(huán)境及重要設(shè)備的溫濕度精確監(jiān)測,并設(shè)定每個溫濕傳感器的溫度及濕度的上下限值(包括預(yù)警與報警),當監(jiān)測到的數(shù)據(jù)超過設(shè)定的限值時,可立刻報警通知值班人員或相應(yīng)主管人員。
隨著數(shù)據(jù)中心容量的增加、規(guī)模的擴大以及新型設(shè)備與技術(shù)的引入,數(shù)據(jù)中心運行與維護的難度也在加大,借助信息技術(shù)及物聯(lián)網(wǎng)等技術(shù)手段,可以解決數(shù)據(jù)中心機房運維管理遇到的難題。未來,數(shù)據(jù)中心機房將結(jié)合業(yè)務(wù)實際,建立完善的運維管理體系,提高數(shù)據(jù)中心全面保障能力,從而有效加強數(shù)據(jù)中心的運維保障能力,最終實現(xiàn)運維目標。