李 明,劉 軍,馬 永,管建超
(國網(wǎng)安徽省電力公司 信息通信分公司,安徽 合肥 230061)
基于IPMI的數(shù)據(jù)中心帶外管理設(shè)計(jì)與實(shí)現(xiàn)
李 明,劉 軍,馬 永,管建超
(國網(wǎng)安徽省電力公司 信息通信分公司,安徽 合肥 230061)
隨著IT技術(shù)的快速發(fā)展,數(shù)據(jù)中心規(guī)模逐漸擴(kuò)大,體系結(jié)構(gòu)越來越復(fù)雜,在給人們帶來便利的同時(shí),也給運(yùn)維管理增加了難度。為了保證系統(tǒng)穩(wěn)定運(yùn)行以及故障及時(shí)修復(fù),高效維護(hù)數(shù)據(jù)中心,設(shè)計(jì)并實(shí)現(xiàn)了基于IPMI的數(shù)據(jù)中心帶外管理系統(tǒng)。該系統(tǒng)實(shí)行統(tǒng)一平臺管理,模擬實(shí)際機(jī)房狀態(tài)并實(shí)現(xiàn)遠(yuǎn)程管理數(shù)據(jù)中心,能夠?qū)崟r(shí)監(jiān)控各硬件運(yùn)行狀態(tài),實(shí)現(xiàn)系統(tǒng)資源管理、功耗管理以及遠(yuǎn)程控制等功能。該系統(tǒng)具有良好的可靠性、可用性、可擴(kuò)展性、易用性和可管理性,從而達(dá)到高效運(yùn)維管理的目的。
帶外管理;IPMI;數(shù)據(jù)中心
本文從數(shù)據(jù)中心設(shè)備的現(xiàn)狀出發(fā),進(jìn)行帶外管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。當(dāng)前,企業(yè)信息化中各種服務(wù)器的統(tǒng)一管理是一個(gè)需要迫切解決的問題。由于業(yè)務(wù)系統(tǒng)和設(shè)備數(shù)量不斷整合與增加,各應(yīng)用系統(tǒng)的運(yùn)行維護(hù)、系統(tǒng)安全保障、硬件設(shè)備性能及指標(biāo)監(jiān)測等工作量和復(fù)雜度不斷加大,完全依靠手工方式無法實(shí)時(shí)監(jiān)測,且容易出錯(cuò)[1]。此外,遠(yuǎn)程登錄管理方式在網(wǎng)絡(luò)故障或者沒有開機(jī)情況下無法實(shí)現(xiàn)[2]。目前,越來越重視數(shù)據(jù)中心的高密度、低功耗、易管理等特性,且數(shù)據(jù)中心設(shè)備分布在多個(gè)區(qū)域,因此需要建設(shè)一套集中監(jiān)控管理平臺,實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的整體監(jiān)控與管理自動(dòng)化、IT設(shè)備功耗定制,實(shí)現(xiàn)節(jié)約化管理,以便最大限度保證信息系統(tǒng)不間斷為業(yè)務(wù)開展提供信息化服務(wù)。
1.1 IPMI簡介
IPMI[3](Intelligent Platform Management Interface)是一種開放標(biāo)準(zhǔn)的硬件管理接口規(guī)格,該標(biāo)準(zhǔn)是由Intel、HP、NEC、DELL和SuperMicro等公司發(fā)起制定,定義了通過嵌入式管理子系統(tǒng)進(jìn)行通信的特定方法。IPMI信息通過基板管理控制器(Baseboard Management Controller,BMC)進(jìn)行交流,在不依賴操作系統(tǒng)的情況下,實(shí)現(xiàn)對服務(wù)器硬件運(yùn)行狀態(tài)的監(jiān)控,如風(fēng)扇轉(zhuǎn)速、機(jī)箱內(nèi)部溫度、各CPU溫度、電壓和CMOS電池容量、電源開關(guān)狀態(tài)、底盤狀態(tài)等。這種方式具有兩個(gè)主要優(yōu)點(diǎn):首先,此配置允許進(jìn)行帶外服務(wù)器管理;其次,操作系統(tǒng)不必負(fù)擔(dān)傳輸系統(tǒng)狀態(tài)數(shù)據(jù)的任務(wù)。目前大部分廠家的服務(wù)器,如IBM、HP以及國內(nèi)華為、浪潮等眾多的品牌服務(wù)器都支持IPMI協(xié)議。
1.2 帶外管理
帶外管理[4]是指通過獨(dú)立于業(yè)務(wù)數(shù)據(jù)之外的專用管理通道對機(jī)房網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備以及電源系統(tǒng)等進(jìn)行集中化管理。帶外管理的核心理念在于只傳輸管理數(shù)據(jù)、統(tǒng)計(jì)信息、控制信息等,將網(wǎng)管數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)分離,兩者完全獨(dú)立互不影響,可以提高網(wǎng)管的效率與可靠性,也有利于提高網(wǎng)管數(shù)據(jù)的安全性。企業(yè)網(wǎng)絡(luò)上會傳輸各種業(yè)務(wù)數(shù)據(jù),如果業(yè)務(wù)網(wǎng)絡(luò)出現(xiàn)問題,通過該網(wǎng)絡(luò)排除故障。而且這種方式可以通過遠(yuǎn)程KVM對遠(yuǎn)端服務(wù)器進(jìn)行BIOS級控制。這種管理方式能夠減少運(yùn)營成本、提高運(yùn)營效率、減少宕機(jī)時(shí)間、提高服務(wù)質(zhì)量。
2.1 總體設(shè)計(jì)
借助3D展示技術(shù),為運(yùn)維人員提供集中監(jiān)控和展示平臺,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)推送,提供基于web的可視化設(shè)計(jì),將IT環(huán)境下的網(wǎng)絡(luò)、系統(tǒng)、業(yè)務(wù)、機(jī)房等進(jìn)行多維度展現(xiàn),并能夠提供宏觀態(tài)勢層面的多維分析、決策輔助,極大提升用戶體驗(yàn),對數(shù)據(jù)中心基礎(chǔ)設(shè)施實(shí)現(xiàn)集中式管理。
本文設(shè)計(jì)的帶外管理系統(tǒng)采用B/S架構(gòu),通過遠(yuǎn)程訪問被管理服務(wù)器的BMC芯片,對服務(wù)器的各項(xiàng)物理指標(biāo)進(jìn)行數(shù)據(jù)采集,再傳送給管理平臺,并執(zhí)行來自管理平臺的各種控制指令。整體架構(gòu)設(shè)計(jì)如圖1所示。
圖1 整體架構(gòu)設(shè)計(jì)
2.2 主要功能設(shè)計(jì)
帶外管理監(jiān)測的主要功能模塊包括電源管理、遠(yuǎn)程控制、功耗管理以及日志管理等,如圖2所示。
圖2 BMC功能控制模塊結(jié)構(gòu)
從圖2中可以看出,服務(wù)器監(jiān)控均通過BMC這個(gè)中間橋梁來實(shí)現(xiàn)?;驹硎且訧PMI協(xié)議為基礎(chǔ),遠(yuǎn)端通過LAN口發(fā)送控制命令給BMC,由BMC獲取信息后再反饋給請求者。
(1)電源管理模塊。電源管理[5]能獲取當(dāng)前電源狀態(tài),可以進(jìn)行開機(jī)、關(guān)機(jī)和重啟操作。如直接切斷服務(wù)器電源立刻關(guān)機(jī)會導(dǎo)致系統(tǒng)異常斷電。安全關(guān)機(jī)模式是在BMC受到命令后,再發(fā)送一個(gè)ACPI信號給服務(wù)器的操作系統(tǒng),操作系統(tǒng)收到信息后,再執(zhí)行自動(dòng)關(guān)機(jī)操作。
(2)遠(yuǎn)程控制模塊。BMC通過底層硬件接口對服務(wù)器VGA接口進(jìn)行采集,并使用相應(yīng)的視頻壓縮方法對圖像進(jìn)行壓縮以便在網(wǎng)絡(luò)上進(jìn)行傳輸,壓縮后的數(shù)據(jù)傳輸至負(fù)責(zé)網(wǎng)絡(luò)發(fā)送的模塊;網(wǎng)絡(luò)發(fā)送模塊通過網(wǎng)絡(luò)傳輸協(xié)議,將壓縮后的數(shù)據(jù)傳輸?shù)竭h(yuǎn)程客戶端應(yīng)用層進(jìn)行處理,同時(shí)還需要處理、接收客戶端應(yīng)用程序傳輸過來的鼠標(biāo)、鍵盤響應(yīng)數(shù)據(jù)。此外,還有諸如用戶認(rèn)證、數(shù)據(jù)加密等模塊[6]。
除可以操作服務(wù)器本身外,還需對其外圍設(shè)備進(jìn)行控制,包括對服務(wù)器的溫度、電壓、風(fēng)扇轉(zhuǎn)速等安全閾值區(qū)間的設(shè)定,具有定位功能LED燈的開關(guān)操作等。
(3)功耗管理模塊。功耗管理模塊[7]首先通過LAN發(fā)送釆集數(shù)據(jù)請求服務(wù),請求命令通過LAN傳輸?shù)紹MC,BMC根據(jù)具體響應(yīng)將傳感器各類具體信息更新至SDR中,同時(shí)將SDR中最新信息通過BMC傳輸?shù)絊erial串口,通過串口重定向技術(shù)將數(shù)據(jù)信息傳輸?shù)絃AN接口,最終通過UDP報(bào)文方式發(fā)送至功耗管理模塊,對其進(jìn)行數(shù)據(jù)解析和轉(zhuǎn)換并將信息存儲到數(shù)據(jù)庫中。將服務(wù)器主板上各類傳感器采集到的動(dòng)態(tài)能耗數(shù)據(jù)存儲到BMC的SDR中,這些數(shù)據(jù)是時(shí)刻動(dòng)態(tài)變化的,需要周期性進(jìn)行采集才能達(dá)到實(shí)時(shí)監(jiān)測服務(wù)器的目的。
(4)日志管理模塊。服務(wù)器的SEL存儲著系統(tǒng)事件和系統(tǒng)配置信息,SEL中每條記錄都有唯一的ID,ID號從0000h到FFFFh,通過ID號就可以對日志進(jìn)行檢索,提取對應(yīng)的信息。日志管理模塊[8]首先向BMC發(fā)送請求,BMC根據(jù)要求獲取SEL上的記錄,BMC將記錄以UDP報(bào)文的形式發(fā)送到日志管理模塊,最后將日志記錄解析后存放到數(shù)據(jù)庫中。
除了服務(wù)器本身的日志外,同時(shí)還提供認(rèn)證、授權(quán)、訪問控制日志,實(shí)現(xiàn)管理員權(quán)限的精細(xì)化管控。對管理員的操作進(jìn)行審計(jì),方便管理和事后追查。
2.3 帶外管理軟件實(shí)現(xiàn)
為保證系統(tǒng)的可移植性,本系統(tǒng)采用java語言開發(fā),采用模塊化設(shè)計(jì),IPMI與BMC之間的交互和各個(gè)功能模塊都提供統(tǒng)一的API接口,以便后期功能擴(kuò)展。為了保證較少的系統(tǒng)資源占用,同時(shí)也為了簡化系統(tǒng)結(jié)構(gòu),集中監(jiān)控系統(tǒng)采用輕量化數(shù)據(jù)庫Mysql作為數(shù)據(jù)庫。最終實(shí)現(xiàn)的管理系統(tǒng)如圖3所示,系統(tǒng)全方位展示數(shù)據(jù)中心的狀態(tài),比如3D展示機(jī)房,可以清楚了解新機(jī)器的上下架問題,以及機(jī)房空間位置等,同時(shí)系統(tǒng)還列出維護(hù)數(shù)據(jù)中心需要的日志、功耗、溫度等信息。該系統(tǒng)與其它監(jiān)控軟件相比,具有如下幾個(gè)特點(diǎn):
圖3 監(jiān)控管理軟件界面
(1)提高IT服務(wù)運(yùn)作的效率,降低IT服務(wù)運(yùn)作的成本,實(shí)現(xiàn)網(wǎng)絡(luò)及系統(tǒng)管理工具與管理制度的有效銜接。
(2)通過實(shí)時(shí)監(jiān)控減輕維護(hù)人員的工作量,將原來分立的系統(tǒng)管理模式變?yōu)榧泄芾砟J健?/p>
(3)能進(jìn)行事件/日志的集中統(tǒng)一收集、分析、處理和告警,對信息系統(tǒng)進(jìn)行全方位監(jiān)視和管理,快速定位故障,有效預(yù)測、預(yù)防、隔離、診斷和解決故障。
(4)自主開發(fā)有利于實(shí)現(xiàn)信息系統(tǒng)的“自主可控、安全可信、高效可用”。
該系統(tǒng)在設(shè)備定制化項(xiàng)目中得到應(yīng)用,目前系統(tǒng)正常運(yùn)行,在數(shù)據(jù)中心日常維護(hù)中起到很好的效果。雖然系統(tǒng)在功能和性能上滿足了維護(hù)的需求,但還需要優(yōu)化管理策略,比如功耗管理策略是預(yù)先設(shè)定的,不夠智能化,需要研究功耗自動(dòng)管理算法,而且還需擴(kuò)展系統(tǒng)的功能,比如容量告警、報(bào)表統(tǒng)計(jì)等。使得系統(tǒng)更加智能化、更好地實(shí)現(xiàn)統(tǒng)一管理數(shù)據(jù)中心的目的。
隨著云計(jì)算、大數(shù)據(jù)的普及和國家“互聯(lián)網(wǎng)+”戰(zhàn)略的提出,電力系統(tǒng)的信息化進(jìn)程也在不斷推進(jìn),數(shù)據(jù)中心的基礎(chǔ)設(shè)施和應(yīng)用資源得到迅速增長。需要及時(shí)高效監(jiān)控和管理資源的可用性,保證服務(wù)的可靠性。
本文研究設(shè)計(jì)了基于IPMI的帶外管理系統(tǒng),使得數(shù)據(jù)中心服務(wù)器集中統(tǒng)一管理,為數(shù)據(jù)中心維護(hù)提供了有效幫助。系統(tǒng)能在不間斷運(yùn)行的情況下及時(shí)發(fā)現(xiàn)并排除系統(tǒng)潛在的安全隱患,具有良好的通用性和可擴(kuò)展性,能方便地?cái)U(kuò)充新功能,當(dāng)設(shè)備硬件變化時(shí)能對數(shù)據(jù)中心靈活的進(jìn)行集中監(jiān)控和管理,降低了中心的維護(hù)成本。帶外管理使得運(yùn)維人員不必進(jìn)入機(jī)房進(jìn)行現(xiàn)場管理,這樣大大提高了運(yùn)維的效率和數(shù)據(jù)中心的安全性。
[1] 張毅,陳良,龐劍.多集群計(jì)算環(huán)境故障監(jiān)控管理系統(tǒng)[J].計(jì)算機(jī)工程與科學(xué),2013,35(11):54-61.
[2] 陳婉.云計(jì)算環(huán)境下虛擬化數(shù)據(jù)中心融合技術(shù)[J].軟件導(dǎo)刊,2016,15 (4):166-168.
[3] 張冰潔.基于IPMI的智能平臺管理系統(tǒng)設(shè)計(jì)[D].廣州:中山大學(xué),2014.
[4] 鄭明玲,蔣句平,袁遠(yuǎn),等.一種面向大規(guī)模計(jì)算機(jī)的監(jiān)控管理系統(tǒng)[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2015,42(4):107-113.
[5] 劉龍.智能服務(wù)器電源管理平臺技術(shù)研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2011.
[6] 車路,張煥遠(yuǎn),夏亞東.基于開源軟件的云監(jiān)控平臺設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算技術(shù)與自動(dòng)化,2015,34(1):136-140.
[7] 李寧.數(shù)據(jù)中心能耗數(shù)據(jù)采集方法研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.
[8] 張國強(qiáng),董紹彤,于濤.一種高安全云管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識與技術(shù),2014,10(24):5628-5631.
(責(zé)任編輯:陳福時(shí))
李明 (1971-),男,安徽巢湖人,國網(wǎng)安徽省電力公司信息通信分公司高級工程師,研究方向?yàn)樾畔⒒?guī)劃建設(shè)運(yùn)維管理;劉軍(1978-)男,湖北孝感人,國網(wǎng)安徽省電力公司信息通信分公司高級工程師,研究方向?yàn)樾畔⑾到y(tǒng)運(yùn)維管理;馬永(1989-),男,安徽宿州人,國網(wǎng)安徽省電力公司信息通信分公司助理工程師,研究方向?yàn)殡娏π畔⒒ㄔO(shè)運(yùn)維;管建超(1978-),男,安徽合肥人,國網(wǎng)安徽省電力公司信息通信分公司高級工程師,研究方向?yàn)殡娏π畔⒒?/p>
10.11907/rjdk.162410
TP319
A
1672-7800(2017)003-0074-03