張曉峰
摘 要: 從高校服務(wù)器集群管理的實(shí)際需要出發(fā),以電網(wǎng)供電和環(huán)境溫度作為主要環(huán)境參數(shù)進(jìn)行研究, 采用上、下位機(jī)設(shè)計(jì)方案,結(jié)合計(jì)算機(jī)、網(wǎng)絡(luò)、單片機(jī)技術(shù),具體設(shè)計(jì)了服務(wù)器集群自動保護(hù)系統(tǒng)。當(dāng)環(huán)境參數(shù)異常時自動關(guān)閉服務(wù)器集群,環(huán)境參數(shù)恢復(fù)正常時,自動恢復(fù)服務(wù)器集群的正常服務(wù)功能。目前系統(tǒng)軟、硬件設(shè)計(jì)已經(jīng)完成,實(shí)現(xiàn)了服務(wù)器集群自動保護(hù)功能,通過實(shí)際應(yīng)用,取得了很好的效果。
關(guān)鍵詞: 服務(wù)器集群管理; 自動保護(hù); 系統(tǒng)設(shè)計(jì); 環(huán)境參數(shù)
中圖分類號: TN911?34; TN98 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)08?0008?03
Design of server cluster automatic protection system based on environmental parameters
ZHANG Xiaofeng
(Northwest A&F University of Information Engineering, Yangling 712100, China)
Abstract: Proceeding from the actual management needs of the server clusters in universities, and taking the power supply and ambient temperature of a power grid as a main environmental parameters of the research, the automatic protection system of server cluster was designed in combination with design scheme of upper and lower computers, computer technology, network technology and SCM technology. When any environment parameter is abnormal, the server cluster is automatically closed, and the normal service function of the server cluster is automatically restored when the environment parameters are returned to normal. At present, the system software and hardware design has been completed, and the server cluster automatic protection function has been realized. The very good result of practical application has been achieved.
Keyword: server cluster management; automatic protection; system design; environmental parameter
0 引 言
在高校的計(jì)算機(jī)實(shí)驗(yàn)教學(xué)中心,服務(wù)器集群是核心節(jié)點(diǎn),承載著教學(xué)和科研服務(wù)功能,全年不間斷工作[1]。要保障可靠運(yùn)行,除設(shè)備本身的因素外,運(yùn)行環(huán)境至關(guān)重要[2]。運(yùn)行環(huán)境中最重要的兩個因素是電網(wǎng)供電和環(huán)境溫度,因?yàn)楫惓Mk姇斐煞?wù)器數(shù)據(jù)丟失,而高溫會使服務(wù)器設(shè)備癱瘓甚至損壞[3?4]。因此,在服務(wù)器集群的運(yùn)行環(huán)境中,大功率UPS電源和精密制冷空調(diào)是必須的配套設(shè)備。但在實(shí)際應(yīng)用中,一些突發(fā)因素仍然會導(dǎo)致服務(wù)器數(shù)據(jù)丟失甚至造成設(shè)備損壞[5]。根據(jù)對西北農(nóng)林科技大學(xué)計(jì)算機(jī)教學(xué)實(shí)驗(yàn)中心服務(wù)器集群十多年的運(yùn)行統(tǒng)計(jì),概率最高的兩個因素是電網(wǎng)異常停電和空調(diào)故障[6?7]。當(dāng)電網(wǎng)異常停電時,服務(wù)器集群有UPS供電仍能正常工作,但空調(diào)是感性負(fù)載,UPS電源無法給空調(diào)提供電力,因此電網(wǎng)停電時空調(diào)也停止工作[8]。此時,服務(wù)器集群工作所產(chǎn)生的熱量使運(yùn)行環(huán)境的溫度迅速升高,如果不能及時發(fā)現(xiàn)和處置,高溫最終會導(dǎo)致服務(wù)器系統(tǒng)癱瘓,并引起數(shù)據(jù)丟失甚至造成設(shè)備損壞。空調(diào)出現(xiàn)故障時,引起的情況與此相同。因此,當(dāng)電網(wǎng)異常停電或空調(diào)出現(xiàn)故障時,如何保護(hù)服務(wù)器集群設(shè)備并防止數(shù)據(jù)丟失,具有重要的研究意義。
1 現(xiàn)狀及存在的問題
目前對服務(wù)器集群監(jiān)控的主要方法是采用機(jī)房動力和環(huán)境監(jiān)控系統(tǒng),該技術(shù)是基于GSM的短信報(bào)警系統(tǒng),即當(dāng)機(jī)房的環(huán)境溫度、濕度、電網(wǎng)電壓等參數(shù)超過設(shè)定的范圍時,報(bào)警系統(tǒng)以手機(jī)短信的形式發(fā)給管理者,以便管理人員能及時地發(fā)現(xiàn)和處置問題[9]。短信報(bào)警方式實(shí)質(zhì)上是“無線報(bào)警+人力保障”的管理模式,但對高校計(jì)算機(jī)實(shí)驗(yàn)教學(xué)中心而言,服務(wù)器集群的規(guī)模相對較?。?00臺以下),而且這些機(jī)房都無人值守,因此這種監(jiān)控方式本身就不完善,主要表現(xiàn)在以下幾個方面:
(1) 在晚上一些時段,特別是24:00以后,即使技術(shù)管理人員接收到報(bào)警短信,但由于大家都在熟睡,短信可能被忽略。
(2) 遇到雙休日、節(jié)假日,技術(shù)管理人員可能遠(yuǎn)離設(shè)備所在地,當(dāng)收到報(bào)警短信時,問題很難及時處置。特別是在高校的寒、暑假期間,這種問題表現(xiàn)得最為突出。
(3) 可能造成較大的經(jīng)濟(jì)損失。一般情況下,服務(wù)器集群與交換機(jī)、路由器等設(shè)備都集中安裝在中心機(jī)房,這些核心設(shè)備不僅運(yùn)行著各種關(guān)鍵業(yè)務(wù),而且設(shè)備價值一般比較高,一旦出現(xiàn)上述異常情況,如果處置不及時而造成設(shè)備損壞,不但影響大,其損失往往也較大。
以上問題是基于GSM的短信報(bào)警技術(shù)本身無法解決的。