張偉,王倚天
摘要:高校主機(jī)房監(jiān)控系統(tǒng)的智能化建設(shè)意義重大。通過對(duì)影響主機(jī)房穩(wěn)定運(yùn)行的風(fēng)險(xiǎn)因素分析,提出了基于預(yù)判的設(shè)備自動(dòng)開關(guān)智能系統(tǒng)規(guī)劃,給出了應(yīng)急故障響應(yīng)流程圖。
關(guān)鍵詞:風(fēng)險(xiǎn);智能化;監(jiān)控系統(tǒng)
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)19-0093-02
Intelligent Construction of Computer Room Monitoring System Based on Risk Prevention and Control
ZHANG Wei, WANG Yi-tian
(Shenyang University of Chemical Technology,Shenyang 1101421, China)
Abstract: The intelligent construction of the monitoring system of computer room in the university is very important. Through the analysis of the risk factors that affect the stable operation of computer room, the intelligent system plan of automatic operation of equipment based on the prediction is proposed, and the emergency response flow chart is given.
Key words: risk; intelligent; monitoring system
隨著高校信息化、數(shù)字化建設(shè)的不斷發(fā)展,高校機(jī)房作為高校軟件和硬件的系統(tǒng)匹配的數(shù)據(jù)中心,軟硬件設(shè)施越來越多,種類豐富、系統(tǒng)繁雜,這就需要我們實(shí)時(shí)對(duì)應(yīng)用系統(tǒng)和機(jī)房環(huán)境進(jìn)行檢測(cè)和監(jiān)控。
1 主機(jī)房監(jiān)控風(fēng)險(xiǎn)防控因素
1.1 長(zhǎng)期開機(jī)狀態(tài)
很多主機(jī)房服務(wù)器處于24小時(shí)常年開機(jī)狀態(tài),有兩點(diǎn)不利影響,一是縮短服務(wù)器及其硬盤使用壽命,二是浪費(fèi)電能,在凌晨至5點(diǎn)期間資源及其應(yīng)用服務(wù)基本處于無人使用狀態(tài),可以考慮將機(jī)器暫時(shí)關(guān)閉,使用時(shí)再正常開啟[1]。
1.2 非正常關(guān)閉
突然停電對(duì)電子設(shè)備尤其是硬盤的損傷比較大,有可能一次停電會(huì)造成硬盤損壞,數(shù)據(jù)丟失等嚴(yán)重問題,數(shù)據(jù)是業(yè)務(wù)運(yùn)轉(zhuǎn)的核心,是加工累積的成果,具有重要的價(jià)值和作用。減少非法關(guān)機(jī)次數(shù),將會(huì)極大減少設(shè)備損失的概率,所以在停電后UPS啟動(dòng)供電時(shí)應(yīng)及時(shí)關(guān)閉服務(wù)器,這對(duì)于保護(hù)數(shù)據(jù)丟失有很重要的意義。
UPS電池一年內(nèi)放電兩次,有效增加UPS電池使用壽命,放電可以是主動(dòng)放電和被動(dòng)放電,主動(dòng)放電就是人為強(qiáng)制UPS電池工作,機(jī)房所有設(shè)備的供電來源于UPS電池,讓電池完成自我充電運(yùn)轉(zhuǎn),延遲電池使用時(shí)間。被動(dòng)放電是市電偶然性停電,具有突發(fā)性,不可控性,停電時(shí)間過長(zhǎng)導(dǎo)致電池電量徹底消耗干凈后硬件設(shè)施非法斷電,這樣的后果是對(duì)硬件包括服務(wù)器、磁盤陣列、存儲(chǔ)器、UPS、交換機(jī)的損害比較大,硬盤可能由于非法斷電后數(shù)據(jù)丟失,甚至硬盤損壞。
1.3 主機(jī)房溫濕度環(huán)境
主機(jī)房溫濕度的差異對(duì)服務(wù)器、存儲(chǔ)器等設(shè)備狀態(tài)的影響非常巨大,常年溫度和濕度不均衡,溫度較高,濕度較高嚴(yán)重增加了機(jī)器設(shè)備的損害程度,加速機(jī)器設(shè)備的報(bào)廢,縮短使用年限。
主機(jī)房溫度一般控制在20攝氏度到24攝氏度之間,濕度控制在45%到65%之間,在數(shù)據(jù)中心電源會(huì)加熱空氣,除非熱量被排除出去,否則環(huán)境溫度就會(huì)上升,導(dǎo)致電子設(shè)備失靈。通過控制空氣溫度,服務(wù)器組件能夠保持制造商規(guī)定的溫度/濕度范圍內(nèi)。空調(diào)系統(tǒng)通過冷卻室內(nèi)空氣下降到露點(diǎn)幫助控制濕度,濕度太大,水可能在內(nèi)部部件上開始凝結(jié)。如果在干燥的環(huán)境中,輔助加濕系統(tǒng)可以添加水蒸氣,因?yàn)槿绻麧穸忍?,可能?dǎo)致靜電放電問題,可能會(huì)損壞元器件[2]。
2 基于預(yù)判的設(shè)備自動(dòng)開關(guān)智能系統(tǒng)規(guī)劃
2.1 UPS剩余電量的預(yù)判和設(shè)備自動(dòng)關(guān)機(jī)
停電后UPS供電系統(tǒng)自動(dòng)啟動(dòng),一般情況下UPS電池配備是根據(jù)設(shè)備數(shù)量、負(fù)載狀況來考量的,如果停電時(shí)間比較長(zhǎng),超過了UPS電池的最大供電時(shí)間,那么我們就需要在UPS電池電量還未全部消耗完的情況下提前關(guān)閉設(shè)備,以防止設(shè)備突然停電的損壞,同時(shí)UPS也需要正常關(guān)閉。
在UPS電池電量剩余1小時(shí)的前提下,對(duì)設(shè)備進(jìn)行自動(dòng)關(guān)閉,設(shè)備關(guān)閉后再關(guān)閉UPS,這些操作都需要軟件系統(tǒng)來自動(dòng)執(zhí)行,避免了人工現(xiàn)場(chǎng)操作,節(jié)省了人力和時(shí)間。
2.2 UPS和服務(wù)器等設(shè)備的自動(dòng)啟動(dòng)
在停電后對(duì)設(shè)備和UPS進(jìn)行正常關(guān)閉后,設(shè)備和UPS的安全得到了保障和維護(hù)。同時(shí)當(dāng)正常供電后UPS和服務(wù)器等設(shè)備還需要開機(jī)啟動(dòng),首先應(yīng)該啟動(dòng)UPS供電設(shè)備,然后啟動(dòng)服務(wù)器等設(shè)備,UPS供電設(shè)備啟動(dòng)5分鐘后再啟動(dòng)服務(wù)器,服務(wù)器全部自動(dòng)開機(jī),服務(wù)自動(dòng)開啟,應(yīng)用智能系統(tǒng)完成上述操作,省時(shí)省力。
智能系統(tǒng)完成UPS和服務(wù)器等設(shè)備關(guān)閉和開啟,如果順利完成系統(tǒng)會(huì)發(fā)信息到管理員手機(jī)上,如果有問題也會(huì)發(fā)提示信息到管理員手機(jī)。智能系統(tǒng)會(huì)向管理員隨時(shí)報(bào)告設(shè)備的運(yùn)行狀態(tài),使得管理員隨時(shí)隨地就能監(jiān)控設(shè)備、管理主機(jī)室環(huán)境。
2.3 應(yīng)急故障響應(yīng)流程設(shè)計(jì)
停電應(yīng)急故障響應(yīng)流程圖如圖1所示,停電后UPS自動(dòng)啟動(dòng)供電,根據(jù)負(fù)載數(shù)量判斷維持時(shí)間,一般UPS控制器前端都有液晶面板,液晶面板上可以看到負(fù)載情況,UPS在市電情況下是旁路供電,停電后是UPS電池供電。UPS管理系統(tǒng)安裝到服務(wù)器上,與UPS串口相連,UPS管理系統(tǒng)會(huì)一直監(jiān)視電池剩余情況,當(dāng)電池維持時(shí)間降到1小時(shí)以下并且還未恢復(fù)供電,這時(shí)候啟動(dòng)智能關(guān)閉系統(tǒng),將服務(wù)器和存儲(chǔ)器逐一關(guān)閉,對(duì)于服務(wù)器上有運(yùn)行的應(yīng)用程序需要額外關(guān)閉的,例如oracle數(shù)據(jù)庫(kù),需要先將oracle數(shù)據(jù)庫(kù)正常關(guān)閉后再關(guān)閉系統(tǒng)。服務(wù)器和存儲(chǔ)器正常關(guān)閉后再關(guān)閉UPS,停止UPS電池供電工作。當(dāng)UPS電池維持時(shí)間在1小時(shí)以上并且恢復(fù)供電則不啟動(dòng)智能關(guān)閉系統(tǒng)。
當(dāng)市電來電后,UPS來電自動(dòng)啟動(dòng),對(duì)UPS充電,服務(wù)器和存儲(chǔ)器設(shè)備依靠旁路市電供電,然后啟動(dòng)智能開機(jī)系統(tǒng),服務(wù)器開機(jī)、應(yīng)用系統(tǒng)運(yùn)行等,如圖2所示。
3 主機(jī)房監(jiān)控系統(tǒng)智能化建設(shè)意義
3.1 主機(jī)房監(jiān)控管理智能化趨勢(shì)
服務(wù)器虛擬化技術(shù)的成熟應(yīng)用,不僅節(jié)省電能,而且可以實(shí)現(xiàn)服務(wù)器系統(tǒng)快速重構(gòu),節(jié)省了雙機(jī)冗余備份的負(fù)擔(dān),從雙機(jī)到虛擬化,在風(fēng)險(xiǎn)上增加了安全系數(shù),在管理上簡(jiǎn)化了管理方法。
3.2 主機(jī)房數(shù)據(jù)安全的重要性
數(shù)據(jù)是業(yè)務(wù)流程的核心,是長(zhǎng)時(shí)間累積的信息和知識(shí),長(zhǎng)年工作的價(jià)值所在,它的重要性不言而喻。數(shù)據(jù)損壞或丟失都是對(duì)固定資產(chǎn)的嚴(yán)重流失,數(shù)據(jù)對(duì)于生產(chǎn)企業(yè)來說是無價(jià)的,對(duì)于金融行業(yè)更是極其寶貴的。
一般UPS控制器是工頻機(jī),比較耐用,使用10多年都沒有問題,服務(wù)器硬盤一般是SAS,轉(zhuǎn)速1萬轉(zhuǎn),信息傳輸速率快,使用壽命一般最長(zhǎng)10年。當(dāng)購(gòu)置服務(wù)器或者存儲(chǔ)器時(shí),多買幾塊硬盤,一般服務(wù)器或者存儲(chǔ)器磁盤按RAID5標(biāo)準(zhǔn)建立磁盤冗余陣列,如果RAID5中的某一塊成員盤出現(xiàn)物理故障,服務(wù)器或者存儲(chǔ)器還可以繼續(xù)工作不會(huì)崩潰;如果出現(xiàn)兩塊成員盤損壞,則服務(wù)器或者存儲(chǔ)器將不能正常工作而徹底崩潰[3]。
參考文獻(xiàn):
[1] 雷勇,張敏.高校計(jì)算機(jī)機(jī)房電能監(jiān)控與節(jié)能研究[J].企業(yè)科技與發(fā)展,2019(8):153-154.
[2] 龔文濤,郎穎瑩.基于安全視角下的高校機(jī)房監(jiān)控系統(tǒng)規(guī)劃[J].自動(dòng)化技術(shù)與應(yīng)用,2018,37(6):137-139.
[3] 董昶.論RAID磁盤存儲(chǔ)技術(shù)[J].煤炭技術(shù),2012,31(5):192-193.
【通聯(lián)編輯:代影】