文|中國(guó)惠普有限公司 常 菲
世源科技工程有限公司 牛 悅
企事業(yè)的數(shù)據(jù)中心,如金融、保險(xiǎn)及通信運(yùn)營(yíng)商等計(jì)算機(jī)及網(wǎng)絡(luò)通信設(shè)備投入服務(wù)后,若無(wú)一個(gè)長(zhǎng)期穩(wěn)定的外圍物理環(huán)境來(lái)保證IT設(shè)備的正常運(yùn)行,一旦造成服務(wù)器的宕機(jī),勢(shì)必造成一定的經(jīng)濟(jì)損失或不好的社會(huì)影響。數(shù)據(jù)中心的基礎(chǔ)設(shè)施是IT設(shè)備連續(xù)穩(wěn)定運(yùn)行的保證,建設(shè)高可用性和高可靠性的數(shù)據(jù)中心則成為建設(shè)單位及設(shè)計(jì)單位考慮的重點(diǎn)。國(guó)內(nèi)外的數(shù)據(jù)中心規(guī)范、標(biāo)準(zhǔn)對(duì)數(shù)據(jù)中心的等級(jí)劃分,歸根結(jié)底還是在可用性和可靠性要求上的一個(gè)劃分,等級(jí)越高其可用性和可靠性就越高。
可用性是指長(zhǎng)時(shí)間的一個(gè)平均數(shù)值,用這個(gè)數(shù)值來(lái)表示某一運(yùn)行中的可修復(fù)設(shè)備或系統(tǒng)在這段時(shí)間內(nèi)能按其功能穩(wěn)定運(yùn)行的能力。可用性(A)可用平均無(wú)故障時(shí)間(MTBF)和平均故障維修時(shí)間(MTTR)來(lái)計(jì)算:
如2008年某城市電網(wǎng)的平均無(wú)故障時(shí)間為8756小時(shí),平均故障維修時(shí)間為4小時(shí),則2008年此城市電網(wǎng)的可用性為:
可用性并沒(méi)有對(duì)故障次數(shù)有限制。如上例,2008年某城市電網(wǎng)系統(tǒng)的可用性為0.99954,表示出2008年總的停電時(shí)間為4小時(shí),但是,并不確定停電次數(shù),有可能只停電一次,停了4小時(shí),也可能停了四
國(guó)家標(biāo)準(zhǔn)《電子信息系統(tǒng)機(jī)房設(shè)計(jì)規(guī)范》(GB 50174-2008)要求設(shè)計(jì)時(shí)根據(jù)機(jī)房的使用性質(zhì)、管理要求及其在經(jīng)濟(jì)和社會(huì)中的重要性,確定所屬級(jí)別,并對(duì)不同的級(jí)別提出了不同的性能要求。A級(jí)機(jī)房的基礎(chǔ)設(shè)施要達(dá)到容錯(cuò)的要求;B級(jí)機(jī)房的基礎(chǔ)設(shè)施達(dá)到冗余配置;C級(jí)機(jī)房的基礎(chǔ)設(shè)施滿(mǎn)足基本需求配置。并對(duì)不同級(jí)別的機(jī)房在技術(shù)要求方面進(jìn)行了說(shuō)明,如抗震設(shè)防的要求、冷凍機(jī)組配置要求、供電電源要求、柴油發(fā)電機(jī)及UPS的配置要求等,這些方面的要求都是為了建設(shè)一個(gè)滿(mǎn)足相應(yīng)等級(jí)的可靠性和可用性的數(shù)據(jù)中心。
美國(guó)通信工業(yè)協(xié)會(huì)的TIA 942標(biāo)準(zhǔn)將數(shù)據(jù)中心分為4級(jí),并對(duì)建筑結(jié)構(gòu)、供電系統(tǒng)、空調(diào)系統(tǒng)等基礎(chǔ)設(shè)施按不同級(jí)別、不同可靠性的配置要求進(jìn)行了描述。Tier1級(jí)別要求基礎(chǔ)設(shè)施滿(mǎn)足基本需求配置;Tier2級(jí)別要求滿(mǎn)足冗余配置;Tier3級(jí)別要求可達(dá)到在線維護(hù)的冗余配置;Tier4級(jí)別要求可達(dá)到容錯(cuò)的配置。國(guó)內(nèi)外規(guī)范、標(biāo)準(zhǔn)的分級(jí)既有相同之處,也有不同之處,但都對(duì)不同級(jí)別的數(shù)據(jù)中心提出了不同的可用性和可靠性的要求。
數(shù)據(jù)中心由多個(gè)系統(tǒng)構(gòu)成,包括供配電系統(tǒng)、空調(diào)系統(tǒng)、綜合布線系統(tǒng)、消防系統(tǒng)等,每個(gè)系統(tǒng)的可用性共同決定了整個(gè)數(shù)據(jù)中心的可用性。供配電系統(tǒng)又由市電、柴油發(fā)電機(jī)系統(tǒng)、UPS系統(tǒng)等構(gòu)成,其中任何一個(gè)部分有問(wèn)題都會(huì)降低系統(tǒng)的可用性。每個(gè)系統(tǒng)基本上是由不同的設(shè)備或子系統(tǒng)通過(guò)串聯(lián)或并聯(lián)組成的。
若系統(tǒng)1由設(shè)備1和設(shè)備2串聯(lián)組成,系統(tǒng)1的可用性為A,設(shè)備1的可用性為A1,設(shè)備2的可用性為A2,如圖1所示。
若系統(tǒng)1由設(shè)備1和設(shè)備2并聯(lián)組成,系統(tǒng)1的可用性為A,設(shè)備1的可用性為A1,設(shè)備2的可用性為A2,如圖2所示。
以一個(gè)簡(jiǎn)單的供配電系統(tǒng)為例,UPS采用1+1冗余方式配置。若整個(gè)系統(tǒng)可用性為A,市電電網(wǎng)可用性為A1,主配電柜可用性為A2,UPS1(包括電池系統(tǒng))可用性為A3,UPS2(包括電池系統(tǒng))可用性為A4,分配電柜可用性為A5。如圖3所示。
圖1 串聯(lián)系統(tǒng)
圖2 并聯(lián)系統(tǒng)
圖3 UPS 1+1 冗余配置
則此系統(tǒng)的可用性A= A1×A2×(A3+A4- A3×A4)×A5。
系統(tǒng)的結(jié)構(gòu)及配置直接決定了數(shù)據(jù)中心的可用性和可靠性。如果一個(gè)系統(tǒng)是由各個(gè)子系統(tǒng)串聯(lián)而成,則任何一個(gè)子系統(tǒng)出現(xiàn)故障將導(dǎo)致整個(gè)系統(tǒng)的癱瘓,因此這樣系統(tǒng)的可用性和可靠性低于任何一個(gè)子系統(tǒng)的可用性和可靠性。這就是消除和減少單點(diǎn)故障的原因,保證為用戶(hù)提供連續(xù)不間斷的7×24小時(shí)服務(wù),在設(shè)計(jì)和建設(shè)時(shí)要減少單點(diǎn)故障的存在,對(duì)可能存在單點(diǎn)故障的環(huán)節(jié),在設(shè)計(jì)上要盡可能的減少其對(duì)整個(gè)系統(tǒng)的影響,機(jī)房各系統(tǒng)也都具有足夠的冗余能力?!峨娮有畔⑾到y(tǒng)機(jī)房設(shè)計(jì)規(guī)范》(GB 50174-2008)中的A級(jí)機(jī)房和TIA 942標(biāo)準(zhǔn)中的Tier4級(jí)別機(jī)房,都對(duì)系統(tǒng)提出了容錯(cuò)的要求。數(shù)據(jù)中心基礎(chǔ)設(shè)施的容錯(cuò)配置是可以消除系統(tǒng)的單點(diǎn)故障,如2N配置的系統(tǒng)可用性能夠達(dá)到99.9998%。冗余配置可以減少系統(tǒng)的單點(diǎn)故障,如果系統(tǒng)結(jié)構(gòu)合理還能滿(mǎn)足在線維護(hù)的要求,這都在很大程度上提高了系統(tǒng)的可用性和可靠性。
數(shù)據(jù)中心的運(yùn)維管理是很重要的,科學(xué)合理的運(yùn)維管理體系可以直接降低系統(tǒng)發(fā)生故障的可能性。數(shù)據(jù)中心的系統(tǒng)是比較復(fù)雜的,復(fù)雜的系統(tǒng)會(huì)增加故障處理的難度,甚至很長(zhǎng)時(shí)間找不到故障的原因,這就可能增加了宕機(jī)的時(shí)間。很多實(shí)例證明,人為操作失誤是導(dǎo)致系統(tǒng)宕機(jī)的一個(gè)重要原因,因此提高運(yùn)維人員的素質(zhì)是保證數(shù)據(jù)中心穩(wěn)定運(yùn)行的有效手段,而對(duì)運(yùn)維人員的定期培訓(xùn)則是必要的。人為錯(cuò)誤的減少直接降低宕機(jī)的風(fēng)險(xiǎn),甚至在設(shè)備出現(xiàn)故障時(shí),能夠通過(guò)合理快速的操作,避免宕機(jī)或減少宕機(jī)時(shí)間。設(shè)備的日常維護(hù)可以降低設(shè)備故障的幾率,任何設(shè)備其實(shí)都是需要維護(hù)的,平常能夠發(fā)現(xiàn)潛在的問(wèn)題并及時(shí)處理,消除本來(lái)可以避免的問(wèn)題。例如,UPS的蓄電池就是供配電系統(tǒng)中一個(gè)比較薄弱的環(huán)節(jié),一般電池出現(xiàn)故障的概率要高于其他配電設(shè)備,任何一節(jié)蓄電池出現(xiàn)問(wèn)題都可能給整個(gè)系統(tǒng)帶來(lái)風(fēng)險(xiǎn),因此電池的日常監(jiān)測(cè)與維護(hù)是必不可少的,電池的壽命達(dá)到預(yù)期值時(shí)要及時(shí)更換。
數(shù)據(jù)中心設(shè)計(jì)的靈活性、可拓展性也是一些客戶(hù)比較關(guān)心的問(wèn)題,尤其是對(duì)一些需要分期實(shí)施、分期投入運(yùn)行的企業(yè)。如果在分期實(shí)施的過(guò)程中對(duì)已運(yùn)行的設(shè)備產(chǎn)生影響甚至需要停機(jī)一段時(shí)間,則對(duì)高可用性的機(jī)房是不可接受的。因此,數(shù)據(jù)中心必須做好準(zhǔn)備應(yīng)對(duì)未來(lái)的發(fā)展變化,在系統(tǒng)設(shè)計(jì)上盡量做到具有較大的靈活性,“統(tǒng)一設(shè)計(jì)、分期實(shí)施”的方法就顯得尤為重要。如果客戶(hù)有需求,需要考慮空間規(guī)劃、容量規(guī)劃和系統(tǒng)設(shè)計(jì)的合理性,確保系統(tǒng)具有可擴(kuò)展性和靈活性。
雖然數(shù)據(jù)中心基礎(chǔ)設(shè)施的容錯(cuò)、冗余配置可以提高系統(tǒng)的可用性和可靠性,但需要準(zhǔn)確的定位數(shù)據(jù)中心的等級(jí),是否真的需要如此高的可靠性。有些企事業(yè)的數(shù)據(jù)中心對(duì)可靠性并沒(méi)用太高的要求,服務(wù)器宕機(jī)并不會(huì)給他們帶來(lái)很?chē)?yán)重的后果,因此設(shè)計(jì)前期需要與客戶(hù)充分的溝通,了解其需求,甚至幫助客戶(hù)定位需求,避免不必要的投資。數(shù)據(jù)中心的初期建設(shè)成本包括設(shè)備購(gòu)置費(fèi)用及設(shè)備占地面積所耗用成本,2N配置的系統(tǒng)和N+1配置的系統(tǒng)在設(shè)備費(fèi)用及占地面積上會(huì)有一定的差別,導(dǎo)致初期投資成本的或高或低。另外,運(yùn)營(yíng)費(fèi)用也有差別,如電氣設(shè)備自身的電力損耗、線路損耗,設(shè)備的維護(hù)費(fèi)用,尤其是UPS電池需要定期維護(hù)和更換。電力損耗的增加也增加了PUE值,在倡導(dǎo)綠色節(jié)能的今天,PUE值越來(lái)越受到人們的關(guān)注。
因此,各系統(tǒng)的設(shè)計(jì)應(yīng)考慮先進(jìn)性與實(shí)用性相結(jié)合,在滿(mǎn)足功能需求和可靠性要求的前提下,盡量節(jié)省總體建設(shè)投資、降低長(zhǎng)期運(yùn)營(yíng)成本。
1 Robert Arno, Peter Gross, PE and Robert Schuerger. PE《What Five 9’s Really Mean and Managing Expectations》.IEEE Industry Applications Society Conference 2008.
2 鐘景華,朱利偉等.《新一代綠色數(shù)據(jù)中心的規(guī)劃與設(shè)計(jì)》.電子工業(yè)出版社.
3 張廣明,韓林.《數(shù)據(jù)中心UPS供電系統(tǒng)的設(shè)計(jì)與應(yīng)用》.人民郵電出版社.