謝鳳華,李峻健
(中興通訊股份有限公司)
毫無疑問,高可用性是UPS系統(tǒng)第一要素。但系統(tǒng)并聯(lián)模塊數(shù)越多而可用度越低嗎?UPS運(yùn)行的可用度是基于對可靠性模型的科學(xué)分析。
故障率λ(即失效系數(shù)):元器件或者功能模塊或者系統(tǒng)出故障的概率。
平均無故障時間 MTBF(mean ti me bet ween failure):定義為利用數(shù)學(xué)統(tǒng)計方法計算出的設(shè)備在發(fā)生的兩次故障之間的運(yùn)行時間。
YD/T 2165-2010《通信用模塊化不間斷電源》規(guī)定UPS系統(tǒng)的MTBF值不小于10萬小時[1]。
可靠度(可靠性)是一個可靠性指標(biāo)。系統(tǒng)實(shí)現(xiàn)所需功能的概率。它是指在規(guī)定的條件下,在規(guī)定的時間內(nèi),產(chǎn)品完成規(guī)定的功能,也就是說在規(guī)定時間內(nèi)該產(chǎn)品不出故障的概率。可靠度是不考慮維修的??煽慷扰c故障率的關(guān)系為:
從可靠度的公式看出,可靠度不僅與MTBF有關(guān),還與考核的時間長短t有關(guān),也就是說我們不能單純提某系統(tǒng)的可靠度是多少,而是應(yīng)該提某系統(tǒng)在某段時間范圍內(nèi)的可靠度,時間越長,可靠度越低(見表1)。通常指一年時間內(nèi)的可靠度。
表1 單機(jī)在MTBF等于10萬小時時,不同時間范圍的可靠度
可維護(hù)性(Maintainability),指在規(guī)定的時間內(nèi)完成主動維護(hù)的概率??删S護(hù)性用MTTR來表示。
平均維修時間 MTTR(Mean ti me to repair):是設(shè)備發(fā)生故障瞬間開始到通過維修而重新投入使用所需的平均時間。修復(fù)率μ是 MTTR的倒數(shù),μ=
可用度(可用性)是一個可維護(hù)性指標(biāo),是系統(tǒng)在運(yùn)行過程中,正常運(yùn)行的時間與總時間之比??捎枚華與其它幾個指標(biāo)的關(guān)系可表示為:
可用度指標(biāo)不僅與MTBF有關(guān),而且與MTTR有關(guān),在MTBF不變的前提下,減小MTTR就能提高可用性A。
(N+X)個UPS模塊并聯(lián)形成一個表決系統(tǒng),在該系統(tǒng)中(N+X)個可靠度相同的模塊單元組成并聯(lián)結(jié)構(gòu),其中N是負(fù)載容量所需模塊數(shù),X是冗余模塊數(shù)。R1為單模塊的可靠度。
對該表決系統(tǒng),其可靠度Rs如公式1所示[2]。
圖1 表2數(shù)據(jù)轉(zhuǎn)換成N+X的系統(tǒng)可靠度分布曲線圖
由圖1可以看出:
(1)當(dāng)沒有冗余即X為0時,并聯(lián)可靠度隨N的增大而降低。10個模塊并聯(lián)時可靠度只有不到0.35。說明當(dāng)系統(tǒng)沒有冗余時,系統(tǒng)可靠度將隨并聯(lián)模塊數(shù)的增加而減少。
(2)“4+1”系統(tǒng)的可靠度為0.92,大于單模塊的0.9;但“5+1”系統(tǒng)的可靠度為0.89小于單模塊的可靠度。說明當(dāng)系統(tǒng)模塊數(shù)較多時,冗余1個模塊時系統(tǒng)的可靠度還可能低于單個模塊的可靠度。
(3)“8+2”的可靠度0.93略大于“4+1”的可靠度0.92。說明可以通過增加冗余數(shù)來提高多模塊并聯(lián)時的可靠度。所以“并聯(lián)模塊數(shù)越多系統(tǒng)可靠性越低”不完全正確。R1=0.9時,系統(tǒng)可靠度數(shù)據(jù)見表2。
表2 在模塊可靠度R1為0.9(1年左右)時,計算得到N+X的系統(tǒng)可靠度數(shù)據(jù)
對于一次性使用的設(shè)備,如不可回收的人造地球衛(wèi)星上的通訊設(shè)備,僅關(guān)心其可靠性即可。但對于如UPS等可修復(fù)的設(shè)備,除可靠性指標(biāo)外,更需關(guān)注設(shè)備在整個使用壽命周期內(nèi)的可用度(率)。既要考慮故障發(fā)生的概率,還要考慮系統(tǒng)可維護(hù)性。
標(biāo)準(zhǔn)ANSI/TIA-942數(shù)據(jù)中心通信基礎(chǔ)設(shè)施標(biāo)準(zhǔn)( ANSI/TIA-942Telecommunications Infrastructure Standard for Data Centers)是針對數(shù)據(jù)中心機(jī)房規(guī)劃、建設(shè)的標(biāo)準(zhǔn)文件。該標(biāo)準(zhǔn)不是要求可靠度,而是根據(jù)不同的可用度將數(shù)據(jù)機(jī)房分為4個等級(見表3)。
表3 ANSI/TIA-942標(biāo)準(zhǔn)對機(jī)房等級規(guī)定
設(shè)備的維修時間MTTR是指設(shè)備從發(fā)生故障到恢復(fù)功能的時間t,它由故障發(fā)生到故障自動檢測時間t1、故障檢測到人們知道時間t2、后勤保障時間t3、故障維修時間t4、恢復(fù)時間t5等多個時間段組成,t=t1+t2+t3+t4+t5,如圖2。
圖2 MTTR的時間細(xì)分
相對于后勤保障時間t3和故障維修時間t4,t1、t2、t5可以忽略不計。MTTR可以假設(shè)如下四個數(shù)值:
(1)假設(shè)用戶自己在設(shè)備故障現(xiàn)場,用戶備有可供更換的備用模塊,用戶一發(fā)現(xiàn)問題就立即自己更換,則可能MTTR不大于0.5 h。這是一種最理想、最短的時間。
(2)用戶維護(hù)人員不在設(shè)備現(xiàn)場但在設(shè)備所在城市,模塊一旦故障即可實(shí)時通知(如手機(jī)短信)用戶維護(hù)人員,設(shè)備現(xiàn)場有可供更換用的備用模塊,維護(hù)人員在5 h之內(nèi)趕到現(xiàn)場并完成更換工作。此時MTTR為5 h。
(3)用戶自己沒有備用模塊,或者用戶即使有備用模塊但自己不更換,需要廠家技術(shù)人員趕來更換,廠家承諾解決問題的時間為48 h,因為更換模塊只需要0.5 h,MTTR為48 h和0.5 h之和,約等于50 h(簡化計算)。
(4)對于傳統(tǒng)的集中式UPS,一般需要廠家資深工程師,帶齊備品備件和檢測儀器,假設(shè)響應(yīng)時間為2天(制造商備好備件、乘坐交通工具趕到設(shè)備現(xiàn)場的時間),現(xiàn)場維修時間3天,則MTTR為5天共120 h。
對于模塊化UPS,采用B種情況和C種情況比較合理,即MTTR為5 h或者50 h。
“N+X”模塊化UPS系統(tǒng)是一個表決模型,“N”為負(fù)載容量所需模塊數(shù),“X”為冗余模塊數(shù)。用等效MTBF、等效MTTR和可用度三個參數(shù)來表征該系統(tǒng)的可用性。
系統(tǒng) MTBFS、MTTRS和可用度 AS如公式(2)、公式(3)和公式(4)所示[3]。
根據(jù)上述公式計算出在模塊的MTBF1等于10萬小時,MTTR1分別為0.5/50/120 h,N+X(N=[1,10],X=[0,2])時系統(tǒng)的可用度As如表4。
計算結(jié)果分析
(1)當(dāng) MTTR很小為0.5 h時,只要1個冗余模塊,系統(tǒng)就可以達(dá)到很高的可用度。
表4 “N+X”系統(tǒng)可用度AS數(shù)據(jù)表
(2)對于N+2(N 不大于10時)系統(tǒng),可用度均可達(dá)到5個9的要求。這個為下文設(shè)置休眠模塊數(shù)量提供了理論依據(jù)。正常工作時有2個冗余模塊數(shù)即可,多余模塊可以讓其休眠,既可以滿足系統(tǒng)可用度需求,也符合節(jié)能原則。
(3)對于 MTBF為10萬小時,10+0系統(tǒng),當(dāng)MTTR為0.5/5/50/120小時,系統(tǒng)的可用度對應(yīng)為4個9/3個9/2個9/1個9。說明 MTTR的大小對系統(tǒng)可用度影響很大。
(4)系統(tǒng)可用度與冗余數(shù)X的關(guān)系:對于MTBF等于10萬小時、MTTR等于5小時、N等于10時,系統(tǒng)的可用度在X為0/1時分別為3個9/7個9。增加1個冗余數(shù),可用度提高4個9。
(5)系統(tǒng)可用度與總模塊數(shù)N+X的關(guān)系:對于MTBF等于10萬小時、MTTR等于120小時,4+1系統(tǒng)或8+2系統(tǒng)的可用度分別為:4個9或6個9,有如下關(guān)系:
As(8+2)大于As(1+1)大于As(4+1)大于 As(8+1)
實(shí)際應(yīng)用中,絕大部分UPS系統(tǒng)帶載在10%~60%的額定容量(參見美國可靠性研究中心對UPS負(fù)載率的統(tǒng)計)。也就是說實(shí)際負(fù)載容量數(shù)N小于設(shè)計的負(fù)載容量數(shù)N,在系統(tǒng)模塊數(shù)不變時,相當(dāng)于冗余數(shù)X增大,則實(shí)際上系統(tǒng)可用性比設(shè)計的更高。
可見對于可維修模塊化UPS系統(tǒng),并不是并聯(lián)模塊數(shù)越多系統(tǒng)可用度越低,關(guān)鍵還在于冗余模塊數(shù)X。即可以通過增加冗余數(shù)來提高更多并聯(lián)模塊數(shù)系統(tǒng)的可用度。
對于可維修模塊化UPS系統(tǒng),不但需要關(guān)注可靠度,更需關(guān)注可用度。對于“N+1”系統(tǒng),隨著N的增大,無疑系統(tǒng)的可靠度降低,但是如果是“N+X”,當(dāng)N增大時,X也增大時,則系統(tǒng)的可靠度和可用度都是可以增大的。
[1] YD/T 2165-2010.通信用模塊化不間斷電源[S].
[2] 金偉婭,張康達(dá).可靠性工程[M].北京:化學(xué)工業(yè)出版社,2005.
[3] 郭永基.可靠性工程原理[M].北京:清華大學(xué)出版社,2002.
[4] 謝鳳華.降低MTTR以提高模塊化UPS系統(tǒng)的可用性[C].中國電源學(xué)會第18屆學(xué)術(shù)年會論文集,2009.