馮麗媛,姚緒梁,曹 然,鄒艾利
(1.哈爾濱工程大學(xué)自動化學(xué)院,黑龍江哈爾濱150001;2.黑龍江科技大學(xué)電子與信息工程學(xué)院,黑龍江哈爾濱150022)
基于分布式系統(tǒng)可修復(fù)控制方法可靠性和安全性分析
馮麗媛1,2,姚緒梁1,曹 然1,鄒艾利1
(1.哈爾濱工程大學(xué)自動化學(xué)院,黑龍江哈爾濱150001;2.黑龍江科技大學(xué)電子與信息工程學(xué)院,黑龍江哈爾濱150022)
冗余技術(shù)對于規(guī)模大復(fù)雜程度高的系統(tǒng)主要采用雙機熱備的方法,但其難點是不能準(zhǔn)確定位失效單元。針對上述難點,提出一種基于分布式系統(tǒng)的可修復(fù)控制方法。通過對系統(tǒng)進(jìn)行可修復(fù)設(shè)置,并利用馬爾可夫過程進(jìn)行建模和仿真,最后針對可靠性和安全性進(jìn)行了分析。仿真結(jié)果表明,可修復(fù)控制方法可以提高系統(tǒng)的可靠性及安全性,冗余單元的故障檢測率等于主單元的故障檢測率且冗余單元的失效率大于主單元的失效率時,系統(tǒng)的安全性和可靠度達(dá)到最大值。
可修復(fù)控制;冗余單元;故障檢測率;失效率
科學(xué)技術(shù)飛速發(fā)展的結(jié)果導(dǎo)致系統(tǒng)規(guī)模的迅速擴大以及復(fù)雜程度的日益加劇,系統(tǒng)安全性和可靠性受到越來越多的重視,通常情況下采用冗余技術(shù)來提高系統(tǒng)的可靠性和安全性。文獻(xiàn)[1]分析了備份系統(tǒng)的可靠性,給出了仿真程序,但是備份系統(tǒng)沒有給出具體的應(yīng)用場合。文獻(xiàn)[2]分別基于遺傳算法和整數(shù)編程方法優(yōu)化了冗余備份設(shè)計,但此方法只適用于串并聯(lián)系統(tǒng)。目前較為常用的冗余技術(shù)有雙機熱備、三取二、二乘二取二等結(jié)構(gòu)。對于規(guī)模較大的系統(tǒng)以及復(fù)雜程度較高的系統(tǒng),經(jīng)濟成本是必須要考慮的因素,因此通常采用雙機熱備作為保障系統(tǒng)安全性和可靠性的冗余設(shè)計。文獻(xiàn)[3]給出了一種利用可編程邏輯控制器(programmable logic controller,PLC)實現(xiàn)的雙機熱備系統(tǒng)的可靠性評估,PLC工作在主從模式下,但其分析的前提是備用單元的故障率要低于主單元的故障率,此前提條件限制了其應(yīng)用場合以及增加了具體實現(xiàn)的難度;文獻(xiàn)[4]以可修復(fù)供應(yīng)鏈系統(tǒng)為例研究了雙機熱備系統(tǒng)的可靠性,不足之處在于其模型中定義的狀態(tài)為完全可逆狀態(tài),這種假設(shè)在多數(shù)的系統(tǒng)上是不適用的;文獻(xiàn)[5]對一般雙機熱備和相互比較雙機熱備兩種方式的可靠性進(jìn)行了對比,但對于相互比較雙機熱備的比較功能沒有提及如何定位失效單元以及故障檢測率的問題;文獻(xiàn)[6]給出了一種可維修雙機熱備系統(tǒng)的可靠性分析,對于備用單元發(fā)生不可測失效時不能及時修復(fù)的問題,提出在狀態(tài)轉(zhuǎn)移圖中增加一個狀態(tài)來區(qū)分此種降級工作狀態(tài),其不足之處在于分析的模型仍然是常規(guī)的雙機熱備結(jié)構(gòu),并沒有提高雙機熱備結(jié)構(gòu)的可靠性;文獻(xiàn)[7]提出了一種基于雙機聯(lián)合故障檢測的雙機熱備系統(tǒng)方案,通過仿真與獨立故障單元的雙機熱備系統(tǒng)的可靠性和安全性進(jìn)行比較;聯(lián)合故障檢測的雙機熱備系統(tǒng)雖然在可靠性方面要優(yōu)于基于獨立故障單元的雙機熱備系統(tǒng),但其始終為雙機熱備系統(tǒng),仍然沒有解決失效單元定位問題。
分布式系統(tǒng)的廣泛應(yīng)用促使分布式系統(tǒng)的安全性和可靠性受到越來越多的重視,尤其是針對一些大型、復(fù)雜的分布式系統(tǒng),例如電力控制、鐵路、民航等領(lǐng)域。為了盡早發(fā)現(xiàn)故障,減少損失,常規(guī)的辦法是對系統(tǒng)進(jìn)行冗余設(shè)計。文獻(xiàn)[8]對基于分布式監(jiān)控系統(tǒng)提出了一種改進(jìn)方法,硬件上利用雙機備份,軟件上利用探測來確定軟件是否運行正常,雖然原有的監(jiān)控系統(tǒng)進(jìn)行了改進(jìn),但其核心仍然是雙機熱備結(jié)構(gòu)。文獻(xiàn)[9]為電力系統(tǒng)中對分布式發(fā)電的可靠性評估,其中硬件部分采用雙機熱備結(jié)構(gòu),文章的重點在于研究分布式發(fā)電對可靠性的影響,并假設(shè)分布式發(fā)電單元作為備用發(fā)電單元。
綜上所述,為提高雙機熱備系統(tǒng)的可靠性在雙機熱備系統(tǒng)的結(jié)構(gòu)上有所調(diào)整,但仍然存在定位失效單元的問題。為了解決確定失效單元的問題,增加了冗余單元?;谏鲜隹紤],本文基于分布式系統(tǒng)提出了一種分布式系統(tǒng)可修復(fù)控制方法,給出了其結(jié)構(gòu)并對其進(jìn)行建模分析。最后利用仿真結(jié)果驗證了增加冗余單元的可修復(fù)控制方法可以提高分布式系統(tǒng)的可靠性和安全性。
文獻(xiàn)[5]對一般方式下的雙機熱備和具有比較功能的雙機熱備結(jié)構(gòu)分別從可靠度和不安全度兩方面進(jìn)行了分析和比較。結(jié)果表明,一般方式的雙機熱備結(jié)構(gòu)的可靠度要高于具有比較功能的雙機熱備結(jié)構(gòu),具有比較功能的雙機熱備結(jié)構(gòu)的安全性要高于一般方式的雙機熱備結(jié)構(gòu)。從綜合的角度考慮,具有比較功能的雙機熱備結(jié)構(gòu)是一個更好的折中方案。主備單元結(jié)果比較能夠提高系統(tǒng)的安全性,但文章并沒有給出主備單元比較的方法,以及如何確定失效單元的方法。
文獻(xiàn)[7]對傳統(tǒng)的雙機熱備結(jié)構(gòu)進(jìn)行改進(jìn),采用聯(lián)合故障檢測結(jié)構(gòu),并與具有獨立故障檢測的雙機熱備結(jié)構(gòu)從可靠度和安全度兩方面做了對比分析。結(jié)果表明,在一定條件下,聯(lián)合故障檢測的雙機熱備結(jié)構(gòu)在可靠度和安全性兩方面的性能要優(yōu)于獨立故障檢測的雙機熱備結(jié)構(gòu)。聯(lián)合故障檢測分為單元自檢及它檢,自檢用于檢測自身發(fā)生的故障,它檢用于檢測另一單元的故障,這種設(shè)置勢必會降低主備單元的運行速度;利用心跳信號是否正常來檢測是否發(fā)生故障的可靠性也有待考慮。
雙機熱備方法的核心是當(dāng)其中一個單元失效時,另外一個單元能夠代替失效單元正常工作。關(guān)鍵的問題是要如何確定失效單元,無論是具有故障檢測功能的雙機熱備結(jié)構(gòu)還是具有聯(lián)合故障檢測的雙機熱備結(jié)構(gòu),其目的都是要確定故障單元。但僅僅依靠主備兩個單元來確定失效單元是不夠的,需要增加其他的判定條件來確定失效單元,并能使系統(tǒng)繼續(xù)正常工作。
2.1 可修復(fù)控制結(jié)構(gòu)
首先對分布式系統(tǒng)進(jìn)行可修復(fù)連接設(shè)置,如圖1所示:假設(shè)分布式系統(tǒng)有n層,每層有mi個節(jié)點(i=1,2,3,…,n),從分布式系統(tǒng)的第二層開始放置冗余節(jié)點。冗余節(jié)點的安放位置及數(shù)量與系統(tǒng)具體的節(jié)點設(shè)置有關(guān)。每層冗余節(jié)點的數(shù)量是上一層除冗余節(jié)點外所有節(jié)點的數(shù)量,即mi個冗余節(jié)點。每個冗余節(jié)點安放的位置為屬于上一層同一節(jié)點控制的一組節(jié)點增加一個冗余節(jié)點。
圖1 分布式系統(tǒng)可修復(fù)連接圖
圖2為可修復(fù)控制方法的方案圖,輸入信號同時進(jìn)入主備單元進(jìn)行處理,處理結(jié)束后對主備單元的結(jié)果進(jìn)行比較,如果結(jié)果一致,則主單元輸出;若比較結(jié)果不一致,冗余單元介入,進(jìn)行失效單元的定位。輸入信號進(jìn)入冗余單元進(jìn)行處理,運行結(jié)束后與主備單元的結(jié)果進(jìn)行比較,3個結(jié)果中取2個相同的結(jié)果為正確結(jié)果,另一單元則確定為失效單元。
圖2 可修復(fù)控制方法結(jié)構(gòu)圖
2.2 可修復(fù)控制方法的可靠性及安全性分析模型
目前對于系統(tǒng)可靠性及安全性分析較為常用的是馬爾可夫模型,很多學(xué)者利用馬爾可夫模型對雙機熱備結(jié)構(gòu)的可靠性及安全性進(jìn)行了研究。文獻(xiàn)[4]中的可修復(fù)供應(yīng)鏈系統(tǒng)、文獻(xiàn)[5]中的兩種雙機熱備結(jié)構(gòu)、文獻(xiàn)[6]中的可維修雙機熱備結(jié)構(gòu)的可靠性和安全性的分析均采用了馬爾可夫模型。由于可修復(fù)控制方法對于雙機熱備的結(jié)構(gòu)并沒有要求,因此本文選擇了文獻(xiàn)[7]中提出的基于雙機聯(lián)合故障檢測的雙機熱備結(jié)構(gòu)作為可修復(fù)控制方法中的雙機熱備結(jié)構(gòu)。首先做如下假設(shè):
(1)主單元、備用單元、冗余單元只能取正?;蛘呤煞N狀態(tài),失效后不可維修。
(2)系統(tǒng)的狀態(tài)轉(zhuǎn)移過程為馬爾可夫過程:主單元、備用單元、冗余單元的故障分布均服從指數(shù)分布,主單元與備用單元的失效率相等,為λ,冗余單元的失效率為λ1。
(3)主單元、備用單元及冗余單元發(fā)生可測失效時產(chǎn)生的危險輸出的比例因子相等,為α。
(4)主單元的自檢故障率等于備用單元的自檢故障率,為c1;主單元的它檢故障率等于備用單元的它檢故障率,為c2;主單元的自檢和它檢檢出同一故障率等于備用單元自檢和它檢檢出同一故障率,為c12;冗余單元故障檢出率為c3。
根據(jù)主備及冗余單元的狀態(tài),定義系統(tǒng)以下4種狀態(tài):
狀態(tài)0:系統(tǒng)運行正常,主單元及備用單元均處于無故障運行;
狀態(tài)1:系統(tǒng)運行正常,主單元或備用單元中有一個產(chǎn)生故障,另一個單元使系統(tǒng)正常工作,且產(chǎn)生的故障為可測失效故障;
狀態(tài)2:系統(tǒng)運行不正常,處于失效狀態(tài),但不處于危險狀態(tài);
狀態(tài)3:系統(tǒng)運行不正常,且處于危險狀態(tài);
系統(tǒng)在運行過程中若發(fā)生故障,系統(tǒng)狀態(tài)在狀態(tài)0~狀態(tài)3之間轉(zhuǎn)移,系統(tǒng)的狀態(tài)轉(zhuǎn)移圖如圖3所示。對可修復(fù)控制方法的狀態(tài)轉(zhuǎn)移圖說明如下:
(1)狀態(tài)0~狀態(tài)1:當(dāng)系統(tǒng)中主單元或備用單元任意單元發(fā)生可測失效,通過冗余單元定位失效單元時,另一單元正常工作,系統(tǒng)由狀態(tài)0轉(zhuǎn)移到狀態(tài)1;
(2)狀態(tài)1~狀態(tài)2:當(dāng)只有一個單元正常工作時,若發(fā)生可測失效則整個系統(tǒng)進(jìn)入失效狀態(tài),但不會處于危險狀態(tài),仍然為安全狀態(tài);
(3)狀態(tài)0~狀態(tài)3:當(dāng)主單元或備用單元發(fā)生不可測失效時,將導(dǎo)致整個系統(tǒng)處于危險狀態(tài);
(4)狀態(tài)1~狀態(tài)3:當(dāng)只有一個單元正常工作時,若發(fā)生危險可測或危險不可測失效則整個系統(tǒng)進(jìn)入失效狀態(tài),且處于危險狀態(tài)。
圖3 狀態(tài)轉(zhuǎn)移圖
根據(jù)狀態(tài)轉(zhuǎn)移圖,得如下方程:
由狀態(tài)轉(zhuǎn)移矩陣,列出如下微分方程:
對上式進(jìn)行拉氏變換,有
帶入初始條件P0(0)=1,P1(0)=0,P2(0)=0,P3(0)=0
求解上述微分方程,得
系統(tǒng)可靠度為
系統(tǒng)安全度為
令文獻(xiàn)[7]中的可靠度為R1(t),安全度為S1(t),則
因為
由此可見可修復(fù)控制方法的可靠度要高于文獻(xiàn)[7]中給出的方法。
因為
所以
由文獻(xiàn)[7]得
又因為
所以
即可修復(fù)控制方法的安全度要高于文獻(xiàn)[7]中給出的方法。
若冗余單元的失效率與主備單元的失效率相同,冗余單元的故障檢測率與主單元的故障檢測率相同,由圖4可以得出可修復(fù)控制方法的可靠度和安全度要高于文獻(xiàn)[7]中提出的雙機熱備的方法。
圖4 可靠度與安全度比較
根據(jù)可修復(fù)控制結(jié)構(gòu),系統(tǒng)中每層只有一個冗余節(jié)點,冗余節(jié)點的失效率與其他主備單元的失效率之間的大小關(guān)系是變化的,因此冗余節(jié)點的失效率變化情況會影響系統(tǒng)的可靠性和安全性。
圖5分別為冗余單元失效率小于、等于及大于主備單元失效率時,冗余單元的故障檢測率對于可靠度的影響。當(dāng)冗余單元的故障檢測率等于主單元的故障檢測率時,系統(tǒng)的可靠度最高;當(dāng)冗余單元的故障檢測率大于主單元的故障檢測率時,系統(tǒng)的可靠度最低。
通常情況下主單元的故障檢測率要大于備用單元的故障檢測率,即c1>c2。由于可修復(fù)控制結(jié)構(gòu)的特殊性,冗余單元的故障檢測率c3與c1之間沒有固定的關(guān)系,c3與c1之間的變化情況會影響系統(tǒng)的可靠性和安全性。
圖5 故障檢測率對于可靠度的影響比較
圖6分別為冗余單元故障檢測率小于,等于及大于主單元故障檢測率時,冗余單元的失效率對于可靠度的影響。當(dāng)冗余單元的失效率大于主備單元的失效率時,系統(tǒng)的可靠度最高;當(dāng)冗余單元的失效率小于主備單元的失效率時,系統(tǒng)的可靠度最低。
圖6 失效率對于可靠度的影響
由以上分析可知,冗余單元的故障檢測率以及失效率均會影響系統(tǒng)的可靠度,當(dāng)冗余單元的故障檢測率等于主單元的故障檢測率以及冗余單元的失效率大于主單元的失效率時,系統(tǒng)的可靠度達(dá)到最大值。
當(dāng)冗余單元的失效率等于主備單元的失效率時,由圖7可知,冗余單元的故障檢測率等于主單元的故障檢測率時安全度最高;當(dāng)冗余單元的故障檢測率等于主單元的故障檢測率時,由圖8可知,冗余單元的失效率大于主單元的失效率時,系統(tǒng)安全度最高。由以上分析可知,冗余單元的故障檢測率以及失效率均會影響系統(tǒng)的安全度,當(dāng)冗余單元的故障檢測率等于主單元的故障檢測率以及冗余單元的失效率大于主單元的失效率時,系統(tǒng)的安全度達(dá)到最大值。
圖7 故障檢測率對安全度的影響
圖8 失效率對安全度的影響
雙機熱備結(jié)構(gòu)是目前應(yīng)用廣泛的冗余設(shè)計,為進(jìn)一步提高系統(tǒng)的可靠性和安全性,并最大限度地減少額外成本,本文給出了一種適用于分布式系統(tǒng)的可修復(fù)控制方法。通過增加冗余單元對系統(tǒng)進(jìn)行可修復(fù)設(shè)置,并利用馬爾可夫過程進(jìn)行建模和仿真,根據(jù)仿真結(jié)果對可靠性和安全性進(jìn)行了分析。仿真結(jié)果表明,可修復(fù)控制方法可以提高系統(tǒng)的可靠性及安全性,冗余單元的故障檢測率和失效率與主單元的故障檢測率和失效率之間的關(guān)系均會影響系統(tǒng)的可靠性和安全性,當(dāng)冗余單元的故障檢測率等于主單元的故障檢測率且冗余單元的失效率大于主單元的失效率時,系統(tǒng)的安全性和可靠度達(dá)到最大值。
[1]Amari S V,Dill G.A new method for reliability analysis of standby systems[C]∥Proc.of the Reliability and Maintaiability Symposium,2009:417- 422.
[2]Tannous O,Xing L,Rui P,et al.Redundancy allocation for series-parallel warm-standby systems[C]∥Proc.of the IEEE International Conference on Industral Engineering and Engineering Management,2011:1261- 1265.
[3]Parashar B,Taneja G.Reliability and profit evaluation of a PLC hot standby system based on a master-slave concept and two types of repair facilities[J].IEEE Trans.on Reliability,2007,56(3):534- 539.
[4]Ren S H,Zhang C L.Study on the reliability of hot standby repairable supply system based on Markov model[C]∥Proc.of the 6th International Conference on Service Systems and Service Management,2009:318- 322.
[5]Yan J P,Wang X S.Reliability and safety analysis of two modes of dual module hot spare architecture[J].Journal of the China Railway Society,2000,22(3):124- 127.(閆劍平,汪希時.兩種方式雙機熱備結(jié)構(gòu)的可靠性和安全性分析[J].鐵道學(xué)報,2000,22(3):124- 127.)
[6]Yu M,He Z Y,Qian Q Q.Reliability analysis of repairable hotstand-by redundant system based on Markov model[J].Computer Engineering and Design,2009,30(8):2040- 2046.(于敏,何正友,錢清泉.基于Markov模型的可維修雙機熱備系統(tǒng)可靠性分析[J].計算機工程與設(shè)計,2009,30(8):2040- 2046.)
[7]Qin Q N,Wei X Y,Yu R R,et al.Reliability and security study of dual computer hot-standby system based on dual computer joint fault detection[J].Systems Engineering and Electronics,2011,33(12):2776- 2780.(覃慶努,魏學(xué)業(yè),于蓉蓉,等.基于雙機聯(lián)合故障檢測的雙機熱備系統(tǒng)可靠性和安全性研究[J].系統(tǒng)工程與電子技術(shù),2011,33(12):2776- 2780.)
[8]Jiang M,Liu Y P,Gu X Z.An approach to improving reliability for distributed video-based monitoring systems[C]∥Proc.of the IEEE 3rd International Conference on Secure Software Integration and Reliability Improvement,2009:293- 294.
[9]Jahangiri P,F(xiàn)otuhi-Firuzabad M.Reliability assessment of distribution system with distributed generation[C]∥Proc.of the IEEE 2nd International Conference on Power and Energy,2008:1551- 1556.
馮麗媛(197-8- ),女,博士研究生,主要研究方向為復(fù)雜系統(tǒng)可靠性及安全性、分布式系統(tǒng)可靠性及安全性。
E-mail:fengly1978@126.com
姚緒梁(196-9- ),男,教授,博士,主要研究方向為復(fù)雜系統(tǒng)可靠性及安全性、電力電子與電氣傳動。
E-mail:yao_1126@163.com
曹 然(198-0- ),女,博士研究生,主要研究方向為復(fù)雜系統(tǒng)連鎖失效、博弈論。
E-mail:caohefan@126.com
Reliability and safety analysis of repairable control method based on distributed systems
FENG Li-yuan1,2,YAO Xu-liang1,CAO Ran1,ZOU Ai-li1
(1.College of Automation,Harbin Engineering University,Harbin 150001,China;2.School of Electronics and Information Engineering,Heilongjiang University of Science and Technology,Harbin 150022,China)
Redundant technology mainly uses the method of hot standby to cope with high complexity and large-scale system,but the difficulty is that it cannot accurately position the failure unit.In response to the difficulty,a repair method based on distributed control systems is proposed,which uses the repairable setting to realize fault position.By establishing Markov models and simulation respectively,the reliability and safety of the two schemes are analyzed.The simulation results show that the repairable control method can improve the reliability and safety,the safety and reliability of the system is maximized when the fault detection rate of the redundancy unit is equal to the main unit and the failure rate of the redundancy unit is greater than the main unit.
repairable control;redundancy unit;fault detection rate;failure rate
TP 273
A
10.3969/j.issn.1001-506X.2015.11.36
1001-506X(2015)11-2663-06
2014- 12- 03;
2015- 04- 28;網(wǎng)絡(luò)優(yōu)先出版日期:2015- 07- 27。
網(wǎng)絡(luò)優(yōu)先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20150727.1601.006.html
國防科工局技術(shù)基礎(chǔ)研究基金(Z192011B001)資助課題