肖雪迪, 楊海峰, 尹驍陽, 俞 進
(北京空間飛行器總體設(shè)計部, 北京 100094)
單點故障模式指引起單機、分系統(tǒng)、系統(tǒng)功能喪失,且沒有冗余或替代產(chǎn)品作為補救的產(chǎn)品故障。對于承擔天地往返運輸任務(wù)的載人航天器來說,系統(tǒng)級單點故障模式可能導(dǎo)致交會對接任務(wù)失敗或嚴重降級,甚至導(dǎo)致航天器無法返回、危及航天員健康和生命。因此,全面識別系統(tǒng)級單點故障模式,并采取相應(yīng)的控制措施對于預(yù)防風險、確保載人飛行任務(wù)成功和航天員安全非常關(guān)鍵。
目前,國際通用的單點故障模式識別方法是故障模式影響分析技術(shù)(Failure Mode and Effect Analysis,FMEA),該方法自底向上進行分析,以工作表的形式逐級列舉故障模式、對上一層級的影響以及對最終層級的影響,從而完成系統(tǒng)內(nèi)部單點故障模式的識別[1-3]。對于載人航天器、運載火箭等復(fù)雜系統(tǒng),由于系統(tǒng)復(fù)雜程度高,已有認知模式有限,僅靠FMEA 難以全面識別單點故障模式[4]。
目前,國內(nèi)航天器在FMEA 工作的基礎(chǔ)上,將嚴酷度I、II 類的不期望事件作為頂事件,對其進一步開展故障樹分析(Fault Tree Analysis,FTA),計算出一階最小割集,從而識別出單點故障模式[5-6]。FTA 自頂向下分析,得到的結(jié)果與FMEA 相互補充,但FTA 頂事件很難全面確定,且與設(shè)計師主觀理解相關(guān)[7-9]。楊海峰等[10]提出了基于關(guān)鍵事件的單點故障模式識別方法,首先制定影響任務(wù)成敗的關(guān)鍵事件識別原則,并識別出一系列關(guān)鍵事件,再將關(guān)鍵事件作為故障樹的頂事件進行分析,從而識別出系統(tǒng)級單點故障模式。
基于FMEA 和FTA 進行單點故障模式識別,可有效識別出單機內(nèi)部的故障模式,但較難識別出具有冗余備份的單機存在的“假冗余、真單點”。例如某單機具有A、B 機冗余備份,但A、B機共用電源和切換模塊。當共用電源失效時,A、B 機均無法工作;當A 機故障、需要切換到B 機工作時,若切換模塊故障導(dǎo)致切換不成功,A、B機均無法工作。上述2 種情況下,雖然采取了冗余備份措施,但實際上仍然存在單點故障模式,即“假冗余、真單點”,冗余措施失效。而在進行FMEA 和FTA 分析時,通常容易識別出該單機內(nèi)部故障模式,但難以涉及共用電源故障和切換模塊故障模式,即難以識別出“假冗余、真單點”,無法保證單點故障模式識別的全面性。
本文提出基于冗余有效性分析的航天器系統(tǒng)級單點故障模式識別方法。在FMEA、FTA 工作的基礎(chǔ)上,對存在冗余備份的單機進行冗余有效性分析,識別冗余備份產(chǎn)品之間的共用環(huán)節(jié)和切換環(huán)節(jié),并分析導(dǎo)致冗余備份產(chǎn)品全部失效的共用環(huán)節(jié)故障模式和切換環(huán)節(jié)故障模式,從而識別出“假冗余、真單點”,將冗余有效性分析與FMEA和FTA 結(jié)合,最終全面識別系統(tǒng)級單點故障模式。
本文基于冗余有效性分析的系統(tǒng)級單點故障模式識別方法主要流程如圖1 所示。
圖1 基于冗余有效性分析的系統(tǒng)級單點故障模式識別方法Fig.1 Single point failure identification method based on effectiveness analysis of redundancy measures
1)確定分析對象。冗余有效性分析的對象是具有冗余備份設(shè)計的產(chǎn)品。在識別系統(tǒng)級單點故障模式時,僅需對影響系統(tǒng)級任務(wù)且具有冗余備份設(shè)計的關(guān)鍵單機產(chǎn)品進行分析。為識別關(guān)鍵單機,需要自頂向下進行分析。首先進行任務(wù)/目標分析,明確系統(tǒng)級任務(wù)和目標,例如對于載人航天器,系統(tǒng)級任務(wù)和目標是確保交會對接任務(wù)成功和航天員安全返回;其次,分析影響系統(tǒng)級任務(wù)完成的關(guān)鍵功能;最后,分析影響關(guān)鍵功能的關(guān)鍵單機,這些關(guān)鍵單機中具有冗余備份設(shè)計的即為系統(tǒng)級單點故障模式識別中冗余有效性分析的對象。
2)故障隔離分析。進行故障隔離分析時,對冗余備份設(shè)計中的一個備份開展FMEA,并逐一分析這些故障模式是否會導(dǎo)致其他備份失效,即各冗余備份的故障是否可以相互隔離。若某故障模式會導(dǎo)致其他備份失效,則該故障模式對于該單機功能層級即為單點故障模式。為確定該單點故障模式是否為系統(tǒng)級單點故障模式,需進一步分析分系統(tǒng)層級對該單機功能是否有冗余備份措施、系統(tǒng)層級對分系統(tǒng)功能是否有冗余備份措施。若分系統(tǒng)、系統(tǒng)層級均無有效的冗余備份措施,該故障模式即為系統(tǒng)級單點故障模式,需制定控制措施以降低風險。根據(jù)上述分析結(jié)果,記錄產(chǎn)品名稱、故障模式影響分析、分系統(tǒng)級冗余措施、系統(tǒng)級冗余措施、控制措施,形成故障隔離分析結(jié)果表。
3)共用環(huán)節(jié)分析。進行共用環(huán)節(jié)分析時,首先結(jié)合原理圖、印制板設(shè)計圖等,識別出主備份產(chǎn)品之間的共用電源、共用接口、共用晶振、共用表決單元等共用環(huán)節(jié)。對存在的共用環(huán)節(jié)進一步開展FMEA,識別出導(dǎo)致主備份產(chǎn)品全部失效的共用環(huán)節(jié)故障模式,該故障模式對于該單機功能層級即為單點故障模式。利用2)中提到的方法進一步分析該故障模式是否為系統(tǒng)級單點故障模式,根據(jù)上述分析結(jié)果,記錄產(chǎn)品名稱、共用環(huán)節(jié)、工作狀態(tài)、故障模式影響分析、分系統(tǒng)級冗余措施、系統(tǒng)級冗余措施、控制措施,形成共用環(huán)節(jié)分析結(jié)果表。
4)切換環(huán)節(jié)分析。對于有冗余備份設(shè)計的單機產(chǎn)品,有2 種冗余備份形式:熱備份設(shè)計和冷備份設(shè)計。熱備份設(shè)計指主備份產(chǎn)品同時加電工作,互為熱備份;冷備份設(shè)計指正常情況下只有主份產(chǎn)品工作,主份產(chǎn)品故障時,切換至備份產(chǎn)品工作。因此主備份產(chǎn)品切換環(huán)節(jié)的可靠性直接影響了冗余備份的有效性。進行切換環(huán)節(jié)分析時,首先識別主份產(chǎn)品失效時切換到備份產(chǎn)品的切換環(huán)節(jié),之后對切換環(huán)節(jié)開展FMEA,識別出導(dǎo)致切換環(huán)節(jié)失效的故障模式。該故障模式發(fā)生時,主份產(chǎn)品失效情況下無法切換到備份產(chǎn)品工作,主備份產(chǎn)品同時失效。對于該單機功能層級同樣為單點故障模式,再利用前述方法進一步分析該故障模式是否為系統(tǒng)級單點故障模式,若為系統(tǒng)級單點故障模式,需采取控制措施降低風險。根據(jù)上述分析結(jié)果,記錄產(chǎn)品名稱、冗余備份形式、切換環(huán)節(jié)說明、故障模式影響分析、分系統(tǒng)級冗余措施、系統(tǒng)級冗余措施、控制措施,形成切換環(huán)節(jié)分析結(jié)果表。
通過上述冗余有效性分析,可有效識別“假冗余、真單點”,全面識別系統(tǒng)級單點故障模式。
目前,載人飛船系統(tǒng)已將上述單點故障模式識別方法應(yīng)用于系統(tǒng)級單點故障模式識別工作中。
載人飛船系統(tǒng)級任務(wù)是確保交會對接任務(wù)成功和航天員安全返回。圍繞以上任務(wù),分析姿態(tài)與軌道控制、遙控遙測、載人環(huán)境控制等關(guān)鍵功能,進而識別出與關(guān)鍵功能相關(guān)的譯碼單元、控制器等關(guān)鍵單機,這些關(guān)鍵單機均具有冗余備份設(shè)計,本文從故障隔離分析、共用環(huán)節(jié)分析和切換環(huán)節(jié)分析3 個方面開展冗余有效性分析。
以某譯碼單元為例說明故障隔離分析方法。譯碼單元是實現(xiàn)載人飛船系統(tǒng)上行遙控功能的關(guān)鍵單機,接收地面上行指令,譯碼后發(fā)送給各設(shè)備,其原理如圖2 所示。譯碼單元由熱冗余備份的A 機和B 機組成,A 機和B 機供電獨立、輸入信號獨立,輸出信號經(jīng)過各自的三極管后合并輸出。經(jīng)分析可知,譯碼單元A 機或B 機有以下故障模式:①譯碼模塊故障;②三極管開路故障;③三極管短路故障。當某機出現(xiàn)譯碼模塊故障或三極管開路故障時,另一機仍可正常輸出譯碼信號;某機出現(xiàn)三極管短路故障會導(dǎo)致雙機均不能正常工作,因此該故障模式對于單機功能層級為單點故障模式。
圖2 某譯碼單元原理圖Fig.2 Schematic diagram of a decoding unit
在系統(tǒng)層級,另一分系統(tǒng)設(shè)計了另一種原理的譯碼設(shè)備,與該譯碼單元互為異構(gòu)備份,因此該譯碼單元某機三極管短路故障不是系統(tǒng)級單點故障模式。為了降低故障發(fā)生的概率,需加強對三極管的篩選,對集電極導(dǎo)通電壓等參數(shù)嚴格測試,確保在指標要求范圍內(nèi)。
經(jīng)過上述分析,匯總得到表1。
表1 某譯碼單元故障隔離分析結(jié)果Table 1 Failure isolation analysis results of a decoding unit
以某控制器為例說明共用環(huán)節(jié)分析方法。該控制器是實現(xiàn)載人飛船系統(tǒng)對接功能的關(guān)鍵單機,控制器收到動作指令信號后,自動產(chǎn)生控制信號送給驅(qū)動器,驅(qū)動器收到控制信號后驅(qū)動執(zhí)行機構(gòu)運動,從而完成目標動作??刂破饔啥坞娫茨K、CPU 模塊、表決模塊和控制信號輸出模塊組成,原理如圖3 所示。一次電源輸入后分成3 路,分別送給3 個二次電源模塊,經(jīng)過電壓轉(zhuǎn)換后產(chǎn)生+5 V 電壓分別給3 個CPU 供電;此外,3 個二次電源模塊合并產(chǎn)生+5 V 公共電源,再分成2 路,分別給2 個表決模塊供電。3 個CPU 輸出信號均送給2 個同時工作的表決模塊,表決模塊對3 個CPU 輸出信號進行表決后,驅(qū)動控制信號輸出模塊產(chǎn)生控制信號。
圖3 某控制器原理圖Fig.3 Schematic diagram of a controller
由圖3 可知,該控制器內(nèi)部采取冗余備份設(shè)計的模塊為二次電源模塊三機熱冗余、CPU 模塊三機熱冗余、表決模塊雙機熱冗余、控制信號輸出模塊雙機熱冗余。經(jīng)分析,3 個二次電源模塊不存在共用環(huán)節(jié),3 個CPU 模塊不存在共用環(huán)節(jié),2個控制信號輸出模塊不存在共用環(huán)節(jié),而2 個表決模塊共用+5 V 公共電源。
+5 V 公共電源的產(chǎn)生原理如圖4 所示,3 個二次電源模塊分別輸出+5 V 電源,經(jīng)過隔離二極管輸出后合并為一路,形成+5 V 公共電源,再分成2 路,分別給2 個表決模塊供電。對+5 V 公共電源產(chǎn)生模塊進行分析,有以下故障模式:①單個二次電源模塊短路故障;②單個二次電源模塊開路故障;③電路公共段(AB 節(jié)點間印制線)對地短路故障;④電路公共段(AB 節(jié)點間印制線)開路故障。當發(fā)生單個二次電源模塊短路故障時,該路的熔斷器會熔斷,不會影響其他2 個二次電源模塊工作,+5 V 公共電源仍可正常輸出,不影響表決模塊工作;當發(fā)生單個二次電源模塊開路故障時,其他2 個二次電源模塊仍能正常工作,+5 V 公共電源仍可正常輸出,不影響表決模塊工作;當發(fā)生電路公共段對地短路故障或開路故障時,+5 V 公共電源失效,2 個表決模塊均不能正常工作,最終導(dǎo)致該控制器失效。因此,電路公共段對地短路故障和開路故障對于單機級功能是單點故障模式。
圖4 +5 V 公共電源產(chǎn)生原理圖Fig.4 Schematic diagram of the +5 V public power
而對于分系統(tǒng)層級,若控制器功能失效,可退出自動控制,采用地面發(fā)指令的方式直接控制驅(qū)動器,實現(xiàn)目標動作。通過上述分系統(tǒng)功能層級的冗余備份措施,+5 V 公共電源電路公共段對地短路故障和開路故障對于分系統(tǒng)級和系統(tǒng)級功能都不是單點故障模式。但為了降低故障發(fā)生的概率,仍然要對電路公共段采取控制措施,通過印制板涂三防、間距控制等措施防止電路公共段對地短路;通過加強印制板篩選、導(dǎo)通測試等措施防止電路公共段開路。
經(jīng)過上述分析,匯總得到表2。
表2 某控制器共用環(huán)節(jié)分析結(jié)果Table 2 Common link analysis results of a controller
以采用雙機冷備份設(shè)計的某轉(zhuǎn)換器為例說明切換環(huán)節(jié)分析方法。該轉(zhuǎn)換器是實現(xiàn)載人飛船系統(tǒng)下行遙測功能的關(guān)鍵單機,對采集的數(shù)據(jù)流進行格式轉(zhuǎn)換后下傳到地面,原理如圖5 所示,通過一個繼電器實現(xiàn)主份和備份轉(zhuǎn)換器的切換。正常情況下,K1 線圈接通,吸合繼電器開關(guān)與觸點A接通,主份轉(zhuǎn)換器(轉(zhuǎn)換器A 機)正常工作;當主份轉(zhuǎn)換器故障時,需要將K2 線圈接通,從而吸合繼電器開關(guān)與觸點B 接通,切換至備份轉(zhuǎn)換器(轉(zhuǎn)換器B 機)工作。
圖5 轉(zhuǎn)換器原理圖Fig.5 Schematic diagram of the converter
對切換繼電器進行故障模式影響分析,有以下故障模式:①繼電器開關(guān)粘連;②K2 線圈開路;③K2 線圈短路。當主份轉(zhuǎn)換器出現(xiàn)故障需要切換至備份轉(zhuǎn)換器時,若切換繼電器發(fā)生上述故障模式,繼電器開關(guān)均不能與觸點B 接通,即轉(zhuǎn)換器不能從主份切換至備份,主份和備份轉(zhuǎn)換器均不能正常工作,航天器采集的數(shù)據(jù)流不能下傳。因此,對于單機功能層級,切換繼電器存在單點故障模式。又由于分系統(tǒng)層級和系統(tǒng)層級均沒有冗余備份措施,因此,轉(zhuǎn)換器切換繼電器故障是系統(tǒng)級單點故障模式。
為了降低故障發(fā)生的概率,對切換繼電器從元器件選型、總裝、測試、在軌飛行等環(huán)節(jié)制定控制措施,詳見表3。
表3 轉(zhuǎn)換器切換環(huán)節(jié)分析結(jié)果Table 3 Change-over link analysis results of the a converter
按照上述分析方法對所有采取冗余備份設(shè)計的關(guān)鍵產(chǎn)品進行冗余有效性分析,識別出共用環(huán)節(jié)和切換環(huán)節(jié),分析其故障模式和對系統(tǒng)功能的影響,識別出“假冗余、真單點”,有助于全面識別系統(tǒng)級單點故障模式。
1)提出了基于冗余有效性分析的航天器系統(tǒng)級單點故障模式識別方法,并在載人航天器中成功應(yīng)用,解決了基于故障模式影響分析和故障樹分析的單點故障模式識別方法難以識別單機假冗余的問題,有助于全面識別系統(tǒng)級單點故障模式;
2)基于冗余有效性分析識別出的故障模式,即使最終不是系統(tǒng)級單點故障模式,也是系統(tǒng)中的薄弱環(huán)節(jié),應(yīng)采取相應(yīng)的控制措施,降低故障發(fā)生的概率;
3)對識別出的系統(tǒng)級單點故障模式,應(yīng)從單機生產(chǎn)、總裝、測試、在軌飛行等環(huán)節(jié)制定控制措施,保證航天器產(chǎn)品質(zhì)量,降低飛行任務(wù)風險。