李 杰,楊 宏,喬軍卿,趙國清
(1.山東航天電子技術(shù)研究所,煙臺(tái) 264003;2.中國空間技術(shù)研究院載人航天總體部,北京 100094)
以往空間任務(wù)中,當(dāng)電子設(shè)備如數(shù)管計(jì)算機(jī)、遠(yuǎn)置單元、熱控管理單元等在軌發(fā)生故障時(shí),受技術(shù)水平限制,是無法派送人員和裝備到現(xiàn)場進(jìn)行修復(fù)的。國內(nèi)傳統(tǒng)單機(jī)設(shè)備研制階段,在進(jìn)行可靠性評(píng)估時(shí),一般不考慮修復(fù)因素對(duì)單機(jī)和系統(tǒng)可靠性影響,一般通過軟硬件資源的冗余容錯(cuò)設(shè)計(jì),來提高設(shè)備和系統(tǒng)的可靠性,確保空間任務(wù)的完成[1-3],如采用雙機(jī)冷備[4]、雙機(jī)熱備[5]、三模冗余容錯(cuò)[6]、多機(jī)復(fù)合容錯(cuò)[7]等措施。這就不可避免地導(dǎo)致了設(shè)備和系統(tǒng)設(shè)計(jì)復(fù)雜度、體積及重量的增加[8]。
對(duì)于載人空間任務(wù)而言,任務(wù)期間有人值守,能夠?qū)螜C(jī)設(shè)備進(jìn)行一定程度的在軌維修和維護(hù)[9]。在通用化程度較高的前提下,可以大幅減少備件數(shù)量、減輕整器重量,降低航天器研發(fā)成本。隨著航天電子故障診斷技術(shù)及健康預(yù)測與管理技術(shù)的不斷發(fā)展,包括深空探測在內(nèi)的無人飛行器的電子設(shè)備與系統(tǒng)的遠(yuǎn)程維護(hù)與在軌自主保障修復(fù)也具有了可行性[10]。具有在軌可修復(fù)能力可大大提高軟硬件資源的利用效率,提高設(shè)備與系統(tǒng)可靠性。
地面可修復(fù)系統(tǒng)已有一些研究成果,如Rao等[11]結(jié)合馬可夫過程及系統(tǒng)動(dòng)態(tài)仿真研究了一個(gè)含備份的可修復(fù)系統(tǒng),Moghaddass 等[12]根據(jù)維修人員及工作的串并組合對(duì)系統(tǒng)可用度進(jìn)行了分析,孔德良等[13]將系統(tǒng)分解為若干小模塊,先分別計(jì)算再綜合為系統(tǒng)可用度。而在航天領(lǐng)域,單機(jī)在軌可修復(fù)是近年來才面對(duì)的一個(gè)新課題,目前的研究也主要集中在修復(fù)方法上[14-15],對(duì)可修復(fù)單機(jī)的可靠性問題鮮有研究。如不加區(qū)別地直接使用非可修復(fù)單機(jī)可靠性分析方法,就不能準(zhǔn)確把握在軌可修復(fù)單機(jī)的可靠性特點(diǎn),分析結(jié)果也難以對(duì)研制工作起到指導(dǎo)作用。因此,有必要開展在軌可修復(fù)單機(jī)可靠性分析方法研究。
1)可靠度(Reliability)與可用度(Availability)
在可靠性分析理論中[16],可靠性是指產(chǎn)品在規(guī)定的條件下和規(guī)定時(shí)間內(nèi),完成規(guī)定功能的能力??煽啃缘母怕识攘拷锌煽慷?,它是指在規(guī)定時(shí)間段內(nèi)設(shè)備無故障運(yùn)行的概率??捎枚仁窃谀撤N維修條件下、在規(guī)定時(shí)間內(nèi)維持系統(tǒng)正常功能的概率??捎枚扔址譃?類:①系統(tǒng)在某一時(shí)刻處于正常狀態(tài)的概率,稱為瞬態(tài)可用度;②當(dāng)時(shí)間趨于無窮時(shí),系統(tǒng)瞬態(tài)可用度的極限,稱為穩(wěn)態(tài)可用度。
可用度是可修復(fù)單機(jī)的一個(gè)重要的可靠性指標(biāo)。對(duì)可修復(fù)單機(jī),任務(wù)末期可用度趨于一個(gè)穩(wěn)定值,可用穩(wěn)態(tài)可用度來衡量??煽慷冗m合作為非可修復(fù)設(shè)備的可靠性指標(biāo),也可引申為可修復(fù)單機(jī)在修復(fù)率為0時(shí)的可用度。本文采用可用度作為可修復(fù)單機(jī)和非可修復(fù)單機(jī)可靠性比較的基準(zhǔn)。
2)修復(fù)過程
修復(fù)是指當(dāng)一個(gè)設(shè)備或一個(gè)系統(tǒng)發(fā)生故障時(shí),通過技術(shù)手段使之重新恢復(fù)到能夠行使正常功能狀態(tài)的過程[17]。
本文假設(shè)修復(fù)后單機(jī)完好如初。修復(fù)可采用多種方法,既可以是對(duì)故障部件進(jìn)行軟硬件維修,也可以是更換故障部組件。完整的單機(jī)修復(fù)過程一般包括以下幾個(gè)步驟:①檢測到故障發(fā)生,診斷故障原因,隔離故障位置,確定單機(jī)修復(fù)方案(如:軟件在線更新,冷熱復(fù)位、斷電更換硬件等);②通過軟件在線更新、復(fù)位、斷電更換硬件等,恢復(fù)單機(jī)正常功能,包括為更新或更換而進(jìn)行的拆除、取備件、替換等各項(xiàng)工作,以及更新或更換后的軟硬件測試及校準(zhǔn);③再次加入系統(tǒng),行使正常功能。
本文所涉及的單機(jī)修復(fù),既可以是維修單機(jī)的軟件、硬件或部組件,也可以是整機(jī)更換。在備件充足的情況下,修復(fù)工作可多次重復(fù)進(jìn)行。一般修復(fù)過程都含有拆除、測試校準(zhǔn)、再接入等步驟。但一些特殊情況,如在線軟件更新,就不一定需要單機(jī)拆除和接入操作。
3)修復(fù)率
修復(fù)率μ按單機(jī)平均修復(fù)時(shí)間的倒數(shù)計(jì)[18],μ=平均修復(fù)時(shí)間越短,修復(fù)率越高。此處的修復(fù)時(shí)間涵蓋了從檢測到故障發(fā)生,到消除故障、系統(tǒng)恢復(fù)正常功能的時(shí)刻為止,包括了故障檢測、診斷與隔離的時(shí)間t1,軟硬件獲取、維修及測試校準(zhǔn)時(shí)間t2,以及再次加入系統(tǒng)的時(shí)間t3,即:MTTR=t1+t2+t3。
假設(shè)單機(jī)通用化程度高,軟硬件一致性較好,所采用的故障檢測、診斷與隔離算法是一樣的,則t1可視為是不變的。忽略單機(jī)位置給替換操作帶來的差異,t3也可視為是不變的。隨著故障類型及備件儲(chǔ)備情況的不同,t2則會(huì)發(fā)生比較大的變化,尤其是受到備件補(bǔ)充能力的影響。在MTTR中,t2所占比例較大,一般情況下遠(yuǎn)超t1和t3。本文主要以t2來估計(jì)MTTR及μ。
假設(shè)單機(jī)工作壽命分布與修復(fù)時(shí)間分布是相互獨(dú)立的,經(jīng)過修復(fù)的故障單機(jī)其工作壽命分布如新的單機(jī)一樣。單機(jī)失效率λ不隨時(shí)間變化而變化,且單機(jī)可靠度R(t)呈指數(shù)分布,即R(t)=e-λt。
單機(jī)狀態(tài)S共有2 種狀態(tài):正常狀態(tài)和故障狀態(tài),即
非可修復(fù)單機(jī)可靠性模型如圖1所示,表示單機(jī)在t時(shí)刻,有λdt的概率從正常狀態(tài)轉(zhuǎn)移到故障狀態(tài)。當(dāng)轉(zhuǎn)移到故障狀態(tài)(S=1)后,由于沒有修復(fù),只能停留在故障狀態(tài)(S=1),單機(jī)失效。
圖1 非可修復(fù)單機(jī)可靠性模型Fig.1 Reliability model of none-repairable single-unit
可修復(fù)單機(jī)可靠性模型如圖2所示。由于具有修復(fù)能力,故障單機(jī)有一定的概率μdt從故障狀態(tài)中恢復(fù)到正常狀態(tài)。
圖2 可修復(fù)單機(jī)可靠性模型Fig.2 Reliability model of repairable single-unit
假設(shè)初始加電后,單機(jī)處于正常工作狀態(tài)。對(duì)圖2的可修復(fù)單機(jī)可靠性模型建立狀態(tài)方程為
其中:Pi(t)為t 時(shí)刻S=i(i=0,1)狀態(tài)下單機(jī)正常工作概率。
整理式(1),得
對(duì)式(2)使用Laplace變換,得到
根據(jù)前文假設(shè),單機(jī)初始處于正常狀態(tài),故P0(0)=1,P1(0)=0。代入式(3),并解方程可得
對(duì)式(4)使用Laplace反變換,可得
其中:P0(t)為t時(shí)刻單機(jī)處于正常工作狀態(tài)的概率;P1(t)為t時(shí)刻單機(jī)處于故障狀態(tài)的概率。
根據(jù)可修復(fù)單機(jī)可用度的定義,在t時(shí)刻單機(jī)正常工作狀態(tài)的概率即為單機(jī)瞬態(tài)可用度為
根據(jù)式(6),在確定任務(wù)周期、單機(jī)的失效率,以及不同備件狀態(tài)下的修復(fù)率后,就可以得到可修復(fù)單機(jī)在整個(gè)任務(wù)周期的可用度變化趨勢。
對(duì)于非可修復(fù)單機(jī),可視其修復(fù)率μ=0,代入式(6),可得:A(t) = e-λt=R(t),即對(duì)非可修復(fù)單機(jī),其可靠度與可用度是等效的。
本文以某信息系統(tǒng)通用計(jì)算機(jī)作為在軌可修復(fù)單機(jī)進(jìn)行可用度仿真分析。
設(shè)任務(wù)周期為15年(共131 400 h),假定單機(jī)失效率λ=10-4/h。根據(jù)表1所列維修類型和備件儲(chǔ)備狀態(tài)估算不同情況下的修復(fù)率。
表1 不同維修類型和備件狀態(tài)下的修復(fù)率估計(jì)Table1 Repair rate estimation for different maintaining and backup states
表1中,第1~3項(xiàng)在線軟件更新是在軌維修項(xiàng)目之一,但這3 項(xiàng)不涉及故障的檢測、診斷與隔離過程,也沒有設(shè)備的拆除和再接入過程,更新軟件是地面經(jīng)過檢驗(yàn)和測試后上傳至飛行器,因此其平均修復(fù)時(shí)間是按照從系統(tǒng)注入單機(jī),并經(jīng)過在軌測試后正式投入使用這段時(shí)間。
圖3 第1~6項(xiàng)的可用度曲線Fig.3 Availability curves of No.1~6 in table 1
將上述參數(shù)(任務(wù)周期、單機(jī)失效率、修復(fù)率)帶入式(6),得到可修復(fù)單機(jī)在15年任務(wù)周期內(nèi),不同維修類型和備件狀態(tài)下的可用度變化曲線。
因表1 中第1~6 項(xiàng)可用度值比較大且分布密集,將第1~6項(xiàng)的可用度曲線用圖3表示,其余的可用度用圖4表示。表1中的各項(xiàng)在第15年末的可用度值如表2所示。
圖4 第7~9項(xiàng)及非可修復(fù)單機(jī)的可用度曲線Fig.4 Availability curves of No.7~no.9 in table 1,and none-repairable single-unit
表2 表1中各項(xiàng)及非可修復(fù)單機(jī)在15年末的可用度值Table2 Table1 availability values at the end of 15-year mission of No.1~no.9 in,and none-repairable single-unit
仿真計(jì)算中使用的單機(jī)失效率相對(duì)較高,非可修復(fù)單機(jī)在1 000 h可用度就跌至0.905。表1中的第1~7項(xiàng)因具有較高的修復(fù)率,在任務(wù)周期中始終保持比較高的可用度,在任務(wù)末期單機(jī)可用度仍高于0.9。表1中的第8、9項(xiàng)因修復(fù)率相對(duì)較低,任務(wù)末期可用度也相對(duì)較低,但遠(yuǎn)高于非可修復(fù)單機(jī)。這表明,具有可修復(fù)能力,同時(shí)具有較高的修復(fù)率,可以使失效率相對(duì)大的單機(jī)也能在任務(wù)周期內(nèi)保持較高的可用度,從而使得飛行器具有較高的可靠性。
當(dāng)t趨于無窮時(shí),由(6)式可得到單機(jī)穩(wěn)態(tài)可用度[19]為
由圖3 和圖4 可見,隨著時(shí)間的推移,可用度曲線分別趨近并各自收斂于某一個(gè)穩(wěn)定數(shù)值,區(qū)別在于不同失效率和修復(fù)率下這個(gè)數(shù)值是不一樣的。
當(dāng)(7)式中修復(fù)率μ分別趨于0和∞兩個(gè)極端值時(shí),得到以下兩種極端情況:當(dāng)μ→0 時(shí),MTTR→∞,A(∞)→0,即在沒有修復(fù)力的情況下,穩(wěn)態(tài)可用度最終趨于0。當(dāng)μ→∞時(shí),MTTR→0,A(∞)→1,相當(dāng)于具有瞬間修復(fù)能力,單機(jī)在任務(wù)周期內(nèi)幾乎全程可用。
按照文獻(xiàn)[17]的方法將式(7)作泰勒展開,有
略去高次項(xiàng)后,得到一個(gè)近似估計(jì)公式(8),可作為設(shè)計(jì)初期,在期望的穩(wěn)態(tài)可用度下,對(duì)單機(jī)修復(fù)率和失效率的關(guān)系進(jìn)行快速估計(jì)。如:當(dāng)期望任務(wù)末期的穩(wěn)態(tài)可用度不低于0.9 時(shí),就需要滿足μ≥ 10λ的條件。
此處的關(guān)系估計(jì)只與μ和λ的比例有關(guān),與它們的絕對(duì)數(shù)值無關(guān)。實(shí)際應(yīng)用中,可根據(jù)當(dāng)前單機(jī)失效率水平確定合適的維修策略,以更有效地調(diào)動(dòng)資源;或可根據(jù)現(xiàn)有的維修能力預(yù)計(jì)所需的單機(jī)失效率,在備件充足、通用程度高、操作便捷、平均修復(fù)時(shí)間短的場景下,可適當(dāng)降低對(duì)單機(jī)失效率的要求,這有利于系統(tǒng)成本控制。
深空探測任務(wù)周期長,要求電子設(shè)備具有較高的可靠性。通過采用新的技術(shù)和新的設(shè)計(jì)方法等讓設(shè)備具有可修復(fù)能力,是提高其可靠性的一種有效途徑。本文研究了在軌可修復(fù)單機(jī)的可靠性分析方法,推導(dǎo)了單機(jī)瞬態(tài)可用度計(jì)算公式,給出了修復(fù)率和失效率關(guān)系快速估計(jì)方法。研究結(jié)果表明,具有可修復(fù)能力對(duì)提高單機(jī)有效工作時(shí)間、提升單機(jī)可用度起著非常大的作用,修復(fù)時(shí)間越短,修復(fù)率越高,單機(jī)可用度提升幅度就越大,可靠性越高。通過對(duì)修復(fù)率與失效率關(guān)系快速估計(jì),可在設(shè)計(jì)初期階段為維修策略和可靠性規(guī)劃提供決策依據(jù)。