董 驍
(大慶師范學(xué)院計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,黑龍江 大慶 163000)
星載嵌入式計(jì)算機(jī)系統(tǒng)可靠性技術(shù)研究
董 驍
(大慶師范學(xué)院計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,黑龍江 大慶 163000)
隨著我國經(jīng)濟(jì)的不斷發(fā)展,我國的航天事業(yè)也得到了飛速的發(fā)展,因此就需要在可靠性能方面進(jìn)行全面地改善,星載嵌入式計(jì)算機(jī)的性能、體型以及可靠性等。星載嵌入式計(jì)算機(jī)的可靠性直接關(guān)系到衛(wèi)星的使用壽命,目前我國的星載計(jì)算機(jī)系統(tǒng)的可靠性技術(shù)尚存在諸多不足,這成為發(fā)展長壽命衛(wèi)星的“絆腳石”。本文在空間環(huán)境和星載計(jì)算機(jī)抗輻射的角度研究了其可靠性,建立了馬爾可夫可靠性模型,在此基礎(chǔ)上進(jìn)一步探討了星載計(jì)算機(jī)的并行性能。
星載計(jì)算機(jī);系統(tǒng)可靠性;馬爾科夫可靠性模型
星載計(jì)算機(jī)系統(tǒng)是衛(wèi)星的核心系統(tǒng)之一,主要功能是在惡劣的空間條件下對復(fù)雜的衛(wèi)星綜合電子系統(tǒng)進(jìn)行信息處理,包括對信息進(jìn)行采集、處理、分配和存儲(chǔ)。所以星載計(jì)算機(jī)系統(tǒng)對于硬件的可靠性有極高的要求,此外,應(yīng)最大限度地避免其出現(xiàn)故障和延長其使用壽命。因此,研究星載計(jì)算機(jī)系統(tǒng)的高可靠性設(shè)計(jì)是當(dāng)下刻不容緩和勢在必行的任務(wù)。本文研究的星載并行計(jì)算機(jī)是基于上述目標(biāo)設(shè)計(jì)研發(fā)的高可靠性星載嵌入式計(jì)算機(jī)系統(tǒng)。
(一)起步晚,技術(shù)不成熟
我國星載嵌入式計(jì)算機(jī)技術(shù)的起步相比其他發(fā)達(dá)國家比較晚,但是我國的星載嵌入式的計(jì)算機(jī)技術(shù)已經(jīng)取得了非??捎^的發(fā)展,比如小型化以及高性能方面;并且隨著科學(xué)技術(shù)的不斷發(fā)展,對于嵌入式計(jì)算的需求和要求也變得越來越高,需要系統(tǒng)在可靠性方面必須具備相當(dāng)可觀的可靠性,在此種情況下,我國在技術(shù)方面很大程度上存在著相當(dāng)大的缺陷和漏洞。因此為了充分保證系統(tǒng)的可靠性,就需要對星載計(jì)算機(jī)體積和質(zhì)量盡可能地減少。
(二)軟件編程往往無法達(dá)到既定要求
在對星載嵌入式計(jì)算機(jī)系統(tǒng)軟件進(jìn)行編程的過程中,在很大一部分會(huì)出現(xiàn)系統(tǒng)可靠性能下降的現(xiàn)象,這種現(xiàn)象是由于在軟件系統(tǒng)的編程過程當(dāng)中沒有達(dá)到既定的要求造成的,在此種情況下就需要對星載嵌入式的計(jì)算系統(tǒng)當(dāng)中的軟件編程系統(tǒng)進(jìn)行可靠性能方面的確定。
(三)使用壽命短
在進(jìn)行星載嵌入式計(jì)算機(jī)系統(tǒng)的建造過程當(dāng)中,需要對計(jì)算機(jī)系統(tǒng)的整體性進(jìn)行充分的設(shè)計(jì)和滿足,集中體現(xiàn)在計(jì)算機(jī)的大規(guī)模集成電路性能方面。在現(xiàn)階段當(dāng)中,一般情況下導(dǎo)致星載嵌入式計(jì)算機(jī)系統(tǒng)的使用期限不滿足設(shè)計(jì)要求的原因是由于星載計(jì)算機(jī)系統(tǒng)本身的可靠性指標(biāo)造成的。
在星載嵌入式計(jì)算機(jī)系統(tǒng)的運(yùn)行過程中,需要在相當(dāng)嚴(yán)格的條件下進(jìn)行工作,在此種情況下,空間中的環(huán)境和地面當(dāng)中的環(huán)境對于星載嵌入式計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)方面造成不同程度的影響,集中體現(xiàn)在可靠性、抗輻射性能以及低功耗性這3個(gè)方面來進(jìn)行分析。
在可靠性方面,計(jì)算機(jī)系統(tǒng)可靠性分為固有可靠性和使用可靠性兩個(gè)方面的內(nèi)容,前者在計(jì)算機(jī)系統(tǒng)設(shè)計(jì)和制造的過程中確定,其設(shè)定遠(yuǎn)高于地面的可靠性指標(biāo);后者受設(shè)計(jì)制造和使用條件的影響。為了保證星載嵌入式計(jì)算機(jī)本身的穩(wěn)定性能在一定程度上保持相對大的穩(wěn)定性能,就需要對星載嵌入式的設(shè)計(jì)結(jié)構(gòu)體系方面進(jìn)行全面提升,比如系統(tǒng)、部件、邏輯設(shè)計(jì)、電路板以及電器元件等各方面。
在抗輻射性方面,由于本星載嵌入式系統(tǒng)本身固有的特殊環(huán)境,在其空間環(huán)境當(dāng)中的存在的大量輻射性的物質(zhì)在很大程度上就會(huì)形成星載嵌入式計(jì)算機(jī)系統(tǒng)當(dāng)中的不穩(wěn)定因素,比如空間環(huán)境當(dāng)中的高能質(zhì)子、中子、α粒子以及重離子等都會(huì)對半導(dǎo)體器件發(fā)生單粒子效應(yīng)以及總輻射計(jì)的劑量反映,從而對其可靠性和壽命造成一定程度的影響。
在低功耗性能方面,隨著星載嵌入式計(jì)算機(jī)技術(shù)的不斷發(fā)展,對于系統(tǒng)方面的功能要求也變得越來越多。在此種情況下,就會(huì)對星載嵌入式計(jì)算的系統(tǒng)在真空散熱方面的問題進(jìn)行專項(xiàng)研究。如果計(jì)算機(jī)系統(tǒng)當(dāng)中的散熱性能在不好的情況下,對于系統(tǒng)造成的功能性損耗也就會(huì)越來越大,從而影響系統(tǒng)的正常運(yùn)行,導(dǎo)致計(jì)算機(jī)系統(tǒng)的異常工作現(xiàn)象。除此之外,在星載嵌入式計(jì)算機(jī)系統(tǒng)中,主要的能量來源為太陽能蓄電池提供的能量來進(jìn)行運(yùn)行工作,一般情況下太陽能蓄電池的續(xù)航時(shí)間是有一定限制的,需要在一定的時(shí)間內(nèi)為系統(tǒng)提供必要的能量,因此就需要對系統(tǒng)進(jìn)行低功耗的設(shè)計(jì),從而達(dá)到滿足計(jì)算機(jī)系統(tǒng)可靠性的同時(shí)保證電能的有限續(xù)航時(shí)間。
馬爾可夫鏈?zhǔn)且环N無后效性的離散狀態(tài)隨機(jī)過程。用連續(xù)時(shí)間馬爾可夫鏈(CTMC)對計(jì)算機(jī)系統(tǒng)的可靠性進(jìn)行建模,可以表示出系統(tǒng)中復(fù)雜的失效依賴關(guān)系。在星載計(jì)算機(jī)可靠性分析中,為了更為準(zhǔn)確地體現(xiàn)雙CPU并行/雙機(jī)冷備份的容錯(cuò)結(jié)構(gòu),本文建立了該系統(tǒng)的CTMC可靠性模型,并對其求解并對結(jié)果進(jìn)行分析。
(一)馬爾科夫模型的建立
大數(shù)據(jù)、“互聯(lián)網(wǎng)+”、人工智能等技術(shù)爆發(fā)式發(fā)展,推動(dòng)著傳統(tǒng)制造業(yè)向數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)變。哈電電機(jī)審時(shí)度勢,推出發(fā)電設(shè)備遠(yuǎn)程故障診斷系統(tǒng),開展發(fā)電設(shè)備全生命周期運(yùn)維服務(wù)。技術(shù)人員足不出戶,就能在第一時(shí)間掌握詳細(xì)準(zhǔn)確的數(shù)據(jù),分析、排查、監(jiān)測一站式解決。2016年,該項(xiàng)目被國家工信部列入智能制造試點(diǎn)示范項(xiàng)目名單,這是大型發(fā)電設(shè)備制造行業(yè)唯一,也是黑龍江省首個(gè)智能制造試點(diǎn)示范項(xiàng)目。如今,三峽電站、向家壩電站、溪洛渡電站在線監(jiān)測信號已引入平臺,豐滿電站在線監(jiān)測信號將接入遠(yuǎn)程診斷平臺;正在為董菁電站提供智能診斷模塊。
在星載并行計(jì)算機(jī)體系結(jié)構(gòu)以及雙CPU并行雙機(jī)冷備份容錯(cuò)設(shè)計(jì)中,如果在使用的過程中出現(xiàn)乙機(jī)且乙機(jī)無法降級使用的情況,就屬于系統(tǒng)出現(xiàn)的故障現(xiàn)象。在這種情況下,就需要對系統(tǒng)的關(guān)鍵部件進(jìn)行充分分析,對關(guān)鍵部位的工作時(shí)間進(jìn)行指數(shù)的測定。如果在系統(tǒng)故障之前,關(guān)鍵部位的狀態(tài)呈現(xiàn)出指數(shù)分布的狀態(tài),則CPU部件在啟動(dòng)時(shí)和正常工作時(shí)的平均失效率分別為λ1和λ3,降級使用時(shí)的平均失效率為λ5;如果橋接器的部件在啟動(dòng)的時(shí)候平均失效率為λ2,在正常工作的時(shí)候平均失效率為λ4,那么在系統(tǒng)其它部分失效不考慮的情況下,就需要進(jìn)行對模型進(jìn)行建立。
用圖1所示的CTMC模型表示星載雙CPU并行/雙機(jī)冷備份系統(tǒng)的行為模型,圖中每個(gè)狀態(tài)采用五元組Z={p,q;r,s;t}進(jìn)行標(biāo)識。
各個(gè)分量的含義是:
p代表甲機(jī)可用CPU的個(gè)數(shù);
q代表甲機(jī)可用橋接器的個(gè)數(shù);
表1 模型參數(shù)對比
r代表乙機(jī)可用CPU的個(gè)數(shù);
t用以區(qū)別系統(tǒng)的不同狀態(tài)。
(二)馬爾科夫模型的求解
如果用{Z(t),t≥0}來表示狀態(tài)空間為Ω的連續(xù)參數(shù)齊次馬爾可夫鏈,則無窮小生成矩陣Q=[qij]就代表從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率,其對角元素qii=-qi= -∑j≠iqij.對圖1中模型的狀態(tài)從左至右排序,狀態(tài)空間Ω={1,2,…,14},則Q矩陣為圖1所示。
(三)模型求解結(jié)果和分析
在實(shí)際的工作當(dāng)中,元器件的失效率會(huì)出現(xiàn)升高的現(xiàn)象,因此就需要進(jìn)行對比計(jì)算,見表1。
從表1中可以得出,在啟動(dòng)失效率相同的情況下,第1,3,4組中CPU(橋接器)的工作失效率λ3(λ4)分別為啟動(dòng)失效率λ1(λ2)的10倍、20倍、5倍;在系統(tǒng)升級之后,CPU的工作失效率λ5均為正常工作時(shí)失效率λ3的2倍,從而可以對計(jì)算機(jī)系統(tǒng)模型的可用度進(jìn)行充分計(jì)算,結(jié)果如圖2所示。
從圖2中可以看出,部件啟動(dòng)的失效率在第一組和第二組當(dāng)中的參數(shù)曲線差別是很小的,證明了部件的失效率對于系統(tǒng)的可用度是相對較小的。在第三組當(dāng)中的參數(shù)系統(tǒng)可用度要比第一組、第二組以及第四組的曲線參數(shù)要低。在圖2中的第四組參數(shù)是最高的,表示在系統(tǒng)運(yùn)行的前10年之內(nèi)系統(tǒng)使用的下降速度是很緩慢的。
星載嵌入式計(jì)算機(jī)的可靠性在受到自身的因素制約之外,處理的效率也是其中主要的制約因素之一。在此種情況下,就需要對星載嵌入式計(jì)算機(jī)系統(tǒng)的可靠性能進(jìn)行充分地設(shè)計(jì),以此來適應(yīng)復(fù)雜多變的航天航空的任務(wù)要求。在星載并行計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)過程中,需要以體系結(jié)構(gòu)為主要出發(fā)點(diǎn),來實(shí)現(xiàn)對并行處理結(jié)構(gòu)的提升,從而對現(xiàn)有的機(jī)構(gòu)性能和可靠性進(jìn)行全方位地提升。此外,在現(xiàn)有研究成果的基礎(chǔ)上,我們可以在下述方面展開進(jìn)一步地工作:
首先在計(jì)算系統(tǒng)的可靠性能方面,需要依靠模型來進(jìn)行抽象系統(tǒng)的研究,在對系統(tǒng)的行為和特點(diǎn)在進(jìn)行運(yùn)行過程中,需要對模型中的許多特點(diǎn)來進(jìn)行充分研究,比如復(fù)雜的計(jì)算機(jī)、通信系統(tǒng)的諸如容錯(cuò)、動(dòng)態(tài)重構(gòu)修復(fù)、資源競爭、并發(fā)與同步、任務(wù)死鎖、緩慢降級等。在進(jìn)行星載嵌入式計(jì)算機(jī)的性能模型進(jìn)行確定的時(shí)候,可以利用層次建模的方式來進(jìn)行實(shí)現(xiàn)。
其次,在對復(fù)雜的系統(tǒng)性可靠性建模的發(fā)展過程中,需要不斷地進(jìn)行創(chuàng)新理論,在現(xiàn)階段當(dāng)中已經(jīng)有云模型理論、基于自然語言描述的可靠性建模、基于小子樣檢測的可靠性建模等多種模型理論。由此可見,在對模型進(jìn)行研究的時(shí)候需要對模型的生成和求解的技術(shù)進(jìn)行充分研究,以此來將其應(yīng)用到星載嵌入式計(jì)算機(jī)系統(tǒng)的研發(fā)過程中,從而有效提升計(jì)算機(jī)系統(tǒng)的可靠性能。
目前,在我國的星載嵌入式計(jì)算機(jī)技術(shù)當(dāng)中已經(jīng)取得了一定程度的進(jìn)步,值得注意的是仍然存在著很大程度的缺陷和漏洞,因此就需要科研人員來對自身的專業(yè)素質(zhì)進(jìn)行不斷地提升,并且在提升的過程中還需要將現(xiàn)有的技術(shù)來進(jìn)行充分結(jié)合,以此在有效提升星載嵌入式計(jì)算機(jī)系統(tǒng)的可靠性能的同時(shí),還要努力研發(fā)長壽命的星載嵌入式計(jì)算機(jī),以延長衛(wèi)星的使用壽命,為航空航天事業(yè)的發(fā)展做出積極貢獻(xiàn)。
[1]陸大琻.隨機(jī)過程及其應(yīng)用[M].北京:清華大學(xué)出版社,1986.
[2]宋遠(yuǎn)駿.復(fù)雜系統(tǒng)可靠性建模與評價(jià)方法[D].哈爾濱:哈爾濱工業(yè)大學(xué),2001.
TP302
A