李井源,周 蓉,劉增軍,孫廣富
(國(guó)防科技大學(xué) 電子科學(xué)學(xué)院, 湖南 長(zhǎng)沙 410073)
隨著衛(wèi)星應(yīng)用技術(shù)的持續(xù)發(fā)展,衛(wèi)星地面站的規(guī)模日益龐大,功能復(fù)雜性大幅提升,同時(shí)對(duì)衛(wèi)星地面站可靠性也提出了更高的要求。以北斗衛(wèi)星無(wú)線(xiàn)電測(cè)定業(yè)務(wù)(radio determination satellite service,RDSS)地面站系統(tǒng)為例,該系統(tǒng)由上千臺(tái)單機(jī)以及上萬(wàn)個(gè)部件組成,可用度要求高達(dá)99.999 3%。主要依靠人工進(jìn)行維護(hù)和故障分析的傳統(tǒng)方法已不能適應(yīng)此類(lèi)復(fù)雜通信系統(tǒng)的運(yùn)維要求。一方面,由于衛(wèi)星地面站設(shè)備類(lèi)型和數(shù)量繁多,設(shè)備之間緊密耦合,故障之間存在傳遞效應(yīng),使故障來(lái)源難以分離;另一方面,復(fù)雜系統(tǒng)存在時(shí)變性,難以預(yù)先知曉并獲取完備的故障模式,當(dāng)有未知故障發(fā)生時(shí),需要人工干預(yù),導(dǎo)致故障處置不及時(shí)。因此,為了保證系統(tǒng)能正常運(yùn)行,必須采取一套有效的故障診斷法,對(duì)系統(tǒng)進(jìn)行實(shí)時(shí)觀測(cè),并及時(shí)有效地檢測(cè)和隔離出單故障與多故障。
目前故障診斷方法總體可分為兩類(lèi):基于數(shù)據(jù)驅(qū)動(dòng)的方法和基于模型的方法[1-3]。其中,基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法是一種基于淺知識(shí)的診斷方法,無(wú)須預(yù)先獲知系統(tǒng)內(nèi)部各元件的連接關(guān)系和相互作用,只需要有大量的歷史數(shù)據(jù),從歷史數(shù)據(jù)中提取故障模式,目前主要的研究理論包括多變量統(tǒng)計(jì)方法、信號(hào)處理方法[4-6]等。但此方法不適用于衛(wèi)星地面站這類(lèi)高可靠性的大型電子系統(tǒng),主要是因?yàn)樵谙到y(tǒng)建成初期可獲取的故障樣本太少,難以得到完整、準(zhǔn)確的故障模式,造成診斷精度較低,容易誤檢和漏檢?;谀P偷墓收显\斷方法又稱(chēng)為基于深知識(shí)的診斷方法,它利用系統(tǒng)的結(jié)構(gòu)、行為和功能等方面的知識(shí)對(duì)系統(tǒng)進(jìn)行診斷推理,建立系統(tǒng)的結(jié)構(gòu)、行為或功能模型[7-8],具體的診斷方法包括故障樹(shù)、分層有向圖、神經(jīng)網(wǎng)絡(luò)方法等[9-11]。其中,基于分層有向圖(hierarchy directed graph,HDG)模型[12]的故障診斷技術(shù)能較好地解決衛(wèi)星地面站面臨的上述故障診斷問(wèn)題。該模型使用節(jié)點(diǎn)和有向邊表示實(shí)際系統(tǒng)中的元件和元件之間的故障傳播關(guān)系,然后結(jié)合給定的系統(tǒng)觀測(cè)信息進(jìn)行故障推理定位。該模型的優(yōu)勢(shì)是能在較高層次上給出系統(tǒng)的宏觀描述,對(duì)故障傳播路徑及其演變提供解釋?zhuān)邆溆行ёR(shí)別未知故障及自動(dòng)獲取知識(shí)的特點(diǎn),有很強(qiáng)的通用性,因此該方法在航天、電子、電力等行業(yè)復(fù)雜系統(tǒng)有著廣泛的研究與應(yīng)用[13-17]。
對(duì)于北斗衛(wèi)星地面站,傳統(tǒng)的基于分層有向圖模型的故障診斷技術(shù)仍存在下述問(wèn)題:①衛(wèi)星地面站包含多種信號(hào)流,比如射頻模擬信號(hào)流、基帶數(shù)字信號(hào)流、網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)流、時(shí)頻信號(hào)流等,各個(gè)設(shè)備具有單個(gè)或多個(gè)不同類(lèi)型的輸入輸出接口,且設(shè)備運(yùn)行狀態(tài)由多種工況信息來(lái)表征,不同的故障類(lèi)型可能引起不同的故障傳播路徑,相應(yīng)的模型也不一樣。若按照傳統(tǒng)有向圖模型方法將各設(shè)備各工作狀態(tài)變量設(shè)置為節(jié)點(diǎn)來(lái)建模,節(jié)點(diǎn)數(shù)將很龐大,模型異常復(fù)雜,需要對(duì)節(jié)點(diǎn)進(jìn)行簡(jiǎn)化。②目前基于分層有向圖模型的故障診斷方法中關(guān)于如何獲取設(shè)備故障概率的研究比較少,大多是基于歷史故障發(fā)生次數(shù)來(lái)確定,但是對(duì)于實(shí)際系統(tǒng)而言,故障發(fā)生概率低,樣本少,統(tǒng)計(jì)次數(shù)不具備指導(dǎo)意義,導(dǎo)致模型收斂速度慢,故障診斷效率低。③衛(wèi)星地面站的多數(shù)設(shè)備具有冗余和備份的硬件結(jié)構(gòu),但傳統(tǒng)的分層有向圖模型很難描述熱備份設(shè)備之間的關(guān)系。
為解決傳統(tǒng)分層有向圖模型應(yīng)用于衛(wèi)星地面站所面臨的問(wèn)題,本文根據(jù)衛(wèi)星地面站特點(diǎn),提出了一種基于增強(qiáng)分層有向圖(enhanced hierarchy directed graph,EHDG)的故障診斷方法。在EHDG模型中,對(duì)各個(gè)設(shè)備的多種工況信息按照不同信息流以及故障傳播方式進(jìn)行分類(lèi),每類(lèi)對(duì)應(yīng)為隸屬于該設(shè)備的一個(gè)節(jié)點(diǎn),從而簡(jiǎn)化模型中的節(jié)點(diǎn)數(shù)量;通過(guò)反向回溯和正向推理減小潛在故障源搜索空間,并根據(jù)被搜索次數(shù)給出故障源候選集中各節(jié)點(diǎn)的故障概率;另外,模型中增加節(jié)點(diǎn)有效性使能函數(shù),克服常規(guī)分層有向圖模型中某一設(shè)備由于故障原因切換導(dǎo)致系統(tǒng)結(jié)構(gòu)發(fā)生改變時(shí)需要重新建模的問(wèn)題。
EHDG模型是利用不同符號(hào)和連線(xiàn)來(lái)描述系統(tǒng)內(nèi)部影響關(guān)系的定性因果模型,具有包容大量潛在故障信息的能力。對(duì)EHDG模型定義如下:
定義1G為一個(gè)包含5個(gè)變量的有向圖,表示為:
G=G(V,P,D,ψ,H)
(1)
式中:
V={v1,v2,…,vm},為有限節(jié)點(diǎn)集合。每個(gè)單機(jī)包含若干個(gè)節(jié)點(diǎn),而每個(gè)節(jié)點(diǎn)對(duì)象隸屬于一個(gè)單機(jī)。
P={pij},是有向邊集合,表示節(jié)點(diǎn)vi指向節(jié)點(diǎn)vj的有向邊,物理意義為節(jié)點(diǎn)vi的一個(gè)故障可以傳遞到節(jié)點(diǎn)vj,通常將P用一個(gè)n×n的矩陣表示,稱(chēng)之為可達(dá)矩陣。
集合D= {d1,d2, …,dm},為有限單機(jī)集合,表示組成系統(tǒng)的實(shí)體對(duì)象,是一個(gè)具有輸入和輸出接口的獨(dú)立體,也是可執(zhí)行備份切換的最小單元。其中,di=di{vk,k=1,2,…,L}描述單機(jī)di和節(jié)點(diǎn)vk的隸屬關(guān)系,其中隸屬于同一單機(jī)的不同節(jié)點(diǎn)vk有不同的流出邊pkj和流入邊ptk。
函數(shù)ψ(pij)表示有向邊pij使能條件,即pij所表示的變量因果關(guān)系成立的設(shè)備主備份狀態(tài)。
向量H=[hk(vi),k=1, 2, …,l]表示有向圖模型中各節(jié)點(diǎn)所在的層級(jí)。
定義2EHDG模型中各節(jié)點(diǎn)當(dāng)前的健康狀態(tài)用函數(shù)ζ(vi) (vi∈V,ζ→{1, 0, ?})來(lái)表示,即:
(2)
步驟1:為了降低建模難度,簡(jiǎn)化模型的規(guī)模,需要根據(jù)系統(tǒng)結(jié)構(gòu)和行為的深知識(shí),對(duì)各個(gè)設(shè)備的各監(jiān)控點(diǎn)按照不同的故障傳播路徑進(jìn)行分類(lèi),即將具有相同流入有向邊和流出有向邊的監(jiān)控點(diǎn)合并為一個(gè)節(jié)點(diǎn),這樣可得到系統(tǒng)的所有節(jié)點(diǎn)V={vk}。
步驟2:建立有向圖的鄰接矩陣A=(aij)n×n,其中n為系統(tǒng)中的節(jié)點(diǎn)數(shù)量,元素aij為:
(3)
對(duì)于熱備份設(shè)備,則假設(shè)其為主份狀態(tài)來(lái)建立鄰接矩陣。
步驟3:通過(guò)Warshall算法,將鄰接矩陣轉(zhuǎn)化為可達(dá)矩陣P=(pij)n×n,表示節(jié)點(diǎn)之間直接和間接的故障傳播關(guān)系,其中n為系統(tǒng)中的節(jié)點(diǎn)數(shù)量。P的計(jì)算方法為:
=I+A(I-A)-1
(4)
式中,I是單位矩陣。pij≠0表示節(jié)點(diǎn)vi的故障可以傳播到節(jié)點(diǎn)vj,反之,則無(wú)關(guān)。
步驟4:分解可達(dá)矩陣P,進(jìn)行層級(jí)劃分,得到分層有向圖,具體方法如下:
1)根據(jù)可達(dá)矩陣P,查找每個(gè)節(jié)點(diǎn)的可達(dá)集Ri和先行集Si。節(jié)點(diǎn)vi的可達(dá)集Ri表示為第i行中所有為1的列所對(duì)應(yīng)的節(jié)點(diǎn)集合,其物理意義為節(jié)點(diǎn)vi的故障可傳播到的節(jié)點(diǎn);節(jié)點(diǎn)vi的先行集Si為第i列中所有為1的行所對(duì)應(yīng)的節(jié)點(diǎn)集合,其物理意義為可造成節(jié)點(diǎn)vi故障的其他節(jié)點(diǎn)。
2)計(jì)算各個(gè)節(jié)點(diǎn)的可達(dá)集Ri和先行集Si的交集Ci,若其交集滿(mǎn)足式(5),則節(jié)點(diǎn)vi就屬于第1層節(jié)點(diǎn),也是最高層級(jí)節(jié)點(diǎn),在有向圖模型中只有流出方向箭頭。
Ci=Ri∩Si=Sii=1, 2, …,n
(5)
3)刪除所有已確定層次的節(jié)點(diǎn),即在可達(dá)矩陣P中刪去確定層次節(jié)點(diǎn)所在的行和列,從而產(chǎn)生一個(gè)新的矩陣,再對(duì)新矩陣重復(fù)上述1)和2),分別計(jì)算第2到l層的節(jié)點(diǎn)集合,直到所有節(jié)點(diǎn)完成分層,得到向量H。
以一個(gè)簡(jiǎn)單系統(tǒng)為例說(shuō)明分層有向圖的建模過(guò)程。某系統(tǒng)有A、B、C、D四個(gè)單機(jī)設(shè)備,經(jīng)過(guò)業(yè)務(wù)分析,單機(jī)A有節(jié)點(diǎn)v1、v2,B有節(jié)點(diǎn)v3、v4,C有節(jié)點(diǎn)v5,D有節(jié)點(diǎn)v6和v7,且單機(jī)A、B為熱備份,其故障傳播有向圖如圖1所示。
圖1 單機(jī)故障傳播路徑示例Fig.1 Example of single machine fault propagation path
通過(guò)分析有向圖節(jié)點(diǎn)關(guān)系,可以確定未分層有向圖模型的鄰接矩陣A。
(6)
通過(guò)Warshall算法,得到可達(dá)矩陣:
(7)
根據(jù)可達(dá)矩陣P1,可知節(jié)點(diǎn)v1的可達(dá)集R1={v7},先行集S1=?,則有R1∩S1=S1,因此節(jié)點(diǎn)v1為第1層節(jié)點(diǎn)。同樣方法搜索其他節(jié)點(diǎn),得到節(jié)點(diǎn)v2、v3、v4也屬于第1層節(jié)點(diǎn),則第1層節(jié)點(diǎn)集合為:
h1={v1,v2,v3,v4}
(8)
刪去節(jié)點(diǎn)v1、v2、v3、v4所在的行和列后,重新建立可達(dá)矩陣P2:
(9)
對(duì)于可達(dá)矩陣P2,應(yīng)用相同的方法,得到第2層節(jié)點(diǎn)為:h2={v5}。最后得到第3層節(jié)點(diǎn)為h3={v6,v7},該層級(jí)是最低層,所屬節(jié)點(diǎn)只有輸入有向邊。得到分層有向圖如圖2所示,由于單機(jī)B處于備份狀態(tài),其節(jié)點(diǎn)v3和v4的輸出邊用虛線(xiàn)表示。
圖2 增強(qiáng)分層有向圖模型示意Fig.2 Example of EHDG mode
故障診斷方法的選擇決定了診斷的準(zhǔn)確性和實(shí)時(shí)性。對(duì)于有較高實(shí)時(shí)性要求的系統(tǒng),不能采用復(fù)雜性過(guò)高的推理算法。本文提出了反向回溯和正向推理相結(jié)合的故障診斷方法,如圖3所示,具體步驟如下:
圖3 基于EHDG模型的故障診斷推理流程圖Fig.3 Workflow of fault diagnosis ratiocination based on EHDG model
步驟1:根據(jù)設(shè)備當(dāng)前熱備份狀態(tài)獲得函數(shù)ψ(pij),將1.2節(jié)建模得到的可達(dá)矩陣P中無(wú)效的有向邊pij置為0。
步驟2:故障源候選節(jié)點(diǎn)搜索:系統(tǒng)發(fā)生故障后,被監(jiān)控節(jié)點(diǎn)vi的系統(tǒng)變量異常,發(fā)出報(bào)警。從報(bào)警節(jié)點(diǎn)集合中,選取最底層的任意一個(gè)報(bào)警節(jié)點(diǎn)vi開(kāi)始進(jìn)行反向回溯搜索。即,從可達(dá)矩陣P中提取節(jié)點(diǎn)vi的先行集Si,Si中的節(jié)點(diǎn)集就是導(dǎo)致vi故障的故障源候選集F=F{vj},并統(tǒng)計(jì)每個(gè)故障源被搜索到的次數(shù)。如此循環(huán),直到所有報(bào)警節(jié)點(diǎn)都完成搜索。
步驟3:故障源候選節(jié)點(diǎn)的有效性判斷:若初始故障源候選集中包含了ζ(vj)≠1的節(jié)點(diǎn),即該節(jié)點(diǎn)未產(chǎn)生報(bào)警,說(shuō)明該節(jié)點(diǎn)可能是正常的,也可能是發(fā)生了未知故障的。對(duì)這些狀態(tài)未知的節(jié)點(diǎn),根據(jù)衛(wèi)星地面站信息流特征,采用啟發(fā)式正向推理來(lái)進(jìn)行判斷。
從初始故障源候選節(jié)點(diǎn)中找出處于最底層的ζ(vj)≠1的節(jié)點(diǎn)vl開(kāi)始推理:從可達(dá)矩陣P中提取節(jié)點(diǎn)vl的除vl以外的可達(dá)集Rl,以及從系統(tǒng)運(yùn)行中獲知可達(dá)集Rl中各節(jié)點(diǎn){vm}實(shí)際的健康狀態(tài)ζ(vm);然后比較各節(jié)點(diǎn)vm的健康狀態(tài),若ζ(vm)取值皆為1,則初始故障源候選集中仍保留節(jié)點(diǎn)vl,并將ζ(vl)置為1;若ζ(vm)取值不一樣,則從可達(dá)矩陣P中提取節(jié)點(diǎn)vl的先行集Sl,在初始故障源候選集中刪去Sl包含的節(jié)點(diǎn),并將Sl中各節(jié)點(diǎn)的健康狀態(tài)ζ(vq,vq∈Sl)置為0,這樣就完成了一個(gè)節(jié)點(diǎn)的有效性判斷。以相同方法遍歷初始故障源候選集中其他ζ(vj)≠1的節(jié)點(diǎn),從而盡可能地剔除掉正常節(jié)點(diǎn),減小故障源候選集大小。
正向推理方法綜合運(yùn)用多種信息,包括故障報(bào)警信息和正常信息,自動(dòng)分析可能的故障源候選點(diǎn),將故障源限定在盡可能小的范圍內(nèi),這樣可以大大提高故障定位效率。
步驟4:故障源候選節(jié)點(diǎn)排序:完成故障源候選節(jié)點(diǎn)篩選后,根據(jù)步驟1中每個(gè)故障源節(jié)點(diǎn)被搜索到的次數(shù)按從大到小排序,節(jié)點(diǎn)被搜索到的次數(shù)越多,說(shuō)明其故障概率越大。若多個(gè)節(jié)點(diǎn)被搜索到的次數(shù)相同,則層級(jí)高的節(jié)點(diǎn)排在靠前位置。
步驟5:根據(jù)1.1節(jié)中定義的di確定各節(jié)點(diǎn)所屬的設(shè)備,設(shè)備的故障概率取所屬節(jié)點(diǎn)中故障概率z(vk)最大值,即設(shè)備故障概率Z(di)表示為:
Z(di)=max{z(vk),vk∈di}
(10)
從故障概率最高的設(shè)備開(kāi)始執(zhí)行故障隔離。故障隔離的方法一般是由系統(tǒng)管理軟件下發(fā)切換或復(fù)位指令給可能的故障設(shè)備。對(duì)于有硬件冗余的設(shè)備,優(yōu)先下發(fā)備份切換指令;對(duì)于無(wú)備份的設(shè)備,則下發(fā)單機(jī)復(fù)位指令。
步驟6:評(píng)價(jià)故障隔離操作結(jié)果:若設(shè)備不響應(yīng)系統(tǒng)管理軟件的指令,則標(biāo)記該設(shè)備故障隔離失敗,需要手動(dòng)復(fù)位設(shè)備;若設(shè)備執(zhí)行了系統(tǒng)管理軟件下發(fā)的指令且系統(tǒng)能恢復(fù)正常,則診斷結(jié)束,確認(rèn)故障位置;若遍歷完所有設(shè)備后,仍不能解決問(wèn)題,則將診斷過(guò)程和結(jié)果以報(bào)告形式發(fā)送給管理員。
將上文提出的增強(qiáng)分層有向圖模型應(yīng)用到北斗RDSS衛(wèi)星地面站系統(tǒng)的故障診斷建模中。
以北斗RDSS地面站系統(tǒng)為例,作為有源定位服務(wù)的測(cè)量核心和通信樞紐,其主要業(yè)務(wù)是完成RDSS出站信號(hào)的生成、擴(kuò)頻調(diào)制和功率放大,以及完成入站信號(hào)偽距測(cè)量和短報(bào)文接收等任務(wù),根據(jù)上述任務(wù),衛(wèi)星地面站信號(hào)收發(fā)系統(tǒng)可劃分為信號(hào)發(fā)射子系統(tǒng)、信號(hào)接收子系統(tǒng)和監(jiān)控子系統(tǒng),如圖4所示。為方便后續(xù)闡述EHDG的建模和推理過(guò)程,本文案例中僅對(duì)衛(wèi)星地面站系統(tǒng)簡(jiǎn)化后的單條收發(fā)鏈路進(jìn)行說(shuō)明,真實(shí)的衛(wèi)星地面站包含多星多鏈路且設(shè)備連接關(guān)系更為復(fù)雜,但故障診斷方法是一致的。
圖4 北斗RDSS地面站系統(tǒng)(單鏈路)架構(gòu)Fig.4 Architecture of BeiDou RDSS ground station system (single link)
由圖4可知,單條接收鏈路由天線(xiàn)、一分二分路器、主備2臺(tái)射頻采樣單元、頻率綜合單元、主備2臺(tái)交換機(jī)、主備2臺(tái)數(shù)字信號(hào)處理單元組成。天線(xiàn)接收到入站信號(hào)后,通過(guò)分路器將信號(hào)分配到各個(gè)接收鏈路,每條接收鏈路中的主份射頻采樣單元對(duì)射頻信號(hào)進(jìn)行變頻、濾波、采樣等處理,把得到的基帶數(shù)字信號(hào)以光信號(hào)形式發(fā)送給主份交換機(jī),備份射頻采樣單元也做相同處理,將基帶數(shù)字信號(hào)發(fā)送給備份交換機(jī),主備萬(wàn)兆交換機(jī)將數(shù)據(jù)都發(fā)送給該接收鏈路下主份和備份數(shù)字信號(hào)處理單元,頻率綜合單元為射頻采樣終端提供參考時(shí)頻信號(hào)。
單條發(fā)射鏈路由天線(xiàn)、合路器、主備2臺(tái)功率放大器、信號(hào)分配器、主備2臺(tái)射頻發(fā)送終端、出站監(jiān)測(cè)終端、頻率綜合單元組成。射頻發(fā)送終端通過(guò)心跳線(xiàn)完成主備切換,主射頻發(fā)送終端生成出站信號(hào),并通過(guò)信號(hào)分配器分別發(fā)送給主備兩臺(tái)功率放大器,主份功率放大器將放大后的射頻信號(hào)通過(guò)天線(xiàn)發(fā)送出去。其中收發(fā)鏈路共用天線(xiàn)、頻率綜合單元和監(jiān)控服務(wù)器。
2.2.1 確定節(jié)點(diǎn)
對(duì)北斗RDSS地面站系統(tǒng)共采集到近100條不同類(lèi)型的故障信息,通過(guò)對(duì)故障信息進(jìn)行級(jí)聯(lián)故障分析,劃分引起級(jí)聯(lián)故障的故障表象與故障前因,得到36個(gè)關(guān)鍵節(jié)點(diǎn),整理見(jiàn)表1。
表1 北斗RDSS地面站系統(tǒng)(單鏈路)關(guān)鍵節(jié)點(diǎn)分析Tab.1 Analysis of critical nodes of BeiDou RDSS ground station system (single link)
表1 (續(xù))
2.2.2 確定分層
先根據(jù)表1建立鄰接矩陣A36×36,然后通過(guò)Warshall算法,將鄰接矩陣轉(zhuǎn)化為可達(dá)矩陣P36×36,再對(duì)可達(dá)矩陣P36×36進(jìn)行分層處理,得到衛(wèi)星地面站收發(fā)系統(tǒng)(單鏈路)各節(jié)點(diǎn)分層信息,如表2所示,相應(yīng)的分層有向圖模型如圖5所示。
表2 北斗RDSS地面站系統(tǒng)關(guān)鍵節(jié)點(diǎn)分層結(jié)果Tab.2 Hierarchy result of critical nodes of BeiDou RDSS ground station system
圖5 衛(wèi)星地面站收發(fā)系統(tǒng)(單鏈路)分層有向圖模型Fig.5 EHDG model for satellite ground station transceiver system (single link)
下面通過(guò)單故障報(bào)警和多故障報(bào)警這兩種典型場(chǎng)景的故障診斷過(guò)程進(jìn)行說(shuō)明。
2.3.1 案例一:?jiǎn)喂收蠄?bào)警
在進(jìn)行故障診斷前,首先要根據(jù)當(dāng)前系統(tǒng)的熱備份狀態(tài),將可達(dá)矩陣P中熱備份設(shè)備所屬節(jié)點(diǎn)對(duì)應(yīng)的流出有向邊pij置為0。從表1可知,當(dāng)前衛(wèi)星地面站信號(hào)收發(fā)系統(tǒng)中d3、d7、d10、d12、d14、d17為備份狀態(tài)設(shè)備,需要將這些設(shè)備的所屬節(jié)點(diǎn)對(duì)應(yīng)的流出有向邊pij置為0。以d7(備份射頻采樣單元)為例,d7包含節(jié)點(diǎn)v13、v14和v15,節(jié)點(diǎn)v13對(duì)應(yīng)的流出節(jié)點(diǎn)為v21和v24,因此將可達(dá)矩陣P中的有向邊p13,21和p13,24置為0,同理,將節(jié)點(diǎn)v14和v15對(duì)應(yīng)的流出有向邊{p14,21,p14,24}以及{p15,21,p15,24}置為0。
僅當(dāng)主份數(shù)字信號(hào)處理單元產(chǎn)生“入站業(yè)務(wù)異?!眻?bào)警時(shí),即ζ(v21)=1,從可達(dá)矩陣P的第21列中搜索到所有非0值對(duì)應(yīng)的行號(hào)為1、3、4、5、7、10、17、19、21、36,即初始故障源候選集F包含節(jié)點(diǎn){v1,v3,v4,v5,v7,v10,v17,v19,v21,v36},其中{v1,v3,v7,v10,v17,v36}∈層級(jí)1,{v4,v5,v19}∈層級(jí)2,{v21}∈層級(jí)3,如圖6所示。
圖6 節(jié)點(diǎn)v21單故障診斷EHDG模型Fig.6 EHDG model for node v21 single fault diagnosis
采用正向推理來(lái)剔除初始故障源候選集F中正常的節(jié)點(diǎn)。由于只有節(jié)點(diǎn)v21產(chǎn)生了報(bào)警,因此需要對(duì)故障源候選集中除節(jié)點(diǎn)v21之外的所有ζ(vj)≠1的節(jié)點(diǎn)進(jìn)行有效性判斷。從較低層級(jí)的節(jié)點(diǎn)v4,v5,v19開(kāi)始推理。以節(jié)點(diǎn)v4為例,從可達(dá)矩陣P中提取節(jié)點(diǎn)v4除去自身的到達(dá)集S4為{v21,v24},然后從系統(tǒng)運(yùn)行狀態(tài)中獲知節(jié)點(diǎn)v21和v24的健康指示分別為ζ(v21)=1,ζ(v24)=0,兩個(gè)節(jié)點(diǎn)的ζ(vm)取值不一樣,說(shuō)明節(jié)點(diǎn)v4不是引起v21故障的原因,因此在初始故障源候選集F中刪去節(jié)點(diǎn)v4以及其輸入邊節(jié)點(diǎn)v7,并將ζ(v4)和ζ(v7)置為0。接著以相同方法遍歷初始故障源候選集中剩余的ζ(vj)≠1的節(jié)點(diǎn),遍歷最終結(jié)果是故障源候選集僅有節(jié)點(diǎn)v21。這樣采用正向推理后故障源候選集從初始的10個(gè)候選節(jié)點(diǎn)減少到1個(gè)節(jié)點(diǎn),故障診斷效率提高了90%。最后對(duì)節(jié)點(diǎn)v21所屬的設(shè)備進(jìn)行故障隔離,即對(duì)數(shù)字信號(hào)處理單元執(zhí)行主備切換操作。
2.3.2 案例二:多故障報(bào)警
當(dāng)主備數(shù)字信號(hào)處理單元都產(chǎn)生“入站業(yè)務(wù)異常”報(bào)警,同時(shí)主份射頻采樣單元產(chǎn)生“AD功率異常”報(bào)警時(shí),即ζ(v21)=1、ζ(v24)=1、ζ(v5)=1,從可達(dá)矩陣P搜索到節(jié)點(diǎn)v21的到達(dá)集S21為{v1,v3,v4,v5,v7,v10,v17,v19,v21,v36};節(jié)點(diǎn)v24的到達(dá)集S24為{v1,v3,v4,v5,v7,v10,v17,v19,v22,v24,v36},節(jié)點(diǎn)v5的到達(dá)集S5為{v1,v5,v10,v36}。對(duì)到達(dá)集取并集得到初始故障源候選集F=S21∪S24∪S5= {v1,v3,v4,v5,v7,v10,v17,v19,v21,v22,v24,v36}。其中,{v1,v3,v7,v10,v17,v36}∈層級(jí)1,{v4,v5,v19,v22}∈層級(jí)2,{v21,v24}∈層級(jí)3。圖7為節(jié)點(diǎn)v5、v21和v24對(duì)應(yīng)的EHDG模型圖,表3為各故障源被搜索到的統(tǒng)計(jì)次數(shù)。
圖7 節(jié)點(diǎn)v5、v21、v24多故障診斷EHDG模型Fig.7 EHDG model for node v5、v21、v24 multiple fault diagnosis
表3 各故障源被搜索次數(shù)Tab.3 Number of search hits of the nodes in fault source candidate set
對(duì)故障源候選集中除節(jié)點(diǎn)v5、v21和v24之外的所有ζ(vj)≠1的節(jié)點(diǎn)進(jìn)行有效性判斷,剔除正常的節(jié)點(diǎn)。
首先從第2層的節(jié)點(diǎn)v4、v19和v22開(kāi)始推理,由于v4除自身外的到達(dá)集S4為{v21,v24},v19除自身外的到達(dá)集S19為{v21},以及v22除自身外的到達(dá)集S22為{v24},而ζ(v21)=ζ(v24)=1,因此對(duì)第2層節(jié)點(diǎn)的推理結(jié)果為節(jié)點(diǎn){v4,v19,v22}都保留在故障源候選集F中,并將ζ(v4)、ζ(v19)和ζ(v22)置為1。
接著對(duì)層級(jí)1的節(jié)點(diǎn)v1、v3、v7、v10、v17、v36進(jìn)行推理。按照類(lèi)似的方法進(jìn)行推理,具體見(jiàn)表4,推理結(jié)果為:節(jié)點(diǎn){v3,v4,v17,v19,v22}保留在故障源候選集F中,而節(jié)點(diǎn){v1,v7,v10,v36}則從故障源候選集F中剔除。這樣,故障源候選集從初始的12個(gè)候選節(jié)點(diǎn)減少到8個(gè)節(jié)點(diǎn),與常規(guī)HDG推理相比,故障診斷效率提高了33%。
表4 故障源候選集內(nèi)各節(jié)點(diǎn)的有效性判斷Tab.4 Validity judgment of nodes in fault source candidate set
然后對(duì)故障源候選集中剩余的節(jié)點(diǎn){v3,v4,v5,v17,v19,v21,v22,v24}按照表3所示的統(tǒng)計(jì)次數(shù)以及各節(jié)點(diǎn)所屬層級(jí)從高到低進(jìn)行排序,得到各節(jié)點(diǎn)的故障概率排序?yàn)椋簐5、v3、v17、v4、v19、v21、v22、v24。
查找各節(jié)點(diǎn)所屬的設(shè)備,節(jié)點(diǎn)v3、v4和v5屬于設(shè)備d6(主份射頻采樣單元),v17屬于設(shè)備d9(主份萬(wàn)兆交換機(jī)),v19和v21屬于設(shè)備d11(主份數(shù)字信號(hào)處理單元),v22和v24屬于設(shè)備d12(備份數(shù)字信號(hào)處理單元),因此設(shè)備執(zhí)行故障隔離的順序?yàn)閐6→d9→d11/ d12。
從d6(主份射頻采樣單元)開(kāi)始執(zhí)行故障隔離,由系統(tǒng)管理軟件下發(fā)主備切換指令給主備射頻采樣單元,關(guān)閉主份射頻采樣單元的光信號(hào)輸出,啟動(dòng)備份設(shè)備采樣單元的光信號(hào)輸出。等待一段時(shí)間后,查看節(jié)點(diǎn)v21和v24是否仍有報(bào)警信息產(chǎn)生。若故障報(bào)警解除,說(shuō)明故障隔離成功,故障源已定位,結(jié)束故障診斷流程,并輸出診斷報(bào)告;若故障報(bào)警依然存在,則繼續(xù)對(duì)下一個(gè)設(shè)備d9(主份萬(wàn)兆交換機(jī))進(jìn)行故障隔離,具體故障隔離處理流程見(jiàn)圖8。
圖8 案例二:故障隔離處理流程Fig.8 Case 2: Fault isolation process workflow
由案例一和案例二可知,基于EHDG模型的故障診斷方法既能解決單故障報(bào)警,又可以兼顧多故障報(bào)警的情況,將單故障和多故障以故障概率統(tǒng)一起來(lái);同時(shí),通過(guò)運(yùn)用多種信息,自動(dòng)分析可能的故障源候選點(diǎn),剔除掉不符合的節(jié)點(diǎn),將候選故障源限定在盡可能小的范圍內(nèi)。以北斗RDSS地面站為例的建模分析結(jié)果表明,案例一的單故障場(chǎng)景下故障診斷效率提高90%,案例二的多故障場(chǎng)景下故障診斷效率提高33%,極大提高了故障定位效率。通過(guò)自動(dòng)主備切換或設(shè)備復(fù)位實(shí)現(xiàn)故障隔離,最終確定故障源。
本文針對(duì)大型衛(wèi)星地面站復(fù)雜電子系統(tǒng)設(shè)備故障診斷的需求,重點(diǎn)研究基于分層有向圖模型的故障診斷方法,對(duì)故障在電子設(shè)備中產(chǎn)生、傳播和影響的規(guī)律進(jìn)行建模。為解決常規(guī)分層有向圖模型在衛(wèi)星地面站故障診斷過(guò)程中面臨的一些問(wèn)題,提出了增強(qiáng)分層有向圖故障診斷方法:
1) 分析系統(tǒng)各種監(jiān)測(cè)點(diǎn)的故障傳播路徑,合并具有相同有向流入或流出邊的節(jié)點(diǎn),以壓縮模型中的節(jié)點(diǎn)數(shù)量,解決衛(wèi)星地面站故障征兆多、信息量大、難建模的問(wèn)題。
2) 模型中增加節(jié)點(diǎn)有效性使能函數(shù),克服常規(guī)有向圖模型中若某一設(shè)備由于故障原因切換導(dǎo)致系統(tǒng)結(jié)構(gòu)發(fā)生改變時(shí)需要重新建模的問(wèn)題。
3) 采用正向推理減小故障源候選集,并根據(jù)各節(jié)點(diǎn)被搜索次數(shù)給出設(shè)備故障概率,加速模型收斂速度,提高診斷效率。
為驗(yàn)證提出方法的有效性,以北斗衛(wèi)星地面站RDSS信號(hào)收發(fā)系統(tǒng)作為實(shí)際診斷背景,建立了一套完整的軟、硬件的故障診斷系統(tǒng)。通過(guò)案例分析,該方法能規(guī)避無(wú)效節(jié)點(diǎn),能有效辨識(shí)未知故障,對(duì)單故障和多故障場(chǎng)景都能具有很好的魯棒性。