武 明,遲浩洋,李長(zhǎng)隆,張國(guó)華,文 軍,吳 賢
(1.中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041;2.海軍工程大學(xué),湖北 武漢 430033;3.中國(guó)人民武裝警察部隊(duì)參謀部,北京 100089)
故障樹分析(Fault Tree Analysis,F(xiàn)TA)法是目前一種重要的故障診斷和可靠性分析方法,是指導(dǎo)系統(tǒng)可靠性設(shè)計(jì)和優(yōu)化薄弱環(huán)節(jié)設(shè)計(jì)的重要分析工具,也是用于分析故障原因、實(shí)現(xiàn)故障定位、支撐故障維修的重要工具。因其具有知識(shí)結(jié)構(gòu)簡(jiǎn)單清晰、邏輯推理機(jī)制嚴(yán)密,在大型復(fù)雜系統(tǒng)的故障診斷中得到了廣泛運(yùn)用[1]。
工業(yè)技術(shù)和電子信息技術(shù)的蓬勃發(fā)展使得應(yīng)急通信車的集成度和復(fù)雜度越來(lái)越高,其組成要素種類、數(shù)量和體系類型、結(jié)構(gòu)關(guān)系也越來(lái)越復(fù)雜。相應(yīng)地,應(yīng)急通信車通信網(wǎng)絡(luò)分系統(tǒng)的手段多樣化、組網(wǎng)關(guān)系復(fù)雜、拓?fù)涠嘧兊葟?fù)雜性特性也已充分呈現(xiàn),其在綜合組織運(yùn)用過程中硬件、軟件、環(huán)境、人員等潛在故障因素導(dǎo)致的故障概率、故障模式種類和故障影響程度也隨之增加。通信網(wǎng)絡(luò)分系統(tǒng)作為應(yīng)急通信車的核心部分,是保障應(yīng)急指揮大廳與應(yīng)急處置現(xiàn)場(chǎng)信息聯(lián)絡(luò)的橋梁,是決定應(yīng)急任務(wù)是否成功的關(guān)鍵。
傳統(tǒng)的憑借人工和經(jīng)驗(yàn)進(jìn)行故障率估算、故障排查、故障處置的方式,已經(jīng)不能完全滿足應(yīng)急通信車對(duì)通信網(wǎng)絡(luò)故障快速響應(yīng)處置能力的要求,大大制約了應(yīng)急通信車這類多任務(wù)綜合集成、故障事件關(guān)系復(fù)雜的大型系統(tǒng)的故障診斷和系統(tǒng)維修或自動(dòng)恢復(fù)效率,嚴(yán)重影響了裝備執(zhí)行任務(wù)的效能發(fā)揮。然而,利用FTA 和計(jì)算機(jī)輔助定性分析和定量計(jì)算,可以快速分析獲得系統(tǒng)的失效模式和故障概率;結(jié)合專家知識(shí)庫(kù)經(jīng)驗(yàn)支撐,可以實(shí)現(xiàn)故障的快速診斷、定位;基于策略庫(kù)自動(dòng)調(diào)整或通過處置建議和人工處置,可以提升故障診斷準(zhǔn)確度、完整性和故障處置效率。因此,本文提出一種基于故障樹的應(yīng)急通信車通信網(wǎng)絡(luò)故障診斷系統(tǒng)設(shè)計(jì)方案,給出了應(yīng)急通信車通信網(wǎng)絡(luò)故障樹構(gòu)造和定性定量分析方法和過程,基于設(shè)備固有可靠性、專家經(jīng)驗(yàn)庫(kù)和人工統(tǒng)計(jì)概率,形成可靠的推斷邏輯,縮小了故障診斷和排查范圍,提高了診斷推理的效率。本文對(duì)應(yīng)急通信車通信網(wǎng)絡(luò)故障診斷推理系統(tǒng)相關(guān)模型和算法進(jìn)行了設(shè)計(jì),為應(yīng)急通信車通信網(wǎng)絡(luò)運(yùn)維系統(tǒng)的故障診斷和處置尋求了一種更為可靠的新方法。
按照GJB/Z 768A-98《故障樹分析指南》[2]描述,F(xiàn)TA 是通過邏輯門符號(hào)和轉(zhuǎn)移符號(hào)將底事件、中間事件、頂事件描述為系統(tǒng)事件邏輯因果關(guān)系,并基于規(guī)范化、簡(jiǎn)化和模塊化方法進(jìn)行定性定量分析的故障診斷方法。
FTA 系統(tǒng)是分析可靠性和安全性的工具之一,用來(lái)尋找頂事件發(fā)生的所有原因和原因組合。在產(chǎn)品設(shè)計(jì)階段,F(xiàn)TA 可幫助判明系統(tǒng)故障模式和災(zāi)難性危險(xiǎn)因素,發(fā)現(xiàn)可靠性和安全性薄弱環(huán)節(jié),改進(jìn)可靠性、安全性設(shè)計(jì);在產(chǎn)品的生產(chǎn)、使用階段,F(xiàn)TA 可幫助故障診斷,改進(jìn)維修方案。
FTA 是在19 世紀(jì)60 年代由貝爾電話研究所的H.A.Wastson 首先提出。目前,F(xiàn)TA 已從宇航、核能等領(lǐng)域發(fā)展進(jìn)入一般電子、電力、化工、機(jī)械、交通乃至土木建筑等領(lǐng)域。設(shè)計(jì)人員和工程人員愈來(lái)愈傾向于采用FTA 作為評(píng)價(jià)系統(tǒng)可靠性和安全性的手段,用來(lái)預(yù)測(cè)和診斷故障,分析系統(tǒng)的薄弱環(huán)節(jié),指導(dǎo)系統(tǒng)設(shè)計(jì)和維修,實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)的最優(yōu)化,快速定位故障并完成維修。
將FTA 應(yīng)用于系統(tǒng)設(shè)計(jì)過程中,可以通過對(duì)可能造成系統(tǒng)失效的硬件、軟件、環(huán)境、人員等各種因素進(jìn)行分析繪出相應(yīng)的故障樹,然后可以對(duì)最小割集進(jìn)行簡(jiǎn)化,確定系統(tǒng)失效原因的最小可能組合方式及其發(fā)生的概率,從而計(jì)算系統(tǒng)失效的概率,采取相應(yīng)的糾正設(shè)計(jì)和備份設(shè)計(jì)措施,提高系統(tǒng)的可靠性。這個(gè)分析流程會(huì)運(yùn)用圖形演繹的方式來(lái)構(gòu)造一種類似于樹的結(jié)構(gòu),因此被稱為FTA[3]。將FTA 應(yīng)用于工程故障診斷過程中,可以通過故障樹建造和最小割集簡(jiǎn)化,分析系統(tǒng)失效機(jī)制和概率,然后通過人工經(jīng)驗(yàn)和計(jì)算機(jī)專家?guī)炜焖俜治龉收显蚣凸收显蚋怕?,從而快速檢查和定位故障并實(shí)施維修,提高系統(tǒng)的可維修性。
FTA 的步驟如下:(1)構(gòu)建故障樹,利用圖形演繹,將系統(tǒng)最不希望發(fā)生的事件作為頂事件,然后通過對(duì)系統(tǒng)進(jìn)行原理表述和故障原因分析,尋找導(dǎo)致該頂事件發(fā)生的下一級(jí)事件,最后遞歸尋找導(dǎo)致事件發(fā)生的更下一級(jí)事件,直至底事件為止;(2)邏輯推理和分析,利用故障樹,定性和定量分析系統(tǒng)產(chǎn)生故障的原因、導(dǎo)致系統(tǒng)發(fā)生故障的概率、部件對(duì)系統(tǒng)的重要程度等,為改善設(shè)計(jì)和評(píng)價(jià)系統(tǒng)提供數(shù)據(jù)。
故障診斷系統(tǒng)是指依托計(jì)算機(jī)輔助對(duì)系統(tǒng)的故障模式進(jìn)行分類和識(shí)別,并根據(jù)現(xiàn)有知識(shí),模擬人類專家思維方式進(jìn)行一定的推理判斷,找出系統(tǒng)的故障原因,然后通過人工檢修、故障處置開展維修,或依托人工智能自動(dòng)配置參數(shù)修復(fù)系統(tǒng)的過程[4]。
一個(gè)最基本的故障診斷系統(tǒng)主要由診斷知識(shí)模塊和診斷推理模塊組成。診斷知識(shí)模塊包括故障樹信息庫(kù)、故障事件信息庫(kù)、專家知識(shí)庫(kù),診斷推理模塊包括故障征兆識(shí)別和故障推理算法。基于FTA的故障診斷系統(tǒng)還應(yīng)包括故障診斷信息反饋、診斷信息呈現(xiàn)和人工智能輔助修復(fù)模塊?;贔TA 的故障診斷系統(tǒng)首先利用故障邏輯關(guān)系圖構(gòu)建故障樹信息庫(kù)和故障事件信息庫(kù),其次通過定性和定量分析獲得事件重要度和故障匹配優(yōu)先級(jí)排序,再次通過診斷推理獲得故障發(fā)生的真正原因或原因組合,最后將故障診斷結(jié)果反饋故障信息呈現(xiàn)模塊和人工智能輔助修復(fù)模塊進(jìn)行檢驗(yàn)、維修或自動(dòng)修復(fù)。系統(tǒng)主要功能如圖1 所示。
圖1 基于FTA 的故障診斷系統(tǒng)
應(yīng)急通信車包括通信保障、指揮調(diào)度、圖像采集、供電系統(tǒng)、環(huán)境控制、照明系統(tǒng)、輔助設(shè)備等功能分系統(tǒng)[5]。其中,通信保障功能分系統(tǒng)包括短波電臺(tái)、北斗設(shè)備、衛(wèi)通終端、移動(dòng)通信終端和通信控制設(shè)備等,指揮調(diào)度功能分系統(tǒng)包括數(shù)據(jù)終端、IP 話機(jī)、視頻終端等。應(yīng)急通信車功能架構(gòu)如圖2所示。
圖2 應(yīng)急通信車功能架構(gòu)
本文重點(diǎn)研究基于FTA 的應(yīng)急通信車智能通信網(wǎng)絡(luò)管控系統(tǒng),主要研究對(duì)象是通信網(wǎng)絡(luò)的故障診斷,其直觀體現(xiàn)是業(yè)務(wù)通聯(lián),所涉及的功能分系統(tǒng)主要為通信保障和指揮調(diào)度功能分系統(tǒng)。
幾點(diǎn)約束:(1)以“某業(yè)務(wù)無(wú)法通聯(lián)”為頂事件進(jìn)行故障樹分析;(2)為簡(jiǎn)化分析,針對(duì)通信和終端系統(tǒng)的設(shè)備整機(jī)故障、端口參數(shù)配置錯(cuò)誤、通信約束導(dǎo)致設(shè)備通信失效這3 種故障進(jìn)行故障樹分析;(3)供電系統(tǒng)、環(huán)境控制等其他相關(guān)的影響因素不作為故障原因。
為便于后續(xù)分析,對(duì)業(yè)務(wù)無(wú)法通聯(lián)故障樹事件進(jìn)行編號(hào)建樹,如圖3 所示。
某業(yè)務(wù)無(wú)法通聯(lián)的故障樹編號(hào)對(duì)應(yīng)的故障信息見表1,包括事件編號(hào)、事件描述、事件類型和事件發(fā)生概率。其中,發(fā)生概率是底事件發(fā)生的概率,主要來(lái)源是應(yīng)急通信車所集成設(shè)備的可靠性參數(shù)、歷次任務(wù)組織過程的故障統(tǒng)計(jì)、系統(tǒng)模型和試驗(yàn)分析及專家經(jīng)驗(yàn)評(píng)估。
表1 應(yīng)急通信車某業(yè)務(wù)無(wú)法通聯(lián)故障樹故障事件信息
本文通過上行法(布爾代數(shù)化簡(jiǎn)法)求解業(yè)務(wù)無(wú)法通聯(lián)故障樹最小割集(Minimum Cut Set,MCS),其中,或門是邏輯之和,與門則是邏輯之積。為提升文章易讀性,事件編號(hào)的字母斜體對(duì)應(yīng)該事件的布爾變量描述。
依據(jù)圖3 的應(yīng)急通信車業(yè)務(wù)無(wú)法通聯(lián)故障樹,利用布爾代數(shù)運(yùn)算簡(jiǎn)化其結(jié)構(gòu)函數(shù),得:
根據(jù)布爾代數(shù)吸收率,獲得故障樹結(jié)構(gòu)函數(shù)的化簡(jiǎn)值,得:
從而獲得應(yīng)急通信車某業(yè)務(wù)不通故障樹的MCS為{X5},{X7},{X8},{X11},{X1、X6},{X1、X10},{X3、X4},{X6、X12},{X10、X12},{X14、X15},{X17、X18}。
從MCS 分析來(lái)看,1 階底事件故障割集包含{X5},{X7},{X8},{X11}4 個(gè),為重要的故障源;2 階底事件故障割集包含{X1、X6},{X1、X10},{X3、X4},{X6、X12},{X10、X12},{X14、X15},{X17、X18}7個(gè),為次重要的故障源。其中,底事件X8 在簡(jiǎn)化過程中出現(xiàn)3 次,為最重要的故障源。由于通信控制設(shè)備若出現(xiàn)故障將導(dǎo)致除勤務(wù)話音以外的所有業(yè)務(wù)不能通聯(lián),因此分析結(jié)果與事實(shí)相符。
通過容斥定理計(jì)算頂事件故障概率。設(shè)頂事件的故障概率為P(T)為所有最小割集發(fā)生的概率之和,Ci,Cj,Ck是序號(hào)為i,j,k的最小割集,最大割集序號(hào)為n,則:
為避免“組合爆炸”,P(T)一般去掉高階項(xiàng)進(jìn)行近似值計(jì)算,表示為:
概率重要度描述基本事件發(fā)生時(shí)對(duì)頂事件的貢獻(xiàn),反映了基本事件故障狀態(tài)變化系統(tǒng)故障概率變化的貢獻(xiàn)大小。序號(hào)為i的最小割集貢獻(xiàn)率表示為:
依據(jù)表1 給出的底事件發(fā)生概率值,通過式(1)計(jì)算得到頂事件故障概率為24.3e-4,通過式(2)計(jì)算得到應(yīng)急通信車故障樹的最小割集故障概率和重要度見表2。
表2 某業(yè)務(wù)無(wú)法通聯(lián)故障事件的故障樹最小割集重要度
通過多維立體網(wǎng)絡(luò)建模方法構(gòu)建故障樹信息模型,采用4 元組表示和存儲(chǔ)故障樹信息,即FTobj=<FTId,FTInfo,FTTopId,FTProb>,其中,F(xiàn)TId表示故障樹編號(hào),F(xiàn)TInfo為故障樹信息描述,F(xiàn)TTopId為故障樹字典事件編號(hào),F(xiàn)TProb表示故障樹故障概率。故障樹字典事件編號(hào)FTTopId=<FactId,FactDesc,FactMeth,FactNum,FactPorb>,其中,F(xiàn)actId表示故障事件編號(hào),F(xiàn)actDesc用于故障事件描述,F(xiàn)actMeth用于存儲(chǔ)故障事件處置措施(包括計(jì)算機(jī)自動(dòng)和人工干預(yù)方法),F(xiàn)actNum表示一次任務(wù)該故障事件發(fā)生的次數(shù),F(xiàn)actPorb用于存儲(chǔ)故障事件概率(通過設(shè)備本身固有可靠性、專家經(jīng)驗(yàn)庫(kù)和統(tǒng)計(jì)概率獲得或進(jìn)行綜合獲得)。
故障節(jié)點(diǎn)信息存儲(chǔ)于故障診斷推理系統(tǒng)的數(shù)據(jù)庫(kù),用9 元組表示故障節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)信息,即NDobj=<FTId,NDId,FactID,NDType,ParentNDId,NDgateType,ParentNDdegree,BrotherNDnum,NDProb>,其中,F(xiàn)TId表示節(jié)點(diǎn)所屬故障樹編號(hào),NDId表示節(jié)點(diǎn)編號(hào)和位置,F(xiàn)actID表示故障事件字典的編號(hào),NDType表示故障類型(頂事件、中間事件或底事件),ParentNDId表示父節(jié)點(diǎn)編號(hào),NDgateType表示該節(jié)點(diǎn)的子節(jié)點(diǎn)之間的邏輯門類型,ParentNDdegree表示對(duì)父節(jié)點(diǎn)的貢獻(xiàn)度,BrotherNDnum表示兄弟節(jié)點(diǎn)數(shù)量,NDProb表示失效概率。
通過故障節(jié)點(diǎn)信息和故障樹模型可以將故障節(jié)點(diǎn)的類型和關(guān)聯(lián)關(guān)系進(jìn)行描述,完成故障樹建立。
定性分析算法的具體步驟如下文所述。
(1)構(gòu)建一個(gè)二維數(shù)組<Cstring,CString&>,用于存儲(chǔ)割集。
(2)利用循環(huán)嵌套語(yǔ)句按照從左向右、從低向上的順序?qū)γ恳粋€(gè)基本事件進(jìn)行遍歷。若該事件與上一級(jí)事件是或門邏輯關(guān)系,則增加割集數(shù)組數(shù)量;若該事件與上一級(jí)事件是與門邏輯關(guān)系,則增加數(shù)組存儲(chǔ)的容量。依次遞歸直到遍歷到頂事件,從而獲得該頂事件故障樹的全部割集數(shù)組集合,并存儲(chǔ)在步驟(1)構(gòu)建的二維數(shù)組中。
(3)為便于計(jì)算機(jī)語(yǔ)言實(shí)現(xiàn),通過Semanders算法和素?cái)?shù)法[6],為故障樹底事件賦值一個(gè)素?cái)?shù),構(gòu)成某一割集的各底事件對(duì)應(yīng)的素?cái)?shù)積,并按從小到大的順序進(jìn)行排列。
(4)用最前面一個(gè)割集的素?cái)?shù)積去除其余素?cái)?shù)積。若被整除,就表示需要布爾吸收運(yùn)算,就去除對(duì)應(yīng)的割集。依次向右循環(huán)運(yùn)算,最后剩下均不能被整除的素?cái)?shù)積,這些素?cái)?shù)積對(duì)應(yīng)的割集即為頂事件最小割集。
(5)構(gòu)建一個(gè)6 元組<FTId,CUTId,CUTPorb,CUTImport,FactId>結(jié)構(gòu),描述和存儲(chǔ)最小割集。FTId指向故障樹編號(hào),CUTId表示割集編號(hào),CUTImport表示割集重要度,F(xiàn)actId指向事件描述。其元素CUTId為數(shù)組集,指向一個(gè)三元組<CUTId,FactId,FactPorbImport>,表示最小割集的底事件,其中,CUTId表示割集編號(hào),F(xiàn)actId表示事件編號(hào),F(xiàn)actPorbImport表示事件概率重要度。
定量分析算法的實(shí)現(xiàn)即為式(1)和式(2)的算法實(shí)現(xiàn),具體如下文所述。
(1)構(gòu)建一個(gè)與3.2 節(jié)中步驟(5)最小割集結(jié)構(gòu)一致的二維數(shù)組<Cmi_string,CmiString&>。
(2)將3.2 節(jié)中步驟(5)得到的最小割集存儲(chǔ)到步驟(1)的二維數(shù)組中。
(3)遍歷最小割集二維數(shù)組,若最小割集底事件為1 階,發(fā)生概率CUTPorb賦值為FactPorb;若大于1 階,則利用組合理論和算法[7-10],通過循環(huán)嵌套函數(shù)語(yǔ)句求得每一個(gè)最小割集的發(fā)生概率。
(4)遍歷最小割集發(fā)生概率,利用組合理論和算法[7-10],通過循環(huán)嵌套函數(shù)語(yǔ)句求得頂事件概率值的近似值。
(5)遍歷最小割集,求得每個(gè)割集概率與頂事件概率的比值,獲得每一個(gè)最小割集的重要度值。
故障診斷系統(tǒng)交互模型是應(yīng)急通信車通信網(wǎng)絡(luò)運(yùn)行維護(hù)系統(tǒng)交互模型的一部分,主要實(shí)現(xiàn)設(shè)備、鏈路故障狀態(tài)呈現(xiàn)和故障信息顯示,以及故障樹信息庫(kù)和專家經(jīng)驗(yàn)庫(kù)信息維護(hù)等。故障診斷系統(tǒng)交互模型主要包括故障狀態(tài)管理、故障樹信息管理、專家經(jīng)驗(yàn)庫(kù)管理和故障信息呈現(xiàn)4 個(gè)交互子模型,其中,故障狀態(tài)管理交互模型、故障信息呈現(xiàn)交互模型分別如圖4、圖5 所示。
圖4 故障狀態(tài)管理交互模型
圖5 故障信息呈現(xiàn)交互模型
由于應(yīng)急通信車的通信手段多樣、組網(wǎng)模式靈活、拓?fù)鋭?dòng)態(tài)變化、參數(shù)配置繁雜,其通信網(wǎng)絡(luò)故障的原因分析和診斷方法也異常復(fù)雜。本文基于FTA,分析與設(shè)計(jì)一種智能化故障診斷方法。本文首先對(duì)FTA 和基于FTA 的故障診斷系統(tǒng)進(jìn)行了綜述和分析;其次分析了應(yīng)急通信車通信網(wǎng)絡(luò)功能架構(gòu),基于FTA 故障樹構(gòu)建方法和定性定量分析方法,構(gòu)建了以業(yè)務(wù)無(wú)法通聯(lián)故障樹為頂事件的全量故障樹并進(jìn)行了分析;最后針對(duì)應(yīng)急通信車通信網(wǎng)絡(luò)故障診斷推理系統(tǒng)設(shè)計(jì)了故障樹模型、定性分析算法、定量分析算法和故障診斷交互模型。本文提供了一種針對(duì)應(yīng)急通信車故障診斷的創(chuàng)新探索性研究,可推廣應(yīng)用到應(yīng)急通信系統(tǒng)、區(qū)域通信系統(tǒng)等大型復(fù)雜通信系統(tǒng),以及通信平臺(tái)節(jié)點(diǎn)、指揮平臺(tái)節(jié)點(diǎn)和武器平臺(tái)節(jié)點(diǎn)等單通信節(jié)點(diǎn)的運(yùn)行維護(hù)管理系統(tǒng)中,也可為其他類型的系統(tǒng)、分系統(tǒng)、單設(shè)備提供一種故障診斷的設(shè)計(jì)參考。該方法的運(yùn)用可以提升系統(tǒng)的可靠性、安全性、可維修性,具有較廣闊的工程應(yīng)用前景。