摘? 要:文章結(jié)合鐵路綜合視頻監(jiān)控業(yè)務(wù)特點,梳理出構(gòu)成無實時視頻和錄像斷點兩類典型故障的基本底層事件源,分別建立了故障樹并求出最小割集。通過結(jié)構(gòu)重要度分析法分析最小割集中的底層事件源的重要度,做出定性與定量分析,得到底層事件源的結(jié)構(gòu)重要度排序序列,對視頻監(jiān)控系統(tǒng)的兩類典型故障告警提出篩選方法,該方法提高了運維故障定位速度,提高了系統(tǒng)的安全性和可靠性。
關(guān)鍵詞:鐵路綜合視頻監(jiān)控;故障樹;二元決策圖;結(jié)構(gòu)重要度
中圖分類號:TP277;TP391.4? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)07-0042-03
Study on Fault Location of Railway Integrated Video Monitoring System
YANG Xu
(CRSC Communication & Information Corporation Co.,Ltd. Security Technology Branch,Beijing? 100070,China)
Abstract:Based on the characteristics of railway integrated video monitoring service,this paper sorted out the basic underlying event sources that constituted two types of typical faults without real-time video and video breakpoint,respectively established the fault tree and figured out the minimum cut set. Minimum cut set through the analysis of the structure importance degree analysis of the underlying event source to the important degree of qualitative and quantitative analysis,get the underlying event source of collating sequence structure important degree,the video monitoring system of two kinds of typical fault alarm filtering method is proposed,the method improves the operational speed of fault location,improve the security and reliability of the system.
Keywords:railway integrated video monitoring;fault tree;binary decision graph;structural importance
0? 引? 言
鐵路綜合視頻監(jiān)控系統(tǒng)是根據(jù)鐵路行車指揮、生產(chǎn)組織、客貨運輸服務(wù)、作業(yè)監(jiān)控、搶險救援以及治安防范等需要,應(yīng)用音視頻監(jiān)控、通信、計算機(jī)網(wǎng)絡(luò)等技術(shù),構(gòu)建的具有音視頻數(shù)據(jù)采集、傳輸、交換、控制、顯示、存儲、處理功能的監(jiān)控系統(tǒng)[1]。隨著該系統(tǒng)在國內(nèi)大規(guī)模建設(shè)使用,作為保障鐵路運輸安全與提高工作效率的重要技術(shù)手段,監(jiān)控系統(tǒng)中的硬件設(shè)備以及軟件平臺需要保證全天候、高質(zhì)量運行,以確保鐵路調(diào)度指揮人員和安全警務(wù)人員通過系統(tǒng)及時了解轄區(qū)和線路動態(tài)狀況,尤其是車站、橋梁、路基、維修通道等重點部位和設(shè)備的實時情況,并為快速處置突發(fā)事件提供技術(shù)保障。
2020年初,中國國家鐵路集團(tuán)有限公司提出了構(gòu)建新型智能運維管理體系的總體要求和“網(wǎng)絡(luò)智能運行、資源智能管理、系統(tǒng)智能維護(hù)、業(yè)務(wù)智能應(yīng)用”的發(fā)展目標(biāo)。鐵路用戶對不斷創(chuàng)新鐵路通信運維管理體系,構(gòu)建綜合監(jiān)測平臺,以網(wǎng)管狀態(tài)監(jiān)測數(shù)據(jù)為指導(dǎo),推行通信網(wǎng)絡(luò)預(yù)防性狀態(tài)修復(fù),增強(qiáng)視頻監(jiān)控業(yè)務(wù)系統(tǒng)運行狀態(tài)監(jiān)測能力等方面的需求愈發(fā)強(qiáng)烈。鑒于此,通號通信信息集團(tuán)有限公司結(jié)合既有鐵路綜合視頻監(jiān)控系統(tǒng)的業(yè)務(wù)特點,研發(fā)了視頻專業(yè)自動化運維平臺,本文闡述了該運維平臺對故障定位的具體處理方法。由于視頻監(jiān)控系統(tǒng)日常運行中會產(chǎn)生大量的故障告警消息,如何在告警風(fēng)暴時壓縮告警,快速從大量告警中找到故障根源是提高運維工作效率的關(guān)鍵。本文通過二次決策圖構(gòu)建并分析故障樹,將各種故障類型之間的故障因果關(guān)聯(lián),找到故障源的最小割集,計算形成結(jié)構(gòu)重要度序列和完善告警收斂機(jī)制,幫助運維人員從海量故障告警中篩選出造成故障的根本原因,達(dá)到快速智能化運維效果。
1? 故障事件分類梳理
視頻監(jiān)控系統(tǒng)存在兩種典型故障類型。第一類故障:無法獲取實時視頻圖像故障。第二類故障:錄像斷點故障。錄像出現(xiàn)斷點時段內(nèi)是否存在攝像機(jī)離線、服務(wù)離線、云存儲異常等告警,進(jìn)一步分析路線斷點的根本原因是哪類故障造成的。
我們對這兩類故障的根因故障源分別逐級梳理,得到更詳細(xì)的故障事件表,如表1、表2所示。
2? 故障樹的創(chuàng)建與分析
2.1? 創(chuàng)建故障樹
故障樹模型是描述對象結(jié)構(gòu)、功能和關(guān)系的一種定性因果模型,它體現(xiàn)了故障傳播的層次性和子節(jié)點(即下層故障源)與父節(jié)點(即上層故障現(xiàn)象)之間的因果關(guān)系[2]。
在創(chuàng)建無實時視頻故障樹之前,我們先對故障判定機(jī)制進(jìn)行推演,當(dāng)出現(xiàn)故障時,網(wǎng)絡(luò)連通性成為首要監(jiān)測的目標(biāo),先要判斷交換機(jī)、攝像機(jī)以及與攝像機(jī)關(guān)聯(lián)的分發(fā)接入服務(wù)之間的網(wǎng)絡(luò)連接是否暢通;其次,判斷攝像機(jī)自身的電源是否工作正常、內(nèi)部應(yīng)用程序是否正常;最后,判斷視頻分發(fā)服務(wù)VSS和視頻接入服務(wù)VAG兩個應(yīng)用服務(wù)程序的運行狀態(tài)是否正常。得到無實時視頻故障樹,如圖1所示。
同理,在創(chuàng)建錄像斷點故障樹之前,我們對錄像斷點故障判定機(jī)制進(jìn)行推演。首先,判斷交換機(jī)、攝像機(jī)以及與攝像機(jī)關(guān)聯(lián)的分發(fā)接入存儲服務(wù)之間的網(wǎng)絡(luò)連接是否暢通;其次,當(dāng)網(wǎng)絡(luò)正常同時攝像機(jī)自身電源工作正常時,需要進(jìn)一步判斷存儲介質(zhì)工作狀態(tài)是否正常(例如,云存儲集群的工作狀態(tài)是否正常、磁盤是否損壞、磁盤是否被拔出、磁盤讀寫是否異常、磁盤的邏輯分區(qū)存儲是否剩余空間不足);最后,再驗證SMS存儲應(yīng)用服務(wù)程序進(jìn)行的運行狀態(tài)是否正常。得到錄像斷點故障樹,如圖2所示。
2.2? 事件重要度分析
2.2.1? 定性分析
事件的重要度是指一個事件發(fā)生故障時,對其頂事件發(fā)生概率的影響程度,是一個系統(tǒng)中各部分或子系統(tǒng)重要程度的一種數(shù)量衡量方式。事件重要度一般分為三種:結(jié)構(gòu)重要度、概率重要度和臨界值重要度。結(jié)構(gòu)重要度是部件在系統(tǒng)中所處位置的重要程度,結(jié)構(gòu)重要度與部件本身故障概率無關(guān),僅與該部件在系統(tǒng)中所處的位置有關(guān)[3]。本文采用結(jié)構(gòu)重要度來度量計算故障源的重要程度,以便按照結(jié)構(gòu)重要度順序安排防護(hù)措施。對于視頻監(jiān)控系統(tǒng)來說,無實時視頻和錄像丟失這兩種典型故障是符合結(jié)構(gòu)重要度分析的前提條件的,本文采用結(jié)構(gòu)重要度分析法,分析兩種故障對應(yīng)的基本底層故障源的重要度大小,并給出排序序列,進(jìn)而保留重要度較大的因素,去掉重要度較小的因素,達(dá)到告警收斂過濾的目的。
最小割集是導(dǎo)致頂上時間發(fā)生的基本事件的組合,通過求解最小割集可以定性地研究系統(tǒng)發(fā)生事故的原因和危險性[4]。
通過圖1可得,無實時視頻故障樹的最小割集有8個,
即:K1={X2}、K2={X1,X3}、K3={X3,X5}、K4={X1,X4}、K5={X4,X5}、K6={X6}、K7={X7}、K8={X8,X9}。
通過圖2可得,錄像斷點故障樹的最小割集有9個,即:K1={Y2}、K2={Y1,Y3}、K3={Y3,Y5}、K4={Y1,Y4}、K5={Y4,Y5}、K6={Y6}、K7={Y7}、K8={Y8,Y9,Y10}、K9={Y11}。
通過定性分析規(guī)則我們得到以下兩個結(jié)構(gòu)重要度序列,無實時視頻故障源的結(jié)構(gòu)重要度序列A:{I(1)=I(2)=I(3)=I(4)=I(5)=I(6)=I(7)>I(8)=I(9)};無錄像故障源的結(jié)構(gòu)重要度序列為B:{I(1)=I(2)=I(3)=I(4)=I(5)=I(6)=I(9)>I(7)=I(8)=I(10)}。
2.2.2? 定量分析
定量分析近似計算公式如下[5]:
I(i)=
式中:I(i)——第i個基本事件的結(jié)構(gòu)重要度系數(shù);
Kj——第j個最小割集;
nj——第i個基本事件所在的第Kj最小割集中的
基本事件總數(shù);
xi——第i個基本事件。
經(jīng)過計算得到無實時視頻故障源的結(jié)構(gòu)重要度序列C:{I(1)=I(2)=I(3)=I(4)=I(5)=I(6)=I(7)>I(8)=I(9)};無錄像故障源的結(jié)構(gòu)重要度序列為D:{I(1)=I(2)=I(3)=I(4)=I(5)=I(6)=I(9)>I(7)=I(8)=I(10)}。
可見,定性分析與定量分析得到的結(jié)構(gòu)重要度序列是一致的,在實際應(yīng)用中,當(dāng)出現(xiàn)多個底事件同時產(chǎn)生告警時,可依據(jù)重要度序列,保留重要程度高的告警,過濾掉重要度較低的告警,達(dá)到告警收斂的目的。
3? 結(jié)? 論
通過故障樹分析法對鐵路綜合視頻監(jiān)控系統(tǒng)故障進(jìn)行分析,并建立故障樹,通過結(jié)構(gòu)重要度方法計算得出各底事件的結(jié)構(gòu)重要度,比較重要度大小可以快速定位故障。當(dāng)然該方法在創(chuàng)建故障樹的時候因人而異,一般很難實現(xiàn)統(tǒng)一化標(biāo)準(zhǔn)化,會存在對常見故障和多發(fā)故障癥狀和原因列舉過多,而對于少數(shù)故障和特殊故障癥狀和原因列舉不足的缺陷。在實踐過程中,我們也關(guān)注到了貝葉斯網(wǎng)絡(luò)算法作為一種強(qiáng)有力的不確定性的知識表達(dá)與推理模型,已經(jīng)應(yīng)用于諸多故障診斷領(lǐng)域。在未來的研究中,可以考慮把故障樹法與貝葉斯網(wǎng)絡(luò)算法結(jié)合起來作為一種研究方向來提升故障定位的全面性,彌補(bǔ)單獨依靠故障樹法產(chǎn)生的缺陷。
參考文獻(xiàn):
[1] 中國鐵路總公司.鐵路綜合視頻監(jiān)控系統(tǒng)技術(shù)規(guī)范:Q/CR 575-2017 [S].北京:中國鐵道出版社,2017.
[2] 徐志勝.安全系統(tǒng)工程 [M].北京:機(jī)械工業(yè)出版社,2007.
[3] 于捷,孫立大,石耀霖,等.基于BDD技術(shù)的數(shù)控機(jī)床故障樹重要度分析 [J].機(jī)床與液壓,2008,36(12):186-189.
[4] 陳文偉,周玲.基于安全系統(tǒng)工程的地鐵投資控制分析 [J].湘潭師范學(xué)院學(xué)報(自然科學(xué)版),2004(3):123-125.
[5] SINNAMON R M,Andrews J D.New approaches to evaluating fault trees [J].Reliability Engineering & System Safety,1997,58(2):89-96.
作者簡介:楊栩(1978—),男,漢族,天津人,高級工程師,碩士,研究方向:自動化運維。