張益農(nóng),周 進,楊 帆,何自憑,吳奕男
(1. 北京聯(lián)合大學自動化學院,北京 100101;2. 清華大學自動化系,北京 100084)
隨著工業(yè)企業(yè)的日益大型化和復雜化,越來越多的故障不僅影響了企業(yè)效益,更帶來了很多的安全問題。在工業(yè)應用中,單回路、串級等經(jīng)典控制方法的應用已經(jīng)很成熟,單點報警和局部系統(tǒng)的故障診斷也被大量應用。然而隨著系統(tǒng)規(guī)模的不斷加大,報警數(shù)量的眾多和無序逐漸降低了操作員的操作效率,如何對眾多報警信號進行科學管理,以達到過濾無效報警信號、凸顯關鍵報警信號、提供幫助信息的目的,從而提高操作效率、降低安全事故的發(fā)生概率,成為保證企業(yè)效益的關鍵問題[1,2]。
對于一個智能報警管理系統(tǒng),十分關鍵的組成部分是對多變量報警的管理。在流程工業(yè)中,系統(tǒng)發(fā)生故障時會涌現(xiàn)大量的報警信號,稱為報警泛濫(Alarm Flood)現(xiàn)象[1]。這是因為一方面對于系統(tǒng)的關鍵物理量,往往會設置多個報警信號以保證可靠性,由此帶來重復報警現(xiàn)象;另一方面由于系統(tǒng)內部的相互關聯(lián),故障情況會從故障源向相關聯(lián)的環(huán)節(jié)傳播,引發(fā)多處報警,稱為關聯(lián)報警現(xiàn)象。
對于重復報警,可以利用設置死區(qū)、延遲報警時間、報警擱置以及報警自動抑制的方法來處理[3]。但是對于多變量報警,情況就更為復雜[4],特別是對于關聯(lián)報警,利用上述處理方式就無法消除負面影響。文獻[5,6]中針對二值數(shù)據(jù)的相似度識別方法和文獻[7~9]中基于相關性概念的方法可供報警數(shù)據(jù)分析使用,但由于報警數(shù)據(jù)的稀疏性,這些方法往往不能得到有效的分辨,且計算較為復雜。
為克服已有技術的不足之處,本文提出一種基于數(shù)據(jù)提取的關聯(lián)報警識別方法,這種方法能夠利用報警二值時間序列進行分析,提取多個報警之間的因果關聯(lián)。在多個報警之間存在關聯(lián)報警的情況時能夠正確識別,幫助操作員判斷故障源頭,降低安全事故發(fā)生概率。這種關聯(lián)報警的識別方法還能夠研究系統(tǒng)內部變量之間的關系,有助于達到系統(tǒng)優(yōu)化的目的。
針對該系統(tǒng)中的兩個報警變量A與B,選取一段時間,在該段時間內,設報警變量A的所有報警為a1,a2,…,an,其中n為報警變量A在該段時間內的報警總數(shù),分別發(fā)生在時刻ta1,ta2,…,tan;報警變量B的所有報警為b1,b2,…,bm,其中m為報警變量B在該段時間內的報警總數(shù),分別發(fā)生在時刻tb1,tb2,…,tbm。
首先找到報警變量A的第i次報警ai發(fā)生之后的報警變量B的首次報警bj,兩者的時間間隔為ΔtA→B,i,即:
ΔtA→B,i=tbj-tai,i=1,2,…,n
將A、B互換之后作同樣的處理,即找到報警變量B的第k次報警發(fā)生之后報警變量A的首次報警al,兩者的時間間隔為ΔtB→A,k,即:
ΔtB→A,k=tal-tbk,k=1,2,…,m
直觀上看,如果在一個報警發(fā)生后,另一個報警很快發(fā)生,并且這種現(xiàn)象經(jīng)常出現(xiàn),則說明這兩個報警是相關的可能性較高。定義該時間段內報警變量A、B的單次關聯(lián)度,分別為pA→B,i和qB→A,k:
其中,TR和TMAX為兩個時間閾值,TR表示最小時間間隔,若Δti或Δtk小于此閾值,則認為兩個報警信號是強相關的,單次關聯(lián)度為1/TR;這樣做的目的是避免取值過大,而且當兩個報警出現(xiàn)時間十分接近時,其間的時間差受采樣的影響較大,不宜過于看重;TMAX表示最大時間間隔,若Δti或Δtk大于此閾值,則認為兩個報警信號之間沒有關聯(lián),單次關聯(lián)度為0,從操作上看,當一個報警的發(fā)生以后很長時間內,另一個報警都未發(fā)生,就不必繼續(xù)等待下去。
根據(jù)單次關聯(lián)度的結果,計算統(tǒng)計結果,定義關聯(lián)度PA→B和PB→A如下:
無論從A到B,還是從B到A,關聯(lián)度都是非負的。但兩個報警之間往往存在著因果關系,即誰先誰后,因此定義順序因果強度IAB,以確定A與B之間的關聯(lián)方向:
IAB以相對定量的方式描述了雙向關聯(lián)度之間的順序關系。若報警變量A和報警變量B的關聯(lián)度PA→B或PB→A中任意一者大于關聯(lián)度閾值P0,則表示二者相關。進一步,當確定節(jié)點A、B之間相關的情況下,假若順序因果強度的絕對值|IAB|超過閾值I0,則表示這兩個報警之間存在因果關系,即方向,若IAB>I0,則方向為A→B;若IAB<-I0,則方向為B→A。至此完成一對報警變量A、B的關聯(lián)關系判斷。
針對系統(tǒng)中的多個報警變量,采用因果拓撲的形式來描述其間的關聯(lián)關系。
首先將每個報警變量作為一個節(jié)點(Node),然后針對其中的兩個節(jié)點A和B,根據(jù)關聯(lián)度PA→B、PB→A和順序因果強度IAB確定其間的連接關系。如果PA→B或PB→A中任意一者大于關聯(lián)度閾值P0,即A和B相關,則在A節(jié)點與B節(jié)點之間建立支路(Arc)。進一步,若順序因果強度絕對值|IAB|超過閾值I0,即可以確定方向,則在該實線的對應端繪制箭頭表示該方向——若IAB>I0,則箭頭方向為A→B;若IAB<-I0,則箭頭方向為B→A。
總結本方法的全過程,包括以下步驟:
步驟1確定被監(jiān)測系統(tǒng)中報警變量的數(shù)目x,對每個報警變量的報警時間進行監(jiān)測和記錄;建立沒有連接關系的拓撲圖,以獨立的報警變量為節(jié)點。
步驟2對于該系統(tǒng)中的兩個報警變量A與B,首先選取一段時間,根據(jù)報警變量A和B的發(fā)生時間,計算關聯(lián)度PA→B、PB→A和順序因果強度IAB,確定報警變量A與B之間是否相互關聯(lián)以及因果關系方向,在拓撲圖中增加連接支路。
步驟3對于被監(jiān)測系統(tǒng)中所有未計算的報警變量對,遵循步驟2進行處理,逐步將拓撲圖補充完整。
本方法的流程圖如圖1所示。
Figure 1 Flow chart of the relationship topology modeling of alarms圖1 報警關聯(lián)關系拓撲建立方法流程圖
上述算法中涉及到四個閾值——時間閾值TR和TMAX、關聯(lián)度閾值P0和順序因果強度閾值I0,這在實際應用中需要確定。這些取值均為可調參數(shù),供用戶根據(jù)生產(chǎn)經(jīng)驗自行調整,實際取值的時候需要結合系統(tǒng)對象特性,特別是時延特性,用實驗整定的方法取值。一般在系統(tǒng)正常運行足夠長時間,得到足量數(shù)據(jù)之后再結合數(shù)據(jù)和經(jīng)驗進行整定。
關聯(lián)度閾值P0值具有一定的特殊性,可根據(jù)統(tǒng)計方法進行計算,因為在實際情況下,任意兩個報警序列之間都可得到一定的“相關性”,如果將兩個互不相關的報警序列之間的關聯(lián)度在統(tǒng)計意義下求出來,就可以用作這個閾值。具體方法如下:
對于A序列,計算每兩個報警之間的時間間隔,即:
下面以一個簡單的數(shù)值例子實施上述方法。
首先確定被監(jiān)測系統(tǒng)中報警變量的數(shù)目x=3,分別為A、B、C。對每個報警變量的報警時間進行監(jiān)測和記錄。繪制有三個節(jié)點的拓撲圖,如圖2a所示。
已知在某段時間內,A、B、C的報警序列如表1所示。
取A和B的報警序列進行計算,選定一段時間,用第2到第8個報警點之間這段時間,共7個點進行計算。
Table 1 Alarm time series of A, B and C表1 A、B和C的報警時間序列
Figure 2 Example of building the relationship topology圖2 拓撲圖建立過程示例
找到報警變量A在該段時間內的報警ai發(fā)生之后報警變量B的第一次報警bj,計算兩者的時間間隔Δti,如表2所示。
Table 2 Time interval of alarm A and the relation with alarm B表2 報警A的時間間隔和與報警B的關聯(lián)度
將A、B互換之后作同樣的處理,也即找到報警變量B在該段時間內的報警bk發(fā)生之后報警變量A的第一次報警al,計算兩者的時間間隔Δtk,如表3所示。
Table 3 Time interval of alarm B and the relation with alarm A表3 報警B的時間間隔和與報警A的關聯(lián)度
計算單次關聯(lián)度pi和qk,分別見表2和表3。由系統(tǒng)特性,根據(jù)經(jīng)驗,定義TR=1 min,TMAX=10 min,即報警延遲小于1分鐘,認為關聯(lián)度為1,報警延遲大于10分鐘,認為沒有關聯(lián)。
對全部報警進行計算后,統(tǒng)計得到關聯(lián)度PA→B和PB→A:
然后計算順序因果強度IAB,以確定A與B之間的關聯(lián)關系:
為了判斷A、B序列是否關聯(lián),以及關聯(lián)方向如何,需要計算P0值。對于A序列,計算每兩個報警之間的時間間隔,即:
對于報警變量A和B,由于PAB>P0,因此在拓撲圖中A、B兩節(jié)點之間繪制實線表示二者相關。進一步,在確定A、B相關的情況下,因順序因果強度絕對值|IAB|=0.734>I0=0.15,故在實線的對應端繪制A→B方向箭頭表示因果方向,如圖2b所示。
再取A、C這一對變量,重復前述步驟,結果為:PA→C=0.6839,PC→A=0.1553,P0=0.1975,IAC=0.6299。由于PA→C>P0且IAC>0.15,故拓撲圖擴充如2c所示。
最后取B、C序列,結果為:PB→C=0.5933,PC→B= 0.5022,P0= 0.2334,IBC= 0.0832。由于PB→C,PC→B>P0,且-0.15 下面以TEP(Tennessee Eastman Process)為例,生成仿真數(shù)據(jù),使用本文方法計算報警變量之間的關聯(lián)度。 采用文獻[1]中提出的一種受控的TEP模型,該模型包含了41個可觀測變量,其中有22個連續(xù)測量的變量,包括反應器壓力、溫度、液面、汽提塔溫度等等。 在無外界擾動情況下,TEP可以平穩(wěn)地運行。然而在故障模式下,模型存在一定的輸入擾動,報警變量就會給出報警信號。下面選取三個報警變量,分別是反應器壓力RP(Reactor Pressure)、汽提塔液面SL(Stripper Level)和汽提塔壓力SP(Stripper Pressure)。所選故障模式為反應器進料口成分隨機擾動。 首先,由故障模式下選定報警變量的輸出波形(圖3),記錄報警時間,如表4所示。然后,用關聯(lián)度識別方法,對三對報警變量對進行計算,結果見表5。 Figure 3 Process values of selected alarm variables of TEP under certain fault mode圖3 故障模式下TEP所選報警變量的過程值 Table 5 Results of related alarms for all alarm pairs表5 報警變量對的關聯(lián)報警計算結果 根據(jù)上述結果和判斷準則,可得拓撲關系見圖4。從圖4中可以看到RP和SP為關聯(lián)報警,SL則由于P值太小,無法確定是否存在關聯(lián)關系。由于所加擾動為進料口的成分擾動,所以先是反應器處出現(xiàn)報警,隨后引起汽提塔出現(xiàn)報警,結果較為合理。 Figure 4 Topology obtained圖4 計算所得的拓撲關系圖 本文提出了基于數(shù)據(jù)提取的關聯(lián)報警識別方法,可根據(jù)報警信號出現(xiàn)的先后關系及時間間隔,判斷兩個報警序列是否為關聯(lián)報警。在給出報警變量的關聯(lián)拓撲圖之后,報警變量之間的關聯(lián)關系一目了然,對于操作員尋找故障源、及時給出消除故障的措施,有很大的指導作用。通過這種識別方法,實現(xiàn)了智能報警管理系統(tǒng)對報警的簡潔性和實用性的要求,對提高系統(tǒng)的安全性能和操作效率,保證企業(yè)效益,均有著重要意義。本文方法的基本思路已申請專利。 值得注意的是,本文中所述的因果關系只反映了表面上的時間順序,并不代表報警所對應的過程變量和過程單元之間的本質上的因果關系[10~13]。進一步的報警設計還需要充分利用過程知識和過程數(shù)據(jù)來進行分析[14,15]。 [1] Yang F, Xiao D. Research topics of intelligent alarm management [J]. Computers and Applied Chemistry, 2011, 28(12):1485-1491.(in Chinese) [2] Izadi I, Shah S L, Shook D S, et al. An introduction to alarm analysis and design [C] ∥Proc of the 7th IFAC Symposium on Fault Detection, Supervision and Safety of Technical Processes, 2009:645-650. [3] Izadi I, Shah S L, Shook D S, et al. A framework for optimal design of alarm systems [C] ∥Proc of the 7th IFAC Fault Detection, Supervision and Safety of Technical Processes, 2009:651-656. [4] Kondaveeti SR, Shah SL, Izadi I. Application of multivariate statistics for efficient alarm generation [C] ∥Proc of the 7th IFAC Symposium on Fault Detection, Supervision and Safety of Technical Processes, 2009:657-662. [5] Lesot M J, Rifqi M, Benhadda H. Similarity measures for binary and numerical data:a survey [J]. International Journal of Knowledge Engineering and Soft Data Paradigms, 2009, 1(1):63-94. [6] Choi S, Cha S, Tappert C C. A survey of binary similarity and distance measures [J]. Journal of Systemics, Cybernetics and Informatics, 2010, 8(1):43-48. [7] Yang F,Shah S L,Xiao D-Y.Correlation analysis of alarm data and alarm limit design for industrial processes[C]∥Proc of 2010 American Control Conference, 2010:5850-5855. [8] Nishiguchi J, Takai T. IPL2 and 3 performance improvement method for process safety using event correlation analysis [J]. Computers and Chemical Engineering, 2010, 34(12):2007-2013. [9] Yang F, Shah S L, Xiao D, et al. Improved correlation analysis and visualization of industrial alarm data [J]. ISA Transactions, 2012, 51(4):499-506. [10] Smith S M, Miller K L, Salimi-Khorshidi, et al. Network modeling methods for FMRI [J]. NeuroImage, 2011, 54:875-891. [11] Bauer M, Thornhill N F. A practical method for identifying the propagation path of plant-wide disturbances [J]. Journal of Process Control, 2008, 18(7-8):707-719. [12] Bauer M, Cox J W, Caveness M H, et al. Finding the direction of disturbance propagation in a chemical process using transfer entropy [J]. IEEE Transactions on Control Systems Technology, 2007, 15(1):12-21. [13] Duan P, Yang F, Shah S L, Chen T. Direct Causality Detection via the Transfer Entropy Approach [J]. IEEE Transactions on Control Systems Technology, 2013, 21(6):2052-2066. [14] Izadi I, Shah S L, Chen T. Effective resource utilization for alarm management [C]∥Proc of the 49th IEEE Conference on Decision and Control, 2010:6803-6808. [15] Yang F, Shah S L, Xiao D-Y. Signed directed graph modeling and validation of industrial processes by process knowledge and process data [J]. International Journal of Applied Mathematics and Computer Science, 2011, 22 (1):41-53. 附中文參考文獻: [1] 楊帆,蕭德云.智能報警管理若干研究問題[J].計算機與應用化學,2011,28(12):1485-1491.5 結束語