李 元,姚宗禹
(沈陽化工大學(xué) 信息工程學(xué)院,沈陽 110142)
在現(xiàn)代工業(yè)中,為了在提高過程系統(tǒng)運(yùn)行安全性和可靠性的同時(shí),保證化學(xué)工程工藝系統(tǒng)中的產(chǎn)品質(zhì)量,必須對過程進(jìn)行實(shí)時(shí)監(jiān)控.數(shù)據(jù)驅(qū)動(dòng)的過程監(jiān)測和控制技術(shù)已廣泛應(yīng)用于各種工業(yè)過程[1-3],包括化學(xué)品、藥品和半導(dǎo)體制造等[4-8].
傳統(tǒng)主成分分析(PCA)是目前常用的多元統(tǒng)計(jì)方法,基于PCA的過程監(jiān)測方法已成功地應(yīng)用于大量工業(yè)過程中.然而,基于PCA的方法均假設(shè)過程是線性的,這限制了其在非線性工業(yè)過程中的應(yīng)用.現(xiàn)代工業(yè)非線性過程大量存在,為了監(jiān)測非線性過程,多種非線性過程檢測方法相繼被提出.
文獻(xiàn)[9]通過在PCA中引入核技術(shù)提出了核主元分析(KPCA).而文獻(xiàn)[10-11]提出基于KPCA的連續(xù)過程監(jiān)測的非線性過程監(jiān)測技術(shù),KPCA將非線性低維數(shù)據(jù)映射到高維空間,使其在高維空間中存在線性關(guān)系.相對于PCA方法而言,KPCA方法在故障檢測過程中可以提取系統(tǒng)中的非線性特征信息而不至于丟失重要信息,具有更好的非線性故障檢測能力.但是,KPCA沒有明確地考慮數(shù)據(jù)的非線性幾何結(jié)構(gòu)可能駐留在流形上的可能性[12],若參數(shù)設(shè)置不當(dāng),核方法的故障檢測性能就無法得到保證.此外,計(jì)算核函數(shù)耗時(shí)較長,影響對實(shí)時(shí)檢測的需求.
文獻(xiàn)[13-14]提出一種基于自聯(lián)想的5層神經(jīng)網(wǎng)絡(luò)的非線性主成分分析 (NLPCA),使用自關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)映射到特征空間.文獻(xiàn)[15]提出一種基于主曲線和神經(jīng)網(wǎng)絡(luò)相結(jié)合的非線性主成分分析法,并應(yīng)用于非線性過程監(jiān)測.然而,大部分存在的非線性方法都是基于神經(jīng)網(wǎng)絡(luò)的,需要離線和在線訓(xùn)練,而且為了計(jì)算主元,需要解決非線性優(yōu)化問題,主元的數(shù)量必須在神經(jīng)網(wǎng)絡(luò)訓(xùn)練之前確定,給實(shí)際應(yīng)用帶來不便.
文獻(xiàn)[16]提出一種基于等距離映射(ISOMAP)的故障檢測方法.該方法用等距離映射進(jìn)行非線性降維,采用自適應(yīng)準(zhǔn)則選取鄰域參數(shù),能夠有效地挖掘過程的非線性特征.但是當(dāng)流形曲率較大時(shí),流形上的測地距離估計(jì)會(huì)產(chǎn)生較大的誤差,導(dǎo)致嵌入結(jié)果產(chǎn)生變形.文獻(xiàn)[17-18]提出主多項(xiàng)式分析(PPA),通過最小化相應(yīng)正交子空間中的回歸誤差(或方差)來變形直線主成分,并將其應(yīng)用于遙感數(shù)據(jù)處理.文獻(xiàn)[19-20]將PPA法引入到工業(yè)過程的故障檢測和診斷技術(shù)上,使用一組靈活的主多項(xiàng)式分量來描述數(shù)據(jù),與基于PCA的方法相比,PPA法更能有效地捕捉過程數(shù)據(jù)中固有的非線性幾何結(jié)構(gòu).雖然,PPA法的提取曲線主成分可以包含大部分的數(shù)據(jù)變化,但是其只捕獲過程數(shù)據(jù)的全局結(jié)構(gòu),不能有效地保留數(shù)據(jù)詳細(xì)的局部結(jié)構(gòu)信息.
針對工業(yè)過程數(shù)據(jù)的非線性特征,提出一種基于鄰域保持嵌入(NPE)-主多項(xiàng)式分析的過程故障檢測算法.使用NPE算法提取高維數(shù)據(jù)的低維子流形,并進(jìn)行維數(shù)約減,同時(shí)保持鄰域結(jié)構(gòu)不變.將特征空間的數(shù)據(jù)應(yīng)用主多項(xiàng)式分析建立故障檢測模型,計(jì)算其檢測統(tǒng)計(jì)量及控制限來進(jìn)行故障檢測.本研究以Tennessee Eastman(TE)化工過程為背景進(jìn)行仿真實(shí)驗(yàn),為基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測領(lǐng)域提供了實(shí)踐基礎(chǔ).
鄰域保持嵌入算法的目的是在保持?jǐn)?shù)據(jù)集局部流形結(jié)構(gòu)不變的同時(shí),將給定原始數(shù)據(jù)X=[x1x2…xn],xi∈RD從D維空間RD映射到一個(gè)相對低維的特征空間Y=[y1y2…yn],{yi|yi∈Rd}(d (1)通過樣本間的歐式距離確定每個(gè)樣本的前k個(gè)近鄰并構(gòu)造鄰域連接圖. (2)計(jì)算鄰接圖中每一條邊上的權(quán)重值構(gòu)成權(quán)重矩陣F,確定每個(gè)樣本點(diǎn)與其鄰域點(diǎn)之間的重構(gòu)權(quán)向量,并在低維空間中保持每個(gè)鄰域的權(quán)值不變,使誤差函數(shù)達(dá)到最小,可由下式計(jì)算: (1) (2) (3)計(jì)算特征映射矩陣.根據(jù)高維空間中的樣本點(diǎn)與其近鄰點(diǎn)之間的權(quán)值矩陣F,嵌入低維空間的投影矩陣A可以通過求解損失函數(shù)的最小化問題可以得到: (3) 通過拉格朗日函數(shù)法可將最優(yōu)化求解問題轉(zhuǎn)化為廣義特征矩陣中的特征值問題,如下式所示: XTMXai=λXTXai (4) 式中:M=(I-W)T(I-W),I為同維度單位矩陣.求解式(4)中最小的d個(gè)特征值所對應(yīng)的特征向量組成映射矩陣A=[a1a2…ad]∈Rn×d. PPA是一種計(jì)算主多項(xiàng)式成分的順序算法.在每一步的計(jì)算中,計(jì)算出最佳投影數(shù)據(jù)的向量,通過使用一組主多項(xiàng)式成分從過程數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的低維表示,將PCA中的直線主成分更換為曲線的主多項(xiàng)式成分,可以更好地捕捉過程變量的非線性特征[19].給定數(shù)據(jù)矩陣G為m個(gè)變量,n個(gè)訓(xùn)練樣本,PPA對原始數(shù)據(jù)進(jìn)行如下分解: (5) (6) (7) Vp=[νp,1νp,2…νp,n] (8) (9) 式中:V?為V的偽逆. (10) (11) (12) 式中:ΛPPA∈Rρ×ρ為對角元素為主多項(xiàng)式分量的方差對角矩陣.PPA的平方預(yù)測誤差(SPE)統(tǒng)計(jì)量定義如下: (13) (14) T2統(tǒng)計(jì)量的控制限可以計(jì)算如下: (15) 式中:Fα(ρ,n-ρ)為在顯著性水平θ上具有自由程度ρ和n-ρ的F分布. SPE統(tǒng)計(jì)量的控制限可以計(jì)算如下: (16) 故障檢測的兩個(gè)階段可以分為離線建模和在線監(jiān)測. (1)離線建模.離線建模的步驟如下: 步驟1采集正常工況下的過程數(shù)據(jù),將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化. 步驟2利用下式計(jì)算權(quán)重矩陣F,利用得到的權(quán)重矩陣根據(jù)式(4)計(jì)算映射矩陣A. (17) j=1,2,…,k 步驟3在數(shù)據(jù)矩陣上構(gòu)造PPA模型,得到對應(yīng)的主多項(xiàng)式分量與殘差分量,并在主多項(xiàng)式分量空間和殘差空間分別計(jì)算T2統(tǒng)計(jì)量與SPE統(tǒng)計(jì)量. 步驟4計(jì)算其對應(yīng)的監(jiān)測統(tǒng)計(jì)量的控制限ξT2和ξSPE;保存訓(xùn)練模型中所獲得的4個(gè)參數(shù)ep,Ep,Wp和Vp. (2)在線檢測.在線檢測的步驟如下: 步驟1獲得一個(gè)新的樣本xnew,然后使用建模數(shù)據(jù)的均值和方差對其進(jìn)行標(biāo)準(zhǔn)化. 步驟2利用投影矩陣A將xnew投影到低維子空間中,得到樣本點(diǎn)ynew. 步驟3利用訓(xùn)練模型中所學(xué)習(xí)的模型參數(shù)將樣本點(diǎn)ynew映射到主多項(xiàng)式空間和殘差空間,并在對應(yīng)空間求得T2與SPE統(tǒng)計(jì)量. 步驟4將上一步求得的統(tǒng)計(jì)量與離線建模步驟中的控制限進(jìn)行對比,若T2與SPE中任一統(tǒng)計(jì)量超過其對應(yīng)的控制限,則認(rèn)為該樣本為故障樣本. 通過將基于NPE-PPA的故障檢測方法應(yīng)用于一個(gè)非線性數(shù)值實(shí)例和TE過程,說明該方法的效率和優(yōu)點(diǎn),并將應(yīng)用結(jié)果與標(biāo)準(zhǔn)的基于KPCA和PPA的監(jiān)測方法進(jìn)行比較. 給出了一個(gè)非線性仿真實(shí)例,說明了該方法在故障檢測方面的有效性.非線性系統(tǒng)由以下方程描述: (18) (19) 式中:s1和s2為系統(tǒng)控制變量;σ1~σ5服從均值為0,標(biāo)準(zhǔn)差為0.01的高斯分布的5個(gè)獨(dú)立白噪聲.通過仿真生成400個(gè)正常樣本組成訓(xùn)練集進(jìn)行建模,另外生成200個(gè)正常樣本和200個(gè)故障樣本作為測試數(shù)據(jù)集.為該數(shù)值仿真實(shí)例設(shè)定如下2種故障: 故障1對變量x1從第201個(gè)樣本至第400個(gè)樣本上添加0.2(i-200)來引入斜坡故障,i為樣本數(shù). 故障2對變量x5從第201個(gè)樣本至第400個(gè)樣本上添加幅值為25%的階躍故障. 接下來,使用前文所提到的數(shù)值實(shí)例分別應(yīng)用KPCA、PPA和NPE-PPA這3種方法進(jìn)行建模分析.在KPCA中,通過85%累計(jì)貢獻(xiàn)率來確定主元個(gè)數(shù),在PPA和NPE-PPA模型中的主多項(xiàng)式成分和多項(xiàng)式度均設(shè)置為2.采用KPCA、PPA和NPE-PPA算法對故障1的檢測結(jié)果如圖1所示.從圖1(a)中可以看出,KPCA的SPE統(tǒng)計(jì)量能夠檢測出故障的發(fā)生,T2統(tǒng)計(jì)量完全不能檢測出故障的發(fā)生.PPA的SPE統(tǒng)計(jì)量能夠檢測出故障的發(fā)生,T2統(tǒng)計(jì)量在故障發(fā)生一段時(shí)間后能夠做出一定的反應(yīng),但是故障檢測的精確度低.NPE-PPA的T2統(tǒng)計(jì)量和SPE統(tǒng)計(jì)量在故障發(fā)生后能立即跳變到控制限以上,并且持續(xù)報(bào)警,能夠迅速準(zhǔn)確地檢測到故障的發(fā)生. 采用KPCA、PPA和NPE-PPA算法對故障2的檢測結(jié)果如圖2所示.從圖2(a)中可以看出,KPCA的兩種統(tǒng)計(jì)量均不能有效地檢測出故障的發(fā)生,PPA只有SPE統(tǒng)計(jì)量能夠檢測出故障的發(fā)生,NPE-PPA 的兩種統(tǒng)計(jì)量能夠迅速準(zhǔn)確地檢測到故障的發(fā)生.仿真實(shí)驗(yàn)結(jié)果表明,鄰域保持嵌入算法能夠有效地保留數(shù)據(jù)的局部結(jié)構(gòu)信息,提升主多項(xiàng)式分析處理數(shù)據(jù)的效果. 圖1 故障1的檢測結(jié)果Fig.1 Monitoring results of Fault 1 圖2 故障2的檢測結(jié)果Fig.2 Monitoring results of Fault 2 TE過程仿真應(yīng)用平臺(tái)是一個(gè)基于實(shí)際工業(yè)過程的仿真例子,用于測試過程系統(tǒng)工程中故障檢測和診斷方法的效率[22-23].Tennessee Eastman過程最早由Downs和Vogel提出,其原型是美國伊斯曼化學(xué)公司的一個(gè)真實(shí)工業(yè)過程[24-25].過程主要包括5個(gè)操作單元:反應(yīng)器、冷凝器、循環(huán)壓縮機(jī)、氣液分離器以及汽提塔.整個(gè)過程中共涉及8種物料成分,分別為主要參加反應(yīng)的氣體進(jìn)料U、C、D、E;惰性不可溶進(jìn)料B;反應(yīng)副產(chǎn)品F以及反應(yīng)液態(tài)主產(chǎn)物G和H.在過程中共包含有41個(gè)測量變量和12個(gè)控制變量,其中,41個(gè)測量變量又可以劃分為22個(gè)過程測量變量以及19個(gè)成分測量變量. 該仿真平臺(tái)總共預(yù)設(shè)了21種故障,具體的故障描述如表1所示,共包含階躍型故障、隨機(jī)變化故障、慢偏移故障、閥門粘滯故障、閥門卡死故障以及未知故障.利用在正常操作條件下包含500個(gè)觀測值的訓(xùn)練數(shù)據(jù)建立模型.測試數(shù)據(jù)包含一組21個(gè)不同的過程故障,這些故障在樣本161引入過程中,即過程在前160個(gè)樣本中正常運(yùn)行,然后從樣本161到結(jié)束發(fā)生故障.表1中列出了故障的詳細(xì)描述,故障3、9和15是微小故障,由于反饋控制,對整個(gè)過程行為的影響不大. 將所提方法與基于KPCA和PPA算法的方法對TE過程的21種故障進(jìn)行檢測對比.首先,建立統(tǒng)計(jì)監(jiān)控模型,在建立 KPCA 模型時(shí),使用主元貢獻(xiàn)率85%來確定其主元個(gè)數(shù),在PPA方法和所提方法中使用的PPA模型通過交叉驗(yàn)證確定,主多項(xiàng)式空間數(shù)量設(shè)置為4,主多項(xiàng)式的冪設(shè)置為3,檢測統(tǒng)計(jì)量控制限置信度設(shè)置為99%. 表1 TE過程的21種故障Tab.1 Induced 21 faults in TE process 表2匯總了基于KPCA、PPA和NPE-PPA方法對TE過程的21種故障的故障檢測結(jié)果,計(jì)算了所有21個(gè)故障的監(jiān)測統(tǒng)計(jì)量的檢測率.針對每一個(gè)故障,檢測率最高的值在表中用粗體突出表示.對于故障3、9和15在眾多文獻(xiàn)中被認(rèn)為很難檢測出來,在本文的研究中也同樣得到證實(shí).基于KPCA和PPA的方法在檢測6個(gè)故障(故障5、10、16、19、20和21)方面存在困難,大多數(shù)情況下的檢測率小于60%.然而所提出的基于NPE-PPA的故障檢測方法能夠檢測到所有18個(gè)故障(除故障3、9和15外),檢出率高于85%.特別是故障5、10和20,基于NPE-PPA方法的故障檢出率比KPCA和PPA高出2~3倍. 圖3 故障5的檢測結(jié)果Fig.3 Monitoring results of Fault 5 為了說明基于NPE-PPA檢測方法的優(yōu)越性,分別比較了基于KPCA、PPA和NPE-PPA方法對故障5和10的檢測結(jié)果,如圖3和4所示.故障5是TE過程中的冷凝器冷卻入口溫度發(fā)生變化形成的一種階躍故障.由圖3可知,基于KPCA和基于PPA方法的T2和SPE統(tǒng)計(jì)量成功地檢測了樣本160~345的故障,而在樣本346之后未能檢測到故障,基于NPE-PPA的T2和SPE統(tǒng)計(jì)量都檢測到樣本160至過程結(jié)束的大部分故障,具有較高的檢測率和較低的誤報(bào)率.故障10是TE過程中物料C進(jìn)料溫度改變形成的一種隨機(jī)變化故障.從圖4可以清楚地觀察到,所提出的基于NPE-PPA的方法比基于KPCA和PPA的方法更敏感,其T2和SPE統(tǒng)計(jì)量的變化比基于KPCA和PPA統(tǒng)計(jì)量的變化要顯著得多,所提方法對于故障10的SPE統(tǒng)計(jì)量的檢測率遠(yuǎn)高于其他監(jiān)測統(tǒng)計(jì)量(見表2). 表2 3種方法對TE過程21個(gè)故障的檢測率Tab.2 Fault detection rates for 21 faults by using three methods in TE process 圖4 故障10的檢測結(jié)果Fig.4 Monitoring results of Fault 10 由表2可知,與其他方法的監(jiān)測統(tǒng)計(jì)方法相比,所提NPE-PPA方法的SPE統(tǒng)計(jì)量在TE過程的大多數(shù)故障中提供了最佳的監(jiān)測結(jié)果,展示了所提出的基于NPE-PPA方法的故障檢測性能.NPE-PPA算法的檢測效果得到了非常明顯的提升,說明了由NPE-PPA算法投影得到的特征空間包含了更多有效的信息,具有更好的特征提取能力,使得NPE-PPA方法具有更好的分類效果以及較好的故障檢測性能. 本文提出一種基于NPE-PPA的故障檢測算法,通過鄰域保持嵌入算法提取數(shù)據(jù)局部結(jié)構(gòu)信息,再使用PPA方法通過主多項(xiàng)式分量來捕捉過程數(shù)據(jù)中潛在的非線性結(jié)構(gòu).本文通過將其應(yīng)用于一組非線性數(shù)值實(shí)例和TE過程的工業(yè)基準(zhǔn)過程,驗(yàn)證了所提出的基于NPE-PPA的故障檢測算法的有效性與優(yōu)越性.應(yīng)用結(jié)果表明,所提出的基于NPE-PPA的故障檢測算法優(yōu)于基于KPCA和PPA的傳統(tǒng)非線性故障檢測方法.2 主多項(xiàng)式分析
3 基于低維子流行空間主多項(xiàng)式分析的故障檢測
4 實(shí)驗(yàn)驗(yàn)證
4.1 非線性數(shù)值實(shí)例仿真應(yīng)用
4.2 TE過程仿真應(yīng)用
5 結(jié)語