王 丹 楊煜普 屈衛(wèi)東
(上海交通大學(xué)電子信息與電氣工程學(xué)院自動(dòng)化系,上海 200240)
近年來(lái),隨著現(xiàn)代化工及冶金等工業(yè)過(guò)程日益大規(guī)?;蛷?fù)雜化,工業(yè)過(guò)程的安全問(wèn)題越來(lái)越受到人們的關(guān)注?;诙嘣y(tǒng)計(jì)分析的故障檢測(cè)與診斷方法也成為近年來(lái)故障檢測(cè)與診斷領(lǐng)域的研究熱點(diǎn),并在工業(yè)過(guò)程中成功應(yīng)用[1~3]。偏最小二乘(PLS)技術(shù)能夠根據(jù)正常工況的生產(chǎn)數(shù)據(jù),準(zhǔn)確捕捉質(zhì)量變量與過(guò)程變量之間的關(guān)系,對(duì)生產(chǎn)工況進(jìn)行有效監(jiān)測(cè),且PLS統(tǒng)計(jì)檢測(cè)技術(shù)不依賴于過(guò)程機(jī)理模型,訓(xùn)練時(shí)不需要故障樣本,能夠彌補(bǔ)其他統(tǒng)計(jì)方法(例如PCA)無(wú)法考慮過(guò)程變量對(duì)質(zhì)量變量影響的不足,因此近年來(lái)在化工過(guò)程的質(zhì)量控制及在線檢測(cè)等方面得到了廣泛研究和應(yīng)用[4~6]。但是PLS方法無(wú)法反映過(guò)程的動(dòng)態(tài)時(shí)序特性,這在一定程度上影響了它的故障檢測(cè)準(zhǔn)確率??深A(yù)測(cè)元分析[7](Forecastable Component Analysis,F(xiàn)oreCA)作為一種新的統(tǒng)計(jì)信號(hào)處理方法克服了這個(gè)不足。可預(yù)測(cè)元分析是一種全新的用于多變量時(shí)序相關(guān)信號(hào)的特征提取方法,它能從已有的數(shù)據(jù)中捕捉到系統(tǒng)的動(dòng)態(tài)特性,并以此來(lái)預(yù)測(cè)系統(tǒng)運(yùn)行變化的趨勢(shì),因此所提取的特征能從本質(zhì)上描述工業(yè)過(guò)程。
筆者將可預(yù)測(cè)元分析方法與偏最小二乘法回歸方法相結(jié)合并用于故障檢測(cè),通過(guò)將樣本映射到可預(yù)測(cè)子空間,使用最小二乘回歸,進(jìn)一步提高了模型的預(yù)測(cè)性能,同時(shí)構(gòu)造CUSUM和SPE統(tǒng)計(jì)量對(duì)系統(tǒng)進(jìn)行監(jiān)控,這樣能夠較好地檢測(cè)均值偏差在兩倍標(biāo)準(zhǔn)差以下的故障。該方法克服了傳統(tǒng)偏最小二乘法無(wú)法反映過(guò)程時(shí)序特性的不足,能夠預(yù)測(cè)系統(tǒng)運(yùn)行變化的趨勢(shì),反映出系統(tǒng)的動(dòng)態(tài)特性,因此能夠提升故障檢測(cè)的準(zhǔn)確率。
1.1 可預(yù)測(cè)元分析
可預(yù)測(cè)元分析的基本思想是假設(shè)矩陣X∈Rn×m,其中n為樣本個(gè)數(shù),m為變量個(gè)數(shù),通過(guò)線性變換WT∈Rk×n,可得:
S=WTX
(1)
其中W為由可預(yù)測(cè)元列向量組成的可預(yù)測(cè)元矩陣,S為得分矩陣,F(xiàn)oreCA需要解決的問(wèn)題即由觀測(cè)矩陣X估計(jì)S和W。
γy(k)=E(yt-μy)(yt-k-μy)T,k∈R
(2)
其中k為時(shí)延。
定義單變量平穩(wěn)過(guò)程的譜密度為對(duì)其自協(xié)方差函數(shù)的傅里葉變換,得:
(3)
(4)
由文獻(xiàn)[7]可知,一個(gè)平穩(wěn)過(guò)程的熵越大越難被預(yù)測(cè),且白噪聲無(wú)法被預(yù)測(cè),可得:
Hs,a(yt)≤Hs,a(白噪聲)
(5)
因此可定義平穩(wěn)過(guò)程的可預(yù)測(cè)度為:
(6)
對(duì)于多變量二階平穩(wěn)過(guò)程Xt,考慮線性變換yt=wTXt,其中w(w∈Rn)是式(1)中W的列向量,即可預(yù)測(cè)元,此時(shí)yt可以看成是一個(gè)單變量的二階平穩(wěn)過(guò)程。文獻(xiàn)[7]給出了ForeCA的最優(yōu)化問(wèn)題:
(7)
s.t.wTΣXw=1
對(duì)式(7)進(jìn)行求解,首先使用加權(quán)交疊平均譜估計(jì)法對(duì)隨機(jī)過(guò)程進(jìn)行譜密度估計(jì)[8],再使用EM-Like算法求取可預(yù)測(cè)元[7]。文獻(xiàn)[7]給出了此算法的詳細(xì)步驟,通過(guò)此算法可以得出一組按照可預(yù)測(cè)度由高到低順序排列的可預(yù)測(cè)元,即可得到式(1)中的可預(yù)測(cè)元矩陣wT。
給定輸入矩陣X∈Rn×N包含n個(gè)樣本,每個(gè)樣本N個(gè)過(guò)程變量,輸出矩陣Y∈Rn×M包含n個(gè)樣本,每個(gè)樣本M個(gè)質(zhì)量變量。PLS通過(guò)隱變量對(duì)兩個(gè)數(shù)據(jù)塊的關(guān)系進(jìn)行建模,它將n×N零均值矩陣X和n×M零均值矩陣Y分解為:
(8)
(9)
式中Ek、Fk——擬合誤差矩陣;
P——X的負(fù)載矩陣;
Q——Y的負(fù)載矩陣;
T——得分矩陣,T=[t1,…,tk];
在PLS模型中,負(fù)載向量和得分向量通過(guò)最大化解釋各自的信息,同時(shí)也使X與Y的相關(guān)程度最大來(lái)求得。最常見(jiàn)的計(jì)算PLS模型的算法是Nipals算法,Y的預(yù)測(cè)回歸方程為:
(10)
其中,BPLS是PLS回歸系數(shù)矩陣,權(quán)重矩陣M是由Nipals算法定義的,T=XM。
在復(fù)雜的多變量系統(tǒng)中,PLS算法將自變量X和因變量Y看成是具有線性關(guān)系的數(shù)據(jù)矩陣。沒(méi)有逐個(gè)對(duì)變量判斷其留取與舍棄,而是利用信息分解的思路將顯變量系統(tǒng)中的信息重新組合,綜合篩選,提取出既能最大程度解釋自變量信息,又能最大程度反映自變量與因變量間線性關(guān)系的互相正交的綜合變量(隱變量)。PLS用獨(dú)立的隱變量進(jìn)行建模、預(yù)測(cè),使得該方法可以廣泛應(yīng)用于數(shù)據(jù)不完整、變量間存在多重相關(guān)性的場(chǎng)合。
工業(yè)過(guò)程中存在很多慢漂移的故障,為了檢測(cè)這種微小的變化,筆者用CUSUM統(tǒng)計(jì)量對(duì)其進(jìn)行檢測(cè)?;贑USUM統(tǒng)計(jì)量的表格累加法為了檢測(cè)樣本均值向上和向下漂移,定義了兩個(gè)統(tǒng)計(jì)量,即:
SH(i)=max[0,xi-(μ0+K)+SH(i-1)],SH(0)=0
(11)
SL(i)=max[0,(μ0-K)-xi+SL(i-1)],SL(0)=0
(12)
(13)
其中μ0是樣本實(shí)際的均值,xj為第j個(gè)樣本值,筆者用訓(xùn)練樣本均值代替。K為參考值,一般取0.5Δ,Δ為期望檢測(cè)出的偏差,取值在[0.5σ,2.0σ]內(nèi)。其控制限為5倍的標(biāo)準(zhǔn)差[9]。
首先選取一段正常工況下的觀測(cè)數(shù)據(jù)X(X∈Rn×N),其中n為變量個(gè)數(shù),N為采樣點(diǎn)數(shù),對(duì)其運(yùn)用ForeCA算法,得可預(yù)測(cè)元矩陣:
WT=[w1,w2,…,wn]T∈RN×N
(14)
(15)
過(guò)程殘差可表示為:
(16)
(17)
SPE統(tǒng)計(jì)量的控制限用核密度估計(jì)確定,具體參見(jiàn)文獻(xiàn)[11]。
基于ForePLS的故障檢測(cè)分為兩個(gè)階段——離線訓(xùn)練階段和在線檢測(cè)階段。
離線訓(xùn)練階段。首先采集正常工況下的訓(xùn)練數(shù)據(jù)X,對(duì)其進(jìn)行預(yù)處理后,使用ForeCA算法提取出可預(yù)測(cè)主元矩陣W,然后在可預(yù)測(cè)子空間進(jìn)行PLS回歸,再計(jì)算訓(xùn)練數(shù)據(jù)在可預(yù)測(cè)子空間的CUSUM統(tǒng)計(jì)量和SPE統(tǒng)計(jì)量,最后計(jì)算兩個(gè)統(tǒng)計(jì)量的控制限——H和SPEα。
在線檢測(cè)階段。首先根據(jù)實(shí)時(shí)采集的未知狀態(tài)的數(shù)據(jù)集,將此可預(yù)測(cè)模型運(yùn)用于在線數(shù)據(jù),分別計(jì)算每個(gè)樣本數(shù)據(jù)的CUSUM和SPE統(tǒng)計(jì)量,最后比較兩個(gè)統(tǒng)計(jì)量與其對(duì)應(yīng)控制限的大小,通過(guò)比較確定系統(tǒng)是否發(fā)生故障。如果檢驗(yàn)結(jié)果在控制限以內(nèi),則說(shuō)明目前系統(tǒng)工作在可預(yù)測(cè)模型所預(yù)測(cè)的變化范圍之內(nèi),即系統(tǒng)工作正常;反之,則說(shuō)明目前系統(tǒng)的工作狀態(tài)已經(jīng)偏離可預(yù)測(cè)模型所預(yù)測(cè)的變化范圍,判斷系統(tǒng)已經(jīng)出現(xiàn)了故障。
TE實(shí)驗(yàn)平臺(tái)是Downs和Vogel根據(jù)Eastman化學(xué)公司的世界工藝流程做了少許修改于1993年提出的[12],其中包含21個(gè)預(yù)設(shè)故障。TE過(guò)程由連續(xù)攪拌式反應(yīng)釜、分凝器、氣液分離塔、汽提塔、再沸器及離心式壓縮機(jī)等多個(gè)操作單元組成,其流程如圖1所示。
圖1 TE流程
TE過(guò)程共有A、C、D、E 4種氣體進(jìn)料,G和H兩種反應(yīng)產(chǎn)物,F(xiàn)一種副產(chǎn)品。系統(tǒng)中存在的化學(xué)反應(yīng)如下:
以上各式中,g代表氣體,liq代表液體。所有的反應(yīng)都是不可逆放熱反應(yīng),反應(yīng)速度取決于溫度和反應(yīng)物的氣相濃度。
TE模型用于訓(xùn)練的樣本數(shù)據(jù)為500個(gè)52維向量,用于測(cè)試的樣本數(shù)據(jù)為960個(gè)52維向量,其中故障從第161個(gè)樣本點(diǎn)開(kāi)始引入。筆者選擇過(guò)程中的G和H(即MEAS35和MEAS36)作為ForePLS模型的質(zhì)量變量Y;選取22個(gè)過(guò)程變量MEAS1~22和11個(gè)操作變量MV1~11作為X。采用ForePLS模型對(duì)TE過(guò)程的反應(yīng)產(chǎn)物G的含量的預(yù)測(cè)結(jié)果如圖2所示,可以看出ForePLS有很好的預(yù)測(cè)能力。
圖2 故障10發(fā)生時(shí)產(chǎn)品中組分G的含量曲線
下面以隨機(jī)變化故障中典型的故障IDV(10)為例加以分析。故障IDV(10)發(fā)生時(shí),供料C的溫度產(chǎn)生了隨機(jī)變化。為了驗(yàn)證ForePLS的有效性,將其與PCA和PLS兩種方法進(jìn)行對(duì)比。實(shí)驗(yàn)中,F(xiàn)orePLS的隱變量個(gè)數(shù)為6,PCA的主元個(gè)數(shù)為15,PLS的隱變量個(gè)數(shù)為9,期望檢測(cè)到的均值偏離為0.5倍的標(biāo)準(zhǔn)差。圖3顯示了PCA、PLS和ForePLS 3種方法對(duì)故障IDV(10)的檢測(cè)效果??梢钥闯觯琍CA的T2統(tǒng)計(jì)量和SPE統(tǒng)計(jì)量的準(zhǔn)確率分別為45.6%和53.9%;PLS的兩個(gè)統(tǒng)計(jì)量的檢測(cè)準(zhǔn)確度都較低,分別為18.8%和27.8%;ForePLS的CUSUM和SPE統(tǒng)計(jì)量的準(zhǔn)確率為96.5%和52.9%。由此說(shuō)明,筆者所提出的基于ForePLS的故障檢測(cè)方法檢測(cè)隨機(jī)變化的故障準(zhǔn)確率比PCA和PLS方法更好。
圖3 IDV(10)發(fā)生時(shí)PCA、PLS和ForePLS方法的故障檢測(cè)性能比較
介紹了一種基于可預(yù)測(cè)元分析和最小二乘回歸法相結(jié)合的故障檢測(cè)方法。該方法克服了傳統(tǒng)最小二乘法無(wú)法反映過(guò)程時(shí)序特性的不足,能夠有效預(yù)測(cè)系統(tǒng)運(yùn)行變化的趨勢(shì),反映出系統(tǒng)的動(dòng)態(tài)特性。通過(guò)檢測(cè)可預(yù)測(cè)空間上的CUSUM統(tǒng)計(jì)量和SPE統(tǒng)計(jì)量,以達(dá)到檢測(cè)慢漂移等微小故障和隨機(jī)變化故障的目的。在TE模型上的仿真表明:該方法比傳統(tǒng)的PCA、PLS方法檢測(cè)精度更高,效果更好。