劉康康,戴 鵬,孫順遠
(1.江南大學物聯(lián)網(wǎng)工程學院,江蘇無錫 214000;2.山東東潤儀表科技股份有限公司,山東煙臺 264010)
工業(yè)生產(chǎn)過程的復雜程度正在日益增加,通常存在多工況、非線性和時變性等特征,其相應的計算機控制系統(tǒng)也在不斷地豐富和完善,同時推動了基于數(shù)據(jù)驅(qū)動理論軟測量技術(shù)的發(fā)展[1]。針對實際的工業(yè)生產(chǎn)過程,建立單一軟測量模型難以反映不同工況的特性,模型精度不能滿足系統(tǒng)的要求,而多模型建模方法[2]能夠更好地描述對象的復雜特性,提高模型精度和泛化能力。
在多模型建模過程中,將建模數(shù)據(jù)樣本點進行準確聚類是保證所建模型預測性能的前提[3]。聚類分析是在對數(shù)據(jù)不進行任何假設(shè)的條件下,采用數(shù)學方法研究和處理所給對象的分類及各類之間親疏程度[4]。常用的聚類算法如K均值聚類[5]、模糊C均值聚類[6],需要人為設(shè)定聚類的數(shù)量,需要對數(shù)據(jù)有一定的先驗知識。密度峰值聚類(density peaks clustering,DPC)算法是A. Rodriguez和A. Laio[7]提出的一種新型聚類算法。該算法無需預先給定聚類數(shù)目和初始聚類中心,自動給出樣本的聚類中心,而且對數(shù)據(jù)集樣本的形狀沒有嚴苛的要求,對任意形狀的數(shù)據(jù)集樣本都能實現(xiàn)高效的聚類。然而DPC算法也存在缺陷:局部密度的計算受截斷距離影響,截斷距離由人為設(shè)定,另外局部密度的不同計算方式也取決于數(shù)據(jù)集大?。皇S帱c的分配策略會產(chǎn)生多米諾效應,一旦一個局部密度較大的點類簇分配錯誤,可造成連環(huán)的分配錯誤。另一方面,在多模型軟測量建模的最終預測輸出時,需要對各個子模型的預測值進行組合。常見的組合方式主要有2種:開關(guān)切換方式和加權(quán)融合方式。其中,開關(guān)切換方式只是選擇新來樣本最有可能屬于某個類簇模型進行預測輸出,難以準確對全局模型進行描述,而加權(quán)融合方式可以根據(jù)新來的樣本計算其隸屬于某個子模型的概率,融合各個子模型的預測值得到比較準確的最終預測輸出。因此,加權(quán)融合方式在實際建模過程中得到了廣泛的研究與應用。
本文提出一種基于改進DPC的多模型軟測量建模方法。首先,采用K近鄰算法計算局部密度,避免截斷距離人為選擇的不足和局部密度計算方式受數(shù)據(jù)集大小的影響,并用K近鄰算法和加權(quán)K近鄰算法改進剩余點分配策略,避免連環(huán)的分配錯誤,劃分得到更優(yōu)的子數(shù)據(jù)集;然后,建立各個高斯過程回歸(Gaussian process regression,GPR)子模型;最后,利用基于子模型預測性能并結(jié)合即時學習自適應地計算出新來樣本隸屬于各個子模型的后驗概率,以此為權(quán)值融合各個GPR子模型的預測值得到最終輸出,從而實現(xiàn)對一些復雜工業(yè)過程中的關(guān)鍵變量準確預測。
DPC算法是一種基于距離和密度的聚類算法,只需計算各個樣本點之間的距離,具有速度快、精度高的特點。并且不需要人為給定聚類數(shù)目,適合工業(yè)生產(chǎn)過程中多工況、變量多等特點。理想的聚類中心應該有如下特點:它們被具有相對較低局部密度的鄰居數(shù)據(jù)點包圍著;它們與更高局部密度的數(shù)據(jù)點具有相對較大的距離。為了尋找理想的聚類中心,DPC算法引入數(shù)據(jù)點i的局部密度ρi和數(shù)據(jù)點i到具有更高局部密度點j之間的最短距離δi。
局部密度ρi定義為
(1)
對于“小”數(shù)據(jù)集,難以對局部密度進行可靠計算,DPC算法采用高斯核函數(shù)計算ρi,表達式為
(2)
距離δi定義如下:
(3)
對于局部密度最大的點,有
(4)
DPC算法的核心是引入決策圖來獲取聚類中心,決策圖建立在二維坐標系下,局部密度ρi為橫坐標,距離δi為縱坐標,選擇ρi、δi都較大的點作為聚類中心,即決策圖右上方的數(shù)據(jù)點。確定聚類中心后,將剩余數(shù)據(jù)點分配到密度比其大且距其最近的類簇。
DPC算法能夠簡單高效地處理聚類問題,但卻存在如下不足:
(1)局部密度計算有不同的方法,根據(jù)經(jīng)驗,“大”數(shù)據(jù)集采用式(1),“小”數(shù)據(jù)集采用式(2),然而對于數(shù)據(jù)集大小的劃分沒有標準,使用不同公式產(chǎn)生的聚類結(jié)果不同。此外2個公式中都有人為設(shè)定的截斷距離,特別對于較小的數(shù)據(jù)集受截斷距離影響較大。
(2)剩余點的分配策略可能會導致錯誤的傳播,一旦一個局部密度較大的點類簇分配錯誤,可造成其周圍局部密度較低的數(shù)據(jù)點分配連環(huán)錯誤。改進的DPC算法采用K近鄰算法計算局部密度,并用K近鄰算法和加權(quán)K近鄰算法改進剩余點分配策略。
K近鄰分類算法本質(zhì)可以看作是對每一個測試數(shù)據(jù)找到其在訓練數(shù)據(jù)中的k個鄰近,并將這k個鄰近中頻率出現(xiàn)最高的類別作為該測試數(shù)據(jù)的類別。假設(shè)樣本有標簽可為Label=1,2,…,C,K近鄰算法在數(shù)據(jù)點i的分類公式如下:
(5)
式中δ為克羅內(nèi)克函數(shù)。
在傳統(tǒng)的K近鄰算法中,認為數(shù)據(jù)點的k個近鄰是等權(quán)的,然而在實際意義中,各個k近鄰對測試樣本標簽的貢獻程度不同,貢獻程度與特征距離有關(guān)。提出了加權(quán)K近鄰算法如下:
(6)
改進的DPC算法采用K近鄰算法重新定義了局部密度ρi的表達式:
(7)
該定義保證局部密度計算只與該數(shù)據(jù)點k近鄰的分布有關(guān),即獨立于數(shù)據(jù)集的大小,又避免了人為選取截斷距離經(jīng)驗的不足。
改進的分配策略先使用K近鄰算法直接將聚類中心的標簽直接傳播到k個近鄰定義如下:
(8)
式中peakj為j的聚類中心。
再使用加權(quán)K近鄰算法分配還未分配的剩余點,定義權(quán)值wij如下:
(9)
考慮使用加權(quán)K近鄰算法,可能存在數(shù)據(jù)點i的k個近鄰可能存在未被分配,先找到還未被分配數(shù)據(jù)點中k個近鄰已被分配標簽最多的數(shù)據(jù)點,再使用加權(quán)K近鄰算法提出的分配標簽公式:
(10)
式中Label≠?為該數(shù)據(jù)點已經(jīng)被分配標簽。
設(shè)輸入:數(shù)據(jù)集為X,參數(shù)為k,輸出:已標記聚類類別的數(shù)據(jù)集。改進的DPC算法實現(xiàn)步驟:
(1)對數(shù)據(jù)集數(shù)據(jù)作歸一化預處理。
(2)采用K近鄰算法重新定義的式(7)計算局部密度ρi,使用式(3)或式(4)計算距離δi。
(3)通過局部密度ρi和距離δi繪制決策圖,獲取聚類中心并標記標簽為Label=1,2,…,C。
(4)使用式(8)將聚類中心的標簽直接傳播到k個近鄰。
(5)找出還未被分配數(shù)據(jù)點中k個近鄰已被分配標簽最多的數(shù)據(jù)點,使用式(10)進行分配標簽。
(6)若還有未被分配標簽數(shù)據(jù)點,轉(zhuǎn)至步驟(5)直至所有數(shù)據(jù)點都有標簽,得到已標聚類類別的數(shù)據(jù)集。
(11)
cov(f*)=K(x*,x*)-K(x*,X)C-1K(X,x*)
(12)
(13)
高斯過程回歸中協(xié)方差矩陣是通過協(xié)方差函數(shù)確定,通常使用平方指數(shù)協(xié)方差函數(shù):
(14)
(15)
為了得到最終的預測輸出,需要融合各個子模型的預測值,因此,子模型的權(quán)值計算方法對軟測量模型的精度至關(guān)重要。傳統(tǒng)方法中,子模型的權(quán)值一般通過新來樣本到各個子數(shù)據(jù)集聚類中心的距離計算得到[10]。近幾年,基于子模型的預測能力或者預測值的不確定性計算后驗概率的方法得到廣泛應用[11]。
利用改進的DPC算法將訓練樣本劃分為C個子數(shù)據(jù)集,并用GPR方法建立子模型分別為LMc,c=1,2,C。對于新樣本xnew,基于貝葉斯定理得到最終的預測輸出表示為
(16)
由貝葉斯定理可知,后驗概率的計算公式如下:
(17)
式中:P(LMc)為第c個子模型的先驗概率;P(xnew|LMc)為xnew隸屬于第c個子模型的條件概率。
若子模型的先驗概率和xnew隸屬于該子模型的條件概率越大,則該子模型對xnew具有更準確的輸出,基于此關(guān)系結(jié)合實時學習(just-in-time learning,JITL)[12]的思路,提出一種基于基于子模型預測性能的貝葉斯自適應融合算法。對于新來的樣本,通過歐氏距離的相似度準則,在訓練樣本中找出與之相似度最大的Ns個樣本構(gòu)成相似樣本集,并相應的計算在各個子模型中的均方根誤差公式為
(18)
RMSEc反映了第c個子模型對相似樣本集的預測性能,同時也反映了對新來樣本的預測能力。因此,新來樣本隸屬于第c個子模型的條件概率P(xnew|LMc)可以定義為
(19)
同時第c個子模型的先驗概率P(LMc)定義為
(20)
式中Ns,c為相似樣本集在第c個子數(shù)據(jù)集中的個數(shù)。
對于新來的樣本使用式(19)和式(20)分別計算各個子模型的條件概率和先驗概率,在代入式(17)求出相應的后驗概率,最終根據(jù)式(16)融合各個子模型的預測值得到最終預測輸出。
本文提出的基于改進DPC的多模型軟測量建模流程如圖1所示。
圖1 基于改進DPC的多模型軟測量建模
具體的執(zhí)行步驟如下:
(1)利用改進的DPC算法對原始訓練集進行聚類,得到C個子數(shù)據(jù)集。
(2)用GPR方法對子數(shù)據(jù)集建立各個子模型。
(3)對于新來樣本預測各個子模型的輸出值,并用基于子模型預測性能的貝葉斯融合自適應算法計算出新來樣本隸屬于各個子模型的后驗概率。
(4)利用式(16)融合各個子模型的預測值得到最終預測輸出。
選取6個UCI真實數(shù)據(jù)集對改進的DPC算法進行測試與評價,并與DPC、AP[3]、DBSCAN[13]、K-means的仿真結(jié)果進行對比,其中因為K-means算法選取初始聚類中心和聚類數(shù)目都具有隨機性,所以本文采用20次重復實驗的平均值作為其最終的仿真結(jié)果。本文選用的UCI真實數(shù)據(jù)集如表1所示。
表1 本文選取的UCI數(shù)據(jù)集
采用聚類準確率(Acc)、調(diào)整的Rand指數(shù)(adjusted rand index,ARI)作為度量指標來對仿真結(jié)果進行評價。這兩種指標作為最常用的評判聚類質(zhì)量的指標,值越大說明聚類效果越好。
上述5個聚類算法6個UCI數(shù)據(jù)集上的聚類結(jié)果指標如表2所示。其中Par表示算法中所用的參數(shù),加框的表示最優(yōu)。
從表2可以看出,本文提出改進DPC算法的聚類指標都優(yōu)于DPC、AP、DBSCAN、K-means,說明了改進的DPC算法進行聚類更加符合真實的類簇歸屬情況。另外當選取的聚類中心相同時,如在Seeds數(shù)據(jù)集改進的DPC算法和DPC算法都是取第29、92、183樣本點作為聚類中心,但是聚類指標優(yōu)于DPC算法,表明本文提出改進的分配策略在分配剩余數(shù)據(jù)點時更準確。
表2 UCI數(shù)據(jù)集在各個算法的評價指標
為了驗證本文所提軟測量建模方法的有效性,對硫回收裝置(sulfur recovery unit,SRU)中H2S濃度進行軟測量建模。SRU裝置用于含硫氣體排入大氣前硫的回收,以此來保護生態(tài)環(huán)境,其裝置如圖2所示。其裝置主要處理酸性氣體:一種是H2S氣體(也稱MEA氣體),另一種為來自含硫污水汽提設(shè)備(SWS)的氣體,其中富含H2S、NH3氣體(也稱為SWS氣體)。主要燃燒室在具有充足空氣(AIR_MEA)時充分燃燒MEA氣體,另一個燃燒室用于處理SWS氣體,其進入的空氣AIR_SWS[14]。其過程與H2S濃度有關(guān)的5個變量作為輔助變量用于軟測量建模。從SRU裝置過程數(shù)據(jù)中選取1 200組數(shù)據(jù),其中2/3作為訓練集,1/3作為測試集。
圖2 硫回收裝置
為了進一步對比分析本文所提建模方法的預測性能,將不同的聚類方法和融合方式進行組合。方法1為DPC-GPR-Bayesian方法,方法2為改進的DPC-GPR-開關(guān)切換(即新測試樣本,到聚類中心最近的子模型對當前樣本預測輸出),方法3為本文提出的方法即改進的DPC-GPR-bayesian。使用均方根誤差(RMSE)和跟蹤性能指標(TP)作為模型的性能評價指標:
(21)
(22)
圖3為改進的DPC算法和DPC算法對SRU數(shù)據(jù)訓練樣本聚類的決策圖。
(a)改進的DPC算法決策圖
改進的DPC算法參數(shù)k為45,DPC算法的參數(shù)為2(即dc取所有數(shù)據(jù)點的相互距離dij(i,j=1,2,…,n;i≠j)由小到大排序后2%位置的數(shù)值)。從圖3可以看出,2種算法都取4個聚類中心,但聚類中心不同,改進的DPC算法選取第455、797、189、559樣本點作為聚類中心,每類個數(shù)分別為339、254、69、14,DPC算法選取第91、797、189、588樣本點作為聚類中心,每類個數(shù)分別為343、251、69、141。使用Silhouette[15]指標對2個聚類算法進行評價,指標值越大說明類內(nèi)緊密程度越高,類間可分性越大,即聚類效果越好。改進的DPC算法Silhouette指標為0.731 3,優(yōu)于DPC算法的0.730 1,說明在SRU數(shù)據(jù)上改進的DPC算法聚類效果優(yōu)于DPC算法。
圖4為3種軟測量方法對SRU裝置中的H2S濃度的預測值和真實值對比曲線,可以看出,方法2的預測效果較差,跟蹤能力較弱,方法1和方法3的預測效果相近,預測效果比較好,跟蹤性能更強。
(a)DPC-GPR-Bayesian方法預測結(jié)果
表3為3種方法預測結(jié)果的性能指標。
表3 不同建模方法的性能指標
圖5為3種軟測量建模方法對SRU裝置中H2S濃度的預測的誤差圖。通過對比表3和圖5可以看出,相對于開關(guān)切換方式,基于子模型預測性能的貝葉斯自適應融合方法可以有效地計算新來樣本隸屬各個子模型的權(quán)值,得到更加準確的預測值。相對于DPC算法,改進的DPC算法得到的子數(shù)據(jù)集具有較好的聚類結(jié)構(gòu),使得所建模型的預測結(jié)果更好。對于RMSE和TP指標,本文方法建立模型的預測誤差均比其他方法更佳,能夠?qū)RU裝置中H2S濃度進行有效預測。
圖5 H2S濃度預測的誤差
針對具有多工況、非線性的復雜工業(yè)生產(chǎn)過程,本文提出了基于改進密度峰值聚類的多模型軟測量建模方法。利用K近鄰算法和加權(quán)K近鄰算法對DPC算法進行改進,避免截斷距離人為選擇的不足和局部密度計算方式受數(shù)據(jù)集大小的影響,并解決了剩余點分配連環(huán)錯誤的問題;同時,利用基于子模型預測性能并結(jié)合即時學習自適應地計算出新樣本隸屬于各個子模型的后驗概率,以此為權(quán)值融合各個GPR子模型,最終得到較準確的預測結(jié)果。仿真結(jié)果表明,本文提出的建模方法取得較好的預測效果。