李 東, 劉乙奇, 黃道平
(華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,廣州 510641)
在工業(yè)生產(chǎn)領(lǐng)域,由于生產(chǎn)過程的復(fù)雜性,存在大量的難以測(cè)量或不易檢測(cè)的重要參數(shù)。針對(duì)這一問題,軟測(cè)量技術(shù)提供了一個(gè)有效的解決方案[1-3]。近年來,軟測(cè)量技術(shù)廣泛應(yīng)用于單輸出系統(tǒng)的預(yù)測(cè),對(duì)多輸出預(yù)測(cè)模型的研究極少[4]。然而,在復(fù)雜的生產(chǎn)過程中,急需對(duì)多個(gè)難以測(cè)量的重要參數(shù)進(jìn)行同時(shí)預(yù)測(cè)[5-6]。在眾多的軟測(cè)量建模方法中,目前常用的軟測(cè)量建模方法有基于機(jī)理建模的方法、基于數(shù)據(jù)驅(qū)動(dòng)建模的方法以及兩者相結(jié)合的混合建模方法[7]。基于機(jī)理建模的方法需要掌握生產(chǎn)過程的詳細(xì)信息和生化反應(yīng)原理,對(duì)于復(fù)雜的工業(yè)生產(chǎn)過程而言獲取較為困難,使得建立相應(yīng)的機(jī)理模型變得極為不易?;跀?shù)據(jù)驅(qū)動(dòng)建模的方法則只需要通過一些已知的數(shù)據(jù)以及這些數(shù)據(jù)的內(nèi)在聯(lián)系構(gòu)建軟測(cè)量模型,因此,基于數(shù)據(jù)驅(qū)動(dòng)的建模方法得到了廣泛的關(guān)注[8-9]。
在實(shí)際的工業(yè)過程中,受到現(xiàn)有技術(shù)和生產(chǎn)環(huán)境的束縛,很多情況下已標(biāo)記樣本數(shù)量有限,如何充分使用未標(biāo)記樣本來提升模型質(zhì)量成為當(dāng)務(wù)之急。為解決這一難題,Shahshahani 等[10]首次提出了半監(jiān)督學(xué)習(xí)的思想,并成功應(yīng)用于軟測(cè)量建模[11-13]。半監(jiān)督學(xué)習(xí)方法利用少量的標(biāo)記樣本構(gòu)建模型,然后通過未標(biāo)記樣本訓(xùn)練模型,提高模型質(zhì)量。然而,在訓(xùn)練過程中,由于無法剔除錯(cuò)誤的未標(biāo)記數(shù)據(jù),導(dǎo)致錯(cuò)誤累積,影響模型的預(yù)測(cè)能力。為挑選合適的未標(biāo)記數(shù)據(jù)訓(xùn)練模型,Blum 等[14]提出了協(xié)同訓(xùn)練算法,通過兩個(gè)相互獨(dú)立的回歸模型,采用交叉驗(yàn)證的方法挑選數(shù)據(jù),訓(xùn)練模型。
為了提高多輸出模型中數(shù)據(jù)選擇的正確性,本文提出了一種新的軟測(cè)量模型——Tri-training MPLS模型。該模型通過3 個(gè)具有不同特征的回歸模型對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行驗(yàn)證,挑選出置信度最高的未標(biāo)記數(shù)據(jù)訓(xùn)練模型,建立更準(zhǔn)確的軟測(cè)量模型。此外,該模型能夠?qū)Χ鄠€(gè)難測(cè)量變量進(jìn)行同步預(yù)測(cè),提高了預(yù)測(cè)效率。通過污水處理仿真模型BSM1 平臺(tái)驗(yàn)證,結(jié)果表明,當(dāng)標(biāo)記樣本的比例較少時(shí),Tri-training M PLS 模型具有更好的預(yù)測(cè)性能。
MPLS 算法是在PLS 算法框架上的多數(shù)擴(kuò)展,不同之處在于輸出數(shù)據(jù)Y 由原來的單列向量轉(zhuǎn)化成了多輸出矩陣。數(shù)學(xué)過程如下:
其中: X ∈Rn×m和 Y ∈Rn×l分別為輸入和輸出矩陣, n為數(shù)據(jù)集的個(gè)數(shù), m 為輸入變量的個(gè)數(shù), l 為輸出變量的個(gè)數(shù); T ∈Rn×a和 U ∈Rn×a分別是X 和Y 的得分矩陣,a 表示潛在的變量個(gè)數(shù); th為T 的第 h 行; uh為 U 的第 h 行; P(a×m) 和 Q(a×l) 為加載矩陣; ph是 P 的第 h 行; qh是Q 的第h 行;E 和F 為噪聲矩陣 。 uh和 th之間的關(guān)系如下:
其中: bh為X 空間主元t 和Y 空間主元u 的內(nèi)部相關(guān) 關(guān) 系的回歸 系 數(shù); U=TB , B ∈Ra×a表示回 歸 矩陣。因此,X 和Y 之間的關(guān)系可以表示為 Y=TBQ+F 。
MPLS 是一種常見的多元統(tǒng)計(jì)分析方法,不僅可以減少數(shù)據(jù)的維度,還可以建立預(yù)測(cè)模型,是解決工業(yè) 過程中數(shù)據(jù)預(yù)測(cè)問題的有力工具[15-16]。
其中: xi∈L 為標(biāo)記輸入數(shù)據(jù); yi∈L 為標(biāo)記輸出數(shù)據(jù);L 為標(biāo)記樣本集, | L| 為樣本集大??; h 為原始回歸 模型; h′為 加 入 新的 標(biāo)記 數(shù)據(jù) xu后產(chǎn) 生的 回歸模型。
協(xié)同訓(xùn)練回歸根據(jù)協(xié)同訓(xùn)練的思想建立兩個(gè)相互獨(dú)立的初始模型,在驗(yàn)證過程中,采用交叉驗(yàn)證的方式,減少對(duì)錯(cuò)誤數(shù)據(jù)的選擇。當(dāng)達(dá)到最大迭代次數(shù)時(shí),由最終的標(biāo)記樣本集建立模型 h1和 h2,預(yù)測(cè)值由兩者的均值決定:
式中: hi、 hj、 hk是3 個(gè)獨(dú)立的回歸模型。
在多輸出系統(tǒng)下,輸出數(shù)據(jù) y 由原來的單列向量變?yōu)槎嗔芯仃嚕礁`差(RMSSD)的求解公式如 下:
式中:trace 是矩陣的跡。
當(dāng)達(dá)到最大迭代次數(shù)時(shí),由最終的標(biāo)記樣本集建 立模型 h1、 h2、 h3,預(yù)測(cè)值由三者的均值決定:
Tri-training MPLS 模 型 的 核 心 是 將Tri-training算法和MPLS 算法相結(jié)合生成對(duì)多輸出系統(tǒng)的軟測(cè)量模型。其優(yōu)勢(shì)在于,首先,由上述的置信度判斷依據(jù)選擇正確性更高的未標(biāo)記數(shù)據(jù),模型的預(yù)測(cè)效果更好;其次,通過標(biāo)記數(shù)據(jù)集建立3 個(gè)相互獨(dú)立的回歸模型,使得預(yù)測(cè)模型具有廣泛性;最后,Tri-training MPLS 模型能夠同時(shí)對(duì)多個(gè)輸出變量預(yù)測(cè),極大地提高了預(yù)測(cè)的效率和模型的整體性。
Tri-training PLS 模 型 的 具 體 過 程 如 下:設(shè)L={X,Y}={(x1,y1),(x2,y2),···,(x|L|,y|L|)} 表 示 標(biāo) 記 數(shù)據(jù)集, | L| 表示標(biāo)記數(shù)據(jù)集個(gè)數(shù), U 是未標(biāo)記數(shù)據(jù)集,|U| 表示未標(biāo)記數(shù)據(jù)集個(gè)數(shù)。首先,將L 平均分成3 部分,記為L(zhǎng)1、L2、L3,將L1、L2、L3與傳統(tǒng)的偏最小二乘算法結(jié)合生成相互獨(dú)立的3 個(gè)回歸模型P1、P2、P3。然后,取未標(biāo)記數(shù)據(jù)集U 中的數(shù)據(jù) xu,分別代入到P1、P2、P3中計(jì)算回歸量。在學(xué)習(xí)過程中,用其中兩個(gè)回歸量的均值來更新另一個(gè)標(biāo)記樣本集。隨著迭代的進(jìn)行,該過程不僅不斷地建立3 個(gè)相互獨(dú)立的回歸模型,而且在差異越來越大的回歸量上更新標(biāo)記數(shù)據(jù)集。為了選取合適的未標(biāo)記數(shù)據(jù),利用上述方法估計(jì)未標(biāo)記數(shù)據(jù)的置信度,然后對(duì)滿足置信條件的未標(biāo)記數(shù)據(jù)計(jì)算回歸量,將兩個(gè)回歸量的均值作為新的標(biāo)記數(shù)據(jù)放入另一個(gè)標(biāo)記樣本集中。最后,由新的標(biāo)記樣本集L1、L2、L3建立新的模型h1、h2、h3,通過求取3 者均值作為最終的預(yù)測(cè)值。Tritraining MPLS 的詳細(xì)流程如下:
輸入: 標(biāo)記樣本集L (包含輸入變量 xl和輸出變量 y ),未標(biāo)記樣本集U(僅包含輸入 xu),測(cè)試樣本集P,最大迭代次數(shù)T
過程:
進(jìn)行T 次迭代:
然后 U=U ?xn
U=U
否則
πj=?
End of for
Lj=Lj∪πj
達(dá)到最高迭代次數(shù),結(jié)束迭代
輸出新的標(biāo)記樣本集 L1、 L2and L3
for j ∈{1,2,3} do
hj=pls(Lj)
end of for
驗(yàn)證模型預(yù)測(cè)能力:
為比較Co-training MPLS 模型和Tri-training MPLS模型算法的復(fù)雜性,圖1 示出了兩種模型的流程圖。由圖1 可知,兩種模型的算法都被分為訓(xùn)練環(huán)節(jié)和測(cè)試環(huán)節(jié)兩部分,不同之處在于訓(xùn)練環(huán)節(jié)中,Cotraining MPLS 模型將標(biāo)記數(shù)據(jù)均分為兩部分,由兩組標(biāo)記數(shù)據(jù)子集同時(shí)評(píng)價(jià)未標(biāo)記數(shù)據(jù)的置信度。而Tri-training MPLS 算法是將標(biāo)記數(shù)據(jù)三等分,有3 組標(biāo)記數(shù)據(jù)子集同時(shí)評(píng)價(jià)未標(biāo)記數(shù)據(jù)的置信度,并選擇置信度較高的未標(biāo)記數(shù)據(jù)加入到標(biāo)記數(shù)據(jù)集中。3 個(gè)相互獨(dú)立的標(biāo)記樣本子集同時(shí)訓(xùn)練,避免了因單個(gè)數(shù)據(jù)級(jí)判斷錯(cuò)誤而影響選擇的質(zhì)量,致使錯(cuò)誤累積,最終導(dǎo)致預(yù)測(cè)結(jié)果較差。從算法復(fù)雜度的角度分析,無論是2 組標(biāo)記子集還是3 組標(biāo)記子集,訓(xùn)練過程是一致的,只是Tri-training MPLS 算法的訓(xùn)練時(shí)間會(huì)相對(duì)較長(zhǎng)。
為了評(píng)價(jià)Tri-training MPLS 模型的預(yù)測(cè)性能,采用傳統(tǒng)的均方根誤差(RMSE)和D 值指標(biāo)評(píng)價(jià),定義如下:
污水處理仿真模型BSM1 平臺(tái)的設(shè)備布局如圖2 所示,由一個(gè)生物反應(yīng)器(5999m3)和一個(gè)二次沉淀池(深4 m,10 層,6000 m3)組成。生物反應(yīng)器包含5 個(gè)混合小單元,前2 個(gè)單元(每個(gè)1000m3)為非曝氣的,后3 個(gè)單元(每個(gè)1333m3)為曝氣的。處理污水的平均流量為20000m3/d,可生物降解的化學(xué)需氧量(COD)的平均質(zhì)量濃度為300 mg / L。為了去除有機(jī)物,需要進(jìn)行硝化和反硝化反應(yīng)[20-21]。
圖1Co-training MPLS(a)和Tri-training MPLS(b)模型的流程圖Fig.1Flow chart of Co-training MPLS (a) and Tri-training MPLS (b) models
圖2BSM1 平臺(tái)設(shè)備布局示意圖Fig.2Schematic diagram of BSM1 platform equipment layout
仿真過程中,共納入了15 個(gè)輸入變量和5 個(gè)輸出變量,詳細(xì)的變量信息如表1 所示。本案例的研究目的是驗(yàn)證Tri-training MPLS 模型對(duì)SS-E、SNH-E、SNO-E、COD-E 和BOD5-E 等不易測(cè)量變量的預(yù)測(cè)性能。每隔15 min 對(duì)各個(gè)變量采樣一次,模擬14 d,共1344組數(shù)據(jù)。分別將第1 天、第2 天、…、第7 天的樣本作為已標(biāo)記數(shù)據(jù)集,剩余部分作為未標(biāo)記數(shù)據(jù)集,最大學(xué)習(xí)次數(shù)設(shè)置為5 次。最后,用剩余7 d的數(shù)據(jù)作為測(cè)試樣本集,對(duì)模型進(jìn)行測(cè)試。
圖3 示出了標(biāo)記樣本為4 d 時(shí)兩種模型的預(yù)測(cè)曲線和D 值??梢钥闯?,Co-training MPLS 模型和Tri-training MPLS 模型均能夠同時(shí)對(duì)多個(gè)輸出變量進(jìn)行預(yù)測(cè),且預(yù)測(cè)效果良好,尤其是對(duì)污水排放指標(biāo)中的重要參數(shù)BOD5-E 的預(yù)測(cè),RMSE 值分別達(dá)到了0.08 和0.07,預(yù)測(cè)曲線與真實(shí)值基本一致,其他具體參數(shù)見表2。MPLS 算法作為一種線性建模方法,顯然對(duì)于波動(dòng)較大的輸出數(shù)據(jù)的預(yù)測(cè)性能較差,特別是預(yù)測(cè)曲線中的峰值點(diǎn)和谷值點(diǎn),都沒有達(dá)到良好的預(yù)測(cè)結(jié)果。
圖4 示出了輸出變量RMSE 值的變化曲線圖。通過表2 和圖4分析,當(dāng)標(biāo)記數(shù)據(jù)所占天數(shù)僅為1 d時(shí),Tri-training MPLS 模型中的SS-E、SNO-E、COD-E和BOD5-E 的RSME 值 均 小于Co-training MPLS 模型的RSME 值。因此,在標(biāo)記數(shù)據(jù)極少的情況下,Tri-training MPLS 模型對(duì)于污水處理過程中的重要指標(biāo)參數(shù)的預(yù)測(cè)能力優(yōu)于Co-training MPLS 模型。但觀察發(fā)現(xiàn),在標(biāo)記數(shù)據(jù)為1 d 時(shí)COD-E 的Cotraining MPLS模 型 和 Tri-training MPLS 模 型 的RSME 值分別為257.12 和64.37,明顯偏大。隨著標(biāo)記數(shù)據(jù)所占天數(shù)的增加,各個(gè)輸出變量的RMSE 值均在減小,尤其是COD-E 的RSME 值由257.12 和64.37 迅速減小到2.49 和2.50。這說明當(dāng)標(biāo)記樣本較少時(shí),對(duì)于波動(dòng)較大的輸出變量,Co-training MPLS 模型和Tri-training MPLS 模型需要通過少量的標(biāo)記數(shù)據(jù)將建立2 個(gè)或者3 個(gè)回歸模型,導(dǎo)致模型不準(zhǔn)確,預(yù)測(cè)表現(xiàn)不佳。當(dāng)標(biāo)記數(shù)據(jù)充足時(shí),兩個(gè)模型均能通過標(biāo)記數(shù)據(jù)建立更準(zhǔn)確的預(yù)測(cè)模型,并且通過未標(biāo)記數(shù)據(jù)訓(xùn)練模型,對(duì)多個(gè)輸出變量進(jìn)行精
準(zhǔn)的預(yù)測(cè)。綜上所述,在僅僅具有少量的標(biāo)記數(shù)據(jù)情況下,Tri-training MPLS模型對(duì)多個(gè)輸出變量的預(yù)測(cè)效果優(yōu)于Co-training MPLS 模型;當(dāng)標(biāo)記數(shù)據(jù)增多時(shí),兩種模型的預(yù)測(cè)表現(xiàn)差別不大。
表1BSM1 平臺(tái)中的變量Table1Variables of the BSM1 platform
圖3兩種模型的預(yù)測(cè)曲線和DFig.3Prediction curves and D of two models
表2輸出變量的RSME 值Table2RMSE values of output variables
圖4不同標(biāo)記樣本率下的RMSE 變化曲線Fig.4RMSE curves under different labeled data rates
表3 列出了兩種模型在不同標(biāo)記樣本率下的時(shí)間消耗對(duì)比結(jié)果。無論是Co-training MPLS 模型還是Tri-training MPLS 模型,隨著標(biāo)記樣本率的增加,時(shí)間消耗也在增加。在相同的標(biāo)記樣本率下,Tri-training MPLS 模 型的 時(shí)間 消耗 相對(duì) 于Co-training MPLS 模型有所增長(zhǎng),這主要是因?yàn)? 組標(biāo)記數(shù)據(jù)子集的訓(xùn)練要比2 組費(fèi)時(shí),但是Tri-training MPLS 模型的預(yù)測(cè)結(jié)果較好。
表3不同的標(biāo)記樣本率下的時(shí)間消耗Table3Time consumption under different labeled data rate
針對(duì)多輸出系統(tǒng)中的軟測(cè)量建模問題,當(dāng)輸入和輸出數(shù)據(jù)嚴(yán)重不平衡時(shí),本文提出了一種新的軟測(cè)量模型?Tri-training MPLS 模型。通過污水處理仿真模型BSM1 平臺(tái)的仿真研究,驗(yàn)證了模型的有效性。仿真結(jié)果表明,雖然Tri-training MPLS 模型在預(yù)測(cè)時(shí)間上相較于Co-training MPLS 模型有一定的滯后,但在預(yù)測(cè)效果上卻有明顯的提升,尤其是對(duì)重要的出水指標(biāo)COD-E,其RSME 值比Co-training MPLS 模型平均減小26.46。該模型為多輸出系統(tǒng)中難以測(cè)量的變量預(yù)測(cè)問題提供了一個(gè)有效的解決方法。然而,不難發(fā)現(xiàn),模型對(duì)于峰值點(diǎn)和谷值點(diǎn)的預(yù)測(cè)效果不佳。在實(shí)際的工業(yè)生產(chǎn)過程中,也會(huì)存在著正常波動(dòng)和離群點(diǎn),影響模型的預(yù)測(cè)表現(xiàn)。針對(duì)這一問題,下一步的研究會(huì)將Tri-training 算法與非線性的多輸出回歸算法結(jié)合,并且,在建模之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以降低因數(shù)據(jù)波動(dòng)對(duì)預(yù)測(cè)表現(xiàn)造成的影響。