宋 留,楊 沖,張 輝,劉鴻斌,2* (.南京林業(yè)大學(xué)林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇 南京 20037;2.華南理工大學(xué)制漿造紙工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 50640)
制漿造紙工業(yè)是國(guó)民經(jīng)濟(jì)的重要支柱產(chǎn)業(yè)之一,但又是高能耗、高污染的行業(yè),是國(guó)家進(jìn)行節(jié)能、節(jié)材、綜合利用、減少污染物排放的重點(diǎn)行業(yè).在造紙污水處理過程中由于在線測(cè)量傳感器的缺乏或者受成本,使用壽命等限制,一些與出水水質(zhì)指標(biāo)相關(guān)的關(guān)鍵參數(shù)難以獲得,并且這些參數(shù)對(duì)于出水指標(biāo)的控制及過程的優(yōu)化起著重要的作用,是造紙污水處理中必須監(jiān)測(cè)的變量[1].針對(duì)這個(gè)問題,軟測(cè)量技術(shù)已經(jīng)被廣泛地應(yīng)用于工廠來預(yù)測(cè)關(guān)鍵的,難以測(cè)量的過程變量.目前的軟測(cè)量技術(shù)包含現(xiàn)代統(tǒng)計(jì)分析、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯、神經(jīng)模糊系統(tǒng)、遺傳算法以及它們相互融合的混合方法,這些技術(shù)在許多領(lǐng)域取得了較好的應(yīng)用效果[2].因此,對(duì)污水處理過程進(jìn)行軟測(cè)量建模,為造紙污水工藝參數(shù)或出水指標(biāo)的實(shí)時(shí)檢測(cè)提供了經(jīng)濟(jì)可靠的方法.
軟測(cè)量模型是軟測(cè)量技術(shù)的核心,其建模方法按照建模機(jī)制可分為機(jī)理型與數(shù)據(jù)驅(qū)動(dòng)型.但實(shí)際中即使是一般對(duì)象的反應(yīng)機(jī)理都比較復(fù)雜,以及受到工況與環(huán)境的影響,機(jī)理模型難以滿足建模需要.而數(shù)據(jù)驅(qū)動(dòng)模型不必研究對(duì)象的內(nèi)部規(guī)律,只需獲得足夠多的數(shù)據(jù)就可建立對(duì)象的軟測(cè)量模型.數(shù)據(jù)驅(qū)動(dòng)模型有回歸分析模型、人工智能模型、統(tǒng)計(jì)學(xué)習(xí)理論模型及概率核函數(shù)模型等.回歸分析建模有多元線性回歸(MLR)[3-4],主成分回歸(PCR)[5],偏最小二乘(PLS)[6],通過建立多個(gè)變量間的函數(shù)關(guān)系建立模型,但局限于非線性較弱的對(duì)象.人工智能模型主要是人工神經(jīng)網(wǎng)絡(luò)[7-8],人工神經(jīng)網(wǎng)絡(luò)(ANN)建模憑借其優(yōu)秀的非線性擬合表現(xiàn),在污水處理中受到廣泛關(guān)注,但神經(jīng)網(wǎng)絡(luò)存在過擬合和健忘問題,并且權(quán)值不易在線調(diào)整.
基于概率核函數(shù)的高斯過程[9-12](GP)是一個(gè)隨機(jī)過程,適用于處理小樣本、非線性、高維數(shù)等復(fù)雜的回歸問題,是近些年新發(fā)展的一種機(jī)器學(xué)習(xí)方法.目前已有研究將高斯過程用于工業(yè)聚丙烯生產(chǎn)過程中熔融指數(shù)的預(yù)測(cè)[9],風(fēng)電場(chǎng)的風(fēng)速預(yù)測(cè)[13],機(jī)器人裝配過程的搜索優(yōu)化[14]以及降低機(jī)器人軌跡的跟蹤
誤差[15]等領(lǐng)域,但在廢水處理的軟測(cè)量建模預(yù)測(cè)上應(yīng)用較少.針對(duì)造紙廢水處理過程以及各種軟測(cè)量模型的特點(diǎn),采用平方指數(shù)協(xié)方差函數(shù)、線性協(xié)方差函數(shù)、周期性協(xié)方差函數(shù)以及這 3種協(xié)方差函數(shù)的組合函數(shù)構(gòu)建了7種協(xié)方差函數(shù)的高斯過程回歸(GPR)模型對(duì)出水化學(xué)需氧量(COD)和出水懸浮固形物(SS)濃度進(jìn)行回歸預(yù)測(cè),并與3種線性回歸模型和ANN模型進(jìn)行對(duì)比.
1.1 GPR建模原理
GPR是一種非參數(shù)回歸方法,該方法將一個(gè)未知的目標(biāo)變量通過一個(gè)或多個(gè)已知的輸入變量的狀態(tài)函數(shù)來表示.參數(shù)回歸方法如上述的MLR、PCR等用指定的函數(shù)替換訓(xùn)練數(shù)據(jù),并對(duì)其參數(shù)進(jìn)行調(diào)整,從而對(duì)函數(shù)輸出進(jìn)行優(yōu)化.參數(shù)化方法在獲得回歸權(quán)值之后,最初的訓(xùn)練數(shù)據(jù)可能會(huì)被丟棄,輸出結(jié)果可能是一個(gè)平均值或出現(xiàn)過擬合問題.相比之下,非參數(shù)方法使用原始數(shù)據(jù)構(gòu)建回歸函數(shù)的模型,通過對(duì)比測(cè)試集輸入端數(shù)據(jù)到訓(xùn)練集輸入端數(shù)據(jù)的距離來估計(jì)測(cè)試點(diǎn)的輸出值[16].特別地,GPR模型的局部加權(quán)形式由協(xié)方差函數(shù)與在模型訓(xùn)練中的超參數(shù)定義.
GPR對(duì)于建模預(yù)測(cè)的優(yōu)點(diǎn):GPR模型的函數(shù)預(yù)測(cè)只和協(xié)方差函數(shù)有關(guān),因此適用于處理變量之間的關(guān)系不能被直觀理解的高維數(shù)據(jù);GPR模型可以根據(jù)數(shù)據(jù)維度來改變局部權(quán)重函數(shù)的寬度,并通過輸入變量之間的相關(guān)性提供模型對(duì)變量的解釋能力;相較于參數(shù)模型對(duì)于變量特性的依賴,GPR更依賴于數(shù)據(jù)并且對(duì)變量特性的變化表現(xiàn)具備更好的魯棒性,這一優(yōu)點(diǎn)使GPR模型在造紙污水處理過程中,即使某一測(cè)量裝置發(fā)生故障時(shí),仍能穩(wěn)定預(yù)測(cè);GPR模型的另一個(gè)優(yōu)點(diǎn)是其固有的概率性質(zhì),在建模預(yù)測(cè)過程中,既能得到模型的預(yù)測(cè)輸出也能得到置信區(qū)間,置信區(qū)間可用于判斷訓(xùn)練模型的預(yù)測(cè)輸出是否合理.
高斯過程是具有聯(lián)合高斯分布的任意有限數(shù)量的隨機(jī)變量集合,是由均值函數(shù) m(x)和協(xié)方差函數(shù)k(x,x′)完全決定的,當(dāng)輸入值變化時(shí),目標(biāo)變量的期望值的變化由協(xié)方差函數(shù)定義.其中,均值函數(shù)與協(xié)方差函數(shù)如下所示[17]:
高斯過程定義為
為了表達(dá)的符號(hào)簡(jiǎn)潔,通常讓均值函數(shù)為 0.對(duì)于一個(gè)訓(xùn) 練 集 X ∈Rn×m和y ∈ Rn,輸入 的 樣本 數(shù) 據(jù)是m維是輸出的樣本數(shù)據(jù),考慮到含噪聲,可建立高斯過程回歸問題的一般模型:
式中ω為獨(dú)立的高斯白噪聲,均值為 0,方差為 σ2,記為得到觀測(cè)值y的先驗(yàn)分布為
1.1.1 協(xié)方差函數(shù) 協(xié)方差函數(shù)是高斯過程回歸預(yù)測(cè)的關(guān)鍵,假設(shè)函數(shù) f1與 f2符合獨(dú)立的高斯先驗(yàn),則滿足f = f1+f2~GP(μ1+μ2, k1+k2),即協(xié)方差函數(shù)的性質(zhì),兩個(gè)協(xié)方差函數(shù)之和仍是一個(gè)協(xié)方差函數(shù).
該性質(zhì)可用于合并兩個(gè)及兩個(gè)以上具有不同特性的協(xié)方差函數(shù).Duvenaud指出對(duì)協(xié)方差函數(shù)進(jìn)行求和操作可視為邏輯運(yùn)算函數(shù)中的“或”運(yùn)算[18],即兩個(gè)點(diǎn)取最優(yōu).即使是基本協(xié)方差函數(shù)的組合也能捕獲到數(shù)據(jù)之間的復(fù)雜關(guān)系,這是簡(jiǎn)單的參數(shù)回歸模型所沒有的優(yōu)點(diǎn),因此組合型協(xié)方差函數(shù)較單一的協(xié)方差函數(shù)有更好適應(yīng)性.本文基于此特點(diǎn),研究平方指數(shù)協(xié)方差函數(shù)、線性協(xié)方差函數(shù)和周期性協(xié)方差函數(shù)3種協(xié)方差函數(shù)的合并組合的功能,來確定最適合本實(shí)驗(yàn)研究模型的協(xié)方差函數(shù)[19].其中,平方指數(shù)協(xié)方差函數(shù)的表示如下
用矩陣表示為
式中:矩陣P=diag(l2),參數(shù)l是尺度方差,為信號(hào)方差.
線性協(xié)方差函數(shù)的參數(shù)化表示為
周期性協(xié)方差函數(shù)的參數(shù)化表示為
上式(9)可表示為:
因此,式(12)用矩陣表示則為
在測(cè)試集輸入、訓(xùn)練集輸入、訓(xùn)練目標(biāo)輸出、協(xié)方差函數(shù)以及相關(guān)的超參數(shù)確定后對(duì)GPR模型進(jìn)行訓(xùn)練,根據(jù)目標(biāo)輸出值的條件分布,得到模型的預(yù)測(cè)輸出.均值函數(shù)和目標(biāo)值的后驗(yàn)分布方差將分別生成預(yù)測(cè)值和置信區(qū)間.
表1給出了上述3種協(xié)方差函數(shù)以及它們的組合形式.其中,SE表示平方指數(shù)協(xié)方差函數(shù),L表示線性協(xié)方差函數(shù),PER表示周期性協(xié)方差函數(shù),SE+L表示平方指數(shù)與線性協(xié)方差函數(shù)的組合函數(shù),SE+PER表示平方指數(shù)與周期性協(xié)方差函數(shù)的組合函數(shù),L+PER表示線性與周期性協(xié)方差函數(shù)的組合函數(shù),SE+L+PER表示3種簡(jiǎn)單協(xié)方差函數(shù)的組合函數(shù).
表1 協(xié)方差函數(shù)的7種組合Table 1 Combinations of covariance functions
2.1 廢水?dāng)?shù)據(jù)的收集與處理
廢水?dāng)?shù)據(jù)[8]采集自廣東東莞的一家造紙廠廢水處理車間,測(cè)量數(shù)據(jù)顯示了好氧段廢水的工況.如圖 1所示,數(shù)據(jù)包含170個(gè)樣本點(diǎn),8個(gè)廢水變量,右側(cè)縱坐標(biāo)表示進(jìn)水COD與進(jìn)水SS的變量值.解釋變量分別是出水化學(xué)需氧量(COD),進(jìn)水懸浮固形物(SS),溶解氧(DO),流量(Q),溫度(T),pH值;其中,輸出變量為出水COD和出水SS.在MATLAB中分析處理該170個(gè)樣本數(shù)據(jù),選取120個(gè)樣本數(shù)據(jù)作為訓(xùn)練集,50個(gè)數(shù)據(jù)作為測(cè)試集.
圖1 造紙廢水處理過程數(shù)據(jù)Fig.1 Papermaking wastewater treatment process data
2.2 典型模型及其結(jié)果分析
MLR、PCR和 PLS的數(shù)據(jù)分析可以使用MATLAB的PLS Toolbox.有關(guān) MLR、PCR、PLS和ANN的方法原理參考文獻(xiàn)[3-8,20-21].圖2,圖3,圖4分別是 3種線性模型 MLR,PCR,PLS對(duì)出水 COD與出水 SS的建模預(yù)測(cè)結(jié)果,3種模型對(duì)出水 COD的預(yù)測(cè)結(jié)果中,RMSE在 4.35~5.85之間,r2在0.52~0.71之間,其中MLR與PLS的結(jié)果較為接近但優(yōu)于 PCR.在對(duì)出水 SS的模型預(yù)測(cè)時(shí),RMSE在0.73~0.97之間,r2在 0.44~0.77之間,且 3種線性模型的預(yù)測(cè)結(jié)果均較為接近.另外,由于線性模型因共線性問題要求數(shù)據(jù)樣本容量足夠大,在本案例分析中,3種模型均出現(xiàn)樣本測(cè)試集的預(yù)測(cè)效果優(yōu)于訓(xùn)練集的現(xiàn)象.
圖2 MLR的預(yù)測(cè)結(jié)果Fig.2 Prediction results of MLR
圖3 PCR的預(yù)測(cè)結(jié)果Fig.3 Prediction results of PCR
圖4 PLS的預(yù)測(cè)結(jié)果Fig.4 Prediction results of PLS
2.3 非線性ANN模型本文利用多輸入單輸出的雙隱含層 BP神經(jīng)網(wǎng)絡(luò)模型分別對(duì)出水COD和出水SS進(jìn)行建模預(yù)測(cè),其中輸入層節(jié)點(diǎn)數(shù)為6個(gè),輸出層節(jié)點(diǎn)數(shù)為1個(gè).對(duì)于隱含層節(jié)點(diǎn)數(shù),參考文獻(xiàn)[20]根據(jù)經(jīng)驗(yàn)公式式中:a和 b分別表示輸入層和輸出層節(jié)點(diǎn)數(shù),c表示 0~10之間的常數(shù).最終確定隱含層節(jié)點(diǎn)總數(shù)為 10,每個(gè)隱含層節(jié)點(diǎn)數(shù)為 5.圖 5是ANN模型對(duì)出水COD與出水SS的建模預(yù)測(cè)結(jié)果,可以看出非線性ANN的建模預(yù)測(cè)效果較3種線性模型效果較好,且并未出現(xiàn)測(cè)試集預(yù)測(cè)效果優(yōu)于訓(xùn)練集的情況.
圖5 ANN的預(yù)測(cè)結(jié)果Fig.5 Prediction results of ANN
2.4 GPR預(yù)測(cè)模型
圖6 GPR的預(yù)測(cè)結(jié)果Fig.6 Prediction results of GPR
對(duì)于 GPR模型的構(gòu)建,利用平方指數(shù)協(xié)方差函數(shù)、線性協(xié)方差函數(shù)、周期性協(xié)方差函數(shù)組合構(gòu)建了高斯過程的7種模型對(duì)出水COD和出水SS預(yù)測(cè)分析,預(yù)測(cè)結(jié)果的性能數(shù)據(jù)如表4與表5所示.結(jié)果表明組合協(xié)方差函數(shù)模型對(duì)出水COD的建模預(yù)測(cè)效果比單一的協(xié)方差函數(shù)模型的預(yù)測(cè)效果好.其中線性協(xié)方差函數(shù)與周期性協(xié)方差函數(shù)組合的GPR模型較單一平方指數(shù)協(xié)方差函數(shù)的 GPR模型,r2提升了17.8%,RMSE降低了18.7%.而對(duì)出水SS的預(yù)測(cè)結(jié)果表明, 含有線性協(xié)方差函數(shù)的GPR模型的預(yù)測(cè)效果均優(yōu)于含有周期性協(xié)方差函數(shù)的GPR模型.其中平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的GPR模型較單一的周期性協(xié)方差函數(shù)模型,r2提高了10 %.最優(yōu)GPR模型對(duì)出水COD與出水SS的預(yù)測(cè)結(jié)果如圖6所示.
2.5 結(jié)果分析
表2 基于MLR、PCR、PLS和ANN四種模型的出水COD預(yù)測(cè)性能指標(biāo)對(duì)比Table 2 Comparison of performance indices of effluent COD using MLR、PCR、PLS and ANN
本文采用均方根誤差(RMSE)和平方相關(guān)系數(shù)(r2)作為模型的評(píng)價(jià)指標(biāo),用以比較不同模型的預(yù)測(cè)精度.r2和RMSE的表達(dá)為:
表2至表5分別給出了不同模型對(duì)出水COD和出水SS兩個(gè)輸出變量的預(yù)測(cè)結(jié)果.從表2和表4中可以看出,在出水 COD的預(yù)測(cè)中,無論是對(duì)輸出變量的訓(xùn)練擬合還是預(yù)測(cè),GPR模型擬合效果均優(yōu)于非GPR模型:其中線性協(xié)方差函數(shù)與周期性協(xié)方差函數(shù)組合的GPR模型與ANN相比,r2提升了0.1901,RMSE降低了1.3588.從表3和表5中可以看出,在對(duì)出水SS的預(yù)測(cè)中,平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的 GPR模型相比于 ANN模型,r2提升了 0.2213,RMSE降低了0.1907.
相較于文獻(xiàn)[13-14]利用平方指數(shù)協(xié)方差函數(shù)與有理二次協(xié)方差函數(shù)的組合協(xié)方差GPR模型在風(fēng)電場(chǎng)的風(fēng)速預(yù)測(cè)及機(jī)器人裝配過程的搜索優(yōu)化的應(yīng)用.本文針對(duì)實(shí)際造紙污水處理過程的特點(diǎn),采用7種協(xié)方差函數(shù)對(duì)出水COD與出水SS建模預(yù)測(cè),找尋出水指標(biāo)的最優(yōu)預(yù)測(cè)模型.結(jié)果表明:組合協(xié)方差函數(shù)模型對(duì)出水COD的預(yù)測(cè)較單一協(xié)方差函數(shù)模型的預(yù)測(cè)誤差小,擬合程度高.而對(duì)于出水 SS,含有線性協(xié)方差函數(shù)的GPR模型的預(yù)測(cè)效果均優(yōu)于含有周期性協(xié)方差函數(shù)的GPR模型.
表3 基于MLR、PCR、PLS和ANN四種模型的出水SS預(yù)測(cè)性能指標(biāo)對(duì)比Table 3 Comparison of performance indices of effluent SS using MLR、PCR、PLS and ANN
表4 基于7種GPR模型的出水COD預(yù)測(cè)性能指標(biāo)對(duì)比Table 4 Comparison of performance indices of effluent COD using seven GPR models
表5 基于7種GPR模型的出水SS預(yù)測(cè)性能指標(biāo)對(duì)比Table 5 Comparison of performance indices of effluent SS using seven GPR models
3.1 本文通過建立線性回歸模型、非線性人工神經(jīng)網(wǎng)絡(luò)模型與基于概率核函數(shù)的GPR模型對(duì)造紙廢水處理過程中的重要出水指標(biāo)COD和SS的建模預(yù)測(cè)結(jié)果.結(jié)果表明,線性回歸模型與人工神經(jīng)網(wǎng)絡(luò)模型的建模預(yù)測(cè)效果均不如 GPR建模方法.GPR模型的預(yù)測(cè)均方根誤差以及離散程度都較小.其中對(duì)出水COD,線性協(xié)方差函數(shù)與周期性協(xié)方差函數(shù)組合的GPR模型與ANN相比,r2提高了30.4%,RMSE降低了 27.1%.在對(duì)出水 SS的預(yù)測(cè)中,平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的 GPR模型相比于 ANN模型, r2提高了38.5%,RMSE降低了19.8%.
3.2 對(duì)比 7種組合協(xié)方差模型的預(yù)測(cè)結(jié)果 ,最終確定線性協(xié)方差與周期性協(xié)方差函數(shù)的組合協(xié)方差模型能對(duì)出水COD實(shí)現(xiàn)最優(yōu)預(yù)測(cè);對(duì)于出水SS,線性協(xié)方差函數(shù)的GPR模型與平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的GPR模型的預(yù)測(cè)結(jié)果較優(yōu),但是考慮到組合協(xié)方差函數(shù)較單一協(xié)方差函數(shù)的優(yōu)點(diǎn),最終確定平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的GPR模型對(duì)出水SS進(jìn)行建模預(yù)測(cè).