姚怡帆,荊玉姝,王麗艷,劉長(zhǎng)青
(1.青島理工大學(xué)環(huán)境與市政工程學(xué)院,山東青島 266520;2.青島張村河水務(wù)有限公司,山東青島 266100)
在社會(huì)經(jīng)濟(jì)發(fā)展、人們生產(chǎn)及生活水平不斷提高的背景下,日益嚴(yán)格的污水處理標(biāo)準(zhǔn)與不斷創(chuàng)新的污水處理技術(shù)驅(qū)動(dòng)著污水處理廠(chǎng)的提標(biāo)改造。數(shù)字化的水務(wù)行業(yè)發(fā)展趨勢(shì)為污水處理廠(chǎng)的進(jìn)一步發(fā)展提供了全新的思路〔1〕,其中水質(zhì)預(yù)測(cè)作為污水處理廠(chǎng)數(shù)字化和智慧化的重要一環(huán),可以為解決水質(zhì)超低排放、節(jié)省能耗藥耗等問(wèn)題提供潛藏的有價(jià)值信息,有助于污水處理廠(chǎng)后期發(fā)展向“碳中和”目標(biāo)邁進(jìn)〔2〕。
由于傳感器的普及和信息技術(shù)的發(fā)展,污水處理廠(chǎng)大多應(yīng)用自動(dòng)化的方式對(duì)大量業(yè)務(wù)數(shù)據(jù)進(jìn)行采集和管理,在此背景下,研究人員借助由污水處理系統(tǒng)配套的檢測(cè)探頭所產(chǎn)生的水量、水質(zhì)與運(yùn)行數(shù)據(jù),嘗試對(duì)污水處理的復(fù)雜反應(yīng)過(guò)程進(jìn)行描述。Ying ZHAO等〔3〕利用人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)模型為中國(guó)哈爾濱某污水處理廠(chǎng)建立了原水水質(zhì)、能耗和出水水質(zhì)之間的關(guān)系,體現(xiàn)了ANN在模擬和預(yù)測(cè)出水水質(zhì)方面的可行性。柴偉等〔4〕利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的逼近能力建立污水處理系統(tǒng)出水BOD模型,結(jié)果表明該方法能有效預(yù)測(cè)出水BOD的上下限。
除上述單一模型,混合模型亦能對(duì)水處理方面數(shù)據(jù)進(jìn)行有效的分析學(xué)習(xí)。Xin WAN等〔5〕融合深度學(xué)習(xí)算法和高斯回歸挖掘造紙廢水處理中數(shù)據(jù)的信息,實(shí)現(xiàn)了對(duì)出水化學(xué)需氧量和懸浮物的點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)。Kang LI等〔6〕在預(yù)測(cè)污水處理廠(chǎng)出水氨氮濃度方面將灰色關(guān)聯(lián)分析(Grey relation analysis,GRA)和時(shí)間卷積網(wǎng)絡(luò)相結(jié)合,與4種單一模型相比,混合模型更穩(wěn)健。因?yàn)榛旌夏P湍芾貌煌绞饺诤隙喾N算法,彌補(bǔ)單一模型的不足、發(fā)揮各算法的優(yōu)勢(shì)、提供更可靠的預(yù)測(cè)結(jié)果〔7〕,所以逐漸成為水處理過(guò)程建模的研究熱點(diǎn)。
以青島某污水處理廠(chǎng)日常數(shù)據(jù)為基礎(chǔ),通過(guò)GRA選取影響出水總氮濃度變化的建模關(guān)鍵指標(biāo),采用目前在水環(huán)境領(lǐng)域預(yù)測(cè)性能較好的多種算法——長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long short-term memory networks,LSTM)、誤差反向傳播神經(jīng)網(wǎng)絡(luò)(Back propagation neural networks,BPNN)、支持向量機(jī)回歸(Support vector regression,SVR)、極限梯度提升(Extrme gradient boosting,XGBoost)、K近鄰(Knearest neighbor,KNN)對(duì)出水水質(zhì)指標(biāo)總氮(TN)進(jìn)行預(yù)測(cè),且通過(guò)Stacking集成方法對(duì)以上5種算法進(jìn)行融合,探索該模型在污水處理廠(chǎng)出水總氮濃度預(yù)測(cè)中的可行性。
本研究所用數(shù)據(jù)來(lái)源于青島市某污水處理廠(chǎng),因以預(yù)測(cè)出水總氮濃度為目標(biāo),故將出水總氮作為標(biāo)簽向量。不同于以往研究中僅利用進(jìn)水各項(xiàng)指標(biāo)建立出水預(yù)測(cè)模型〔8-9〕,考慮到污水處理過(guò)程復(fù)雜,最終出水水質(zhì)情況是多因素共同作用的結(jié)果,因此在建模過(guò)程中將水質(zhì)常規(guī)指標(biāo)和運(yùn)行操作情況均作為特征向量進(jìn)行考量,不僅能保證模型的應(yīng)用效果更加理想,也對(duì)污水處理廠(chǎng)具有一定的實(shí)踐意義。
以每日平均值為數(shù)據(jù)統(tǒng)計(jì)的時(shí)間顆粒度,自2020年9月1日至2022年2月28日共累計(jì)數(shù)據(jù)546組,數(shù)據(jù)包含污水處理廠(chǎng)運(yùn)行過(guò)程所監(jiān)測(cè)的各項(xiàng)指標(biāo):進(jìn)水的水質(zhì)水量指標(biāo)(COD、TN、NH4+-N、TP、SS、pH、水量)和各構(gòu)筑物運(yùn)行指標(biāo)(ORP、DO、MLSS、曝氣量、投藥量、回流比)。由于該污水處理廠(chǎng)各構(gòu)筑物水力停留時(shí)間合計(jì)約為24 h,因此設(shè)計(jì)模型時(shí)使用前一日的特征向量數(shù)據(jù)與當(dāng)日的標(biāo)簽向量數(shù)據(jù)相對(duì)應(yīng)。
從現(xiàn)場(chǎng)直接采集的數(shù)據(jù)受設(shè)備故障、操作失誤等影響,部分?jǐn)?shù)據(jù)可能存在異常和缺失。基于數(shù)據(jù)驅(qū)動(dòng)的建模方式對(duì)數(shù)據(jù)有極強(qiáng)的依賴(lài)性,為保證模型具有良好的預(yù)測(cè)性能,對(duì)輸入模型的數(shù)據(jù)進(jìn)行如下處理:
1)異常數(shù)據(jù)處理。采用拉依達(dá)準(zhǔn)則,各個(gè)特征向量將以均值μ為中心、3倍標(biāo)準(zhǔn)誤差σ外的數(shù)據(jù)舍去,以消除數(shù)據(jù)集中的粗大不合理誤差。
2)缺失數(shù)據(jù)處理。法定節(jié)假日期間,污水處理廠(chǎng)生化部分指標(biāo)數(shù)據(jù)由于化驗(yàn)不及時(shí)存在缺失,則對(duì)該天整條樣本進(jìn)行刪除。
3)數(shù)據(jù)標(biāo)準(zhǔn)化處理。在訓(xùn)練模型過(guò)程中,將所有特征數(shù)據(jù)的樣本值映射到[0,1]范圍內(nèi),可以消除不同指標(biāo)的量綱不一致對(duì)模型產(chǎn)生的影響,標(biāo)準(zhǔn)化處理如式(1)所示。
式中:X、Xmax和Xmin——特征向量中各項(xiàng)指標(biāo)的樣本值、最大值和最小值;
Xscale——特征向量中各項(xiàng)指標(biāo)的樣本值進(jìn)行標(biāo)準(zhǔn)化處理后所得數(shù)值。
546組數(shù)據(jù)經(jīng)處理后保留493組有效數(shù)據(jù)。為了盡可能降低數(shù)據(jù)維度、節(jié)省模型運(yùn)算時(shí)間,需選取與標(biāo)簽向量相關(guān)性較高的指標(biāo)作為建模的特征向量。由于特征向量與標(biāo)簽向量之間的關(guān)系是不確定的,因此可將出水總氮的預(yù)測(cè)看作是一個(gè)灰色系統(tǒng)。而GRA是一種基于灰色系統(tǒng)理論、借助灰色關(guān)聯(lián)度來(lái)反映因素間相關(guān)程度的一種方法〔10〕。因此利用GRA衡量各項(xiàng)指標(biāo)與出水總氮之間的相關(guān)性,假設(shè)特征向量x共有m個(gè),則特征向量x與標(biāo)簽向量y的灰色關(guān)聯(lián)度ζ計(jì)算公式如式(2)所示。
式中:y(i)——標(biāo)簽向量的第i個(gè)值;
x(j,i)——第j個(gè)特征向量的第i個(gè)值。
灰色關(guān)聯(lián)度越接近于1,指標(biāo)間的相關(guān)度越大,經(jīng)計(jì)算,篩選與出水總氮灰色關(guān)聯(lián)度大于0.9的特征向量見(jiàn)表1。
表1 特征向量的灰色關(guān)聯(lián)度Table 1 Grey correlation degree of the feature vectors
進(jìn)水量和進(jìn)水pH體現(xiàn)了污水的理化性質(zhì),進(jìn)水TN、進(jìn)水NH4+-N、生化池進(jìn)水TN 3項(xiàng)水質(zhì)指標(biāo)可直接反映進(jìn)入處理單元前污水中的氮元素濃度。生化缺氧池ORP代表生化處理階段氧化還原反應(yīng)的劇烈程度,生化MLSS平均值表示生化處理單元活性污泥的濃度,兩者在一定程度上從活性污泥的角度反映了生化處理單元的脫氮潛力。乙酸鈉投加量影響生化處理階段的C/N、生化好氧池溶解氧濃度影響活性污泥中微生物的種類(lèi)及活性〔11〕,均在運(yùn)行控制角度反映了污水處理廠(chǎng)為脫氮過(guò)程所提供的條件。因此,表1通過(guò)灰色關(guān)聯(lián)度篩選出相關(guān)性較高的指標(biāo)可作為建模時(shí)所使用的特征向量。
出水總磷預(yù)測(cè)模型的實(shí)質(zhì)是建立一個(gè)數(shù)據(jù)驅(qū)動(dòng)的回歸模型,解決此類(lèi)問(wèn)題思路是通過(guò)尋找一個(gè)最優(yōu)的算法模型f,構(gòu)建t-1時(shí)刻的進(jìn)水水質(zhì)、t-1時(shí)刻的運(yùn)行參數(shù)以及t時(shí)刻的出水總氮濃度之間的關(guān)系,假設(shè)經(jīng)過(guò)GRA特征篩選后,特征向量x′共有k個(gè),則特征向量x′k和標(biāo)簽向量y構(gòu)建的關(guān)系如式(3)所示。現(xiàn)有非線(xiàn)性回歸算法主要有傳統(tǒng)機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)模型、時(shí)間序列分析等。
1.2.1 機(jī)器學(xué)習(xí)算法
在常見(jiàn)的機(jī)器學(xué)習(xí)中,選取了3種可用于構(gòu)建非線(xiàn)性映射關(guān)系的回歸算法,分別為KNN、SVR和XGBoost。KNN是通過(guò)計(jì)算歐式距離D,選取空間中與標(biāo)簽向量距離最接近k個(gè)的特征向量來(lái)逼近待測(cè)樣本的真實(shí)結(jié)果,其理論成熟、訓(xùn)練高效且具有良好的實(shí)踐應(yīng)用效果。
式中:x′k(i)——經(jīng)過(guò)GRA篩選后第k個(gè)特征向量的第i個(gè)值。
SVR可將高維數(shù)據(jù)通過(guò)核函數(shù)kernel在特征空間中表達(dá),假設(shè)在一定誤差容許ε范圍內(nèi)存在某一超平面離各類(lèi)數(shù)據(jù)距離最近,超平面的表達(dá)式即為回歸問(wèn)題所逼近的非線(xiàn)性方程,則超平面滿(mǎn)足式(5),其中b為截距向量。
XGBoost是引入正則項(xiàng)和二階泰勒展開(kāi)的一種精度高、運(yùn)算快的樹(shù)模型,是一種以最小化損失為目標(biāo),由弱學(xué)習(xí)器迭代而來(lái)的強(qiáng)學(xué)習(xí)器。其中,弱學(xué)習(xí)器數(shù)量n_estimators和提升樹(shù)最大深度max_depth決定樹(shù)模型所用學(xué)習(xí)器的個(gè)數(shù)與層次;學(xué)習(xí)率learning_rate決定在誤差減小過(guò)程中迭代的步長(zhǎng);正則項(xiàng)參數(shù)reg_alpha與正則項(xiàng)參數(shù)reg_lambda互相影響,共同調(diào)整學(xué)習(xí)器正則項(xiàng)的大小。
1.2.2 反向傳播神經(jīng)網(wǎng)絡(luò)
BPNN能把獲取的數(shù)據(jù)信息經(jīng)過(guò)隱層神經(jīng)元前向傳遞,同時(shí)將預(yù)測(cè)過(guò)程中產(chǎn)生的誤差進(jìn)行反向傳播作為調(diào)整權(quán)重的依據(jù),其強(qiáng)大的學(xué)習(xí)能力和擬合能力使其能以任意精度逼近任何非線(xiàn)性連續(xù)函數(shù),適合求解污水處理過(guò)程這類(lèi)內(nèi)部機(jī)制復(fù)雜的問(wèn)題。本研究設(shè)計(jì)的BPNN以平均絕對(duì)誤差(Mean absolute error,MAE)作為糾正隱層神經(jīng)元權(quán)重的評(píng)價(jià)指標(biāo),構(gòu)建從特征向量x′k到標(biāo)簽向量y的映射,實(shí)現(xiàn)出水總氮的預(yù)測(cè)。
1.2.3 長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)
S. HOCHREITER和J. SCHMIDHUBER于1997年在提出了LSTM這一深度學(xué)習(xí)算法〔12〕。不同于傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò),LSTM在隱層神經(jīng)元之間實(shí)現(xiàn)了連接,通過(guò)“門(mén)”的概念使得數(shù)據(jù)在時(shí)間序列(t時(shí)刻至t+1時(shí)刻)間也可完成信息傳遞。在氣候、人口、經(jīng)濟(jì)等因素影響下,進(jìn)水水質(zhì)不規(guī)律波動(dòng)會(huì)映射到出水水質(zhì)上,同樣,前一時(shí)刻污水處理廠(chǎng)所承受負(fù)荷沖擊也必然會(huì)影響各構(gòu)筑物的處理能力,繼而導(dǎo)致后一時(shí)刻污水處理效果的變化。因此利用LSTM在建立輸入與輸出關(guān)系的同時(shí),將歷史水質(zhì)信息進(jìn)行記憶和傳遞,捕捉相關(guān)數(shù)據(jù)在時(shí)間序列上所產(chǎn)生的規(guī)律,從而多角度提升預(yù)測(cè)的效果。
Stacking集成模型是一種多層學(xué)習(xí)模型〔13〕,該模型包含兩層:第一層為基學(xué)習(xí)器層,由原理各異的多個(gè)算法組成;第二層為元學(xué)習(xí)器層,采用不易過(guò)擬合的算法將基學(xué)習(xí)層的預(yù)測(cè)結(jié)果進(jìn)行整合。由于不同的算法具有不同的學(xué)習(xí)原理,因此預(yù)測(cè)的結(jié)果將表現(xiàn)出各算法獨(dú)特的優(yōu)勢(shì)和弊端。Stacking集成模型通過(guò)集合多個(gè)算法、尋求多種意見(jiàn)、整合算法優(yōu)勢(shì)來(lái)進(jìn)行決策,即使某個(gè)數(shù)據(jù)在某一個(gè)算法上預(yù)測(cè)的結(jié)果不理想,其他算法也可以將其修正,從而進(jìn)一步提高模型的預(yù)測(cè)精度。因此,為發(fā)揮多算法的優(yōu)勢(shì),獲得一個(gè)更佳的預(yù)測(cè)模型,基、元學(xué)習(xí)器的選擇至關(guān)重要。
選取擬合優(yōu)度R2評(píng)價(jià)上述回歸算法的擬合度,均方根誤差(Root mean squared error,RMSE)、MAE作為算法精度的評(píng)價(jià)指標(biāo)。其中yi是實(shí)測(cè)值,y預(yù)測(cè)i是yi對(duì)應(yīng)的預(yù)測(cè)值,yˉ是yi的平均值,計(jì)算公式如下:
Stacking模型是一種嵌套組合型的算法集成方法,具有強(qiáng)魯棒性高泛化能力〔14〕,易產(chǎn)生模型訓(xùn)練與預(yù)測(cè)效果兩極化的過(guò)擬合現(xiàn)象。為防止過(guò)擬合現(xiàn)象的發(fā)生,合理選取算法的參數(shù)至關(guān)重要。為獲取單一算法的最佳參數(shù)組合,按照交叉驗(yàn)證的原理選取同時(shí)滿(mǎn)足訓(xùn)練與驗(yàn)證在最小損失下的參數(shù)為該算法的最佳參數(shù),最佳參數(shù)組合見(jiàn)表2。
表2 各算法的參數(shù)Table 2 The parameters of the algorithms
Stacking框架下建立多算法融合的污水處理廠(chǎng)出水總氮預(yù)測(cè)模型的流程見(jiàn)圖1。
圖1 Stacking流程Fig. 1 The flow chart of stacking
步驟1:在數(shù)據(jù)預(yù)處理的基礎(chǔ)上將數(shù)據(jù)集分為三部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,90%的數(shù)據(jù)利用K折交叉驗(yàn)證方法劃分訓(xùn)練集和驗(yàn)證集,折數(shù)為5,即訓(xùn)練集與驗(yàn)證集比例為4∶1。剩余10%的數(shù)據(jù)用于構(gòu)建測(cè)試集,共48組數(shù)據(jù),其標(biāo)簽向量為目標(biāo)出水總氮的實(shí)測(cè)值。
步驟2:利用訓(xùn)練集分別對(duì)LSTM、BP、SVR、XGBoost和KNN算法進(jìn)行訓(xùn)練后,各算法使用測(cè)試集預(yù)測(cè)評(píng)估。依據(jù)評(píng)估結(jié)果選擇4個(gè)算法為基學(xué)習(xí)器和1個(gè)算法為元學(xué)習(xí)器,初步建立Stacking的集成框架。
步驟3:在基學(xué)習(xí)器層,4個(gè)基學(xué)習(xí)器并行各交叉訓(xùn)練5次。訓(xùn)練完成后使用驗(yàn)證集進(jìn)行驗(yàn)證,4個(gè)基學(xué)習(xí)器通過(guò)5次驗(yàn)證得到基學(xué)習(xí)層的驗(yàn)證結(jié)果,將其設(shè)為y1,ver。驗(yàn)證后利用測(cè)試集預(yù)測(cè),其中測(cè)試結(jié)果由4個(gè)基學(xué)習(xí)器利用測(cè)試集數(shù)據(jù)在5次訓(xùn)練后測(cè)試得到,令其結(jié)果為y1,test。
步驟4:整合基學(xué)習(xí)器的驗(yàn)證結(jié)果y1,ver和測(cè)試結(jié)果y1,test。將y1,ver的5次驗(yàn)證進(jìn)行縱向拼接,y1,test的5次測(cè)試集的預(yù)測(cè)結(jié)果取平均值分別作為元學(xué)習(xí)層訓(xùn)練集x2,train與元學(xué)習(xí)層測(cè)試集x2,test。
步驟5:在元學(xué)習(xí)層,步驟2所選擇的元學(xué)習(xí)器利用x2,train進(jìn)行訓(xùn)練,訓(xùn)練完成后利用x2,test進(jìn)行測(cè)試,輸出的測(cè)試結(jié)果即目標(biāo)出水總氮的預(yù)測(cè)結(jié)果y2,pre。將y2,pre與目標(biāo)出水總氮的實(shí)測(cè)值進(jìn)行比較評(píng)估,評(píng)判該集成模型的擬合效果。
本研究采用python語(yǔ)言進(jìn)行編譯,使用谷歌TensorFlow項(xiàng)目庫(kù)實(shí)現(xiàn)LSTM、BPNN算法模型設(shè)計(jì),利用D. COURNAPEAU開(kāi)發(fā)的Scikit-learn項(xiàng)目庫(kù)實(shí)現(xiàn)算法建模。
合理評(píng)判學(xué)習(xí)器的性能有助于獲取最佳的Stacking集成預(yù)測(cè)模型,優(yōu)先選用預(yù)測(cè)性能較好的算法作為基學(xué)習(xí)器。為了降低模型因隨機(jī)梯度下降而產(chǎn)生的預(yù)測(cè)偏差,對(duì)BPNN與LSTM分別進(jìn)行10次訓(xùn)練和預(yù)測(cè),并對(duì)每次預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。BPNN和LSTM均取10次預(yù)測(cè)結(jié)果的平均值為單一算法的最終預(yù)測(cè)結(jié)果。LSTM、BPNN、SVR、XGBoost和KNN的預(yù)測(cè)結(jié)果評(píng)估見(jiàn)圖2。
圖2 LSTM、BPNN、SVR、XGBoost和KNN的預(yù)測(cè)結(jié)果評(píng)估Fig. 2 Evaluation of prediction results of LSTM,BPNN,SVR,XGBoost and KNN
圖2(a)展示了單獨(dú)使用LSTM、BPNN、SVR、XGBoost和KNN 5種算法的預(yù)測(cè)效果,且針對(duì)LSTM、BPNN的每次預(yù)測(cè)評(píng)估結(jié)果繪制3項(xiàng)評(píng)估指標(biāo)的誤差棒??梢钥闯?,RMSE、MAE的變化趨勢(shì)與R2相反。5種算法中,LSTM算法的預(yù)測(cè)效果最佳,RMSE、MAE和R2分別為1.06、0.900和0.633,同時(shí)從數(shù)據(jù)和時(shí)間兩個(gè)角度構(gòu)建關(guān)系展示了良好的預(yù)測(cè)性能。KNN算法的RMSE、MAE最大,R2最小,分別為1.10、0.995和0.567,與其他算法相比擬合程度偏低,可作為Stacking預(yù)測(cè)的元學(xué)習(xí)器。
從算法的差異角度考慮,通過(guò)各算法預(yù)測(cè)結(jié)果分析算法之間的相關(guān)性。令預(yù)測(cè)值與實(shí)測(cè)值之差為預(yù)測(cè)誤差E(mg/L),通過(guò)計(jì)算得到E值且利用皮爾森相關(guān)系數(shù)反映各算法E值的相關(guān)強(qiáng)度。相關(guān)系數(shù)越接近1,表明算法的預(yù)測(cè)趨勢(shì)越相近;相關(guān)系數(shù)越接近0,算法間E值的相關(guān)性越弱,體現(xiàn)算法的差異性。由圖2(b)可知,各算法的E值存在差異且相關(guān)系數(shù)最低為0.54,最高為0.91,表明所選取算法學(xué)習(xí)訓(xùn)練能力較強(qiáng),均達(dá)到了良好的預(yù)測(cè)效果。其中,LSTM算法和BPNN算法預(yù)測(cè)誤差相關(guān)性最高為0.91,可能是因?yàn)榧せ詈瘮?shù)相同且均為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。同樣,SVR算法與KNN算法均依靠將數(shù)據(jù)映射在高維空間進(jìn)行預(yù)測(cè),兩類(lèi)算法的預(yù)測(cè)誤差相關(guān)性為0.81,顯示兩者在預(yù)測(cè)性能上具有一定的相關(guān)性。XGBoost算法在學(xué)習(xí)過(guò)程中基于樹(shù)模型進(jìn)行一階和二階導(dǎo)數(shù)迭代更新,與其他算法的訓(xùn)練方式不同,因此與其他4種算法的預(yù)測(cè)誤差相關(guān)度較低。
綜合考慮以上兩方面,選擇預(yù)測(cè)效果較好、預(yù)測(cè)誤差相關(guān)性差異較大的算法作為基學(xué)習(xí)器,以保證集成模型的泛化能力,選擇能避免集成模型過(guò)擬合的算法作為元學(xué)習(xí)器,完成Stacking集成模型的構(gòu)建。因此,最終選取LSTM、BPNN、SVR、XGBoost 4種算法并列作為集成模型的基學(xué)習(xí)器,KNN算法作為集成模型的元學(xué)習(xí)器。
為了進(jìn)一步驗(yàn)證按2.1節(jié)所述方法進(jìn)行學(xué)習(xí)器搭配的合理性,基、元學(xué)習(xí)器不同組合方式下Stacking集成模型的預(yù)測(cè)性能見(jiàn)表3??紤]到LSTM和BPNN預(yù)測(cè)結(jié)果需運(yùn)行10次穩(wěn)定,算法訓(xùn)練耗時(shí)且復(fù)雜程度高易出現(xiàn)過(guò)擬合現(xiàn)象,不適宜作為元學(xué)習(xí)器,故LSTM和BPNN算法仍為基學(xué)習(xí)器。依次選取KNN、SVR、XGBoost算法作為元學(xué)習(xí)器,分別形成了3種組合方式的Stacking集成模型。根據(jù)1.5所述流程對(duì)目標(biāo)出水總氮進(jìn)行預(yù)測(cè),經(jīng)計(jì)算,3種組合方式均在一定程度上縮小了預(yù)測(cè)誤差,獲得了更好的精準(zhǔn)性。
表3 基于不同基、元學(xué)習(xí)器的Stacking組合模型的預(yù)測(cè)效果Table 3 Prediction effect of Stacking models based on different base learners and meta learner
不同方法下出水總氮的預(yù)測(cè)結(jié)果對(duì)比見(jiàn)圖3。圖3(a)的點(diǎn)線(xiàn)圖分別對(duì)應(yīng)目標(biāo)出水總氮的實(shí)測(cè)值和表3所示3種方法的預(yù)測(cè)值,柱狀圖通過(guò)預(yù)測(cè)誤差E展示了實(shí)測(cè)值與各方法預(yù)測(cè)結(jié)果的差異??梢钥闯?,柱狀圖中方法Ⅱ和方法Ⅲ所對(duì)應(yīng)的E值是三者中較高的,表明兩類(lèi)方法存在較大的預(yù)測(cè)誤差。相比單一算法中預(yù)測(cè)性能最好的LSTM算法,方法Ⅲ所形成的集成模型各項(xiàng)評(píng)估指標(biāo)提升效果不明顯(表3),由2.1節(jié)可知,XGBoost與其他算法的預(yù)測(cè)誤差相關(guān)性最小,因此,當(dāng)XGBoost作為元學(xué)習(xí)器時(shí),Stacking集成不同原理算法的優(yōu)勢(shì)將被削弱。方法Ⅰ的MAE為0.782,在柱狀圖中預(yù)測(cè)誤差普遍較小,其中,E值最小為0.008 mg/L,可以較準(zhǔn)確、可靠地表達(dá)出水總氮的水質(zhì)情況。觀察圖3(b)可知,方法Ⅰ與LSTM算法兩者的預(yù)測(cè)趨勢(shì)相似,但方法Ⅰ的預(yù)測(cè)結(jié)果比LSTM的預(yù)測(cè)結(jié)果更加逼近出水總氮的實(shí)測(cè)值,方法Ⅰ中有41 d的E值低于LSTM,占總預(yù)測(cè)天數(shù)的85.4%,展示了方法Ⅰ所使用的集成方法對(duì)LSTM預(yù)測(cè)結(jié)果的修正能力,體現(xiàn)了Stacking集成方式在融合算法的基礎(chǔ)上實(shí)現(xiàn)預(yù)測(cè)效果的進(jìn)一步優(yōu)化。與2.1節(jié)所計(jì)算的LSTM算法評(píng)估結(jié)果相比,方法Ⅰ的RMSE、MAE分別降低了4.77%、15.1%,R2提升了10.9%,泛化性能更強(qiáng),預(yù)測(cè)效果更優(yōu),因此進(jìn)行Stacking集成時(shí)可利用方法Ⅰ優(yōu)化出水總氮的預(yù)測(cè)效果。
圖3 不同方法下出水總氮的預(yù)測(cè)結(jié)果對(duì)比Fig. 3 Comparison of prediction results of total nitrogen in effluent with different methods
本研究基于Stacking集成模型的思想,融合了機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)多種算法,提出了一種用于污水處理廠(chǎng)出水總氮預(yù)測(cè)的方法。從單一算法的預(yù)測(cè)性能和預(yù)測(cè)誤差相關(guān)性?xún)蓚€(gè)角度出發(fā),合理對(duì)基學(xué)習(xí)器和元學(xué)習(xí)器進(jìn)行組合,最終選擇以L(fǎng)STM、BPNN、SVR、XGBoost作為基學(xué)習(xí)器、KNN作為元學(xué)習(xí)器的Stacking集成模型。經(jīng)對(duì)比分析發(fā)現(xiàn),該方法可將各算法優(yōu)勢(shì)結(jié)合在一起,在保證各算法學(xué)習(xí)能力的前提下泛化能力良好。從預(yù)測(cè)結(jié)果看,預(yù)測(cè)值與實(shí)測(cè)值趨勢(shì)較為一致且擬合度高,證明通過(guò)該方法所建立的集成模型可對(duì)出水總氮情況做出合理的預(yù)測(cè)。除此之外,利用GRA對(duì)建模所使用的特征向量進(jìn)行篩選,能依據(jù)污水處理廠(chǎng)的實(shí)際情況進(jìn)行分析,具有一定的實(shí)踐意義。因此,Stacking集成模型的優(yōu)越性與可行性為污水處理過(guò)程中快速、準(zhǔn)確地預(yù)先判斷出水水質(zhì)情況提供了途徑。在未來(lái)工作中,可嘗試將更多性能良好的預(yù)測(cè)算法進(jìn)行融合,發(fā)揮算法的獨(dú)特優(yōu)勢(shì)提升預(yù)測(cè)的精確度。在預(yù)測(cè)效果高精度的條件下,通過(guò)該集成模型可進(jìn)一步探究由GRA所篩選出的特征向量與出水總氮的關(guān)系,為污水處理廠(chǎng)精準(zhǔn)控制、提標(biāo)改造等工程應(yīng)用提供數(shù)據(jù)支撐。