劉 旺,魏郭子建,施常潔,李 聰,張?jiān)其?凱
(上海理工大學(xué)環(huán)境與建筑學(xué)院,上海 200093)
混凝過程是傳統(tǒng)給水處理工藝中的核心部分,主要目的是去除原水中懸浮固體顆粒及藻類,其處理效果的好壞直接影響后續(xù)單元的處理效果[1]。而混凝劑的處理效果主要取決于混凝劑的投加量[2]。實(shí)際生產(chǎn)中,水廠都是通過試驗(yàn)的方法確定當(dāng)日該時(shí)段的絮凝劑投加量以確保處理工藝正常運(yùn)行、出水水質(zhì)達(dá)標(biāo),但是其時(shí)間與管理成本較高[3-4]。此外,當(dāng)原水水質(zhì)變化頻率較快、變化幅度較大時(shí),容易出現(xiàn)原水水質(zhì)發(fā)生改變但絮凝劑投加量未改變而導(dǎo)致的沉淀池出水渾濁度超標(biāo)問題,從而造成濾池負(fù)荷較高,反沖洗時(shí)間變短,運(yùn)行成本增高。
近年來,太湖地區(qū)水源水普遍存在季節(jié)性高藻問題[5]。充分的研究[6-8]表明,藻類的存在會降低混凝效果,還會向胞外釋放有毒物質(zhì),從而影響出水水質(zhì)。并且少量藻類細(xì)胞進(jìn)入管網(wǎng)后,可能出現(xiàn)附著在管壁大量生長從而腐蝕管壁或堵塞末端水管的情況[9]。目前大部分水廠絮凝劑投加量調(diào)節(jié)是以渾濁度為唯一變量,但由于藻類的出現(xiàn)投加頻率加劇,分析藻類對絮凝劑投加量的影響,建立納入藻類為考量指標(biāo)的絮凝劑投加量模型對于確保水廠穩(wěn)定運(yùn)行及提高水廠自動(dòng)化水平有重要意義。
人工神經(jīng)網(wǎng)絡(luò)模型是為模仿大腦神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)。神經(jīng)網(wǎng)絡(luò)模型特點(diǎn)在于可以護(hù)理模糊的、非線性的、甚至含有噪聲的數(shù)據(jù),即只根據(jù)輸入數(shù)據(jù)和輸出數(shù)據(jù)來建立模型,可以反映十分復(fù)雜的關(guān)系,非常適合多因素控制的混凝投加量等非線性系統(tǒng)建模[10]。神經(jīng)網(wǎng)絡(luò)模型的表現(xiàn)十分依賴神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及參數(shù)設(shè)置,但神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)確定較難,簡單的結(jié)構(gòu)性能得不到保證,復(fù)雜的結(jié)構(gòu)要求計(jì)算資源大且易過擬合[11]。有學(xué)者[12-13]已使用過人工神經(jīng)網(wǎng)絡(luò)建立絮凝劑投加量模型,但只使用了較為簡單的網(wǎng)絡(luò)結(jié)構(gòu)對小批量數(shù)據(jù)進(jìn)行了擬合,針對較為復(fù)雜的水質(zhì)變化預(yù)測效果較差。因此,擴(kuò)大樣本數(shù)量及時(shí)間跨度,建立較為復(fù)雜的網(wǎng)絡(luò)模型以提高對模型的普適性問題亟待解決。在人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)優(yōu)化方面,群體智能算法已被證明是優(yōu)化人工神經(jīng)的一種有效手段,經(jīng)群體智能算法優(yōu)化后的網(wǎng)絡(luò)模型往往具有更好的擬合度[14-15]。此外,Python是一種跨平臺的計(jì)算機(jī)程序設(shè)計(jì)語言,是一個(gè)高層次的結(jié)合解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語言。它可以應(yīng)用于科學(xué)計(jì)算統(tǒng)計(jì)以及人工智能,可以實(shí)現(xiàn)數(shù)據(jù)整理、過程分析、結(jié)果輸出等功能于一身。
本文基于Python語言對水廠一年實(shí)際運(yùn)行的360組數(shù)據(jù)進(jìn)行處理、分析和建模,采取遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及參數(shù)進(jìn)行優(yōu)化,利用負(fù)反饋人工神經(jīng)網(wǎng)絡(luò)的方法對太湖地區(qū)某水廠混凝處理系統(tǒng)建立數(shù)學(xué)模型,并對建立的模型進(jìn)行評價(jià)。
實(shí)際生產(chǎn)中的數(shù)據(jù)往往包含小部分的異常數(shù)據(jù),數(shù)據(jù)可能是不準(zhǔn)確和冗余的。為保證建模的效果,往往需要先對數(shù)據(jù)進(jìn)行一定的清洗及預(yù)處理。本文數(shù)據(jù)分析及建模工作均基于經(jīng)過清洗及預(yù)處理過的數(shù)據(jù)集。
1.1.1 數(shù)據(jù)清洗
本文數(shù)據(jù)來源為太湖地區(qū)某水廠的混凝劑投加,依據(jù)為燒杯試驗(yàn),混凝劑為聚合氯化鋁,其投加量后文簡稱絮凝劑投加量。每日原水水質(zhì)指標(biāo)及中間工藝水質(zhì)指標(biāo)均有所波動(dòng),本文整理太湖地區(qū)某水廠2018年10月—2019年10月實(shí)際運(yùn)行中較穩(wěn)定的360組進(jìn)出水水質(zhì)及絮凝劑投加量作為原始數(shù)據(jù)樣本,水質(zhì)指標(biāo)共20項(xiàng),分別為原水渾濁度、pH、耗氧量、藻類數(shù)量、水溫、氨氮、亞硝酸鹽氮、鐵、錳、細(xì)菌總數(shù)、總大腸菌群、耐熱大腸菌群、色度、嗅和味、肉眼可見物,以及預(yù)臭氧池出水渾濁度、預(yù)臭氧池出水pH、沉淀池出水渾濁度、沉淀池出水pH、出廠水渾濁度。
在數(shù)據(jù)清洗過程中首先結(jié)合箱型圖對各水質(zhì)指標(biāo)的極端異常值進(jìn)行剔除,而后使用最近鄰插補(bǔ)(k-nearest neighbor,KNN)對空缺數(shù)據(jù)進(jìn)行填充并得到原始數(shù)據(jù)集。圖1展示了原水渾濁度異常值剔除前后箱型圖的變化,可以發(fā)現(xiàn)基于統(tǒng)計(jì)學(xué)原理脫離該組樣本分布的異常值均被剔除,被剔除的異常值基本為較大的值。數(shù)據(jù)清洗后數(shù)據(jù)樣本中各指標(biāo)的數(shù)值范圍如表1所示。
圖1 剔除異常值前后渾濁度對比Fig.1 Comparison of Turbidity before and after Eliminating Outliers
KNN方法的思想是集中識別與特征缺失樣本歐氏距離最近的k個(gè)樣本,從而估計(jì)缺失數(shù)據(jù)點(diǎn)的值。共有m個(gè)特征的樣本x在缺失第j個(gè)特征的情況下與某樣本y的歐式距離如式(1)。
(1)
其中:dxy——不考慮缺失特征情況下兩樣本歐氏距離;
i——特征序號;
j——缺失特征序號;
m——樣本特征總數(shù);
xi——樣本x第i個(gè)特征的值;
yi——樣本y第i個(gè)特征的值。
在本文對缺失值的填補(bǔ)中取k=3,計(jì)算過程如式(2)。
(2)
其中:xj——樣本x缺失的第j個(gè)特征;
n——樣本序號;
k——與當(dāng)前樣本距離最近的k個(gè)樣本;
ynj——與x樣本第n近的樣本yn的第j個(gè)特征值。
表1 數(shù)據(jù)樣本水質(zhì)指標(biāo)范圍Tab.1 Index Range of Data Sample Water Quality
圖2 對數(shù)變換前后數(shù)據(jù)分布對比Fig.2 Comparison of Data Distribution before and after Logarithmic Transformation
1.1.2 數(shù)據(jù)預(yù)處理
對原始數(shù)據(jù)的可視化觀察可知大部分水質(zhì)數(shù)據(jù)均成偏態(tài)分布,而且大多是右偏的,以原水渾濁度為例,如圖2(a)所示。圖2(b)展示了經(jīng)對數(shù)變換后數(shù)據(jù)的分布特征,其偏態(tài)分布問題得到明顯改善。本文對所有數(shù)據(jù)進(jìn)行的對數(shù)變換如式(3)。
Mi=log10(Ni+1)
(3)
其中:Mi——轉(zhuǎn)換后的數(shù)值;
Ni——待處理的數(shù)值。
為減小建模誤差、加快模型收斂速度,對數(shù)變換后的數(shù)據(jù)進(jìn)行歸一化處理,將數(shù)據(jù)區(qū)間集中至[0,1],并實(shí)現(xiàn)無量綱化,變換如式(4)。
(4)
其中:Nmax、Nmin——此水質(zhì)指標(biāo)中最大、最小值。
根據(jù)研究對象變量性質(zhì)的不同,相關(guān)系數(shù)有多種定義方式,實(shí)際使用中需根據(jù)待分析變量的特點(diǎn)選取合適的相關(guān)性分析方法。本文中重點(diǎn)研究混凝劑與其他水質(zhì)參數(shù)之間的相關(guān)性關(guān)系,絮凝劑投加量是一個(gè)連續(xù)的變量,根據(jù)待分析變量的特點(diǎn),相關(guān)性系數(shù)分析方法的選取、相關(guān)系數(shù)及其t檢驗(yàn)結(jié)果如表2所示。
表2 絮凝劑投加量與水質(zhì)指標(biāo)的相關(guān)性分析Tab.2 Correlation Analysis of Coagulant Dosage and Water Quality Indices
注:***表示p<0.001;**表示0.001
熱力圖(圖3)將相關(guān)關(guān)系可視化,能更直觀地看出絮凝劑投加量與各水質(zhì)指標(biāo)的相關(guān)性。對相關(guān)系數(shù)結(jié)果分析可知,與絮凝劑投加量具有最強(qiáng)相關(guān)性的水質(zhì)指標(biāo)是原水耗氧量(相關(guān)系數(shù)為0.61),其次是預(yù)臭氧池出水渾濁度(相關(guān)系數(shù)為0.49),二者p值均為0.000,說明該相關(guān)性分析結(jié)果較為可靠。相比原水渾濁度,預(yù)臭氧池渾濁度與絮凝劑投加量的相關(guān)性更強(qiáng),根據(jù)以往研究,分析可能是投加臭氧后,臭氧的氧化作用使原水中膠體顆粒性質(zhì)發(fā)生了變化,因此,預(yù)臭氧池渾濁度比原水渾濁度更能反映水中膠體顆粒的狀態(tài)。相關(guān)研究[16-18]表明預(yù)臭氧后混凝形成的絮體分型維數(shù)與形態(tài)系數(shù)均有所提高。研究人員[19]在2019年對該水廠的原水水質(zhì)進(jìn)行了統(tǒng)計(jì)分析,并將原水水質(zhì)指標(biāo)劃分為了11個(gè)主成分,固體顆粒主成分中原水混渾濁度與原水耗氧量的載荷系數(shù)分別為0.94和0.74。因此,綜合分析,水廠絮凝劑投加量主要與水中的固體顆粒相關(guān)。其次,絮凝劑投加量與藻類數(shù)量的相關(guān)性系數(shù)為0.42,十分接近預(yù)臭氧池出水渾濁度與絮凝劑投加量相關(guān)系數(shù),充分說明藻類對絮凝劑投加量的影響與渾濁度相當(dāng),也應(yīng)納入混凝劑的決定指標(biāo),以保證飲用水的安全生產(chǎn)。沉淀池出水渾濁度、原水細(xì)菌總數(shù)、原水色度與絮凝劑投加量的相關(guān)性系數(shù)均接近0.40(分別為0.36、0.39、0.39),沉淀池出水渾濁度主要反映了投加混凝劑對渾濁度的削減程度,原水細(xì)菌總數(shù)及原水色度一定程度上還是在反映原水固體顆粒物水平。原水鐵與絮凝劑投量的相關(guān)系數(shù)為0.34,較弱的相關(guān)關(guān)系可能與少量鐵離子的助凝作用有關(guān)。其余大部分水質(zhì)指標(biāo)與絮凝劑投加量的相關(guān)性均較弱(相關(guān)性系數(shù)均小于0.30)?;炷齽┑耐都恿颗c原水pH及原水水溫有較強(qiáng)的相關(guān)性,而本研究中卻呈現(xiàn)弱相關(guān)關(guān)系,可能由于本數(shù)據(jù)集來自南方某個(gè)以湖泊為水源的水廠,其水溫變化范圍較小,pH也較為穩(wěn)定;另有可能是絮凝劑投加量與原水水溫及pH之間為復(fù)雜的非線性關(guān)系,無法使用相關(guān)性分析體現(xiàn)關(guān)聯(lián)水平。
在給水處理中,絮凝劑投加量與原水水質(zhì)及處理構(gòu)筑物運(yùn)行狀態(tài)密切相關(guān),并且由于各地原水性質(zhì)及水處理工藝各異,目前針對絮凝劑投加量并沒有固定計(jì)算公式或經(jīng)驗(yàn)公式。本文將嘗試采用BP神經(jīng)網(wǎng)絡(luò)建立原水水質(zhì)及工藝運(yùn)行水質(zhì)與絮凝劑投加量的映射關(guān)系。綜合考慮相關(guān)性分析結(jié)果、水廠實(shí)際工藝及水質(zhì)指標(biāo)的在線監(jiān)測技術(shù),擬采用原水耗氧量、渾濁度、藻類數(shù)量、pH、氨氮、色度、鐵、水溫,以及預(yù)臭氧池出水渾濁度、預(yù)臭氧池出水pH、沉淀池出水pH、沉淀池出水渾濁度,作為模型的輸入值建立模型A;為探究原水藻類數(shù)量對絮凝劑投加量的影響,在模型A的基礎(chǔ)上輸入值刪除原水藻類數(shù)量,建立模型B。
2.1.1 模型拓?fù)浣Y(jié)構(gòu)
本文使用變換后的部分?jǐn)?shù)據(jù)作為學(xué)習(xí)樣本,輸入層神經(jīng)元個(gè)數(shù)為輸入樣本特征數(shù)12個(gè),隱含層個(gè)數(shù)為2個(gè),輸出層神經(jīng)元個(gè)數(shù)為1個(gè)。隱含層神經(jīng)元個(gè)數(shù)的確定一直是BP神經(jīng)網(wǎng)絡(luò)中的一個(gè)難點(diǎn),若設(shè)置的隱含層神經(jīng)元數(shù)量過少,神經(jīng)網(wǎng)絡(luò)往往出現(xiàn)欠擬合現(xiàn)象;若設(shè)置過多的隱含層神經(jīng)元數(shù)量,計(jì)算擬合慢且極易出現(xiàn)過擬合。另一種方法是根據(jù)輸入樣本的特征數(shù)量確定隱含層數(shù)量的經(jīng)驗(yàn)公式,但這種經(jīng)驗(yàn)公式法缺乏理論的支撐,且往往僅能達(dá)到相對最優(yōu)結(jié)果。本文擬采用智能優(yōu)化算法對BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及關(guān)鍵參數(shù)進(jìn)行優(yōu)化,隱含層數(shù)量及隱含層神經(jīng)元數(shù)量,即為其中的一個(gè)重要待優(yōu)化值。BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖4所示。
圖4 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 Neural Network Model Structure
2.1.2 激活函數(shù)及訓(xùn)練方法
BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程由信號的正向傳播和誤差的反向傳播組成,輸入值從輸入層輸入,經(jīng)隱含層處理以后,傳向輸出層。誤差反向傳播是將模型擬合值與真實(shí)值的誤差以某種形式通過隱含層向輸入層反向傳播,誤差信號作為修正權(quán)值的依據(jù)。訓(xùn)練過程直至輸出的誤差滿足一定條件或者迭代次數(shù)達(dá)到一定次數(shù)停止。輸入層數(shù)據(jù)傳入隱含層、隱含層之間數(shù)據(jù)傳遞及隱含層數(shù)據(jù)傳至輸出層時(shí)均有激活函數(shù)。在本文中,隱含層采用ReLU激活函數(shù),輸出層則采用線性輸出函數(shù)。線性輸出函數(shù)即不做變換,ReLU函數(shù)如式(5)。
A=max(0,Z)
(5)
其中:A——當(dāng)前該隱含層神經(jīng)元激活值;
Z——上一層所有神經(jīng)元值加權(quán)映射到該隱含層神經(jīng)元的值。
誤差優(yōu)化方法,即網(wǎng)絡(luò)訓(xùn)練方法采用動(dòng)量法改進(jìn)的小批量梯度下降法,各機(jī)器學(xué)習(xí)框架均支持該經(jīng)典的神經(jīng)網(wǎng)絡(luò)優(yōu)化器。批量訓(xùn)練的梯度法是基于梯度下降法改進(jìn)的,以單個(gè)樣本的誤差修正為例,式(6)~式(8)說明了梯度下降法對某隱含層權(quán)值大致的修正過程。單個(gè)樣本網(wǎng)絡(luò)輸出值與實(shí)際值誤差計(jì)算如式(6)。
E=(dk-ok)2
(6)
其中:E——單個(gè)輸入樣本的誤差函數(shù);
dk——第k個(gè)樣本輸出值的真實(shí)值;
ok—第k個(gè)樣本模型擬合值。
將該誤差用隱含層權(quán)值及輸出層的激活函數(shù)表達(dá)可變換為式(7)。
E=[dk-fo(w[j]·y[i])]2
(7)
其中:fo——輸出層激活函數(shù);
[i]——神經(jīng)網(wǎng)絡(luò)第i層;
[j]——神經(jīng)網(wǎng)絡(luò)第j層;
w[j]——神經(jīng)網(wǎng)絡(luò)第j層與第i層的連接權(quán)值;
y[i]——神經(jīng)網(wǎng)絡(luò)第i層的激活值。
動(dòng)量法改進(jìn)的梯度下降法權(quán)值wji的修正量計(jì)算如式(8)。
(8)
其中:Δw[j](t)——該次誤差反向傳播中對權(quán)值w[j]的修正量;
η——學(xué)習(xí)率;
α——?jiǎng)恿恳蜃樱?/p>
Δw[j](t-1)——上一次誤差反向傳播中對權(quán)值w[j]的修正量。
梯度下降法與小批量梯度下降法的區(qū)別在于,其用于計(jì)算更新梯度值的樣本數(shù)量,梯度下降法中使用所有樣本誤差算出的梯度的平均值來更新權(quán)值,而批量梯度下降法一次訓(xùn)練中隨機(jī)抽取一個(gè)小批量樣本用于計(jì)算梯度更新權(quán)值。梯度下降法計(jì)算量大且易陷入局部最小值,小批量梯度下降法有效地改善了這個(gè)問題且加快了計(jì)算速度[20]。
遺傳算法將要解決的優(yōu)化問題模擬成一個(gè)生物進(jìn)化的過程,通過復(fù)制、交叉、突變等操作產(chǎn)生下一代的解,并逐步淘汰適應(yīng)度函數(shù)值低的解,增加適應(yīng)度函數(shù)值高的解,進(jìn)化N代后就有極大可能進(jìn)化出適應(yīng)度函數(shù)值很高的個(gè)體。遺傳算法是一種全局優(yōu)化算法,在進(jìn)化代數(shù)足夠大的情況下,可以認(rèn)為找到的函數(shù)值最高的個(gè)體為當(dāng)前條件下的最優(yōu)解。
2.2.1 遺傳算法的決策變量及適應(yīng)度函數(shù)
本文中優(yōu)化問題的決策變量為神經(jīng)網(wǎng)絡(luò)的兩個(gè)隱含層神經(jīng)元個(gè)數(shù)、批量訓(xùn)練樣本量、學(xué)習(xí)率、動(dòng)量、正則化系數(shù)。其變量取值如下:隱含層1及隱含層2神經(jīng)元個(gè)數(shù)為[12,100];批量訓(xùn)練樣本量為[1,50];學(xué)習(xí)率為[0.01,0.1];動(dòng)量因子為[0.01,1];正則化系數(shù)為[0.000 1,0.1]??紤]計(jì)算速度,適應(yīng)度函數(shù)主要根據(jù)模型在訓(xùn)練集以及驗(yàn)證集上的均方根誤差定義。給驗(yàn)證集均方根誤差一個(gè)較大的權(quán)重能在優(yōu)化中有效地對過擬合問題進(jìn)行懲罰,提高模型的泛化能力,適應(yīng)度函數(shù)fp如式(9)。
(9)
其中:fp——遺傳算法適應(yīng)度函數(shù);
P——訓(xùn)練集樣本個(gè)數(shù);
ytrain——訓(xùn)練集數(shù)據(jù)真實(shí)值;
Q——驗(yàn)證集樣本個(gè)數(shù);
ytest——驗(yàn)證集數(shù)據(jù)真實(shí)值;
2.2.2 遺傳算法優(yōu)化結(jié)果
隱含層1神經(jīng)元個(gè)數(shù)為90個(gè);隱含層2神經(jīng)元個(gè)數(shù)為90個(gè);批量訓(xùn)練樣本個(gè)數(shù)為28個(gè);學(xué)習(xí)率取0.1;動(dòng)量因子取0.95;正則化系數(shù)取0.003 7。圖5展示了遺傳算法尋優(yōu)過程中所有個(gè)體的適應(yīng)度函數(shù)值,在進(jìn)化至第500代時(shí),大部分個(gè)體已經(jīng)收斂至最優(yōu)解附近。進(jìn)化500代后最優(yōu)解已基本可認(rèn)為是當(dāng)前條件下的全局最優(yōu)解。
圖5 遺傳算法尋優(yōu)過程中適應(yīng)度函數(shù)值Fig.5 Fitness Function Value in Process with Genetic Algorithm Optimization
圖6 模型A(將原水藻類水量納入輸入值)總體擬合效果Fig.6 Overall Fitting Effect of Model A (Amount of Raw Water Algae Included in the Input Values)
圖7 模型B(未將原水藻類水量納入輸入值)總體擬合效果Fig.7 Overall Fitting Effect of Model B (Amount of Raw Water Algae Not Included in the Input Values)
圖8 模型A驗(yàn)證擬合值與真實(shí)值絕對誤差分布Fig.8 Distribution of Absolute Errors between Model A Fitted Value and True Value on Validation Set
最優(yōu)神經(jīng)網(wǎng)絡(luò)經(jīng)過1 000次訓(xùn)練,最終達(dá)到穩(wěn)定,模型A其在訓(xùn)練集及驗(yàn)證集上的表現(xiàn)如圖6所示,訓(xùn)練集模型擬合值與真實(shí)值R2為0.86,均方根誤差為3.68 mg/L,訓(xùn)練集288個(gè)樣本平均絕對誤差為2.75 mg/L;驗(yàn)證集模型擬合值與真實(shí)值R2為0.75,均方根誤差為4.55 mg/L,模型的泛化性尚可,未出現(xiàn)明顯過擬合現(xiàn)象。模型B其在訓(xùn)練集及驗(yàn)證集上的表現(xiàn)如圖7所示,訓(xùn)練集模型擬合值與真實(shí)值R2為0.70,均方根誤差為4.45 mg/L,平均絕對誤差為3.38 mg/L;驗(yàn)證集模型擬合值與真實(shí)值R2為0.50,均方根誤差為6.82 mg/L。
驗(yàn)證集對于描述機(jī)器學(xué)習(xí)模型效果尤為重要,其表現(xiàn)反映了模型的泛化能力,即模型是否反映了一般規(guī)律。模型A驗(yàn)證集共72組數(shù)據(jù),最小絕對誤差為0.032 mg/L,平均絕對誤差為3.78 mg/L,平均相對誤差為7.86%,其驗(yàn)證集的模型預(yù)測值誤差分布如圖8所示,50%樣本絕對誤差控制在3 mg/L內(nèi),70%樣本絕對誤差控制在5 mg/L內(nèi),100%樣本絕對誤差控制在10 mg/L內(nèi);模型B驗(yàn)證集共72組數(shù)據(jù),其最大絕對誤差為21.98 mg/L,最小絕對誤差為0.11 mg/L,平均絕對誤差為4.95 mg/L,平均相對誤差10.70%。未將當(dāng)原水藻類細(xì)胞納入建模輸入量時(shí),有多個(gè)驗(yàn)證集及測試集樣本的絕對誤差超過15 mg/L,且這些樣本大多原水藻類數(shù)量較高,對于原水藻類數(shù)量為0的數(shù)據(jù)樣本,模型B也表現(xiàn)出了不錯(cuò)的擬合效果。綜合對比模型A與模型B,充分說明了原水藻類數(shù)量對于絮凝劑投加量的重要影響。
圖9反映了模型A驗(yàn)證集擬合值與真實(shí)值的變化趨勢。雖然模型A擬合值有時(shí)與預(yù)測值數(shù)值有差距但其變化趨勢與實(shí)際值變化趨勢大體一致。綜合來看,驗(yàn)證集表現(xiàn)說明模型A有對于預(yù)測絮凝劑投加量具有一定實(shí)用性和參考價(jià)值。
圖9 模型A驗(yàn)證集擬合值及真實(shí)值變化趨勢Fig.9 Trend of Model A Fitted Values and True Value of the PAC Dosage on Validation Set
(1)數(shù)據(jù)采集是構(gòu)建水廠智能投藥模型的基礎(chǔ),本文根據(jù)水廠實(shí)際工藝,選取了原水耗氧量、渾濁度、藻類數(shù)量、pH、氨氮、色度、鐵、水溫以及預(yù)臭氧池出水渾濁度、預(yù)臭氧池出水pH、沉淀池出水pH、沉淀池出水渾濁度這些能實(shí)現(xiàn)在線監(jiān)測且對絮凝劑投加量影響較大的指標(biāo),作為模型的輸入特征。除去考慮了原水性質(zhì)外,將整個(gè)工藝抽象為了一個(gè)系統(tǒng)并且考慮了中間工藝的主要參數(shù),提高了模型的綜合性。通過分析,原水耗氧量對絮凝劑投加量影響最大,預(yù)臭氧池渾濁度和原水藻類數(shù)量次之。對于絮凝劑投加量,藻類表現(xiàn)出與渾濁度幾乎相同的影響力,因此,在確定絮凝劑投加量時(shí)將原水藻類數(shù)量納入考量指標(biāo)是有必要的。
(2)基于清洗后的數(shù)據(jù)集采用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元數(shù)量、批量訓(xùn)練樣本量、學(xué)習(xí)率、動(dòng)量、正則化系數(shù)進(jìn)行了優(yōu)化求解,最優(yōu)模型在驗(yàn)證集上模型擬合值與真實(shí)值平均絕對誤差為3.78 mg/L,驗(yàn)證集上模型的一定泛化能力表明模型一定程度上反映了絮凝劑投加量與部分水質(zhì)指標(biāo)的客觀規(guī)律。
(3)驗(yàn)證集仍然有少部分樣本模型擬合值與真實(shí)值相差較大,可能的原因模型的輸入特征有缺失,而這些樣本受缺失特征的影響較大。結(jié)合水廠工藝運(yùn)行,考慮進(jìn)水流量可能是缺失的重要特征之一,其不僅影響需藥量還影響各工藝的水力條件,納入考慮應(yīng)能進(jìn)一步提升模型精度。
(4)人工神經(jīng)網(wǎng)絡(luò)具有準(zhǔn)確、簡單、快捷的特點(diǎn)。僅通過系統(tǒng)的輸入與輸出即可獲得較為可靠的模型。模型的通用性與時(shí)效性只取決于輸入樣本,實(shí)現(xiàn)復(fù)雜水處理系統(tǒng)的優(yōu)化設(shè)計(jì),為提高控制管理水平提供了一條新的途徑。