水體透射光譜結(jié)合主成分分析(PCA)改進(jìn)化學(xué)需氧量(COD)含量估算研究

2024-03-04 00:42:22王彩玲位欣欣

中國(guó)無(wú)機(jī)分析化學(xué) 2024年4期

王彩玲位欣欣

(西安石油大學(xué) 計(jì)算機(jī)學(xué)院,西安 710065)

化學(xué)需氧量(Chemical Oxygen Demand,COD)是表征水體被還原性物質(zhì)污染程度的指標(biāo),該指標(biāo)作為有機(jī)物相對(duì)含量的綜合指標(biāo)之一,列入我國(guó)主要污染物總量控制指標(biāo),根據(jù)其排放濃度衡量水體污染程度[1]。傳統(tǒng)的COD測(cè)量方法主要是基于化學(xué)分析,耗時(shí)較長(zhǎng),操作專(zhuān)業(yè)性高,不利于快速、實(shí)時(shí)地獲取水體中COD的信息[2]。而高光譜技術(shù)結(jié)合人工神經(jīng)網(wǎng)絡(luò)模型可以快速、準(zhǔn)確地估算水體中的COD含量,從而為環(huán)境監(jiān)測(cè)和水質(zhì)調(diào)控提供了有效手段。

近年來(lái),關(guān)于利用高光譜遙感技術(shù)評(píng)價(jià)和監(jiān)測(cè)水資源水質(zhì)信息狀況方面的研究愈發(fā)深入[3]。高光譜技術(shù)是一種通過(guò)對(duì)目標(biāo)物體光譜信息的收集和分析,實(shí)現(xiàn)對(duì)目標(biāo)物體性質(zhì)的識(shí)別和定量測(cè)量的技術(shù)。利用高光譜技術(shù),可以實(shí)現(xiàn)對(duì)水體中COD含量的快速、無(wú)損檢測(cè)。國(guó)內(nèi)外學(xué)者利用高光譜技術(shù)結(jié)合各種算法進(jìn)行了大量水質(zhì)檢測(cè)技術(shù)的研究。YES等[4]應(yīng)用UVE-SPA-LS-SUV的方法實(shí)現(xiàn)了對(duì)COD的建模預(yù)測(cè);KIMBERLY等[5]構(gòu)建出偏最小二乘最佳高光譜 Chl-a 濃度估算模型;ORTIZ等[6]利用高光譜技術(shù)檢測(cè)出水體總懸浮固體濃度;曹引等[7]建立偏最小二乘水體濁度高光譜反演模型,為水體濁度大面積遙感檢測(cè)提供了技術(shù)支持;張賢龍等[8]提出高光譜技術(shù)水質(zhì)參數(shù)濃度反演模型;蔡建楠等[9]采用 GA 遺傳算法實(shí)現(xiàn)了基于偏最小二乘法高光譜 COD 檢測(cè)模型的優(yōu)化。

本文以水體COD含量為研究對(duì)象,通過(guò)多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、最大最小歸一化(MMN)三種不同的高光譜數(shù)據(jù)預(yù)處理方法對(duì)采集到的高光譜數(shù)據(jù)進(jìn)行預(yù)處理,建立相應(yīng)的高斯過(guò)程回歸模型(Gaussian Process Regression,GPR)和BP神經(jīng)網(wǎng)絡(luò)模型,并對(duì)模型進(jìn)行改進(jìn)。結(jié)合主成分分析(Principal Component Analysis,PCA)方法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行主成分分析,通過(guò)數(shù)據(jù)降維,保留足以解釋90% 的方差的成分,從預(yù)處理后的光譜數(shù)據(jù)中提取22個(gè)主成分,篩選出相關(guān)性較好的波段,建立改進(jìn)的GPR水體COD含量估算模型和BP神經(jīng)網(wǎng)絡(luò)模型水體COD含量估算模型。實(shí)驗(yàn)結(jié)果表明,基于PCA改進(jìn)的模型的預(yù)測(cè)精度均明顯提高,其中標(biāo)準(zhǔn)正態(tài)變量變換特征PCA-BP神經(jīng)網(wǎng)絡(luò)模型的R2高達(dá)0.994 0,均方根誤差為0.022 540,模型性能最優(yōu),能夠?qū)崿F(xiàn)水體中COD含量的檢測(cè)。

1 實(shí)驗(yàn)部分

1.1 光譜儀

實(shí)驗(yàn)用儀器為 Ocean Optics 公司出品的 OCEAN-HDXXR 微型光纖光譜儀,該光譜儀采用高清晰度光學(xué)系統(tǒng),具有高通量、低雜散光和高熱穩(wěn)定性的特點(diǎn),適用于精確測(cè)量溶液中的分析物,具有體積小,容易集成到許多工業(yè)應(yīng)用的生產(chǎn)過(guò)程環(huán)境的優(yōu)勢(shì)。

1.2 透射光譜數(shù)據(jù)獲取

選擇配比溶液為 0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0 mg/L的 COD標(biāo)準(zhǔn)溶液,更換光譜儀的狹縫為 10 μm,相同時(shí)間間隔各自重復(fù)采集10次上述標(biāo)準(zhǔn)溶液200～1 030 nm的高光譜透射率數(shù)據(jù),共得到100條數(shù)據(jù)。

采用白板校正分別得到所采集的三種高光譜數(shù)據(jù)的光譜透射率值[10],如式(1)所示:

(1)

其中:Ro為原始光譜數(shù)據(jù),RW為白板數(shù)據(jù)。

2 實(shí)驗(yàn)結(jié)果

2.1 COD原始透射光譜

圖1(a)為10種濃度COD原始透射光譜,從圖1中可以看出,不同濃度溶液的COD光譜曲線的趨勢(shì)類(lèi)似,在紫外線波段180.1～400 nm,COD光譜曲線呈先下降后上升的趨勢(shì),這說(shuō)明隨著有機(jī)物含量的增加,水體COD含量越低,其光譜曲線特征越發(fā)明顯。

圖1 透射光譜圖Figure 1 Transmission spectrograms.

2.2 數(shù)據(jù)預(yù)處理

對(duì)于高光譜數(shù)據(jù),除了COD的特征信息外,還可能有光譜采集過(guò)程中產(chǎn)生的背景噪聲輻射以及信號(hào)轉(zhuǎn)換過(guò)程中產(chǎn)生的附加噪聲[11],分別采用不同的預(yù)處理方法進(jìn)行處理,如圖1(b)～1(d)所示。其中,采用多元散射校正有效消除由于散射水平不同導(dǎo)致的光譜數(shù)據(jù)的差異,增強(qiáng)光譜與數(shù)據(jù)之間的相關(guān)性[12];采用標(biāo)準(zhǔn)正態(tài)變量變換降低固體顆粒大小、表面散射以及光源變換等對(duì)光譜信息的影響[13];采用最大最小歸一化在不同程度上消除了光譜散射和背景干擾的影響[13]。

2.3 模型的建立

采用高斯過(guò)程回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型以上述預(yù)處理后的高光譜數(shù)據(jù)為自變量,將不同濃度的COD樣本與光譜數(shù)據(jù)進(jìn)行擬合,為了防止在模型的訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合的現(xiàn)象,采用五折交叉驗(yàn)證方法。輸入為光譜數(shù)據(jù),輸出為COD樣本的濃度。然后分別建立各類(lèi)自變量的高斯過(guò)程回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型。

2.3.1 高斯過(guò)程回歸模型建立

高斯過(guò)程回歸(GPR)是一種建立在貝葉斯框架下的統(tǒng)計(jì)學(xué)習(xí)方法,模型性質(zhì)完全由均值函數(shù)和協(xié)方差函數(shù)確定[14]。它有嚴(yán)格的統(tǒng)計(jì)學(xué)理論基礎(chǔ),對(duì)處理高維數(shù)、小樣本、非線性等復(fù)雜回歸問(wèn)題具有良好的適應(yīng)性[14];該算法還具有容易實(shí)現(xiàn),參數(shù)自適應(yīng)獲取,輸出結(jié)果具有概率意義等優(yōu)點(diǎn)[14]。

將預(yù)處理后的透射光譜數(shù)據(jù)作為模型的輸入,建立高斯過(guò)程回歸模型。使用MATLAB中自帶的 Quadratic Rational Gaussian Process Regression算法對(duì)高斯過(guò)程回歸模型進(jìn)行學(xué)習(xí)訓(xùn)練。本次實(shí)驗(yàn)中將該算法的基函數(shù)設(shè)置為常量,核函數(shù)選用二次有理函數(shù),同時(shí)在訓(xùn)練過(guò)程中對(duì)高光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,優(yōu)化數(shù)值參數(shù),以達(dá)到最優(yōu)效果。模型輸出結(jié)果如圖2所示。

圖2 高斯過(guò)程回歸模型預(yù)測(cè)結(jié)果Figure 2 The prediction results of Gaussian process regression model.

2.3.2 BP神經(jīng)網(wǎng)絡(luò)模型建立

使用MATLAB中自帶的 Scaled Conjugate Gradient Backpropagation算法對(duì) BP 模型進(jìn)行學(xué)習(xí)訓(xùn)練。該算法根據(jù)縮放共軛梯度法更新權(quán)重和偏差值,同時(shí)占用更少的內(nèi)存,適用于高光譜數(shù)據(jù),選擇三層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,第一層神經(jīng)元個(gè)數(shù)設(shè)置為20,第二、三層設(shè)置為10,該算法中迭代次數(shù)(Epoch)閾值為 1 000,激活函數(shù)設(shè)置選用Sigmoid函數(shù),探究不同預(yù)處理方法對(duì)BP網(wǎng)絡(luò)模型回歸準(zhǔn)確率影響。模型輸出結(jié)果如圖3所示。

圖3 BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果Figure 3 The prediction results of BP neural network model.

2.3.3 模型結(jié)果評(píng)估

以均方根誤差RMSE和決定系數(shù)R2為標(biāo)準(zhǔn)對(duì)所建立的各個(gè)模型進(jìn)行精度檢驗(yàn)與比較。其中:均方根誤差RMSE越小,說(shuō)明模型選擇和擬合更好;決定系數(shù)R2越接近1,說(shuō)明模型擬合的效果越好。檢驗(yàn)結(jié)果如表1所示。

表1 未改進(jìn)模型精度檢驗(yàn)結(jié)果Table 1 Testing results of unimproved model accuracy

由表1可知,與全波段的模型相比,經(jīng)過(guò)預(yù)處理后的二次有理GPR模型和BP神經(jīng)網(wǎng)絡(luò)模型的性能均有所提高。其中,預(yù)處理后的二次有理GPR模型其R2最高達(dá)0.982 6;其RMSE最低為0.038 168;預(yù)處理后的BP神經(jīng)網(wǎng)絡(luò)其R2最高達(dá)0.979 3,比全波段R2高出0.039 2,其RMSE最低為0.041 567;與全波段的模型相比,預(yù)測(cè)精度均比原數(shù)據(jù)較高。說(shuō)明采用預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行處理可以有效提取有效光譜信息,排除干擾信息,從而提高光譜數(shù)據(jù)與 COD濃度之間的相關(guān)性,使得模型的性能提高,預(yù)測(cè)效果更好。

2.4 基于PCA改進(jìn)模型的建立

利用主成分分析法(PCA)對(duì)模型進(jìn)行改進(jìn),建立基于PCA的BP神經(jīng)網(wǎng)絡(luò)定量估算模型以及二次有理GPR的定量估算模型。PCA是一種使用最廣泛的基于線性映射的特征提取技術(shù),該算法通過(guò)一定的變換將高維數(shù)據(jù)映射到一個(gè)新的低維空間,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱(chēng)為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依此類(lèi)推,這些主成分能夠反映絕大部分的變量信息[15]。本文實(shí)驗(yàn)中設(shè)置PCA保留足以解釋90% 方差的成分。模型訓(xùn)練后,提取22個(gè)主成分。每成分的解釋方差(順序排列):37.0%、 18.4%、9.1%、4.3%、3.0%、2.0%、1.7%、1.5%、1.4%、1.3%(隱藏最不重要成分的方差)。

2.4.1 基于PCA改進(jìn)的高斯回歸模型

將 COD數(shù)據(jù)集作為PCA-二次有理GPR模型的輸入。模型輸出結(jié)果如圖4所示。

圖4 改進(jìn)的高斯回歸模型預(yù)測(cè)結(jié)果Figure 4 The prediction results of improved Gaussian regression model.

2.4.2 基于PCA改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型

將 COD數(shù)據(jù)集作為PCA-BP神經(jīng)網(wǎng)絡(luò)模型的輸入。模型輸出結(jié)果如圖5所示。

圖5 改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果Figure 5 The prediction results of improved BP neural network model.

2.4.3 基于PCA改進(jìn)的模型結(jié)果評(píng)估

從輸出的結(jié)果可以看出,預(yù)測(cè)值與真實(shí)值差異較小,具有很好的相關(guān)性。對(duì)所建立的各個(gè)改進(jìn)的二次有理GPR模型以及 BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行精度檢驗(yàn)并進(jìn)行比較。改進(jìn)模型檢驗(yàn)結(jié)果如表2所示。

表2 改進(jìn)的模型精度檢驗(yàn)表Table 2 Testing results of improved model accuracy

由表2可知,與未改進(jìn)的模型相比,基于PCA改進(jìn)模型的預(yù)測(cè)精度均有所提高。其中,多元散射校正特征PCA-二次有理GPR模型的R2增長(zhǎng)為0.990 9,多元散射校正特征PCA-BP神經(jīng)網(wǎng)絡(luò)模型的R2增長(zhǎng)為0.990 8,其RMSE均有所減少;標(biāo)準(zhǔn)正態(tài)變換特征PCA-二次有理GPR模型的R2增長(zhǎng)為0.992 0,標(biāo)準(zhǔn)正態(tài)變量變換特征PCA-BP神經(jīng)網(wǎng)絡(luò)模型的R2增長(zhǎng)為0.994 0,可以發(fā)現(xiàn)改進(jìn)后的標(biāo)準(zhǔn)正態(tài)變量變換的R2更接近于1,且RMSE均明顯減少,精度較為提高;最大最小歸一化特征PCA-二次有理GPR模型和最大最小歸一化特征PCA-BP神經(jīng)網(wǎng)絡(luò)模型的R2增長(zhǎng)為0.988 3和0.984 4;其RMSE減少為0.031 195和0.036 048,預(yù)測(cè)精度相比未改進(jìn)的模型也有所提升。說(shuō)明采用 PCA對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)降維,可以實(shí)現(xiàn) COD含量估算模型的優(yōu)化。

3 結(jié)論

分別采用多元散射校正、標(biāo)準(zhǔn)正態(tài)變量變換、最大最小歸一化對(duì)光譜透射率數(shù)據(jù)進(jìn)行預(yù)處理,并建立二次有理高斯回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型,對(duì)于不同的模型,探究不同特征輸入對(duì)模型精度的影響,結(jié)果表明:3種預(yù)處理方法可以有效降低噪音對(duì)數(shù)據(jù)的干擾,且二次有理GPR模型相比BP神經(jīng)網(wǎng)絡(luò)模型有較好的預(yù)測(cè)精度;基于PCA對(duì)各預(yù)處理后的透射光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)降維,篩選出相關(guān)性較好的波段,從而建立改進(jìn)的二次有理GPR模型和BP神經(jīng)網(wǎng)絡(luò)模型。其中,標(biāo)準(zhǔn)正態(tài)變量變換特征PCA-BP神經(jīng)網(wǎng)絡(luò)模型決定系數(shù)達(dá)到了0.994 0,均方根誤差為0.022 540,依據(jù)R2最大、RMSE最小原則,采用PCA改進(jìn)的標(biāo)準(zhǔn)正態(tài)變量變換特征BP神經(jīng)網(wǎng)絡(luò)模型可以建立精度較好的COD定量估算模型。