李慶波,畢智棋,崔厚欣,郎嘉曄,申中凱
1. 北京航空航天大學儀器科學與光電工程學院,精密光機電一體化技術教育部重點實驗室,北京 100191 2. 河北先河環(huán)??萍脊煞萦邢薰?,河北 石家莊 050035
水資源是人類生存發(fā)展最重要的戰(zhàn)略資源,保護地表水資源安全對社會可持續(xù)性發(fā)展具有重大意義。為保護水資源安全,需要采用有效方法對水質進行評價??傆袡C碳是反映水中含碳有機污染物的指標,可以作為評價地表水質的重要依據(jù)。國內外對總有機碳檢測進行了很多方法的嘗試,現(xiàn)行的國家標準為2009年制定的燃燒氧化-非分散紅外吸收法,將試樣通過高溫燃燒管高溫催化氧化獲得總碳轉化的二氧化碳,經(jīng)低溫反應管酸化測得無機碳轉化的二氧化碳,經(jīng)非分散紅外檢測器檢測,總碳與無機碳差值即為總有機碳。在2017年,Ma等采用臭氧氧化化學發(fā)光信號進行在線海水總有機碳含量檢測[1],取得了較好的測量結果。2018年Shin-Ichi Ohira等研制出以水洗脫液為基礎的高效液相色譜的總有機碳檢測器[2],將分離的分析物在線氧化為二氧化碳,收集到超純水中,然后通過電導率檢測總有機碳含量。2020年,Luo等采用比色傳感器,在高通量過程中與水樣反應產生特征模式,采用機器學習建立傳感器與總有機碳含量的模型[3]。上述方法均需要進行復雜的前處理,近年來,紫外可見光譜法因具有無需化學前處理、 可在線原位檢測、 快速響應等優(yōu)點在水質檢測中被廣泛應用[4-6]。本工作采用浸入式的紫外-可見光譜儀器采集水樣光譜, 采用基于自適應增強學習的區(qū)間偏最小二乘回歸方法建立光譜與總有機碳含量的定量分析模型,實現(xiàn)地表水總有機碳的定量分析。采用凈信號分析降低地表水中因其他物質對總有機碳檢測產生的干擾,提高總有機碳檢測方法在不同地表水環(huán)境的魯棒性。
根據(jù)國標法采用分析純鄰苯二甲酸氫鉀配置總有機碳標準溶液共43個樣品,濃度范圍為25.0~150.0 mg·L-1。選取25個樣本作為建模訓練集,10個樣本作為測試樣品集,8個樣本作為第二時間段的反測樣本集。
實測樣本為現(xiàn)場采集藁城污水廠排污口污水及河北先河公司園區(qū)的生活污水,進行等梯度稀釋共得到50組水樣,總有機碳濃度范圍為7.2~272.0 mg·L-1,選取33個樣品進行建模,17個樣品作為測試集驗證,實際水樣總有機碳含量采用國標法經(jīng)實驗室化驗得到。
采用河北先河環(huán)保科技股份有限公司研發(fā)的浸入式在線水質分析儀。該設備光源為氙燈,光程長為2 mm,采集光譜范圍為188~722 nm,共256個波段,每個水樣光譜連續(xù)掃描10次,每次間隔15 s,取平均光譜作為該樣品的對應光譜。
使用預測均方根誤差(RMSEP)和平均絕對值百分比誤差(MAPE)作為模型預測測試集樣品濃度的精度評價指標,其計算方法如式(1)和式(2)
(1)
(2)
針對總有機碳定量分析問題,采用基于自適應增強學習[7-8]的區(qū)間偏最小二乘回歸法[9](Adaboost interval partial least squares regression, Ada-iPLSR)。將總有機碳吸收光譜波段分為若干子區(qū)間,初始化訓練樣本權重,依次在各子區(qū)間建立偏最小二乘回歸模型,根據(jù)子區(qū)間模型預測誤差率計算該子區(qū)間預測結果的權重系數(shù),并更新下一子區(qū)間訓練樣本權重,最后將各子區(qū)間模型預測結果線性加權組合得到總有機碳的檢測結果。具體算法過程如下:
En=max|yi-Gn(xi)|,i=1, 2,…,m
(3)
式(3)中,xi為訓練集第i個樣本子區(qū)間波長吸光度值,yi為訓練集第i個樣本水質參數(shù)真值,Gn(x)為第n個子區(qū)間的定量模型函數(shù)。然后計算每個訓練集水樣樣本參數(shù)的相對誤差
eni=|yi-Gn(xi)|/En
(4)
得到第n個子區(qū)間偏最小二乘回歸模型的預測誤差率
(5)
由此得到該子區(qū)間預測模型的權重系數(shù)
an=en/(1-en)
(6)
樣本權重更新公式為
(7)
其中Zn為規(guī)范化因子
(8)
最后將各子預測模型結果加權得到自適應增強學習后的預測結果
(9)
針對實際地表水基質對總有機碳光譜檢測造成交叉干擾問題,采用凈信號分析方法[9]提取總有機碳凈信號光譜信息。具體計算過程如下:
首先將樣品原始光譜X向濃度矩陣y進行正交投影得到X-k, 即得到除被分析參數(shù)以外其他成分的張成空間,得
(10)
y*=XX+y
(11)
最后對未知樣品進行變換
(12)
圖1為第一時間段實驗室配制總有機碳標準溶液光譜,總有機碳含量范圍為25.0~150.0 mg·L-1, 共35個不同濃度的標準總有機碳溶液。從圖中可以看出,標準溶液光譜在230~260和260~300 nm有兩個吸收峰,為減少與其他水質參數(shù)吸收峰重疊,選擇在230~260 nm波段進行光譜與總有機碳的定量建模。圖2為另一時間段采集剩余的8個標準樣品光譜,總有機碳含量范圍為37.0~145.0 mg·L-1。圖3為實際地表水進行梯度稀釋后的共50個水樣樣本光譜。
圖1 第一時間段總有機碳標準溶液光譜Fig.1 Spectra of total organic carbon standardsolution in the first period
圖2 第二時間段總有機碳標準溶液光譜Fig.2 Spectra of total organic carbon standardsolution in the second period
圖3 實際地表水水樣光譜Fig.3 Spectra of actual surface water samples
2.2.1 總有機碳標準溶液分組驗證及反測驗證結果
首先采用SPXY算法[11]選出25個濃度總有機碳溶液作為訓練集,10個濃度總有機碳溶液作為測試集。另配制8個濃度總有機碳樣品,作為第二時間段反測樣品,用來檢驗儀器狀態(tài)變化時模型預測準確性及魯棒性。
由表1結果可知,由于儀器狀態(tài)的變化,在第二時間段進行的反測驗證實驗中同一模型總有機碳預測的均方根誤差要大于分組驗證實驗。采用Ada-iPLSR算法回歸模型在分組驗證和反測驗證中均方根誤差為1.304和1.533 mg·L-1,均為最小結果,具有最好的定量分析精度,且具有很好的魯棒性,和偏最小二乘回歸方法和極限學習機方法比較,反測實驗定量精度分別提高了27.33%和3.72%。
2.2.2 實際水樣總有機碳預測結果
實際水樣驗證實驗,分別于河北石家莊藁城污水處理廠排污口和河北先河公司園區(qū)采集生活污水,通過蒸餾水對污水進行稀釋共得到50個水樣樣本,經(jīng)實驗室國標法化驗得到總有機碳實際濃度。采用SPXY算法選擇33個樣本作為訓練集,17個樣本作為測試集,建模方法采用偏最小二乘回歸法(PLSR)、 自適應增強學習區(qū)間偏最小二乘回歸法(Ada-iPLSR)、 凈信號分析偏最小二乘回歸法(Nas-PLSR)以及凈信號分析自適應增強學習區(qū)間偏最小二乘回歸法(Nas-Ada-iPLSR)進行對比,評價指標采用預測均方根誤差和相對誤差絕對值的平均值,結果如表2和表3所示。
表1 總有機碳標準溶液濃度預測結果Table 1 The prediction results of total organic carbonconcentration in standard solution
表2 實際地表水總有機碳濃度預測結果Table 2 The prediction results of total organiccarbon concentration in surface water
表3 實際地表水測試集樣本預測結果Table 3 The prediction results of actual surfacewater samples in test set
Nas-Ada-iPLSR模型在四種建模方法中均方根誤差和相對誤差絕對值的平均值均為最小,分別為3.26 mg·L-1和3.46%。Nas-Ada-iPLSR模型與偏最小二乘回歸法、 自適應增強學習區(qū)間偏最小二乘回歸法、 凈信號分析偏最小二乘回歸法相比,均方根誤差分別提高了43.56%,12.58%,34.97%,具有了較好的預測精度和適應性,能夠對實際地表水樣中的總有機碳含量進行準確預測。
總有機碳是依據(jù)碳含量評價水質有機物污染的關鍵指標,采用紫外-可見光譜技術能夠對地表水中總有機碳進行在線快速準確檢測。實驗結果表明,與傳統(tǒng)的定量分析方法相比,本文提出的基于自適應增強學習的區(qū)間偏最小二乘回歸方法獲得更好的水質總有機碳預測結果,分組驗證和反測驗證的預測均方根誤差分別為1.304和1.533 mg·L-1。經(jīng)凈信號預處理后的光譜降低了地表水基質對總有機碳檢測的影響,提升了預測精度。分組驗證中均方根誤差為3.36 mg·L-1,平均絕對值百分比誤差為3.46%,具有較好的預測精度,驗證了模型的有效性和魯棒性,為地表水總有機碳檢測提供了方法支撐。