李 翔,高明亮,陳 征
(1.首都師范大學,北京100048; 2.中國環(huán)境科學研究院,北京 100012)
隨著現(xiàn)代化工業(yè)的不斷發(fā)展,人們環(huán)保意識逐漸增強,許多涉污企業(yè)、廠區(qū)相繼關?;虬徇w[1]。然而,遺留在場地及其周圍的污染物并不會隨著企業(yè)廠區(qū)的搬遷、關停而消失,相反遺留污染物會持續(xù)對周圍的自然環(huán)境及居民造成潛在的風險[2-8],亟需對這些廢棄廠區(qū)遺留的污染物狀況開展持續(xù)調(diào)查及特征分析,為日后的治理、修復及管控提供科學依據(jù)。
在污染特征分析研究方面,國內(nèi)外學者主要通過 GIS 技術,運用污染評價算法及可視化方法,分析污染空間分布特征。White[9]利用克里金插值方法,得到美國某區(qū)域土壤中鋅元素的空間分布格局,從而提取了Zn元素的污染分布特征。Goovaerts[10]等對瑞士某地區(qū)土壤中的銅、鉛元素進行含量分析,利用克里金插值對污染進行特征分析。樓春[11]等從水平方向與垂直方向?qū)δ辰够瘡S場地土壤污染特征進行了分析研究。陳宏[12]等通過場地調(diào)查,確定了南方某場地的主要污染物,進一步分析了污染物在土壤與地下水中的分布特征。耿治鵬[13]等用反距離權重法,分析了重金屬在研究區(qū)的分布特征,運用莫蘭指數(shù)進行空間關聯(lián)分析,運用半變異函數(shù),分析重金屬污染整體的空間結構及趨勢,以探究污染場地的重金屬污染空間特征。近年來,數(shù)學建模及機器學習技術飛速發(fā)展,將其應用于污染場地特征分析成為新趨勢。Zeng[14]等通過三維建模與可視化精細表征高度污染工業(yè)場地的重金屬污染,利用三維模型,揭示水文地質(zhì)特征對污染遷移的影響及分布機制。Liu[15]等提出一種隨機森林與普通克里金法相結合的模型,結合地形要素、場地環(huán)境要素及遙感數(shù)據(jù)等多源環(huán)境數(shù)據(jù),預測某大型砷渣場地土壤中重砷(As)的空間分布。黃燕鵬[16]等基于SOM+K-means分析挖掘及空間插值方法,研究華東地區(qū)某鉻渣污染場地,并將研究區(qū)地下水分為4類區(qū)域,識別出每類區(qū)域需重點關注的污染指標。
在污染場地大數(shù)據(jù)監(jiān)管及數(shù)據(jù)挖掘背景下,提出利用機器學習方法,將研究區(qū)場地的多源異構數(shù)據(jù)進行融合,以綜合評判其污染情況,以期為污染場地管控及決策提供科學參考。
該研究場地為我國華南某市的一個廢棄電鍍工業(yè)區(qū),該市屬亞熱帶海洋性氣候,春夏時間長,秋冬時間短,年平均氣溫22.6 ℃,年平均降水量1805.2 mm。陽光充足,雨量豐沛。該廢棄工業(yè)區(qū)地塊總面積43.614畝,由電鍍廠區(qū)(約23 072 m2)與污水處理廠(約6004 m2)組成。場地東邊與南邊毗鄰化工廠,西邊緊鄰農(nóng)田,北邊與某工業(yè)園相鄰。
本研究所用到的數(shù)據(jù)包括遙感影像數(shù)據(jù)與土壤污染物采樣數(shù)據(jù),其中遙感影像數(shù)據(jù)來源于landsat 8平臺和高分-2號,具體信息見表1。
表1 遙感圖像數(shù)據(jù)信息
土壤污染物采樣數(shù)據(jù)來自于實地調(diào)查采樣,檢測包括銀、砷、鎘、鉻、銅、鎳、鉛、鋅、汞及六價鉻等 10 種重金屬及總氰化物、揮發(fā)性有機物(VOCs)、半揮發(fā)性有機物(SVOCs)、總石油烴(TPH)與多氯聯(lián)苯(PCB)等,其中銅、鎳、鋅三種重金屬元素超過風險篩選值。共設33個采樣點。
按照《關閉搬遷企業(yè)地塊風險篩查與風險分級技術規(guī)定》[下文簡稱《規(guī)定》]分類分級指標,將采樣數(shù)據(jù)劃分為特征數(shù)據(jù)集,其中主要特征包括各類污染物濃度超標倍數(shù)、地表覆蓋情況、地下防滲措施、土壤質(zhì)地、土地利用方式、平均采樣深度等。參考《規(guī)定》中的量化指標,將污染物特征數(shù)據(jù)集按污染嚴重程度分為中度關注、高度關注兩個類別。建立貝葉斯模型,評估各樣本分別屬于高度關注、中度關注的的概率。利用XGBoost算法,計算各特征的特征重要性,識別出污染嚴重程度的主要控制特征,并以此量化結果作為權重,量化各樣本的污染特征值?;贏RCGIS平臺,繪制該廠區(qū)污染分布圖,分析廠區(qū)內(nèi)部污染物分布特征,為污染場地治理、修復及管控決策提供科學參考。
圖1 技術研究路線
1.3.1 樸素貝葉斯模型
樸素貝葉斯是貝葉斯分類器中的一種模型,用已知類別的數(shù)據(jù)集訓練模型,從而實現(xiàn)對未知類別數(shù)據(jù)的類別判斷,理論基礎是貝葉斯決策論[17-24],核心思想是利用先驗知識計算出樣本分別屬于每個類別的概率,以此來判定樣本所屬的類別,故需引入貝葉斯概率公式來計算樣本概率。
貝葉斯公式一般表達為:
(1)
也可通俗表達為:
(2)
假設一組樣本需要分為兩個類別,則只需計算每條樣本分別屬于類別1與類別2的概率,見下式:
(3)
(4)
在污染場地中,貝葉斯方法進行數(shù)據(jù)融合主要思路是利用樸素貝葉斯分類器中的高斯分類器,將樣本的各個特征輸進分類器,并輸出每條樣本對應的類別,以達到數(shù)據(jù)統(tǒng)一化的目的。樣本特征值主要通過污染場地詳細調(diào)查的數(shù)據(jù)整理得到(如地表覆蓋情況、地下防滲措施、采樣深度、污染物濃度等),通過貝葉斯方法來進行分類,得到樣本的所屬類別。
1.3.2 XGBoost算法
XGBoost算法[25-29]是一種決策樹提升算法,全稱為 eXtremeGradient Boosting。與 GBDT 算法相同,XGBoost算法由不定量的弱分類器組成,與GBDT的不同之處在于目標函數(shù)的定義方式。XGBoost 的樹模型與目標函數(shù)表達式類似,同樣屬于boosting算法,所以遵從前向分布加法,以第t步的模型為例,模型的第i個樣本的x的預測值為:
(5)
(6)
(7)
(8)
根據(jù)泰勒公式,把函數(shù)f(x+Δx)在x處進行泰勒的二階展開,得到式(9):
(9)
(10)
將上述的二階展開式帶入到 XGBoost 的目標函數(shù)中,得到目標函數(shù)的近似值:
(11)
(12)
對Ω(ft)進行正則化,得:
(13)
用葉子結點表達目標函數(shù):
(14)
記∑(i∈Ij)gi為Gj,∑(i∈Ij)hi為Hj,
對wj求導,得:
(15)
目標函數(shù)可簡化為:
(16)
XGBoost算法引入正則化項于損失函數(shù)中,降低了模型的復雜度,減少了模型出現(xiàn)過擬合的概率,利用稀疏感知算法判斷模型的分裂方向,彌補了特征缺失值導致的誤差,通過抽樣計算,減小了計算量,避免了過擬合現(xiàn)象的出現(xiàn),具有非常高的可執(zhí)行性[30]。
特征重要性是通過對數(shù)據(jù)集中的每個特征進行計算并排序得到的。在XGBoost算法中選擇Gain(增益)衡量每個特征對模型性能改進做出的貢獻。與其他特征相比,此度量值的較高值意味著它對生成預測更為重要。由節(jié)點負責加權及記錄次數(shù),將一個特征在所有提升樹中的結果進行加權求和后然后平均,得到特征重要性的量化結果。
(17)
利用該算法獲取每個樣本的每個指標造成污染嚴重程度的特征重要性,并以此作為每個指標的權重,利用線性加權方法得到樣本的污染特征值,量化評估污染地塊的綜合污染情況。
以報告為數(shù)據(jù)來源,以《規(guī)定》為參考,選取地表覆蓋情況、地下防滲措施、土壤類型、采樣深度、重金屬污染物超標倍數(shù)等影響因子,將各個影響因子進行量化。
量化細則如表2。
表2 非結構化數(shù)據(jù)量化細則
利用貝葉斯方法,輸出每個樣本分別是屬于中度關注還是高度關注的概率,以此來判斷該樣本所在區(qū)域的污染關注程度。采用貝葉斯模型處理多維、多類別數(shù)據(jù),無需將數(shù)據(jù)統(tǒng)一化,顯著提高了多源數(shù)據(jù)融合效率,避免了量綱及單位問題,更好地輔助決策。
(18)
(19)
根據(jù)貝葉斯概率公式,計算每個樣本分別屬于中度關注還是高度關注的為后驗概率,故需要計算出先驗概率P(中度關注)、P(高度關注)。由于特征數(shù)據(jù)集中的數(shù)據(jù)已經(jīng)過量化,因此在貝葉斯模型中屬于連續(xù)型數(shù)據(jù),故采用高斯方法,求出先驗概率概率P(特征∣中度關注)、P(特征∣高度關注)。根據(jù)公式進行計算,得到樣本的后驗概率,若P(中度關注∣特征)>P(高度關注∣特征),則判斷該樣本所在區(qū)域關注度為中度關注,反之亦然。
將數(shù)據(jù)輸入值樸素貝葉斯分類器中,分類結果如表3所示。
表3 污染關注度計算結果
表4 特征指標重要性量化結果
經(jīng)過分類,場地內(nèi)部高度關注區(qū)域共有6處,分別為MC04/MC05一帶、MC09/MC11一帶、MC18/MC20。其余部分皆為中度關注區(qū)域。分析發(fā)現(xiàn),MC11、MC09點位于地塊南側(cè)某電鍍廠排污出口附近,土質(zhì)為砂土,地表硬化情況一般,有裂縫與破損及一定的地下防滲措施。MC04、MC05處位于原場地污水處理廠,土質(zhì)為砂土,地表硬化情況一般,有裂縫與破損及一定的地下防滲措施。
傳統(tǒng)方法(如內(nèi)梅洛綜合指數(shù)法、污染物濃度插值法等)對地塊內(nèi)污染物進行特征分析,僅考慮區(qū)域內(nèi)污染物含量造成的影響,難以綜合反映場地污染情況,因此通過XGBoost算法獲取每個污染特征指標造成污染嚴重程度的特征重要性,以此作為每個指標的權重,利用線性加權方法,得到每個采樣點的污染特征值,特征值越大,代表當前區(qū)域綜合污染情況及風險越嚴重,以此量化評估污染地塊的綜合污染情況,從而實現(xiàn)估計環(huán)境信息的污染特征分析。
2.3.1 特征指標權重計算方法
利用XGBoost算法,得到所有特征指標在模型中的增益(Gain),再用每個特征的增益除以所有特征增益的總和,得到每個指標特征的權重:
(20)
其中,Gaini是每個特征指標的增益,n是特征個數(shù)。
2.3.2 特征值計算方法
分別將各個影響因子的權重與特征數(shù)據(jù)集中相應的數(shù)值進行相乘,再進行相加,將得到的數(shù)據(jù)作為污染特征值。
特征值計算結果如表5所示。從表中結果可知,該場地主要污染物為銅、鎳、鋅,與其主要電鍍相關業(yè)務排放特征一致。通過對比分析可知,該場地區(qū)域內(nèi)鋅元素污染最為嚴重,污染特征平均值達到12.40。其中,在MC09、MC11及MC18點位,鋅元素污染特征值分別達到了20.10、24.56及20.35,需要重點關注。
表5 污染特征值計算結果
由圖2可以看出,鎳、鋅、銅三種元素的污染分布情況較為接近。污染嚴重區(qū)域集中在場地西北側(cè)污水處理廠附近及原電鍍廠與電染廠排污出口處,并有向四周擴散的趨勢。MC11、MC09點位于某電鍍廠排污出口附近,土質(zhì)為砂土,地表硬化情況一般,有裂縫與破損及一定的地下防滲措施。MC04、MC05處位于原場地污水處理廠,土質(zhì)為砂土,地表硬化情況一般,有裂縫與破損及一定的地下防滲措施。初步判斷電鍍生產(chǎn)是導致銅、鎳、鋅三種污染的主要原因,且污染超標最嚴重的污染元素是鋅。此外,前期研究發(fā)現(xiàn),污水處理環(huán)節(jié)及運輸過程泄露也是導致重金屬污染的重要原因之一[13]?;诖?針對該廢棄場地的修復工作,應主要集中在西北部污水處理廠、南部及北部的電鍍廠排污出口處,可減少修復工作成本及化學修復對環(huán)境帶來的副作用。
圖2 鎳、鋅、銅污染特征可視化結果
通過對多源數(shù)據(jù)的篩選整理,利用貝葉斯決策方法,預測污染場地內(nèi)部污染嚴重程度,其中預測結果與該污染場地實際污染分布情況相吻合。根據(jù)相關材料篩選出能夠綜合評價污染場地特征的指標,將其量化,利用XGBoost算法及線性加權,獲得污染場地各部分樣本的污染特征值,其中鋅元素污染特征值整體較高,說明該場地鋅元素污染較嚴重,污染特征值可視化結果亦與實際情況相符。本研究基于貝葉斯決策與XGBoost構建的廢棄場地污染特征分析方法,可為污染場地管控、修復工作提供技術支撐及決策參考。