錢 佳,郭云開,章 瓊,蔣 明
(1. 長沙理工大學(xué)交通運輸工程學(xué)院,湖南 長沙 410014; 2. 長沙理工大學(xué)測繪遙感應(yīng)用技術(shù)研究所,湖南 長沙 410076)
土壤在農(nóng)業(yè)生產(chǎn)、全球氣候變化、生物多樣性和環(huán)境保護等方面發(fā)揮著重要作用[1-2]。近幾十年來,由于礦區(qū)開采和工業(yè)污染加劇了土壤重金屬的聚集,農(nóng)田土壤重金屬污染不僅對我國生態(tài)環(huán)境建設(shè)造成極大影響,更是直接危害到人體的健康,因此,在不同時間和空間尺度上監(jiān)測和評估土壤污染程度的必要性有所增加[3-4]。
傳統(tǒng)土壤重金屬污染狀況監(jiān)測方法較為昂貴且用時較久,不利于區(qū)域性快速監(jiān)測和評價。近年來,近紅外光譜技術(shù)依靠光譜信息精細且光譜分辨率高的優(yōu)勢,被廣泛應(yīng)用于土壤重金屬相關(guān)研究中。如文獻[5]利用土壤近紅外光譜結(jié)合逐步多元線性回歸分析對Cu含量進行反演;文獻[6]采用偏最小二乘對土壤重金屬Pb含量進行了估算;文獻[7]運用人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)了土壤重金屬銅的反演;文獻[8]對礦區(qū)土壤重金屬Pb、Zn進行了定性和定量模型遷移分析,表明定性分類適用于礦區(qū)土壤重金屬污染大面積快速監(jiān)測。
目前土壤重金屬相關(guān)研究均在有限樣本量且重金屬含量均衡條件下進行試驗分析。由于礦區(qū)土壤重金屬含量高度變異性,具有各污染等級樣本不均衡問題。因此,本文在現(xiàn)有研究基礎(chǔ)上[9-10],將文獻[11]提出的SMOTE(synthetic minority over-sampling technique)算法應(yīng)用于土壤重金屬高光譜反演中,其基本思想是生成少數(shù)類樣本使得各污染等級的樣本趨于均衡,構(gòu)建應(yīng)用較為廣泛的隨機森林模型進行定性與定量試驗[12-13],并進行精度分析。
本次研究以湖南省瀏陽市某硫鐵礦區(qū)為例。該礦區(qū)屬亞熱帶濕潤季風(fēng)氣候,四季分明,地勢相對平坦,土壤類型主要以黃泥田為主,主要作物有水稻和油菜籽。由于礦產(chǎn)開采所附帶的礦渣及廢液流入土壤,嚴(yán)重影響當(dāng)?shù)氐乃窘】?,迫切需要研究土壤受重金屬污染程度。本次試驗研究?017年6月實地采用網(wǎng)格法采集礦區(qū)土壤樣品,共采集37個樣本。土壤樣品采集后密封、標(biāo)記并帶回實驗室。在實驗室中,去除土壤樣品中的一些雜物,如碎石、根系等。在實驗室風(fēng)干后,研磨后過100目篩制樣供測試使用。每個樣本分別通過化學(xué)方法測定土壤重金屬Pb、Cd含量和采用Field-SpecAvaField-3波譜儀進行土壤高光譜采集。
對高光譜數(shù)據(jù)進行重采樣和光譜變換能分別降低信息冗余和提高相關(guān)性[11]。在高光譜數(shù)據(jù)5 nm重采樣基礎(chǔ)上進行5種常用的光譜數(shù)據(jù)變換,包括一階微分(FD)、二階微分(SD)、倒數(shù)一階微分(REC-FD)、倒數(shù)二階微分(REC-SD)和倒數(shù)對數(shù)變換(LOG-REC)。將上述6種光譜指標(biāo)與土壤重金屬Pb、Cd含量在SPSS軟件中作相關(guān)性分析。土壤重金屬Pb、Cd最大相關(guān)性分別在REC-SD和FD取得,分別為0.558和0.470。通過數(shù)學(xué)變換,顯著提升了土壤重金屬含量與光譜之間的相關(guān)性。本文選取REC-SD和FD光譜指標(biāo)進行后續(xù)試驗分析。由于篇幅有限,僅展示Pb原始光譜與REC_SD的相關(guān)性圖,如圖1所示。
本文采用單因子指數(shù)法作為土壤重金屬污染狀況評價方法,計算公式為
(1)
式中,ci為土壤重金屬i的實測值;si為土壤重金屬i的湖南省土壤背景值。
本次試驗中依據(jù)污染指數(shù)Pi的大小共分為4個等級,結(jié)果見表1。依據(jù)土壤重金屬污染等級劃分為訓(xùn)練集26個和測試集11個,保持了整個數(shù)據(jù)集的土壤類別分布。
表1 土壤重金屬Pb、Cd單因子污染評價結(jié)果
SMOTE算法的基本思想是在相距較近的少數(shù)類樣本進行線性插值生成虛擬樣本,達到擴充少數(shù)類別的樣本及各等級樣本量均衡的目的,其關(guān)鍵步驟可表示如下:
(1) 隨機選取少數(shù)類別中樣本x,首先找到距其最近的K個少數(shù)類樣本,記為y1,y2,…,yk。
(2) 根據(jù)樣本均衡條件設(shè)置上采樣倍率參數(shù)N。
(3)x分別和K個少數(shù)類樣本進行隨機線性插值,生成N個新的少數(shù)類樣本,記為Xnew1,Xnew2,…,XnewN,基本生成公式為
Xnewj=x+rand(0,1)×(yj-x),j=1,2,…,N
(2)
式中,rand(0,1)是指區(qū)間(0,1)內(nèi)的一個隨機數(shù)。
本文使用Python語言實現(xiàn)隨機森林和SMOTE算法。對于定量分析采用模型均方根誤差(root mean square error,RMSE)和驗證集決定系數(shù)(R2)對含量預(yù)測結(jié)果進行綜合評估。對于定性分析采用混淆矩陣中總體精度O及Kappa系數(shù)對分類結(jié)果精度進行評價。
本文對PCA降維前后光譜樣本構(gòu)建隨機森林定量反演模型,預(yù)測結(jié)果見表2,Pb、Cd含量反演精度均較低,且重金屬Cd含量預(yù)測R2為負,這也是由于高含量樣本過少導(dǎo)致預(yù)測值偏低,誤差較大。PCA改變光譜的數(shù)值并降低光譜與重金屬含量間的相關(guān)性[14-15],相較于原始光譜,應(yīng)用PCA降維后光譜構(gòu)建的反演模型預(yù)測精度低。
表2 重金屬Pb、Cd定量反演結(jié)果
注:RF表示使用全波段參與回歸建模,PCA_RF表示使用PCA提取的特征波段參與回歸建模。
對光譜降維前后訓(xùn)練樣本應(yīng)用SMOTE算法,重金屬Pb、Cd各等級樣本量均達到平衡,對4種不同處理方法下光譜樣本構(gòu)建隨機森林分類模型,并與定量反演結(jié)果計算得到的污染指數(shù)作對比分析,結(jié)果見表3。定量反演結(jié)果計算得到的污染指數(shù)與直接分類精度均較低。土壤重金屬含量高度變異性及樣本不均衡問題導(dǎo)致結(jié)果較差。相較于原始樣本,應(yīng)用SMOTE算法均衡各等級樣本后,Pb、Cd分類精度均得到提升,在原始光譜組合SMOTE算法分類反演精度最優(yōu),Pb、Cd總體精度均達到92%,Kappa系數(shù)均為0.87。相較于原始樣本,Pb、Cd直接分類總體精度均提高28%,Kappa系數(shù)分別提高0.46和0.39。
表3 重金屬Pb、Cd分類精度
注:PCA表示主成分分析,RF表示隨機森林模型,Regre表示依據(jù)定量反演結(jié)果計算所得的污染狀況類別,Class表示隨機森林分類結(jié)果,_表示組合。
本文進一步分析了RF_Class和SMOTE_RF_Class預(yù)測結(jié)果中多數(shù)類與少數(shù)類誤判率,見表4。SMOTE_RF_Class模型中土壤重金屬Pb、Cd污染狀況多數(shù)類樣本及少數(shù)類樣本誤判率均大幅度下降,說明SMOTE均衡各污染等級樣本的有效性,避免分類結(jié)果偏向樣本量多的類別。SMOTE組合隨機森林模型對礦區(qū)土壤重金屬進行污染狀況分類結(jié)果較優(yōu)。
表4 PCA降維前Pb、Cd類別誤判率 (%)
針對礦區(qū)土壤重金屬含量高度變異性導(dǎo)致定性分類精度低的問題,本文應(yīng)用SMOTE算法生成虛擬樣本均衡重金屬Pb、Cd各污染等級樣本,并構(gòu)建隨機森林模型進行定性與定量試驗,結(jié)論如下:①在重金屬含量高度變異性時,定量反演時預(yù)測精度較差。②在定性分析中,重金屬Pb、Cd污染狀況分類精度在SMOTE_RF_Class組合處理方式精度最高,總體精度均為92%,相較于原始樣本分類結(jié)果均提升28%,說明該方法具有一定的適用性。③定性分類結(jié)果精度優(yōu)于定量反演結(jié)果計算所得的污染指數(shù),并能從整體上判斷研究區(qū)的重金屬污染狀況,為大面積應(yīng)用遙感影像監(jiān)測礦區(qū)土壤重金屬污染狀況提供了一種有效、精確的方法。