傅邦杰,牛瑞卿,王春勝
(中國地質大學(武漢) 地球物理與空間信息學院,武漢 430074)
土壤是地球上所有生命生存與發(fā)展的重要基礎,它不僅孕育了動植物與微生物,同時也是人類社會發(fā)展的基石[1]。城市化進程加快,土地資源不斷被開發(fā)利用、大量物質資料被生產(chǎn)的同時,還伴隨著廢水廢渣的產(chǎn)生。這些廢料往往含有過量的重金屬,且無法被快速降解。由于人們環(huán)境保護意識薄弱,這些化工廢氣廢水、生活廢料和污水大多被直接排入地下,使重金屬在土壤中的富集程度不斷加深。土壤重金屬含量過高,會直接或間接地影響地球上動植物的生長,同時會導致環(huán)境污染問題的產(chǎn)生。金屬鎳是重金屬的一種,土壤中鎳含量過高會破壞植物的防御系統(tǒng),對植物幼苗產(chǎn)生明顯的抑制作用,進而導致植物的總生物量降低[2]。另一方面,鎳元素被農(nóng)作物吸收之后,在食物鏈的作用之下容易被人體吸收,并在人體各器官中積累。人體內(nèi)鎳元素積累過高,會導致皮膚炎、胃腸炎并誘發(fā)呼吸道癌癥,甚至可能導致白血病[3-4]。因此,準確獲取土壤中的鎳含量信息,加強土壤環(huán)境的科學監(jiān)測與管理,對于環(huán)境保護與人類社會的可持續(xù)發(fā)展具有重要意義。
現(xiàn)階段,在土壤組分檢測方法方面,以主流的實驗室化學檢測為主,精度高的優(yōu)勢得到了廣泛的肯定,但是其耗費大量人力、物力、時間等缺點也必須得到重視[5]。高光譜遙感技術自發(fā)展以來,其技術發(fā)展不斷成熟,在各個領域應用廣泛[6],尤其在土壤成分分析方面表現(xiàn)出較強的適用性,使得利用高光譜技術快速監(jiān)測土壤重金屬含量成為可能。李瓊瓊等[7]構建了上海閔行居民區(qū)土壤重金屬Cu、Pb、Zn元素多元線性逐步回歸模型,所建模型的決定系數(shù)R2位于0.43~0.68之間。趙理等[8]基于土壤汞含量相關的光譜指標構建了華南地區(qū)土壤高光譜線性估算模型,最優(yōu)模型的R2為0.60。Lu等[9]建立了喀斯特地區(qū)Cr、Cu、Ni、Pb元素的高光譜反演模型,研究發(fā)現(xiàn),鎳離子受黏土礦物的吸附作用影響,其響應波段主要位于黏土礦物相關的吸收帶內(nèi)。童偉等[10]以野外采集土壤樣品中的重金屬含量建立偏最小二乘回歸模型,結果表明,鎳元素含量的最優(yōu)建模R2為0.71。Liu等[11]建立了陜西關中地區(qū)九種重金屬元素的回歸模型,其中鎳估測模型的R2為0.687。在目前已有的研究中,土壤重金屬含量的線性建模精度都不是很理想,而建模精度是定量遙感需要解決的重要問題之一。當線性統(tǒng)計模型不能很好地解釋光譜特征與重金屬含量的復雜關系時,非線性模型的引入可能為該問題的解決提供思路。本文以丹江口庫區(qū)內(nèi)55個土壤樣品的高光譜特征和鎳元素含量為研究對象,在土壤原始光譜及光譜微分變換基礎上,根據(jù)最大正相關性和最小負相關性對光譜特征進行篩選,在光譜特征的基礎上構建并對比分析土壤鎳含量隨機森林模型(random forest regression,RFR)和極端梯度提升樹模型(extreme gradient boosting regression,XGBR)的差異,以期為快速、準確利用高光譜技術反演丹江口庫區(qū)土壤中其他重金屬含量提供思路。
丹江口庫區(qū)位于陜、鄂、豫3個省的交界,介于109°62′E~111°73′E,32°26′N~34°22′N之間。該區(qū)地處亞熱帶半濕潤季風氣候區(qū),日照充足,降雨充沛,非常適合農(nóng)業(yè)的發(fā)展。該區(qū)亦是南水北調(diào)工程中段的水源地,擁有重要的社會功能。然而近年來,庫區(qū)的土壤環(huán)境受到了一定程度的破壞。一方面,生活污水和礦山廢棄物的亂排亂放導致了區(qū)域土壤中重金屬含量累積現(xiàn)象加重;另一方面,庫區(qū)所在流域長期存在較為明顯的水土流失現(xiàn)象,為重金屬元素遷移提供了通道。因此,快速監(jiān)測土壤重金屬含量對保護庫區(qū)水源地的土壤環(huán)境意義重大。
在丹江口庫區(qū)范圍內(nèi),隨機采取具代表性的土壤樣品55個,采樣深度為10~15 cm,去除植物根系。采集的土壤樣品均勻散布于研究區(qū)內(nèi),且盡可能分布在礦區(qū)、工廠、垃圾處理廠等高污染區(qū)域。土壤樣品帶回實驗室后,經(jīng)室內(nèi)風干、研磨過篩,密封保存待測。
X射線熒光光譜法在樣本無損檢測方面應用廣泛,作為一種成熟的分析方法,其原理為利用X射線對樣品進行照射,使樣品產(chǎn)生熒光,然后儀器再對二次特征的射線能量、頻率等進行記錄,最后進行定量的分析[12]。測試過程中,將樣品展開壓平后用X射線熒光光譜儀均勻測定,平均測量時間60 s,測試五次取均值,作為每個土壤樣本的平均鎳含量,單位是mg/kg。
土壤鎳含量統(tǒng)計結果如表1所示。樣本鎳含量在41.0~328.0 mg·kg-1范圍內(nèi)分布不均,表明丹江口庫區(qū)不同區(qū)域的鎳含量累積差異顯著。這種差異主要受區(qū)域本底值和人工擾動的影響。所有樣本的平均鎳含量為121.8 mg·kg-1,超過庫區(qū)一級土壤環(huán)境質量標準值2.05倍,表明庫區(qū)內(nèi)土壤鎳含量存在明顯積累。變異系數(shù)常用于表示樣本間的平均離散程度,變異系數(shù)≤10%為弱變異,10%~100%為中等變異,≥100%為高度變異[13]。由表1可知,鎳元素含量變異系數(shù)達到45.89%,屬于中等變異,在一定程度上反映了樣本鎳含量的離散水平中等,同時為基于高光譜分析的樣本鎳含量的可分性提供了基礎。
表1 土壤鎳含量統(tǒng)計特征分析
土壤光譜采用Field Spec Pro JR地物光譜儀進行測定,測試前對樣本做壓平處理,測試工作在暗箱內(nèi)完成。測試過程中,單個樣品采集五條光譜曲線,取平均值作為樣品的實際光譜反射率,輸出光譜范圍為350~2 500 nm[14]。
不同土壤樣品的光譜曲線如圖1所示。不同樣本的光譜曲線形態(tài)較為相似,差異主要出現(xiàn)在反射峰和吸收谷的位置。由于重金屬含量會影響土壤吸附物在不同波長下的反射性質,不同樣本反射峰和吸收谷的反射率值略有不同。350~700 nm光譜反射率迅速升高,樣本間光譜重疊效應明顯,光譜可分性較差;800 nm后,反射率緩慢升高;光譜曲線在850 nm附近受土壤有機質C-H吸收帶的影響,出現(xiàn)吸收谷;在1 400 nm、1 900~2 000 nm、2 200 nm附近存在黏土礦物羥基吸收帶;2 200 nm后,光譜反射率逐漸下降。
圖1 土壤光譜曲線
(1)
式中:R(λi)′為波段i處的一階微分數(shù)值;R(λi+1)和R(λi-1)分別為波段i處前后各一個步長單位的光譜反射率值;Δλ為相鄰波段的步長,為1 nm。
圖2 相關系數(shù)曲線
表2 光譜特征及相關系數(shù)
RFR是由一系列基礎評估模型集成而來的模型,其基礎評估模型為決策樹模型[18]?;跊Q策樹的樹形結構,決策樹的非葉子節(jié)點均是與特征屬性相關的測試,每次經(jīng)過特征屬性的測試,決策樹會產(chǎn)生多個分支,而決策樹上每個葉子節(jié)點則用來表達連續(xù)的輸出結果。每次抽取部分特征來建立評估器,使得迭代產(chǎn)生的決策樹相互獨立且不重復,同時綜合考慮多個決策樹的預測來產(chǎn)生最后的結果,使得數(shù)據(jù)噪聲、特征共線性和離群點對算法性能的擾動作用最小化,以最大程度提高模型穩(wěn)定性,是隨機森林算法的主要思路。
XGBR也是由一系列基礎評估模型集成而來的模型。與隨機森林并行訓練基礎評估模型的方式不同,極限梯度提升算法采取基礎評估模型串行訓練模式[19]。極限梯度提升樹每次迭代產(chǎn)生的決策樹旨在擬合之前建立的若干決策樹的殘差,從而達到損失下降的目的,最終構成由眾多基礎評估模型集成的強評估器。
影響土壤光譜的要素眾多且影響程度不一,簡單的線性回歸無法解釋光譜特征與土壤鎳含量之間的復雜關系,非線性模型的引入往往有利于這種復雜關系的表達。因此,本文在光譜特征篩選的基礎上,分別采用RFR和XGBR算法構建丹江口庫區(qū)土壤鎳含量的高光譜估測模型。
表3 土壤鎳含量RFR和XGBR模型建模精度
從模型的穩(wěn)定性來看,RFR模型和XGBR模型在訓練集的R2分別為0.90和0.93,在驗證集的R2分別為0.85和0.91,表明兩種不同集成算法模型的普適性均較好。XGBR建模的穩(wěn)定性最優(yōu),RFR模型的穩(wěn)定性次之。從模型精確性來看,驗證集的RMSE值總體保持在12.35~16.48之間,與訓練集的RMSE值范圍相近,表明誤差整體分布較為穩(wěn)定。XGBR模型的平均相對誤差率為10.1%,表明模型預測精度較高。
為了對比土壤鎳含量在不同模型的反演效果,繪制驗證集樣本鎳含量在不同模型中預測值與實測值的1∶1散點圖,如圖3所示。散點分布越靠近1∶1線,表明預測值與真實值越接近,模型預測精度越高。
圖3 土壤鎳含量預測值與實測值散點圖
本文對丹江口庫區(qū)土壤光譜特征進行分析,在微分變換基礎上以最大正相關和最小負相關原則篩選出光譜指標,分別利用RFR和XGBR模型對研究區(qū)土壤鎳含量進行反演研究,最后分析了不同模型在丹江口庫區(qū)土壤重金屬含量的反演精度,得出以下結論。
1)土壤原始光譜反射率與土壤鎳含量相關性整體較低,經(jīng)過光譜微分變換,可以在一定程度上提高土壤光譜數(shù)據(jù)和土壤鎳含量的相關性。其中,光譜反射率一階、對數(shù)一階、平方根一階微分變換數(shù)據(jù)與土壤鎳含量相關性提升顯著,最大相關系數(shù)達0.63,為原始光譜最大相關系數(shù)的三倍左右。
3)所建研究區(qū)土壤鎳含量反演模型表明,兩種不同集成算法模型的普適性均較好。其中,XGBR模型估算土壤鎳含量效果更優(yōu)。XGBR模型的決定系數(shù)R2為0.93,土壤鎳含量反演的平均誤差率為10.1%,精確性較高,可以對丹江口庫區(qū)土壤鎳含量進行有效估測。