張清文,吳風華,宋敬茹,汪金花,張永彬,劉明月,2,3,4,李孟倩,李春景,郝玉峰,滿衛(wèi)東,2,3,4*
基于光譜變換的濱海濕地土壤全氮含量建模預(yù)測①
張清文1,吳風華1,宋敬茹1,汪金花1,張永彬1,劉明月1,2,3,4,李孟倩1,李春景5,郝玉峰6,滿衛(wèi)東1,2,3,4*
(1 華北理工大學礦業(yè)工程學院,河北唐山 063210;2 唐山市資源與環(huán)境遙感重點實驗室,河北唐山 063210;3 河北省礦區(qū)生態(tài)修復(fù)產(chǎn)業(yè)技術(shù)研究院,河北唐山 063210;4 礦產(chǎn)資源綠色開發(fā)與生態(tài)修復(fù)協(xié)同創(chuàng)新中心,河北唐山 063210;5延邊大學地理與海洋科學學院,吉林延吉 133002;6 河北省地質(zhì)礦產(chǎn)勘查開發(fā)局第八地質(zhì)大隊,河北秦皇島 066001)
光譜變換;土壤全氮含量;偏最小二乘回歸;隨機森林回歸;支持向量機回歸
氮元素是土壤中最大的限制性營養(yǎng)元素,在動植物生長、微生物呼吸中有著不可或缺的作用[1]。土壤全氮(TN)含量的高低直接影響濱海濕地生態(tài)系統(tǒng)的初級生產(chǎn)力,且對生態(tài)系統(tǒng)碳循環(huán)等其他生物化學循環(huán)有重要影響[2]。濱海濕地是陸地生態(tài)系統(tǒng)和海洋生態(tài)系統(tǒng)的緩沖區(qū),在凈化水體、涵養(yǎng)水源和保持生物多樣性等方面有重要作用[3],同時也是全球氣候變化和人類活動共同作用下的生態(tài)敏感區(qū),生態(tài)脆弱性高。人類生產(chǎn)生活排放已經(jīng)造成濱海濕地氮循環(huán)失衡[4],所以準確預(yù)測土壤TN含量對生態(tài)系統(tǒng)氮循環(huán)有重要意義。
傳統(tǒng)化學分析方法測定土壤TN含量精度較高,但勞動強度大,人力財力消耗多,且產(chǎn)生大量環(huán)境污染[5]。高光譜技術(shù)的發(fā)展為實現(xiàn)快速、簡便、無污染估測土壤各種理化性質(zhì)提供了新的方法。很多學者通過對原始光譜進行變換、計算光譜指數(shù)、篩選敏感波段等方法確定自變量,再基于數(shù)學模型對土壤各種理化性質(zhì)進行估測,如土壤含水量[6]、重金屬含量[7]、有機質(zhì)含量[8]、有機碳含量[9]等,均達到了較好的預(yù)測效果。高光譜所含土壤信息豐富,合理選取建模波段對土壤TN含量的準確預(yù)測極其重要。劉凡等[10]利用677 nm和1 414 nm波段反射率建立了土壤TN含量模型,但2個波段難以概括全部土壤信息,所建模型有一定的局限性。李焱等[11]選取Pearson相關(guān)系數(shù)最大的10個波段與土壤TN含量進行建模分析,建模效果得到一定程度的改進。于雷等[12]比較了全波段建模與敏感波段建模,發(fā)現(xiàn)雖然基于全波段建模精度要優(yōu)于敏感波段,但敏感波段建立的模型復(fù)雜度遠遠低于全波段建模。為了包含絕大部分光譜信息,同時盡量降低模型復(fù)雜度,篩選敏感波段是必要的。
目前,用于估測土壤理化性質(zhì)的線性模型有多元線性回歸、多元逐步回歸和偏最小二乘回歸(Partial Least Square Regression,PLSR)等[13-14]。其中,多元線性回歸適用于自變量少,且自變量之間相關(guān)性較小的情況,對于土壤光譜,波段數(shù)較多且波段之間相關(guān)性強,所以多元線性回歸有一定的局限性[15];多元逐步回歸可以篩除干擾變量,選擇合適的解釋變量回歸,但是依然不能解決波段間的共線性問題;而PLSR通過提取主成分的方法可以解決這一問題,且可以實現(xiàn)對全部波段信息的概括,建模效果優(yōu)于多元線性回歸和多元逐步回歸[16]。除此之外,機器學習算法中如決策樹回歸、隨機森林回歸(Random Forest Regression,RFR)和支持向量機回歸(Support Vector Regression,SVR)等具有極強的非線性擬合能力,被廣泛應(yīng)用于土壤性質(zhì)的估算[17]。決策樹回歸復(fù)雜度低且適用于高維數(shù)據(jù),是構(gòu)建非線性模型的常用方法,但單棵決策樹回歸容易過擬合,泛化能力差。RFR由多棵決策樹集成,改善了單棵決策樹的缺點,更加穩(wěn)定,是高光譜估測土壤理化性質(zhì)的理想方法[18]。除機器學習外,深度學習也被廣泛應(yīng)用,有學者比較了RFR、SVR和神經(jīng)網(wǎng)絡(luò)建模,結(jié)果表明RFR優(yōu)于神經(jīng)網(wǎng)絡(luò)和SVR[19]。
濱海濕地土壤受潮汐影響大,海水攜帶的營養(yǎng)物質(zhì)多,理化性質(zhì)更新快,濕地土壤TN含量與內(nèi)地差異較大。由于野外采樣受漲潮影響,采樣可達性差,所以基于原始光譜及其多種光譜變換形式的濱海濕地土壤TN含量建模研究較少?;诖?,本研究通過PLSR、RFR和SVR三種建模方法結(jié)合不同光譜變換構(gòu)建土壤TN含量的預(yù)測模型,分析模型效果優(yōu)劣,探求可用于濱海濕地土壤TN含量的光譜預(yù)測方法,以期為估測濱海濕地土壤TN儲量提供方法依據(jù),同時為揭示濱海濕地生態(tài)系統(tǒng)氮循環(huán)提供幫助。
采用環(huán)刀法采集133個唐山市和秦皇島市濱海濕地表層土樣(采樣深度為0 ~ 20 cm),采樣點分布如圖1所示。為減少外界因素對樣品TN含量的影響,對所采集的土樣進行室內(nèi)自然風干,剔除異物,碾磨,過100目篩,然后分為2份,分別用于凱氏蒸餾法測定土樣TN含量[20]和高光譜數(shù)據(jù)采集。
土壤TN含量統(tǒng)計特征如表1所示。土壤TN含量最大值為3.124 g/kg,采集于蘆葦濕地;TN含量最小值為0.024 g/kg,采集于海邊砂土;TN平均含量為0.733 g/kg,標準差為0.501 g/kg,變異系數(shù)為68.5%。133個土樣中包含84個粉土和49個砂土,不同質(zhì)地的土樣土壤TN含量平均值有顯著差異,粉土TN含量平均值為0.881 g/kg,砂土TN含量平均值為0.478 g/kg。砂粒含量較高的土樣TN含量低,粉粒含量高的土樣TN含量高[21]。
(該圖基于國家測繪地理信息局標準地圖服務(wù)網(wǎng)站下載的審圖號為 GS(2020)4619 的標準地圖制作,底圖無修改)
表1 土壤質(zhì)地及其TN含量描述性統(tǒng)計特征
本研究對土壤TN含量與光譜反射率及其各種變換形式進行相關(guān)性分析,Pearson相關(guān)系數(shù)范圍為–1.0 ~ 1.0,絕對值越大,其相關(guān)性越高,波段越敏感;選取相關(guān)系數(shù)大于0.4的波段,進行<0.01水平上的顯著性檢驗,通過顯著性檢驗的波段確定為敏感波段,用于土壤TN含量高光譜模型的估算。
1.3.1 偏最小二乘回歸(PLSR) PLSR兼顧了多元線性回歸、主成分分析和自變量因變量相關(guān)性分析3種分析方法的優(yōu)點,不僅能解決自變量相關(guān)性較強的問題,還可以通過提取主成分的方式降低自變量維數(shù),在樣本數(shù)遠小于自變量數(shù)的情況下建模。本研究通過判斷留一法(leave One Out,LOO)交叉驗證的預(yù)測均方根誤差(Root Mean Square Error of Prediction,RMSEP)確定主因子個數(shù)。理想的RMSEP值隨主因子個數(shù)的增加先遞減,達到最低點后隨主因子個數(shù)的增加出現(xiàn)微小上升或波動。取RMSEP最小時對應(yīng)的主因子個數(shù)建立PLSR模型可有效避免過擬合問題。本研究選擇與土壤TN含量相關(guān)性強的成分,不考慮全部的自變量,因此建立的模型有更好的魯棒性。采用R軟件中“pls”包完成PLSR建模。
1.3.2 隨機森林回歸(RFR) RFR是多個決策樹集成的學習器,可以高精度地處理大數(shù)據(jù)集,具有數(shù)據(jù)適應(yīng)性強、不易受極大值或極小值的影響即穩(wěn)定性高等優(yōu)點,所以模型穩(wěn)定性比PLSR高。RFR通過對多個決策樹的集成融合,輸出結(jié)果為多棵決策樹的平均值。構(gòu)建RFR模型:
1.3.3 支持向量機回歸(SVR) SVR是一種基于統(tǒng)計學習理論的機器學習技術(shù)。SVR使用核函數(shù)將數(shù)據(jù)投影到高維空間,并進行回歸。在SVR建模中,選取徑向核函數(shù),調(diào)整兩個參數(shù)gamma和cost。其中,cost為懲罰系數(shù),cost過大,容易出現(xiàn)過擬合,cost過小,容易擬合不充分;gamma決定數(shù)據(jù)映射到高維空間后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。本研究利用“caret”包的網(wǎng)格搜索法確定最優(yōu)參數(shù)gamma和cost,采用預(yù)測誤差最小的參數(shù)組合進行最終建模。使用R軟件“e1071”包建立SVR模型。
1.3.4 模型精度驗證 建立土壤TN預(yù)測模型,采用LOO交叉驗證。模型的評價指標采用預(yù)測值與實測值的決定系數(shù)(2)、均方根誤差(Root Mean Squared Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE)。其中,RMSE用來衡量觀測值同真值之間的偏差;MAE是絕對誤差的平均值,能更好地反映預(yù)測值誤差的實際情況。模型精度評價標準如表2所示,2越接近1,擬合效果越好,RMSE、MAE值越小,說明模型估算精度越高。計算公式為:
表2 模型整體精度評價標準[24]
由圖2可以看出,研究區(qū)土壤樣本的原始光譜反射率()曲線形態(tài)基本一致,各曲線間差異較小,呈曲折上升的弧形,在1 410、1 920、2 210 nm出現(xiàn)3個明顯的水分吸收谷。其中,在可見光波段(350 ~ 780 nm)范圍內(nèi),迅速上升;除吸收谷外,在近紅外波段780 ~ 1 900 nm范圍內(nèi)緩慢上升,各樣本光譜間差異較大,至2 100 nm處達到最大值;在近紅外波段2 150 ~ 2 500 nm范圍內(nèi),平緩下降。結(jié)合野外采樣點,砂土樣品的曲線在2 300 ~ 2 400 nm處出現(xiàn)明顯吸收谷,此區(qū)間是硅酸鹽礦物中的水分子羥基(–OH)伸縮振動的合頻譜帶,由于砂土中硅酸鹽礦物含量較大[25],所以在圖2中砂土樣品的反射率曲線在2 300 ~ 2 400 nm出現(xiàn)明顯吸收谷,與粉土樣品曲線出現(xiàn)交叉現(xiàn)象。
圖 2 供試土壤樣本原始光譜反射率
表3 不同變換形式下土壤TN含量與光譜波段的相關(guān)性
注:*、**分別表示在<0.05和<0.01水平顯著相關(guān)。
表4 各預(yù)測模型的驗證與對比
對進行7種光譜變換之后,建模2、RMSE和MAE得到了改善,但不同變換形式所建模型精度差異較大。和'、1/和(1/)'、lg和(lg)'相比,一階微分變換參數(shù)建模效果顯著優(yōu)于未經(jīng)過一階微分變換參數(shù)。經(jīng)一階微分變換,反射率大小與土壤TN含量之間的關(guān)系轉(zhuǎn)化為反射率斜率與土壤TN含量之間的關(guān)系,消除了反射率大小中的噪聲,所以一階微分變換參數(shù)建模的效果普遍較好。和1/、'和1/'在3種建模方法中表現(xiàn)相近,說明經(jīng)簡單的倒數(shù)運算對光譜信息的挖掘能力較弱。Brunet等[30]、徐永明等[31]也比較了基于微分變換與其他光譜變換所建立的預(yù)測模型精度,結(jié)果證明,一階微分變換所建模型精度更高。因此,對進行合適的光譜變換,對于提高土壤TN含量預(yù)測模型的精度和穩(wěn)定性具有關(guān)鍵作用。
本研究選取敏感波段為自變量,以土壤TN含量為因變量進行PLSR、RFR和SVR,建立及其7種光譜變換形式對土壤TN含量的預(yù)測模型。圖3顯示了3種回歸方法各自的最優(yōu)模型的土壤TN含量預(yù)測值與實測值的散點圖,可以明顯看出,SVR模型預(yù)測的土壤TN含量與實測值的擬合曲線比PLSR和RFR模型更接近1∶1線,表明實測值與預(yù)測值較為接近,模型預(yù)測精度更高。
圖3 PLSR、RFR、SVR建模中最優(yōu)模型土壤TN含量實測值與預(yù)測值比較
1) 濱海濕地土壤原始光譜反射率與TN含量有較好的相關(guān)性,可以用于對土壤TN含量進行估測,而對原始光譜反射率曲線進行變換,可進一步提高光譜反射率與土壤TN含量的相關(guān)性,其中提高最明顯的變換形式為(1/)'。微分變換可以有效消除噪音,提高光譜反射率對土壤全氮含量的敏感度,故利用土壤光譜反射率預(yù)測土壤TN含量是可行的。
2) 根據(jù)光譜反射率及其變換形式建立的PLSR、RFR和SVR模型,每種算法里均有較好的預(yù)測模型可以粗略預(yù)測土壤TN含量。在PLSR模型中,基于(1/)' 建立的模型預(yù)測精度最高,可以粗略預(yù)測土壤TN含量;在RFR模型中,基于' 建立的模型可精確預(yù)測土壤TN含量;在SVR模型中,基于1/()'建立的模型可準確預(yù)測土壤TN含量。在建立的模型中,經(jīng)光譜變換后建立的模型預(yù)測精度比基于建立的模型精度有所提升,故對變換后建模是科學的。
3) 基于1/()'建立的SVR模型2為0.987,RMSE為0.057 g/kg,MAE為0.050 g/kg,是預(yù)測濱海濕地土壤TN含量的最優(yōu)模型。
[1] 王莉雯, 衛(wèi)亞星. 植被氮素濃度高光譜遙感反演研究進展[J]. 光譜學與光譜分析, 2013, 33(10): 2823–2827.
[2] 宋長春, 宋艷宇, 王憲偉, 等. 氣候變化下濕地生態(tài)系統(tǒng)碳、氮循環(huán)研究進展[J]. 濕地科學, 2018, 16(3): 424–431.
[3] Kirwan M L, Megonigal J P. Tidal wetland stability in the face of human impacts and sea-level rise[J]. Nature, 2013, 504(7478): 53–60.
[4] Socolow R. Fitting on the earth: Challenges of carbon and nitrogen cycle to preserve the habitability of the planet[J]. Engineering, 2016, 2(1): 21–22.
[5] 王紅, 劉高煥, 宮鵬. 利用Cokriging提高估算土壤鹽離子濃度分布的精度——以黃河三角洲為例[J]. 地理學報, 2005, 60(3): 511–518.
[6] 劉煥軍, 王翔, 張小康, 等. 松嫩平原主要土壤類型含水量高光譜預(yù)測模型[J]. 土壤通報, 2018, 49(1): 38–44.
[7] 郭云開, 張思愛, 王建軍, 等. 特征變量選擇結(jié)合SVM的耕地土壤Hg含量高光譜反演[J]. 測繪工程, 2022, 31(1): 17–23.
[8] 勾宇軒, 趙云澤, 李勇, 等. 基于CWT-sCARS的東北旱作農(nóng)田土壤有機質(zhì)高光譜反演[J]. 農(nóng)業(yè)機械學報, 2022, 53(3): 331–337.
[9] 陳秋宇, 楊仁敏, 朱長明. 基于VIS-NIR光譜的互花米草入侵濕地土壤有機碳預(yù)測研究[J]. 土壤學報, 2021, 58(3): 694–703.
[10] 劉凡, 馬玲, 楊光, 等. 灰漠土土壤全氮含量的高光譜特征分析及估測[J]. 新疆農(nóng)業(yè)科學, 2017, 54(1): 140–147.
[11] 李焱, 王讓會, 管延龍, 等. 基于高光譜反射特性的土壤全氮含量預(yù)測分析[J]. 遙感技術(shù)與應(yīng)用, 2017, 32(1): 173–179.
[12] 于雷, 洪永勝, 耿雷, 等. 基于偏最小二乘回歸的土壤有機質(zhì)含量高光譜估算[J]. 農(nóng)業(yè)工程學報, 2015, 31(14): 103–109.
[13] 涂宇龍, 鄒濱, 姜曉璐, 等. 礦區(qū)土壤Cu含量高光譜反演建模[J]. 光譜學與光譜分析, 2018, 38(2): 575–581.
[14] 尼加提·卡斯木, 師慶東, 郭玉川, 等. 基于EM38和WorldView-2影像的土壤鹽漬化建模研究[J]. 土壤, 2019, 51(3): 594–601.
[15] 錢佳, 郭云開, 蔣明, 等. 不同類型土壤Cu含量高光譜聯(lián)合反演建模[J]. 測繪科學, 2020, 45(8): 138–144.
[16] 陳紅艷, 趙庚星, 李玉環(huán), 等. 消除水分因素影響的野外原狀土壤鹽分高光譜建模估測[J]. 農(nóng)業(yè)工程學報, 2018, 34(12): 119–125.
[17] 張東輝, 趙英俊, 秦凱. 一種新的光譜參量預(yù)測黑土養(yǎng)分含量模型[J]. 光譜學與光譜分析, 2018, 38(9): 2932–2936.
[18] 王騰軍, 方珂, 楊耘, 等. 隨機森林回歸模型用于土壤重金屬含量多光譜遙感反演[J]. 測繪通報, 2021(11): 92–95.
[19] Cui L J, Dou Z G, Liu Z J, et al. Hyperspectral inversion ofcarbon, nitrogen, and phosphorus stoichiometry using three models[J]. Remote Sensing, 2020, 12(12): 1998.
[20] 鮑士旦. 土壤農(nóng)化分析[M]. 3版. 北京: 中國農(nóng)業(yè)出版社, 2000.
[21] 林俊杰, 楊振宇, 劉丹, 等. 干濕交替下三峽支流消落帶沉積物粒徑組成及氮分布特征[J]. 土壤學報, 2016, 53(3): 602–611.
[22] 孫興亮, 郝曉華, 王建, 等. 基于光譜-環(huán)境隨機森林回歸模型的MODIS積雪面積比例反演研究[J]. 冰川凍土, 2022, 44(1): 147–158.
[23] Song J R, Gao J H, Zhang Y B, et al. Estimation of soil organic carbon content in coastal wetlands with measured VIS-NIR spectroscopy using optimized support vector machines and random forests[J]. Remote Sensing, 2022, 14(17): 4372.
[24] Viscarra Rossel R A, McGlynn R N, McBratney A B. Determining the composition of mineral-organic mixes using UV-vis-NIR diffuse reflectance spectroscopy[J]. Geoderma, 2006, 137(1/2): 70–82.
[25] 王惠敏. 基于光譜吸收特征的土壤有機質(zhì)與重金屬含量估算研究[D]. 徐州: 中國礦業(yè)大學, 2019.
[26] 殷哲, 雷廷武, 陳展鵬, 等. 近紅外傳感器測量不同種類土壤含水率的適應(yīng)性研究[J]. 農(nóng)業(yè)機械學報, 2014, 45(3): 148–151, 190.
[27] 殷彩云, 白子金, 羅德芳, 等. 基于高光譜數(shù)據(jù)的土壤全氮含量估測模型對比研究[J]. 中國土壤與肥料, 2022(1): 9–15.
[28] 王海江, 劉凡, Yunger J A, 等. 不同粒徑處理的土壤全氮含量高光譜特征擬合模型[J]. 農(nóng)業(yè)機械學報, 2019, 50(2): 195–204.
[29] 徐彬彬. 土壤剖面的反射光譜研究[J]. 土壤, 2000, 32(6): 281–287.
[30] Brunet D, Barthès B G, Chotte J L, et al. Determination of carbon and nitrogen contents in Alfisols, Oxisols and Ultisols from Africa and Brazil using NIRS analysis: Effects of sample grinding and set heterogeneity[J]. Geoderma, 2007, 139(1/2): 106–117.
[31] 徐永明, 藺啟忠, 黃秀華, 等. 利用可見光/近紅外反射光譜估算土壤總氮含量的實驗研究[J]. 地理與地理信息科學, 2005, 21(1): 19–22.
Estimating of Soil Total Nitrogen Content in Coastal Wetland Based on Spectral Transformation
ZHANG Qingwen1, WU Fenghua1, SONG Jingru1, WANG Jinhua1, ZHANG Yongbin1, LIU Mingyue1, 2, 3, 4, LI Mengqian1, LI Chunjing5, HAO Yufeng6, MAN Weidong1, 2, 3, 4*
(1 College of Mining Engineering, North China University of Science and Technology, Tangshan, Hebei 063210, China;2 Tangshan Key Laboratory of Resources and Environmental Remote Sensing, Tangshan, Hebei 063210, China; 3 Hebei Industrial Technology Institute of Mine Ecological Remediation, Tangshan, Hebei 063210, China; 4 Collaborative Innovation Center of Green Development and Ecological Restoration of Mineral Resources, Tangshan, Hebei 063210, China; 5 College of Geography and Ocean Sciences, Yanbian University, Yanji, Jilin 133002, China; 6 The 8thGeological Brigade of Hebei Bureau of Geology and Mineral Resource Exploration, Qinhuangdao, Hebei 066001, China)
Spectral transformation; Soil total nitrogen content; Partial least squares regression; Random forest regression; Support vector regression
S151.9
A
10.13758/j.cnki.tr.2023.04.022
張清文, 吳風華, 宋敬茹, 等. 基于光譜變換的濱海濕地土壤全氮含量建模預(yù)測. 土壤, 2023, 55(4): 880–886.
國家自然科學基金項目(41901375,42101393)和河北省自然科學基金項目(D2022209005)資助。
(manwd@ncst.edu.cn)
張清文(1998—),男,山東臨沂人,碩士研究生,主要從事生態(tài)環(huán)境遙感研究。E-mail:zhangqingwen@stu.ncst.edu.cn