李洋 彭道黎 袁鈺娜
(森林資源和環(huán)境管理國家林草局重點(diǎn)實(shí)驗(yàn)室(北京林業(yè)大學(xué)),北京,100083)(珠江水利委員會珠江流域水土保持監(jiān)測中心站)
森林生物量是評價森林生態(tài)系統(tǒng)固碳和碳平衡能力的重要變量,準(zhǔn)確估算森林生物量對于研究大面積陸地生態(tài)系統(tǒng)的碳循環(huán)尤為重要[1]。森林地上生物量占陸地生態(tài)系統(tǒng)總量的90%[2],作為森林結(jié)構(gòu)參數(shù)的重要組成部分,間接地反映森林的固碳能力,在森林碳儲量評估中充當(dāng)著重要的評價因子。因此,快速、準(zhǔn)確地估測森林地上生物量已經(jīng)成為全球氣候變化研究領(lǐng)域日益關(guān)注的問題。
國內(nèi)外對森林地上生物量反演進(jìn)行了大量的研究,傳統(tǒng)的生物量估計通常是根據(jù)固定樣地連續(xù)觀測數(shù)據(jù),通過異速生長方程預(yù)測樣地內(nèi)單木生物量求和得到樣地生物量,從而進(jìn)一步得到更大尺度的森林生物量[3]。但是這種測量方法存在較大的局限性,不僅耗時多、成本高、工作量大,而且對生態(tài)系統(tǒng)具有破壞性。隨著遙感與地理信息技術(shù)的快速發(fā)展,利用主被動遙感影像技術(shù)(波段信息、植被指數(shù)等)與森林地上生物量建立參數(shù)化及非參數(shù)化模型研究越來越多[4-7]。然而光學(xué)被動遙感影像技術(shù)易受森林植被物候、天氣等影響,并且存在植被信號飽和問題。隨著激光雷達(dá)技術(shù)的不斷發(fā)展及日趨成熟,森林參數(shù)的定量獲取取得了顯著突破。
激光雷達(dá)依據(jù)地面采樣點(diǎn)激光回波脈沖相對于發(fā)射激光主波之間的時間延遲獲得傳感器到地面采樣點(diǎn)的距離[8],獲取點(diǎn)云高度、密度、分布、強(qiáng)度及波形信息,從而得到樣地的三維結(jié)構(gòu)參數(shù),并且具有極高的測距分辨能力和抗干擾能力。因此,相比于其他遙感技術(shù),激光雷達(dá)在林木及林分的垂直、水平信息獲取上更加準(zhǔn)確便捷。目前,激光雷達(dá)技術(shù)已被廣泛應(yīng)用于測量植被高度[9]、葉面積指數(shù)[10]、郁閉度[11]、地上生物量[12]等林分特征參數(shù)[13]。
20世紀(jì)80年代中期,激光雷達(dá)技術(shù)開始應(yīng)用于估測森林生物量的研究。激光雷達(dá)反演生物量的估測方法主要分為傳統(tǒng)的統(tǒng)計回歸模型(簡單線性回歸、多元逐步回歸等)和機(jī)器學(xué)習(xí)模型(隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等)。其中傳統(tǒng)的統(tǒng)計回歸方法常常需滿足一定的假設(shè)前提,但森林生長數(shù)據(jù)的連續(xù)觀測和層次性難以滿足以上假設(shè)。隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,為森林生長收獲預(yù)估提供了新的途徑。機(jī)器學(xué)習(xí)算法能夠深度挖掘數(shù)據(jù)中的有效信息,通過快速處理自變量與因變量的復(fù)雜關(guān)系建立預(yù)測模型,已經(jīng)廣泛應(yīng)用于遙感和生態(tài)領(lǐng)域[14]。李旺等[15]基于激光雷達(dá)數(shù)據(jù)及實(shí)測單木結(jié)構(gòu)信息,分別從樣地尺度和單木尺度對森林地上生物量進(jìn)行估算,結(jié)果表明兩種尺度下模型的預(yù)測結(jié)果與地面實(shí)測值都具有明顯的相關(guān)性;龐勇等[16]采用高度變量和密度變量,基于多元線性回歸方法對3種不同森林類型的生物量進(jìn)行估測,結(jié)果表明3種森林類型估測的決定系數(shù)(R2)均在0.8以上。雖然統(tǒng)計回歸方法模型公式較為簡單、便于計算,但機(jī)器學(xué)習(xí)算法能更好的發(fā)揮遙感大數(shù)據(jù)量的優(yōu)勢,捕捉生物量與各種特征變量之間的復(fù)雜非線性關(guān)系[17]。Gleason et al.[18]基于激光雷達(dá)數(shù)據(jù)的高度變量,比較了線性混合效應(yīng)回歸、隨機(jī)森林、支持向量回歸和Cubist模型,結(jié)果表明在樣地水平上支持向量回歸的生物量模型精度最高。Cao et al.[19]采用兩種遙感數(shù)據(jù)源,結(jié)合5種機(jī)器學(xué)習(xí)算法建立生物量估測模型,結(jié)果發(fā)現(xiàn)RF算法的模型最優(yōu)。由此可見,機(jī)器學(xué)習(xí)方法在林業(yè)科學(xué)領(lǐng)域的研究有廣闊的發(fā)展前景。
近年來,作為一種新興的深度機(jī)器學(xué)習(xí)優(yōu)化算法,極限梯度提升(XGBoost)算法[20]能適應(yīng)復(fù)雜的非線性關(guān)系,模型具有更強(qiáng)的并行處理能力,可以有效解決在機(jī)器學(xué)習(xí)回歸模型中出現(xiàn)的過擬合問題。黃宇玲等[21]基于逐步回歸的XGBoost方法建立森林蓄積量的估測模型;張亦然等[22]基于XGBoost算法進(jìn)行了草甸地上生物量的反演研究,該算法都表現(xiàn)出更好的效果。然而,該方法在森林地上生物量的反演建模中的研究尚不充分,并且對于XGBoost模型的解釋性并未分析。因此,本文利用機(jī)載激光雷達(dá)數(shù)據(jù)和樣地實(shí)測數(shù)據(jù),通過多元逐步回歸、隨機(jī)森林、支持向量機(jī)和XGBoost算法分別對根河林業(yè)局開拉氣林場研究區(qū)森林地上生物量進(jìn)行估測比較,并利用樣本中每個特征所分配到的沙普利加和解釋(SHAP)值對XGBoost模型的可解釋性進(jìn)行分析,進(jìn)一步驗(yàn)證XGBoost算法在森林地上生物量模型構(gòu)建中的可行性和適用性。
研究區(qū)位于地處內(nèi)蒙古呼倫貝爾盟東北部開拉氣林場,隸屬根河市林業(yè)局(120°12′~122°55′E,50°20′~52°30′N)(見圖1)。地處大興安嶺西坡中段,海拔800~1 000 m。該地區(qū)屬寒溫帶濕潤型森林氣候,并具有大陸季風(fēng)性氣候的特征。年降水量400~550 mm,降水多集中在7—8月份,年平均氣溫-5.3 ℃,結(jié)凍期210 d以上,境內(nèi)遍布永凍層,個別地段30 cm以下即為永凍層。研究區(qū)主要的優(yōu)勢樹種為興安落葉松(Larixgmelinii),伴生樹種有白樺(Betulaplatyphylla)和山楊(Populusdavidiana)等。
研究區(qū)共建立了125塊圓形樣地,每塊樣地半徑為13.82 m,面積約為600 m2,其中包括針闊混交林69塊、闊葉林30塊、針葉林26塊。在每個樣地的中心點(diǎn)設(shè)立明顯標(biāo)志,并采用差分定位方法,準(zhǔn)確定位樣地中心位置,保證樣地橫縱坐標(biāo)的定位精度達(dá)到1 m以內(nèi),以確保地面樣地數(shù)據(jù)與激光雷達(dá)數(shù)據(jù)的匹配,準(zhǔn)確提取遙感信息。地面樣地調(diào)查時間為2019年9—11月,調(diào)查內(nèi)容包括3大類:(1)林分因子(優(yōu)勢樹種組、起源、齡組、郁閉度等);(2)林木因子(樣木編號、立木類型、樹種、胸徑、樹高、方位角、水平距等);(3)其他信息(樣地號、位置坐標(biāo)、海拔、坡度、坡位、坡向、調(diào)查員、調(diào)查日期等)。
根據(jù)樣地調(diào)查數(shù)據(jù)應(yīng)用異速生長方程[23]對樣地內(nèi)每株單木的生物量計算,求和得到樣地尺度內(nèi)森林地上生物量,進(jìn)而換算成單位面積的地上生物量。樣地數(shù)據(jù)基本信息及研究區(qū)主要樹種異速生長方程見表1、表2。
表1 調(diào)查樣地數(shù)據(jù)基本統(tǒng)計結(jié)果
表2 調(diào)查樣地樹種異速生長方程
機(jī)載激光雷達(dá)數(shù)據(jù)在2019年9月6日—10月16日航攝獲取,傳感器型號為RIEGL VUX-1UAV機(jī)載激光掃描儀,掃描儀最大脈沖發(fā)射頻率為550 kHz,光束發(fā)散角為0.5 mrad,光斑直徑為50 mm,平均點(diǎn)密度約4點(diǎn)·m-2,平均地面點(diǎn)距離約1 m,測量精度10 mm;搭載平臺為中型旋翼無人機(jī),機(jī)長2.2 m,翼長3.3 m,飛行高度約100 m,平飛速度70~110 km·h-1。
圖1 根河研究區(qū)地面樣地點(diǎn)分布
本研究應(yīng)用國產(chǎn)LiDAR360軟件對原始點(diǎn)云數(shù)據(jù)進(jìn)行處理。首先,根據(jù)航跡線和激光發(fā)射器搭載平臺的參數(shù)信息對LiDAR點(diǎn)云進(jìn)行航帶平差和去噪預(yù)處理;其次,對去噪處理后的點(diǎn)云數(shù)據(jù)進(jìn)行分類,分為地面點(diǎn)(0 m)、低矮植被點(diǎn)(0~1 m)、中等植被點(diǎn)(1~20 m)、高植被點(diǎn)(>20 m)4類;再次,通過不規(guī)則三角網(wǎng)算法(TIN)結(jié)合地面點(diǎn)插值生成數(shù)值高程模型(DEM)[24],對點(diǎn)云進(jìn)行高度歸一化處理,去除地形影響;最后,根據(jù)地面樣地中心點(diǎn)和地面樣地半徑對歸一化點(diǎn)云進(jìn)行裁切,得到與125塊地面樣地對應(yīng)的LiDAR點(diǎn)云集。
根據(jù)激光雷達(dá)提取的數(shù)據(jù),特征空間可以分為點(diǎn)云和波形兩種,其中點(diǎn)云特征數(shù)據(jù)可以根據(jù)點(diǎn)云高度、密度、強(qiáng)度特征等直接進(jìn)行分析,計算相關(guān)統(tǒng)計或指數(shù)特征量(不同的高度分位數(shù)、平均值、標(biāo)準(zhǔn)差、峰度、偏度等[4,25])。在林業(yè)研究中,高度變量是指點(diǎn)云高程值相關(guān)的統(tǒng)計參數(shù),直接反映了樹木的垂直結(jié)構(gòu)和高度信息;密度變量反映了樹木點(diǎn)云的返回密度;強(qiáng)度變量則體現(xiàn)了樹木點(diǎn)云返回激光雷達(dá)傳感器的能量大小。這些指標(biāo)已經(jīng)被廣泛應(yīng)用于林業(yè)領(lǐng)域中單木及林分結(jié)構(gòu)參數(shù)的估算[26-27]。
在本研究中,使用國產(chǎn)LiDAR360軟件對高度歸一化的點(diǎn)云數(shù)據(jù)集進(jìn)行處理,提取得到樣地尺度的LiDAR點(diǎn)云特征變量。主要選取包括主要的16個高度變量、5個密度變量和12個強(qiáng)度變量等共33個特征變量[28]作為建模自變量(見表3)。
表3 激光雷達(dá)特征變量
續(xù)(表3)
許多變量都可以參與構(gòu)建生物量模型,但這些變量之間往往存在高度相關(guān)性,并且與生物量之間的相關(guān)性不高[29]。因此,并非所有的變量都可用于生物量模型的構(gòu)建。為了避免數(shù)據(jù)冗余,降低模型復(fù)雜度,提高模型精度,需要對原始特征變量數(shù)據(jù)集進(jìn)行篩選。
在本研究中,對于多元線性回歸統(tǒng)計模型,采用皮爾森相關(guān)系數(shù)對選取的自變量進(jìn)行篩選,提取與生物量相關(guān)極顯著的特征因子,再通過逐步回歸方法對每一個引入的自變量進(jìn)行篩選剔除。對于機(jī)器學(xué)習(xí)模型,采用遞歸特征消除算法(RFE)進(jìn)行特征選擇[30]。RFE算法是一個遞歸過程,它根據(jù)不同的重要性度量對特征變量進(jìn)行排序。其核心思想是:在每次迭代中都會評估特征的重要性并刪除非重要特征,最終得到用于構(gòu)建模型的最優(yōu)特征子集[31]。常用的RFE算法有支持向量機(jī)-遞歸特征消除算法(SVM-RFE)和隨機(jī)森林-遞歸特征消除算法(RF-RFE)[32-33]。最后,分別利用多元線性回歸(MLR)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)和極限梯度提升(XGBoost)算法構(gòu)建樣地生物量估測模型(算法均通過R4.1.1軟件實(shí)現(xiàn))。
多元逐步回歸模型:多元逐步回歸是一種是以向前引入為主,變量可進(jìn)可出的采用多個自變量對因變量進(jìn)行預(yù)測的統(tǒng)計方法。綜合了向前引入法和向后剔除法的優(yōu)點(diǎn),可以修正多重共線性,廣泛應(yīng)用于各領(lǐng)域的回歸模型[34]。公式如下:y=β0+β1x1+β2x2+…+βnxn+ε。式中:y為因變量(生物量);xi為自變量(激光雷達(dá)特征變量),βi為模型參數(shù),i=0、1、2、…、n;ε為誤差項(xiàng)。
激光雷達(dá)特征變量能間接反映出生物量的變化,當(dāng)多個自變量和因變量形成線性關(guān)系時,即建立生物量與激光雷達(dá)變量的多元線性回歸模型。
隨機(jī)森林模型:隨機(jī)森林(RF)是一種統(tǒng)計學(xué)習(xí)理論,它是利用自舉(bootsrap)重抽樣方法從原始樣本中抽取多個樣本,對每個自舉(bootsrap)樣本進(jìn)行決策樹建模,然后組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果[35]。在整個采樣過程中,有些樣本可能會被多次采樣,而有些訓(xùn)練數(shù)據(jù)不會被采樣,這部分訓(xùn)練數(shù)據(jù)稱為“袋外”(OOB)數(shù)據(jù);OOB數(shù)據(jù)不參與模型擬合過程,但用于檢查模型的泛化。由于隨機(jī)性可以有效地降低模型方差,RF算法可以實(shí)現(xiàn)良好的泛化性和低方差抗性,而無需對決策樹進(jìn)行額外的“修剪”[36]。利用R軟件中的隨機(jī)森林包構(gòu)建隨機(jī)森林模型。
支持向量機(jī)模型:支持向量機(jī)(SVM)算法的基本思想是將樣本空間通過非線性映射到一個高維特征空間,使在特征空間中可以應(yīng)用線性學(xué)習(xí)機(jī)的方法解決樣本空間中的高度非線性分類和回歸等問題[37]。支持向量回歸利用結(jié)構(gòu)風(fēng)險最小化的同時優(yōu)化模型的性能和泛化能力,并且能夠找到非線性和唯一的解決方法[38]。本研究應(yīng)用R軟件中的e1071包構(gòu)建SVR模型,核函數(shù)選擇徑向基核函數(shù)。
極限梯度提升模型:極限梯度提升(XGBoost)算法是在傳統(tǒng)的推進(jìn)(Boosting)算法基礎(chǔ)上引入正則化項(xiàng),進(jìn)一步控制模型的復(fù)雜度,也是梯度提升(Gradient Boosting)算法的實(shí)現(xiàn),具有運(yùn)算速度快、效果好、易于調(diào)整參數(shù)和海量數(shù)據(jù)處理等優(yōu)勢[20]。并且相比于其他機(jī)器學(xué)習(xí)算法,具有更強(qiáng)的可解釋性。XGBoost的核心算法思想是在逐步添加樹到模型的過程中,使得模型整體的預(yù)測效果提升。其目標(biāo)是要使得樹群的預(yù)測值盡量接近真實(shí)值,而且有盡量大的泛化能力。XGBoost目標(biāo)函數(shù)分為損失函數(shù)和正則化項(xiàng),損失函數(shù)揭示訓(xùn)練誤差(即預(yù)測值和實(shí)測值的誤差),正則化定義復(fù)雜度,避免過擬合。應(yīng)用R軟件中的極限梯度提升包建立模型。
本研究采用以下評價指標(biāo):均方根誤差(RMSE)、決定系數(shù)(R2)、平均絕對偏差(MAE)。R2值越接近于1,模型的擬合精度越好,均方根誤差和平均絕對偏差的值越小,模型的預(yù)測精度越高。3個評價指標(biāo)計算公式如下:
算法模型的性能由其超參數(shù)決定,超參數(shù)設(shè)定是構(gòu)建模型的關(guān)鍵。相同的算法,不同的參數(shù),得到的結(jié)果具有差異性,參數(shù)調(diào)整對模型性能有很大影響,優(yōu)化算法參數(shù)能顯著提高模型預(yù)測精度[39]。采用網(wǎng)格搜索技術(shù)對3種機(jī)器學(xué)習(xí)算法進(jìn)行超參數(shù)調(diào)優(yōu),對訓(xùn)練集數(shù)據(jù)進(jìn)行5次10倍交叉驗(yàn)證法得到穩(wěn)定的模型結(jié)果。利用R軟件包對SVR、RF和XGBoost算法進(jìn)行超參數(shù)調(diào)優(yōu)(見表4)。
3.1.1 皮爾森相關(guān)系數(shù)及逐步回歸的特征變量選擇
由表5可知,應(yīng)用SPSS19.0軟件,對提取的33個激光雷達(dá)特征變量和地面樣地的森林地上生物量進(jìn)行皮爾森相關(guān)性分析,得到與地上生物量極顯著相關(guān)(P<0.01)的自變量特征因子共計27個,其中包括16個高度特征變量、5個點(diǎn)云密度特征變量和6個點(diǎn)云強(qiáng)度特征變量。使用R4.1.1軟件包,在皮爾森相關(guān)性分析的基礎(chǔ)上,再通過逐步回歸方法,基于最小信息統(tǒng)計量(AIC)為準(zhǔn)則進(jìn)行自變量再優(yōu)選,最后得到多元線性回歸建模的最佳自變量均為高度變量共4個(包括點(diǎn)云高度平均值、高度偏度、點(diǎn)云高度的二次冪平均、點(diǎn)云高度的三次冪平均)。篩選結(jié)果剔除了點(diǎn)云密度變量和強(qiáng)度變量,僅保留點(diǎn)云高度變量,樣地的點(diǎn)云高度變量與地上生物量存在極顯著的相關(guān)性(P<0.01),說明點(diǎn)云高度變量是回歸分析最佳建模因子。
表4 3種機(jī)器學(xué)習(xí)算法的超參數(shù)調(diào)整范圍
表5 自變量因子與樣地地上生物量的Pearson相關(guān)系數(shù)
3.1.2 遞歸特征消除法的特征變量選擇
由圖2可知,在自變量達(dá)到4個時,RMSE的值最小。按其重要值排序依次為:點(diǎn)云高度的二次冪平均、點(diǎn)云高度平均值、點(diǎn)云高度的三次冪平均、高度垂直分布的25%分位數(shù)。遞歸特征消除特征變量的篩選結(jié)果與Pearson及逐步回歸有三個自變量重合。
圖2 遞歸特征消除方法篩選特征變量
由表6可知,按照3∶1的比例隨機(jī)劃分為訓(xùn)練集(93塊)和測試集(32塊),4種模型在訓(xùn)練集和測試集進(jìn)行擬合,不同模型的訓(xùn)練集和測試集擬合精度不同。在訓(xùn)練集上,RF模型擬合效果最好(RMSE=9.98 t·hm-2,R2=0.93,MAE=5.69 t·hm-2),其次為XGBoost模型(RMSE=10.80 t·hm-2,R2=0.89,MAE=7.24 t·hm-2),而MLR模型(RMSE=15.92 t·hm-2,R2=0.81,MAE=10.58 t·hm-2)和SVM模型(RMSE=16.49 t·hm-2,R2=0.81,MAE=10.15 t·hm-2)擬合精度相近,4種模型在訓(xùn)練集上的表現(xiàn)都很好,R2都在0.8以上,但這并不能說明模型的泛化能力。在測試集上,XGBoost模型的擬合效果最好(RMSE=12.20 t·hm-2,R2=0.83,MAE=8.30 t·hm-2),其次是SVR模型(RMSE=12.88 t·hm-2,R2=0.69,MAE=9.31 t·hm-2),而MLR模型的精度相對最低(RMSE=13.99 t·hm-2,R2=0.68,MAE=10.21 t·hm-2)。綜合上看,XGBoost模型的兩種數(shù)據(jù)集擬合精度都高且RMSE、R2、MAE差距最小,并且在測試集上明顯優(yōu)于MLR、RF和SVR模型,具有最佳的穩(wěn)定性和泛化能力。
表6 不同模型的精度評價結(jié)果
同樣應(yīng)用R軟件中的xgboost包功能,進(jìn)一步分析經(jīng)遞歸特征消除算法(RFE)篩選后的4種特征變量與模型生物量的相關(guān)性和重要性,并利用SHAP值(樣本中每個特征所分配到的數(shù)值)解釋XGBoost模型。SHAP在2017年提出,用于解釋XGBoost等“黑箱”模型[40],其基本定義是對于每個預(yù)測樣本,模型都產(chǎn)生一個預(yù)測值,SHAP值是該樣本中每個特征所分配到的數(shù)值。相比于傳統(tǒng)的特征值重要性排序,SHAP值可以進(jìn)一步反映出每個樣本中特征變量的影響力及正負(fù)性[41]。
圖3是SHAP特征密度散點(diǎn)圖,圖上的每個點(diǎn)都是一個特征和一個樣本的SHAP值,該值代表了這個特征對單個預(yù)測的貢獻(xiàn),點(diǎn)的集合代表了特征整體上對預(yù)測結(jié)果影響的大小和趨勢。y軸上的位置從高到低由特征重要性決定,x軸上的位置由SHAP值決定,顏色從淺到深代表特征值從小到大,該圖結(jié)合特征重要性對影響地上生物量的因素進(jìn)行分析。由圖3可知,參與建模的4種變量重要值排序依次為:點(diǎn)云高度的平均值、點(diǎn)云高度的三次冪平均、點(diǎn)云高度的二次冪平均、點(diǎn)云高度垂直分布的25%分位數(shù)的重要值從大到小依次為11.684、7.058、2.284、1.324。SHAP給出的影響地上生物量的最重要特征為點(diǎn)云高度的平均值。并且該特征與地上生物量呈正相關(guān)關(guān)系,即隨點(diǎn)云高度平均高的增加,估測的林分地上生物量越大??傮w上看,4種特征變量與生物量基本都呈正相關(guān)關(guān)系。
Hm為點(diǎn)云高度平均值;Hsq為點(diǎn)云高度的二次冪平均;Htq為點(diǎn)云高度的三次冪平均;H25為點(diǎn)云高度垂直的25%分位數(shù)。
本研究以機(jī)載LIDAR數(shù)據(jù)和林分樣地調(diào)查數(shù)據(jù)作為數(shù)據(jù)源,單位地上生物量為研究對象,根據(jù)LIDAR數(shù)據(jù)源提取的特征變量,分別采用MLR、RF、SVR和XGBoost共兩類4種算法建立研究區(qū)的森林地上生物量反演模型,探討了XGBoost算法在森林地上生物量反演模型中的適用能力。
總體而言,XGBoost模型和MLR、RF、SVR模型相比,XGBoost在訓(xùn)練集(RMSE=12.20 t·hm-2,R2=0.83,MAE=8.30 t·hm-2)和測試集(RMSE=12.20 t·hm-2,R2=0.83,MAE=8.30 t·hm-2)的精度評價指標(biāo)接近,綜合表現(xiàn)最優(yōu),而其他三種模型在測試集的評價指標(biāo)相較于訓(xùn)練集都存在一定程度上的降低,說明XGBoost模型具有更強(qiáng)的泛化能力。張亦然等[22]在利用XGBoost算法建立草地地上生物量模型時,發(fā)現(xiàn)整體上利用XGBoost算法要優(yōu)于MLR和RF算法建立的模型。Li et al.[42]使用Landsat 8和Sentinel-A影像估算湖南省亞熱帶森林生物量的研究結(jié)果表明,在3種遙感數(shù)據(jù)集下XGBoost模型表現(xiàn)均優(yōu)于MLR和RF模型。而且與以往其他學(xué)者在該地區(qū)的地上生物量反演的研究成果相比[43],本研究的XGBoost模型精度要明顯優(yōu)于其基于k-NN算法的研究結(jié)果。因此,根據(jù)XGBoost算法構(gòu)建的模型精度最高,具有更好的穩(wěn)定性和準(zhǔn)確性。
在篩選建模因子方面,初始的LIDAR特征變量集包含高度、密度和強(qiáng)度等3種類型變量。而兩種不同篩選方法都同時剔除了密度變量和強(qiáng)度變量,只保留高度變量參與模型建立,說明剔除的兩種變量與生物量的相關(guān)性不強(qiáng),不適于參與構(gòu)建生物量模型。這是由于變量易受發(fā)射功率、范圍、入射角、環(huán)境參數(shù)和目標(biāo)結(jié)構(gòu)特征的影響[44],導(dǎo)致在不同情況下同一特征的獲取值差異較大,難以反映目標(biāo)的真實(shí)特征。例如,機(jī)載LiDAR的回波信號不易穿透高郁閉度林分,從而獲取的點(diǎn)云數(shù)據(jù)多分布于冠層表面[45]。另外,篩選得到的高度變量都包含點(diǎn)云高度的二次冪平均(Hsq)、點(diǎn)云高度平均值(Hm)和點(diǎn)云高度的三次冪平均(Htq),證明三種高度變量都與生物量有顯著的相關(guān)性,點(diǎn)云高度能夠很好地反映林分的平均高度信息[27]。
在模型解釋性分析方面,本研究基于SHAP值對XGBoost算法構(gòu)建生物量模型結(jié)果進(jìn)行簡單分析。4種特征變量都對地上生物量有積極影響。但由于研究中樣本數(shù)較少,數(shù)據(jù)類型單一,尚未顯示出SHAP模型對于多源數(shù)據(jù)和復(fù)雜模型關(guān)系的解釋分析能力。隨著多元遙感數(shù)據(jù)融合與機(jī)器學(xué)習(xí)算法在林業(yè)領(lǐng)域中的應(yīng)用越來越廣泛,可以采用SHAP模型對復(fù)雜變量及“黑箱”模型進(jìn)行解釋,為林業(yè)數(shù)據(jù)挖掘與相關(guān)分析提供新途徑。