秦格霞,吳靜*,李純斌,吉珍霞,邱政超,李穎
(1.甘肅農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院,甘肅 蘭州 730070;2.中國科學(xué)院南京土壤研究所,江蘇 南京 210008)
天然草原和熱帶稀疏草原是陸地生態(tài)系統(tǒng)中高度復(fù)雜的生物群系[1],占地球陸地面積40%,在物種組成、密度、生物量上隨空間和時(shí)間變化很大[1-3],對不同氣候和天氣條件等較為敏感[4]。近來,由于氣候變化和不斷增長的人類壓力,草原退化成為中國面臨的一個(gè)嚴(yán)重生態(tài)問題[5-8]。草地地上生物量(above-ground biomass,AGB)作為表征植被活動(dòng)、評價(jià)生態(tài)再生能力、反映草原生態(tài)系統(tǒng)健康狀況和草地資源可持續(xù)利用狀況的關(guān)鍵指標(biāo)[9-12],在合理開發(fā)草地資源、發(fā)展畜牧業(yè)、維持生物多樣性和維護(hù)生態(tài)系統(tǒng)平衡上具有重要作用[10,13]。動(dòng)態(tài)獲取大面積長時(shí)序草地AGB不僅可以評估草地生產(chǎn)力、草地生態(tài)效益和植被生長狀況,而且可以為荒漠化地區(qū)生態(tài)修復(fù)研究和荒漠生態(tài)系統(tǒng)可持續(xù)發(fā)展提供參考[14-18]。
傳統(tǒng)獲取草地AGB是通過野外實(shí)測直接獲取(如齊地刈割法、循環(huán)采樣法),但費(fèi)時(shí)費(fèi)力,很難獲取長時(shí)序大面積的草地AGB[19-20]。隨著遙感技術(shù)的發(fā)展,不同時(shí)空分辨率的衛(wèi)星數(shù)據(jù)成為大尺度草地監(jiān)測的理想選擇[21]。20世紀(jì)60年代,有學(xué)者利用遙感影像和實(shí)測草地AGB估算大范圍草地AGB,通過整合多因素和學(xué)習(xí)高度復(fù)雜的非線性映射,獲得了更好的仿真結(jié)果[22-26]。這類方法被越來越多的學(xué)者用于草地AGB的反演研究,但有研究發(fā)現(xiàn)歸一化植被指數(shù)(normalized difference vegetative index,NDVI)-AGB模型雖可以解釋近57%的草地生物量變化,但這些模型多數(shù)為回歸模型,其精度往往受到草地AGB對植被指數(shù)的敏感性和外部環(huán)境的影響,且大多基于單一的植被指數(shù),不能更加全面的考慮草地AGB的氣象、地形等影響因子。在過去20年里,機(jī)器學(xué)習(xí)技術(shù)已開始應(yīng)用于生物量反演研究,與傳統(tǒng)回歸模型相比,可以充分考慮草地生物量的影響因素(氣候、自然因素等)。已有研究發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)反演的草地AGB優(yōu)于傳統(tǒng)回歸模型[27-29]。支持向量機(jī)(support vector machine,SVR)模擬的草地AGB精度優(yōu)于ANN和傳統(tǒng)回歸模型[30];隨機(jī)森林(random forest,RF)作為非參數(shù)集成建模方法,因具有減少偏置和過擬合的能力[28,31-32],對異常值和噪音更有容忍度,在遙感反演研究領(lǐng)域獲得了較高精度。高度穩(wěn)健和更高精度的梯度提升回歸樹(gradient boosting regression tree,GBRT)和深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)算法在許多領(lǐng)域興起,但目前在草地AGB遙感反演研究中尚未運(yùn)用。傳統(tǒng)機(jī)器學(xué)習(xí)算法在反演精度上雖高于回歸模型,但其均屬淺層機(jī)器學(xué)習(xí),存在局部最優(yōu)、過擬合和梯度擴(kuò)散等問題[33]。深度學(xué)習(xí)算法是在機(jī)器學(xué)習(xí)算法基礎(chǔ)上通過設(shè)定深層次非線性結(jié)構(gòu)實(shí)現(xiàn)對高度復(fù)雜數(shù)據(jù)建模算法的綜合,比淺層機(jī)器學(xué)習(xí)算法更有優(yōu)勢[34]。機(jī)器學(xué)習(xí)算法憑借其優(yōu)越性、高效性、穩(wěn)健和精確性雖已被廣泛應(yīng)用于各個(gè)研究領(lǐng)域,但不同機(jī)器學(xué)習(xí)算法在訓(xùn)練樣本要求、超參數(shù)設(shè)置和算法計(jì)算效率等方面存在較大差異。因此,綜合評價(jià)不同機(jī)器學(xué)習(xí)算法及目前新出現(xiàn)的機(jī)器學(xué)習(xí)算法模擬精度、模型性能及適用情況對推動(dòng)機(jī)器學(xué)習(xí)在遙感反演領(lǐng)域的應(yīng)用極為重要。
天祝藏族自治縣作為甘肅省的草原畜牧業(yè)大縣,因處于石羊河流域和黃河流域重要水源涵養(yǎng)區(qū)和水源補(bǔ)給區(qū),區(qū)域內(nèi)的草原生態(tài)作用尤顯突出。但由于天祝藏族自治縣海拔高、自然條件惡劣,造成草地生態(tài)系統(tǒng)脆弱。在近30年氣溫增暖和增濕變化加劇的背景下,天祝藏族自治縣草地AGB的實(shí)時(shí)、高精度監(jiān)測受到越來越多的關(guān)注。
故此,研究基于天祝藏族自治縣地面實(shí)測草地AGB并綜合考慮地形、氣象、植被覆蓋情況等因素,比較不同機(jī)器學(xué)習(xí)算法[RF、SVR、ANN、高斯過程回歸(gaussian process regression,GPR)、GBRT、DNN]在反演天祝藏族自治縣草地AGB的精度、穩(wěn)定性及其對訓(xùn)練樣本的敏感性,并使用最優(yōu)模型反演得到2020年生長季內(nèi)草地AGB,以期評價(jià)各個(gè)機(jī)器學(xué)習(xí)算法模型在草地AGB遙感反演的應(yīng)用潛力,從而為草地AGB最優(yōu)反演模型的選擇提供支持。
天祝藏族自治縣(36°31′-37°55′N,102°07′-103°46′E)地處甘肅省中部,祁連山東端,是青藏、內(nèi)蒙古、黃土3大高原交匯地帶的一部分,西北部與祁連山主干相連,東北部靠近騰格里沙漠邊緣,東南部沒入黃土高原。境內(nèi)草地覆蓋面積約為3.914×103km2,草產(chǎn)量較低,70%以上的國土面積分布在海拔3000 m以上的區(qū)域。氣候以烏鞘嶺為界,嶺南屬大陸性高原季風(fēng)氣候,嶺北屬溫帶大陸性半干旱氣候。年均溫介于-8~4℃,垂直分布明顯,常有干旱、冰雹、洪澇、霜凍等自然災(zāi)害發(fā)生,年日照時(shí)數(shù)達(dá)4434 h以上。降水量一般多在200~600 mm,主要集中在7、8月,春冬季節(jié)旱情嚴(yán)重,夏秋多暴雨,多大風(fēng)天氣。主要草地類型有溫性草原、山地草甸、高寒草甸、灌叢草甸和疏林草甸,其中山地草甸生產(chǎn)力最高[13,16,35]。因境內(nèi)地形復(fù)雜、氣候持續(xù)干旱和超載過牧,草原生產(chǎn)能力下降、鼠害泛濫、水源銳減和草地沙化等生態(tài)問題表現(xiàn)較為嚴(yán)重(圖1)[13,16,36]。
圖1 天祝藏族自治縣草地類型及野外實(shí)測點(diǎn)分布Fig.1 Spatial distribution of grassland types and field sites in Tianzhu Zangzu Autonomous County
1.2.1實(shí)測草地AGB數(shù)據(jù) 根據(jù)天祝藏族自治縣草地類型分布特點(diǎn)、草地利用方式、利用強(qiáng)度、管理制度和LANDSAT數(shù)據(jù)分辨率等方面的綜合評估,于2020年6、7、8月下旬在不同類型、不同蓋度,且地勢平坦、草地優(yōu)勢草種比較單一、空間分布均勻、面積大于100 m×100 m的草地試驗(yàn)樣區(qū)內(nèi)進(jìn)行野外數(shù)據(jù)采集(圖2)。實(shí)測時(shí)使用GPS記錄樣地經(jīng)緯度,并詳細(xì)記錄實(shí)測點(diǎn)海拔、地形、優(yōu)勢種、株高、植被覆蓋度、坡度、坡向。草地AGB采用收獲法將樣方內(nèi)草地所有綠色部分用羊毛剪齊地面剪下,稱其鮮重,后在實(shí)驗(yàn)室內(nèi)置于105℃溫度下殺青,65℃烘至恒重,獲得每個(gè)1 m×1 m樣方的草干重,最后用5個(gè)樣方的平均值作為10 m×10 m樣方的草地AGB。
圖2 樣方分布及野外實(shí)測場景照片F(xiàn)ig.2 Photos of plot distr ibution and field measur ement
通過統(tǒng)計(jì)6月下旬、7月下旬、8月下旬不同草地類型的草地生物量可以發(fā)現(xiàn),不同草地類型的干重?cái)?shù)值上差異較大。溫性荒漠草原從6-8月一致較低,集中分布在30~50 g·m-2;其次為溫性草原,干重集中在40~150 g·m-2,草干重最重的為山地草甸,基本集中150~450 g·m-2;高寒草甸的數(shù)值分布因地形差異較大,數(shù)值集中在100~200 g·m-2(圖3)。
圖3 實(shí)測草地AGB數(shù)據(jù)分布Fig.3 Map of the measured data
1.2.2遙感數(shù)據(jù) 遙感數(shù)據(jù)使用Google Earth Engine(GEE)平臺提供30 m空間分辨率的Landsat 8地表反射率產(chǎn)品(LANDSAT/LC08/C01/T 1_SR)。B1~B7波段(B1-Coastal/Aerosol;B2-Blue;B3-Green;B4-Red;B5-NIR;B6-SWIR1;B7-SWIR2)已經(jīng)過了輻射定標(biāo)、大氣校正等預(yù)處理,包括使用Function of Mas生成的云、陰影、水和雪以及每個(gè)像素的飽和度掩膜。選擇與實(shí)測數(shù)據(jù)同期的2020年的6月23日-7月1日、7月25日-8月3日、8月26日-9月7日云量小于10且代表植被最好生長狀態(tài)的地表反射率數(shù)據(jù),利用最大值合成對應(yīng)時(shí)間段NDVI、EVI(enhanced vegetation index)。NDVI、EVI計(jì)算公式為:
式中:NIR為LANDSAT-8數(shù)據(jù)對應(yīng)的近紅外波段;R為紅光波段;B為藍(lán)光波段。
1.2.3DEM數(shù)據(jù) DEM數(shù)據(jù)源于地理空間數(shù)據(jù)云(http://www.gscloud.cn/sources/accessdata/310?pid=302)的SRTM產(chǎn)品數(shù)據(jù),分辨率為30 m。坡度、坡向均使用ARCGIS提供的工具計(jì)算獲得。
1.2.4氣象數(shù)據(jù) 從中國氣象數(shù)據(jù)網(wǎng)站(http://data.cma.cn/data/cdcdetail/dataCode)獲取氣象數(shù)據(jù)日數(shù)據(jù)集,在剔除數(shù)據(jù)缺失的站點(diǎn)后,選取研究區(qū)內(nèi)及周圍12個(gè)氣象站點(diǎn)的溫度、降水和相對濕度數(shù)據(jù)。時(shí)間分別為2020年的6月23日-7月1日、7月25日-8月3日、8月26日-9月7日(圖1)。基于樣條函數(shù)插值理論的專業(yè)氣象插值軟件ANUSPLINE,以DEM數(shù)據(jù)為協(xié)變量,對氣溫和降水?dāng)?shù)據(jù)進(jìn)行空間插值,獲得研究區(qū)30 m的柵格數(shù)據(jù)。
1.2.5草地類型數(shù)據(jù) 草地類型數(shù)據(jù)采用《中國1∶100萬草地資源圖》。該類型圖的編制過程:首先,對全國草地分布區(qū)的2000多個(gè)縣內(nèi)的野外實(shí)地調(diào)查數(shù)據(jù)進(jìn)行編制。其次,輔以航、衛(wèi)片編制了縣級1∶5萬或1∶10萬草地類型圖、草地等級圖、草地利用現(xiàn)狀圖。最終,按照國家統(tǒng)一編制規(guī)范和制圖綜合原則,編制成國家級1∶100萬草地資源圖[36]。
1.3.1機(jī)器學(xué)習(xí)算法 1)人工神經(jīng)網(wǎng)絡(luò)(ANN)是根據(jù)不同的技術(shù)來學(xué)習(xí)連接權(quán)值,通過反向傳播過程將錯(cuò)誤從輸出層傳播到輸入層來反向調(diào)整權(quán)值,使模型能夠沿著誤差最小的梯度進(jìn)行,從而達(dá)到全局最優(yōu)[37]。神經(jīng)元數(shù)量為10,激活函數(shù)為Relu,L 2懲罰系數(shù)為0.0001,學(xué)習(xí)率為constant,最大迭代次數(shù)為560,梯度下降方法為Adamx。
2)深度神經(jīng)網(wǎng)絡(luò)(DNN)是一個(gè)含有多層網(wǎng)絡(luò)結(jié)構(gòu)的模型,學(xué)習(xí)過程是通過從低到高逐層映射到新特征空間,具有層次化和分布式抽象的特點(diǎn)[37]。DNN網(wǎng)絡(luò)以對草地AGB影響較大的Landsat 8數(shù)據(jù)的B1~B7的反射率數(shù)據(jù)、坡向(aspect)、坡度(slope)、DEM、NDVI、EVI、平均氣溫(mean temperature,TEM)和平均降水(mean precipitation,PRE)作為DNN輸入層,經(jīng)過4個(gè)隱藏層后得到反演結(jié)果。損失函數(shù)為均方誤差(MSE),隱藏層的激活函數(shù)選擇Relu,使用Dropout防止過擬合,優(yōu)化函數(shù)選擇Adam,學(xué)習(xí)率為0.006。
3)隨機(jī)森林算法(RF)是一種基于分類回歸樹的機(jī)器學(xué)習(xí)方法,相比其他傳統(tǒng)統(tǒng)計(jì)模型具有更高的準(zhǔn)確性和更低的均方根誤差,無需特征選擇即可處理高維數(shù)據(jù),具有良好的抗噪能力和穩(wěn)定的性能,可在一定程度上避免過擬合[38]。RF決策樹個(gè)數(shù)為600,最大樹深為5,內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)為2,葉子節(jié)點(diǎn)所需最小樣本數(shù)為2。
4)梯度提升回歸樹(GBRT)是通過優(yōu)化傳統(tǒng)決策樹算法的損失函數(shù),對弱監(jiān)督學(xué)習(xí)(決策樹)進(jìn)行預(yù)測,可以添加新的決策樹來最小化損失函數(shù)以提高模擬精度[39]。GBRT損失函數(shù)為Squared_loss,學(xué)習(xí)率為0.005,弱學(xué)習(xí)器數(shù)目為800,學(xué)習(xí)器最大深度5,葉子節(jié)點(diǎn)所需最小樣本數(shù)2。
5)支持向量機(jī)(SVR)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的監(jiān)督學(xué)習(xí)技術(shù),根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化標(biāo)準(zhǔn),并采用二次規(guī)劃的方式得到問題最優(yōu)解[40]。SVR懲罰系數(shù)C為128,gamma為0.09,核函數(shù)為復(fù)雜度較小的RBF核函數(shù)。
6)高斯過程回歸(GPR)通過核(協(xié)方差)函數(shù)提供預(yù)測,與SVR相似,GPR通過應(yīng)用高度靈活的核函數(shù)將輸入數(shù)據(jù)投影到高維空間來解決復(fù)雜的非線性問題[41]。GPR的alpha為0.01,n_restarts_optimizer為10。
算法均使用10重交叉驗(yàn)證、網(wǎng)格搜索和學(xué)習(xí)曲線對模型超參數(shù)調(diào)優(yōu)和防止過擬合。
1.3.2模型精度評價(jià) 利用驗(yàn)證樣本通過使用草地AGB實(shí)測值與預(yù)測值之間的均方根誤差(RMSE)、平均絕對誤差(MAE)和決定系數(shù)(R2)評價(jià)模型模擬精度[42]。
式中:AGBfid、AGBsim分別為實(shí)測草地AGB與模擬的草地AGB;N為實(shí)測草地AGB個(gè)數(shù);是實(shí)測AGB的平均值。R2值越高,RMSE、MAE值越低,模型模擬精度越高。
為提高模型模擬精度,將Landsat 8數(shù)據(jù)的B1~B7反射率數(shù)據(jù)、aspect、slope、DEM、NDVI、EVI、TEM和PRE自變量,與草地AGB實(shí)測數(shù)據(jù)進(jìn)行相關(guān)性分析(圖4)。結(jié)果表明:AGB與B6、B7、NDVI、EVI、TEM、PRE、aspect呈顯著正相關(guān)。NDVI、EVI與AGB相關(guān)性較高(R2=0.61、0.64),與B1~B5、DEM呈顯著負(fù)相關(guān),與slope呈不顯著負(fù)相關(guān)。坡度與其他幾個(gè)待選自變量的相關(guān)性均不顯著(圖4)。因此,選擇B1~B7反射率數(shù)據(jù)、NDVI、EVI、TEM、PRE、aspect和DEM作為機(jī)器學(xué)習(xí)模型輸入變量,AGB作為模型輸出變量。
圖4 AGB與待選自變量相關(guān)系數(shù)Fig.4 Correlation coefficients between the AGB and the explanatory variables
為避免訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)隨機(jī)劃分時(shí)造成的誤差,對每種模型進(jìn)行30次隨機(jī)重復(fù)試驗(yàn)(訓(xùn)練數(shù)據(jù)51、測試數(shù)據(jù)13)。統(tǒng)計(jì)每種模型30次重復(fù)試驗(yàn)的R2、RMSE、MAE發(fā)現(xiàn)(圖5和表1)DNN模擬精度及穩(wěn)定性均較好;GBRT、RF模擬精度和穩(wěn)定性表現(xiàn)較為一致,精度較高,穩(wěn)定性差;GPR次于GBRT、RF,穩(wěn)定性較高;SVR和ANN精度相對其他模型較差,但SVR穩(wěn)定性較高,ANN穩(wěn)定性較差??傮w來看,幾種模型的精度都較好,得到了較為滿意的結(jié)果,機(jī)器學(xué)習(xí)模型在草地AGB遙感反演領(lǐng)域具有較大的應(yīng)用潛力。
圖5 30次重復(fù)試驗(yàn)中模型精度箱型圖Fig.5 The boxplot of model accuracy in the 30 repeated experiments
表1 重復(fù)30次的R2、RMSE、MAE的統(tǒng)計(jì)Table 1 Statistical table of R2,RMSE and MAE r epeated 30 times
為進(jìn)一步評價(jià)不同機(jī)器學(xué)習(xí)模型對訓(xùn)練樣本大小的敏感性及穩(wěn)定性,以5為間隔,設(shè)定不同訓(xùn)練樣本數(shù)量,對 模 型 均 進(jìn) 行30次 隨 機(jī) 重 復(fù) 試 驗(yàn),記 錄R2、RMSE、MAE,通 過30次 重 復(fù) 試 驗(yàn) 的 標(biāo) 準(zhǔn) 誤(SD xˉ,SD xˉ=標(biāo)準(zhǔn)差評價(jià)模型穩(wěn)定性(標(biāo)準(zhǔn)誤用填充區(qū)域表示,填充區(qū)域越小,表示標(biāo)準(zhǔn)誤越小,模型穩(wěn)定性越強(qiáng))。結(jié)果發(fā)現(xiàn):6種模型精度均隨樣本數(shù)增加而增加,標(biāo)準(zhǔn)誤在一定程度減小,模型穩(wěn)定性增強(qiáng)。其中,DNN精度隨樣本數(shù)增加持續(xù)增加,增加幅度為6種模型中最大的一個(gè)。ANN列居第二,樣本數(shù)<31,對樣本的敏感性最強(qiáng);樣本數(shù)>31,隨樣本數(shù)的變化精度和穩(wěn)定性變化較小。GBRT、RF對樣本數(shù)的敏感性次于ANN,樣本數(shù)達(dá)到26之后,對樣本數(shù)敏感性降低。SVR、GPR精度隨樣本數(shù)增加,精度增加較為緩慢,但SVR標(biāo)準(zhǔn)誤在樣本數(shù)較大時(shí),比其他5種模型大(圖6)。
圖6 機(jī)器學(xué)習(xí)模型對于訓(xùn)練樣本大小的敏感性Fig.6 Sensitivity of the machine learning models to the training sample size
DNN、ANN對訓(xùn)練樣本數(shù)最為敏感,RF、GBRT對訓(xùn)練樣本數(shù)敏感性表現(xiàn)較為一致,次于DNN、ANN,SVR對樣本數(shù)的敏感性較小,GPR最末。
為綜合評價(jià)6種機(jī)器學(xué)習(xí)模型在草地AGB遙感反演領(lǐng)域的適用性,設(shè)定模型訓(xùn)練30次的平均R2(M1)、RMSE(M2)、MAE(M3)及模型對訓(xùn)練樣本大小敏感性重復(fù)30次的平均R2(M4)、RMSE(M5)、MAE(M6)綜合評價(jià)比較不同模型的適應(yīng)度。首先對評價(jià)指標(biāo)采用最大最小值歸一化方法對指標(biāo)歸一化,設(shè)定M1、M4為正指標(biāo),M2、M3、M5、M6為 負(fù) 指 標(biāo)。結(jié) 果 表 明:DNN模 型 的 綜 合 性 能 最 好,性 能GPR>ANN>GBRT>RF>SVR(圖7)。
圖7 使用雷達(dá)圖從不同角度綜合對比6種機(jī)器學(xué)習(xí)模型的表現(xiàn)Fig.7 Comprehensive comparison of six machine learning models with different metrics using a radar chart
采用性能最好的DNN作為反演天祝藏族自治縣草地AGB反演模型,得到2020年天祝藏族自治縣生長季(4-9月)草地AGB空間分布圖。結(jié)果表明:不同月份草地AGB空間異質(zhì)性較大,呈明顯地帶性分布,從西北向東南呈下降趨勢。其中,草地AGB最低值區(qū)域主要集中在高山草甸類植被較為稀少的冷龍嶺區(qū)域和荒漠草原南部區(qū)域。最高值主要分布在山地草甸分布區(qū)域和溫性荒漠草原南部區(qū)域。
從不同月份來看,盛草期AGB集中在50~250 g·m-2,從5月開始上升,7月達(dá)到峰值,8月開始呈下降趨勢。其中,溫性草原和溫性荒漠草原在4月的草地AGB高于其他2種草地類,介于50~70 g·m-2,且兩種類型草地AGB均在5月達(dá)到最大(AGB>100 g·m-2)。不同的是,溫性荒漠草原AGB在6月開始下降,溫性草原AGB有較長生長期,一直延遲到9月才開始下降。高寒草甸和山地草甸4月AGB較低,基本小于70 g·m-2,5月開始上升,7月達(dá)到最高(AGB>150 g·m-2),9月開始下降(圖8)。
圖8 草地AGB空間分布Fig.8 Spatial distribution of AGB in grassland
通過分析草地AGB對氣溫、降水的響應(yīng)機(jī)制。結(jié)果表明,除溫性荒漠草原類之外,其他3種草地類型的變化與氣溫有較好的一致性,表現(xiàn)出較為明顯的正相關(guān)關(guān)系(圖9)。降水量對高寒草甸、溫性草原和山地草甸的走勢保持一致,但影響不是很明顯。降水量對溫性荒漠草原類的影響較大,隨降水量減少,AGB出現(xiàn)一定程度的減少。
圖9 各種草地類型AGB對氣溫和降水的響應(yīng)機(jī)制Fig.9 Response mechanism of AGB in different grassland types to temperature and precipitation
機(jī)器學(xué)習(xí)方法不依賴于固定的模型框架,通過不斷的“學(xué)習(xí)”模型校正過程中反饋誤差,提高了模擬自變量與隱因變量之間的精度。以往研究證明機(jī)器學(xué)習(xí)模型能較好地保證模型的穩(wěn)定性和可靠性,是目前解決非線性回歸問題的有效方法,但機(jī)器學(xué)習(xí)模型是基于大樣本數(shù)據(jù)建立的,在基于實(shí)測數(shù)據(jù)的遙感反演的過程中,很難獲得成千上萬的實(shí)測數(shù)據(jù)。近年來,諸多研究學(xué)者應(yīng)用機(jī)器學(xué)習(xí)算法(GPR、ANN、SVR、RF)反演草地AGB,發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型在解決小樣本數(shù)據(jù)時(shí)也具有一定優(yōu)勢[28-30],且與草地AGB反演的參數(shù)化方法相比,機(jī)器學(xué)習(xí)算法通常具有更好的預(yù)測性能[24-30]?,F(xiàn)階段基于不同原理發(fā)展起來了許多種機(jī)器學(xué)習(xí)算法,這對模型的選擇(訓(xùn)練樣本數(shù)量、模型精度、模型的穩(wěn)定性等)提出了巨大挑戰(zhàn)。
通過綜合對比不同機(jī)器學(xué)習(xí)算法使用小樣本數(shù)據(jù)反演草地生物量的性能發(fā)現(xiàn),6種機(jī)器學(xué)習(xí)算法在草地AGB反演中表現(xiàn)較好,具有較大的應(yīng)用潛力。但從預(yù)測結(jié)果和實(shí)測值的比較可以發(fā)現(xiàn),不同的機(jī)器學(xué)習(xí)模型對計(jì)算效率、穩(wěn)定性和對樣本數(shù)量的要求有異。DNN作為在機(jī)器學(xué)習(xí)基礎(chǔ)上發(fā)展起來的深度學(xué)習(xí)算法中的一種,在草地AGB反演方面的性能較好,對樣本數(shù)量的敏感性較大,隨著樣本數(shù)量增加,模型精度增加較大,當(dāng)樣本數(shù)大于某一個(gè)數(shù)時(shí),模型精度明顯高于其他幾種傳統(tǒng)的機(jī)器學(xué)習(xí)模型,但該模型具有較深層次的網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)過程較慢。GBRT作為在決策樹基礎(chǔ)上興起的模型,在計(jì)算精度上優(yōu)于RF,但該模型的穩(wěn)定性與RF表現(xiàn)相近,穩(wěn)定性較低。GBRT、RF精度較高,但穩(wěn)定性較差,主要原因是這兩者模型的超參數(shù)較多,超參數(shù)的較小變化就會導(dǎo)致模型精度的變化。ANN作為最早使用在遙感反演領(lǐng)域的傳統(tǒng)機(jī)器學(xué)習(xí)模型,模擬精度較低,穩(wěn)定性較差,過多的依賴于參數(shù)的設(shè)置。SVR精度最低,但穩(wěn)定性很強(qiáng),對樣本數(shù)的敏感性較弱。GPR各方面表現(xiàn)較為良好,表現(xiàn)性能僅次于DNN模型。從原理角度分析,SVR通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小的方式尋求最優(yōu)預(yù)測結(jié)果,即以控制整體誤差為目標(biāo)校正模型;ANN是以不斷的擬合局部真值為訓(xùn)練目標(biāo),因此得到的可能是局部最優(yōu)解,這樣會導(dǎo)致模型預(yù)測時(shí)泛化能力較差;GBRT和RF基于決策樹,當(dāng)訓(xùn)練樣本的內(nèi)部機(jī)構(gòu)越混亂,模型的不確定性就越大,錯(cuò)誤率也會相應(yīng)增加。
作為最新發(fā)展起來的DNN、GBRT未曾應(yīng)用于草地AGB反演的研究中,故無法將這兩種機(jī)器學(xué)習(xí)模型的結(jié)果與其他的研究進(jìn)行對比分析。有限的試驗(yàn)數(shù)據(jù)導(dǎo)致所建立的模型存在時(shí)空局限性,若能采用分布較為均勻的大樣本數(shù)據(jù)對模型進(jìn)行訓(xùn)練,可以更加全面評估不同模型在不同地形、草地蓋度等的適用性,從而可以進(jìn)一步討論不同模型使用的植被覆蓋情況和使用的邊界。
雖然存在一定的不足,但在評價(jià)不同模型時(shí)采用了較為全面的評價(jià)指標(biāo)對模型穩(wěn)定性、精度、計(jì)算效率進(jìn)行了評價(jià)。與同類研究相比,考慮了更多的評價(jià)因素,更客觀、綜合地評價(jià)了模型在草地AGB反演研究中的應(yīng)用潛力,對相關(guān)研究有一定的參考價(jià)值。
草地AGB有效和精確估算可作為放牧經(jīng)濟(jì)及草地管理制度的重要依據(jù)。利用R2、RMSE、MAE及模型穩(wěn)定性綜合考慮了草地AGB的影響因子,評價(jià)了DNN、RF、GBRT、SVR、ANN和GPR算法在反演草地AGB的適用性及性能。結(jié)果表明:1)通過相關(guān)分析發(fā)現(xiàn)對天祝藏族自治縣草地AGB影響較為顯著的因子為Landsat 8的B1~B7反射率數(shù)據(jù)、NDVI、EVI、TEM、PRE、aspect和DEM。2)DNN在估算天祝藏族自治縣草地AGB表現(xiàn)的性能最佳,但該模型穩(wěn)定性較差,對樣本數(shù)的大小較為敏感,且GPR性能>ANN>GBRT>RF>SVR。3)天祝藏族自治縣草地AGB集中在50~250 g·m-2,整體表現(xiàn)為從西北向東南呈下降趨勢。氣溫與山地草甸、高寒草甸和溫性草原的AGB表現(xiàn)出較為明顯的正相關(guān)關(guān)系。降水量對高寒草甸、溫性草原和山地草甸的AGB影響不明顯,但對溫性荒漠草原類的影響較大,AGB隨降水量減少呈減少態(tài)勢。