王曉燕, 李 凈, 邢立亭
(西北師范大學(xué)地理與環(huán)境科學(xué)學(xué)院,甘肅 蘭州 730070)
干旱是出現(xiàn)頻率高、持續(xù)時(shí)間長、波及范圍廣的氣象災(zāi)害之一[1]。農(nóng)業(yè)干旱是由于低于正常降水或高于平均蒸發(fā)和蒸騰作用而導(dǎo)致的土壤水分虧缺[2]。頻繁的農(nóng)業(yè)干旱導(dǎo)致經(jīng)濟(jì)損失嚴(yán)重,因此準(zhǔn)確且實(shí)時(shí)或接近實(shí)時(shí)的農(nóng)業(yè)干旱監(jiān)測是必不可少的。
干旱指數(shù)是監(jiān)測和分析農(nóng)業(yè)干旱的重要方法。近年來,學(xué)者們建立了各種干旱指數(shù)來量化干旱特征,特別是嚴(yán)重程度和空間范圍[3]。根據(jù)數(shù)據(jù)源不同,通常分為基于氣象站點(diǎn)數(shù)據(jù)監(jiān)測的干旱指數(shù)和基于遙感數(shù)據(jù)監(jiān)測的干旱指數(shù)兩大類。常用的基于氣象站點(diǎn)數(shù)據(jù)的干旱指數(shù)包括帕默爾旱度指數(shù)(PDSI)[4]、作物干旱識(shí)別指數(shù)[5]、綜合指數(shù)(CI)[6]、K 指數(shù)[7]、標(biāo)準(zhǔn)化降水指數(shù)(SPI)[8]和標(biāo)準(zhǔn)化降水蒸發(fā)指數(shù)(SPEI)[9-10]等。SPEI由于同時(shí)考慮了降水量和溫度并且能夠監(jiān)測不同地區(qū)不同類型的干旱,被廣泛應(yīng)用。雖然基于氣象站點(diǎn)數(shù)據(jù)的干旱指數(shù)能夠準(zhǔn)確且有效的監(jiān)測氣象站及其周邊干旱的嚴(yán)重程度,但在可用氣象站點(diǎn)有限的條件下,遙感數(shù)據(jù)覆蓋面積廣、空間分辨率高、時(shí)效性強(qiáng)等特點(diǎn),基于遙感數(shù)據(jù)的干旱指數(shù)在大面積干旱時(shí)空模式的監(jiān)測中更為可靠。當(dāng)前基于遙感數(shù)據(jù)監(jiān)測的干旱指數(shù)主要有歸一化植被指數(shù)(NDVI)[11]、植被狀態(tài)指數(shù)(VCI)[12]、溫度狀態(tài)指數(shù)(TCI)[13]、歸一化多波段干旱指數(shù)(NMDI)[14]、歸一化差值水分指數(shù)(NDWI)[15]以及植被供水指數(shù)(VSWI)[16]等。最初多是單一因素的遙感指數(shù)被用于監(jiān)測和分析干旱,如NDVI、VCI 等,但農(nóng)業(yè)干旱過程復(fù)雜多變,影響因素眾多,單一因素的干旱指數(shù)往往難以反映干旱的多類型和多尺度特征[17]。因此利用先進(jìn)方法集成多源數(shù)據(jù)構(gòu)建綜合的干旱監(jiān)測模型或指數(shù)逐漸成為發(fā)展新趨勢。
綜合多源數(shù)據(jù)的干旱監(jiān)測模型或指數(shù)從構(gòu)建方法角度介紹,有權(quán)重組合、多變量聯(lián)合分布及機(jī)器學(xué)習(xí)方法。Zhang 等[18]對土壤水分條件指數(shù)(SMCI)、TCI、PCI 進(jìn)行線性加權(quán)構(gòu)建微波集成干旱指數(shù)(MIDI),結(jié)果表明MIDI 與實(shí)測值在空間分布上有很好的一致。杜瑞麒等[19]通過聯(lián)合分布函數(shù)構(gòu)建出反映土壤水分和降水信息的綜合干旱指數(shù),并較好的分析了吉林省的干旱時(shí)空特征。雖然權(quán)重組合與聯(lián)合分布方法在干旱監(jiān)測中均有較好的表現(xiàn),但均存在一定程度的缺陷。權(quán)重組合方法建立的綜合干旱指數(shù)需要先假設(shè)變量間的線性關(guān)系然后根據(jù)專家經(jīng)驗(yàn)判斷或相關(guān)分析等方法來確定多種單一干旱指標(biāo)的權(quán)重,而農(nóng)業(yè)干旱的復(fù)雜決定了影響因子間不一定都是線性關(guān)系,同時(shí)權(quán)重的分配也存在誤差;利用聯(lián)合分布方法構(gòu)建的綜合干旱指數(shù)雖然既保留了單一指標(biāo)本身的邊際分布,又描述了指標(biāo)之間復(fù)雜的依存關(guān)系,但在單一指標(biāo)數(shù)量較多的情況下,變量間的關(guān)系變得復(fù)雜時(shí),會(huì)導(dǎo)致建模變得困難。近年機(jī)器學(xué)習(xí)方法逐漸成為干旱研究領(lǐng)域的新秀,因?yàn)槠洳粌H能夠處理干旱影響因子間復(fù)雜的非線性問題且能夠簡單明了的集成多源數(shù)據(jù),科學(xué)高效的建立綜合干旱監(jiān)測模型,合理的解決了上述問題。但是不同機(jī)器學(xué)習(xí)方法構(gòu)建的模型在農(nóng)業(yè)干旱監(jiān)測上具有區(qū)域差異性,而且甘肅省氣候類型復(fù)雜,干旱頻發(fā)。為了能在甘肅省建立更加全面精準(zhǔn)的綜合農(nóng)業(yè)干旱監(jiān)測模型,本文采用隨機(jī)森林、BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)3 種機(jī)器學(xué)習(xí)法,考慮多種干旱因子,結(jié)合氣象數(shù)據(jù)和多源遙感數(shù)據(jù),比較分析構(gòu)建的3 種綜合干旱監(jiān)測模型在甘肅省的適用性,同時(shí)探究模型在不同環(huán)境下的表現(xiàn)并分析不同致旱因子的相對重要性,為農(nóng)業(yè)干旱監(jiān)測研究提供了新方法以及科學(xué)參考。
甘肅省位于中國西北部,地理位置為32°11′~42°57′N,92°13′~108°46′E。甘肅是典型的溫帶大陸性氣候,降水少蒸發(fā)大。在甘肅幾乎每年都發(fā)生農(nóng)業(yè)干旱,每年平均受災(zāi)面積達(dá)到82.68×104km2,并導(dǎo)致5×108~10×108kg的糧食減產(chǎn)[20]。
本文從氣象、土壤、植被方面進(jìn)行因子選擇,選取PCI和TCI為氣象因子,VSWI作為土壤因子,VCI是植被因子。考慮到研究區(qū)內(nèi)不同地形水分、溫度、植被覆蓋度等因素在空間上存在差異性,土壤的生產(chǎn)力和抗旱性在空間上有高度變異性以及研究區(qū)內(nèi)氣候類型復(fù)雜等原因,選擇數(shù)字高程模型DEM、土壤有效含水量以及中國氣候區(qū)劃為模型的輔助因子。
數(shù)據(jù)選擇的時(shí)間范圍為2002—2019年,時(shí)間分辨率為月(4—10 月),空間分辨率為1 km。其中,MODIS數(shù)據(jù)有MOD11A2產(chǎn)品中的地表溫度(LST),時(shí)間分辨率為8 d,空間分辨率為1 km,月數(shù)據(jù)為4幅影像數(shù)據(jù)求平均;MOD13A2產(chǎn)品中的歸一化植被指數(shù)和增強(qiáng)型植被指數(shù)(EVI),時(shí)間分辨率為16 d,空間分辨率為1 km。降雨數(shù)據(jù)選擇TRMM3B43,時(shí)間分辨率為月,空間分辨率為0.25°。以上MODIS和TRMM 數(shù)據(jù)均來自于NASA(https://ladsweb.modaps.eosdis.nasa.gov/),在數(shù)據(jù)處理過程中,對于TRMM 數(shù)據(jù)首先將降水速率轉(zhuǎn)換為月降水總量數(shù)據(jù),然后統(tǒng)一對NDVI、LST、EVI 以及TRMM 數(shù)據(jù)進(jìn)行裁剪、投影轉(zhuǎn)換、采用最鄰近法進(jìn)行重采樣使空間分辨率為1 km,最后通過以上數(shù)據(jù)計(jì)算出VCI、TCI、PCI、VSWI指數(shù),具體計(jì)算過程如表1。
表1 干旱指數(shù)計(jì)算方法Tab.1 Remote sensing drought index calculation formula
DEM 數(shù)字高程、中國氣候區(qū)劃和中國土壤砂、黏粒含量數(shù)據(jù)以及用于制圖的土地覆蓋類型數(shù)據(jù)均來源于中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心(https://www.resdc.cn/),空間分辨率均為1 km。土壤有效含水量利用Gupta 等[21]提出的土壤砂、黏粒含量的經(jīng)驗(yàn)線性擬合模型估算。對全國DEM、氣候區(qū)劃以及土壤有效含水量進(jìn)行裁剪、投影轉(zhuǎn)換后可直接使用。
氣象數(shù)據(jù)來源于中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn/),氣象站點(diǎn)分布如圖1 所示,根據(jù)研究區(qū)氣象數(shù)據(jù)的缺失和站點(diǎn)分布在耕地的情況,最終選擇25 個(gè)氣象站點(diǎn)。站點(diǎn)數(shù)據(jù)主要包括1970—2019 年的月平均氣溫和月降水量,用于計(jì)算1個(gè)月、3個(gè)月、6個(gè)月時(shí)間尺度的SPEI。
圖1 研究區(qū)概況Fig.1 Overview of the study area
1.3.1 隨機(jī)森林 隨機(jī)森林的核心思想是回歸和分類,是使用去相關(guān)樹有效地減少預(yù)測變量方差的一種方法[24]。隨機(jī)森林方法的具體步驟為:首先從訓(xùn)練數(shù)據(jù)中,通過隨機(jī)提取訓(xùn)練數(shù)據(jù)集中的部分?jǐn)?shù)據(jù),比如20%的數(shù)據(jù)集,并據(jù)此形成決策樹;然后將提取的20%的數(shù)據(jù)集放回訓(xùn)練集中,并再次隨機(jī)提取20%的數(shù)據(jù)集,產(chǎn)生第二個(gè)決策樹。不斷重復(fù)第二步,建立多個(gè)決策樹并以此組成隨機(jī)森林;最終預(yù)測結(jié)果由所有決策樹結(jié)果的平均值決定。
1.3.2 BP神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò)是一種由輸入層、隱層和輸出層組成,并由誤差逆?zhèn)鞑シ椒ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)[25]。主要包括前向傳播和誤差的反向傳播。前向傳播指在計(jì)算誤差輸出時(shí),輸入信號通過隱含層作用于輸出節(jié)點(diǎn),經(jīng)過非線性變換,產(chǎn)生輸出信號,如果實(shí)際輸出與期望輸出不相符,則轉(zhuǎn)入誤差的反向傳播過程。誤差反向傳播指輸出誤差的逆向逐層分?jǐn)偤驼{(diào)節(jié)閾值使誤差階梯下降的過程。
1.3.3 支持向量機(jī) 支持向量機(jī)是一種監(jiān)督學(xué)習(xí)方法,通過非線性映射,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,將低維空間和線性不可分的數(shù)據(jù)映射到高維空間使其成為線性可分的,再將數(shù)據(jù)在高維空間進(jìn)行分類和預(yù)測[26]。支持向量機(jī)的核心是核函數(shù),可以提高算法的速度。
降水、土壤、植被干旱因子在不同時(shí)期對干旱的表現(xiàn)不同。提取2002—2019 年甘肅4—10 月所有氣象站點(diǎn)的VCI、TCI、PCI 和VSWI 指數(shù),按月依次對4種遙感指數(shù)和1個(gè)月、3個(gè)月、6個(gè)月時(shí)間尺度的SPEI(分別由SPEI_1,SPEI_3 和SPEI_6 表示)進(jìn)行Pearson相關(guān)性分析,進(jìn)而分析單個(gè)遙感干旱指數(shù)監(jiān)測農(nóng)業(yè)干旱的能力以及融合多源數(shù)據(jù)的必要性,結(jié)果如表2所示。3種時(shí)間尺度的SPEI除了植被狀態(tài)指數(shù)VCI 在植被生長初期和末期外,其他指數(shù)的相關(guān)性均通過了0.01或0.05顯著性檢驗(yàn)。
表2 遙感指數(shù)與不同時(shí)間尺度SPEI的相關(guān)性分析Tab.2 Correlation analysis between remote sensing index and SPEI on different time scales
對于降水指數(shù)PCI,其相關(guān)性在3種時(shí)間尺度的SPEI中均為最高,且在7月達(dá)到最大值,說明以降水因子建立的干旱指數(shù)在降水充足的季節(jié)其監(jiān)測結(jié)果更具有參考價(jià)值。溫度干旱指數(shù)TCI在植被生長初期的相關(guān)系數(shù)要高于植被生長中后期,如TCI 與不同時(shí)間尺度SPEI 的相關(guān)性均在6 月達(dá)到最大值。在4—10 月,植被干旱指數(shù)VCI 與不同時(shí)間尺度SPEI 的相關(guān)性均呈現(xiàn)先增大后減小的過程,以SPEI_3 為例,在4 月和5 月未通過顯著性檢驗(yàn),到7月植被生長最佳時(shí)期,相關(guān)系數(shù)達(dá)到最大,8 月開始,相關(guān)性又逐漸減弱。這表明以植被因子建立的干旱指數(shù)在植被覆蓋度較好的區(qū)域監(jiān)測干旱能力更可靠。在月時(shí)間尺度上土壤濕度指數(shù)VSWI其相關(guān)性表現(xiàn)為先增大后減小再增大的趨勢。其變化趨勢與植被指數(shù)VCI 相同,說明土壤濕度指數(shù)更適合于植被茂盛區(qū)域的旱情監(jiān)測。
以上分析表明,PCI、VCI、TCI以及VSWI單個(gè)遙感干旱指數(shù)在監(jiān)測農(nóng)業(yè)干旱中具有局限性,雖然PCI 與SPEI 的相關(guān)性高,但單一降水因素不能代表干旱。因此應(yīng)用先進(jìn)的機(jī)器學(xué)習(xí)方法來融合多種致旱因子,構(gòu)建綜合監(jiān)測農(nóng)業(yè)干旱的模型具有重要意義。
不同時(shí)間尺度的標(biāo)準(zhǔn)化降水蒸發(fā)指數(shù)SPEI 可以分析不同的干旱類型,1—6個(gè)月時(shí)間尺度的SPEI適用于氣象和農(nóng)業(yè)干旱,較長時(shí)間尺度的SPEI適用于水文干旱。大量研究表明3月或更長時(shí)間尺度的SPEI 更能代表農(nóng)業(yè)干旱,本文采用3 個(gè)月時(shí)間尺度的SPEI分析農(nóng)業(yè)干旱。
從2012—2019 年甘肅氣象站點(diǎn)中隨機(jī)選取5組不同的5 個(gè)站點(diǎn)作為模型的驗(yàn)證數(shù)據(jù),其次,2002—2019年除每組被選出的5個(gè)驗(yàn)證站點(diǎn)外所有站點(diǎn)的SPEI_3 和所在站點(diǎn)的VCI、TCI、PCI、VSWI、DEM、AWC和氣候類型作為模型的訓(xùn)練數(shù)據(jù)。每組訓(xùn)練樣本數(shù)據(jù)依次有461 個(gè)、462 個(gè)、465 個(gè)、465 個(gè)和465 個(gè)。運(yùn)用3 種機(jī)器學(xué)習(xí)方法分別對4—10 月的訓(xùn)練樣本進(jìn)行學(xué)習(xí),每月包括5 組不同的訓(xùn)練樣本,共構(gòu)建35組農(nóng)業(yè)干旱監(jiān)測模型。
模型構(gòu)建中隨機(jī)森林有兩個(gè)重要參數(shù),決策樹個(gè)數(shù)n和樹節(jié)點(diǎn)預(yù)選變量個(gè)數(shù)m;當(dāng)n太小則模型欠擬合,當(dāng)n足夠大時(shí)模型逐漸趨于穩(wěn)定。n應(yīng)大于100,m的取值公式為,其中P為候選特征變量,m應(yīng)小于特征變量。為了選取誤差最小的m,根據(jù)經(jīng)驗(yàn)公式和不小于特征變量兩個(gè)要求,逐一選擇m并構(gòu)建不同的回歸模型。以4 月的5 組模型為例,當(dāng)n=1000,m依次取2、3、2、2、2時(shí),隨機(jī)森林模型的誤差最小,同樣方法得到其余30個(gè)模型的參數(shù)。支持向量機(jī)方法構(gòu)建模型時(shí)選取誤差較小、分類準(zhǔn)確率較高的徑向基函數(shù)RBF,兩個(gè)重要參數(shù)為核參數(shù)g和懲罰系數(shù)C。核參數(shù)g影響訓(xùn)練和預(yù)測速度。懲罰系數(shù)C越大,模型容易過擬合,過小容易欠擬合。經(jīng)過反復(fù)試驗(yàn),當(dāng)支持向量機(jī)的g為0.02、懲罰系數(shù)C為10 時(shí)模型是最穩(wěn)定的。BP 神經(jīng)網(wǎng)絡(luò)中梯度下降法是調(diào)整全局權(quán)重和閾值的關(guān)鍵,本文選擇訓(xùn)練速度最快的trainlm 函數(shù),缺點(diǎn)是需要的內(nèi)存大。
通過模型輸出的模擬值與SPEI_3 實(shí)測值之間的相關(guān)性分析,驗(yàn)證評價(jià)機(jī)器學(xué)習(xí)方法構(gòu)建的農(nóng)業(yè)干旱監(jiān)測模型。圖2為3種機(jī)器學(xué)習(xí)方法各月份第2 組驗(yàn)證樣本模擬值與實(shí)測值SPEI_3 的散點(diǎn)圖,圖中隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型的模擬值分別用RF_nh、BP_nh 和SVM_nh 表示。由圖2 可以看出,4—10月份3種機(jī)器學(xué)方法模型的模擬值與SPEI_3 實(shí)測值的相關(guān)系數(shù)都不小于0.89,說明3 種機(jī)器學(xué)習(xí)方法構(gòu)建的農(nóng)業(yè)干旱監(jiān)測模型都可應(yīng)用于實(shí)際的旱情監(jiān)測。
圖2 模型模擬值與實(shí)測值SPEI_3散點(diǎn)圖Fig.2 Scatter plot of model simulation value and measured value SPEI_3
利用決定系數(shù)R2、均方根誤差RMSE 和平均絕對誤差MAE 來比較模型模擬結(jié)果進(jìn)而分析適用于甘肅省構(gòu)建模型的最佳機(jī)器學(xué)習(xí)方法。從3種機(jī)器學(xué)習(xí)方法對驗(yàn)證數(shù)據(jù)的預(yù)測結(jié)果統(tǒng)計(jì)可知(表3),在隨機(jī)森林構(gòu)建的35個(gè)監(jiān)測模型中,隨機(jī)森林模型模擬值與SPEI_3 實(shí)測值的R2在0.78~0.95,4—10 月的總平均值為0.86;BP 神經(jīng)網(wǎng)絡(luò)模型的R2在0.70~0.91,4—10 月的總平均值為0.82;支持向量機(jī)模型的R2在0.73~0.91,4—10月的總平均值為0.84;同時(shí)也對每月5 組模型的統(tǒng)計(jì)指標(biāo)進(jìn)行求平均值,發(fā)現(xiàn)隨機(jī)森林模型的R2要高于BP 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī),說明隨機(jī)森林模型模擬的結(jié)果對干旱指數(shù)SPEI_3的解釋程度更高。隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)3 種方法構(gòu)建的模型中,RMSE 和MAE的最大值分別是0.79 和0.66、1.00 和0.79、0.81 和0.66,說明與BP 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型相比,隨機(jī)森林模型的模擬值與SPEI_3 實(shí)測值的差異更小,表現(xiàn)最好,而支持向量機(jī)模型的表現(xiàn)則要優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。通過上述分析表明,隨機(jī)森林方法構(gòu)建的模型在甘肅省的農(nóng)業(yè)干旱監(jiān)測中表現(xiàn)更佳。
表3 3種機(jī)器學(xué)習(xí)方法對驗(yàn)證數(shù)據(jù)擬合結(jié)果統(tǒng)計(jì)Tab.3 Statistics of the fitting results of the three machine learning methods on the verification data
甘肅氣候類型復(fù)雜,隨機(jī)森林、BP 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)構(gòu)建的3 種模型受不同氣候模式的影響,對干燥和潮濕地區(qū)干旱指數(shù)SPEI_3的模擬可能不同,利用K 均值聚類方法根據(jù)多年降水條件將氣象站點(diǎn)劃分為干燥和濕潤兩種類型(表4)。首先根據(jù)兩個(gè)聚類將原始數(shù)據(jù)分為聚類1(干燥)與聚類2(濕潤)的訓(xùn)練樣本和驗(yàn)證樣本,然后分別訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量機(jī)模型,最后利用決定系數(shù)R2、均方根誤差RMSE 和平均絕對誤差MAE來評估模型的性能(表5)。從表5可知,不管在那種環(huán)境下,隨機(jī)森林模型的表現(xiàn)要優(yōu)于其他兩種模型,在干燥的環(huán)境下,BP 神經(jīng)網(wǎng)絡(luò)模型的性能比支持向量機(jī)模型好,濕潤環(huán)境下,與BP 神經(jīng)網(wǎng)絡(luò)模型相比支持向量機(jī)模型表現(xiàn)更佳。此外,3 種機(jī)器學(xué)習(xí)方法構(gòu)建的模型在濕潤環(huán)境下監(jiān)測農(nóng)業(yè)干旱的能力優(yōu)于干燥環(huán)境下。
表4 站點(diǎn)聚類結(jié)果Tab.4 Site classification
表5 不同空間模型性能評估Tab.5 Model performance evaluation in different spaces
為了確定不同環(huán)境下模型在連續(xù)時(shí)間序列上對SPEI_3實(shí)測值模擬的性能。選擇聚類1和聚類2兩組驗(yàn)證樣本中共12個(gè)站點(diǎn),驗(yàn)證3種機(jī)器學(xué)習(xí)方法的時(shí)空差異性。圖3 為3 種機(jī)器學(xué)習(xí)方法對2012—2019 年7 月的12 個(gè)氣象站點(diǎn)模擬值與實(shí)測SPEI_3的一致性分析,其中山丹、景泰、張掖、永昌、高臺(tái)和皋蘭為干燥環(huán)境中的站點(diǎn),榆中、臨洮、環(huán)縣、臨夏、武都和岷縣為濕潤環(huán)境中的站點(diǎn)。由圖3可知,連續(xù)時(shí)間序列上RF 模型在兩個(gè)聚類中模擬SPEI_3 實(shí)測值的表現(xiàn)最好。在干燥環(huán)境的站點(diǎn)中除張掖和高臺(tái)站點(diǎn)外其他站點(diǎn)BP 模型表現(xiàn)比支持向量機(jī)模型好,在濕潤環(huán)境的站點(diǎn)中支持向量機(jī)模型略好,分析結(jié)果與表5相似,說明不同環(huán)境下構(gòu)建的模型是可靠的。
圖3 2012—2019年7月模型模擬值與實(shí)測SPEI_3的變化趨勢Fig.3 The change trend of model simulation value and measured SPEI_3 from 2012 to July 2019
隨機(jī)森林方法可以進(jìn)行變量重要性排序,因此通過該法獲取兩個(gè)聚類干旱因子(VCI、TCI、PCI、VSWI、AWC、氣候類型和DEM)的重要性排序(圖4)。氣象因子PCI 與TCI 在干燥和濕潤環(huán)境中排名均為前兩名,對整個(gè)模型的影響最大,這兩個(gè)氣象因子的總和分別占聚類1 和聚類2 相對重要性的56%和55%,表明降水和溫度因子是造成農(nóng)業(yè)干旱的主要因素。在聚類2濕潤環(huán)境中,土壤因子VSWI重要性為第3,植被因子VCI 為第4。聚類1 干燥環(huán)境中,植被為第3,土壤因子為第4。但受環(huán)境的影響,濕潤環(huán)境下的植被長勢比干燥環(huán)境下好。機(jī)器學(xué)習(xí)構(gòu)建的模型在降水較多、植被覆蓋度高的區(qū)域監(jiān)測能力更好。
圖4 不同聚類因子重要性分析Fig.4 Analysis of the importance of different clustering factors
干旱是影響人類生活生產(chǎn)的自然災(zāi)害之一,精準(zhǔn)實(shí)時(shí)的監(jiān)測農(nóng)業(yè)干旱是必須要解決的問題,故本文融合氣象數(shù)據(jù)和遙感數(shù)據(jù),利用隨機(jī)森林、支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)3 種機(jī)器學(xué)習(xí)方法,構(gòu)建了3種甘肅省綜合農(nóng)業(yè)干旱監(jiān)測模型。已有研究表明[27],機(jī)器學(xué)習(xí)模型可以有效的提高監(jiān)測干旱的準(zhǔn)確性,這與本文的研究是一致的。本文對模型模擬的結(jié)果與實(shí)測值SPEI_3進(jìn)行比較分析,兩者有很好的一致性,同時(shí)對4 種單因子干旱指數(shù)與3 種不同時(shí)間尺度的SPEI進(jìn)行了相關(guān)性分析,模型的相關(guān)性高于單因子相關(guān)性,表明融合多源遙感數(shù)據(jù)確實(shí)提高了遙感監(jiān)測農(nóng)業(yè)干旱的準(zhǔn)確性。
3 種模型中,隨機(jī)森林模型的模擬結(jié)果要優(yōu)于支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)模型,R2更大,誤差更小。這一結(jié)果與董婷等[28]的研究一致,隨機(jī)森林模型在干旱監(jiān)測中表現(xiàn)更優(yōu),更具有普適性。本研究中3 種機(jī)器學(xué)習(xí)模型在濕潤環(huán)境的表現(xiàn)更好,而在兩種環(huán)境中隨機(jī)森林模型的監(jiān)測能力仍強(qiáng)于支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)模型,這與Feng 等[29]的研究結(jié)果是相似的,明確了本文研究的準(zhǔn)確性和可靠性,同時(shí)也進(jìn)一步表明了隨機(jī)森林模型在農(nóng)業(yè)干旱監(jiān)測中更有潛力。但本文依然存在需要改進(jìn)的地方,本文使用的降水遙感數(shù)據(jù)空間分辨率為0.25°,時(shí)間分辨率為月,都有待進(jìn)一步提高。本文在干旱因子選擇時(shí)沒有考慮蒸發(fā)、人類活動(dòng)等因素。未來需要針對這些不足進(jìn)一步進(jìn)行研究。
通過采用隨機(jī)森林、支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)3 種機(jī)器學(xué)習(xí)方法,集成多源數(shù)據(jù),構(gòu)建了3 種甘肅省綜合農(nóng)業(yè)干旱監(jiān)測模型,并驗(yàn)證了3 種機(jī)器學(xué)習(xí)模型的精度,比較了3 種機(jī)器學(xué)習(xí)模型在甘肅省農(nóng)業(yè)干旱監(jiān)測的結(jié)果以及在不同環(huán)境下模型的表現(xiàn)。主要得出結(jié)論如下:
(1)3 種機(jī)器學(xué)習(xí)方法構(gòu)建的綜合農(nóng)業(yè)干旱監(jiān)測模型的模擬值與SPEI_3 實(shí)測值的相關(guān)系數(shù)均在0.89以上,表明構(gòu)建的3種模型是有效的,均可應(yīng)用于甘肅省的農(nóng)業(yè)干旱監(jiān)測。
(2)利用R2、RMSE 和MAE 對3 種模型模擬結(jié)果進(jìn)行了比較,發(fā)現(xiàn)隨機(jī)森林方法構(gòu)建的模型統(tǒng)計(jì)指標(biāo)要優(yōu)于支持向量機(jī)模型和BP神經(jīng)網(wǎng)絡(luò)模型,說明RF 模型能更全面可靠精準(zhǔn)的對甘肅省的農(nóng)業(yè)干旱進(jìn)行監(jiān)測。
(3)對比不同環(huán)境下分別構(gòu)建的3種機(jī)器學(xué)習(xí)模型性能,隨機(jī)森林模型在干燥和濕潤環(huán)境中表現(xiàn)均要優(yōu)于支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)模型,說明該模型在農(nóng)業(yè)干旱監(jiān)測研究中更具有可靠性。結(jié)合因子相對重要性排序,發(fā)現(xiàn)機(jī)器學(xué)習(xí)構(gòu)建的模型更適合于半干旱和植被覆蓋度高的區(qū)域。