曹劍俠,溫仲明,2,李銳,2
(1.西北農(nóng)林科技大學(xué)資源環(huán)境學(xué)院,陜西楊凌712100;2.中國科學(xué)院水利部水土保持研究所,陜西楊凌712100)
隨著全球變化對物種多樣性的影響,準確預(yù)測物種的空間分布及其對氣候變化的響應(yīng),成為近年來生態(tài)學(xué)和生物保護研究的熱點[1-3],并開展了大量的研究工作,建立了很多新的模型方法,如廣義相加模型(generalized additive model,GAM)[4]、分類回歸樹(classification and regression tree analysis,CTA)[5-6]、神經(jīng)網(wǎng)絡(luò)系統(tǒng)[7]、基于規(guī)則的遺傳算法預(yù)測(genetic algorithm for rule set prediction,GARP)[8]等,為生物多樣性保護和生態(tài)恢復(fù)決策及評估等提供了重要技術(shù)支持。但對于具體的物種分布預(yù)測,選擇什么樣的模型方法,往往因模型的背景、原理和適用條件等的差異而不同,選擇什么樣的模型方法比較合適對于應(yīng)用者具有一定的難度[9]。因此,對目前主要的物種分布模型進行比較研究,并對其預(yù)測精度進行評估,具有重要的指導(dǎo)意義。
黃土高原地區(qū)丘陵起伏,地形復(fù)雜,物種與環(huán)境關(guān)系復(fù)雜[10]。溫仲明、赫曉慧等[1,11-12]利用廣義相加模型研究了延河流域自然植被分布與環(huán)境的關(guān)系,初步表明,利用非線性建模途徑的預(yù)測結(jié)果要好于線性模型,但除此之外,是否還有更合適的模型來研究該區(qū)的物種空間分布,目前尚未有深入探討。為此,本文選擇延河流域為研究區(qū),針對黃土高原特殊的自然地理環(huán)境,綜合考慮影響植被分布的主要因素,對目前物種分布研究中比較常用的9個模型進行比較研究,以確定適宜的物種分布預(yù)測模型,為該區(qū)域植被恢復(fù)的規(guī)劃、保護和管理等提供科學(xué)依據(jù),亦希望為我國植被—環(huán)境研究提供借鑒。
延河流域位于 36°23′—37°17′N,108°45′—110°28′E之間,流域全長286.9 km,總面積7 687 km2,平均坡度為4.3‰ ,河網(wǎng)密度約為4.7 km/km2。本流域?qū)俅箨懶詺夂?年降雨量500 mm左右,年平均氣溫9℃,立地環(huán)境多變,影響物種空間分布的因素眾多,涉及溫度、降雨、蒸發(fā)及地形、土壤等因素。從東南向西北,降雨、溫度具有明顯的梯度變化特征,植被分布也呈現(xiàn)漸次變化,從南向北分為南部遼東櫟(Quercus liaotungensis)、刺槐(Robinia pseudoacacia)、油松(Pinus tabulaeformisCarr)、闊葉—針葉混交林帶,中部延安到安塞之間為檸條(Caragana korshinskiiKom)、白羊草(Bothriochloa ischaemun)等草灌過渡帶,安塞以北為百里香、長芒草(Stipa bungeana)草原帶,隨環(huán)境梯度的變化明顯。該區(qū)植物資源較豐富,植物物種總數(shù)大體為589種,分屬81科[13]。
根據(jù)目前進展,非參數(shù)模型在建立物種分布模型方面較線性模型有較大的優(yōu)勢,本文選擇的9個模型,除廣義線性模型[14]外(generalized linear model,GLM),也大多為非參數(shù)模型,如廣義相加模型[14]、分類回歸樹分析[15]、人工神經(jīng)網(wǎng)絡(luò)、面域包絡(luò)模型(surface range envelope,SRE)、廣義增強模型(generalized boosting model,GBM)、隨機樹(breiman and cutler's random forest for classification and regression/Random Forest,RF)、混合判別式分析(mixture discriminant analysis,MDA)、多元自適應(yīng)回歸樣條(multiple adaptive regression splines,MARS)。這9個模型作為利用點數(shù)據(jù)進行空間預(yù)測的重要方法,可分別在一系列響應(yīng)變量和環(huán)境因子之間建立統(tǒng)計關(guān)系,對于預(yù)測單個物種對多個環(huán)境變量的綜合響應(yīng)非常方便且具有深遠的意義。
2.2.1 植被數(shù)據(jù)的采集與處理 取得具有代表性的空間樣本數(shù)據(jù),是物種分布模型建立的基礎(chǔ)。本文采用環(huán)境梯度分層采樣技術(shù)進行植被樣本數(shù)據(jù)的采集,首先將延河流域劃分為17個環(huán)境梯度單元;然后在不同的梯度單元內(nèi),根據(jù)每個梯度單元內(nèi)的柵格數(shù)量,確定相應(yīng)的需采集的樣點數(shù)量進行采樣。采樣時以環(huán)境梯度單元為基礎(chǔ),考慮不同立地條件,對處于穩(wěn)定狀態(tài)的或頂級演替階段的自然植物群落進行調(diào)查。樣地設(shè)置采用典型取樣法,對林地樣方一般設(shè)為10 m×10 m,草本樣地為2 m×2 m。每個喬木群落內(nèi)設(shè)置1個灌木樣方(5 m×5 m),10個草本樣方,每個灌木群落內(nèi)設(shè)置 10個草本樣方。數(shù)據(jù)采集是逐次進行的,時間為2005年,2006年及2008年。經(jīng)過數(shù)據(jù)質(zhì)量校驗,剔除部分研究區(qū)的誤差樣本(流域界外或數(shù)據(jù)記錄缺失),最后實際可用的樣點數(shù)為280個。物種數(shù)據(jù)(響應(yīng)變量)整理為二元數(shù)據(jù),即物種存在用1表示,不存在用0表示。
2.2.2 環(huán)境因子的選擇與獲取 在對影響植被分布的主要環(huán)境因子進行分析的基礎(chǔ)上,重點考慮了區(qū)域性的環(huán)境預(yù)測變量數(shù)據(jù),主要包括兩類,分別為氣候因子和地形因子。
氣候數(shù)據(jù)為1980—2000年延河流域及周邊地區(qū)57個氣象站點的氣象資料,來源于黃土高原各省、縣屬氣象局。根據(jù)現(xiàn)有研究,氣候因子主要指溫度和降雨[16-17]。根據(jù)對植被生長發(fā)育的影響,選擇了年均最冷月氣溫、年均最熱月氣溫、年均植被生長季節(jié)氣溫、年均氣溫、年均雨季降雨量、年均總降雨量、年均蒸發(fā)量、降雨季節(jié)變化和溫度季節(jié)變化9個指標來表征氣候?qū)χ脖环植嫉挠绊?。由于氣象站提供的是逐年逐月的平均氣溫、極值溫度與降雨,因此各因子指標需要通過運算求得,計算方法參見文獻[11]。
地形主要指地形的起伏變化,是影響局部植被空間分布的重要因素,依據(jù)地形因子的重要性,本研究選擇坡度、坡向、高程與地形部位4個地形因子參與模型的建立。其中,坡度、坡向可從DEM直接生成,高程從DEM直接讀取。地形部位本文采用高程殘差分析,并結(jié)合坡度,將延河流域的地形部位劃分為7類,即河道與溝間平地、下坡位、中坡、上坡、峁頂、高平地和細小溝谷。
2.2.3 軟件工具 本研究采用R語言和BIOMOD程序包構(gòu)建模型。R是近年來普及速度非常快的應(yīng)用軟件系統(tǒng),內(nèi)含許多實用的函數(shù),資源豐富且可擴展性強[18-19]。BIOMOD是基于R語言的一個程序包,通過對模型中各個參數(shù)進行多次試驗分析,確定模型的所有參數(shù),并且提供了多種方法對模型進行檢驗。
2.2.4 模型驗證和評估 在BIOMOD中對模型的評價有兩類:擬合度的評估和模型的精度評價。前者使用與每個模型相對應(yīng)的標準方法,如 ANOVA、AIC等;后者可用3種不同的技術(shù)方法(kappa,true skill statistics,Roc曲線)來評估模型的性能。本研究運用數(shù)據(jù)分割技術(shù),將整個原始數(shù)據(jù)分為2個子集,通過比較不同比例隨機分割數(shù)據(jù)的效果,最終取總數(shù)據(jù)集的80%作為訓(xùn)練子集,用來校正模型;余下的20%作為評估子集,用來驗證模型。同時,應(yīng)用Roc,Kappa和TSS3種方法來評估和比較模型精度。
哪些因素會影響到物種的空間分布,不同的模型有不同的結(jié)果。BIOMOD能夠計算提取出各個變量的相對重要性值。其值一般在0~1之間,值越高意味著變量越重要,0意味著變量根本不重要,當重要值大于1時表明該變量非常重要。本文僅以長芒草和虎榛子(Ostryopsis davidiana)為例,具體說明不同模型在分析物種分布影響因素方面的差異(表1)。
表1 各環(huán)境因子的重要值
由表1可知,各環(huán)境因子在不同物種不同模型中的重要性差別很大。如年均溫在預(yù)測長芒草分布的MARS模型中非常重要,而在其它模型中則根本不重要;年均最熱月氣溫在預(yù)測虎榛子的MARS模型中非常重要,而在預(yù)測其它物種的MARS模型中(其在預(yù)測百里香、鐵桿蒿、白羊草分布的MARS的重要值均為0)則根本不重要。通過模型比較,可以清楚地看出影響物種分布的主要環(huán)境因素,如長芒草在延河流域的空間分布主要受年均降雨量的影響,坡度、年均雨季降雨量、年均溫度、年均蒸發(fā)量、高程也會對其有所影響,而地形坡位對其幾乎沒有影響。同時,所選的9個模型,由于其本身的側(cè)重點不同,故選取的環(huán)境變量也不同并且數(shù)目差異較大,如RF模型選取的環(huán)境變量比較多,而CTA和GLM模型選取的環(huán)境因子都很少。
R—BIOMOD不僅可以分析各模型中影響物種分布的主要環(huán)境因素,并可以繪制模型的預(yù)測結(jié)果圖(僅以長芒草為例,如圖1),圖中越接近黑色部分表示物種的出現(xiàn)概率越大。盡管8個模型的環(huán)境因子、算法、假設(shè)、計算內(nèi)容和預(yù)測性能各不相同,但從分布圖上看,就預(yù)測的總體趨勢而言,其幾乎在全流域都有分布,且主要分布在延河流域中北部,與溫仲明、郝曉慧[1,12]等人的研究相符。但不同模型的預(yù)測結(jié)果圖是有所差別的,如在流域南部,8個模型的預(yù)測結(jié)果都不相同。這需要進一步通過模型精度比較,選擇出最優(yōu)的模型并結(jié)合實際情況加以判斷。
圖1 長芒草(Stipabungeana)各個模型的預(yù)測結(jié)果
常用的模型評價指標有總體準確度(overall accuracy)、靈敏度(sensitivity)、特異度(specificity)、Kappa統(tǒng)計量[20]、TSS[20](true skill statistic)和AUC[20]。將評估子集的數(shù)據(jù)代入訓(xùn)練后的模型中,用其所得結(jié)果給出3種方法相應(yīng)的結(jié)果,以此來評估不同模型對所選8個物種分布的模擬精度。
Roc方法是使用ROC曲線來表示模型敏感度與特異性之間的平衡度,ROC曲線是以1-特異度為橫坐標,以靈敏度為縱坐標繪制而成,曲線下面積(AUC)的大小作為模型預(yù)測準確度的衡量指標。其值一般介于0.5~1之間,值愈大,表明模型愈優(yōu)。由表2可知,用同一模型模擬不同物種的分布,用此方法評估ANN等8個模型對8個物種預(yù)測精度的平均值分別從0.7~1不等,表明各個模型模擬精度有所差別,以RF最優(yōu),GBM和ANN效果良好,而其余4個模型的模擬效果均不理想。同時,就某個特定的物種來說,不同模型對其分布的模擬效果也差別較大,如鐵桿蒿、茭蒿和白羊草,只有RF和GBM 模型模擬成功,其它6個模型均模擬失敗;而所有的模型對百里香和大針茅的模擬效果都比較好。
Kappa統(tǒng)計量綜合考慮了物種分布率、靈敏度、特異度,其值介于0~1之間,值愈大,表明模型愈優(yōu)。由表3可知,用此方法評估ANN等9個模型的平均值從0.282到0.991,模擬精度差別很大。除SRE模型精度不合格外,其它8個模型的模擬精度都可以。模型的模擬效果從優(yōu)到劣依次為:RF>GBM>ANN>MARS>GAM >CTA >MDA>GLM >SRE。
表2 用Roc方法評估9個模型對8個物種分布模擬的值
表3 用Kappa方法評估9個模型對8個物種分布模擬的值
TSS方法考慮了冗余和替代性誤差,其值介于0~1之間,值愈大,表明模型愈優(yōu)。由此方法評估ANN等9個模型的模擬精度,其結(jié)果也有所差別,其中除RF模擬精度非常好和SRE模擬精度非常差之外,其它7個模型的模擬精度都一般。
所選的9個模型對長芒草等8個物種分布的模擬精度3種方法有所差異:Roc方法均達到很好的模擬效果;TSS和Kappa值亦取得不錯的效果。其中,9個模型對百里香和虎棒子的模擬效果最為突出,3種方法評估值都較高,均達到非常好的模擬效果。對長芒草、大針茅分布預(yù)測的SRE模型模擬失敗,Kappa值分別為0.241,0.310,其它模型的模擬效果則較好。對鐵桿蒿分布預(yù)測的9個模型評估的3種方法評估值均最低,以Kappa值為例,對鐵桿蒿分布的SRE模型、MARS模型、MDA模型模擬的 Kappa值分別為0.043,0.184,0.202,模擬效果失敗,而其他的模型除RF和GBM外,模擬效果全部失敗。但是無論從3種方法的Kappa值、TSS值還是Roc方法的AUC值來看模型的模擬效果,RF模型、GBM模型和ANN模型都優(yōu)于其他模型,SRE模型模擬精度最差。
由于不同模型關(guān)于物種分布和環(huán)境關(guān)系的假設(shè)和運算法則各不相同,故很難對不同模型的預(yù)測進行比較。但BIOMOD則可以在過程中對模型進行直接比較,其專門的函數(shù)將迭代在模型的每一次運算中,根據(jù)所選的模型評價方法確定哪個模型具有最高的預(yù)測精度(表4)。由表4可知,不管使用Roc,Kappa或TSS,對研究區(qū)所選的8個物種,RF都具有較好的預(yù)測性。
本文針對模型眾多且研究者難以選擇的問題,選擇ANN等9個近年來在物種分布中應(yīng)用的模型,利用BIOMOD模型工具,對延河流域長芒草等8種物種的地理分布進行比較研究。結(jié)果表明,9個模型對不同物種的模擬效果有所差異,對百里香和虎棒子的模擬效果較好,對鐵桿蒿和白羊草的預(yù)測效果較差。用Roc曲線評價的9個模型對研究區(qū)8種物種的分布預(yù)測,均達到較高的精度,而另外兩種指標評價的9個模型的模擬預(yù)測效果都在一般??傮w而言,所選的9個模型對長芒草等8種物種的分布預(yù)測各有千秋,其中以RF模型的模擬效果最優(yōu),模擬精度最高;GBM模型、ANN模型、MARS模型也比較理想;GLM 模型、MDA模型很差。
表4 各個物種的最優(yōu)模型
當然利用BIOMOD構(gòu)建物種分布模型,由于模型函數(shù)是以程序包的形式被用戶調(diào)用,會在模型的選取、構(gòu)造和運算時,存在方法比較單一、參數(shù)形式簡單化的不足,然而,作為研究物種—環(huán)境關(guān)系的新平臺,R語言和BIOMOD提供了較多的構(gòu)建模型的方法和參數(shù)形式,能夠針對同一套數(shù)據(jù)構(gòu)建不同的模型關(guān)系,并對預(yù)測結(jié)果進行優(yōu)劣評估,對于模型選擇具有非常重要的意義,也為進一步深入研究物種分布模型奠定了基礎(chǔ)。
[1] 溫仲明,焦峰,焦菊英.黃土丘陵區(qū)延河流域潛在植被分布預(yù)測與制圖[J].應(yīng)用生態(tài)學(xué)報,2008,19(9):1897-1904.
[2] Zaniewski A E,Lehmann A,Overton J M.Predicting species spatial distributions using presence-only data:a case study of native New Zealand ferns[J].Ecological Modelling,2002,32(4):261-280.
[3] Remm Kalle.Case-based predictions for species and habitat mapping[J].Ecological Modelling,2004,177(3/4):259.
[4] Guisan A,Edwards J T C,Hastie T.Generalized linear and generalized additive models in studies of species distributions:Setting the scene[J].Ecoogical Mcoloical,2002,157:89-100.
[5] 溫小霓,蔡汝駿.分類與回歸樹及其應(yīng)用研究[J].統(tǒng)計與決策,2007(23):14-16.
[6] Moisen G G,Freeman E A,Blackard J A.Predicting tree species presence and basal areain Utah:A comparison of stochastic gradient boosting,generalized additive models,and tree-based methods[J].Ecological Modelling,2006,199:176-187.
[7] Manel S,Dias J M,Ormerod S J.Comparing discriminant analysis,neural networks and logistic regression for predicting species distributions:A case study with a Himalayan river bird[J].Ecological Modelling,1999,120:337-347.
[8] Anderson R P,Lew D,Peterson A T.Evaluating predictive models of species distributions:Criteria for selecting optimal models[J].Ecological Molelling,2003,162:211-232.
[9] Leathwicka J R,Elithb J,Hastiec T.Comparative performance of generalized additive models and multivariate adaptive regression splines for statistical modelling of species distributions[J].Ecologica Modelling,2006,199:188-196.
[10] 余衛(wèi)東,閔慶文,李湘閣.黃土高原地區(qū)降水資源特征及其對植被分布的可能影響[J].資源科學(xué),2002,24(6):55-60.
[11] 溫仲明,赫曉慧,焦峰,等.延河流域本氏針茅(Stipa bungeana)分布預(yù)測:廣義相加模型及其應(yīng)用[J].生態(tài)學(xué)報,2008,28(1):192-201.
[12] 赫曉慧,溫仲明,王金鑫.基于GAM模型的延河流域主要草地物種空間分布及其與環(huán)境的關(guān)系[J].生態(tài)學(xué)雜志,2008,27(10):1718-1724.
[13] 付坤俊.黃土高原植物志:第5卷.[M].北京:科學(xué)文獻出版社,1989:10-200.
[14] Hastie T J,Tibshirani R J.Generalised Additive M odels[M].London:Chapman and Hall,1990:3-10.
[15] Vayssieres M P,Plant R E,Allen-Diaz B H.Classification trees:an alternative non-parametric approach for predicting species distributions[J].Journal of Vegetation Science,2000,11:679-694.
[16] 李斌,張金屯.黃土高原地區(qū)植被與氣候變量的關(guān)系分析[J].生態(tài)學(xué)報,2003,23(1):82-89.
[17] Heinrich Walter.Vegetation of the Earth[M].Beijing:Science Press,1984:5-10.
[18] Venables W N,Smith D M.The R Development Core Team.An Introduction to R[M].2009:34-98.
[19] Emmanuel Paradis.R for Beginners[M].2005:37-71.
[20] Wilfried Thuiller,Bruno Lafourcade,Miguel Araujo.ModOperating Manual for BIOMOD[M].2009:10-90.