宗迪迪,董靈波,劉兆剛
(東北林業(yè)大學(xué) 林學(xué)院,黑龍江哈爾濱 150040)
物種分布受氣候、土壤和地形等多種因素影響,某種因素的變化可能引起物種適生環(huán)境的變化,甚至整個(gè)物種的遷移。隨全球氣候持續(xù)變化,物種分布地不斷變遷,生境逐漸破碎化,生物多樣性下降,有些物種甚至面臨滅絕[1]。探索物種與環(huán)境因素間的關(guān)系,并預(yù)測(cè)物種遷移和分布的變化,對(duì)于保護(hù)生物多樣性和維持生態(tài)環(huán)境穩(wěn)定有重要意義。
物種分布模型可通過(guò)某物種已知分布點(diǎn)與環(huán)境間的數(shù)據(jù)關(guān)系,在特定算法下計(jì)算出物種的生態(tài)位,并以概率的形式模擬和預(yù)測(cè)未來(lái)該物種的分布及其生境適宜度[2]。常用于模擬物種分布的模型主要有生物氣候分析系統(tǒng)(Bioclimate Analysis and Prediction System,BIOCLIM)[3]、生態(tài)位因子分析模型(Ecological Niche Factor Analysis,ENFA)[4]、基于規(guī)則集的遺傳算法模型(Genetic Algorithm Rule Set-Production,GARP)[5]、最大熵(Maximum Entropy,MaxEnt)模型[6-7]和隨機(jī)森林(Random Forest,RF)模型等。在物種潛在分布及其適宜生境預(yù)測(cè)方面應(yīng)用較廣的為MaxEnt 模型和地理信息系統(tǒng)(Geographic Information System,GIS)聯(lián)合應(yīng)用[8]。目前,物種潛在分布模擬方法逐步從定性的經(jīng)驗(yàn)總結(jié)向定量的數(shù)學(xué)模型靠近,使用最大熵模型和隨機(jī)森林模型進(jìn)行擬合研究。最大熵模型是一種機(jī)器學(xué)習(xí)模型,運(yùn)行多種樣本數(shù)據(jù),在處理變量間復(fù)雜的相互作用方面優(yōu)勢(shì)明顯,可信度較高[9],是物種保育、譜系地理和物種潛在分布模擬的首選模型[10]。該模型基于最大熵理論,通過(guò)已知的物種分布信息預(yù)測(cè)物種潛在適生區(qū),即使在物種分布信息缺乏的情況下也能進(jìn)行很好的預(yù)測(cè)[11]。隨機(jī)森林是一種結(jié)合決策樹和特征選擇對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的機(jī)器學(xué)習(xí)算法,可在保留決策樹優(yōu)點(diǎn)的同時(shí),提高分類精度[12-13],已被廣泛應(yīng)用于林業(yè)行業(yè)。隨機(jī)森林模型依靠多個(gè)模型獨(dú)立學(xué)習(xí)和預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行綜合判斷,具有多種優(yōu)勢(shì),包括對(duì)大樣本數(shù)據(jù)處理速度快;可高效處理高緯度樣本數(shù)據(jù)并建立模型;采用隨機(jī)抽樣的方式,訓(xùn)練方差??;對(duì)部分?jǐn)?shù)據(jù)異常或缺失不敏感,可在一定程度上避免過(guò)度擬合的情況等。
水曲柳(Fraxinusmandshurica)、胡桃楸(Juglansmadshurica)和黃檗(Phellodendronamurense)均為珍貴硬闊葉樹種,具有材質(zhì)優(yōu)良、致密堅(jiān)韌和紋理美觀等優(yōu)點(diǎn),被廣泛應(yīng)用于建筑、軍事和家具制造等行業(yè)[14]。由于過(guò)度砍伐、重采輕育和管理不當(dāng)?shù)?,水曲柳、胡桃楸和黃檗后備資源不足,均被列為瀕危樹種。目前,3 種樹種多為次生林,分布較零散,面積較小,以小樹、劣木居多。對(duì)3 種樹種進(jìn)行適地適樹種植和科學(xué)經(jīng)營(yíng)管理十分重要。近年來(lái),對(duì)3 種樹種的研究主要集中在生理特性[15-16]、種苗培養(yǎng)[17]及基因克隆和表達(dá)[18]等方面,綜合分析并預(yù)測(cè)3 種樹種潛在分布的研究較少。本研究以帽兒山實(shí)驗(yàn)林場(chǎng)水曲柳、胡桃楸和黃檗天然次生林為研究對(duì)象,通過(guò)查閱資料、實(shí)地調(diào)查等方式獲取水曲柳、胡桃楸和黃檗分布數(shù)據(jù)及林場(chǎng)土壤和地形等數(shù)據(jù),通過(guò)對(duì)比最大熵模型和隨機(jī)森林模型對(duì)3 種樹種潛在適生區(qū)的預(yù)測(cè)結(jié)果,分析影響樹種分布的主導(dǎo)環(huán)境因子及適生區(qū)變化情況和動(dòng)態(tài)分布,為3種珍貴硬闊葉樹種的更新、補(bǔ)植和可持續(xù)經(jīng)營(yíng)提供參考。
研究區(qū)位于東北林業(yè)大學(xué)帽兒山實(shí)驗(yàn)林場(chǎng)(127°29′~127°44′E,45°14′~45°29′N),始建于1958年,總面積為26 496 hm2[19]。該區(qū)屬溫帶大陸性氣候,四季分明,夏季高溫多雨,冬季寒冷干燥;地勢(shì)由南向北依次升高,平均坡度為10°~15°,平均海拔為300 m。土壤條件優(yōu)越,地帶性土壤為暗棕壤;植物區(qū)系屬長(zhǎng)白山植物區(qū)系,以天然次生林為主,主要有以水曲柳、胡桃楸和黃檗等為主的硬闊葉混交林,以山楊-白樺(Populusdavidiana-Betulaplatyphylla)和柞樹(Quercusmongolica)等為主的硬雜木林及紅松(Pinuskoraiensis)、落葉松(Larixgmelinii)和樟子松(Pinussylvestrisvar.mongolica)等人工林[20-21]。
1.2.1 數(shù)據(jù)來(lái)源
水曲柳、胡桃楸和黃檗天然次生林分布點(diǎn)數(shù)據(jù)來(lái)源于2016 年帽兒山實(shí)驗(yàn)林場(chǎng)二類調(diào)查小班數(shù)據(jù)庫(kù),共收集到3 818 條數(shù)據(jù);對(duì)其他類型數(shù)據(jù)點(diǎn)進(jìn)行篩選剔除,最終獲得2 920 條數(shù)據(jù),其中1 560 條為3種樹種分布點(diǎn)數(shù)據(jù)。采用ArcGIS 軟件,生成3 種樹種分布圖(圖1);同時(shí),獲取各小班數(shù)據(jù),包括A1 土層厚度、AB 土層厚度、土壤類型、坡度、坡位、坡向、郁閉度、每公頃株數(shù)、每公頃蓄積、立地類型和地被總蓋度。具體的土壤類型、立地類型、坡位和坡向見表1~4[22]。海拔數(shù)據(jù)來(lái)源于地理空間數(shù)據(jù)云(http://www.gscloud.cn/),下載分辨率為90 m 的數(shù)字高程模型(Digital Elevation Model,DEM)。
表1 土壤類型Tab.1 Soil types
表2 立地類型Tab.2 Site types
表3 坡位Tab.3 Slope positions
表4 坡向Tab.4 Slope aspects
圖1 3個(gè)樹種分布點(diǎn)Fig.1 Distribution points of three tree species
1.2.2 模型性能評(píng)價(jià)指標(biāo)
判定最大熵模型和隨機(jī)森林模型精度的指標(biāo)為受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(AUC),其對(duì)于判斷預(yù)測(cè)模型優(yōu)劣有良好的應(yīng)用效果。以真陽(yáng)性率為縱坐標(biāo)、假陽(yáng)性率為橫坐標(biāo),繪制ROC 曲線;ROC 曲線與橫坐標(biāo)形成的區(qū)域?yàn)锳UC。模型精度值評(píng)價(jià)標(biāo)準(zhǔn)見表5。
表5 模型精度值評(píng)價(jià)標(biāo)準(zhǔn)[23]Tab.5 Evaluation criteria for model accuracy values
1.2.3 最大熵模型構(gòu)建
從3 種樹種分布樣點(diǎn)中,提取75%分布點(diǎn)作為訓(xùn)練集,用于模型構(gòu)建;剩余25%分布點(diǎn)作為測(cè)試集,用于模型檢驗(yàn)。將3 種樹種的分布數(shù)據(jù)和環(huán)境因子導(dǎo)入MaxEnt軟件,重復(fù)運(yùn)行10次,建立模型;采用刀切法(Jackknife Method)檢驗(yàn)環(huán)境因子對(duì)模型的貢獻(xiàn)率和重要性。模型結(jié)果輸出為Cloglog形式。
1.2.4 隨機(jī)森林模型構(gòu)建
以3 種樹種為目標(biāo)樹種,其中有目標(biāo)樹種分布的點(diǎn)標(biāo)記為1,沒(méi)有目標(biāo)樹種分布的點(diǎn)標(biāo)記為0;采用R-Studio 軟件構(gòu)建隨機(jī)森林模型。通過(guò)Bootstrap隨機(jī)抽取n個(gè)樣本數(shù)據(jù),組成訓(xùn)練集,構(gòu)建決策樹;剩余部分作為測(cè)試集,用于驗(yàn)證模型精度;在每棵樹的節(jié)點(diǎn)處,隨機(jī)選擇m個(gè)變量,采用基尼系數(shù)、信息增益等方法,不斷尋找最佳分割屬性,在不修剪的情況下構(gòu)成1棵決策樹;不斷重復(fù)該過(guò)程,得到多個(gè)決策樹;各決策樹互不關(guān)聯(lián),形成隨機(jī)森林;通過(guò)統(tǒng)計(jì)每個(gè)決策樹的結(jié)果,投票選出最優(yōu)預(yù)測(cè)結(jié)果。
2.1.1 最大熵模型結(jié)果分析
采用刀切法分析各環(huán)境因子對(duì)預(yù)測(cè)結(jié)果產(chǎn)生的影響;紅色代表全部變量;綠色代表除此變量,即依次排除每個(gè)因子,用剩余因子創(chuàng)建模型,得到除此變量的訓(xùn)練得分。坡位用除此變量構(gòu)建熵模型時(shí)影響最大,表明其基于最大熵模型的貢獻(xiàn)值較大;12 個(gè)因子中,對(duì)3 種樹種分布影響最大的為坡位,即坡位為影響3種樹種分布的最重要因素(圖2)。
圖2 最大熵模型環(huán)境變量貢獻(xiàn)刀切法檢驗(yàn)Fig.2 Jackknife method test for contributions of environmental variables in maximum entropy model
繪制環(huán)境因子與預(yù)測(cè)目標(biāo)樹種間的關(guān)系圖,可直觀反映環(huán)境因子對(duì)留存提升的影響,通過(guò)分析得出目標(biāo)樹種的適宜分布環(huán)境。為進(jìn)一步了解主要環(huán)境因子與3 種樹種適生性的關(guān)系,通過(guò)最大熵模型輸出各環(huán)境因子依賴圖(圖3)。
圖3 最大熵模型輸出的環(huán)境因子依賴圖Fig.3 Environmental factor dependencies output by maximum entropy model
存在概率大于0.50 時(shí),對(duì)應(yīng)的環(huán)境因子變化范圍適宜3種樹種分布。輸出結(jié)果分為連續(xù)變量和分類變量;每公頃蓄積、郁閉度、地被總蓋度、立地類型、坡位和坡向6 個(gè)因子對(duì)目標(biāo)樹種分布預(yù)測(cè)有影響;其中,每公頃蓄積、郁閉度和地被總蓋度為連續(xù)變量,立地類型、坡位和坡向?yàn)榉诸愖兞?。連續(xù)變量中,每公頃蓄積的適值范圍為50~250 m3/hm2;郁閉度的適值范圍為0.5~0.7 和0.8~1.0;地被總蓋度的適值范圍為0%~100%。分類變量中,陰斜坡中層暗棕壤型為最適合目標(biāo)樹種生長(zhǎng)的立地類型;中坡為最適合目標(biāo)樹種生長(zhǎng)的坡位;南和無(wú)坡向?yàn)樽钸m合目標(biāo)樹種生長(zhǎng)的坡向。
2.1.2 隨機(jī)森林模型結(jié)果分析
通過(guò)隨機(jī)森林模型輸出3種樹種分布對(duì)各環(huán)境因子的依賴圖,曲線變化越大,變量越重要(圖4)。土壤類型不是影響目標(biāo)樹種分布的重要變量;海拔的重要性最高,與目標(biāo)樹種分布以負(fù)相關(guān)為主,即海拔越低,目標(biāo)樹種生長(zhǎng)的適宜性越高。每公頃蓄積最適值為50 m3/hm2,每公頃株數(shù)最適值為800株,郁閉度最適值為0.5,地被總蓋度最適值為0%。陽(yáng)陡坡薄層暗棕壤型為最適合目標(biāo)樹種生長(zhǎng)的立地類型,山谷為最適合目標(biāo)樹種生長(zhǎng)的坡位,西南為最適合目標(biāo)樹種生長(zhǎng)的坡向。坡度最適值為21°,A1土層厚度最適值為18 cm,AB土層厚度最適值為25 cm。
圖4 隨機(jī)森林模型輸出的環(huán)境因子依賴圖Fig.4 Environmental factor dependencies output by random forest model
2.1.3 模型結(jié)果對(duì)比分析
(1)模型精度對(duì)比
最大熵模型對(duì)水曲柳、胡桃楸和黃檗3 種樹種預(yù)測(cè)結(jié)果的訓(xùn)練數(shù)據(jù)為0.861,檢測(cè)數(shù)據(jù)AUC 值為0.858,平均AUC 值為0.854(圖5a),均超過(guò)0.800;最大熵模型的AUC 值處于0.800~0.900 之間。隨機(jī)森林模型對(duì)3 種樹種預(yù)測(cè)結(jié)果的平均AUC 值為0.920(圖5b);隨機(jī)森林模型的AUC 值處于0.900~1.000之間,預(yù)測(cè)精度較高。隨機(jī)森林模型預(yù)測(cè)精度高于最大熵模型,具有較好的預(yù)測(cè)能力,對(duì)3種樹種潛在適生區(qū)的預(yù)測(cè)結(jié)果更準(zhǔn)確。
圖5 不同模型ROC曲線(a:最大熵模型;b:隨機(jī)森林模型)Fig.5 ROC curves in different models(a:maximum entropy model;b:random forest model)
(2)重要因子排序
最大熵模型輸出結(jié)果顯示,坡位、立地類型對(duì)3種樹種分布的影響最大,其次為坡向、郁閉度和地被總蓋度,其他因子均影響較小(圖6)。
圖6 環(huán)境因子對(duì)3種樹種分布的影響Fig.6 Influences of environmental factors on distributions of three tree species
隨機(jī)森林模型輸出結(jié)果顯示,海拔對(duì)3 種樹種分布的影響最大,其次為每公頃蓄積和郁閉度,土壤類型影響最小。
坡位和海拔均屬于地形因子,因此地形因子為限制水曲柳、胡桃楸和黃檗分布的重要因子。
從最大熵模型得到3 種樹種適生值的柵格數(shù)據(jù),數(shù)值范圍為0~1,數(shù)值越接近1,該地區(qū)越適宜3種樹種生長(zhǎng)。帽兒山實(shí)驗(yàn)林場(chǎng)全域范圍內(nèi)均存在水曲柳、胡桃楸和黃檗的高適生區(qū),但分布較分散(圖7a)。高適生區(qū)在中、西部分布較密集,范圍較大;東部分布較少,范圍較小。
隨機(jī)森林分布預(yù)測(cè)圖顯示,帽兒山實(shí)驗(yàn)林場(chǎng)北部和西部為3種樹種的高適生區(qū)(圖7b)。隨機(jī)森林模型預(yù)測(cè)的潛在適生區(qū)包括最大熵模型中顯示的分布范圍,有較高重合性,說(shuō)明帽兒山實(shí)驗(yàn)林場(chǎng)西部和北部適宜3種樹種生長(zhǎng)。
樹種生長(zhǎng)與周邊環(huán)境密切相關(guān),可通過(guò)分析樹種與環(huán)境因子間的關(guān)系判斷該樹種的適宜分布區(qū)。目前,多采用最大熵模型和隨機(jī)森林模型進(jìn)行擬合研究。本研究中,影響3 種樹種分布最重要的環(huán)境因子為地形因子。在樹種分布及其影響因子的研究中,海拔、坡度和坡向等地形因子均為影響樹種分布的關(guān)鍵因子[24-26];地形因子對(duì)樹種分布不產(chǎn)生直接作用,通過(guò)對(duì)降水、太陽(yáng)輻射空間分布和土壤養(yǎng)分等進(jìn)行再分配,間接影響樹種生長(zhǎng)和分布[25-26]。
地形是形成山地結(jié)構(gòu)和功能、促使各種生態(tài)現(xiàn)象和過(guò)程發(fā)生變化的根本因素[27],地形因子是劃分立地類型和進(jìn)行立地質(zhì)量評(píng)價(jià)的主導(dǎo)因子。地形因子中,海拔、坡位、坡度和坡向等因子可通過(guò)對(duì)地表物質(zhì)和能量進(jìn)行再分配,共同決定地表植被的分布格局和樹種選擇[28]。本研究分別采用最大熵和隨機(jī)森林兩種模型評(píng)估環(huán)境因子對(duì)目標(biāo)樹種分布的影響。最大熵模型中,立地類型和坡位為影響目標(biāo)樹種分布重要的環(huán)境因子;坡位作為較小尺度上的因子,與土壤厚度、林分結(jié)構(gòu)和物種分布特征密切相關(guān)[29]。隨機(jī)森林模型中,海拔的重要性最高,影響最大;海拔作為最主要的地形因子,其變化使得氣溫和太陽(yáng)輻射發(fā)生變化,影響生物個(gè)體生長(zhǎng)發(fā)育和樹種分布[30]。相關(guān)研究表明,除氣候因子外,海拔是影響水曲柳、胡桃楸和黃檗分布最重要的環(huán)境因素[31],與本研究結(jié)果一致。海拔和坡位為影響帽兒山實(shí)驗(yàn)林場(chǎng)水曲柳、胡桃楸和黃檗分布的關(guān)鍵因子。
本研究區(qū)面積較小,氣候變化不大,不能體現(xiàn)氣候?qū)δ繕?biāo)樹種分布的影響,所以本研究未考慮氣候因子對(duì)水曲柳、胡桃楸和黃檗分布的影響,模型預(yù)測(cè)結(jié)果具有一定局限性,不太適用于大尺度區(qū)域研究。植物分布受氣候因子影響[32],氣候因子對(duì)3種樹種分布的影響有待進(jìn)一步研究。影響物種分布的因子還包括其他生物因子和非生物因子;結(jié)合除環(huán)境因子外的影響因子對(duì)物種分布進(jìn)行預(yù)測(cè),也需進(jìn)一步探討。
宋長(zhǎng)江等[33]利用GIS 技術(shù)和隨機(jī)森林模型,對(duì)帽兒山地區(qū)水曲柳、胡桃楸和黃檗的適宜分布區(qū)進(jìn)行預(yù)測(cè),結(jié)果顯示,南部和西北部為主要適宜分布區(qū)域;本研究中,結(jié)合兩種模型分析結(jié)果,帽兒山實(shí)驗(yàn)林場(chǎng)3種珍貴硬闊葉樹種潛在適宜分布區(qū)為西部和北部,與宋長(zhǎng)江等[33]研究的分布區(qū)域有部分重疊。
隨機(jī)森林模型預(yù)測(cè)精度較高[34];最大熵模型是根據(jù)現(xiàn)有地理分布數(shù)據(jù)進(jìn)行潛在分布預(yù)測(cè),預(yù)測(cè)結(jié)果相對(duì)保守,但較可信[35]。一般來(lái)說(shuō),樣本數(shù)量和樣本在空間上的分布與模型預(yù)測(cè)結(jié)果的精確度和可靠性直接相關(guān)[36]。最大熵模型和隨機(jī)森林模型在預(yù)測(cè)3 種樹種潛在分布時(shí),AUC 均值分別為0.854 和0.920,在模型擬合精度方面體現(xiàn)了模型的合理性。最大熵模型和隨機(jī)森林模型目前應(yīng)用較廣泛,通過(guò)比較兩種模型算法的精度,選擇效果較優(yōu)的算法,具有一定的理論意義和實(shí)踐價(jià)值。
本研究選取12個(gè)環(huán)境因子,采用最大熵模型和隨機(jī)森林模型分析環(huán)境因子對(duì)水曲柳、胡桃楸和黃檗分布的影響;對(duì)比分析兩種模型中影響帽兒山實(shí)驗(yàn)林場(chǎng)3 種樹種分布的主導(dǎo)因子,同時(shí)預(yù)測(cè)樹種潛在分布區(qū)。通過(guò)對(duì)比分析兩個(gè)模型的精度,研究區(qū)3 種樹種分布預(yù)測(cè)的最適模型為隨機(jī)森林模型,其預(yù)測(cè)結(jié)果為最優(yōu)結(jié)果。最大熵模型輸出的重要環(huán)境因子為立地類型和坡位,隨機(jī)森林模型輸出的重要環(huán)境因子為海拔;對(duì)3 種樹種分布影響較大的均為地形因子,局域范圍內(nèi)地形因子更能反映樹種的生長(zhǎng)狀況。在補(bǔ)植3 種樹種時(shí),應(yīng)主要根據(jù)海拔和坡位選擇補(bǔ)植位置。隨機(jī)森林模型預(yù)測(cè)的生長(zhǎng)范圍包含最大熵模型的預(yù)測(cè)范圍,主要集中在帽兒山實(shí)驗(yàn)林場(chǎng)西部和北部。3 種樹種生長(zhǎng)適宜程度較高的地區(qū)和樹種預(yù)測(cè)分布的地區(qū)有較高適配度,分布點(diǎn)均落在適生區(qū)和較適生區(qū)范圍內(nèi),低適生區(qū)幾乎沒(méi)有。
利益沖突:所有作者聲明無(wú)利益沖突。
作者貢獻(xiàn)聲明:宗迪迪負(fù)責(zé)試驗(yàn)調(diào)查與設(shè)計(jì)、數(shù)據(jù)收集與分析、論文撰寫和文獻(xiàn)檢索;董靈波負(fù)責(zé)論文知識(shí)性內(nèi)容審閱;劉兆剛負(fù)責(zé)項(xiàng)目支持和論文知識(shí)性內(nèi)容審閱。