李亞麒 許玉蘭, 李 偉 孫繼偉 汪夢(mèng)婷 蔡年輝,*
(1.西南林業(yè)大學(xué)西南山地森林資源保育與利用教育部重點(diǎn)實(shí)驗(yàn)室,昆明 650224; 2.西南林業(yè)大學(xué)云南省高校林木遺傳改良與繁育重點(diǎn)實(shí)驗(yàn)室,昆明 650224; 3.云南吉成園林科技股份有限公司,彌勒 652300)
生物量模型法(包括異速生長(zhǎng)關(guān)系和生物量—蓄積量模型),是目前測(cè)定生物量最常用的方法。其利用較易獲得的實(shí)測(cè)數(shù)據(jù),通過一定的函數(shù)關(guān)系轉(zhuǎn)換獲取生物量[1]。既能滿足建模精度的要求又可減少人力、物力、財(cái)力及工作量等[2]。在生物量模型法中異速生長(zhǎng)方程又最具代表性,是應(yīng)用最為普遍的一類模型[3],為生物量估測(cè)提供了一種簡(jiǎn)便、有效的方法。特別是在大范圍的森林生物量調(diào)查中,能大大減少工作量[4~5]。
在構(gòu)建生物量方程時(shí),樣本的代表性、樣本量、模型形式、模型評(píng)價(jià)等都與模型精度密切相關(guān)[6]。一般而言,選取的樣本容量越大,樣本的代表性就越好,建模的精度也就越高,但耗費(fèi)的人力、物力也就越多,甚至難以完成。相反,如果樣本量過小,建模精度不滿足要求[7~8]。因此為了節(jié)約成本并提高工作效率,尋求合適的樣本數(shù)量十分必要。已有很多類似的研究表明樣本量會(huì)對(duì)模型構(gòu)建的準(zhǔn)確性產(chǎn)生影響,諸如樣本量對(duì)葉面積指數(shù)遙感經(jīng)驗(yàn)建模精度影響[9],樣本容量對(duì)BIOCLIM模型模擬物種分布準(zhǔn)確度的影響[10]、樣本量對(duì)MaxEnt模型預(yù)測(cè)物種分布精度和穩(wěn)定性的影響[11]等。這些研究表明,與樣本量充足時(shí)所建立的模型相比,小樣本量使得統(tǒng)計(jì)分析研究面臨著許多挑戰(zhàn),其預(yù)測(cè)能力相對(duì)較低。隨著樣本量的增加,模型模擬精度增加,增加的幅度慢慢減小直至不再增加,最終趨于達(dá)到模型的最大準(zhǔn)確度。說明模型的精度在不同的樣本量下會(huì)有所不同。
云南松(PinusyunnanensisFranch.)又稱青松、飛松、長(zhǎng)毛松,為喜光性強(qiáng)的深根性樹種,生長(zhǎng)迅速且耐干旱耐瘠薄,是西南地區(qū)荒山造林先鋒樹種及主要的用材樹種,也是云南省的主要的經(jīng)濟(jì)樹種??晒┙ㄖ⒄砟?、板材、家具及木纖維工業(yè)原料等用。具有較高的經(jīng)濟(jì)價(jià)值和生態(tài)效益[12~13]。目前人們對(duì)云南松幼苗生物量的測(cè)定仍以整株收獲法為主,不但耗時(shí)、耗力且破壞性大。而通過構(gòu)建生物量模型,能夠在減小工作量、降低破壞性的基礎(chǔ)上提供一種更為直觀、準(zhǔn)確的生物量估算方法,便于云南松苗期生物量估測(cè)。且從已有研究文獻(xiàn)來看樣本量對(duì)模型構(gòu)建精度的影響主要是針對(duì)遙感經(jīng)驗(yàn)?zāi)P蚚9]、物種分布模型[14]等模型的研究,基于不同樣本量對(duì)生物量模型構(gòu)建的研究涉獵甚少,且對(duì)生物量模型的研究也只是基于喬木樹種的不同抽樣方法[15],關(guān)于幼苗樣本量對(duì)生物量模型構(gòu)建精度影響的研究尚處空白。鑒于此,本文構(gòu)建了不同樣本量云南松幼苗生物量模型,探討樣本量對(duì)生物量模型構(gòu)建及預(yù)估精度的影響,并確定構(gòu)建模型所需的臨界樣本量。以期為云南松生物量模型的構(gòu)建提供一個(gè)具有參考價(jià)值的實(shí)例研究。
試驗(yàn)地設(shè)在西南林業(yè)大學(xué)溫室,位于102°45′41″E,25°04′00″N,海拔1 945 m。于2014年12月在云南省昆明市宜良縣進(jìn)行種子采集,在成熟的云南松天然林中選擇生長(zhǎng)正常、無明顯病蟲害的植株,采集發(fā)育正常的成熟球果。將采摘的球果做好標(biāo)記、分類帶回實(shí)驗(yàn)室晾曬風(fēng)干,待球果開裂取出球果中的種子,用點(diǎn)播方式進(jìn)行播種于苗床,苗床規(guī)格為1 m×30 m,株行距為5 cm×10 cm,采用完全隨機(jī)區(qū)組設(shè)計(jì),共20個(gè)家系,每個(gè)家系播種40株,設(shè)置3個(gè)重復(fù)。播種后,蓋薄膜小拱棚,不定期澆水,待苗出齊后,進(jìn)行露天培育,旱季根據(jù)情況進(jìn)行澆水。于2016年12月底,對(duì)615株2年生云南松苗木的苗高,地徑等生長(zhǎng)性狀進(jìn)行測(cè)定并記錄。待生長(zhǎng)停止后,采用“全挖法”挖取云南松苗木,用電子天平稱量各樣株根、莖、葉各組分的鮮質(zhì)量,分別裝入標(biāo)記好的紙袋中,在105℃的烘箱中殺青30 min后,調(diào)至80℃進(jìn)行烘干處理至質(zhì)量恒定,測(cè)量根、莖、葉各組分的干質(zhì)量,即為生物量,精確至0.001 g。
表1 云南松各家系樣本量基本情況
1.2.1 樣本量確定
采用不同的樣本量對(duì)表1中20個(gè)云南松家系進(jìn)行隨機(jī)抽樣以構(gòu)建生物量估測(cè)模型。設(shè)置的樣本量分別為40、80、120、160、200、240、280、320、360、400,共10個(gè)梯度(S1、S2……S10)。其中S1包含20個(gè)家系各2株,S2包含20個(gè)家系各4株,以此類推。編寫計(jì)算機(jī)程序建立抽樣框進(jìn)行簡(jiǎn)單隨機(jī)抽樣。根據(jù)抽取的樣本分別構(gòu)建生物量估測(cè)模型,利用總體615株幼苗進(jìn)行精度檢驗(yàn)。
1.2.2 模型建立
以隨機(jī)抽取的20個(gè)云南松家系的不同樣本量中苗高、地徑等生長(zhǎng)性狀和根、莖、葉及單株生物量的測(cè)定值為建模數(shù)據(jù)構(gòu)建生物量模型(表2)。具體以苗木的地徑(D)、苗高(H)、地徑與苗高的乘積(DH)、地徑平方與苗高的乘積(D2H),分別與苗木根生物量(W根)、莖生物量(W莖)、葉生物量(W葉)以及單株生物量(W單株)進(jìn)行Pearson相關(guān)分析,篩選出與各器官及單株生物量相關(guān)性較強(qiáng)的因子,再以相關(guān)性最好的因子作為模型的自變量,根、莖、葉及單株生物量(W)作為因變量,選用常用函數(shù)(冪函數(shù))[16~17]構(gòu)建生物量估測(cè)模型。
表2 云南松苗木生物量建模樣本基本情況
通過編寫計(jì)算機(jī)程序建立抽樣框(Windows Forms Application2)進(jìn)行簡(jiǎn)單隨機(jī)抽樣,采用Excel進(jìn)行數(shù)據(jù)統(tǒng)計(jì),SPSS 21.0進(jìn)行回歸分析。對(duì)擬合的回歸方程均進(jìn)行F檢驗(yàn),根據(jù)決定系數(shù)(R2)、估計(jì)值的標(biāo)準(zhǔn)誤(SEE)及均方根誤差(RMSE)對(duì)構(gòu)建生物量型進(jìn)行擬合優(yōu)度評(píng)估。選取相關(guān)最密切、擬合度較好的模型,即R2大,SEE、RMSE小的模型。并根據(jù)生物量實(shí)測(cè)值與估計(jì)值之間的總相對(duì)誤差(RS)、平均誤差絕對(duì)值(MAB)進(jìn)行驗(yàn)證方程的準(zhǔn)確性和適用性[18~19]。一般RS值小于30%,說明擬合的生物量模型比較符合實(shí)際。模型的MAB越小,則精度越高。相應(yīng)的數(shù)學(xué)表達(dá)式為:
均方根誤差(RMSE):
(1)
平均誤差絕對(duì)值(MAB):
(2)
相對(duì)誤差(RS):
(3)
以云南松幼苗的地徑(D)、苗高(H)、地徑與苗高的乘積(DH)、地徑平方與苗高的乘積(D2H),分別與苗木根生物量(W根)、莖生物量(W莖)、葉生物量(W葉)以及單株生物量(W單株)進(jìn)行相關(guān)分析。由表3可知,云南松幼苗根、莖、葉各器官及單株生物量與D2H相關(guān)性最好,均達(dá)到極顯著水平(P<0.01)。因此選取D2H作為自變量構(gòu)建生物量估測(cè)模型。
由表4可以看出:采用冪函數(shù)模型擬合得到的不同樣本量云南松幼苗的根、莖、葉各器官以及單株生物量估測(cè)模型均達(dá)到極顯著水平(P<0.001)。根、莖、葉及單株生物量生物量決定系數(shù)R2范圍分別為0.714~0.819、0.752~0.806、0.648~0.799、0.745~0.867。根、莖、葉及單株生物量估算值的標(biāo)準(zhǔn)誤SEE及均方根誤差RMSE均小于1。說明冪函數(shù)模型擬合效果較好,可較好估測(cè)云南松幼苗生物量。
對(duì)不同樣本量云南松幼苗根、莖、葉及單株生物量模型的決定系數(shù)(R2)、估計(jì)值的標(biāo)準(zhǔn)誤(SEE)及均方根誤差(RMSE)進(jìn)行比較分析。由圖1可見:不同樣本量擬合得到的根、莖、葉及單株生物量模型的決定系數(shù)R2、估計(jì)值的標(biāo)準(zhǔn)誤SEE、均方根誤差RMSE間差異不大。說明相對(duì)生長(zhǎng)模型的穩(wěn)定性較好,對(duì)樣本量的敏感性不大。
表3 苗木生物量與預(yù)測(cè)變量間的相關(guān)系數(shù)
注:**表示在0.01水平(雙側(cè))上極顯著相關(guān);*表示在0.05水平(雙側(cè))上顯著相關(guān);H.苗高;D.地徑;D2;地徑的平方;DH.地徑與苗高的乘積;D2H.地徑平方與苗高的乘積;W根.根生物量;W莖.莖生物量;W葉.葉生物量;W單株.單株生物量
Note:**indicates a significant correlation at the 0.01 level;*indicates a significant correlation at the 0.05 level; H.Height; D.Ground diameter. DH.Product of ground diameter and height; D2H.Square of the diameter multiplied by height; Root W is root biomass; stem W is stem biomass; leaf W is leaf biomass; Individualplant W is single plant biomass.
表4 不同樣本量幼苗生物量估測(cè)模型
注:W根.根生物量;W莖.莖生物量;W葉.葉生物量;W單株.單株生物量
Note:Wroot.Root biomass; Wstem.Stem biomass; Wleaf.Leaf biomass; Windividualplant.Single plant biomass
表5 不同樣本量幼苗生物量估測(cè)模型精度檢驗(yàn)
圖1 不同樣本量各擬合優(yōu)度評(píng)價(jià)指標(biāo)平均值的變化趨勢(shì)Fig.1 Variation trend of the mean value of evaluation indexes of goodness of fit for different sample sizes
為了驗(yàn)證模型的估測(cè)效果,對(duì)不同樣本量幼苗各器官以及單株生物量的估計(jì)值與實(shí)測(cè)值進(jìn)行驗(yàn)證分析(表5),可知估測(cè)模型RS范圍為:0.047%~0.227%,MAB的范圍為0.001~0.054,說明所構(gòu)建的生物量估測(cè)模型精度滿足要求。
平均誤差絕對(duì)值隨樣本量的變化趨勢(shì)(圖2)表明,隨著樣本量的增加,MAB呈冪函數(shù)形式逐漸減小??傮w模型檢驗(yàn)精度順序S10>S9>S8>S7>S6>S5>S4>S3>S2>S1。對(duì)于不同樣本量根、莖、葉及單株生物量模型精度都表現(xiàn)為樣本量小于200時(shí),隨著樣本量的增加,MAB呈急劇下降趨勢(shì),而當(dāng)樣本量大于200時(shí),MAB雖然有所波動(dòng),但變化趨勢(shì)較為平穩(wěn)。因此,根據(jù)MAB的變化趨勢(shì),樣本量達(dá)到200時(shí)采樣數(shù)據(jù)可以構(gòu)建精度較高且穩(wěn)定模型。
圖2 平均誤差絕對(duì)值隨樣本量的變化趨勢(shì)Fig.2 Variation trend of mean absolute error with sample size
一直以來,異速生長(zhǎng)方程被認(rèn)為是擬合生物量的一個(gè)較為理想的模型[20~21]。針對(duì)構(gòu)建方程的自變量多數(shù)人認(rèn)為D2H是一個(gè)很好指標(biāo),擬合效果較好[22~23]。本研究基于對(duì)云南松地徑、苗高,根、莖、葉各器官及單株生物量等的測(cè)定,篩選與苗木生物量相關(guān)性最強(qiáng)的因子(D2H)擬合不同樣本量云南松苗木生物量估測(cè)模型。結(jié)果表明,采用冪函數(shù)方程擬合得到的云南松幼苗生物量模型均具有較大的R2值與較小的SEE與RMSE值,說明冪函數(shù)可較好的用于估測(cè)云南松幼苗生物量。與前人的研究結(jié)果類似,劉林森[24]在云南松生物量模型的研究中:分別以的胸徑(D)、樹高(H)、胸徑與樹高乘積(DH)、胸徑平方與樹高乘積(D2H)為自變量,采用線性模型、多項(xiàng)式模型、指數(shù)模型、對(duì)數(shù)模型及冪函數(shù)模型對(duì)云南松生物量進(jìn)行擬合。也表明冪函數(shù)模型估測(cè)效果最佳,并根據(jù)云南松的生長(zhǎng)特性最終確定W單木=a(D2H)b為滇西北云南松單木生物量模型。另外本研究中基于不同樣本量構(gòu)建的生物量模型中R2、SEE、RMSE值間相差不大,說明冪函數(shù)方程的穩(wěn)定性較好,對(duì)樣本量的敏感性不大。
在構(gòu)建生物量模型時(shí),選取合適的樣本量至關(guān)重要。因?yàn)闃颖玖康拇笮〔粌H會(huì)影響模型參數(shù)估計(jì)的變化,也會(huì)對(duì)模型的精度造成影響[25~26]。在本研究中,建模樣本量較小時(shí),MAB值的變動(dòng)比較大,模型的穩(wěn)定性較差。隨著建模樣本量的不斷增大,MAB值變化越來越小,即模型精度越來越好。最后隨著樣本量增大,MAB值幾乎也不再發(fā)生變化,趨于穩(wěn)定狀態(tài)。這與其它樣本量對(duì)模型精度影響的研究結(jié)果類似,Wisz等[27]、Hernandez等[28]在對(duì)MaxEnt物種預(yù)測(cè)模型的精度隨著樣本量變化的研究中,表明隨著樣本量的增加,MaxEnt物種預(yù)測(cè)模型的精度隨之增加。Stockwell等[29],也得出隨樣本量增加,模型的AUC均值隨之增加,其認(rèn)為最高的模型準(zhǔn)確度都來自使用最大樣本量構(gòu)建的模型。畢志宏等[30]在對(duì)樣本數(shù)量對(duì)白樺群體遺傳參數(shù)估算影響的研究中,也表明不同樣本數(shù)量會(huì)對(duì)白樺的各遺傳參數(shù)產(chǎn)生影響。
樣本量的臨界值對(duì)模型估測(cè)精度產(chǎn)生重要的影響,在臨界值以下,估測(cè)精度隨樣本量增大而提高,達(dá)到臨界值后,樣本量的增加對(duì)測(cè)量精度改善起的作用很小。在本研究中總體看來,當(dāng)樣本量小于200時(shí),隨著樣本量的增加,MAB呈急劇下降趨勢(shì)。當(dāng)樣本量達(dá)到200時(shí),云南松有幼苗生物量的預(yù)測(cè)均達(dá)到了一個(gè)比較穩(wěn)定的值。當(dāng)樣本量大于200時(shí),MAB雖然有所波動(dòng),但變化趨勢(shì)較為平穩(wěn)。因此,最終得出構(gòu)建云南松幼苗生物量模型時(shí),選取的樣本量應(yīng)大于200株。構(gòu)建生物量模型時(shí),選取的樣本容量越接近樣本總體,建模的精度也就越高,但綜合建模精度與成本等因素而言,確定了模型的臨界樣本量也可構(gòu)建精度較好的模型。
綜上所述:(1)冪函數(shù)方程具有較好的預(yù)測(cè)精度,可較好的用于估測(cè)不同樣本量云南松幼苗生物量。(2)小樣本量下的模型精度較低,隨樣本容量的增加模型精度逐漸增加。在構(gòu)建生物量模型時(shí)應(yīng)采用較大的樣本,以保證其估測(cè)精度及準(zhǔn)確性。但綜合建模精度與成本等因素而言,確定了模型的臨界樣本量也可構(gòu)建精度較好的模型。(3)對(duì)于本研究的測(cè)定群體而言,要獲得精確度較高的生物量模型,所需的建模樣本量應(yīng)大于200株。樣本容量越大,樣本的代表性就越好,建模的精度也就越高,相反,如果樣本量太小,其建模精度不能夠滿足需求。構(gòu)建生物量估測(cè)模型有助于簡(jiǎn)便、快捷的測(cè)定幼苗生物量,但在構(gòu)建生物量估測(cè)模型時(shí)采用不同的自變量、不同的模型均會(huì)存在差異,在實(shí)際應(yīng)用中應(yīng)充分考慮這些因素。因此在研究區(qū)外應(yīng)用本研究的生物量模型,需要進(jìn)一步的檢驗(yàn)。