羅洪斌,岳彩榮,張國飛,金 京,谷 雷,朱泊東
(西南林業(yè)大學 林學院,云南 昆明 650224)
森林是陸地生態(tài)系統(tǒng)的重要組成部分,在全球碳循環(huán)和氣候變化中具有重要的作用,隨著國民經(jīng)濟的快速發(fā)展,森林資源及其生態(tài)作用的顯得日益突出[1]。森林資源監(jiān)測和森林經(jīng)營活動中,蓄積量是重要的數(shù)量指標,森林蓄積量是衡量一個國家或地區(qū)森林質(zhì)量的基本指標,也是評價森林生態(tài)環(huán)境和森林資源的重要依據(jù)[2],傳統(tǒng)的森林蓄積量依靠人工地面調(diào)查為主,需耗費大量的人力、物力、財力,雖然可獲得高精度的地面調(diào)查數(shù)據(jù),但效率低、調(diào)查區(qū)域有限,無法快速實現(xiàn)區(qū)域尺度的森林蓄積量監(jiān)測[3]。
遙感技術(shù)的出現(xiàn),極大地改善了傳統(tǒng)森林蓄積量監(jiān)測效率低的問題,通過結(jié)合少量地面樣本數(shù)據(jù)和遙感變量建立估測模型從而快速高效地實現(xiàn)大區(qū)域的森林蓄積量監(jiān)測[4]。20世紀中后期,R.Nelsonetal[5]、童慶禧等[6]利用不同的遙感數(shù)據(jù)利用地面樣本與遙感數(shù)據(jù)間的關(guān)系進行森林參數(shù)的估測,其研究結(jié)果為森林蓄積量的遙感監(jiān)測奠定了基礎(chǔ)。隨著遙感技術(shù)的發(fā)展、傳感器的更新以及估測算法的進步,如何提高森林蓄積量的遙感估測精度逐漸成為了當前的研究熱點之一。在目前的光學遙感數(shù)據(jù)源中,Lansat 8 OLI以其較高的空間分辨率和光譜質(zhì)量以及大區(qū)域覆蓋的優(yōu)勢為大尺度森林資源監(jiān)測提供數(shù)據(jù)支撐,在此基礎(chǔ)上目前的研究主要從估測算法的優(yōu)化、多數(shù)據(jù)源的結(jié)合以及特征的優(yōu)化選擇等方面進行探索[7-9]。
由于光學遙感數(shù)據(jù)的飽和性,不同大小的森林蓄積量以及其他森林參數(shù)隨遙感影像的光譜紋理信息的響應靈敏度不同,隨著蓄積量的增加,光譜響應靈敏度逐漸降低最后達到飽和[10]。然而,傳統(tǒng)的森林蓄積量遙感估測中僅考慮遙感變量與森林蓄積量的關(guān)系,而忽略了光飽和問題對估測結(jié)果帶來的影響,因此有學者提出了對森林類型以及樹種進行劃分后進行估測,或者將不同大小的森林參數(shù)進行分段估測[11],此方法雖在一定程度上提高了估測精度,但也存在一定的局限性,若在樣本量較少的情況下進行分類估測或分段估測,則參與模型構(gòu)建的樣本數(shù)較少會導致估測模型不具代表性。啞變量的引入能有效解決上述問題,啞變量是一個定性變量,可用來定義樣本數(shù)據(jù)的類型或狀態(tài),在總樣本數(shù)量不變的情況下按照樣本數(shù)據(jù)的屬性對樣本類型進行區(qū)分,E.Csaplovicsetal[12]在森林生物量估測中引入植被類型作為啞變量發(fā)現(xiàn)估測結(jié)果相較于未加入啞變量的估測精度有較大的提高,王宗梅等[13]、岳振興等[14]以高山松為研究對象,以齡組為啞變量分別構(gòu)建了基于多元線性回歸和神經(jīng)網(wǎng)絡(luò)的蓄積量估測模型,表明在加入啞變量后模型的估測精度有明顯的提高,隨著遙感技術(shù)的進步,將啞變量應用于森林參數(shù)的監(jiān)測研究逐漸增多,W.S.Zengetal[15]利用非線性混合效應模型結(jié)合啞變量方法有效的提高了森林地上生物量和地下生物量的估計精度;C.Lietal[16]、G.Ouetal[17]以齡組和冠層密度等為啞變量,結(jié)合多種估測模型進行生物量估測研究,表明啞變量的引入可以有效提高股精度。但針對不同的估測方法和研究對象此問題還需進一步進行探討分析,在此基礎(chǔ)上,本研究以齡組為啞變量,探討啞變量對于森林蓄積量估測的影響,在利用隨機森林算法進行變量的篩選的基礎(chǔ)上分別構(gòu)建基于啞變量的偏最小二乘(PLSR)和支持向量機回歸(SVR)的森林蓄積量估測模型,通過對比啞變量的引入以及不同方法的估測結(jié)果,從而為提高森林蓄積量的估測精度提和啞變量在森林參數(shù)估測中的應用提供參考。
思茅區(qū)地處云南省普洱市(100°19′29″-100°26′57″E,22°27′7″-23°5′29″N),總面積3 861.7 km2,思茅區(qū)東接江城縣,西接瀾滄,南鄰西雙版納,北接寧洱,地勢西北高東南低,區(qū)域內(nèi)山脈、峽谷、水系眾多,平均海拔為2 155 m,氣候類型屬于南亞熱帶季風氣候,干濕季節(jié)不分明,常年高溫、濕潤、多雨,年平均氣溫為17.8 ℃,平均降水量為1 524 mm,在特殊氣候類型的作用下,境內(nèi)森林覆蓋率較高。
1.2.1 地面調(diào)查數(shù)據(jù) 地面樣地數(shù)據(jù)來自2015年11-12月森林資源二類調(diào)查的森林抽樣控制樣地,考慮到樣本數(shù)量的特點,選取93塊闊葉林樣地,樣地信息主要包括經(jīng)緯度坐標、齡組、地類、蓄積量、公頃斷面積、平均樹高、平均胸徑等。樣地蓄積量的統(tǒng)計特征見表1。
1.2.2 Landsat8 OLI數(shù)據(jù)與處理 衛(wèi)星影像數(shù)據(jù)采用Landsat8 OLI數(shù)據(jù)。Landsat8陸地觀測衛(wèi)星主要對陸地資源、環(huán)境等領(lǐng)域提供有效信息,該陸地觀測衛(wèi)星搭載了2個傳感器:OLI陸地成像儀和TIRS熱紅外傳感器, OLI陸地成像儀包含9個光譜波段,本研究采用1~7波段[18]。根據(jù)思茅區(qū)的行政區(qū)劃范圍通過地理空間數(shù)據(jù)云官網(wǎng)(http://www.gscloud.cn/)下載所需的Landsat8 OLI影像數(shù)據(jù),影像成像時間為2015年12月,對影像進行了輻射定標、大氣校正、幾何校正和地形校正等處理。
遙感影像的光譜、紋理以及變換信息是地物特點的直觀表現(xiàn),遙感影像上光譜反射率大小以及紋理的變化能有效反映森林蓄積量以及其他森林參數(shù)的大小,因此遙感變量信息與森林蓄積量有良好的相關(guān)性,但不同植被類型以及森林林分結(jié)構(gòu)的不同,在遙感影像上表現(xiàn)出來的特點也不一致,因此變量因子的選取對于后續(xù)的研究有一定的影響。本研究選取了單波段變量(B1-B7)、植被指數(shù)(DVI、NDVI、EVI、SAVI、RVI、SLAVI,公式中用DVI、NDVI、EVI、SAVI、RVI、SLAVI表示)、主成分分析(PC1-PC7,公式中用PC1-PC7表示)以及1~7波段的紋理信息共76個變量作為備選參數(shù)(表2)。
表2 變量參數(shù)說明
遙感變量與森林蓄積量之間有良好的相關(guān)性,但在自變量較多時,去除多余變量以及部分對回歸估測中的貢獻程度較低的變量對回歸模型的構(gòu)建有一定影響,通過變量的篩選達到特征降維的作用從而提高模型構(gòu)建的效率和估測精度,因此,采用隨機森林算法(random forest)對變量進行篩選,隨機森林是以決策樹為基礎(chǔ)的機器學習器的集成算法,廣泛應用于分類和回歸分析中,利用隨機森林進行變量篩選的主要原理是通過判斷每個特征在隨機森林的每棵樹中所做的貢獻大小,然后取平均值,最后比較特征之間的貢獻大小,計算方式分為基尼指數(shù)和袋外數(shù)據(jù)錯誤率,本研究所采用的是基尼指數(shù)[19]。
啞變量也稱為虛擬變量,通常用0或1來表征定性數(shù)據(jù)的狀態(tài)或類別[20-21]。在森林蓄積量估測模型構(gòu)建中,遙感變量為連續(xù)變量,但在實際情況中由于森林結(jié)構(gòu)的差異以及森林參數(shù)組分之間差異,需要引入類別或狀態(tài)進行區(qū)分,本研究以森林的齡組為啞變量,齡組包括幼齡林、中齡林、近熟林、成熟林。
2.3.1 偏最小二乘回歸 偏最小二乘回歸(partial least squares regression)具有能克服自變量間的多重共線性問題和合適小樣本的優(yōu)點,且能夠?qū)颖局械脑肼曔M行識別,多用于多自變量和因變量的回歸建模,還可實現(xiàn)主成分分析以及典型相關(guān)分析,回歸建模原理為:n個自變量(X1,X2,…,Xa)和因變量Y構(gòu)成的自變量和因變量的矩陣X=[x1,x2,..,xa]n×a和Y=[y]n×1。在自變量X中提取第1個主成分的同時對因變量進行回歸,若未達到既定精度,則繼續(xù)提取下一主成分,直至達到既定的精度為止[22-23]。
2.3.2 支持向量機回歸 支持向量機(SVM,support vector machine)以統(tǒng)計學中的多維數(shù)和最小風險的原理為基礎(chǔ),它具有支持小樣本數(shù)和低風險的特點,即在現(xiàn)有的樣本和既定的精度以及精確無誤地辨識樣本的前提下尋找最佳的方法,從而獲得較好的期望和普適性。因此支持向量機算法也是目前機器學習中最為常用的一類算法,其核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和S形核函數(shù),研究表明徑向基核函數(shù)的效果較優(yōu),通過自動尋優(yōu)選擇懲罰參數(shù)(C)和gamma進行模型構(gòu)建[24-25]。
采用決定系數(shù)(R2)、均方根誤差(RMSE,公式中用RMSE表示)和相對均方根誤差(rRMSE,公式中用RMSEr表示)對模型的預測結(jié)果進行評價。
(1)
(2)
(3)
基于93個森林蓄積量樣本數(shù)據(jù),使用隨機森林算法進行變量的篩選,由于提取的變量較多,使用隨機搜索進行隨機森林的參數(shù)優(yōu)化,構(gòu)建隨機森林模型,并計算各變量的重要性(VIP值),選取累計貢獻率達到85%的變量參與回歸模型的構(gòu)建,結(jié)果見表3,由表3可知,通過特征的選擇,自變量個數(shù)由76個降低到了15個,顯著降低了自變量的維度,從而能有效提高后續(xù)模型構(gòu)建的效率;在所有入選的自變量中,主成分分析的第2波段PC2對因變量的貢獻率較高,VIP值為45.68%,其次為有效葉面積指數(shù)SLAVI,VIP值為12.52%,其余的變量VIP值均小于10%,說明第2主成分PC2和SLAVI對蓄積量估測的影響最為重要。
表3 遙感變量VIP值
根據(jù)自變量的篩選結(jié)果,以累計貢獻率大于85%的15個遙感變量為自變量,并以齡組為啞變量,由于不同齡級樣本數(shù)分布不均,通過對93個不同齡組的樣本數(shù)據(jù)的單因素方差分析和差異性檢驗將幼齡林和中齡林分為一組(A=0)、近熟林和成熟林分為一組(A=1),然后分別構(gòu)建SVR模型和PLSR模型,在SVR模型構(gòu)建時通過尋找最佳c參數(shù)和g參數(shù)完成模型的構(gòu)建;PLSR模型構(gòu)建時當主成分個數(shù)對應的交叉有效性小于0.097 5時終止算法,采用留一交叉驗證對結(jié)果進行驗證,模型的擬合結(jié)果和交叉驗證結(jié)果見表4。
表4 模型擬合結(jié)果
從估測結(jié)果來看,不同的估測模型在加入啞變量后估測精度相較于無啞變量時有明顯的提高,根據(jù)不同的啞變量模型擬合結(jié)果,無啞變量SVR模型的決定系數(shù)R2為0.59,均方根誤差RMSE為30.5 m3·hm-2,在加入啞變量后,模型的決定系數(shù)R2從0.59提高到了0.68,均方根誤差RMSE從30.50 m3·hm-2降低至27.36 m3·hm-2,R2提高了15.25%,RMSE降低了10.3%;PLSR模型在啞變量的引入后R2從0.53提高到了0.62,RMSE從32.70 m3·hm-2降低至29.25 m3·hm-2,且2種模型的交叉驗證結(jié)果在引入啞變量后驗證精度均高于無啞變量時的精度;其次,對比2種模型的擬合精度和交叉驗證精度,SVR的估測精度均大于PLSR,在啞變量模型中SVR的估測精度較PLSR模型高2.27%,主要由于自變量與因變量存在一定的非線型,但兩者總體差異并不大。
根據(jù)圖1-圖4的散點圖的變化發(fā)現(xiàn),無論SVR還是PLSR在有無啞變量引入的情況下均存在低估和高估現(xiàn)象,但啞變量的引入后(圖2、圖4),2種模型的估測結(jié)果在蓄積量較小的部分較為收斂,這主要由于啞變量的引入對齡組進行了區(qū)分,改善了不同蓄積量大小在遙感因子下的響應靈敏度,從而提高了總體蓄積量估測精度,但也有部分點較為離群,結(jié)合數(shù)據(jù)源的特點分析得出,研究所采用森林資源二類調(diào)查的角規(guī)控制樣地數(shù)據(jù),角規(guī)測樹的依據(jù)是同心圓原理,根據(jù)角規(guī)測量的公頃斷面積計算得到單位面積森林蓄積量,而遙感影像的像元大小為30 m,因此單位面積的森林蓄積量與所對應的遙感影像信息存在一定差異;另外研究區(qū)地處亞熱帶季風氣候區(qū),區(qū)域內(nèi)植被類型豐富,林下植被較多,在林郁閉度較低的情況下,林下植被的光譜也會對估測結(jié)果產(chǎn)生一定影響;其次,由于光學遙感數(shù)據(jù)的特性,隨著蓄積量的增加光譜反射率信息逐漸達到飽和,可以看出,隨著蓄積量的增加,高值低估現(xiàn)象越發(fā)顯著,這是光學遙感的局限性之一。
以森林蓄積量為對象,結(jié)合Landsat8 OLI遙感影像數(shù)據(jù)探究了啞變量技術(shù)在森林蓄積量遙感估測中的作用,研究表明,使用隨機森林算法進行變量的選擇能有效減少自變量的維度,提高模型構(gòu)建的計算效率;以齡組為啞變量引入估測模型后,估測精度有明顯提高,此結(jié)論與王宗梅等[13]、岳振興等[14]的研究一致,同時本研究還對2個線性模型和非線性模型的估測結(jié)果進行了對比,發(fā)現(xiàn)SVR的泛化能力優(yōu)于PLSR,估測精度相對較高,但兩者之間的差別不大,此結(jié)論也說明啞變量技術(shù)的應用能有效提高森林蓄積量的估測精度。
從研究的整體來看,也存在一定的局限性。首先,樣地數(shù)據(jù)來源于森林資源二類調(diào)查的角規(guī)控制樣地數(shù)據(jù),根據(jù)公頃斷面積來計算單位面積蓄積量,樣地數(shù)據(jù)獲取過程中會存在一定誤差,且93個角規(guī)控制樣地數(shù)據(jù)的齡組分布不均,成熟林和近熟林的樣本數(shù)較少,因此,在啞變量的劃分上也存在一定的差別,同時數(shù)據(jù)調(diào)查時間較早,無法進行補充調(diào)查;其次,自變量的篩選使用隨機森林進行篩選,方法較為單一且模型參數(shù)優(yōu)化只達到局部最優(yōu),這導致變量的選取也存在一定的差異;從遙感數(shù)據(jù)源的角度來看,研究區(qū)植被類型豐富,地形溝壑縱橫,在復雜的地形和植被條件下,影像的質(zhì)量也會受到影像,同時光學遙感估測中的飽和問題以及林下灌草光譜一直是定量遙感中常見的問題。今后的研究中可考慮采用多模型組合,對模型進行全局優(yōu)化,使用全局最優(yōu)模型進行特征選擇和森林參數(shù)的估測,另外,在樣地數(shù)據(jù)獲取過程中保證地面樣本數(shù)據(jù)質(zhì)量,數(shù)據(jù)源的選擇上可考慮采用高精度的遙感數(shù)據(jù)或者多源數(shù)據(jù)結(jié)合。