郭云開,劉雨玲,張曉炯,許 敏
(1.長(zhǎng)沙理工大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長(zhǎng)沙 410076;2.長(zhǎng)沙理工大學(xué) 測(cè)繪遙感應(yīng)用技術(shù)研究所,湖南 長(zhǎng)沙 410076)
葉面積指數(shù)(Leaf Area Index,LAI)既是地表單位面積柱體內(nèi)全部葉子單面面積的總和,也可理解為葉面積的總和與其占地表面積的比值[1]。與植被的光合作用、呼吸作用和蒸騰作用等生化作用息息相關(guān),是植被的重要理化參數(shù)之一。因此,如何迅速、準(zhǔn)確且無損地獲取局部以及區(qū)域尺度植被生化參數(shù)含量及其分布狀況的信息尤為重要[2]。
傳統(tǒng)的葉面積指數(shù)直接測(cè)量法結(jié)果較為準(zhǔn)確,但是耗時(shí)耗力,且葉片測(cè)量結(jié)果并不具有普遍代表性,不適用于大范圍測(cè)量。遙感技術(shù)的優(yōu)勢(shì)表現(xiàn)在:時(shí)空分辨率高[3]和可以實(shí)現(xiàn)大面積、寬領(lǐng)域、實(shí)時(shí)動(dòng)態(tài)的監(jiān)測(cè)。此外,遙感不僅是一種無損且快捷高效的探察植被特征的工具,同樣是研究生態(tài)系統(tǒng)的過程和功能的得力方法。定量遙感研究的兩大基本問題是遙感建模與遙感反演[4]。現(xiàn)今,獲取葉面積指數(shù)的建模方法大致分為以下幾大類:經(jīng)驗(yàn)?zāi)P?、物理模型和機(jī)器學(xué)習(xí)回歸建模。經(jīng)驗(yàn)?zāi)P褪抢迷脊庾V或植被指數(shù)等信息與地面實(shí)測(cè)葉面積指數(shù)的統(tǒng)計(jì)關(guān)系來估算葉面積指數(shù),特點(diǎn)是模型易于實(shí)現(xiàn)但普適性差。物理模型具有較強(qiáng)的通用性,受外界環(huán)境影響小,但是復(fù)雜多變,參數(shù)需求多[5]。近年來,隨著機(jī)器學(xué)習(xí)和人工智能的興起,韓兆迎等[6]分別采用了隨機(jī)森林算法和支持向量機(jī)算法搭建蘋果樹實(shí)測(cè)葉面積指數(shù)與冠層反射率之間的聯(lián)系,發(fā)現(xiàn)支持向量機(jī)回歸模型預(yù)測(cè)精度低于隨機(jī)森林回歸模型。而宋開山等[7]應(yīng)用神經(jīng)網(wǎng)絡(luò)構(gòu)建大豆LAI高光譜的反演模型,其反演效果優(yōu)良,具有一定參考價(jià)值。綜上可知機(jī)器學(xué)習(xí)回歸建模在LAI反演中應(yīng)用效果較好。在機(jī)器學(xué)習(xí)方法中,隨機(jī)森林算法具有抗噪性強(qiáng)、抗過擬合和欠擬合能力強(qiáng)等特點(diǎn),輻射傳輸模型與隨機(jī)森林算法結(jié)合在路域植被參數(shù)反演的應(yīng)用研究也從未有學(xué)者探索過。
因此,本文提出一種基于修正輻射傳輸模型(PROSPECT5+4SAIL Model,PRO-4SAIL)和隨機(jī)森林算法的組合模型,通過敏感性分析和植被指數(shù)優(yōu)化選取,反演得到葉面積指數(shù),根據(jù)決定系數(shù)(R2)和均方根誤差(RMSE)評(píng)價(jià)分析與實(shí)測(cè)數(shù)據(jù)的一致性,該方法可以為路域植被健康評(píng)價(jià)提供一定科學(xué)依據(jù)。
本文選取湖南省境內(nèi)具有代表性的高等級(jí)公路-長(zhǎng)韶婁高速(編號(hào)湘高速S50)為研究區(qū)域,該試驗(yàn)區(qū)地處南方丘陵地段,道路兩側(cè)植被茂盛且種類繁多,以常綠闊葉林為主,便于進(jìn)行實(shí)地試驗(yàn)(見圖1)。其中試驗(yàn)區(qū)氣候類型為大陸性亞熱帶季風(fēng)濕潤(rùn)氣候,水、光、熱資源豐富。
本次試驗(yàn)采取實(shí)地試驗(yàn)的方式,進(jìn)行試驗(yàn)的時(shí)間是2018-06-16—17,該時(shí)間段少風(fēng)無云,天氣晴朗,光照充足,植被生長(zhǎng)旺盛。試驗(yàn)區(qū)域設(shè)有50個(gè)采樣區(qū)(15 m×15 m),每個(gè)采樣方格區(qū)由一個(gè)中心及4個(gè)角點(diǎn)組成,采樣區(qū)間隔均勻。每個(gè)測(cè)點(diǎn)均采集葉面積指數(shù)、葉綠素含量、GPS坐標(biāo)點(diǎn)信息、冠層光譜、針闊葉比等信息,并且采集新鮮的典型植被葉片作為室內(nèi)試驗(yàn)樣本,其中葉面積指數(shù)測(cè)量方式是5次隨機(jī)測(cè)量,取平均值,測(cè)量?jī)x器是LAI-2 000。
圖1 試驗(yàn)區(qū)示意圖
本文的光譜測(cè)定儀器是AvaField-3 野外便攜式地物采集儀,可測(cè)量光譜的波長(zhǎng)范圍為300~2 500 nm,其采樣間隔在300~1 100 nm為0.6 nm,1 100~2 500為6 nm,300~1 100 nm的光譜分辨率為1.4 nm,1 100~2 500 nm的光譜分辨率為15 nm。每個(gè)樣點(diǎn)采集10組數(shù)據(jù),對(duì)其進(jìn)行剔除異常光譜、取平均和最小二乘多光譜平滑(Savitzky-Golay Smoothing)處理,最后進(jìn)行重采樣等操作,得到所需的有效冠層高光譜。
PRO-4SAIL模型是由葉片光學(xué)模型PROSPECT5模型和冠層模型4SAIL模型組合而成模擬冠層反射率的耦合輻射傳輸模型。PROSPECT模型的主要輸入?yún)?shù)包括葉綠素含量Cab、葉片結(jié)構(gòu)參數(shù)N、干物質(zhì)含量Cm及葉面積指數(shù)LAI等參數(shù)。而本文的PROSPECT5模型在其基礎(chǔ)上加入了類胡蘿卜素含量和棕色熒光成分含量?jī)蓚€(gè)參數(shù),PROSPECT5模型能夠使模擬的葉片反射率更加準(zhǔn)確。1984年,Verhoef 在Suits模型的基礎(chǔ)上改進(jìn)得到了 SAIL 模型,而4SAIL模型是在SAIL模型的基礎(chǔ)上,考慮了冠層結(jié)構(gòu)參數(shù)、植被結(jié)構(gòu)的熱點(diǎn)效應(yīng)、棕色葉子的比例參數(shù)和土壤的二向性反射等得到的[8]。
PRO-4SAIL耦合模型實(shí)際是將葉傾角分布、葉面積指數(shù)等參數(shù)與PROSPECT5模型最終輸出的葉片透射率和反射率組合輸入到4SAIL冠層模型中,得到植被冠層反射率。其中本文采取的PRO-4SAIL公式如下:
ρc=PROSPECT5+4SAIL(N,Cab,Car,
Cbrown,Cw,Cm,LIDFa,LIDFb,TypeLidf,
LAI,hspot,θs,θv,φsv,rsoil)
(1)
式中:ρc為植被冠層反射率;N為葉片結(jié)構(gòu)參數(shù);Cab為葉綠素含量;Car為類胡蘿卜素含量;Cbrown為褐色素含量;Cw為含水量;Cm為干物質(zhì)含量;LIDFa,LIDFb分別是平均葉傾角參數(shù)a和b;TypeLidf是葉片分布類型選擇;LAI為葉面積指數(shù);hspot為熱點(diǎn)參數(shù);θs為太陽(yáng)天頂角;θv為觀測(cè)天頂角;φsv為太陽(yáng)和觀測(cè)的相對(duì)天頂角;rsoil為土壤光譜反射率。
本文在PRO-4SAIL耦合模型的基礎(chǔ)上通過一定步長(zhǎng)葉面積指數(shù)變化進(jìn)行植被冠層光譜的模擬,為后面基于隨機(jī)森林回歸的葉面積指數(shù)反演提供數(shù)據(jù)支持[9]。其中,耦合模型所需輸入的葉片生化參數(shù)等數(shù)據(jù)來自LOPEX’93 數(shù)據(jù)庫(kù)和室外實(shí)測(cè)數(shù)據(jù)。PRO-4SAIL耦合模型的具體參數(shù)設(shè)置見表1,根據(jù)以上參數(shù)設(shè)置,可得到模擬的植被冠層光譜反射率(見表2)。
表1 PRO-4SAIL模型的參數(shù)設(shè)置
表2 模擬冠層反射率 nm
敏感性分析是研究模型輸出響應(yīng)受各個(gè)輸入?yún)?shù)變化影響程度的分析技術(shù)。利用冠層反射率進(jìn)行葉面積指數(shù)反演前,先分析葉面積指數(shù)對(duì)PRO-4SAIL模型模擬的冠層反射率變化的敏感波段區(qū)間以及敏感程度[10]。本文在其它參數(shù)不變的情況下,通過一定步長(zhǎng)來改變?nèi)~面積指數(shù)的大小,分析冠層光譜反射率的變化情況,其中步長(zhǎng)設(shè)置為0.5。
除了單一波段或多個(gè)單波段可以反映葉面積指數(shù),植被指數(shù)也是提取植被信息的優(yōu)良載體,它能夠有效地消除或減弱某些環(huán)境因素對(duì)冠層光譜的干擾,并且可以提取植被相對(duì)完整的特征信息[11]。本文在選取植被指數(shù)時(shí),參考前人的經(jīng)驗(yàn)及方法,結(jié)合多種常見植被指數(shù)(見表3)與葉面積指數(shù)相關(guān)性分析,從而確定參與到建模工作中的植被指數(shù)。
隨機(jī)森林是于2001年由 Cutler Adele 和Leo Breiman 研究發(fā)現(xiàn)的一種數(shù)據(jù)挖掘方法,這是組合型的自學(xué)習(xí)與現(xiàn)代回歸與分類結(jié)合的一種技術(shù)。隨機(jī)森林既可用作分類與回歸,也可用于聚類和生存分析。相比較于其它算法,它的優(yōu)勢(shì)在于對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng),具有很好的抗噪性能和極強(qiáng)的擬合能力但是不會(huì)產(chǎn)生過擬合現(xiàn)象。隨機(jī)森林通過自助法隨機(jī)選擇部分向量生長(zhǎng)為分類樹,每個(gè)樹都會(huì)完整生長(zhǎng)而不會(huì)修剪。其樹的生成過程中,在隨機(jī)挑出的少量變量中確定其節(jié)點(diǎn)的變量。該方式生成的龐大的樹便用于回歸和分類,因而稱作隨機(jī)森林[12]。隨機(jī)森林模型有兩個(gè)重要的參數(shù):分類樹的數(shù)量k和分割節(jié)點(diǎn)的隨機(jī)變量m,在隨機(jī)森林應(yīng)用中區(qū)別是分類還是回歸,取決于隨機(jī)森林的每棵cart樹是分類樹還是回歸樹。
表3 常見植被指數(shù)及其表達(dá)式
隨機(jī)森林回歸模型的優(yōu)點(diǎn)在于:①可以處理大規(guī)模數(shù)據(jù)集,可以預(yù)測(cè)上千個(gè)解釋變量的作用;②對(duì)多元線性公式不敏感,缺失數(shù)據(jù)和非平衡數(shù)據(jù)的預(yù)測(cè)結(jié)果也比較穩(wěn)?。虎劭梢越o出變量的重要性估計(jì);④訓(xùn)練速度快[13]。本文隨機(jī)森林回歸模型的構(gòu)建是在R語(yǔ)言中提供的Random Forest 軟件包中實(shí)現(xiàn)的,它可以分析變量的重要性及模型的預(yù)測(cè)效果。隨機(jī)森林回歸算法的核心是確定隨機(jī)森林決策樹的數(shù)量ntree和分割節(jié)點(diǎn)的隨機(jī)變量數(shù)目mtree,mtree代表著決策樹每次分枝時(shí)選擇的變量個(gè)數(shù),在隨機(jī)森林回歸模型中該參數(shù)大小一般為變量個(gè)數(shù)的1/3,同時(shí)也需要根據(jù)具體情況分析,另外為保證樣本的預(yù)測(cè)次數(shù),ntree值不宜設(shè)定過小,否則將無法構(gòu)建森林[14]。
敏感性分析是一種定量的分析,當(dāng)研究特定因素發(fā)生某些變化時(shí),對(duì)某些或某個(gè)因子的影響程度的一種非確定性分析[15]。本文通過模擬不同取值的葉面積指數(shù)的冠層反射率,發(fā)現(xiàn)葉面積指數(shù)LAI對(duì)每個(gè)波段區(qū)間都有不同程度的影響,而當(dāng)葉面積指數(shù)逐步增大時(shí),可見光波段和部分短波紅外波段的冠層反射率逐步降低,而部分短波紅外和近紅外波段范圍的冠層反射率是逐步升高的。由此可見,可見光波段區(qū)間和短波紅外波段區(qū)間的變化受葉面積指數(shù)影響較大,即較為敏感,如圖2所示。
圖2 LAI敏感性分析
相關(guān)性分析是用指標(biāo)來表明現(xiàn)象間相互依存的密切程度的一種分析方法。本文在植被指數(shù)選取過程中,根據(jù)常見植被指數(shù)與實(shí)測(cè)葉面積指數(shù)LAI的線性相關(guān)分析結(jié)果,選取出相關(guān)性較高的DVI、OSAVI、 MSAVI、 MCARI2 4個(gè)植被指數(shù),作為隨機(jī)森林回歸模型的自變量的一部分[16]。其中選取的植被指數(shù)及其相關(guān)性分析見表4。
表4 植被指數(shù)相關(guān)性分析結(jié)果
本文根據(jù)隨機(jī)森林回歸模型本身對(duì)數(shù)據(jù)大小及數(shù)據(jù)結(jié)構(gòu)的要求,以及LAI與植被指數(shù)相關(guān)性分析,將PRO-4SAIL模擬的DVI、OSAVI、 MSAVI、 MCARI2及其對(duì)應(yīng)波段550 nm、670 nm、680 nm、800 nm的數(shù)據(jù)與葉面積指數(shù)作為訓(xùn)練集構(gòu)建隨機(jī)森林模型[17]。而測(cè)試集為挑選的實(shí)測(cè)葉面積指數(shù)和實(shí)測(cè)550 nm波段、670 nm波段、680 nm波段、800 nm波段、DVI、MSAVI、OSAVI、MCARI2。利用R語(yǔ)言中Random Forest軟件包實(shí)現(xiàn)隨機(jī)森林回歸模型,經(jīng)過多次試驗(yàn)比較,值和值分別設(shè)定為500和3。其中隨機(jī)森林回歸的訓(xùn)練集決定系數(shù)R2為0.988,建模精度較高,且沒有出現(xiàn)過擬合或欠擬合現(xiàn)象。
反演的最終結(jié)果如圖3所示,葉面積指數(shù)(LAI)實(shí)測(cè)值與預(yù)測(cè)值的決定系數(shù)R2為0.688,均方根誤差RMSE為0.533,模型驗(yàn)證精度較好,最終反演得到的結(jié)果與實(shí)測(cè)結(jié)果一致。說明PRO-4AIL模型與隨機(jī)森林算法回歸的結(jié)合具有較好的反演精度。由上述試驗(yàn)證明,在樣本挑選中剔除了多組光譜異常和信息缺失數(shù)據(jù)和LAI實(shí)測(cè)值的大小整體浮動(dòng)較小的情況下,隨機(jī)森林回歸模型依然能取得較好的結(jié)果。
圖3 反演結(jié)果
葉面積指數(shù)與植被的生長(zhǎng)與健康息息相關(guān)。在路域環(huán)境評(píng)判監(jiān)測(cè)中,主要根據(jù)道路修建完成后期對(duì)周邊植被的健康影響狀況來進(jìn)行分析,因此,葉面積指數(shù)反演對(duì)路域環(huán)境健康監(jiān)測(cè)有著重要理論支撐。利用PRO-4SAIL輻射傳輸模型模擬一定步長(zhǎng)下的路域植被冠層反射率,選取適宜葉面積指數(shù)反演的反演因子,采用機(jī)器學(xué)習(xí)中的隨機(jī)森林回歸算法將幾種反演因子與葉面積指數(shù)進(jìn)行回歸建模,進(jìn)而分析組合模型反演葉面積指數(shù)的精度和穩(wěn)定性。該回歸模型抗過擬合能力強(qiáng),最終反演的葉面積指數(shù)與實(shí)測(cè)結(jié)果一致,有效提高了模型反演的精度和穩(wěn)定性,在植物生化參數(shù)反演領(lǐng)域有廣闊的應(yīng)用前景,為路域植被健康監(jiān)測(cè)提供一定的技術(shù)支持。本文主要考慮的是輻射傳輸模型和機(jī)器學(xué)習(xí)組合應(yīng)用在反演植被生化參數(shù)方面的內(nèi)容,而在數(shù)據(jù)源的不同選擇以及植被指數(shù)選取方面還有待后續(xù)研究與探索。雖然本文的模型應(yīng)用較為成功,但對(duì)于模型反演的不同地域、不同主體等的推廣應(yīng)用未曾涉及,有待深入探討。