張樹艷, 王有武, 白鐵成, 張 曉, 石魯珍
(1.塔里木大學(xué)信息工程學(xué)院,新疆阿拉爾 843300; 2.塔里木大學(xué)植物科學(xué)學(xué)院,新疆阿拉爾 843300;3.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所新疆南疆農(nóng)業(yè)信息化研究中心,新疆阿拉爾 843300)
棉花是關(guān)系國計(jì)民生的重要物資,是僅次于糧食的第二大農(nóng)作物,其產(chǎn)值占我國經(jīng)濟(jì)作物的50%以上,在國民經(jīng)濟(jì)發(fā)展中具有重要地位。新疆以其優(yōu)越的光熱資源條件成為我國最主要的棉花產(chǎn)區(qū),棉花種植面積、單位面積產(chǎn)量和總產(chǎn)量一直居全國首位[1-2]。葉面積指數(shù)(leaf area index,簡稱LAI)很好地反映了冠層結(jié)構(gòu)是否合理、營養(yǎng)生長與生殖生長是否協(xié)調(diào)及其生育進(jìn)程等信息,與生物量和作物產(chǎn)量密切相關(guān),是群體特征的重要指標(biāo)[3-4]。因此,棉花不同生育時(shí)期LAI的精確估測,對了解棉花長勢、提高新疆棉花生產(chǎn)管理水平及遙感估產(chǎn)有著重要意義。
目前,利用高光譜獲取LAI已經(jīng)成為精準(zhǔn)農(nóng)業(yè)研究的熱點(diǎn)問題之一[5-6]。植被冠層葉片特別是寬葉片在近紅外光譜(簡稱NIR)區(qū)域的高反射率和透射率可引起強(qiáng)烈的多重反射,NIR光譜區(qū)(700~2 500 nm)主要是由含氫基團(tuán)的倍頻和組頻吸收峰組成,吸收強(qiáng)度弱,靈敏度相對較低,吸收帶較寬且重疊嚴(yán)重,近紅外光譜通常包含數(shù)以千計(jì)的波長變量,光譜信息存在多重相關(guān)性等,如果采用全光譜數(shù)據(jù)建模,由于光譜含有大量冗余數(shù)據(jù),必然會增加建模的工作量。因此,為了削弱以至于消除各種非目標(biāo)因素對近紅外光譜的影響,提高物系性質(zhì)參數(shù)對光譜的分辨率和靈敏度,在利用光譜建立校正模型前,通常需對其進(jìn)行波長選擇[7],剔除不含有用信息的波長。另外,選擇有較好代表性的校正集樣本,可以提高預(yù)測模型的預(yù)測能力。
鑒于此,本研究以南疆棉花為研究對象,采用近紅外光譜儀獲得棉花冠層光譜,通過基于X-Y距離的樣本集劃分(sample set partitioning based on joint x-y distance,簡稱SPXY)法劃分校正集樣本和驗(yàn)證集樣本,然后使用連續(xù)投影算法剔除光譜冗余信息,優(yōu)選出棉花近紅外特征波長,結(jié)合最小二乘法實(shí)現(xiàn)LAI的建模,比較連續(xù)投影算法和最小二乘法(簡稱SPA-PLS)模型和PLS模型的預(yù)測精度和穩(wěn)定性,以期為棉花葉面積指數(shù)的精確估測提供一種新的思路和方法。
本試驗(yàn)設(shè)于新疆阿拉爾市十團(tuán)六連棉花試驗(yàn)區(qū),地理坐標(biāo)為81°13′E,40°34′N,為典型的大陸性干旱荒漠氣候,年均相對濕度為51%,太陽輻射總量為年均6 100 MJ/m2左右,生長季太陽輻射量為1 300 MJ/m2左右,年均日照時(shí)數(shù)為2 800~3 000 h,云霧天氣較少,揚(yáng)塵、浮塵、沙暴等天氣較多。
本試驗(yàn)于2015年實(shí)施,棉花品種為新陸中67號,小區(qū)面積為300 m2,種植密度為24萬株/hm2,行距為40 cm+20 cm寬窄行,按當(dāng)?shù)馗弋a(chǎn)栽培模式管理。選擇晴朗無風(fēng)沙天氣,分別于棉花的蕾期(6月22日)、初花期(7月3日和7月9日)、盛花期(7月15日)、初鈴期(7月30日)、盛鈴期(8月9日和8月24日)和吐絮期(9月10日)進(jìn)行數(shù)據(jù)采集,每次測定時(shí)間選擇在當(dāng)天12:00—15:00(北京時(shí)間)。本試驗(yàn)區(qū)選取長勢不同的10個(gè)采樣點(diǎn)采樣,共采集80個(gè)樣本,試驗(yàn)區(qū)采集的數(shù)據(jù)包括冠層光譜和LAI。
1.3.1冠層測量采用美國賽默飛世爾公司生產(chǎn)的Antaris II FT-NIR型光譜儀采集棉花冠層光譜,測量范圍為4 000~10 000 cm,掃描次數(shù)設(shè)置為32次,分辨率設(shè)置為8 cm,采樣點(diǎn)數(shù)為1 557點(diǎn),使用的檢測器為InGaAs。在每個(gè)采樣點(diǎn)采集5株棉花,立即摘葉,將葉片裝入牛皮紙袋,標(biāo)號封口,帶回實(shí)驗(yàn)室進(jìn)行近紅外光譜測量。將近紅外光譜儀開機(jī)預(yù)熱約30 min,用近紅外光譜儀對棉花葉片進(jìn)行掃描,獲取近紅外光譜圖像,使用EVNI軟件處理得到不同采樣點(diǎn)棉花葉片的光譜反射值[8]。
1.3.2棉花葉面積指數(shù)的獲取棉花冠層LAI的測量與光譜采集同步進(jìn)行。每次測完冠層反射率光譜,將其不重疊地鋪放在畫有坐標(biāo)網(wǎng)格的白色背景的紙上,用500萬像素的數(shù)碼相機(jī)拍照,相機(jī)取景以剛好框住所有葉片為宜,要求葉片上光線均勻,無陰影,同一采樣點(diǎn)葉片重復(fù)拍攝3次,記錄照片編號與采樣點(diǎn)號。使用LA-S植物圖像分析軟件得到圖片上的葉片面積,最后匯總計(jì)算得出不同采樣點(diǎn)的棉花總?cè)~面積[9]。LAI的計(jì)算方法如下:
為了減小過擬合現(xiàn)象,使模型的預(yù)測能力增強(qiáng),選擇的校正集樣本要具有較好的代表性。SPXY方法是由Galv?o等在KS法的基礎(chǔ)上提出的[10],試驗(yàn)證明能夠有效地用于NIR定量模型的建立。SPXY在計(jì)算樣品間距離時(shí),將x變量和y變量同時(shí)考慮在內(nèi),標(biāo)準(zhǔn)化的xy的距離公式[11]為
式中:dx(p,q)為以棉花冠層光譜為參數(shù)計(jì)算出的樣本間的距離;dy(p,q)為以棉花LAI為參數(shù)計(jì)算出的樣本間的距離。
采用SPXY方法將80個(gè)樣本劃分為60個(gè)校正集和20個(gè)驗(yàn)證集,分別用以建立LAI預(yù)測模型和驗(yàn)證所建模型的準(zhǔn)確性。
連續(xù)投影算法(successive projections algorithm,簡稱SPA)最早由Bregman于1965年提出[12],是一種使矢量空間共線性最小化的前向變量選擇算法,本研究用于剔除光譜冗余信息。設(shè)光譜矩陣為Xn×p,其中n為樣本容量,p為全譜波長數(shù),要選出m個(gè)最優(yōu)波長,選擇步驟[13]如下:
步驟1:第1次迭代之前(n=1),將訓(xùn)練集光譜矩陣X的第k列賦值給xk(1),k∈(1,2,…,p);
步驟2:令S為所有未被選入的波長變量的集合,S={k,1≤k≤p,p[k(1),k(2),…,k(n)]};
步驟3:計(jì)算剩余列向量xk與當(dāng)前所選向量的投影;
步驟4:記下投影值范數(shù)最大的波長的位置k(n+1)=arg[mac(‖xk(n+1)‖)],n∈S;
步驟5:令n=n+1,若n
步驟6:分別使用各子集中的變量建立多元線性回歸(簡稱MLR)模型,選出均方根誤差(簡稱RMSE)最小的子集,然后進(jìn)行逐步回歸建模,在盡量不損失預(yù)測準(zhǔn)確度的前提下,得到1個(gè)變量數(shù)較少的集合。該集合中的波長變量即為所選有效波長。
校正模型性能評價(jià)參數(shù)[14]:相關(guān)系數(shù)(r)、建模均方根誤差(簡稱RMSPCV)和預(yù)測均方根誤差(簡稱RMSEP)。一個(gè)好的模型通常具有高的r值,低的RMSPCV和RMSEP。計(jì)算公式如下:
(1)
(2)
(3)
式中:m為校正集的總樣品數(shù);n為驗(yàn)證集的總樣品數(shù);zi為第i樣品的測量值;yi為預(yù)測模型第i樣品的預(yù)測值;yi,av為預(yù)測模型所有樣品的平均值。r越接近1,回歸(或預(yù)測)結(jié)果越好;RMSPCV越小,說明該模型的預(yù)測能力越高;RMSEP越小,則表示模型對外部樣品的預(yù)測能力越高;同一批次樣本,RMSPCV和RMSEP越小,說明模型的精度越高,兩者值越接近說明模型穩(wěn)定性越好。
棉花各生育時(shí)期的冠層光譜如圖1所示,在近紅外波段,光譜反射率主要是受細(xì)胞結(jié)構(gòu)的影響,在910 nm處反射率急劇升高,在940 nm波段附近出現(xiàn)反射率的峰值,直到 1 300 nm 的近紅外反射率都維持較高水平,在950~1 300 nm處反射率、透射、吸收穩(wěn)定,超過1 300 nm,隨波長的增加,吸收增加,反射減小,在1 450 nm處呈現(xiàn)吸收波谷,短波紅外光譜區(qū)(1 300~2 600 nm)主要受葉片水分的影響,反射率升高。
棉花LAI統(tǒng)計(jì)特征如下:樣本數(shù)80個(gè),LAI平均值2.99,LAI中位數(shù)4.08,LAI標(biāo)準(zhǔn)差0.79,LAI最小值1.64,LAI最大值4.29。圖2為不同品種的棉花葉面積指數(shù)LAI在整個(gè)生育期內(nèi)的變化曲線,苗期由于棉花未封壟,棉花冠層光譜受到土壤背景光譜的影響較大,所以葉面積的測定從蕾期開始。從蕾期到初花期,由于棉花枝葉數(shù)量的急劇增加,葉片面積不斷增長,致使LAI不斷升高,LAI升高的速率從盛蕾期到花期再到盛花期較快,各品種的棉花LAI在鈴期都達(dá)到了最大值。進(jìn)入盛鈴期后期,棉花葉片的光合作用已開始逐漸減弱,養(yǎng)分不斷轉(zhuǎn)移輸送到棉鈴上,植株下部的棉葉逐漸枯黃干落,LAI在吐絮后急劇減小。
2.3.1PLS模型原始光譜包含背景信息和除樣品外的噪聲信息,分別采用均值中心化、歸一化、平滑去噪、一階求導(dǎo)、多元散射校正(簡稱MSC)5種不同方法對光譜進(jìn)行預(yù)處理。使用原光譜和預(yù)處理光譜分別對棉花LAI進(jìn)行PLS模型建模,建模精度和預(yù)測能力如表1所示??梢钥闯觯捎靡浑A求導(dǎo)光譜建立的PLS模型,其相關(guān)系數(shù)r最高,為0.801 23,RMSPCV和RMSEP最小,分別為0.425 33和0.501 22,因此采用一階求導(dǎo)預(yù)處理效果最佳。一階導(dǎo)數(shù)光譜可以消除基線和其他背景干擾,分辨重疊峰,得到比原光譜更高的分辨率和更清晰的光譜輪廓變化[15],后面在連續(xù)投影算法基礎(chǔ)上建立SPA-PLS模型也以一階求導(dǎo)光譜為基礎(chǔ)進(jìn)行,圖3為經(jīng)一階求導(dǎo)處理后的光譜。
表1 5種預(yù)處理方法建立PLS模型結(jié)果綜合比較
2.3.2SPA-PLS模型本研究的光譜波長區(qū)間為900~1 700 nm,該區(qū)間含有大量冗長信息,故采用SPA方法在全光譜區(qū)間內(nèi)提取有效波長。包含變量數(shù)的范圍為1~12個(gè),根據(jù)均方根誤差確定選定的最終變量數(shù),圖4-a為棉花近紅外光譜中選用不同變量數(shù)的交互驗(yàn)證預(yù)測均方根RMSE,當(dāng)RMSE取最小值0.248 68時(shí),對應(yīng)的變量數(shù)是8個(gè)。用SPA算法對ROI區(qū)域的平均光譜進(jìn)行篩選,結(jié)果如圖4-b所示,從全波段中提取出的8個(gè)特征波長分別為 904.830 02、1 754.28、936.030 03、932.900 02、911.06、1 172.61、907.950 01、942.289 98 nm??紤]到傳感器邊緣的光譜不能使用,故將邊緣光譜剔除,留下5個(gè)有效特征波長(分別為936.030 03、932.900 02、911.06、1 172.61、942.289 98 nm) 作為葉面積指數(shù)的優(yōu)選波長組合進(jìn)行最小二乘法建模,SPA算法選取的波長建立的SPA-PLS模型如圖5所示。
經(jīng)過SPA提取的波長建立的SPA-PLS模型與采用全譜建立的PLS模型結(jié)果進(jìn)行對比,結(jié)果如表2所示,比較建模精度和預(yù)測能力可知,RMSEP由0.501 22降低到0.294 70,RMSPCV由0.425 33降低到0.294 20,r由0.801 23提高到 0.928 27。試驗(yàn)結(jié)果表明,棉花的近紅外光譜的譜峰重疊嚴(yán)重,冗余信息多,在全譜區(qū)包含大量與葉面積指數(shù)無關(guān)的信息,將全光譜的所有信息參與建模,使用SPA法剔除大量無用和冗余信息,從全光譜中優(yōu)選出5個(gè)有效特征波長建立SPA-PLS模型,使用的變量數(shù)僅占全波段的0.32%,然而RMSPCV和RMSEP卻更小更接近,模型對外部樣品的預(yù)測能力和模型穩(wěn)定性也都得到了很大的提高,因此SPA-PLS模型的準(zhǔn)確度和精度均優(yōu)于PLS模型。
本研究運(yùn)用近紅外光譜儀獲取棉花冠層光譜,通過一階求導(dǎo)方法進(jìn)行光譜預(yù)處理,分辨率和光譜輪廓比原光譜更高更清晰。采用SPA算法對SPXY法劃分獲得的60個(gè)棉花樣本進(jìn)行棉花LAI校正模型的建立及預(yù)測試驗(yàn)可以看出,校正樣本集的選擇和特征波段的選取都會影響模型的預(yù)測精度和穩(wěn)定度。對全光譜使用SPA方法選取的有效特征波長基本上都分布在930、1 100 nm附近,建立的SPA-PLS模型效果明顯好于使用全光譜建立的PLS模型。因此,利用SPA可以有效降低光譜矩陣的維數(shù),不僅減小了參與建模的數(shù)據(jù)規(guī)模,而且降低了模型的計(jì)算量。
表2 5種預(yù)處理方法建立SPA-PLS模型結(jié)果綜合比較
參考文獻(xiàn):
[1]黃樂珊,李紅,孫澤昭. 棉花產(chǎn)業(yè)在新疆區(qū)域經(jīng)濟(jì)中的地位[J]. 新疆農(nóng)業(yè)科學(xué),2006(6):38-41.
[2]楊忠娜,唐繼軍,喻曉玲. 新疆棉花產(chǎn)業(yè)對國民經(jīng)濟(jì)的影響及對策研究[J]. 農(nóng)業(yè)現(xiàn)代化研究,2013,34(3):298-302.
[3]劉軻,周清波,吳文斌,等. 基于多光譜與高光譜遙感數(shù)據(jù)的冬小麥葉面積指數(shù)反演比較[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(3):155-162.
[4]謝巧云,黃文江,梁棟,等. 最小二乘支持向量機(jī)方法對冬小麥葉面積指數(shù)反演的普適性研究[J]. 光譜學(xué)與光譜分析,2014,34(2):489-493.
[5]Tang H,Brolly M,Zhao F,et al. Deriving and validating Leaf Area Index(LAI) at multiple spatial scales through lidar remote sensing:a case study in Sierra National Forest[J]. Remote Sensing of Environment,2014,143(5):131-141.
[6]姚付啟,蔡煥杰,王海江,等. 基于平穩(wěn)小波變換的冬小麥覆蓋度高光譜監(jiān)測[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(3):173-180.
[7]高洪智,盧啟鵬,丁海泉,等. 基于連續(xù)投影算法的土壤總氮近紅外特征波長的選取[J]. 光譜學(xué)與光譜分析,2009,29(11):2951-2954.
[8]張懷志,曹衛(wèi)星,周治國,等. 棉花適宜葉面積指數(shù)的動(dòng)態(tài)知識模型[J]. 棉花學(xué)報(bào),2013,03(09):151-154.
[9]柏軍華. 基于LAI的棉花產(chǎn)量近地遙感模型研究[D]. 石河子:石河子大學(xué),2005:67-80.
[10]Kennard R W. Stone L A.computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.
[11]展曉日,朱向榮,史新元. SPXY樣本劃分法及蒙特卡羅交叉驗(yàn)證結(jié)合近紅外光譜用于橘葉中橙皮苷的含量測定[J]. 光譜學(xué)與光譜分析,2009,29(4):964-968.
[12]Brègman L M. Finding the common point of convex sets by the method of successive projections[J]. Akademiia. Nauk SSSR Doklady,1965,162(3):487.
[13]Galv?o R H,Araújo M U,F(xiàn)ragoso W D,et al. Chemometrics and intelligent laboratory systems[Z]. 2008:83.
[14]劉姣娣,曹衛(wèi)彬,馬蓉. 棉花葉面積指數(shù)的遙感估算模型研究[J]. 中國農(nóng)業(yè)科學(xué),2014,12(25):4301-4306.
[15]陸婉珍,袁洪福,徐廣通,等. 現(xiàn)代近紅外光譜分析技術(shù)[M]. 北京:中國石化出版社,2000.