曹英麗,肖 文,劉亞帝,江凱倫,郭寶贏,于豐華
(沈陽農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院/遼寧省農(nóng)業(yè)信息化工程技術(shù)中心,沈陽110161)
高光譜技術(shù)在植被營養(yǎng)診斷與病害檢測中有廣泛應(yīng)用[1-6]。 傳統(tǒng)的植被反演診斷和檢測方法,對經(jīng)驗要求較高、需破壞性取樣、分析成本高、易受時空影響,無法滿足大范圍的農(nóng)田監(jiān)測。 而高光譜技術(shù)是用植株在不同條件下的光學(xué)特性差異來進(jìn)行判別檢測,這種方法能夠簡化過程、提升效率,是近年來該領(lǐng)域主要采用的方法之一。在進(jìn)行高光譜分析時,由于一般高光譜值在400~2500nm,試驗樣本量也過百,導(dǎo)致數(shù)據(jù)維度非常高,因此數(shù)據(jù)降維是反演未知參量的一個關(guān)鍵環(huán)節(jié)。以往研究較多的是采用植被指數(shù)及特征進(jìn)行降維。 孫小香等[7]證明了基于2 個指標(biāo)[SD(752,751)、SR(534,1350)]優(yōu)于單指標(biāo)構(gòu)建估算水稻葉片氮素含量方法,秦占飛等[8]以組合波段738nm和522 nm 光譜反射率的一階導(dǎo)數(shù)構(gòu)成的比值光譜指數(shù),以線性模型為水稻葉片全氮含量的最優(yōu)估測模型,TIAN 等[9]研究表明指數(shù)SR(553,537)對估測水稻葉片氮素含量具有較好的貢獻(xiàn),CHU 等[10]采用紅邊770nm 和752nm 波長反射率所構(gòu)建的比值光譜參數(shù)較好的預(yù)測了水稻葉片氮素積累量。此類植被指數(shù)及特征進(jìn)行降維,只是依據(jù)先前經(jīng)驗選取幾個特定波段進(jìn)行組合并進(jìn)行了數(shù)學(xué)變形,對數(shù)據(jù)造成了大量舍棄,從而大大影響了氮素的反演精度。 現(xiàn)階段利用高光譜全波段降維可以更全面保存對病害的有用信息,是光譜分析的關(guān)鍵,許多學(xué)者已經(jīng)對此進(jìn)行了研究。NGUYEN 等[11]運用偏最小二乘回歸方法對水稻氮素水平進(jìn)行了估測,指出反演水稻氮素含量的敏感波段為355,420,524~534,583,687,707nm。 宋玉柱[12]利用連續(xù)投影算法、無信息變量消除和競爭性自適應(yīng)重加權(quán)抽樣3 種降維方法來估測寒地水稻冠層氮素含量,得出了較好的結(jié)果,YI 等[13]基于葉片尺度光譜反射率運用主成分分析法和人工神經(jīng)網(wǎng)絡(luò)估測水稻葉片氮素含量。 本研究提出了一種基于分窗Gram-Schmidt 變換的高光譜降維方法,以水稻為研究對象,高光譜分析反演水稻葉片氮素含量[14-20],由于水稻葉片中含有水分,并且水分中的一部分強吸收中心會掩蓋氮素成分在這一區(qū)域的吸收特征[21],所以本研究是針對于干葉光譜開展的研究[22],利用室內(nèi)的條件,較為準(zhǔn)確地測定和分析水稻干燥葉片光譜與對應(yīng)的氮素含量之間的關(guān)系,減少了水稻葉片的水分、葉綠素等其他因素的影響,更加能夠突出Gram-Schmidt 正交變換降維算法的效果。 此降維方法是利用Gram-Schmidt 變換[23]找到水稻干燥葉片光譜的基函數(shù)投影空間,將每一條原始光譜在基函數(shù)投影空間上投影從而得到一組低維變量, 并且通過控制算法程序中的窗口值大小來找到能最大限度反映出原始光譜信息的數(shù)據(jù),建立主基底與水稻氮素含量的反演模型,實現(xiàn)水稻氮素含量的精準(zhǔn)估測,為高光譜技術(shù)選取特征波段與降維提供了一種新的方法。
試驗地點位于遼寧省沈陽市沈北新區(qū)清水臺試驗基地(123°63′E,42°01′N)進(jìn)行,試驗水稻品種為V1(秋光)和V2(沈農(nóng)9816)交替種植,基地設(shè)計4 個水平氮肥處理,分別為N0(0kg·hm-2)、N1(50kg·hm-2)、N2(100kg·hm-2)、N3(150kg·hm-2),設(shè)為3 個重復(fù),劃分24 個小區(qū)(圖1)。試驗為避免邊際效應(yīng),預(yù)留水稻邊行,并在水稻生長過程中除了氮肥處理水平不同外,其他試驗措施保持一致,分別在水稻的分蘗期、拔節(jié)期和抽穗期3 個生育期進(jìn)行試驗。
圖1 24 個水稻小區(qū)分布圖Figure 1 Distribution of 24 rice plots
本研究在水稻的分蘗期、拔節(jié)期和抽穗期3 個生育期每個小區(qū)采集6 穴水稻,將每穴水稻的葉片剪下,放入烘干機里進(jìn)行殺青和烘干,使用粉碎機將烘干的水稻葉片粉碎至100 目,取0.5g 葉片樣品進(jìn)行高光譜數(shù)據(jù)采集,(0.2±0.01)g 葉片樣品進(jìn)行氮素含量的測量。 水稻干葉高光譜數(shù)據(jù)采集,具體操作為首先稱取烘干粉碎后的水稻葉片0.5g,用液壓型紅外壓片機以40MPa 壓力將葉片制成片狀,采用“Ocean”海洋光學(xué)高光譜測試儀,采取積分球折射的方法對壓片后的水稻光譜反射率進(jìn)行提取,光譜波段的探測范圍為190~1100nm,光譜的分辨率為0.001nm,采樣間隔為0.429~0.463nm 不等,均值為0.46nm,去除光譜邊界影響、保留作物敏感波段,有效光譜范圍為400.306~999.939nm,共1343 個光譜波段。 每次測定葉片光譜反射率前,均要用漫反射參考板對光譜儀進(jìn)行校準(zhǔn)。每個生育期內(nèi)各氮素水平有144 個樣本,共有432 條樣本光譜。 水稻葉片氮素含量的測量采用凱氏定氮法[24],將干燥過后的樣品稱取(0.2±0.01)g,以100mL 的濃硫酸溶液至樣品徹底炭化,并且將樣品煮沸、蒸餾后,采用濃度為0.02mol·L-1的硫酸進(jìn)行滴定,分別以硫酸溶液體積和空白實驗的硫酸溶液體積、硫酸溶液濃度、樣品重量進(jìn)行氮素含量的計算,試驗所得432 個氮素含量值。
以Xn×p代表水稻葉片高光譜數(shù)據(jù)(其中n 為樣本量,p 為光譜維度),將其分為i 個窗口。每個窗口分別進(jìn)行Gram-Schmidt 正交變換,隨機選取第一個窗口中的一行數(shù)據(jù)H1=X1×pi(X1×pi為第1 行中第i 個窗口的數(shù)據(jù)),其初始能量為H1HT1,初始能量歸一化為,Z1為投影空間的第一個投影向量,然后在此窗口剩下的數(shù)據(jù)里依次選擇每行向量,將其與Z1進(jìn)行Gram-Schmidt 正交變換,若H2的能量大于設(shè)定的閾值ε, 則作為投影空間的第二個投影向量, 若小于閾值則舍棄。 得到的第q 個向量為,第q 個投影空間為。 最后獲得了基函數(shù)投影空間ZT=(Z1,Z2,…,Zq)pi×qi,一般q?p。 將此窗口的原始數(shù)據(jù)投影到基函數(shù)空間ZT得到投影系數(shù)Cn×qi即為此窗口降維后的數(shù)據(jù),其他窗口重復(fù)上述步驟,則分窗Gram-Schmidt 正交化算法所得的降維后的數(shù)據(jù)為Cn×∑q。
在3 個生育期所采集的光譜數(shù)據(jù),不同氮肥處理水平下,水稻干葉樣本原始光譜信息,由圖2 可知,光譜曲線呈現(xiàn)出大致相同的變化規(guī)律,對于波長范圍的不同,造成葉片光譜反射率的因素也不相同,在可見光區(qū)域葉片色素是使葉片反射率發(fā)生變化的主要因素,氮肥水平越高,其光合作用強,反射和透射率較低,在640nm 處形成了一個小反射峰,670nm 處形成了吸收谷,并且在此區(qū)域N0 水平的光譜反射率要略高于其他水平;在近紅外區(qū)域細(xì)胞結(jié)構(gòu)和含水量是使葉片反射率發(fā)生變化的主要因素,本試驗使用干燥葉片去除了含水量對于葉片反射率的影響,在近紅外波段區(qū)域,隨著光譜波段的升高,光譜反射率也越來越高,并且在此區(qū)域光譜反射率隨施氮量的增高而增大,這是由于氮素是水稻葉片生長發(fā)育的主要營養(yǎng)元素,隨著水稻的生長、葉面積指數(shù)以及其他生物量隨之增加造成的影響。
圖2 不同施氮處理的水稻干燥葉片原始光譜Figure 2 Primitive spectra of rice dry leaves under different nitrogen fertilizers
利用MATLAB R2016a 選取基于分窗Gram-Schmidt 變換對光譜數(shù)據(jù)進(jìn)行降維處理, 光譜儀采樣間隔為0.429~0.463nm,總計1343 個波段數(shù)。 采用分段方法進(jìn)行光譜數(shù)據(jù)降維,通過控制分段窗口值的大小來篩選最優(yōu)模型降維后的光譜維數(shù), 經(jīng)過測試設(shè)定的閾值ε 取0.5 時效果最佳, 分別建立50,100,210,320,440,550,670 和1343nm 的窗口長度對波段進(jìn)行分組,建立多元回歸模型。 由表1 可知,窗口值為50nm 時,交叉驗證決定系數(shù)CV_R2最大,但高光譜數(shù)降為36 較其他窗口冗余較多,當(dāng)窗口值為440nm 時,高光譜維數(shù)降為4,此時交叉驗證決定系數(shù)CV_R2較高為0.787,交叉驗證均方誤差CV_MSE 達(dá)到較小為0.051,綜上窗口值為440nm最佳。
運用Gram-Schmidt 正交化方法降維可以得到對參量敏感波段的分析,由Gram-Schmidt 正交化算法處理水稻葉片光譜反射率后,可以得到基向量的統(tǒng)計學(xué)參數(shù)p-value(顯著性概率值),當(dāng)窗口為440nm 時各基向量參數(shù)如表2。 p-value 值是判斷假設(shè)檢驗結(jié)果的參數(shù),當(dāng)p-value<0.05 時,說明結(jié)果顯著,p-value<0.01 說明結(jié)果極為顯著,因而p 值越小,表明提取信息對結(jié)果影響越顯著,估測的精度越高。 由表2 可知,基向量1,3,4 的pvalue 值較小,說明這3 個基向量對于結(jié)果的準(zhǔn)確程度占據(jù)較大程度的比重。 圖3 繪制了基向量光譜信息情況,水稻葉片氮素含量敏感波段為基向量極值位置,分別為487,601,685,799,911,990nm,此特征波段包含了氮素含量和光譜反射率相關(guān)性分析的結(jié)果,說明Gram-Schmidt 正交化方法在降維的同時也能兼顧到敏感波段的提取。
表1 不同窗口下降維光譜與水稻氮素含量的相關(guān)關(guān)系Table 1 Correlation between decreasing dimension spectra of different windows and nitrogen content in rice
表2 窗口為440nm 的各主基底統(tǒng)計參量Table 2 Statistical parameters of main substrates with windows of 440nm
PCA(principal component analysis)是實現(xiàn)數(shù)據(jù)降維的常用方法,能夠盡可能多的保留原始數(shù)據(jù)的主要信息,并能有效地排除大量原始數(shù)據(jù)信息的重疊性。 主成分分析法對于有各變量有較強相關(guān)性的數(shù)據(jù)效果好,廣泛應(yīng)用于高光譜數(shù)據(jù)的降維,但是各變量間相關(guān)性過強也會對主成分分析結(jié)果造成影響[25]。 在本研究中,對水稻葉片光譜400~1000nm 數(shù)據(jù)進(jìn)行主成分分析,通過改變主成分因子數(shù)的大小,選擇適當(dāng)?shù)囊蜃訑?shù)量,使降維效果達(dá)到最好,表3 為光譜降維后主成分個數(shù)與累計方差貢獻(xiàn)率,提取5 個主成分,累積方差貢獻(xiàn)率達(dá)到96.51%,即此5 個因子可以包含變量中的96.51%的信息。
圖3 基于Gram-Schmidt 變換所得主基底與特征波長Figure 3 Main base and characteristic wavelength based on Gram-Schmidt transform
2.4.1 單個植被指數(shù)預(yù)測模型的建立與篩選 大量研究表明,植被光譜某些特征波段與氮素有很強的相關(guān)性。根據(jù)前人方法及經(jīng)驗[26-27],結(jié)合與氮素含量的相關(guān)性分析,共篩選出10 個相關(guān)性較高的特征光譜指數(shù),其中,SI為單波段指數(shù) (single band index),REPI 為紅邊位置指數(shù)(red edge position index),RI 為 比 值 指 數(shù)(ratio index),DI為差值指數(shù)(difference index),DDI為雙差值指數(shù)(double difference index),NDI為歸一化差異指數(shù)(normalized difference index),GNDI 為綠度歸一化指數(shù)(green normalized difference index)。 將這10 個特征光譜指數(shù)為自變量,氮素含量為因變量,建立一元線性回歸模型,并對回歸模型進(jìn)行驗證以檢驗其準(zhǔn)確性和穩(wěn)定性。
由表4 可知,估測精度較高的5 個特征光譜指數(shù)依次 為GNDI(911,487),DDI(990,685,487),SI(487),NDI(990,685),NDI(990,601),R2依 次 為0.667,0.650,0.635,0.614,0.582;MSE 依 次 為0.076,0.076,0.083,0.086,0.089;由此看出,篩選出的最優(yōu)植被指數(shù)為GNDI(911,487)。
表3 前5 個主成分的累積貢獻(xiàn)率Table 3 Cumulative contribution rate of the first five principal components
表4 水稻氮素含量與不同特征光譜指數(shù)的定量關(guān)系Table 4 Quantitative relationship between nitrogen content and different vegetation indices in rice
2.4.2 多個特征光譜指數(shù)預(yù)測模型的建立與篩選 本研究以上文選擇的10 個特征光譜指數(shù)為自變量,氮素含量為因變量,利用最優(yōu)子集選擇算法,對初篩的10 個特征參數(shù)進(jìn)行優(yōu)化選擇,剔除模型中與相關(guān)性低的特征,降低維度,實現(xiàn)流程為依次設(shè)置特征數(shù)目k 從1 到10,對包含k 個特征所有特征組合建立線性回歸模型,模型參數(shù)用最小二乘法估計,選取決定系數(shù)R2最大的模型,作為k 個特征時最好的模型。 由圖4 可知,當(dāng)選擇的特征光譜指數(shù)個數(shù)等于7 時,模型效果最佳,得到為SI(487),RI(601,487),DI(911,487),DDI(990,685,487),NDI(990,685),NDI(990,601)和GNDI(911,487)共7 個特 征光譜指數(shù)作為多元回歸模型的自變量, 決定性系數(shù)為0.731,均方根誤差為0.072。
圖4 k 個特征參數(shù)最大決定系數(shù)Figure 4 The maximum determining coefficient of k characteristic parameters
本研究利用基礎(chǔ)的多元線性回歸模型進(jìn)行研究,應(yīng)用模型的決定系數(shù)R2和均方誤差MSE 來評估模型的檢測精度, 模型的測試誤差采用5 折交叉驗證 (5-fold cross-validation)的方式進(jìn)行計算。全波段分析以分窗Gram-Schmidt 變換降維,當(dāng)窗口值為440nm,得出4 個主基底時效果最好,將主基底與水稻氮素含量建立回歸模型,其5 折交叉驗證決定性系數(shù)R2和均方根誤差MSE分別為0.787 和0.051;全波段分析以主成分分析降維,選取5 個因子作為特征,其決定性系數(shù)R2和均方根誤差MSE 分別為0.743 和0.056;以單個植被指數(shù)與水稻氮素含量建立回歸模型,效果最好的是GNDI(911,487),其決定性系數(shù)R2和均方根誤差MSE 分別為0.667 和0.076;以多個特征光譜指數(shù)為降維方法,選擇7 個特征光譜指數(shù),模型效果最佳,其決定性系數(shù)R2和均方根誤差MSE 分別為0.731 和0.072。
表5 各降維方法的評估Table 5 Evaluation of dimension reduction methods
本研究提出的Gram-Schmidt 正交變換是先找到一個標(biāo)準(zhǔn)向量集,讓其他向量投影到標(biāo)準(zhǔn)向量以剔除共性, 剩下的部分用于構(gòu)建新坐標(biāo)系,Gram-Schmidt 在原則上與多數(shù)學(xué)者所采用的主成分分析降維法[28-30]類似,一個獲取基向量作為特征,一個獲取主成分因子作為特征,但區(qū)別在于主成分分析獲得的主成分因子與原始光譜信息之間的關(guān)系變得模糊,而Gram-Schmidt 正交變換獲取基向量的方式在降維的同時也能獲取包含主要信息的波段[31],并且分窗Gram-Schmidt 算法能夠通過控制程序中的窗口值大小,獲得最優(yōu)的反映原始光譜信息的數(shù)據(jù)。 另外,本研究以水稻為研究對象,在水稻葉片高光譜數(shù)據(jù)采集過程中,直接使用海洋光學(xué)光譜儀測量高光譜會由于按壓時積分球與平臺之間的空隙使光譜測量不準(zhǔn)確。因此,本研究以緊密、不透光、厚度一致的片狀水稻葉片為樣品,減少人為誤差,更加準(zhǔn)確的探討分窗Gram-Schmidt 算法的效果與水稻氮素含量的反演。后期將以其他學(xué)者所用的水稻鮮葉[32-33]為試驗數(shù)據(jù)樣本,通過此研究的分窗Gram-Schmidt 算法進(jìn)行高光譜數(shù)據(jù)降維,實現(xiàn)田間快速估測水稻氮素含量,服務(wù)于精準(zhǔn)農(nóng)業(yè)。
本研究利用2018 年試驗所得的水稻干燥葉片光譜和氮素含量,分析了二者之間的關(guān)系,探討了高光譜數(shù)據(jù)的降維方法與氮素含量反演建模。分窗Gram-Schmidt 正交變換算法其降維效果優(yōu)于主成分分析與植被指數(shù)降維,并且能夠找出水稻干燥葉片光譜與氮素含量相關(guān)的特征波段。 結(jié)果表明基于分窗Gram-Schmidt 算法能夠有效的對高光譜進(jìn)行降維處理,對于提高模型預(yù)測精度是可行的。