王 濤, 白鐵成, 喻彩麗, 張楠楠, 王莎莎
(1.塔里木大學(xué)信息工程學(xué)院/新疆南疆農(nóng)業(yè)信息化研究中心,新疆阿拉爾 843300; 2.西北大學(xué)現(xiàn)代教育技術(shù)中心,陜西西安 710127)
塔里木河流域的胡楊林對(duì)阻擋塔克拉瑪干沙漠的風(fēng)沙侵襲、維護(hù)區(qū)域生態(tài)平衡和保障綠洲農(nóng)業(yè)起著重要作用。但近年來(lái)由于受干旱和蟲害的影響,沿河兩岸天然植被大幅削減和破壞,我國(guó)塔里木河流域的珍貴樹種胡楊面臨著生存危機(jī)[1],因此須要對(duì)胡楊林的健康狀況進(jìn)行及時(shí)有效的監(jiān)測(cè),胡楊葉片水分狀況為胡楊干旱脅迫提供了指示作用,對(duì)胡楊林實(shí)施有效的保護(hù)具有重要的現(xiàn)實(shí)意義。
近紅外光譜技術(shù)是一種高效率、穩(wěn)定、低成本的檢測(cè)方法。近年來(lái),使用近紅外方法對(duì)農(nóng)產(chǎn)品品質(zhì)進(jìn)行測(cè)定主要以漫反射和透射光譜檢測(cè)為主,包括蔬菜、小麥、玉米、水稻等主要農(nóng)產(chǎn)品中水分、淀粉、蛋白質(zhì)等成分含量的測(cè)定[2-6]。方美紅等利用高光譜數(shù)據(jù)反演作物葉片含水量,采用小波分析方法,綜合利用多波段信息的作物葉片含水量反演模型,提高了預(yù)測(cè)精度[7]。劉明博等基于連續(xù)投影算法結(jié)合主成分回歸與偏最小二乘法(partial least squares regression,PLS)預(yù)測(cè)水稻葉片含氮量,證明了連續(xù)投影算法進(jìn)行有效波長(zhǎng)的選取是可行的[8]。Li等基于遺傳算法結(jié)合偏最小二乘法在植物水分近紅外光譜分析模型中進(jìn)行譜區(qū)選擇,優(yōu)化了預(yù)測(cè)模型,增強(qiáng)了模型的穩(wěn)定性[9]。王加華等采用遺傳算法用于PLS建立西洋梨糖度校正模型前的數(shù)據(jù)優(yōu)化篩選是可行的,有效提高測(cè)量精度,減少建模變量[10]。前人利用各種光譜預(yù)處理方法,主要包括多元散射校正,矢量歸一化、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)等[11-13],分析了農(nóng)產(chǎn)品關(guān)鍵成分與光譜的關(guān)系,證實(shí)了使用連續(xù)投影算法[14-16]與遺傳算法[17-18]選取特征波長(zhǎng)的可行性,而采用近紅外波段的光譜信息檢測(cè)胡楊葉片含水量研究鮮有報(bào)道。
本試驗(yàn)選用SavitZky-Golay一階導(dǎo)數(shù)對(duì)樣本的原始光譜進(jìn)行預(yù)處理,然后分別使用連續(xù)投影算法(successive projection algorithm,SPA)和遺傳算法(genetic algorithm,GA)[19]篩選特征波長(zhǎng),并結(jié)合偏最小二乘法[20]建立胡楊葉片含水量光譜預(yù)測(cè)模型,通過(guò)試驗(yàn)驗(yàn)證,該方法有效地剔除了噪聲的影響,增加了特征波長(zhǎng)的選擇能力,提高了胡楊葉片含水量估測(cè)精度,從而為基于高光譜技術(shù)檢測(cè)胡楊葉片含水量提供依據(jù)。
試驗(yàn)采用Zolix Gaia Sorter近紅外成像高光譜儀,光譜測(cè)定范圍900~1 700 nm(實(shí)際測(cè)量到1 750 nm),光譜分辨率 5 nm,光譜采樣點(diǎn)4 nm,共256個(gè)波段。樣本在室內(nèi)20~25 ℃ 環(huán)境下進(jìn)行掃描,獲取一維影像和光譜信息,通過(guò)自帶軟件獲取每張葉片的平均光譜值,每個(gè)樣本數(shù)據(jù)測(cè)量5次取平均值,共采集100個(gè)樣本,表1是根據(jù)Kennard-Stone(K-S)算法[21]挑選出30份胡楊樣品作為預(yù)測(cè)集,剩下的70份樣品作為定標(biāo)集。葉片水分采用烘干法進(jìn)行測(cè)量,按如下公式計(jì)算:
1.2.1 SPA-PLS方法 使用SPA-PLS方法進(jìn)行特征波長(zhǎng)選取和建立預(yù)測(cè)模型,其算法分為4個(gè)階段:第一階段,篩選出共線性最小的若干組備選波長(zhǎng)變量子集。第二階段,分別使用各子集中的變量建立多元線性回歸(MLR)模型,選出均方根誤差(RMSE)最小的子集。第三階段,對(duì)第二階段選出的子集進(jìn)行逐步回歸建模,在盡量不損失預(yù)測(cè)準(zhǔn)確度的前提下,得到1個(gè)變量數(shù)目較少的集合,該集合中的波長(zhǎng)變量即是所選有效波長(zhǎng)。第四階段,對(duì)第三階段中所選的有效波長(zhǎng)作偏最小二乘法(PLS)的輸入變量,葉片含水量作為輸出變量進(jìn)行預(yù)測(cè)模型的建立。SPA-PLS具體算法過(guò)程可參閱文獻(xiàn)[21-22]。
表1 胡楊葉片校正集和預(yù)測(cè)集含水量統(tǒng)計(jì)
1.2.2 GA-PLS方法 GA算法引入染色體概念,將變量視為染色體內(nèi)的基因。通過(guò)隨機(jī)建立種群,利用適宜度(fitness)評(píng)價(jià)種群內(nèi)個(gè)體優(yōu)劣并繁衍后代,模擬自然界遺傳選擇規(guī)律,以優(yōu)勝劣汰機(jī)制選擇更適宜的基因。另外,引入交叉機(jī)制模擬種群間的基因交叉,生成新的個(gè)體保證了尋優(yōu)過(guò)程的收斂,同時(shí)引入變異機(jī)制以避免結(jié)果終止于局部最優(yōu)。GA-PLS具體算法過(guò)程可參閱文獻(xiàn)[23-24]。
1.2.3 模型精度檢驗(yàn) 采用預(yù)測(cè)集相關(guān)系數(shù)(r)、預(yù)測(cè)集均方根誤差(RMSEP)、預(yù)測(cè)精度(precision)以及交叉驗(yàn)證均方根誤差(RMSPCV),對(duì)胡楊葉片含水量進(jìn)行精度評(píng)價(jià)。模型r和Precision越高,RMSEP和RMSEP越小,則模型的預(yù)測(cè)性能越好。
利用Zolix Gaia Sorter近紅外成像高光譜儀采集了100組胡楊葉片樣本的近紅外光譜吸收譜圖,結(jié)果發(fā)現(xiàn),在1 280、1 420、1 620 nm附近有明顯的吸收峰、吸收谷存在,其中 1 420 nm 附近對(duì)應(yīng)H—O鍵的1倍頻波長(zhǎng)位置[16](圖1)。光譜儀中得到的光譜信號(hào)既包括對(duì)建模有用的光譜信息,又包含不利于建模的噪聲,會(huì)影響到特征波長(zhǎng)的選取,因此對(duì)光譜信號(hào)進(jìn)行消除噪聲等預(yù)處理是十分必要的。試驗(yàn)中應(yīng)用SavitZky-Golay一階導(dǎo)數(shù)對(duì)原始光譜進(jìn)行預(yù)處理,圖1是原始光譜與一階導(dǎo)數(shù)預(yù)處理后的光譜圖。
2.2.1 SPA選取特征波長(zhǎng) 使用連續(xù)投影算法(SPA)分別對(duì)胡楊葉片的原始光譜與一階導(dǎo)數(shù)光譜數(shù)據(jù)的校正集與驗(yàn)證集進(jìn)行SPA特征波長(zhǎng)選擇,SPA選擇變量數(shù)的最優(yōu)區(qū)間是[2,50][15],其中基于原始光譜選擇的波長(zhǎng)數(shù)為21個(gè),且在1 280、1 460、1 620 nm附近集中了多數(shù)的波長(zhǎng),它們分布在平滑光譜中各個(gè)峰值的位置;基于SavitZky-Golay一階導(dǎo)數(shù)選擇的波長(zhǎng)數(shù)為16個(gè),且在1 360、1 650 nm附近集中了多數(shù)的波長(zhǎng),分布在一階導(dǎo)數(shù)譜中各個(gè)峰值的位置,無(wú)信息的平緩區(qū)域沒有波長(zhǎng)被選取,這正是連續(xù)投影算法的優(yōu)點(diǎn)(圖2)。
2.2.2 GA選取特征波長(zhǎng) 分別對(duì)原始光譜和一階導(dǎo)數(shù)光譜使用GA方法進(jìn)行特征波長(zhǎng)的選取和對(duì)256個(gè)波段變量進(jìn)行GA運(yùn)算,設(shè)定遺傳算法迭代次數(shù)為100,種群大小為30個(gè)數(shù)據(jù)點(diǎn),變異概率為0.01、遺傳概率為0.6,依變量被選中的頻率對(duì)變量排序。為了防止算法運(yùn)行過(guò)程中隨機(jī)性對(duì)結(jié)果的影響,研究共進(jìn)行5次運(yùn)算,最后挑選出其中性能最好的模型所選用的頻率變量作為最佳變量。每次迭代過(guò)程中,波段特征變量(優(yōu)勢(shì)基因)在所設(shè)定的競(jìng)爭(zhēng)模式下保留。通過(guò)GA所選的特征波段主要集中在900~1 600 nm之間,并且在900~1 300 nm 之前特別集中(圖3)。這是由于GA算法在尋優(yōu)路徑上的隨機(jī)性造成特征波段選擇數(shù)目的不確定性,即每次運(yùn)行結(jié)果之間具有差異,甚至存在陷入局部最優(yōu)的概率,所以基于每種預(yù)處理選擇的最佳變量數(shù)存在差異,并且存在陷入900~1 300 nm局部最優(yōu)波段的可能。
2.3.1 SPA-PLS模型建立與預(yù)測(cè) 通過(guò)SPA和PLS算法,分別對(duì)胡楊葉片原始光譜和一階導(dǎo)數(shù)光譜進(jìn)行建模,將SPA算法提取的特征波長(zhǎng),作為PLS的輸入變量,葉片含水量作為輸出變量。結(jié)果發(fā)現(xiàn),基于一階導(dǎo)數(shù)光譜與SPA算法提取的特征波長(zhǎng)進(jìn)行建模的精度、相關(guān)性均明顯提高,交叉驗(yàn)證預(yù)測(cè)均方差(RMSPCV)由0.666 38降低到 0.026 633,預(yù)測(cè)均方根誤差(RMSEP)由0.020 228降低到 0.014 391,預(yù)測(cè)精度由0.973 61提高到0.981 23,相關(guān)系數(shù)(r)由0.779 93提高到0.793 63(圖4)。試驗(yàn)結(jié)果表明,基于SavitZky-Golay一階導(dǎo)數(shù)使用連續(xù)投影算法(SPA)能夠有效地對(duì)光譜數(shù)據(jù)進(jìn)行壓縮,提取特征波長(zhǎng),消了散射影響,降低噪聲干擾、提高建模精度。
2.3.2 GA-PLS模型建立與預(yù)測(cè) 通過(guò)GA和PLS算法,分別對(duì)胡楊葉片原始光譜和一階導(dǎo)數(shù)光譜進(jìn)行建模,在PLS方法交叉驗(yàn)證計(jì)算過(guò)程中,依變量負(fù)載值對(duì)變量排序,通過(guò)逐一計(jì)算誤差值RMSPCV,選取最小RMSPCV所對(duì)應(yīng)的特征變量數(shù)即是最優(yōu)擬合特征數(shù)。結(jié)果發(fā)現(xiàn),基于一階導(dǎo)數(shù)光譜與GA算法提取的特征波長(zhǎng)進(jìn)行建模的精度、相關(guān)性均明顯提高,交叉驗(yàn)證預(yù)測(cè)均方差(RMSPCV)由0.037 63降低到0.033 348,預(yù)測(cè)均方根誤差(RMSEP)由 0.021 69 降低到 0.019 726,預(yù)測(cè)精度由0.971 21提高到 0.975 13,相關(guān)系數(shù)(r)由0.702 1提高到0.758 38(圖5)。試驗(yàn)結(jié)果表明,基于SavitZky-Golay一階導(dǎo)數(shù)使用遺傳算法(GA)能夠有效地對(duì)光譜數(shù)據(jù)進(jìn)行壓縮,提取特征波長(zhǎng),消了散射影響,降低噪聲干擾、提高建模精度。
綜合比較SPA-PLS和GA-PLS算法在同一預(yù)處理結(jié)果上的建模指數(shù),SPA-PLS總體要優(yōu)于GA-PLS。SPA-PLS選擇的變量只用了18個(gè),而GA-PLS用了29個(gè),并且評(píng)價(jià)指數(shù)均優(yōu)于GA-PLS,較少的波段能夠提高運(yùn)算速度,同時(shí)減少成本。因此,選擇SPA-PLS算法為胡楊葉片含水量最佳預(yù)測(cè)模型。
在胡楊葉片含水量近紅外光譜監(jiān)測(cè)中使用連續(xù)投影算法(SPA)與遺傳算法(GA)進(jìn)行有效波長(zhǎng)的選取是可行的。對(duì)SavitZky-Golay一階導(dǎo)數(shù)光譜數(shù)據(jù)使用SPA選取的有效波長(zhǎng)基本上都分布在1 360、1 650 nm附近,并且所選波長(zhǎng)與含水量有較好的相關(guān)性。利用SPA可以有效地降低光譜矩陣的維數(shù)?;谙嗤A(yù)處理光譜采用SPA-PLS的結(jié)果要優(yōu)于GA-PLS,預(yù)測(cè)精度達(dá)到了0.981 23,相關(guān)系數(shù)達(dá)到了 0.793 63,為研制胡楊葉片水分便攜式檢測(cè)儀提供了理論依據(jù)。