劉燕德,肖懷春,韓如冰,孫旭東,朱丹寧,曾體偉,李澤敏
(華東交通大學(xué)機(jī)電工程學(xué)院,江西 南昌 330013)
柑桔葉片可溶性糖近紅外檢測非線性模型研究
劉燕德,肖懷春,韓如冰,孫旭東,朱丹寧,曾體偉,李澤敏
(華東交通大學(xué)機(jī)電工程學(xué)院,江西 南昌 330013)
為了監(jiān)督柑桔葉片是否缺乏營養(yǎng)元素,對葉片可溶性糖進(jìn)行分析。采用近紅外光譜技術(shù)結(jié)合誤差反饋神經(jīng)網(wǎng)絡(luò)(BPNN)和最小二乘支持向量機(jī)(LS-SVM)建立定量剖析非線性模型,運(yùn)用主成分分析(PCA)進(jìn)行數(shù)據(jù)壓縮、無信息變量消除算法(UVE)和連續(xù)投影算法(SPA)進(jìn)行有效波段篩選的方法來優(yōu)化模型的輸入變量,提高了模型檢測精度。同時,利用Savitzke-Golay平滑(S-G)、多元散色校正(MSC)、導(dǎo)數(shù)和基線校正(Baseline)等預(yù)處理方法進(jìn)行數(shù)據(jù)變換,來確定最佳建模方法。結(jié)果表明:波長篩選能優(yōu)化模型,并提高運(yùn)算速度,其中PCA優(yōu)化效果最為明顯,可溶性糖的相關(guān)系數(shù)Rp達(dá)到最大為0.91,均方根誤差RMSEP最小為4.82,顯著提高了模型的檢測精度和穩(wěn)健性,經(jīng)過優(yōu)化的輸入變量所建模型,能夠滿足定量檢測的要求,具有一定的可行性。
可溶性糖;近紅外光譜技術(shù);波段篩選;優(yōu)化;預(yù)處理方法
柑桔果樹缺素會嚴(yán)重影響柑桔的質(zhì)量和產(chǎn)量,從而影響柑桔業(yè)的生產(chǎn)[1]。柑桔缺素與否可通過葉片中可溶糖的含量來判定,傳統(tǒng)檢測柑桔缺素的方法大部分是線性的,且模型的復(fù)雜程度大[2]。目前柑桔葉片可溶性糖含量近紅外無損檢測精度不理想,可能是由于光譜數(shù)據(jù)眾多,呈現(xiàn)出過擬合現(xiàn)象,因輸入變量中含不相關(guān)的、冗余和噪聲信息,有效信息可能被隱藏其中,且大數(shù)據(jù)會導(dǎo)致模型復(fù)雜。因此選擇適當(dāng)?shù)妮斎胱兞繉Ω探廴~片可溶性糖預(yù)測模型的精度至關(guān)重要,也能降低復(fù)雜程度[3-8]。
近年來,很多研究人員對輸入變量進(jìn)行優(yōu)化研究,以期提高模型的預(yù)測精度。溫珍才等[9]對壓榨和浸出山茶油樣本采集可見、近紅外光譜,用UVE結(jié)合偏最小二乘線性判別分析建立模型,對2類山茶油鑒定判別正確率達(dá)到100%。Sankaran等[10]對柑桔黃龍病的葉片近紅外光譜特征提取,使用選定光譜特征的SIMCA算法得到的柑桔黃龍病分類精度高于83%??梢?,選擇一種合適輸入變量的可溶性糖近紅外檢測非線性模型具有重要的現(xiàn)實意義,能豐富柑桔果樹營養(yǎng)狀況,提高柑桔產(chǎn)量,促進(jìn)柑桔產(chǎn)業(yè)發(fā)展。
本研究主要探討在近紅外光譜技術(shù)的基礎(chǔ)上,結(jié)合誤差反饋神經(jīng)網(wǎng)絡(luò)和最小二乘支持向量機(jī)的模式識別算法,建立柑桔葉片可溶性糖的非線性定量分析模型,并對輸入變量進(jìn)行優(yōu)化,選用主成分分析進(jìn)行數(shù)據(jù)壓縮、連續(xù)投影算法(SPA)和無信息變量消除算法(UVE)篩選波長變量,對結(jié)果進(jìn)行對比分析,獲得最佳效果模型,以期找到柑桔葉片可溶性糖非線性模型輸入變量優(yōu)化的最佳方法。
1.1 試驗材料
2015年7月4日在江西省某果園種植基地采集新鮮柑桔葉片作為樣品。隨機(jī)采集樹枝的末梢、枝尖的葉片,正常和缺素兩類果樹由園藝專家根據(jù)經(jīng)驗判定。其中正常果樹4棵、每棵20片,缺素果樹9棵、每棵9片,共161片葉。在光譜采集前進(jìn)行相應(yīng)的處理,在整個過程中盡量保持樣品新鮮。
柑桔葉片的近紅外光譜采集用的設(shè)備是布魯克傅里葉變換的TENSOR37型近紅外光譜儀,波數(shù)范圍在12 000~4 000 cm-1,在樣品光譜采集的過程中光譜儀分辨率設(shè)置為8 cm-1,配有鍍金積分球、標(biāo)準(zhǔn)背景和InGaAs檢測器等附件。
1.2 試驗方法
1.2.1 近紅外光譜采集 實驗室環(huán)境保持溫度16~22℃、空氣濕度40%~50%。在光譜采集期間,應(yīng)讓葉片平整置于載物臺上,以減少外部對光譜的影響,致使采集到的光譜不穩(wěn)固。每次采集要避開葉脈位置,每片葉片隨機(jī)采集4條光譜,取平均吸光度的光譜,作為后續(xù)建模的原始光譜進(jìn)行下一步分析,一段時間后要采集鍍金反射鏡參比光譜來進(jìn)行校正。
1.2.2 真值的測量 取0.5~1.0 g新鮮葉片搗碎,與15 mL蒸餾水一同放入試管中,封口置于沸水中20 min,冷卻、過濾并定容作為待測液,取待測液1 mL、蒽酮試劑0.5 mL、濃硫酸5 mL混合入試管中一并加熱10 min,冷卻到室溫后,于620 nm波長下測定光吸收值作為可溶性糖的真值。
1.2.3 模型建立方法 采用最小二乘支持向量機(jī)(LS-SVM)和誤差反饋神經(jīng)網(wǎng)絡(luò)[11-12](BPNN)建立柑桔葉片定量分析模型。輸入變量數(shù)直接影響LS-SVM和BPNN數(shù)學(xué)模型的性能,輸入變量越多,模型越復(fù)雜,穩(wěn)健性越差。由于全譜數(shù)據(jù)量大,研究中進(jìn)一步采用數(shù)據(jù)壓縮和特征變量篩選兩種不同策略進(jìn)行輸入向量優(yōu)化,以此作為LS-SVM和BPNN的輸入。
2.1 正常葉片和缺素葉片近紅外光譜特征分析
在12 000~4 000 cm-1范圍內(nèi)采集臍橙葉片的近紅外光譜(圖1),由圖1可知,位于5 150、6 880 cm-1兩處光譜有明顯的吸收峰[13],前者是由官能團(tuán)C-H、O-H的伸縮與變形振動組合頻產(chǎn)生的,后者是O-H伸縮振動的一級倍頻引起的;缺素葉片在5 150 cm-1處的吸收峰偏低可能是由于其營養(yǎng)元素缺失導(dǎo)致[14]。12 000~9 000 cm-1波段范圍內(nèi)光譜接近于直線,是因為該范圍內(nèi)葉片吸光度主要是官能團(tuán)的3~4級倍頻,對光譜影響有限,因此除去該波段范圍。
圖1 正常葉片和缺素葉片的近紅外代表性光譜
2.2 葉片近紅外光譜預(yù)處理
在采集過程中光譜往往會受到各種外界環(huán)境的干擾,影響模型性能,因此在建立模型前對采集到的數(shù)據(jù)進(jìn)行預(yù)處理,可以降低影響效果、減少各種負(fù)面干擾、提高模型的穩(wěn)定性。本研究對數(shù)據(jù)采用Savitzke-Golay平滑(S-G)、多元散色校正(MSC)、基線校正(Baseline)、1階導(dǎo)、2階導(dǎo)等多種預(yù)處理方法,通過對比得出2階導(dǎo)數(shù)+3+平滑+3+MSC組合的預(yù)處理方法效果最好。MSC具有消除基線漂移和放大特征信息,但放大特征信息的同時也放大了高頻噪音,因此采用2階導(dǎo)消除高頻噪音,平滑能剔除噪聲干擾。圖2為處理后的正常葉片和缺素葉片的近紅外代表性光譜圖,可以看出兩類葉片在5 273 cm-1處的吸光度明顯不同,這可能是由于營養(yǎng)元素缺失導(dǎo)致。
圖2 正常葉片和缺素葉片預(yù)處理后的近紅外代表性光譜
在9 000~4 000 cm-1范圍內(nèi),采用不同預(yù)處理方法及組合后數(shù)據(jù)分別建立可溶性糖定量分析模型,結(jié)果(表1)表明,對可溶性糖指標(biāo)用不同的預(yù)處理方法,2階+3+平滑+3+MSC組合的定量分析模型結(jié)果最好,相關(guān)系數(shù)RP最高為0.91,且均方根誤差RMSEP最低為4.93。
表1 可溶性糖預(yù)處理分析結(jié)果
2.3 葉片近紅外光譜有效波段篩選
2.3.1 連續(xù)投影算法(SPA)分析 連續(xù)投影算法(SPA)作為一種新式的、應(yīng)用最廣泛的特征波長篩選算法,可用于多種樣品波長的選取,能有效降低模型的復(fù)雜度[15-16]。連續(xù)投影算法在光譜變量中尋求最低維數(shù)的向量組,使它們之間的共線性達(dá)到最小,從而起到提取特征波長的目的[17]。利用Matlab2010a軟件運(yùn)行SPA算法對柑桔葉片近紅外光譜波段進(jìn)行篩選,得到可溶性糖44個特征波長點為:4011、4027、4061、4100、4328、4343、4366、4389、4412、4443、4459、5138、5172、5195、5226、5265、5280、5303、5323、5342、5863、6954、7093、7105、7236、8208、8420、8536、8574、8624、8651、8663、8698、8721、8736、8782、8794、8833、8844、8883、8898、8917、8971、8987 nm。采用以上波長作為特征變量輸入結(jié)合對應(yīng)的真值建立模型進(jìn)行進(jìn)一步分析,用SPA篩選的波長點如圖3所示。
圖3 通過SPA選擇可溶糖的特征波長
2.3.2 無信息變量消除算法(UVE) 無信息變量消除算法(UVE)是在偏最小二乘(PLS)回歸模型的基礎(chǔ)上,用來逐一剔除無光的信息變量,光譜λ與真值Y之間的線性關(guān)系為:
式中,βi是系數(shù)向量,b是誤差向量,即把同維數(shù)的隨機(jī)變量與光譜變量混合,通過交叉驗證建立偏最小二乘回歸模型,得到對應(yīng)矩陣,結(jié)合系數(shù)向量βi進(jìn)行分析,得到βi的平均值和標(biāo)準(zhǔn)偏差相除的商Ci來評價其穩(wěn)定性,即:
式中,βi表示系數(shù)向量βi的平均值,S(βi)表示對應(yīng)矩陣的標(biāo)準(zhǔn)偏差,根據(jù)Ci確定是否把對應(yīng)的列向量用于PLS回歸模型中[18-19]。
對柑桔葉片的建模集樣本近紅外特征波段進(jìn)行UVE變量篩選,結(jié)果見圖4,圖4中以垂直實線為界限,左邊為波長變量,右邊為噪聲變量;兩條水平虛線為穩(wěn)定性的上下閾值,處于兩條虛線之間為無關(guān)信息變量,要剔除,而位于兩虛線外側(cè)的部分為有用信息變量,因此選擇此波段,得到可溶性糖指標(biāo)有效信息的波長點數(shù)為392個。
圖4 通過UVE選擇可溶糖的特征波長
利用SPA與UVE篩選波長點的兩種方法中,SPA方法更優(yōu)于UVE,得到的各個波長對應(yīng)的吸收峰與官能團(tuán)C-H、O-H、C=O等的關(guān)系以及倍頻、合頻、伸縮振動的方式,說明經(jīng)過波長篩選后把無用信息變量都給予剔除,保留了主要或有用的吸收譜,可能是后一種方法中選擇的波長點包含的有用信息較小,從而造成數(shù)量多。為了進(jìn)一步驗證方法效果,后續(xù)建立模型進(jìn)行分析比較。
2.4 定量模型建立與驗證
樣品可溶性糖真值采集過程中有6片操作失誤,研究中予以剔除,其中包括正常葉片3片、缺素葉片3片。可溶性糖模型將155個樣品大概按3∶1的比例隨機(jī)劃分建模集和預(yù)測集,其中建模集樣品116片、預(yù)測集樣品39片。
首先在9 000~4 000 cm-1范圍內(nèi)分別結(jié)合LS-SVM和BPNN建立全光譜定量模型,從模型的效果上看并不理想,復(fù)雜程度較高。為了降低模型的復(fù)雜程度,提高精度的同時增強(qiáng)穩(wěn)健性,在前面預(yù)處理的基礎(chǔ)上,利用壓縮和篩選兩種方法選擇輸入變量,數(shù)據(jù)壓縮選擇主成分分析法對全光譜變量壓縮為20個主成分,特征變量篩選利用前面提及的兩種篩選方法,然后分別建立定量分析模型。
同時輸入變量數(shù)量變化會對BPNN模型產(chǎn)生影響,為了進(jìn)行循環(huán)考察,按照以下公式對隱含層的節(jié)點數(shù)進(jìn)行估算:
式中,I為輸入層節(jié)點數(shù),從1開始循環(huán);H為隱含層節(jié)點數(shù);O為輸出層節(jié)點數(shù),這里取1。
4種方法中輸入數(shù)量最小的是PCA,為了使模型更精確,輸入取最低值17,從而估計得到的隱含層節(jié)點數(shù)為7,對樣品從1~7進(jìn)行訓(xùn)練,結(jié)果如表2所示。從表2可以得出,采用BPNN建立的定量模型中,其輸入變量進(jìn)行了優(yōu)化,模型效果最好的是UVE篩選方法。雖然輸入數(shù)量不是最低的,但相關(guān)系數(shù)Rp最大為0.88,預(yù)測集均方根誤差RMSEP最小為6.09,對應(yīng)的隱含層節(jié)點數(shù)為7;在選擇RBF_kernel作為核函數(shù)、σ2和γ為參數(shù)的LS-SVM建立定量模型中,輸入變量選擇與前一種模型相同方法進(jìn)行優(yōu)化,模型效果最好的輸入變量選擇方法是PCA數(shù)據(jù)降維,雖然參數(shù)γ較大(57.88),但是模型運(yùn)行時間t短僅為1.81 s,另一參數(shù)σ2最小為4.64,篩選的輸入變量數(shù)也達(dá)到最小為前17個主成分,且相關(guān)系數(shù)Rp達(dá)到最高為0.91,預(yù)測集均方根誤差最低為4.82,此時選擇的最佳主成分因子數(shù)為5。
表2 可溶性糖定量模型驗證結(jié)果
柑桔葉片可溶性糖指標(biāo)經(jīng)PCA壓縮獲得矩陣作為輸入變量建立LS-SVM模型的預(yù)測集均方根誤差圖見圖5,可以看出在PC為5時RMSEP達(dá)到最小。
柑桔葉片可溶性糖指標(biāo)利用PCA方法選擇輸入變量建立的LS-SVM模型預(yù)測散點圖見圖6。從圖6可以看出,該指標(biāo)的實測值與預(yù)測值點呈45°分布,且二者之間無較大差異。
圖5 經(jīng)PCA壓縮后可溶性糖LS-SVM模型的均方根誤差
圖6 經(jīng)PCA壓縮后可溶性糖LS-SVM預(yù)測模型的散點分布
對上述兩種柑桔葉片可溶性糖近紅外檢測非線性定量模型的輸入變量進(jìn)行優(yōu)化后,輸入變量數(shù)有明顯的減少趨勢。其中,采用主成分分析方法對LS-SVM定量模型的輸入變量進(jìn)行優(yōu)化后效果更佳,這是因為輸入變量數(shù)更小,同時有效保留了主要的特征信息,使得模型復(fù)雜程度大大降低。
采用近紅外光譜技術(shù)對柑桔葉片可溶性糖這一理化指標(biāo)進(jìn)行定量檢測,對柑桔葉片近紅外光譜選擇不同的預(yù)處理方法進(jìn)行處理,模型的預(yù)測精度不一。結(jié)果發(fā)現(xiàn)模型效果最佳的預(yù)處理方法組合是2階+3+平滑+3+MSC。采用不同輸入特征變量篩選方法建立模型,進(jìn)一步提高了模型的預(yù)測精度和穩(wěn)健性,證實了輸入變量優(yōu)化對模型分析的重要性。本研究優(yōu)勢在于建立了葉片非線性模型對柑桔果樹是否缺素進(jìn)行預(yù)測。
本研究結(jié)果表明,合適的預(yù)處理方法能較好地消除基線漂移和噪音,在此基礎(chǔ)上通過UVE、SPA和PCA等3種輸入變量選擇方法,都能在不同程度上減少建模所用的向量數(shù),有利于模型優(yōu)化。其中,PCA數(shù)據(jù)壓縮的LS-SVM的模型效果更為理想,輸入顯著減少,既保留了柑桔葉片可溶性糖指標(biāo)的有用信息,又有效降低了輸入向量的維數(shù),Rp和RMSEP也呈現(xiàn)出較佳的預(yù)測精度,實現(xiàn)了輸入向量的優(yōu)化目標(biāo),表明該方法可能適合本指標(biāo)的定量檢測,同時為準(zhǔn)確、實時監(jiān)測柑桔葉片可溶性糖指標(biāo)含量變化以及科學(xué)優(yōu)化近紅外檢測非線性模型提供了一定的參考依據(jù)。
[1]南旭軍,趙保衛(wèi),馬鋒鋒,等. 施加生物炭對植物營養(yǎng)元素的遷移轉(zhuǎn)化和植物有效性的影響研究[J]. 環(huán)境科學(xué)與管理,2015,40(11):153-156.
[2]梅慧蘭,鄧小玲,洪添勝. 柑橘黃龍病高光譜早期鑒別及病情分級[J]. 農(nóng)業(yè)工程學(xué)報,2014,30(9):140-148.
[3]Sankaran S,Maja J M,Buchanon S,et al. Huanglongbing(Citrus Greening) detection using Visible,Near Infrared and Thermal Imaging Techniques[J]. Sensors,2013,13:2117-2130.
[4]Pourreza A,Lee W S,Etxeberria E,et al. An evaluation of a vision-based sensor performance in Huanglongbing disease identification[J]. Biosystems Engineering,2015,130:13-22.
[5]Sankaran S,Ehsani R. Comparison of visiblenear infrared and mid-infrared spectroscopy for classification of Huanglongbing and Citrus Canker infected leaves[J]. Agric Eng Int:CIGR Journal,2013,15(3):75-80.
[6]Li X,Lee W S,Li M. Spectral difference analysis and airborne imaging classification for citrus greening infected trees[J]. Computers and Electronics in Agriculture,2012,83:32-46.
[7]馬淏,吉海彥,Lee W S. 基于Vis-NIR光譜的柑橘葉片黃龍病檢測及其光譜特性研究[J]. 光譜學(xué)與光譜分析,2014,34(10):2713-2718.
[8]李修華,李民贊,Lee W S,等. 柑桔黃龍病的可見-近紅外光譜特征[J]. 光譜學(xué)與光譜分析,2014,34(6):1553-1559.
[9]溫珍才,孫通,耿響,等. 可見/近紅外聯(lián)合UVE-PLS-LDA鑒別壓榨和浸出山茶油[J].光譜學(xué)與光譜分析,2013,33(9):2354-2358.
[10]Sankaran S,Ehsani R. Visible-near infrared spectroscopy based Citrus greening detection:Evaluation of spectral feature extraction techniques[J]. Crop Protection,2011,30(11):1508-1513.
[11]高洪智,盧啟鵬,丁海泉,等. 基于連續(xù)投影算法的土壤總氮近紅外特征波長的選取[J]. 光譜學(xué)與光譜分析,2009,29(11):2951-2955.
[12]張利華,馬鈞釗,勒國慶,等. 基于BP神經(jīng)網(wǎng)絡(luò)的倉儲煙草霉變預(yù)測[J]. 華東交通大學(xué)學(xué)報,2013,30(6):71-76.
[13]黃亞偉,王加華,李曉云,等. 基于近紅外光譜的人參與西洋參的快速鑒別研究[J]. 光譜學(xué)與光譜分析,2010,30(11):2954-2957.
[14]Huang G Q,Han L J,Yang Z L,et al. Evaluation of the nutrient metal content in Chinese animal manure compost using Near Infrared Spectroscopy(NIRS)[J]. Bioresource Technology,2008,99(17):8164-8169.
[15]岳學(xué)軍,全東平,洪添勝,等. 柑橘葉片葉綠素含量高光譜無損檢測模[J]. 農(nóng)業(yè)工程學(xué)報,2015,31(1):294-303.
[16]鄧小玲,鄭建寶,梅慧蘭,等. 基于高光譜成像技術(shù)的柑橘黃龍病病情診斷及分類[J]. 西北農(nóng)林科技大學(xué)學(xué)報(自然科學(xué)版),2013,7(41):99-106.
[17]張筱蕾,劉飛,聶鵬. 高光譜成像技術(shù)的油菜葉片氮含量及分布快速檢測[J]. 光譜學(xué)與光譜分析,2014,34(9):2513-2518.
[18]吳迪,吳洪喜,蔡景波. 基于無信息變量消除法和連續(xù)投影算法的可見-近紅外光譜技術(shù)白蝦種分類方法研究[J]. 紅外與毫米波學(xué)報,2009,28(6):23-427.
[19]陳斌,陳蛋. 無信息變量消除法在近紅外光譜測定的應(yīng)用[J]. 光譜儀器與分析,2005,24(4):26-30.
(責(zé)任編輯 張輝玲)
Study on NIR detection non-linear model of soluble sugar in citrus leaves
LIU Yan-de,XIAO Huai-chun,HAN Ru-bing,SUN Xu-dong,ZHU Dan-ning,ZENG Ti-wei,LI Ze-min
(School of Mechatronics Engineering,Eash China Jiaotong University,Nanchang 330013,China)
In order to supervise the nutrional elements of citrus leaves,the soluble sugars in the leaves of citrus were analyzed. Combined with back propagation neural network (BPNN) and least squares support vector machine(LS-SVM),quantitative analysis of the nonlinear model using near infrared spectroscopy was developed,at the same time,data were compressed using principal component analysis (PCA),the effective wavelength bands were screened by Uninformative variable elimination (UVE) algorithm and Successive projections algorithm (SPA). These methods were adopted to optimize the input variables of the model,which improved the detection accuracy. And spectra processing methods included Savitzke-Golay smoothing (S-G),multiple scatter correction (MSC),derivative and baseline correction (Baseline) and the combinations of these methods for data transformation,the best method for establishing models was determined. The MSC was adopted to eliminate baseline drift and amplify characteristic information,meanwhile amplify high frequency noise,which can be eliminated by 2th derivative. And smoothing was adopted to eliminate the interference noise and to make the spectrum smoother. It was concluded that the processing method was the best. The results showed that wavelength selection played an important role in optimization model,and improved the speed of computation. The effect of model optimization by the model PCAwas most obvious and the maximum of correlation coefficient (Rp) of soluble sugar reached 0.91,the minimum of the root mean square error of prediction (RMSEP) reached 4.82. The results showed that the model accuracy and robustness were significantly improved,the prediction model could meet the requirement of quantitative detection after optimizing the input variables. Therefore,the prediction model has certain feasibility.
soluble sugar;Near Infrared Spectroscopy (NIRS);band selection;optimization;pretreatment method
S682.2+64
A
1004-874X(2016)11-0043-07
2016-08-18
國家“863”計劃項目(SS2012AA101306);江西省科技支撐計劃項目(20121BBF60054);南方山地果園智能化管理技術(shù)與裝備2011協(xié)同創(chuàng)新中心(贛教高字[2014]60號);江西省優(yōu)勢科技創(chuàng)新團(tuán)隊(20153BCB24002)
劉燕德(1967-),女,博士,教授,E-mail:jxliuyd@163.com
劉燕德,肖懷春,韓如冰,等.柑桔葉片可溶性糖近紅外檢測非線性模型研究[J].廣東農(nóng)業(yè)科學(xué),2016,43(11):43-49.