段凌瑤,陳闖,李靜,趙亞亞,陳士林,侯振雨
(河南科技學院化學化工學院,河南新鄉(xiāng)453003)
基于玉米近紅外光譜和離散小波變換的SVR模型穩(wěn)健性研究
段凌瑤,陳闖,李靜,趙亞亞,陳士林,侯振雨
(河南科技學院化學化工學院,河南新鄉(xiāng)453003)
采用國家標準方法測定125個玉米樣品中的蛋白質、淀粉和脂肪含量,同時測定玉米樣品的近紅外光譜(NIRS)數據.采用多次、隨機選擇定標集和校正集樣品的方法,對支持向量回歸(SVR)模型的參數進行優(yōu)化,探討離散小波變換(DWT)對SVR模型的影響.結果表明:DWT可有效去除玉米NIRS數據中的背景和噪聲,建立的DWT-SVR多變量回歸模型具有較好的穩(wěn)健性,可實現玉米樣品中蛋白質、淀粉和脂肪的同時測定.
玉米;蛋白質;近紅外光譜;支持向量回歸;離散小波變換
近年來,隨著人們生活水平的提高,對農業(yè)產品提出了更高的要求,如對高蛋白質含量、高油含量或高糖分含量的特用玉米的需求越來越大.這種需求也為育種專家們提供了新的挑戰(zhàn).在玉米育種工作中,如何簡單、快速地評價玉米的品質,對縮短玉米育種周期和減小工作量具有十分重要的意義.
近紅外光譜分析技術是一種快速分析方法,常采用偏最小二乘(PLS)和主成分回歸(PCR)模型對玉米的品質和成分進行評價[1-2].但當訓練樣本較少且變量(波長)較多時,常出現“過擬合”或“欠擬合”現象,帶來一定的誤差[3].同時,隨著近紅外光譜分析儀器狀態(tài)的改變、樣品的變化,定標模型需要進行不斷的更新和優(yōu)化.因此,基于玉米NIRS進一步開展近紅外光譜分析的多變量穩(wěn)健校正模型的研究,是一種非常有意義的工作.
多變量校正模型的穩(wěn)健性與多種因素有關,其主要的影響因素有模型的類型、NIRS數據的處理及校正集樣品的選擇.支持向量回歸(SVR)作為一種新的多變量校正模型,在小樣本、非線性數據的建模中表現出了一定的優(yōu)勢,受到了科研人員的普遍重視[4-5].小波變換(WT)是一種優(yōu)秀的NIRS數據處理工具[6],但對于小波基函數的選擇和小波分解次數的選擇并沒有有效的規(guī)則或判定方法,需要通過試驗來確定.將WT與SVR模型結合,探討基于NIRS的SVR模型建立步驟、方法及條件,對SVR模型在玉米近紅外光譜分析中的應用具有很好的指導作用.
1.1 NIRS數據的樣品采集和制備
按照NIRS分析對測試樣品的要求,搜集整理了近二十年玉米品質中主要成分含量變幅較大的自交系材料125份,包括普通自交系品種、高蛋白品種和高油玉米品種,其中20份由中國農業(yè)科學院種子庫提供,并于2013年夏在河南科技學院實驗田種植,45份于2012年在河南科技學院試驗田種植,60份于2013年冬在海南繁育基地種植.
為減少玉米樣品間處理后的差異,將搜集后的樣品統一脫粒,挑揀干凈,放于60~65℃烘箱中干燥8 h以上,用FW-80型高速萬能粉碎機磨碎1 min左右,通過40目分樣篩,混合均勻后裝入密封袋,用于NIRS掃描和實驗室化學分析.
1.2 蛋白質、淀粉和油分含量的化學方法測定
玉米樣品的水分測定按烘干法(GB/T 10362—2008)測定;粗蛋白含量按凱氏定氮法(GB/T5511—2008),用KJELTEC-8400型凱式定氮儀(Foss公司生產)測定;淀粉含量按旋光法(NY/T 11—1985),用旋光儀測定;脂肪含量按索氏抽提法(GB/T 5512—2008),用SOXTEC-2055型索氏抽提儀測定.所有樣品平行測定3次,結果以干基/%表示.
1.3玉米樣品的NIRS測定
在20~25℃和相對濕度(RH)為30%~70%的條件下,將9~10 g玉米粉碎樣品裝入樣品池中并壓實,在波長為400~2 500 nm范圍內,用XDS型近紅外谷物分析儀(Foss公司生產)對每個樣品重復采集3次數據,取其平均值作為SVR建模使用,結果見圖1.
圖1 不同品種和地方的125個玉米樣品的NIRSFig.1 The NIRSof125 maize samples fromdifferent varieties and places
2.1 奇異值樣本的剔除
實驗測定的光譜數據和蛋白質、淀粉、脂肪等含量的化學測定值,可能會有奇異值,從而降低多變量校正模型的預測精度.因此在進行實驗數據處理時應將這些誤差較大的奇異點除去[6].采用留一交叉驗證法對原始實驗數據進行交互驗證處理,將回收率偏高或偏低的光譜和濃度數據剔除,其中蛋白質和脂肪分別剔除了5個和2個玉米樣品.
2.2 DWT對NIRS數據的處理
NIRS數據中不僅有被測組分的信息,而且還有噪聲和背景等冗余信息.冗余信息對SVR模型的穩(wěn)健性和預測結果的準確度有較大影響,因此,建模過程中須對NIRS進行適當處理,減少建模變量,增加不同玉米樣品間的光譜差異.目前,NIRS數據處理有波長的選擇、數據的平滑、數據的求導、WT處理、多元去散射校正(MSC)等方法.其中WT處理NIRS數據的效果較為理想[6-7].離散小波變換(DWT)不僅可以消除光譜數據的背景和噪聲,而且還能夠對光譜數據進行有效的壓縮,故本文選擇DWT對NIRS數據進行處理,進一步探討玉米蛋白質、淀粉和油分同時測定的SVR模型建立條件.
光譜信號經DWT小波分解后,頻率變化比較大的噪聲信號出現在分解尺度較小的高頻系數部分,頻率變化較小的背景信號則出現在分解尺度較高的低頻系數部分.將與噪聲信號所對應的高頻系數及與背景信號所對應的低頻系數舍棄后重構,即可得到平滑濾噪及壓縮后的光譜.
本文選擇CWT的db2小波基函數進行11尺度小波分解,并將1尺度的高頻系數及11尺度的低頻系數置0后進行重構,再用SVR模型進行建模.建模時將樣品含量由低到高進行排序,按一定間隔挑選30個樣品作為檢驗集,剩余樣品由隨機函數(randperm)隨機運行15次,每次取70個樣品進行建模,剩余樣品作為校正集,對校正集預測結果的均方根誤差(RMSEP)取算術平均值,結果見表1.可以看出,DWT后的NIRS重構數據點數不同,SVR模型對被測組分預測結果的RMSEP也不同.其中NIRS數據由1 050個壓縮到35個時,預測結果的RMSEP平均值最小,即5尺度下的DWT重構NIRS數據,SVR模型對校正集的蛋白質、脂肪和淀粉的預測結果效果最好.因此,本文選擇重構數據35個(重構的尺度系數為5)作為NIRS數據的處理方法,進一步探討SVR模型的預測能力.
表1數據為15次隨機數據的定標集對校正集預測結果的RMSEP平均值,其變化規(guī)律并不代表每次隨機結果的RMSEP值都小于原始光譜數據.
表1 DWT對SVR模型預測結果的影響Tab.1 The influence ofDWTon SVR model prediction result
SVR和DWT-SVR模型對蛋白質、脂肪和淀粉的15次隨機預測結果的RMSEP值見圖2.可以看出,DWT-SVR相對于SVR模型,對蛋白質、脂肪和淀粉預測結果的RMSEP變化較為平穩(wěn),即DWT-SVR模型的穩(wěn)健性好于SVR.在測定表1數據的同時,對檢驗集樣品進行測定(檢驗集樣品固定),結果見表2.
圖2 隨機定標集數據的SVR和DWT-SVR模型預測結果Fig.2 The SVR and DWT-SVR model prediction result ofrandomstandard set
表2 DWT-SVR模型對固定檢驗集預測結果的RMSEP平均值Tab.2 The average RMSECoffixed testingset prediction result byDWT-SVR model
由表2可知,采用尺度系數為5的DWT重構數據建立SVR模型,對固定檢驗集蛋白質、脂肪和淀粉預測結果的RMSEP平均值分別為0.252 9、0.207 3和1.373,均小于采用原始光譜數據建立SVR模型對蛋白質、脂肪和淀粉預測結果的RMSEP,與表1的結果一致,說明采用多次、隨機選擇定標集和校正集樣品的方法,對SVR模型的參數進行優(yōu)化是一種可行的建模方法.
根據玉米樣品中蛋白質、脂肪和淀粉的含量分布,在上述定標集和校正集中挑選70個玉米樣品,按表1所建模型的最佳參數建立SVR和DWT-SVR模型,并對30個固定的檢驗集玉米樣品再次進行測定,同時用傳統的PLS方法進行對比,結果見表3.
表3 SVR、DWT-SVR和PLS模型的預測結果Tab.3 The predicted results ofSVR,DWT-SVR and PLSmodel
由表3可以看出,SVR、DWT-SVR和PLS模型對于檢驗集淀粉、蛋白質和脂肪預測結果的相對均方根誤差(RRMSEP)分別在1~2、2~3和4~5之間,說明模型對淀粉和蛋白質具有很好的預測能力,而對脂肪的預測能力則一般[8-9].這可能是脂肪含量較低的原因所致;DWT-SVR模型對檢驗集蛋白質和脂肪預測結果的RMSEP均小于PLS模型,對淀粉預測結果的RMSEP與PLS方法相當,說明建立的DWT-SVR模型對蛋白質、脂肪和淀粉的預測能力總體不低于PLS模型;預測結果的平均相對誤差均小于5%,回收率均在95%~105%之間,滿足分析化學對二次分析方法的要求;對蛋白質、脂肪和淀粉預測結果的相關系數分別為0.984 7、0.969 8和0.866 1,說明DWT-SVR模型對蛋白質和脂肪的預測結果與化學實驗值具有很好的相關性.而對淀粉的相關性則相對較差,但也滿足近紅外光譜分析的要求.需要注意的是,相關系數并不能說明誤差的相對大小,如果有系統誤差存在,其相關性也可能很好;相關系數不是太好,但由于該組分的含量較高,其預測結果的相對誤差也不一定很大.如脂肪和淀粉的相關系數分別為0.969 8和0.866 1,平均含量分別為3.844%和69.10%,而預測結果的平均相對誤差分別為3.23%和1.25%.
用DWT對玉米NIRS數據進行壓縮,方便了數據存儲,消除了玉米NIRS數據中的背景和噪聲.采用多次、隨機選擇定標集和校正集樣品的方法對SVR模型的參數進行優(yōu)化,建立了適用于玉米NIRS的DWT-SVR穩(wěn)健模型.模型用于玉米樣品中的蛋白質、脂肪和淀粉的快速同時測定,結果滿意,為玉米樣品品質的快速評價和縮短玉米育種周期提供了參考方法.
[1]林家永.近紅外光譜分析技術在玉米品質分析中的研究進展[J].中國糧油學報,2010,25(4):108-115.
[2]王徽蓉,陳新亮,李衛(wèi)軍,等.玉米品種近紅外光譜的特征分析與鑒別方法[J].光譜學與光譜分析,2010,30(12):3213-3216.
[3]陳念貽,陸文聰,葉辰洲,等.支持向量機及其他核函數在化學計量學中的應用[J].計算機與應用化學,2002,19(6):691-696.
[4]侯振雨,蔡文生,邵學廣.主成分分析-支持向量回歸建模方法及其應用研究[J].分析化學,2006,34(5):617-620.
[5]喻其炳,蘇迪,焦昭杰,等.利用油水穩(wěn)定化和支持向量回歸增強近紅外光譜測定油中水分的方法[J].分析化學,2014, 42(9):1364-1368.
[6]侯振雨,王國慶,蔡文生,等.連續(xù)小波變換-支持向量回歸用于植物樣品多組分分析[J].計算機與應用化學,2005,22(9):714-716.
[7]陳昭,林兆洲,吳志生,等.小波變換在NIR定量模型中的應用[J].世界中醫(yī)藥,2013,8(l1):1273-1276,1279.
[8]曹璞,潘濤,陳星旦.小型近紅外玉米蛋白質成分分析儀器設計的波段選擇[J].光學精密工程,2007,15(12):1952-1958.
[9]李軍濤.近紅外反射光譜快速評定玉米和小麥營養(yǎng)價值的研究[D].北京:中國農業(yè)大學,2014.
(責任編輯:盧奇)
Research on robustness of support vector regression model base on near infrared spectroscopy of maize and Discrete wavelet transform
DUAN Lingyao,CHEN Chuang,LI Jing,ZHAO Yaya,CHEN Shilin,HOU Zhenyu
(School ofChemistryand Chemical Engineering,Henan Institute ofScience and Technology,Xinxiang 453003,China)
The content of protein,starch and fat of 125 maize samples were measured by using the national standard method and near-infrared spectroscopy(NIRS),simultaneously.By repeated and random selecting the optimization method of model of standard and calibration set,parameters of support vector regression(SVR)model were optimized, the influence of discrete wavelet transform(DWT)on SVR model were also discussed.The results showed that DWT can remove the background and noise in the maize NIRS data effectively,DWT-SVR multivariate regression model had good robustness which can measure the content of protein,starch and fat in maize at the same time.
maize;protein;near-infrared spectroscopy;support vector regression;discrete wavelet transform
S513
A
1008-7516(2017)01-0043-05
10.3969/j.issn.1008-7516.2017.01.009
2016-10-26
河南省教育廳重點研究項目(13A150282);河南省科技廳攻關項目(122102310278)
段凌瑤(1990—),女,河南衛(wèi)輝人,碩士,助理實驗師.主要從事功能材料合成和數據挖掘研究.
侯振雨(1965—),男,河南衛(wèi)輝人,教授.主要從事化學計量學和氣敏材料研究.