王麗萍,趙興忠,陳文杰,田建華,李殿榮
(陜西省雜交油菜研究中心,國(guó)家油料作物改良中心陜西分中心,陜西大荔 715105)
近紅外光譜分析技術(shù)(NIRS)是一種高效、快速的現(xiàn)代分析技術(shù)。該法操作簡(jiǎn)單、分析速度快、測(cè)試效率高,特別是可以非破壞性地同時(shí)分析多項(xiàng)指標(biāo)、測(cè)試過(guò)程無(wú)污染等優(yōu)點(diǎn),使其在農(nóng)業(yè)領(lǐng)域得到廣泛應(yīng)用[1]。芥酸、硫苷及油份含量是油菜籽最重要的育種品質(zhì)指標(biāo),國(guó)內(nèi)外應(yīng)用近紅外光譜技術(shù)測(cè)定油菜籽芥酸[2,3]、硫苷[4,5]和含油量[6-8]已有大量的文獻(xiàn)報(bào)道。眾所周知,影響近紅外模型預(yù)測(cè)性能的因素有很多,來(lái)源主要包括樣品、儀器和操作者三種因素,而樣品的代表性是近紅外建模及維護(hù)過(guò)程中影響模型預(yù)測(cè)性能的首要因素。通常情況下,為了獲得一個(gè)穩(wěn)健的近紅外預(yù)測(cè)模型,定標(biāo)集樣品選擇一定要有代表性,數(shù)量太少,不足以反映待測(cè)樣品的群體常態(tài)分布規(guī)律,數(shù)量太多將增加分析和篩選的工作量[9]。徐志龍等為減小溫度對(duì)模型的影響,提出包含溫度影響因子的混合建模方法[10]。姚勝等研究了實(shí)驗(yàn)誤差對(duì)模型準(zhǔn)確性的影響,認(rèn)為精確度越高模型的準(zhǔn)確性越好[11]。在近紅外模型測(cè)定中,近紅外預(yù)測(cè)值與化學(xué)值之間都存在一定的偏差,只是偏差大小的區(qū)別。由此設(shè)想存在一定偏差的樣品有可能是模型之外的樣品。因此我們將這些不同偏差的樣品添加至原模型后對(duì)模型的預(yù)測(cè)性能進(jìn)行了考察。在此基礎(chǔ)上,本文著重從偏差角度出發(fā),以含油量模型為例,探討了近紅外模型維護(hù)時(shí)樣品選擇的一些基本規(guī)律,以期為提高近紅外光譜分析法在油菜籽品質(zhì)測(cè)定中的準(zhǔn)確性提供一定的科學(xué)參考。
光譜采集使用德國(guó)BRUKER公司的MPA型傅里葉變換近紅外光譜儀(配有鍍金積分球,樣品旋轉(zhuǎn)器和4.2 cm石英樣品杯,單粒樣品臺(tái)和2.0 cm安培瓶,鍍金背景和 PbS檢測(cè)器),譜區(qū)范圍12000~4000 cm-1,分辨率8 cm-1,掃描次數(shù)64次,室溫26~27℃,OPUS 5.5軟件包用于數(shù)據(jù)分析。
所用實(shí)驗(yàn)材料均由陜西省雜交油菜研究中心育種分析室提供,選取水分含量基本一致,含油量變化范圍大,千粒重、粒色不同而且包括特殊種質(zhì)在內(nèi)的多種基因型樣品223份,建立標(biāo)準(zhǔn)模型樣品集和檢驗(yàn)集。
殘余法(化學(xué)法)測(cè)定油菜籽的含油量(化學(xué)法GB/T 10359-1989)。
測(cè)定油菜籽中的含油量。
在近紅外建模過(guò)程中,一個(gè)好的數(shù)學(xué)模型要求建模樣品具有代表性。為此,所選用223份樣品基本覆蓋了預(yù)測(cè)集可能出現(xiàn)的含量范圍,同時(shí)含量分布均勻。并對(duì)這些樣品采集近紅外光譜和測(cè)定化學(xué)值。
在近紅外光譜分析中,由近紅外光譜儀采集得到的光譜除包含有樣品的自身信息外,還包含一些無(wú)關(guān)信息和噪聲(噪聲主要來(lái)源于3個(gè)方面:儀器、樣品以及操作)。如果直接使用這些原始光譜信號(hào)進(jìn)行定量分析,必然會(huì)影響最終所建模型的準(zhǔn)確性與精度[12]。為濾除噪音的影響,在 OPUS 5.5軟件分析包中,首先對(duì)采集的光譜數(shù)據(jù)進(jìn)行光譜預(yù)處理,其方法主要包括矢量歸一化(VN)、多元散射校正(MSC)、線性補(bǔ)償差減法(COE)、直線差減法(SLS)、最大-最小歸一法(MMN)、一階導(dǎo)數(shù)(FD)和二階導(dǎo)數(shù)(SD)等。然后運(yùn)用偏最小二乘法(PLS)對(duì)經(jīng)過(guò)不同數(shù)學(xué)預(yù)處理的光譜進(jìn)行分析,建立并優(yōu)化近紅外光譜法測(cè)定值與化學(xué)測(cè)定值的關(guān)系模型,其交互驗(yàn)證的相關(guān)圖及誤差分布如圖1所示。所建模型的交互驗(yàn)證均方根誤差(RMSECV)和決定系數(shù)(R2)分別為 0.39 和 0.9891,偏差在 ±1.2%之間。
近紅外模型的維護(hù)工作是一項(xiàng)重要的工作,一般情況下,維護(hù)應(yīng)該是校正,而不是重建,即保持模型的原有狀態(tài)。若添加少量特殊樣品,模型自動(dòng)檢測(cè)為異常值,若添加大量特殊樣品,則極易使原模型失效。這與近紅外建模樣品的選擇相比,要求更苛刻一些。因此,樣品的選擇在近紅外模型的維護(hù)中同樣十分重要。在近紅外測(cè)定過(guò)程中,我們經(jīng)常會(huì)遇到近紅外預(yù)測(cè)值與化學(xué)測(cè)定值出現(xiàn)一定偏差的情況,本研究主要征對(duì)上述情況進(jìn)行了一些探討。即添加至模型中的樣品偏差對(duì)模型的預(yù)測(cè)性能有無(wú)影響,以及不同偏差的樣品對(duì)模型預(yù)測(cè)性能的改善效果是否一致。為此,設(shè)計(jì)了如下四個(gè)模型:A模型是向原模型添加偏差小于0.5%的樣品,B模型是向原模型添加偏差介于0.5% ~1%之間的樣品,C模型是向原模型添加偏差介于1%~2%之間的樣品,D模型是向原模型添加偏差介于0~2%之間的樣品。用于建模樣品的品質(zhì)參數(shù)見表1。添加不同樣品至原模型所建立的模型參數(shù)見表2。從表2可以看出A和B兩個(gè)模型的RMSECV和R2均優(yōu)于原模型,C模型參數(shù)變化不顯著,而D模型由于添加了偏差較大的樣品使模型的參數(shù)變差。然而,一個(gè)優(yōu)秀的校正模型不但要有較小的RMSECV和較高的R2值,還要有良好的預(yù)測(cè)性能,并且應(yīng)以模型的預(yù)測(cè)性能作為模型質(zhì)量的最終評(píng)判指標(biāo)。
圖1 油菜籽含油量交互驗(yàn)證預(yù)測(cè)值與化學(xué)值的相關(guān)性(A)及誤差分布(B)Fig.1 Correlation between NIRS predicted results and chemical determinationvalues(A)and error distribution(B)of oil content in rapeseed
為了全面評(píng)價(jià)各模型的預(yù)測(cè)性能,共選用了四個(gè)預(yù)測(cè)集。第一預(yù)測(cè)集是偏差小于0.5%的樣品集,第二預(yù)測(cè)集是偏差介于0.5% ~1%之間的樣品集,第三預(yù)測(cè)集是偏差介于1%~2%之間的樣品集,第四預(yù)測(cè)集是偏差介于0~2%之間的樣品集。其評(píng)價(jià)結(jié)果見表3。由3表可以看出對(duì)于同一預(yù)測(cè)集,A、B、C、D四個(gè)模型檢驗(yàn)的結(jié)果分別是,A模型對(duì)第一預(yù)測(cè)集的預(yù)測(cè)性能最好;B模型對(duì)第二預(yù)測(cè)集的測(cè)性能最好;C模型對(duì)第三預(yù)測(cè)集的預(yù)測(cè)性能最好,D模型對(duì)第四預(yù)測(cè)集的預(yù)測(cè)性能最好。這表明所添加樣品的偏差對(duì)模型的預(yù)測(cè)性能有重要的影響,而且當(dāng)向原模型添加某一偏差區(qū)間的樣品后,所建立的模型可以更好地修正相應(yīng)區(qū)間的近紅外預(yù)測(cè)值。另外,對(duì)第一預(yù)測(cè)集而言,A、B、C模型的均方根預(yù)測(cè)誤差(RMSEP)依次變大及R2依次變小,這說(shuō)明當(dāng)用大偏差的樣品修正小偏差的模型時(shí),模型的預(yù)測(cè)性能會(huì)變差。也就是說(shuō)如果添加大量特殊樣品會(huì)降低模型的整體預(yù)測(cè)性能。對(duì)第三預(yù)測(cè)集而言,A、B、C模型的RMSEP依次變小及R2依次變大,這說(shuō)明小偏差的樣品可以改善大偏差模型的預(yù)測(cè)性能,但此時(shí)添加大偏差的樣品對(duì)模型的修正效果更好。同時(shí),D模型對(duì)第四預(yù)測(cè)集的預(yù)測(cè)效果明顯優(yōu)于其它模型,這是由于預(yù)測(cè)集的樣品覆蓋了整個(gè)偏差區(qū)間,而D模型則是通過(guò)向原模型添加各個(gè)偏差區(qū)間的樣品而建立的。由此可以得出,要修正整個(gè)偏差區(qū)間必須向模型添加各個(gè)偏差區(qū)間的樣品,而且我們還發(fā)現(xiàn)B模型對(duì)第四預(yù)測(cè)集的預(yù)測(cè)性能僅次于D模型,即添加中等偏差的樣品至原模型,仍可以獲得較好的預(yù)測(cè)效果。在近紅外模型的維護(hù)過(guò)程中,考察樣品的偏差,實(shí)質(zhì)上是綜合考慮了樣品栽培地的生態(tài)類型、籽粒形狀、含量分布、光譜的獨(dú)特性等因素的影響。因此,按照偏差大小選擇校正集樣品也是近紅外模型維護(hù)過(guò)程中選取代表性樣品的一條重要途徑。
表1 NIRS建模樣品的品質(zhì)參數(shù)Tab.1 Quality factors of NIRS calibration samples
表2 油菜籽含油量不同預(yù)測(cè)模型的建模參數(shù)比較Tab.2 Parameter comparison of oil content in rapeseed in different calibration models
表3 四個(gè)預(yù)測(cè)集對(duì)定標(biāo)模型質(zhì)量的評(píng)價(jià)結(jié)果Tab.3 Validation results of four test sets to calibration models
本文從偏差的角度出發(fā)提出了近紅外模型維護(hù)過(guò)程中,樣品選擇的一些規(guī)律。結(jié)果發(fā)現(xiàn),添加樣品的偏差對(duì)改善模型的預(yù)測(cè)性能有重要影響。因此,在近紅外模型的修正過(guò)程中,首先應(yīng)分析原模型的預(yù)測(cè)偏差分布情況,然后結(jié)合模型的特點(diǎn)選擇一些偏差合適的樣品。這樣不僅避免了片面追求樣品的特殊性,而且克服了樣品選擇的盲目性,從而為建立高效、實(shí)用的近紅外模型提供了依據(jù)。
[1]康月瓊,郝風(fēng),柴勇,等.油菜品質(zhì)近紅外檢測(cè)模型建立的研究[J].中國(guó)農(nóng)學(xué)通報(bào),2011,27(5):144-148.KANG Yueqiong,HAO Feng,CHAI Yong,et al.Study on construction of determination model of rapeseed quality with near-infrared spectroscopy[J].Chinese Agricultural Science Bulletin,2011,27(5):144-148.
[2]丁小霞,李培武,劉培,等.無(wú)效變量消除法在油菜籽芥酸近紅外無(wú)損速測(cè)中的應(yīng)用[J].中國(guó)油料作物學(xué)報(bào),2010,32(3):441-446.DING Xiaoxia,LI Peiwu,LIU Pei,et al.Application of uninformative variables elimination in intact prediction of rapeseed erucic acid with near-infrared reflectance spectroscopy[J].Chinese Journal of Oil Crop Sciences,2010,32(3):441-446.
[3]陳蛋,陳斌,陸道禮,等.近紅外光譜分析法測(cè)定菜籽油中芥酸的含量[J].農(nóng)業(yè)工程學(xué)報(bào),2007,23(1):234-237.CHEN Dan,CHEN Bin,LU Daoli,et al.Determination of the erucic acid content in rapeseed oil by near-infrared spectroscopy[J].Transactions of the CSAE,2007,23(1):234-237.
[4]楊翠玲,陳文杰,趙興忠,等.近紅外光譜法同時(shí)分析油菜9種品質(zhì)參數(shù)的研究[J].西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,34(3):61-67.YANG Cuiling,CHEN Wenjie,ZHAO Xingzhong,et al.Determination of quality factors in intact rapeseed by near infrared reflectance spectroscopy(NIRS)[J].Journal of Northwest Sci-Tech University of Agriculture and Forest(Nat Sci Ed),2006,34(3):61-67.
[5]芮玉奎,黃昆侖,王為民,等.近紅外光譜技術(shù)在檢測(cè)轉(zhuǎn)基因油菜籽中芥酸和硫甙上的應(yīng)用研究[J].光譜學(xué)與光譜分析,2006,26(12):2190-2192.RUI Yukui,HUANG Kunlun,WANG Weimin,et al.Detection of erucic acid and glucosinolate in intact rapeseed by near-infrared diffuse reflectance spectroscopy[J].Spectroscopy and Spectral Analysis,2006,26(12):2190-2192.
[6]高建芹,張潔夫,浦惠明,等.近紅外光譜法在測(cè)定油菜籽含油量及脂肪酸組成中的應(yīng)用[J].江蘇農(nóng)業(yè)學(xué)報(bào),2007,23(3):189-195.GAO Jianqin,ZHANG Jiefu,PU Huiming,et al.Analysis of oil,oleic acid and erucic acid contents in rapeseed by near infrared reflectance spectroscopy(NIRS)[J].Jiangsu Journal of Agriculture Science,2007,23(3):189-195.
[7]甘莉,孫秀麗,金良,等.NIRS定量分析油菜種子含油量、蛋白質(zhì)含量數(shù)學(xué)模型的創(chuàng)建[J].中國(guó)農(nóng)業(yè)科學(xué),2003,36(12):1609-1613.GAN Li,SUN Xiouli,JIN Liang,et al.Establishment of math models of NIRS analysis for oil and protein contents in seed of brassica napus[J].Scientia Agricultura Sinica,2003,36(12):1609-1613.
[8]賀啟川,蒙大慶,李芝凡,等.近紅外光譜儀快速檢測(cè)油菜硫苷、芥酸及油份含量數(shù)學(xué)模型的建立[J].激光生物學(xué)報(bào),2009,18(6):815-818.HE Qichuan,MENG Daqing,LI Zhifan,et al.Establishment of mathematical models for glucosinolates,erucic acid and oil content analysis in Rapeseeds by near-infrared reflectance spectroscopy[J].Acta Laser Biology Sinica,2009,18(6):815-818.
[9]李勇,魏益民,王鋒.影響近紅外光譜分析結(jié)果準(zhǔn)確性的因素[J].核農(nóng)學(xué)報(bào),2005,19(3):236-240.LI Yong,WEI Yimin,WANG Feng.Affecting factors on the accuracy of near-infrared spectroscopy analysis[J].Acta Agriculturae Nucleatae Sinica,2005,19(3):236-240.
[10]徐志龍,趙龍蓮,嚴(yán)衍祿.減小樣品溫度對(duì)近紅外定量分析數(shù)學(xué)模型影響的建模方法[J].現(xiàn)代儀器,2004,5:29-31.XU Zhilong,ZHAO Longlian,YAN Yanlu.A method of modeling the mathematical model of NIR quantitative analysis for diminishing influence of sample temperature[J].Modern Instruments,2004,5:29-31.
[11]姚勝,武國(guó)峰,周舒珂,等.實(shí)驗(yàn)誤差對(duì)近紅外模型準(zhǔn)確性的影響[J].光譜學(xué)與光譜分析,2011,31(5):1216-1219.YAO Sheng,WU Guofeng,ZHOU Shuke,et al.The influence of reference data noise on the NIR prediction results[J].Spectroscopy and Spectral Analysis,2011,31(5):1216-1219.
[12]吳靜珠,李慧,王克棟,等.光譜預(yù)處理在農(nóng)產(chǎn)品近紅外模型優(yōu)化中的應(yīng)用研究[J].農(nóng)機(jī)化研究,2011,3:178-181.WU Jingzhu,LI Hui,WANG Kedong,et al.Application of spectrum preprocessing algorithms in optimizing NIR models of agricultural products[J].Journal of Agricultural Mechanization Research,2011,3:178-181.