錢麗麗,宋雪健,張東杰,*,張麗媛,阮長青,鹿保鑫
地理標志作為一項知識產權已經得到國際認可并受到保護[1-2]。素有“貢米”之稱的五常大米及“中國綠色米都”建三江種植建三江大米因其籽粒飽滿晶瑩剔透,營養(yǎng)豐富,清香適口等特點被評為地理標志大米[3],備受消費者青睞,具有廣闊的市場前景。一些不法商販以此為“良機”開始制售假大米,以謀取利益,嚴重損壞了地理標志大米的品牌效益,并擾亂了市場秩序。因此,為實現(xiàn)對地理標志大米的產地保護研究,開發(fā)一種快速鑒別地理標志大米技術是亟待解決的問題之一。目前,對大米產地溯源的研究技術主要有電子鼻技術[4]、電子舌技術[5]、礦物元素指紋分析技術[6]、DNA指紋分析技術[7]、電感耦合等離子技術[8]、拉曼光譜技術[9]、近紅外光譜技術[10]等。與其他技術相比較近紅外光譜具有快速、高效、無損、適用范圍廣等特點。
近紅外光譜分析技術是利用近紅外譜區(qū)包含的豐富的物質信息,同時吸收帶的吸收強度與分子組成或化學基團的含量有關可用于測定化學物質的成分和分析物理性質[11],對于多組分的復雜樣品,其近紅外光譜也不是各組分單獨光譜的簡單疊加,因此,近紅外光譜技術需要結合“化學計量法”對光譜信號進行處理,從而提取食品中的有效信息[12],其研究結果較為理想。近紅外光譜的采集方式主要有透射式、漫反射式、透漫射式3 種,在對固體樣品光譜采集時多以漫反射為主,而其他兩種方式多用于液體樣品的光譜采集。范積平等[13]研究發(fā)現(xiàn)利用近紅外漫反射光譜技術能實現(xiàn)對來自甘肅、青海、陜西的大黃藥材進行產地鑒別。Sinelli等[14]通過傳統(tǒng)感官評價方法并結合近紅外漫反射光譜技術對112 組初榨橄欖油進行了產地溯源研究,發(fā)現(xiàn)采用線性判別式分析和簇獨立軟模式分類法對初榨橄欖油產地的判別正確率分別為71.6%、100%。也有學者將近紅外漫反射技術用于小米[15]、小麥[16]、茶葉[17]等產地溯源。目前,應用近紅外漫反射光譜技術對大米研究多集中在品質檢測及少量單一年份產地判別,鮮見應用該技術對多年際大米進行產地溯源的研究。本研究采用近紅外漫反射光譜技術對多年份大米進行產地溯源研究,為地理標志大米產地保護研究提供理論研究基礎。
于2013—2015年采集建三江、五常地區(qū)及2015年試驗田的樣品,均為田間采樣,采用3 點隨機取樣的方式進行采集,每份樣本采集2 kg裝入尼龍網兜,并記錄采樣信息,所有水稻品種均為粳米。除試驗田樣品外,其余均歸為隨機樣品。樣本詳細信息見表1、2。
表1 試驗田樣品信息Table 1 Information about rice samples from experimental field
表2 隨機采樣樣品信息Table 2 Information about randomly collected rice samples
FC2K礱谷機 日本大竹制作所;VP-32實驗碾米機日本山本公司;FW100高速萬能粉碎機 天津泰斯特儀器有限公司;TENSORII型傅里葉變換近紅外光譜儀(漫反射鍍金積分球、InGaAs檢測器) 德國布魯克(北京)科技有限公司。
1.3.1 水稻試驗田的構建
于2015年,以粳稻主產區(qū)黑龍江省(五常、建三江、查哈陽)為試驗點,建立3 塊試驗田。每塊試驗田種植主栽中晚熟品種9 個分別為空育131、龍粳31、龍粳26、龍粳29、龍粳39、龍粳40、松粳9、五優(yōu)稻4號、綏粳4,各試驗田育苗移栽、秧田管理、施肥、灌溉均按當?shù)厣a習慣,所有品種同期播種。采用3 次重復隨機區(qū)組設計,小區(qū)面積不少于10 m2。四周設保護行,保護行品種與各對應品種相同。
1.3.2 樣品的前處理
采集回來的樣品經過晾曬、去石、脫粒等前處理后,在實驗室采用統(tǒng)一加工方式對其進行壟谷、碾米、粉碎、過篩(100 目),待測。每個樣品礱谷2 次。碾米的進樣量為3 次,碾米3 次,白度為3 次。
1.3.3 樣品原始光譜的采集
將傅里葉變換近紅外光譜儀預熱30 min,打開OPUS 7.5軟件經由檢查信號、保存峰位,掃描背景單通道光譜,每間隔1 h掃描一次背景來消除外界信息干擾保證光譜的穩(wěn)定性以減少誤差。將樣品粉末倒入玻璃杯中,用壓樣器壓實,測量樣品單通道采集樣品光譜。環(huán)境溫度為室溫(25±1)℃,相對濕度為20%~30%,光譜波數(shù)范圍12 000~4 000 cm-1,分辨率8 cm-1,掃描64 次。
1.3.4 樣品選取
試驗田樣品用于與產地因素有關的特征波段篩選。其余樣品則選擇各地區(qū)樣品總量的2/3作為建模樣品用于模型的建立,1/3作為預測樣品集用于模型的驗證。各地區(qū)用于建模和預測的樣品數(shù)見表3。
表3 建模與預測樣品Table 3 Modeling and prediction set samples
1.3.5 試驗田近紅外光譜數(shù)據(jù)處理
應用OPUS 7.5軟件分別對試驗田樣品的原始光譜進行一階導數(shù)預處理消除噪聲、基線漂移、光色散等因素的干擾及防止過擬合現(xiàn)象的出現(xiàn),應用SPSS 19.0軟件對試驗田樣品進行方差分析篩選出與產地有關的波段,并用于隨機樣品產地溯源研究。
1.3.6 模型的建立及驗證
1.3.6.1 定性分析模型建立
采用OPUS 7.5軟件在特征波段下利用因子化法和歐式距離法對隨機樣品進行定性分析模型建立研究,預處理方式分為矢量歸一化(standard normal variate,SNV)、一階導數(shù)+平滑(5、9、13、17、21、25 點,下同)、一階導數(shù)+SNV+平滑、二階導數(shù)+平滑、二階導數(shù)+SNV+平滑等,消除無關信息的干擾,提高模型的精度。通過比較選擇性S值最終確定定性分析模型的建立方法,其中S值表征樣品之間的距離,當S值小于1時,表示兩類樣品“相交”,樣品未被均一鑒別;當S值為1時,表示兩類樣品“相切”;當S值大于1時,表示兩類樣品“相離”,樣品被均一鑒別,故S值越大于1,模型的效果越好。同時利用因子化法和歐式距離法對隨機樣品進行聚類分析模型建立研究,預處理方式與上述相同。并通過比較樣品之間的“距離”大小確定建模方法,其中樣品之間的“距離”越大越好。
1.3.6.2 定量分析模型建立
采用留1交叉檢驗的檢驗方法以偏最小二乘(partial least squares,PLS)法在特征波段進行定量分析模型的建立,分別將建三江大米的組分值賦值為-1、五常大米的組分值賦值為1,以0為衡量標準,預測值小于0為建三江大米、預測值大于0為五常大米[18]。原始光譜的預處理方式有消除常數(shù)偏移量、減去一條直線、SNV、最小-最大歸一化、多元散射矯正(multiplicative scatter correction,MSC)、內部標準、一階導數(shù)+平滑、二階導數(shù)+平滑、一階導數(shù)+減去一條直線+平滑、一階導數(shù)+SNV+平滑、一階導數(shù)+多元散射校正+平滑,通過交互驗證均方根誤差(root mean square error of cross validation,RMSECV)及定向系數(shù)(R2)來衡量模型的好壞,其中R2數(shù)值越接近100%則預測含量值越接近真值;RMSECV數(shù)值越小越好;同時RMSECV先隨維數(shù)的增大快速下降后略微逐漸增大,模型效果較好,進而確定定量分析模型。
1.3.6.3 模型驗證
利用OPUS 7.5軟件分別選擇定性分析、聚類分析、定量分析工具欄,調入模型,調入預測樣品光譜圖,測定得出結果。
圖1 試驗田樣品(A)和隨機樣品(B)近紅外原始光譜圖Fig. 1 NIR Spectra of experimental field samples (A) and random samples (B)
大米近紅外原始光譜如圖1所示,在波段為7 500~9 000 cm-1處(I區(qū))是C—H第3組合頻區(qū),其中8 321 cm-1附近的吸收峰是由脂肪烴中甲基(—CH)基團引起的;5 500~7 500 cm-1處(II區(qū))是C—H第2組合頻區(qū),在6 846 cm-1附近的吸收峰是因—CH2二級振動所引起的,因與樣品中氨基酸種類及含量有關,所以較I區(qū)信息稍微強些;4 000~5 500cm-1處(III區(qū))是C—H第1組合頻譜區(qū),是表征蛋白質及淀粉物質中的N—H、C—H、O—H及C=O鍵振動的要區(qū)間,其中5 173 cm-1處的吸收峰與其有關[19]。不同產地及不同品種之間的近紅外光譜相似,采用一階導數(shù)對試驗田原始光譜預處理后進行方差分析,結果表明,不同地區(qū)來源的樣品在波段5 136~5 501 cm-1處均有顯著差異,說明不同地區(qū)間樣品的近紅外光譜存在顯著性差異。在特征波段對大米進行產地溯源研究具有較強的代表性[20]。
近紅外光譜雖然包含了豐富的物質信息,但譜峰重疊、信號較弱、譜帶較寬,難以像中紅外光譜那樣進行結構剖析,因此近紅外光譜的定性分析主要用于物質的種屬判別,即通過比較未知樣品與已知樣本或標準樣本的光譜確定未知樣品的歸屬[21]。在特征波段5 136~5 501 cm-1范圍內分別采用因子化法和歐式距離法對隨機樣品的原始光譜進行定性建模分析,如表4所示。結果表明,采用因子化法結合二階導數(shù)+SNV+5 點平滑的預處理方式建立的模型效果較好,兩地區(qū)的樣品被均一鑒別,其中模型的S值為1.324 005,故選此方法建立定性分析模型,如圖2所示。王夢東等[22]利用近紅外漫反射光譜技術結合因子化法在特征波段7 400~9 900 cm-1范圍內采用二階導數(shù)+矢量歸一化+21 點平滑對白茶、紅茶及烏龍茶進行判別研究,研究發(fā)現(xiàn)采用近紅外漫反射光譜技術結合因子化法在3類茶葉的判別中具有可行性。張敏等[23]研究發(fā)現(xiàn),利用近紅外漫反射光譜技術結合因子化法在特征波段4 482~5 238、5 369.1~6 950.5 cm-1范圍內采用一階導數(shù)+矢量歸一化+13 點平滑的預處理方式能實現(xiàn)對來自6 個地區(qū)的雞血藤的產地溯源判別研究。
表4 不同預處理方式對定性分析模型效果影響Table 4 Effects of different pretreatment methods on qualitative analysis model
通過對原始光譜進行主成分分解,選取特征值較大的幾個主成分得分特征變量參與模式識別,在進來保留有用信息的前提下,不僅壓縮了原始光譜,而且這些變量是沿最大方差方向得到的,還起到特征信息提取的作用。而標準算法采用的是歐式距離,直接使用吸光度計算光譜距離,不能體現(xiàn)特征變量的變化情況。因此,采用因子化法建立的模型精度要優(yōu)于歐式距離法。
圖2 因子化法2D得分圖Fig. 2 2D score plot by factorization method
表5 不同預處理方式對聚類分析模型效果影響Table 5 Effects of different pretreatment methods on clustering analysis model
圖3 不同地區(qū)大米樣品的聚類分析結果Fig. 3 Cluster analysis of different geographical rice samples
聚類分析用于判定一系列近紅外譜圖的相似性,是根據(jù)樣本自身的屬性,用數(shù)學方法按照某種相似性或差異性指標確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。與定性分析不同,它不需要輸入任何信息,聚類分析只將相似光譜按組分類[24]。在特征波段5 136~5 501 cm-1范圍內分別采用因子化法和歐式距離法對隨機樣品的原始光譜進行聚類建模分析,如表5所示。結果表明,采用因子化法結合二階導數(shù)+SNV+5 點平滑的預處理方式建立的模型效果較好,兩地區(qū)樣品被正確分類,且“距離”為0.918 00,如圖3所示。故選此方法建立聚類分析模型。龐艷蘋等[25]利用近紅外漫反射光譜技術因子化法在4 000~8 003.8 cm-1范圍內采用二階導數(shù)+5 點平滑的預處理方式對255 份草莓進行產地溯源研究,結果表明,其模型的預測正確率高達96.70%。也有學者發(fā)現(xiàn)在特征波段4 000~7 500 cm-1范圍內采用因子化法結合一階導數(shù)+矢量歸一化+17 點平滑的預處理方法建立的模型能夠實現(xiàn)對久保桃的產地鑒別[26]。
建立定量分析模型的目的是對多組分樣品的相關組分進行定量分析。首先需要選擇能夠代表待測體系的已知組分的建模樣品,然后用這些樣品的近紅外光譜和組分值來擬合模型,經過檢驗其預測的可靠性之后,這個模型就可用來分析未知樣品的組分值[27]。PLS法將用來尋找光譜與濃度數(shù)據(jù)矩陣之間的最佳相關函數(shù)關系,具有更易于辨識系統(tǒng)信息與噪聲的優(yōu)點,使其擬合的模型精度更高[28]。在特征波段5 136~5 501 cm-1范圍內采用PLS法結合交叉檢驗法對原始光譜進行處理,如表6所示。結果表明,采用一階導數(shù)+MSC+13 點平滑的預處理方式建立的模型效果較好,其RMSECV為0.105,R2為98.97%,維數(shù)為4,故選此方法來建立定量分析模型。如圖4、5所示。汪靜靜等[29]研究發(fā)現(xiàn)利用近紅外漫反射光譜技術在特征波段7 559~8 531 cm-1范圍內采用二階導數(shù)+MSC+5 點平滑建立的定量分析模對來自3 個地區(qū)的74 份人參樣品進行產地判別,其正確率高達90%。趙艷麗等[30]在波段4 007.35~7 135.33 cm-1,采用近紅外漫反射光譜技術結合PLS判別分析法對3 個不同產區(qū)的70 份野生藥用植物重樓建立判別模型,其預測正確率為100%。
表6 不同預處理方式對定量分析模型效果影響Table 6 Effect of different pretreatment methods on quantitative analysis model
圖4 地區(qū)預測值與參考值相關圖Fig. 4 Predicted value versus reference value
圖5 RMSECV與維數(shù)的關系圖Fig. 5 RMSECV against dimensionality
將建立好的定性分析模型、聚類分析模型及定量分析模型分別帶入OPUS 7.5軟件中,對預測樣品進行驗證,結果表明,定性分析模型對建三江大米及五常大米的正確判別率分別為100%、98%。聚類分析模型對建三江大米及五常大米的正確判別率分別為97.92%、98.00%。定量分析模型對建三江大米及五常大米的正確判別率分別為95.83%、94.00%,如表7所示。
表7 模型鑒別結果Table 7 Results of model validation
對大米進行產地溯源判別研究易受到產地、品種、施肥量等因素的影響,故為篩選與產地有關的因素實驗于2015年在黑龍江五常、佳木斯、齊齊哈爾三地建立試驗田,進行特殊波段的篩選,通過對試驗田樣品進行一階導數(shù)處理得出特征波數(shù)范圍為5 136~5 501 cm-1。在特征波段范圍內對2013年至2015年來自建三江地區(qū)及五常地區(qū)的291 份大米進行產地溯源研究,結果發(fā)現(xiàn),采用因子化法結合二階導數(shù)+SNV+5 點平滑的預處理方式建立的定性分析模型對建三江大米及五常大米的正確判別率分別為100%、98%。采用因子化法結合二階導數(shù)+矢量歸一化+5 點平滑的預處理方式建立的聚類分析模型對建三江大米及五常大米的正確判別率分別為97.92%、98.00%。采用PLS法結合一階導數(shù)+MSC+13 點平滑的預處理方式建立的定量分析模型對建三江大米及五常大米的正確判別率分別為95.83%、94.00%。其中定性分析與聚類分析的最優(yōu)處理方法相一致。故應用近紅外漫反射光譜技術可以實現(xiàn)對多個年份大米的產地鑒別。大米產地溯源受多種因素影響,今后可以從土壤、基因型、施肥量等多種因素進行研究。