仇遜超 張麟
摘要:采用近紅外光譜分析方法對紅松籽脂肪進行定量分析,建立紅松籽脂肪的快速檢測方法,利用多種預處理方法優(yōu)化模型,同時采用間隔偏最小二乘法、反向間隔偏最小二乘法、無信息變量消除法實現特征波段的選取。結果表明,紅松籽樣本光譜經矢量歸一化預處理后建立的模型最佳;波段優(yōu)選能夠提高模型質量,其中反向間隔偏最小二乘法的篩選結果最優(yōu),其紅松籽脂肪模型校正集相關系數為0.889 2,驗證集均方根誤差為0.765 1。由此可知,經過優(yōu)化后,模型的預測性能較好,實現了紅松籽脂肪快速、無損檢測。
關鍵詞:近紅外光譜;紅松籽;脂肪;預處理方法;波段篩選;數學模型;定量無損檢測
中圖分類號: TS255.6? 文獻標志碼: A? 文章編號:1002-1302(2019)03-0159-05
近紅外光譜分析方法是通過分析有機化學物質在近紅外光譜區(qū)的光學響應特征,以實現對物質定量或定性快速測定的現代光譜技術,由于其穿透性強,因此可以完成對帶殼物質內部品質的定量、定性測定[1-2];經過對待測樣本的近紅外光譜數據的一次獲取,在短短的幾分鐘內就能夠實現多項性能指標的檢測;在光譜測量的過程中無需對待測樣本進行任何預處理,是無損、無消耗的綠色分析方法。近紅外光譜分析方法在農副產品的脂肪測定中已得到了廣泛良好的應用[3-5],其中在帶殼堅果方面,賈昌路等利用近紅外技術對帶殼的5個南疆核桃品種的光譜數據進行了獲取,比較了不同品種的光譜差異,并根據吸光度的差異成功地對核桃的品質和品種進行了鑒別[6]。劉潔等分別構建了帶殼板栗水分、蛋白質定量分析的近紅外數學模型,研究結果表明其水分、蛋白質模型驗證集均方根誤差分別為2.27%、0.38[7-8]。筆者的前期研究也證實了采用近紅外光譜分析方法可以實現對帶殼紅松籽內部蛋白質[9]和水分[10]的定量檢測。但是還未見運用近紅外光譜技術對帶殼紅松籽中的脂肪進行測定分析的相關研究。
紅松籽中的脂肪含量較高,其中大部分為亞油酸和不飽和脂肪酸,亞油酸在經過人體的消化吸收后可以轉化為二十碳五烯酸(eicosapentaenoic acid,簡稱EPA)和二十二碳六烯酸(docosahexaenoic acid,簡稱DHA),能夠促進腦部和視網膜的發(fā)育,對視力退化以及老年癡呆等疾病有一定的預防作用,而不飽和脂肪酸對降低血脂、血壓和預防心血管疾病有一定的功效,此外,紅松籽中的脂肪還可以潤滑大腸,有通便的作用,其緩瀉而不傷身,非常適合體弱、年老、孕婦等人群服用[11]。脂肪含量還對紅松籽的貯藏品質有一定的影響,油脂酸敗會縮短紅松籽的貯藏壽命。傳統(tǒng)的紅松籽脂肪提取方法是基于索氏提取法的破壞性化學分析方法,該方法步驟繁瑣、檢測時間較長,并且須要使用大量的揮發(fā)性溶劑,對測試人員的健康會產生危害并易污染環(huán)境。
本研究利用便攜式近紅外光譜儀,在900~1 700 nm波長范圍內測定帶殼紅松籽中的脂肪。通過偏最小二乘法(partial least squares,簡稱PLS)建立帶殼紅松籽中的脂肪定量分析模型,并分別比較矢量歸一化(vector normalization,簡稱VN)、一階導數(first derivative,簡稱1-Der)、二階導數(second derivative,簡稱2-Der)、多元散射校正(multiplication scatter correction,簡稱MSC)、變量標準化校正(standard normalized variate,簡稱SNV)等多種預處理方法對紅松籽脂肪建模精度的影響,在此基礎上分別利用間隔偏最小二乘法(interval partial least squares,簡稱iPLS)、反向間隔偏最小二乘法(backward interval partial least squares,簡稱BiPLS)、無信息變量消除法(uninformative variable elimination,簡稱UVE),實現對光譜特征波段的選取,經過對比分析確定相對較好的預處理方法、相對較優(yōu)的波段選取方法及適合建模的波段范圍,從而構建出質量較好的帶殼紅松籽脂肪近紅外數學模型,以期實現帶殼紅松籽中脂肪的快速、準確定量無損檢測。
1 材料與方法
1.1 試驗材料
生的紅松籽樣本由位于黑龍江省伊春市的涼水國家級自然保護區(qū)提供,試驗前對紅松籽樣本進行清洗、擦拭,并依照紅松籽的相關儲藏要求,將全部樣本貯存于溫度為-1~2 ℃、相對濕度為50%~60%的條件下。為了滿足近紅外光譜掃描的要求,獲取紅松籽樣本光譜信息前,先提前24 h將樣本放置于實驗室中,以保證其溫度和濕度與實驗室的條件相一致。選取5 168粒紅松籽樣本,從中挑選出134份樣本用于后續(xù)的檢測研究,并按照3 ∶ 1的比例對樣本進行校正集與驗證集的劃分。須要說明的是,校正集樣本用以實現模型的構建;驗證集樣本用以實現對模型的校驗。
1.2 試驗儀器
光譜儀器為德國INSION公司的NIR-NT-spectrometer-OEM-system(圖1),適用光譜波長范圍為 900~1 700 nm,入口光纖為300/330 μm,探測器陣列是InGaAs陣列,光譜分辨率小于16 nm,體積為67 mm×36 mm×22 mm,該光譜儀器尺寸小、無可移動器件、操作簡單、便攜、價格低廉、在復雜環(huán)境下也可良好工作,且不受劇烈振動的影響。光源為鹵素光源,其工作電壓為24 V。通過Y型光纖實現光譜儀與鹵素燈光源的連接,光纖的另一端連接探頭,光譜儀與個人計算機(personal computer,簡稱PC)之間利用通用串行總線(universal serial bus,簡稱USB)實現連接。
1.3 試驗方法
1.3.1 紅松籽光譜數據的獲取方法 獲取帶殼紅松籽樣本近紅外光譜信息的過程中,實驗室溫度須維持在26 ℃左右,掃描工作開始前,先打開鹵素燈光源與近紅外光譜儀進行 15 min 的預熱,使之穩(wěn)定;掃描標準鍍金漫反射背景體作為稍后試驗的背景參比;采用漫反射方式進行掃描,設置平均掃描次數為3次,光譜儀積分時間為30 ms;在獲取光譜信息的過程中,將紅松籽樣本至于探頭正上方,以確保光源對樣本的垂直照射,紅松籽樣本通過重新擺放連續(xù)掃描4次,以完成對樣本的共計12次掃描,獲取紅松籽樣本光譜信息的檢測示意圖如圖2所示,試驗過程中,探頭與紅松籽的距離保持在 3 mm 左右。
1.3.2 紅松籽脂肪的化學測定方法 紅松籽樣本中脂肪的化學測定利用食品安全國家標準GB/T 5009.6—2003《食品中脂肪的測定》中的第一法——索氏抽提法實現。
1.3.3 光譜預處理 采用矢量歸一化、一階導數、二階導數、多元散射校正、變量標準化校正等預處理方法對原始帶殼紅松籽樣本的光譜信息進行處理,以去除噪聲信息、附加散射變化、光程變動等對原始光譜信息的影響。利用偏最小二乘回歸建立多個帶殼紅松籽中脂肪的近紅外數學模型,通過比較各模型校正集相關系數(correlation coefficient of calibration,簡稱RC)、驗證集相關系數(correlation coefficient of predication,簡稱RP)、校正集均方根誤差(root mean square error of calibration,簡稱RMSEC)、驗證集均方根誤差(root mean square error of predication,簡稱RMSEP)等評價參數,從而確定光譜預處理的最佳方法。最優(yōu)參數的評價標準是均方根誤差越小,越接近于0越好,相關系數越大,越接近于1越好[12]。
1.3.4 光譜特征波段選取 全波段光譜所含信息量大,存在較多的冗余數據,容易造成較長的處理時間、建模運算量大,對產品的在線快速分析不利,并且某些波段的信噪比較低,對模型建立產生干擾與影響[13-14]。分別利用間隔偏最小二乘法[15]、反向間隔偏最小二乘法[16]、無信息變量消除法[17]對經過最佳預處理的光譜建模,進行光譜波段的選取,以期降低數據冗余度,加快處理速度,提高模型精度。
2 結果與分析
2.1 校正集與驗證集的劃分
利用基于樣本歐式距離的Kennard-Stone(K-S)算法[18]完成校正集與驗證集的劃分,劃分結果如表1所示,其中,總體紅松籽樣本的脂肪分布在60%~71%之間,范圍較廣,表征的紅松籽中的脂肪信息較全面,可以較理想地作為構建紅松籽中脂肪近紅外模型的樣本;驗證集紅松籽樣本的脂肪分布在60.40%~68.14%之間,其分布范圍小于校正集紅松籽樣本的脂肪分布范圍(60.04%~70.93%),表明校正集紅松籽樣本所建立的脂肪近紅外模型能較好地適用于驗證集紅松籽樣本。
2.2 紅松籽近紅外光譜數據分析
圖3為帶殼紅松籽樣本原始近紅外光譜信息,采樣間隔是6.83 nm,波長范圍是906.9~1 699.18 nm。由圖3可知,由于受到近紅外光譜區(qū)自身吸收強度弱、靈敏度低等的影響,使得原始近紅外光譜呈現出了較為復雜的重疊信息,但是從整體的光譜曲線來看其重復性較好,形態(tài)具有相似性和一定的規(guī)律性。脂肪是由脂肪酸與甘油構成的三酰甘油酯,構成元素為C、H、O,其結構長鏈中的主要基團為烴基。圖3中950 nm附近的微弱波峰是C—H鍵伸縮振動的三倍頻[19],根據文獻[20]可知,1 180 nm附近的波峰是C—H鍵二級倍頻吸收,1 660 nm附近的較小波峰是C—H鍵一級倍頻吸收。根據文獻[21]可知,脂肪C—H鍵倍頻吸收的特征譜帶在950~1 020、1 070~1 440、1 520~1 680 nm之間。因此本研究選擇的波長區(qū)域涵蓋了脂肪的特征吸收譜帶,說明帶殼紅松籽樣本的光譜數據可以反映其脂肪的相關信息。
2.3 光譜預處理對比結果與分析
對光譜數據求導可以消除背景與基線干擾,但預處理效果會受求導窗口寬度的影響,因此,在進行求導預處理前,要先確定出模型的最佳求導窗口寬度。根據模型的交叉驗證均方根誤差(root mean square error of cross validation,簡稱RMSECV)來確定最佳求導窗口寬度,評價標準為RMSECV越小越好。由圖4可知,1-Der、2-Der窗口寬度均取5時對帶殼紅松籽樣本的光譜進行預處理,構建的脂肪PLS模型的RMSECV最小。
利用Matlab7.10.0軟件平臺,對原始帶殼紅松籽樣本的光譜進行多種不同預處理,并分別建立其脂肪PLS模型。由表2可知,采用多種預處理方法對帶殼紅松籽樣本的原始近紅外光譜信息進行處理后,各模型質量均得到了提高,說明采用合理的預處理方法可以提升模型的穩(wěn)健性和預測精確度,其中,SNV、MSC對帶殼紅松籽光譜進行預處理后,效果提升并不明顯,表明帶殼紅松籽樣本非特異性表面散射的影響所致使的光譜差異并不明顯,且SNV構建的模型略優(yōu)于MSC構建的模型,這是因為MSC是基于一組樣本的光譜矩陣進行預處理,而SNV是基于光譜矩陣進行預處理,即對每條光譜數據進行分別處理而造成的結果;經求導預處理后模型的質量得到了提升,表明經求導處理后有效地實現了特征信息的提取,且經2-Der預處理后建立的模型質量略高于1-Der建立的模型,表明在經2-Der預處理后背景與基線的影響被更有效地消除了。利用矢量歸一化的預處理方法對帶殼紅松籽光譜進行處理,構建的模型質量最優(yōu),其Rc為0.856 8,RMSEC、RMSEP分別為0.752 5、0.816 7。紅松籽光譜數據的波段篩選工作在最佳預處理結果的基礎上進行更深入的研究。
2.4 特征波段選取的對比結果與分析
分割數取值的大小直接影響到iPLS、BiPLS的建模質量,分割數取值較大時,運算量大,建模過程復雜,不能有效減少變量數量;分割數取值較小時,容易造成含有較好信息量的區(qū)間被剔除。由圖5可知,iPLS分割數取10、BiLPS分割數取15時,經波段篩選后,構建的帶殼紅松籽脂肪模型最佳。
圖6為帶殼紅松籽光譜經歸一化處理后,在分割數取10的條件下iPLS波段的篩選結果,其中,直線為全光譜波長范圍下經過歸一化預處理方法后構建模型的RMSECV,直線以下的波段區(qū)間為篩選保留的區(qū)間,相應的波段組合區(qū)間為1、2、5、11、12,對應的波長范圍是906.90~1 036.67、1 180.10~1 241.57、1 589.90~1 699.18 nm。圖7為帶殼紅松籽光譜經歸一化處理后,在分割數取15的條件下BiPLS波段的篩選結果,其中,紅色背景部分的光譜為篩選保留下的波段,相應的波段組合區(qū)間為1、3、7、8,對應的波長范圍是90690~1 002.52、1 111.80~1 207.42、1 521.60~1 699.18 nm。
UVE變量篩選方法是基于對PLS回歸系數的穩(wěn)定性分析,由圖8可知,其中虛曲線是波長變量穩(wěn)定性分布情況,實曲線是引入的噪聲變量穩(wěn)定性分布情況,2條虛直線分別為閾值的上限、下限,在虛直線內的波長變量被剔除。圖9為原始帶殼紅松籽樣本光譜經歸一化處理后的UVE波段篩選結果,優(yōu)選波長范圍為906.90~1 282.55、1 323.53~1 494.28、1 542.09~1 548.92、1 624.05~1 699.18 nm。
分別在全波段、特征波段范圍下建立帶殼紅松籽中脂肪的PLS模型,根據比較各模型的相關系數與均方根誤差,從而確定特征波段的篩選方法。由表3可知,經波段篩選后模型的各項指標均得到了改善,在均方根誤差有所降低的同時,相關系數也得到了提高,表明波段優(yōu)選對提高模型質量是有所助益的;其中BiPLS-PLS建立的模型質量最佳,這是由于經BiPLS優(yōu)選保留的波段范圍分別與脂肪C—H鍵的倍頻和基頻相對應,脂肪屬性中最重要的吸收譜帶得到了保留,而多數無關的冗余信息被剔除了;iPLS雖然消除了多數冗余信息,但由于將各分割波段區(qū)間單獨考慮,沒有考慮它們之間的聯系,導致波段選擇不夠準確;UVE波段篩選方法保留的變量數量最多,存在的冗余數據也最多,因此構建的UVE-PLS模型的預測精確性最差。在BiPLS優(yōu)選的波段范圍內,建立的帶殼紅松籽中脂肪的PLS模型Rc達0.889 2,RMSEP為0765 1。由此可知,對帶殼紅松籽樣本進行脂肪PLS建模分析的過程中,利用BiPLS方法進行波段選取是更為合適的,可以優(yōu)選出更為合理、數量更少的波長變量。
2.5 模型驗證
將驗證集30份帶殼紅松籽樣本的光譜數據帶入經最佳預處理方法及BiPLS優(yōu)化的模型中進行脂肪的校驗。用平均偏差絕對值(Mabs)來描述預測結果的準確性,則平均偏差絕對值的計算公式為Mabs=∑ni=1|Yi-Xi|n,其中,Yi和Xi分別表示驗證集第i份樣本的測定值和預測值,n表示驗證集樣本數量。由圖10可知,驗證集帶殼紅松籽脂肪預測值均分別圍繞其測定值進行較為均勻的上下波動,經過計算,預測值與測定值的平均偏差絕對值 Mabs為0.65%,表明建立的帶殼紅松籽脂肪模型的預測結果較準確。
3 結論
本研究采用便攜式近紅外光譜儀NIR-NT-spectrometer-OEM-system對帶殼紅松籽中的脂肪進行了無損定量檢測。根據對比各模型校正集相關系數、驗證集相關系數、校正集均方根誤差、驗證集均方根誤差等進而確定最佳的預處理方法、最優(yōu)的波段篩選方法及適合建模的波段范圍。研究結果表明,選用合理的預處理方法對原始帶殼紅松籽光譜數據進行處理,可以提高模型的質量,其中,經歸一化預處理后構建的帶殼紅松籽脂肪PLS模型最佳;iPLS、BiPLS、UVE波段篩選方法均可以在不同程度上減少建模波長變量數量,進而減少計算時間、提升模型質量,并且經BiPLS優(yōu)選波段后建立的模型質量最優(yōu),大量冗余信息得到了剔除的同時,脂肪成分中C-H等功能基團的倍頻吸收特征波段得到了保留,實現了優(yōu)選波段的目的,其保留的建模波長范圍為906.90~1 002.52、1 111.80~1 207.42、1 521.60~1 699.18 nm,建立的帶殼紅松籽脂肪PLS模型Rc達0.889 2,RMSEP為 0.765 1,驗證集預測平均偏差絕對值為0.65%。由此可見,本研究構建的帶殼紅松籽中脂肪近紅外模型的預測效果較為理想,為帶殼紅松籽中脂肪的快速、準確測定提供了一個新的思路與方法,也為近紅外模型的優(yōu)化提供了參考。
參考文獻:
[1]分析測試百科. 意大利將近紅外光譜技術用于榛子篩選[Z/OL]. (2015-11-20)[2018-05-29]. http://www.antpedia.com/news/99/n-1289399.html.
[2]錢 曼,黃文倩,王慶艷,等. 西瓜檢測部位差異對近紅外光譜可溶性固形物預測模型的影響[J]. 光譜學與光譜分析,2016,36(6):1700-1705.
[3]王加華,張曉偉,王 軍,等. 基于便攜式近紅外技術的生鮮乳品質現場評價[J]. 光譜學與光譜分析,2014,34(10):2679-2684.
[4]Aernouts B,Polishin E,Lammertyn J,et al. Application of near infrared reflectance(NIR) spectroscopy to identify the quality of milk[J]. Journal of Dairy Science,2011,94(11):5315.
[5]孫曉明,盧 凌,張佳程,等. 牛肉化學成分的近紅外光譜檢測方法的研究[J]. 光譜學與光譜分析,2011,31(2):379-383.
[6]賈昌路,高 山,張 宏,等. 近紅外技術對南疆核桃品種的鑒定及品質比較[J]. 湖北農業(yè)科學,2016,55(10):2559-2563,2676.
[7]劉 潔,李小昱,王 為,等. 基于近紅外光譜的板栗蛋白質檢測方法研究[C]//中國農業(yè)工程學會2011年學術年會論文集,2011.
[8]劉 潔,李小昱,李培武,等. 基于近紅外光譜的板栗水分檢測方法[J]. 農業(yè)工程學報,2010,26(2):338-341.
[9]仇遜超,曹 軍. 近紅外光譜波段優(yōu)化在東北松子蛋白質定量檢測中的應用[J]. 現代食品科技,2016,32(11):303-309.
[10]仇遜超,曹 軍. 便攜式近紅外光譜儀檢測紅松籽中的水分含量[J]. 東北林業(yè)大學學報,2016,44(12):15-20.
[11]于俊林,車喜泉,常紀慶. 松仁的化學成分及功效[J]. 人參研究,2001,13(1):25-27.
[12]張華秀,李曉寧,范 偉,等. 近紅外光譜結合CARS變量篩選方法用于液態(tài)奶中蛋白質與脂肪含量的測定[J]. 分析測試學報,2010,29(5):430-434.
[13]張 初,劉 飛,孔汶汶,等. 利用近紅外高光譜圖像技術快速鑒別西瓜種子品種[J]. 農業(yè)工程學報,2013,29(20):270-277.
[14]蔣 霞,張 曉,白鐵成,等. 近紅外光譜技術結合PLS和SPA檢測鮮冬棗表面農藥殘留量的方法[J]. 江蘇農業(yè)科學,2018,46(2):146-149.
[15]Chen H Z,Pan T,Chen J M,et al. Waveband selection for NIR spectroscopy analysis of soil organic matter based on SG smoothing and MWPLS methods[J]. Chemometrics and Intelligent Laboratory Systems,2011,107(1):139-146.
[16]Park B,Abbott J A,Lee K,et al. Near-infrared diffuse reflectance for quantitative and qualitative measurement of soluble solids and firmness of delicious and Gala apples[J]. Transactions of the ASAE,2003,46(6):1721-1731.
[17]He K X,Cheng H,Du W L,et al. Online updating of NIR model and its industrial application via adaptive wavelength selection and local regression strategy[J]. Chemometrics and Intelligent Laboratory Systems,2014,134(8):79-88.
[18]Macho S,Rius A,Callao M P,et al. Monitoring ethylene content in heterophasic co-polymers by near-infrared spectroscopy standardization of the calibration model[J]. Analytica Chimica Acta,2001,445(2):213-220.
[19]李曉云,王加華,黃亞偉,等. 便攜式近紅外儀檢測牛奶中脂肪、蛋白質及干物質含量[J]. 光譜學與光譜分析,2011,3(3):665-668.
[20]王培培,張德權,陳 麗,等. 近紅外光譜法預測羊肉化學成分的研究[J]. 核農學報,2012,26(3):500-504.
[21]張中衛(wèi),溫志渝,曾甜玲,等. 微型近紅外光纖光譜儀用于奶粉中蛋白質脂肪的定量檢測研究[J]. 光譜學與光譜分析,2013,33(7):1796-1800.牛德芳,王 波,殷 玲,等. 油菜蜂花粉及其蜂糧的揮發(fā)性成分研究[J]. 江蘇農業(yè)科學,2019,47(3):164-169.