李 穎, 陳元?jiǎng)? 呂 靚, 汪少蕓, 王 武, 付才力
(1.福州大學(xué)生物科學(xué)與工程學(xué)院, 福建 福州 350116; 2.福州大學(xué)電氣工程與自動(dòng)化學(xué)院, 福建 福州 350116; 3.福建省醫(yī)療器械和醫(yī)藥技術(shù)重點(diǎn)實(shí)驗(yàn)室, 福建 福州 350002)
火麻(CannabissativaL.)含有豐富的蛋白質(zhì)、 碳水化合物、 油類以及各種礦物質(zhì), 其主要功能成分火麻油又稱“長(zhǎng)壽油”.火麻油中多不飽和脂肪酸含量高達(dá)76%~82%, 尤其是富含α-亞麻酸和γ-亞油酸,是昂貴的健康型食用油和高檔化妝品基料[1-2].長(zhǎng)期食用火麻油不僅補(bǔ)充人體所需的不飽和脂肪酸、 卵磷脂、 維生素及鈣、 鐵礦物, 而且火麻油具有抗腫瘤、 抗衰老和降低膽固醇和高血壓等功效[3].目前, 市場(chǎng)上銷售的食用油品質(zhì)不一, 為降低生產(chǎn)成本、 提高銷售利潤(rùn), 通過低附加值的油料以次充好是不良商販獲利的主要手段.常用的摻雜物質(zhì)是價(jià)格較低的大豆油、 花生油、 玉米油以及葵花籽油等, 這不僅大大降低油脂的營(yíng)養(yǎng)價(jià)值, 并且損害企業(yè)和消費(fèi)者的權(quán)益.因此, 對(duì)高附加值油料的摻雜進(jìn)行定量檢測(cè)顯得尤為重要.
常用油脂摻假檢測(cè)方法主要包括氣相色譜法、 高效液相色譜法、 原子吸收光譜法和質(zhì)譜法等, 測(cè)定準(zhǔn)確度較高, 但存在樣品需預(yù)處理、 耗時(shí)長(zhǎng)、 操作復(fù)雜等不足.近紅外光譜(near infrared spectrum, NIRs)主要檢測(cè)有機(jī)物中含氫基團(tuán)(—CH, —OH, —NH, —SH)在近紅外光照射下分子振動(dòng)組合頻與倍頻的吸收, 具有快速、 高效、 無損等優(yōu)點(diǎn).近年來, 近紅外光譜已在鑒別食品摻雜問題上得到廣泛應(yīng)用, 如有效分析橄欖油、 芝麻油、 山茶油、 核桃油等油品的摻假情況[4-6].
由于近紅外儀器的高分辨率, 光譜變量含有大量冗余信息, 不僅降低模型準(zhǔn)確性和傳遞的穩(wěn)定性, 而且增加儀器的成本.從近紅外光譜中含有的大量光譜變量中提取特征變量, 有利于提高分析模型的傳遞性、 穩(wěn)定性、 準(zhǔn)確性, 更有利于近紅外便攜專用檢測(cè)儀開發(fā).
本研究利用NIRs對(duì)摻雜大豆油、 花生油、 葵花籽油和玉米油的火麻油進(jìn)行鑒定, 通過偏最小二乘法(PLS)回歸模型和最小二乘支持向量機(jī)(LS-SVM)模型建立定量分析, 結(jié)合連續(xù)投影算法(SPA)和競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣算法(CARS)提取光譜的特征變量, 簡(jiǎn)化預(yù)測(cè)模型, 為油脂摻雜提供一種快速檢測(cè)的定量分析模型.
實(shí)驗(yàn)所用火麻油由江蘇蘇州八馬飲品有限公司提供, 為鮮榨純火麻油.玉米油、 花油、 大豆油和葵花籽油購于福州永輝超市.實(shí)驗(yàn)配制一系列摻有玉米油、 大豆油、 葵花籽油和花生油的火麻油樣品, 總體積均為200 mL, 摻入各類油品的體積分別為5、 10、 15、 20、 25、 30、 35、 40、 45、 50、 55、 60、 65、 70、 75、 80、 85、 90、 95、 100、 110、 120、 130、 140、 150、 160、 170、 180、 190、 200 mL, 充分振蕩搖勻.每個(gè)樣品平行3次, 依次掃描光譜, 并隨機(jī)劃分校正集和預(yù)測(cè)集.
采用配有高靈敏度InGaAs檢測(cè)器、 積分球采樣系統(tǒng)以及內(nèi)置自動(dòng)金箔背景采集方式的ANTARISⅡ型傅里葉變換近紅外光譜分析儀(德國(guó)Thermo公司)采集樣品光譜集合.光譜分辨率為8 cm-1, 掃描波段范圍為4 000~10 000 cm-1, 平均掃描次數(shù)為32次.以空白采集作為測(cè)量背景, 用一次性滴管取適量火麻油樣品置于比色管中, 設(shè)置儀器流程參數(shù), 在室溫25 ℃、 空氣濕度60%條件下測(cè)定火麻油樣品的近紅外圖譜.每個(gè)樣品采集3條光譜, 運(yùn)用Matlab程序(R2016a)對(duì)所得樣品的近紅外光譜數(shù)據(jù)集合進(jìn)行分析處理.
偏最小二乘(PLS)回歸是最常用的定量分析方法, 通過主成分分析與多元線性分析的有機(jī)結(jié)合, 實(shí)現(xiàn)回歸建模和數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化[7].支持向量機(jī)(SVM)是一種有監(jiān)督的學(xué)習(xí)模型, 主要根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論中的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理構(gòu)建, 通過利用有限的樣本信息在模型復(fù)雜性和學(xué)習(xí)能力之間尋找最佳折中, 可適用于定性分類識(shí)別以及定量組分分析[8].最小二乘支持向量機(jī)(LS-SVM)是在PLS和SVM基礎(chǔ)上構(gòu)建的, 通過結(jié)合PLS和SVM的優(yōu)勢(shì), 降低模型運(yùn)行時(shí)的復(fù)雜程度, 同時(shí)提高LS-SVM模型的泛化能力[9].
在建模的過程中, 由于近紅外光譜變量中含有大量冗余信息, 有效信息弱并且?guī)в邢嚓P(guān)噪聲, 不僅增加計(jì)算的復(fù)雜和模型的復(fù)雜度, 還影響模型的預(yù)測(cè)能力, 降低模型傳遞的準(zhǔn)確性.當(dāng)相關(guān)性不強(qiáng)的變量過多時(shí), 從大量的光譜變量中提取出對(duì)建模有用的特征變量, 有利于增強(qiáng)模型的相關(guān)性, 提高分析模型的擬合效果以及模型的穩(wěn)定性.研究分別采用連續(xù)投影算法(SPA)和競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣算法(CARS)提取近紅外光譜的特征變量.SPA的原理是根據(jù)投影分析, 使光譜特征變量的共線性最小[10-11].CARS的原理是根據(jù)達(dá)爾文的適者生存, 將每個(gè)光譜變量作為一個(gè)個(gè)體, 根據(jù)自適應(yīng)重加權(quán)采樣技術(shù)搜尋最優(yōu)變量組合, 算法具體流程參見文獻(xiàn)[12-13].
圖1 火麻油樣本的近紅外光譜圖 Fig.1 NIR spectra of hemp seed oil
采集摻雜大豆油、 花生油、 葵花籽油和玉米油的火麻油近紅外光譜圖, 如圖1所示.其中, 脂肪烴C—H的一級(jí)倍頻在5 800~6 000 cm-1附近, 二級(jí)倍頻在8 200 cm-1附近, 脂肪酸O—H的一級(jí)倍頻在6 800~7 050 cm-1附近[14], 從圖1可以看出不同種類油品的原始光譜圖相似度高.
表1 不同火麻油樣品的PLS模型效果
圖2是大豆油樣品利用SPA和CARS兩種算法提取的特征變量, 從模型所含的變量數(shù)看, SPA和CARS提取的變量數(shù)目分別是29和5.其中, SPA-PLS模型提取的波數(shù)點(diǎn)分別是3 999、 4 003、 4 007、 4 011、 4 015、 4 018、 4 022、 4 026、 4 030、 4 034、 4 038、 4 045、 4 049、 4 057、 4 069、 4 076、 4 080、 4 084、 4 088、 4 099、 4 416、 4 427、 4 655、 5 272、 5 411、 5 689、 5 762、 5 816、 9 075 cm-1, CARS-PLS模型提取的波數(shù)點(diǎn)分別是4 015、 4 153、 5 804、 5 839、 5 843 cm-1, 相比于原始光譜1 557個(gè)特征變量, 變量數(shù)均大大減少.并且, 從模型的精度上看(見表2), SPA-PLS模型和CARS-PLS模型的預(yù)測(cè)集和校正集精度均比原始的PLS模型高.
圖2 大豆油PLS回歸模型提取的特征變量Fig.2 Selected variables for the PLS model of soybean oil
摻雜類型模型變量數(shù)校正集R2cRMSEC預(yù)測(cè)集R2pRMSEP大豆油PLS15570.99520.10350.92670.3561SPA-PLS290.99560.09960.95130.3004CARS-PLS50.99470.10830.97290.2425花生油PLS15570.97180.24390.73850.7331SPA-PLS290.93390.35770.90530.4309CARS-PLS70.94230.37710.95330.3385葵花籽油PLS15570.95550.30060.80090.5158SPA-PLS290.90700.41240.82460.6110CARS-PLS130.99720.07850.96780.3244玉米油PLS15570.77680.56620.62250.6498SPA-PLS290.91980.38810.90970.4785CARS-PLS50.93560.35370.91000.3887
表3 不同火麻油樣品的LS-SVM模型效果
為提高模型的準(zhǔn)確性, 利用SPA和CARS算法提取特征變量.以大豆油樣品為例, 圖3是大豆油利用上述兩種算法提取的特征變量.從模型所含的變量數(shù)看, SPA和CARS提取的特征變量數(shù)目分別是29和8, 相比于原始光譜1 557個(gè)特征變量, 變量數(shù)大大減少.SPA-LS-SVM模型提取的波數(shù)點(diǎn)分別是3 999、 4 003、 4 007、 4 011、 4 015、 4 018、 4 022、 4 026、 4 030、 4 034、 4 038、 4 045、 4 049、 4 057、 4 069、 4 076、 4 080、 4 084、 4 088、 4 099、 4 416、 4 427、 4 655、 5 272、 5 411、 5 689、 5 762、 5 816、 9 075 cm-1, CARS- LS-SVM模型提取的波數(shù)點(diǎn)分別是4 015、 4 022、 4 045、 4 103、 4 153、 5 804、 5 812和5 839 cm-1.從模型的精度上看(見表4), 大豆油樣品的SPA-LS-SVM模型的精度略下降, 而CARS- LS-SVM模型的精度確有較大提高.對(duì)比這兩者的特征變量數(shù), CARS進(jìn)一步降低SPA提取的特征變量數(shù), 并引入新的特征變量, 建模效果優(yōu)于SPA.
摻雜類型模型變量數(shù)校正集R2cRMSEC預(yù)測(cè)集R2pRMSEP大豆油SVM15570.98420.17250.95040.2921SPA-SVM290.98790.15280.93570.3484CARS-SVM80.99490.10360.98210.1962花生油SVM15570.97580.22740.90580.4080SPA-SVM290.96670.24310.86160.4617CARS-SVM120.97610.22110.90750.4120葵花籽油SVM15570.93940.31560.85740.4690SPA-SVM290.95340.28260.85030.4681CARS-SVM460.99510.10210.95870.3204玉米油SVM15570.92850.35730.76730.5396SPA-SVM290.91630.37180.82930.4642CARS-SVM100.95790.28420.92490.3845