劉翠玲 劉浩言 孫曉榮 吳靜珠 楊雨菲
(1.北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院, 北京 100048; 2.北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100048)
酸值和過(guò)氧化值是檢測(cè)食用油酸敗的主要指標(biāo)。通過(guò)檢測(cè)酸值、過(guò)氧化值可以評(píng)價(jià)食用油品質(zhì)的優(yōu)劣,判斷儲(chǔ)藏期間食用油品質(zhì)的變化情況[1-3]。近紅外光譜法檢測(cè)成本低、測(cè)試時(shí)間短、化學(xué)處理簡(jiǎn)單,甚至不需要對(duì)樣本進(jìn)行預(yù)處理,已被廣泛應(yīng)用于食品品質(zhì)快速檢測(cè)中[4-7]。由于儀器制造、測(cè)試環(huán)境的差異[8-9],儀器老化[10]、附件更換[9]等因素的影響,同一樣本在不同儀器上的光譜響應(yīng)不完全一致,使得主機(jī)所建立的校正模型用于從機(jī)時(shí),預(yù)測(cè)結(jié)果達(dá)不到要求。模型轉(zhuǎn)移為這類(lèi)問(wèn)題的解決提供了可行途徑,其本質(zhì)是克服樣本在不同儀器間測(cè)量信號(hào)的不一致性,使得主機(jī)建立的校正模型可以用于其他儀器上,可以有效避免模型重建所消耗的時(shí)間與物質(zhì)成本[11-14]。
近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)模型轉(zhuǎn)移技術(shù)在各個(gè)領(lǐng)域的應(yīng)用進(jìn)行了大量研究。文獻(xiàn)[15]采用斜率/截距算法(Slope/bias,S/B)對(duì)獼猴桃可溶性固形物含量進(jìn)行了模型轉(zhuǎn)移研究,有效地提高了主機(jī)的預(yù)測(cè)性能。文獻(xiàn)[16]采用分段直接標(biāo)準(zhǔn)化算法(Piecewise direct standardized algorithm,PDS)、S/B算法、正交投影算法實(shí)現(xiàn)了橄欖油脂肪、游離酸含量與含水率模型的轉(zhuǎn)移。文獻(xiàn)[17]使用直接標(biāo)準(zhǔn)化算法(Direct standardized,DS)進(jìn)行了水稻土有機(jī)物含量、氮含量、pH值的模型轉(zhuǎn)移研究。然而,目前針對(duì)食用油酸值與過(guò)氧化值近紅外光譜模型在不同儀器之間的傳遞問(wèn)題研究較少,文獻(xiàn)[18]使用S/B算法進(jìn)行了食用油酸值與過(guò)氧化值的模型傳遞研究,獲得結(jié)果仍與理想效果存在一定差距。光譜空間轉(zhuǎn)換算法(Spectral space transformation,SST)是一種利用標(biāo)準(zhǔn)光譜構(gòu)造差異光譜投影空間的模型轉(zhuǎn)移算法,具有參數(shù)簡(jiǎn)單、對(duì)轉(zhuǎn)換集樣本個(gè)數(shù)不敏感等優(yōu)點(diǎn)[19]。本文采用SST算法建立轉(zhuǎn)移模型,實(shí)現(xiàn)食用油酸值與過(guò)氧化值校正模型在不同儀器之間的轉(zhuǎn)移,并與S/B算法、DS算法、PDS算法、TEAM(Extreme learning machine auto-encoder,TEAM)算法[20]進(jìn)行對(duì)比研究,以期將近紅外光譜檢測(cè)更好地應(yīng)用于食用油品質(zhì)檢測(cè)領(lǐng)域。
本次實(shí)驗(yàn)所用食用油種類(lèi)包括玉米油、芝麻香油、大豆油、橄欖油、小磨香油5種。樣本來(lái)自于市售的不同等級(jí)和品牌,其中玉米油樣本19個(gè),芝麻香油樣本25個(gè),大豆油樣本56個(gè),橄欖油樣本5個(gè),小磨香油樣本20個(gè),共計(jì)125個(gè)樣本。依照GB/T 5009.227—2016、GB/T 5530—2005測(cè)定所有樣本的過(guò)氧化值與酸值。
實(shí)驗(yàn)使用布魯克公司生產(chǎn)的VERTEX-70型傅里葉近紅外光譜儀和MATRIX-F型在線(xiàn)過(guò)程分析傅里葉光譜儀,使用液體光纖探頭,光程2 mm。
VERTEX-70型傅里葉近紅外光譜儀為主機(jī),MATRIX-F型在線(xiàn)過(guò)程分析傅里葉光譜儀作為從機(jī)進(jìn)行光譜采集。兩臺(tái)儀器的分辨率設(shè)置為8 cm-1,光譜采集范圍為4 000~12 000 cm-1,每個(gè)樣本重復(fù)掃描16次。5種食用油樣本在主儀器上采集的光譜如圖1所示,可以看出5種食用油近紅外光譜較為相似,這是由于食用油主要由脂肪酸組成,不同種類(lèi)食用油之間的光譜信息比較接近,產(chǎn)生波峰的位置差距很小[21]。4 310~4 360 cm-1間譜峰處不同種類(lèi)食用油平均光譜如圖2所示,可以看出不同種類(lèi)食用油在同一波峰處吸光度存在一定差異。主從儀器所采集的5種食用油樣本的平均光譜如圖3所示。
圖1 主儀器采集的5種食用油樣本光譜Fig.1 Main instrument collects spectra of five edible oil samples
圖2 5種食用油樣本譜峰處平均光譜Fig.2 Average spectrum at peak of five edible oil samples
圖3 主從儀器采集的樣本平均光譜Fig.3 Average spectrum of samples collected by master and slave instruments
標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variate transformation,SNV)主要是用來(lái)消除固體顆粒大小、表面散射以及光程變化對(duì)近紅外漫反射光譜的影響[22],對(duì)每個(gè)樣本光譜x進(jìn)行SNV變換獲得變換后光譜xSNV,計(jì)算公式為
(1)
式中m——波長(zhǎng)點(diǎn)總數(shù)
xk——樣品光譜k波長(zhǎng)點(diǎn)處吸光度
設(shè)主、從儀器上采集的樣品光譜矩陣分別為X1與X2,光譜矩陣的每一行代表同一樣品的對(duì)應(yīng)光譜。拼接X(jué)1與X2矩陣得到聯(lián)合矩陣Xcomb,對(duì)聯(lián)合矩陣進(jìn)行主成分分析,即
(2)
式中T——得分矩陣
P1——主機(jī)載荷矩陣
P2——從機(jī)載荷矩陣
Xcomb的朗伯-比爾定律形式滿(mǎn)足公式
(3)
式中C——樣本目標(biāo)值濃度矩陣
S1——主機(jī)測(cè)量條件下純物質(zhì)光譜
S2——從機(jī)測(cè)量條件下純物質(zhì)光譜
(4)
從機(jī)測(cè)得的驗(yàn)證集光譜矩陣Xtest與主機(jī)驗(yàn)證集光譜Xtrans之間的差異可以表示為
(5)
通過(guò)式(4)與式(5)可以得到從機(jī)測(cè)得的驗(yàn)證集光譜矩陣Xtest向主機(jī)驗(yàn)證集光譜進(jìn)行轉(zhuǎn)換的計(jì)算公式
(6)
式中上角標(biāo)“+”表示Moore-Penrose廣義逆。經(jīng)過(guò)轉(zhuǎn)換后的光譜Xtrans可以通過(guò)主機(jī)建立的多元校正模型進(jìn)行目標(biāo)成分濃度預(yù)測(cè)。光譜空間轉(zhuǎn)換法通過(guò)在兩個(gè)光譜空間之間進(jìn)行轉(zhuǎn)換來(lái)消除由儀器或測(cè)量條件的變化引起的光譜差異,光譜空間轉(zhuǎn)換法對(duì)所研究的光譜無(wú)特殊要求,其可以適用于任何類(lèi)型的光譜。
使用校正集相關(guān)系數(shù)Rc、校正集均方根誤差(RMSEC)、交互驗(yàn)證均方根誤差(RMSECV)、預(yù)測(cè)相關(guān)系數(shù)Rv與預(yù)測(cè)均方根誤差(RMSEP)對(duì)模型在校正集表現(xiàn)與驗(yàn)證集表現(xiàn)進(jìn)行綜合評(píng)價(jià)。
利用125個(gè)食用油樣本在主從儀器上測(cè)得的平均光譜求出主從儀器之間的差譜,如圖4所示,可以看出主從儀器光譜間存在明顯的非線(xiàn)性差異。利用主機(jī)上測(cè)得的125個(gè)食用油樣本,通過(guò)SPXY算法[23-24]選擇100個(gè)樣本作為校正集,25個(gè)樣本作為驗(yàn)證集,使用SNV算法校正因散射引起的光譜誤差,建立食用油酸值與過(guò)氧化值偏最小二乘多元校正模型。酸值與過(guò)氧化值建模結(jié)果如表1所示,其中通過(guò)五折交叉驗(yàn)證可以得到酸值模型的最佳因子數(shù)為17,過(guò)氧化值模型的最佳因子數(shù)為6。從表中可以看到食用油酸值模型與過(guò)氧化值模型預(yù)測(cè)集相關(guān)系數(shù)均大于0.95,且與校正集相關(guān)系數(shù)相差較小,所建模型較為成功。
圖4 主機(jī)與從機(jī)樣本平均光譜相減所得差譜圖Fig.4 Subtracted spectrum for average spectrum collected by master and slave instruments
表1 主機(jī)酸值與過(guò)氧化值建模及預(yù)測(cè)結(jié)果Tab.1 Modeling and prediction results of acid and peroxide value of master instrument
利用主機(jī)所建立的酸值與過(guò)氧化值模型對(duì)主從機(jī)驗(yàn)證集進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如表2所示,預(yù)測(cè)散點(diǎn)圖如圖5、6所示。對(duì)比表1、2可以發(fā)現(xiàn),主機(jī)建模結(jié)果較好,酸值模型主機(jī)驗(yàn)證集Rv為0.975 9,主機(jī)驗(yàn)證集RMSEP為0.108 5 mg/g,過(guò)氧化值模型主機(jī)驗(yàn)證集Rv為0.958 1,主機(jī)驗(yàn)證集RMSEP為6.692 7 mmol/kg。而當(dāng)使用從機(jī)測(cè)得的驗(yàn)證集光譜直接進(jìn)行預(yù)測(cè)時(shí)酸值模型的驗(yàn)證集Rv下降為0.303 1,驗(yàn)證集RMSEP提高到0.583 6 mg/g,過(guò)氧化值模型的驗(yàn)證集預(yù)測(cè)相關(guān)系數(shù)下降到0.766 3,驗(yàn)證集RMSEP提高到15.801 0 mmol/kg。在濃度范圍相同的前提下,預(yù)測(cè)相關(guān)系數(shù)Rv越接近1表示模型預(yù)測(cè)效果越好,RMSEP越小表明所建模型的預(yù)測(cè)能力越強(qiáng)。由圖5、6可以看出,當(dāng)從機(jī)驗(yàn)證集光譜直接應(yīng)用于主機(jī)模型時(shí),相較于主機(jī)驗(yàn)證集光譜存在較大的預(yù)測(cè)誤差,其中從機(jī)酸值預(yù)測(cè)結(jié)果存在方向性誤差。主機(jī)建立的酸值與過(guò)氧化值校正模型無(wú)法直接應(yīng)用于從機(jī)掃描的光譜,需要進(jìn)行模型轉(zhuǎn)移改善預(yù)測(cè)效果。
表2 模型轉(zhuǎn)移前從機(jī)樣本預(yù)測(cè)結(jié)果Tab.2 Prediction results of slave samples before calibration
為評(píng)估SST算法的模型轉(zhuǎn)移性能,采用S/B、DS、PDS和TEAM算法進(jìn)行對(duì)比測(cè)試。S/B算法是一種目標(biāo)值校正方法,通過(guò)建立主機(jī)與從機(jī)目標(biāo)值間的數(shù)學(xué)關(guān)系對(duì)未知樣本從機(jī)目標(biāo)值進(jìn)行校正。DS和PDS算法通過(guò)使用主機(jī)樣本集光譜對(duì)從機(jī)光譜進(jìn)行校正,使得校正后的從機(jī)光譜與主機(jī)光譜達(dá)到最大相似度進(jìn)而利用主機(jī)模型對(duì)其進(jìn)行目標(biāo)濃度預(yù)測(cè)。TEAM算法將主機(jī)光譜作為學(xué)習(xí)目標(biāo),選擇隱含層中權(quán)重與偏差正交的節(jié)點(diǎn),利用極限學(xué)習(xí)機(jī)的快速逼近能力與泛化性能建立主從機(jī)光譜之間的關(guān)系,大大減少校準(zhǔn)后的預(yù)測(cè)誤差。
圖5 模型轉(zhuǎn)移前食用油酸值預(yù)測(cè)散點(diǎn)圖Fig.5 Predicted scatter diagram of edible oleic acid value before calibration
圖6 模型轉(zhuǎn)移前食用油過(guò)氧化值預(yù)測(cè)散點(diǎn)圖Fig.6 Predicted scatter diagram of edible oleic peroxide value before calibration
S/B、DS、PDS、TEAM與SST算法屬于有標(biāo)樣算法,需要主機(jī)和從機(jī)的建模集中選出樣本作為轉(zhuǎn)換集,且轉(zhuǎn)換集的數(shù)目對(duì)于模型傳遞的效果具有重要影響[25-26]。為了對(duì)比轉(zhuǎn)換集樣本數(shù)對(duì)不同模型轉(zhuǎn)移方法的影響,使用SPXY算法從主機(jī)與從機(jī)的校正集樣本中分別選取20、40、60、80、100個(gè)樣本作為模型轉(zhuǎn)移的轉(zhuǎn)換集,然后使用5種算法通過(guò)轉(zhuǎn)換集樣本建立轉(zhuǎn)移模型。最后使用校正模型來(lái)預(yù)測(cè)目標(biāo)濃度并計(jì)算RMSEP以評(píng)估轉(zhuǎn)移模型的性能,其中由于PDS算法的結(jié)果受到窗口尺寸W的影響,所以選擇窗口尺寸W為1、3、5、7分別建模,建模結(jié)果如表3、4所示。
表3 不同模型轉(zhuǎn)移方法下的酸值模型RMSEPTab.3 RMSEP results of acid value model by different calibration transfer methods mg/g
表4 不同模型轉(zhuǎn)移方法下的過(guò)氧化值模型RMSEPTab.4 RMSEP results of peroxide value model by different calibration transfer methods mmol/kg
從表3可以明顯看出在對(duì)食用油酸值進(jìn)行模型轉(zhuǎn)移的過(guò)程中,PDS、DS、TEAM與SST算法的性能隨著轉(zhuǎn)換集樣本數(shù)的增加而呈現(xiàn)提高的趨勢(shì)。對(duì)于食用油酸值模型PDS與S/B算法轉(zhuǎn)移性能較差,DS、TEAM、SST算法能夠明顯提高預(yù)測(cè)精度,其中SST算法使驗(yàn)證集樣本RMSEP下降最快,預(yù)測(cè)效果最好,RMSEP從未使用模型轉(zhuǎn)移前的0.583 6 mg/g下降到了0.167 0 mg/g,表明SST算法可以有效應(yīng)用于食用油酸值模型的轉(zhuǎn)移。從表4中結(jié)果可以看出,在食用油過(guò)氧化值模型的傳遞過(guò)程中DS、TEAM、SST算法的性能隨著轉(zhuǎn)換集樣本數(shù)的增多而提高,PDS算法與S/B算法結(jié)果并不理想,在轉(zhuǎn)換集數(shù)量較少時(shí)SST算法的轉(zhuǎn)移效果更好,在轉(zhuǎn)換集數(shù)量只有40個(gè)時(shí)RMSEP已經(jīng)下降到12.720 0 mmol/kg,當(dāng)轉(zhuǎn)換集數(shù)量達(dá)到100個(gè)時(shí)相較于未傳遞前的預(yù)測(cè)結(jié)果RMSEP從15.801 0 mmol/kg下降到了9.989 3 mmol/kg,效果優(yōu)于TEAM與DS算法。在實(shí)際應(yīng)用中,轉(zhuǎn)換集樣本的數(shù)量增多需要的分析時(shí)間與相關(guān)成本也隨之增加,且有時(shí)由于條件限制難以獲得充足的轉(zhuǎn)換集樣本,因此在轉(zhuǎn)移效果相近時(shí)使用較少的轉(zhuǎn)換集樣本的方法更具有實(shí)際應(yīng)用價(jià)值。另外,SST算法參數(shù)設(shè)置簡(jiǎn)單,只需設(shè)置主成分?jǐn)?shù),而與之效果相近的TEAM算法需要設(shè)置隱含層神經(jīng)元數(shù)量、正則項(xiàng)系數(shù)等超參數(shù)且不同的激活函數(shù)也會(huì)對(duì)結(jié)果造成影響,在實(shí)際應(yīng)用中較為繁瑣且需要的訓(xùn)練樣本較多。
針對(duì)食用油酸值與過(guò)氧化值模型采用SST算法進(jìn)行模型轉(zhuǎn)移,經(jīng)過(guò)模型轉(zhuǎn)移后,酸值模型RMSEP從0.583 6 mg/g下降到了0.167 0 mg/g,過(guò)氧化值模型RMSEP從15.801 0 mg/g下降到了9.989 3 mmol/kg。通過(guò)與PDS、S/B、DS、TEAM算法對(duì)比發(fā)現(xiàn),SST算法僅需較少轉(zhuǎn)換集樣本就能得到較好結(jié)果,且所需參數(shù)較少、模型簡(jiǎn)單。實(shí)驗(yàn)結(jié)果表明,使用SST算法可以有效校正不同儀器測(cè)量光譜的系統(tǒng)誤差,提高食用油酸值與過(guò)氧化值模型的預(yù)測(cè)結(jié)果,這對(duì)于光譜技術(shù)應(yīng)用于食用油檢測(cè)具有實(shí)際意義。