王文秀,彭彥昆*,王 凡,馬 營
(1.中國農(nóng)業(yè)大學(xué)工學(xué)院,國家農(nóng)產(chǎn)品加工技術(shù)裝備研發(fā)分中心,北京 100083;2.河北農(nóng)業(yè)大學(xué)食品科技學(xué)院,河北 保定 071000)
我國是豬肉生產(chǎn)和消費(fèi)大國,2017年豬肉產(chǎn)量達(dá)5 340萬 t。揮發(fā)性鹽基氮(total volatile basic nitrogen,TVB-N)是豬肉在貯藏期間蛋白質(zhì)的分解產(chǎn)物,是反映豬肉是否具有可食用性的重要指標(biāo)[1]。GB 5009.228—2016《食品中揮發(fā)性鹽基氮的測定》規(guī)定了TVB-N的標(biāo)準(zhǔn)測定方法,但是該方法存在前處理繁瑣、耗時(shí)長、破壞樣品等缺點(diǎn),無法滿足快速、實(shí)時(shí)、無損傷的檢測需要[2]。
近年來,可見-近紅外光譜技術(shù)與化學(xué)計(jì)量學(xué)結(jié)合,已經(jīng)應(yīng)用到肉品品質(zhì)[3-6]、安全[7]、摻假[8-9]、種類識(shí)別[10]等研究上,并取得了令人滿意的結(jié)果。Prevolnik[11]、Prieto[12]、Weeranantanaphan[13]等綜述了光譜技術(shù)在肉品檢測中的應(yīng)用,表明該技術(shù)能夠無損檢測肉品主要參數(shù)。在預(yù)測TVB-N方面,Cai Jianrong等[14]基于1 000~2 500 nm之間的近紅外光譜,建立了豬肉中TVB-N的偏最小二乘模型,預(yù)測相關(guān)系數(shù)為0.808 4。馬世榜等[15]通過特征波長篩選建立了牛肉TVB-N的預(yù)測模型,相關(guān)系數(shù)為0.925 0。上述研究基于校正集樣品建立的模型直接預(yù)測驗(yàn)證集樣品,證實(shí)了光譜技術(shù)預(yù)測TVB-N的可行性。
由于近紅外模型建立過程也包括了樣品狀態(tài)、環(huán)境變化、儀器條件等因素,因此會(huì)出現(xiàn)建立的TVB-N模型在預(yù)測不同批次樣品時(shí)效果不佳的問題,限制了近紅外光譜技術(shù)在肉品行業(yè)的實(shí)際應(yīng)用。為了提高模型的預(yù)測能力,Naes等[16]提出了局部回歸方法,根據(jù)“相似樣品產(chǎn)生相似輸出”的原理,依據(jù)待預(yù)測樣品的光譜特征,通過某種相似度依據(jù),在數(shù)據(jù)集樣品中尋找部分與之相似的樣品,重新建立局部校正模型。該方法可以充分利用原始數(shù)據(jù)集樣品的信息,在土壤全氮含量反演[17]、蘋果糖度預(yù)測[18]、甜味劑濃度測定[19]等研究中已有應(yīng)用,但是在豬肉TVB-N檢測方面鮮見報(bào)道。此外,在建立局部模型時(shí),相似樣品選擇的依據(jù)和數(shù)量是至關(guān)重要的因素,一些學(xué)者對(duì)此展開了研究。Dambergs等[20]以待測樣品與數(shù)據(jù)庫樣品光譜的相關(guān)系數(shù)作為依據(jù)選擇局部建模樣品,鄢悅等[21]通過光譜信息散度選擇樣品建立局部校正模型,張紅光等[22]利用凈信號(hào)分析結(jié)合歐式距離構(gòu)建局部模型。這些研究證實(shí)了局部建模策略的優(yōu)勢,但是多從單個(gè)角度評(píng)價(jià)不同樣品的相似程度,判斷能力有待提高。相似度準(zhǔn)則的選擇仍然是目前需要進(jìn)一步研究和解決的問題。
為了解決豬肉TVB-N預(yù)測模型在應(yīng)用中面臨的上述具體問題,本實(shí)驗(yàn)針對(duì)兩個(gè)批次的豬肉實(shí)驗(yàn)樣品,基于350~2 500 nm波段的可見-近紅外反射光譜矩陣,提出了基于距離、信息測度和投影的相似性度量方法,通過構(gòu)建相似度函數(shù)和相似度因子,建立TVB-N的局部偏最小二乘模型,提高模型的預(yù)測能力。
豬肉背最長肌部位購買于北京順鑫農(nóng)業(yè)股份有限公司鵬程食品分公司、雙匯冷鮮肉專賣店以及北京二商大紅門肉類食品有限公司。
0.01 mol/L標(biāo)準(zhǔn)鹽酸滴定溶液 廈門海標(biāo)科技有限公司;氧化鎂、硼酸、95%乙醇(均為分析純) 西隴化工股份有限公司;指示劑甲基紅和溴甲酚綠 廣東光華科技股份有限公司。
KDY-9820半自動(dòng)凱氏定氮儀 北京瑞邦興業(yè)科技有限公司;MYP11-2A磁力攪拌器 上海梅穎浦儀器儀表制造有限公司;5 mL移液槍 德國Eppendorf公司;可見-近紅外反射光譜采集系統(tǒng)如圖1所示,包括可見-短波近紅外光譜儀AvaSpec-2048x14(荷蘭Avantes公司)、長波近紅外光譜儀AvaSpec-NIR256-2.5(荷蘭Avantes公司)、Y型光纖、環(huán)形光導(dǎo)、鹵鎢燈光源等。兩臺(tái)光譜儀的波長范圍分別為350~1 100 nm和1 000~2 500 nm,以下分別簡稱為前波段光譜和后波段光譜。
圖1 可見-近紅外光譜采集系統(tǒng)示意圖Fig. 1 Schematic diagram of the visible and near-infrared spectral acquisition system
1.3.1 樣品處理及實(shí)驗(yàn)設(shè)置
本研究包括兩個(gè)批次的實(shí)驗(yàn)。在第1批實(shí)驗(yàn)中,選取屠宰后經(jīng)過排酸后熟的豬肉背最長肌部位作為樣品,去除外層筋膜后,將樣品分割為大小約8 cm×5 cm×2.5 cm(長×寬×高)的肉塊,放置在自封袋中包好并編號(hào),然后用蓄冷箱運(yùn)送至中國農(nóng)業(yè)大學(xué)工學(xué)院無損檢測實(shí)驗(yàn)室,無積壓放置在4 ℃冰箱中保存。共獲得有效實(shí)驗(yàn)樣品108 個(gè),包括鵬程肉40 個(gè),雙匯肉38 個(gè),大紅門肉30 個(gè)。為了增大TVB-N標(biāo)準(zhǔn)參考值的范圍,每天從冰箱中隨機(jī)取出9 個(gè)樣品用于光譜的采集和TVB-N含量的測定,實(shí)驗(yàn)持續(xù)12 d。
在第2批實(shí)驗(yàn)中,同樣以排酸后的豬肉背最長肌部位為樣品,包括鵬程肉15 個(gè),雙匯肉15 個(gè),大紅門肉10 個(gè)。樣品的前處理方法與第1批實(shí)驗(yàn)保持一致,分割包裝后置于4 ℃冰箱中保存待用。為了獲得不同新鮮程度的樣品,每天隨機(jī)取出4 個(gè)樣品用于實(shí)驗(yàn),共持續(xù)10 d。
上述兩個(gè)批次的實(shí)驗(yàn)在不同的時(shí)間進(jìn)行,第1批次樣品用來建立包含多個(gè)品種豬肉的校正模型并形成建?;A(chǔ)數(shù)據(jù)集,第2批次樣品用來驗(yàn)證所建模型對(duì)不同批次樣品的適用性,同時(shí)驗(yàn)證提出的局部偏最小二乘建模方法的可靠性。
1.3.2 光譜采集
實(shí)驗(yàn)開始前,將樣品從冰箱取出并在室溫下靜置,同時(shí)打開儀器進(jìn)行預(yù)熱。實(shí)驗(yàn)時(shí),首先調(diào)節(jié)環(huán)形光導(dǎo)與標(biāo)準(zhǔn)硫酸鋇白板的距離至形成光強(qiáng)均勻無暗影的光斑,確定距離為4 cm。然后,依次采集參比光譜和暗背景光譜進(jìn)行校準(zhǔn),并在樣品表面選取5 個(gè)不同位置采集反射光譜信息,平均后作為該樣品的最終光譜。
1.3.3 TVB-N理化值測定
參照GB 5009.228—2016方法對(duì)TVB-N的標(biāo)準(zhǔn)理化值進(jìn)行測定。將豬肉絞碎后準(zhǔn)確稱?。?0±0.1)g置于錐形瓶中,加入100 mL蒸餾水?dāng)嚢?0 min并過濾。然后,準(zhǔn)確量取10 mL濾液和10 mL質(zhì)量濃度為10 g/L的氧化鎂溶液,加入到消化管中蒸餾5 min,硼酸吸收液用0.01 mol/L的鹽酸標(biāo)準(zhǔn)液進(jìn)行滴定,根據(jù)消耗的鹽酸體積計(jì)算TVB-N含量。每個(gè)樣品做3 個(gè)平行實(shí)驗(yàn),取平均值作為該樣品最終TVB-N值。
1.4.1 雙波段數(shù)據(jù)融合方法
為了更加充分的利用兩個(gè)光譜儀采集的信息,需要對(duì)雙波段光譜數(shù)據(jù)進(jìn)行融合,以得到連續(xù)覆蓋整個(gè)可見光及近紅外區(qū)域的光譜曲線。融合方法如下:首先,截掉后波段光譜在1 000~1 074 nm和2 279~2 500 nm范圍內(nèi)噪音較大的光譜數(shù)據(jù);然后,保持前波段光譜在350~1 074 nm范圍及后波段光譜在1 369~2 279 nm范圍的數(shù)據(jù)不變,利用式(1)對(duì)后波段光譜在1 074~1 369 nm范圍的數(shù)據(jù)進(jìn)行拋物線擬合校正,得到校正后的光譜數(shù)據(jù);最后,將350~1 074 nm范圍的原始光譜數(shù)據(jù)、1 074~1 369 nm范圍的校正光譜數(shù)據(jù)以及1 369~2 279 nm范圍的原始光譜數(shù)據(jù)組合形成融合后的光譜矩陣。
式中:Rbefore(λ)和Rafter(λ)分別為校正前后波長λ位置處的反射率/%;a、b、c分別為拋物線擬合方程的3 個(gè)參數(shù)。由于1 369 nm為拋物線方程的頂點(diǎn),因此b和c分別是1 369和1,且為固定值。參數(shù)a通過將待融合的前后兩個(gè)波段光譜在1 074 nm波長處反射率比值代入到式(1)求得。
1.4.2 光譜預(yù)處理及建模方法
基于第1批次的實(shí)驗(yàn)樣品建立TVB-N的預(yù)測模型,并利用該模型直接預(yù)測第2批次樣品,驗(yàn)證模型在不同批次樣品之間的適用性。建模前,采用標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation,SNV)對(duì)光譜進(jìn)行預(yù)處理,消除散射對(duì)光譜的影響[23]。由于兩臺(tái)光譜儀獲取的數(shù)據(jù)間隔不同(分別為0.59 nm和6.80 nm),導(dǎo)致前后兩個(gè)波段范圍的光譜數(shù)據(jù)個(gè)數(shù)不同,前波段數(shù)據(jù)明顯多于后波段數(shù)據(jù)。為了在光譜預(yù)處理和建模過程中,兩個(gè)波段的光譜信息能具有相同的權(quán)重,采用“cublic”插值法對(duì)融合后光譜以2 nm為間隔進(jìn)行數(shù)據(jù)重排。建模采用偏最小二乘(partial least square,PLS)法分析,利用校正集相關(guān)系數(shù)(correlation coefficient in the calibration set,Rc)、預(yù)測集相關(guān)系數(shù)(correlation coefficient in the prediction set,Rp)、校正集標(biāo)準(zhǔn)分析誤差(standard error of calibration,SEC)和驗(yàn)證集標(biāo)準(zhǔn)分析誤差(standard error of prediction,SEP)對(duì)模型進(jìn)行評(píng)價(jià)。
1.4.3 局部偏最小二乘回歸模型建立
以第1批次樣品為建模基礎(chǔ)數(shù)據(jù)集,建立第2批次樣品的局部偏最小二乘回歸(locally partial least square,LPLS)模型。建模的步驟包括:首先,確定相似度函數(shù)來評(píng)價(jià)不同樣品之間的相似程度;然后,根據(jù)相似度函數(shù),在建?;A(chǔ)數(shù)據(jù)集樣品中尋找與待測樣品相似的樣品,確定局部回歸建模鄰域窗口;最后,利用局部空間內(nèi)樣品建立待測樣品的LPLS模型。各個(gè)步驟具體實(shí)施過程如下。
1.4.3.1 相似度函數(shù)選擇
為更加準(zhǔn)確全面地衡量光譜之間的相似度,提出基于距離、信息測度和投影的相似性度量方法,分別采用歐式距離、光譜信息散度(spectra information divergence,SID)和光譜角(spectra angle metric,SAM)計(jì)算不同樣品的相似程度。目前,SID和SAM在高光譜分析中有所應(yīng)用,但是在近紅外分析中應(yīng)用較少[24-27]。將SID和SAM結(jié)合使用,可以從光譜形狀和光譜信息熵角度判斷相似程度,其計(jì)算公式如式(2)所示。同時(shí)定義了相似度函數(shù)S,對(duì)歐氏距離和光譜信息散度-光譜角(spectral information divergence-spectral angle,SID-SAM)進(jìn)行加權(quán)求和,計(jì)算公式如(3)所示:
式中:x和y為待分析的兩條光譜;d(x, y)為光譜之間的歐式距離;λ為權(quán)重因子,取值范圍為0~1,當(dāng)λ為0或1時(shí),表示只計(jì)算光譜形狀信息或距離。不同樣品之間的相似程度越高,d(x, y)和SID-SAM值越小。在計(jì)算歐式距離時(shí),將原始光譜矩陣均值中心化后利用主成分分析進(jìn)行降維,利用得分矩陣代替原始矩陣計(jì)算歐式距離。
1.4.3.2 鄰域確定
利用式(2)、(3)計(jì)算出待測樣品與建?;A(chǔ)集中各樣品的相似度后,將樣品按相似性從大到小排序,依次選擇樣品組成鄰域窗口h。為了提高確定窗口h的效率,定義相似度因子SM,其計(jì)算公式如式(4)所示,其中Mmax為建立LPLS模型的最大樣品數(shù),為經(jīng)驗(yàn)值,M為實(shí)際建模的樣品數(shù),介于1和Mmax之間。相似度因子SM可理解為窗口h內(nèi)樣品的相似度總和在最大LPLS建模樣品相似度總和中的比重,可通過代價(jià)函數(shù)(式(5))計(jì)算確定,代價(jià)函數(shù)最小時(shí)的SM為LPLS建模時(shí)的SM。
式中:Si為待測樣品與排序后建模集第i個(gè)樣品的相似度;X為建立LPLS模型的樣品組成的子集;MSE為對(duì)外部驗(yàn)證樣品的預(yù)測誤差;y(k)為第k個(gè)樣品的標(biāo)準(zhǔn)參考值;f(X, k)為LPLS模型對(duì)該樣品的預(yù)測值。
1.4.3.3 LPLS模型建立
結(jié)合實(shí)驗(yàn)數(shù)據(jù)對(duì)參數(shù)λ和SM尋優(yōu),確定最佳取值后,可確定每個(gè)待測樣品LPLS模型的建模樣品。然后,利用競爭性自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling,CARS)算法實(shí)時(shí)優(yōu)選特征波長,并基于特征波長下的光譜建立LPLS模型。最佳潛變量數(shù)通過留一法交叉驗(yàn)證確定,分析流程如圖2所示,分析過程在Matlab2012a中進(jìn)行。
圖2 LPLS模型分析流程圖Fig. 2 Flow chart of local partial least squares analysis
圖3 實(shí)驗(yàn)樣品的原始光譜Fig. 3 Original spectra of experimental samples
獲得兩個(gè)波段的光譜數(shù)據(jù)后,首先利用拋物線擬合法對(duì)雙波段數(shù)據(jù)進(jìn)行融合,對(duì)某個(gè)樣品連接前后的光譜對(duì)比圖如圖3A所示。從融合前的雙波段光譜(前波段為350~1 100 nm,后波段為1 074~2 279 nm)可以看出,在1 074~1 100 nm波段范圍內(nèi),由于儀器響應(yīng)不同,兩臺(tái)光譜儀獲取的光譜數(shù)據(jù)并不一致。而利用拋物線擬合法進(jìn)行校正后,兩段光譜可以有效的融合為一條連續(xù)無陡變的光譜。融合后的兩個(gè)批次樣品的原始光譜圖如圖3B和3C所示,其中545 nm為肌紅蛋白的吸收峰,980 nm為O—H鍵的吸收峰,1 280 nm與N—H鍵振動(dòng)有關(guān),2 200 nm與C—H鍵振動(dòng)有關(guān)[28-30]。對(duì)比圖3B和C,可以看到不同批次實(shí)驗(yàn)樣品的光譜趨勢基本一致,僅在光譜強(qiáng)度上有所差異。針對(duì)一個(gè)批次樣品的光譜來看,在630~925 nm波段范圍之間,不同樣品的光譜存在差異,這可能與樣品品種和來源不同有關(guān)。
2 個(gè)批次實(shí)驗(yàn)樣品的標(biāo)準(zhǔn)參考值統(tǒng)計(jì)信息如表1所示,TVB-N含量范圍分別為7.49~44.17 mg/100 g和8.17~39.54 mg/100 g。根據(jù)GB 2707—2016《鮮(凍)畜、禽產(chǎn)品》的規(guī)定,TVB-N含量小于15 mg/100 g時(shí)樣品為新鮮肉,可見2 次實(shí)驗(yàn)均涵蓋了新鮮和腐敗的樣品,且第1次實(shí)驗(yàn)的理化值范圍大于第2次實(shí)驗(yàn)。
表1 2 個(gè)批次實(shí)驗(yàn)樣品的TVB-N含量統(tǒng)計(jì)信息Table 1 Descriptive statistics of TVB-N contents in the two sets of samples mg/100 g
對(duì)第1批實(shí)驗(yàn)樣品的雙波段光譜進(jìn)行數(shù)據(jù)融合且重排后,利用SNV對(duì)光譜進(jìn)行預(yù)處理。然后以3∶1的比例對(duì)108 個(gè)樣品進(jìn)行分組,則有80 個(gè)樣品組成校正集建立模型,28 個(gè)樣品組成驗(yàn)證集對(duì)模型進(jìn)行驗(yàn)證。建立的PLS模型預(yù)測性能較好,Rc和Rp分別為0.952 0和0.940 8,SEC和SEP分別為2.286 5 mg/100 g和2.442 4 mg/100 g。
利用2.2節(jié)中建立的PLS模型直接預(yù)測第2批實(shí)驗(yàn)樣品,驗(yàn)證所建立的模型對(duì)不同批次樣品的適用性。在進(jìn)行模型驗(yàn)證時(shí),同樣需要對(duì)第2批樣品的光譜進(jìn)行雙波段數(shù)據(jù)融合,并以2 nm為間隔進(jìn)行數(shù)據(jù)重排。進(jìn)行SNV預(yù)處理后,將光譜矩陣與2.2節(jié)建立的模型系數(shù)矩陣相乘可以得到預(yù)測值,第2批40 個(gè)樣品的真實(shí)值與預(yù)測值散點(diǎn)圖如圖4所示。
從圖4可以直觀地看出,一些樣品的預(yù)測效果不理想,真實(shí)值和預(yù)測值的偏差較大,總體相關(guān)系數(shù)R為0.845 6,SEP為4.581 0 mg/100 g。這表明不同批次實(shí)驗(yàn)樣品之間存在差異,利用建立的模型直接預(yù)測不同樣品時(shí)容易產(chǎn)生較大的誤差,模型的適用性需要進(jìn)一步增強(qiáng)。
圖4 直接預(yù)測第2批次樣品時(shí)真實(shí)值和預(yù)測值散點(diǎn)圖Fig. 4 Comparison between actual values and predicted values of the second batch of samples using the established model
由于直接利用第1批樣品建立的模型預(yù)測第2批樣品時(shí),預(yù)測結(jié)果有待提高,因此進(jìn)一步考察LPLS模型的預(yù)測效果。以第1批樣品為建?;A(chǔ)數(shù)據(jù)集,計(jì)算第2批樣品與其中每個(gè)樣品的歐式距離和SID-SAM值。從圖3可以看出,不同來源的樣品光譜存在差異,為了消除這種差異對(duì)求取歐式距離和SID-SAM值的影響,在計(jì)算之前對(duì)兩批樣品進(jìn)行極差歸一化預(yù)處理,使光譜處在一個(gè)相同的數(shù)據(jù)范圍內(nèi)。具體方法為:將樣品的光譜數(shù)據(jù)看作是p元行向量(p為變量數(shù)),將該行的每一個(gè)數(shù)據(jù)與最小值求差,然后除以該行數(shù)據(jù)中最大值和最小值的差。經(jīng)過處理后的兩批實(shí)驗(yàn)樣品光譜曲線如圖5所示,紅色和藍(lán)色分別為第1批和第2批實(shí)驗(yàn)樣品的光譜??梢姅?shù)據(jù)都映射到0~1之間,各個(gè)變量和平均值分布更加均衡,光譜間無明顯差異,有利于后續(xù)的計(jì)算和分析。
圖5 極差歸一化處理后兩個(gè)批次樣品的光譜Fig. 5 Normalization pretreated spectra of the two batches of samples
在建立LPLS預(yù)測模型,不同的λ和SM取值會(huì)獲得不同的鄰域,進(jìn)而得到不同的預(yù)測結(jié)果,因此需要對(duì)這兩個(gè)參數(shù)進(jìn)行尋優(yōu)以確定最佳取值。在計(jì)算相似度時(shí),由于距離對(duì)光譜差異的影響大于形狀和角度,因此賦予距離更大的權(quán)重,設(shè)定λ的取值分別為0.5、0.6、0.7、0.8、0.9和1.0。SM的取值直接影響建立局部模型的窗口大小,取值太大,會(huì)導(dǎo)致建立LPLS模型的樣品數(shù)太多,影響模型的準(zhǔn)確性及實(shí)時(shí)建模的速度和效率;若取值太小,會(huì)導(dǎo)致選擇的樣品數(shù)過少,不能準(zhǔn)確反映光譜特征與標(biāo)準(zhǔn)參考值之間的關(guān)系。在計(jì)算出待測樣品與建模基礎(chǔ)數(shù)據(jù)集中每個(gè)樣品的相似度后,將樣品按相似性從大到小排序。根據(jù)經(jīng)驗(yàn)值設(shè)定Mmax為40,即建立LPLS模型的最大樣品數(shù)量為40,計(jì)算出前40 個(gè)樣品的相似度總和。然后設(shè)定SM分別為0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95和1.00,共11 個(gè)取值。結(jié)合λ的6 個(gè)取值,可以得到66 種λ和SM組合,因此對(duì)于第2批實(shí)驗(yàn)中的每一個(gè)樣品,可以建立66 個(gè)LPLS預(yù)測模型,進(jìn)而得到66 個(gè)預(yù)測誤差。對(duì)每種組合下第2批40 個(gè)樣品的預(yù)測誤差求平均,比較66 種組合下的平均誤差值,通過最小化該誤差值,確定λ和SM的最佳組合。經(jīng)過比較分析,在歐式距離和SID-SAM的權(quán)重分別為0.8和0.2,相似度因子SM為0.8時(shí),第2批40 個(gè)樣品的平均預(yù)測誤差最小,因此確定0.8為λ和SM兩個(gè)參數(shù)的最優(yōu)值。
根據(jù)圖2的數(shù)據(jù)分析流程,在λ和SM值確定后,分別得到第2批40 個(gè)樣品的建模鄰域窗口,利用CARS算法實(shí)時(shí)優(yōu)選特征變量,并建立LPLS預(yù)測模型,真實(shí)值與預(yù)測值的散點(diǎn)圖如圖6所示。與圖5中直接預(yù)測的結(jié)果相比,模型效果有了明顯的改善,預(yù)測相關(guān)系數(shù)R上升至0.948 1,SEP下降至2.650 8 mg/100 g。利用顯著性檢驗(yàn)方法對(duì)真實(shí)值和預(yù)測值進(jìn)行統(tǒng)計(jì)學(xué)分析可知,P>0.05,表明兩組數(shù)據(jù)無顯著性差異。這也說明利用LPLS方法建模,能有效提高對(duì)外部驗(yàn)證樣品的預(yù)測能力。
圖6 采用局部建模方法對(duì)第2批次樣品預(yù)測結(jié)果Fig. 6 Prediction results for the second batch of samples using LPLS
本研究結(jié)合歐式距離和SID-SAM,可以更加綜合全面地評(píng)價(jià)不同光譜之間的相似性,更有利于找尋與待測樣品光譜特征相似的建模樣品。通過優(yōu)化SM值,對(duì)每一個(gè)待測樣品,均能從建?;A(chǔ)數(shù)據(jù)集樣品中動(dòng)態(tài)選擇最佳建模鄰域窗口。相比在建立LPLS模型時(shí),根據(jù)待測樣品的光譜特征,在基礎(chǔ)數(shù)據(jù)中以待測樣品為中心搜索固定距離空間內(nèi)的樣品,或搜尋與之相似性較高的固定個(gè)數(shù)的樣品,該方法具有更高的靈活性,可根據(jù)樣品特性實(shí)時(shí)優(yōu)選出最佳建模用樣品子集。在整個(gè)分析過程中,確立鄰域空間和建立模型都是根據(jù)樣品“需要”判斷后自動(dòng)進(jìn)行,具有較強(qiáng)的自適應(yīng)學(xué)習(xí)能力。與利用模型直接預(yù)測不同批次樣品的結(jié)果相比,LPLS方法具有更高的靈活性和適應(yīng)性,尤其對(duì)于樣品差異較大引起非線性問題時(shí),LPLS方法比全局PLS方法對(duì)樣品的預(yù)測能力更佳。
針對(duì)光譜法檢測豬肉TVB-N時(shí),建立的校正模型對(duì)不同批次實(shí)驗(yàn)樣品預(yù)測效果不佳的問題,提出了局部偏最小二乘法預(yù)測TVB-N含量的方法。計(jì)算外部驗(yàn)證樣品與建?;A(chǔ)數(shù)據(jù)集中所有樣品的歐式距離和SID-SAM,以權(quán)重分別為0.8和0.2對(duì)二者進(jìn)行加權(quán)求和,計(jì)算出相似度函數(shù)。以相似度因子為0.8選擇建模鄰域,對(duì)外部驗(yàn)證的每一個(gè)樣品構(gòu)建LPLS預(yù)測模型。與利用校正模型直接預(yù)測外部驗(yàn)證樣品時(shí)的結(jié)果相比,LPLS模型具有更大的預(yù)測能力,相關(guān)系數(shù)R從0.845 6上升至0.948 1,SEP從4.581 0 mg/100 g下降至2.650 8 mg/100 g。在今后的研究中,收集更多品種和來源的樣品組成建?;A(chǔ)數(shù)據(jù)集,結(jié)合本研究的方法,可以實(shí)現(xiàn)對(duì)更多樣品的無損預(yù)測。此外,也可將該方法應(yīng)用于利用可見-近紅外光譜法預(yù)測豬肉其他參數(shù)的研究中。