劉 崢 殷 勇
(河南科技大學(xué)食品與生物工程學(xué)院,河南 洛陽(yáng) 471023)
在香腸的制作過(guò)程中,為了呈現(xiàn)良好的色澤和防止腐蝕,會(huì)加入一定量的亞硝酸鹽。隨著香腸存放時(shí)間的延長(zhǎng),原先添加的亞硝酸鹽會(huì)分解消耗掉一部分,而香腸中的肉品本身也會(huì)產(chǎn)生一部分亞硝酸鹽,導(dǎo)致香腸在儲(chǔ)藏過(guò)程中亞硝酸鹽含量不斷變化,存在不確定性。由于亞硝酸鹽的毒性強(qiáng),攝入過(guò)多時(shí)會(huì)讓血液中的血紅蛋白轉(zhuǎn)化成高鐵血紅蛋白,失去輸送氧氣的能力,使組織產(chǎn)生缺氧,引起紫紺現(xiàn)象甚至死亡[1]。
現(xiàn)階段,檢測(cè)食品中亞硝酸鹽的主要方法有高效液相色譜法[2]、國(guó)際格里斯(Griess)試劑比色法[3]、熒光光度法[4-5]、毛細(xì)管電泳法[6]、離子色譜法[7]等。雖然這些方法較為普遍,但是存在操作復(fù)雜,對(duì)環(huán)境敏感,適用范圍窄等問(wèn)題。而高光譜技術(shù)具有可視性、快速性等優(yōu)點(diǎn),在水果[8-9]、小麥[10]、玉米[11]、茶葉[12]等農(nóng)副產(chǎn)品品質(zhì)檢測(cè)中得以廣泛地運(yùn)用。文獻(xiàn)檢索發(fā)現(xiàn),利用高光譜技術(shù)針對(duì)肉制品中亞硝酸鹽檢測(cè)的研究報(bào)道比較少。陳曉東等[13]利用高光譜技術(shù)研究了香腸中亞硝酸鹽的預(yù)測(cè)方法,指出了高光譜技術(shù)檢測(cè)香腸中亞硝酸鹽的可行性。但是,該文是基于主成分分析提取的特征所構(gòu)建的預(yù)測(cè)模型還不能較好地滿足實(shí)用要求,模型最高預(yù)測(cè)精度僅為0.918。本試驗(yàn)擬從回歸模型輸入信息的選擇方面作為切入點(diǎn)嘗試提升高光譜技術(shù)檢測(cè)香腸在儲(chǔ)藏過(guò)程中亞硝酸鹽含量的準(zhǔn)確性。
香腸樣品:雙匯潤(rùn)口香甜王玉米風(fēng)味香腸,購(gòu)于超市。樣品保質(zhì)期為120 d,儲(chǔ)藏方式與購(gòu)買時(shí)超市的存放方式相同,即自然條件(溫室環(huán)境)下儲(chǔ)藏。由于購(gòu)買日期是生產(chǎn)日期的第29天,所以試驗(yàn)選取儲(chǔ)藏30,50,70,90,110,130,150 d的香腸樣品進(jìn)行亞硝酸鹽含量檢測(cè)。每個(gè)樣品分別選取40個(gè)樣本,每個(gè)樣本含量為(24.0±0.5) g,包含21個(gè)香腸切片。其中,任選30個(gè)樣本構(gòu)造訓(xùn)練集,共210個(gè)樣本;剩余的10個(gè)樣本構(gòu)造測(cè)試集,共70個(gè)樣本。在模型構(gòu)建中,隨機(jī)生成3組訓(xùn)練集及其對(duì)應(yīng)的測(cè)試集來(lái)分別構(gòu)建模型和校驗(yàn)?zāi)P停哉f(shuō)明研究結(jié)果的可靠性。
實(shí)驗(yàn)采用的高光譜系統(tǒng)是由計(jì)算機(jī)、光譜儀(IST 50-3810型,德國(guó)Inno-spec公司,光譜范圍為371.05~1 023.82 nm,涵蓋可見光和部分近紅外光譜)、4個(gè)500 W 的光纖鹵素?zé)?RK90000420108型,德國(guó)Esylux公司)和傳送裝置等組成。其示意圖與性能參數(shù)與劉燕德等[14]使用的裝置相同。
在采集樣品高光譜數(shù)據(jù)時(shí),將香腸樣品切片平鋪在規(guī)格為10 cm×1 cm的培養(yǎng)皿中,再將盛有樣品的培養(yǎng)皿放置在傳送帶上,帶速2 mm/s,用SICap-STVR V1.0.x 控制驅(qū)動(dòng),獲得高光譜信息采集結(jié)果。每個(gè)測(cè)試樣本的高光譜反射值采用ENVI 4.8軟件提取,最終可以采集到1 288個(gè)波段的高光譜反射值。在采集樣本的高光譜圖像時(shí),須進(jìn)行黑白校正。具體校正方法為:白板校正是使用白色特氟龍(Teflon)標(biāo)準(zhǔn)矯正板進(jìn)行掃描得到全白的標(biāo)定圖像,黑板校正則是關(guān)閉光源及相機(jī)鏡頭得到全黑的標(biāo)定圖像。
其他數(shù)據(jù)處理方法均在Matlab 2014a平臺(tái)上實(shí)現(xiàn)。
采集高光譜信息時(shí),會(huì)受到高光譜儀器的電路噪聲干擾,而且樣品表面不平整也會(huì)影響到原始光譜數(shù)據(jù)的采集。所以,為了減少這些外界因素對(duì)光譜信息的干擾,在建立模型之前需對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。采用Savitzky-Golary卷積平滑法(SG平滑)對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理[15-16]。Savitzky-Golary卷積平滑法是通過(guò)多項(xiàng)式來(lái)對(duì)移動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行多項(xiàng)式最小二乘擬合,其實(shí)質(zhì)是一種加權(quán)平均法,更強(qiáng)調(diào)中心點(diǎn)的中心作用[17]。
采用GB 5009.33—2016的檢測(cè)方法。對(duì)所選擇的每個(gè)儲(chǔ)存時(shí)間的樣品進(jìn)行3次平行樣本測(cè)試,取平均值作為檢測(cè)結(jié)果。
因高光譜信息共有1 288個(gè)波段的光譜數(shù)據(jù),數(shù)據(jù)繁多,會(huì)提高建模時(shí)的復(fù)雜度,所以在高光譜分析中通常會(huì)進(jìn)行特征波長(zhǎng)的提取[18-19]。在特征波長(zhǎng)提取方法上,常用偏最小二乘回歸系數(shù)大小作為選擇特征波長(zhǎng)的依據(jù)[20-21]。因此,采用偏最小二乘回歸系數(shù)提取特征波長(zhǎng)。
1.7.1 多元回歸 多元回歸是對(duì)相關(guān)隨機(jī)變量進(jìn)行預(yù)測(cè),確定這些變量之間數(shù)量關(guān)系的可能形式,并用數(shù)學(xué)模型來(lái)表示。多元回歸模型的精確度由決定系數(shù)(determination coefficients,R2)、均方根誤差(root mean squared error,RMSE)2個(gè)指標(biāo)決定,R2越接近于1,精度越高,模型越穩(wěn)定,RMSE越小,模型的預(yù)測(cè)能力越高。
1.7.2 主成分回歸 主成分回歸(PCR) 是目前處理高維復(fù)雜數(shù)據(jù)時(shí)非常有效的方法之一。它可以對(duì)復(fù)雜的高維數(shù)據(jù)進(jìn)行降維,在不丟失主要數(shù)據(jù)信息的情況下選擇維數(shù)較少的新變量來(lái)代替原來(lái)較多的變量,以排除眾多信息共存中相互重疊的現(xiàn)象以及夾雜的噪聲等干擾,還可以解決高維數(shù)據(jù)的多重共線性問(wèn)題,從而使預(yù)測(cè)結(jié)果更加準(zhǔn)確合理。本研究采用R2和RMSE進(jìn)行評(píng)價(jià),R2越接近于1,精度越高,模型越穩(wěn)定,RMSE越小,模型的預(yù)測(cè)能力越高。
1.7.3 偏最小二乘回歸 偏最小二乘回歸(PLSR)是一種多元統(tǒng)計(jì)數(shù)據(jù)分析方法,可以同時(shí)實(shí)現(xiàn)回歸建模、簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)和分析2組變量間的相關(guān)性。PLSR模型預(yù)測(cè)精度取決于R2、RMSE兩個(gè)指標(biāo),R2越接近于1,精度越高,模型越穩(wěn)定,RMSE越小,模型的預(yù)測(cè)能力越高。
由表1可知,香腸在儲(chǔ)藏過(guò)程中亞硝酸鹽含量是變化的、不確定的。因此,對(duì)香腸儲(chǔ)藏過(guò)程中亞硝酸鹽的檢測(cè)、監(jiān)控是必要的。
為了減少外界因素對(duì)于光譜信息的干擾,需對(duì)原始光譜數(shù)據(jù)進(jìn)行SG平滑處理。從圖1、2中可以看出,經(jīng)過(guò)SG平滑法處理過(guò)的光譜曲線相較于原始光譜曲線更平滑,受到的噪音影響很小,有利于后期模型的建立。
表1 亞硝酸鹽理化試驗(yàn)結(jié)果
Table 1 Physicochemical test results of nitrite content
圖1 原始光譜圖
圖2 經(jīng)SG平滑處理后的光譜圖
可見—近紅外高光譜中波長(zhǎng)范圍是371.05~1 023.82 nm,但試驗(yàn)操作過(guò)程中由于首尾波段受環(huán)境及儀器噪聲影響較為嚴(yán)重,因此在光譜信息分析的過(guò)程中應(yīng)只考慮400~1 000 nm波段下的信息。對(duì)全波長(zhǎng)數(shù)據(jù)經(jīng)偏最小二乘回歸分析后,得到的回歸曲線如圖3所示。第1主成分涵蓋的信息較為全面和常見,波動(dòng)較小,不能較好地體現(xiàn)樣本間的差異;第2主成分有一定的波動(dòng),可部分體現(xiàn)樣本間的差異,所以選取第2主成分回歸系數(shù)的最大值和最小值所對(duì)應(yīng)的波長(zhǎng)作為2個(gè)特征波長(zhǎng);第3主成分波動(dòng)明顯,可較好地體現(xiàn)樣本間的差異,所以選取第3主成分所有波峰和波谷的回歸系數(shù)所對(duì)應(yīng)的波長(zhǎng)作為特征波長(zhǎng)。這樣,第2主成分有2個(gè)特征波長(zhǎng),第3主成分有27個(gè)特征波長(zhǎng),共計(jì)29個(gè)特征波長(zhǎng)。
2.4.1 特征波長(zhǎng)下多元回歸建模 直接將29個(gè)特征波長(zhǎng)作為模型的輸入變量,進(jìn)行回歸分析。圖4給出了第1組數(shù)據(jù)集的預(yù)測(cè)結(jié)果。由圖4可以看出,預(yù)測(cè)值與真實(shí)值相差較大,預(yù)測(cè)結(jié)果精確度不高。表2給出了3組測(cè)試集模型預(yù)測(cè)結(jié)果的R2與RMSE,從表2中可以看出,3組預(yù)測(cè)集R2最高為0.858 8,對(duì)應(yīng)的RMSE為0.168 7,預(yù)測(cè)結(jié)果不理想??紤]到各個(gè)特征波長(zhǎng)之間會(huì)存在一定的相關(guān)性,影響建模的精度,故嘗試建立特征波長(zhǎng)下主成分回歸和偏最小二乘回歸的預(yù)測(cè)模型。
圖3 權(quán)重系數(shù)圖
圖4 特征波長(zhǎng)下多元回歸結(jié)果
2.4.2 主成分回歸模型的定量分析 對(duì)29個(gè)特征波長(zhǎng)變量進(jìn)行PCA分析,得到按貢獻(xiàn)率從大到小排序的29個(gè)主成分。經(jīng)比較,在提取前26個(gè)主成分時(shí)預(yù)測(cè)結(jié)果準(zhǔn)確性相對(duì)較高,如圖5所示(以第1組測(cè)試集為例,下同)。表3為3組測(cè)試集模型預(yù)測(cè)結(jié)果的R2與RMSE,從表3中可以看出, 3組測(cè)試集的預(yù)測(cè)結(jié)果的R2最高為0.896 1,對(duì)應(yīng)的RMSE為0.148 8,模型精度仍不理想。
表3特征波長(zhǎng)下的主成分回歸與偏最小二程回歸結(jié)果
Table3Principalcomponentregressionandpartialleastsquaresregressionresultsatcharacteristicwavelengths
2.4.3 偏最小二乘回歸模型的定量分析 對(duì)于PLSR模型的構(gòu)建,經(jīng)比較,同樣在提取前26個(gè)主成分時(shí)預(yù)測(cè)結(jié)果相對(duì)較高,如圖6所示。表3給出了3組測(cè)試集模型預(yù)測(cè)結(jié)果的決定系數(shù)與均方根誤差,從表3中可以看出,3組測(cè)試集的預(yù)測(cè)結(jié)果的決定系數(shù)R2最高為0.911 1,對(duì)應(yīng)的均方根誤差RMSE為0.139 7。模型精度有所提高,但還是不太理想。
綜合基于特征波長(zhǎng)的檢測(cè)結(jié)果來(lái)看,在特征波長(zhǎng)下建立PCR和PLSR預(yù)測(cè)模型的結(jié)果雖然比直接回歸建模分析的結(jié)果較優(yōu),但仍不很理想,且模型的變量?jī)H降到26個(gè),比29個(gè)特征波長(zhǎng)并無(wú)明顯的減少,建模的復(fù)雜度仍較高。陳曉東等[13]在用主成分分析方法提取特征波長(zhǎng)的基礎(chǔ)上構(gòu)建了預(yù)測(cè)模型,但預(yù)測(cè)精度只有0.918,且數(shù)據(jù)處理過(guò)程繁雜。這可能是選擇特征波長(zhǎng)表達(dá)的信息不夠全面,不能充分體現(xiàn)原始數(shù)據(jù)的信息,從而導(dǎo)致了預(yù)測(cè)模型的精度不高。而岳學(xué)軍等[22]采用全波長(zhǎng)數(shù)據(jù)信息作為模型輸入向量較好地實(shí)現(xiàn)了對(duì)柑橘葉片葉綠素含量的檢測(cè)。受此啟發(fā),本試驗(yàn)嘗試了在全波長(zhǎng)下建立PCR和PLSR預(yù)測(cè)模型的效果。
圖5 特征波長(zhǎng)下主成分回歸結(jié)果
圖6 特征波長(zhǎng)下偏最小二乘回歸的結(jié)果
為了克服特征波長(zhǎng)不能充分表征原始光譜信息這一問(wèn)題,本試驗(yàn)對(duì)1 288個(gè)全波長(zhǎng)數(shù)據(jù)進(jìn)行PCA分析;同時(shí)選取前29個(gè)主成分作為回歸模型的輸入向量,這樣可以與特征波長(zhǎng)下的定量分析結(jié)果形成對(duì)比。
2.5.1 主成分回歸的定量分析 在全波長(zhǎng)下建立PCR預(yù)測(cè)模型,基于前29個(gè)主成分構(gòu)建的模型得到的預(yù)測(cè)結(jié)果如圖7所示。從圖7中可以看出,預(yù)測(cè)值與真實(shí)值較為接近,預(yù)測(cè)結(jié)果精確度提高。表4為3組測(cè)試集模型預(yù)測(cè)結(jié)果的R2與RMSE,從表4中可以看出,3組測(cè)試集模型預(yù)測(cè)結(jié)果的R2最高為0.952 2,對(duì)應(yīng)的RMSE為0.097 4。模型精度較高,預(yù)測(cè)結(jié)果較為理想。
2.5.2 偏最小二乘回歸的定量分析 在全波長(zhǎng)下建立PLSR預(yù)測(cè)模型,其主成分變量仍為前29個(gè),得到的預(yù)測(cè)結(jié)果如圖8所示。圖8表明,預(yù)測(cè)值與真實(shí)值非常接近,預(yù)測(cè)結(jié)果精度很高。表4為3組測(cè)試集模型預(yù)測(cè)結(jié)果的R2與RMSE,從表4中可以看出,3組測(cè)試集模型預(yù)測(cè)結(jié)果的R2最高為0.982 9,對(duì)應(yīng)的RMSE為0.059 2。模型精度很高,預(yù)測(cè)結(jié)果非常理想。
預(yù)測(cè)結(jié)果可以表明,全波長(zhǎng)下建立的預(yù)測(cè)模型結(jié)果精確度較高,且偏最小二乘回歸的結(jié)果高于主成分回歸的,決定系數(shù)可以高達(dá)0.978 8以上。因此,在全波長(zhǎng)下建立偏最小二乘回歸的預(yù)測(cè)模型可以滿足檢測(cè)要求。綜上研究認(rèn)為,在全波長(zhǎng)下建立的主成分回歸和偏最小二乘回歸預(yù)測(cè)模型,將變量也降低到了29個(gè),遠(yuǎn)低于1 288個(gè)波長(zhǎng),省去了特征波長(zhǎng)的選擇計(jì)算,不僅簡(jiǎn)化了數(shù)據(jù)處理步驟,而且還能得到較為理想的預(yù)測(cè)結(jié)果。另外,也可以認(rèn)為,全波長(zhǎng)下的前29個(gè)主成分可以較充分地表征原始光譜數(shù)據(jù)的信息。
表4全波長(zhǎng)下的主成分回歸與偏最小二乘回歸結(jié)果
Table4Principalcomponentregressionandpartialleastsquaresregressionresultsatfullwavelength
測(cè)試集編號(hào)主成分回歸R2RMSE偏最小二乘回歸R2RMSE10.952 20.097 40.982 90.059 220.938 30.112 90.978 80.064 730.950 70.100 20.980 20.066 2
圖7 全波長(zhǎng)下主成分回歸的結(jié)果
圖8 全波長(zhǎng)下偏最小二乘回歸的結(jié)果
采用高光譜技術(shù)檢測(cè)香腸儲(chǔ)藏中亞硝酸鹽含量時(shí),在提取特征波長(zhǎng)的基礎(chǔ)上進(jìn)行回歸模型構(gòu)建,得到的模型精度不高,效果不理想,預(yù)測(cè)精度最高只達(dá)到了0.911 1,且數(shù)據(jù)處理過(guò)程復(fù)雜。直接在全波長(zhǎng)之下建立的預(yù)測(cè)模型既可以提高預(yù)測(cè)結(jié)果的精度,又可以降低從預(yù)處理到建模計(jì)算過(guò)程中的復(fù)雜性。所以全波長(zhǎng)信息作為香腸儲(chǔ)藏過(guò)程中亞硝酸鹽含量高光譜檢測(cè)模型信息的輸入是合適的。另外,考慮到提取特征波長(zhǎng)在高光譜研究中的優(yōu)勢(shì),在今后的研究中,應(yīng)該對(duì)特征波長(zhǎng)的提取方法進(jìn)行更多的嘗試,以提高檢測(cè)模型的預(yù)測(cè)精度。