榮菡,甘露菁
(北京理工大學(xué)珠海學(xué)院材料與環(huán)境學(xué)院,珠海廣東519088)
鮮牛乳富含蛋白質(zhì)、脂肪、乳糖,以及各種維生素和礦物質(zhì),營(yíng)養(yǎng)價(jià)值較高,被譽(yù)為“白色理想食品”。目前在我國(guó)乳品市場(chǎng)中,一些奶農(nóng)或奶站為謀取利潤(rùn)在牛乳中加入復(fù)原乳、乳清粉,甚至加入植物奶油、粉末油脂、糊精等非乳物質(zhì),勾兌出與牛乳成分相似的假乳。
近紅外光譜技術(shù)是基于近紅外光譜信號(hào)量豐富、測(cè)量形式多樣化的特點(diǎn),對(duì)所包含物質(zhì)信息對(duì)檢測(cè)物進(jìn)行定性和定量分析的一種技術(shù),具有操作便捷、無(wú)損檢測(cè)、綠色環(huán)保、分析準(zhǔn)確等優(yōu)勢(shì),目前已廣泛用于食品及農(nóng)產(chǎn)品、生物醫(yī)藥、石油化工等領(lǐng)域。
自組織競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)是一類(lèi)無(wú)教師學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,其無(wú)需期望輸出,根據(jù)數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)并調(diào)整自身的權(quán)重以達(dá)到訓(xùn)練的目的。它在工程、船舶雷達(dá)、遙感圖像、環(huán)境氣體等領(lǐng)域有相關(guān)研究[1-4],在食品定性模式識(shí)別研究中應(yīng)用較少。
國(guó)內(nèi)外有關(guān)近紅外光譜技術(shù)應(yīng)用于牛乳摻假的研究多采用與化學(xué)計(jì)量學(xué)方法聯(lián)用,通過(guò)不同的聚類(lèi)算法建立定性判別模型[5-7],而與自組織競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)聯(lián)用,應(yīng)用于食品摻偽研究,特別是牛乳摻偽鑒別方面并不多見(jiàn)。本方法能夠?qū)崿F(xiàn)相似度較高的鮮牛乳與復(fù)原乳的定性判別,為牛乳的品質(zhì)指標(biāo)的快速評(píng)價(jià),提供一種新方法;為牛乳生產(chǎn)企業(yè)在線(xiàn)控制產(chǎn)品質(zhì)量提供一定的技術(shù)支持。
傅里葉變換拓展近紅外光譜儀及近紅外光纖探頭(美國(guó),Thermo Nicole公司);OMNIC7.0、TQ7.0、Matlab2017a軟件;生鮮乳,廠(chǎng)家從奶源產(chǎn)地提供;奶粉,市售。
從不同來(lái)源的生鮮乳奶源產(chǎn)地取樣,每天下午定時(shí)采樣,采集后放入4℃便攜冰箱中冷藏運(yùn)回,立即進(jìn)行光譜采集。
1.2.1 配制復(fù)原乳
復(fù)原乳樣品由市場(chǎng)購(gòu)得的四種不同品牌的奶粉兌水,按奶粉的含量配制成濃度梯度范圍在1%~100%之間的復(fù)原乳。
1.2.2 采集譜圖
采集全部樣品共540個(gè),分為訓(xùn)練校正集500個(gè),預(yù)測(cè)集40個(gè)。
石英杯裝約占容積1/4的樣品,置于光纖架上掃描近紅外光譜。每個(gè)樣品采集6次譜圖,取其平均光譜圖參與建模,掃描條件為:掃描范圍4 200~10 000 cm-1,掃描次數(shù)為72次,分辨率為8 cm-1。
樣品譜圖如圖1所示。從譜圖可知,鮮乳與復(fù)原乳譜圖形狀曲線(xiàn)及其相似,譜圖無(wú)明顯差異,因此難以用常規(guī)理化檢驗(yàn)的方法對(duì)其加以區(qū)分。
圖1 鮮乳和復(fù)原乳的近紅外譜圖
采用光譜分析軟件OMNIC7.0將訓(xùn)練集光譜轉(zhuǎn)換成數(shù)據(jù),用偏最小二乘法(PLS)對(duì)原始數(shù)據(jù)壓縮,提取主成分。取前4個(gè)主成分的96個(gè)吸收峰值作為網(wǎng)絡(luò)的輸入向量。并采用預(yù)測(cè)集樣品對(duì)模型進(jìn)行驗(yàn)證。
樣品全波長(zhǎng)段的光譜量巨大,信息繁雜冗余,因此需使用光譜分析軟件OMNIC7.0和TQ 7.0軟件對(duì)樣品數(shù)據(jù)進(jìn)行壓縮,采用偏最小二乘法(PLS)確定能夠代表樣品信息的最適主成分因子數(shù)。
樣品光譜數(shù)據(jù)經(jīng)過(guò)PLS法壓縮后主成分得分如表1所示。由表可知,當(dāng)提取4個(gè)主成分時(shí),累計(jì)貢獻(xiàn)率信度得分達(dá)99.562%,幾乎可涵蓋樣品所有信息。
本實(shí)驗(yàn)取前4個(gè)主成分的96個(gè)吸收峰值作為網(wǎng)絡(luò)的輸入向量。
根據(jù)樣本量,基于網(wǎng)絡(luò)穩(wěn)定性考慮,按學(xué)習(xí)速率從小到大的順序分別取0.01、0.05、0.1做網(wǎng)絡(luò)穩(wěn)定性?xún)?yōu)化實(shí)驗(yàn),實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)學(xué)習(xí)速率0.01時(shí),學(xué)習(xí)速率過(guò)小,無(wú)法包含所有的樣品信息;當(dāng)學(xué)習(xí)速率0.1時(shí),樣本數(shù)據(jù)訓(xùn)練容易過(guò)度,無(wú)法代表有效的樣品信息。當(dāng)學(xué)習(xí)速率0.05時(shí),此時(shí)網(wǎng)絡(luò)性能最好,預(yù)測(cè)誤差達(dá)到最小。因此本實(shí)驗(yàn)在對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),學(xué)習(xí)速率取0.05。
表1 經(jīng)偏最小二乘法處理后主成分貢獻(xiàn)率信度得分情況
訓(xùn)練步數(shù)是神經(jīng)網(wǎng)絡(luò)的重要參數(shù),訓(xùn)練次數(shù)過(guò)多會(huì)造成網(wǎng)絡(luò)的過(guò)擬合,訓(xùn)練次數(shù)過(guò)少則使網(wǎng)絡(luò)難以收斂,達(dá)不到訓(xùn)練要求。樣品數(shù)據(jù)經(jīng)PLS法壓縮主成分后,用Matlab2017a軟件對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)驗(yàn)表明,當(dāng)網(wǎng)絡(luò)訓(xùn)練200步左右即可完成鮮乳和復(fù)原乳的模式識(shí)別訓(xùn)練,如圖2所示。
圖2 網(wǎng)絡(luò)訓(xùn)練過(guò)程
表2是自組織競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)模型對(duì)40個(gè)預(yù)測(cè)集樣品的模式識(shí)別結(jié)果,以1、2分別代表復(fù)原乳樣品和鮮乳作為目標(biāo)輸出,模型預(yù)測(cè)識(shí)別率為100%。
本實(shí)驗(yàn)以不同奶源基地的鮮牛乳為基礎(chǔ)構(gòu)建牛乳真?zhèn)文P?,與單一奶源數(shù)據(jù)建模相比,模型包容性更好,且對(duì)來(lái)自不同奶源基地的鮮乳均能正確識(shí)別,預(yù)測(cè)結(jié)果準(zhǔn)確。充分證明采用自組織競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò),即使在樣本數(shù)量不大的情況下,仍能調(diào)整自身權(quán)重以達(dá)成訓(xùn)練,在逼近能力、分類(lèi)能力方面優(yōu)勢(shì)明顯。
在牛乳真?zhèn)蔚蔫b別中,基于近紅外光譜與自組織映射神經(jīng)網(wǎng)絡(luò)聯(lián)用,經(jīng)偏最小二乘法(PLS)處理后,提取4個(gè)主成分,使用96個(gè)吸收峰數(shù)據(jù)輸入網(wǎng)絡(luò),網(wǎng)絡(luò)學(xué)習(xí)速率為0.05,訓(xùn)練步數(shù)200步時(shí),所建模型性能穩(wěn)定,預(yù)測(cè)精度良好,在復(fù)原乳含量濃度的梯度范圍在1%~100%之間,對(duì)預(yù)測(cè)集樣品識(shí)別準(zhǔn)確率達(dá)100%。
近紅外光譜技術(shù)與非線(xiàn)性模式識(shí)別的神經(jīng)網(wǎng)絡(luò)聯(lián)用時(shí),預(yù)測(cè)結(jié)果良好,但仍需考慮技術(shù)檢測(cè)限的限制,當(dāng)摻假物濃度含量高于近紅外光譜檢出限時(shí)方能取得較好效果。
經(jīng)PLS法提取的可代表樣品信息的前幾個(gè)主成分,網(wǎng)絡(luò)輸入向量必須選擇敏感吸收峰數(shù)據(jù)予以建模,這樣才能充分反映樣品光譜信息與樣品組成或性質(zhì)間的相關(guān)關(guān)系。筆者研究近紅外光譜技術(shù)與自組織競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)聯(lián)用,在鮮乳和摻假乳鑒別研究中發(fā)現(xiàn)[8-9],選擇敏感吸收峰數(shù)據(jù)作為網(wǎng)絡(luò)的輸入向量是構(gòu)建模型關(guān)系到預(yù)測(cè)準(zhǔn)確率的關(guān)鍵因素,在本研究中之所以采用96個(gè)吸收峰數(shù)據(jù)予以建模,這是因?yàn)轷r乳與復(fù)原乳組成成分已并無(wú)大異,需要足夠數(shù)量的吸收峰數(shù)據(jù)作為網(wǎng)絡(luò)的輸入向量才能較好反映兩者的差異性。
表2 模式識(shí)別模型對(duì)預(yù)測(cè)集樣品的預(yù)測(cè)結(jié)果