榮菡 羅懿 黃鏝淳
摘要 [目的]采用近紅外光譜技術(shù)法,快速鑒別茶油摻偽。[方法]基于近紅外光譜技術(shù),比較馬氏距離聚類分析法與反向傳播神經(jīng)網(wǎng)絡(luò),建立茶油與摻有菜籽油、棕櫚油摻偽茶油的模式識別模型。[結(jié)果]采用馬氏距離聚類分析法建模時(shí),參數(shù)如下:光譜一階導(dǎo)數(shù)處理后,結(jié)合SNV、Norris Derivative濾波方法,經(jīng)主成分分析法,提取8個(gè)主成分,模型對預(yù)測集樣本的準(zhǔn)確率達(dá)100%;采用反向傳播神經(jīng)網(wǎng)絡(luò)建模時(shí),參數(shù)如下:輸入向量為前8個(gè)主成分的33個(gè)吸收峰,隱含層神經(jīng)元個(gè)數(shù)為15,訓(xùn)練學(xué)習(xí)速度為0.1,訓(xùn)練220步時(shí),模型對預(yù)測集樣品識別準(zhǔn)確率亦為100%。[結(jié)論]反向傳播神經(jīng)網(wǎng)絡(luò)方法更加具有較快的運(yùn)算速度和較好的收斂性,可為茶油品質(zhì)評價(jià)與檢測提供一種新方法。
關(guān)鍵詞 近紅外光譜;模式識別;馬氏距離;反向傳播神經(jīng)網(wǎng)絡(luò);茶油;摻偽油
中圖分類號 TS227文獻(xiàn)標(biāo)識碼 A
文章編號 0517-6611(2019)19-0204-03
Abstract [Objective]Using nearinfrared spectroscopy technology to quickly identify camellia oil adulteration.[Method]Based on near infrared spectroscopy, two pattern recognition models were developed for discriminating camellia oil and adulterated oil with rapeseed oil and palm oil, which were bulit by Mahalanobis distance discriminative model and BackPropagation (BP) network.[Result]When modeling with Mahalanos distance clustering, the parameters were as follows:first derivative spectrum combined with standard normal variate (SNV)and Norris Derivative, 8 principal components compressed from the original data processed by PCA, the models accuracy of discrimination in the prediction set was 100%. When modeling with BP neural networks, the parameters were as follows:33 absorption peaks data, 8 principal components processed by PCA were taken as inputs of the BP Network, the number of hidden neurons was 15, learning rate was 0.1, training steps were 220, the BP model was built for identification of camellia oil and adulterated oil, and the models recognition correct rate was 100%. [Conclusion]The BP network has rapider operation speed, better convergence,which provides a new method for the quality evaluation and determination of camellia oil.
Key words Near infrared spectroscopy;Pattern recognition;Mahalanobis distance;Backpropagation network;Camellia oil;Adulterated oil
茶油是維持人體新陳代謝和生命活動不可缺少的供能營養(yǎng)物質(zhì),為人體提供必需脂肪酸和脂溶性維生素,因其豐富的單不飽和脂肪酸,在清理血栓、調(diào)節(jié)血脂、促進(jìn)神經(jīng)細(xì)胞發(fā)育、抗炎性等方面的重要功效更加突出。不同的食用植物油因脂肪酸組成不同,營養(yǎng)價(jià)值存在較大的差異,市場售價(jià)也存在較大的差別。一些商家為謀取利潤,會在茶油中摻入玉米油、大豆油、菜籽油、棕櫚油等較低價(jià)位的植物油,降低茶油營養(yǎng)價(jià)值,影響消費(fèi)者的健康。
目前,在茶油品質(zhì)檢測技術(shù)中,主要是通過檢測其質(zhì)量特征指標(biāo),比如酸價(jià)、過氧化值、脂肪酸組成等,理化檢測法和感官評價(jià)法適用于食用油品質(zhì)的初步判斷;氣相色譜法和氣質(zhì)聯(lián)用法等儀器分析法則需要對樣品進(jìn)行甲酯化預(yù)處理且分析時(shí)間較長,對于脂肪酸組成和含量與茶油接近的植物油,很難通過脂肪酸的指標(biāo)加以鑒別[1];近紅外光譜技術(shù)基于近紅外光譜信號量豐富、測量形式多樣化的特點(diǎn),能夠?qū)z測物進(jìn)行快速、無損的定性和定量檢測。在茶油品質(zhì)檢測中,最常見的是化學(xué)計(jì)量學(xué)中的偏最小二乘法(PLS)、線性判別分析(LDA)、簇類獨(dú)立模式法(SIMCA)用于摻偽油的分類與摻偽量的定量檢測,這些是基于因子分析的線性體系的多元校正方法,面對摻偽量含量較低的茶油摻偽體系時(shí),仍具有一定的局限性[2-5]。鑒于茶油組成成分的官能團(tuán)與近紅外光譜信息的有效性較為復(fù)雜,由大量的基本神經(jīng)元相互聯(lián)接而成的人工神經(jīng)網(wǎng)絡(luò)在茶油摻偽這類非線性動態(tài)體系中,在信息處理、運(yùn)算速度、模式識別等方面優(yōu)點(diǎn)突出,可作為解決非線性校正問題最優(yōu)方法之一[6-10]。
近紅外光譜技術(shù)具有綠色環(huán)保、無損、信號量豐富的特點(diǎn),相比傳統(tǒng)的理化檢測費(fèi)時(shí)且檢測條件受限等問題,該試驗(yàn)采用近紅外光譜技術(shù)與化學(xué)計(jì)量學(xué)結(jié)合,通過試驗(yàn)比較基于線性系統(tǒng)下的馬氏距離聚類分析法,以及基于非線性系統(tǒng)的反向傳播神經(jīng)網(wǎng)絡(luò),建立茶油與摻有菜籽油、棕櫚油摻偽茶油的模式識別模型,以期為茶油摻偽快速檢測甚至大批量在線檢測與評價(jià)茶油品質(zhì)提供新思路。
1 材料與方法
1.1 儀器與試劑
儀器:傅里葉變換拓展近紅外光譜儀及近紅外光纖探頭(美國,Thermo Nicole公司)。軟件:OMNIC7.0、TQ7.0、Matlab2017a。
食用油:市面購得茶油、菜籽油、棕櫚油3類油品,每種油至少采購4個(gè)不同品牌作為建模樣品,經(jīng)純度鑒定均為100%純正油品。
1.2 摻偽油配制
摻有菜籽油、棕櫚油的摻偽油,摻偽油含量濃度為10%~40%的梯度進(jìn)行配制,共100個(gè)摻偽油樣品。
1.3 采集譜圖
茶油與摻偽油全部樣品共180個(gè),分為訓(xùn)練校正集樣品150個(gè)、預(yù)測集樣品30個(gè)。樣品充分混合均勻,放置于專業(yè)近紅外光譜測試室的適宜條件下,進(jìn)行光譜采集。
石英杯裝約占容積1/4的樣品,保證樣品液面高于5 cm,將近紅外光譜光纖插入樣品中,每個(gè)樣品采集6次譜圖,取其平均光譜參與建模,掃描條件:PbS檢測器,白光光源,增益為1.0,動鏡速度為0.632 9,掃描范圍4 200~10 000 cm-1,掃描次數(shù)為72次,分辨率為8 cm-1。
樣品譜圖如圖1所示。從譜圖可知,茶油與摻偽油譜圖無明顯差異,因此難以用常規(guī)檢驗(yàn)的方法加以區(qū)分。
1.4 主成分分析-馬氏距離法構(gòu)建茶油與摻偽油的定性判別模型
樣品光譜矩陣通過主成分分析進(jìn)行降維處理,用各光譜的主成分得分計(jì)算馬氏距離。根據(jù)主成分得分向量描述的2個(gè)樣本i,j 間的馬氏距離計(jì)算公式如下:
它是一種基于類模型基礎(chǔ)上有監(jiān)督的模式識別方法,該法依據(jù)如下:同一類樣本因具有相似的特征,在一定的特征空間內(nèi),屬于同一類的樣本會聚集在某一特定的空間區(qū)域內(nèi);而對于不同類的樣本,則分布在不同的區(qū)域[11-12]。因此在訓(xùn)練中要建立每一類不同油品的類模型。驗(yàn)證集和預(yù)測集樣本,通過計(jì)算到各類模型的馬氏距離值,判別該樣本的種類歸屬。
1.5 反向傳播神經(jīng)網(wǎng)絡(luò)構(gòu)建茶油與摻偽油的定性識別模型
反向傳播算法(back-propagation,BP)神經(jīng)網(wǎng)絡(luò),一般具有輸入層、中間層(隱含層)和輸出層3層網(wǎng)絡(luò)結(jié)構(gòu),通常采用誤差逆?zhèn)鞑ニ惴?。常用BP網(wǎng)絡(luò)的傳遞函數(shù)主要有Sigmoid型的對數(shù)、正切函數(shù)或線性函數(shù)等。使用Matlab2017a軟件,網(wǎng)絡(luò)傳遞函數(shù)確定為‘tansig和‘purelin,訓(xùn)練函數(shù)為‘trainscg,予以建模。由于誤差逆?zhèn)鞑ニ惴ㄔ诰W(wǎng)絡(luò)訓(xùn)練中可自行調(diào)整權(quán)重,網(wǎng)絡(luò)模型能夠提高輸入模式響應(yīng)的準(zhǔn)確率,因此BP網(wǎng)絡(luò)面對復(fù)雜的非線性系統(tǒng)時(shí),亦能具備出色的建模能力。
2 結(jié)果與分析
2.1 主成分分析法提取主成分
采用主成分分析(PCA)法對樣品原始光譜數(shù)據(jù)進(jìn)行壓縮處理后,能夠在最大程度代表樣品信息的基礎(chǔ)上,將光譜數(shù)據(jù)降維,有效降低網(wǎng)絡(luò)輸入向量的規(guī)模并剔除噪音。樣品光譜數(shù)據(jù)經(jīng)PCA處理后主成分得分如表1所示。由表1可知,當(dāng)提取8個(gè)主成分時(shí),累積貢獻(xiàn)率信度得分達(dá)99.985%,幾乎可涵蓋樣品所有信息。
2.2 光譜數(shù)據(jù)預(yù)處理
光譜數(shù)據(jù)的數(shù)學(xué)預(yù)處理能夠使基線漂移、光程的變化對光譜響應(yīng)所產(chǎn)生的影響降到最低。常用到的數(shù)學(xué)預(yù)處理方法一般有一階微分、二階微分、Savitzky-Golay濾波平滑、Norris Derivative濾波平滑、多元散射校正(MSC)以及矢量歸一化(SNV)等。
從不同的光譜預(yù)處理方法建模時(shí)模型對校正集、預(yù)測集樣品的判別準(zhǔn)確率(表2)可以看出,光譜經(jīng)一階導(dǎo)數(shù)處理結(jié)合SNV、Norris Derivative濾波平滑方法時(shí),模型對校正集和預(yù)測集的判別準(zhǔn)確率均為100%,可將茶油與摻偽油完全鑒別開來。
2.3 馬氏距離法構(gòu)建不同種類摻偽油的判別模型
在全波段范圍內(nèi),經(jīng)過一階導(dǎo)數(shù)處理結(jié)合SNV和Norris Derivative濾波,采用馬氏距離聚類分析建立不同摻偽茶油的判別模型,如圖2所示。從圖中可以看出,3種不同的油品明顯聚集在3個(gè)區(qū)域,模型對校正集判別準(zhǔn)確率為100%,其中圖中坐標(biāo)Distance 1、2、3分別表示到純正茶油、摻有菜籽油的摻偽油、摻有棕櫚油的摻偽油的馬氏距離。
2.4 BP神經(jīng)網(wǎng)絡(luò)參數(shù)的選擇
BP神經(jīng)網(wǎng)絡(luò)包括3層網(wǎng)絡(luò)結(jié)構(gòu),即輸入層、隱含層和輸出層。網(wǎng)絡(luò)的優(yōu)劣除了與網(wǎng)絡(luò)結(jié)構(gòu)有關(guān),還與傳遞函數(shù)有密切關(guān)系。根據(jù)網(wǎng)絡(luò)的樣本容量與識別需要,試驗(yàn)中采用雙曲正切函數(shù)(hyperbolic tangent function,HTF)和對數(shù)函數(shù)(logarithmic function,LF)作為隱含層傳遞函數(shù)。
隱含層神經(jīng)元數(shù)的選取是影響網(wǎng)絡(luò)模型容錯(cuò)性和學(xué)習(xí)訓(xùn)練的重要因素。隱含層神經(jīng)元數(shù)目太多會導(dǎo)致學(xué)習(xí)時(shí)間過長,誤差較大;隱含層節(jié)神經(jīng)元數(shù)太少則網(wǎng)絡(luò)訓(xùn)練效果不好,或者無法識別樣本信息。面對復(fù)雜的樣品體系,往往沒有確定的定律來確定隱含層神經(jīng)元的個(gè)數(shù),更多時(shí)候,網(wǎng)絡(luò)隱含層神經(jīng)單元數(shù)的選取需要根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn)和多次試驗(yàn)來確定最佳隱含層神經(jīng)元數(shù)。設(shè)計(jì)循環(huán)隱含層數(shù)目在5~20,以試驗(yàn)預(yù)測誤差和預(yù)測來判斷BP網(wǎng)絡(luò)模型的優(yōu)劣性。試驗(yàn)證明,當(dāng)隱含層神經(jīng)元個(gè)數(shù)為15的時(shí)候,網(wǎng)絡(luò)的預(yù)測誤差最小。
此外,訓(xùn)練次數(shù)亦是構(gòu)建BP神經(jīng)網(wǎng)絡(luò)的重要參數(shù)之一,訓(xùn)練次數(shù)過多會造成網(wǎng)絡(luò)的過擬合,導(dǎo)致預(yù)測結(jié)果偏差較大;訓(xùn)練次數(shù)過少則使網(wǎng)絡(luò)難以收斂,達(dá)不到訓(xùn)練要求。該試驗(yàn)中,樣本經(jīng)PCA法壓縮主成分后,在最大程度代表樣品信息的基礎(chǔ)上,光譜矩陣數(shù)據(jù)量較少,可有效減少網(wǎng)絡(luò)訓(xùn)練的負(fù)荷。在網(wǎng)絡(luò)學(xué)習(xí)前設(shè)置最大訓(xùn)練步數(shù)1 000,試驗(yàn)證明,網(wǎng)絡(luò)訓(xùn)練220步左右即可達(dá)到預(yù)先設(shè)定的學(xué)習(xí)誤差0.000 1(圖3)。
2.5 構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型識別不同種類的摻偽油
采用PCA法提取的前8個(gè)主成分、33個(gè)吸收峰數(shù)據(jù)作為BP網(wǎng)絡(luò)的輸入向量,以曲正切函數(shù)和對數(shù)函數(shù)作為隱含層傳遞函數(shù),隱含層神經(jīng)元個(gè)數(shù)為15,訓(xùn)練目標(biāo)設(shè)定為0.000 1,訓(xùn)練學(xué)習(xí)速度為0.1,訓(xùn)練220步時(shí),構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)可將摻有菜籽油、棕櫚油的摻偽茶油和純正茶油同時(shí)識別出來。模型對預(yù)測集識別結(jié)果如表3所示,以1.000代表摻有菜籽油的摻偽油樣本的網(wǎng)絡(luò)輸出;2.000代表摻有棕櫚油的摻偽油樣本的網(wǎng)絡(luò)輸出;3.000代表純正茶油樣本的網(wǎng)絡(luò)輸出,可以看出BP模型對預(yù)測集樣品的識別準(zhǔn)確率誤差較小,模型的預(yù)測能力良好。
3 結(jié)論與討論
基于近紅外光譜技術(shù),經(jīng)PCA法壓縮并提取主成分,分別采用馬氏距離聚類分析和BP神經(jīng)網(wǎng)絡(luò)建立了摻有菜籽油、棕櫚油的摻偽油與純正茶油的判別分析模型。從模型結(jié)果來看,2種不同的模型面對摻偽油含量較低的濃度下,對預(yù)測集樣品的判別準(zhǔn)確率均為100%,結(jié)果令人滿意。
馬氏距離聚類分析作為類模型基礎(chǔ)上的模式識別方法,一般需要借助化學(xué)計(jì)量學(xué)的手段,經(jīng)過光譜數(shù)據(jù)預(yù)處理后,方可建立判別模型。這是因?yàn)椴捎肞CA法可從自變量矩陣和因變量矩陣中提取主成分,能夠有效降維,明顯地改善了數(shù)據(jù)結(jié)果的可靠性和準(zhǔn)確度。然而,摻偽油體系中各組分的含量和光譜吸光度之間存在著非線性關(guān)系,采用BP神經(jīng)網(wǎng)絡(luò)建模時(shí),能夠凸顯預(yù)測模型數(shù)據(jù)矩陣響應(yīng)快速、運(yùn)算便捷、預(yù)測準(zhǔn)確的優(yōu)勢。特別是經(jīng)PCA處理后,得到樣品光譜吸光度、組分含量的主成分、權(quán)重值,能夠?yàn)榫W(wǎng)絡(luò)建模時(shí)、確定隱含層神經(jīng)元數(shù)量此類重要參數(shù)時(shí),提供重要的參考依據(jù)。同時(shí),網(wǎng)絡(luò)訓(xùn)練時(shí),可減少迭代次數(shù),跳出局部最少的弊端。
2種模型在訓(xùn)練中發(fā)現(xiàn),BP網(wǎng)絡(luò)模式識別結(jié)果比馬氏距離聚類分析更迅速。說明BP網(wǎng)絡(luò)作為一種無教師學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),面對更加復(fù)雜多元的摻偽體系,突出了自學(xué)習(xí)、自組織、自適應(yīng)和容錯(cuò)能力的優(yōu)勢,且運(yùn)算快速,模型精度較高。
參考文獻(xiàn)
[1] 張東生,金青哲,王興國,等.基于脂肪酸組成甄別油茶籽油摻偽的研究[J].中國糧油學(xué)報(bào),2015,30(1):124-128.
[2] 蘇東林,張菊華,李高陽,等.近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)在茶籽調(diào)和油品質(zhì)檢測中的應(yīng)用研究進(jìn)展[J].中國食品學(xué)報(bào),2018,18(7):332-338.
[3] 張菊華,朱向榮,尚雪波,等.近紅外光譜結(jié)合偏最小二乘法用于純茶油中摻雜菜籽油和大豆油的定量分析[J].食品工業(yè)科技,2012,33(3):334-336.
[4] 孫通,吳宜青,李曉珍,等.基于近紅外光譜和子窗口重排分析的山茶油摻假檢測[J].光學(xué)學(xué)報(bào),2015,35(6):350-357.
[5] YUAN J J,WANG C Z,CHEN H X,et al.Identification and detection of adulterated Camellia oleifera Abel.oils by near infrared transmittance spectroscopy[J].International journal of food properties,2016,19(2):300-313.
[6] LI S F,ZHU X R,ZHANG J H,et al.Authentication of pure camellia oil by using near infrared spectroscopy and pattern recognition techniques[J].Journal of food science,2012,77(4):374-380.
[7] 鄭艷艷,吳雪輝.摻偽茶油的化學(xué)模式識別方法研究[J].食品工業(yè)科技,2014,35(7):115-118.
[8] 李宗朋,王健,張曉磊,等.基于近紅外光譜技術(shù)的沙棘籽油鑒偽方法研究[J].中國油脂,2014,39(2):57-62.
[9] 蔡立晶,蔡立娟,李文勇,等.基于近紅外透射光譜及神經(jīng)網(wǎng)絡(luò)的大豆油質(zhì)量分析[J].湖北農(nóng)業(yè)科學(xué),2015,54(1):175-177.
[10] 苗靜,曹玉珍,楊仁杰,等.基于二維相關(guān)近紅外譜參數(shù)化及BP神經(jīng)網(wǎng)絡(luò)的摻雜牛奶鑒別[J].光譜學(xué)與光譜分析,2013,33(11):3032-3035.
[11] 榮菡.基于近紅外光譜的模式識別技術(shù)用于鮮乳摻假檢測的研究[D].南昌:南昌大學(xué),2008.
[12] 劉波平.近紅外光譜技術(shù)在多組分檢測及模式識別中的應(yīng)用研究[D].南京:南京理工大學(xué),2011.