董文江 王凱麗 谷風林 陸敏泉 趙建平
摘 要 采用紫外可見光譜指紋圖譜結(jié)合多元數(shù)據(jù)分析建立一種可快速鑒別不同焙炒度咖啡的方法,考察不同的光譜前處理方法對樣品分類結(jié)果的影響,比較不同的模式識別方法對樣品的鑒別結(jié)果。結(jié)果表明:一階導數(shù)處理被選為最優(yōu)的前處理方法,大部分樣品能夠在主成分分析(PCA)和系統(tǒng)聚類分析(HCA)中按各自特性聚為一類,線性判別分析(LDA)的分類效果優(yōu)于PCA和HCA;最小二乘向量機(LS-SVM)模型的預報結(jié)果優(yōu)于偏最小二乘判別分析(PLS-DA)和反傳人工神經(jīng)網(wǎng)絡(luò)(BP-ANN),識別率和預報率均為100%。
關(guān)鍵詞 紫外可見光譜;焙炒咖啡;指紋圖譜;多元數(shù)據(jù)分析
中圖分類號 R284.1 文獻標識碼 A
咖啡飲料的質(zhì)量與焙炒豆的化學組成密切相關(guān),不同的生豆化學組成方式和采后加工條件(干燥、貯藏、焙炒和粉碎)導致焙炒豆的化學組成不同[1]。焙炒是咖啡加工過程中最重要的一個環(huán)節(jié),在此過程中咖啡豆將發(fā)生顯著的化學、物理、結(jié)構(gòu)以及感官方面的變化;依據(jù)所需最終產(chǎn)品的特性不同,咖啡豆將經(jīng)歷不同的溫度-時間處理,從而形成不同風味的咖啡豆。咖啡豆在焙炒過程中由于初始階段的失水及碳水化合物的熱解反應(yīng)使其質(zhì)量減小,同時由于內(nèi)部氣體(CO2和其它熱分解產(chǎn)物)的形成使其體積顯著增大,密度減小,形成焙炒咖啡豆的典型孔狀結(jié)構(gòu)[2]。
用于評價焙炒豆質(zhì)量的常用標準有失重、水分、顏色和風味的檢測分析,其中前3個指標應(yīng)用最為廣泛而被用于考察焙炒后咖啡豆的變化。此外,氣相色譜-質(zhì)譜聯(lián)用(GC-MS)、氣相色譜-嗅覺測量法(GC-O)被用于考察咖啡焙炒后的風味變化,采用人工神經(jīng)網(wǎng)絡(luò)算法對特征風味成分與感官評價進行關(guān)聯(lián)性分析[3]的相關(guān)研究已有報道。如Liberto等[4]通過采集咖啡豆的非分離頂空固相微萃取質(zhì)譜聯(lián)用(HS-SPME-MS)輪廓數(shù)據(jù)作為監(jiān)測咖啡焙炒度的標志物;Wei等[5]通過核磁共振光譜分析不同焙炒度咖啡豆的提取物以監(jiān)測焙炒過程中風味成分的變化規(guī)律,控制焙炒反應(yīng)過程。盡管上述分析方法在咖啡焙炒度質(zhì)量控制上可靠性好,但對實驗人員技能要求高、耗時、價格昂貴,且樣品前處理繁瑣甚至需要有機試劑,因此需要建立一種簡單、快速的方法來實現(xiàn)不同焙炒度咖啡的鑒別。近年來,紫外可見光譜技術(shù)以其快速、易操作、廉價、樣品前處理少而被用于食品、藥品及化工行業(yè)的定性和定量分析中,化學計量學中的模式識別方法和多元回歸分析在解析大量數(shù)據(jù)時優(yōu)勢明顯,能夠最大程度的從“海量數(shù)據(jù)”中提取有效信息,常見的如PCA、HCA和LDA等,PCA是一種無監(jiān)督模式識別方法,它將原始數(shù)據(jù)矩陣轉(zhuǎn)換為由主成分(PCs)組成的新矩陣,PC間相互正交,且每一PC為原始數(shù)據(jù)的線性組合,起到了壓縮變量的作用[6]。HCA是一種無監(jiān)督模式識別方法,與PCA相類似,均不需要事先知道數(shù)據(jù)的分類信息[7]。LDA是一種常用的數(shù)據(jù)分類方法,該方法通過優(yōu)化數(shù)據(jù)向量以實現(xiàn)類別間的最大分離,新的判別函數(shù)為原始變量的線性組合,最大化類別間樣品間方差比及最小化類別內(nèi)樣品間方差比,判別函數(shù)的數(shù)量為樣品類別數(shù)減1,通常由基于前兩個或三個判別函數(shù)的二維或三維投影圖來實現(xiàn)分類研究[8]。Sarbu等[9]采用紫外可見光譜和高效液相色譜指紋圖譜結(jié)合多元數(shù)據(jù)分析能較好的區(qū)分不同品種及亞種的獼猴桃和柚子;Boggia等[10]通過紫外可見光譜和化學計量學方法快速檢測石榴汁中的填充果汁和蒸餾水;Pizarro等[11]利用可見光譜指紋圖譜和物理化學指標結(jié)合多元數(shù)據(jù)分析可有效的區(qū)分不同地理來源的特級橄欖油。
目前還沒有采用紫外可見光譜指紋圖譜鑒別不同焙炒度咖啡的相關(guān)報道,因此本文通過采集不同焙炒度中粒種咖啡樣品的紫外可見光譜數(shù)據(jù),經(jīng)數(shù)據(jù)前處理校正基線漂移、光散射等影響后,采用無監(jiān)督模式識別方法PCA和HCA,有監(jiān)督模式識別方法LDA、PLS-DA、BP-ANN和LS-SVM對不同焙炒度咖啡樣品進行鑒別,以校正集和預報集樣品的識別率和預報率為判別指標,優(yōu)選最適的焙炒度預測方法,為咖啡的焙炒加工提供理論依據(jù)。
1 材料與方法
1.1 材料
1.1.1 供試材料 咖啡鮮果(中粒種)采摘于中國熱帶農(nóng)業(yè)科學院香料飲料研究所試驗基地,品種為“熱研1號”,九成熟,選擇紅色、無畸形、無病蟲害的果實,共16個不同批次的樣品,采用干法加工得到生咖啡豆,低溫避光保存、備用。
1.1.2 主要儀器 紫外可見分光光度計:SPECORD 250PLUS型(德國耶拿儀器有限公司),電子天平:AL204型(梅特勒-托利多儀器(上海)有限公司),全自動超純水系統(tǒng):Master-s-plus UVF型(上海和泰儀器有限公司),咖啡豆烘焙機:PRE 1 Z型(德國probat儀器公司),咖啡豆研磨機:VTA 6S3型(德國MAHLKONIG儀器公司),快速水分測定儀:MB45型(瑞士奧豪斯儀器公司),色差分析儀:Xrite-SP62型(美國Xrite測色公司)
1.2 方法
1.2.1 焙炒豆的制備 精密稱取100.00 g生咖啡豆置入滾筒式咖啡烘焙機中焙炒,初始溫度180 ℃,保持恒定火力6.5,焙炒時間分別為7.5 min(一爆結(jié)束)、9.5 min(二爆開始前)、11.5 min(二爆開始后1 min),分別得到3種不同焙炒度的咖啡豆,即淺度、中度和深度,選擇范圍較寬的焙炒度范圍以確保校正模型的正確性和適用性。每個樣品采用相同的條件平行焙炒兩次,共制備得到96個樣品(16個樣品×3個焙炒度×2個平行),樣品編號為:淺度(No. 1-32)、中度(No. 33-64)、深度(No. 65-96),采用Kennard-Stone算法[12]將96個樣品的2/3劃分入校正集(60個樣品),1/3劃分入預報集(36個樣品)。取20 g焙炒豆放入咖啡研磨機中粉碎,制備粉末樣品用于后續(xù)分析。
1.2.2 失重、水分含量及顏色的測定 失重:分別測定100.00 g生豆及其相應(yīng)焙炒豆的重量,計算其差值,得到樣品的失重。平行測定3次,取平均值。
水分含量(%):精密稱取1.00 g粉末樣品置于快速水分測定儀中測量,讀數(shù)。平行測定3次,取平均值。
顏色測定:精密稱取1.80 g粉末樣品放入樣品測定槽中,石英玻璃壓緊,測定的相關(guān)顏色指標包括L*、a*、b*、ho,光源為D62(6 500 K),利用色差分析儀進行測定。平行測定3次,取平均值。
1.2.3 咖啡液的制備 精密稱取8.25 g粉末樣品加入250 mL圓底燒瓶中,加入150 mL蒸餾水,水浴回流提取15 min。待冷卻至室溫后,過濾至250 mL棕色容量瓶中,備用。
1.2.4 紫外可見光譜掃描 咖啡液的紫外可見吸收光譜通過紫外可見分光光度計掃描得到,波長范圍為200~500 nm。光譜掃描前,精密移取50 μL上述濾液加入10 mL比色管中,蒸餾水定容至10 mL用于分析。所有光譜數(shù)據(jù)的波長分辨率為1.0 nm,通過WinASPECT PLUS軟件導出,所得光譜數(shù)據(jù)矩陣為96個樣品×311個波長。
1.2.5 光譜數(shù)據(jù)的前處理 選用多種光譜前處理方法進行比較,包括標準正規(guī)變換(Snv)[13]、多元散射校正(Msc)[14]、Savitzky-Golay濾波(9點,二階多項式,一階或二階導數(shù))[15]。
1.3 統(tǒng)計分析
所有數(shù)據(jù)均采用MATLAB R2010a軟件分析。
2 結(jié)果與分析
2.1 紫外可見光譜數(shù)據(jù)的前處理方法比較
在利用紫外可見光譜輪廓建立模型之前,通常需對光譜數(shù)據(jù)進行前處理以減小基線漂移、光路長短的改變、光散射等因素對分析結(jié)果的影響。以校正模型中預報集的相關(guān)系數(shù)(Rpre)和誤差均方根(RMSEP)為判別指標,比較不同的前處理方法后模型的預報結(jié)果,一階導數(shù)(1st derivative)被選為最優(yōu)的前處理方法。圖1-a~f分別為原始數(shù)據(jù)、平均光譜、Snv、Msc、1st derivative和2nd derivative處理后的樣品在190~500 nm的紫外可見光譜輪廓圖,從圖中可看出,不同焙炒度咖啡樣品譜圖極為相似,僅僅為在不同波長處強度的差異,光譜數(shù)據(jù)信息最豐富的區(qū)域在200~350 nm范圍內(nèi),淺度焙炒樣品的最大吸收峰在285、325 nm附近,中度焙炒樣品的最大吸收峰在280、325 nm附近,深度焙炒樣品的最大吸收峰在275、325 nm附近,最大吸收峰的差異可能是由于隨著焙炒時間的增加,咖啡樣品的化學成分發(fā)生變化引起。然而,不同焙炒度樣品間光譜圖的相似性/差異性很難通過直觀的視覺觀測來解釋,因此需要通過多元數(shù)據(jù)分析來解析光譜數(shù)據(jù),提取有用信息,解釋不同類別樣品間的異同點。
2.2 主成分分析(PCA)
PCA已被廣泛用于咖啡的風味評價、品質(zhì)分析及質(zhì)量控制過程中[16-17]。如圖2所示,96個樣品的一階導數(shù)光譜數(shù)據(jù)矩陣的PCA得分投影圖,前兩個主成分的總方差貢獻率為99.1%,其中PC1占97.4%,PC2占1.7%,在PC1方向上,淺度、中度和深度3類樣品可大致按從左到右的方向區(qū)分開來,其中淺度焙炒樣品聚集最為緊密,在PC1上的得分全部為負;中度焙炒樣品在PC1方向上得分在“0”附近,部分為正,部分為負,個別樣品與深度焙炒樣品重疊;深度焙炒樣品在PC1方向上得分全部為正,這一類樣品聚集較為分散,其中69號、70號、85號、86號樣品與中度焙炒組距離較近,剩余樣品基本上可以在PC1方向上與淺度、中度樣品區(qū)分開;在PC2方向上3類樣品的得分正、負皆有,除深焙組的5個樣品得分負值較小外,剩余樣品在PC2方向上基本上相互重疊,這與PC2的方差貢獻率(1.7%)較小相一致。總體上講,除部分樣品在組間相互重疊外,大部分樣品可基本上分為3類,但樣品聚集較為分散。
2.3 系統(tǒng)聚類分析(HCA)
HCA是一種無監(jiān)督模式識別方法,與PCA相類似,均不需要事先知道數(shù)據(jù)的分類信息。HCA應(yīng)用于一階導數(shù)光譜數(shù)據(jù)矩陣(96個樣品×311個波長)以評價樣品間的相互關(guān)系和分類情況,圖3為系統(tǒng)聚類分析的系統(tǒng)樹圖,從圖中可以看出,不同焙炒度的樣品依據(jù)它們之間歐氏距離的不同最終分為3類:淺度(A′)、中度(B′)和深度(C′),其中深度焙炒的4個樣品:69號、70號、85號、86號被錯分到中度焙炒組里,與樣品在PCA的二維得分投影圖結(jié)果相一致,支持PCA的分析結(jié)果。
2.4 線性判別分析(LDA)
LDA是一種常用的數(shù)據(jù)分類方法,該方法通過優(yōu)化數(shù)據(jù)向量以實現(xiàn)類別間的最大分離,新的判別函數(shù)為原始變量的線性組合,最大化類別間樣品間方差比及最小化類別內(nèi)樣品間方差比,判別函數(shù)的數(shù)量為樣品類別數(shù)減1,通常由基于前2個或3個判別函數(shù)的二維或三維投影圖來實現(xiàn)分類研究。本研究中校正模型的每個樣品被定義為一個模糊變量(淺度=1,中度=2,深度=3),截斷值=0.5作為模糊變量預報值的分類準則。96個樣品在由前兩個判別函數(shù)定義的二維得分投影圖如圖4所示,從圖中可以看出,與PCA得分投影圖相比,三類樣品的聚集更為緊密,每類樣品投影的相對位置發(fā)生改變,在DF1方向上,深度焙炒樣品得分全部為負,中度焙炒樣品得分大多數(shù)為負,部分為正,淺度焙炒樣品得分全部為正,基本上可實現(xiàn)類別間分離;在DF2方向上,深度和淺度焙炒樣品得分大部分為正且相互重疊,而中度焙炒樣品得分全部為負,可與上述2類樣品較好的分離,因此,DF1-DF2二維投影圖能夠取得令人滿意的分類效果。
2.5 偏最小二乘判別分析(PLS-DA)
無監(jiān)督模式識別方法PCA和HCA只能定性的給出樣品的分類信息,而不能從定量的角度進行解釋,因此下一步采用有監(jiān)督模式識別方法PLS-DA、BP-ANN和LS-SVM分別建立校正模型對咖啡樣品的焙炒度進行預測。與LDA模型相類似,在PLS-DA、BP-ANN和LS-SVM模型中每個樣品被定義一個模糊變量(淺度=1,中度=2,深度=3,截斷值為0.5),以校正集和預報集的識別率和預報率作為模型好壞的判別指標。PLS-DA模型通過留一法交叉驗證(LOOCV)[18]優(yōu)化模型確定最大因子數(shù)為4,圖5為96個樣品在PLS-DA中模糊變量預報值的投影圖,橫坐標表示樣品編號,縱坐標為模糊變量的預報值,圖中紅色圓圈、深藍色正方形、綠色菱形分別表示淺度、中度、深度樣品的校正集,淺藍色圓圈、淺藍色正方形、淺藍色菱形分別表示淺度、中度、深度樣品的預報集,3條水平的品紅色虛線表示每類樣品的截斷值,預報值在0.5~1.5范圍內(nèi)屬于淺度樣品,在1.5~2.5范圍內(nèi)屬于中度樣品,在2.5~3.5范圍內(nèi)屬于深度樣品,從圖中可看出,除深度焙炒樣品的校正集和預報集各有兩個樣品被錯誤分類外(預報值均小于2.5),其余樣品的預報值均落在各自定義的范圍外,PLS-DA模型的識別率和預報率分別為96.7%和94.4%。
2.6 不同模式識別方法PLS-DA、BP-ANN、LS-SVM對咖啡焙炒度的預測結(jié)果比較
在應(yīng)用紫外可見光譜數(shù)據(jù)建立模型時通常存在非線性的問題,通常是由于樣品在高濃度時不符合比爾定律,檢測器響應(yīng)的非線性及光源漂移等因素的影響,因此有必要采用非線性的多元校正模型進行預報,本研究采用BP-ANN、LS-SVM來處理光譜數(shù)據(jù)非線性的問題,并與PLS-DA模型的預報結(jié)果比較以優(yōu)選最適模型,表1為PLS-DA、BP-ANN和LS-SVM模型的預報結(jié)果。BP-ANN是一個包括輸入層、隱含層和輸出層的反傳人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),詳細信息可參見文獻[19],該模型必須通過優(yōu)化參數(shù)來得到最好的結(jié)果,參數(shù)包括隱含層神經(jīng)元數(shù)、學習速率、最大訓練次數(shù)、動量矩等。通過LOOCV優(yōu)化得到BP-ANN模型的隱含層神經(jīng)元數(shù)、學習速率、最大訓練次數(shù)分別為8、0.1、800次,此時模型的識別率和預報率分別為100%和97.2%。LS-SVM是基于經(jīng)典支持向量機的一種修正算法[20],是另一種非線性回歸方法,在此方法中僅線性方程作為模型的支持向量,徑向基函數(shù)常作為模型的高斯核函數(shù),該模型中兩個重要的參數(shù)需要優(yōu)化,調(diào)節(jié)參數(shù)gam(γ)和徑向基核函數(shù)參數(shù)sig2(σ2),通過二步網(wǎng)格搜索技術(shù)和LOOCV來實現(xiàn)。LS-SVM模型的參數(shù)γ=40.5,σ2=3.2,識別率和預報率均為100%,優(yōu)于PLS-DA和BP-ANN模型,可能是由于LS-SVM能夠較好的處理光譜數(shù)據(jù)存在的非線性問題,因此LS-SVM被選為最優(yōu)的模式識別方法來預測咖啡的焙炒度。
3 討論與結(jié)論
本研究建立了一種快速的紫外可見光譜指紋圖譜分析方法,能夠較好的區(qū)分不同焙炒度的咖啡樣品,且通過非線性的模式識別方法能夠?qū)崿F(xiàn)焙炒度的定量預測,不同模型的預報結(jié)果表明LS-SVM是最適合本研究的模式識別方法。與前人研究報道相比,Romani等[21]采用電子鼻技術(shù)和PCA及人工神經(jīng)網(wǎng)絡(luò)技術(shù)對咖啡焙炒度進行了預測,Alessandrini等[22]利用近紅外漫反射光譜結(jié)合多元數(shù)據(jù)分析預報咖啡豆的焙炒度,結(jié)果令人滿意。而本研究采用紫外可見吸光全光譜輪廓圖來解析復雜光譜信息并預測咖啡豆焙炒度,此方法的預報能力取得了和前人同樣的效果,且耗費少,分析時間短,僅為15 s,樣品前處理少,可直接用咖啡液(杯品用)進行分析,從而證實紫外可見吸收光譜法在咖啡焙炒度質(zhì)量控制上是可行的。
參考文獻
[1] Illy A, Viani R. Espresso Coffee: The science of quality[M]. London: Elsevier Academic Press, 2005.
[2] Pittia P, Dalla Rosa M, Lerici C R. Textural changes of coffee beans as affected by roasting conditions[J]. LWT-Food Sci Technol, 2001, 24(3): 168-175.
[3] Michishita T, Akiyama M, Hirano Y, et al. Gas chromatography/olfactometry and electronic nose analyses of retronasal of espresso and correlation with sensory evaluation by an artificial neural network[J]. J Food Sci, 2010, 75(9): 477-489.
[4] Liberto E, Ruosi M R, Cordero C, et al. Non-separative headspace solid phase microextraction-mass spectrometry profile as a marker to monitor coffee roasting degree[J]. J Agric Food Chem, 2013, 61(8): 1 652-1 660.
[5]Wei F F, Furihata K, Koda M, et al. Roasting process of coffee beans as studied by nuclear magnetic resonance: Time course of changes in composition[J]. J Agric Food Chem, 2012, 60(4): 1 005-1 012.
[6] Wold S, Esbensen K, Geladi P. Principal component analysis[J]. Chemom Intell Lab Syst, 1987, 2(1-3): 37-52.
[7] De Luca M, Terouzi W, Loele G, et al. Derivative FTIR spectroscopy for cluster analysis and classification of morocco olive oils[J]. Food Chem, 2011, 124(3): 1 113-1 118.
[8] Balabin R M, Safieva R Z, Lomakina E I. Gasoline lassification using near infrared(NIR)Spectroscopy data: Comparison of multivariate technique[J]. Anal Chem Acta, 2010, 671(1-2): 27-35.
[9] Sarbu C, Nascu-Briciu R D, Kot-Wasik A, et al. Classification and fingerprinting of kiwi and pomelo fruits by multivariate analysis of chromatographic and spectroscopic data[J]. Food Chem, 2012, 130(4): 994-1 002.
[10] Boggia R, Casolino M C, Hysenaj V, et al. A screening method based on UV-Visible spectroscopy and multivariate analysis to access addition of filler juices and water to pomegranate juices[J]. Food Chem, 2013, 140(4): 735-741.
[11] Pizarro C, Rodriguez-Tecedor S, Perez-del-Notario N, et al. Classification of Spanish extra virgin olive oils by data fusion of visible spectroscopic fingerprints and chemical descriptors[J]. Food Chem, 2013, 138(2-3): 915-922.
[12] Kennard R W, Stone L S. Computer aided design of experiments[J]. Technometrics., 1969, 11(1): 137-148.
[13] Barnes R J, Dhanoa M S, Lister S J. Standard normal variate transformation and de-trending of near-infrared diffuse reflectance spectra[J]. Appl Spectrosc, 1989, 43(5): 772-777.
[14] Geladi P, Macdougall D, Martens H. Linearization and scatter-correction for near-infrared reflectance spectra of meat[J]. Appl Spectrosc, 1985, 39(3): 491-500.
[15] Gorry P A. General least-squares smoothing and differentiation by the convolution(Savitzky-Golay)method[J]. Anal Chem, 1990, 62(6): 570-573.
[16] Cheong M W, Tong K H, Ong J J M, et al. Volatile composition and antioxidant capacity of Arabica coffee[J]. Food Res Int, 2013, 51(1): 388-396.
[17] Bertrand B, Boulanger R, Dussert S, et al. Climatic factors directly impact the volatile organic compound fingerprint in green Arabica coffee bean as well as coffee beverage quality[J]. Food Chem, 2012, 135(4): 2 575-2 583.
[18] Baumann K. Cross-validation as the objective function for variable-selection techniques[J]. TrAC Trends Anal Chem, 2003, 22(6): 395-406.
[19] Despagne F, Massart D L. Neural networks in multivariate calibration[J]. Analyst, 1998, 123: 157-178.
[20] Suykens J A K, Van Gestel T, De Brabanter J, et al. Least Squares Support Vector Machnines[M]. Singapore, World Scientific, 2002.
[21] Romani S, Cevoli C, Fabbri A, et al. Evaluation of coffee roasting degree by using electronic nose and artificial neural network for off-line quality control[J]. J Food Sci, 2012, 77(9): 960-965.
[22] Alessandrini L, Romani S, Pinnavaia G, et al. Near infrared spectroscopy: An analytical tool to predict coffee roasting degree[J]. Anal Chim Acta, 2008, 625: 95-102.