王勝鵬,鄭鵬程,桂安輝,滕靖,劉盼盼,葉飛,高士偉,馬夢君,劉小英
1.湖北省農(nóng)業(yè)科學(xué)院果樹茶葉研究所,武漢 430064; 2.咸寧市農(nóng)業(yè)科學(xué)院,咸寧 437100; 3.恩施花枝山生態(tài)農(nóng)業(yè)股份有限公司,恩施 445000
黃茶是我國六大茶類之一,湖北則以遠(yuǎn)安黃茶歷史最為悠久。茶鮮葉經(jīng)攤放、殺青、悶黃和烘干后加工為遠(yuǎn)安黃茶,其具有外形卷曲緊結(jié)帶鉤、色澤金黃、香氣清香持久、滋味醇厚回甘、湯色杏黃明亮和葉底嫩黃勻整等特點[1-2],深受消費者喜愛。因此,對遠(yuǎn)安黃茶品質(zhì)開展評價就顯得非常重要。通常應(yīng)用感官審評方法對農(nóng)作物品質(zhì)開展評價[3-4],在茶葉研究領(lǐng)域已實現(xiàn)對綠茶[5]、紅茶[6]和烏龍茶[7]等茶類的品質(zhì)評價。傳統(tǒng)感官評價方法雖然經(jīng)典,但專業(yè)性較強,評審結(jié)果易受審評員嗜好差異等因素影響,主觀性較強?;瘜W(xué)檢測方法通過測定內(nèi)含成分含量來評價茶品質(zhì),結(jié)果較客觀、準(zhǔn)確,但測定前需先粉碎樣品,且測定過程費時、費力,還需使用大量的化學(xué)試劑,可能會造成環(huán)境污染,不利于茶品質(zhì)的快速檢測[8]。因此,非常有必要建立一種快速無損、科學(xué)客觀的遠(yuǎn)安黃茶品質(zhì)評價方法。
近紅外光譜(near infrared spectroscopy,NIRS)技術(shù)是一種綠色的分析技術(shù)[9],主要反映樣品內(nèi)部成分X—H化學(xué)鍵信息,通過建立某一化學(xué)成分含量的預(yù)測模型從而實現(xiàn)樣品的快速、無損檢測。NIRS技術(shù)目前已在農(nóng)業(yè)、飼料和醫(yī)藥等[10-12]行業(yè)得到廣泛應(yīng)用。此外,NIRS技術(shù)還應(yīng)用于對茶葉中茶多酚、游離氨基酸、含水量、咖啡堿等含量的快速預(yù)測和茶鮮葉質(zhì)量的快速評估[13]以及茶品質(zhì)的評價[14-15]等方面。
目前,有關(guān)黃茶的研究主要集中在黃茶適制品種的篩選[16]、悶黃過程中品質(zhì)成分的變化[17]、悶黃和加工工藝的優(yōu)化[18]以及黃茶生理保健功效[19]等方面,還較少有應(yīng)用近紅外光譜技術(shù)在遠(yuǎn)安黃茶品質(zhì)成分分析方面開展研究的報道。本研究基于近紅外光譜技術(shù),分別結(jié)合偏最小二乘法、反向區(qū)間偏最小二乘法(backward interval partial least squares,Bi-PLS)、遺傳算法(genetic algorithm,GA)和人工神經(jīng)網(wǎng)絡(luò)方法(artificial neural network,ANN)篩選最佳光譜預(yù)處理方法和提取特征光譜數(shù)據(jù)點,建立遠(yuǎn)安黃茶品質(zhì)預(yù)測模型,并嘗試解析光譜官能團信息,以期為遠(yuǎn)安黃茶品質(zhì)的快速無損評價提供新的思路。
采集湖北省宜昌市遠(yuǎn)安縣嫘祖黃茶有限公司基地的標(biāo)準(zhǔn)一芽二葉安吉白茶鮮葉,經(jīng)殺青、悶黃等工序加工,獲得90個遠(yuǎn)安黃茶樣品,樣品加工時間為2016年4月至5月。依據(jù)樣品不同品質(zhì),將樣品按照4∶1比例分為建模樣品(72個)和外部測試樣品(18個)。72個建模樣品用于建立預(yù)測模型,以品質(zhì)分?jǐn)?shù)為依據(jù)將樣品按照2∶1比例劃分為校正集(48個樣品)和驗證集(24個樣品),其中驗證集樣品用于檢驗?zāi)P偷姆€(wěn)健性。18個測試樣品用于檢驗?zāi)P偷膶嶋H預(yù)測效果。
1)感官審評。根據(jù)GB/T 23776―2018《茶葉感官審評方法》標(biāo)準(zhǔn)方法對遠(yuǎn)安黃茶品質(zhì)進(jìn)行評價。5位感官審評專家采用密碼評審方式對樣品品質(zhì)進(jìn)行打分,滿分為100 分,品質(zhì)越好,分?jǐn)?shù)越高。以平均值作為該樣品的最終品質(zhì)得分。
2)近紅外光譜采集。應(yīng)用Antaris Ⅱ型傅里葉變換近紅外光譜儀,采用漫反射方式掃描獲得樣品的近紅外光譜,儀器光譜范圍為4 000~10 000 cm-1,分辨率為8 cm-1,檢測器為InGaAs。在掃描樣品前,為使儀器達(dá)到最佳性能,保證狀態(tài)穩(wěn)定,通常先將儀器預(yù)熱1 h后再掃描光譜,以鍍金為光譜掃描背景。掃描時,將10 .0 g樣品裝入與儀器配套的旋轉(zhuǎn)杯中,用壓樣器充分壓實樣品,保證光譜無法穿透樣品,確保獲得樣品的全部光譜信息。每個樣品重復(fù)裝樣3次掃描得到3條光譜,每條光譜掃描64次,取3條光譜的平均值作為該樣品的最終光譜值。
3)光譜數(shù)據(jù)分析。應(yīng)用TQ Analyst 9.4.45軟件將每條近紅外光譜轉(zhuǎn)化為1 557對數(shù)據(jù)點保存于Excel表中,應(yīng)用OPUS 7.0 軟件和Matlab 2012a軟件對光譜數(shù)據(jù)進(jìn)行預(yù)處理和建立預(yù)測模型。光譜掃描過程中往往會包含一些與樣品性質(zhì)無關(guān)的因素帶來的干擾,如樣品的狀態(tài)、光的散射及儀器響應(yīng)等的影響,導(dǎo)致光譜基線漂移和產(chǎn)生噪聲信息。為有效去除光譜中夾雜的大量噪聲信息,提高光譜的信噪比,分別比較標(biāo)準(zhǔn)變量變換(standard normal variate,SNV)、多元散射校正(multiple scatter correction,MSC)、消除常數(shù)偏移量(eliminate constant offset,ECO)、矢量歸一化(vector normalization,VN)、減去一條直線(subtract straight line,SSL)、一階導(dǎo)數(shù)(first derivative,FD)和二階導(dǎo)數(shù)(second derivative,SD)等光譜預(yù)處理方法的建模效果,得到最佳預(yù)處理方法。
應(yīng)用反向區(qū)間偏最小二乘法[20](backward interval partial least squares,Bi-PLS)篩選反映遠(yuǎn)安黃茶品質(zhì)的特征光譜區(qū)間。在PLS基礎(chǔ)上,Bi-PLS將全部光譜數(shù)據(jù)點等劃分為20~24個光譜子區(qū)間,然后聯(lián)合其中的2~4個光譜區(qū)間建立預(yù)測模型,當(dāng)交互驗證均方根誤差(root mean square error of cross validation,RMSECV)最小時,此時得到的光譜區(qū)間即為篩選的最佳光譜區(qū)間。RMSECV計算公式如下:
(1)
式(1)中:n為校正集樣品數(shù);yi為樣品i實測值;yi′為校正集樣品i預(yù)測值。
RMSEP計算公式如下:
(2)
式(2)中:n為驗證集樣品數(shù);yi為樣品i實測值;yi′為驗證集樣品i預(yù)測值。
從表1可知,遠(yuǎn)安黃茶全部樣品的感官品質(zhì)分?jǐn)?shù)為78.40~92.05,平均值為88.96,標(biāo)準(zhǔn)偏差為2.55;而以感官分?jǐn)?shù)為分類依據(jù),校正集樣品感官分?jǐn)?shù)范圍為78.40~92.05,平均值為89.05,標(biāo)準(zhǔn)偏差為2.61;驗證集樣品感官評分范圍為84.95~91.75,平均值為89.11,標(biāo)準(zhǔn)偏差為1.83。驗證集樣品品質(zhì)分?jǐn)?shù)處于校正集樣品范圍內(nèi),為建立一個穩(wěn)健的預(yù)測模型提供了良好的前提條件。
表1 遠(yuǎn)安黃茶感官品質(zhì)分?jǐn)?shù)統(tǒng)計 Table 1 Statistics of sensory quality of Yuan’an yellow tea
從圖1可以看出,不同品質(zhì)遠(yuǎn)安黃茶近紅外光譜整體變化趨勢是一致的,隨著黃茶品質(zhì)的逐漸升高,光譜吸光度也逐漸增大,但在9 800~10 000 cm-1和4 000~4 200 cm-1這2個區(qū)間段存在較多的噪聲信息。因此,在建模時應(yīng)舍棄這2個波數(shù)區(qū)間。在6 900 cm-1和5 100 cm-1附近是游離水的—OH吸收峰,可能會影響品質(zhì)模型的預(yù)測精度。此外,嘗試應(yīng)用多種預(yù)處理方法對樣品光譜進(jìn)行預(yù)處理,并用PLS方法建立品質(zhì)分?jǐn)?shù)預(yù)測模型,得出較佳的光譜預(yù)處理方法。
圖1 遠(yuǎn)安黃茶樣品近紅外光譜Fig.1 Near infrared spectroscopy of Yuan’an yellow tea
表2 不同光譜預(yù)處理方法的處理結(jié)果 Table 2 Comparison of spectral pretreatment methods
表3 遠(yuǎn)安黃茶品質(zhì)Bi-PLS模型預(yù)測結(jié)果 Table 3 Results of Bi-PLS models for Yuan’an yellow tea
雖然Bi-PLS方法可以篩選特征光譜區(qū)間,但在光譜區(qū)間中還會存在較多與品質(zhì)無關(guān)的光譜數(shù)據(jù)點,因此,非常有必要進(jìn)一步精準(zhǔn)提取出與品質(zhì)密切相關(guān)的光譜數(shù)據(jù)點。用遺傳算法對9 003.2~7 497.9 cm-1、6 101.7~5 449.8 cm-1和4 601.3~4 246.5 cm-13個特征波段內(nèi)的650個數(shù)據(jù)點進(jìn)一步篩選。遺傳迭代的參數(shù)設(shè)置為:初始群體48,交叉概率0.8,變異概率0.01,遺傳迭代100次。通過觀察遺傳迭代后不同變量數(shù)的頻率變化(圖2)和與RMSECV的變化關(guān)系(圖3) ,當(dāng)RMSECV最小時,此時參與建模的變量即為反映遠(yuǎn)安黃茶品質(zhì)的最佳NIRS數(shù)據(jù)點。
從圖2和圖3可以看出,應(yīng)用GA優(yōu)化特征光譜區(qū)間的650個波數(shù)點,每個數(shù)據(jù)點的使用頻率代表其對建模的重要性程度,其中絕大多數(shù)數(shù)據(jù)點的使用頻率小于5次,表明與品質(zhì)無關(guān)的數(shù)據(jù)點較多。當(dāng)最佳建模數(shù)據(jù)點為75個時,Bi-GA-PLS校正集模型RMSECV最小為1.521,此時篩選得到的數(shù)據(jù)點即為最佳的反映遠(yuǎn)安黃茶品質(zhì)的NIRS數(shù)據(jù)點。75個光譜數(shù)據(jù)點的使用頻率和與之對應(yīng)的波數(shù)值見圖4。從圖4可以看出,光譜數(shù)據(jù)點最大使用頻率為22次,最小使用頻率為7次,使用頻率大于或等于11的光譜數(shù)據(jù)點共14個,占全部最佳數(shù)據(jù)點的比例為18.67%。依據(jù)數(shù)據(jù)點的使用頻率可以保證將最佳光譜數(shù)據(jù)點從大量的冗余信息中提取出來,有利于改善模型預(yù)測效果。在所有最佳光譜數(shù)據(jù)點中,最大光譜數(shù)據(jù)點為8 990.5 cm-1,最小光譜數(shù)據(jù)點為4 258.1 cm-1。其中,在9 003.2~7 497.9 cm-1波段中共有390個數(shù)據(jù)點,有40個數(shù)據(jù)點被提取為最佳數(shù)據(jù)點;在6 101.7~5 449.8 cm-1波段中共有168個數(shù)據(jù)點,有13個數(shù)據(jù)點被提取為最佳數(shù)據(jù)點;在4 601.3~4 246.5 cm-1波段中共有92個數(shù)據(jù)點,有22個數(shù)據(jù)點被提取為最佳數(shù)據(jù)點。
圖2 光譜數(shù)據(jù)點頻率變化Fig.2 Frequency variation of spectral data points
圖3 RMSECV與建模最佳數(shù)據(jù)點關(guān)系Fig.3 Relationship between RMSECV and the best data points of model
圖4 最佳光譜數(shù)據(jù)點的頻率與波數(shù)Fig.4 Frequencies and wavenumbers of the data points
以遺傳算法篩選的75個最佳光譜數(shù)據(jù)點為輸入值,以遠(yuǎn)安黃茶品質(zhì)為輸出值,應(yīng)用反向傳播人工神經(jīng)網(wǎng)絡(luò)方法建立遠(yuǎn)安黃茶品質(zhì)的近紅外光譜Bi-GA-BP-ANN預(yù)測模型。在建立人工神經(jīng)網(wǎng)絡(luò)模型過程中,設(shè)置學(xué)習(xí)速率為0.1,傳遞函數(shù)為linear[-1,1],模型所得結(jié)果見表4。建立遠(yuǎn)安黃茶品質(zhì)分?jǐn)?shù)全波長PLS模型、Bi-PLS模型、Bi-GA-PLS模型、全波長GA-PLS模型和Bi-GA-ANN模型(表4),并分別用驗證集樣品和外部樣品對上述5種模型的穩(wěn)健性進(jìn)行檢驗,比較不同方法間建立模型的優(yōu)越性。
表4 5種模型預(yù)測結(jié)果優(yōu)勢比較 Table 4 Comparison of prediction results of five models
每條樣品NIRS都由1 557對數(shù)據(jù)點組成,數(shù)據(jù)量巨大,如果應(yīng)用全部光譜數(shù)據(jù)建立模型,不僅造成建模時間較長,而且由于冗余信息的存在,致使模型欠穩(wěn)健,不利于后期維護和使用。因此,非常有必要選取與樣品密切相關(guān)的NIRS信息,而僅依靠去除樣品中的噪聲信息顯然達(dá)不到目的,必須借助其他的數(shù)學(xué)方法從眾多的信息中篩選出建模的特征光譜數(shù)據(jù)。應(yīng)用Bi方法篩選出最能反映遠(yuǎn)安黃茶品質(zhì)的子區(qū)間后建立PLS模型,經(jīng)比較表2和表3的模型結(jié)果,應(yīng)用Bi-PLS方法建立的遠(yuǎn)安黃茶品質(zhì)NIRS模型,不僅建模的光譜數(shù)據(jù)少(占全部光譜數(shù)據(jù)的41.80%),而且模型的效果還得到了有效提升(RMSECV下降了15.83%)。篩選的特征光譜區(qū)間分別為9 003.2~7 497.9 cm-1、6 101.7~5 449.8 cm-1和4 601.3~4 246.5 cm-1。在3個子區(qū)間范圍內(nèi),均沒有包含水的—OH近紅外光譜(6 900 cm-1和5 100 cm-1)信息,避免了H2O峰的高吸收對模型的影響。在已有研究中,與茶品質(zhì)有關(guān)的內(nèi)含成分主要為茶多酚、可溶性糖、咖啡堿、游離氨基酸和可溶性蛋白質(zhì)等物質(zhì)[24]。其中,茶多酚與茶苦澀味的形成有一定的關(guān)系,具有一定的收斂性;可溶性糖可增強茶湯的黏稠度,改善茶湯的滋味;咖啡堿與茶湯的苦味有關(guān),游離氨基酸和可溶性蛋白質(zhì)可提高茶湯的鮮味。上述這幾類物質(zhì)主要含有苯、酚羥基、—CHx、—C=O、—COOH和—NHx等官能團,在近紅外光譜區(qū)間,6 000 cm-1附近是苯官能團的組合頻信息區(qū)域,主要反映了茶多酚的光譜信息;5 555~5 882 cm-1是—CHx一級倍頻信息區(qū)域,8 264~8 696 cm-1是—CHx二級倍頻信息區(qū)域,4 545~4 500 cm-1和6 666~7 690 cm-1是—CHx組合頻信息區(qū)域,主要反映了單糖等葡萄糖和咖啡堿等茶葉堿以及茶氨酸等游離氨基酸的光譜信息;4 760~4 445 cm-1是—C=O組合頻信息區(qū)域,4 504 cm-1附近吸收峰是C—H伸縮振動和C=O伸縮振動的組合頻信息區(qū)域,主要反映了咖啡堿以及單糖的光譜信息;4 630 cm-1和4 695 cm-1附近是C—H伸縮振動和C=O伸縮振動的組合頻信息區(qū)域,4 525 cm-1附近是—NHx一級倍頻信息區(qū)域,4 613~4 587 cm-1區(qū)域是N—H彎曲二級倍頻與C=O伸縮振動的組合頻信息區(qū)域,主要反映了游離氨基酸、蛋白質(zhì)和咖啡堿等茶葉堿的光譜信息[25]。但是在光譜區(qū)間中,與酚羥基有關(guān)的信息較少,可能是由于黃茶在悶黃過程中茶多酚的酚羥基極易被氧化為醌類物質(zhì)或形成酮類物質(zhì)的原因??梢姡瑧?yīng)用Bi算法篩選出的建模光譜區(qū)間可以較為準(zhǔn)確地反映與遠(yuǎn)安黃茶品質(zhì)密切相關(guān)的內(nèi)含成分,具有較好的代表性,但是還有較多的光譜區(qū)間并沒有與遠(yuǎn)安黃茶品質(zhì)相關(guān)的官能團信息或者含有的信息非常微弱,將會影響模型的預(yù)測效果。因此,嘗試應(yīng)用GA算法來精準(zhǔn)篩選與遠(yuǎn)安黃茶品質(zhì)更加密切的數(shù)據(jù)點。
應(yīng)用GA算法從9 003.2~7 497.9 cm-1、6 101.7~5 449.8 cm-1和4 601.3~4 246.5 cm-13個區(qū)間中精準(zhǔn)提取了75個與遠(yuǎn)安黃茶品質(zhì)密切相關(guān)的數(shù)據(jù)點(9 003.2~7 497.9 cm-1中40個,6 101.7~5 449.8 cm-1中13個,4 601.3~4 246.5 cm-1中22個),其中最能反映遠(yuǎn)安黃茶品質(zhì)內(nèi)含成分官能團信息的數(shù)據(jù)點為45個(按照以上順序分為21、12、12個,所占比例分別為52.50%、92.31%、54.55%)。其中,9 003.2~7 497.9 cm-1區(qū)間提取的特征光譜數(shù)據(jù)點主要反映的是—CHx官能團的二級倍頻和組合頻信息,6 101.7~5 449.8 cm-1區(qū)間提取的特征光譜數(shù)據(jù)點主要反映的是—CHx官能團的一級倍頻信息,4 601.3~4 246.5 cm-1區(qū)間提取的特征光譜數(shù)據(jù)點主要反映的是—C=O官能團組合頻信息及—NHx官能團一級和二級倍頻信息,以上這些官能團與茶葉中的單糖、咖啡堿、茶氨酸和游離蛋白質(zhì)有關(guān),這幾種成分都與遠(yuǎn)安黃茶品質(zhì)密切相關(guān)[26]。其余30個光譜數(shù)據(jù)點主要反映的是木質(zhì)素、淀粉、纖維素等多糖的O—H伸縮和C—O伸縮的組合頻信息、酰胺組合頻信息以及脂肪烴類物質(zhì)的C—H伸縮和C—C伸縮的組合頻信息。由于遠(yuǎn)安黃茶在干燥提香時,會發(fā)生蛋白質(zhì)熱裂解而生成游離胺[1],而游離胺不穩(wěn)定,會繼續(xù)發(fā)生化學(xué)反應(yīng),生成糖胺類等。在評審遠(yuǎn)安黃茶品質(zhì)時,用沸水沖泡黃茶并在浸泡過程中糖類物質(zhì)以可溶解的單糖為主,但會有極少量的木質(zhì)素、淀粉和纖維素等多糖物質(zhì)溶解于茶湯中。上述物質(zhì)雖然有助于提高茶湯的鮮味和甜味,但這些物質(zhì)的含量極低,因此,它們的近紅外光譜信息也就很微弱。這也是提取的75個特征光譜數(shù)據(jù)點中只有45個特征數(shù)據(jù)點可以較好地反映與黃茶品質(zhì)有關(guān)的主要內(nèi)含成分的官能團信息的原因。在今后研究中,進(jìn)一步將茶葉中單糖、咖啡堿等理化成分與茶近紅外光譜相結(jié)合,開展深層次茶品質(zhì)評價研究。
本研究通過掃描獲得了遠(yuǎn)安黃茶的近紅外光譜,結(jié)合Bi-PLS算法和GA-PLS 算法分別篩選了建模的特征光譜區(qū)間和特征光譜數(shù)據(jù)點,實現(xiàn)了遠(yuǎn)安黃茶品質(zhì)的快速、無損、準(zhǔn)確預(yù)測。模型具有較高的穩(wěn)健性,可以準(zhǔn)確地預(yù)測外部未知樣品的品質(zhì)得分(R2=0.942,RMSEP=1.573)。但本研究在建立遠(yuǎn)安黃茶品質(zhì)分?jǐn)?shù)預(yù)測模型時,采用的樣品均具有較好的品質(zhì),品質(zhì)分?jǐn)?shù)區(qū)間僅為78.40~92.05。因此,為使模型具有較佳的穩(wěn)健性和較廣的應(yīng)用范圍,除了在建模時篩選能反映樣品的特征光譜信息外,還需擴大樣品的品質(zhì)分?jǐn)?shù)區(qū)間,補充一些品質(zhì)分?jǐn)?shù)稍低的樣品用于建立預(yù)測模型,將得到很好的實際應(yīng)用效果。