周 軍,楊 洋,姚 瑤,李子文,王 健,侯長軍
1.重慶大學(xué)生物工程學(xué)院,重慶 400044 2.瀘州老窖股份有限公司,四川 瀘州 646000 3.中國食品發(fā)酵工業(yè)研究院有限公司,北京 100015
中國白酒具有悠久的歷史,在我國經(jīng)濟發(fā)展建設(shè)及食品輕工業(yè)行業(yè)中占據(jù)著重要的地位。而白酒原酒是發(fā)酵后的酒醅經(jīng)過蒸餾工藝后得到的半成品酒,原酒的品質(zhì)直接影響成品酒的質(zhì)量,因此雖然不同酒廠進行成品酒勾兌的方式不同,但原酒關(guān)鍵組分的品質(zhì)把控是必不可少的[1]。總酸及己酸乙酯作為原酒的關(guān)鍵品質(zhì)指標,在酒體呈香及風(fēng)味協(xié)調(diào)方面發(fā)揮著重要的作用,尤其是己酸乙酯,作為濃香型白酒的主體香味物質(zhì),含量是否合理、諧調(diào)是構(gòu)成優(yōu)質(zhì)濃香型白酒質(zhì)量的關(guān)鍵[2]。目前傳統(tǒng)國標對這兩項指標所規(guī)定的方法分別是化學(xué)滴定法及色譜法,存在著檢測過程復(fù)雜費時、消耗化學(xué)試劑等缺點,且對操作人員的技術(shù)水平有一定要求,每天需配備大量的專業(yè)技術(shù)人員耗費時間做重復(fù)性的分析工作,無法滿足白酒釀造過程中原酒快速分析的迫切需求。
中紅外及近紅外光譜作為能夠?qū)崿F(xiàn)快速分析的檢測技術(shù),具有檢測效率高、分析便捷實用等優(yōu)點[3]。已被廣泛應(yīng)用于白酒原料、半成品、成品的品質(zhì)定量分析及真?zhèn)?、年份等真實性特征鑒別應(yīng)用中[4-7]。尤其是近紅外光譜技術(shù),在酒醅的關(guān)鍵指標分析方面,行業(yè)已基本實現(xiàn)了較為成熟的實際應(yīng)用[8]。然而,由于液體白酒,尤其是原酒中的呈香物質(zhì)含量較低,同時近紅外也存在著光譜譜型并不突出,解析難度大導(dǎo)致對于低含量指標的定量模型構(gòu)建難度大、預(yù)測誤差偏高等問題[9],使得近紅外光譜在液體白酒中并無十分成熟的實際應(yīng)用。而中紅外光譜分析技術(shù)多用于結(jié)構(gòu)分析中,在定量分析中的應(yīng)用較少,近年來,也有極少的報道對中紅外光譜技術(shù)在液體白酒成分分析方面進行了探索研究,但均未對相關(guān)模型的構(gòu)建進行深入的優(yōu)化及闡述[9-10],當前研究中也并未對原酒中總酸及己酸乙酯的紅外特征吸收位置有明確的結(jié)果。
本研究擬采用中紅外光譜分析技術(shù)針對濃香型白酒原酒中的關(guān)鍵指標總酸及己酸乙酯含量進行快速分析研究,結(jié)合遺傳算法(genetic algorithms,GA)、組合間隔偏最小二乘波段選擇法(synergy interval PLS,SiPLS)對原酒紅外光譜進行變量選取,探究波段優(yōu)化對原酒關(guān)鍵指標中紅外建模分析的影響,并結(jié)合偏最小二乘法構(gòu)建快速分析模型,為白酒原酒品質(zhì)的快速分析提供一定參考依據(jù)。
使用FTB傅里葉變換紅外分析儀(珀金埃爾默儀器有限公司)。儀器光源為黑體空腔光源,檢測器為DTGS,配有36 μm直徑透射樣品室。光譜范圍為4 000~397 cm-1,分辨率為8 cm-1,掃描次數(shù)32;利用配套軟件Result Plus采集白酒樣品的紅外光譜。
本研究構(gòu)建模型所用及在實際生產(chǎn)中驗證模型效果的濃香型白酒原酒樣品分別為248和60個,來自瀘州老窖股份有限公司釀酒生產(chǎn)車間,采用透射方式采集白酒原酒樣品的紅外光譜,同時為校正樣品間因散射現(xiàn)象對光譜引起的誤差影響,采用標準正態(tài)變換(SNV)方法對光譜數(shù)據(jù)進行預(yù)處理。原酒樣品總酸及己酸乙酯理化值根據(jù)GB/T10345—2007《白酒分析方法》中所規(guī)定,分別采用指示劑法及氣相色譜法進行測量。
1.3.1 樣品集的劃分
在剔除了2個異常樣品的基礎(chǔ)上,通過二比一的分配原則對參與模型構(gòu)建的246個原酒樣品進行校正集和驗證集分配。同時為保證校正集集合的代表性,研究采取Kennard-Stone(K-S)法根據(jù)不同樣品間的馬氏距離進行建模樣品分配。最終分別選擇了校正集及驗證集樣本164和82個。校正集與驗證集白酒原酒樣品的總酸及己酸乙酯含量值統(tǒng)計如表1所示。
表1 校正集與驗證集統(tǒng)計結(jié)果Table 1 Statistical results of Calibration set and validation set
1.3.2 特征波長選取
實驗采用遺傳算法(genetic algorithms,GA)[11]進行原酒紅外光譜總酸及己酸乙酯指標的特征吸收波長提取。
當應(yīng)用遺傳算法進行處理的樣品量過多時,可能會導(dǎo)致最終篩選的結(jié)果存在過擬合的風(fēng)險。因此先利用組合間隔偏最小二乘波段選擇法(SiPLS)[12]對全光譜935個波長變量進行初步選擇,再結(jié)合GA優(yōu)化建模變量點,最終以此構(gòu)建白酒原酒關(guān)鍵指標的定量分析模型。
1.3.3 數(shù)據(jù)處理與分析
GA及SiPLS算法采用MATLAB軟件進行實現(xiàn),SNV光譜預(yù)處理及偏最小二乘模型計算應(yīng)用UnscramblerX10.3光譜分析軟件(挪威CAMO公司)實現(xiàn),模型的精確度與穩(wěn)定性通過決定系數(shù)R2、預(yù)測標準偏差(root mean square error of prediction,RMSEP)及性能和標準差之比(ratio of performance to standard deviate,RPD)進行評價。R2越接近1,RMSEP越接近0,同時RPD越大,表示模型效果越好[13]。
2.1.1 組合間隔偏最小二乘波段選擇法(SiPLS)
將原酒紅外全譜區(qū)波段共935個變量點等距均分成k個子波段(k=15~25,間距為2),在不同子波段劃分情況下,分別就不同組合數(shù)(2~4)進行SiPLS運算。
經(jīng)過數(shù)據(jù)處理分析,總酸和己酸乙酯指標當k為17,組合數(shù)分別為4和2時,SiPLS所得交互驗證均方差(RMSECV)值最小,分別為0.030 81及0.105 6,所對應(yīng)的變量區(qū)間分別為1 246~1 454,1 882~2 090,2 519~2 727及3 792~4 000 cm-1和1 246~1 454,2 519~2 727 cm-1,分別挑選出220和110個變量點,占全譜區(qū)的23.5%和11.8%。
2.1.2 遺傳算法(GA)
采用GA分別對經(jīng)SiPLS篩選出的原酒總酸及己酸乙酯指標的特征變量進一步優(yōu)化。圖1(a,b)中分別展示了在GA運算過程中總酸及己酸乙酯指標的各變量進行迭代的頻次,依據(jù)頻次從高到低的方式逐步篩選波長變量參與模型構(gòu)建,通過RMSECV值進行比較,當其最小時所用變量為最佳的變量波長點。總酸及己酸乙酯兩個指標分別選擇了被選用5次和7次以上的變量點分別計55和40個,占全譜區(qū)的5.9%和4.3%。
圖1 各變量被選用的頻次圖(a):總酸;(b):己酸乙酯Fig.1 The frequency of each variable by chosen(a):Total acid;(b):Ethyl caproate
在上述各波段篩選方法的優(yōu)化基礎(chǔ)上,采用特征波長建立白酒原酒總酸及己酸乙酯含量指標的全光譜-PLS,SiPLS以及GA-SiPLS的定量分析模型,并從整體上來對模型效果進行評價,具體模型各指標效果如表2所示。
表2 白酒原酒兩項指標的不同PLS模型及性能分析結(jié)果Table 2 Different PLS model of two properties in base wine and the result of performance evaluation
由表2可知,白酒原酒總酸及己酸乙酯兩項指標在采用中紅外全光譜397~4 000 cm-1譜區(qū)波段建立校正模型時,效果均不理想,RMSEP值分別達到0.156及0.981,而R2僅有0.666及0.453,RPD值為1.731及1.213,代表模型整體的相關(guān)擬合效果不理想,預(yù)測誤差較大,不能應(yīng)用于實際生產(chǎn)中原酒關(guān)鍵指標的快速分析檢測。而在經(jīng)SiPLS及GA算法進行特征波段篩選后,模型效果有了非常顯著的改善,R2分別提升到了0.993及0.997,RMSEP值分別降低到0.023及0.077,RPD值提升至11.739及15.455,以上數(shù)據(jù)均表明經(jīng)波段篩選后,原酒模型的預(yù)測效果有了非常顯著的提升,同時參與建模的波長點也分別從935個降低到55及40個,既篩選出了研究對象指標的特征信息變量,又有效降低了模型的繁復(fù)水平,提高了模型運算速度及預(yù)測效果。
而相較于SiPLS模型,采用GA在其基礎(chǔ)上進一步篩選特征波點建立的模型效果更為優(yōu)秀。圖2(a)和(b)中分別展示了對于總酸及己酸乙酯兩項指標,GA-SiPLS方法優(yōu)選的特征波長在白酒原酒中紅外全光譜區(qū)的分布情況,圖中紅色譜段為優(yōu)選出的特征吸收波長,與C—O和O—H等主要基團的基頻振動吸收峰位置相對應(yīng),如圖2(a)中2 500~2 700 cm-1處由于羧酸羧基形成二聚體的氫鍵作用強,而使OH伸縮振動形成的諸多彌散小吸收峰,1 257及1 280 cm-1附近羧酸C—OH的伸縮振動吸收,以及圖2(b)中1 270~1 290 cm-1處酯類化合物中與羰基相連的C—O基團伸縮振動的基頻吸收等[14],均體現(xiàn)出了白酒原酒樣品中總酸及己酸乙酯指標的特征吸收。
圖2 GA-SiPLS選擇的變量分布情況(a):總酸;(b):己酸乙酯Fig.2 The distribution diagram of variables selected by GA-SiPLS(a):Total acid;(b):Ethyl caproate
采用配套設(shè)備獲取實際生產(chǎn)中50個原酒樣品的光譜通過模型進行預(yù)測,并結(jié)合理化真值繪制模型對比圖,如圖3(a,b)所示,白酒原酒樣品總酸及己酸乙酯指標的數(shù)據(jù)點緊密貼合在標準擬合線兩端,同時經(jīng)成對t檢驗,檢測值與理化真值間無顯著差異(p>0.05)??偹峒凹核嵋阴ツP万炞C數(shù)據(jù)R2分別為0.986及0.998,RMSEP分別為0.027及0.110,代表紅外檢測結(jié)果較為精確。
圖3 GA-SiPLS模型實測值與預(yù)測值的分布(a):總酸;(b):己酸乙酯Fig.3 Distribution of predicted and reference values in GA-SiPLS models(a):Total acid;(b):Ethyl caproate
基于中紅外光譜分析技術(shù)對濃香型白酒原酒中的關(guān)鍵指標進行了定量分析,得出以下結(jié)論:
兩種波段篩選方法所建立的模型相較于全光譜所建模型表現(xiàn)出了明顯的優(yōu)勢,同時遺傳算法在組合間隔偏最小二乘法變量篩選基礎(chǔ)上進行的進一步波長優(yōu)化,在保留關(guān)鍵波長點,體現(xiàn)原酒樣品指標特征吸收的同時剔除了大量無用信息,說明波長優(yōu)化對于中紅外光譜定量分析的重要性。
中紅外光譜分析技術(shù)結(jié)合波段篩選方法所建立的原酒關(guān)鍵指標定量模型經(jīng)獨立驗證均獲得了較高的預(yù)測精度,表明中紅外光譜技術(shù)結(jié)合波段篩選在白酒品質(zhì)控制及原酒成分分析中的巨大潛力中,可能比其余光譜技術(shù)更適用于白酒液體樣品的快速分析,尤其是一些含量較低的關(guān)鍵指標,為白酒釀造的品質(zhì)控制提供技術(shù)借鑒,同時為酒類品質(zhì)的快速分析方法開發(fā)提供新的思路。