劉青茹,孟連君,張曉娟,翟偉績,柴麗娟,陸震鳴,,許泓瑜,王松濤,張宿義,沈才洪,史勁松,許正宏,*
(1.江南大學(xué)生物工程學(xué)院,江蘇 無錫 214122;2.江南大學(xué) 糧食發(fā)酵與食品生物制造國家工程研究中心,江蘇 無錫 214122;3.江南大學(xué)生命科學(xué)與健康工程學(xué)院,江蘇 無錫 214122;4.國家固態(tài)釀造工程技術(shù)研究中心,四川 瀘州 646000)
國外葡萄酒、白蘭地、威士忌等酒類產(chǎn)品的等級概念與年份酒密不可分,20世紀(jì)末,白酒中開始出現(xiàn)“年份酒”的概念[1]。白酒釀造技術(shù)多元化,但一般的流程可以概括為3 個基本步驟:發(fā)酵、蒸餾和陳釀[2-3],陳釀是白酒品質(zhì)提升的重要環(huán)節(jié)之一。白酒價格與貯存時間的關(guān)系逐漸密切,其年份鑒定對于保障消費者和酒企權(quán)益、維持市場健康發(fā)展、促進白酒科學(xué)研究均具有重要價值[4-5]。
張宿義等[6]利用氣相色譜-質(zhì)譜(gas chromatographymass spectrometry,GC-MS)技術(shù)統(tǒng)計了1、2、3、5 a瀘型酒中揮發(fā)性成分的變化規(guī)律,發(fā)現(xiàn)隨著白酒儲存時間的延長,酯類物質(zhì)含量大體呈現(xiàn)下降趨勢,3 a之后趨于平衡;酸類物質(zhì)逐漸增多,而醇類物質(zhì)幾乎保持穩(wěn)定,醛類物質(zhì)隨著酒齡的增加呈先減少再增加的規(guī)律。仝建波等[7]通過GC-MS技術(shù)分析了不同酒度濃香型白酒中揮發(fā)性化合物隨貯存時間變化,在高度酒中,主要風(fēng)味物質(zhì)為己酸乙酯、乙酸乙酯和乳酸乙酯,且均隨著貯存時間的延長而減少,其對應(yīng)酸類化合物上升;而在低度白酒中呈現(xiàn)相反規(guī)律,酯類物質(zhì)上升,酸類物質(zhì)減少。孟望霓等[8]采用液液萃取結(jié)合GC-MS技術(shù)解析了不同醬香型白酒儲存1 a周期內(nèi)的主要揮發(fā)性成分的含量變化,發(fā)現(xiàn)酸類物質(zhì)和醛酮類物質(zhì)在1 a貯存期內(nèi)對酒體影響較大。Zhu Lin等[9]研究老五甑酒陳釀1 a內(nèi)的變化規(guī)律發(fā)現(xiàn),乙酯、醛和酸等大多數(shù)芳香化合物(香氣活力值大于1)在同一時期內(nèi)含量增加,而壬醛、2-苯乙酸乙酯、苯甲酸乙酯、4-乙基愈創(chuàng)木酚、丙醇和3-甲基-1-丁醇在貯存365 d后含量下降。唐賢華等[10]通過分析貯存6、12、18、24 個月和30 個月的濃香型白酒中揮發(fā)性化合物發(fā)現(xiàn),醛類物質(zhì)含量在儲存半年到兩年時間內(nèi)減少,而酸類物質(zhì)含量則持續(xù)下降,酯類物質(zhì)呈現(xiàn)下降趨勢且在1 a時間后趨于平衡。Jia Wei等[11]采用超高效液相色譜單四極桿Orbitrap高分辨質(zhì)譜對0~19 a的鳳酒進行研究發(fā)現(xiàn),除5-氟-2,3,4-三氯苯甲酸含量下降外,10種酯類、6種有機酸、8種氨基酸、11種生物活性成分和9種其他成分隨陳釀年限的增加均表現(xiàn)出顯著的上調(diào)趨勢。
學(xué)者研究結(jié)果各異,白酒年份判別仍為技術(shù)難題。白酒貯存容器多用陶壇、玻璃等,較難通過外源物質(zhì)溶出量進行鑒別;陳釀過程中多種物理、化學(xué)反應(yīng)導(dǎo)致酒體內(nèi)部物質(zhì)發(fā)生變化[1],酒體物質(zhì)組成的變化規(guī)律是鑒定的重要突破口,但其多菌種固態(tài)發(fā)酵技術(shù)使得約2%的微量成分中已檢出超過2 400種化合物[12-14],其中絕大多數(shù)為揮發(fā)性,近幾年隨著檢測技術(shù)的發(fā)展,不揮發(fā)性組分的研究逐漸進入人們的視野[15-16],復(fù)雜的物質(zhì)組成導(dǎo)致分析難度大;此外,工藝、產(chǎn)地、原料、氣候等多種因素形成風(fēng)格多元的白酒,白酒指紋圖譜的噪音清洗和年份特征化合物的篩選難度較大。白酒貯存時間和物質(zhì)組成之間的關(guān)聯(lián)研究仍處于摸索階段。
白酒是蒸餾酒,絕大多數(shù)物質(zhì)為揮發(fā)性化合物,因此,目前揮發(fā)性化合物仍然是白酒物質(zhì)基礎(chǔ)解析的重要對象,主要采用GC-MS聯(lián)用技術(shù)及其相關(guān)高配升級設(shè)備進行分析,具有信息量大、特異性好、進樣量少、定性定量準(zhǔn)確、適應(yīng)范圍廣等優(yōu)點。其前處理方法包括直接進樣[17]、液液萃取[18]、固相微萃取[19]、攪拌棒吸附萃取[20]、同時蒸餾萃取[21]、靜態(tài)頂空[22]等,各有優(yōu)劣。其中頂空固相微萃取(headspace-solid phase microextraction,HSSPME)技術(shù)[23],操作簡便、處理速度快,有利于白酒鑒定技術(shù)的推廣,因此本研究以其為數(shù)據(jù)采集方法。
GC-MS指紋圖譜包含較多物質(zhì)信息,因此需要進行復(fù)雜的統(tǒng)計分析、運算,機器學(xué)習(xí)是很好的選擇。機器學(xué)習(xí)在基于復(fù)雜參數(shù)的去噪篩選、模型建立和預(yù)測方面展示了較高的優(yōu)越性[24-25],國內(nèi)外研究者已在疾病預(yù)測、氣候監(jiān)測預(yù)測等復(fù)雜體系的鑒別和預(yù)測方面對其有較成熟的應(yīng)用。基于學(xué)習(xí)方式對機器學(xué)習(xí)進行分類,可以大致分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。監(jiān)督學(xué)習(xí)的原理是利用有標(biāo)簽的樣品構(gòu)成訓(xùn)練集,運用算法進行學(xué)習(xí),再用模型對未知測試集進行預(yù)測[26-28],它包含兩類主要問題[29],一種是分類問題,用于預(yù)測非連續(xù)、離散型數(shù)值,簡單來說就是預(yù)測樣本屬于哪一類;一種是回歸問題,用于預(yù)測連續(xù)具體的數(shù)值(圖1)。
圖1 監(jiān)督學(xué)習(xí)過程Fig. 1 Supervised learning process
對白酒貯存時間進行鑒別和預(yù)測就是回歸問題,因為時間是連續(xù)、具體的變量。模型眾多,本研究選用的極端梯度提升(eXtreme Gradient Boosting,XGBoost)算法因適用性高,無需構(gòu)造高精度的回歸分析,通過反復(fù)調(diào)整參數(shù)就可以得到較好的組合回歸模型而被廣泛運用于回歸問題中[26]。蘇天培[30]利用XGBoost算法建立模型,利用血糖含量實現(xiàn)對白血病的預(yù)測。劉宇等[31]基于XGBoost算法以多項指標(biāo)作為變量建立模型實現(xiàn)對心臟病的成功預(yù)測。張永梅等[32]提出一種基于XGBoost算法的特征提取和預(yù)測方法,實現(xiàn)對霧霾的短時預(yù)測。但是,目前鮮見基于機器學(xué)習(xí)對白酒貯存時間進行鑒定和預(yù)測的相關(guān)研究和應(yīng)用。因此,本研究采用GC-MS聯(lián)合XGBoost機器學(xué)習(xí)進行年份鑒定的探索。
XGBoost是基于梯度提升樹實現(xiàn)的集成算法,是一種加法模型,通過不斷迭代從而使模型的誤差不斷減少,其中,每一次迭代都會根據(jù)上一次迭代的預(yù)測結(jié)果對樣本進行加權(quán)處理,從而對當(dāng)前輪次中的子模型進行優(yōu)化。假設(shè)已經(jīng)訓(xùn)練了K棵樹,則對于第i個樣本的最終的預(yù)測值為[33]:
式中:xi為樣本的特征;fk(xi)為用第k棵樹對xi樣本進行預(yù)測,將結(jié)果相加即獲得最終的預(yù)測值而該樣本的真實值為yi,因此該算法下,共n個樣本的目標(biāo)函數(shù)為:
該算法的優(yōu)點主要包括:1)實現(xiàn)了并行化運算,加快了訓(xùn)練模型的速度;2)目標(biāo)函數(shù)中引入了正則項,控制了模型的復(fù)雜度,可以有效避免模型的過擬合;3)XGBoost作為一種集成算法,不僅支持二叉樹作為基分類器,還支持線形模型。但是,XGBoost算法在每次迭代之前,需要對結(jié)點的特征進行預(yù)排序、遍歷,從而選擇最優(yōu)的分割點,這便導(dǎo)致了該算法在訓(xùn)練時具有耗時的缺點。
白酒揮發(fā)性化合物之間存在關(guān)聯(lián),部分化合物對白酒年份鑒定并無顯著影響。因此可以通過篩選特征化合物減少模型輸入數(shù)據(jù),減少運算量,從而一定程度上彌補XGBoost的缺點,一般的特征篩選過程如圖2所示,首先,對包含所有化合物相對含量的全數(shù)據(jù)集進行特征選擇,去除冗余特征,降低復(fù)雜度,然后隨機將數(shù)據(jù)分為兩部分,分別用于測試和訓(xùn)練,用訓(xùn)練數(shù)據(jù)結(jié)合數(shù)學(xué)理論構(gòu)建模型,同時用測試數(shù)據(jù)對模型性能進行測試和改進。
圖2 監(jiān)督學(xué)習(xí)模型特征篩選和建模過程Fig. 2 Feature selection and establishment of supervised learning model
本研究采用HS-SPME-GC-MS技術(shù)采集白酒揮發(fā)性指紋圖譜,聯(lián)合極端隨機森林(extremely randomized trees,Extra-Trees)的變量重要性排序、sklearn特征選擇模塊中的單變量線性回歸測試(F_regression)以及連續(xù)目標(biāo)變量的互信息(mutual_info_regression),尋找合適的時間指示化合物,通過XGBoost算法建立回歸模型對白酒貯存時間進行預(yù)測,旨在為白酒乃至其他乙醇類飲料的貯存時間預(yù)測提供新思路。
不同貯存時間白酒基酒樣品由四川省瀘州老窖有限公司提供,樣品均在實驗室條件下貯存。在基酒貯存的不同時間節(jié)點取樣檢測,共計檢測70 款基酒揮發(fā)性成分,70 款基酒包括7 個批次基酒分別在10 個時間點取樣檢測。具體酒樣信息和檢測時間見表1。
表1 白酒基酒信息Table 1 Information about base baijiu samples
叔戊醇、正構(gòu)烷烴(C8~C40)、辛酸乙酯、丁酸乙酯、庚酸乙酯、乙酸乙酯、癸酸乙酯、壬酸乙酯、十二酸乙酯、乙酸己酯、異戊醇、異戊醛、正己醇、3-甲基丁酸乙酯、十四酸乙酯、十六酸乙酯、壬醛、己酸甲酯、己酸、2,4-二叔丁基苯酚、苯甲醛、己醛、異丁醇、油酸乙酯、乙酸-2-苯乙酯、乙酸-3-甲基-1-丁醇、辛酸、乳酸乙酯、乙醇、甲醇(均為色譜純或大于98%純度),購自Sigma Aldrich公司、上海阿拉丁生化科技股份公司;氯化鈉(優(yōu)級純) 中國國藥上?;瘜W(xué)試劑公司。
1.3.1 揮發(fā)性成分的指紋圖譜采集
1.3.1.1 酒樣預(yù)處理方法
所有樣品于20 ℃保存。分析之前,用超純水將酒樣乙醇體積分?jǐn)?shù)稀釋至8%,取4 mL稀釋后樣品置于20 mL頂空瓶中,加入1.5 g氯化鈉和10 μL叔戊醇內(nèi)標(biāo)(8.05 g/L)進行下一步的揮發(fā)性成分采集。
1.3.1.2 HS-SPME條件
采用實驗室前期優(yōu)化條件[34],使用三相萃取頭80 μm DVB/Carboxen/PDMS在50 ℃平衡5 min,然后在50 ℃,350 r/min轉(zhuǎn)速萃取40 min。最后在250 ℃進樣口解吸附5 min完成進樣。
1.3.1.3 GC-MS條件
TG-WAXMS毛細管色譜柱(60 m×0.25 mm,0.25 μm);載氣:純度大于99.999%的He;流速:1.0 mL/min,分流比:20∶1;柱溫:進樣口溫度保持在250 ℃,起始氣相色譜柱在50 ℃維持2 min,以3 ℃/min升溫至145 ℃,再以15 ℃/min升溫至230℃,并保持3 min。
離子源溫度260 ℃;接口溫度200 ℃;電離方式:電子電離正離子模式;電子能量70 eV;掃描質(zhì)量范圍m/z33~350。
1.3.2 化合物定性方法
首先利用儀器自帶的MASS HUNTER(B.08.00)軟件對采集的數(shù)據(jù)進行解卷積,通過比對質(zhì)譜庫(NIST)僅保留匹配相似度大于700的定性結(jié)果,并手動過濾掉柱流失產(chǎn)生的化合物(主要是含硅和鹵素的化合物)。采用與樣品采集完全相同的參數(shù)進行正構(gòu)烷烴混標(biāo)(C8~C40)測定,計算保留指數(shù)(retention index,RI)。將本實驗條件下對化合物計算出的RI(RI cal)與文獻中該物質(zhì)的RI(RI lit)對比進一步定性,由于實驗條件、儀器等因素會造成差異,認(rèn)為RI cal和RI lit相差30以內(nèi)時定性結(jié)果準(zhǔn)確。最后,使用可獲得的91種物質(zhì)標(biāo)準(zhǔn)品用于第3次定性。
1.3.3 特征化合物篩選及XGBoost模型構(gòu)建方法
特征值篩選及模型構(gòu)建均使用Anaconda Navigator運行Python代碼實現(xiàn)分析和可視化。采用10折交叉驗證避免XGBoost的過擬合,當(dāng)預(yù)測結(jié)果已經(jīng)很好時可提前停止建樹,這有助于提高訓(xùn)練速度[35]。基于XGBoost算法建立白酒貯存時間回歸預(yù)測模型,通過Extra-Trees、F_regression以及mutual_info_regression進行特征值篩選,所用Python代碼已上傳至https://github.com/seaflyru/-/tree/main。具體建模思路如圖3所示。
步驟1):采用全指紋圖譜作為輸入數(shù)據(jù)集進行特征篩選和建立XGBoost回歸模型。根據(jù)樣本個數(shù)按照4∶1的比例隨機將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集的數(shù)據(jù)用于特征值篩選和模型的建立,測試集的數(shù)據(jù)用于樣品貯存時間預(yù)測。步驟2)~4)均只使用訓(xùn)練集。
步驟2):基于不同特征值算法進行特征重要性排序。通過Extra-Trees的變量重要性排序、sklearn特征選擇模塊中的F_regression以及mutual_info_regression篩選對白酒貯存年份影響顯著的物質(zhì),其主要目的就是縮小數(shù)據(jù)集,優(yōu)化模型參數(shù),通過上述分析可得到3 組特征變量的重要性排序。
步驟3):特征值篩選。分別取步驟2)的3種方法特征變量的前i(25~80)個特征的交集作為XGBoost 回歸模型的特征變量,采用10折交叉檢驗進行模型優(yōu)化,模型預(yù)測準(zhǔn)確性降低或不再增加時的交集為代表性特征。
步驟4):模型建立及評估。以步驟3)所得的代表性特征為輸入數(shù)據(jù)集,以均方誤差(mean squared error,MSE)和R2值評估模型性能獲得最優(yōu)模型參數(shù),建立進行白酒貯存時間臨時性鑒別的XGBoost回歸模型。
步驟5):年份鑒別測試。將測試集數(shù)據(jù)的代表性特征值作為數(shù)據(jù)集輸入模型預(yù)測樣品的貯存時間,以R2和MSE的形式輸出預(yù)測結(jié)果。
隨著工藝技術(shù)的不斷提高,嵌入式SRAM的穩(wěn)定性在設(shè)計和測試領(lǐng)域內(nèi)也越來越受到廣泛關(guān)注。對于低電壓SRAM中的穩(wěn)定性故障,由于開路電阻在一定范圍內(nèi)很難通過傳統(tǒng)測試方法檢測出來,因此,需要增加專門的DFT電路來進行測試。
圖3 白酒貯存時間鑒別模型建立過程示意圖Fig. 3 Flow chart for the establishment of a predictive model for baijiu age
采用GC-MS法進行白酒樣品測定,總離子流圖如圖4所示。經(jīng)過定性去噪后貯存2 a的白酒基酒中共分離鑒定得到98種揮發(fā)性化合物(圖5),其中醇類物質(zhì)6種、醛類物質(zhì)9種、酸類物質(zhì)7種、酯類物質(zhì)68種、酮類物質(zhì)3種、其他物質(zhì)5種,在這些化合物中酯類物質(zhì)數(shù)量最多(約70%),這一結(jié)果與前人的研究一致[36]?;衔锵鄬孔兓嬖诜呛唵尉€性增減的規(guī)律,且變化不顯著的噪音物質(zhì)較多,因此,特征篩選和機器學(xué)習(xí)對貯存時間判別十分重要。
圖4 代表性樣品的總離子流圖Fig. 4 Total ion current chromatogram of representative sample
隨機將白酒樣品按照4∶1的比例劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型的建立,測試集用于模型的預(yù)測。通過特征值工程可以計算每個特征變量對模型的貢獻度,從而判斷哪些特征變量對于白酒貯存時間的鑒定更為重要。本研究運用Extra-Trees的變量重要性排序、sklearn特征選擇模塊中的F_regression以及mutual_info_regression這3種方法分別篩選重要的特征變量,得到各化合物的3 組重要性排序(圖6)。
圖5 貯存2 a白酒基酒的揮發(fā)性物質(zhì)相對含量熱圖Fig. 5 Heatmap of the relative contents of volatile substances in base baijiu stored for two years
圖6 3種方法篩選白酒揮發(fā)性成分中的特征變量Fig. 6 Filtration of feature variables of volatile components in baijiu by three methods
Extra-Trees是2006年P(guān)ierreGeurts等提出的算法,由許多決策樹集成[37]。每棵決策樹都使用全部訓(xùn)練數(shù)據(jù)集進行完全隨機的計算實現(xiàn)決策分叉,在隨機的情況下某一特征值對于模型鑒別仍然表現(xiàn)出很強的區(qū)分度,即變量重要性(variable importance in projection,VIP)得分高,則該特征值對模型準(zhǔn)確性貢獻大。F_regression是基于單變量線性回歸測試原理,適用于特征篩選過程中對多個回歸變量各自的線性擬合效果進行得分轉(zhuǎn)換,分兩個步驟完成,首先計算每個回歸變量與目標(biāo)之間的線性相關(guān)性,然后將其轉(zhuǎn)換為F得分,F(xiàn)得分越大則該變量對鑒定的貢獻越大[38]。mutual_info_regression是基于鄰近算法的熵估計出一個互信息(mutual information,MI)。MI用來衡量兩個隨機變量間的依存關(guān)系,當(dāng)且僅當(dāng)兩個變量是獨立的,MI才為零值。一個變量的MI值越大時,該變量與其他隨機變量的相關(guān)性越強,越具有代表性[39]。
根據(jù)Extra-Trees重要性評估結(jié)果(圖6a)可以看出,油酸乙酯是最重要的特征變量,其次是2,6-二叔丁基-4-甲基苯酚和亞油酸乙酯,這一結(jié)果與本實驗室前期研究發(fā)現(xiàn)的時間指示性化合物吻合[34]。根據(jù)F_regression結(jié)果(圖6b)可以看出,油酸乙酯是篩選到的最關(guān)鍵特征,其次是亞油酸乙酯和2-十五烷酮,進一步證實了油酸乙酯作為時間指示性化合物的有效性。mutual_info_regression結(jié)果(圖6c)可以看出,己酸-2-苯乙酯被認(rèn)為是最重要的化合物,這一物質(zhì)也是前期篩選到的時間指示性化合物之一,其次是乙酸辛酯和己酸異戊酯。
圖7 特征子集篩選Fig. 7 Feature subset selection
取每種方法前25~80種特征變量的交集,采用10折交叉驗證評估所建模型的擬合程度。從圖7a可以看出,最有效的建模特征為3種篩選方法前59 個特征中共有的特征。將3種方法的前59 個特征變量進行Venn分析可得到共性化合物32種(圖7b、表2),其被認(rèn)為是最有效的建模特征,以此特征變量交集建立最終的XGBoost分類預(yù)測模型。該32種特征化合物列表和在3種篩選方法的最終得分如表2所示。
表2 32種特征化合物及其在3種篩選方法中的得分Table 2 Scores for 32 compounds determined by three screening methods
對于使用32種特征化合物建立的回歸模型,采用MSE和R2值評估模型性能,結(jié)果如圖8所示,模型R2可達到0.987,MSE為1.044,該結(jié)果說明該模型穩(wěn)定可靠,具有預(yù)測白酒貯存時間的能力。
圖8 預(yù)測結(jié)果和模型評估Fig. 8 Good agreement between model predictions and actual values
采用HS-SPME-GC-MS技術(shù)分離鑒定白酒基酒的揮發(fā)性指紋圖譜,70 個不同貯存時間的基酒共鑒定出98種揮發(fā)性成分,其中醇類6種、醛類9種、酸類7種、酯類68種、酮類3種、其他類5種?;赬GBoost算法,聯(lián)合Extra-Trees、F_regression、mutual_info_regression 3種特征值篩選手段,最終采用以油酸乙酯為首的32種特征化合物作為建模變量,建立回歸模型對白酒貯存時間進行臨時性鑒別,模型的R2評估結(jié)果為0.987,表明該模型可靠,為白酒酒齡的判斷提供了新思路。