付 博,楊永鋒,劉向真,趙森森,劉茂林,賈國濤,牛洋洋,張坤芳,于建軍,彭桂新,姬小明
(1.河南中煙工業(yè)有限責(zé)任公司技術(shù)中心,河南 鄭州 450016;2.河南農(nóng)業(yè)大學(xué)煙草學(xué)院,河南 鄭州 450002)
煙草是我國重要的經(jīng)濟(jì)作物,烤煙在卷煙原料中占據(jù)重要地位。我國地域遼闊,各個種植氣候與土壤條件形成了較為豐富的烤煙香氣類型[1]。香氣類型對煙葉原料的高效利用及卷煙配方開發(fā)具有舉足輕重的作用。20 世紀(jì)50 年代,老一輩科學(xué)家根據(jù)烤煙香氣特點(diǎn),將其劃分為濃香型、中間香型、清香型三大香型[2]。張建平等[3]以煙葉樣品近紅外光譜數(shù)據(jù)作為研究對象,通過建立煙葉生態(tài)區(qū)及風(fēng)格特征的投影分析模型,將烤煙香型又細(xì)化為典型清、典型中、典型濃、清偏中、清透濃、中偏清、中偏濃、濃偏中、濃透清9 類。李章海等[4]建立了煙葉評判香型指數(shù),將我國烤煙香型細(xì)分為清香型、清偏中型、中偏清型、中間型、中偏濃型、濃偏中型和濃香型7 個小類。羅登山等[5]在傳統(tǒng)三大香型的基礎(chǔ)上完成了全國烤煙煙葉風(fēng)格區(qū)劃體系的構(gòu)建,將全國烤煙煙葉劃分為西南高原生態(tài)區(qū)-清甜香型(Ⅰ)、黔桂山地生態(tài)區(qū)-蜜甜香型(Ⅱ)、武陵秦巴生態(tài)區(qū)-醇甜香型(Ⅲ)、黃淮平原生態(tài)區(qū)-焦甜焦香型(Ⅳ)、南嶺丘陵生態(tài)區(qū)-焦甜醇甜香型(Ⅴ)、武夷丘陵生態(tài)區(qū)-清甜蜜甜香型(Ⅵ)、沂蒙丘陵生態(tài)區(qū)-蜜甜焦香型(Ⅶ)、東北平原生態(tài)區(qū)-木香蜜甜香型(Ⅷ)等八大香型。
八大香型的劃分旨在滿足中式卷煙對煙葉原料風(fēng)格多樣性需求[6],提高卷煙工業(yè)企業(yè)配方和原料利用水平,提升原料保障能力。以生態(tài)為基礎(chǔ)、以香韻為依據(jù)、以化學(xué)成分和物質(zhì)代謝為支撐確立了各香型典型產(chǎn)地及相鄰香型邊界,劃分了香型穩(wěn)定區(qū)和波動區(qū)[7]。卷煙產(chǎn)品設(shè)計及維護(hù)過程中需要對煙葉原料的香型進(jìn)行判定,以滿足卷煙產(chǎn)品設(shè)計目標(biāo)和特征。煙葉香型的判定主要通過感官評吸的方式[8],但是感官評吸受人體嗅味覺、心理及評吸環(huán)境等多種因素影響,因此,建立高效便捷的煙葉香型判定方法尤為重要。
在煙葉香型快速判定方面已有較多研究,申欽鵬等[9]、許永等[10]利用煙葉化學(xué)成分與香型的關(guān)系建立香型判定模型,有效避免了人為主觀因素影響,縮短了香型判定時間。張同琢等[11]利用熱分析圖譜結(jié)合機(jī)器學(xué)習(xí),構(gòu)建了八大香型判定模型,香型判定準(zhǔn)確率為83.30%。王一丁等[12]建立了基于可見-近紅外光譜判定烤煙香型的方法。近紅外光譜技術(shù)由于快速、無損、操作簡便、穩(wěn)定性好等特點(diǎn),經(jīng)常被用于煙葉產(chǎn)地溯源及香型判定研究[13-15],但是目前還沒有利用近紅外光譜對八大香型進(jìn)行快速判別的研究。因此,采用近紅外光譜結(jié)合機(jī)器學(xué)習(xí)方法構(gòu)建八大香型分類模型,以期進(jìn)一步提高烤煙煙葉香型判定效率,為提高煙葉原料利用水平、卷煙配方設(shè)計及維護(hù)效率提供技術(shù)支撐。
試驗用樣品選取來自云南、吉林、四川、廣西、河南、湖南、福建、貴州、重慶、陜西、黑龍江、遼寧共12 個?。ㄊ?、區(qū))的烤煙煙葉,由河南中煙工業(yè)責(zé)任有限公司提供,煙葉采集年份在2016—2021 年,共計1 383份樣品。
將煙葉置于烘箱中45 ℃干燥30 min,研磨成粉后過0.42 mm 孔徑篩網(wǎng)。將制備好的煙末放于石英測量杯中,并用壓樣器壓實(shí)。利用傅立葉變換近紅外光譜儀(Thermo Fisher)進(jìn)行光譜采集,光譜采集范圍:3 800~10 000 cm-1;光譜分辨率:8 cm-1;掃描次數(shù):64次;樣品杯方式:旋轉(zhuǎn)。
選用一階導(dǎo)數(shù)(D1)、二階導(dǎo)數(shù)(D2)、移動平均平滑(MA)、均值歸一化(MEAN)、多元散射校正(MSC)、極差歸一化(MAXMIN)、SG 濾波一階導(dǎo)數(shù)(SG1)、SG 濾波二階導(dǎo)數(shù)(SG2)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和小波變換(WAVE)等10 種預(yù)處理算法,按照無預(yù)處理、單種預(yù)處理、組合預(yù)處理等方法探討預(yù)處理方法的優(yōu)劣[16-17]。組合預(yù)處理方式分別采用2~4 種預(yù)處理方式疊加,通過隨機(jī)組合形成93 種組合方式,包括組合順序和預(yù)處理疊加個數(shù)。
預(yù)處理后的數(shù)據(jù)分別利用主成分分析(Principal components analysis,PCA)、增量主成分分析(Incremental principal components analysis,IPCA)、核主成分分析(Kernel principal components analysis,KPCA)和因子分析(Factor analysis,F(xiàn)A)進(jìn)行降維,以模型準(zhǔn)確率為衡量標(biāo)準(zhǔn),在主成分個數(shù)為1~50內(nèi)篩選準(zhǔn)確率最高的降維方式及主成分個數(shù)。
香型分類模型構(gòu)建采用隨機(jī)森林(RF)分類算法,隨機(jī)森林是由多棵決策樹組成的集成學(xué)習(xí)算法[18]。該算法首先Bootstrap 采樣方法隨機(jī)獲得N個有差異的訓(xùn)練集,然后采用Bagging 機(jī)制生產(chǎn)含有N個決策樹的隨機(jī)森林,根據(jù)投票法判別樣本的最終類別。根據(jù)隨機(jī)森林運(yùn)算原理,可知該算法有2 個關(guān)鍵參數(shù),即評估器數(shù)量(N_estimators)和隨機(jī)種子(Random_state),因此,模型構(gòu)建時重點(diǎn)對這2 個參數(shù)進(jìn)行優(yōu)化。模型初始參數(shù)中,評估器數(shù)量為350、隨機(jī)種子為12,參數(shù)優(yōu)化范圍分別為50~1000 和0~15。香型分類模型評價采用模型準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和宏觀F1值(F1_macro)4項指標(biāo)。
根據(jù)八大香型區(qū)劃結(jié)果對1 383 個煙葉樣品進(jìn)行香型歸屬分類,并依據(jù)香型邊界定位確定樣品屬于香型穩(wěn)定區(qū)(W)或者波動區(qū)(G),結(jié)果見表1。由表1 可知,清甜香型煙葉樣品有486 份,其中云南的玉溪、昆明、曲靖、昭通、文山、楚雄及四川涼山等地為穩(wěn)定區(qū),共有302份樣品,波動區(qū)主要包括云南保山、臨滄、麗江及廣西百色西部、貴州畢節(jié)西部的樣品,共184份。貴州的中東部為蜜甜香型的穩(wěn)定區(qū),波動區(qū)主要包括貴州的黔西南、畢節(jié)及廣西百色,該香型穩(wěn)定區(qū)有88 份樣品。焦甜焦香型的樣品主要分布在穩(wěn)定區(qū),共有410 份樣品。焦甜焦香型樣品主要來自河南,清甜蜜甜香型全部來自福建。遼寧、吉林及黑龍江的樣品全部劃分為木香蜜甜香型穩(wěn)定區(qū),總計76份樣品。采用各香型穩(wěn)定區(qū)的煙葉樣品(1 109 份)構(gòu)建香型分類模型,以保證分類模型的準(zhǔn)確性。
表1 煙葉樣品產(chǎn)地來源及香型分布Tab.1 Table of origin and aroma type distribution of tobacco samples份
利用近紅外原始光譜構(gòu)建香型隨機(jī)森林分類模型,模型預(yù)測準(zhǔn)確率(ACC)僅能達(dá)到48.64%(表2),觀察近紅外光譜曲線發(fā)現(xiàn)不同香型的光譜曲線在整個光譜區(qū)間均具有較大差異,說明原始光譜中存在較多的干擾因素(圖1A)。近紅外光譜經(jīng)過小波變換(WAVE,ACC=0.50.00%)、極差歸一化(MAXMIN,ACC=63.64%)和多元散射校正(MSC,ACC=66.82%)均能提高模型的預(yù)測準(zhǔn)確率,但是正確率提升幅度有限。一階導(dǎo)數(shù)(D1)處理后的模型預(yù)測準(zhǔn)確率為72.27%,較原始光譜提高23.63 個百分點(diǎn)。SG 濾波一階導(dǎo)數(shù)的準(zhǔn)確率為73.64%,效果優(yōu)于一階導(dǎo)數(shù)。在不同預(yù)處理方法組合中,SG1+MSC 和SGZ+MSC 處理后構(gòu)建的模型預(yù)測準(zhǔn)確率最高,為78.18%,其次為MSC+D1+MA,準(zhǔn)確率為77.73%,預(yù)處理方法組合順序不同,會影響模型的準(zhǔn)確率,D1+MA+MSC 處理后準(zhǔn)確性為77.27%,略低于MSC+D1+MA。而D1+MA+MSC+WAVE 與D1+MA+MSC 預(yù)處理組合得到的模型預(yù)測準(zhǔn)確率完全一致,說明光譜數(shù)據(jù)經(jīng)過D1+MA+MSC 處理后進(jìn)行小波變換對模型準(zhǔn)確率沒有提升作用。對比原始光譜、MSC、SG1 和SG1+MSC 等不同預(yù)處理光譜圖發(fā)現(xiàn),直觀差異逐漸變小,干擾因素被逐步消除(圖1)。
圖1 不同預(yù)處理條件下的近紅外光譜圖Fig.1 Near infrared spectra of different pretreatments
表2 數(shù)據(jù)預(yù)處理對烤煙葉香型分類模型準(zhǔn)確率的影響Tab.2 Influence of preprocessing methods on aroma type classification model accuracy of flue-cured tobacco %
選用PCA、IPCA、KPCA 和FA 等4 種數(shù)據(jù)降維方法對SG1+MSC 處理后的數(shù)據(jù)進(jìn)行降維(表3),結(jié)果顯示,利用PCA降維方法,主成分個數(shù)為26時,模型準(zhǔn)確率為82.73%,較降維前模型準(zhǔn)確率提高4.55個百分點(diǎn)。利用IPCA 降維后的數(shù)據(jù)集構(gòu)建分類模型,模型準(zhǔn)確率最高為82.27%。KPCA 降維后的分類模型準(zhǔn)確率最高為83.18%,與PCA 和IPCA 相比準(zhǔn)確率提高0.45 個百分點(diǎn)。FA 降維選取45 個主成分時,構(gòu)建的隨機(jī)森林分類模型準(zhǔn)確率最高,為85.91%,與降維前相比,準(zhǔn)確率提高7.73個百分點(diǎn)。
表3 降維方式對烤煙香型分類模型準(zhǔn)確率的影響Tab.3 Effect of dimensionality reduction on aroma type classification model accuracy of flue-cured tobacco %
隨機(jī)森林是非常具有代表性的裝袋法(Bagging)集成算法,在模型構(gòu)建過程中評估器數(shù)量(N_estimators)和隨機(jī)種子(Random_state)是顯著影響模型精度的參數(shù)。對評估器數(shù)量和隨機(jī)種子2個參數(shù)優(yōu)化結(jié)果顯示,當(dāng)評估器數(shù)量為500、隨機(jī)種子為9 的時候,模型準(zhǔn)確率最高為90.45%,與優(yōu)化前相比準(zhǔn)確率提高4.54 個百分點(diǎn)。利用優(yōu)化后的香型分類模型對預(yù)測集進(jìn)行分析,混沌矩陣結(jié)果(表4)顯示,清甜香型55 份樣品有1 份樣品被錯誤分類到焦甜焦香型,召回率為98.18%。蜜甜香型樣品召回率僅為66.67%,24 份樣品中有7 份被錯誤分類到清甜香型,其中有5份為貴州畢節(jié)的樣品,黔東南和遵義桐梓縣的樣品各1 份,畢節(jié)處于清甜香和醇甜香型交界處,不同年份氣候條件的變化使得該地風(fēng)格在2 種風(fēng)格間波動。召回率同樣為66.67%還有焦甜醇甜香型,15 份樣品中有3 份被錯誤分類到焦甜焦香型,這3份樣品均為湖南郴州的樣品,而1 份衡陽的樣品被分到了醇甜香型,另1 份常德的樣品被錯誤分類到了清甜蜜甜香型。
表4 參數(shù)優(yōu)化后的烤煙香型分類模型混沌矩陣Tab.4 The chaotic matrix of the aroma type classification model of flue-cured tobacco after parameter optimization
本研究基于八大香型區(qū)劃結(jié)果對12 個省(市、區(qū))的1 383 份煙葉樣品進(jìn)行香型分類,選用各香型穩(wěn)定區(qū)的樣品構(gòu)建香型分類模型。近紅外原始光譜數(shù)據(jù)首先經(jīng)過SG 濾波一階導(dǎo)數(shù)和多元散射校正預(yù)處理,然后利用因子分析降維處理(45 個因子),采用隨機(jī)森林分類算法(N_estimators=500;Random_state=9)構(gòu)建的模型準(zhǔn)確率最高為90.45%,明顯高于張同琢等[11]利用熱分析圖譜構(gòu)建的香型判定模型準(zhǔn)確率(83.30%)。該分類模型對清甜香型、焦甜焦香型、清甜蜜甜香型和木香蜜甜香型的召回率均達(dá)到90.00%以上,蜜甜香型和焦甜醇甜香型的召回率為66.67%。分析模型對蜜甜香型和焦甜醇甜香型預(yù)測準(zhǔn)確率較低的原因發(fā)現(xiàn),被錯誤分類的樣品多位于香型分布區(qū)過渡地帶,比如蜜甜香型被錯誤分類的7 份樣品有5 份位于清甜香和醇甜香過渡地帶,1 份位于醇甜香和蜜甜香過渡地帶。而焦甜醇甜香型錯誤分類的5 份樣品有3 份被分到了焦甜焦香型,1份被分到了醇甜香型,表現(xiàn)出了較強(qiáng)的香韻相似性,這也表明利用近紅外光譜方法對煙草香韻的判別或許是可行的。
八大香型的劃分主要依據(jù)煙葉產(chǎn)地生態(tài)條件、香韻組成及化學(xué)成分,其區(qū)劃結(jié)果對煙葉原料配方應(yīng)用具有重要指導(dǎo)意義。由于劃分的香型類別較多,使八大香型數(shù)字化快速判定增加了難度、提高了挑戰(zhàn)度。構(gòu)建的近紅外香型分類模型和熱分析圖譜香型判定模型均是在八大香型區(qū)劃的前提下進(jìn)行的香型數(shù)字化判定探索。另外,王文俊等[19]利用近紅外和電子鼻融合數(shù)據(jù)對清香型、中間香型和濃香型3 種香型風(fēng)格進(jìn)行了判別,以及沙云菲等[20]利用近紅外和中紅外融合數(shù)據(jù)對3種香型構(gòu)建判別模型,也為國產(chǎn)煙葉香型快速判別提供了新思路。單一的快速檢測技術(shù)獲得的數(shù)據(jù)很難全面地表征煙葉風(fēng)格信息,利用多種檢測技術(shù)能夠提高模型的準(zhǔn)確率,更為有效地指導(dǎo)煙葉原料利用。近紅外光譜等方法具有綠色、快速、無損的優(yōu)點(diǎn)[21],為煙葉原料有效利用及煙葉風(fēng)格數(shù)字化評價提供了新思路和技術(shù)支撐。