張艷艷,代 琛,趙百英,楊明峰,王麗麗,武 博,楊 杰,戴金鋒,張本強*
(1.中國煙草總公司 青州中等專業(yè)學校,山東 青州 262500;2.山東中煙工業(yè)有限責任公司 山東 濟南 250014;3.山東臨沂煙草有限公司,山東 臨沂 276001;4.山東濰坊煙草有限公司,山東 濰坊 262100)
【研究意義】煙葉外觀質(zhì)量在一定程度上代表煙葉的內(nèi)在質(zhì)量,通過外觀質(zhì)量判定煙葉質(zhì)量是目前煙葉生產(chǎn)、收購和使用過程中的最直接、最主要的手段。近年來,煙葉外觀質(zhì)量量化評價體系得以完善[1],并被應用到煙葉質(zhì)量評價之中[2-3]?!厩叭搜芯窟M展】前人對煙葉化學成分和感官質(zhì)量間的相關(guān)性有一定報道[4-8]。另一方面,煙葉的常規(guī)化學成分含量由于客觀性強,數(shù)據(jù)易得,在煙葉質(zhì)量的一致性評價中得到了較多的研究。徐澤桐等[9]基于烤煙化學成分與感官質(zhì)量兩個方面建立模型,對陜西煙區(qū)的煙葉質(zhì)量執(zhí)行了綜合評價。杜文等[10]采用化學成分指標對批次煙葉進行質(zhì)量一致性研究。杜詠梅等[11]進行了水溶性糖、煙堿、總氮3個指標與烤煙吃味品質(zhì)關(guān)系的研究。
【本研究切入點】由于煙葉的外觀特征和化學成分易受氣候、地域等諸多因素影響,故在不同煙區(qū)呈現(xiàn)一定的差異性[12]。目前,尚缺乏山東煙葉在外觀、成分和評吸質(zhì)量之前的相關(guān)性研究?!緮M解決的關(guān)鍵問題】本研究基于2019年山東煙區(qū)臨沂、濰坊、日照3個產(chǎn)區(qū)各3個代表性站點的煙葉樣本,對于煙葉化學成分、外觀鑒定和煙葉質(zhì)量風格感官評吸3個方面的特征進行了相關(guān)性分析,旨在探尋各因素之間的關(guān)聯(lián)性,以期為探索煙葉風味特征、外觀特征和化學成分三者之間的關(guān)聯(lián)性提供理論依據(jù),為后續(xù)山東煙區(qū)的煙葉智能分級體系的建立和發(fā)展奠定理論基礎。
取2019年山東煙區(qū)臨沂、濰坊、日照3個產(chǎn)區(qū)各3個代表性站點,每個站點取18個等級(X1F、X2F、X3F、X1L、X2L、X3L、C2F、C3F、C4F、C2L、C3L、C4L、B2F、B3F、B4F、B2L、B3L、B4L)煙葉樣品。儀器為近紅外光譜儀(丹麥Foss 2050)。
對各等級煙葉的成熟度、葉片結(jié)構(gòu)、身份、油分、色度進行量化打分,并對所取樣品進行常規(guī)化學成分測定和感官評吸。研究采用Excel2019對數(shù)據(jù)進行整理,采用pandas、Jupyter進行數(shù)據(jù)預處理,采用R對數(shù)據(jù)進行統(tǒng)計分析及可視化,采用Keras進行神經(jīng)網(wǎng)絡建模,采用Random Forest Regressor進行隨機森林建模。
采用Excel2019對數(shù)據(jù)進行整理,采用pandas進行數(shù)據(jù)清洗,去掉空缺大于20%的列,然后去掉存在缺失值的行。采用R計算Spearman相關(guān)系數(shù),并進行可視化。P<0.05表示存在顯著相關(guān)性。相關(guān)性系數(shù)熱圖中僅顯示存在顯著相關(guān)性的點。
由表1可知,山東煙區(qū)煙葉各指標變異系數(shù)總體較大。在選取的39個定量特征中,除顏色、成熟度、燃燒性、灰分、干草香3個特征外,其余特征變異系數(shù)均在10%以上。其中,變異系數(shù)最小的為顏色和成熟度兩個外觀特征,其大小分別為2.034%和2.35%。變異系數(shù)最大的3個特征為鉀氯比、糖堿比和兩糖差,其大小分別為33.439%,34.433%和58.988%。在所有選取的特征中,約一半(19/39)偏度系數(shù)大于0,屬正偏峰;剩余約一半的特征屬負偏峰。各特征數(shù)據(jù)總體分布較為分散,除兩糖差、余味、燃燒性、淀粉百分比、烘焙香、鉀氯比、辛香、甜度8個特征外,其余特征峰度系數(shù)均小于0。
表1 各測量指標特征
由圖1可知,糖堿比和氯堿比與煙葉主要質(zhì)量風格評吸指標間存在顯著負相關(guān);兩糖差與烘焙香之間存在顯著正相關(guān),但是與勁頭、焦香、典型香之間存在顯著負相關(guān),與辛香、焦甜香、余味、雜氣、刺激性、蜜甜香之間無顯著關(guān)聯(lián)。
圖1 化學成分與煙葉質(zhì)量風格感官評吸相關(guān)性分析
由圖2可知,主要外觀特征評分值均與煙葉質(zhì)量風格感官評吸總分間存在顯著正相關(guān)。其中,色度與香氣質(zhì)、香氣量、透發(fā)性、甜度間存在顯著正相關(guān),與烘焙香、木香、干草香之間無顯著相關(guān)性。勁頭、濃度與葉片結(jié)構(gòu)間存在顯著負相關(guān)。
圖2 外觀特征與煙葉質(zhì)量風格感官評吸相關(guān)性分析
由圖3可知,煙葉顏色評分與氯堿比和氯含量之間存在顯著負相關(guān),與還原糖含量呈顯著正相關(guān),與其他主要化學成分指標之間無顯著關(guān)聯(lián)。同時,色度、油分、身份、成熟度也與氯堿比呈顯著負相關(guān)。
圖3 煙葉化學成分與外觀特征相關(guān)性分析
2.5.1 數(shù)據(jù)預處理研究中,首先采用Excel對數(shù)據(jù)進行預處理,規(guī)范數(shù)據(jù)格式,分別整理出2020年及2019年煙葉的主要化學成分特征及品吸評分總分,并采用Pandas對數(shù)據(jù)進行簡單預分析。嘗試依據(jù)總分劃分等級,采用隨機森林算法訓練分類器,但分類效果不理想。
針對2020年及2019年匯總并清洗后的246條記錄,按照3:1的比例隨機劃分訓練集和測試機,并將訓練集依據(jù)3:1的比例進一步隨機劃分為訓練集和驗證集。
圖4 數(shù)據(jù)預分析散點圖矩陣
表2 數(shù)據(jù)總體特征分析
2.5.2 神經(jīng)網(wǎng)絡建模首先,嘗試采用keras建立三層BP神經(jīng)網(wǎng)絡,隱藏層包括30個神經(jīng)元,激勵函數(shù)選擇ReLU函數(shù),迭代訓練20次,訓練出的模型擬合效果欠佳。
圖5 人工神經(jīng)網(wǎng)絡模型
采用keras重新建立Wide-Deep神經(jīng)網(wǎng)絡模型,該模型包括兩個隱藏層,這兩個隱藏層分別包含300個和30個神經(jīng)元,神經(jīng)元激勵函數(shù)為ReLU函數(shù);為保證對離群點的魯棒性,損失函數(shù)選擇Huber Loss函數(shù)。在隱藏層之后將隱藏層輸出與輸入層進行合并,然后連接到輸出層。
使用訓練集和驗證集對該模型進行50次迭代訓練,損失函數(shù)最終收斂為5.2左右,收斂性良好。采用測試機對模型進行評估,最終損失值的均標準差約為5.38,說明模型泛化性良好。該模型依據(jù)煙葉的基本化學成分指標,能夠?qū)熑~的品吸評分總分進行較好的預測。
圖6 損失函數(shù)收斂情況
在山東煙區(qū)煙葉的18個煙葉等級、6個外觀特征、12個化學成分指標和21個煙葉質(zhì)量風格感官評吸指標中,兩兩比較,共有741個指標對。其中,約54%的指標對(402/741)間呈顯著相關(guān)(P<0.05),約44%的指標對(327/741)間呈極顯著相關(guān)(P<0.01)。煙葉外觀特征可在一定程度上反應化學成分,同時兩者與感官風格特征關(guān)系較為密切,研究結(jié)果與陳健等[13]、蔡憲杰等[14]和郭文等[15]以C2F為對象在不同區(qū)域定性研究結(jié)果基本一致。這提示了使用煙葉外觀特征和主要化學成分含量預測山東煙葉質(zhì)量品質(zhì)的可行性。但本研究僅以2019年樣本數(shù)據(jù)為研究對象,不同年份山東煙葉外觀特征和化學成分含量與感官質(zhì)量的關(guān)系還有待進一步研究與驗證。
目前煙葉智能分級以開發(fā)圖像識別系統(tǒng)為主,系統(tǒng)指標多為煙葉的顏色、色度、破損度、葉行等多方面的外觀特征。經(jīng)試驗,部分系統(tǒng)可靠性已接近人工分級水平[16]。本文研究結(jié)果表明,在山東煙區(qū)煙葉主要化學成分含量、煙葉外觀特征與煙葉質(zhì)量風格感官評吸分數(shù)共39個指標間,54%的指標對存在顯著相關(guān)性。研究首次利用寬深神經(jīng)網(wǎng)絡模型對煙葉品吸評分進行預測,結(jié)果表明能夠使用煙葉的基本化學成分指標對煙葉品吸品質(zhì)的評分進行預測,預測損失在5分左右。這為增加智能分級系統(tǒng)指標參數(shù)提供了有益參考。圍繞優(yōu)化智能分級系統(tǒng)以提高分級準確率和效果,如何選擇合適的指標參數(shù)以應用于山東煙區(qū)煙葉智能分級將開展進一步研究。
受制于專家品吸打分的主觀性及樣本數(shù)量的限制,預測分數(shù)與專家的打分仍存在一定的差異,未來對此有待進一步研究。