黃小艷 趙廣仁 黃晶 謝俊力 賈智偉
摘? ? 要:打葉復(fù)烤過程的工藝參數(shù)設(shè)置是穩(wěn)定煙葉質(zhì)量的關(guān)鍵,為了提高煙葉質(zhì)量的穩(wěn)定性,本文提出了一種基于決策樹與正交試驗設(shè)計的參數(shù)優(yōu)化方法。使用決策樹算法模型挖掘與分析打葉復(fù)烤歷史數(shù)據(jù)的工藝參數(shù)與出口水分指標之間的關(guān)系,得到工藝參數(shù)對指標的影響權(quán)重排序,由此設(shè)計因素水平表進行正交試驗設(shè)計,根據(jù)試驗結(jié)果對決策樹模型進行驗證與修正,并獲得較優(yōu)參數(shù)組合,現(xiàn)場驗證表明修正后的預(yù)測結(jié)果與實際相比誤差小于5%,所獲得的參數(shù)組合充分滿足現(xiàn)場需求。
關(guān)鍵詞:打葉復(fù)烤;參數(shù)優(yōu)化;決策樹;正交試驗
中圖分類號:TS443? ? ? ? ? 文獻標識碼:A? ? ? ? ? DOI 編碼:10.3969/j.issn.1006-6500.2020.09.015
Abstract: The setting of technological parameters in threshing and redrying process is the key to stabilize the quality of tobacco leaves. In order to improve the stability of tobacco quality, a parameter optimization method based on decision tree and orthogonal experimental design was proposed. The decision tree algorithm model was used to mine and analyze the relationship between the process parameters of threshing and redrying and the export moisture index from historical data, and the influence weight of the process parameters on the indexes was obtained. The orthogonal experiment design was carried out by designing the factor level table. According to the experimental results, the decision tree model was verified and modified, and the optimal combination of parameters was obtained. The field verification showed that the modified model was feasible since the error between prediction and the actual results was less than 5%, and the obtained parameter combination fully met the field demand.
Key words: threshing and redrying; process parameter optimization; decision tree; orthogonal experiment
打葉復(fù)烤是卷煙生產(chǎn)加工中不可缺少的一部分,穩(wěn)定煙草打葉復(fù)烤質(zhì)量一直是企業(yè)面臨的重要問題,合理設(shè)置工藝參數(shù)是解決這一問題的有效方法。在煙葉打葉復(fù)烤加工過程中,煙葉水分的穩(wěn)定性是多年來業(yè)界關(guān)注的重要課題,加工設(shè)備的工藝參數(shù)設(shè)置通常為現(xiàn)場技術(shù)人員根據(jù)經(jīng)驗和現(xiàn)場臨時情況進行調(diào)整,囿于現(xiàn)場人員的經(jīng)驗和能力差異,煙葉水分指標常常難以達到理想水平。因此,這一過程中的工藝參數(shù)優(yōu)化成為關(guān)注的重點。楊洋等[1]利用層次分析法(AHP)和正交試驗對指定的煙葉進行檢驗,經(jīng)過多組對比試驗,得出能顯著提高烤煙品質(zhì)的參數(shù)組合。通過設(shè)置不同的潤葉參數(shù)并觀察潤二的出口煙葉溫度變化,徐國金[2]發(fā)現(xiàn),適當增加風(fēng)機頻率和潤葉段的蒸汽用量可以顯著改善出口的濕度和溫度。吳芳等[3]對3種不同產(chǎn)地的煙葉試驗了11組的不同來自經(jīng)驗的參數(shù)組合,試驗結(jié)果與唐瑩[4]的研究結(jié)果類似:針對不同產(chǎn)地的煙葉原料,適合的工藝參數(shù)設(shè)置會讓打葉復(fù)烤的質(zhì)量水平得到較大提高。劉彥嶺等[5]采用均勻試驗與多元線性回歸分析建立了潤葉段的2個指標與各工藝參數(shù)的調(diào)整模型,該模型可以準確地控制和優(yōu)化潤葉效果。然而,這些參數(shù)優(yōu)化研究大多是基于現(xiàn)場人員或企業(yè)的經(jīng)驗,即使較少的模型建立與分析,數(shù)據(jù)也來源于根據(jù)經(jīng)驗參數(shù)設(shè)置得到的指標,對歷史數(shù)據(jù)的挖掘不夠,所設(shè)計試驗代表性存在問題,因此,本文通過采用決策樹方法對歷史生產(chǎn)工藝參數(shù)與出口濕度關(guān)系進行分析和建模,選取重要工藝參數(shù)建立因素水平表,設(shè)計正交試驗方案,驗證并修正模型,獲得最優(yōu)參數(shù)組合,采用現(xiàn)場試驗對最優(yōu)參數(shù)組合進行檢驗。
1 材料和方法
1.1 試驗材料
郴州復(fù)烤廠2019年全年生產(chǎn)工藝參數(shù)及煙草指標數(shù)據(jù),包括A3CD1、A2CD2、A4CH1、B3F、C3F、C2FABCD等煙葉等級。全年工藝參數(shù)記錄119 472項,每項記錄包括潤葉區(qū)8項參數(shù)、打葉區(qū)5項參數(shù)、復(fù)燥區(qū)13項參數(shù),相當于打葉、復(fù)燥區(qū)26項參數(shù)。正交試驗和最后驗證采用材料為郴州C3F。
1.2 系統(tǒng)概述
算法設(shè)計如圖1所示。對原始歷史數(shù)據(jù)進行預(yù)處理后,用決策樹進行訓(xùn)練,通過輸入?yún)?shù)組合預(yù)測輸出,建立決策樹模型。根據(jù)模型所得的工藝參數(shù)重要性排序設(shè)計正交試驗方案。依據(jù)正交試驗結(jié)果修正決策樹模型,并進行極差分析獲得最優(yōu)參數(shù)組合,利用改進的決策樹模型對指標進行預(yù)測和驗證。
1.3 數(shù)據(jù)預(yù)處理
煙葉的工藝參數(shù)及理化指標數(shù)據(jù)來源于打葉復(fù)烤過程中的生產(chǎn)線數(shù)據(jù)采樣采集系統(tǒng)。這些數(shù)據(jù)直接反映了煙葉在打葉復(fù)烤過程中的實時情況。由于該過程由多個生產(chǎn)環(huán)節(jié)組成,數(shù)據(jù)預(yù)處理階段應(yīng)消除異常值和缺失值,為后續(xù)的模型訓(xùn)練和數(shù)據(jù)挖掘提供高質(zhì)量的數(shù)據(jù)。
根據(jù)打葉復(fù)烤工藝參數(shù)的順序構(gòu)造輸入空間X,空間的向量為x(x1,x2,…,xp ),p=26,。打葉復(fù)烤的質(zhì)量指標主要由煙葉產(chǎn)量水分值決定,計算公式如下:
一般優(yōu)化的目標為Y = 12%[6]。
1.4 數(shù)據(jù)處理
對郴州復(fù)烤廠2019年之前的歷史數(shù)據(jù)按照70%和30%的比例進行抽取,分別作為CART決策樹[7-8]的訓(xùn)練集和測試集,獲得工藝參數(shù)特征對煙葉出口水分的映射,采用機器學(xué)習(xí)方法Scikit_learn 模塊中的Decision tree Regression模型對訓(xùn)練數(shù)據(jù)集進行擬合。
回歸過程中,為了使決策樹回歸模型最優(yōu)化,主要對模型里的超參數(shù)max_depth(樹最大深度)進行優(yōu)化[9-10]。為了更好地評估回歸模型的性能,將使用均方根誤差(RMSE)、平均絕對誤差(MAE)作為模型指標,定義如下:
其中均方根誤差(RMSE)對回歸中的特大特小誤差反應(yīng)非常敏感,能夠很好地反映出回歸的精確度,而平均絕對誤差(MAE)則能較好的描述預(yù)測值與實際值的離散程度。
1.5 算法模型評價
表1是經(jīng)過決策回歸樹模型不同超參數(shù)的優(yōu)化之后的實際值和預(yù)測值的均方根誤差、平均絕對誤差和出口水分特征的精確度的對比。由表1可知,對于多維度的輸入樣本X,決策樹模型經(jīng)過優(yōu)化后最好的精確度達到95.91%,說明 CART決策樹回歸算法對訓(xùn)練集和驗證集具有較好的適應(yīng)性。
表2是精確度最高時(max_depth=10)決策樹模型的特征重要度排序,表示模型中對出口水分指標影響較大的的工藝參數(shù)的排序,由于指標涉及到26個不同的參數(shù),同時每個變量的取值范圍都比較大,所以難以使用遍歷方法來對參數(shù)的范圍和水平選取進行優(yōu)化,根據(jù)現(xiàn)場需求,設(shè)計正交試驗方案求取最優(yōu)參數(shù)組合。
1.6 基于特征重要度的正交試驗設(shè)計
正交試驗設(shè)計是研究多因素多水平的一種試驗設(shè)計方法。當試驗涉及的因素在3個或3個以上,而且因素間可能有交互作用時,試驗工作量會變得很大,甚至難以全面實施。針對這個困擾,正交試驗設(shè)計是一種更好的選擇。正交試驗設(shè)計的主要工具是正交表,根據(jù)試驗的因素數(shù)、因素的水平數(shù)以及是否具有交互作用等需求查找相應(yīng)的正交表,依托正交表從全面試驗中挑選出部分有代表性的點進行試驗,可以實現(xiàn)以最少的試驗次數(shù)達到與全面試驗等效的結(jié)果。針對本次試驗的多維度多水平的實際情況,采用正交試驗設(shè)計,既能在滿足試驗條件的同時又能保障煙葉復(fù)烤廠的經(jīng)濟效應(yīng)性[11-12]。
應(yīng)用決策樹模型得到工藝參數(shù)特征重要度排序(表2)后,考慮到生產(chǎn)現(xiàn)場可提供的煙葉試驗次數(shù)有限,每個因素選取3個水平,根據(jù)生產(chǎn)現(xiàn)場技術(shù)人員的實際經(jīng)驗確定各因素的水平取值,獲得9因素3水平的正交設(shè)計表L27(93)(表3)進行正交試驗設(shè)計。對應(yīng)的具體工藝參數(shù)選擇實施方案見表4,針對不同的工藝參數(shù)組合,利用決策樹模型可以預(yù)測相應(yīng)的出口煙葉水分值,同樣列在表4中。
2 結(jié)果與分析
對表4中的正交試驗方案進行現(xiàn)場檢驗可以獲得對應(yīng)出口水分實際值,與預(yù)測水分值相比,兩者存在一定的差距,因此將所獲得的27組現(xiàn)場數(shù)據(jù)以2∶7的比例分別加入訓(xùn)練集和測試集,加大訓(xùn)練集中現(xiàn)場數(shù)據(jù)的權(quán)重后重新訓(xùn)練,獲得的新的預(yù)測值與實際出口水分值得對比如圖2所示,兩者差距小于5%。相同等級(郴州C3F)葉片理化特性的年際差異可能是造成這種差異的主要原因,符合現(xiàn)場的實際情況,驗證了決策樹模型的適應(yīng)性。
根據(jù)正交試驗設(shè)計組合,采用極差分析法對正交試驗方案對應(yīng)結(jié)果進行分析。因子A的K1為A第一水平因素對應(yīng)的各試驗指標之和的平均值。由于本試驗不考慮交互作用,因此3組方案A1、A2、A3在相同試驗條件下執(zhí)行。如果A對試驗指標沒有影響,那么輸出KA1, KA2, KA3理論上應(yīng)該是相等的,如果實際上不相等,KA1均值、KA2均值和KA3均值的值分別反映了A1、A2和A3對試驗指標的影響。由于水分值應(yīng)盡可能接近12%(實際要求),筆者單獨調(diào)整A,使A因素的水平達到最優(yōu),其他因素的最優(yōu)水平也用相同方法得到。
極差分析法得到的最優(yōu)參數(shù)組合如表6所示。對應(yīng)的決策樹模型預(yù)測的水分值為12.44,現(xiàn)場試驗值為11.93,差值為0.51,相對誤差為4.27%,滿足現(xiàn)場要求。
3 結(jié)論與討論
由于歷史數(shù)據(jù)均來源于正常生產(chǎn)的歷史記錄,相應(yīng)的工藝參數(shù)設(shè)置往往由現(xiàn)場經(jīng)驗決定,參數(shù)范圍具有局限性和不完整性的特點,所以基于歷史數(shù)據(jù)的決策樹模型泛化能力存在天然的不足,特別當試驗參數(shù)與現(xiàn)場經(jīng)驗參數(shù)設(shè)置相差較大時,預(yù)測結(jié)果可能與現(xiàn)場試驗結(jié)果相差較大。改善這一問題的有效方法是擴大歷史數(shù)據(jù)的取值范圍以及樣本數(shù)量。
本研究采用決策樹模型對打葉復(fù)烤工藝參數(shù)與出口水分的關(guān)系進行建模,以工藝參數(shù)為自變量,出口水分指標為因變量形成映射,并對模型超參數(shù)進行最優(yōu)化,優(yōu)化后模型精確度為95.91%。由于可供試驗的次數(shù)較少,根據(jù)決策樹模型的特征重要度獲得工藝參數(shù)的重要性排序,由此設(shè)計正交試驗方案,根據(jù)正交試驗結(jié)果修正模型,并采用極差分析獲得最優(yōu)參數(shù)組合,將該工藝參數(shù)組合的現(xiàn)場試驗結(jié)果與模型預(yù)測進行對比,發(fā)現(xiàn)誤差為0.51,相對誤差小于5%。這一對比表明所采用的決策樹模型預(yù)測效果良好,可以為打葉復(fù)烤前的工藝參數(shù)決策提供良好的幫助。決策樹與正交試驗設(shè)計所形成的最優(yōu)參數(shù)組合具有較好的現(xiàn)場效果,滿足現(xiàn)場生產(chǎn)需要。
參考文獻:
[1]楊洋,楊雨波,吳昊,等.煙草加工中打葉復(fù)烤工藝參數(shù)優(yōu)化[J].農(nóng)業(yè)工程,2018, 8(8):83-85.
[2]徐國金.不同潤葉設(shè)備參數(shù)對潤葉質(zhì)量的影響[J].農(nóng)業(yè)與技術(shù),2017,37(6):99.
[3]吳芳,喻文蓉,李德綜,等.不同工藝參數(shù)的設(shè)定與打葉復(fù)烤質(zhì)量的關(guān)系[J].科技與企業(yè),2012(14):324.
[4]唐瑩.打葉復(fù)烤工藝參數(shù)優(yōu)化探討[J].科技傳播,2013,5(16):134-135.
[5]劉彥嶺,王澤理,周強,等.打葉復(fù)烤潤葉段水分溫度控制模型的建立[J].安徽農(nóng)學(xué)通報,2017,23 (22):109-111.
[6]吳洪田,李曉紅,崔焰,等.打葉煙葉質(zhì)量檢驗: YC/T147 -2010[S].北京:中國標準出版社,2011.
[7]蘇志同,汪武珺.基于隨機森林的煅燒工藝參數(shù)的研究和分析[J].軟件,2018,39(4):148-150.
[8]BOGDAN Z, VUKOBRATOV IC,RASTISLAV J R. Struharik. Co-processor for evolutionary full decision tree induction[J]. Microprocessors and microsystems,2016,45: 253-269.
[9]張長水. 統(tǒng)計機器學(xué)習(xí)若干理論、方法與應(yīng)用研究[D]. 北京:清華大學(xué),2008.
[10]BAS B L, PENNING DE V,MAARTEN V S,et al.? Propensity score estimation using classification and regression trees in the presence of missing covariate data[J]. Epidemiologic methods,2018,7(1): 20-49.
[11]盧幼祥,徐其敏,楊波,等.基于正交設(shè)計的皖南煙葉葉片復(fù)烤工藝參數(shù)優(yōu)化研究[J].安徽農(nóng)業(yè)科學(xué),2015,43(27):218-219,224.
[12]戰(zhàn)磊,肖明禮,尹智華,等.復(fù)烤溫度對西南清香型煙葉質(zhì)量的影響[J].湖南農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2018,44(2):136-139,150.