蔣一翔,張青松,高雪峰,徐 琦
(浙江中煙工業(yè)有限責(zé)任公司,浙江 杭州 315504)
隨著信息化建設(shè)的發(fā)展,企業(yè)積累了大量的工藝數(shù)據(jù),為后期大數(shù)據(jù)分析提供了基礎(chǔ)。如何有效利用工藝數(shù)據(jù)并挖掘出可以提升工藝質(zhì)量的關(guān)鍵信息,識(shí)別不穩(wěn)定因素,已成為當(dāng)前數(shù)據(jù)分析和數(shù)據(jù)挖掘的研究重點(diǎn)。
卷煙工藝數(shù)據(jù)是一組包含時(shí)間、當(dāng)前車速、單周圓周值、通風(fēng)度當(dāng)前值、煙絲水分、平整器位置、煙支質(zhì)量、水松紙實(shí)際溫度和煙支吸阻等綜合反映卷煙物理質(zhì)量和煙支工藝質(zhì)量的物測(cè)數(shù)據(jù)。在實(shí)際過程中,對(duì)于物聯(lián)采集數(shù)據(jù),著重在于煙支吸阻的合格率。對(duì)于儀器中水松紙的溫度、ve大風(fēng)機(jī)壓力(卷煙機(jī)配套,用于煙絲及煙支輸送,也可作為通風(fēng)換氣用的風(fēng)機(jī)壓力)、ve小風(fēng)機(jī)壓力(卷煙機(jī)配套,用于煙絲及煙支輸送,也可為在常溫下一般物料輸送使用及通風(fēng)換氣用的風(fēng)機(jī)壓力)、平整盤的位置等關(guān)注度不高,未能建立儀器參數(shù)數(shù)據(jù)和煙支吸阻之間的科學(xué)關(guān)聯(lián)關(guān)系。質(zhì)量技術(shù)人員不能一味遵循書本知識(shí)和工作經(jīng)驗(yàn)下結(jié)論。一味按照以往的思維方式容易產(chǎn)生錯(cuò)誤結(jié)論,不能從根源上解決質(zhì)量下降的方法;同時(shí),由于依賴人工經(jīng)驗(yàn),缺乏科學(xué)的知識(shí)機(jī)理,存在知識(shí)傳承過程時(shí)間長、工況難以解釋等問題。因此,通過對(duì)企業(yè)中積累的工藝數(shù)據(jù)運(yùn)用科學(xué)的數(shù)據(jù)分析方法,找出影響卷煙煙支質(zhì)量的根本因素,為提升煙支質(zhì)量提供科學(xué)的指導(dǎo)。本文選取212 619條數(shù)據(jù),從多個(gè)維度分析影響煙支吸阻和煙支質(zhì)量的特征,探索各特征與煙支吸阻之間的關(guān)系。
文獻(xiàn)[1]對(duì)卷煙的煙支吸阻和單支煙質(zhì)量以及卷煙硬度的相關(guān)性進(jìn)行了分析。文獻(xiàn)[2]對(duì)卷煙的煙支吸阻和相關(guān)物理指標(biāo)的統(tǒng)計(jì)關(guān)系進(jìn)行了研究分析。文獻(xiàn)[3]研究了影響煙支質(zhì)量的卷煙機(jī)因素,對(duì)卷煙機(jī)中的平整盤調(diào)整方式、電子齒輪的控制方法、卷煙的溫度控制和設(shè)備維護(hù)等提出了建議。文獻(xiàn)[4]~文獻(xiàn)[5]論證了穩(wěn)定煙支質(zhì)量控制的重要性,同時(shí)文獻(xiàn)[4]提出了一種運(yùn)用數(shù)字信號(hào)處理(digital signal processing,DSP)技術(shù)進(jìn)行煙支質(zhì)量控制的有效方法。文獻(xiàn)[6]指出提高卷煙質(zhì)量的關(guān)鍵因素是控制單支煙支的含絲量,通過設(shè)計(jì)合適的卷煙機(jī)參數(shù)來實(shí)現(xiàn)操作。文獻(xiàn)[7]則對(duì)負(fù)壓和風(fēng)壓與卷煙含梗率的相關(guān)關(guān)系進(jìn)行了研究,發(fā)現(xiàn)煙支的標(biāo)準(zhǔn)質(zhì)量與煙支中所含的含梗率具有正向相關(guān)性。文獻(xiàn)[8]對(duì)提高煙支吸阻的穩(wěn)定性進(jìn)行了研究,通過對(duì)卷煙機(jī)工藝參數(shù)的優(yōu)化調(diào)整,針對(duì)短支煙煙支吸阻,研究表明其與單支煙質(zhì)量的相關(guān)性最大。
本文通過數(shù)據(jù)分析,不僅探究了兩兩特征的相關(guān)性,同時(shí)通過隨機(jī)森林算法的重要度測(cè)量方法,綜合考慮多特征之間的相互關(guān)系,得出特征的重要性。作為基于人工智能的控制優(yōu)化的前期工作,本文不僅進(jìn)行了理論分析,而且將理論應(yīng)用到實(shí)際控制中,為切實(shí)提升工藝質(zhì)量、實(shí)現(xiàn)智能控制提供指導(dǎo)。
在選取的212 619條數(shù)據(jù)中,有59個(gè)特征。這59個(gè)特征包含了卷煙機(jī)自身的機(jī)器狀態(tài)值,如烙鐵溫度、ve大風(fēng)機(jī)、ve小風(fēng)機(jī)等,還有煙支本身的狀態(tài)數(shù)據(jù),單周圓周值、通風(fēng)度、煙支吸阻當(dāng)前值等。首先,對(duì)獲取的值根據(jù)工藝要求進(jìn)行特征工程,對(duì)數(shù)據(jù)進(jìn)行比較全面的分析與處理;然后,對(duì)處理后獲得的穩(wěn)態(tài)數(shù)據(jù)進(jìn)行相關(guān)性的分析。逐步減少特征數(shù)量,突出相關(guān)性強(qiáng)的特征。
相關(guān)特征分別為:時(shí)間、2#喂絲機(jī)第3箱批次號(hào)、2#喂絲機(jī)第3箱水分、2#喂絲機(jī)第3箱煙絲牌號(hào)代碼、當(dāng)前車速、單周圓周值、長期標(biāo)準(zhǔn)偏差當(dāng)前值、短期標(biāo)準(zhǔn)偏差當(dāng)前值、平整器位置當(dāng)前值、通風(fēng)度當(dāng)前值(%)、后道通風(fēng)度當(dāng)前值(%)、前道通風(fēng)度當(dāng)前值(%)、壓實(shí)端量當(dāng)前值、壓實(shí)端位置當(dāng)前值、煙絲水分、煙支吸阻當(dāng)前值(mmH2O)、后道煙支吸阻當(dāng)前值(mmH2O)、前道煙支吸阻當(dāng)前值(mmH2O)、質(zhì)量偏差當(dāng)前值、ve大風(fēng)機(jī)、搓板實(shí)際溫度、目標(biāo)質(zhì)量mg、水松紙實(shí)際溫度、煙支第1段質(zhì)量、煙支第2段質(zhì)量、煙支第3段質(zhì)量、煙支第4段質(zhì)量、煙支第5段質(zhì)量、質(zhì)量偏差平均值、圓周最小值、圓周最大值、烙鐵1實(shí)際溫度、烙鐵2實(shí)際溫度、測(cè)量值、ve小風(fēng)機(jī)、ve吸絲帶壓力、se布帶張緊壓力、單周標(biāo)準(zhǔn)偏差、max大風(fēng)機(jī)壓力、單周平均圓周值、過輕煙支質(zhì)量極限mg、過重?zé)熤з|(zhì)量極限mg、后道漏氣密度當(dāng)前值(%)、后道煙支端頭密度當(dāng)前值(%)、內(nèi)部目標(biāo)質(zhì)量(mg)、前道漏氣密度當(dāng)前值(%)、前道煙支端頭密度當(dāng)前值(%)、生產(chǎn)速度(cpm)、通風(fēng)度標(biāo)準(zhǔn)偏差(%)、吸阻校準(zhǔn)系數(shù)、煙支長度(mm)、煙支漏氣密度當(dāng)前值(%)、煙支直徑(mm)、圓周偏差值、圓周修正、針輥供絲補(bǔ)償量、針輥供絲量系數(shù)%、質(zhì)量偏差校準(zhǔn)值mg、質(zhì)量校正mg,其中時(shí)間,2#喂絲機(jī)第3箱批次號(hào),2#喂絲機(jī)第3箱煙絲牌號(hào)代碼為非數(shù)值,所以不包含在內(nèi)。由于現(xiàn)有數(shù)據(jù)取自同一卷煙機(jī),而當(dāng)前卷煙機(jī)生產(chǎn)牌號(hào)固定,所以刪除特征2#喂絲機(jī)第3箱煙絲牌號(hào)代碼。同時(shí),由于分析數(shù)據(jù)月份跨度不大,所以時(shí)間特征不予考慮。特征數(shù)據(jù)統(tǒng)計(jì)如表1所示。
表1 特征數(shù)據(jù)統(tǒng)計(jì)表Tab.1 Feature data statistics
通過對(duì)表1統(tǒng)計(jì)數(shù)據(jù)分析,sd=0的特征有:目標(biāo)質(zhì)量(mg),過輕煙支質(zhì)量極限(mg),過重?zé)熤з|(zhì)量極限(mg),煙支長度(mm)。煙支直徑sd=3.55e-15,其他數(shù)值均為6.37。所以可以得出,煙支直徑(mm)的值為恒定的值。同時(shí),煙支第1段質(zhì)量到煙支到煙支第5段質(zhì)量,圓周最小值為0,存在異常數(shù)據(jù)。
①刪除sd=0的恒定值不變特征。
②刪除前道、后道值,只保留當(dāng)前值。
③由于煙支內(nèi)部目標(biāo)質(zhì)量和質(zhì)量調(diào)整值,煙支目標(biāo)質(zhì)量,煙支的第1段質(zhì)量到第5段質(zhì)量有線性關(guān)系,刪除質(zhì)量校正,煙支第1段~煙支第5段質(zhì)量。
④吸阻校準(zhǔn)系數(shù)是一個(gè)參數(shù),影響煙支吸阻當(dāng)前值。因此,刪除吸阻校準(zhǔn)系數(shù)。
⑤質(zhì)量偏差校準(zhǔn)值為采樣參數(shù),具體操作會(huì)通過內(nèi)部目標(biāo)質(zhì)量進(jìn)行表征。
經(jīng)過初步篩選,得到以下特征值: 2#喂絲機(jī)第3箱水分、單周圓周值、長期標(biāo)準(zhǔn)偏差當(dāng)前值、短期標(biāo)準(zhǔn)偏差當(dāng)前值、平整器位置當(dāng)前值、通風(fēng)度當(dāng)前值(%)、壓實(shí)端量當(dāng)前值、壓實(shí)端位置當(dāng)前值、煙絲水分、煙支吸阻當(dāng)前值(mmH2O)、質(zhì)量偏差當(dāng)前值、ve大風(fēng)機(jī)、搓板實(shí)際溫度、水松紙實(shí)際溫度、質(zhì)量偏差平均值、圓周最小值、圓周最大值、烙鐵1實(shí)際溫度、烙鐵2實(shí)際溫度、測(cè)量值、ve小風(fēng)機(jī)、ve吸絲帶壓力、se布帶張緊壓力、單周標(biāo)準(zhǔn)偏差、max大風(fēng)機(jī)壓力、單周平均圓周值、內(nèi)部目標(biāo)質(zhì)量mg、生產(chǎn)速度(cpm)、通風(fēng)度標(biāo)準(zhǔn)偏差(%)、煙支漏氣密度當(dāng)前值(%)、圓周偏差值、圓周修正、針輥供絲補(bǔ)償量、針輥供絲量系數(shù)%。
上節(jié)通過對(duì)數(shù)據(jù)特征統(tǒng)計(jì)分析,進(jìn)行了初步的數(shù)據(jù)特征剪枝。通過斯皮爾曼和隨機(jī)森林對(duì)現(xiàn)有特征數(shù)據(jù)進(jìn)行相關(guān)性分析,斯皮爾曼主要是考慮了特征兩者之間的相關(guān)關(guān)系,隨機(jī)森林的重要性度量可以綜合考慮特征間的變化。
斯皮爾曼系數(shù)是衡量兩個(gè)變量依賴性的非參數(shù)指標(biāo)。它利用單調(diào)方程評(píng)價(jià)兩個(gè)統(tǒng)計(jì)變量的相關(guān)性。 如果數(shù)據(jù)中沒有重復(fù)值,并且當(dāng)兩個(gè)變量完全單調(diào)相關(guān)時(shí),斯皮爾曼相關(guān)系數(shù)則為+1或-1。斯皮爾曼相關(guān)系數(shù)被定義成等級(jí)變量之間的皮爾遜相關(guān)系數(shù)。對(duì)于樣本容量為n的樣本,n個(gè)原始數(shù)據(jù)Xi、Yi被轉(zhuǎn)換成等級(jí)數(shù)據(jù)xi、yi,相關(guān)系數(shù)ρ為:
(1)
線性相關(guān)程度如圖1所示。
圖1 線性相關(guān)程度圖Fig.1 Linear correlatione
圖1中列出了與煙支吸阻當(dāng)前值(mmH2O)關(guān)系較強(qiáng)的值。通過分析關(guān)系矩陣可以看出,煙支吸阻與通風(fēng)度標(biāo)準(zhǔn)偏差(%)、質(zhì)量偏差平均值成正比,與單周圓周值和圓周修正值成反比。圓周修正與ve小風(fēng)機(jī)有強(qiáng)相關(guān)關(guān)系,達(dá)到了0.9。這是一個(gè)值得觀察驗(yàn)證的點(diǎn)。
將變量重要性評(píng)分用VIM來表示,將Gini指數(shù)用GI來表示。假設(shè)有m個(gè)特征X1,X2,…,Xc,現(xiàn)在要計(jì)算出每個(gè)特征Xj的Gini指數(shù)評(píng)分,亦即第j個(gè)特征在RF所有決策樹中節(jié)點(diǎn)分裂不純度的平均改變量。
Gini指數(shù)的計(jì)算公式為:
(2)
式中:K為k個(gè)類別;pmk為節(jié)點(diǎn)m中類別k所占的比例。
直觀地說,就是從節(jié)點(diǎn)m中隨機(jī)抽取兩個(gè)樣本,其類別標(biāo)記不一致的概率。特征XiXj在節(jié)點(diǎn)m的重要性,即節(jié)點(diǎn)m分枝前后的Gini指數(shù)變化量為:
(3)
式中:GIl為分枝后兩個(gè)新節(jié)點(diǎn)的Gini指數(shù);GIr為分枝后兩個(gè)新節(jié)點(diǎn)的Gini指數(shù)。
如果特征Xj在決策樹i中出現(xiàn)的節(jié)點(diǎn)在集合M中,那么Xj在第i顆樹的重要性為:
(4)
假設(shè)RF中共有n顆樹,則有:
(5)
最后,把所有求得的重要性評(píng)分作歸一化處理即可。
(6)
特征重要性評(píng)分如圖2所示。
圖2 特征重要性評(píng)分圖Fig.2 Importance score
分析圖2可知,單周圓周值對(duì)煙支吸阻的影響最大,其次是質(zhì)量偏差平均值,與圖1的分析一致,但是內(nèi)部目標(biāo)質(zhì)量mg對(duì)煙支吸阻的影響也很大,與圖1的分析不同。通風(fēng)度當(dāng)前值(%)對(duì)吸阻影響較大,這個(gè)比較容易理解。針輥供絲補(bǔ)償系數(shù)%和ve大風(fēng)機(jī)影響卻也是很高。這個(gè)需要進(jìn)行實(shí)踐驗(yàn)證探討。
通過對(duì)卷煙工藝數(shù)據(jù)進(jìn)行特征工程、相關(guān)性分析,可以對(duì)卷煙工藝數(shù)據(jù)的特征分布有一個(gè)比較直觀和清晰的認(rèn)識(shí),確認(rèn)影響卷煙工藝質(zhì)量的重要特征,掌握工藝數(shù)據(jù)中各特征之間的相關(guān)程度,為公司后續(xù)建設(shè)CPS系統(tǒng)進(jìn)一步進(jìn)行數(shù)據(jù)采集規(guī)劃的提供參考。將本文中的分析方法和模型集成到邊緣網(wǎng)關(guān)中,會(huì)對(duì)后期智能控制模型的輸入?yún)?shù)選擇產(chǎn)生直接影響。