韓曉春,田 甜,吳學(xué)華,婁海川,吳玉成,侯衛(wèi)鋒
(浙江中控軟件技術(shù)有限公司,浙江 杭州 310053)
由于石化工業(yè)生產(chǎn)機理的復(fù)雜性、生產(chǎn)模式的不斷變化、設(shè)備狀況的老化及生產(chǎn)過程的擾動等原因,常常使生產(chǎn)偏離優(yōu)化狀態(tài),產(chǎn)品質(zhì)量降低?;づ紊a(chǎn)過程的產(chǎn)品質(zhì)量主要取決于操作參數(shù)和原料,在供給原料相同的條件下,操作參數(shù)的調(diào)整將直接影響產(chǎn)品品質(zhì)的穩(wěn)定性。因此,需隨時對操作參數(shù)進(jìn)行適當(dāng)調(diào)整,以保證產(chǎn)品質(zhì)量。一般情況下,現(xiàn)場工藝人員會結(jié)合化驗分析結(jié)果和操作經(jīng)驗調(diào)整生產(chǎn)操作參數(shù),而化驗分析結(jié)果通常滯后于實時生產(chǎn),難以根據(jù)原料變化和產(chǎn)品的規(guī)格要求將操作參數(shù)及時調(diào)整到相應(yīng)的最優(yōu)狀態(tài)。針對過程操作參數(shù)優(yōu)化問題,大量學(xué)者進(jìn)行了深入研究,力求在現(xiàn)有設(shè)備、原料和工藝流程不變的條件下,通過優(yōu)化過程操作參數(shù)提高產(chǎn)品質(zhì)量[1-3]。
為提高產(chǎn)品品質(zhì),本文給出基于機器學(xué)習(xí)算法進(jìn)行工藝參數(shù)尋優(yōu)的方法,尋求批次生產(chǎn)操作參數(shù)的最優(yōu)組合,并結(jié)合參數(shù)建議值和操作經(jīng)驗對工藝操作作出相應(yīng)調(diào)整。
隨機森林[4]采用Bootstrap[5]重采樣技術(shù),以K個決策樹{h(X,θk),k=1,2,…,K}為基學(xué)習(xí)器,進(jìn)行集成學(xué)習(xí)后得到組合模型。其中,參數(shù){θk,k=1,2,…,K}是獨立同分布的隨機向量。在給定樣本時,通過每個決策樹的輸出結(jié)果投票來決定隨機森林的最優(yōu)預(yù)測結(jié)果[6-7]。
隨機森林可以用于分類和回歸。針對分類問題,因變量為分類變量,組合方法是簡單多數(shù)投票法;針對回歸問題,因變量是連續(xù)變量,則是簡單加權(quán)平均法。大量的理論和試驗都證明了隨機森林簡單易實現(xiàn),計算開銷小,具有很高的預(yù)測準(zhǔn)確率,對異常值和噪聲具有較好的穩(wěn)定性,且不易產(chǎn)生過擬合,具有較強的泛化能力。
隨機森林回歸算法的步驟如下。
①采用Bootstrap重復(fù)抽樣法,從原始樣本集中隨機采樣,產(chǎn)生K個訓(xùn)練樣本集{θ1,θ2,…,θK}。
②從所有特征中隨機選擇m個特征作為當(dāng)前節(jié)點的分裂特征集,利用這些特征進(jìn)行決策樹[8]建模,選擇最好的特征方式對節(jié)點進(jìn)行分裂。
③不對任何決策樹進(jìn)行剪枝處理,使其最大限度地生長。
④對K個訓(xùn)練樣本集進(jìn)行學(xué)習(xí),重復(fù)以上步驟K次,即生成K棵決策樹{T(θ1),T(θ2),…,T(θK) },形成隨機森林。
⑤對于新樣本數(shù)據(jù)x,單個決策樹T(θ)的預(yù)測值可通過因變量的觀測值Yi(i=1,2,…,n)的加權(quán)平均得到,即:
(1)
式中:wi(x,θ)為決策樹權(quán)重向量,i=1,2,…,n,滿足∑wi(x,θ)=1;
⑥對決策樹權(quán)重wi(x,θ)(i=1,2,…,n)取平均,得到每個觀測值Xi(i=1,2,…,n)的權(quán)重:
(2)
⑦經(jīng)過每棵樹決策,對于所有y,隨機森林的最終預(yù)測值為所有因變量觀測值的加權(quán)和:
(3)
Mean Shift算法是一個非參數(shù)聚類技術(shù),不需要預(yù)先確定聚類的類別數(shù),且可以根據(jù)數(shù)據(jù)的特征發(fā)現(xiàn)任意形狀的聚類簇。
給定d維空間的n個數(shù)據(jù)點集{xi,i=1,2,…,n},對于空間中任意點的Mean Shift向量,其基本形式可以表示為:
(4)
式中:k表示在這n個樣本點中,有k個點落入Sh區(qū)域中;(xi-x)表示樣本點xi相對于原點x的偏移向量;Sh為以h為半徑的高維球。
Sh(x)={y|(y-xi)T(y-xi)≤h2}
(5)
對于基本的Mean Shift向量,可以增加核函數(shù)和樣本權(quán)重,從而得到改進(jìn)的Mean Shift 向量形式[9]進(jìn)行聚類分析。Mean Shift聚類步驟如下。
①從未被標(biāo)記的數(shù)據(jù)集中,隨機選取點x作為初始中心點,在指定的區(qū)域Sh內(nèi)計算出偏移均值。
②更新球圓心x的位置x←x+Mh。
③重復(fù)步驟①和步驟②,直至滿足條件||Mh||<ε。記此時的球圓心x為簇中心點,將區(qū)域Sh內(nèi)的點都標(biāo)記并劃入該簇中。
④如果收斂時當(dāng)前簇ci+1的中心與其他已存在的簇ci中心的距離小于閾值,那么將兩類簇合并;否則,把ci+1作為新的聚類。
⑤重復(fù)步驟①~步驟③,直至所有點都被標(biāo)記,得到簇劃分c1,c2,…,cn。
基于機器學(xué)習(xí)算法進(jìn)行批次生產(chǎn)過程操作參數(shù)優(yōu)化的步驟如下。
①獲取產(chǎn)品品質(zhì)要求的實驗室信息管理系統(tǒng)(laboratory information management system,LIMS)化驗分析數(shù)據(jù)進(jìn)行頻次圖分析,根據(jù)過程能力指數(shù)(capability index of process,Cp/Cpk)和過程性能指數(shù)(performance index of process,Pk/Ppk)判斷批次生產(chǎn)過程是否穩(wěn)定操作,品質(zhì)要求是否控制在合理范圍內(nèi)。
②通過人工錄入批號,將產(chǎn)品品質(zhì)要求的化驗分析數(shù)據(jù)與實際生產(chǎn)操作進(jìn)行匹配,結(jié)合現(xiàn)場工藝人員的操作經(jīng)驗,選擇可能影響產(chǎn)品品質(zhì)的工藝過程參數(shù)。
③將化驗分析數(shù)據(jù)和工藝過程參數(shù)進(jìn)行歸一化處理,分析其關(guān)聯(lián)性,選擇重要的特征參數(shù)。
④采用隨機森林算法進(jìn)行數(shù)據(jù)擬合建模。
⑤計算出指定范圍內(nèi)工藝操作參數(shù)組合對應(yīng)的產(chǎn)品品質(zhì)擬合值,通過網(wǎng)格搜索找到產(chǎn)品品質(zhì)要求范圍內(nèi)的所有工藝操作參數(shù)組合。
⑥對找出的工藝操作參數(shù)進(jìn)行Mean Shift聚類分析,自動尋找合適的工藝操作參數(shù)組合。
機器學(xué)習(xí)算法在批次生產(chǎn)過程操作參數(shù)優(yōu)化的流程圖如圖1所示。
圖1 操作參數(shù)優(yōu)化流程圖
某工廠生產(chǎn)107膠,原料是水解物,生產(chǎn)過程主要包含脫水、聚合和脫低3個工藝過程。由于對產(chǎn)品的黏度要求較高,根據(jù)不同的黏度規(guī)格,其生產(chǎn)操作參數(shù)的控制不同,現(xiàn)場工藝人員必須通過調(diào)節(jié)充氮氣時間、聚合時間和聚合溫度等操作參數(shù),控制產(chǎn)品黏度值。由于缺乏定量的操作指標(biāo),控制效果并不理想,相同規(guī)格、不同批次的黏度差異較大。因此,迫切需要應(yīng)用機器學(xué)習(xí)算法尋找最優(yōu)工藝操作參數(shù),對該廠的107膠產(chǎn)品進(jìn)行黏度控制。
107膠黏度檢驗結(jié)果如圖2所示。
圖2 107膠黏度檢驗結(jié)果
對107膠20 000黏度的LIMS化驗分析數(shù)據(jù)進(jìn)行正態(tài)分布檢驗。圖2中,直方圖表示107膠粘度的頻次分布,曲線表示對應(yīng)的密度曲線,可以直接反映出107膠黏度的分布情況。由圖2可發(fā)現(xiàn),黏度波動范圍較大,不符合正態(tài)分布生產(chǎn)趨勢。經(jīng)過現(xiàn)場調(diào)研發(fā)現(xiàn),一般情況下,在生產(chǎn)過程中,工藝人員并沒有實時跟蹤107膠的生產(chǎn)操作參數(shù)并進(jìn)行調(diào)整,且不同班次的工藝人員依據(jù)經(jīng)驗來調(diào)整生產(chǎn)操作參數(shù)。這樣雖不會超出工藝規(guī)程中的上下限,但生產(chǎn)操作參數(shù)并不是最優(yōu)的,具有一定的優(yōu)化空間。
影響107膠最終質(zhì)量的關(guān)鍵過程工藝參數(shù)很多,包括能夠?qū)崟r測量的位號參數(shù),以及需要從工藝單中提取的階段性參數(shù)。結(jié)合實時位號趨勢和工藝人員的經(jīng)驗,從中挑選了19個不同的工藝過程參數(shù)。
從實時數(shù)據(jù)庫中提取某個月的107膠批次生產(chǎn)過程中的19個工藝參數(shù),首先進(jìn)行規(guī)范化預(yù)處理,即作如下變換。其目的是將工藝參數(shù)的值控制在[0,1] 之間。
(6)
對該19個工藝參數(shù)與對應(yīng)的黏度進(jìn)行相關(guān)性分析:
(7)
式中:Cov(X,Y)為X、Y的協(xié)方差;D(X)、D(Y)分別為X、Y的方差。
計算黏度與各工藝參數(shù)的相關(guān)系數(shù),黏度與聚合時間和充氮氣時間的相關(guān)系數(shù)較大,分別為0.49和0.47。由此可以推斷,聚合時間以及充氮氣時間是與黏度相關(guān)性最大的兩個工藝過程參數(shù)。除此之外,根據(jù)90%相關(guān)度的原則,增加了脫水結(jié)束溫度、壓料結(jié)束溫度、脫低結(jié)束溫度3個工藝過程參數(shù),由此提取出關(guān)聯(lián)性較高的5個過程工藝參數(shù)。
提取出對建模最重要的5個過程工藝參數(shù),并結(jié)合對應(yīng)黏度值進(jìn)行非線性數(shù)據(jù)建模,包括人工神經(jīng)網(wǎng)絡(luò)、支持向量機、隨機森林等多種非線性擬合模型,從而挑選出最優(yōu)擬合模型。利用3種非線性數(shù)據(jù)驅(qū)動模型對該批數(shù)據(jù)進(jìn)行擬合建模,并從中找出最能表達(dá)這批數(shù)據(jù)內(nèi)部規(guī)律的隨機森林模型。以隨機森林的高維擬合曲面為基礎(chǔ),以20 000上下5%的黏度值為限制條件,分別對歸一化后的工藝參數(shù)數(shù)據(jù)進(jìn)行10等分,對該參數(shù)空間進(jìn)行網(wǎng)格搜索,尋找滿足條件的參數(shù)組合。由于滿足條件的參數(shù)組合很多,因此需要再對這些參數(shù)組合進(jìn)行聚類分析,得到最優(yōu)參數(shù)組合。此處通過Mean Shift聚類分析,找出了滿足限制條件的兩大類參數(shù)中心。工藝參數(shù)組合建議值如表1所示。
表1 工藝參數(shù)組合建議值
根據(jù)工藝人員的實際經(jīng)驗以及操作指導(dǎo)規(guī)程,脫水與聚合反應(yīng)之間的壓料溫度不宜過低。通過對模型的訓(xùn)練數(shù)據(jù)集中的壓料結(jié)束溫度分布進(jìn)行檢驗,發(fā)現(xiàn)大部分樣本的壓料結(jié)束溫度分布在152 ℃,僅有較少樣本的壓料結(jié)束溫度分布在122 ℃。因此,在實際生產(chǎn)過程中,只對第一組操作建議值進(jìn)行了測試。
最后,將20 000黏度107膠的操作優(yōu)化建議值與新建的虛擬位號相關(guān)聯(lián),并實時顯示在工藝流程圖上。工藝人員可以參考操作參數(shù)建議值,結(jié)合運行工況和現(xiàn)場實時數(shù)據(jù)及時調(diào)整參數(shù),使產(chǎn)品的質(zhì)量品質(zhì)在可控范圍內(nèi)。
結(jié)合運行工況,工藝人員根據(jù)操作優(yōu)化建議值對操作參數(shù)進(jìn)行了調(diào)整,并對操作優(yōu)化前和采用第一組操作優(yōu)化建議值這兩種運行狀態(tài)下的控制指標(biāo)進(jìn)行對比分析,控制指標(biāo)包括過程能力指數(shù)Cp/Cpk、最大值、最小值。107膠產(chǎn)品黏度控制測試結(jié)果如表2所示。
表2 107膠產(chǎn)品黏度控制測試結(jié)果
采用優(yōu)化建議值后,Cp指標(biāo)由0.169 8升到0.340 5,Cpk指標(biāo)由0.072 3上升到0.266 7,極差(最大值-最小值)也明顯減小。107膠質(zhì)量控制結(jié)果可視化分析如圖3所示。
最后,對質(zhì)量控制結(jié)果進(jìn)行了可視化分析。由圖3可知,直方圖通過給出每個值的頻次來反映樣本的分布規(guī)律,而密度曲線可以看出數(shù)據(jù)分布的密度情況。采用優(yōu)化建議值后,可以發(fā)現(xiàn)20 000黏度值型號107膠的質(zhì)量分布更加集中,說明了采用優(yōu)化建議后,生產(chǎn)過程的質(zhì)量控制能力有了較為明顯的提升。
圖3 107膠質(zhì)量控制結(jié)果可視化分析
為了尋找批次生產(chǎn)過程中操作參數(shù)的最優(yōu)組合、提高產(chǎn)品品質(zhì),本文提出了基于機器學(xué)習(xí)算法進(jìn)行工藝操作參數(shù)尋優(yōu)的方法。將該方法應(yīng)用于某工廠20 000黏度的溫室硫化甲基硅橡膠(107膠)生產(chǎn)中,可知:首先,通過人工錄入批次、將LIMS化驗分析數(shù)據(jù)與實際生產(chǎn)操作數(shù)據(jù)相關(guān)聯(lián);然后,根據(jù)產(chǎn)品黏度要求,應(yīng)用機器學(xué)習(xí)算法尋求最優(yōu)的操作參數(shù)組合;最后,由現(xiàn)場工藝人員結(jié)合參數(shù)建議值和操作經(jīng)驗作出相應(yīng)調(diào)整,使產(chǎn)品的質(zhì)量控制得到了明顯改善。