顏弋凡,安路達,呂志民
(北京科技大學鋼鐵共性技術(shù)協(xié)同創(chuàng)新中心,北京,100083)
隨著市場對鋼鐵產(chǎn)品的質(zhì)量要求不斷升級,客戶對板形、幾何精度、表面質(zhì)量等產(chǎn)品外觀質(zhì)量以及屈服強度、抗拉強度和伸長率等機械性能指標以及金相組織等質(zhì)量指標要求越來越趨于定制化。對產(chǎn)品機械性能進行準確預測,減少抽樣檢測成本成為企業(yè)提高產(chǎn)品穩(wěn)定性的重要手段[1]。冷軋產(chǎn)品作為一類重要的鋼材產(chǎn)品,其生產(chǎn)流程長、產(chǎn)品質(zhì)量好、附加值高,已經(jīng)成為企業(yè)體現(xiàn)企業(yè)競爭力的重要產(chǎn)品。鋼鐵生產(chǎn)全流程中影響產(chǎn)品質(zhì)量的工藝數(shù)據(jù)具有多源異構(gòu)、高維、強相關(guān)、工序間遺傳等特點[2],預測建模時必須先從眾多的屬性集中選擇出合適的特征子集,才能提高機械性能預測模型的精確度和計算效率[3]。目前已有許多學者針對數(shù)據(jù)建模過程提出了一些不同的屬性選擇方法。BERETTA 等[4]比較了原始Relief F算法和改進的Relief F 算法選擇正確屬性的能力,并分析了具體原因;針對屬性與標簽的非線性影響關(guān)系,GUYON 等[5]采用了核方法對模型的輸入變量進行選擇;ALIFERIS 等[6]討論了解決多分類問題的屬性選擇方法。一些研究表明,不同的屬性選擇方法對特定的分類器獲得良好的性能影響不同[7];還有一些研究嘗試解決針對樣本或?qū)傩詳?shù)量龐大或?qū)傩远鄻颖旧俚母呔S數(shù)據(jù)問題[8]。但是目前對于冷軋產(chǎn)品的機械性能預測建模多是基于傳統(tǒng)的經(jīng)驗知識確定影響的工藝參數(shù)進行建模,常用方法是通過軋鋼原理結(jié)合物理模型來研究工藝參數(shù)與性能指標之間的關(guān)系或者將機理模型與智能算法的結(jié)合進行改進[9]。由于數(shù)據(jù)和經(jīng)驗等因素影響,這些機理模型基于簡化的抽象和經(jīng)驗,對一些工藝參數(shù)關(guān)注明顯不足。另外,與傳統(tǒng)方法相比,一些根據(jù)實際生產(chǎn)過程特點采用多輸入層遺傳神經(jīng)網(wǎng)絡(luò)建立機械性能預報模型的研究雖然效果有所改進[10],但多數(shù)仍采用傳統(tǒng)經(jīng)驗知識進行屬性選擇所得到的特征子集。針對目前許多企業(yè)構(gòu)建產(chǎn)品質(zhì)量大數(shù)據(jù)或全流程質(zhì)量數(shù)據(jù)平臺情況下,冷軋產(chǎn)品制造全流程中可能影響產(chǎn)品質(zhì)量的工藝參數(shù)可以方便獲取的前提,如何利用數(shù)據(jù)之間關(guān)系從更多屬性選擇更有效的產(chǎn)品質(zhì)量影響因素,提高預測模型預測精度問題成為可能,本文作者提出采用最大互信息系數(shù)(maximal information coefficient,MIC)的方法對某鋼鐵企業(yè)冷軋產(chǎn)品制造全流程中的工藝參數(shù)進行選擇進行機械性能預測建模的方法。該方法的特點是通過計算每個工藝參數(shù)與機械性能之間的MIC,根據(jù)MIC 選擇出最優(yōu)特征子集后再進行后續(xù)的機器學習工作。對比其他方法得到的特征子集的預測結(jié)果,驗證基于MIC 方法的屬性選擇得到的工藝參數(shù)最優(yōu)特征子集可以明顯提高冷軋產(chǎn)品機械性能預測精度。
互信息(mutual information,MI)是衡量2 個隨機變量X和Y中一個隨機變量由于另一個隨機變量發(fā)生改變而自身隨之改變的程度[11-12],其計算方式為
式中:p(x,y)為X和Y的聯(lián)合概率分布;p(x)和p(y)分別為X和Y的邊緣概率分布。
互信息(MI)可以量化2 個隨機變量間相關(guān)程度,當互信息為0時說明X和Y相互獨立;互信息越大,說明X和Y兩者之間的相關(guān)程度越高[13]。但是互信息并沒有上界,所以不能簡單地通過互信息來劃分特征子集的選擇范圍,對于屬性選擇過程則需要將互信息的上限固定才能應(yīng)用。
RESHEF 等[14]提出用最大互信息系數(shù)(maximum information coefficient,MIC)來衡量變量之間線性或非線性相關(guān)的程度。MIC 是互信息的推廣,由于MIC 的范圍為[0,1],因此,它比互信息更具有一般性和公平性。
MIC計算采用非等間隔尋優(yōu)的方法求出2個變量之間的互信息,然后對求出的值進行歸一化處理[15]。對于隨機變量X和Y之間MIC 的計算方法為:
1)將隨機變量X和Y兩者的數(shù)據(jù)取出來組成數(shù)據(jù)集D,并將數(shù)據(jù)集D按一定的順序進行排序;
2)將隨機變量X等分為x份,將Y等分為y份,不同的間隔劃分方法可以得到不同數(shù)量的網(wǎng)格,網(wǎng)格數(shù)量越多互信息也會越大,但總的網(wǎng)格數(shù)量xy應(yīng)滿足:
為了簡化計算過程,先將x和y初始值分別取為
3)在計算完當前的劃分方式后將x增加1,則:
當y=2時停止網(wǎng)格的劃分。
4)在每種劃分情況下,通過第(xi,yj)位置格子里面點的數(shù)量除以總點數(shù)的計算方式求出該格子的概率p(xi,yj),該格子所在列的概率p(xi)則為落在該列里面的點的數(shù)量除以總點數(shù),同理也可以求出所在行的概率p(yj),當前劃分方式下的概率分布則為D|x*y,通過互信息計算公式求出當前劃分的互信息I(D|x*y),找出所有劃分情況下互信息的最大值maxI(D|x*y),令I(lǐng)'[D(x,y)]=maxI(D|x*y),對其進行標準化:
之后就可求出隨機變量X和Y在不同分割尺度下的最大互信息系數(shù)M(X,Y):
當M(X,Y)=0時,說明兩者之間不存在任何相關(guān)性,其值越接近1則越說明兩者之間的相關(guān)性越強;當M(X,Y)=1 時,說明X和Y之間存在著線性或非線性相關(guān)關(guān)系。
圖1所示為冷軋產(chǎn)品生產(chǎn)全流程是一個典型的多工序順序加工過程[16],整個生產(chǎn)過程具有多變量、多種數(shù)據(jù)來源,在產(chǎn)品生產(chǎn)過程中會涉及到許多個變量,例如冶煉成分、軋制溫度、軋制速度以及軋制力等,它們來源多樣、數(shù)據(jù)類型不同、相互之間的耦合關(guān)系復雜[17]。而由于制造過程中冶金、物理過程的復雜影響,工藝參數(shù)與機械性能之間的關(guān)系往往是非線性的,難以用簡單的線性模型表征[18],另外,變量之間的相關(guān)性也增加了預測建模的復雜性。假設(shè)冷軋產(chǎn)品定量質(zhì)量指標集為Y=可獲取產(chǎn)品制造過程{冶煉,連鑄,熱軋,冷軋}等工序的工藝參數(shù)分別表示為X={XB,XC,XH,XP},其中每個階段又由許多具體工藝參數(shù)構(gòu)成,例如由l個參數(shù)構(gòu)成。這樣全面考慮工藝參數(shù)對質(zhì)量指標的影響的質(zhì)量建??沙橄鬄?/p>
圖1 冷軋產(chǎn)品制造流程Fig.1 Cold rolled product manufacturing process
在實際應(yīng)用中,一般產(chǎn)品機械性能多為下屈服強度、抗拉強度和伸長率等??梢葬槍我坏男阅苤笜朔謩e構(gòu)建形如式(7)所示的預測模型,但這樣的模型雖然有很好的預測精度但不能統(tǒng)一考慮各工藝參數(shù)之間對多質(zhì)量指標的耦合影響。
2.2.1 問題定義
設(shè)可以獲取{冶煉,連鑄,熱軋,冷軋}各工序的工藝參數(shù){XB,XC,XH,XP},每個工序的參數(shù)個數(shù)分別為j,k,l和m,共有(j+k+l+m)個工藝參數(shù)。由于這些工藝參數(shù)中有一些并不與質(zhì)量指標集Y={y1,y2,y3…}中的指標相關(guān)聯(lián),并且相互之間可能因耦合等因素給建模帶來非必要的難度,降低了預測模型的準確度。要解決這個問題,可利用某種評價指標從工藝參數(shù)集{XB,XC,XH,XP} 中選擇出適合的子集使得利用子屬性構(gòu)建的YT=f(x1,x2,…,xn)的預測精度更高[19]。
對于線性關(guān)聯(lián)問題,Pearson 相關(guān)系數(shù)、協(xié)方差和最小二乘回歸誤差等方法可以進行比較好的描述[20],但是在冷軋生產(chǎn)實際中許多變量之間是非線性關(guān)系,使用線性分析方法會遺失許多重要的非線性關(guān)聯(lián)參數(shù),最大互信息系數(shù)則可以有效避免這個問題。
2.2.2 基于MIC參數(shù)選擇的預測模型和算法
通過MIC 方法將整個冷軋過程中涉及的所有工藝參數(shù)與機械性能指標之間的關(guān)聯(lián)程度進行量化,根據(jù)MIC 分辨出關(guān)鍵工藝參數(shù)、重要工藝參數(shù)、一般工藝參數(shù)以及影響因素小或無影響的工藝參數(shù)。以不同的MIC 閾值篩選出不同的工藝參數(shù)特征子集進行冷軋產(chǎn)品的機械性能預測。
在劃分閾值范圍進行特征子集選擇時要考慮到這3個機械性能指標的影響參數(shù)之間是部分重疊但不完全相同的,在使用多輸出回歸模型時就需要將這3個機械性能指標所對應(yīng)的3個特征子集取并集處理,即特征子集:
本文預測建模中考慮到工藝參數(shù)和性能指標之變的非線性影響關(guān)系,以及多性能指標之間的影響,采用多輸出支持向量回歸機(MSVR)作為預測模型,如圖2所示。
為了驗證本文提出模型的有效性,利用某鋼廠經(jīng)過清洗處理后實際生產(chǎn)數(shù)據(jù),總計1 607條樣本,數(shù)據(jù)集共含有210個工藝參數(shù)和3個機械性能質(zhì)量指標,其中工藝參數(shù)包括:鋼卷長度、寬度、厚度和質(zhì)量、軋機出入口張力、酸洗槽溫度、酸質(zhì)量濃度、冶煉成分、拉速、液位、液位波動量、塞棒位置、上水口氬氣流量、內(nèi)外弧熱流、結(jié)晶器進水溫度等;3 個機械性能指標為:下屈服強度、抗拉強度和伸長率。表1所示為各個工序包含的工藝參數(shù)數(shù)量統(tǒng)計。
在建模中,按照8:2 的比例,將1 607 條樣本數(shù)據(jù)劃分為訓練集和測試集,采用隨機抽取的方式從樣本中選出1 285條數(shù)據(jù)作為訓練樣本集,將剩下的322條作為測試集。以模型的平均相對誤差作為評價指標:
圖2 基于MIC參數(shù)選擇的預測模型流程Fig.2 Predictive model flow based on MIC parameter selection
表1 各工序工藝參數(shù)數(shù)量Table 1 Number of process parameters in each process
式中:d為質(zhì)量指標數(shù)量;Ntest為測試集的樣本數(shù)量;為樣本實際值;為模型預測值。
圖3所示為利用本文提出方法計算各個工藝參數(shù)與質(zhì)量指標之間的MIC結(jié)果的分布情況。從圖3可以看出:與機械性能指標之間的MIC在0.2以下的工藝參數(shù)數(shù)量很大,這種情況下會對機械性能預測模型造成不良影響。
圖3 各個變量與機械性能之間的MIC分布Fig.3 Distribution of MIC between individual variables and mechanical properties
采用2.2節(jié)中提出的預測模型以0.1,0.2,…,0.7 為閾值來劃分特征子集,表2所示為獲得的不同MIC閾值下特征子集所包含的特征數(shù)量。
表2 不同MIC閾值下特征子集的特征數(shù)量Table 2 Number of features of feature subsets under different MIC thresholds 個
圖4所示為采用MSVR 模型在不同MIC 閾值下特征子集預測效果的平均相對誤差,其中MIC閾值為0的特征子集代表原始特征集。從圖4可以看出:當MIC 閾值為0.2 時,平均相對誤差最小。圖5所示為針對每項具體的機械性能指標的平均絕對誤差。
圖4 各子集的特征數(shù)量和平均相對誤差Fig.4 Number of features and mean relative error of each subset
圖5 各子集的機械性能平均絕對誤差Fig.5 Mean absolute error of mechanical properties of each subset
從圖4和圖5可知:用工藝參數(shù)與機械性能指標之間的MIC 來判定相關(guān)程度進行特征選擇,對單個輸出維度以及整體的預測效果有明顯的影響。將平均相對誤差作為模型的評價指標,MIC 閾值為0.2時特征子集的下屈服強度、抗拉強度以及整體的平均相對誤差最小。
為了對比最大互信息系數(shù)方法選擇的最優(yōu)子集更能合理地用于冷軋產(chǎn)品的機械性能預測模型,選用Pearson 相關(guān)系數(shù)進行選擇的特征子集以及基于傳統(tǒng)機理和經(jīng)驗所選擇的傳統(tǒng)子集進行對比試驗。
Pearson 相關(guān)系數(shù)是一種比較經(jīng)典的相關(guān)性度量方法。與MIC 的特征子集選擇過程一樣,它通過不同的閾值范圍來劃分不同的特征子集,表3所示為得到的不同Pearson 相關(guān)系數(shù)閾值下特征子集的構(gòu)成。
圖6所示為利用與2.2 節(jié)的模型進行預測得出不同閾值下得到的特征子集所得到的平均相對誤差。
表3 不同Pearson相關(guān)系數(shù)閾值下特征子集的特征數(shù)量Table 3 Number of features of feature subsets under different Pearson correlation coefficient thresholds 個
圖6 Pearson系數(shù)選擇子集的特征數(shù)量和平均相對誤差Fig.6 Number of features and MRE error of each subset selected by Pearson coefficient
在模型最優(yōu)時,通過Pearson 相關(guān)系數(shù)作為相關(guān)性度量對冷軋產(chǎn)品的工藝參數(shù)進行特征選擇,找出了71 個與機械性能指標有線性相關(guān)的工藝參數(shù)。表5所示為以該特征子集建立的回歸預測模型精度與最大互信息系數(shù)的最優(yōu)子集以及基于經(jīng)驗知識選擇的工藝參數(shù)子集的結(jié)果對比。
從表5可以看出:與Pearson 和經(jīng)驗知識方法相比,MIC方法可以獲得更準確的預測結(jié)果。
表4 經(jīng)驗知識子集中各工序工藝參數(shù)數(shù)量Table 4 Number of process parameters in each process of experience knowledge subset
Pearson 相關(guān)系數(shù)法對于變量之間的非線性關(guān)系不能很好識別,而MIC 方法能夠找出與機械性能指標之間非線性關(guān)聯(lián)的工藝參數(shù),對比MIC 和Pearson 方法選擇出來的特征子集,可以發(fā)現(xiàn)通過MIC 方法獲得的特征子集中還含有許多非線性關(guān)系的變量是Pearson 方法不能找出的。例如,原料成分工藝參數(shù)中的“Cu”被MIC 方法選中而被Pearson 方法排除,它與3 個機械性能指標之間的關(guān)聯(lián)程度通過MIC 方法和Pearson 方法的計算值,如圖7所示。
圖7 工藝參數(shù)Cu的計算結(jié)果Fig.7 Calculation results of process parameter Cu
表5 3種方法下模型的預測結(jié)果Table 5 Prediction results of models under three methods %
銅元素能夠提高奧氏體穩(wěn)定性,強化鐵素體,對機械性能有影響,但過量的銅元素還會導致鋼具有熱脆性,通過MIC方法識別出工藝參數(shù)“Cu”和機械性能之間的非線性關(guān)系使特征子集能更有效提高模型的預測質(zhì)量。
圖8所示為工藝參數(shù)酸洗槽酸質(zhì)量濃度的計算結(jié)果。從圖8可知:變量“酸洗槽酸質(zhì)量濃度”在MIC 和Pearson 下的計算值差異明顯,其與屈服強度、抗拉強度和伸長率的MIC 下的計算值分別為0.605,0.369 和0.280,其Pearson 下的計算值分別為0.149,0.098和0.148。圖9所示為酸洗槽酸質(zhì)量濃度與3個機械性能指標之間的散點圖。
圖8 工藝參數(shù)酸洗槽酸質(zhì)量濃度的計算結(jié)果Fig.8 Calculation results of process parameter acid mass concentration of pickling tank
圖9 酸洗槽酸質(zhì)量濃度與機械性能的散點圖Fig.9 Scatter plot of acid mass concentration and mechanical properties in pickling tank
從圖9可以看出:酸洗槽酸質(zhì)量濃度與機械性能指標之間存在著非線性的相關(guān)性,這一關(guān)系卻并沒有被Pearson選擇出來。將它從MIC方法選擇出來的最優(yōu)特征子集中剔除后,模型的預測精度下降,尤其對于酸洗槽酸質(zhì)量濃度在區(qū)間[118,137]g/L 的部分,整體平均相對誤差從剔除前的2.31%上升到3.90%。
通過這些基于實際生產(chǎn)數(shù)據(jù)的實驗表明,最大互信息系數(shù)能夠識別與機械性能相關(guān)性較大的線性及非線性相關(guān)的工藝參數(shù),通過最大互信息系數(shù)選擇出的最優(yōu)特征子集使得預測模型的精度更好。
1)提出的基于最大互信息系數(shù)選擇冷軋產(chǎn)品機械性能預測建模過程中工藝參數(shù)特征子集的方法可有效解決面對大量工藝參數(shù)特征建模時如何進行屬性特征選擇的問題。
2)采用最大互信息系數(shù)作為相關(guān)性度量進行特征選擇,能夠更有效地辨識冷軋產(chǎn)品的各個生產(chǎn)過程中與其機械性能指標之間存在的線性及非線性相關(guān)的工藝參數(shù)。
3)最大互信息系數(shù)獲得的最優(yōu)特征子集使回歸模型具有更高的預測精度:冷軋產(chǎn)品機械性能預測模型的平均相對誤差從使用原始數(shù)據(jù)集作為輸入的2.90%下降到了2.30%。