柳嘉昊
【摘? 要】復雜產品生產數(shù)據(jù)具有高維度、不平衡的特點,為在復雜產品的生產階段有效識別關鍵質量特性,及時進行質量控制,論文提出了一種基于聚類欠采樣的改進隨機森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF),利用K-Means算法對多數(shù)樣本進行聚類,并根據(jù)聚類結果進行多次欠采樣形成多個平衡數(shù)據(jù)集,以隨機森林為基分類器進行識別,最終根據(jù)分類過程中的特征重要性輸出關鍵質量特性集。算例表明,KMUS-RF算法相比現(xiàn)有的多種分類器有良好的整體分類性能,并能顯著降低復雜產品分類的第二類錯誤率,滿足產品實際生產需求。
【Abstract】The production data of complex products have the characteristics of high dimension and imbalance. In order to effectively identify the critical-to-quality characteristics in the production stage of complex products and timely control the quality, this paper proposes an improved random forest algorithm base on K-Means clustering under sampling (KMUS-RF). K-Means algorithm is used to cluster the majority of samples, and multiple undersampling is performed according to the clustering results to form multiple balanced data sets. The random forest based classifier is used for recognition, and finally the critical-to-quality characteristics set is output according to the feature importance in the classification process. Numerical examples show that KMUS-RF algorithm has good overall classification performance compared with existing classifiers, and can significantly reduce the type II error rate of complex product classification, and meet the actual production needs of products.
【關鍵詞】關鍵質量特性;不平衡數(shù)據(jù);隨機森林;K-Means;第二類錯誤
【Keywords】critical-to-quality characteristics; imbalanced data; random forest; K-Means; type II error
【中圖分類號】F273.2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)10-0134-04
1 引言
質量強則國家強,質量興則民族興,質量可靠性是產品生產最基本的要求。在復雜產品的生產制造過程中,由于復雜產品由諸多系統(tǒng)組成,且它們具有高度集成、系統(tǒng)之間相互關聯(lián)、相互制約的特點,因此需要控制的變量極多。例如,汽車發(fā)動機由五大系統(tǒng)和兩大機構組成。五大系統(tǒng)是燃料供給系統(tǒng)、冷卻系統(tǒng)、潤滑系統(tǒng)、點火系統(tǒng)和起動系統(tǒng)。兩大機構是曲柄連桿機構和配氣機構,其中某一系統(tǒng)又由活塞、連桿、搖臂等零部件組成,零部件又能進一步被分解為螺絲、軸承等,每一微小的零部件都有尺寸、重量等質量特性。在復雜產品被從部件分解成零件的過程中,產品質量特性數(shù)據(jù)集的維度會隨著產品結構的逐步分解而不斷升高。另外,在實際生產過程中,產品數(shù)據(jù)往往具有不平衡性。在制造業(yè)中,如果生產出的合格產品數(shù)量是不合格產品數(shù)量的10倍以上,就稱這樣的數(shù)據(jù)為不平衡數(shù)據(jù)(Imbalance Data Sets,IDS)。高維度、不平衡的復雜產品生產數(shù)據(jù)使質量控制成為難題。因此,質量問題成為復雜產品生產控制的關鍵問題,這不僅關系到復雜裝備的生產質量問題,更關系到經(jīng)濟安全甚至生命安全。為了在較低的控制成本下有效實現(xiàn)質量控制,就需要從高維度、不平衡的質量特性數(shù)據(jù)集中識別出對產品質量有顯著影響的關鍵質量特性(Critical-to-Quality Characteristics,CTQ)。
2 相關研究工作概述
傳統(tǒng)的CTQ識別主要依賴于工程人員的專業(yè)知識或者是顧客的需求,從產品構造、產品加工、工程特性、顧客需求等角度定性或定量方法識別產品的CTQ。應用最多的就是質量功能展開法(Quality Function Deployment,QFD)。QFD法主要包括以下幾個步驟:調查顧客需求、產品規(guī)劃、產品設計方案確定、零部件規(guī)劃、零部件設計和工藝過程設計、工藝規(guī)劃、工藝質量控制。
至今,QFD仍被認為是產品設計階段CTQ識別的最有效方法。但是,在應用中發(fā)現(xiàn),當QFD法應用于高維度、不平衡的數(shù)據(jù)集時會因自身的局限性而大大降低效率,QFD法的質量矩陣變得難以確定,由此便產生了通過數(shù)據(jù)挖掘、機器學習等方法識別產品CTQ的研究,這方面的研究還相對較少。閆偉等(2012)通過改進ReliefF算法、Wrapper方法及EM(Expectation Maximization)算法,有效提高了CTQ識別性能并大幅降低了第二類錯誤率,還在2014年通過調整CEM(Classification EM Algorithm)算法的K值輸出不同的聚類結果,消除冗余樣本后作為IG(Information Gain)算法的輸入,有效降低了數(shù)據(jù)高維度和不平衡帶來的負面影響,正確識別了產品CTQ集。李岸達等(2016)提出了基于NSGA-II的特征選擇算法,引入第II類錯誤率度量質量特性子集的重要性,通過理想點法在非支配解集中選擇最佳調和解,得到產品的CTQ集。
從現(xiàn)有研究中發(fā)現(xiàn),目前的CTQ識別方法有以下幾點不足:難以應用于高維度、不平衡的復雜產品數(shù)據(jù)集;未考慮到第二類錯誤率對實際生產中的影響;基于數(shù)據(jù)挖掘、機器學習的CTQ識別算法不夠高效。針對以上不足,本文旨在提供一種算法,能高效識別產品CTQ集,可應用于高維度、不平衡的數(shù)據(jù)集,并且能夠降低第二類錯誤率,滿足實際生產中的需要。
3 研究思路和方法
3.1 構建基于改進隨機森林算法的CTQ識別方法
本文從不同于傳統(tǒng)CTQ識別方法的視角,構建了一套完整的高維度、不平衡復雜產品數(shù)據(jù)集CTQ識別方法,基本框架如圖1所示。
基于改進隨機森林算法的CTQ識別方法步驟如下:
①獲取復雜產品原始質量特性數(shù)據(jù)集。
②數(shù)據(jù)預處理(填補缺失值、標準化數(shù)據(jù))。
③對多數(shù)類樣本進行K-Means聚類。
④根據(jù)聚類結果進行欠采樣生成n個多數(shù)類樣本集。
⑤將每個多數(shù)類樣本集與少數(shù)類樣本集組成n個平衡的訓練集。
⑥對每個平衡訓練集用決策樹進行分類,直至生成n棵決策樹形成隨機森林。
⑦對于測試集,經(jīng)過每棵樹決策判斷,最后投票確認分到哪一類。
⑧根據(jù)分類過程中的特征重要性輸出CTQ質量特性數(shù)據(jù)集。
該方法的構建總體分為3個階段:第一階段(步驟①、②)對原始高維度、不平衡數(shù)據(jù)進行初始處理;第二階段(步驟③~⑥)基于聚類欠采樣的改進隨機森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF)對樣本數(shù)據(jù)進行分類;第三階段(步驟⑦、⑧)驗證算法的有效性,并輸出CTQ數(shù)據(jù)集。
3.2 KMUS-RF算法評價指標
為評價KMUS-RF算法的分類效果,本文構建了混淆矩陣,如表1所示。TN表示模型將反類樣本預測為反類的數(shù)量,F(xiàn)P表示模型將反類樣本預測為正類的數(shù)量,F(xiàn)N表示模型將正類樣本預測為反類的數(shù)量,TP表示模型將正類樣本預測為正類的數(shù)量。
基于表1,可以得到各種分類性能的衡量指標,包括:分類精度(Accuracy)、準確率(Precision)、召回率(Recall)、F1得分(F-score)、第二類錯誤率(Type II error)。各評價指標的計算如式(1)~(5)所示。
本文選用分類精度和第二類錯誤率2個指標對分類結果進行評價。其中,第一類錯誤的定義為錯誤地將合格產品判定為不合格產品,這類錯誤的風險承擔者為生產者,因此也被稱為“生產者風險”;第二類錯誤的定義為錯誤地將不合格產品判定為合格產品,這類錯誤的風險承擔者為消費者,因此也被稱為“消費者風險”。在復雜產品的生產過程中,第二類錯誤帶來的損失通常遠高于第一類錯誤。因此,本文選用的評價指標兼顧了分類器的性能和實際生產應用的需求。
4 實證分析
4.1 數(shù)據(jù)獲取與預處理
本文復雜產品質量特性數(shù)據(jù)集來源于UCI數(shù)據(jù)庫的SECOM數(shù)據(jù)集,該數(shù)據(jù)集為半導體生產過程控制數(shù)據(jù)。數(shù)據(jù)集共有樣本1567個,每個樣本有590個質量特性,將其標號為“Q0”“Q1”…“Q589”,樣本分為合格產品和不合格產品2類,其中合格產品數(shù)量為1463個,不合格產品數(shù)量為104個。SECOM數(shù)據(jù)集中質量特性數(shù)量多,合格產品數(shù)量超過不合格產品數(shù)量的10倍,是典型的高維度、不平衡數(shù)據(jù)集。因此,在分類器識別之前需要對數(shù)據(jù)進行預處理。
首先,填補缺失值。SECOM數(shù)據(jù)集中,部分樣本缺少某個或某幾個質量特性的數(shù)據(jù),為便于模型進行預測,本文使用均值填充法(Mean Completer),用每一質量特性的均值填充缺失值。
接著,標準化數(shù)據(jù)。為進一步提高模型的收斂速度和預測精度,本文使用標準差標準化(StandardScaler)對數(shù)據(jù)樣本進行無量綱化處理,具體方法如式(6)所示。
(6)
式中,x'表示無量綱化樣本,x表示原始樣本,表示樣本均值,s表示樣本標準差。最后,分割數(shù)據(jù)集為訓練集和測試集,本文隨機選取26個合格產品和26個不合格產品組成測試集,剩余數(shù)據(jù)為訓練集,具體信息如表2所示。
4.2 基于K-Means聚類欠采樣
隨機森林算法基分類器的多樣性將決定最終分類效果,為此,本文通過聚類的欠采樣方法構建不同的訓練子集,以提高基分類器的多樣性。首先,對多數(shù)類樣本進行K-Means聚類,具體過程如下:①從多數(shù)類樣本中選擇k個樣本作為初始簇中心:C=η。②計算每個多數(shù)類樣本xj到k個簇中心ηi(1≤i≤k)的歐氏距離dij,確定xj的簇標記λj=arg mini∈{1,2,…,k)dij,并分配給最近的簇中心Cλj=Cλj∪{xj}。③將每個簇中心設置為所分配的所有多數(shù)類樣本的平均值。④重復步驟②、③直至簇中心不再變化,結束循環(huán)。⑤輸出多數(shù)類樣本的聚類結果。
本文取k=39,經(jīng)過K-Means聚類后,訓練集中的多數(shù)類樣本被聚類成39個簇。接著,從39個簇中有放回得抽樣2次,并與少數(shù)類樣本進行合并,生成1個平衡訓練子集(其中含有78個多數(shù)類樣本和78個少數(shù)類樣本)。最后,重復進行上一步中的抽樣,得到n個平衡訓練子集。
4.3 基于隨機森林算法的產品分類實現(xiàn)
對上文得到的n個平衡訓練子集,構建n棵決策樹組成的隨機森林,根據(jù)每棵決策樹對單一訓練子集的訓練結果,對測試集進行分類,最終輸出n棵決策樹投票得到測試集分類結果。
本文設定n=50,為增加實驗結果的客觀性,本文通過調整采樣時的隨機數(shù)種子,進行5次實驗,分別記為E1、E2、E3、E4、E5。結果如表3所示。
此外,本文選擇RF、RUS-RF、SMOTEENN-RF、SMOTETomek-RF、ADASYNENN-RF、CEM-IG、改進ReliefF、改進Wrapper、改進EM九種算法作為本文的對照算法。
其中,RF代表不做任何處理的隨機森林算法;RUS-RF代表先采用隨機欠采樣,再用隨機森林進行分類的算法;SMOTEENN-RF代表先用SMOTE進行過采樣,再用EditedNearestNeighbours進行欠采樣,最后用隨機森林進行分類的算法;SMOTETomek-RF代表先用SMOTE進行過采樣,再用Tomek Links進行欠采樣,最后用隨機森林進行分類的算法;ADASYNENN-RF代表先用ADASYN進行過采樣,再用EditedNearestNeighbours進行欠采樣,最后用隨機森林進行分類的算法,其余為現(xiàn)有文獻中應用的算法。另外,在用到隨機森林進行分類的算法中,統(tǒng)一設定用50棵決策樹進行投票。各算法的比較結果如表4所示。
從表4可以很直觀地看出,本文提出的基于KMUS-RF算法的分類方法在分類精度和第二類錯誤率2個指標均優(yōu)于現(xiàn)有的基于重采樣技術的隨機森林算法,證明本文的聚類欠采樣方法能夠良好保留多數(shù)類樣本的信息。
此外,與其他CTQ識別算法相比,雖然分類精度不是最優(yōu),但也表現(xiàn)出良好的性能。本文算法大幅降低了產品分類的第二類錯誤率,有效降低了實際生產過程中的負面影響。
4.4 基于KMUS-RF算法的CTQ識別
本文根據(jù)每次實驗中隨機森林算法的特征重要性(feature_importance)進行降序排列,即對影響復雜產品分類結果的各個質量特性的重要性從高到低進行排列,可認為,某個質量特性對分類結果影響越大,該質量特性越重要。為不失一般性,本文對5次實驗的前top_n個質量特性取交集,得到對每次實驗的產品分類都起重要作用的質量特性集,將其作為CTQ集,具體結果如表5所示。
由表5可得,通過對top_n值的改變,能夠明顯看出質量特性的重要性梯度,在實際生產應用中,企業(yè)可根據(jù)自身的質量控制能力靈活調整top_n值,對關鍵質量特性進行有效控制,便于及時發(fā)現(xiàn)產品缺陷,調整生產策略。
5 結論與展望
近年來,隨著制造業(yè)的不斷發(fā)展和各種測量儀器的進步,從產品加工過程中獲得各個零部件的尺寸參數(shù)等技術已較為成熟,但復雜產品組成系統(tǒng)眾多,客觀上造成了數(shù)據(jù)的高維度性,而合格產品數(shù)量遠大于不合格產品數(shù)量,又造成了數(shù)據(jù)的不平衡性,這2個特性給企業(yè)在生產過程中的CTQ識別控制帶來了一定困擾。本文提出的KMUS-RF算法以高維度、不平衡的復雜產品生產數(shù)據(jù)為研究對象,算例結果表明:該方法可以準確地對復雜產品進行分類,并有效識別復雜產品CTQ集,還能有效降低產品分類的第二類錯誤率。算法既給復雜產品高維度、不平衡數(shù)據(jù)的CTQ識別研究提供了理論借鑒,也給企業(yè)實際生產過程中進行質量控制、降低第二類錯誤率提供了方法參考。在后續(xù)的研究中,可將更多的數(shù)據(jù)挖掘、機器學習方法應用于復雜產品CTQ識別中,探究更精確的算法,也可根據(jù)其他復雜產品生產數(shù)據(jù)集對本文算法進行改進和創(chuàng)新。
【參考文獻】
【1】李伯虎.復雜產品制造信息化的重要技術——復雜產品集成制造系統(tǒng)[J].中國制造業(yè)信息化,2006(14):20-24.
【2】張健,方宏彬.剪枝與欠采樣相結合的不平衡數(shù)據(jù)分類方法[J].計算機應用研究,2012,29(03):847-848.
【3】何益海,唐曉青,王美清.產品設計質量數(shù)據(jù)與管理模型研究[J].計算機集成制造系統(tǒng),2006,12(8):1161-1166.
【4】馬驪.隨機森林算法的優(yōu)化改進研究[D].廣州:暨南大學,2016.
【5】Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
【6】He H, Bai Y, Garcia E A, et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]// Neural Networks, 2008. IJCNN 2008. (IEEE World Congress on Computational Intelligence).
IEEE International Joint Conference on. IEEE, 2008.
【7】Batista G E A P A , Prati R C, Monard M C. A study of the behavior of several methods for balancing machine learning training data[J].Acm Sigkdd Explorations Newsletter,2004,6(1):20-29.
【8】閆偉.基于數(shù)據(jù)挖掘的復雜產品關鍵質量特性識別的方法研究[D].天津:天津大學,2012.
【9】閆偉,何楨,李岸達.基于CEM—IG算法的復雜產品關鍵質量特性識別[J].系統(tǒng)工程理論與實踐,2014(5):1230-1236.
【10】于志忠.利用QFD方法建立基于顧客滿意的質量目標[J].中國認證認可,2010(11):35-37.
【11】李岸達,何楨,何曙光.基于NSGA-Ⅱ的非平衡制造數(shù)據(jù)關鍵質量特性識別[J].系統(tǒng)工程理論與實踐,2016,36(06):1472-1479.