不平衡數(shù)據(jù)集下齒輪裝配的故障診斷方法

2023-06-25 17:21:37王喆徐曦張畢生黃曉瑋胡萬里

現(xiàn)代信息科技 2023年6期

王喆徐曦張畢生黃曉瑋胡萬里

摘? 要：汽車零部件的齒輪裝配過程中往往伴隨著多種類型的故障，快速且精準地判斷故障類型，對保證齒輪裝配工位穩(wěn)定運行具有重要意義。因此，提出一種基于SMOTE采樣方法和隨機森林（RF）分類方法的故障診斷模型——SMOTE-RF。首先，在實際齒輪裝配過程中，故障數(shù)據(jù)是不平衡的，可以使用SMOTE算法生成平衡的故障數(shù)據(jù)；其次，將平衡后的數(shù)據(jù)作為隨機森林算法的輸入實現(xiàn)故障分類；最后，對模型進行性能評估。實驗結(jié)果表明，SMOTE-RF模型的分類效果優(yōu)于SVM和XGBoost。

關(guān)鍵詞：故障診斷；不平衡數(shù)據(jù)；SMOTE算法；隨機森林

中圖分類號：TP391.4；TP181 文獻標識碼：A 文章編號：2096-4706（2023）06-0139-05

Fault Diagnosis Method of Gear Assembly under Imbalanced Data Set

WANG Zhe1，2， XU Xi1，2， ZHANG Bisheng3， HUANG Xiaowei3， HU Wanli4

（1.School of Computer Science， Hunan University of Technology， Zhuzhou? 412007， China; 2.Key Laboratory of Intelligent Information Perception and Processing Technology of Hunan Province， Hunan University of Technology， Zhuzhou? 412007， China; 3.Bosch Automotive Products （Changsha） Co.， Ltd， Changsha? 410100， China; 4.Changsha Robot Technology Co.， Ltd.， Changsha? 410100， China）

Abstract： The gear assembly process of automobile parts is often accompanied by various types of faults. It is of great significance to quickly and accurately determine the fault type to ensure the stable operation of the gear assembly station. Therefore， a fault diagnosis model based on SMOTE sampling method and Random Forest （RF） classification method， SMOTE-RF， is proposed. Firstly， in the actual gear assembly process， the fault data is unbalanced， and the SMOTE algorithm can be used to generate balanced fault data. Secondly， the balanced data is used as the input of Random Forest algorithm to realize fault classification. Finally， the performance of the model is evaluated. The experimental results show that the classification effect of SMOTE-RF model is better than that of SVM and XGBoost.

Keywords： fault diagnosis; imbalanced data; SMOTE algorithm; Random Forest

0? 引? 言

裝配是將各種零部件按照一定順序組合在一起以實現(xiàn)產(chǎn)品預(yù)定的功能，它不僅是制造過程中的最后一個環(huán)節(jié)，還是保證產(chǎn)品質(zhì)量的重要一環(huán)，所以確保產(chǎn)品裝配過程中的可靠性、持續(xù)性是提高產(chǎn)品質(zhì)量的有效方法之一[1]。在汽車裝配線中，零部件的裝配是一個很重要的過程，而齒輪裝配正是汽車零部件裝配的重要組成部分之一[2]。在齒輪裝配的過程中，難免會發(fā)生異常或故障，如果不能迅速正確地處理好這些故障問題，不僅影響產(chǎn)線的生產(chǎn)，還可能造成嚴重的安全事故。因此為了保證齒輪裝配能夠安全、有效地運行，對其進行故障檢測與診斷是很有必要的。

故障診斷在尋找設(shè)備監(jiān)測數(shù)據(jù)和設(shè)備健康狀態(tài)之間的關(guān)系時尤為重要。傳統(tǒng)上，這種關(guān)系是由經(jīng)驗豐富的工程師用專業(yè)知識來把握的[3]。例如目前長沙某汽車零部件公司的IPB產(chǎn)線中的齒輪裝配工位在裝配過程中發(fā)生故障后，需要相關(guān)專家根據(jù)設(shè)備的壓裝曲線圖進行分析，判斷故障類型。然而，在工程場景中，更需要有一種自動化的方法能夠在提高診斷準確率的前提下，盡可能縮短診斷時間。同時，隨著5G技術(shù)及AIoT解決方案在該公司的不斷落地，數(shù)字化轉(zhuǎn)型的推進進一步深入，建立基于實時數(shù)據(jù)鏡像映射的工業(yè)數(shù)字孿生被提上日程，而齒輪裝配工位的故障診斷正是其中的重要組成部分之一。因此，通過分析歷史故障數(shù)據(jù)信息，采用有監(jiān)督學(xué)習(xí)方法將其相關(guān)屬性與故障類型標簽進行映射，以實現(xiàn)故障類型的識別，可有效提高故障診斷的效率，對齒輪裝配穩(wěn)定運行具有重要意義。

隨著機器學(xué)習(xí)的快速發(fā)展，在智能故障診斷領(lǐng)域中多類別的故障分類技術(shù)是非常重要的研究方向之一，目前主流的分類方法包括支持向量機（Support Vector machine， SVM）[4]、決策和回歸樹（Classification and Regression Tree， CART）[5]以及神經(jīng)網(wǎng)絡(luò)[6]等。在大數(shù)據(jù)樣本下，單個分類器的性能已經(jīng)難以達到分類精度需求，所以需要將多個分類器組合在一起，集成分類器擁有更高的準確率。隨機森林（Random Forest， RF）[7]是一種有監(jiān)督的集成學(xué)習(xí)算法，它是由Leo Breiman等在2001年提出的一種機器學(xué)習(xí)方法。該算法具備分類性能好、不易過擬合、訓(xùn)練效率高等優(yōu)點，因此常常應(yīng)用于故障診斷領(lǐng)域，如徐佳慶提出的對高性能互連網(wǎng)絡(luò)阻塞故障檢測方法[8]。

此外，在齒輪裝配過程中不同故障出現(xiàn)的頻率相差很大，會出現(xiàn)部分故障樣本過少的情況，導(dǎo)致在進行故障分類時，分類模型無法準確識別出故障樣本過少的故障類別，反而對多數(shù)樣本類型過于敏感，使得分類模型泛化能力較差。因此，在訓(xùn)練分類模型之前需要解決樣本不平衡的問題。通常我們會對原始數(shù)據(jù)集進行重采樣，分為過采樣、欠采樣和混合采樣[9]。合成少數(shù)類過采樣（Synthetic Minority Oversampling， SMOTE）是Chawla等[10]在2002年提出的，該算法是基于K-最近鄰算法（K-Nearest-Neighbors， KNN）[11]在鄰近樣本中隨機插值，在不平衡問題中常常采用SMOTE對少數(shù)類樣本過采樣來平衡數(shù)據(jù)集。

本文針對齒輪裝配過程中不同故障類型樣本數(shù)據(jù)不平衡的問題，提出了首先利用SMOTE算法對不平衡的原始數(shù)據(jù)集進行處理生成新的均衡數(shù)據(jù)集，然后將均衡數(shù)據(jù)集放入隨機森林模型進行訓(xùn)練，構(gòu)建SMOTE與隨機森林結(jié)合的算法模型，即SMOTE-RF模型。最后為了避免在對模型性能評估時偏向于多數(shù)類，使用綜合考慮所有類別各自的召回率和準確率的評估指標來對分類模型進行評價。結(jié)果表明SMOTE-RF模型的分類效果優(yōu)于不進行平衡處理的模型，同時也驗證了在分類效果方面，相較于SVM和XGBoost，隨機森林的分類效果更優(yōu)。

1? 基于SMOTE-RF的故障診斷

1.1? SMOTE算法

SMOTE算法的基本思想是通過少量樣本與其相鄰樣本之間的隨機線性內(nèi)插來獲得新樣本。SMOTE算法為少數(shù)類中的每個樣本搜索其最近的相鄰樣本。通過合成一定數(shù)量的人工少數(shù)樣本使類別分布平衡，降低過擬合的可能性，從而提高不平衡數(shù)據(jù)集的分類效果，并且提高分類器的泛化性能。SMOTE的具體過程如下：

Step1：對于每個少數(shù)類樣本xi （i=1， 2，…， n），按照一定的規(guī)則計算其與少數(shù)樣本中其他樣本的距離，得到其k個最近鄰域。

Step2：根據(jù)過采樣放大倍數(shù)，選擇每個樣本x的隨機m個最近鄰作為k個最近鄰集合的子集，記為xij （ j=1， 2，…， m），然后用式（1）計算人工構(gòu)造的少數(shù)樣本pij：

pij=xi+rand（0， 1）×（xij-xi）， i=1， 2，…， N? ? ? ? ?（1）

其中，rand（0， 1）是在[0， 1]范圍內(nèi)均勻分布的隨機數(shù)。直到新生成的少數(shù)類數(shù)據(jù)與多數(shù)類數(shù)據(jù)達到一定的不平衡比才停止式（1）的運算。

1.2? 隨機森林算法

隨著機器學(xué)習(xí)領(lǐng)域的快速發(fā)展，隨機森林因其高容錯性和強分類性能而得到廣泛應(yīng)用。傳統(tǒng)的隨機森林算法被用來處理平衡數(shù)據(jù)集，但在實際問題中，不平衡數(shù)據(jù)集更為常見。隨機森林是由多棵相互之間獨立的決策樹組合在一起的一種袋裝集成學(xué)習(xí)算法。隨機森林中的每一顆決策樹都是通過Boostrap進行有放回的抽樣方法從原始樣本中抽取多個樣本得到的，然后將這些決策樹組合在一起，并行的完成學(xué)習(xí)任務(wù)，通過投票的方式得到最終的預(yù)測和分類結(jié)果。隨機森林的構(gòu)建過程如下：

Step1：構(gòu)建訓(xùn)練子集。給定原始數(shù)據(jù)集D，總樣本數(shù)為M，特征屬性總數(shù)為R；利用Boostrap有放回的隨機抽樣方法從原始數(shù)據(jù)D中抽取n個樣本，并重復(fù)n次，構(gòu)建訓(xùn)練子集，其中訓(xùn)練子集小于M，其余的構(gòu)建為袋外測試集OOB。

Step2：構(gòu)建決策樹。從R個特征屬性中隨機抽取r個（r＜R），利用訓(xùn)練子集構(gòu)建完全分裂的決策樹。

Step3：生成隨機森林。重復(fù)Step2步驟K次，直至構(gòu)建K棵決策樹，以組成隨機森林{ti， i=1， 2， …， K}。

Step4：結(jié)果預(yù)測。通過K棵決策樹分別對OOB測試集進行分類，匯總K次決策樹分類的結(jié)果{ti， i=1， 2， …， K}。

{t1（x）， t2（x），…， tk（x）}，用少數(shù)服從多數(shù)的投票方式得出最終的分類結(jié)果，該結(jié)果即為隨機森林的分類結(jié)果：

（2）

1.3? SMOTE算法與隨機森林算法組合

將RF算法應(yīng)用于齒輪壓裝故障診斷時，診斷結(jié)果通常會傾向于多數(shù)類，盡管整體的分類準確率較高，但是對少數(shù)類樣本分類的準確率很低。在齒輪壓裝運行的實際數(shù)據(jù)中，故障樣本遠遠少于正常樣本，但是在故障診斷模型中對少數(shù)類的故障樣本的分類精度更為重要。為了解決上述問題，本文提出了基于SMOTE-RF的齒輪壓裝故障診斷模型，模型的整體結(jié)構(gòu)如圖1所示，具體步驟為：

（1）數(shù)據(jù)預(yù)處理。對數(shù)據(jù)進行篩選，剔除異常數(shù)據(jù)，去除冗余數(shù)據(jù)，提取合適的特征來構(gòu)建原始數(shù)據(jù)集。

（2）SMOTE過采樣。通過SMOTE算法對原始數(shù)據(jù)集中少數(shù)類的故障數(shù)據(jù)進行過采樣，并把過采樣所生成的新的數(shù)據(jù)與多數(shù)類樣本合并，以此得到類別均衡的數(shù)據(jù)集。

（3）隨機森林算法訓(xùn)練。將處理后產(chǎn)生的均衡數(shù)據(jù)集使用隨機森林進行訓(xùn)練，利用網(wǎng)格搜索算法對隨機森林模型進行參數(shù)優(yōu)化，來提升分類結(jié)果的準確率。

（4）模型評估。構(gòu)建齒輪裝配故障診斷模型評估指標，將測試集輸入到已經(jīng)訓(xùn)練好的模型中進行故障類別的分類，然后再將分類結(jié)果與測試集對應(yīng)數(shù)據(jù)的真實類別對比，以此來驗證模型的準確性。

2? 實驗結(jié)果與分析

2.1? 數(shù)據(jù)集

本文實驗所采用的數(shù)據(jù)源自長沙某汽車部件公司IPB產(chǎn)線的齒輪壓裝工位2022年4月11日至2022年4月15日的實際運行數(shù)據(jù)。其中包含齒輪壓裝的正常運行狀態(tài)和故障狀態(tài)。數(shù)據(jù)特征包括齒輪類型、壓裝時間、壓裝位移和壓裝力矩。檢定的故障原因包括壓入力超過上限、壓入力超過下線、無壓入力或壓入力很小以及其他故障，為了方便表示，下文將各類故障名替換為類別編碼。

本文所用模型為有監(jiān)督學(xué)習(xí)，因此需要將部分缺失故障樣本或者故障樣本數(shù)量不足10個的故障類別進行舍去，經(jīng)過處理后數(shù)據(jù)集共有10 177條數(shù)據(jù)，包括4個輸入特征和4種故障類別，各類故障樣本數(shù)量如表1所示。

由表1可得，其中正常類別的樣本量最多，故障類別2的樣本量最少，相對于正常類別來說，故障類別1、2、3不平衡率均較高，都屬于少數(shù)類樣本，需要在實驗分析時更為關(guān)注。

2.2? 評價指標

常用的分類評價標準是針對平衡數(shù)據(jù)集的。但這些評價標準并不適用于不平衡的數(shù)據(jù)集。例如，分類的正確率?？紤]一個極端情況，假如一個數(shù)據(jù)集中有99個負樣本和1個正樣本，即使分類器判斷所有樣本都是負樣本，分類器的整體預(yù)測準確率也能夠達到99%。但這個分類器顯然是沒有意義的。

為了有效地評估分類器對不平衡數(shù)據(jù)集的效果，本人使用的指標為F1-Score值、AUC（Area Under the Curve）值[12]和ROC（Receiver Operating Characteristic）[13]曲線，這三類評價指標都是基于混淆矩陣得到的，混淆矩陣如表2所示。

F1-Score值是一個從正樣本的角度評價不平衡集的分類性能的指標。F1-Score值越高，模型的分類效果就越好。AUC表示被正確分類的樣本總數(shù)與樣本總數(shù)的比率。AUC一般在0到1之間，AUC越高，表示分類器的性能越好。如果AUC為0.5，則完全是隨機猜測的結(jié)果。ROC曲線則是不平衡數(shù)據(jù)分類問題最為常見的評價指標，在評價隨機森林的整體分類性能，可以通過ROC曲線來展現(xiàn)。ROC曲線在坐標軸上的位置越靠近左上方就代表該分類器的處理不平衡數(shù)據(jù)的性能越出色。同時ROC曲線下的面積即為AUC值，AUC值也可以更為直觀的反應(yīng)分類器的效果：

（3）

（4）

其中β∈（0， 1），但β通常為1。并且：

（5）

（6）

2.3? 實驗結(jié)果與分析

為了驗證本文所用SMOTE-RF算法的有效性，將本文提出的方法與支持向量機（SVM）和極端梯度提升（XGBoost）算法進行實驗對比與分析，分別測試在原始數(shù)據(jù)集下隨機森林算法的分類效果、在SMOTE過采樣的數(shù)據(jù)集下SVM和XGBoost的分類效果，比較他們的分類性能。實驗環(huán)境均是在PyCharm基于Python 3.9的sklearn庫來實現(xiàn)。其中原始數(shù)據(jù)集和均衡數(shù)據(jù)集均按照4：1的比例隨機分為訓(xùn)練集和測試集。

首先用原始數(shù)據(jù)集輸入到隨機森林進行訓(xùn)練，然后再將過采樣后的數(shù)據(jù)集逐次輸入到SVM、XGBoost和隨機森林中進行訓(xùn)練，可以得到各分類器的F1-Score值，如表3所示，該值越高所對應(yīng)的分類器故障分類的性能就越好。

從表3可以看出：

（1）通過SMOTE算法對少數(shù)類進行插值來平衡數(shù)據(jù)，一定程度上提上了隨機森林的分類性能，相比于未經(jīng)過不平衡數(shù)據(jù)處理的原始數(shù)據(jù)集放入隨機森林中訓(xùn)練后模型的分類效果，均衡數(shù)據(jù)集下模型分類效果更好。

（2）在均衡數(shù)據(jù)集下，將隨機森林、SVM和XGBoost分別進行訓(xùn)練后，SMOTE-RF的F1-Score值可以達到0.997 0，和SVM和XGBoost兩種分類器相比，隨機森林的分類效果明顯優(yōu)于他們。

ROC曲線圖的橫軸為負正類率，縱軸為真正類率。根據(jù)圖2的ROC曲線可以看出，相比于原始數(shù)據(jù)集訓(xùn)練的隨機森林，通過SMOTE算法對原始數(shù)據(jù)集過采樣之后的隨機森林AUC提高了2.19%，說明經(jīng)過SMOTE過采樣后，均衡的數(shù)據(jù)集能夠一定程度上提高隨機森林的分類性能。

由圖3可以得出，在相同的經(jīng)過SMOTE過采樣的均衡數(shù)據(jù)集下，隨機森林算法的AUC值比SVM和XGBoost的分別高了1.88%和2.6%，隨機森林的ROC曲線整體在其他兩種算法之上。

通過實驗結(jié)果表明，經(jīng)過SMOTE過采樣之后隨機森林的分類性能很優(yōu)異，說明本文所提的方法可以在讓隨機森林的分類性能進一步得到提升；從分類器來看，在同一均衡數(shù)據(jù)集下，隨機森林的分類性能明顯高于SVM和XGBoost，具有較強的綜合分類能力，在齒輪裝配的故障分類的問題會更有效。

2.4? 應(yīng)用場景

本文所提出的基于SMOTE-RF的故障診斷模型可以用于汽車零部件中齒輪裝配的工位上，對數(shù)據(jù)實時采集，將壓裝的實時數(shù)據(jù)輸入到故障診斷模型中，通過故障診斷模型對每一次的壓裝數(shù)據(jù)進行判斷，如若出現(xiàn)故障，則迅速在顯示屏上顯示故障類型和故障原因，及時告知產(chǎn)線工作人員出現(xiàn)故障的原因，方便工作人員能夠及時地解決故障問題，保證產(chǎn)線的正常、可靠的運行。現(xiàn)場效果圖如圖4和圖5所示。

3? 結(jié)? 論

考慮到齒輪裝配的實際情況下數(shù)據(jù)不平衡問題，本文提出了一種考慮到多種類型數(shù)據(jù)不平衡的齒輪裝配故障診斷方法，通過SMOTE過采樣方法降低原始數(shù)據(jù)集的不平衡性，再將經(jīng)過處理后的數(shù)據(jù)作為隨機森林的輸入以提高算法分類的精度。本文利用長沙某汽車部件公司IPB產(chǎn)線的齒輪壓裝工位的故障數(shù)據(jù)對所提方法進行驗證，實驗表明本文方法能夠有效提高齒輪裝配故障分類的精度，同時證明了相比于SVM和XGBoost的故障分類精度，SMOTE方法和隨機森林的結(jié)合具有顯著的優(yōu)勢。后續(xù)將收集更多齒輪裝配的故障樣本數(shù)據(jù)，可以研究在不同樣本量分別進行采樣時分類器的性能變化；同時還需要尋找更多潛在的數(shù)據(jù)特征，以提高分類器的泛化性。

參考文獻：

[1] 吳清偉，葛茂根，王強.面向機械產(chǎn)品裝配過程的在線故障診斷策略研究 [J].機械工程師，2014（7）：60-62.

[2] 謝宇嬋.基于物聯(lián)網(wǎng)的汽車裝配線智慧電動工具控制研究 [D].長春：長春工業(yè)大學(xué)，2022.

[3] LEI Y G，YANG B，JIANG X W，et al. Applications of machine learning to machine fault diagnosis：A review and roadmap [J/OL].Mechanical Systems and Signal Processing，2020，138：106587[2022-09-20].https：//doi.org/10.1016/j.ymssp.2019.106587.

[4] KANG Q，SHI L，ZHOU M C，et al. A distance-based weighted undersampling scheme for support vector machines and its application to imbalanced classification [J].IEEE transactions on neural networks and learning systems，2017，29（9）：4152-4165.

[5] LIU W，CHAWLA S，CIESLAK D A，et al. A Robust Decision Tree Algorithm for Imbalanced Data Sets [C]//Proceedings of the 2010 SIAM International Conference on Data Mining. Society for Industrial and Applied MathematicsA Robust Decision Tree Algorithm for Imbalanced Data Sets，2010：766-777.

[6] JIANG G Q，HE H B，YAN J，et al. Multiscale convolutional neural networks for fault diagnosis of wind turbine gearbox [J].IEEE Transactions on Industrial Electronics，2018，66（4）：3196-3207.

[7] BREIMAN L. Random Forests [J].Machine learning，2001，45（1）：5-32.

[8] 徐佳慶，胡小月，唐付橋，等.基于隨機森林的高性能互連網(wǎng)絡(luò)阻塞故障檢測 [J].計算機科學(xué)，2021，48（6）：246-252.

[9] 翟嘉琪，楊希祥，程玉強，等.機器學(xué)習(xí)在故障檢測與診斷領(lǐng)域應(yīng)用綜述 [J].計算機測量與控制，2021，29（3）：1-9.

[10] CHAWLA N V，BOWYER K W，HALL L O，et al. SMOTE：synthetic minority over-sampling technique [J].Journal of artificial intelligence research，2002，16（1）：321-357.

[11] GUO G D，WANG H，BELL D，et al. KNN Model-Based Approach in Classification [C]//OTM 2003：On The Move to Meaningful Internet Systems 2003：CoopIS，DOA，and ODBASE.Catania：Springer，2003：986-996.

[12] 王誠，趙曉培.基于混合采樣的改進隨機森林算法研究 [J].計算機技術(shù)與發(fā)展，2021，31（12）：50-54+91.

[13] 汪力純，劉水生.基于混合采樣和特征選擇的改進隨機森林算法研究 [J].南京郵電大學(xué)學(xué)報：自然科學(xué)版，2022，42（1）：81-89.

作者簡介：王喆（1997—），男，漢族，湖南長沙人，碩士在讀，研究方向：工業(yè)物聯(lián)網(wǎng)。

收稿日期：2022-10-20

基金項目：湖南省教委科研基金（19K026）；湖南省重點實驗室建設(shè)項目（2020KF02）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

不平衡數(shù)據(jù)集下齒輪裝配的故障診斷方法