張?zhí)烊?周福強(qiáng) 吳寶庫 朱芷儀 宋雨儒
(①沈陽大學(xué)機(jī)械工程學(xué)院,遼寧 沈陽 116300;②沈陽大學(xué)機(jī)械工程學(xué)院國際學(xué)院,遼寧 沈陽 116300)
在實(shí)際生產(chǎn)中,滾動(dòng)軸承是大多數(shù)機(jī)械設(shè)備中應(yīng)用最為廣泛的一類零部件,起著不可替代的重要作用。由于滾動(dòng)軸承長期處在惡劣的工作環(huán)境下,使得其成為現(xiàn)代工業(yè)中最易受損的元器件之一[1]。比如在滾動(dòng)軸承的大型發(fā)電機(jī)的故障中,軸承的故障率達(dá)到40%[2]。一旦滾動(dòng)軸承發(fā)生損壞,輕則導(dǎo)致機(jī)器等大型設(shè)備損壞、影響正常生產(chǎn),重則造成嚴(yán)重的人員傷亡和財(cái)產(chǎn)的損失。為了及時(shí)發(fā)現(xiàn)滾動(dòng)軸承故障類型并采取相應(yīng)對策,要求提前獲取軸承振動(dòng)信號及軸承的數(shù)據(jù),一般通過傳感器等設(shè)備感知其狀態(tài);故障診斷和預(yù)測就是要分析這些數(shù)據(jù)從而評估出軸承的工作狀態(tài)。滾動(dòng)軸承提取信號的影響因素分為內(nèi)部和外部兩類[3],兩類因素的綜合作用會對需要提取的振動(dòng)信號造成影響。因此,針對軸承故障診斷相關(guān)方面的研究對于零件、設(shè)備和生產(chǎn)過程等各個(gè)方面都有重大而深遠(yuǎn)的意義[4]。
隨著故障診斷方面技術(shù)的迅速發(fā)展,人們對其進(jìn)行了大量的研究和改進(jìn),對于滾動(dòng)軸承的故障診斷方面的研究逐漸由新興問題演變?yōu)閺?fù)雜問題[5-6]。
傅里葉變換和小波變換、希爾伯特-黃變換、經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)、補(bǔ)充集合經(jīng)驗(yàn)?zāi)B(tài)分解(complete ensemble empirical mode decomposition,CEEMD)和變分模態(tài)分解(variational mode decomposition,VMD)等信號處理的傳統(tǒng)方法一般從傳感器提取的原始信號中提取時(shí)域、頻域和多域等有效故障特征;傳統(tǒng)機(jī)器學(xué)習(xí)的方法在故障診斷方面也得到明顯的應(yīng)用并發(fā)揮其優(yōu)勢[7-9];上述方法僅僅在一定程度上、單方面地滿足軸承故障對其準(zhǔn)確度等的要求。馬懷祥[10-11]等從模型分類方面,提出卷積神經(jīng)網(wǎng)絡(luò)(CNN)和極端梯度提升(XGBoost)的滾動(dòng)軸承故障診斷方法,用以提升模型預(yù)測準(zhǔn)確度。Hu X 等[12-14]為了提高頻譜精度,提出了基于LMD和頻譜校正的滾動(dòng)軸承故障診斷方法。而龔立雄[15-16]等從特征提取方面入手,提出基于核函數(shù)主元分析的軸承故障分類方法,非線性分類對準(zhǔn)確度提升有很大幫助。本文結(jié)合了前人多篇關(guān)于滾動(dòng)軸承故障診斷方面的文獻(xiàn),在工業(yè)大數(shù)據(jù)和深度學(xué)習(xí)的背景下,提出一種基于局部均值分解(local mean decomposition,LMD)和固定點(diǎn)算法(fixed points algorithm,F(xiàn)PA)聯(lián)合降噪、核主成分分析(kernal pricipal component,KPCA)和極端提升決策樹算法(extreme gradient boosting,XGBoost)思想結(jié)合自回歸積分滑動(dòng)平均(autoregressive integrated moving average model,ARIMA)時(shí)間序列模型的軸承故障診斷方法?;跐L動(dòng)軸承故障診斷降噪-提取特征-分類(故障識別)所使用的不同方法,本文構(gòu)建了滾動(dòng)軸承的故障診斷模型,并使用美國凱斯西儲大學(xué)軸承數(shù)據(jù)集進(jìn)行仿真驗(yàn)證。
滾動(dòng)軸承診斷和預(yù)測的事先準(zhǔn)備過程為信號降噪和敏感特征提?。河捎跐L動(dòng)軸承的工作環(huán)境復(fù)雜等影響條件下,提取的軸承信號具有大量背景噪聲,而其存在影響敏感特診提取,進(jìn)而影響故障識別的準(zhǔn)確度;用于軸承狀態(tài)檢測的特征指標(biāo)有很多種,一般分為兩類,基于時(shí)域特征(是否存在故障)或基于頻域特征(故障內(nèi)在原因)的選取。同傳統(tǒng)的軸承故障診斷的特征選取環(huán)節(jié)中不同的是,本文不采用單一的基于時(shí)域、頻域的輸入指標(biāo),而是通過多域提取出的特征(全面表現(xiàn)軸承的狀態(tài)變化過程)作為診斷模型的輸入,選取敏感多特征指標(biāo)進(jìn)行診斷分類,即為滾動(dòng)軸承故障識別的過程?,F(xiàn)多使用改進(jìn)神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫模型和支持向量機(jī)等軸承故障診斷方法[17-18]。但由于面臨生產(chǎn)環(huán)境爆炸式增長的數(shù)據(jù)量的現(xiàn)狀,傳統(tǒng)的機(jī)器學(xué)習(xí)算法計(jì)算的準(zhǔn)確度上相較于深度學(xué)習(xí)略顯不足。近年來,大數(shù)據(jù)方面應(yīng)用較廣的 XGBoost算法能夠有效地應(yīng)對上述問題;預(yù)測未來短時(shí)期滾動(dòng)軸承信號趨勢的方法一般有支持向量機(jī)(support vector machine,SVM)、灰色理論和ARIMA 等;ARIMA 自回歸模型具有計(jì)算效率、準(zhǔn)確度高[9]等特點(diǎn),因此本文采用ARIMA進(jìn)行故障預(yù)測。圖1 中闡述了故障識別和預(yù)測的一般過程:首先需要通過適合的傳感器采集到軸承的振動(dòng)信號,振動(dòng)信號經(jīng)過濾波處理之后再經(jīng)由敏感特征選取結(jié)合歷史數(shù)據(jù)使用ARIMA 自回歸模型預(yù)測未來的振動(dòng)趨勢,再將預(yù)測的結(jié)果輸入到XGBoost數(shù)學(xué)模型中進(jìn)行驗(yàn)證,最后根據(jù)預(yù)測的結(jié)果做出相應(yīng)的對策。
圖1 滾動(dòng)軸承信號預(yù)測和故障診斷過程
由于滾動(dòng)軸承受到工作環(huán)境等影響,其通過傳感器獲取的滾動(dòng)軸承的原始信號中包含大量無用噪聲干擾,降噪后的原始信號又需要進(jìn)行提取特征的環(huán)節(jié),而特征提取的參數(shù)又作為診斷模型的輸入;如果包含的噪聲不能有效去除,其提取的特征會與真實(shí)值發(fā)生明顯的差異,進(jìn)而影響診斷模型的準(zhǔn)確度。因此,對于原始信號的降噪處理顯得尤為重要。
LMD 是一種基于時(shí)域和頻域的自適應(yīng)信號分析方法;其本質(zhì)在于將原始信號分解為若干個(gè)分量值和殘余值。為了克服傳感器接收到的原始信號中具有不同信號源產(chǎn)生的多種信號的混合信號,又采用獨(dú)立分量分析(independent component analysis,ICA)[13]方法解決上述問題。ICA 方法又被稱為固定點(diǎn)算法FPA。固定點(diǎn)算法基于不同信號源頭之間統(tǒng)計(jì)的相互獨(dú)立性,它同傳統(tǒng)的濾波方法相比,對要求的原始信號的細(xì)節(jié)保留得更為徹底。綜上,本文采用LMD+FPA 聯(lián)合降噪的方法。下面是LMD 降噪方法在處理原始信號時(shí)的推導(dǎo)過程:
(1)選取包含大量噪聲的原始信號s(t),尋找其不間斷的極小值mk,c和極大值mk,c+1,順序計(jì)算兩兩鄰近的極值間的局部均值ni,k。極值點(diǎn)的相序數(shù)以c來代表;k代表求解極值過程的總次數(shù);i代表有多少個(gè)分解完成的PF分量。再按照順序求解相鄰的極值差得到局部包絡(luò)值:局部包絡(luò)值和平均值的計(jì)算公式為:
(2)局部包絡(luò)函數(shù)ai,k(t)以 及局部均值函數(shù)ni,k(t)即為兩值之間構(gòu)成的連續(xù)函數(shù),通過移動(dòng)平均(MA)法對上述兩個(gè)函數(shù)進(jìn)行平滑處理。
(3)去除局部均值函數(shù)以后得到hi,k(t),再通過ai,k(t)進(jìn)行解調(diào)得到調(diào)頻函數(shù)zi,k(t):
(4)局部包絡(luò)函數(shù)ai,k(t)越接近1,調(diào)頻函數(shù)zi,k(t)越 能滿足純調(diào)頻信號的條件。一般地,1-δ≤ai,k(t)≤1+δ的條件用來判斷局部包絡(luò)函數(shù)ai,k(t)能否滿足純調(diào)頻信號。δ是預(yù)先確定好的一個(gè)較小參數(shù)。當(dāng)條件滿足時(shí)計(jì)算乘積函數(shù);若條件不滿足,則令ai,k(t)乘ai,k-1(t)后返回第一步。當(dāng)條件滿足時(shí)得到純調(diào)頻信號zi,k(t), 純調(diào)頻函數(shù)zi,k(t)在 [-1,1]范圍內(nèi)的包絡(luò)信號ai,k(t)=1。當(dāng)ai,k(t)與接近1時(shí),將局部包絡(luò)函數(shù)ai,k(t)相乘,ai(t)為 包絡(luò)信號,q為最終的循環(huán)次數(shù):
(5)將ai(t)與zi,q(t)相乘,可以得到乘積函數(shù)PFi(t),zi,q(t)為純調(diào)頻信號;用乘積函數(shù)PFi(t)減去原始信號s(t)得到剩余信號。剩余信號ui(t)則重復(fù)(1)~(5)的過程,一直到滿足條件之后剩余一個(gè)單調(diào)函數(shù)或極值點(diǎn)未知,停止計(jì)算。
經(jīng)過上述幾個(gè)步驟之后,復(fù)雜原始信號s(t)在經(jīng)過上述迭代過程以后被分解成n個(gè)乘積函數(shù)PF和一個(gè)剩余函數(shù)un(t):
LMD 過程中各個(gè)變量的含義:s(t)為原始信號;mk,c為局部極小值;mk,c+1為 局部極大值;ni,k為局部均值;c為極值點(diǎn)序數(shù);k為求解極值次數(shù);i為PF分量個(gè)數(shù);ai,k(t)為局部包絡(luò)函數(shù);ni,k(t)為 局 部 均值函數(shù);zi,k(t)為 調(diào)頻函數(shù);ai(t)為 包絡(luò)信號;q為循環(huán)次數(shù);PFi(t)為乘積函數(shù);zi,q(t)為純調(diào)頻信號;ui(t)為剩余信號。
由于FPA 只適用于觀測信號的數(shù)量大于等于源信號數(shù)量的情況,要求LMD 方法能夠來解決ICA方法下的欠定盲源分離問題。本文使用LMD 降噪方法將原始信號剔除剩余信號(噪聲值)后,又將重構(gòu)虛擬的觀測信號和觀測信號構(gòu)成一個(gè)新的二維矩陣,矩陣作為ICA的輸入。首先,LMD 方法將原始信號分解為若干個(gè)PF 分量。其次選取相關(guān)程度較大的分量信號之間重構(gòu)形成虛擬觀測信號。最后重構(gòu)得到的虛擬觀測信號和原始混合信號之間組成一個(gè)新的二維矩陣,使用ICA 方法予以分析分解,最終達(dá)到對原始信號中濾除無用信息的目的。兩種方法聯(lián)合降噪過程如圖2 所示。
圖2 LMD+FPA 聯(lián)合降噪過程
核主成分分析KPCA 又被命名為核主分量分析。和PCA 方法有所區(qū)別的是,KPCA 采用非線性方式進(jìn)行樣本的空間變換,通過選取合適的非線性函數(shù)將原始的樣本數(shù)集映射到高維空間中,再在高維空間上對樣本的多向量進(jìn)行主成分分析。因?yàn)槠渚哂邪蔷€性分類方式的特點(diǎn),非線性數(shù)據(jù)集的問題通過KPCA來解決是十分合適的[16]。
核主成分分析通過非線性方式把低維空間的數(shù)據(jù)向量轉(zhuǎn)換到另外一個(gè)高維空間F,再計(jì)算協(xié)方差矩陣C。協(xié)方差矩陣C的特征向量和特征值需要滿足以下條件:
Φ(xj)為非線性函數(shù),將其代入后得到:
特征向量可以用 Φ(xi)來線性描述,即:
引入核函數(shù)Kij=K(xi,xj)=Φ(xi)Φ(xj),簡化后可以得到:
綜上,隨機(jī)選取的樣本在特征空間F中主元成分 Φ(x)上的投影可以表示為:
KPCA 過程中各個(gè)變量的含義:F為高維特征空間;m為低維空間樣本數(shù)量;xi為低維空間樣本;Φ(xj)為 非線性函數(shù); Φ(xi)為高維空間樣本點(diǎn);K為核矩陣;C為協(xié)方差矩陣;V為C的特征向量;λ為C的特征值;α為K的特征向量。
Arima 模型的基本原理是借助自身原始的數(shù)據(jù)集合經(jīng)過差分處理之后再通過自身數(shù)據(jù)的特點(diǎn)進(jìn)行未來一段時(shí)間內(nèi)數(shù)據(jù)的預(yù)測[9]。相關(guān)圖用來判斷使用MA、AR 或者AR-MA 模型,若時(shí)間序列通過N階差處理后達(dá)到平穩(wěn)狀態(tài),則使用Arima 模型。下式為Arima 模型的計(jì)算公式:
式中:μ代表常數(shù)項(xiàng);εt為隨機(jī)誤差值;γi為自相關(guān)系數(shù);θi為 移動(dòng)平均系數(shù);p為自回歸項(xiàng)、q為移動(dòng)平均項(xiàng)、d為時(shí)間序列平穩(wěn)所需的次數(shù)。預(yù)測的數(shù)據(jù)集若為非平穩(wěn)序列,一般先通過差分處理轉(zhuǎn)化為平穩(wěn)序列,再使用AR-MA 模型進(jìn)行擬合;若為平穩(wěn)非白噪聲序列,需要求出自相關(guān)系數(shù)和偏相關(guān)系數(shù)結(jié)合相關(guān)圖分析得到p、q值。
XGBoost 是華盛頓大學(xué)的陳天奇博士在2016 年基于梯度提升決策樹算法提出的一種基于梯度提升決策提升集成學(xué)習(xí)算法[12]。它經(jīng)由GBDT 算法改進(jìn)后得到,它的學(xué)習(xí)器可以是CART 決策樹(GBTree),也可以是線性分類器(GBLinear)。一般來說,XGBoost、GBDT 算法和隨機(jī)森林是一個(gè)遞進(jìn)的關(guān)系。其中,GBDT 算法在隨機(jī)森林的基礎(chǔ)上融合了XGBoost 思想,使得森林的樹之間建立聯(lián)系而不是獨(dú)自存在,形成一種整體有序的決策測體系。同樣地,XGBoost算法以決策樹作為基礎(chǔ),引入了二階泰勒展開和正則項(xiàng),可以有效地控制模型的復(fù)雜程度(模型方差大幅度降低),訓(xùn)練后的模型更簡單和穩(wěn)定。XGBoost 能夠?yàn)檫\(yùn)算過程中產(chǎn)生的缺失值設(shè)定分支的默認(rèn)方向,此外XGBoost 還支持特征級別上的并行計(jì)算,加入的正則項(xiàng)防止過擬合和欠擬合現(xiàn)象的產(chǎn)生。XGBoost的關(guān)鍵是建立多個(gè)決策樹來有效地降低預(yù)測結(jié)果的誤差,并保證回歸樹組成的樹群有盡量大的泛化能力[19-20],最優(yōu)泛化函數(shù)(Loss)的表達(dá)式如下:
式中:求和函數(shù)分別為誤差函數(shù)和正則懲罰項(xiàng)。誤差函數(shù)中的參數(shù)y?i是整個(gè)模型的輸出;正則懲罰項(xiàng)表達(dá)式如下:
式中:T為決策樹葉子節(jié)點(diǎn)個(gè)數(shù);ω為節(jié)點(diǎn);XGBoost中要求對Loss 函數(shù)進(jìn)行二階泰勒展開:
本文采用的軸承數(shù)據(jù)集來自美國凱斯西儲大學(xué)。使用的Python 版本為3.8.5、電腦CPU 為i7-9750h;使用的內(nèi)存大小為16 GB。本次使用的滾動(dòng)軸承數(shù)據(jù)集中包含7 個(gè)樣本:選取5 組作為訓(xùn)練集,剩余2 組作為測試集。
滾動(dòng)軸承的整個(gè)運(yùn)行周期是從完全健康狀態(tài)開始一直到發(fā)生不同類型的損壞以后結(jié)束的。傳感器為了全面監(jiān)測軸承整個(gè)周期的狀態(tài)變化,從完好的狀態(tài)開始進(jìn)行記錄,直到發(fā)生故障以后停止記錄。因此采集到的滾動(dòng)軸承的信號包含有用的信息。本文選取前5 個(gè)樣本數(shù)據(jù)使用LMD+FPA 降噪完成預(yù)處理后進(jìn)行特征提取。本文綜合考慮了時(shí)域特征和頻域特征,對經(jīng)過降噪的原始信號進(jìn)行KPCA 方法處理來得到多域特征,包括滾動(dòng)體故障的特征和內(nèi)圈故障等敏感特征,提取后的敏感特征作為診斷模型的輸入。
Arima 模型用來預(yù)測未來一段時(shí)間內(nèi)信號發(fā)生的變化,用以判斷數(shù)據(jù)是否穩(wěn)定,并選取差分次數(shù)為1;時(shí)序圖圍繞其均值上下波動(dòng),自相關(guān)圖短期相關(guān)性較強(qiáng)。圖3和圖4 分別為原始信號和原始信號經(jīng)過1-2 階差分處理之后得到的結(jié)果,圖5 為Arima 模型的振動(dòng)信號預(yù)測結(jié)果。
圖3 1 階差分(ACF)
圖4 2 階差分(PACF)
圖5 Arima 預(yù)測振動(dòng)信號圖
經(jīng)過差分處理之后的數(shù)據(jù)用Arima 模型加以預(yù)測:選取11 000 個(gè)數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測完未來時(shí)期內(nèi)的振動(dòng)信號之后,還需要對其進(jìn)行指標(biāo)評估。常用評估指標(biāo)如表1 所示[20]。
表1 幾種常見的模型評估標(biāo)準(zhǔn)
由于單一評估指標(biāo)只能片面反映模型的性能,因此需要綜合地使用多個(gè)評估指標(biāo)才能準(zhǔn)確反映模型的預(yù)測結(jié)果。本文采用了準(zhǔn)確率、精確率、召回率3 個(gè)方面作為模型的評估標(biāo)準(zhǔn)。評估結(jié)果如表2所示。
表2 ARIMA 預(yù)測振動(dòng)信號性能
XGBoost 將提取好的特征作為分類模型的輸入,為了方便區(qū)分,本文將軸承的幾種狀態(tài)用不同的數(shù)字加以表示:1 代表滾動(dòng)體故障,2 代表外圈故障,3 代表內(nèi)圈故障;0 為無異常狀態(tài)。0~3的作為分類模型的輸出。本次實(shí)驗(yàn)使用前5 組作為訓(xùn)練數(shù)據(jù),經(jīng)過降噪和提特征后輸入分類模型中進(jìn)行訓(xùn)練。XGBoost 模型的各個(gè)參數(shù)為:最大樹度為22;學(xué)習(xí)率選取為0.35;最小權(quán)重為0.1,而Score 得分為0.953。使用最后兩組數(shù)據(jù)用于測試,預(yù)測結(jié)果如圖6、7 所示。
圖6 第一組測試集的預(yù)測結(jié)果
圖6 中:10 000~40 000 雖然樣本數(shù)據(jù)期間發(fā)生波動(dòng),但波動(dòng)程度較小,直到40 000~60 000 數(shù)據(jù)又趨向于平穩(wěn)狀態(tài)。當(dāng)接近60 000 組數(shù)據(jù)時(shí),發(fā)生明顯波動(dòng),且60 000~70 000 值上升較快,代表軸承發(fā)生故障狀態(tài)的可能性增高,值圍繞在0.8 附近,根據(jù)之間分類的結(jié)果判定為滾動(dòng)體故障,與實(shí)際結(jié)果相符合;圖7 中0~5 000 組波動(dòng)較小,5 000~10 000樣本間基本上趨于平穩(wěn),13 000~20 000 組時(shí)波動(dòng)情況較大,20 000 組以后值明顯升高,根據(jù)模型輸出結(jié)果判別為內(nèi)圈故障,與實(shí)際結(jié)果一致。兩組測試結(jié)果均反映此模型可以較好地反映軸承故障的類型。
圖7 第二組測試集的預(yù)測結(jié)果
本文針對滾動(dòng)軸承故障診斷問題中的背景噪聲大,提取有效特征難和傳統(tǒng)機(jī)器學(xué)習(xí)算法準(zhǔn)確度低的問題上,提出了基于Arima 自回歸和XGBoost 思想的模型用于軸承故障診斷和預(yù)測的方法。經(jīng)由美國凱斯西儲大學(xué)軸承實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證證明了本方法可以短時(shí)期內(nèi)預(yù)測軸承狀態(tài)和故障類型,以便于為滾動(dòng)軸承的后期維護(hù)、更換等做好準(zhǔn)備。
(1)Arima 自回歸模型在處理非平穩(wěn)振動(dòng)信號采用N階差分的方式,可以短時(shí)間內(nèi)預(yù)測軸承信號的走向和趨勢。
(2)XGBoost 算法在應(yīng)對殘差值的處理方面優(yōu)于GBDT 集成思想算法的改進(jìn),能夠有效地糾正診斷過程中發(fā)生的誤差,不斷進(jìn)行修正,提升了模型分類和預(yù)測的準(zhǔn)確度。
(3)基于Arima+XGBoost的滾動(dòng)軸承故障識別和預(yù)測方法不僅在數(shù)值仿真過程中得到有效應(yīng)用,也為滾動(dòng)軸承應(yīng)用于各種大型機(jī)械設(shè)備在實(shí)際生產(chǎn)中提供了一種參考方案。