康守強 周 月 王玉靜 謝金寶 MIKULOVICH Vladimir Ivanovich
滾動軸承是旋轉機械設備的重要組成部件,如果在軸承失效前可準確地預測出剩余使用壽命(Remaining useful life,RUL),便可及時采取預防措施,從而可以避免造成重大經濟損失和人員傷亡事故[1-2].
特征提取是進行滾動軸承RUL 預測的重要前提.近年來,深度學習憑借其卓越的非線性函數(shù)自動映射能力在滾動軸承特征提取領域得到廣泛應用[3].文獻[4]提出一種改進的深度信念網絡,直接以滾動軸承原始振動信號作為網絡輸入,經過逐層抽象表示,挖掘出原始振動信號深層本質特征.文獻[5-7]利用卷積神經網絡特有的局部卷積、權值共享和降采樣等結構特性直接從滾動軸承振動信號中自動提取數(shù)據(jù)局部抽象信息,實現(xiàn)對振動信號特征的深層挖掘.上述研究雖利用深度學習方法簡化了復雜的特征提取過程且挖掘出了振動信號深層本質特征,但是網絡模型仍需大量標簽數(shù)據(jù)進行有監(jiān)督微調,而實際應用中標簽數(shù)據(jù)匱乏且難以獲取.
稀疏自動編碼器(Sparse auto-encoder,SAE)作為深度學習模型的一種,因其獨特的無監(jiān)督特征學習能力,可實現(xiàn)大量無標簽數(shù)據(jù)特征的有效表達[8],為滾動軸承特征提取提供了新的解決思路.目前稀疏自動編碼器已被成功推廣到各種標記數(shù)據(jù)有限的應用場合[9].然而傳統(tǒng)的SAE 采用sigmoid 作為激活函數(shù)容易造成梯度消失問題,且采用Kullback-Leibler (KL)散度[10]進行稀疏性約束在滾動軸承特征提取方面存在局限性.
在特征提取的基礎上,進行滾動軸承RUL 預測是最終目標.由于循環(huán)神經網絡在時間序列處理方面具有優(yōu)越性,因此本文在獲取軸承性能退化特征值的基礎上,將長短時記憶網絡(Long shortterm memory,LSTM)作為軸承性能退化曲線構建方法.利用LSTM 構建軸承性能退化曲線的方法是整合 “ 過去”的信息,輔助處理當前信息.然而,本文考慮到滾動軸承的衰退過程實際上是一個在時間上具有前后依賴關系的連續(xù)變化過程,當前信息的處理也有必要整合 “未來”的信息[11].文獻[11]將雙向長短時記憶網絡(Bi-directional long short-term memory,Bi-LSTM)用于負荷的短期預測并取得很好的實驗效果.文獻[12]將Bi-LSTM 應用于視頻描述,用以全面保留全局時間和視覺信息.由此可以證實Bi-LSTM 在時間序列處理上具有可行性和優(yōu)越性.
綜上,本文對SAE 的激活函數(shù)進行改進,提出一種新的Tan 函數(shù)替代原有的sigmoid 激活函數(shù),并采用dropout 機制對網絡進行稀疏性約束.利用改進SAE 對滾動軸承振動信號進行無監(jiān)督自適應特征提取,并將提取出的深層特征作為滾動軸承的性能退化特征.同時,通過引入Bi-LSTM 以實現(xiàn)滾動軸承過去和未來信息的充分利用從而完成滾動軸承當前壽命預測.最后利用一次函數(shù)對當前壽命進行擬合,實現(xiàn)對滾動軸承的RUL 預測.
自動編碼器(Auto-encoder,AE)是一種通過無監(jiān)督學習算法嘗試學習一個函數(shù),使得輸出值近似等于輸入值的三層特征表達網絡,由一個輸入層、一個隱藏層和一個輸出層組成[13],其網絡結構如圖1所示.
圖1 AE 結構Fig.1 The structure of AE
輸入層與隱藏層構成編碼網絡,編碼過程為將n維輸入數(shù)據(jù)X={x1,x2,···,xn}轉換成m維擁有高級特征的隱藏層表達H={h1,h2,···,hm};隱藏層與輸出層構成解碼網絡,解碼過程為隱藏層向量重構n維輸出數(shù)據(jù)集Y={y1,y2,···,yn}.
編碼過程和解碼過程可表示為:
式(1)和式(2)中的激活函數(shù)Sf與Sg一般采用sigmoid 函數(shù),sigmoid 函數(shù)及其導函數(shù)的數(shù)學形式分別為:
由圖2 的sigmoid 函數(shù)及其導函數(shù)圖像可以看出,當神經元的輸入距離零值點較遠時,sigmoid 導數(shù)值會變得非常小,幾乎為0,導致網絡模型收斂很慢,即梯度消失.
圖2 Sigmoid 函數(shù)及其導函數(shù)曲線Fig.2 The curves of sigmoid function and its derivative
為解決這個問題,本文采用一種新的激活函數(shù),稱為Tan 函數(shù),Tan 函數(shù)及其導函數(shù)的數(shù)學形式為:
由圖3 的Tan 函數(shù)及其導數(shù)圖像可以看出,Tan導數(shù)的最小值約為0.64,不會出現(xiàn)為0 從而導致梯度消失的現(xiàn)象,使得網絡模型收斂更加快速.
圖3 Tan 函數(shù)及其導函數(shù)曲線Fig.3 The curves of Tan function and its derivative
KL 散度又稱相對熵,用來衡量兩種不同概率分布之間的偏離程度,在深度學習中,常用來衡量真實值與預測值之間的偏差.傳統(tǒng)的SAE 就是借鑒了這種思想,在AE 的損失函數(shù)基礎上添加了KL散度作為稀疏懲罰項,使網絡變得 “稀疏”,從而優(yōu)化網絡模型,稀疏懲罰項定義為:
然而,以上采用KL 散度作為SAE 的稀疏約束項僅適用真實值為0 或1 的分類問題,對于滾動軸承所需提取的深層特征為 [ 0,1] 之間某個值這樣的回歸問題,無法將作為依據(jù),對網絡進行懲罰.因此,本文采用dropout 機制實現(xiàn)SAE 的稀疏性.
具體做法是在編碼與解碼過程中的激活函數(shù)前引入dropout 層,在進行編碼、解碼時進行掩模處理,使得AE 中的部分神經元激活值以一定的概率q(通常為0.5)被置為0[14],公式為:
式中,z表示原始激活函數(shù)的輸入,z′表示經dropout 層稀疏化后的激活函數(shù)的輸入.
當神經元被置為0,只是意味著相應的神經元的權重和偏置在本次學習中得不到更新,對原始的編碼和解碼過程不產生影響.
LSTM 模型由輸入門it、遺忘門ft、輸出門ot及記憶單元ct構成.通過it、ft和ot對網絡中的信息進行選擇性的輸入、輸出以及遺忘操作,能夠有效克服一般神經網絡所存在的梯度消失問題.LSTM單個單元的內部結構如圖4 所示.
圖4 LSTM 單元內部結構Fig.4 Internal structure of the LSTM cell
一個完整的LSTM 可表示為:
式中,xt表示t時刻的輸入向量;ht是時間t的隱藏層狀態(tài);W和b分別是LSTM 的權值和偏置,均為模型訓練參數(shù);σ是激活函數(shù)sigmoid;?為逐點乘積.
雖然LSTM 能夠解決長期依賴問題,但是它并沒有利用未來的信息.因此本文采用Bi-LSTM 模型同時考慮數(shù)據(jù)的過去和未來信息,將其展開如圖5所示.其工作原理是: 通過前向LSTM 和后向LSTM 得到兩個時間序列相反的隱藏層狀態(tài),然后將其連接得到同一個輸出.前向LSTM 和后向LSTM可以分別獲取輸入序列的過去信息和未來信息[11].Bi-LSTM 在t時刻的隱藏層狀態(tài)Ht包含前向的和后向的:
圖5 Bi-LSTM 網絡展開圖Fig.5 Unfolded Bi-LSTM network
式中,T為序列長度.
基于改進SAE 和Bi-LSTM 滾動軸承RUL 預測方法流程如圖6 所示.具體步驟為:
圖6 滾動軸承RUL 預測流程Fig.6 Flow chart of RUL prediction for rolling bearings
步驟1.數(shù)據(jù)預處理: 先對滾動軸承原始時域振動信號進行傅里葉變換(Fast Fourier transform,FFT),將其轉換到頻域;然后對其進行線性函數(shù)歸一化處理,得到歸一化后的頻域幅值信號.然后對其進行線性函數(shù)歸一化處理,得到歸一化后的頻域幅值信號.
步驟2.深層特征提取: 將歸一化后的頻域幅值信號作為改進SAE 的輸入,進行無監(jiān)督深層特征提取,主要包括預訓練和微調2 個階段: 預訓練階段通過無監(jiān)督的逐層預訓練初始化網絡參數(shù);微調階段以原始輸入為標簽,通過反向傳播和梯度下降算法對網絡參數(shù)進行微調,從而得到最優(yōu)的網絡模型,最終提取能夠表征軸承退化趨勢的特征,并劃分訓練集和測試集.
步驟3.構建Bi-LSTM 模型: 以訓練集特征作為Bi-LSTM 網絡的輸入,當前使用壽命特征點數(shù)與全壽命特征點數(shù)的比值p,即壽命百分比作為網絡的標簽輸出[15],設置相關網絡參數(shù)后進行訓練.
步驟4.模型優(yōu)化: 通過計算訓練模型的均方誤差(Mean Squared Error,MSE)、平均絕對誤差(Mean absolute error,MAE)、平均絕對百分誤差(Mean absolute percentage error,MAPE)、均方百分比誤差(Mean square percentage error,MAPE)、均方根誤差(Root mean square error,RMSE)以及上述5 種誤差之和作為評價標準,比較文獻[16]的3 種常用優(yōu)化算法Adaptive moment estimation (Adam)、Root mean square prop (RMSProp)和帶動量的隨機梯度下降算法(Stochastic gradient descent with momentum,SGDM),訓練得到最優(yōu)的Bi-LSTM 模型參數(shù),并應用Dropout 技術防止過擬合.
步驟5.測試集驗證: 將測試集特征輸入到訓練好的Bi-LSTM 網絡模型中,預測已知數(shù)據(jù)的p值.
步驟6.RUL 預測: 由于p值為壽命百分比標簽,在軸承的衰退過程中,滿足一次函數(shù)模型,因此對預測出的已知數(shù)據(jù)的p值曲線進行一次函數(shù)線性擬合,得到未來各個點的p值趨勢.由步驟3 中p值的設定可知,當p=1 時,軸承失效,即達到全壽命.利用全壽命Lq減去當前壽命Ld可求得第i個軸承的RUL:
通過預測的剩余壽命RULi與 真實壽命ActRULi之間的誤差Eri來反映模型剩余壽命預測性能的好壞:
為驗證本文提出的基于改進SAE 和Bi-LSTM的滾動軸承RUL 預測方法,選取PHM2012 軸承數(shù)據(jù)集[17]作為實驗數(shù)據(jù)進行驗證.該數(shù)據(jù)集由水平方向和垂直方向兩個加速度傳感器采集得到,每隔10 s 記錄一次,每次記錄時間為0.1 s,采樣頻率為25.6 kHz.本文采用水平方向的振動數(shù)據(jù).
本文選取軸承1_1、1_2、2_1、2_2、3_1 和3_2 共6 個軸承的全壽命數(shù)據(jù)(滾動軸承從運行開始到完全失效的所有數(shù)據(jù)) 作為訓練集進行訓練,如表1 所示.剩余軸承1_3、1_4、1_5、1_6、1_7、2_3、2_4、2_5、2_6、2_7 和3_3 共11 個軸承的非全壽數(shù)據(jù)(滾動軸承從運行開始到某個時間點的數(shù)據(jù))作為測試集進行RUL 預測實驗.
表1 實驗數(shù)據(jù)(PHM2012 軸承數(shù)據(jù)集)Table 1 Experimental data (PHM2012 bearing datasets)
實驗對訓練集和測試集共17 個軸承的原始時域信號進行預處理.以軸承1_1 為例,0.1 s 采集時間段內的單個樣本時域信號及預處理后的歸一化頻域信號如圖7 所示.
圖7 軸承1_1 時域振動信號及歸一化后的頻域幅值譜Fig.7 The time domain vibration signal and normalized amplitude spectrum of the bearing1_1
將歸一化后的軸承頻域信號輸入到改進SAE中進行無監(jiān)督自適應特征提取.經大量實驗,改進SAE 網絡結構選擇為2 048-200-2 048,其中輸入層節(jié)點數(shù)對應歸一化后的軸承頻域幅值信號的2 048個點,隱藏層節(jié)點數(shù)200 對應最終提取出的特征數(shù).為消除振蕩對健康指標的影響,保證原有特征曲線特性不變,對獲得的特征曲線進行平滑濾波處理[18].從軸承1_1 提取出的200 維特征中任意選取某10個特征,其趨勢曲線如圖8 所示.
由圖8 可以看出,在軸承整個生命周期內,由改進SAE 提取出的深層特征,大部分呈單調狀,小部分呈非單調狀,但從整體上看,由改進SAE 提取出的深層特征總體上具有良好的單調趨勢性,能較好地表征軸承整個生命周期的衰退過程.
圖8 軸承1_1 部分特征趨勢曲線Fig.8 The trend curve of partial features of the bearing1_1
訓練階段: 將軸承1_2、2_1、2_2、3_1 和3_2 經過改進SAE 提取的深層特征輸入到Bi-LSTM 網絡模型中,以真實p值作為模型的輸出,訓練Bi-LSTM 預測模型.Bi-LSTM 網絡由一個隱藏層組成,經迭代實驗,網絡的隱藏層狀態(tài)數(shù)被選擇為150.使用均方根誤差(RMSE) 作為其損失函數(shù),初始學習率設置為0.01 并隨機初始化權重矩陣W和偏置b.計算3 種優(yōu)化算法Adam、RMSProp 和SGDM 之下訓練模型的各誤差及誤差之和,見表2.由表2 可知,Adam 作為自適應優(yōu)化算法可使模型誤差最小,同時Adam 算法能夠動態(tài)地更新學習率,因此,本文使用Adam 優(yōu)化器進行梯度優(yōu)化.此外,本文還利用dropout 技術,防止過度擬合并提高模型的性能.經過實驗,dropout值設置為0.1.
表2 3 種優(yōu)化算法的訓練誤差Table 2 Training error of three optimization algorithms
測試階段: 以測試軸承1_7 為例,與訓練階段相同,將軸承1_7 經過改進SAE 提取的深層特征輸入到已訓練好的Bi-LSTM 預測模型中,預測出當前p值.預測值與實際值的擬合結果如圖9(a)所示,圖9(b)為相應的擬合誤差.
圖9 本文方法預測軸承1_7 的當前p 值Fig.9 The current p value of bearing 1_7 predicted by the proposed method
將預測出的軸承1_7 當前p值運用一次函數(shù)擬合,得到未來p值的趨勢,從而可得到滾動軸承1_7 的RUL 預測結果,如圖10 所示.
圖10 本文方法對軸承1_7 的RUL 預測結果Fig.10 RUL prediction result of bearing 1_7 by the proposed method
根據(jù)軸承的實際采樣數(shù)據(jù)特點,每個軸承的每個特征點表示的壽命時間是10 s.已知軸承1_7 非全壽數(shù)據(jù)共1 502 個點,全壽命數(shù)據(jù)共2 259 點,又由圖10 可以看出,當軸承達到失效閾值,即p=1時,對應預測的全壽命數(shù)據(jù)共2 282 點.由式(22)計算得到預測RUL 為(2 282 -1 502)×10 s=7 800 s,實際ActRUL 為(2 259 -1 520)×10 s=7 570 s,則實際ActRUL 與預測RUL 的差值為 |7 570 -7 800|=2 30 s,進而由式(23)得預測誤差為((-230)/7 570)×100%=-3.04%.
為評估RUL 預測的不確定性,采用文獻[19]的方法對RUL 進行區(qū)間估計,在預測值附近設置95%置信水平的置信區(qū)間提取上限和下限.與上述RUL 預測類似,預測值也可以外推到失效閾值,獲得RUL 預測的上限和下限置信區(qū)間[7 530 s,8 070 s].
為驗證改進SAE 相比于SAE 在收斂速度方面所獲得的優(yōu)勢,分別利用SAE 和改進SAE 對滾動軸承進行深層特征提取,所消耗的時間如圖11所示.
圖11 特征提取所消耗時間的對比(PHM2012 軸承數(shù)據(jù)集)Fig.11 Comparison of the time consuming of feature extraction (PHM2012 bearing datasets)
由圖11 可以看出,在17 個軸承特征提取實驗中,改進SAE 特征提取所消耗的時間均比SAE 特征提取所消耗的時間要短,可證明改進SAE 相比于SAE 有更快的收斂速度.
為驗證本文提出的基于改進SAE 和Bi-LSTM預測方法的有效性,設置了另外3 種方案與本文預測方法進行對比實驗,如表3 所示.
表3 本文預測方法與其他3 種方案的構成Table 3 The composition of the proposed prediction method and other three schemes
按照本文方法對軸承1_7 進行RUL 預測的實驗過程,同理可得到另外3 種方案對軸承1_7的RUL 預測結果,如圖12 所示,具體預測誤差如表4所示.
圖12 3 種方案對軸承1_7 的RUL 預測結果Fig.12 RUL prediction results of bearing 1_7 by three schemes
為進一步驗證本文方法的有效性,利用PHM2012軸承數(shù)據(jù)集的RUL 預測準確度評分式(24),對滾動軸承RUL 預測進行評價,平均得分結果如表4所示.
表4 不同軸承RUL 預測誤差結果對比(PHM2012 軸承數(shù)據(jù)集) (%)Table 4 Comparison of RUL prediction results of different bearings (PHM2012 bearing datasets) (%)
式中,Ai定義為:
同理,表4 給出了數(shù)據(jù)庫中其他10 個軸承的RUL預測誤差和平均得分,并給出了與文獻[20]和文獻[21]的對比結果.
由本文提出的基于改進SAE 和Bi-LSTM 預測方法與其他3 種方案的對比實 驗結果可以看出:
1)在相同的LSTM 和Bi-LSTM 預測模型情況下,改進SAE 特征提取模型較SAE 特征提取模型獲得的平均預測誤差分別降低5.56%和1.25%,平均得分分別提高了0.052 和0.054,由此可以證明改進SAE 特征提取模型更具優(yōu)越性.
2) 在相同的改進SAE 特征提取模型情況下,Bi-LSTM 預測模型較LSTM 預測模型平均誤差降低了3.32 %,平均得分提高了0.099,可證明Bi-LSTM預測模型具有較大優(yōu)越性.
3)總體看,本文方法相比方案1、方案2 和方案3 都具有更低的誤差和更高的得分.同時,本文提出方法相較于文獻[20]和文獻[21]平均預測誤差分別降低了25.99%和46.75%,平均得分分別提高了0.313 和0.511.由此進一步證明了本文方法在滾動軸承RUL 預測方面的有效性.
為驗證本文出的基于改進SAE 和Bi-LSTM模型的泛化能力,使用西安交通大學XJTU-SY 軸承數(shù)據(jù)集[22]作為新的實驗數(shù)據(jù).該數(shù)據(jù)集由水平方向和垂直方向兩個加速度傳感器采集得到,每隔1 min 記錄一次,每次記錄時間為1.28 s,采樣頻率為25.6 kHz,利用水平方向的振動數(shù)據(jù).仿照PHM2012 軸承數(shù)據(jù)集對軸承進行非全壽與全壽命數(shù)據(jù)的劃分,如表5 所示.選取軸承1_1、1_2、2_1、2_2、3_1 和3_2 共6 個軸承的全壽命數(shù)據(jù)作為訓練集進行訓練,剩余軸承1_3、1_4、1_5、2_3、2_4、2_5、3_3、3_4、3_5 共9 個軸承的非全壽數(shù)據(jù)作為測試集.
表5 實驗數(shù)據(jù)(XJTU-SY 軸承數(shù)據(jù)集)Table 5 Experimental data (XJTU-SY bearing datasets)
同時,為簡化實驗過程,選取每個1.28 s 采集數(shù)據(jù)的中間4 096 點作為數(shù)據(jù)樣本,按照PHM2012軸承數(shù)據(jù)集相同的實驗方法進行改進SAE 深層特征提取、Bi-LSTM 模型構建、RUL 預測等.具體實驗結果如圖13 和表6 所示.
圖13 特征提取所消耗時間的對比(XJTU-SY 軸承數(shù)據(jù)集)Fig.13 Comparison of the time consuming of feature extraction (XJTU-SY bearing datasets)
由圖13 和表6 的實驗結果對比可以看出,與PHM2012 軸承數(shù)據(jù)集相同的結論,因此可以進一步說明本文方法具有較好的泛化能力.
表6 不同軸承 RUL 預測誤差結果對比(XJTU-SY 軸承數(shù)據(jù)集) (%)Table 6 Comparison of RUL prediction results of different bearings (XJTU-SY bearing datasets) (%)
本文提出一種基于改進SAE 和Bi-LSTM的滾動軸承RUL 預測方法.首先對SAE 進行改進,其次利用改進SAE 對滾動軸承振動信號進行深層特征提取,最后結合Bi-LSTM 網絡實現(xiàn)滾動軸承的RUL 預測,得到以下結論:
1)針對傳統(tǒng)的SAE 采用sigmoid 作為激活函數(shù)容易造成梯度消失問題,用一種新的Tan 函數(shù)替代原有的sigmoid 函數(shù);針對SAE 采用KL 散度進行稀疏性約束在滾動軸承特征提取方面的局限性,以dropout 機制替代KL 散度實現(xiàn)其稀疏性.利用改進SAE 對滾動軸承振動信號進行無監(jiān)督特征自適應提取,從而得到具有一定趨勢能夠表征軸承退化趨勢的深層特征.
2)針對標準LSTM 按時間順序處理序列,僅考慮過去信息而忽略未來信息的問題,引入Bi-LSTM網絡,其同一輸出連接兩個具有相反時間的LSTM網絡,分別獲取輸入序列的過去數(shù)據(jù)信息和未來數(shù)據(jù)信息.同時,為得到更好的預測結果,利用Adam算法和dropout 技術優(yōu)化Bi-LSTM 預測模型.
3)本文方法經過2 個數(shù)據(jù)集實驗驗證,結果表明,相比傳統(tǒng)的SAE 模型,改進SAE 模型具有更高收斂速度且提取的深層特征結合Bi-LSTM 模型在滾動軸承RUL 預測方面更具優(yōu)越性,同時與其他2 個文獻相比預測誤差降低了25%以上,得分提高了0.313 以上.
對于滾動軸承RUL 預測有超前預測 (Eri >0)和滯后預測 (Eri <0)兩種結果,在工業(yè)生產生活中對設備進行超前預測帶來的風險低于滯后預測.因此,“超前預測”比 “滯后預測”更具實用意義.本文雖然在一定程度上提高了預測準確度,但是也加劇了 “滯后預測”的問題,因此,RUL 預測模型的優(yōu)化將會是下一步研究工作的重點.