唐 賽,何荇兮,張家悅,尹愛軍
(重慶大學(xué) 機(jī)械傳動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,重慶 400044)
隨著現(xiàn)代機(jī)械制造業(yè)的效率提高,在生產(chǎn)過程中,一旦機(jī)械設(shè)備發(fā)生故障就會(huì)帶來巨大的損失。因此,有效的機(jī)械設(shè)備故障檢測(cè)方法具有重大意義。滾動(dòng)軸承是汽車工業(yè)中常用的部件,也是最容易損壞的零件之一,其性能直接影響著汽車的可靠性。楊宇等[1]針對(duì)汽車變速器軸承振動(dòng)信號(hào)的非平穩(wěn)特征,提出了一種基于經(jīng)驗(yàn)?zāi)B(tài)分解和自回歸模型的滾動(dòng)軸承故障診斷方法,可以有效識(shí)別變速器軸承的工作狀態(tài)。張紅兵等[2]針對(duì)汽車滾動(dòng)軸承系統(tǒng)產(chǎn)生的非線性振動(dòng)信號(hào)的特點(diǎn),提出用關(guān)聯(lián)維數(shù)來描述軸承振動(dòng)信號(hào)的工作狀態(tài),進(jìn)而對(duì)其進(jìn)行故障診斷的方法。
除了傳統(tǒng)的軸承故障診斷方法,使用人工智能算法對(duì)軸承振動(dòng)信號(hào)進(jìn)行故障識(shí)別逐漸成為研究熱點(diǎn)。此類識(shí)別方法主要包括特征提取和故障分類兩個(gè)步驟。國(guó)內(nèi),賀巖松等[3]利用小波變換的自適應(yīng)時(shí)頻局部化優(yōu)勢(shì)和奇異值分解,對(duì)時(shí)頻空間特征模式的提取功能提出用小波奇異熵和自組織特征映射神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。徐濤等[4]利用諧波小波包分解的歸一化特征能量,設(shè)計(jì)了基于二叉樹的多類SVM模型,實(shí)現(xiàn)了滾動(dòng)軸承的故障診斷。尹愛軍等[5]提取振動(dòng)信號(hào)在時(shí)域、頻域、小波域上的38個(gè)原始特征,經(jīng)過等距映射與深度置信網(wǎng)絡(luò)相結(jié)合的算法實(shí)現(xiàn)了滾動(dòng)軸承的故障分類。湯寶平等[6]對(duì)故障信號(hào)進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,再對(duì)表征故障調(diào)制特征的本征模態(tài)函數(shù)計(jì)算瞬時(shí)幅值歐式范數(shù)構(gòu)成特征矢量,將特征矢量輸入到訓(xùn)練好的Elman神經(jīng)網(wǎng)絡(luò)中進(jìn)行故障診斷。王麗華等[7]提出了基于短時(shí)傅里葉變換和卷積神經(jīng)網(wǎng)絡(luò)的電機(jī)故障診斷方法。
湯芳等[8]提出了一種基于稀疏自編碼的深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)非監(jiān)督學(xué)習(xí)自動(dòng)提取滾動(dòng)軸承振動(dòng)信號(hào)的內(nèi)在特征用于滾動(dòng)軸承故障診斷。深度學(xué)習(xí)模型是一種擁有多個(gè)非線性映射層級(jí)的深度神經(jīng)網(wǎng)絡(luò)模型,能夠?qū)斎胄盘?hào)逐層抽象并提取特征,挖掘出更深層次的潛在規(guī)律[9]。針對(duì)傳統(tǒng)軸承故障檢測(cè)存在的采樣數(shù)據(jù)量大、故障特征依賴主觀選取等問題,本文提出了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)的軸承故障識(shí)別方法,無需人為提取故障特征向量,直接學(xué)習(xí)原始的振動(dòng)信號(hào),實(shí)現(xiàn)了故障識(shí)別的智能化。王鑫等[10]提出了一種基于長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的故障時(shí)間序列預(yù)測(cè)方法,同樣無需提取預(yù)特征,驗(yàn)證了該算法的可行性。
本文首先介紹長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu),建立長(zhǎng)短期記憶網(wǎng)絡(luò)的故障識(shí)別模型,通過試驗(yàn)得到模型的預(yù)測(cè)精度,然后提取振動(dòng)信號(hào)小波包能量特征并將該特征輸入長(zhǎng)短期記憶網(wǎng)絡(luò)模型和支持向量機(jī)模型,試驗(yàn)結(jié)果證明,直接運(yùn)用長(zhǎng)短期記憶網(wǎng)絡(luò)的模型預(yù)測(cè)正確率更高。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是專門用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型。在傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了“記憶”的成分,對(duì)當(dāng)前時(shí)刻狀態(tài)的計(jì)算不僅與當(dāng)前的輸入有關(guān),還依賴于上一時(shí)刻的計(jì)算結(jié)果。然而由于“循環(huán)”結(jié)構(gòu)的存在,RNN在處理長(zhǎng)序列模型時(shí)容易陷入梯度消失或梯度爆炸問題。為了解決RNN中的長(zhǎng)期依賴問題,Schmidhuber等提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory Networks, LSTM)。如圖 1所示,與普通RNN相比,LSTM引入了三個(gè)門控制器:輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate)。門控制器描述了信息能夠通過的比例。對(duì)于標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò),每個(gè)時(shí)刻的隱層狀態(tài)由當(dāng)前時(shí)刻的輸入與之前的隱層狀態(tài)相結(jié)合組成。但由于記憶單元的容量有限,早期的記憶會(huì)呈指數(shù)級(jí)衰減。為了解決這一問題,LSTM模型在原有的短期記憶單元ht的基礎(chǔ)上,增加一個(gè)記憶單元Ct來保持長(zhǎng)期記憶。
圖 1 LSTM對(duì)于RNN的改進(jìn)(多了三個(gè)門控制器和一個(gè)記憶單元Ct)
1.1.1 臨時(shí)記憶單元的產(chǎn)生
如式(1)所示,在新的記憶單元Ct產(chǎn)生之前,會(huì)先產(chǎn)生臨時(shí)的記憶單元c',由這一時(shí)刻t的輸入層神經(jīng)元、上一時(shí)刻t-1的隱層單元分別與各自權(quán)重矩陣的線性組合,跟隨非線性激活函數(shù)tanh(),得到這一時(shí)刻t的臨時(shí)記憶單元輸出c't。
1.1.2 輸入門
在產(chǎn)生記憶單元C之前有一個(gè)輸入門,其作用是判斷臨時(shí)記憶單元c'存儲(chǔ)的記憶信息的重要性。如式(2)所示,根據(jù)輸入層和上一個(gè)隱層單元共同判斷當(dāng)前產(chǎn)生的臨時(shí)記憶單元是否保留,從而判斷它以何種程度參與生成最終記憶(或者說對(duì)新的記憶的約束)。
1.1.3 遺忘門
遺忘門與輸入門的數(shù)學(xué)形式相似,它決定了過去記憶單元對(duì)當(dāng)前記憶單元的重要程度,同樣的,根據(jù)輸入神經(jīng)元和過去的隱層單元來判斷過去的記憶單元是否保留。
1.1.4 最終記憶單元的產(chǎn)生
如式(4)所示,當(dāng)前時(shí)刻t的最終記憶單元Ct的產(chǎn)生,依賴于通過遺忘門ft控制的過去時(shí)刻t-1的記憶單元Ct-1和通過輸入門it控制的臨時(shí)記憶單元c't,將這兩者的輸出結(jié)果相加,得到最終的記憶單元。
1.1.5 輸出門
輸出門的作用是區(qū)分記憶單元和隱層單元,在記憶單元Ct中,存儲(chǔ)了大量信息,不僅有臨時(shí)記憶單元中的短期記憶,還包括過去記憶單元中的長(zhǎng)期記憶,大量的信息存在著冗余,記憶單元的信息全部流入隱層作為最后的輸出結(jié)果會(huì)影響模型的性能。輸出門的數(shù)學(xué)形式與輸入門、遺忘門類似,如式(5)所示,記憶單元通過一個(gè)非線性函數(shù)tanh(),再經(jīng)過輸出門的信息篩選,用于隱層單元的迭代,如式(6)所示。
將待處理的訓(xùn)練數(shù)據(jù)輸入到LSTM網(wǎng)絡(luò),通過如上邏輯架構(gòu)的前向計(jì)算,就得到LSTM網(wǎng)絡(luò)的輸出,即隱層單元h∈RDh,Dh表示隱層中神經(jīng)元的數(shù)目。對(duì)于分類問題,可以映射到一個(gè)權(quán)重矩陣為W(s)的線性輸出層,再跟隨softmax函數(shù),計(jì)算出分類類別的概率分布。然后按式(8)計(jì)算LSTM網(wǎng)絡(luò)的代價(jià)函數(shù)。
式中:v代表分類數(shù)量;yt,j表示在時(shí)刻t下屬于第j類的真實(shí)概率;y't,j表示時(shí)刻t下屬于第j類的訓(xùn)練概率。
如下描述建立基于LSTM的軸承故障識(shí)別模型。
1.2.1 訓(xùn)練階段
a. 輸入層
訓(xùn)練集x∈Rb×t,b表示每次用于訓(xùn)練的小批量樣本的個(gè)數(shù),t表示樣本上的數(shù)據(jù)維度。引入時(shí)間對(duì)網(wǎng)絡(luò)架構(gòu)的影響,增加時(shí)間維度,將訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為三維矩陣,即Rb×s×i,s代表樣本上的時(shí)間維度,即序列長(zhǎng)度;i代表每一時(shí)刻的輸入神經(jīng)元維度。如式(9)所示,將x∈Rb×s×i映射到一個(gè)權(quán)重為W(i)、偏置為b(i)的線性輸入層,改變樣本每一時(shí)刻的數(shù)據(jù)維度i。
b. LSTM網(wǎng)絡(luò)層
圖2 計(jì)算流程圖
c. 輸出層
通過softmax輸出層,將LSTM網(wǎng)絡(luò)層的輸出維度與最后的分類數(shù)目相匹配。式中:W(o)∈Rd×n,n為分類數(shù)目。y′∈為網(wǎng)絡(luò)架構(gòu)的輸出,y′ ∈Rb×n。
d. 代價(jià)函數(shù)
將訓(xùn)練的輸出概率分布與真實(shí)的數(shù)據(jù)分布對(duì)比,計(jì)算預(yù)測(cè)輸出與實(shí)際輸出的交叉熵代價(jià)函數(shù)。
建立如上基于LSTM的網(wǎng)絡(luò)架構(gòu),初始化網(wǎng)絡(luò)參數(shù),設(shè)定訓(xùn)練次數(shù)T。每一次訓(xùn)練中,經(jīng)過前向計(jì)算得到當(dāng)前訓(xùn)練階段的代價(jià)函數(shù),通過誤差反向傳播進(jìn)行網(wǎng)絡(luò)參數(shù)的更新,直至達(dá)成T次訓(xùn)練,代價(jià)函數(shù)收斂。
1.2.2 測(cè)試階段
在測(cè)試集上,根據(jù)訓(xùn)練更新的網(wǎng)絡(luò)參數(shù)來計(jì)算預(yù)測(cè)的分類結(jié)果輸出,并與真實(shí)的類別作比較,計(jì)算測(cè)試集上的分類預(yù)測(cè)正確率。
本文使用美國(guó)Case Western Reserve University電氣工程實(shí)驗(yàn)室的滾動(dòng)軸承故障模擬試驗(yàn)臺(tái)的故障軸承試驗(yàn)數(shù)據(jù)[14]。試驗(yàn)裝置包括電機(jī)、轉(zhuǎn)矩傳感器、功率計(jì)和電子控制設(shè)備,如圖3所示。使用電火花技術(shù)分別在SKF6205軸承的內(nèi)圈、外圈和滾動(dòng)體表面加工出0.18 mm,0.36 mm,0.53 mm直徑的單點(diǎn)損傷故障。電機(jī)風(fēng)扇端和驅(qū)動(dòng)端故障軸承的振動(dòng)信號(hào)以12 kHz和48 kHz兩種不同的采樣頻率采集得到。圖4為四種故障狀態(tài)振動(dòng)信號(hào)的時(shí)域波形比較(采樣頻率48 kHz,損傷程度0.18 mm,均截取前0.25 s)??芍?,內(nèi)圈失效、外圈失效和正常情況的振動(dòng)信號(hào)有明顯差別,滾動(dòng)體失效與正常情況無明顯差別,為直接作用于時(shí)間序列振動(dòng)信號(hào)的LSTM模型提供了理論依據(jù)。
圖 3 軸承故障試驗(yàn)平臺(tái)裝置
圖 4 不同故障部位的時(shí)域波形比較
嘗試先對(duì)驅(qū)動(dòng)端軸承下的10個(gè)數(shù)據(jù)集進(jìn)行分析,載荷為2.205 kW,信號(hào)采集頻率48 kHz。每個(gè)數(shù)據(jù)集的信號(hào)長(zhǎng)度為480 000,每2 000個(gè)信號(hào)組成一個(gè)樣本,在10個(gè)數(shù)據(jù)集上產(chǎn)生2 400個(gè)樣本。為了便于訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò),對(duì)每段樣本X做標(biāo)準(zhǔn)化處理,如式(12)所示,將樣本的向量空間按比例縮放在標(biāo)準(zhǔn)正態(tài)分布空間,同時(shí)不影響數(shù)據(jù)自身的分布性質(zhì)。
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,將2 400個(gè)樣本按照1∶2的比例隨機(jī)劃分為測(cè)試集和訓(xùn)練集。數(shù)據(jù)集描述見表1。數(shù)據(jù)集的分類標(biāo)記基于不同的故障部位和故障尺寸。試驗(yàn)?zāi)康氖峭ㄟ^學(xué)習(xí)訓(xùn)練集,尋找數(shù)據(jù)與分類標(biāo)記的內(nèi)在聯(lián)系,預(yù)測(cè)測(cè)試集上故障軸承的故障部位和故障尺寸。
表1 試驗(yàn)數(shù)據(jù)集
根據(jù)建立的基于LSTM的軸承故障識(shí)別模型,對(duì)該數(shù)據(jù)進(jìn)行建模。在訓(xùn)練過程中,一些參數(shù)需要自行設(shè)定,經(jīng)過不斷迭代,才能得到適合數(shù)據(jù)的值。對(duì)模型性能影響較大的參數(shù)有訓(xùn)練次數(shù)T、學(xué)習(xí)率η,序列長(zhǎng)度step。試驗(yàn)中嘗試對(duì)這些參數(shù)進(jìn)行調(diào)節(jié)。
圖5為訓(xùn)練集上的正確率隨訓(xùn)練次數(shù)T的變化曲線,當(dāng)訓(xùn)練到2 000次左右,正確率開始收斂,訓(xùn)練到9 000次時(shí),正確率趨勢(shì)表現(xiàn)為顯著下降,隨后迅速上升,達(dá)到16 800次左右,又小幅下降。預(yù)測(cè)正確率9 000次后,正確率顯著下降,是由于過多的訓(xùn)練次數(shù)導(dǎo)致的梯度爆炸,使LSTM單元的神經(jīng)元激活為0,訓(xùn)練停滯,之后網(wǎng)絡(luò)重新訓(xùn)練。所以,將訓(xùn)練次數(shù)調(diào)整為8 000次,可以避免梯度爆炸的出現(xiàn),并減少運(yùn)行時(shí)間。
圖6為不同學(xué)習(xí)率下正確率隨訓(xùn)練次數(shù)的變化曲線。學(xué)習(xí)率為0.001,0.003,0.006時(shí),正確率在迭代次數(shù)小于5 000時(shí)大致相同,迭代次數(shù)為7 000且學(xué)習(xí)率為0.006時(shí),正確率曲線出現(xiàn)了明顯下降。學(xué)習(xí)率決定了參數(shù)迭代到最優(yōu)值的速度快慢。越大的學(xué)習(xí)率每次訓(xùn)練時(shí)梯度下降的步長(zhǎng)越大,越容易跳過最優(yōu)解。
圖 5 訓(xùn)練20 000次的正確率變化
圖 6 學(xué)習(xí)率評(píng)估
圖7為序列長(zhǎng)度s為200和2 000時(shí)(學(xué)習(xí)率0.006,訓(xùn)練8 000次)的正確率變化曲線。LSTM網(wǎng)絡(luò)中,樣本的序列越長(zhǎng),誤差向后傳播的梯度迭代次數(shù)就越多,計(jì)算量就越大,影響收斂速度和學(xué)習(xí)效率。由圖7可知,當(dāng)序列長(zhǎng)度為2 000,收斂速度慢,學(xué)習(xí)效率低,當(dāng)序列長(zhǎng)度為200,正確率則有顯著提高,并且也能提升收斂速度和學(xué)習(xí)效率。
圖 7 序列長(zhǎng)度的評(píng)估
經(jīng)反復(fù)試驗(yàn)和超參數(shù)對(duì)比,最終確定初始學(xué)習(xí)率η=0.006,小批量樣本大小b=80,序列長(zhǎng)度s=200,每一時(shí)刻輸入神經(jīng)元個(gè)數(shù)i=10,LSTM隱層單元的神經(jīng)元個(gè)數(shù)d=100,訓(xùn)練次數(shù)T=8 000。
該模型正確率最終收斂于98.125%,在10個(gè)不同的數(shù)據(jù)集中,健康狀態(tài)軸承的預(yù)測(cè)正確率為100%,其它故障分類的預(yù)測(cè)結(jié)果見表2。
表2 軸承故障分類正確率
為驗(yàn)證模型的正確性,模型結(jié)果將與振動(dòng)信號(hào)提取故障特征之后分別使用LSTM模型和支持向量機(jī)模型的正確率進(jìn)行對(duì)比。本文提取了小波包能量特征[15]作為模型的輸入。
對(duì)振動(dòng)信號(hào)選用db10小波進(jìn)行三層小波包分解,重構(gòu)第三層8個(gè)頻帶的小波包分解系數(shù),計(jì)算對(duì)應(yīng)的歸一化的8維小波能量特征向量,并將此能量特征作為L(zhǎng)STM模型的輸入。通過試驗(yàn)發(fā)現(xiàn),由于數(shù)據(jù)規(guī)模的減小,運(yùn)行時(shí)間大幅縮短,正確率保持在95.5%,兩種模型的正確率變化曲線如圖8所示,模型1直接應(yīng)用LSTM模型,模型2是提取小波包能量特征的LSTM模型,二者比較可得出如下結(jié)論:
圖 8 LSTM模型與提取特征的LSTM模型的比較
(1)直接使用LSTM的每個(gè)樣本輸入維度為200×10,而在時(shí)域上提取特征后輸入維數(shù)降低,正確率也較低。
(2)LSTM主要解決在時(shí)序上長(zhǎng)期依賴的問題,而相對(duì)小波包能量特征是在時(shí)序上進(jìn)一步提取的特征,相互依賴性沒有原生數(shù)據(jù)強(qiáng)。
將小波包能量特征的8維向量作為支持向量機(jī)模型的輸入。試驗(yàn)中,同樣如式(7)所示,先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,在相同的訓(xùn)練集上,通過核函數(shù)將低維特征數(shù)據(jù)映射到高維空間,使用“one-vs-rest”的多分類支持向量機(jī)模型訓(xùn)練,核函數(shù)選擇高斯核,核函數(shù)系數(shù)設(shè)置為0.1,懲罰系數(shù)C=1.0,最后相同的測(cè)試集得到77%的正確率,低于使用LSTM的分類正確率。
對(duì)比基于傳統(tǒng)人工提取特征的模型,本文中基于LSTM模型的軸承故障識(shí)別模型具有更高的預(yù)測(cè)準(zhǔn)確率。除此之外,基于LSTM模型的方法,無需對(duì)特征進(jìn)行提取和篩選,降低了訓(xùn)練的難度,同時(shí)避免了特征選取不當(dāng)導(dǎo)致的預(yù)測(cè)精度低下的問題。
本文將深度學(xué)習(xí)中處理時(shí)序信號(hào)的LSTM模型應(yīng)用于滾動(dòng)軸承的故障識(shí)別。LSTM模型能夠自適應(yīng)訓(xùn)練特征,避免了人為選取故障特征的主觀性,并且能有效處理類似振動(dòng)信號(hào)的時(shí)序問題。試驗(yàn)證明了軸承故障識(shí)別LSTM模型比人為提取特征參數(shù)的模型具有更高的預(yù)測(cè)準(zhǔn)確率。