王超群,李彬彬,焦斌
(上海電機(jī)學(xué)院 電氣學(xué)院,上海 201306)
軸承是機(jī)械裝置中重要的部件[1],疲勞損壞、潤(rùn)滑不良、安裝不當(dāng)?shù)榷紩?huì)導(dǎo)致軸承出現(xiàn)故障,傳統(tǒng)的軸承故障診斷方法通常采用人工提取故障的方式:文獻(xiàn)[2]將集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)與峭度準(zhǔn)則結(jié)合,文獻(xiàn)[3]將小波包變換與樣本熵相結(jié)合,文獻(xiàn)[4]提出基于Teager能量算子的頻譜分析方法,這些方法雖然通過實(shí)際滾動(dòng)軸承故障試驗(yàn)以及仿真分析證實(shí)能夠有效地提取滾動(dòng)軸承故障特征,但其特征提取的工作量較大,特征提取較為復(fù)雜,且專業(yè)性較強(qiáng)。
近些年,人工智能技術(shù)的發(fā)展突飛猛進(jìn),目前熱門的深度學(xué)習(xí)[5]也在軸承故障診斷領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[6]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的軸承故障診斷方法,在美國Case Western Reserve大學(xué)的軸承故障數(shù)據(jù)下取得了較好的效果。文獻(xiàn)[7]提出了將離散傅里葉變換與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的故障診斷模型,對(duì)齒輪箱中軸承、齒輪的試驗(yàn)也取得了不錯(cuò)的結(jié)果。文獻(xiàn)[8]提出一種結(jié)合小波包變換和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的方法,在風(fēng)電機(jī)組滾動(dòng)軸承故障識(shí)別中獲得了較高的識(shí)別率。然而,在實(shí)際工業(yè)環(huán)境中,由傳感器采集到的振動(dòng)信號(hào)可能會(huì)受到噪聲的污染。此外,當(dāng)負(fù)載改變時(shí),電動(dòng)機(jī)轉(zhuǎn)速也會(huì)發(fā)生改變,傳感器測(cè)得的振動(dòng)信號(hào)也會(huì)隨之變化。雖然許多故障診斷模型在原始信號(hào)診斷上擁有很高的識(shí)別率,但處于噪聲和變負(fù)載環(huán)境下時(shí)識(shí)別率可能會(huì)出現(xiàn)較大的下降[9]。因此,將循環(huán)神經(jīng)網(wǎng)絡(luò)的變種門控循環(huán)單元(Gated Recurrent Unit,GRU)[10]與膠囊網(wǎng)絡(luò)(Capsule Network,CAPS)[11]相結(jié)合,提出一種基于門控循環(huán)單元及膠囊網(wǎng)絡(luò)的滾動(dòng)軸承故障診斷模型,并通過試驗(yàn)驗(yàn)證該方法的抗噪性、通用性和泛化能力。
與長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)類似,門控循環(huán)單元也是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失問題而提出的方法,但比長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)更為簡(jiǎn)便[12]。門控循環(huán)單元使用了更新門和重置門,這2個(gè)門共同決定了門控循環(huán)單元的輸出,其具體結(jié)構(gòu)如圖1所示。
圖1 門控循環(huán)單元結(jié)構(gòu)圖
更新門的主要作用是決定輸出狀態(tài)ht要保留多少歷史狀態(tài)ht-1,以減小梯度消失的風(fēng)險(xiǎn)。更新門的公式為
Zt=δ(Wzxt+Uzht-1+bz),
(1)
式中:δ為sigmoid函數(shù);xt為t時(shí)刻的輸入向量;Wz,Uz分別為更新門和循環(huán)連接的權(quán)重;bz為偏置項(xiàng)。
重置門的主要作用是決定過去有多少信息需要被遺忘,即候選狀態(tài)對(duì)歷史狀態(tài)的依賴程度。重置門的公式為
rt=δ(Wrxt+Urht-1+br),
(2)
式中:Wr,Ur分別為重置門和循環(huán)連接的權(quán)重;br為偏置項(xiàng)。
(3)
式中:Wc,Uc分別為候選狀態(tài)和循環(huán)連接的權(quán)重;bc為偏置項(xiàng);⊙表示同或運(yùn)算。
最后,當(dāng)前時(shí)刻的輸出ht為
(4)
膠囊網(wǎng)絡(luò)的實(shí)質(zhì)是將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元由標(biāo)量變?yōu)橄蛄俊O蛄坎粌H可以表示物體的特征,還可以包括物體的方向、狀態(tài)等,可以用來減少運(yùn)算過程中信息的丟失。膠囊網(wǎng)絡(luò)的輸入與全連接神經(jīng)網(wǎng)絡(luò)類似,由神經(jīng)元線性加權(quán)再求和,不同的是膠囊網(wǎng)絡(luò)在此基礎(chǔ)上加了一個(gè)耦合系數(shù),具體過程為
(5)
(6)
通過上述過程得到中間向量sj,sj經(jīng)過激活函數(shù)squashing后得到輸出向量vj,使用該激活函數(shù)的優(yōu)點(diǎn)是既可以保留初始向量的方向,又可以將輸入向量的模值壓縮到[0,1)之間[13]。具體計(jì)算公式為
(7)
圖2 膠囊網(wǎng)絡(luò)結(jié)構(gòu)圖
(8)
(9)
為了充分提取故障特征并減少特征信息的丟失,提出了一種基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)故障診斷模型。整個(gè)網(wǎng)絡(luò)模型如圖3所示。
圖3 基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)結(jié)構(gòu)
模型的第1層為門控循環(huán)單元層,作用是通過控制輸入信息的流入充分提取特征,并將特征傳遞給膠囊網(wǎng)絡(luò)。由圖3可知,此處輸入為28×28的張量尺寸,即將輸入當(dāng)作28個(gè)時(shí)間段,每個(gè)時(shí)間段的內(nèi)容為28個(gè)值,將28個(gè)時(shí)序一次性送入門控循環(huán)單元中,門控循環(huán)單元的隱藏層節(jié)點(diǎn)個(gè)數(shù)為128,最后得到10×10的張量尺寸。
模型的第2層為卷積層。加入卷積層的目的是減小特征尺寸,使膠囊網(wǎng)絡(luò)的計(jì)算更加簡(jiǎn)便。將經(jīng)過門控循環(huán)單元層的張量放入卷積核尺寸為5×5、過濾器深度為256的卷積層中,并經(jīng)過一層批量歸一化(BN)層[14],最終得到6×6的張量尺寸。
模型的第3層為初級(jí)膠囊層,其作用是將門控循環(huán)單元層提取到的標(biāo)量特征轉(zhuǎn)化為向量特征。構(gòu)建向量的方法是將特征層的通道合并為一個(gè)膠囊單元[15]。在該模型中,設(shè)置輸出的通道數(shù)為32,每個(gè)通道數(shù)所包含的特征數(shù)為8,因此提取到的特征總數(shù)為256(32×8)。特征數(shù)為8的向量被封裝在一個(gè)初級(jí)膠囊里。由于張量尺寸為6×6,所以一共有1 152(6×6×32)個(gè)初級(jí)膠囊。
模型的第4層為數(shù)字膠囊層,作用等同于全連接層在卷積神經(jīng)網(wǎng)絡(luò)中的作用,用來區(qū)分各種故障類型。由于要識(shí)別的軸承故障類型是10種,所以該層的膠囊個(gè)數(shù)為10,設(shè)置向量維度為16,向量的模長(zhǎng)即某種故障類型的概率。具體參數(shù)設(shè)置見表1。
表1 基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)模型參數(shù)
反向傳播算法可以根據(jù)定義好的損失函數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值,從而使神經(jīng)網(wǎng)絡(luò)的損失值達(dá)到比較小的程度。參數(shù)的優(yōu)化好壞直接決定了模型的優(yōu)劣。此網(wǎng)絡(luò)中的損失函數(shù)比較特殊,由邊緣損失和重構(gòu)損失兩部分構(gòu)成。邊緣損失的表達(dá)式為
Lc=Tcmax(0,m+-‖vc‖)2+
λ(1-Tc)max(0,‖vc‖-m-)2,
(10)
式中:Tc為真實(shí)標(biāo)簽,當(dāng)輸入樣本類別與c一致時(shí)Tc取1,否則為0;‖vc‖為向量的模長(zhǎng),即某種故障類型的概率;m+,m-分別為上邊界和下邊界,分別取0.9,0.1。當(dāng)‖vc‖>0.9或‖vc‖<0.1時(shí),損失函數(shù)為0。λ的作用是調(diào)整這2項(xiàng)的比例,這里取常數(shù)0.5。
重構(gòu)是指根據(jù)已有參數(shù)重新構(gòu)建初始輸入的電機(jī)軸承數(shù)據(jù)。加上重構(gòu)損失的目的是減小訓(xùn)練數(shù)據(jù)集過擬合的風(fēng)險(xiǎn),增強(qiáng)模型的泛化能力。重構(gòu)解碼的過程由3層全連接層構(gòu)成,3層全連接層的節(jié)點(diǎn)數(shù)分別為256,512,784,對(duì)應(yīng)的激活函數(shù)分別為ReLU,ReLU,sigmoid。重構(gòu)損失的表達(dá)式為
(11)
式中:yk為重構(gòu)圖像;xk為原始圖像。
最終的損失由上述兩部分構(gòu)成,即
L=Lc+αLr,
(12)
式中:α為邊緣損失占損失的主要部分,此處取0.000 5。
為驗(yàn)證所提GRU+CAPS模型的有效性,采用美國Case Western Reserve大學(xué)公開的滾動(dòng)軸承數(shù)據(jù)集進(jìn)行驗(yàn)證。選用不同工況下驅(qū)動(dòng)端軸承的加速度數(shù)據(jù)作為研究對(duì)象,除了正常狀態(tài),設(shè)置了內(nèi)圈故障、外圈故障和鋼球故障,每種故障方式下分別有故障直徑為0.178,0.356,0.534 mm的3種人為損傷。
由于一共有10種狀態(tài),設(shè)置標(biāo)簽為0~9,分別代表正常狀態(tài)和9種故障狀態(tài)。采用連續(xù)抽樣的截取方法處理數(shù)據(jù),設(shè)定抽樣步長(zhǎng)為784[16]。每種狀態(tài)均取1 000個(gè)信號(hào)樣本,加上標(biāo)簽最后得到10 000×(784+1)的矩陣,保存至.csv文件后作為模型的輸入。將10 000個(gè)數(shù)據(jù)以7∶2∶1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,即包含7 000個(gè)訓(xùn)練數(shù)據(jù)、2 000個(gè)驗(yàn)證數(shù)據(jù)和1 000個(gè)測(cè)試數(shù)據(jù)。數(shù)據(jù)集具體規(guī)格見表2。
表2 試驗(yàn)數(shù)據(jù)集
本試驗(yàn)在Google深度學(xué)習(xí)框架TensorFlow中完成,設(shè)置批次大小為64,對(duì)所有樣本的訓(xùn)練次數(shù)為20次。膠囊層中動(dòng)態(tài)路由算法的迭代次數(shù)為2。除此之外,使用Adam優(yōu)化器優(yōu)化總損失,學(xué)習(xí)率設(shè)置為0.001,并采用動(dòng)態(tài)衰減的方式,衰減率為10-8。
為進(jìn)一步驗(yàn)證GRU+CAPS模型的有效性,分別采用膠囊網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)(GRN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度神經(jīng)網(wǎng)絡(luò)(DNN)進(jìn)行對(duì)比試驗(yàn)。
3.3.1 膠囊網(wǎng)絡(luò)
膠囊網(wǎng)絡(luò)結(jié)構(gòu)先使用2層卷積層將張量尺寸由28×28變?yōu)?×6,第1層卷積層的卷積核尺寸大小為9,深度為256,步長(zhǎng)為1;第2層卷積層的卷積核尺寸大小為9,深度為256,步長(zhǎng)為2。此設(shè)置既減小了特征尺寸,也與本文所提模型進(jìn)入膠囊網(wǎng)絡(luò)的尺寸保持一致,之后的參數(shù)設(shè)置與本文所提模型相同。
3.3.2 門控循環(huán)網(wǎng)絡(luò)
門控循環(huán)單元網(wǎng)絡(luò)參數(shù)設(shè)置與該模型中門控循環(huán)單元部分的參數(shù)設(shè)置基本一致。輸出節(jié)點(diǎn)改為10個(gè),代表10種狀態(tài)。同樣使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,損失函數(shù)選擇交叉熵?fù)p失函數(shù)。
3.3.3 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)使用2層卷積層和2層全連接層。第1層卷積層的卷積核尺寸大小為5,深度為256;第2層卷積層的卷積核尺寸大小為3,深度為32。2層池化層的尺寸大小為2,步長(zhǎng)為2。2層全連接層的節(jié)點(diǎn)數(shù)分別為512,10。其余參數(shù)設(shè)置與門控循環(huán)單元保持一致。
3.3.4 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)使用3層全連接層:第1層的節(jié)點(diǎn)個(gè)數(shù)設(shè)置為1 024,第2層的節(jié)點(diǎn)個(gè)數(shù)設(shè)置為512,第3層為輸出層,輸出節(jié)點(diǎn)為10(即10種狀態(tài))。前2層的激活函數(shù)均為ReLU函數(shù),第3層的激活函數(shù)為softmax函數(shù)。其余參數(shù)設(shè)置與門控循環(huán)單元保持一致。
使用不同工況下的數(shù)據(jù)進(jìn)行試驗(yàn),結(jié)果見表3,由表可知:各模型的準(zhǔn)確率均在96%以上,說明深度學(xué)習(xí)模型具有極強(qiáng)的故障診斷能力;本文所提GRU+CAPS模型與CAPS,GRU,CNN模型的平均準(zhǔn)確率相差無幾,分別只高出0.15%,0.35%,0.06%,平均比DNN模型的準(zhǔn)確率高出2.59%。因此,在原始信號(hào)下,本文所提模型的優(yōu)勢(shì)并不大。
選用高斯白噪聲作為噪聲干擾,為更好地驗(yàn)證模型的抗噪能力,在訓(xùn)練集中使用原始信號(hào),在驗(yàn)證集和測(cè)試集中加入不同信噪比的高斯白噪聲。
2hp工況下0.178 mm內(nèi)圈故障軸承的時(shí)域信號(hào)如圖4所示,當(dāng)信噪比為0時(shí),噪聲污染下的加噪信號(hào)與原始信號(hào)相比發(fā)生了很大變化,從中提取故障特征的難度很大。因此,在噪聲環(huán)境下仍能保持較高的準(zhǔn)確率對(duì)于模型尤為重要。
圖4 內(nèi)圈故障軸承的原始信號(hào)及加噪信號(hào)
使用2hp工況下的數(shù)據(jù)進(jìn)行試驗(yàn),分別在驗(yàn)證集和測(cè)試集中加入0~8 dB的高斯白噪聲信號(hào),不同模型的識(shí)別率如圖5所示。
圖5 不同噪聲狀態(tài)下各模型的準(zhǔn)確率
由圖5可知:噪聲環(huán)境下,CNN和DNN的診斷能力明顯低于其他3種模型,在4 dB及以下的噪聲環(huán)境中準(zhǔn)確率下滑較為嚴(yán)重,抗噪能力較弱,GRU的抗噪性則比CNN和DNN好一些;在0~8 dB的噪聲環(huán)境下,本文所提模型的準(zhǔn)確率在5種模型中最高,特別是當(dāng)信噪比為0 dB時(shí),GRU,CNN,DNN的準(zhǔn)確率均出現(xiàn)了大幅度的下降,而本文所提GRU+CAPS模型的準(zhǔn)確率仍可達(dá)到94.375%,分別比CAPS,GRU,CNN,DNN高出4.17%,7.81%,28.33%,24.17%。這說明與標(biāo)量相比,向量能提取到更多的細(xì)節(jié)特征,在噪聲污染較大的環(huán)境中仍能保持較高的準(zhǔn)確率,而且將GRU作為CAPS的輸入時(shí)能更充分地提取故障特征。
0.534 mm內(nèi)圈故障軸承在不同負(fù)載工況下的時(shí)域信號(hào)如圖6所示,同一故障在不同負(fù)載工況下的信號(hào)波形也存在很大差異,會(huì)導(dǎo)致模型無法區(qū)分提取到的特征,從而影響識(shí)別準(zhǔn)確率,因此對(duì)變負(fù)載環(huán)境下的故障診斷也具有重要意義。
圖6 0.534 mm內(nèi)圈故障軸承在不同負(fù)載工況下的時(shí)域信號(hào)
分別將0hp+1hp,0hp+2hp,1hp+2hp工況下的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),對(duì)應(yīng)的 2hp,1hp,0hp工況下的數(shù)據(jù)作為驗(yàn)證和測(cè)試數(shù)據(jù)進(jìn)行試驗(yàn),結(jié)果如圖7所示,由圖可知:當(dāng)負(fù)載發(fā)生改變時(shí),DNN的準(zhǔn)確率下降最快,3種情況下的準(zhǔn)確率都不足60%,說明DNN的泛化能力較弱;CNN在變負(fù)載工況下具有較高的準(zhǔn)確率,但抗噪能力較弱;DNN和CNN這2種模型可能難以適應(yīng)復(fù)雜多變的環(huán)境,而其他3種模型在噪聲環(huán)境和變負(fù)載工況下都具有較高的準(zhǔn)確率,尤其是本文所提GRU+CAPS模型,在3種情況下均能達(dá)到90%的準(zhǔn)確率,平均比CAPS,GRU,CNN高出5.72%,1.93%,4.15%,充分說明該模型具有較好的泛化能力,可以適應(yīng)一些復(fù)雜多變的工作環(huán)境。
圖7 不同負(fù)載工況下各模型的準(zhǔn)確率
試驗(yàn)數(shù)據(jù)來源于如圖8所示的實(shí)驗(yàn)室電動(dòng)機(jī)數(shù)據(jù)采集平臺(tái),選用電動(dòng)機(jī)驅(qū)動(dòng)端軸向的振動(dòng)信號(hào)作為試驗(yàn)數(shù)據(jù),信號(hào)采樣頻率為10 kHz。故障類型及數(shù)據(jù)規(guī)格見表4。
圖8 數(shù)據(jù)采集平臺(tái)
表4 數(shù)據(jù)集規(guī)格
由于深度學(xué)習(xí)模型需要大量的數(shù)據(jù)支撐,當(dāng)訓(xùn)練樣本過少時(shí)會(huì)陷入過擬合狀態(tài),從而影響識(shí)別結(jié)果,而受各種因素的影響,該數(shù)據(jù)采集平臺(tái)所采集到的數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。因此,通過重疊采樣的方法進(jìn)行數(shù)據(jù)增強(qiáng),如圖9所示。通過滑動(dòng)一定的步長(zhǎng)得到新的數(shù)據(jù),當(dāng)信號(hào)長(zhǎng)度一定時(shí),若滑動(dòng)步長(zhǎng)太小,可能會(huì)造成大量冗余信息;若滑動(dòng)步長(zhǎng)太大,樣本數(shù)量可能依然不足。試驗(yàn)中設(shè)置滑動(dòng)步長(zhǎng)為99,最后得到總的樣本數(shù)為8 000,即正常狀態(tài)和7種故障狀態(tài)的樣本各1 000,對(duì)應(yīng)標(biāo)簽為0~7。同樣將8 000個(gè)數(shù)據(jù)以7∶2∶1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,即包含5 600個(gè)訓(xùn)練樣本、1 600個(gè)驗(yàn)證樣本和800個(gè)測(cè)試樣本。
圖9 重疊采樣
使用GRU+CAPS,CAPS,GRU,CNN,DNN模型分別在原始狀態(tài)和加噪狀態(tài)下進(jìn)行試驗(yàn),除所有樣本的訓(xùn)練次數(shù)設(shè)置為40外,其余參數(shù)設(shè)置與之前試驗(yàn)保持一致。原始狀態(tài)下的結(jié)果見表5,加噪狀態(tài)下的結(jié)果如圖10所示。
表5 原始狀態(tài)下各模型的準(zhǔn)確率
圖10 加噪狀態(tài)下不同模型的準(zhǔn)確率
由表5和圖10可知:在原始狀態(tài)下,GRU+CAPS與CNN模型的準(zhǔn)確率相差無幾,比CAPS,GRU和DNN的準(zhǔn)確率分別高出0.25%,9.64%和5.60%,充分體現(xiàn)了該模型具有較好的通用性,也從另一方面說明GRU和DNN模型的通用性較弱;在加噪聲狀態(tài)下,GRU,CNN,DNN的準(zhǔn)確率都出現(xiàn)了大幅度下降,而GRU+CAPS模型在0 dB噪聲環(huán)境下的準(zhǔn)確率仍能保持在83.07%,在2 dB及以上的噪聲環(huán)境下均能保持90%以上的準(zhǔn)確率,平均比CAPS,GRU,CNN,DNN的準(zhǔn)確率高出0.91%,16.3%,15.1%,9.24%,更加印證了向量能夠提取到更多的細(xì)節(jié)特征,從而提高模型的準(zhǔn)確率。
提出了一種基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)的滾動(dòng)軸承故障診斷方法,該算法通過門控循環(huán)單元快速提取特征,再經(jīng)過膠囊網(wǎng)絡(luò)提取細(xì)節(jié)特征并進(jìn)一步得到分類結(jié)果。在對(duì)原始數(shù)據(jù)進(jìn)行試驗(yàn)的基礎(chǔ)上,在噪聲環(huán)境、變負(fù)載環(huán)境和其他數(shù)據(jù)集下均進(jìn)行了試驗(yàn),與CAPS,GRU,CNN,DNN等深度學(xué)習(xí)模型的對(duì)比試驗(yàn)充分說明了該模型具有較好的抗噪能力、泛化能力和通用性。同時(shí),在研究過程中發(fā)現(xiàn)膠囊網(wǎng)絡(luò)處理大量數(shù)據(jù)時(shí)所耗費(fèi)的時(shí)間較長(zhǎng),因此如何減少膠囊網(wǎng)絡(luò)的訓(xùn)練時(shí)間是下一步研究的重點(diǎn)。