朱繼揚,孫虎兒,張?zhí)煸?趙 揚,白曉藝
(中北大學 機械工程學院,山西 太原 030051)
滾動軸承是機械系統(tǒng)的重要零部件,其是否能健康運行對機械系統(tǒng)的平穩(wěn)運行具有重大的影響,故對其開展故障診斷和狀態(tài)監(jiān)測意義重大。
隨著深度學習的不斷發(fā)展,基于深度學習的軸承智能故障診斷方法得到了廣泛應用,并且已經(jīng)取得不少的成果[1,2]。在深度學習的實際應用中,因為機械設備工作條件的改變,故障樣本的分布特征往往會發(fā)生變化;并且對于每個不同工況,幾乎不可能收集到足夠多的標記故障樣本,這極大地限制了基于深度學習的故障診斷的泛化能力。
遷移學習是一種挖掘不同數(shù)據(jù)分布之間相似性的方法,它可以將源域中的知識轉(zhuǎn)移到目標域中[3]。
域適應是遷移學習中的一個重要概念[4]。域適應的主要目的是,通過比對源域數(shù)據(jù)和目標域數(shù)據(jù)的特征分布,盡可能多地學習源域中帶標簽數(shù)據(jù)的隱藏信息,幫助完成目標域中的任務[5,6]。
LI Xiang等人[7]提出了一種基于自編碼器網(wǎng)絡的深度域自適應方法,實現(xiàn)了跨機遷移學習的故障診斷目的。HAN Te等人[8]將邊緣分布適應擴展到聯(lián)合分布適應,該方法能有效地利用源域中有標記的數(shù)據(jù),對無標記的目標域進行遷移學習故障診斷。SHAO Jia-jie等人[9]利用了短時傅里葉變換,將原始數(shù)據(jù)轉(zhuǎn)換為時頻圖像,采用最大平均差異和域混淆函數(shù)對其進行了域自適應,提取了兩個域之間的域不變特征,實現(xiàn)了跨域故障診斷目的。LIAO Yi-xiao等人[10]利用實例加權(quán)動態(tài)最大平均偏差進行了動態(tài)分布適應,并且進一步衡量了每個類別條件分布的所占比例,而且考慮目標域中軟偽標簽的置信度,將源域和目標域的遷移特征進行了對齊。SHEN Chang-qing等人[11]提出了一種動態(tài)聯(lián)合分布對齊網(wǎng)絡,以此來動態(tài)定量地評估邊緣分布和條件分布的相對重要性,同時使用軟偽標簽更準確地度量了不同域之間的條件分布差異。
但是以上這些方法都是根據(jù)單個結(jié)構(gòu)進行表示分布特征提取,而該特征分布只包含部分信息。
大多數(shù)滾動軸承數(shù)據(jù)都是一維時間序列或頻率序列。與直接使用原始的一維數(shù)據(jù)相比,將原始的一維數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù),可能會導致故障診斷的效果較差[12]。如何利用一維卷積神經(jīng)網(wǎng)絡提取一維振動信號,進行遷移學習故障診斷是近年來業(yè)界的研究的熱點。
WANG Kai等人[13]提出了一維多尺度域自適應網(wǎng)絡,采用了特征自適應和分類器自適應兩種方法,以此來指導多尺度卷積神經(jīng)網(wǎng)絡對不同工況下的軸承故障進行診斷。HUO Chun-ran等人[14]提出了一種改進的自適應維數(shù)轉(zhuǎn)換卷積神經(jīng)網(wǎng)絡,通過該網(wǎng)絡,自適應地將一維振動信號轉(zhuǎn)化為二維矩陣特征,并采用分層交替遷移學習方法,對模型進行訓練。WANG Zhi-jian等人[15]建立了一種可對原始數(shù)據(jù)進行故障診斷的模型,即子域自適應遷移學習網(wǎng)絡,并提出了邊緣分布和條件分布偏差,以及網(wǎng)絡層之間的貢獻程度。ZHANG Rui-xin等人[16]使用一維輕量級卷積神經(jīng)網(wǎng)絡,從原始振動信號中快速提取了其高級特征,采用了LMMD擬合源域和目標域數(shù)據(jù)的概率分布,實現(xiàn)了故障分類目的。JIN Tong-tong等人[17]提出了一種多層自適應卷積神經(jīng)網(wǎng)絡,并以原始時間信號為輸入,將自適應歸一化批處理和多核最大均值差異相結(jié)合,提高了模型的域適應能力。LV Ming-zhu等人[18]提取了原始振動數(shù)據(jù)的可轉(zhuǎn)移特征,然后構(gòu)造了加權(quán)混合核函數(shù),將不同的可轉(zhuǎn)移特征映射到統(tǒng)一的特征空間,并動態(tài)評估了邊緣分布和條件分布的相對重要性;但是由于基于一維卷積神經(jīng)遷移網(wǎng)絡過于復雜,模型層數(shù)很高,參數(shù)很多,造成了模型整體性能較差。
為了解決上述問題,筆者以原始振動信號作為神經(jīng)網(wǎng)絡的輸入,通過多表示動態(tài)自適應(MRAN)算法多表示對齊可遷移的特征、自適應動態(tài)的衡量邊緣分布和條件分布相對重要性,從而構(gòu)建一種新的深度遷移模型,即一維多表示空洞動態(tài)自適應遷移網(wǎng)絡(1D MRDDATN),并在CWRU的滾動軸承數(shù)據(jù)集進行實驗驗證。
源域樣本個數(shù)為ns,目標域樣本個數(shù)為nt。源域與目標域的特征空間相等即xs=xt,種類相等即ys=yt。
設源域數(shù)據(jù)的分布為Ps(xs),目標域數(shù)據(jù)的分布為Pt(xt),但Ps(xs)≠Pt(xt),筆者提出一種深度自適應網(wǎng)絡,使源域的故障診斷知識能夠運用到目標域中,實現(xiàn)對目標域的故障診斷。
動態(tài)分布自適應(DDA)[19]2能夠定量地評估每個分布的相對重要性,并且很容易地融入到結(jié)構(gòu)風險最小化的框架中,以解決遷移學習的問題。
距離度量準則用于度量不同域間數(shù)據(jù)分布的差異,在遷移學習中起著重要作用。一般來說,MMD[20]通常用來測量不同數(shù)據(jù)之間的分布差值,它可以有效地測量兩個不同分布特征在可再生核希爾伯特空間中的距離。
邊緣分布的MMD距離如下:
(1)
式中:Ds—源域的樣本;Dt—目標域中的樣本。
條件分布的CMMD距離如下:
CMMD(Ds,Dt)=
(2)
為了更好地實現(xiàn)源域和目標域數(shù)據(jù)分布的動態(tài)適應性,筆者利用分布權(quán)重因子μ來動態(tài)調(diào)整兩個分布之間的距離,形成了動態(tài)分布距離(dynamically distributed distance,DDD),DDD的表達式如下:
DDD=(1-μ)MMDMarginal(Ds,Dt)+μWCMMD(Ds,Dt)
(3)
式中:μ∈[0,1],μ接近1時,說明源域與目標域的數(shù)據(jù)條件分布差異明顯;當μ接近0時,說明源域與目標域的數(shù)據(jù)邊緣分布差異明顯。
dM(Ds,Dt)=2(1-2ε(k))
(4)
式中:ε(k)—線性分類器在源域和目標域數(shù)據(jù)之間的誤差。
用dc來表示對應于類別c的條件分布距離,即:
dC(Dsc,Dtc)=2(1-2ε(k)c)
(5)
式中:Dsc—源域的第c類的樣本;Dtc—目標域的第c類的樣本。
最終,μ的表達式為:
(6)
最終,DDD的表達式為:
(7)
在深層神經(jīng)網(wǎng)絡中,為了增加感受野,且降低計算量,總要進行降采樣(pooling或conv)處理。降采樣后,雖然增加了感受野,但空間分辨率也降低了。
為了不丟失分辨率,又能擴大感受野,可以使用空洞卷積。一方面增大感受野,可以檢測較大的特征目標;另一方面提高分辨率,可以精確定位目標。
為了更全面地表示原始數(shù)據(jù),可以通過多表示的方法進行多種特征提取。通過不同卷積核卷積可以觀察到多種不同的特征,從而實現(xiàn)多表示的方法。
根據(jù)空洞卷積和多表示的思想,筆者提出了一維多表示空洞卷積神經(jīng)網(wǎng)絡(1D MRDCNN)。該網(wǎng)絡在低層特征中,使用卷積核較大的空洞卷積,然后采用CONCAT操作,融合不同大小卷積核所提取的特征;在高層特征中融合不同的較小卷積核卷積的特征,這樣可以更好地提取并區(qū)分不同類別數(shù)據(jù)的特征,增加網(wǎng)絡的特征表達能力。
1D MRDCNN的總體結(jié)構(gòu)如圖1所示。
圖1 1D MRDCNN網(wǎng)絡結(jié)構(gòu)
網(wǎng)絡結(jié)構(gòu)參數(shù)如表1所示。
表1 1D MRDCNN網(wǎng)絡結(jié)構(gòu)參數(shù)
1D MRDCNN由4個卷積層、1個全局平均池化層和1個全連接層組成。網(wǎng)絡模型的層數(shù)為6,總參數(shù)為5 664,可訓練的參數(shù)為5 584,不訓練的參數(shù)為80,為簡單輕量級的網(wǎng)絡模型??斩淳矸e中的dilation rate為在卷積核中填充dilation rate-1個0(表1中的dr為dilation rate)。
一些最新的深度遷移學習方法使用全局平均池化層的激活作為特征表示,然后對齊單個表示的分布。但是,只在單一結(jié)構(gòu)上做特征對齊也只能關注到部分信息。
由于不同的結(jié)構(gòu)可以從特征中提取出不同的表示,筆者使用多個子結(jié)構(gòu),結(jié)合DDA方法和多表示自適應(MRA)[21]4方法,構(gòu)成多表示動態(tài)自適應結(jié)構(gòu)(MRDAM)。MRDAM替換了1D MRDCNN的全局平均池化層形成了1D MRDDATN。
1D MRDDATN網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 1D MRDDATN網(wǎng)絡結(jié)構(gòu)
MRDAM有3個各不相同的子結(jié)構(gòu),且每個子結(jié)構(gòu)上的邊緣分布、條件分布、μ都不一樣。分類器包含一個全連接層和一個SoftMax層,全連接層主要用于對多個表示進行重組,SoftMax層用于輸出預測標簽;
MRDAM是一個多表示動態(tài)特征提取器,與單一表示相比,多表示可以涵蓋更多的信息,而且可以將每個表示進行動態(tài)分布對齊;最小化多表示的分布差異,以便獲得更好的性能。
1D MRDDATN可以從低像素特征中提取并對齊多個表示分布,而且可以動態(tài)地衡量每個子結(jié)構(gòu)的邊緣分布和條件分布的相對重要性。
模型的目標函數(shù)分為2個部分,第一部分是對源域數(shù)據(jù)的分類損失,即交叉熵損失;第二部分為源域和目標域在MRDAM的多表示動態(tài)分布距離損失之和。
在數(shù)學上,源域的交叉熵損失函數(shù)表達式為:
(8)
交叉熵損失公式為:
(9)
最終,目標函數(shù)為:
(10)
式中:μi—第i個子結(jié)構(gòu)中分布權(quán)衡因子μ。
λ是大于0的超參數(shù),其公式為:
(11)
式中:steps—迭代的總次數(shù);step—迭代過程中當前的訓練周期數(shù)。
網(wǎng)絡模型訓練完成后,由于1D MRDDATN中存在與式(8)相對應的算法代碼,模型可以區(qū)分源域中不同標簽的樣本。同時,在目標函數(shù)中加入與式(7)相對應的算法代碼進行優(yōu)化,使得目標域和源域的特征分布變得相似。
因此,1D MRDDATN可以準確預測目標域中無標記的樣本。
此處的實驗平臺為Windows10 64位操作系統(tǒng)、內(nèi)存為16 GB,顯卡為GTX1060 GPU (NVIDIA),編程實現(xiàn)語言為Python,深度學習框架為PyTorch。
由于神經(jīng)網(wǎng)絡輸出層激活函數(shù)為SoftMax,則損失函數(shù)為分類交叉熵(categorical_crossentropy)損失函數(shù)。1D MRDDATN選用的優(yōu)化器為Adam優(yōu)化器,訓練的Batch Size為100,Epoch設置為50,學習率lr設置為動態(tài)學習率衰減,初始值為0.01,衰減指數(shù)為0.88。
筆者使用的數(shù)據(jù)集來源于美國凱斯西儲大學(CWRU)的軸承數(shù)據(jù)中心[22]。
滾動軸承故障模擬實驗臺如圖3所示。
圖3 滾動軸承故障模擬實驗臺實物圖
實驗臺由電機、扭矩傳感器/編碼器、測功機和控制電子設備組成。該實驗驗證使用了采樣頻率為48 kHz的驅(qū)動端軸承的故障數(shù)據(jù)。
遷移學習任務設置如表2所示。
表2 CWRU數(shù)據(jù)集遷移學習任務設置
實驗采集了0 HP、1 HP、2 HP和3 HP這4種工況下的故障數(shù)據(jù),對應的轉(zhuǎn)速分別為1 797 r/min、1 772 r/min、1 750 r/min和1 730 r/min,因此,全部數(shù)據(jù)可以被分為4個數(shù)據(jù)集,即A,B,C,D。
在CWRU數(shù)據(jù)集中有3種故障狀態(tài),分別為內(nèi)圈(IR)故障、滾動體(Ball)故障、外圈(OR)故障。上述故障均通過電火花機(EDM)加工而成,每一種故障類型根據(jù)損傷直徑分為3種不同程度故障類型,損傷直徑分別為0.177 8 mm,0.355 6 mm和0.533 4 mm(0.025 4 mm=1 mil)。
數(shù)據(jù)集類別的標簽設置如表3所示。
表3 CWRU數(shù)據(jù)集類別的標簽設置
在每個數(shù)據(jù)集中,數(shù)據(jù)都包括健康(Health)數(shù)據(jù)和3種故障數(shù)據(jù),而每種故障數(shù)據(jù)包含3類,則標簽共有10類。
在48 kHz采樣頻率下,每類軸承狀態(tài)的信號長度大約為480 000。滾動軸承的最低轉(zhuǎn)速為1 730 r/min,在一個轉(zhuǎn)動周期下采集到的時間序列長度大約為1 665。以1 665作為最短樣本長度,則一類信號序列可以分割為288個樣本。由于每個數(shù)據(jù)集共有10類軸承狀態(tài),則每個數(shù)據(jù)集共有2 880個樣本。
在每次實驗中,筆者分別從4個數(shù)據(jù)集中選擇2個不同的數(shù)據(jù)集作為源域和目標域,則一共有12組遷移任務。在跨域任務中,A→B表示數(shù)據(jù)集A為源域,數(shù)據(jù)集B為目標域。
筆者將該模型與深度遷移學習方法(deep domain confusion[23],DDC)、深度適應網(wǎng)絡(deep adaptation network[24],DAN)、深度相關對齊領域自適應(correl-ation alignment for deep domain adaptation[25],D-CORAL)、動態(tài)分布領域自適應網(wǎng)絡(dynamic distribu-tion adapt-ation network,DDAN[19]6)、多表示的領域自適應網(wǎng)絡(multi-representation adaptation network,MRAN[21]6)進行對比,并采用了整體分類準確率來評估這些方法的性能,對每次診斷任務運行5次,并求得當次任務準確率的平均值,最終獲得每種方法在12組遷移任務中的平均準確率。
6種深度遷移學習方法在多組遷移任務的預測準確率,如表4所示。
表4 模型在多組遷移任務的預測準確率(%)
由表4可以看出:深度遷移學習方法都取得了80%以上的準確率,這說明深度遷移模型可以很好地從源域數(shù)據(jù)中學習故障信息,幫助模型在目標域獲得較高的故障診斷精度;傳統(tǒng)的只考慮邊緣分布的方法中,DDC、DAN、D-CORAL的準確率都為80%~90%,而考慮邊緣和條件分布的DDA和只考慮條件分布的MRA的平均準確率比只考慮邊緣分布的方法準確率高,證明了條件分布對整體數(shù)據(jù)分布有重要的影響;1D MRDDATN對于每組遷移任務的預測準確率均在96%以上,平均準確率在98%以上;而DDA和MRA的平均準確率都比1D MRDDATN低,證明了MRDA方法的有效性。
6種遷移學習網(wǎng)絡模型完成一次總訓練周期的運行時間,如表5所示。
表5 遷移學習方法運行時間
深度學習問題追求的目標都可以分為兩個階段:(1)性能;(2)效率。
在模型性能最強、準確率最高的前提下,1D MRDDATN雖然計算效率稍微下降,但與其他的遷移學習方法相比,其整體性能最強。
為了直觀地驗證所提方法的有效性,筆者以任務B→C為例,利用混淆矩陣分析這6種方法在具體類別上的表現(xiàn)差異。
6種遷移學習方法混淆矩陣如圖4所示。
圖4 6種遷移學習方法混淆矩陣對比
從圖4的混淆矩陣可以看出:筆者所提出的1D MRDDATN對絕大多數(shù)類別的預測準確率都比其他方法高,每個類別的預測準確率都不低于96%,而其他的方法至少在一類上的預測準確率低于90%。
總體來看,1D MRDDATN對每種故障類型的預測都能取得不錯的效果。
同樣,以任務B→C為例,筆者使用t-SNE[26]技術將全連接層的特征映射到二維空間。
6種遷移學習方法特征可視化的結(jié)果如圖5所示。
圖5 6種遷移學習方法特征可視化對比圓圈——源域特征;三角形——目標域特征;不同顏色代表不同的類別
從圖5中可以看出:DDC、DAN和D-CORAL方法在源域?qū)W習的分類模型在目標域上未能取得很好的效果;DDAN和MRAN方法對每種類型的數(shù)據(jù)特征在空間上具有很好的聚簇性,但是部分數(shù)據(jù)特征存在重疊現(xiàn)象[27,28];
1D MRDDATN使源域和目標域的分布更接近,減小源域和目標域的分布差異,增加不同類別之間的距離,獲得更好的聚類結(jié)果,這進一步證明了該方法的有效性。
在不同的工況下,要收集足夠多標記的滾動軸承故障樣本是非常困難的,為此,筆者基于域自適應的方法提出了1D MRDDATN。
該方法在CWRU數(shù)據(jù)集中與主流遷移學習方法進行了對比,結(jié)果表明,該方法平均預測精度最高,證明了所提出的方法在不同工況下滾動軸承故障診斷的有效性。
研究結(jié)果表明:
(1)基于DDA方法,利用多表示結(jié)構(gòu)和一維空洞卷積,構(gòu)成了輕量級1D MRDDATN。通過對比實驗,驗證了該方法具備更高的準確率;
(2)采用滾動軸承的原始振動信號作為1D MRDDATN的輸入,避免了一維振動數(shù)據(jù)的預處理轉(zhuǎn)換,滿足了端到端學習的需求;
(3)MRDAM利用多個子結(jié)構(gòu)動態(tài)對齊源域和目標域的多個表示分布,MRDA可以自適應評估每個子結(jié)構(gòu)上邊緣分布和條件分布的相對重要性,有效地實現(xiàn)了滾動軸承故障診斷的目的。
上述研究中,筆者研究的是同一設備不同工況下進行遷移學習故障診斷的方法,沒有考慮跨設備等復雜工況。因此,在后續(xù)的工作中,筆者將針對跨設備、變工況等方面展開故障診斷研究。