陳博戩,沈長(zhǎng)青,石娟娟,朱忠奎,馮毅雄
(1.蘇州大學(xué) 軌道交通學(xué)院,江蘇 蘇州 215131;2.浙江大學(xué) 流體動(dòng)力與機(jī)電系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,杭州 310027)
故障診斷已經(jīng)成為現(xiàn)代工業(yè)系統(tǒng)中不可缺少的技術(shù)[1]。近年來(lái),基于深度學(xué)習(xí)的故障診斷方法得到了空前的發(fā)展[2-4]。基于深度學(xué)習(xí)的軸承等關(guān)鍵機(jī)械部件故障診斷方法往往要求各故障類型的足量數(shù)據(jù)且訓(xùn)練集與測(cè)試集同分布;然而,在實(shí)際應(yīng)用場(chǎng)景中,軸承存在不同的故障模式和故障程度,即對(duì)于診斷模型而言,雖然已經(jīng)學(xué)習(xí)了某些故障模式和程度的診斷知識(shí),但仍要面臨新診斷需求下存在故障類型增量,需要進(jìn)一步提升模型泛化能力的問(wèn)題。受限于深度神經(jīng)網(wǎng)絡(luò)自身的特點(diǎn),深度故障診斷模型在學(xué)習(xí)新數(shù)據(jù)時(shí)會(huì)遺忘已學(xué)習(xí)的舊知識(shí),即現(xiàn)有模型直接學(xué)習(xí)新的故障類型將導(dǎo)致對(duì)舊故障類型的診斷性能不佳,這種現(xiàn)象被稱為災(zāi)難性遺忘[5];而收集所有已知故障類型的數(shù)據(jù)來(lái)重新訓(xùn)練模型的成本過(guò)高甚至難以實(shí)現(xiàn):因此,引入終身學(xué)習(xí)來(lái)克服深度學(xué)習(xí)模型的災(zāi)難性遺忘,持續(xù)、增量地積累和遷移診斷知識(shí),從而建立一個(gè)泛化能力更強(qiáng)的診斷模型。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,已有的一些對(duì)克服災(zāi)難性遺忘的研究被稱為終身學(xué)習(xí)、持續(xù)學(xué)習(xí)或增量學(xué)習(xí)[6]。文獻(xiàn)[7]提出了增量分類器和表征學(xué)習(xí)(Incremental Classifier and Representation Learning,iCaRL),首先提出了基于典例的終身學(xué)習(xí)方法并將其與知識(shí)蒸餾[8]相結(jié)合。文獻(xiàn)[9]將終身學(xué)習(xí)的一些方法用于小樣本學(xué)習(xí),但忽略了終身學(xué)習(xí)需解決的關(guān)鍵問(wèn)題,即災(zāi)難性遺忘。然而,基于終身學(xué)習(xí)的故障診斷方法的研究還很少。遷移學(xué)習(xí)和元學(xué)習(xí)是與終身學(xué)習(xí)有緊密聯(lián)系的學(xué)習(xí)范式[10],在故障診斷領(lǐng)域是熱點(diǎn)話題:文獻(xiàn)[11]提出了一種用于電機(jī)軸承和齒輪箱故障診斷的遷移方法,文獻(xiàn)[12]提出了一種基于度量的元學(xué)習(xí)模型,以實(shí)現(xiàn)小樣本的故障診斷。遷移學(xué)習(xí)、元學(xué)習(xí)和終身學(xué)習(xí)都試圖通過(guò)在任務(wù)之間遷移知識(shí)來(lái)幫助目標(biāo)任務(wù)學(xué)習(xí),但遷移學(xué)習(xí)和元學(xué)習(xí)僅關(guān)注目標(biāo)任務(wù)的性能,而終身學(xué)習(xí)則要求模型在所有已學(xué)習(xí)任務(wù)上都有良好的表現(xiàn)?;诮K身學(xué)習(xí)的故障診斷方法可以不斷學(xué)習(xí)新的故障類型,減少訓(xùn)練成本并且不斷積累、豐富知識(shí),從而提高診斷模型的可靠性和泛化能力。因此,研究基于終身學(xué)習(xí)范式的故障類型增量的故障診斷具有十分重要的意義。
本文提出了一種新的基于終身學(xué)習(xí)的軸承故障診斷方法(Lifelong Learning Based Bearing Fault Diagnosis Method,LLBFDM),用于具有故障類型增量的軸承故障診斷。LLBFDM基于一種高效、流行的終身學(xué)習(xí)方法iCaRL,為克服iCaRL存在的災(zāi)難性遺忘并解決知識(shí)保留(穩(wěn)定性)和知識(shí)學(xué)習(xí)(可塑性)困境[13],本文提出了雙分支自適應(yīng)聚合殘余網(wǎng)絡(luò)(Dual-branch Adaptive Aggregation Residual Networks,DAARN),通過(guò)自適應(yīng)聚合權(quán)重加權(quán)聚合DAARN中穩(wěn)定分支和動(dòng)態(tài)分支平衡模型的穩(wěn)定性與可塑性,使用雙級(jí)優(yōu)化程序優(yōu)化聚合權(quán)重和模型參數(shù),并通過(guò)一個(gè)具有故障類型增量的軸承診斷案例驗(yàn)證本方法的有效性。
終身學(xué)習(xí)是通過(guò)模仿人類學(xué)習(xí)而開(kāi)發(fā)的一種高效的學(xué)習(xí)模型,以實(shí)現(xiàn)在一系列連續(xù)的任務(wù)中持續(xù)地學(xué)習(xí)。終身學(xué)習(xí)模型可以像人類一樣提取并保留在一系列訓(xùn)練任務(wù)中逐步出現(xiàn)的有效信息,并利用這些信息幫助學(xué)習(xí)新的任務(wù)。如圖1所示,終身學(xué)習(xí)有2個(gè)主要問(wèn)題:災(zāi)難性遺忘和穩(wěn)定性-可塑性困境。
圖1 終身學(xué)習(xí)中的主要問(wèn)題
終身學(xué)習(xí)的過(guò)程主要包括兩方面:知識(shí)遷移和知識(shí)積累。在終身學(xué)習(xí)中,學(xué)習(xí)一項(xiàng)新的任務(wù)相當(dāng)于是對(duì)模型進(jìn)行微調(diào),這也是遷移學(xué)習(xí)中常用來(lái)遷移知識(shí)的方法。然而,單純的微調(diào)無(wú)法積累知識(shí),模型將失去完成先前已學(xué)習(xí)任務(wù)的能力。這種在先前已學(xué)習(xí)任務(wù)上性能突然斷崖式的下降被稱為災(zāi)難性遺忘。
終身學(xué)習(xí)的另一個(gè)主要問(wèn)題是穩(wěn)定性-可塑性困境。終身學(xué)習(xí)模型應(yīng)該在克服災(zāi)難性遺忘的基礎(chǔ)上,維持穩(wěn)定性和可塑性之間的平衡,以實(shí)現(xiàn)對(duì)新任務(wù)敏感的同時(shí),對(duì)舊任務(wù)的表現(xiàn)不產(chǎn)生破壞性的干擾;然而,終身學(xué)習(xí)模型很難在保持可塑性的同時(shí)實(shí)現(xiàn)良好的穩(wěn)定性。穩(wěn)定性-可塑性困境是對(duì)終身學(xué)習(xí)發(fā)展的一個(gè)新挑戰(zhàn)。
已經(jīng)提出的關(guān)于終身學(xué)習(xí)的方法可以分為三類:正則化方法、知識(shí)重放和參數(shù)隔離。這些方法通??梢越M合使用以獲得令人滿意的性能。
(1)
式中:Pc為類c的樣本數(shù)量;F為特征提取。
假設(shè)要選取t個(gè)典例,對(duì)于d=1,…,t,典例e為
(2)
ε=(e1,e2,…,et)。
(3)
在第n個(gè)階段,典例ε0:n-1={ε0,ε1,…,εn-1}和訓(xùn)練數(shù)據(jù)Dn共同訓(xùn)練模型Θn-1得到Θn,接著篩選典例εn。
知識(shí)蒸餾通過(guò)約束參數(shù)的更新方向以克服災(zāi)難性遺忘[15],在第n階段,分類損失為常用的交叉熵分類損失函數(shù),可表示為
(4)
(5)
綜上,總的損失函數(shù)為
(6)
LLBFDM的終身學(xué)習(xí)過(guò)程分為初始階段和n個(gè)增量階段。LLBFDM由3個(gè)主要部分組成:數(shù)據(jù)預(yù)處理模塊、特征提取器F和分類器G。在數(shù)據(jù)預(yù)處理模塊中,故障的振動(dòng)信號(hào)通過(guò)快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)轉(zhuǎn)換成頻域信號(hào),然后將一維頻域信號(hào)轉(zhuǎn)換為二維信號(hào)。這個(gè)模塊在所有階段都是相同的,而其他2個(gè)部分在初始階段和增量階段是不同的。
DAARN基于ResNet[16]結(jié)構(gòu),ResNet廣泛用于圖像識(shí)別領(lǐng)域,由殘差塊組成。本方法遵循iCaRL的設(shè)置,采用ResNet-32作為L(zhǎng)LBFDM的骨干網(wǎng)絡(luò)。ResNet-32的結(jié)構(gòu)見(jiàn)表1。
表1 ResNet-32的結(jié)構(gòu)
在初始階段,特征提取器F0的結(jié)構(gòu)是標(biāo)準(zhǔn)的ResNet-32。由于故障類型的遞增,在初始階段得到的模型不能可靠地診斷新故障,因此在增量學(xué)習(xí)階段采用DAARN,以獲得更可靠的診斷模型。
在終身學(xué)習(xí)中,學(xué)習(xí)一個(gè)新任務(wù)相當(dāng)于對(duì)前一個(gè)任務(wù)學(xué)習(xí)得到的模型進(jìn)行微調(diào)。微調(diào)一般有2種: 1)對(duì)所有網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),稱為參數(shù)級(jí)微調(diào);2)凍結(jié)部分網(wǎng)絡(luò),對(duì)其余網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),稱為部分微調(diào)。如圖2a所示,以三通道卷積神經(jīng)網(wǎng)絡(luò)為例,Q為神經(jīng)元數(shù)量,參數(shù)級(jí)微調(diào)更新了模型的所有參數(shù)。受文獻(xiàn)[17]的啟發(fā),本文引入一種新的微調(diào)方式,稱為神經(jīng)元級(jí)微調(diào),如圖2b所示。神經(jīng)元級(jí)微調(diào)凍結(jié)了模型Θ0的所有參數(shù),并為每個(gè)神經(jīng)元增加了一個(gè)新的權(quán)重參數(shù)。神經(jīng)元級(jí)微調(diào)可以減少模型可學(xué)習(xí)參數(shù)的數(shù)量,從而避免過(guò)度擬合,并通過(guò)凍結(jié)初始模型的參數(shù)防止災(zāi)難性遺忘。
圖2 DAARN的結(jié)構(gòu)
xk=(Wk⊙βk)xk-1,
(7)
式中:⊙為哈達(dá)瑪積。
如圖2c所示,DAARN由2個(gè)不同的ResNet-32分支組成:一個(gè)動(dòng)態(tài)分支和一個(gè)穩(wěn)定分支。每個(gè)分支由3層相同類型的殘差塊組成,即3個(gè)動(dòng)態(tài)塊(橙色)或3個(gè)穩(wěn)定塊(藍(lán)色)。動(dòng)態(tài)塊的訓(xùn)練為參數(shù)級(jí)微調(diào),穩(wěn)定塊的訓(xùn)練為神經(jīng)元級(jí)微調(diào)。在完成初始階段訓(xùn)練后,特征提取器F0被用來(lái)初始化動(dòng)態(tài)分支,并在穩(wěn)定分支中凍結(jié)。
用α和β分別表示動(dòng)態(tài)分支和穩(wěn)定分支的可學(xué)習(xí)參數(shù)。α可以動(dòng)態(tài)適應(yīng)新任務(wù),β則是軟固定的,以盡可能地保留先前學(xué)習(xí)任務(wù)的知識(shí)。引入自適應(yīng)聚合權(quán)重ω以平衡模型的可塑性和穩(wěn)定性,ωα和ωβ分別代表動(dòng)態(tài)塊和穩(wěn)定塊的自適應(yīng)聚合權(quán)重。輸入的故障數(shù)據(jù)x[0]通過(guò)3個(gè)殘差塊層獲得特征h。在第n個(gè)殘差層的動(dòng)態(tài)塊和穩(wěn)定塊的特征提取可表示為
(8)
式中:W0為從初始階段得到并凍結(jié)的神經(jīng)元權(quán)重;f為單個(gè)殘差塊的特征提取。
第n個(gè)殘差塊層提取的特征可以表示為
(9)
(10)
(10)式的上半部分是上層問(wèn)題,下半部分是下層問(wèn)題。在下層問(wèn)題中,模型參數(shù)Θn由所有可用數(shù)據(jù)ε0:n-1∪Dn進(jìn)行更新,即
[Θn]←[Θn]-γ1?[Θn]Ln(Θn,ωn;ε0:n-1∪Dn),
(11)
式中:γ1為下層問(wèn)題的學(xué)習(xí)率。
(12)
式中:γ2為上層問(wèn)題的學(xué)習(xí)率。
輪對(duì)軸承故障數(shù)據(jù)采集試驗(yàn)平臺(tái)如圖3所示,試驗(yàn)臺(tái)大輪直徑為280 mm,小輪直徑為200 mm,V帶傳動(dòng)中小帶輪基準(zhǔn)直徑為95 mm,大帶輪基準(zhǔn)直徑為200 mm,傳動(dòng)比約為2.105。采用編碼器對(duì)轉(zhuǎn)速信號(hào)進(jìn)行測(cè)量,轉(zhuǎn)軸每轉(zhuǎn)一圈編碼器可以發(fā)出600個(gè)脈沖。三軸加速度傳感器中的x,y,z方向分別是轉(zhuǎn)軸豎直方向、水平方向和軸向。用NI系統(tǒng)控制變頻器控制電動(dòng)機(jī)轉(zhuǎn)速,電流傳感器測(cè)量變頻器電流。
圖3 自制輪對(duì)軸承故障數(shù)據(jù)采集試驗(yàn)平臺(tái)
試驗(yàn)軸承型號(hào)為NJ208E(外圈雙擋邊,內(nèi)圈單擋邊圓柱滾子軸承),設(shè)置直徑分別為0.2,0.3,0.4 mm的故障,每種尺寸包含內(nèi)圈故障、外圈故障、滾子故障、內(nèi)圈+滾子故障、外圈+滾子故障、內(nèi)圈+外圈故障、內(nèi)圈+外圈+滾子故障7種故障位置,分別用I,O,B,IB,OB,IO,IOB表示,共21種不同的故障類型。試驗(yàn)轉(zhuǎn)速為400 r/min,采樣頻率為32 768 Hz,在2.4 kN載荷下使用測(cè)得的加速度信號(hào)構(gòu)建故障類型增量數(shù)據(jù)集。模型的每個(gè)診斷任務(wù)包含7種相同故障尺寸的故障類型,如I0.2,B0.2,O0.2,IB0.2,OB0.2,IO0.2,IOB0.2,作為初始診斷任務(wù);而I0.3,B0.3,O0.3,IB0.3,OB0.3,IO0.3,IOB0.3作為第1個(gè)增量診斷任務(wù)。每種故障類型由100個(gè)訓(xùn)練樣本,100個(gè)測(cè)試樣本。總計(jì)3個(gè)任務(wù),每次學(xué)習(xí)1個(gè)任務(wù)。
目前,基于終身學(xué)習(xí)的診斷方法的研究十分稀少,通過(guò)比較相關(guān)的非終身學(xué)習(xí)方法、最流行的終身學(xué)習(xí)方法和消融試驗(yàn)驗(yàn)證LLBFDM的有效性及優(yōu)越性,所有方法均使用ResNet-32作為骨干網(wǎng)絡(luò),詳細(xì)情況見(jiàn)表2:R1是用新故障類型的數(shù)據(jù)與所有已知故障類型的數(shù)據(jù)一起訓(xùn)練模型,通常用于多任務(wù)學(xué)習(xí),訓(xùn)練成本最高但結(jié)果也最理想,是終身學(xué)習(xí)表現(xiàn)的上界;R2是對(duì)整個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào),以說(shuō)明災(zāi)難性遺忘;R3凍結(jié)了初始階段訓(xùn)練得到的特征提取器,僅對(duì)分類器進(jìn)行微調(diào);M1是LLBFDM的基礎(chǔ),iCaRL并沒(méi)有使用全連接層作為分類器,而是使用了最近鄰分類器;M2引入了一系列的方法,如余弦歸一化分類器(Learning Unified Classifier Incrementally via Rebalancing,LUCIR),以克服災(zāi)難性遺忘[18];A1,A2用于驗(yàn)證雙分支結(jié)構(gòu)的必要性和重要性;A3用于驗(yàn)證自適應(yīng)聚合權(quán)重的有效性。
表2 對(duì)比方法
LLBFMD的超參數(shù)見(jiàn)表3:每個(gè)學(xué)習(xí)階段的學(xué)習(xí)率γ1初始化為0.1,學(xué)習(xí)率衰減因子設(shè)置為0.1,在第80和120個(gè)迭代時(shí)分別降低到0.01和0.001;學(xué)習(xí)率γ2也通過(guò)學(xué)習(xí)率衰減因子隨迭代次數(shù)下降;自適應(yīng)聚合權(quán)重ωα和ωβ被約束為ωα+ωβ=1;在使用含有溫度參數(shù)K的知識(shí)蒸餾損失函數(shù)的方法中,K被設(shè)置為2。在M1和M2中,未描述的參數(shù)被設(shè)置為默認(rèn)值,超參數(shù)的設(shè)置在所有試驗(yàn)中均相同。
表3 LLBFMD超參數(shù)設(shè)置
每個(gè)訓(xùn)練樣本有1 024個(gè)采樣點(diǎn),經(jīng)過(guò)數(shù)據(jù)預(yù)處理模塊后被重塑為3×32×32。每個(gè)故障類型的典例數(shù)固定為10個(gè),典例總數(shù)隨著診斷任務(wù)的增加而增加。每個(gè)方法都進(jìn)行5次重復(fù)試驗(yàn),并給出平均準(zhǔn)確率和標(biāo)準(zhǔn)差。
本試驗(yàn)旨在驗(yàn)證LLBFDM的有效性,為比較每種方法在克服災(zāi)難性遺忘和解決穩(wěn)定性-可塑性困境方面的能力,在完成每個(gè)階段的訓(xùn)練后,分別給出T0和所有已學(xué)習(xí)任務(wù)的診斷精度,結(jié)果見(jiàn)表4和表5。
表4 各方法在任務(wù)T0上的診斷精度
表5 各方法在所有已學(xué)習(xí)任務(wù)上的診斷精度
各方法在任務(wù)T0上的平均診斷精度及標(biāo)準(zhǔn)差可以反映出其克服災(zāi)難性遺忘的能力,由表4可知:R1的訓(xùn)練結(jié)果最理想;R2體現(xiàn)了神經(jīng)網(wǎng)絡(luò)在完成新任務(wù)的訓(xùn)練而不采取任何行動(dòng)后會(huì)發(fā)生的災(zāi)難性遺忘現(xiàn)象;R3表明即使凍結(jié)了特征提取器,診斷模型在完成新任務(wù)學(xué)習(xí)后仍會(huì)有一定程度的知識(shí)遺忘;隨著學(xué)習(xí)階段的增加,M1和M2在T0的診斷精度不斷下降,但與R2相比仍有較高的診斷精度,表明知識(shí)蒸餾與典例可以防止模型的災(zāi)難性遺忘;與M1,M2和A1,A2,A3相比,LLBFDM對(duì)T0的診斷在每個(gè)階段都取得了最高的精度,也是最接近R1的結(jié)果,克服災(zāi)難性遺忘的能力令人滿意,保持了診斷模型的可靠性。
各方法在所有已學(xué)習(xí)任務(wù)上的平均診斷精度及標(biāo)準(zhǔn)差可以反映出其解決穩(wěn)定性-可塑性困境的能力,由表5可知:R1是診斷性能的上限;R2由于災(zāi)難性遺忘而性能較差,其完成第1個(gè)增量階段后在所有學(xué)習(xí)任務(wù)T0:1上的混淆矩陣如圖4所示,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行參數(shù)級(jí)微調(diào)將導(dǎo)致對(duì)舊任務(wù)T0的災(zāi)難性遺忘,說(shuō)明深度神經(jīng)網(wǎng)絡(luò)缺乏有效保留舊任務(wù)記憶的能力;R3的結(jié)果說(shuō)明初始階段得到的特征提取器不適用于新任務(wù)的故障特征提??; M1和M2在第1階段和第2階段的準(zhǔn)確率持續(xù)下降,無(wú)法維持可靠的診斷精度,這是由于未考慮穩(wěn)定性-可塑性困境,不能維持可塑性和穩(wěn)定性的良好平衡以保持可靠的診斷精度;A1,A2分別用于驗(yàn)證穩(wěn)定分支和動(dòng)態(tài)分支的性能,由于穩(wěn)定分支的可學(xué)習(xí)參數(shù)比動(dòng)態(tài)分支少,A1的診斷精度在2個(gè)增量階段的表現(xiàn)都比A2差;在A3中將2個(gè)聚合權(quán)重固定為0.5,由于缺乏聚合權(quán)重的更新來(lái)平衡模型的可塑性和穩(wěn)定性,也無(wú)法維持可靠的診斷性能;在新任務(wù)的訓(xùn)練中,動(dòng)態(tài)分支承擔(dān)著絕大部分學(xué)習(xí)新知識(shí)的責(zé)任,而穩(wěn)定分支則保留了任務(wù)T0的知識(shí)并慢慢學(xué)習(xí)新的故障類型,采用聚合權(quán)重平衡這2個(gè)分支并使用雙層優(yōu)化程序更新聚合權(quán)重和模型參數(shù),使LLBFDM在每個(gè)階段都有令人滿意的表現(xiàn),結(jié)果表明LLBFDM能夠克服災(zāi)難性遺忘并解決穩(wěn)定性-可塑性的困境,診斷精度是除R1外最高的,且標(biāo)準(zhǔn)差也低于除R1以外的所有方法,說(shuō)明LLBFDM的魯棒性更強(qiáng)。
圖4 增量階段1中R2在所有已學(xué)習(xí)任務(wù)的混淆矩陣
在終身學(xué)習(xí)范式下,本文提出了LLBFDM用于具有故障類型增量的軸承故障診斷。作為L(zhǎng)LBFDM的核心,DAARN克服了災(zāi)難性遺忘,通過(guò)使用穩(wěn)定分支和動(dòng)態(tài)分支并結(jié)合自適應(yīng)聚合權(quán)重對(duì)其進(jìn)行平衡,解決了終身學(xué)習(xí)中的穩(wěn)定性-可塑性困境。在具有故障類型增量的軸承數(shù)據(jù)集上進(jìn)行測(cè)試,LLBFDM的有效性得到了驗(yàn)證。試驗(yàn)結(jié)果顯示,與其他終身學(xué)習(xí)方法和消融試驗(yàn)相比,LLBFDM具有更好的診斷精度和更強(qiáng)的魯棒性。
LLBFDM考慮了穩(wěn)定性-可塑性困境,并使用了典例等方法克服災(zāi)難性遺忘,但在進(jìn)行新任務(wù)的訓(xùn)練時(shí)忽視了舊故障類型與新故障類型之間樣本數(shù)量的不平衡問(wèn)題,會(huì)造成分類器的權(quán)重偏向于新類,從而加劇災(zāi)難性遺忘。在后續(xù)工作中,將對(duì)具有修正類偏置能力的分類器進(jìn)行研究,并進(jìn)一步探索小樣本故障類型增量下終身學(xué)習(xí)診斷模型的建立。