瞿家明,周易文,王恒,黃希
(南通大學 機械工程學院,江蘇 南通 226019)
如果能夠在軸承運行過程中及時檢測其性能退化的程度、跟蹤早期故障,可以有針對性地組織生產(chǎn)和設(shè)備維護,有效防止異常失效的發(fā)生。
針對滾動軸承的狀態(tài)監(jiān)測和退化評估的研究集中在神經(jīng)網(wǎng)絡(luò)模型[1]、支持向量機[2]、支持向量數(shù)據(jù)描述[3]、流形學習[4]等基于數(shù)據(jù)驅(qū)動的方法,但這些方法均無法實時顯示數(shù)據(jù)對應的退化狀態(tài)階段。隱馬爾科夫模型(Hidden Markov Model,HMM)具有狀態(tài)隱含、觀測序列可見的雙重隨機屬性,很好地描述了設(shè)備運行過程中的衰退狀態(tài)與觀測到的征兆信號(如振動、轉(zhuǎn)速和位移等)之間的隨機關(guān)系,在滾動軸承性能退化評估與預測中得到了廣泛應用[5-7]。但HMM在定義和學習過程中需要預設(shè)設(shè)備所經(jīng)歷的狀態(tài)數(shù),而實際應用中由于缺乏相應的先驗知識,并不能準確地給出模型的退化狀態(tài)數(shù),限制了HMM的應用場合[8]。
在滾動軸承運行過程中,狀態(tài)需要隨著監(jiān)測數(shù)據(jù)的更新而不斷更新,如何有效地利用監(jiān)測數(shù)據(jù)實現(xiàn)運行狀態(tài)數(shù)的自動識別還需要深入研究。因此,提出了一種基于Dirichlet過程混合模型(Dirichlet Process Mixture Model,DPMM)的狀態(tài)識別算法,并通過實例驗證其有效性和可行性。
Dirichlet過程(Dirichlet Process,DP)是一種典型的非參數(shù)Bayes模型[9],主要用于非參數(shù)問題中的先驗分布,DP可以擬合任意類型的概率分布,且與多項式分布互為共軛分布,因此在觀測值的基礎(chǔ)上,DP后驗分布便于分析與計算。近年來,DP模型已成為機器學習、文本處理和自然語言處理領(lǐng)域中的研究熱點,廣泛應用于各種聚類問題的研究中[10-12]。
假設(shè)G0是測度空間Θ上的隨機概率測度,參數(shù)α為正實數(shù)[12]。對于測度空間Θ的任意有限劃分A1,A2,…,Ar,若存在如下關(guān)系
(G(A1),G(A2),…,G(Ar))~
DDir(αG0(A1),…,αG0(Ar)),
(1)
則G服從由基分布G0和參數(shù)α組成的Dirichlet過程,即
G:GDP(α,G0),
(2)
式中:DDir表示Dirichlet分布。
在實際應用中往往采用不同形式的構(gòu)造實現(xiàn)DP的應用。截棍構(gòu)造(Stick-Breaking Construction,SBC)可以用于獨立構(gòu)造服從DP的隨機樣本[13],其設(shè)有2個參數(shù):聚集參數(shù)α、基礎(chǔ)分布G0。隨機概率質(zhì)量πk可以通過如下方式構(gòu)造:對長度為1的棒在比例β1處切割,并將切掉的這部分長度賦值給π1,而后對剩余長度為(1-β1)的棒在其比例β2處切割, 并將切掉的棒的長度賦值給π2,然后按照相同的方式對剩余的棒在比例βk處切割,并將切掉的棒的長度賦值給πk,記為πk:GEM(α),如圖1所示。
圖1 SBC示意圖Fig.1 Diagram of SBC
隨機概率分布G構(gòu)造為
(3)
其中,隨機概率質(zhì)量πk通過以α為參數(shù)的β分布產(chǎn)生,隨機原子序列θk從基礎(chǔ)分布G0抽樣。
與SBC類似,中國餐館過程(Chinese Restaurant Process,CRP)構(gòu)造如下[13]:設(shè)中國餐館內(nèi)可以容納無限多張桌子,所有桌子上都貼上標簽1,2,…,K,進入餐館的顧客可以挑一張桌子坐下。θi被比作第i個進入餐廳的顧客,而不同的φk值表示餐桌。第1個顧客以概率1就座于一張新桌子,第i個顧客以概率mn/(n-1+α)就座于一張已坐下mn個顧客的舊桌子,n為進入餐館的顧客總數(shù);或以概率α/(n-1+α)就座于一張新桌子,即K增加1,而φk:G0,θi=φk,如圖2所示,圓圈代表桌子,方框代表進入餐館的顧客。
圖2 CRP構(gòu)造示意圖Fig.2 Construction diagram of CRP
從Dirichlet過程的構(gòu)造可以看出, 無論哪種方式, 均體現(xiàn)了其良好的聚類性質(zhì)。
DP表現(xiàn)了良好的聚類性質(zhì),但其只能將具有相同值的數(shù)據(jù)聚為一類,如果2組數(shù)據(jù)不相等,不管兩者間的相似性多強,利用DP均無法實現(xiàn)聚類,因此就需要引入DPMM[13]。在DPMM中,DP作為參數(shù)的先驗分布存在,假設(shè)觀測數(shù)據(jù)為xi,其分布服從
(4)
式中:F(θi) 為觀測數(shù)據(jù)xi服從以θi為參數(shù)的分布;當G服從Dirichlet分布時,該模型稱為Dirichlet過程混合模型。
基于DPMM的滾動軸承狀態(tài)數(shù)識別算法流程如圖3所示,其具體步驟如下:
圖3 基于DPMM的滾動軸承狀態(tài)識別算法流程Fig.3 Flow chart of algorithm for state recognition of rolling bearing based on DPMM
1) 對軸承振動數(shù)據(jù)進行特征提?。?/p>
2) 隨機初始化DPMM的參數(shù),即初始聚類數(shù)目N、迭代次數(shù)M和聚集參數(shù)α;
3) 構(gòu)造觀測序列,使其服從Gaussian分布或多項式分布;
4) 觀測序列分布參數(shù)服從Gaussian-Wishart分布或DP分布;
5) 通過截棍過程、中國餐館過程構(gòu)造獲得Dirichlet先驗分布;
6) 通過Gibbs抽樣實現(xiàn)參數(shù)后驗更新,當某個類簇中元素個數(shù)為0時,N減1,繼續(xù)迭代步驟5~6,待聚類數(shù)目穩(wěn)定時停止迭代,獲得軸承最終運行狀態(tài)數(shù)N。
將軸承觀測數(shù)據(jù)作為DPMM的輸入,記為o1,o2,…,on,則
(5)
假設(shè)觀測序列服從Gaussian分布O~Nd(μ,S),其參數(shù)服從共軛分布Gaussian-Wishart分布μ,R~Wd(m,S),每個分布都具有相同的超參數(shù)和各自的參數(shù)。其中,軸承數(shù)據(jù)任意分組,維數(shù)為d,均值為μ,均方差為S,相關(guān)系數(shù)為R;軸承數(shù)據(jù)服從分布參數(shù)的維數(shù)為v,均值為m,均方差為S,相關(guān)系數(shù)為r。
假設(shè)觀測數(shù)據(jù)服從Gaussian分布,即
(6)
多組數(shù)據(jù)似然函數(shù)為
p(O丨μ,R)=(2π)-nd/2|R|n/2·
(7)
參數(shù)服從Gaussian-Wishart分布,即
p(R)=2-vd/2π-d(d-1)/4|S|v/2|R|(v-d-1)/2·
(8)
(9)
(10)
根據(jù)Bayes公式,觀測數(shù)據(jù)及其分布參數(shù)的聯(lián)合概率可以表示為似然函數(shù)與參數(shù)先驗的乘積,也可表示為后驗分布與邊緣函數(shù)的乘積,即
p(μ,R,O)=p(O|μ,R)·p(μ,R)=
p(μ,R|O)·p(O)。
(11)
觀測數(shù)據(jù)和分布參數(shù)的聯(lián)合概率為
(12)
利用Gibbs采樣實現(xiàn)后驗參數(shù)的更新
(13)
軸承觀測數(shù)據(jù)的邊緣概率為
(14)
由(12),(13)和(14)式推導出后驗分布公式為
(15)
(9)式與(15)式具有相同的分布形式,對比可知后驗分布的更新意味著超參數(shù)(r,v,m,S)的更新。在(14)式中,需要計算Γ項的比率以及|S|和|S″|的值。為簡化計算,假設(shè)更新前后v不變,將(14)式進行Γ項擴展得
(16)
通過Gibbs采樣實現(xiàn)參數(shù)后驗更新,在每個類簇中每次增加(或減少)1個觀測序列,利用Cholesky分解更新S的值,然后根據(jù)新的參數(shù)值計算每個類簇的似然概率。在迭代過程中,不斷更新每個類簇的均值和方差,若類簇中的值為空,則類簇總數(shù)減1,否則將繼續(xù)迭代更新。DPMM算法不依賴于訓練樣本,而且隨著觀測數(shù)據(jù)的變化,模型結(jié)構(gòu)能夠自適應調(diào)整,從而實現(xiàn)動態(tài)聚類,自動識別軸承的運行狀態(tài)。
為驗證DPMM算法的有效性與可行性,對滾動軸承狀態(tài)監(jiān)測數(shù)據(jù)[14]進行驗證和分析,選擇負載0 kW,轉(zhuǎn)速1 797 r/min下SKF6205-2RS型軸承的振動加速度數(shù)據(jù)。采用電火花加工對軸承進行破壞,故障直徑分別為0.177 8,0.355 6,0.533 4和0.711 2 mm,軸承基本參數(shù)及其運行狀態(tài)分別見表1和表2。將軸承正常狀態(tài)數(shù)據(jù)和4種人為制造的狀態(tài)數(shù)據(jù)分別取容量相同的樣本相互連接作為觀測數(shù)據(jù)。
表1 試驗軸承技術(shù)參數(shù)Tab.1 Technical parameters of test bearing
表2 滾動軸承運行狀態(tài)劃分Tab.2 Partition of operation states of rolling bearing
在DPMM算法中,設(shè)初始聚類數(shù)N=100,聚集參數(shù)α=20,迭代次數(shù)M=300,取軸承峭度指標作為觀測數(shù)據(jù)構(gòu)造觀測序列服從Gaussian分布,參數(shù)服從Gaussian-Wishart分布,通過SBC和CRP分別構(gòu)造DP過程。基于DPMM的滾動軸承運行狀態(tài)識別結(jié)果如圖4所示,經(jīng)過300次的迭代,聚類結(jié)果趨于穩(wěn)定且收斂到5,與已知的滾動軸承狀態(tài)數(shù)(表2)相一致,說明DPMM模型能夠有效識別滾動軸承運行狀態(tài),為軸承退化評估與壽命預測提供了一種新方法。
圖4 基于峭度指標的軸承運行狀態(tài)數(shù)識別結(jié)果Fig.4 Recognition result of number of operation states of bearing based on kurtosis index
聚集參數(shù)α不同取值時的聚類結(jié)果如圖5所示,從圖中可以看出,無論參數(shù)α的初始值如何選取,該模型聚類結(jié)果均能收斂到相同的值。進一步分析特征值的選擇對識別結(jié)果的影響,取軸承均方根作為觀測數(shù)據(jù),其他參數(shù)不變,基于DPMM的運行狀態(tài)數(shù)識別結(jié)果如圖6所示。
圖5 不同α值的聚類結(jié)果Fig.5 Clustering results of differentα
根據(jù)圖4及圖6的結(jié)果,對峭度指標和均方根分別獲得滾動軸承運行狀態(tài)數(shù)進行統(tǒng)計分析,獲得其概率直方圖(圖7),從圖中可以看出,狀態(tài)數(shù)聚類為5的概率最大,可以認為最終狀態(tài)數(shù)為5。
圖6 基于均方根的軸承狀態(tài)數(shù)識別結(jié)果Fig.6 Recognition result of number of states of bearing based on RMS
圖7 狀態(tài)數(shù)聚類結(jié)果概率直方圖Fig.7 Probability histogram of clustering results of number of states
綜合分析可得:構(gòu)造方法不影響結(jié)果的穩(wěn)定性,參數(shù)α不同取值時均能快速實現(xiàn)聚類,結(jié)果穩(wěn)定。DPMM算法對于參數(shù)的預設(shè)沒有要求,也不依賴滾動軸承特征值、聚集參數(shù)等初始參數(shù)的選擇,具有很強的適應性和穩(wěn)定性。
故障診斷算法中退化狀態(tài)數(shù)的確定一直以來依靠的是設(shè)備維護的經(jīng)驗。這對于算法實現(xiàn)設(shè)備退化過程描述和觀測數(shù)據(jù)的處理帶來了一定的困難。DPMM拋開傳統(tǒng)經(jīng)驗,利用數(shù)據(jù)自身的特性進行聚類,為進一步分析設(shè)備退化過程以及每個階段的退化研究提供了一種新的方式。
初始參數(shù)的選擇是模型訓練的難點,其影響著模型收斂的速度和準確性。DPMM引入了Bayes聚類算法,從另一個角度實現(xiàn)了參數(shù)需要人為預先設(shè)定的問題,從數(shù)據(jù)分析的角度也有利于模型的收斂速度和準確性,解決了模型參數(shù)預設(shè)的問題。另外,DPMM能夠隨著數(shù)據(jù)變化實現(xiàn)自適應調(diào)整,避免了故障診斷過程中數(shù)據(jù)變化而模型不變進而可能出現(xiàn)的預測錯誤,具有一定的研究價值。