司 宇,章翔峰,張罡銘,姜 宏
(新疆大學機械工程學院,新疆 烏魯木齊 830046)
滾動軸承在汽車工業(yè)、風力發(fā)電等領域得到了廣泛應用[1-2],發(fā)揮著重要作用,其一旦產生故障可能會導致巨大的經濟損失,甚至引發(fā)安全事故,因此開發(fā)有效的滾動軸承故障診斷方法一直被作為研究的熱點[3]。
近幾十年來,機器學習、深度學習等計算機理論技術學科的快速發(fā)展,對智能診斷技術的研究產生了積極的影響[4]。在分類器的學習過程中,輸入特征直接決定了最后的診斷表現(xiàn),因此特征選擇技術被用于從原始特征集中獲取一個維數(shù)適中、剔除了無關和冗余特征的最優(yōu)子集[5],進而減少計算成本并提高分類精度。依據(jù)在選擇過程中對分類器依賴程度的不同,可將特征選擇算法分為過濾式(Filter)、封裝式(Wrapper)和混合式(Hybrid)三類[6-7]。Filter 算法獨立于分類器,可以快速大量地剔除特征集中的無關特征,具有計算效率高、通用性好的優(yōu)點,但保留的特征子集往往都不是最優(yōu)的[8];Wrapper 算法在選擇過程中與分類器相結合,將分類精度作為評價標準衡量特征子集的質量,最終保留的特征子集有著較好的分類性能,但該類方法有著較高的時間復雜度[9]。
Hybrid 方法則結合了二者的優(yōu)點,利用Filter 算法獲得的排序信息指導Wrapper 方法的搜索方向,權衡了分類精度和計算成本[10],成為目前的研究熱點?,F(xiàn)有的混合式特征選擇算法大多設計為兩階段框架的形式,如文獻[11]首先使用三種不同的Filter 方法從原始特征集中各選取5 個特征,然后通過窮舉這些特征間的組合搜索最優(yōu)子集。文獻[12]首先利用Relief-F 算法來初步選擇候選特征,然后通過粒子群算法同時搜索最優(yōu)子集和分類器的參數(shù)。文獻[13]首先根據(jù)特征與類標簽的相關性對特征進行排序,然后應用不同的聚類方法將其劃分為多個子集并對它們排序,最后通過遍歷所有可能的子集,從而獲取最優(yōu)子集。上述文獻針對分類精度和計算速度方面已經提出了不同的改進方案,但在適用性方面仍需進一步研究。
基于上述分析,本文提出一種混合式特征選擇方法,用于為滾動軸承故障診斷任務提供高質量的特征集。該方法設計為經典的兩階段框架:首先在Filter 階段中通過費舍爾分值法對特征進行預排序,利用拐點確定預選子集的范圍;然后通過遺傳算法指導Wrapper 階段的搜索方向,從預選子集中確定最優(yōu)子集。最后以最優(yōu)子集作為輸入,通過分類器實現(xiàn)滾動軸承不同故障類型和不同故障程度的診斷。
在費舍爾分值法(Fisher Score, FS)中,每個特征都是根據(jù)其Fisher 標準分數(shù)獨立選擇的,其目的是找到滿足使類間距離最大,而類內距離最小的特征[14]。假設特征集中共有n個樣本分別屬于Y個標簽,每一個標簽中分別包含nk個樣本。定義第i個特征fi的類間散度Sb(fi)為:
式中:nk表示第k類樣本的個數(shù);表示第k類樣本在第i個特征上取值的均值;mk表示所有類別的樣本在第i個特征上取值的均值。
定義第k個樣本在第i個特征fi的類內散度(fi)為:
式中:為在第i個特征中屬于第k類樣本的第j個樣本的取值。
當?shù)趇個特征fi的類間散度Sb(fi)越大,類內散度(fi)越小,該特征的表征能力越強,可以得到FS 的計算公式如下:
所得分值越小,特征重要性則越低;所得分值越大,特征重要性越高,表征能力就越強。可以通過設置合適的閾值來決定子集的范圍[15],本文中將通過計算拐點以自適應地決定預選子集。
由于Filter 方法沒有衡量特征間的相關程度,因此無法排除子集中的冗余特征,需要進一步的搜索手段減少冗余特征。事實上,因為特征選擇任務實質上是一個0-1 整數(shù)規(guī)劃問題,因此幾乎所有搜索策略都可以用作指導Wrapper 方法的搜索方向?;谶z傳算法(Genetic Algorithm, GA)在求解NP 問題時具有的良好性能,本文中將使用GA 指導Wrapper 階段的搜索方向。
GA 是受自然進化理論啟發(fā)的搜索算法,通過模擬生物界的生物進化和自然選擇過程,將求解過程轉化為類似于基因的變異、交叉和淘汰等過程,通過種群的不同進化達到搜索最優(yōu)解的目的。
GA 的實現(xiàn)步驟如下:
1)參數(shù)初始化,如種群規(guī)模、變異率、交叉率和迭代次數(shù);
2)建立隨機初始種群,通過二進制編碼將候選特征的可能組合編碼為染色體;
3)計算個體的適應度并排序,同時記錄每次迭代中的最優(yōu)解,在本文中適應度函數(shù)定義為個體在送入分類器后表現(xiàn)出的識別精度;
4)對種群進行選擇、交叉和變異操作,得到新一代種群,然后繼續(xù)步驟3)直到達到終止條件。
利用FS 法獲得的預選子集作為輸入,通過將GA 嵌入Wrapper 階段,GA 中的每個個體都代表了一種可能的特征組合方案,將該特征子集送入分類器,以識別精度作為對應個體取得的適應度。達到最大迭代次數(shù)后,搜索過程結束,給出取得最大識別精度的特征組合方案,即為所提混合式特征選擇方法獲取的最優(yōu)子集。
綜合以上論述,本文提出一種基于混合式特征選擇的滾動軸承故障診斷方法,流程圖如圖1 所示,具體描述如下:
圖1 基于混合式特征選擇的滾動軸承故障診斷流程
步驟1:從振動信號中提取故障特征,構建原始高維特征集,然后按照1∶1 的比例隨機劃分為訓練集和測試集。
步驟2:設原始特征集為S,其中包含有m個特征。首先通過費舍爾分值法對特征進行預排序,得到排序集合Sr,設fi為排在第i位的特征:
步驟3:根據(jù)特征fi的費舍爾得分將m個特征連接起來,得到得分曲線,計算曲線的拐點,將拐點及拐點之前的特征作為預選子集Sk。
步驟4:將預選子集Sk作為GA-Wrapper 階段的輸入,對GA 的參數(shù)進行初始化,在迭代結束后給出最優(yōu)子集的索引。
步驟5:利用通過訓練集獲得的最優(yōu)子集的索引,從測試集的原始高維特征集中選擇出對應的最優(yōu)子集,最終通過經訓練集訓練好的分類器得到測試集的故障診斷結果。
為了驗證所提方法的有效性,采用來自美國凱斯西儲大學的滾動軸承實驗數(shù)據(jù)集進行方法驗證。軸承故障類型為6203-2RS JEM SKF 深溝球軸承,使用負載為735.5 W,轉速為1 797 r/min,采樣頻率為12 kHz 條件下的故障數(shù)據(jù)。
本文通過兩組實驗來驗證所提方法的有效性:
1)不同故障類型診斷。通過滾動軸承的4 種工作狀態(tài)進行驗證,時域波形如圖2 所示。
圖2 滾動軸承不同狀態(tài)下的振動信號
2)不同故障程度診斷。通過滾動軸承中5 種損傷程度的內圈故障進行驗證,具體數(shù)據(jù)組成如表1 所示。
表1 實驗數(shù)據(jù)描述
由于振動信號存在非線性、非平穩(wěn)等特點,導致僅提取單一或單域特征往往難以全面描述設備的故障狀態(tài)。統(tǒng)計特征有著明確物理意義且對設備的運行狀態(tài)敏感,已在機械故障診斷中得到大量應用[16-18],因此本文通過從振動信號的時域和頻域中提取統(tǒng)計特征來構造原始特征集。特征集中共包括11 個時域特征和13 個頻域特征,分別表示為T1~T11和F1~F13,其詳細參數(shù)和表達式見表2。其中:x(n)表示振動信號的時間序列;N表示時間序列的采樣數(shù)目;s(k)表示信號x(n)的頻譜,k=1,2,…,K,K是譜線數(shù)。
表2 統(tǒng)計特征表達式
通過對原始振動信號提取統(tǒng)計特征,每個樣本都具有24 個特征,因此包含有4 種狀態(tài)類型的滾動軸承故障診斷案例獲得了一個320×24 維的原始特征集。顯然直接將這些特征送入分類器中,會導致高昂的訓練成本,需要對訓練集使用特征選擇方法來篩選出對故障診斷任務最有益的特征子集。首先通過費舍爾分值法對原始特征集進行預排序,根據(jù)特征的費舍爾得分按照降序排列,并將其通過曲線連接起來,如圖3 所示。
圖3 確定評價結果的拐點位置(一)
由圖3 可知,曲線的拐點出現(xiàn)在第7 個特征處,因此評價結果中的前7 個特征被選作預選子集,其序號分別為1、2、3、4、13、17 和23。通過前文分析可知,預選子集中存在有冗余特征,需要進一步去除。在GA-Wrapper階段的搜索過程中,交叉率和遺傳率分別設置為0.8 和0.1,初始種群為10,染色體長度為7,以達到最大代數(shù)50 作為終止條件。通過最優(yōu)個體的索引記錄相應的特征序號,獲得的最優(yōu)子集中僅保留了3 個特征,其序號分別為1、3 和13。
混淆矩陣可以直觀地展示分類性能,進而判斷診斷效果的好壞以及算法的優(yōu)劣。滾動軸承不同故障類型診斷的測試集混淆矩陣如圖4 所示,圖中S1、S2、S3 和S4 分別表示軸承正常狀態(tài)、內圈故障、外圈故障和滾動體故障。可見4 種工作狀態(tài)均被正確地分類到對應的標簽中,證明本文方法可以有效地實現(xiàn)軸承故障診斷。
圖4 不同故障類型診斷測試集的混淆矩陣
為了更直觀地對所提方法的性能進行比較,將原始特征集、預選子集和最優(yōu)子集的故障診斷結果進行對比,如表3 所示。
表3 不同故障類型診斷結果對比
相比于原始特征集,預選子集和最優(yōu)子集分別在減少了70.83%和87.50%特征個數(shù)的同時,識別精度提升了8.12%和9.37%,且最優(yōu)子集在進一步減少了預選子集中特征的同時,識別精度反而有著1.25%的提升,充分證明了GA-Wrapper 階段的有效性。
與不同故障類型診斷案例的特征提取過程一樣,為包含有5 種故障程度的不同故障程度診斷案例構建了一個400×24 維的原始特征集。由于同一特征在不同分類任務中體現(xiàn)出的表征能力可能是截然不同的,因此仍首先通過費舍爾分值法對訓練集中的特征進行預排序,根據(jù)特征的費舍爾得分按照降序排列,并通過曲線連接起來。如圖5 所示,曲線的拐點出現(xiàn)在第11 個特征處,因此預排序結果中的前11 個特征被選作為預選子集,其序號分別為1、2、3、4、12、13、17、20、21、23 和24。
圖5 確定評價結果的拐點位置(二)
在GA-Wrapper 階段的搜索過程中,染色體長度設置為11,其余設置與不同故障類型診斷案例中一致。最終獲取的最優(yōu)子集中保留了6 個特征,其序號分別為1、2、4、13、23 和24。對比故障診斷案例中獲取的最優(yōu)子集,可以發(fā)現(xiàn)二者并非是完全重合的,說明適用于不同故障類型診斷任務的特征并不一定適用于不同故障程度的診斷任務,因此對原始特征集進行特征選擇是非常必要的。滾動軸承不同故障程度診斷的測試集混淆矩陣如圖6 所示,圖中S1、S2、S3、S4 和S5 分別表示軸承正常狀態(tài)、內圈故障0.177 8 mm、內圈故障0.355 6 mm、內圈故障0.533 4 mm 和內圈故障0.711 2 mm??梢妼τ诓煌潭鹊臐L動軸承內圈故障,所提方法仍可有效地將其劃分至正確的類別中。將原始特征集、預選子集和最優(yōu)子集的故障診斷結果進行對比,如表4 所示。
表4 不同故障程度診斷結果對比
圖6 不同故障程度診斷測試集的混淆矩陣
相比于原始特征集,通過特征選擇獲取的子集分類能力均得到了明顯提升,預選子集和最優(yōu)子集分別提升了1.00%和4.50%,且最優(yōu)子集在進一步減少了預選子集中特征的同時,識別精度仍有著3.50%的提升,證明了所提混合式特征選擇方法在降低原始特征集維數(shù)和提升識別精度方面的有效性。
表3 和表4 所示的分類結果均是通過K 近鄰(Knearest Neighbor, KNN)算法作為分類器得到的,但所提方法在結合不同分類器使用時均可以獲得可觀的分類表現(xiàn)。分別以徑向基網(wǎng)絡(Radial Basis Function Neural Network, RBF - Net)和支持向量機(Support Vector Machine, SVM)作為分類器進行驗證,仍以滾動軸承不同故障類型和不同故障程度的兩個案例作為對象,將3 個不同分類器在兩個診斷任務中的分類表現(xiàn)列于表5中。
表5 結合不同分類器時的分類表現(xiàn)
從表5 可以發(fā)現(xiàn):在不同故障類型診斷案例中,本文方法在結合KNN、RBF-Net 使用時,獲取的最優(yōu)子集有著最小的維數(shù),結合KNN、SVM 使用時,取得的識別精度最高,但最高識別精度和最低識別精度間僅相差0.62%;而在不同故障程度診斷案例中,將本文方法結合RBF-Net 使用,獲取的最優(yōu)子集有著最小的維數(shù),且取得了最高的識別精度,但僅超過最低識別精度0.50%。說明本文方法在分別結合3 個分類器使用時的分類表現(xiàn)沒有明顯差距,表明本文方法在結合分類器方面有著極好的適用性,可以根據(jù)實際需要進行選擇。
針對原始特征集中存在無關和冗余特征,導致分類能力受限問題,以減少計算成本、改善分類效果為目的,本文提出了一種混合式特征選擇方法。在滾動軸承不同故障類型和不同故障程度的診斷案例中進行驗證,實驗結果證明了所提方法的有效性。本文主要結論如下:
1)所提混合式特征選擇方法首先在第一階段中剔除特征集中的無關特征,然后在第二階段中進一步剔除冗余特征,盡可能降低特征集的冗余性和無關性;
2)所提混合式特征選擇方法能夠從原始特征集中自動確定最優(yōu)子集,在降低特征集維數(shù)的同時提高識別精度;
3)所提方法不涉及復雜的映射,是一個直觀和簡單的過程,因此該方法有著較好的物理解釋性,有助于揭示故障與相應特征間的聯(lián)系。