集成多策略改進FCM算法的旋轉機械故障數(shù)據聚類分析研究

2019-11-27 03:21鄧林峰張愛華趙榮珍

振動工程學報 2019年5期

鄧林峰張愛華趙榮珍

摘要：針對旋轉機械故障數(shù)據聚類分析中的初始聚類中心不確定和孤立點敏感問題，提出了一種集成多策略改進的模糊C均值（FCM）聚類方法。首先以故障數(shù)據集的決策屬性為等價關系對數(shù)據集進行劃分，得到若干個由等價關系導出的等價類;然后以每個等價類為可行域，采用均值漂移方法搜索故障數(shù)據類中心;最后以搜索到的類中心為FCM算法的初始聚類中心，通過核技術計算故障數(shù)據樣本與相應類中心在高維特征空間中的歐氏距離，從而實現(xiàn)數(shù)據樣本相似性的有效度量，并完成故障數(shù)據的模糊聚類。通過標準數(shù)據集和旋轉機械故障數(shù)據集對方法的性能進行了驗證及比較分析。結果顯示，改進FCM算法的聚類性能相比傳統(tǒng)FCM算法的聚類性能得到了明顯提升，在收斂速度和聚類準確性兩個性能指標上，改進的FCM算法比FCM算法具有顯著優(yōu)勢。

關鍵詞：故障診斷; 旋轉機械; 聚類分析; 模糊C均值; 聚類性能

中圖分類號： TH165+.3; TP391.4 文獻標志碼： A 文章編號： 1004-4523（2019）05-0918-09

DOI：10.16385/j.cnki.issn.1004-4523.2019.05.020

引言

故障診斷技術為保障旋轉機械安全可靠運行發(fā)揮著極其重要的作用[1]。然而由于旋轉機械故障振動信號具有明顯的非平穩(wěn)特性，且易受到噪聲干擾，使得部分故障樣本的特征值將發(fā)生偏移，從而脫離實際故障的特征分布區(qū)間，甚至與其他故障的特征數(shù)據交疊在一起，形成分布狀態(tài)十分復雜的故障數(shù)據，導致分析診斷故障的難度急劇增大[2]。

為了獲取準確的故障特征信息，各種數(shù)據挖掘技術被應用于故障數(shù)據的處理[3-5]。聚類分析是進行數(shù)據挖掘的主要方法之一[5]，作為一種優(yōu)良的聚類算法，模糊C均值（Fuzzy C-means， FCM）聚類算法受到旋轉機械故障數(shù)據分析研究的廣泛關注。Rodríguez Ramos等[6]將基于密度的模糊C均值聚類與核模糊C均值聚類算法相結合，對攪拌反應器故障進行分類識別。鄭直等[7]提出一種EEMD形態(tài)譜和核模糊C均值聚類集成的故障診斷新方法，實現(xiàn)了滾動軸承故障的有效診斷。李懷俊等[8]研究了基于核特征模糊聚類及模糊關聯(lián)熵的故障識別方法，可顯著提高故障數(shù)據的聚類效果，并識別齒輪故障。田再克等[9]提出了一種基于改進多重分形去趨勢波動分析和半監(jiān)督馬氏距離模糊C均值的液壓泵退化狀態(tài)識別方法，并利用液壓泵實測數(shù)據驗證了方法的有效性。

上述研究使FCM聚類算法與故障診斷技術有了很好的結合，可有效識別故障狀態(tài)。但經研究發(fā)現(xiàn)，該算法依然存在初始聚類中心不確定和孤立點敏感的缺陷[10]，這將導致FCM聚類算法在處理復雜數(shù)據時容易出現(xiàn)收斂速度慢、準確性偏低的問題，從而影響故障診斷效率和精度。近年來，雖然針對FCM算法的上述缺陷開展了一些研究工作[5， 10]，但算法性能的提升還存在一定空間，有待進一步對其改進以滿足應用需求。

基于以上分析，本文提出了一種集成多策略改進的FCM（Improved FCM， IFCM）聚類算法。該算法采用建立聚類中心的可行域和均值漂移方法解決故障數(shù)據集初始聚類中心不確定問題，并通過核方法計算故障數(shù)據樣本在高維特征空間中的距離，以減小孤立樣本對聚類準確性的影響。最后利用UCI標準數(shù)據集和轉子-軸承系統(tǒng)故障數(shù)據集對所提出的改進FCM算法的有效性進行驗證，通過與FCM算法進行對比分析，進一步說明改進算法具有更好的聚類性能。

1 模糊C均值聚類算法

模糊C均值聚類算法的出發(fā)點是基于對目標函數(shù)的優(yōu)化，通過迭代算法尋找一組中心矢量，使各樣本到其距離平方和達到最小，即通過對平方誤差函數(shù)求極值來確定最佳模糊分類矩陣和聚類中心[11]。該算法的基本流程描述如下：

在運行聚類算法時，可行域設置的越小，相應的計算復雜度就越低，但過小的可行域可能并不包含真實的聚類中心，將使搜索過程失效;反之，可行域設置的越大，搜索范圍也相應增大，從而增加了計算復雜度。由于一個FCM聚類模型可以看成由若干個相互獨立的噪聲聚類問題的子模型構成，且每個子模型與一個單獨的類別相對應，因此對包含C個類別的數(shù)據集進行FCM聚類就可以轉化為求解這C個獨立優(yōu)化子問題各自的解[12]。也就是說，這C個子問題與C個類之間具有一一對應關系。

另一方面，以數(shù)據集的決策屬性（數(shù)據類別）作為數(shù)據集X上的一個等價關系（表示為D）可形成對X的一個劃分，并得到X上一個由等價關系D導出的等價類集合XD，且每個等價類與數(shù)據集的一個類別相對應。因此，若數(shù)據集X由包含C個類別的數(shù)據構成，通過數(shù)據的決策屬性對其進行劃分，則可得到相應的C個等價類，而每個等價類就包含了數(shù)據集中某一類別的所有元素。

通過比較劃分和可行域兩個不同概念的定義可以發(fā)現(xiàn)，利用決策屬性D對數(shù)據集X形成的劃分將產生一個關于X的子集族，這個子集族必然滿足可行域的條件，即XD實際上是數(shù)據集X的聚類中心可行域的一種特殊情形。顯然，若X包含C個類別，則XD中將具有C個等價類，這些等價類就可作為FCM聚類算法C個獨立優(yōu)化子問題的可行域。

建立了FCM算法優(yōu)化子問題的可行域之后，在運行FCM算法時，就可設定每個子目標函數(shù)在相應的可行域內搜索最優(yōu)值。由于XD中任意兩個等價類的交集為空集，因此以X〖〗D作為可行域能夠避免FCM算法產生重合聚類。

2.2 均值漂移算法

均值漂移（Mean-Shift， MS）是一種有效的統(tǒng)計迭代算法，使每一個點都“漂移”到密度函數(shù)的局部極大值點，并利用核密度估計來表示特征空間數(shù)據的分布情況[13]。MS算法的基本原理如下。

2.3 核方法的樣本相似性度量

數(shù)據樣本之間的相似性度量是進行聚類分析的基礎，對于最終聚類結果的形狀具有很大影響。在FCM及大多數(shù)目前常用的聚類算法中，通常都利用歐氏距離在原始特征空間對樣本間的相似性進行度量。但由于原始特征空間數(shù)據分布的復雜性，樣本的相似性度量會產生較大誤差，導致聚類結果的精度偏低。

核方法[14]可以通過某種非線性變換將低維空間中的樣本映射到高維空間中，然后在這個高維空間中對樣本的相似性進行度量，以提高樣本相似性度量的準確度。因此，通過引入核函數(shù)將樣本映射到高維空間并設計新的相似性度量函數(shù)，應該可以實現(xiàn)提升FCM算法聚類性能的目的。

3 改進FCM算法的性能驗證及應用

為評價本文提出算法的聚類性能，分別使用標準數(shù)據和轉子-軸承系統(tǒng)故障實驗數(shù)據進行聚類分析，并與FCM算法的聚類結果進行比較，以驗證本文算法的有效性。在進行聚類分析時，對于標準數(shù)據和轉子故障實驗數(shù)據，同一算法均采用相同的參數(shù)。其中，F(xiàn)CM算法和改進FCM算法的迭代閾值都設為0.001，模糊聚類指數(shù)m都設為2[6， 11];MS算法的迭代閾值ε1設為0.001，核函數(shù)G選取高斯核，核半徑h取2[13];改進FCM算法的核函數(shù)K也采用高斯核，核參數(shù)σ取1.34[6];FCM 和改進FCM算法的最大迭代次數(shù)都設定為100。

3.1 標準數(shù)據

從UCI數(shù)據庫中選擇兩個被廣泛用于聚類分析的數(shù)據集Iris[15]和Soybean[16]，對FCM算法和改進FCM算法的性能進行比較，以驗證改進FCM算法的有效性。如上兩個數(shù)據集的數(shù)據特性如表1所示。利用兩種聚類算法對這兩個數(shù)據集分別進行處理，其目標函數(shù)的迭代誤差如圖1所示。

? 表1中的Iris數(shù)據集具有4維特征，包含3個不同類別的數(shù)據，每一類數(shù)據都有50個樣本;Soybean數(shù)據集具有35維特征值，包含4個不同類別的數(shù)據，其中3個類別每一類都有10個樣本，剩下一類有17個樣本。為便于描述，Iris的3個類別將采用符號數(shù)字1，2，3進行表示;Soybean的4個類別將采用符號數(shù)字1，2，3，4進行表示。

從圖1可見，對于數(shù)據集Iris和Soybean，利用兩種聚類算法處理時，對應的目標函數(shù)迭代誤差存在明顯差別。顯然，F(xiàn)CM聚類算法的目標函數(shù)迭代誤差在迭代初始階段較大，隨著迭代次數(shù)的增加，迭代誤差迅速減小并趨近于零;而改進FCM聚類算法的目標函數(shù)迭代誤差在迭代初始階段就很小。這主要是因為改進的FCM聚類算法在進行模糊聚類之前先利用MS算法搜索到了數(shù)據集的初始聚類中心，通常情況下，這些初始的聚類中心與最終的聚類中心已非常接近，所以改進的FCM聚類算法只需要很少的迭代次數(shù)即可收斂。因此，與FCM聚類算法相比，改進FCM聚類算法的數(shù)據處理效率更高，收斂速度更快。

兩種算法對兩個標準數(shù)據集的聚類準確率及運行時間如表2所示;具體的聚類結果如表3所示。

? ? ?表2顯示，利用兩種算法分別對Iris和Soybean兩個數(shù)據集進行聚類分析時，改進FCM算法的聚類準確率都更高。雖然改進的FCM算法比FCM算法的運行時間增長了1倍左右，這主要是由于利用MS算法搜索數(shù)據的初始聚類中心，所以增加了算法的運行時間，但都沒有超過0.3 s，具有較快的數(shù)據處理速度。

從表3可見，與FCM算法相比，改進FCM算法的聚類精度之所以得到提高，主要是其將FCM算法中聚類錯誤的部分數(shù)據樣本劃分到了正確的類別，從而增加了這些類別的正確樣本，與實際樣本數(shù)更加接近。雖然改進的FCM算法對于Iris數(shù)據集第2類數(shù)據樣本的正確劃分減少了2個，但第3類數(shù)據樣本的正確劃分增加了7個，從而使得Iris數(shù)據集的總體聚類準確率仍然提高了3.34%;對于Soybean數(shù)據集，其第3、第4類數(shù)據樣本的正確劃分數(shù)分別增加了1個和3個，從而將改進的FCM算法的聚類準確率提高了8.51%。

3.2 轉子-軸承系統(tǒng)故障數(shù)據

將本文提出的改進FCM聚類算法應用于圖2所示轉子-軸承系統(tǒng)故障數(shù)據的聚類分析。故障模擬實驗設置了質量不平衡、轉子不對中、動靜碰摩、軸承松動及正常共5種運行狀態(tài)。采集轉子轉速為3000 r/min時的振動信號，采樣頻率設置為5000 Hz，采樣點數(shù)確定為12500，每一種運行狀態(tài)都采集100個數(shù)據樣本。

? 由文獻[17-19]的研究結果可知，均方根、均方根頻率、頻率標準差可有效刻畫不同故障狀態(tài)，故選取這3個特征用于構造故障數(shù)據集。轉子實驗臺上共設置了12個振動傳感器，即采集的每一個樣本包含著12個通道，而每個通道的信號都能產生上述3個特征，因此可構成36維特征的故障數(shù)據集，如表4所示。

表4所示的故障特征數(shù)據由12個通道的振動信號計算得到，每一行代表著一個振動數(shù)據樣本，也就是說，每一個數(shù)據樣本都包含著轉子系統(tǒng)在某種運行狀態(tài)下12個不同測點位置上的振動特性。顯然，每3個特征來自一個信號通道，任何兩個通道的特征類型都是相同的，但是由于測點不同，即使同一特征也具有不同的特征值，因此這些特征包含著能夠相互補充的故障狀態(tài)信息。

表4雖然只給出了全部故障數(shù)據的一小部分，但是從表中數(shù)據仍然可以發(fā)現(xiàn)，對于相同的故障特征，轉子系統(tǒng)不同測點處的特征值存在明顯差別。這說明轉子系統(tǒng)不同測振點的振動狀況是不一樣的，利用多個傳感器組成多通道的數(shù)據采集陣列可最大程度上獲取轉子系統(tǒng)的完整狀態(tài)信息。

利用FCM算法和改進FCM算法對轉子故障數(shù)據集分別進行處理，其目標函數(shù)的迭代誤差如圖3所示。

從圖3可見，當?shù)螖?shù)到達26時，兩種聚類算法目標函數(shù)的迭代誤差都趨于零。但是，很明顯，F(xiàn)CM算法目標函數(shù)的初始迭代誤差較大，而改進的FCM算法目標函數(shù)的迭代誤差在迭代初期就很小，其收斂速度明顯更快，說明MS算法搜索的初始聚類中心已經非常接近故障數(shù)據集的真實聚類中心，從而可以有效加快改進FCM算法的收斂速度。兩種算法對轉子故障數(shù)據集的聚類準確率及運行時間如表5所示;具體的聚類結果如表6所示。

Li Huaijun， Xie Xiaopeng. Gear fault pattern recognition based on kernel feature fuzzy clustering and fuzzy association entropy[J]. Chinese Journal of Scientific Instrument， 2015， 36（4）： 848-855.

[9] 田再克，李洪儒，孫健，等. 基于改進MF-DFA和SSM-FCM的液壓泵退化狀態(tài)識別方法[J]. 儀器儀表學報， 2016， 37（8）： 1851-1860.

Tian Zaike， Li Hongru， Sun Jian， et al. Degradation state identification method of hydraulic pump based on improved MF-DFA and SSM-FCM[J]. Chinese Journal of Scientific Instrument， 2016， 37（8）： 1851-1860.

[10] 陳海鵬，申鉉京，龍建武，等. 自動確定聚類個數(shù)的模糊聚類算法[J]. 電子學報， 2017， 45（3）：687-694.

Chen Haipeng， Shen Xuanjing， Long Jianwu， et al. Fuzzy clustering algorithm for automatic identification of clusters[J]. Acta Electronica Sinica， 2017， 45（3）： 687-694.

[11] 董曉峰. 基于RCM分析的智能化汽輪機組故障診斷系統(tǒng)研究[D]. 北京：華北電力大學， 2012.

Dong Xiaofeng. Study on intelligent fault diagnosis system for turbogenerator based on RCM analysis[D]. Beijing： North China Electric Power University， 2012.

[12] 胡雅婷. 可能性聚類方法研究及應用[D]. 長春：吉林大學， 2012.

Hu Yating. Research and application of possibilistic clustering method[D]. Changchun： Jilin University， 2012.

[13] 宋新，羅軍，王魯平，等. 基于Mean Shift聚類的邊緣檢測方法[J]. 彈箭與制導學報， 2007， 27（1）： 366-368.

Song Xin， Luo Jun， Wang Luping， et al. Edge detection method based on Mean Shift clustering method[J]. Journal of Projectiles， Rockets， Missiles and Guidance， 2007， 27（1）： 366-368.

[14] 康家銀，紀志成，龔成龍. 一種核模糊C均值聚類算法及其應用[J]. 儀器儀表學報， 2010， 31（7）： 1657-1663.

Kang Jiayin， Ji Zhicheng， Gong Chenglong. Kernelized fuzzy C-means clustering algorithm and its application[J]. Chinese Journal of Scientific Instrument， 2010， 31（7）： 1657-1663.

[15] Fisher R A. Iris Data Set[DB/OL]. http：//archive.ics.uci.edu/ml/datasets/Iris， 1988-07-01.

[16] Michalski R S. Soybean （Small） Data Set[DB/OL]. http：//archive.ics.uci.edu/ml/datasets/Soybean+（Small）， 1987-01-01.

[17] Lei Yaguo， He Zhengjia， Zi Yanyang. A new approach to intelligent fault diagnosis of rotating machinery[J]. Expert Systems with Applications， 2008， 35（4）： 1593-1600.

[18] 張恒，趙榮珍. 故障特征選擇與特征信息融合的加權KPCA方法研究[J]. 振動與沖擊， 2014， 33（9）： 89-93.

Zhang Heng， Zhao Rongzhen. Weighted KPCA based on fault feature selection and feature information fusion[J]. Journal of Vibration and Shock， 2014， 33（9）： 89-93.

[19] 程曉涵，汪愛明，花如祥，等. 24種特征指標對軸承狀態(tài)識別的性能研究[J]. 振動、測試與診斷， 2016， 36（2）： 351-358.

Chen Xiaohan， Wang Aiming， Hua Ruxiang， et al. Studying on property of 24 characteristic indexes to bearing state recognition[J]. Journal of Vibration， Measurement & Diagnosis， 2016， 36（2）： 351-358.

Abstract： To solve the problems that initial clustering centers are uncertain and outliers are sensitive in the clustering analysis of rotating machine fault data， an improved fuzzy C-means （FCM） clustering algorithm based on integrated multi-strategy is proposed in this paper. Firstly， the fault data set is divided through the decision attribute of itself， and several equivalence classes derived from the equivalence relation are obtained. Then， each equivalence class is regarded as the feasible domain， and mean shift method is used to search the class center in the feasible domain. Finally， treating the searched class center as the initial clustering center of the clustering algorithm， the similarity between the fault data sample and the corresponding cluster center is measured via the kernel method in the high-dimensional feature space to achieve fuzzy clustering of fault data set. The performance of the proposed method is verified and compared via standard data sets and rotating machinery fault data sets. The results show that the clustering performance of the proposed method is significantly improved compared with the FCM algorithm and the proposed method has significant advantages over the FCM algorithm in terms of convergence speed and clustering accuracy.

Key words： fault diagnosis; rotating machinery; clustering analysis; fuzzy C-means; clustering performance

作者簡介：鄧林峰（1984-），男，副教授。電話： 15193117545; E-mail： denglinfeng2002@163.com

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

集成多策略改進FCM算法的旋轉機械故障數(shù)據聚類分析研究