基于EMD與模糊聚類的樁缺陷特征提取與識別

2019-03-15 12:52:02李衡康維新

應用科技 2019年2期

李衡，康維新

哈爾濱工程大學信息與通信工程學院，黑龍江哈爾濱 150001

信號特征的提取方法主要為傅里葉變換、小波分析等，提取的特征參量主要為信號的幅值、能量、頻率等。小波分析是目前常用的信號分解方法，經(jīng)小波分解，時域信號可分解為不同頻段的時域信號。但是小波變換不具有自適應性，小波基的選擇比較困難，小波參數(shù)的選擇將直接影響到最后的診斷結(jié)果[1?4]，存在很大的人為因素的影響。同時共振解調(diào)存在與小波變換相同的缺陷，需要人為地選擇一些參數(shù)，也不具有自適應性[5?7]。

EMD算法是一種信號分解方法，把信號分解為一系列平穩(wěn)的信號分量，且分量按頻率由高到低排列，與小波分析相比不用人為地選擇小波基。但是目前的研究主要考慮EMD分解的某一部分分量，摒棄了大量的信號特征信息，且特征參量多只考慮幅值、能量等信息[8]。張志剛等[9]在提取滾動軸承的故障特征時利用了灰色關(guān)聯(lián)度和互信息來改進EMD算法，但是兩者都只能度量EMD分量的一個尺度，也就是相關(guān)性。胡愛軍等[10]利用了峭度準則進行特征提取時只選擇了一個固有模態(tài)函數(shù)（intrinsic mode function，IMF）分量，移除了大量的特征信息。

在特征的選擇方面，眾多學者在選擇算法和特征評價中取得了豐碩的研究成果。要明確起關(guān)鍵作用的特征組，首先必須明確選擇的算法，再者就是制定相應的評價準則對所提取的特征向量進行評價分析[11]。同時，特征樣本數(shù)越多就會造成模型越復雜，訓練的速度也越慢，因此數(shù)據(jù)降維也是一個研究的熱點。通常數(shù)據(jù)信號的降維從兩個方面來考慮：其一就是直接提取特征子集抽取特征；其二就是用線性或者非線性的方式通過變換空間實現(xiàn)信號特征的降維。第2種方法是目前運用的主流。線性映射的方法主要有主成分分析（principal component analysis，PCA）、線性判別分析（linear discriminant analysis，LDA）。PCA 可以提取信號主要的信息，但是該方法需要計算協(xié)方差矩陣，計算量較大；LDA原理比較簡單，容易理解，但是計算較復雜；而利用核函數(shù)的特征降維方法最后的結(jié)果受核的選擇的影響[12]。

為了解決上面提到的問題，本文提出一種基于EMD的特征提取與識別方法。利用信號的信息熵構(gòu)建基于信息熵的均值特征向量，同時引入模糊聚類對特征向量進行再選擇，探討不同聚類數(shù)下的特征向量對識別結(jié)果的影響。首先對信號數(shù)據(jù)進行EMD分解，求取各個分量的信息熵，基于信息熵構(gòu)建均值特征向量；然后基于模糊聚類算法對均值向量進行特征降維選擇；最后利用BP神經(jīng)網(wǎng)絡進行識別訓練。

1 基于信息熵的特征向量構(gòu)建

1.1 信息熵理論

熵是隨機變量不確定性的度量。如果一個離散型隨機變量 X ，該隨機變量的取值空間為A，概率密度函數(shù) p (x)=Pr(X=x),x∈A。那么我們就可以把一個離散型隨機變量 X 的熵 H (X)記做[13]

1.2 經(jīng)驗模態(tài)分解

EMD是一種會把信號分解為一系列平穩(wěn)信號分量的分解方法，且分量按頻率由高到低排列。目前在缺陷檢測、狀態(tài)監(jiān)測、特征向量的構(gòu)建以及信號去噪等方面得到了普遍且成熟的應用，取得了豐碩的學術(shù)成果。經(jīng)驗模態(tài)分解步驟如下：

假設待分解信號模型為：

式中： f (t)表示含有噪聲的觀察信號； s (t)為觀察信號； n (t)為Gaussian白噪聲。

1）計算出信號 f (t)所有的極值點。

2）求取全部極大值點連接起來生成的包絡線u0(t)，以及全部極小值點連接起來生成的包絡線v0(t)。

3）對2條包絡線求取平均值為 m0(t)，表示為

并記信號與平均值 m0(t)的差值為 h0(t)，表示為

4）判斷 h0(t)是否滿足差值 h0(t)極值點數(shù)目和過零點數(shù)目的相差為0或者1；差值 h0(t)的上下包絡線由式（1）計算，所得的均值為0。若滿足這2個條件，則 h0(t)為IMF；否則，令 h0(t)為 f (t)繼續(xù)執(zhí)行步驟1）到步驟3），獲得一個合格的IMF，記為 c1(t)。

5）記 r1(t)=f(t)?c1(t)為新的信號 f (t)，然后執(zhí)行步驟1）到步驟4），獲得第2個IMF分量，記為c2(t)，以及余項 r2(t)=r1(t)?c2(t)。循環(huán)執(zhí)行上述步驟，當余項 rn(t)是一個單調(diào)信號或 rn(t)的值已經(jīng)達到閾值的要求時，分解完成。獲得的 n個IMF分量分別用 c1(t),c2(t),···,cn(t)表示，余項記為 rn(t)，到此整個分解過程結(jié)束。原始信號被分解為

1.3 構(gòu)建基于信息熵的均值特征向量

為了構(gòu)建樁基缺陷數(shù)據(jù)的基于信息熵的均值特征向量，利用EMD方法對缺陷信號進行分解。分解后的分量為了方便求取信息熵，在時間軸上選取固定長度的信號作為一個檢測單元，然后再依次平移檢測單元，完成整個信號長度的計算。檢測單元、平移距離如圖1所示。

圖1 信號截取設定示意

檢測單元寬度T和平移距離 Bt是2個需要在文中進行選擇的參數(shù)，它們的選擇會決定樁基缺陷信號特征提取的合理性，所以在構(gòu)建均值特征向量時，要充分考慮檢測單元寬度和平移距離這2個參數(shù)。檢測單元寬度的設定一般與信號的波長大致相同；平移距離決定了缺陷點在整個時間軸上的分辨率，平移距離越小，分辨率越高。參考相關(guān)文獻知識，檢測單元的平移距離與檢測單元的寬度有關(guān)。綜合考慮，步進長度的設定范圍定為

信息熵的求解重點是概率 p的求解。對于可以確認具體的取值范圍的數(shù)據(jù)，可以直接根據(jù)每一個取值出現(xiàn)的次數(shù)確定概率。但是，對于本文所分解的樁基缺陷信號，數(shù)值的范圍并不是確定的，如果進行變換，使其轉(zhuǎn)換到一個整數(shù)范圍的話，會造成數(shù)據(jù)的丟失，因此本文采用一種一維序列求取信息熵常用的方法。首先對信號在幅值范圍內(nèi)進行分塊，通過計算幅值的最大值和最小值構(gòu)成的區(qū)間，均分為 N 塊；然后計算時間軸上固定長度下每一塊的數(shù)據(jù)個數(shù)占所有數(shù)據(jù)總數(shù)的比例，求出相應的概率；最后分別求取每個分量的信息熵后，求取它們的平均值，構(gòu)建基于信息熵的均值特征向量。

2 基于模糊聚類的特征選擇

2.1 模糊聚類

假設存在論域 X ，則認為從該論域到[0，1]區(qū)間的映射關(guān)系記為 μA:X→[0,1]，構(gòu)成了該論域的一個模糊集。對于每一個 x ∈X ， μA(x)叫做元素 x對模糊集 A的隸屬度。隸屬度函數(shù)的值越大說明某一個元素屬于該類的程度越強，但是再大也不會超過1；越小就說明越不屬于該類，但是再小也不會超過0。其本質(zhì)表示的是某一個元素是否屬于一個類的程度。

模糊 C 均值聚類（fuzzy c-means，F(xiàn)CM）方法第一次由E Ruspini在論文中進行較完整的闡述。隨著其他學者對該方法的進一步研究，把算法在具體的應用方法上進行了推廣，開始應用于模糊聚類的相關(guān)領(lǐng)域。這種推廣大大加速了FCM算法在實際工程中的應用。FCM算法進行聚類的主要原理是通過迭代的方式對目標函數(shù)進行計算更新，直到達到理想的聚類效果。通過隸屬度函數(shù)，判斷每一個元素屬于一個類的程度，完成每一個類的劃分，只要在程序中設定了聚類數(shù)，后續(xù)的處理將會自動地自適應完成[14?15]。

FCM算法的目標函數(shù)為

FCM算法執(zhí)行步驟如下：

1）給定聚類數(shù) c（11）、最大迭代次數(shù)T、收斂的精度、隨機初始劃分隸屬度矩陣U，確定初始聚類中心以及距離；

4）判斷是否滿足停止條件（達到最大迭代次數(shù)或者達到收斂精度），如果滿足就停止，否則繼續(xù)執(zhí)行步驟2）。

2.2 基于模糊聚類算法的數(shù)據(jù)處理

假定待處理的基于信息熵的均值向量為

首先對式（2）重新進行構(gòu)造，構(gòu)成用于模糊聚類的輸入矩陣。以長度 n進行分段，構(gòu)成 m行 n列的矩陣且 N =m·n 。如果 N 不能夠剛好被 n整除，則在末尾補零處理。構(gòu)造矩陣A如下：

式（2）與（3）的對應關(guān)系如表1所示。

表1 均值向量與重構(gòu)矩陣各元素對應關(guān)系

從矩陣A我們可以看出，該矩陣有 m 行，確定聚類數(shù) c 后利用FCM算法生成 c個數(shù)目的聚類。對于相同聚類里面的行向量求取他們的平均值，生成 c 行 n列的簡化矩陣，簡化矩陣表示如下

根據(jù)式（4）中的降維矩陣B生成新的特征向量，表示為 F ={f1,f2,···,fN}。F與降維矩陣B之間的對應關(guān)系如表2所示。

表2 新特征向量與降維矩陣關(guān)系

這樣原本的均值向量X就被簡化為了特征向量F。然后把新構(gòu)建的特征向量作為神經(jīng)網(wǎng)絡的輸入用于對缺陷信息進行識別分類。

但是在文中利用式（5）確定聚類數(shù)c并不可行，因為每一個缺陷我們有50組數(shù)據(jù)，但是對每一組數(shù)據(jù)來說都可能存在不同的最佳聚類數(shù)，這樣就會導致構(gòu)建的新特征向量維數(shù)不相同，也就無法作為神經(jīng)網(wǎng)絡的輸入。以擴頸樁數(shù)據(jù)為例，第 1、3組數(shù)據(jù)計算得到的 L (c)值如表3、4所示。

表3 擴頸樁第1組數(shù)據(jù)不同聚類數(shù) c 下對應的 L (c)的值

表4 擴頸樁第3組數(shù)據(jù)不同聚類數(shù) c 下對應的 L (c)的值

利用模糊聚類算法對相空間重構(gòu)后的矩陣進行聚類分析，對于同類的行向量合并，達到對重構(gòu)的矩陣降維的效果；把降維后的矩陣再重構(gòu)回一維特征向量，構(gòu)建一種新的特征向量，實現(xiàn)對特征向量的選擇。

3 實驗仿真分析

根據(jù)上述的新的特征向量的構(gòu)建規(guī)則對基于信息熵的均值向量進行優(yōu)化處理。步驟總結(jié)如下：

1）把基于信息熵的均值特征向量進行相空間重構(gòu)；

2）利用FCM算法進行聚類分析；

3）根據(jù)分類結(jié)果構(gòu)造聚類后的矩陣；

4）根據(jù)聚類后的矩陣生成新的特征向量。

由基于信息熵的均值向量的仿真實驗結(jié)果可知，基于信息熵的均值向量共有52個特征元素，在末尾補2個零元素，首先設定等于9，構(gòu)造成6行9列的矩陣。以縮頸樁數(shù)據(jù)為例，構(gòu)成的矩陣如下（保留兩位小數(shù)）：

對式（6）中的矩陣A進行模糊聚類算法處理，設定聚類數(shù) c為3的情況下，可以得到隸屬度矩陣 U 為（為了方便表示，結(jié)果四舍五入并保留2位小數(shù)）：

聚類結(jié)果如表5所示。

表5 當聚類數(shù)為 3 時縮頸樁分類結(jié)果

根據(jù)分類結(jié)果，生成新的優(yōu)化特征向量，并利用該向量進行基于BP神經(jīng)網(wǎng)絡的識別訓練，同時輸出為設定的如表6所示的網(wǎng)絡編號。

表6 缺陷類型以及相對應的網(wǎng)絡編號

經(jīng)過BP神經(jīng)網(wǎng)絡識別后，識別率與差錯率如圖2所示。

圖2 基于聚類數(shù)為3時的優(yōu)化特征識別分類結(jié)果

從圖2的識別結(jié)果可以看出，基于模糊聚類處理的優(yōu)化特征向量具有很好的識別結(jié)果，識別率達到了98%。然而單次的仿真實驗具有一定的隨意性，沒有說服力。

表 7 不同聚類數(shù)下的識別率對比 %

圖3 30 次仿真實驗識別率對比

從表7可以看出，在10、20、30次實驗的情況下，聚類數(shù)為3時的識別率均高于當聚類數(shù)為2、4時的識別率；同時從圖3可以看出，當聚類數(shù)為3時識別率最平穩(wěn)，沒有出現(xiàn)其他2種情況的大波動。

PCA降維是目前應用比較廣泛的降維方法，本文對于2種算法在降維后，維數(shù)為3時的識別率和時間開銷進行了分析，分析結(jié)果如表8所示。

表8 模糊聚類與PCA方法降維后構(gòu)建的特征識別分析

從表8可以看出，2種方法相比，基于模糊聚類構(gòu)建的新特征取得的識別率明顯高于PCA方法構(gòu)建的特征，同時所消耗的時間顯著縮短。因而基于模糊聚類方法降維顯著地優(yōu)于PCA降維。

4 結(jié)論

本文主要解決樁基缺陷信號的特征提取、降維與識別。基于EMD分解構(gòu)建了基于信息熵的均值特征向量；引入模糊聚類的相關(guān)技術(shù)方法，對基于信息熵的均值特征向量進行相空間重構(gòu)然后進行降維，實現(xiàn)特征向量的降維選擇。所取得的結(jié)論如下：1）通過30次仿真實驗以及10次與PCA的對比實驗驗證了基于信息熵的均值特征向量以及基于模糊聚類構(gòu)建的新特征向量取的了理想的識別效果；2）從識別率和穩(wěn)定性2個方面考慮了不同聚類數(shù)對識別結(jié)果的影響，實驗結(jié)果顯示當聚類數(shù)為3時識別效果最好。

本文構(gòu)建了一種有效的特征類型，具有實際的應用價值，但是在聚類數(shù)的選擇中只能通過仿真實驗獲取，還需要進一步的研究。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看