柏 林, 曾 柯, 徐冠基, 陸 超
(重慶大學機械傳動國家重點實驗室 重慶,400044)
在實際的機械故障診斷過程中,提取的蘊含機械故障信息的特征值相互之間往往存在著某種數(shù)學關(guān)系,而且這種內(nèi)在數(shù)學關(guān)系會因系統(tǒng)或工作狀態(tài)類別的不同而存在明顯的差異[1]。Raghuraj等[2]提出了一種VPMCD的模式識別方法,該方法主要利用樣本特征值內(nèi)在的相關(guān)性來建立特征學習模型,由于模型可以是非線性的、高階的,因而VPMCD方法可以和支持向量機、神經(jīng)網(wǎng)絡一樣處理非線性多變量預測問題。但是VPMCD方法對小樣本問題的處理能力不佳,在訓練樣本比例為15%~30%之間時,VPMCD方法的預測精度[3]只有76.67%~87.63%,當訓練樣本比例為35%時,VPMCD方法預測精度[4]最高只有82%。VPMCD方法是基于最小二乘原理,當訓練樣本較少時會導致VPM模型預測不準確。另外單次VPMCD模型預測精度不高,在模式識別中可能會將某一預測樣本投向錯誤的標簽,即模型穩(wěn)定性不好。楊宇等[1]將量子遺傳算法應用到了VPMCD中克服了VPMCD選擇模型的單一性和泛化能力較弱的缺點。程軍圣等[5]為了解決VPMCD模型擬合過程中最小二乘法存在病態(tài)的問題將BP神經(jīng)網(wǎng)絡非線性回歸方法代替了最小二乘法解決了該問題。但是他們都沒有解決VPMCD方法對小樣本處理能力不佳的問題,即當訓練樣本較少時會導致VPM模型預測不準確。因此筆者將投票法應用到了VPMCD多變量預測模型中。投票法就是將多個分類器的輸出值進行組合,形成一個輸出值,從而產(chǎn)生一個組合分類器的過程[6],常對分類存在不穩(wěn)定或弱分類器集成時使用,是一種具有較強普適性的改進算法,對一次預測不準確的前提下,可以經(jīng)過重復預測找出最有置信度的預測結(jié)果。另外由于滾動軸承的振動信號常常是復雜的非線性和非平穩(wěn)性信號,因此利用非線性參數(shù)估計方法來提取隱藏在滾動軸承振動信號中的故障特征被越來越多的引入到軸承的故障診斷當中[7]。借助于RQA法對非線性、非平穩(wěn)信號分析的魯棒性和樣本質(zhì)量不高時處理的優(yōu)勢[8],在此基礎之上提出了基于RQA和V-VPMCD的軸承故障識別方法(RQA+V-VPMCD)。最后通過對滾動軸承不同故障類型的故障模式識別實驗,并對比傳統(tǒng)VPMCD算法,SVM算法和BP神經(jīng)網(wǎng)絡算法的識別準確率,驗證了該方法的有效性和準確性。
滾動軸承在各種工況下,由于其載荷分布不均,剛度具有時變性,內(nèi)外圈與滾動體的間隙以及摩擦等非線性因素影響導致滾動軸承的振動具有強烈的非線性性,因此傳統(tǒng)的時域或頻域分析方法對于非線性信號的分析具有一定的局限性[7]??紤]到RQA方法是一種有效的時間序列分析工具,適于分析非線性動力學系統(tǒng),該方法對于非線性非平穩(wěn)信號的分析有較強的魯棒性,使用RQA分析信號可以獲得其他方法難以得到的可靠結(jié)論[8-9]。因此本研究選擇RQA方法對振動信號的非線性特征進行提取。
遞歸圖[10]可以表示為
(1)
(2)
其中:X(i)m,X(j)m為空間嵌入矢量。
(3)
其中:m為重構(gòu)維數(shù);τ為延遲時間;xT表示x矩陣的轉(zhuǎn)置;i滿足1≤i≤N0-(m-1)τ。
由于X(i)m與自身的距離為0,故遞歸圖總有一條主對角線存在,遞歸圖中不規(guī)則的散列點反應了該系統(tǒng)中的隨機成分,與主對角線平行的線段代表系統(tǒng)中的某些周期成分。幾個常見的遞歸定量分析特征[8]如表1所示。
表1 遞歸定量分析特征
在傳統(tǒng)的VPMCD方法中[2],常用的特征Xi變量預測模型VPMi(theith variable predictive model,簡稱VPMi)主要有以下幾種形式:線型模型L、線型交互模型LI、二次模型Q和二次交互模型QI。以任一模型為例,對特征量Xi建立預測模型VPMi,采用特征向量中其余特征值Xj(j≠i)來預測特征量Xi,有
Xi=f(Xj,b0,bj,bjj,bjk)+ζi
(4)
其中:ζi為預測模型誤差;b0,bj,bjj,bjk為模型參數(shù),通過訓練樣本擬合獲得,算法流程見參考文獻[2]。
VPMCD算法基于最小二乘原則,在真實情況中,常常會遇到訓練樣本數(shù)量較少的小樣本問題,小樣本情況下會產(chǎn)生兩類問題:a.樣本數(shù)量P少于參數(shù)個數(shù)Q時,擬合會舍去后面的Q-P個參數(shù),導致擬合的不準確,最終影響預測結(jié)果;b.由于VPMCD算法基于擬合特性,當樣本數(shù)較少時,訓練樣本的質(zhì)量對最終預測結(jié)果影響非常大。圖1給出了訓練樣本為較優(yōu)子集和較劣子集兩種情況下的VPMi訓練模型質(zhì)量對比,圖中黑色和灰色圓點表示類別1樣本聚類,白色圓點表示類別2樣本聚類,每個樣本由(X1,X2)兩個特征組成。當訓練樣本集合能夠反映出真實的樣本群特性時,預測效果較優(yōu),當訓練樣本中離群點相對較多,聚類特性不明顯時,擬合偏差較大,造成與真實的樣本群特性差異較大,影響識別精度。
圖1 訓練子集質(zhì)量對擬合結(jié)果的影響Fig.1 The influence of the quality of training subsets on the fitting results
在無法增加訓練樣本數(shù)量的情況下,改進VPMCD算法抑制其不穩(wěn)定性就顯得尤為重要,現(xiàn)將投票法引入到VPMCD算法中,提出V-VPMCD(Voted-VPMCD)算法來改進針對小樣本下VPMCD模型預測精度不高的問題。投票法常用于對分類存在不穩(wěn)定性或弱分類器集成時使用,是一種具有較強普適性的改進算法。投票法的分類很多,其中Breiman[11]提出的裝袋算法是用多數(shù)投票法將多個預測結(jié)果合并成最終結(jié)果輸出。算法基本原理首先是選定迭代次數(shù),也即投票次數(shù)i(i=1,2,3,…,k),在樣本集D={X1,X2,X3,…,XN}中有效地組合n個樣本得到訓練樣本集Di,用訓練樣本集訓練分類器可以得到分類模型Mi,再將測試樣本輸入分類模型Mi返回預測標簽,并對該標簽計一票,最后由復合模型M*統(tǒng)計得票數(shù),所得票數(shù)最多的標簽即為測試樣本最終標簽。已經(jīng)證明,只要單個分類器相互獨立,分類器的個數(shù)趨向無窮時,組合分類器的分類錯誤會趨向于0[6]。將投票法引入到VPMCD算法中,可以解決小樣本學習時訓練子集選取的不確定性對分類精度造成影響,因為V-VPMCD變量預測模型下的一次分類預測相當于在原VPMCD模型下多次分類預測的尋優(yōu),因此V-VPMCD算法可以保持小樣本數(shù)下較高的分類精度。算法流程如下。
1) 獲取需要分析的時間序列{x(i)|i=1,2,…,N0}。
2) 利用互信息法求取延遲時間τ,利用CAO法求取重構(gòu)維數(shù)。
3) 重構(gòu)至高維空間X={x(i),x(i+τ),…,x(i+(m-1)τ)}T。
4) 設置遞歸閾值ε進行遞歸分析。
5) 計算RQA中共計r個遞歸量化參數(shù):αRR,αDET,αENTR等。
6) 重復步驟1~5,計算得到N個信號樣本的r個遞歸量化值,組成N×r的遞歸量化參數(shù)矩陣。對每一行樣本所屬的標簽打上標記,對一個p分類問題總計有p類標簽。
9) 多次投票結(jié)果組成預測矩陣Pi×k,1≤i≤Ntest,對某個預測樣本統(tǒng)計多次投票中出現(xiàn)次數(shù)最多的標簽作為該預測樣本的最終標簽。
文中選取由Case Western Reserve University提供的滾動軸承故障實驗數(shù)據(jù),單位樣本信號截取L=1 024個點,針對滾動軸承的10種故障狀態(tài),即10種標簽類型,分別為正常、內(nèi)圈故障(0.177 8 mm)、內(nèi)圈故障(0.355 6 mm)、內(nèi)圈故障(0.533 4 mm)、滾動體故障(0.177 8 mm)、滾動體故障(0.355 6 mm)、滾動體故障(0.533 4 mm)、外圈故障(0.177 8 mm)、外圈故障(0.355 6 mm)和外圈故障(0.533 4 mm),括號中的數(shù)字代表故障尺寸,采用電火花加工,為單點損傷。每種故障狀態(tài)選取50組樣本,10類故障總計500組樣本。
然后利用RQA對上述樣本集提取特征。在進行遞歸分析的時候,以下3個參數(shù)的選取對于特征提取至關(guān)重要,即重構(gòu)維數(shù)m,延時時間τ和參考閥值ε。CAO法[12]可選擇合適的重構(gòu)維數(shù)m,而延遲時間τ的選擇多采用自相關(guān)函數(shù)法或互信息法[13]。參考閥值ε一般取使得遞歸率αRR約為10%時的值[14]。然后計算得到由遞歸率αRR、確定率αDET、平均對角線長αL、遞歸熵αENTR和層流率αLAM這5個特征組成特征向量,得到一個維數(shù)為500×5的特征矩陣,即為特征樣本集。
為了說明以RQA作為特征提取方法對VPMCD預測精度的提升,將EMD能量熵特征提取方法與其進行對比,得到如圖2所示的RQA-VPMCD和EMD能量熵-VPMCD準確率對比。從圖2中可以看出RQA對于VPMCD的預測精度,特別是小樣本情況下的預測精度提升作用明顯。
圖2 RQA-VPMCD和EMD能量熵-VPMCD準確率對比Fig.2 The accuracy rate of RQA-VPMCD and EMD -VPMCD
分別隨機選取100和300組樣本作為訓練樣本集,輸入VPMCD方法進行模型擬合。表2給出了不同訓練樣本數(shù)下VPMCD的最佳擬合模型,其中Xi表示第i個特征的預測模型VPMi。在較少樣本的情況下,各類特征的預測模型會傾向于選擇低階模型,如線性模型L和線性交互模型LI,而當樣本數(shù)目較多,預測模型會更傾向于選擇高階模型,尤其是最復雜的二次交互模型QI,其擬合殘差最小。
表2 訓練所得各特征最佳擬合模型類型
Tab.2 Best fitting model type of features after training
模型狀態(tài)訓練樣本少(100個為例)訓練樣本多(300個為例)X1X2X3X4X5X1X2X3X4X5正常狀態(tài)LILILIQQQIQIQIQIQI內(nèi)圈(0.1778mm)QIQLILIQIQIQIQIQIQI滾動體(0.1778mm)QIQILILIQIQIQIQIQIQI外圈(0.1778mm)QIQIQIQIQIQIQIQIQIQI內(nèi)圈(0.3556mm)QQILIQQQIQIQIQIQI滾動體(0.3556mm)QIQIQIQIQIQIQIQIQIQI外圈(0.3556mm)QILIQIQIQIQIQIQIQIQI內(nèi)圈(0.5334mm)QIQIQIQIQIQIQIQIQIQI滾動體(0.5334mm)QIQILILILIQIQIQIQIQI外圈(0.5334mm)QIQILLLIQIQIQIQIQI
表3給出了VPMCD算法對不同訓練樣本數(shù)和測試樣本數(shù)情況下其預測模型的識別準確性。由表3可知,VPMCD算法分類精度總體上隨著訓練樣本的增加而增加,當訓練樣本數(shù)與預測樣本數(shù)接近或相同時其分類性能達到較優(yōu)狀態(tài)。隨著訓練樣本的增多,測試樣本的減少,VPMCD算法的計算耗時呈現(xiàn)下降趨勢。這主要是由于訓練的計算開銷主要為構(gòu)建各個預測類型的VPMin,其中包括最小二乘的擬合過程,只需對矩陣QR分解后求解即可;另外,對每個標簽每類特征尋找其最小殘差的擬合模型也具有一定的計算量。而預測的開銷主要是將預測樣本代入多類VPMin中并計算比對誤差最小的平方和標簽,這是一個多次迭代和比較的過程,因此,原則上單位樣本的預測耗時要大于訓練耗時,文獻[15]中的結(jié)論也證實了這點。
表3VPMCD不同訓練、測試樣本數(shù)情況下識別性能
Tab.3RecognitionperformanceofVPMCDbasedondifferentnumbersoftrainingandtestingsamples
總訓練樣本數(shù)總測試樣本數(shù)正確分類樣本(10次)平均準確率/%平均耗時/s100400329782.430.281120380328386.400.250140360314087.220.218160340299788.150.174180320285489.190.124200300273891.270.086220280258592.320.081240260242293.150.072260240226194.210.068280220207094.100.064300200187293.600.060320180169794.280.051340160150093.750.050360140131694.000.047380120113894.830.04440010094594.500.042
表4給出了訓練樣本數(shù)為100時10種滾動軸承狀態(tài)的投票的樣例,表4中黑色加粗的數(shù)字即為該次投票投向的錯誤標簽號,這也是單次VPMCD算法的準確率不是很高的原因。有許多測試樣本在某一些訓練樣本擬合的模型情況下被預測正確,而在另外一些訓練樣本擬合的模型情況下被預測錯誤,即模型穩(wěn)定性不高,因此多次投票就顯示出了其優(yōu)越性。在多次投票情況下,將出現(xiàn)次數(shù)最多的標簽作為測試樣本的最終標簽,可以看到樣例中的樣本都獲得了正確的預測標簽。若出現(xiàn)像第9個樣本在10次投票過程中標簽“7”和標簽“9”得票相同這種情況,根據(jù)裝袋投票法[11],若投票次數(shù)越多那么最后投票結(jié)果就越接近于真實結(jié)果,因此規(guī)定重新做10次投票,綜合20次投票得出投票結(jié)果。若還是不能分出結(jié)果,就根據(jù)這兩類得票數(shù)相同的標簽中哪個標簽在20次投票中第一次出現(xiàn)作為最后投票結(jié)果,經(jīng)過20次投票后最終投票結(jié)果為“9”號標簽,其與真實標簽是相符的。
表4 V-VPMCD算法的投票樣例
表5給出了V-VPMCD算法在不同訓練樣本數(shù)目下其預測模型識別性能概況。對比表3和表5可以看出,在訓練樣本數(shù)較少時,經(jīng)過投票后的VPMCD算法其預測模型的準確度可以獲得大約12%的提升,那是因為投票法增加了算法的穩(wěn)定性,異常樣本對整體識別精度的影響被弱化了??傮w而言,相較于VPMCD預測模型,V-VPMCD預測模型在預測準確率方面提高3%~12%,因為一次預測相當于在多次VPMCD投票的綜合結(jié)果中尋優(yōu),但是也正因為這個原因V-VPMCD算法的平均耗時要大于VPMCD算法。
表5V-VPMCD不同訓練、測試樣本數(shù)情況下識別性能
Tab.5RecognitionperformanceofV-VPMCDbasedondifferentnumbersoftrainingandtestingsamples
總訓練樣本數(shù)總測試樣本數(shù)正確分類樣本(10次)平均準確率/%平均耗時/s100400381195.287.367120380367696.735.782140360349196.974.674160340328396.555.016180320311897.452.393200300293697.851.913220280273397.611.707240260253997.681.623260240233397.201.682280220212696.641.648300200193296.601.665320180174697.001.003340160154696.630.938360140135496.710.890380120115696.330.83940010095695.600.789
圖3給出了在同一RQA特征樣本集下V-VPMCD,VPMCD,SVM和BP神經(jīng)網(wǎng)絡這4種分類模型的預測準確率比較。
圖3 BP,VPMCD,SVM和V-VPMCD識別率對比Fig.3 General recognition rate of BP, VPMCD, SVM and V-VPMCD
從圖中可以看出在各種訓練樣本數(shù)情況下,經(jīng)過投票法改進的VPMCD分類模型較其余分類模型有明顯的優(yōu)勢,并且在當訓練樣本極少(即40個樣本,占總特征樣本集的8%)的情況下其準確率也能達到90%以上。并且V-VPMCD分類模型當訓練樣本數(shù)與預測樣本數(shù)接近或相同時其分類性能達到最優(yōu)狀態(tài),但是當訓練樣本較充足時隨著訓練樣本的增加V-VPMCD預測模型預測精度有微小下降,這是因為當訓練樣本較充足時影響預測精度的不再是訓練樣本的數(shù)量,并且文中在樣本總和保持不變的情況下訓練樣本增加而測試樣本減少,這時測試樣本中的極少數(shù)離群樣本對預測準確率的負面影響較測試樣本量多時要大,文獻[16-17]中也證實了這一點。VPMCD分類模型的識別準確率與訓練樣本數(shù)呈現(xiàn)很強的正相關(guān)性,在小樣本情況下其預測精度很低。
對比其他文獻,例如文獻[3]中可以看到在訓練樣本比例為15%~30%之間時,VPMCD方法的預測精度只有76.67%~87.63%,文獻[4]中當訓練樣本比例為35%時,VPMCD方法預測精度最高只有82%,這足以說明VPMCD方法在小樣本情況下的識別性能不佳,而通過RQA+V-VPMCD方法能極大地提高其識別性能。
VPMCD算法識別準確率隨著訓練樣本的遞增呈現(xiàn)很強的正相關(guān)性,因而會面臨很嚴重的小樣本問題。因此筆者將投票法應用到了VPMCD多變量預測模型中,該方法核心思想就是對一次預測不準確的前提下,可以經(jīng)過重復預測找出最有置信度的預測結(jié)果。同時利用RAQ對非線性、非平穩(wěn)信號分析的魯棒性和樣本質(zhì)量不高時處理的優(yōu)勢,來提取滾動軸承振動信號的非線性特征。在此基礎上提出的基于RQA和V-VPMCD的滾動軸承故障識別方法,根據(jù)其在滾動軸承故障模式識別實驗中的應用分析可知:a.RQA有對過程平穩(wěn)性要求低,分析魯棒性好的優(yōu)勢,它能準確提取出滾動軸承振動信號中的非線性特征,對分類準確率的提升有很大貢獻;b.經(jīng)過投票法優(yōu)化后的VPMCD算法結(jié)合了VPMCD算法利用特征關(guān)聯(lián)性作為分類依據(jù)的優(yōu)越性,以投票的機制克服了單次擬合結(jié)果不穩(wěn)定的情況,從多次投票中選取出現(xiàn)次數(shù)最多的標簽來標記預測樣本。預測標簽準確性得到較大提升,提高了模式識別的精度和穩(wěn)定性。
[1] 楊宇,李紫珠,何知義,等.QGA-VPMCD智能診斷模型研究[J].振動與沖擊,2015,34(13):31-35.
Yang Yu, Li Zizhu, He Zhiyi, et al. QGA-VPMCD intelligent diagnosis model[J]. Journal of Vibration and Shock, 2015,34(13):31-35. (in Chinese)
[2] Raghuraj R, Lakshminarayanan S. Variable predictive models—a new multivariate classification approach for pattern recognition applications[J]. Pattern Recognition, 2009,42(1):7-16.
[3] 羅頌榮,程軍圣,鄭近德,等.GA-VPMCD方法及其在機械故障智能診斷中的應用[J].振動工程學報,2014,27(2):289-295.
Luo Songrong, Cheng Junsheng, Zheng Jinde, et al. GA-VPMCD method and its application in machinery fault intelligent diagnosis[J]. Journal of Vibration Engineering, 2014,27(2):289-295. (in Chinese)
[4] 劉吉彪,程軍圣,馬利.基于 PSODACCIW-VPMCD 的滾動軸承智能檢測方法[J].振動與沖擊,2015,34(23):42-47.
Liu Jibiao, Cheng Junsheng, Ma Li. An intelligent detection method for rolling bearings based on PSODACCIW-VPMCD[J]. Journal of Vibration and Shock, 2015,34(23):42-47. (in Chinese)
[5] 程軍圣,馬利,潘海洋,等.基于EEMD和改進VPMCD的滾動軸承故障診斷方法[J].湖南大學學報:自然科學版,2014,41(10):22-26.
Cheng Junsheng, Ma Li, Pan Haiyang, et al. A fault diagnosis method for rolling bearing based on EEMD and improved VPMCD[J]. Journal of Hunan University: Natural Sciences, 2014,41(10):22-26. (in Chinese)
[6] 王素格,楊軍玲,張武.基于最大熵模型與投票法的漢語動詞與動詞搭配識別[J].小型微型計算機系統(tǒng),2007,28(7):1306-1310.
Wang Suge, Yang Junling, Zhang Wu. Chinese Verb-verb collocation recognition based on maximum entropy model and voting[J]. Journal of Chinese Computer systems, 2007,28(7):1306-1310. (in Chinese)
[7] 朱可恒.滾動軸承振動信號特征提取及診斷方法研究[D].大連:大連理工大學,2013.
[8] Trulla L L, Giuliani A, Zbilut J P, et al. Recurrence quantification analysis of the logistic equation with transients[J]. Physics Letters A, 1996,223(4):255-260.
[9] 尹少華,楊基海,梁政,等.基于遞歸量化分析的表面肌電特征提取和分類[J].中國科學技術(shù)大學學報,2006,36(5):550-555.
Yin Shaohua, Yang Jihai, Liang Zheng, et al. Recurrence quantification analysis based on surface EMG signal feature extration and classification[J]. Journal of University of Science and Technology of China, 2006,36(5):550-555. (in Chinese)
[10] Eckmann J P, Kamphorst S O, Ruelle D. Recurrence plots of dynamical systems[J]. Europhysics Letters, 1987,4(9):973-977.
[11] Breiman L. Bagging predictors[J]. Machine Learning, 1996,24(2):123-140.
[12] Cao Liangyue. Practical method for determining the minimum embedding dimension of a scalar time series[J]. Physica D: Nonlinear Phenomena, 1997,110(1):43-50.
[13] 許巖.含噪混沌時間序列相空間重構(gòu)參數(shù)估計[D].重慶:重慶大學,2013.
[14] Marwan N, Romano M C, Thiel M, et al. Recurrence plots for the analysis of complex systems[J]. Physics Reports, 2007,438(5):237-329.
[15] 程軍圣,馬興偉,楊宇.基于排列熵和VPMCD的滾動軸承故障診斷方法[J].振動與沖擊,2014,33(11):119-123.
Cheng Junsheng, Ma Xingwei, Yang Yu. Rolling bearing fault diagnosis method based on permutation entropy and VPMCD[J]. Journal of Vibration and Shock, 2014,33(11):119-123. (in Chinese)
[16] 程軍圣,馬興偉,楊宇.基于VPMCD和EMD的齒輪故障診斷方法[J].振動與沖擊,2013,32(20):9-13.
Cheng Junsheng, Ma Xingwei, Yang Yu. Gear fault diagnosis method based on VPMCD and EMD[J]. Journal of Vibration and Shock, 2013,32(20):9-13. (in Chinese)
[17] 劉剛,張洪剛,郭軍.不同訓練樣本對識別系統(tǒng)的影響[J].計算機學報,2005,28(11):1923-1928.
Liu Gang, Zhang Honggang, Guo Jun. The influence of different training samples to recognition system[J]. Chinese Journal of Computers, 2005,28(11):1923-1928. (in Chinese)