劉敬東
(赤峰市平煤投資公司,內(nèi)蒙古 赤峰 024000)
診斷機(jī)械故障時由于采集到的監(jiān)測數(shù)據(jù)大都包含較多噪聲在內(nèi)的非線性分布的高維數(shù)據(jù),導(dǎo)致經(jīng)降維處理后的數(shù)據(jù)給原有高維觀測數(shù)據(jù)幾何結(jié)構(gòu)造成影響。因此有必要在ISOMAP算法基礎(chǔ)上,將采集到的機(jī)械故障數(shù)據(jù)轉(zhuǎn)移到特征空間提取和選擇故障特征,進(jìn)而識別不同故障類型。
經(jīng)典ISOMAP算法無法進(jìn)行監(jiān)督和學(xué)習(xí),尤其在數(shù)據(jù)降維處理過程中,不能有效利用故障類型這一重要參數(shù)進(jìn)行計(jì)算,因此很多專家紛紛展開研究,其中較具代表性的為Vlachos等人提出的加權(quán)ISOMAP算法。該算法對經(jīng)典ISOMAP算法進(jìn)行了改進(jìn),在確定任意不同數(shù)據(jù)點(diǎn)歐拉距離時,將影響數(shù)據(jù)點(diǎn)的樣本標(biāo)簽考慮進(jìn)去,即在傳統(tǒng)計(jì)算歐式距離時引入一個權(quán)值因子η,如兩個數(shù)據(jù)點(diǎn)具備相同的樣本標(biāo)簽滿足η<1,表示歐式距離減小,相同類的數(shù)據(jù)點(diǎn)類內(nèi)距離也隨之減小;如兩個數(shù)據(jù)點(diǎn)樣本標(biāo)簽有差別則η>1,歐式距離增大,不同類別的數(shù)據(jù)點(diǎn)類間距增大。很顯然,該種算法中權(quán)值因子的作用在于調(diào)節(jié)歐式距離,從而進(jìn)行有效的分類。不過該種算法中的權(quán)值因子會給分類結(jié)果帶來較大影響,而且在選擇合適的權(quán)值因子上也存在較大難度。
有關(guān)專家經(jīng)過研究提出了ISOMAP算法,能夠?qū)?shù)據(jù)進(jìn)行有效的分類。將高維觀測空間數(shù)據(jù)記錄為(xi,yi),并且xi∈RD,其中yi為xi的標(biāo)簽值。則隨意選擇兩個數(shù)據(jù)點(diǎn)A(xi、yi)、B(xj,yj),則兩個數(shù)據(jù)點(diǎn)相似度可用下列公式表示:
上式中的d(xi,xj)表示兩個數(shù)據(jù)間的歐式距離,調(diào)節(jié)因子為α、β。
d(xi,xj)處在指數(shù)位置上,如果兩個數(shù)據(jù)點(diǎn)之間的歐式距離過大,此時調(diào)節(jié)因子β會發(fā)揮作用,阻止兩個數(shù)據(jù)點(diǎn)相似度過快的增加。所以選擇條件因子β值時,應(yīng)綜合分析數(shù)據(jù)點(diǎn)的分布情況。一般而言將各個數(shù)據(jù)點(diǎn)間的歐式距離求和平均后即可當(dāng)做β值,計(jì)算公式如下:
而調(diào)節(jié)因子α主要負(fù)責(zé)調(diào)整類別不同的數(shù)據(jù)點(diǎn)之間的相似度。為了更清楚的理解調(diào)節(jié)因子α發(fā)揮的作用,研究時可以忽略調(diào)節(jié)因子α,則不同類別數(shù)據(jù)點(diǎn)間的相似度,可有下列公式確定:
繪制D’(xi,xj)跟隨d2(xi,xj)/β變化曲線,認(rèn)真分析曲線走勢可知,如果兩個數(shù)據(jù)點(diǎn)具備不同的標(biāo)簽且無調(diào)節(jié)因子α,則兩個數(shù)據(jù)點(diǎn)相似度至少為1。如兩個數(shù)據(jù)點(diǎn)具有相同的標(biāo)簽,則相似度值會小于1。利用該種處理方法類間距離會增大,而類內(nèi)間距縮小,對分類有著積極的作用。不過當(dāng)類間間距非常大時,往往導(dǎo)致輸入數(shù)據(jù)鄰域圖出現(xiàn)短路邊或空洞,導(dǎo)致鄰接圖無法統(tǒng)一,使經(jīng)典ISOMAP非線性數(shù)據(jù)不能成功降維。因此很有必要將α調(diào)節(jié)因子引入進(jìn)來適當(dāng)調(diào)節(jié)類間間距,不僅能夠進(jìn)行準(zhǔn)確分類,又能防止鄰域圖出現(xiàn)間斷。另外,分析知調(diào)節(jié)因子α最小值不能小于0,而且取最大值時應(yīng)保證曲線相切。在實(shí)際應(yīng)用時通常將α的值控制在[0.38,0.65]范圍內(nèi),一般取0.5。
計(jì)算數(shù)據(jù)點(diǎn)間相似度時,將標(biāo)簽信息考慮在內(nèi),對非線性數(shù)據(jù)分類比較適合,其優(yōu)勢主要體現(xiàn)在以下幾方面:
首先,任意選取兩個數(shù)據(jù)點(diǎn)其間的歐式距離均相等,且不同類數(shù)據(jù)點(diǎn)間的相似度就會大于同類數(shù)據(jù)點(diǎn)間的相似度,進(jìn)而有助于相似度的分類;其次,類別不同的數(shù)據(jù)點(diǎn)間的相似度至少為1-α,則同類數(shù)據(jù)點(diǎn)間的相似度必然小于1,此時無論獲得的機(jī)械故障含有多少噪聲,均可在調(diào)節(jié)因子α的作用下保持在一定范圍內(nèi),所以從這個層面分析有監(jiān)督的相似度矩陣的魯棒性和抗噪性性能較強(qiáng);最后,對相似度變化情況進(jìn)行監(jiān)督,能夠剔除噪聲。
通過分析我們對有監(jiān)督的相似度矩陣優(yōu)勢有個充分的了解,將這種優(yōu)勢引入到經(jīng)典ISOMAP算法中,并結(jié)合LMDS算法,最終形成SL-ISOMAP算法。利用該算法對機(jī)械故障類型進(jìn)行分類,其步驟如下:
首先,計(jì)算出任意兩個數(shù)據(jù)點(diǎn)間的歐式距離矩陣d(xi,ji),并在遵守K-臨近原則基礎(chǔ)上,繪制鄰域圖。同時將數(shù)據(jù)點(diǎn)的標(biāo)簽信息考慮進(jìn)來,利用公式1計(jì)算出有監(jiān)督的相似度矩陣D(xi,ji);其次,利用Dijkstra算法計(jì)算出位于臨域圖上任意兩點(diǎn)的最小路徑dG(i,j),對流行M上的測地距離dM(i,j)進(jìn)行逼近。然后利用LMDS算法降維測地距離矩陣,進(jìn)而獲得降維后的數(shù)據(jù)矩陣;最后,利用支持向量機(jī)方法分類降維后的數(shù)據(jù),并將其分為測試和訓(xùn)練樣本集,并在此技術(shù)上訓(xùn)練和學(xué)習(xí)模型,分類測試測試集獲得相關(guān)圖示和分類正確率。
大型機(jī)械設(shè)備故障診斷信號數(shù)據(jù)具備數(shù)據(jù)量大、隨機(jī)性強(qiáng)、維數(shù)高等特點(diǎn),因此如將高維空間的流行轉(zhuǎn)化至低維空間能夠減小計(jì)算繁瑣程度,本文探討的SL-ISOMAP算法,在提高故障診斷效率上具有重要參考價值。
[1]尹煥.基于ISOMAP的機(jī)械故障診斷方法研究與應(yīng)用[D].華南理工大學(xué)2012.
[2]黎敏,陽建宏,徐金梧,楊德斌.基于高維空間流形變化的設(shè)備狀態(tài)趨勢分析方法[J].機(jī)械工程學(xué)報.2009(02).