謝玲玲, 雷景生, 徐菲菲
(上海電力學(xué)院 a.電子與信息工程學(xué)院; b.計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上?!?00090)
?
基于改進(jìn)的鄰域粗糙集與概率神經(jīng)網(wǎng)絡(luò)的水電機(jī)組振動(dòng)故障診斷
謝玲玲a, 雷景生b, 徐菲菲b
(上海電力學(xué)院 a.電子與信息工程學(xué)院; b.計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海200090)
摘要:提出了一種基于改進(jìn)的鄰域粗糙集與概率神經(jīng)網(wǎng)絡(luò)的水電機(jī)組振動(dòng)故障診斷方法.該方法將鄰域粗糙集中的近似精度與信息論觀點(diǎn)中的條件熵結(jié)合,提出近似條件熵的屬性約簡(jiǎn)算法,減少故障冗余信息,得到最優(yōu)決策表,并將得到的最優(yōu)決策表作為概率神經(jīng)網(wǎng)絡(luò)(PNN)的訓(xùn)練樣本,提高了PNN的訓(xùn)練速度和診斷效率,通過實(shí)驗(yàn)證明了所述方法的可行性和有效性.
關(guān)鍵詞:鄰域粗糙集; 近似條件熵; 屬性約簡(jiǎn); 概率神經(jīng)網(wǎng)絡(luò); 故障診斷
由于水電機(jī)組的振動(dòng)故障十分復(fù)雜,涉及機(jī)械、水力和電氣等多方面因素,且故障征兆與類別之間的關(guān)系也很復(fù)雜,故障信息又包含大量的不確定因素和冗余信息,如何去除這些冗余信息成為研究的重點(diǎn).
粗糙集理論[1-4]是波蘭數(shù)學(xué)家PAWLAK Z在1982年提出的,它能夠很好地定量分析和處理不確定和不完整的信息,在保證信息不丟失的前提下,進(jìn)行規(guī)則提取和屬性約簡(jiǎn).屬性約簡(jiǎn)是粗糙集理論的核心內(nèi)容之一,目前已有許多啟發(fā)式屬性約簡(jiǎn)方法[5-9],這些方法大多以屬性重要性作為啟發(fā)式信息.苗奪謙等人[5]提出了一種基于互信息的啟發(fā)式約簡(jiǎn)算法;魏巍等人[10]提出了一種以互補(bǔ)條件熵為啟發(fā)信息的正域?qū)傩约s簡(jiǎn)方法.經(jīng)典粗糙集理論對(duì)數(shù)值型數(shù)據(jù)需要進(jìn)行離散化處理,會(huì)帶來(lái)信息損失.
鄰域粗糙集模型[11]是LIN T Y等人于1988年提出的,主要通過鄰域?qū)φ撚蚩臻g進(jìn)行?;?以描述論域空間中的其他概念.鄰域粗糙集模型是鄰域模型對(duì)經(jīng)典粗糙集理論的一種拓展,該模型可以直接處理數(shù)值型數(shù)據(jù),無(wú)需進(jìn)行離散化,避免原有信息不必要的損失.
信息熵是SHANNON C E在1948年提出來(lái)的,主要用于解決信息的量化度量問題[12].目前,已有許多學(xué)者將信息熵引入到粗糙集中,出現(xiàn)了粗糙熵[13-14],條件熵[15-16]等.黃兵等人[17]提出了一種基于廣義粗糙集覆蓋約簡(jiǎn)的粗糙熵;騰書華等人[18]提出了一種基于條件熵的不完備信息系統(tǒng)屬性約簡(jiǎn)算法.文獻(xiàn)[19]中提到,關(guān)于屬性重要性的代數(shù)定義和信息論定義之間具有很強(qiáng)的互補(bǔ)性,前者考慮的是屬性對(duì)論域中確定分類子集的影響,后者考慮的是屬性對(duì)論域中不確定分類子集的影響.因此,可以將這兩者結(jié)合起來(lái),得到一種更全面的度量機(jī)制.
針對(duì)上述問題,本文將條件熵引入鄰域粗糙集中,提出了一種近似條件熵的鄰域粗糙集屬性約簡(jiǎn)方法,得到最優(yōu)決策表,并將最優(yōu)決策表引入概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,PNN)的訓(xùn)練和仿真中,以減少PNN的訓(xùn)練內(nèi)容,通過實(shí)驗(yàn)分析證明了該方法的可行性和有效性.
1相關(guān)基本概念
1.1鄰域粗糙集相關(guān)概念
鄰域粗糙集模型是以經(jīng)典粗糙集理論為基礎(chǔ)從?;矫孢M(jìn)行拓展的,可以直接處理連續(xù)型和符號(hào)型數(shù)據(jù),不需要離散化,避免了在離散化處理過程中不必要的信息損失,通過樣本間的距離產(chǎn)生論域中點(diǎn)的鄰域,形成論域空間的?;Y(jié)構(gòu).
定義1給定實(shí)數(shù)空間上的非空有限集U={x1,x2,x3,…,xn},對(duì)于任意對(duì)象xi,δ≥0,定義xi的δ鄰域粒為[20]:
(1)
式中:Δ——距離函數(shù),可用于衡量?jī)蓚€(gè)樣本的相似度.
常用的距離函數(shù)有1范數(shù)、2范數(shù)和無(wú)窮范數(shù),本文采用2范數(shù)即歐式距離,其表達(dá)式如下:
(2)
式中:ai——屬性.
定義2給定論域U={x1,x2,x3,…,xn},C為實(shí)數(shù)型屬性集合,D為決策屬性集合,如果C生成論域U上的一族鄰域關(guān)系,則稱NDT=〈U,C,D〉為一個(gè)鄰域決策系統(tǒng)[20].
定義3一個(gè)鄰域決策系統(tǒng)NDT=〈U,C,D〉,決策屬性D將論域U劃分為N個(gè)等價(jià)類:X1,X2,X3,…,Xn,給定度量Δ,?B?C,定義D關(guān)于B的下近似和上近似為[20]:
(3)
δB(xi)——條件屬性B和度量Δ生成的鄰域粒子.
定義4給定鄰域決策系統(tǒng)NDT=〈U,C,D〉,U為論域,C為實(shí)數(shù)型屬性集合,D為決策屬性集合,對(duì)于任意B?C∪D,X?U,集合X在IND(B)下的近似精度為[20]:
(4)
定義5對(duì)于鄰域決策系統(tǒng)NDT=〈U,C,D〉,該系統(tǒng)的全部約簡(jiǎn)為C1,C2,C3,…,Ck,則定義該決策系統(tǒng)的核為[21]:
(5)
1.2條件熵相關(guān)概念
定義6設(shè)條件屬性B和決策屬性D在論域U上的劃分分別為X,Y(X={X1,X2,X3,…,Xn},Y={Y1,Y2,Y3,…,Ym}),則B和D在U上的概率分別為[22]:
定義7給定決策表NDT=〈U,C,D〉,令U/IND(D)={Y1,Y2,Y3,…,Ym},對(duì)于任意B?C.令U/IND(B)={X1,X2,X3,…,Xn},則決策屬性D相對(duì)于B的條件熵定義為[22]:
(6)
1.3PNN理論
PNN網(wǎng)絡(luò)是由徑向基函數(shù)網(wǎng)絡(luò)發(fā)展而來(lái)的一種前饋神經(jīng)網(wǎng)絡(luò),其理論依據(jù)是貝葉斯最小風(fēng)險(xiǎn)準(zhǔn)則(即貝葉斯決策理論),利用貝葉斯分類規(guī)則和Parzen窗口的概率密度函數(shù)估計(jì)方法進(jìn)行分類模式識(shí)別,已在各類故障診斷中得到廣泛的應(yīng)用.PNN基本的層次模型由輸入層、模式層、求和層和輸出層組成,其結(jié)構(gòu)如圖1所示.
圖1 PNN基本網(wǎng)絡(luò)結(jié)構(gòu)
PNN網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快且沒有學(xué)習(xí)的過程,本文采用PNN網(wǎng)絡(luò)來(lái)構(gòu)建故障診斷模型,以減少訓(xùn)練的時(shí)間和復(fù)雜度,提高故障診斷的效率.
2基于近似條件熵的鄰域粗糙集屬性約簡(jiǎn)算法
文獻(xiàn)[9]提出了一種基于近似決策熵的屬性約簡(jiǎn)算法,該算法不能直接處理連續(xù)型數(shù)據(jù),需要將數(shù)據(jù)離散化,這會(huì)造成原有信息的損失.本文所提出的方法是在文獻(xiàn)[9]算法的基礎(chǔ)上進(jìn)行改進(jìn),將鄰域粗糙集的近似精度引入其中并與條件熵結(jié)合,提出一種近似條件熵的屬性約簡(jiǎn)方法,可以直接處理連續(xù)型數(shù)據(jù).
定義8給定鄰域決策系統(tǒng)NDT=〈U,C,D〉,令U/IND(D)={Y1,Y2,Y3,…,Ym},對(duì)于任意B?C.令U/IND(B)={X1,X2,X3,…,Xn},結(jié)合定義4,決策屬性D相對(duì)于B的近似條件熵定義為:
(7)
性質(zhì)1給定鄰域決策系統(tǒng)NDT=〈U,C,D〉,論域U={x1,x2,x3,…,xn},則有0≤ACE(D|B)≤log2n.
定理1給定決策表NDT=〈U,C,D〉,對(duì)于任意的B?C,有ACE(D|B)≥ACE(D|C).
定理2給定決策表NDT=〈U,C,D〉,U={x1,x2,x3,…,xn},B?C,a∈B,屬性a是不必要的,其充分必要條件是ACE(D|B-{a})=ACE(D|B).
證明
(1) 必要條件假設(shè)存在a∈B是不必要的,即U/IND(B)=U/IND(B-a),易得ACE(D|B-{a})=ACE(D|B);
(2) 充分條件假設(shè)存在a∈B滿足ACE(D|B-{a})=ACE(D|B),如果對(duì)于任意的a∈B都是必要的,使得U/IND(B)≠U/IND(B-a)成立,又由于B-{a}?B,根據(jù)定理1可知ACE(D|B-{a})>ACE(D|B),這與假設(shè)相矛盾.因此,對(duì)于任意的a∈B,當(dāng)ACE(D|B-{a})=ACE(D|B)時(shí),屬性a是不必要的.
定義9給定決策表NDT=〈U,C,D〉,對(duì)于?B?C,若存在ACE(D|B)=ACE(D|C),并且對(duì)于任意b∈B,ACE(D|B-)>ACE(D|C),則稱B為C在決策表中相對(duì)于D的一個(gè)約簡(jiǎn).
定義10給定決策表NDT=〈U,C,D〉,對(duì)于任意a∈C,如ACE(D|C-{a})>ACE(D|C),則稱a為C在決策表中相對(duì)于D的一個(gè)核屬性.
定義11給定決策表NDT=〈U,C,D〉,對(duì)于?B?C,a∈C-B,則屬性a相對(duì)于B和D的重要性定義為:
Sig(a,B,D)=ACE(D|B)-
(8)
基于近似條件熵的鄰域粗糙集屬性約簡(jiǎn)算法基本步驟如下.
步驟1取δ=0.1,根據(jù)歐式距離計(jì)算各樣本的鄰域粒,即計(jì)算δC(xi),其中C為條件屬性,xi為樣本,構(gòu)成論域U上的覆蓋.
步驟2根據(jù)鄰域決策系統(tǒng)NDT=〈U,C,D〉,計(jì)算決策屬性D關(guān)于條件屬性C的上下近似,并計(jì)算近似精度βC(Y).
步驟3計(jì)算近似條件熵ACE(D|C).
步驟4令B=C,按ACE(D|ai)遞減的順序?qū)γ總€(gè)ai(ai∈C)執(zhí)行下述操作:
(1)計(jì)算條件屬性B在去掉ai后的近似條件熵ACE(D|B-ai);
(2)判斷ACE(D|B)是否與ACE(D|B-ai)相等.若該條件成立,則屬性ai被約簡(jiǎn);否則,放入核屬性集中.
步驟5得到最優(yōu)決策表.
3水電機(jī)組振動(dòng)故障診斷模型
為了驗(yàn)證所提方法的可行性和有效性,將本文所提的故障診斷方法和基于經(jīng)典粗糙集理論與PNN的故障診斷方法分別應(yīng)用于水電機(jī)組故障診斷決策表[23-24]的屬性約簡(jiǎn)中,通常以振動(dòng)信號(hào)的頻域特征來(lái)描述.
本文選取5個(gè)頻率特征量:(0.4~0.5)f,1f,2f,3f,>3f(f為轉(zhuǎn)子基頻),作為水電機(jī)組故障診斷的條件屬性集,如表1所示.
決策屬性集如表2所示.
表1 條件屬性集
表2 決策屬性集
由條件屬性和決策屬性建立的故障診斷決策表如表3所示.
其中,樣本x1,x3,x5,x7作為訓(xùn)練樣本;x2,x4,x6,x8作為測(cè)試樣本.
表3 故障診斷決策表
3.1利用近似條件熵的鄰域粗糙集屬性約簡(jiǎn)
由表3可知,決策屬性對(duì)論域進(jìn)行劃分,得到4個(gè)等價(jià)類,即:
步驟1取δ=0.1,根據(jù)歐式距離計(jì)算各樣本的鄰域粒δC(xi)如下:
則條件屬性集形成的鄰域粒子族為:{{x1,x2,x3,x4},{x5,x6},{x7,x8}},即:
步驟2根據(jù)鄰域決策系統(tǒng)NDT=〈U,C,D〉,計(jì)算決策屬性D關(guān)于條件屬性C的上下近似及計(jì)算近似精度βC(Y):
則決策屬性D關(guān)于條件屬性C的上下近似分別為:
步驟3計(jì)算近似條件熵ACE(D|C)為:
步驟4對(duì)于任意的a∈C,循環(huán)執(zhí)行判斷ACE(D|C-{a})>ACE(D|C),最終只有ACE(D|C-{C1})>ACE(D|C),ACE(D|C-{C2})>ACE(D|C).
步驟5最終得到核屬性為{C1,C2}.
最優(yōu)決策表如表4所示.
表4 最優(yōu)決策表
3.2利用經(jīng)典粗糙集理論進(jìn)行屬性約簡(jiǎn)
將表3進(jìn)行連續(xù)屬性離散化處理,取[0,0.4)區(qū)間編碼為0,[0.4,1)編碼為1,離散化結(jié)果如表5所示.
表5 離散后的決策表
在Matlab7.0下,用C語(yǔ)言實(shí)現(xiàn)經(jīng)典粗糙集對(duì)表5的屬性約簡(jiǎn),獲得最小屬性為:{C1C2C3},最優(yōu)決策表如表6所示.
表6 最優(yōu)決策表
3.3PNN網(wǎng)絡(luò)的訓(xùn)練與仿真
為考察屬性約簡(jiǎn)的有效性,將表4和表6得到的最優(yōu)決策表分別引入到概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,利用Matlab提供的newpnn函數(shù)建立PNN模型,取分布密度SPREAD=1.5,PNN訓(xùn)練結(jié)果如圖2和圖3所示.
3.4實(shí)驗(yàn)結(jié)果分析
由表4和表6可以看出,本文所提的方法比經(jīng)典粗糙集屬性約簡(jiǎn)方法能得到更優(yōu)的決策表;通過圖2和圖3分析比較,圖3中樣本3預(yù)測(cè)錯(cuò)誤,本文所提的方法預(yù)測(cè)率更精確.因此,可以看出本文所提方法具有較好的可行性和有效性.
圖2 改進(jìn)的鄰域粗糙集與PNN訓(xùn)練仿真示意
圖3 經(jīng)典粗糙集與PNN訓(xùn)練仿真示意
4結(jié)語(yǔ)
由于經(jīng)典粗糙集理論不能直接處理數(shù)值型數(shù)據(jù),需要進(jìn)行離散化,而鄰域粗糙集避免了在離散化處理過程中不必要的信息損失.目前大多屬性約簡(jiǎn)方法都是從信息論的角度來(lái)定義條件熵的,本文從代數(shù)的觀點(diǎn)將基于鄰域粗糙集的近似精度引入到條件熵中,提出了基于近似條件熵的鄰域粗糙集屬性約簡(jiǎn)方法,將本方法與經(jīng)典粗糙集理論和PNN故障診斷方法進(jìn)行實(shí)驗(yàn)分析比較,證明了方法的可行性和有效性.
參考文獻(xiàn):
[1]PAWLAK Z.Rough sets[M].Theoretical Aspects of Reasoning about DataKluwer Academic Publishers,London,Dordrecht,1991:217-230.
[2]張文修,仇國(guó)芳.粗糙集屬性約簡(jiǎn)的一般理論[J].中國(guó)科學(xué)E輯,2005,35(12):1 304-1 313.
[3]王國(guó)胤,姚一豫,于洪.粗糙集理論與應(yīng)用研究綜述[J].計(jì)算學(xué)報(bào),2009,32(7):1 229-1 245.
[4]張文修,吳偉志.粗糙集理論介紹和研究綜述[J].模糊系統(tǒng)與數(shù)學(xué),2000,14(4):1-12.
[5]苗奪謙,胡桂榮.知識(shí)約簡(jiǎn)的一種啟發(fā)式算法[J].計(jì)算機(jī)研究與發(fā)展,1999,36(6):681-684.
[6]馬福民,張騰飛.一種基于知識(shí)粒度的啟發(fā)式屬性約簡(jiǎn)算法[J].計(jì)算機(jī)工程應(yīng)用,2012,48(36):31-34.
[7]馬翔,張繼福,楊海峰.基于區(qū)分矩陣的啟發(fā)式屬性約簡(jiǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010,30(8):1 999-2 003.
[8]唐孝,舒蘭.基于粒計(jì)算的屬性約簡(jiǎn)改進(jìn)算法[J].計(jì)算機(jī)科學(xué),2014,41(11A):313-316.
[9]江峰,王莎莎,杜軍威,等.基于近似決策熵的屬性約簡(jiǎn)[J].控制與決策,2015,30(1):65-70.
[10]魏巍,陳紅星,王鋒.以互補(bǔ)條件熵為啟發(fā)信息的正域?qū)傩约s簡(jiǎn)[J].計(jì)算工程與應(yīng)用,2013,49(11):96-100.
[11]LIN T Y,LIU Q,HUANG K J.Rough sets neighborhood systems and approximation[C]∥Fifth international symposium on methodologies of intelligent systems.USA:Washington D.C.,1990:3 188-3 193.
[12]SHANNON C E.The mathematical theory of communication[J].Bell System Technical J,1948,27(3-4):373-423.
[13]程玉勝,張佑生,胡學(xué)鋼.基于邊界域的知識(shí)粗糙熵與粗集粗糙熵[J].系統(tǒng)仿真學(xué)報(bào),2007,19(9):2 008-2 011.
[14]崔廣彬,李一軍.基于粗糙熵權(quán)的模糊多準(zhǔn)則決策方法及應(yīng)用[J].控制與決策,2007,22 (4):408-412.
[15]王國(guó)胤,于洪,楊大春.基于條件信息熵的決策表約簡(jiǎn)[J].計(jì)算機(jī)學(xué)報(bào),2002,25(7):759-766.
[16]王向陽(yáng),蔡念,楊杰,等.基于近似精度和條件熵的粗糙集不確定性度量方法[J].上海交通大學(xué)學(xué)報(bào),2006,40(7):1 130-1 134.
[17]黃兵,何新,周獻(xiàn)中.基于廣義粗糙集覆蓋約簡(jiǎn)的粗糙熵[J].軟件學(xué)報(bào),2004,15(2):215-220.
[18]騰書華,周石琳,孫即祥,等.基于條件熵的不完備信息系統(tǒng)屬性約簡(jiǎn)算法[J].國(guó)防科技大學(xué)學(xué)報(bào),2010,32(1):90-94.
[19]胡清華,于達(dá)仁,謝宗霞.基于鄰域?;痛植诒平臄?shù)值屬性約簡(jiǎn)[J].軟件學(xué)報(bào),2008,19(3):640-649.
[20]申雪芬.基于鄰域粗糙集的增量學(xué)習(xí)算法研究及其在客戶分類上的應(yīng)用[D].太原:太原理工大學(xué),2014.
[21]胡清華,趙輝,于達(dá)仁.基于鄰域粗糙集的符號(hào)與數(shù)值屬性快速約簡(jiǎn)算法[J].模式識(shí)別與人工智能.2008,21(6):732-738.
[22]江玉蓉,朱帆,符楊,等.基于條件信息熵與貝葉斯網(wǎng)絡(luò)的變壓器故障診斷研究[J].變壓器,2009,46(7):48-51.
[23]張孝遠(yuǎn),張新萍,蘇保平.基于最小最大核K均值聚類算法的水電機(jī)組振動(dòng)故障診斷[J].電力系統(tǒng)保護(hù)與控制,2015,43(5):27-34.
[24]張孝遠(yuǎn),周建中,黃志偉,等.基于粗糙集和支持向量機(jī)的水電機(jī)組振動(dòng)故障診斷[J].中國(guó)電機(jī)工程報(bào),2010,30(20):88-93.
(編輯白林雪)
Vibrant Fault Diagnosis for Hydro-turbine Generating UnitBased on Improved Neighborhood Rough Sets and PNN
XIE Linglinga, LEI Jingshengb, XU Feifeib
(a.School of Electronics and Information Engineering; b.School of Computer Science and Technology, Shanghai University of Electric Power, Shanghai200090, China)
Abstract:A diagnosis method of improved neighborhood rough sets and PNN is proposed to achieve vibrant fault diagnosis for hydro-turbine generating unit.This method obtains the approximate condition entropy by uniting approximation accuracy of neighborhood rough set and condition entropy of information theory,which reduces the redundant information,acquires the optimal decision table.Then the table is the best decision as probabilistic neural network (PNN) training samples to improve the speed and efficiency of diagnosis.Finally,the experimental analysis and comparison show the feasibility and effectiveness of the method.
Key words:neighborhood rough sets; approximation condition entropy; attribute reduction; probabilistic neural network; fault diagnosis
DOI:10.3969/j.issn.1006-4729.2016.02.015
收稿日期:2015-08-27
作者簡(jiǎn)介:通訊謝玲玲(1989-),女,在讀碩士,湖北隨州人.主要研究方向?yàn)樗姍C(jī)組設(shè)備故障診斷.E-mail:397923981@qq.com.
中圖分類號(hào):TP183;TM612
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1006-4729(2016)02-0181-07