張鵬飛,李本威,秦明,于復(fù)磊
(1.海軍航空工程學(xué)院研究生管理大隊,山東煙臺264001;2.海軍航空工程學(xué)院飛行器工程系,山東煙臺264001;3.南京軍區(qū)司令部軍訓(xùn)部,江蘇南京210016;4.91883部隊,山西長治046001)
一種基于熵的連續(xù)屬性離散方法
張鵬飛1,李本威2,秦明3,于復(fù)磊4
(1.海軍航空工程學(xué)院研究生管理大隊,山東煙臺264001;2.海軍航空工程學(xué)院飛行器工程系,山東煙臺264001;3.南京軍區(qū)司令部軍訓(xùn)部,江蘇南京210016;4.91883部隊,山西長治046001)
針對粗糙集理論應(yīng)用于航空發(fā)動機磨損故障診斷的關(guān)鍵問題——連續(xù)屬性離散化映射,提出了一種考慮屬性重要性的基于熵的連續(xù)屬性離散算法。該算法中,給出了一種衡量連續(xù)屬性重要度的方法,克服了基于最小熵標準選取斷點時最小熵對應(yīng)多個斷點難以取舍的問題,并選用IRIS數(shù)據(jù)對算法進行了分析和驗證。最后,將該算法應(yīng)用到發(fā)動機故障診斷中,自動提取得到了發(fā)動機的磨損故障知識,并對待測樣本進行了驗證,表明了算法的有效性。
航空發(fā)動機;離散;信息熵;屬性重要性;磨損故障;知識獲取
航空發(fā)動機磨損故障診斷,應(yīng)用最為廣泛的方法是使用專家系統(tǒng),并已取得了較為顯著的成效。但專家系統(tǒng)普遍存在知識獲取能力弱、知識獲取過于依賴專家等問題,從而限制了其發(fā)展。粗糙集理論作為一種研究不精確、不完整信息分類問題的數(shù)學(xué)工具,可實現(xiàn)專家系統(tǒng)知識的自動獲取[1-2]。但粗糙集理論僅能對離散數(shù)據(jù)進行處理,而實際監(jiān)測到的光譜數(shù)據(jù)為連續(xù)型參數(shù)。因此,連續(xù)屬性值的離散化映射,是粗糙集理論應(yīng)用于航空發(fā)動機磨損故障診斷中的關(guān)鍵。
目前,人們對于粗糙集連續(xù)屬性離散進行了廣泛研究,提出了很多新的離散方法。依據(jù)離散時是否改變原決策表的相容性,這些方法可分為兩類:第一類是不把相容性是否改變作為指標,僅考慮數(shù)據(jù)本身的規(guī)律,進而可能得到較少的斷點,如MDLP算法[3]、CAIM算法[4]和賀躍等基于熵的離散算法[5]等,但這些算法離散后都破壞了決策表的相容性,使得學(xué)習(xí)精度較差;第二類則是在保證決策表相容性不變的條件下選取最少的斷點,如Nguyen等提出的布爾邏輯與粗糙集理論相結(jié)合的離散算法[6],及在此基礎(chǔ)上改進的貪心算法[7],都能得到較好的結(jié)果,但算法復(fù)雜程度呈指數(shù)級。謝宏等[8]基于信息熵,從所有條件屬性中依據(jù)最小信息熵標準選取結(jié)果斷點,并依據(jù)某標準停止算法。該算法可較好地選出最優(yōu)斷點,大大減少了結(jié)果斷點的數(shù)目,但在最小熵對應(yīng)多個斷點時的取舍具有一定的局限性。
本文針對基于最小熵選取斷點時最小熵對應(yīng)多個斷點難以取舍的問題,提出了一種考慮屬性重要性的基于信息熵的連續(xù)屬性離散方法,并給出了一種評估連續(xù)屬性重要度的方法,完善并優(yōu)化了文獻[8]中算法;選用國際上著名的IRIS(鸞尾花)數(shù)據(jù),對完善后的算法進行了分析驗證。最后,將該算法應(yīng)用于航空發(fā)動機磨損故障診斷知識規(guī)則獲取。
粗糙集的相關(guān)概念及理論詳見文獻[9]~[12],此處僅對離散化問題的描述加以說明。
設(shè)決策表S=〈U,R,V,f〉,其中U={x1,x2,…,xn},R=A?j5i0abt0b,決策種類的個數(shù)為r(d)。條件屬性值域上的一個斷點可記為(a,c),其中a∈A,c∈R。值域Va=[la,ra]上的任意一個斷點集合,定義了Va上的一個分類Pa,,其將屬性a的取值分為k+1個等價類。因此,任意的定義了一個新的決策表〈U,R,Vp,fp〉,
即離散后,原信息系統(tǒng)被一新信息系統(tǒng)所替代。
評價一個離散化算法的優(yōu)劣性,應(yīng)從以下方面考查:①連續(xù)屬性離散化后的空間維數(shù)盡量小,即選取的斷點應(yīng)盡量少;②離散前后,決策表的相容性不應(yīng)改變或在允許范圍內(nèi)變化;③離散的斷點經(jīng)后續(xù)處理后,應(yīng)具有較好的分類預(yù)測精度,即提取出的規(guī)則有較好的泛化能力[13]。
3.1 基于信息熵的連續(xù)屬性離散化方法
文獻[8]提出了一種基于信息熵理論的粗糙集離散化算法,其在Shannon信息熵的基礎(chǔ)上,定義了粗糙集決策表中的每個分類集合的信息熵H(X),和斷點針對集合的信息熵H(c,X)。具體原理如下:
首先對各條件屬性的屬性值進行排序,取相鄰兩個屬性值的中點為候選斷點;接著計算每個候選斷點針對給定集合X的信息熵H(c,X),并選取具有最小信息熵的斷點加入到結(jié)果斷點集中,當兩個斷點的信息熵相同時,比較兩個斷點所在屬性已選取的斷點數(shù),優(yōu)先選取斷點數(shù)少的屬性的斷點;然后根據(jù)選取的斷點對原集合進行劃分,重復(fù)計算剩余候選斷點對劃分后集合的信息熵,直到整個決策表相容為止。各參數(shù)定義及具體步驟詳見文獻[8]。
該算法在不改變決策表相容性的前提下,可獲得較為理想的離散效果,能大大減少斷點數(shù)目。但當兩個斷點的信息熵相同時,該算法優(yōu)先選取已選斷點數(shù)少的屬性的斷點,這具有一定的隨意性;并且當兩屬性已選取的斷點數(shù)也相同時,該算法將不適用。因此,本文引入屬性重要性評估,完善并優(yōu)化文獻[8]中算法。
3.2 連續(xù)屬性重要性評估
針對連續(xù)屬性,當決策表中各條件屬性互異的屬性值個數(shù)較多時,文獻[9]中給出的經(jīng)典屬性重要性判斷方法,將不能很好地分辨各屬性的重要性。在此,給出一種衡量連續(xù)屬性重要度的方法。
式中:k=1,2,…,L。
mi表示第i類樣本單位化后的均值,有:
Si表示第i類樣本單位化后的類內(nèi)散度,有:
以上兩式中:i=1,2,3,…,n。
針對連續(xù)屬性a,其越易分辨各類別,則重要性越大。為更好地分辨各類別,則應(yīng)類間距離大、類內(nèi)分布散度小。為此,連續(xù)屬性a的重要度定義為:
3.3 考慮屬性重要性的離散算法
設(shè)決策表S=〈U,A∪j5i0abt0b,V,f〉,條件屬性集合A={a1,a2,…,an},P為已選取斷點的集合,Q為實例被斷點集合P所劃分成的等價類集合,B為候選斷點的集合,H為決策表信息熵,α表示離散后決策表的相容度,具體計算見文獻[10]。則離散化算法如下:
步驟1:初始化,P=φ,H=H(U),Q={U}。
步驟2:將各條件屬性的屬性值排序,取相鄰兩個屬性值的中點加入到候選斷點集B中。
步驟3:對每一個斷點c∈B,計算H(c,Q)。
步驟4:若H≤min{H(c,Q)}或min{H(c,Q)}=0,則結(jié)束,否則轉(zhuǎn)步驟5。
步驟5:H(cmin,Q)=min{H(c,Q)},若cmin不是唯一斷點則轉(zhuǎn)步驟6,若其是唯一斷點則轉(zhuǎn)步驟7。
步驟6:計算信息熵相同斷點的條件屬性的重要度SGF(ai),選取重要度大的條件屬性的斷點作為結(jié)果斷點。
步驟7:P=P?{cmin},H=H(c,Q),B=B-{c},cmin把等價類X劃分為X1和X2;將X從Q中去除,把等價類X1和X2加入到Q中。
步驟8:計算離散后的決策表的相容度α,若α=1,則結(jié)束,輸出斷點集P;若α<1,則轉(zhuǎn)步驟3。
選用IRIS數(shù)據(jù)實驗來驗證算法的有效性。該數(shù)據(jù)集包含三種IRIS,每種50個樣本,共計150個樣本;4個條件屬性,分別記為A1、A2、A3、A4。
首先對150個數(shù)據(jù),分別用文獻[8]算法和本文算法進行計算。按文獻[8]算法計算,在計算第一個結(jié)果斷點值時,斷點(A4,0.80)和斷點(A3,2.45)計算所得熵值最小,均為0.333 3;且之前各條件屬性的斷點數(shù)均為0,文獻[8]算法無法取舍,計算中止。為使運算繼續(xù),在此處隨機選取一結(jié)果斷點,計算結(jié)果如表1所示,得到4個剩余屬性,7個斷點。按照本文算法計算,由表2可知A4的屬性重要度大于A3,則優(yōu)先選取斷點(A4,0.80),斷點最終計算結(jié)果如表3所示,得到6個結(jié)果斷點。這說明本文算法能很好地解決文獻[8]算法的局限性,并可得到較少斷點。
為進一步驗證本文算法的有效性,進行了規(guī)則獲取實驗。作為對比,首先采用文獻[3]中的MDLP離散算法、文獻[8]中基于信息熵的離散算法和本文算法進行離散,然后運用一般約簡算法進行屬性約簡、啟發(fā)式約簡算法進行屬性值約簡,最后采用獲取的知識規(guī)則對測試數(shù)據(jù)進行測試。同時,運用10折交叉驗證準則來比較和評價算法,即在實驗初將原始數(shù)據(jù)隨機分為10份,在每次實驗中利用其中9份進行離散、提取規(guī)則,用剩余的1份作為測試集,輪轉(zhuǎn)一遍進行10次實驗取其平均值,各統(tǒng)計結(jié)果見表4。
表1 文獻[8]中算法離散化斷點結(jié)果Table 1 Discretized breakpoint results by the algorithm in reference[8]
表2 屬性重要性Table 2 Attribute importance
表3 本文算法離散化斷點結(jié)果Table 3 Discretized breakpoint results by the new algorithm
表4 不同方法的10折交叉驗證結(jié)果Table 4 10-fold crossover validation results
分析表4:MDLP是一種基于信息熵的局部離散算法,對每個屬性離散時,沒考慮其他屬性及相互間的影響,往往會破壞原始數(shù)據(jù)的相容性,故測試結(jié)果的識別效果最差。文獻[8]算法在全局搜索具有最小信息熵的斷點,并以決策表相容性為停止準則,因此其與MDLP相比,計算結(jié)果的各評價指標都有較大提升。本文算法在文獻[8]算法基礎(chǔ)上,引入屬性重要性評估,重要屬性理應(yīng)優(yōu)先獲取斷點,進而可最快達到停止準則;其計算結(jié)果與文獻[8]算法相比,離散后的斷點數(shù)減少了9.7%,誤識率下降了13%,使得得到的規(guī)則更為簡單,正確辨識率提高,進而驗證了本文算法的有效性。
應(yīng)用本文離散算法對某型航空發(fā)動機油樣光譜分析數(shù)據(jù)進行離散,然后運用一般約簡算法進行屬性約簡、啟發(fā)式約簡算法進行屬性值約簡,對磨損故障進行知識獲取,并進行驗證。該數(shù)據(jù)包含了10臺航空發(fā)動機在正常狀態(tài)和磨損狀態(tài)下的234個樣本,條件屬性分別為Fe、Al、Cu、Cr、Ag、Ti、Mg七種元素的含量。磨損狀態(tài)F分別為1(正常)、2(軸間軸承磨損)、3(軸間軸承磨損且保持架斷裂)三種形式。磨損狀態(tài)F為決策屬性D,具體數(shù)據(jù)見文獻[14]。隨機選取其中154個樣本數(shù)據(jù)作為訓(xùn)練樣本進行規(guī)則提取,用其余的80個樣本作為測試樣本對規(guī)則進行驗證。計算結(jié)果見表5~表8。從表8可以看出,提取的規(guī)則對測試樣本識別很好,誤識率僅為1.25%,識別精度較高,表明該算法可有效離散光譜數(shù)據(jù),進而實現(xiàn)航空發(fā)動機磨損故障知識的自動獲取,驗證了本文方法在實例應(yīng)用中的有效性。
表5 屬性重要性Table 5 Attribute importance
表6 光譜元素離散斷點結(jié)果Table 6 Spectral element discretized breakpoint results
表7 規(guī)則提取結(jié)果Table 7 Results of extracting rules
檢查誤識樣本,其Fe含量為19.2 ppm,Cu含量為1.5 ppm,實際類別為軸間軸承磨損且保持架斷裂,將其誤分為了類別2軸間軸承磨損。其原因可能是:由于上述規(guī)則依據(jù)本文算法直接從樣本數(shù)據(jù)中提取得到,其正確性和適用性很大程度上依賴于樣本集的完整性和代表性。為提高磨損故障診斷精度,在不斷完善樣本集的同時,還應(yīng)考慮相關(guān)的先驗知識,如摩擦副材料、專家經(jīng)驗等。如何將其結(jié)合進行融合診斷,是下一步研究的重點。
表8 規(guī)則驗證結(jié)果Table 8 Verification results for rules
本文提出了一種考慮屬性重要性的基于信息熵的粗糙集連續(xù)屬性離散算法,完善了文獻[8]中算法的局限性,得到了更好的計算結(jié)果,并利用IRIS數(shù)據(jù)進行了分析和驗證。最后,將該算法應(yīng)用于航空發(fā)動機磨損故障知識提取中,自動提取得到了航空發(fā)動機的磨損故障知識,并用測試樣本數(shù)據(jù)驗證了規(guī)則的正確性,表明了本文算法的有效性。
[1]陳果,宋蘭琪,陳立波,等.基于粗糙集理論的航空發(fā)動機滑油光譜診斷專家系統(tǒng)知識獲取方法研究[J].機械科學(xué)與技術(shù),2007,26(7):897—901.
[2]劉燕,李世其,董穎輝,等.油液監(jiān)測診斷系統(tǒng)的知識發(fā)現(xiàn)方法研究[J].機械科學(xué)與技術(shù),2010,29(4):524—527.
[3]Fayyad U M,Irani K B.Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning [C]//.Proceedings of Thirteenth International Joint Confer?enceonArtificialIntelligence.SanMateo:Morgan Kaufmann Publishers,1993:1022—1027.
[4]Kurgan L A,Cios K J.CAIM Discretization Algorithm[J]. IEEE Transactions on Knowledge and Data Engeering,2004,16(2):145—153.
[5]賀躍,鄭建軍,朱蕾.一種基于熵的連續(xù)屬性離散化算法[J].計算機應(yīng)用,2005,25(3):637—638.
[6]Nguyen H S,Skowron A.Quantization of Real Values At?tributes,Rough Set and Boolean Reasoning Approaches [C]//.Proceedings of the Second Joint Annual Conference on Information Science.Wrightswile Beach,1995:34—37.
[7]Nguyen H S,Nguyen H S.Some Efficient Algorithms for Rough Set Methods[C]//.Proceedings of the Conference of Information Processing and Management of Uncertainty in Knowledge-Based Systems.Spain,1996:1451—1456.
[8]謝宏,程浩忠.基于信息熵的粗糙集連續(xù)屬性離散化算法[J].計算機學(xué)報,2005,28(9):1570—1574.
[9]王國胤.Rough集理論與知識獲取[M].西安:西安交通大學(xué)出版社,2001.
[10]曾黃麟.智能計算[M].重慶:重慶大學(xué)出版社,2004.
[11]張文宇,賈嶸.數(shù)據(jù)挖掘與粗糙集方法[M].西安:西安電子科技大學(xué)出版社,2007.
[12]Richard J,Michael R,Geatz W.數(shù)據(jù)挖掘教程[M].翁敬農(nóng),譯.北京:清華大學(xué)出版社,2003.
[13]石紅.一種基于粗糙集的離散化算法[J].模式識別與人工智能,2006,19(3):412—416.
[14]葛科宇.發(fā)動機磨損故障知識獲取方法研究及應(yīng)用平臺開發(fā)[D].南京:南京航空航天大學(xué),2011.
A Method of Continuous Attributes Discretization Based on Entropy
ZHANG Peng-fei1,LI Ben-wei2,QIN Ming3,YU Fu-lei4
(1.Graduate Students’Brigade,Naval Aeronautical and Astronautical University,Yantai 264001,China;2.Department of Aerocraft Engineering,Naval Aeronautical and Astronautical University,Yantai 264001,China;3.Command Department of Nanjing Military Region,Nanjing 210016; 4.The 91883thUnit of PLA,Changzhi 046001,China)
In view of the key problems of aero-engine wear fault diagnosis for application of rough set theo?ry,a new method of continuous attribute discretization based on entropy was proposed.In the method,a new measure of assessing the importance of continuous attribute was given to solve the problem of breakpoint choice.The IRIS data was used to analyze and verify the method.Finally,this method was applied to the aero-engine fault diagnosis.The wear fault knowledge was extracted automatically and verified by the sam?ples,proving the validity of the algorithm.
aero-engine;discretization;information entropy;attribute importance;wear fault;knowledge acquisition
V263.6;TP18
:A
:1672-2620(2014)06-0049-04
2014-04-14;
:2014-09-25
張鵬飛(1989-),男,河南寶豐人,碩士研究生,主要從事航空發(fā)動機狀態(tài)監(jiān)控、故障診斷等領(lǐng)域研究。