• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多準(zhǔn)則排序融合的特征選擇方法

      2015-05-04 08:07:36石國良茍先太金煒東
      計算機(jī)工程與設(shè)計 2015年4期
      關(guān)鍵詞:馬氏特征選擇排序

      李 曉,石國良,茍先太,金煒東

      (西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)

      0 引 言

      特征選擇是從原始特征中選擇出一些最有效特征以降低數(shù)據(jù)集維度的過程。目前,按照特征選擇方法依據(jù)是否獨立于后續(xù)的學(xué)習(xí)算法,分為Wrapper(包裹)和Filter(過濾)兩種方式[1]。Wrapper利用后續(xù)學(xué)習(xí)算法的訓(xùn)練準(zhǔn)確率評估特征子集,具有偏差大、計算量大的缺點,不適合大數(shù)據(jù)集。Filter一般使用評價準(zhǔn)則來增強特征與類的相關(guān)性、削弱特征之間的相關(guān)性,利用訓(xùn)練數(shù)據(jù)的統(tǒng)計性能評估特征,計算效率較高,能很快地利用評價準(zhǔn)則來評價特征的好壞。本文主要涉及基于Filter方式的特征選擇方法?;贔ilter模式的評價準(zhǔn)則包括:Fisher比率[2,3]、Re-liefF[4,5]、馬氏距 離[6-8]、 模 糊 熵 方 法[9]、類 間 可 分 性[10]、相關(guān)性[11]等。然而,F(xiàn)ilter模式的單個評價準(zhǔn)則不能全面評價特征子集的好壞,單一的特征評價準(zhǔn)則難以全面評估特征的優(yōu)劣,選擇精度較低,有待改進(jìn)。因此,多準(zhǔn)則、多尺度的特征評估方法是目前研究的主要內(nèi)容。國內(nèi)外許多學(xué)者利用了多種評價準(zhǔn)則來進(jìn)行特征選擇算法的研究,并取得了明顯的效果。例如,文獻(xiàn) [10]提出基于ReliefF算法、類間可分性及特征相關(guān)性的多特征評價準(zhǔn)則算法,有效降低特征維度并具有比單準(zhǔn)則特征選擇方法更高的分類性能;文獻(xiàn) [12]引入多個評價準(zhǔn)則進(jìn)行輪詢式選擇,突破了目前單個評價準(zhǔn)則的局限性,能較快且較好地進(jìn)行特征選擇。因此利用多個準(zhǔn)則進(jìn)行特征評價,并借助于信息融合技術(shù)成為實現(xiàn)有效特征選擇的一條可行途徑。

      本文提出了一種基于Fisher比率、ReliefF算法、馬氏距離算法的多個評價準(zhǔn)則相結(jié)合的 “并行”特征選擇方法,該方法利用一種加權(quán)平均的方法進(jìn)行排序融合以選取到最優(yōu)特征子集。針對Ionosphere標(biāo)準(zhǔn)數(shù)據(jù)集和高鐵走行部故障數(shù)據(jù)集的特點,基于多個準(zhǔn)則同時對特征進(jìn)行評價,實現(xiàn)特征的多個排序,并利用排序融合的方法綜合多準(zhǔn)則的優(yōu)點最終得到單一排序結(jié)果,有效地進(jìn)行了特征選擇。實驗結(jié)果表明,相對于單一評價準(zhǔn)則的特征選擇方法,該方法更有效地降低了特征維數(shù),更好地提高了分類準(zhǔn)確率,并提高了分類穩(wěn)定性。

      1 特征選擇方法

      特征選擇是從原始特征中選擇出一些最有效特征以降低數(shù)據(jù)集維度的過程。主要研究從一組原始特征中挑選出一些最有效的特征以達(dá)到降低特征空間維數(shù)的目的。本文主要涉及基于Filter方式的特征選擇方法。

      1.1 ReliefF算法

      由Kononenko在1994年提出的ReliefF算法是一種改進(jìn)的Relief算法,是目前最為有效的Filter式特征選擇方法之一。ReliefF算法可以解決多類別問題以及回歸問題,能夠處理噪聲、不完整特征以及多類別屬性的數(shù)據(jù)集。該算法的核心思想是:較好的特征可使同類樣本接近,使不同類樣本遠(yuǎn)離,通過不斷調(diào)整權(quán)值逐步凸現(xiàn)特征的相關(guān)程度。

      ReliefF算法公式如下

      式中:A——特征,W [A]——特征A的權(quán)重向量,N——樣本數(shù),XR——隨機(jī)選取的樣本點,Near_Hiti——與XR同類的k個最鄰近樣本中的第i個樣本,Near_M(jìn)issi——與XR異類的k個最近鄰樣本中的第i個樣本,P(C)——C類出現(xiàn)樣本的概率。

      ReliefF算法適合處理具有大量實例的高維數(shù)據(jù)集,評估效率高,在噪聲過濾方便表現(xiàn)優(yōu)異。ReliefF算法與Relief算法類似,不管該特征是否和其余特征冗余,只要是和類別相關(guān)性高的特征,ReliefF算法均會賦予其較高的權(quán)值,因此仍不能去除冗余特征。

      1.2 Fisher比率

      Fisher比率準(zhǔn)則作為一種傳統(tǒng)的線性判別方法,在模式識別特征選擇領(lǐng)域有廣泛的應(yīng)用,能夠有效評估某個特征的有效性。Fisher比率是類間均值方差與類內(nèi)平均方差的比值。類間距離越大、類內(nèi)距離越小的特征,其Fisher比率值越大,滿足這兩個條件的特征子集更為優(yōu)良,且這樣的特征子集可能會帶來更高的分類準(zhǔn)確率。Fisher比率的計算公式如下[2]

      式中:FRi——第i維特征的Fisher比率值;k——類別數(shù);j——第j類特征 (j≤k);Nj為第j類特征向量的個數(shù)。xijn——第j類第n個特征向量中的第i維特征;μij=表示第j類中第i維特征的均值;表示第i維特征的總均值。

      1.3 馬氏距離

      馬氏距離 (Mahalanobis distance)的定義請參見文獻(xiàn)[6],表示數(shù)據(jù)的協(xié)方差距離,它可以有效地計算一個樣本和一個樣本集 “重心”的最近距離,或者計算兩個未知樣本集的相似度。本文利用馬氏距離的思想,采用中改進(jìn)了的馬氏距離算法,將馬氏距離算法作為有效的特征評價準(zhǔn)則。馬氏距離代表特征集中兩個特征子向量之間的可分離性。馬氏距離值越大,意味著兩個特征向量可分離性越好。

      下面簡要介紹馬氏距離算法:

      假設(shè)某特征矢量空間,有m維特征,n個樣本,樣本類別數(shù)為C。即樣本為 (xa,ya)∈Rm×R1,a∈(1~n),xa為m維特征矢量;ya∈{1,2...C},ya為特征矢量的類別標(biāo)號。假設(shè)X為m×n的特征集合矩陣,每行為含有m維特征的一個樣本。

      馬氏距離公式表示為

      其中,特征集第i類樣本的樣本均值用矩陣表示為(μi)1×m的m維行向量,特征集第j類樣本的樣本均值用矩陣表示為 (μj)1×m的m 維行向量。i,j∈ (1,C),C 為樣本類別數(shù)?!苅j為第i類樣本與第j類樣本所組成的特征矩陣的協(xié)方差矩陣。

      2 基于排序融合的特征選擇

      評價準(zhǔn)則被視為特征選擇中啟發(fā)式的條件影響因子,由上述介紹可知,不同的評價準(zhǔn)則有著各自的優(yōu)缺點,為了彌補某種評價準(zhǔn)則的不足,并使各種評價準(zhǔn)則之間做到優(yōu)勢互補,綜合利用各種不同條件影響因子,本文提出多準(zhǔn)則排序融合的特征選擇方法。

      首先分別基于ReliefF算法、Fisher比率法、馬氏距離法分別對原始特征空間的各個特征進(jìn)行評估。由于ReliefF算法、Fisher比率、馬氏距離均是權(quán)值越大,該特征對分類的作用越大,則權(quán)值越大的特征排序越靠前。對原始特征空間中各個特征權(quán)值的相反數(shù)按升序排序,分別依次記排序后每個特征對應(yīng)的序號

      式中XR(k)、XF(k)、XM(k)分別表示 ReliefF算法、Fisher比率法、馬氏距離法中,第k個特征的權(quán)值在所有m維特征中的排序序號。

      按照 “線性求和”規(guī)則進(jìn)行排序融合,即將每個特征在不同評價準(zhǔn)則下獲取的排序值求和作為融合排序值,從而得到基于上述3種準(zhǔn)則的特征綜合排序序號,記作

      其中

      式中:X(k)——在排序融合后第k個特征的權(quán)值在所有m個特征中的排序序號。

      3 實驗與討論

      為了驗證本文基于多準(zhǔn)則的排序融合的特征選擇方法的有效性和優(yōu)越性,本文針對標(biāo)準(zhǔn)數(shù)據(jù)集和高速列車轉(zhuǎn)向架故障數(shù)據(jù)集設(shè)計和驗證性實驗。

      3.1 基于Ionosphere數(shù)據(jù)集的實驗

      本實驗采用UCI的Ionosphere數(shù)據(jù)集進(jìn)行實驗驗證。該數(shù)據(jù)集包括2個類別,33維有效特征,351個樣本。本實驗中,分別按上述各評價準(zhǔn)則進(jìn)行實驗,其中基于排序融合的特征選則方法采用線性組合的方式,按照式 (8)的加權(quán)參數(shù)設(shè)置為α∶β∶γ=2∶2∶1,得特征子集 (維數(shù)為33~1維)。實驗采用SVM分類器,從每類樣本中隨機(jī)抽取60%的樣本作為訓(xùn)練樣本 (第一類135個,第二類75個,合計210個),從每類樣本中隨機(jī)抽取40%的樣本作為測試樣本 (第一類75個,第二類56個,合計141個),重復(fù)進(jìn)行實驗100次,取其均值作為實驗結(jié)果。實驗結(jié)果如表1和圖1所示。

      表1 數(shù)據(jù)集Ionosphere分類結(jié)果

      表1和圖1的實驗結(jié)果表明,相比于單準(zhǔn)則特征選擇法,基于多準(zhǔn)則排序融合的特征選擇法能有效降低最優(yōu)特征空間的維數(shù),選取的特征空間具有較高的分類準(zhǔn)確率,尤其在特征維數(shù)較低的情況下,基于多準(zhǔn)則排序融合的特征選擇法具有更明顯的優(yōu)勢。

      圖1 各種特征選擇方法結(jié)果比較

      3.2 基于高速列車故障數(shù)據(jù)的實驗

      為驗證基于多準(zhǔn)則排序融合的特征選擇方法在高速列車轉(zhuǎn)向架故障仿真數(shù)據(jù)中的有效性,本文據(jù)進(jìn)行了仿真驗證。該實驗所用的實驗數(shù)據(jù)是西南交通大學(xué)牽引動力國家重點實驗室采用動力學(xué)仿真分析的多體動力學(xué)分析軟件包仿真所得,系CRH2型動車組中轉(zhuǎn)向架振動故障的仿真數(shù)據(jù)。高速列車轉(zhuǎn)向架振動故障數(shù)據(jù)集中工況類別為:①原車 (無故障);②空氣彈簧失氣;③橫向減震器故障;④抗蛇形減震器故障。高速列車在每種工況下運行速度為120 km/h、140km/h、160km/h、200km/h等,直至列車失穩(wěn)。列車在每個速度下均運行210s,傳感器采樣頻率為243Hz。

      3.2.1 實驗設(shè)計

      在仿真實驗中,分別對每個工況類別的原始振動信號數(shù)據(jù)進(jìn)行EEMD分解,選取含有主要故障特征的n個本征模態(tài)函數(shù) (IMFs),選擇第2到10階IMFs(共9階IMFs),每隔3s對每階IMF(729個數(shù)據(jù))計算一個模糊熵,由此,每個工況類別得到70個樣本 (4個工況類別共計280個樣本),每個樣本都具有9維EEMD模糊熵特征向量。表2是對高速列車故障特征集合的簡單表述。

      表2 高速列車故障特征集描述

      對每個速度下的特征集合,分別按上述4種基于評價準(zhǔn)則的特征選擇方法進(jìn)行仿真實驗,其中基于排序融合的特征選則方法采用線性組合的方式,按照式 (8)的加權(quán)參數(shù)設(shè)置為α:β:γ=5∶3∶2,分別得到9~1維的特征子集,分別進(jìn)行識別率計算實驗。采用SVM分類器,從每個工況類別隨機(jī)選取60% (42個)的樣本作為訓(xùn)練樣本 (共計168個),同時隨機(jī)選取40% (28個)的樣本作為測試樣本(共計112個)。實驗重復(fù)100次,取其均值作為實驗結(jié)果。

      3.2.2 實驗結(jié)果與分析

      表3~表6分別表示4種不同速度下,上述4種特征選擇方法獲得的最優(yōu)特征空間維數(shù)、最優(yōu)特征空間分類準(zhǔn)確率、平均分類準(zhǔn)確率。圖2為基于高速列車運行在140km/h時的故障特征數(shù)據(jù)集的各特征選擇方法的結(jié)果比較。圖3為不同速度下基于4種特征選擇方法獲得的最優(yōu)特征空間的分類準(zhǔn)確率對比。

      表3 120km/h時速列車故障數(shù)據(jù)分類結(jié)果

      表4 140km/h時速列車故障數(shù)據(jù)分類結(jié)果

      表5 160km/h時速列車故障數(shù)據(jù)分類結(jié)果

      表6 200km/h時速列車故障數(shù)據(jù)分類結(jié)果

      圖2 各種特征選擇方法比較 (140km/h故障數(shù)據(jù)集)

      圖3 不同速度4種特征選擇方法分類準(zhǔn)確率對比

      表3~表6表明,4種特征選擇方法均可有效降低特征空間維數(shù),去除冗余特征,獲得最優(yōu)特征子集,減少計算量。其中,基于多準(zhǔn)則排序融合的特征選擇方法可將上述4種速度的特征空間分別降為2或3維,且具有較高的分類精度。在分類性能方面,相比于原特征空間的分類準(zhǔn)確率,上述4種方法所得特征子集的分類準(zhǔn)確率均有所提高,其中尤以多準(zhǔn)則排序融合的特征選擇法獲得的最優(yōu)特征子集的分類準(zhǔn)確率提高最多,在120km/h、140km/h、160km/h、200km/h 速 度 下 分 別 提 高 2.5446%、9.7951%、3.1015%、1.3393%。由圖2可知,高速列車運行速度為140km/h時,特征空間維數(shù)降低至低維 (5~1維),基于多準(zhǔn)則排序融合的特征選擇法獲得的特征子集在分類性能方面具有明顯的優(yōu)勢,其最優(yōu)特征空間為3維,準(zhǔn)確率為99.4643%,高出由其他方法獲得的特征子集分類準(zhǔn)確率0.6%~8.4%。圖3表明,不同速度下,基于多準(zhǔn)則排序融合的特征選擇法獲得的最優(yōu)特征子集的準(zhǔn)確率均高于其他單準(zhǔn)則特征選擇的最優(yōu)特征子集分類準(zhǔn)確率,這表明多準(zhǔn)則排序融合的特征選擇法有較好的穩(wěn)定性。綜上,在去除冗余特征和特征子集的分類性能方面,基于多準(zhǔn)則排序融合的特征選擇法優(yōu)于單準(zhǔn)則特征選擇法。

      4 結(jié)束語

      本文提出了一種基于Fisher比率、ReliefF算法、馬氏距離算法的多準(zhǔn)則排序融合的特征選擇方法,使多個特征選擇準(zhǔn)則實現(xiàn)優(yōu)勢互補,該方法簡單方便,可更有效、更合理地進(jìn)行特征選擇?;贗onosphere標(biāo)準(zhǔn)數(shù)據(jù)集和高速列車轉(zhuǎn)向架故障數(shù)據(jù)集的實驗結(jié)果表明,相比于單準(zhǔn)則的特征選擇方法,基于多準(zhǔn)則排序融合的特征選擇方法能更有效地降低特征空間維數(shù),且能有效提高所獲得的最優(yōu)特征空間的準(zhǔn)確率。實驗證明,該方法具有良好的魯棒性和優(yōu)異性。

      基于多準(zhǔn)則的排序融合的特征選擇法,在排序融合時存在參數(shù)權(quán)重選擇的問題,那么如何進(jìn)行參數(shù)的優(yōu)化選擇,如何設(shè)計更為合理的無參數(shù)權(quán)重設(shè)置的排序融合是后續(xù)研究的重點和難點。

      [1]YAO Xu,WANG Xiaodan,ZHANG Yuxi,et al.Summary of feature selection algorithms [J].Control and Decision,2012,27 (2):161-166 (in Chinese).[姚旭,王曉丹,張玉璽,等.特征選擇方法綜述 [J].控制與決策,2012,27(2):161-166.]

      [2]Zabidi A,Mansor W.The effect of F-ratio in the classification of asphyxiate infant cries using multilayer perceptron neural network [C]//EMBS Conference on Biomedical Engineering&Scence,2010:126-129.

      [3]GAO Lixin,REN Zhiqiang,ZHANG Jianyu,et al.Rolling bearing fault diagnosis methods based on Fisher ratio and SVM[J].Journal of Beijing University of Technology,2011,37(1):13-18 (in Chinese). [高立新,任志強,張建宇,等.基于Fisher比率與SVM的滾動軸承故障診斷方法 [J].北京工業(yè)大學(xué)學(xué)報,2011,37 (1):13-18.]

      [4]BI Kai,ZHOU Wei,JIANG Yujiao,et al.Analysis of alert log in Honeynet based on improved ReliefF [J].Computer Engineer and Design,2011,32 (7):2237-2240 (in Chinese).[畢凱,周煒,蔣玉嬌,等.基于改進(jìn)ReliefF算法Honeynet告警日志分析 [J].計算機(jī)工程與設(shè)計,2011,32 (7):2237-2240.]

      [5]LIAO Kuo,F(xiàn)U Jiansheng,YANG Wanlin.Modified ReliefF algorithm for radar HRRP target recognition [J].Journal of Electronic Measurement and Instrument,2010,24 (9),831-836(in Chinese). [廖闊,付建勝,楊萬麟.改進(jìn)的ReliefF算法用于雷達(dá)距離像目標(biāo)識別 [J].電子測量與儀報,2010,24 (9),831-836.]

      [6]ZHAO Xiaoqiang,LI Xiongwei.A fuzzy C-means clustering algorithm based on improved Mahalanobis distance [J].Journal of Central South University (Science and Technology),2013,44 (2):195-198 (in Chinese). [趙小強,李雄偉.基于改進(jìn)馬氏距離的模糊C聚類研究 [J].中南大學(xué)學(xué)報 (自然科學(xué)版),2013,44 (2):195-198.]

      [7]ZHANG Guanliang,ZOU Huanxin.Point pattern matching based on Mahalanobis distance weighted graph transformation[J].Journal of Central South University (Science and Technology),2013,44 (2):323-328 (in Chinese).[張官亮,鄒煥新.基于改進(jìn)馬氏距離的模糊C聚類研究 [J].中南大學(xué)學(xué)報 (自然科學(xué)版),2013,44 (2):323-328.]

      [8]LI Feng,WANG Zhengqun,XU Chunlin,et al.Dimensionality reduction algorithm of local marginal Fisher analysis based on Mahalanobis distance [J].Journal of Computer Applications,2013,33 (7):1930-1934 (in Chinese). [李峰,王正群,徐春林,等.基于馬氏距離的局部邊界Fisher分析降維算法 [J].計算機(jī)應(yīng)用,2013,33 (7):1930-1934.]

      [9]WEI ZY.Fusion in multi-criterion feature ranking [C]//The 10th International Conference on Information Fusion,2007:1-6.

      [10]YANG Yi,HAN Deqiang.Study on feature selection based on rank-level fusion [J].Control and Decision,2011,26(3):397-401 (in Chinese). [楊藝,韓德強.基于排序融合的特征選擇 [J].控制與決策,2011,26 (3):397-401.]

      [11]FENG Y,MAO KZ.Robust feature selection for micro-array data based on multi-criterion fusion [J].IEEE/ACM Transactions on Computational Biology Bio-informatics,2011,8(4):1080-1092.

      [12]LI Yongming,ZHANG Sujuan,ZENG Xiaoping,et al.Research of poll mode and multi-criteria feature selection algorithm based on chain-like agent genetic algorithm [J].Journal of System Simulation,2009,21 (7):2010-2017. (in Chinese).[李勇明,張素娟,曾孝平,等.輪詢式多準(zhǔn)則特征選擇 算 法 的 研 究 [J].系 統(tǒng) 仿 真 學(xué) 報,2009,21 (7):2010-2017.]

      猜你喜歡
      馬氏特征選擇排序
      排序不等式
      一類時間變換的強馬氏過程
      有環(huán)的可逆馬氏鏈的統(tǒng)計確認(rèn)
      關(guān)于樹指標(biāo)非齊次馬氏鏈的廣義熵遍歷定理
      恐怖排序
      節(jié)日排序
      一致可數(shù)可加馬氏鏈不變測度的存在性
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      灵台县| 长沙市| 奉节县| 土默特左旗| 拜城县| 长海县| 布拖县| 囊谦县| 郁南县| 临安市| 木兰县| 房山区| 诸城市| 林甸县| 大庆市| 施秉县| 锡林浩特市| 深水埗区| 扎兰屯市| 冀州市| 通城县| 怀集县| 集安市| 广南县| 安多县| 青浦区| 金山区| 博湖县| 友谊县| 田东县| 霞浦县| 商城县| 阿拉善右旗| 青川县| 玉屏| 临泽县| 永丰县| 霍城县| 海林市| 阿拉善右旗| 平湖市|