• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于區(qū)分對(duì)的混合型弱標(biāo)記數(shù)據(jù)增量約簡算法

      2022-02-24 04:13:10鄭穎春
      關(guān)鍵詞:約簡區(qū)分增量

      金 莎, 鄭穎春

      (西安科技大學(xué) 理學(xué)院,陜西 西安 710600)

      0 引言

      粗糙集理論是由波蘭學(xué)者Pawlak提出的[1],屬性約簡[2]是其重點(diǎn)研究內(nèi)容,用于降低原始數(shù)據(jù)集維數(shù), 剔除數(shù)據(jù)集的冗余和不相關(guān)屬性。目前,基于信息系統(tǒng)[3-9]和決策系統(tǒng)[10-16]中的屬性約簡算法研究較多。

      已有的屬性約簡算法只能解決有標(biāo)記數(shù)據(jù)或無標(biāo)記數(shù)據(jù)的約簡問題,現(xiàn)實(shí)中因數(shù)據(jù)采集需要消耗大量成本或受技術(shù)限制,導(dǎo)致得到的數(shù)據(jù)大多是缺失、無標(biāo)記的。文獻(xiàn)[17]定義不完備弱標(biāo)記數(shù)據(jù)的半監(jiān)督差別矩陣,利用基于協(xié)同學(xué)習(xí)的思想將無標(biāo)記的數(shù)據(jù)中信度較大的數(shù)據(jù)轉(zhuǎn)換為有標(biāo)記數(shù)據(jù)。文獻(xiàn)[18]提出了一種半監(jiān)督特征選擇算法,該算法通過組合半監(jiān)督散點(diǎn),有效利用大量未標(biāo)記的視頻數(shù)據(jù)中的信息來區(qū)分目標(biāo)類別。文獻(xiàn)[19]針對(duì)弱標(biāo)記的符號(hào)型數(shù)據(jù),利用半監(jiān)督學(xué)習(xí)框架,構(gòu)造相對(duì)應(yīng)的啟發(fā)式半監(jiān)督屬性約簡算法,然而該算法是非增量的,運(yùn)行效率較低。文獻(xiàn)[20]采用鄰域粗糙集對(duì)部分標(biāo)記數(shù)據(jù)進(jìn)行屬性約簡,結(jié)合兩種不同的度量方法得到綜合重要性并設(shè)計(jì)啟發(fā)式算法進(jìn)行約簡計(jì)算。文獻(xiàn)[21]在粒計(jì)算的背景下提出不完備弱標(biāo)記決策系統(tǒng)中的區(qū)分對(duì)定義,基于半監(jiān)督學(xué)習(xí)給出決策系統(tǒng)中樣本增加或減少的增量屬性約簡算法,然而并沒有給出樣本變化時(shí)的增量機(jī)制。

      上述算法在處理動(dòng)態(tài)變化的弱標(biāo)記數(shù)據(jù)屬性約簡問題時(shí),需要不斷重復(fù)大量計(jì)算,沒有相應(yīng)的增量機(jī)制,計(jì)算復(fù)雜度高,分類性能低,且大多只能處理符號(hào)型數(shù)據(jù)。故針對(duì)混合不完備、且數(shù)據(jù)存在缺失的動(dòng)態(tài)變化數(shù)據(jù)集,本文給出區(qū)分關(guān)系的更新定理,建立屬性動(dòng)態(tài)變化的增量機(jī)制,并提出相應(yīng)的增量屬性約簡算法。最后,通過實(shí)驗(yàn)分析了本文增量屬性約簡算法與文獻(xiàn)[19]、文獻(xiàn)[20]中屬性約簡算法的計(jì)算效率和分類性能。

      1 預(yù)備知識(shí)

      文獻(xiàn)[21]中指出,弱標(biāo)記數(shù)據(jù)是既含有有標(biāo)記的數(shù)據(jù)也包含無標(biāo)記數(shù)據(jù)的集合。若混合型決策系統(tǒng)的決策屬性值d存在缺失(即類別無標(biāo)注),則稱這是一個(gè)混合型弱標(biāo)記決策系統(tǒng)。

      定義1 給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U=L∪N,C∪D,V,f〉, 其中,U是包含所有樣本的非空有限集合,L是包含所有有標(biāo)記樣本的集合,N是包含所有無標(biāo)記樣本的集合,這里C=Cd∪Cr,Cd為離散型屬性集,Cr為連續(xù)型屬性集,D為決策屬性集,對(duì)于?a∈C,定義屬性a的區(qū)分關(guān)系DISC(a,U2)為:

      DISC(a,L2)={(xi,xj)|(a∈Cd,f(a,xi)≠f(a,xj))∨(a∈Cr,f(a,xi)-f(a,xj)|<δ)∧

      (1)

      DISC(a,N2)={(xi,xj):(a∈Cd,f(a,xi)≠f(a,xj))∨(a∈Cr,f(a,xi)-f(a,xj)|<δ)∧

      f(a,xi)≠*∧f(a,xj)≠*,xi,xj∈N};

      (2)

      DISC(a,U2)=DISC(a,L2)∪DISC(a,N2),

      (3)

      性質(zhì)1 對(duì)于混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,設(shè)屬性集B?C,則屬性集的區(qū)分關(guān)系一定滿足:

      DISC(B,U2)?DISC(C,U2)。

      (4)

      證明根據(jù)區(qū)分關(guān)系定義1可知,對(duì)于?B?C,總是存在a∈C-B,DISC(a,L2)≠φ或DISC(a,N2)≠φ,所以有DISC(a,U2)=DISC(a,L2)∪DISC(a,N2)≠φ,滿足|DISC(a,U2)|≥0, 因此DISC(B,U2)?DISC(C,U2)成立。性質(zhì)1證畢。

      定義2[21]給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,對(duì)?B?C,若B的區(qū)分關(guān)系滿足以下兩個(gè)條件,則稱B為混合型弱標(biāo)記決策系統(tǒng)的約簡,記為redC:

      (Ⅰ)DISC(C,U2)=DISC(B,U2);

      (Ⅱ)對(duì)?a∈B,有DISC(B,U2)≠DISC(B-{a},U2)。

      2 混合型弱標(biāo)記數(shù)據(jù)的非增量約簡算法

      根據(jù)區(qū)分關(guān)系定義,DISC(C,U2)表示屬性集C所區(qū)分的論域U×U中所有樣本對(duì)的集合,根據(jù)定義2,若DISC(C,U2)=DISC(B,U2)成立,B就是屬性約簡集,由性質(zhì)1得DISC(B,U2)?DISC(C,U2)總是成立的,因此計(jì)算屬性約簡時(shí),為減少要識(shí)別的樣本對(duì),可以將原本要區(qū)分的樣本對(duì)U×U改為DISC(C,U2),若屬性集B能辨別屬性集C所區(qū)分的所有樣本對(duì),它就是這個(gè)決策系統(tǒng)的屬性約簡。基于上述思想,本文構(gòu)造了一種面對(duì)混合型弱標(biāo)記不完備決策系統(tǒng)的屬性相對(duì)區(qū)分度計(jì)算公式。它能與反向刪除思想結(jié)合,不斷去掉當(dāng)前已能區(qū)分的區(qū)分對(duì),逐步減少所要識(shí)別的區(qū)分對(duì)數(shù)量。

      定義3 給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,對(duì)?a∈C,定義屬性相對(duì)區(qū)分度為:

      (5)

      表示屬性a相對(duì)于屬性集C能區(qū)分的樣本對(duì)個(gè)數(shù)所占比例。

      性質(zhì)2 對(duì)于混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,若屬性集B?C,則有DISC(C-B,U2)≠DISC(C,U2)-DISC(B,U2)。

      證明假設(shè)屬性集B是屬性集C的約簡,且B是包含于C的,根據(jù)定義2,它們的區(qū)分關(guān)系滿足DISC(C,U2)=DISC(B,U2),則DISC(C,U2)-DISC(B,U2)=0。對(duì)a∈C-B,一定存在a使得DISC(a,U2)≠0成立,得DISC(C-B,U2)≠0,所以DISC(C-B,U2)≠DISC(C,U2)-DISC(B,U2)。性質(zhì)2證畢。

      由定義3和性質(zhì)2可得B?C,a∈C-B,屬性a相對(duì)區(qū)分度為:

      定義4 給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,對(duì)?B?C,?b∈B,定義SIGI(b,B,C)=|DISC(B,U2)-DISC(B-b,U2)|為屬性b相對(duì)屬性集B的重要度,稱為相對(duì)重要度。

      基于以上混合型弱標(biāo)記決策系統(tǒng)的區(qū)分關(guān)系和區(qū)分度定義,給出相應(yīng)的屬性約簡算法。

      算法1 混合型弱標(biāo)記決策系統(tǒng)的非增量屬性約簡算法。

      輸入:混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉。

      輸出:屬性約簡集合B。

      步驟1 根據(jù)定義,計(jì)算屬性集a的區(qū)分關(guān)系DISC(a,U2),令pair0=DISC(C,U2)。

      步驟2 將|DISC(a,U2)|的值最大的屬性加入約簡集B,令pairj=DISC(B,U2)。

      步驟3 計(jì)算pairj+1=pair0-pairj,其中j=1,2,…,n,當(dāng)pairj+1=0,轉(zhuǎn)到步驟5;否則,轉(zhuǎn)到步驟4。

      步驟5DISC(B,U2)=DISC(C,U2),對(duì)屬性約簡集合B進(jìn)行逆向剔除,對(duì)任意b∈B,計(jì)算屬性b相對(duì)B內(nèi)部重要度,若存在SIGI(b,B,pair0)=0,則B=B-b。

      步驟6 輸出屬性約簡集B。

      3 混合型弱標(biāo)記數(shù)據(jù)的增量約簡算法

      數(shù)據(jù)庫總是呈現(xiàn)動(dòng)態(tài)變化趨勢(shì),非增量算法1在解決屬性動(dòng)態(tài)變化的數(shù)據(jù)時(shí),需重復(fù)計(jì)算所有屬性的區(qū)分關(guān)系,時(shí)間復(fù)雜度高,甚至無法實(shí)現(xiàn)。接下來,給出屬性動(dòng)態(tài)增加時(shí)區(qū)分關(guān)系的增量式更新原理。提出混合型弱標(biāo)記決策系統(tǒng)屬性增加的增量屬性約簡算法。

      3.1 屬性增加時(shí)區(qū)分關(guān)系的增量式學(xué)習(xí)

      定理1 給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,增加屬性p,若有標(biāo)記的決策子系統(tǒng)的不一致容差類數(shù)量發(fā)生變化,或無標(biāo)記的信息子系統(tǒng)的容差類數(shù)量發(fā)生變化,則新加入的屬性p對(duì)于混合型弱標(biāo)記決策系統(tǒng)的屬性約簡更新是有必要的,否則是不必要的。

      證明在文獻(xiàn)[11]中證明了有標(biāo)記的決策子系統(tǒng)中不一致容差類的數(shù)量發(fā)生改變,則p是必要的。

      無標(biāo)記子系統(tǒng)中,若?xi,xj∈N,xj∈TC(xi),當(dāng)屬性p增加后xj?TC∪p(xi),則有:

      ?DISC(C∪p,N2)=DISC(C,N2)∪{(xi,xj)|xj∈TC(xi)∧xj?TC∪p(xi)},∴DISC(C∪p,N2)≠DISC(C,N2),?DISC(C,U2)≠DISC(C∪p,U2),?DISC(redC,U2)≠DISC(C∪p,U2)。

      故redC不是〈U,C∪p∪D〉的屬性約簡,即屬性p能區(qū)分原來?xiàng)l件屬性C不能區(qū)分的樣本對(duì),p是必要的。定理1證畢。

      定理2 給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,若新加入屬性p是必要的,則屬性區(qū)分關(guān)系可用下式更新:

      DISC∪p(a,L2)=DISC(a,L2)∪{(xi,xj):f(a,xi)≠f(a,xj)∧f(a,xi)≠*∧f(a,xj)≠

      (6)

      DISC∪p(a,N2)=DISC(a,N2);

      (7)

      DISC∪p(a,U2)=DISC∪p(a,L2)∪DISC∪p(a,N2),

      (8)

      其中:ω(p)={x∈L:|d(TC(x))|>1∧|d(TC∪p(x))|=1},其中|d(TC(x))|表示x在條件屬性集C下容差類的決策值基數(shù),若|d(TC(x))|的值等于1則表示一致容差類,|d(TC(x))|的值大于1則表示不一致容差類。

      證明式(5)的證明,根據(jù)區(qū)分關(guān)系的定義,有標(biāo)記子系統(tǒng)中加入屬性p后,屬性a的區(qū)分關(guān)系為

      {(xi,xj):f(a,xi)≠f(a,xj)∧f(a,xi)≠*∧f(a,xj)≠*∧d(xi)≠d(xj),xi∈

      *∧d(xi)≠d(xj),xi∈ω(p),xj∈|d([x]C∪p)|>1}∪{(xi,xj):f(a,xi)≠

      f(a,xj)∧f(a,xi)≠*∧f(a,xj)≠*∧d(xi)≠d(xj),xi,xj∈ω(p)}。

      第一部分子集就是屬性a在加入屬性p前的區(qū)分關(guān)系,再并上原本不一致的樣本在加入屬性p后變成一致樣本的集合與負(fù)域中元素的區(qū)分對(duì)。

      DISC(a,L2)∪{(xi,xj):f(a,xi)≠f(a,xj)∧f(a,xi)≠*∧f(a,xj)≠

      定理2證畢。同理,可證式(6)成立。

      定理3 給定混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,已知其約簡集為redC,當(dāng)增加必要屬性p,則需更新區(qū)分關(guān)系DISC(C,U2),記新增加的樣本對(duì)集為Δpairp,若Δpairp?DISC∪p(redC∪p,U2),則redC∪p就是混合型弱標(biāo)記決策系統(tǒng)TS′=〈U,C∪p∪D〉的屬性約簡集,否則需要利用屬性相對(duì)區(qū)分度定義更新屬性約簡集。

      3.2 增量屬性約簡算法

      基于以上增量學(xué)習(xí)定理,結(jié)合反向刪除法,構(gòu)造混合型弱標(biāo)記決策系統(tǒng)中基于屬性相對(duì)區(qū)分度的啟發(fā)式增量屬性約簡算法。

      算法2 屬性增加的混合型弱標(biāo)記決策系統(tǒng)基于區(qū)分對(duì)的增量屬性約簡算法。

      輸入:混合型弱標(biāo)記決策系統(tǒng)TS=〈U,Cd∪Cr∪D〉,區(qū)分關(guān)系DISC(a,U2),令樣本對(duì)集pair0=DISC(C,U2),屬性約簡集redC;新增屬性集合C′。

      輸出:混合型弱標(biāo)記決策系統(tǒng)TS′=〈U,C∪C′∪D〉的屬性約簡集。

      步驟1 增加屬性集C′,篩選出必要屬性集C″,若C″=φ,則轉(zhuǎn)到步驟5;否則轉(zhuǎn)到步驟2。

      步驟2C″≠φ,重復(fù)以下步驟:

      步驟2.1 若?p∈C″,滿足ω(p)={x∈L:|d(TC(x))|>1∧|d(TC∪p(x))|=1}≠φ,更新DISC∪C′(a,(L∪L″)2);否則轉(zhuǎn)到步驟2.2。

      步驟2.2 若?p∈C″,滿足φ(p)={x∈N:|TC(x)|>1∧|TC∪p(x)|=1}≠φ,更新DISC∪C′(a,(N∪N″)2),直到遍歷C″中所有屬性,轉(zhuǎn)到步驟3。

      步驟3 若Δpair0?DISC∪C′(redC∪C″,(U∪U′)2)(其中Δpair0=DISC∪C′(C∪C′,(U∪U′)2)-DISC∪C′(C,U2)),則約簡為redC∪C′=redC∪C″,轉(zhuǎn)到步驟6;否則轉(zhuǎn)到步驟4。

      步驟4 計(jì)算redC∪C′的區(qū)分關(guān)系,令pairj=DISC∪C′(redC∪C′,U∪U′);設(shè)pairj+1=pair0∪Δpair0-pairj,其中j=0,1,…,n。若pairj+1=0則轉(zhuǎn)到步驟6;否則轉(zhuǎn)到步驟5。

      步驟6 對(duì)?b∈redC∪C′,計(jì)算屬性相對(duì)重要度,若存在bk使得SIGIDISC∪C′(bk,redC∪C′,pair2)=0 (其中pair=pair0∪Δpair0),則屬性約簡為redC∪C′=redC∪C′-bk;轉(zhuǎn)到步驟7,否則轉(zhuǎn)到步驟5。

      步驟7 輸出屬性約簡redC∪C′。

      4 算法實(shí)例分析

      為進(jìn)一步驗(yàn)證本文算法的有效性,在美國加州大學(xué)歐文分校提出的數(shù)據(jù)庫(University of California Irvine,UCI)中選取了6個(gè)混合型數(shù)據(jù)集,如表1所示。實(shí)驗(yàn)的運(yùn)行環(huán)境為:CPU Intel(R)Core(TM)i5-10500(3.20 Hz),內(nèi)存8.0 GB,操作系統(tǒng)為Windows 10,所運(yùn)用的軟件平臺(tái)為MATLAB2020a。

      表1 實(shí)驗(yàn)數(shù)據(jù)集

      4.1 數(shù)據(jù)說明及實(shí)驗(yàn)設(shè)計(jì)

      為模擬現(xiàn)實(shí)中數(shù)據(jù)標(biāo)記缺失的情形,將6個(gè)數(shù)據(jù)集的標(biāo)記進(jìn)行隨機(jī)缺失處理,通過文獻(xiàn)[21]可知,隨機(jī)標(biāo)記缺失比例為50%的弱標(biāo)記數(shù)據(jù)環(huán)境中算法分類性能更好。本部分將討論增量算法2的屬性約簡運(yùn)行效率和分類性能。以50%條件屬性作為基礎(chǔ)數(shù)據(jù),剩余數(shù)據(jù)作為增量數(shù)據(jù)集,按照增量數(shù)據(jù)集大小的10%為梯度遞增時(shí),分別對(duì)弱標(biāo)記的數(shù)據(jù)采用本文非增量算法1、增量算法2、弱標(biāo)記數(shù)據(jù)的半監(jiān)督屬性約簡算法[19](semi-supervised attribute reduction algorithm for weakly labeled data, Semi-D)和綜合重要性屬性約簡(compute IMP-reduction,CIMR)算法[20]進(jìn)行屬性約簡,并對(duì)4種算法進(jìn)行簡單的比較分析。

      4.2 屬性約簡效率比較

      圖1為本文非增量算法1、增量算法2、CIMR算法和Semi-D算法分別在6個(gè)數(shù)據(jù)集中屬性增加時(shí)的屬性約簡計(jì)算時(shí)間比較。由于本文模擬了數(shù)據(jù)集中按增量數(shù)據(jù)的10%依次動(dòng)態(tài)增加,因此圖l中每幅圖的橫坐標(biāo)為屬性與樣本的動(dòng)態(tài)增加比例,刻度值為10%至100%,縱坐標(biāo)表示每次增加動(dòng)態(tài)數(shù)據(jù)時(shí)屬性約簡所消耗的計(jì)算時(shí)間。

      由圖1可知:隨著混合型弱標(biāo)記決策系統(tǒng)動(dòng)態(tài)數(shù)據(jù)集的逐漸增加,本文算法1計(jì)算時(shí)間增長的速率較快,而增量算法2的增長速率較為緩慢,且CIMR算法和Semi-D算法的屬性約簡計(jì)算時(shí)間均大幅度高于增量算法2的計(jì)算用時(shí)。由圖1a~圖1c可知:由于本文算法2引入相對(duì)區(qū)分度作為屬性重要度的度量標(biāo)準(zhǔn),在每次迭代中不斷地減少搜索空間,在處理數(shù)據(jù)規(guī)模較小的數(shù)據(jù)集和本文非增量算法1時(shí),計(jì)算效率相近;在小數(shù)據(jù)集中,如Musk1數(shù)據(jù)集上本文算法2最終運(yùn)行時(shí)間為187.428 s,而CIMR算法和Semi-D算法運(yùn)行時(shí)間分別為650.365 s和972.315 s,相比CIMR算法節(jié)約71.18%,相比Semi-D算法能節(jié)約80.72%的時(shí)間。隨著數(shù)據(jù)規(guī)模的增大,在圖1d~圖1f中,算法1在動(dòng)態(tài)數(shù)據(jù)中更新屬性約簡結(jié)果需要進(jìn)行大量的重復(fù)計(jì)算,采用增量算法2,利用已有的增量機(jī)制對(duì)屬性約簡集進(jìn)行增量式更新,能夠減少重復(fù)的計(jì)算,在Amlall數(shù)據(jù)集中,當(dāng)數(shù)據(jù)集增加100%時(shí),增量算法2的運(yùn)行時(shí)間為1 171.456 s,非增量算法1的運(yùn)行時(shí)間為6 351.258 s,CIMR算法和Semi-D算法的運(yùn)行時(shí)間分別為10 129.458 s和11 078.74 s,相比非增量算法1的計(jì)算效率提高了81.5%,相比CIMR算法和Semi-D算法的計(jì)算效率分別提高了88.3%和89.42%。

      (a) Dermatology (b) Musk1 (c) Cnae-9

      4.3 屬性約簡結(jié)果及分類性能比較

      為了對(duì)非增量式與增量式屬性約簡的結(jié)果進(jìn)行比較分析,在實(shí)驗(yàn)的過程中選取了當(dāng)增加的數(shù)據(jù)集為100%時(shí)的屬性約簡結(jié)果輸出來。非增量算法1和增量算法2的屬性約簡結(jié)果對(duì)比見表2,屬性Ci簡寫為i。表2是數(shù)據(jù)隨機(jī)缺失50%后,弱標(biāo)記數(shù)據(jù)集的屬性約簡結(jié)果在支持向量機(jī)(support vector machines,SVM)和分類決策樹(decision trees,C4.5)兩種分類器下的分類精度。

      由表2可知:在不同分類器中同一屬性約簡結(jié)果的分類精度有一定差異,但僅利用有標(biāo)記的數(shù)據(jù)獲取的屬性約簡結(jié)果會(huì)丟失部分有效的分類信息,故分類精度顯著偏低,分類器較難準(zhǔn)確學(xué)習(xí)到其內(nèi)在規(guī)則或模式。因此,僅利用有標(biāo)記的數(shù)據(jù)獲取屬性約簡結(jié)果的分類性能顯著偏弱。而利用本文弱標(biāo)記屬性約簡算法1和算法2處理6個(gè)數(shù)據(jù)集標(biāo)記缺失50%的弱標(biāo)記數(shù)據(jù),能夠獲取一個(gè)分類性能相對(duì)較優(yōu)的屬性約簡結(jié)果。在實(shí)驗(yàn)過程中發(fā)現(xiàn),在不同分類器中屬性約簡結(jié)果的分類性能也存在一定差異,本文算法2在規(guī)模較小的數(shù)據(jù)集上對(duì)比非增量算法1,由于對(duì)小數(shù)據(jù)集的標(biāo)記進(jìn)行隨機(jī)缺失,對(duì)分類效果產(chǎn)生了一定影響,導(dǎo)致分類性能效果偏弱,但是相比僅用有標(biāo)記數(shù)據(jù)處理數(shù)據(jù)的分類精度高,例如在Dermatology、Musk1和Cnae-9數(shù)據(jù)集中SVM分類器下,算法1的分類精度均值是80.68,算法2的分類精度均值是80.09,僅用有標(biāo)記數(shù)據(jù)約簡結(jié)果得到的分類精度均值是61.14。但隨著數(shù)據(jù)規(guī)模的增大,增量算法2的性能表現(xiàn)趨于穩(wěn)定,例如在Dermatology、Musk1和Cnae-9數(shù)據(jù)集中SVM分類器下,算法1的分類精度均值是91.18,算法2的分類精度均值是91.11,僅用有標(biāo)記數(shù)據(jù)約簡結(jié)果得到的分類精度均值是81.23。在 C4.5分類器下,3種算法的分類精度情況類似于SVM分類器,存在0.8以內(nèi)的偏差。

      表2 屬性約簡分類精度比較 %

      綜上可得,本文提出的增量算法2能夠有效節(jié)約大量計(jì)算時(shí)間,獲取分類性能較優(yōu)的屬性約簡結(jié)果,同時(shí)能夠有效利用無標(biāo)記的數(shù)據(jù),增強(qiáng)屬性約簡結(jié)果的分類性能,顯著提升了算法的魯棒性。為大規(guī)模復(fù)雜數(shù)據(jù)的屬性約簡問題,提供了一個(gè)可行的增量式屬性約簡方法。

      5 結(jié)束語

      已有的粗糙集屬性約簡算法往往只能應(yīng)用于信息系統(tǒng)或單一的決策系統(tǒng),導(dǎo)致約簡分類性能較低。本文提出的混合型弱標(biāo)記決策系統(tǒng)中增量屬性約簡算法,能充分利用無標(biāo)記與有標(biāo)記數(shù)據(jù)得到精度較高的約簡結(jié)果。給出了明確的增量機(jī)制,在處理實(shí)際應(yīng)用中大規(guī)模復(fù)雜數(shù)據(jù)集時(shí),相對(duì)傳統(tǒng)非增量算法的約簡效率更高。

      猜你喜歡
      約簡區(qū)分增量
      區(qū)分“旁”“榜”“傍”
      你能區(qū)分平衡力與相互作用力嗎
      提質(zhì)和增量之間的“辯證”
      “價(jià)增量減”型應(yīng)用題點(diǎn)撥
      基于二進(jìn)制鏈表的粗糙集屬性約簡
      實(shí)值多變量維數(shù)約簡:綜述
      教你區(qū)分功和功率
      基于模糊貼近度的屬性約簡
      基于均衡增量近鄰查詢的位置隱私保護(hù)方法
      罪數(shù)區(qū)分的實(shí)踐判定
      库尔勒市| 克拉玛依市| 略阳县| 客服| 徐闻县| 都兰县| 如皋市| 凉城县| 灵石县| 关岭| 旺苍县| 宣化县| 莱西市| 宜君县| 通河县| 沁阳市| 葵青区| 阳山县| 彭泽县| 张家港市| 连江县| 赤水市| 沁阳市| 富顺县| 荥经县| 彭泽县| 富裕县| 满城县| 平安县| 疏勒县| 新闻| 黄大仙区| 油尖旺区| 安岳县| 固阳县| 囊谦县| 辽源市| 益阳市| 肃宁县| 海城市| 天台县|