• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多標記不完備數(shù)據(jù)的特征選擇算法*

      2019-10-24 07:45:42錢文彬王映龍
      計算機與生活 2019年10期
      關鍵詞:決策表特征選擇子集

      錢文彬,黃 琴,王映龍+,楊 珺

      1.江西農(nóng)業(yè)大學 計算機與信息工程學院,南昌330045

      2.江西農(nóng)業(yè)大學 軟件學院,南昌330045

      +通訊作者E-mail:wangylx@126.com

      1 引言

      當前,在社會生活和科學研究等各個領域中數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,特別是多標記高維數(shù)據(jù)的廣泛存在,傳統(tǒng)的單標記分類將一個樣本只歸為某一個標記,導致無法描述當一個樣本同時屬于多個標記的問題,需利用多標記分類來描述多標記的數(shù)據(jù)資源,對于多標記數(shù)據(jù)的分析和挖掘已成為機器學習和數(shù)據(jù)挖掘領域中的重要研究內(nèi)容。近年來,多標記分類問題引起了許多學者的廣泛關注和深入研究,且已成功應用于圖像分類[1-4]、情感分類[5-7]、生物分類[8-10]、文本分類[11-12]等領域。

      多標記高維數(shù)據(jù)的維數(shù)災難問題嚴重影響多標記分類器的分類性能。目前,對于多標記數(shù)據(jù)的特征選擇研究取得了一些有意義的研究成果。張振海等[13]使用特征與標記集合之間的重要程度來設置合理的信息增益閾值,并根據(jù)閾值刪除多標記數(shù)據(jù)中的不相關特征。Li 等[14]提出一種新穎的基于經(jīng)典粗糙集的多標記屬性約簡算法。Liu等[15]利用特征與標記集合間的互信息將特征按其重要度從高到低排序,將特征空間劃分為局部子空間,并根據(jù)采樣比例選擇冗余性小的特征。Lee等[16]設計了一種基于可擴展標準的多標記特征選擇算法,上述多標記特征選擇算法主要是面向離散型完備數(shù)據(jù)。但在現(xiàn)實生活應用中存在大量的連續(xù)型多標記高維數(shù)據(jù),若對連續(xù)型數(shù)據(jù)進行離散化處理,將可能造成數(shù)據(jù)中信息的損失和增加計算的復雜性。

      因此,針對多標記連續(xù)型數(shù)據(jù)的特征選擇算法引起了眾多學者的關注,并取得一些有意義的研究成果。Lee等[17]根據(jù)已選特征與標記集合的相關性,從多變量互信息的角度提出了一種多標記特征選擇算法。Yu等[18]根據(jù)互信息和遺傳算法提出一種多標記特征選擇算法。Lin等[19]利用實例邊界域來計算每個標簽下的所有實例的鄰域粒度以及用三種不同的測量方法來計算鄰域互信息,在此基礎上,設計了一種基于鄰域互信息的多標記特征選擇算法。Wang等[20]設計了一種基于信息?;亩鄻擞浱卣鬟x擇算法。Yang 等[21]通過映射函數(shù),將高維數(shù)據(jù)映射到低維空間,設計出基于共享子空間的多標記學習方法。以上算法實現(xiàn)了對多標記完備數(shù)據(jù)的特征選擇。而在許多應用領域中由于診測成本或隱私保護等導致數(shù)據(jù)往往呈現(xiàn)不完備性,例如在醫(yī)學智能診斷系統(tǒng)中,可能存在有些病人,由于經(jīng)濟條件有限,他們不能做所有的檢查,因此不能獲得這些病人的某些檢查數(shù)據(jù)。目前對于連續(xù)型、不完備性多標記高維數(shù)據(jù)下的特征選擇研究相對較少。

      為此,本文提出了一種面向多標記不完備數(shù)據(jù)的特征選擇算法。首先,在粗糙集模型上采用了兩種不同的距離度量公式計算多標記不完備數(shù)據(jù)下的鄰域粒度,并根據(jù)多標記不完備數(shù)據(jù)中特征的標準差和特征參數(shù)計算出合理的鄰域閾值,其中參數(shù)閾值可根據(jù)標準差計算。然后,分析了一致性對象特征的重要性,給出了基于特征依賴度準則的特征重要性度量方法。在此基礎上,根據(jù)特征的重要性排序設計了特征選擇算法。最后,利用五個多標記分類器在Mulan 數(shù)據(jù)集上對特征選擇結(jié)果進行實驗比較和結(jié)果分析,且將本文算法與經(jīng)典粗糙集方法以及基于信息熵的特征選擇算法進行實驗對比和分析。實驗結(jié)果表明,不完備鄰域粗糙集模型可直接處理連續(xù)型不完備數(shù)據(jù),無需對數(shù)據(jù)進行填充和離散化,使得該特征選擇算法對數(shù)據(jù)的描述更加客觀合理,為不完備多標記高維數(shù)據(jù)的分析和挖掘提供了一種可借鑒的方法。

      2 相關知識

      在粒計算理論中,多標記數(shù)據(jù)可表示成一個多標記決策表MDT=(U,C?D,V,f),U為樣本集{x1,x2,…,xn},也稱為論域,C為條件特征集{c1,c2,…,cm},D為多標記決策特征{l1,l2,…,lk},且C?D=?。V為全特征集的值域,其中V=?Vc,c∈C?D,Vc表示特征c的值域,f是U×(C?D)→V的信息函數(shù)。

      定義1[22]當多標記決策表中存在缺失值時,記缺失值為“*”,即至少存在c∈C,x∈U,使得f(x,c)=?,此時數(shù)據(jù)稱為多標記不完備決策表IMDT=(U,C?D,V,f)。

      定義2[22]給定多標記不完備決策表IMDT=(U,C?D,V,f),對于任意特征子集B?C,定義特征子集B的容差關系T(B)如下:

      由定義2 可知,T(B)滿足自反性和對稱性,但不一定滿足傳遞性。在特征子集B下,對象x具有容差關系的對象集合即在條件特征集下的容差類被定義為TB(x)={xi∈U|(x,xi)∈T(B)}。

      定義3[22]給定多標記不完備決策表IMDT=(U,C?D,V,f),對于特征子集B?C所產(chǎn)生的容差類TB(x),對于ct∈B,若?xi,xj∈TB(x),有f(xi,D)≠f(xj,D),則稱特征子集B中產(chǎn)生不一致對象。若B=C,則稱該多標記決策表為不一致決策表。

      3 問題描述

      由于基于粗糙集的粒計算方法主要是處理名義型或符號型數(shù)據(jù),但在現(xiàn)實應用領域中多標記數(shù)據(jù)的數(shù)值類型往往較復雜。當需處理連續(xù)型數(shù)據(jù),須先對數(shù)據(jù)進行離散化,而對數(shù)據(jù)離散化將可能導致重要的信息丟失,從而影響分類算法的分類性能,為此,需對連續(xù)型數(shù)值的多標記不完備數(shù)據(jù)開展特征選擇的研究。

      定義4[23]對于N維的實數(shù)空間Ω中,Δ:RN×RN→R,?xi,xj,xk∈RN,則稱Δ為RN上的一個度量,若Δ滿足以下條件:

      Δ(xi,xj)≥0,Δ(xi,xj)=0 當且僅當xi=xj成立;

      其中,(Ω,Δ)為度量空間,Δ(xi,xj)為距離函數(shù),表示元xi和xj之間的距離:

      當p=1 時,稱為曼哈頓距離;當p=2 時,稱為歐氏距離;當p=∞時,稱為切比雪夫距離。

      定義5[23]給定實數(shù)空間上的非空有限集合U={x1,x2,…,xn},對于任意樣本xi,若有特征子集B?C,則特征子集B上的鄰域粒度為:

      其中,δ為鄰域的閾值大小。δB(xi)是由xi生成的δ鄰域信息粒度,簡稱為xi的鄰域粒子。根據(jù)度量的性質(zhì)可得:

      (1)δB(xi)≠?,因為xi∈δB(xi);

      (2)xj∈δB(xi)?xi∈δB(xj);

      為了直接處理不完備連續(xù)數(shù)據(jù),而無須對此類數(shù)據(jù)進行數(shù)據(jù)補齊或離散化等預處理,在鄰域關系的基礎上使用容差鄰域關系。

      定義6對于多標記不完備鄰域決策表IMDT=(U,C?D,V,f),對于任意特征子集B?C,則特征子集B上的容差鄰域關系記為:

      下面以表1為例,若以曼哈頓距離作為鄰域度量標準,根據(jù)定義4計算各樣本之間的鄰域大小。

      利用曼哈頓距離度量公式,若特征c1、c2、c3、c4、c5的鄰域閾值分別為0.18、0.15、0.21、0.22、0.24,根據(jù)定義6 以及表1 中的數(shù)據(jù)可計算所有樣本的容差鄰域關系,以KC(x1,x4)的計算為例:

      其中,由于f(x4,c3)=*,在容差鄰域計算過程中,令f(x4,c3)=f(x1,c3),由此可知樣本x1、x4為容差鄰域關系。同理,可計算所有樣本在特征全集下的容差鄰域關系。

      Table 1 Multi-label incomplete neighborhood decision table表1 多標記不完備鄰域決策表

      根據(jù)定義5 計算包含所有特征的每個樣本的鄰域粒度:

      同理,可計算每個特征下每個樣本的鄰域粒度。

      定義7在多標記不完備鄰域決策表IMDT=(U,C?D,V,f)中,假設U中包含N個樣本空間,樣本xi對應的標記集合用yi來表示,N個樣本實例所對應的向量用y=(y1,y2,…,yn)來表示。樣本xi中所對應的第k個標記值用lk來表示。若lk=1,則將lk標記加入yi集合。

      以表1為例,根據(jù)定義7可計算每個xi樣本所對應的標記集合yi為:

      定義8在多標記不完備鄰域決策表IMDT=(U,C?D,V,f)中,對于?lk∈D,分別計算存在標記決策lk所對應的樣本集合Dk:

      其中,[x]lk為在標記決策lk下,標記決策的值分別為1和0所對應的對象集合。

      以表1 為例,根據(jù)定義8 可計算存在標記決策lk所對應的樣本集合Dk:

      定義9[24]在多標記不完備鄰域決策表IMDT=(U,C?D,V,f)中,將擁有類別標記lk的樣本集合用Dk表示,將樣本xi所具有的標記集合用yi來表示。給定B?C,多標記不完備鄰域粗糙集的上下近似集為:

      由定義9 可知,下近似集與鄰域粒度相關,且下近似集將隨鄰域粒度的增大而減小。

      以表1為例,根據(jù)定義9可計算特征全集C下的下近似集。具體計算過程如下:

      由于樣本x1所對應的標記是l1,因此只需判斷δC(x1)?D1是否成立。若成立,則樣本x1在正域范圍。因為δC(x1)={x1,x4},δC(x1)?D1,所以。同理可得。由此可知特征全集C下的下近似集。

      定義10在多標記不完備鄰域決策表IMDT=(U,C?D,V,f),對于特征子集B?C,特征子集B對應的正域為:

      由定義10 可知,正域?qū)㈦S下近似集的減小而減小。以表1 為例,根據(jù)定義10 可得特征全集C下的正域為。

      定義11在多標記不完備鄰域決策表IMDT=(U,C?D,V,f),對于特征子集B?C,特征子集B的特征依賴度為:

      由定義11可知,正域與特征依賴度相關,特征依賴度隨正域的增大而增大。

      定義12在多標記不完備鄰域決策表IMDT=(U,C?D,V,f),若特征子集B?C,對于任意特征ct∈C-B,特征ct在特征子集B基礎上相對于決策D的重要度為:

      根據(jù)定義12 可知,特征重要度隨特征依賴度的減小而減少。且當特征選擇后的特征子集和原特征集的特征依賴度一致或除特征子集外的特征重要度都為0時,說明特征子集外的特征是冗余的。

      定義13[23]在多標記不完備鄰域決策表IMDT=(U,C?D,V,f),存在特征子集B?C,若特征子集B是多標記不完備鄰域決策表的一個特征選擇結(jié)果,則B需滿足:

      (1)γB(D)=γC(D)

      (2)?ct∈B,γB-{ct}(D)<γB(D)

      條件(1)使得特征子集B和全特征集C下的正域樣本相同,條件(2)確保了特征子集B中沒有冗余特征。

      性質(zhì)1在多標記不完備鄰域決策表IMDT=(U,C?D,V,f),鄰域閾值δ具有單調(diào)性,即若δ1≥δ2,則γδ1(D)≤γδ2(D)。

      證明由定義5 可知,若δ1>δ2,則對于任意的xi∈U,使得δ1(xi)>δ2(xi)成立。當δ1(xi)>δ2(xi)時,并由定義9可知,使得(δ2(xi)?D)?(δ1(xi)?D)成立,由此可推導出----Nδ1D?----Nδ2D。同理可證,。當時,由定義10可推導出POSδ1(D)?POSδ2(D)。由定義11和前面推導可得γδ1(D)≤γδ2(D)。當且僅當δ1=δ2時,使得POSδ1(D)=POSδ2(D),γδ1(D)=γδ2(D)成立。□

      性質(zhì)2多標記不完備鄰域決策表IMDT=(U,C?D,V,f)中,特征子集B?C,當?ct∈B,γB-{ct}(D)≤γB(D),則有:

      當sig(ct,B,D)>0 時,可知特征ct相對于特征子集B是必要的。若sig(ct,B,D)=0 時,說明特征ct是冗余特征。

      證明由性質(zhì)1 可知,對于任意ct∈B,使得γB-{ct}(D)≤γB(D) 成立,由定義12 可知,當γB-{ct}(D)≤γB(D)時,使得sig(ct,B,D)≥0 成立。當γB-{ct}(D)=γB(D),則sig(ct,B,D)=0 成立。由定義13 可知,若sig(ct,B,D)=0成立時,特征ct相對于特征子集B是冗余特征,否則為必要特征。 □

      從性質(zhì)1和性質(zhì)2可知,鄰域粒度隨著鄰域閾值δ單調(diào)不減,即當鄰域閾值δ越大,鄰域粒度將會越大或不變。

      4 特征選擇算法

      根據(jù)上述分析可知,針對多標記不完備決策表的特征選擇,首先根據(jù)鄰域的閾值計算多標記不完備決策表中每個樣本的鄰域粒度,并計算每個標記特征的樣本集合。在此基礎上,得到多標記不完備決策表的正域樣本集合。然后,分別計算每個條件特征下的鄰域粒度和特征的依賴度,并根據(jù)特征的依賴度計算特征的重要度,每次將重要度最大的特征加入當前的特征子集中,直到特征子集下的正域樣本集合等于全特征集下的正域樣本集合,由此設計了一種面向多標記不完備決策表的特征選擇算法,算法描述如下:

      輸入:多標記不完備決策表<U,C?D,V,f>,δ為鄰域的閾值。

      輸出:特征子集Red。

      步驟1初始化Red←?。

      步驟2對于?xi∈U,計算在特征集C下每個樣本的鄰域粒度δC(xi)。

      步驟3對于?lk∈D,分別計算每個標記lk下的樣本集合Dk。

      步驟4若δC(xi)?Dk,則將樣本xi存入正域POSC(D)←POSC(D)?{xi}。

      步驟5對于?cj∈C-Red,執(zhí)行操作:

      步驟5.1計算條件特征集Red?cj下每個樣本的鄰域粒度δRed?cj(xi);

      步 驟5.2對 于 多 標 記?lk∈D且lk=1,若δRed?cj(xi)?Dk,則POSRed?cj(D)←POSRed?cj(D)?{xi};

      步驟5.3計算特征集的依賴度:

      步驟5.4若ct=arg max{Sig(cj,Red,D)},則Red←Red?{ct},即計算加入條件特征cj的重要度Sig(cj,Red,D),選擇重要度最大的條件特征ct存入Red。

      步驟6若POSRed(D)≠POSC(D),則算法轉(zhuǎn)至步驟5,否則執(zhí)行步驟7。

      步驟7輸出特征子集Red,算法結(jié)束。

      算法的時間復雜度分析:

      算法步驟1 初始化一個變量存放特征選擇后的特征子集,其時間復雜度為O(1);算法步驟2 在整個條件特征集下通過樣本之間的比較計算得到每個樣本的鄰域粒度,其時間復雜度為O(|C||U|2);算法步驟3分別計算每個標記決策下的樣本集合,其時間復雜度為O(|C||D|);算法步驟4 計算多標記不完備決策表的正域樣本集,其時間復雜度為O(|U|2+|U||D|);算法步驟5對多標記不完備數(shù)據(jù)進行特征選擇,最壞的時間復雜度為O(|C|2|U|2);算法步驟6判斷約簡后的特征子集下正域與整個論域的正域是否一致,最壞的時間復雜度為O(|U|)。綜述分析,算法的時間復雜度為O(|U|2|C|2)。

      5 實驗與結(jié)果分析

      5.1 數(shù)據(jù)集和性能指標

      為了驗證本文中提出的特征選擇算法的有效性,從Mulan 數(shù)據(jù)集中選取了Emotions、Birds、Yeast和Scenes四個真實數(shù)據(jù)集進行實驗測試和分析。四個數(shù)據(jù)集的相關信息如表2 所示。本實驗的測試環(huán)境:CPU 為Intel?CoreTMi5-4590s(3.0 GHz),內(nèi)存8.0 GB,算法編程語言為C++和Java,使用的開發(fā)工具分別是Visual studio 2017和Eclipse 4.7。

      Table 2 Multi-label datasets表2 多標記數(shù)據(jù)集

      在實驗測試和分析的過程中,將每個數(shù)據(jù)集的訓練樣本和測試樣本相結(jié)合,用隨機函數(shù)對四個數(shù)據(jù)集進行5%的數(shù)據(jù)缺失處理,并采用10 倍交叉驗證法對實驗結(jié)果進行驗證。在實驗過程中,首先分別利用曼哈頓距離和歐式距離兩種度量方法計算鄰域粒度。在此基礎上,根據(jù)特征重要度對每個數(shù)據(jù)集進行特征降維。然后將特征降維后的特征子集通過五種多標記分類器(又稱多標記分類算法)基于隨機k標記集的多標記分類[25](randomk-label sets,RAkEL)、基于依賴多標記k近鄰的多標記分類[26](dependent multi-labelk-nearest neighbor,DMLkNN)、基于實例的邏輯回歸多標記分類[27](instance-based logistic regression for multi-label classification,IBLRML)、基于二元相關的k近鄰多標記分類[28](binary relevancek-nearest neighbor,BRkNN)和基于多標記k近鄰的多標記分類[29](multi-labelk-nearest neighbor,MLkNN)驗證了算法的性能,并從平均分類精度(average precision,AP)、漢明損失(Hamming loss,HL)、覆蓋率(coverage)、1 錯誤率(one error,OE)和排序損失(ranking loss,RL)這五種多標記評價性能指標評估和對比分類器的分類性能。其中平均分類精度越大越好,漢明損失、覆蓋率、1錯誤率、排序損失越小越好。

      5.2 λ 特征參數(shù)的分析

      對于多標記不完備鄰域決策表,鄰域參數(shù)的選擇直接關系到特征選擇的結(jié)果和分類器的分類性能。為此,在曼哈頓距離的度量方法中,鄰域參數(shù)的計算方式為δ=stdai/λ,其中stdai為通過本文算法進行特征選擇之后的每個特征的標準差。歐氏距離度量的鄰域參數(shù)計算方式為δ=(stdan/n)/λ,其中stdan/n是通過本文算法進行特征選擇之后的所有特征的平均標準差。由于每個數(shù)據(jù)集在不同的距離度量方法下其特征值的標準差是固定的,λ的取值直接關系到鄰域參數(shù)δ的值[30]。通過實驗分析發(fā)現(xiàn),λ的取值范圍從0.1到2.0的特征選擇結(jié)果所對應的分類性能較好。為了詳細分析λ值對特征選擇結(jié)果和分類器的分類性能影響,在實驗過程中將λ值每次變化0.1進行實驗分析和結(jié)果對比。

      下面將以scene 數(shù)據(jù)集為例,詳細分析在曼哈頓距離和歐氏距離這兩種度量標準下λ(在圖中用Lambda 表示λ)變化對于特征選擇的個數(shù)和分類器的分類性能影響,實驗結(jié)果如圖1和圖2所示。

      由圖1可知,對于scene數(shù)據(jù)集來說,在曼哈頓距離度量標準下,由圖1(a)可知,當λ=0.1 時,本文算法將特征個數(shù)由294 減少至4 個,但5 個分類器的平均分類精度較低;當λ的取值為0.3~0.4 時,5 個分類器的平均分類精度的上升趨勢顯著,由圖1(b)可得,漢明損失在這個區(qū)間的變化趨勢較為平緩,由圖1(c)、(d)和(e)可看出,5個分類器的覆蓋率、1錯誤率和排序損失的值都呈下降趨勢。當λ的取值在0.4~0.9時,特征選擇的個數(shù)下降明顯,5個分類器的平均分類精度、漢明損失、覆蓋率、1 錯誤率、排序損失的值較好。當λ的取值在1.0~2.0 之間,由圖1(a)的變化曲線發(fā)現(xiàn)特征選擇的個數(shù)和5 個分類器的平均分類精度變化并不明顯,且由圖1(b)、(c)、(d)和(e)對應的漢明損失、覆蓋率、1錯誤率、排序損失的值呈現(xiàn)出平緩上升。

      Fig.1 Size of feature selection and classification performance with varying λ under Manhattan distance圖1 曼哈頓距離度量下特征選擇的個數(shù)和分類性能隨λ 值的變化

      Fig.2 Size of feature selection and classification performance with varying λ under Euclidean distance圖2 歐氏距離度量下特征選擇的個數(shù)和分類性能隨λ 值的變化

      由圖2 可知,在歐氏距離度量標準下,當λ的值在0.1~1.0范圍內(nèi),特征選擇個數(shù)隨λ單調(diào)遞減,且分類器的平均分類精度也呈現(xiàn)遞減趨勢。由圖2(a)中曲線的變化趨勢可知,5個分類器的平均精度明顯下降,而由(b)、(c)、(d)和(e)中的曲線變化可知,漢明損失、覆蓋率、1錯誤率和排序損失的值都呈上升趨勢。其中,當λ=1.0時,特征選擇的效果最優(yōu),特征個數(shù)由原有的294 減少至50。當λ=0.6 時,5 個分類器的平均分類精度、漢明損失、覆蓋率、1 錯誤率、排序損失的值較優(yōu)。當λ的取值在1.2~2.0 時,隨著特征選擇的個數(shù)增加,由(a)可知,5個分類器的平均分類精度得到明顯改善,且由圖2(b)、(c)、(d)和(e)對應的漢明損失、覆蓋率、1錯誤率、排序損失的值也越來越小。

      另外,將圖1 和圖2 進行對比可以發(fā)現(xiàn),平均精度、漢明損失、覆蓋率、1 錯誤率和排序損失在圖1 中的變化區(qū)間分別約為40%、10%、180%、60%和35%,而在圖2 中分別約為26%、7%、110%、35%和22%。通過數(shù)值對比發(fā)現(xiàn),圖1中的5種多標記分類器的分類性能的變化幅度趨勢大于圖2,由此可得,以歐氏距離作為鄰域度量標準與以曼哈頓距離作為鄰域度量標準相比,降維后的特征子集分類性能的穩(wěn)定性更好。

      綜上可知,以scene數(shù)據(jù)集為例,把歐氏距離作為鄰域度量標準,算法的特征選擇效果較好,且5 個分類器的分類性能也都較優(yōu)。且從特征降維的效果及分類器的5個性能指標來看,對于scene數(shù)據(jù)集,在曼哈頓度量標準下λ的取值為0.9較優(yōu),在歐氏距離度量標準下λ的取值為0.6較好。

      同時通過確定λ特征參數(shù)的實驗可知,當λ的值越大,則δ鄰域閾值將會越小,鄰域粒度也越小。此時,多標記鄰域數(shù)據(jù)的下近似集將隨鄰域粒度的減小而增大,正域中的對象將隨下近似集的增大而增大,特征依賴度也隨正域的增大而變大。

      5.3 實驗比較與分析

      為進一步驗證本文算法的有效性,下面將以RAkEL 分類器為例,將兩種距離度量標準下的本文算法與MLFSIE(multi-label feature selection based on information entropy)[17]、MLFSPA(multi-label feature selection based on positve approximation)[31]和MLFSDM(multi-label feature selection based on discernibility matrix)[32]這3種算法對4個數(shù)據(jù)集進行了實驗分析和對比。其中,MLFSIE是基于信息熵的多標記特征選擇算法,MLFSPA是本文對數(shù)據(jù)離散化后基于正區(qū)域思想改造的多標記特征選擇算法,MLFSDM 是本文對數(shù)據(jù)離散化后基于差別矩陣思想改造的多標記特征選擇算法。Manhattan distance 和Euclidean distance分別表示本文算法使用曼哈頓距離方法和歐氏距離方法作為鄰域度量標準時,根據(jù)特征重要度進行特征降維后,所獲得的特征子集的分類性能。另外,由于上述4 個數(shù)據(jù)集的特征值均是連續(xù)型數(shù)據(jù),但MLFSIE、MLFSPA 和MLFSDM 算法處理的是離散型數(shù)據(jù),因此在實驗中需先利用等距離散化方法對4 個數(shù)據(jù)集進行離散化處理。實驗結(jié)果如表3~表6 所示,加粗字體表示所對應數(shù)據(jù)集及5 個性能指標下算法的最優(yōu)值。

      從表3~表6 中的5 項多標記分類性能指標實驗結(jié)果可知,與其他3 種算法相比,本文算法的分類性能總體較優(yōu)。另外,在RAkEL分類器下,鄰域度量方法使用歐氏距離度量方法時得到的降維后的特征子集的分類性能總體優(yōu)于使用曼哈頓距離度量方法。

      由表3的實驗結(jié)果可知,針對Yeast數(shù)據(jù)集,使用本文算法降維后的特征子集的分類性能優(yōu)于其他3種算法。例如,其在兩種度量方法下AP的均值分別比MLFSIE、MLFSPA 和MLFSDM 算 法 提 高 了2.05%、0.55%和2.50%,且HL、Coverage、OE 和RL 的均值也明顯低于其他3 種算法。此外,在Yeast 數(shù)據(jù)集中,兩種鄰域度量方法的Coverage 和RL 值相等,且其AP 的值也僅相差0.000 1 的方差。由此可知,RAkEL分類器的分類性能與鄰域度量方法的相關性較小。

      Table 3 Comparison of experiments in Yeast dataset表3 Yeast數(shù)據(jù)集的實驗結(jié)果對比

      Table 4 Comparison of experiments in Emotions dataset表4 Emotions數(shù)據(jù)集的實驗結(jié)果對比

      Table 5 Comparison of experiments in Scenes dataset表5 Scenes數(shù)據(jù)集的實驗結(jié)果對比

      Table 6 Comparison of experiments in Birds dataset表6 Birds數(shù)據(jù)集的實驗結(jié)果對比

      由表4中Emotions數(shù)據(jù)集的實驗結(jié)果可得,使用本文算法降維后的特征子集的分類性能顯著優(yōu)于其他3 種算法,其中分類性能差值最大的是MLFSIE算法。以曼哈頓距離度量方法的本文算法與MLFSIE算法在五大性能指標的比較為例,其AP的值提高了15.45%,且HL、Coverage、OE 和RL 的值也分別降低了12.41%、81.07%、24.79%和17.72%。另外,在曼哈頓距離度量方法下,HL、Coverage和RL的值較優(yōu),在歐氏距離度量方法下,AP和OE的值更優(yōu)。

      從表5中Scenes數(shù)據(jù)集的實驗對比結(jié)果可得,該數(shù)據(jù)集適用于使用歐氏距離作為鄰域度量標準。同時,將本文算法與其他3 種算法相比,與其分類性能最為相近的是MLFSPA算法,其AP、HL、OE和RL的差值都相對較小,分別為1.57%、0.83%、1.45%和1.61%,相差較為明顯的是Coverage,其差值為8.52%。

      由表6可看出,在Birds數(shù)據(jù)集中,分類性能較優(yōu)的是MLFSDM算法,其AP的值最優(yōu),為61.64%。將MLFSDM 算法與歐氏距離度量方法的本文算法相比,其AP、Coverage、OE 和RL 的值相對較優(yōu),但其HL值在本文算法更優(yōu);同時通過實驗的結(jié)果可發(fā)現(xiàn),利用歐氏距離的度量方法要優(yōu)于曼哈頓距離的度量方法,其中最為明顯的兩個指標分別為AP 和Coverage,差值分別為4.45%和36.39%。本文算法與MLFSDM 算法相比,其降維后的特征子集的分類性能相對較差,本文算法與MLFSIE、MLFSPA 這兩種算法相比,本文算法效果較優(yōu)。

      綜上所述,將本文算法與3種不同的多標記特征選擇算法在真實數(shù)據(jù)集上進行實驗對比和分析可知,本文算法總體上提高了分類器的分類性能。為此,本文研究結(jié)果為多標記不完備數(shù)值數(shù)據(jù)的處理和分析提供了一種可借鑒的分析方法。

      6 結(jié)束語

      由于數(shù)據(jù)存在獲取限制、理解有誤和數(shù)據(jù)遺漏等問題,且在生活中連續(xù)型數(shù)據(jù)往往較多,為此針對多標記數(shù)據(jù)中存在缺失值和連續(xù)值的問題,提出了一種面向不完備特征鄰域決策表的多標記特征選擇算法。算法無需對缺失數(shù)據(jù)進行填充,且可直接處理連續(xù)型數(shù)據(jù)。通過兩種不同的距離度量標準對不完備特征鄰域決策表進行鄰域?;?,在此基礎上設計了特征的重要性度量方法,并采用啟發(fā)式搜索策略對多標記不完備決策表進行特征選擇。通過不同的多標記分類器對算法進行實驗以及與3 種經(jīng)典的多標記特征選擇算法對比分析說明了本文算法的有效性。由于現(xiàn)實生活中許多復雜問題的不同標記之間存在相關性,下一步工作將研究復雜數(shù)據(jù)中多標記之間的相關性問題。

      猜你喜歡
      決策表特征選擇子集
      由一道有關集合的子集個數(shù)題引發(fā)的思考
      基于決策表相容度和屬性重要度的連續(xù)屬性離散化算法*
      拓撲空間中緊致子集的性質(zhì)研究
      關于奇數(shù)階二元子集的分離序列
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標特征選擇算法
      正反轉(zhuǎn)電機缺相保護功能的實現(xiàn)及決策表分析測試
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      計算機工程(2014年6期)2014-02-28 01:26:36
      华蓥市| 女性| 宜黄县| 平度市| 庆城县| 游戏| 隆德县| 远安县| 开化县| 剑阁县| 晋宁县| 会昌县| 自贡市| 永宁县| 泰来县| 六盘水市| 怀宁县| 潞西市| 云霄县| 南江县| 灵丘县| 远安县| 额济纳旗| 肃宁县| 宜良县| 石河子市| 融水| 高尔夫| 灵璧县| 信宜市| 永吉县| 灵台县| 集贤县| 会宁县| 新余市| 班戈县| 玉树县| 石门县| 青川县| 诸暨市| 迁西县|