• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于高斯混合模型的不均衡分類方法

      2022-03-19 01:21:12方佳鍇
      電腦知識與技術(shù) 2022年2期
      關(guān)鍵詞:集成學(xué)習(xí)

      方佳鍇

      摘要:為應(yīng)對不均衡分類問題,提高分類準(zhǔn)確率,提出了一種基于高斯混合模型的混合采樣集成方法GMHSE(Gaussian-Mixture-model-based Hybrid Sampling Ensemble method),首先通過高斯混合模型將數(shù)據(jù)劃分成多個類簇,然后在每個類簇上混合采樣獲得多個數(shù)據(jù)子集,最后基于Bagging技術(shù)在類簇內(nèi)和類簇間進(jìn)行加權(quán)投票完成分類預(yù)測。GMHSE通過聚類將對數(shù)據(jù)進(jìn)行劃分,混合采樣保障在不丟失數(shù)據(jù)信息的同時獲得均衡數(shù)據(jù)集,最后利用集成學(xué)習(xí)進(jìn)一步提升模型的泛化性能。實(shí)驗(yàn)結(jié)果表明,相比已有的一些處理方法,GMHSE可以提升不均衡數(shù)據(jù)的分類性能。

      關(guān)鍵詞: 不均衡分類; 高斯混合模型;集成學(xué)習(xí);混合采樣

      中圖分類號:TP3 ? ? ?文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2022)02-0028-03

      1 概述

      在數(shù)據(jù)挖掘的許多應(yīng)用,例如醫(yī)療診斷[1]、欺詐識別[2]等,都存在著類別不均衡問題。當(dāng)數(shù)據(jù)集中來自不同類的實(shí)例數(shù)量差距較大時,則該數(shù)據(jù)集存在類別不均衡問題,會限制學(xué)習(xí)算法的泛化能力,影響分類性能。

      目前已經(jīng)提出了一些技術(shù)來克服這些問題,這些技術(shù)可以分為采樣方法、代價敏感學(xué)習(xí)和集成學(xué)習(xí)。采樣方法在通過對數(shù)據(jù)集進(jìn)行預(yù)處理實(shí)現(xiàn)類別均衡,典型的算法有隨機(jī)欠采樣方法和隨機(jī)過采樣。代價敏感學(xué)習(xí)[3]通過對少數(shù)類樣本的誤分類賦予較大的代價,使分類器更重視少數(shù)類樣本的訓(xùn)練,從而降低整體分類誤差。集成學(xué)習(xí)方法結(jié)合多個基礎(chǔ)學(xué)習(xí)器,可以顯著分類準(zhǔn)確性。將集成學(xué)習(xí)方法與采樣方法相結(jié)合,可以有效處理不均衡分類問題[4],典型算法包括RUSBoost[5]、SMOTEBagging[6]等。這類方法一般通過某種采樣方法生成一系列子數(shù)據(jù)集,再用集成學(xué)習(xí)方法對新實(shí)例進(jìn)行預(yù)測。然而單種采樣方法具有局限性,欠采樣會刪除多數(shù)類樣本數(shù)據(jù)導(dǎo)致巨大的信息損失,過采樣會使模型有過擬合風(fēng)險。此外,目前的方法直接對整個數(shù)據(jù)集進(jìn)行采樣,沒有在數(shù)據(jù)空間上做更細(xì)致的劃分,這也限制了模型的分類準(zhǔn)確性。

      本文針對不均衡分類問題提出了一種基于高斯混合模型的混合采樣集成方法GMHSE(Gaussian-Mixture-model-based Hybrid Sampling Ensemble method)。首先,高斯混合模型將數(shù)據(jù)劃分到不同類簇。接著,根據(jù)類簇內(nèi)的類別不均衡比例進(jìn)行混合采樣。在每個類簇上采樣得到的數(shù)據(jù)能更全面地代表原始數(shù)據(jù)的信息,混合采樣方法則避免了單種采樣方法的弊端。最后,基于Bagging方法在類簇內(nèi)和類簇間進(jìn)行加權(quán)投票,獲得最終的預(yù)測值。本篇文章的主要工作可以總結(jié)為:(1)文章提出了一種新的應(yīng)對不均衡分類問題的算法GMHSE;(2)在8個公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明GMHSE相比其他方法表現(xiàn)更好。

      后續(xù)文章的組織結(jié)構(gòu)如下:第2節(jié)詳細(xì)介紹了GMHSE算法模型,第3節(jié)介紹實(shí)驗(yàn)設(shè)置及結(jié)果分析,第4節(jié)為結(jié)論部分。

      2 算法模型

      2.1 ?高斯混合模型

      高斯混合模型(Gaussian Mixture Model,GMM)模型是多個多元高斯混合分布函數(shù)的線性組合[7],定義為Pr(x)= ∑πk N(x; uk和θk),一共有K個高斯分布,uk和θk為第k個高斯分量的參數(shù),πk是該高斯混合分量的權(quán)重因子。理論上GMM 可以擬合出任意類型的分布。

      采用GMM對訓(xùn)練集(包括多數(shù)類實(shí)例和少數(shù)類實(shí)例)進(jìn)行擬合,其類簇數(shù)量K可以根據(jù)貝葉斯信息準(zhǔn)則(Bayesian information criteria,BIC)[8]選擇。BIC = kln(n)+2ln(L),其中k為模型參數(shù)個數(shù),n為樣本數(shù)量,L為似然函數(shù),該公式引入的懲罰項(xiàng)考慮了樣本數(shù)量,樣本數(shù)量過多時,可有效防止模型復(fù)雜度過高。BIC值越低,模型對數(shù)據(jù)的擬合越好。

      用一個含有K個高斯分量的GMM模型對單個實(shí)例進(jìn)行預(yù)測時,可以得到一個K維向量v=( p1, p2, ..., pK),pk代表該實(shí)例屬于第k個高斯分量(即第k個類簇)的概率值。因此GMM模型可以獲得實(shí)例屬于各個類簇的概率值,相比于k-means等算法只能獲取所屬類簇標(biāo)簽,GMM模型可以獲得實(shí)例在類簇上的更多信息。

      2.2 ?類簇內(nèi)混合采樣

      多數(shù)類實(shí)例與少數(shù)類實(shí)例的數(shù)量之比稱為不均衡比例(imbalance ratio, IR)。在完成聚類后,根據(jù)SMOTE算法[9]合成一定數(shù)量的少數(shù)類實(shí)例,使類簇下的IR達(dá)到指定的閾值。本文中將閾值IRthreshold設(shè)置為9。先聚類再進(jìn)行過采樣,實(shí)例的相似度更高,更有利于基于KNN算法合成新實(shí)例。此外,由于原有的少數(shù)類實(shí)例都屬于同一類簇,可以確保合成的新實(shí)例仍落在類簇內(nèi),即仍落在學(xué)習(xí)算法的決策邊界之內(nèi),因此生成的少數(shù)類實(shí)例具有較好的可靠性。

      不同于直接在整個訓(xùn)練集上做欠采樣,GMHSE對類簇內(nèi)的多數(shù)類實(shí)例進(jìn)行有放回欠采樣,采樣將迭代N次。采樣后的數(shù)據(jù)集與類簇內(nèi)的少數(shù)類實(shí)例數(shù)據(jù)拼接,形成多個類別均衡的數(shù)據(jù)子集,其IR不超過R:1。本文中N和R都設(shè)置為5。最后用基礎(chǔ)學(xué)習(xí)器F擬合數(shù)據(jù)子集?;贐agging思路進(jìn)行欠采樣,可以充分利用盡可能多的多數(shù)類實(shí)例,在實(shí)現(xiàn)類別均衡的同時避免欠采樣導(dǎo)致的數(shù)據(jù)損失。

      2.3 新實(shí)例預(yù)測

      新實(shí)例x的預(yù)測結(jié)合了GMM的類簇預(yù)測和集成學(xué)習(xí)的有權(quán)投票,一共包括三個步驟。

      1) 預(yù)測所屬類簇。實(shí)例經(jīng)過GMM模型預(yù)測可以得到一個K維向量v=( p1, p2, ..., pK),pk代表該實(shí)例屬于第k個類簇的概率值。

      2) 獲取類簇上的預(yù)測值。在每個類簇上經(jīng)過混合采樣形成了多個數(shù)據(jù)子集,以及相應(yīng)的一組基學(xué)習(xí)器。根據(jù)學(xué)習(xí)器的正確率計算權(quán)重: weightki = |Dki0’| / |Dk0| + |Dki1’| / |Dk1|,其中weightki表示第k個類簇第i個學(xué)習(xí)器的權(quán)重,|Dk0|和|Dk1|分別表示第k個類簇上多數(shù)類和少數(shù)類實(shí)例的數(shù)量,|Dki0’|和|Dki1’|則表示被學(xué)習(xí)器正確預(yù)測的多數(shù)類實(shí)例和少數(shù)類實(shí)例數(shù)量。在該式子中,根據(jù)實(shí)例數(shù)量賦予了不同類別不同的權(quán)值,從而影響基學(xué)習(xí)器的權(quán)重值。新實(shí)例在該類簇上各個基學(xué)習(xí)器獲得預(yù)測值,在相應(yīng)類別添加基學(xué)習(xí)器的權(quán)重。

      3) 類簇間投票獲取最終預(yù)測值。新實(shí)例在各個類簇上獲得相應(yīng)預(yù)測值后,根據(jù)第1)步中的概率向量,以pk作為權(quán)重對各個預(yù)測值進(jìn)行累加,權(quán)重值較大的類別為最終預(yù)測值,即y = argmax(∑ pkwk0, ∑ pkwk1),wkc為該實(shí)例在第k個類簇上類別c的累計權(quán)重,c為0(多數(shù)類)或1(少數(shù)類)。

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      為了驗(yàn)證上述算法的有效性,本節(jié)在8個不均衡公開數(shù)據(jù)集[10]上進(jìn)行了對比實(shí)驗(yàn)證。數(shù)據(jù)集詳細(xì)信息如表1所示。

      3.2 評估指標(biāo)

      在本實(shí)驗(yàn)中,主要依據(jù)F1值和AUC值兩個指標(biāo)衡量算法性能。對于二分類問題,將少數(shù)類看作正例,多數(shù)類看作負(fù)例。Recall為召回率,表示實(shí)際為正例且預(yù)測為正例的樣本數(shù)量在所有正例樣本中的占比;Precision為精準(zhǔn)率表示實(shí)際為正例且預(yù)測為正例的樣本數(shù)量在所有預(yù)測為正例的樣本中的占比,二者基于表2所示的混淆矩陣計算得到。F1值是召回率和精準(zhǔn)率的調(diào)和平均,適用于不均衡分類問題的評估。AUC(Area Under Curve)是ROC曲線(Receiver Operating Characteristic)和橫坐標(biāo)軸之間的面積,值域?yàn)閇0,1],數(shù)值越大表示模型表現(xiàn)越好。

      Recall = TP / (TP + FN)

      Precision = TP / (TP + FP)

      F1 = 2 * Recall * Precision / (Recall + Precision)

      3.3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)中所有算法的基學(xué)習(xí)器均為C4.5決策樹。在每個數(shù)據(jù)集采用五折交叉驗(yàn)證求得最終評估指標(biāo)。實(shí)驗(yàn)結(jié)果如表3和表4所示,最優(yōu)結(jié)果已經(jīng)加粗表示。本文提出的GMHSE模型,F(xiàn)1指標(biāo)下在6個數(shù)據(jù)集中取得最優(yōu)、在所有數(shù)據(jù)集平均排名為1.375,在AUC指標(biāo)下相較于其他算法均有大幅度提升、在8個數(shù)據(jù)集中均取得最優(yōu)。由于GMHSE在高斯混合模型聚類的基礎(chǔ)上,在每個類簇合了欠采樣和過采樣構(gòu)造數(shù)據(jù)子集,在合成更可靠的少數(shù)類實(shí)例、解決類別不均衡的同時盡可能避免了多數(shù)類實(shí)例的信息損失,因此在最終集成預(yù)測時能取得更好的結(jié)果。

      4 結(jié)論

      本文針對不均衡分類問題,提出了一種新型的基于高斯混合模型的混合采樣集成方法GMHSE,首先基于高斯混合模型將數(shù)據(jù)集分成多個類簇,然后在類簇上進(jìn)行混合采樣得到多個數(shù)據(jù)子集,再結(jié)合集成學(xué)習(xí)方法進(jìn)一步增強(qiáng)模型的泛化能力,通過類簇內(nèi)和類簇間的加權(quán)投票獲得最終的預(yù)測結(jié)果。在8個公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,GMHSE在AUC、F1兩個指標(biāo)下相較于已有的方法均取得了最好的分類性能。

      參考文獻(xiàn):

      [1] He Y Y,Zhou J H,Lin Y P,et al.A class imbalance-aware Relief algorithm for the classification of tumors using microarray gene expression data[J].Computational Biology and Chemistry,2019,80:121-127.

      [2] Moepya S O,Akhoury S S,Nelwamondo F V.Applying cost-sensitive classification for financial fraud detection under high class-imbalance[J].2014 IEEE International Conference on Data Mining Workshop,2014:183-192.

      [3] JM Yang,C Gao,ZY Qu,et al. Improved Cost-sensitive Random Forest for Imbalanced Classification[J].電腦學(xué)刊, 2019,30(2):213-223.

      [4] Galar M. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches[J]. IEEE Transactions on Systems Man & Cybernetics Part C Applications & Reviews, 2012, 42(4): 463–484.

      [5] Seiffert C, Khoshgoftaar T M, Hulse J V, et al. RUSBoost: Improving classification performance when training data is skewed[C]//International Conference on Pattern Recognition, 2008:1-4.

      [6] Zhang Y Q,Zhu M,Zhang D L,et al.Improved SMOTEBagging and its application in imbalanced data classification[C]//IEEE Conference Anthology.January 1-8,2013,China.IEEE,2013:1-5.

      [7] Wang Z F, Zarader J L, Argentieri S. Gaussian Mixture Models[C]// 2019 IEEE Symposium Series on Computational Intelligence (SSCI), 2019.

      [8] Celeux G,Soromenho G.An entropy criterion for assessing the number of clusters in a mixture model[J].Journal of Classification,1996,13(2):195-212.

      [9] Maciejewski T,Stefanowski J.Local neighbourhood extension of SMOTE for mining imbalanced data[C]//2011 IEEE Symposium on Computational Intelligence and Data Mining.April 11-15,2011,Paris,F(xiàn)rance.IEEE,2011:104-111.

      [10] Alcalá-Fdez J,F(xiàn)ernández A,Luengo J,et al.KEEL data-mining software tool:data set repository,integration of algorithms and experimental analysis framework[J].Journal of Multiple-Valued Logic and Soft Computing,2011,17(2/3):255-287.

      [11] Galar M,F(xiàn)ernández A,Barrenechea E,et al.EUSBoost:Enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling[J].Pattern Recognition,2013,46(12):3460-3471.

      [12] 秦雅娟,林小榕,張宏科.基于EasyEnsemble算法和SMOTE算法的不均衡數(shù)據(jù)分類方法:CN108596199A[P].2018-09-28.

      【通聯(lián)編輯:光文玲】

      2317501186219

      猜你喜歡
      集成學(xué)習(xí)
      一種不平衡數(shù)據(jù)集成分類方法
      機(jī)器學(xué)習(xí)隨機(jī)森林算法的應(yīng)用現(xiàn)狀
      不平衡數(shù)據(jù)分類問題解決辦法
      基于集成學(xué)習(xí)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的手寫字符識別
      基于阿里巴巴大數(shù)據(jù)重復(fù)購買預(yù)測的實(shí)證研究
      時代金融(2018年3期)2018-02-07 09:40:23
      基于集成學(xué)習(xí)的房價預(yù)測模型
      基于局部有效性的選擇性決策樹集成
      基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究
      時代金融(2016年36期)2017-03-31 05:44:10
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      基于屬性權(quán)重的Bagging回歸算法研究
      通州市| 保亭| 济源市| 淳化县| 岐山县| 鄂尔多斯市| 攀枝花市| 太康县| 山东| 平乐县| 锦屏县| 华阴市| 社旗县| 晋中市| 伊春市| 邵阳县| 乌苏市| 囊谦县| 恩平市| 教育| 永福县| 吴旗县| 霍山县| 安达市| 阿合奇县| 南郑县| 响水县| 辽宁省| 罗甸县| 南溪县| 临海市| 辰溪县| 金溪县| 洱源县| 高碑店市| 邛崃市| 涞源县| 栖霞市| 辽宁省| 广德县| 聊城市|