• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于模糊粗糙最近鄰算法的不平衡數(shù)據(jù)分類

      2020-01-05 07:00章春梅
      軟件導(dǎo)刊 2020年11期
      關(guān)鍵詞:分類器

      摘 要:為了提升不平衡數(shù)據(jù)中少數(shù)類的分類精度,利用SMOTE采樣方法對(duì)數(shù)據(jù)集進(jìn)行平衡化預(yù)處理;為了減輕樣本重新合成過程中產(chǎn)生的類重疊和噪聲對(duì)分類精度的影響,選擇模糊粗糙最近鄰算法(FRNN)作為分類器。在14個(gè)不平衡數(shù)據(jù)集上進(jìn)行的仿真實(shí)驗(yàn)表明,該方法具有較好的分類表現(xiàn),F(xiàn)值和G值最高分別可達(dá)0.965、0.932,是一種適用于不平衡率偏高數(shù)據(jù)集的分類方法。

      關(guān)鍵詞:不平衡數(shù)據(jù);分類器;SMOTE;模糊粗糙最近鄰算法

      DOI:10. 11907/rjdk. 201674

      中圖分類號(hào):TP301 ??? 文獻(xiàn)標(biāo)識(shí)碼:A ?????? 文章編號(hào):1672-7800(2020)011-0037-05

      A Classification Method for Imbalanced Data Based on

      Fuzzy Rough Nearest Neighbor

      ZHANG Chun-mei

      (Institute of Artificial Intelligence, Nanjing Vocational College of Information Technology, Nanjing 210023,China)

      Abstract: In order to improve the classification accuracy of the minority classes in imbalanced data, the paper employs synthetic minority over - sampling technique(SMOTE) to balance data set firstly. Considering that the process of sample re-synthesis always leads to some noises such as class overlapping, fuzzy rough neareswast neighbor algorithm (FRNN) is selected as the classifier to alleviate the effect of noise. Classification experiment conducted on 14 unbalanced data sets shows that the proposed method performs well,? and the F value and G value can reach 0.965 and 0.932 respectively. It reveals that the proposed method is suitable for the classification on data sets with high imbalance rate.

      Key Words: imbalanced data; classifier;SMOTE;fuzzy rough nearest neighbor algorithm

      0 引言

      在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,不平衡數(shù)據(jù)分類受到研究者的廣泛關(guān)注。與一般意義上的數(shù)據(jù)分類不同,本文研究的不平衡分類更看重整體中的個(gè)別:少數(shù)類的分類準(zhǔn)確率。同時(shí),在異常檢測(cè)[1]、市場(chǎng)行情判斷[2]、精準(zhǔn)醫(yī)療[3]等諸多數(shù)據(jù)分析實(shí)際應(yīng)用中,重要的決策信息往往蘊(yùn)藏在少數(shù)類樣本中。因此,對(duì)這些樣本進(jìn)行正確地判斷歸類更具實(shí)際價(jià)值。

      SMOTE(Synthetic Minority Over-sampling Technique)[4]及其衍生方法[5-10]是一種被廣泛使用的改善數(shù)據(jù)不平衡分布的重采樣方法,其基本思想是對(duì)少數(shù)類樣本進(jìn)行過采樣,并在此基礎(chǔ)上合成新的樣本。與其它方法相比, SMOTE對(duì)數(shù)據(jù)的預(yù)處理更為有效, 因而引起研究者的廣泛興趣。SMOTE這類方法的不足之處在于新樣本的合成過程中會(huì)產(chǎn)生樣本重疊和噪聲。模糊粗糙最近鄰(Fuzzy Rough Nearest Neighbor,F(xiàn)RNN)[11-13]是一種在特征不完備數(shù)據(jù)集上有良好分類性能的算法,該算法能有效減少重疊和噪聲對(duì)分類的影響。在實(shí)際數(shù)據(jù)中,不僅存在不平衡現(xiàn)象,而且存在屬性不足問題,即數(shù)據(jù)集本身具有粗糙性[14]。因此,將這兩類方法相結(jié)合實(shí)現(xiàn)不平衡數(shù)據(jù)分類頗具意義。

      1 不平衡問題產(chǎn)生的原因

      不平衡問題產(chǎn)生的主要原因是類與類之間的樣本數(shù)量不均衡,某個(gè)類的樣本數(shù)量明顯少于其它類樣本數(shù)量。一般而言,高的總體分類精度是各種經(jīng)典以及衍生分類模型的追逐目標(biāo),在這種目標(biāo)驅(qū)動(dòng)下,訓(xùn)練模型將著重去擬合多數(shù)類樣本,勢(shì)必導(dǎo)致分類器在少數(shù)類樣本上的分類性能下降。一個(gè)大家熟知的例子是:對(duì)于一個(gè)不平衡率為? 99∶1的數(shù)據(jù)集而言,分類器在將少數(shù)類樣本完全誤判為多數(shù)類的情況下,所獲總體分類精度仍然很高,為99%,而此時(shí)少數(shù)類樣本的錯(cuò)分率卻是100%。此外,相關(guān)研究也指出,在某類樣本中間由于存在樣本重疊現(xiàn)象,也可能導(dǎo)致一種不平衡,稱之為類內(nèi)不平衡[15]。類內(nèi)不平衡現(xiàn)象也是造成分類器性能下降、泛化能力減弱的一個(gè)原因。

      2 不平衡問題處理辦法

      不平衡數(shù)據(jù)分類性能提升方法主要有兩種:數(shù)據(jù)層面和算法層面。數(shù)據(jù)層面就是改善數(shù)據(jù)分布,使數(shù)據(jù)重新趨于平衡,主要是重新采樣技術(shù);算法層面是優(yōu)化分類算法,關(guān)注點(diǎn)是提高算法在少數(shù)類上的分類精度。

      2.1 數(shù)據(jù)層面

      重采樣技術(shù)是處理不平衡數(shù)據(jù)分類的一類主要技術(shù),重采樣是對(duì)訓(xùn)練樣本集中多數(shù)類樣本采用欠采樣方法,對(duì)訓(xùn)練樣本集中少數(shù)類樣本采用過采樣方法,從而達(dá)到提高訓(xùn)練樣本類分布均衡程度的目的,是當(dāng)前提高不平衡數(shù)據(jù)分類器性能的一種有效途徑。其中,欠采樣技術(shù)基本思想是刪除部分多數(shù)類樣本,故而會(huì)造成分類信息丟失;過采樣技術(shù)主要是增加少數(shù)類樣本,原始分類信息能夠得到較好保留。因此,在某些對(duì)各類樣本分類準(zhǔn)確率均要求較高的領(lǐng)域,通常選擇過采樣技術(shù)[16]。

      5.2 評(píng)價(jià)指標(biāo)

      考慮不平衡數(shù)據(jù)集上的二分類問題:設(shè)P為少數(shù)類,N 代表多數(shù)類,F(xiàn)P代表多數(shù)類樣本錯(cuò)分?jǐn)?shù)目;FN指少數(shù)類樣本錯(cuò)分?jǐn)?shù)目;FP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的數(shù)目。如式(18)—式(22)所示,TPR為少數(shù)類樣本正確率(或稱召回率);TNR為多數(shù)類樣本正確率;Precision為少數(shù)類分類精度;G為幾何平均正確率;F是少數(shù)類樣本正確率和分類精度的調(diào)和均值。

      G和F是兩個(gè)常用不平衡數(shù)據(jù)分類性能的評(píng)價(jià)標(biāo)準(zhǔn),指標(biāo)G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,F(xiàn)能全面反映分類器性能[19]。由式(22)可以看出,只有Precision和TPR同步增大時(shí),F(xiàn)才會(huì)相應(yīng)增大,非常適合評(píng)價(jià)不平衡數(shù)據(jù)分類質(zhì)量。

      5.3 結(jié)果分析

      本文在Win10平臺(tái)下采用Eclipse 4.13,實(shí)現(xiàn)了EUSBOOST、HDDT+Bagging及SMOTE+FRNN 3種算法。其中,前兩種是頗具有代表性算法,每種算法在各數(shù)據(jù)集上運(yùn)行10次,取G和F值的平均結(jié)果作比較,如表2、表3所示。

      綜合表2、表3數(shù)據(jù)發(fā)現(xiàn),在對(duì)不平衡數(shù)據(jù)集中的少數(shù)樣本進(jìn)行分類時(shí),相比其它已有方法,本文方法分類精度更高,且數(shù)據(jù)集不平衡率越高,分類優(yōu)勢(shì)越明顯。據(jù)此可以認(rèn)為,在不平衡數(shù)據(jù)分類問題上,先使用SMOTE方法作預(yù)處理,再使用FRNN算法進(jìn)行分類確實(shí)是一種有效的組合方案,值得進(jìn)一步研究。

      6 結(jié)語

      在不平衡數(shù)據(jù)分類問題上,將重采樣技術(shù)和分類算法結(jié)合使用不是一個(gè)新的研究課題,已出現(xiàn)了很多有價(jià)值的研究文獻(xiàn),文獻(xiàn)中的方法在實(shí)驗(yàn)中也取得了較好效果。開展這類嘗試性研究的關(guān)鍵是要在掌握有關(guān)方法內(nèi)在機(jī)理的基礎(chǔ)上,有針對(duì)性地進(jìn)行選取并優(yōu)化組合,而不是為了組合而組合。真實(shí)數(shù)據(jù)中往往不僅存在不平衡現(xiàn)象,往往還伴有重疊和噪聲,其中的屬性特征也經(jīng)常不完整。FRNN算法既可以對(duì)屬性不足的數(shù)據(jù)進(jìn)行分類,又能有效地對(duì)抗樣本重疊和噪聲。該方法的不足就在于它對(duì)于所有類的關(guān)注是等同的,缺乏將多數(shù)類和少數(shù)類區(qū)別處理的機(jī)制,因此在對(duì)不平衡數(shù)據(jù)分類問題上,它與SMOTE方法具有明顯契合性,這也是本文研究的立足點(diǎn)所在。本文目前關(guān)注的僅是不平衡數(shù)據(jù)二分類問題,在多分類問題上還未作進(jìn)一步研究。此外,減小FRNN算法計(jì)算開銷也是需考慮的問題。

      參考文獻(xiàn):

      [1] LUO M,WANG K,CAI Z,et al.Using imbalanced triangle synthetic data for machine learning anomaly detection[J]. Computers,Materials & Continua,2019,58(1):15-26.

      [2] CAHYA R A,BACHTIAR F A. Weakening feature independence of na?ve bayes using feature weighting and selection on imbalanced customer review data[C]. The 5th International Conference on Science in Information Technology(ICSITech),2019:182-187.

      [3] 陳旭,劉鵬鶴,孫毓忠,等. 基于不平衡醫(yī)療數(shù)據(jù)集的疾病預(yù)測(cè)模型研究[J]. 計(jì)算機(jī)學(xué)報(bào),2019,42(3):596-609.

      [4] FERNANDEZ A,GARCIA S,CHAWLA N V,et al. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary[J]. Journal of Artificial Intelligence Research,2018,61:863-905.

      [5] GEORGIOS D,F(xiàn)ERNANDO B,F(xiàn)ELIX L. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information Sciences,2018,465:1-20.

      [6] DOUZAS G,BACAO F,LAST F.Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences,2018,465:1-20.

      [7] DOUZAS G,BACAO F. Geometric SMOTE a geometrically enhanced drop-in replacement for SMOTE[J]. Information sciences,2019,501:118-135.

      [8] QI W,ZHIHAO L,JINCAI H,et al.A Novel ensemble method for imbalanced data learning: bagging of extrapolation-SMOTE SVM[J]. Computational Intelligence & Neuroence,2017:1827016.

      [9] MA L,F(xiàn)AN S.CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests[J]. BMC Bioinformatics,2017,18(1):1-18.

      [10] GONG C,GU L.A Novel SMOTE-Based classification approach to online data imbalance problem[J].? Mathematical Problems in Engineering,2016(5):1-14.

      [11] JENSEN R,CORNELIS C. Fuzzy rough nearest neighbour classification and prediction[J]. Theoretical Computer Science,2011,412(42):5871-5884.

      [12] JENSEN R,CORNELIS C.Fuzzy-rough nearest neighbor classification[M]. Berlin: Springer Berlin Heidelberg,2011.

      [13] SARKAR M. Fuzzy-rough nearest neighbor algorithms in classification[J]. Fuzzy Sets and Systems,2007,158(19):2134-2152.

      [14] 何力,盧冰原. 基于EM 的模糊-粗糙集最近鄰算法[J]. 計(jì)算機(jī)工程,2010,36(24):136-138.

      [15] 陶新民,郝思媛,張冬雪,等. 不均衡數(shù)據(jù)分類算法的綜述[J]. 重慶郵電大學(xué)學(xué)報(bào)( 自然科學(xué)版), 2013,25(1): 101-121.

      [16] 王超學(xué),張濤,馬春森. 面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J]. 計(jì)算機(jī)科學(xué)與探索,2014,8(6):727-734.

      [17] 劉余霞,劉三民,劉濤,等. 一種新的過采樣算法DB_SMOTE[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(6):92-95.

      [18] ENISLAY R,SARAH V,NELE V,et al.IFROWANN:Imbalanced fuzzy-rough ordered? weighted average nearest neighbor classification[J]. IEEE Transactions on Fuzzy Systems,2014(99):1-15.

      [19] LEE Y H,HU P J H,CHENG T H,et al. A preclustering-based ensemble learning technique for acute appendicitis diagnoses[J]. Artificial Intelligence in Medicine,2013,58(2):115-12.

      (責(zé)任編輯:孫 娟)

      收稿日期:2020-07-09

      作者簡(jiǎn)介:章春梅(1979-),女,碩士,南京信息職業(yè)技術(shù)學(xué)院人工智能學(xué)院講師,研究方向?yàn)榫W(wǎng)絡(luò)應(yīng)用程序開發(fā)、數(shù)據(jù)挖掘。

      猜你喜歡
      分類器
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于實(shí)例的強(qiáng)分類器快速集成方法
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      人臉檢測(cè)的繼承式集成學(xué)習(xí)方法*
      基于Adaboost的人臉檢測(cè)算法研究
      基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測(cè)
      一種基于改進(jìn)貝葉斯分類器的基本信任分配構(gòu)造方法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      一種基于置換的組合分類器剪枝方法
      贡山| 临朐县| 剑川县| 河池市| 邵东县| 砀山县| 盖州市| 兴海县| 沅江市| 彰武县| 康定县| 安新县| 英山县| 临西县| 新宁县| 永康市| 察隅县| 清流县| 定日县| 阿克| 淄博市| 黄龙县| 土默特左旗| 宜兰县| 兰西县| 青岛市| 台东市| 连云港市| 县级市| 横山县| 体育| 元阳县| 宾川县| 中超| 江西省| 韶关市| 仲巴县| 昌宁县| 北海市| 株洲县| 中牟县|