摘 要:為了提升不平衡數(shù)據(jù)中少數(shù)類的分類精度,利用SMOTE采樣方法對(duì)數(shù)據(jù)集進(jìn)行平衡化預(yù)處理;為了減輕樣本重新合成過程中產(chǎn)生的類重疊和噪聲對(duì)分類精度的影響,選擇模糊粗糙最近鄰算法(FRNN)作為分類器。在14個(gè)不平衡數(shù)據(jù)集上進(jìn)行的仿真實(shí)驗(yàn)表明,該方法具有較好的分類表現(xiàn),F(xiàn)值和G值最高分別可達(dá)0.965、0.932,是一種適用于不平衡率偏高數(shù)據(jù)集的分類方法。
關(guān)鍵詞:不平衡數(shù)據(jù);分類器;SMOTE;模糊粗糙最近鄰算法
DOI:10. 11907/rjdk. 201674
中圖分類號(hào):TP301 ??? 文獻(xiàn)標(biāo)識(shí)碼:A ?????? 文章編號(hào):1672-7800(2020)011-0037-05
A Classification Method for Imbalanced Data Based on
Fuzzy Rough Nearest Neighbor
ZHANG Chun-mei
(Institute of Artificial Intelligence, Nanjing Vocational College of Information Technology, Nanjing 210023,China)
Abstract: In order to improve the classification accuracy of the minority classes in imbalanced data, the paper employs synthetic minority over - sampling technique(SMOTE) to balance data set firstly. Considering that the process of sample re-synthesis always leads to some noises such as class overlapping, fuzzy rough neareswast neighbor algorithm (FRNN) is selected as the classifier to alleviate the effect of noise. Classification experiment conducted on 14 unbalanced data sets shows that the proposed method performs well,? and the F value and G value can reach 0.965 and 0.932 respectively. It reveals that the proposed method is suitable for the classification on data sets with high imbalance rate.
Key Words: imbalanced data; classifier;SMOTE;fuzzy rough nearest neighbor algorithm
0 引言
在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,不平衡數(shù)據(jù)分類受到研究者的廣泛關(guān)注。與一般意義上的數(shù)據(jù)分類不同,本文研究的不平衡分類更看重整體中的個(gè)別:少數(shù)類的分類準(zhǔn)確率。同時(shí),在異常檢測(cè)[1]、市場(chǎng)行情判斷[2]、精準(zhǔn)醫(yī)療[3]等諸多數(shù)據(jù)分析實(shí)際應(yīng)用中,重要的決策信息往往蘊(yùn)藏在少數(shù)類樣本中。因此,對(duì)這些樣本進(jìn)行正確地判斷歸類更具實(shí)際價(jià)值。
SMOTE(Synthetic Minority Over-sampling Technique)[4]及其衍生方法[5-10]是一種被廣泛使用的改善數(shù)據(jù)不平衡分布的重采樣方法,其基本思想是對(duì)少數(shù)類樣本進(jìn)行過采樣,并在此基礎(chǔ)上合成新的樣本。與其它方法相比, SMOTE對(duì)數(shù)據(jù)的預(yù)處理更為有效, 因而引起研究者的廣泛興趣。SMOTE這類方法的不足之處在于新樣本的合成過程中會(huì)產(chǎn)生樣本重疊和噪聲。模糊粗糙最近鄰(Fuzzy Rough Nearest Neighbor,F(xiàn)RNN)[11-13]是一種在特征不完備數(shù)據(jù)集上有良好分類性能的算法,該算法能有效減少重疊和噪聲對(duì)分類的影響。在實(shí)際數(shù)據(jù)中,不僅存在不平衡現(xiàn)象,而且存在屬性不足問題,即數(shù)據(jù)集本身具有粗糙性[14]。因此,將這兩類方法相結(jié)合實(shí)現(xiàn)不平衡數(shù)據(jù)分類頗具意義。
1 不平衡問題產(chǎn)生的原因
不平衡問題產(chǎn)生的主要原因是類與類之間的樣本數(shù)量不均衡,某個(gè)類的樣本數(shù)量明顯少于其它類樣本數(shù)量。一般而言,高的總體分類精度是各種經(jīng)典以及衍生分類模型的追逐目標(biāo),在這種目標(biāo)驅(qū)動(dòng)下,訓(xùn)練模型將著重去擬合多數(shù)類樣本,勢(shì)必導(dǎo)致分類器在少數(shù)類樣本上的分類性能下降。一個(gè)大家熟知的例子是:對(duì)于一個(gè)不平衡率為? 99∶1的數(shù)據(jù)集而言,分類器在將少數(shù)類樣本完全誤判為多數(shù)類的情況下,所獲總體分類精度仍然很高,為99%,而此時(shí)少數(shù)類樣本的錯(cuò)分率卻是100%。此外,相關(guān)研究也指出,在某類樣本中間由于存在樣本重疊現(xiàn)象,也可能導(dǎo)致一種不平衡,稱之為類內(nèi)不平衡[15]。類內(nèi)不平衡現(xiàn)象也是造成分類器性能下降、泛化能力減弱的一個(gè)原因。
2 不平衡問題處理辦法
不平衡數(shù)據(jù)分類性能提升方法主要有兩種:數(shù)據(jù)層面和算法層面。數(shù)據(jù)層面就是改善數(shù)據(jù)分布,使數(shù)據(jù)重新趨于平衡,主要是重新采樣技術(shù);算法層面是優(yōu)化分類算法,關(guān)注點(diǎn)是提高算法在少數(shù)類上的分類精度。
2.1 數(shù)據(jù)層面
重采樣技術(shù)是處理不平衡數(shù)據(jù)分類的一類主要技術(shù),重采樣是對(duì)訓(xùn)練樣本集中多數(shù)類樣本采用欠采樣方法,對(duì)訓(xùn)練樣本集中少數(shù)類樣本采用過采樣方法,從而達(dá)到提高訓(xùn)練樣本類分布均衡程度的目的,是當(dāng)前提高不平衡數(shù)據(jù)分類器性能的一種有效途徑。其中,欠采樣技術(shù)基本思想是刪除部分多數(shù)類樣本,故而會(huì)造成分類信息丟失;過采樣技術(shù)主要是增加少數(shù)類樣本,原始分類信息能夠得到較好保留。因此,在某些對(duì)各類樣本分類準(zhǔn)確率均要求較高的領(lǐng)域,通常選擇過采樣技術(shù)[16]。
5.2 評(píng)價(jià)指標(biāo)
考慮不平衡數(shù)據(jù)集上的二分類問題:設(shè)P為少數(shù)類,N 代表多數(shù)類,F(xiàn)P代表多數(shù)類樣本錯(cuò)分?jǐn)?shù)目;FN指少數(shù)類樣本錯(cuò)分?jǐn)?shù)目;FP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的數(shù)目。如式(18)—式(22)所示,TPR為少數(shù)類樣本正確率(或稱召回率);TNR為多數(shù)類樣本正確率;Precision為少數(shù)類分類精度;G為幾何平均正確率;F是少數(shù)類樣本正確率和分類精度的調(diào)和均值。
G和F是兩個(gè)常用不平衡數(shù)據(jù)分類性能的評(píng)價(jià)標(biāo)準(zhǔn),指標(biāo)G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,F(xiàn)能全面反映分類器性能[19]。由式(22)可以看出,只有Precision和TPR同步增大時(shí),F(xiàn)才會(huì)相應(yīng)增大,非常適合評(píng)價(jià)不平衡數(shù)據(jù)分類質(zhì)量。
5.3 結(jié)果分析
本文在Win10平臺(tái)下采用Eclipse 4.13,實(shí)現(xiàn)了EUSBOOST、HDDT+Bagging及SMOTE+FRNN 3種算法。其中,前兩種是頗具有代表性算法,每種算法在各數(shù)據(jù)集上運(yùn)行10次,取G和F值的平均結(jié)果作比較,如表2、表3所示。
綜合表2、表3數(shù)據(jù)發(fā)現(xiàn),在對(duì)不平衡數(shù)據(jù)集中的少數(shù)樣本進(jìn)行分類時(shí),相比其它已有方法,本文方法分類精度更高,且數(shù)據(jù)集不平衡率越高,分類優(yōu)勢(shì)越明顯。據(jù)此可以認(rèn)為,在不平衡數(shù)據(jù)分類問題上,先使用SMOTE方法作預(yù)處理,再使用FRNN算法進(jìn)行分類確實(shí)是一種有效的組合方案,值得進(jìn)一步研究。
6 結(jié)語
在不平衡數(shù)據(jù)分類問題上,將重采樣技術(shù)和分類算法結(jié)合使用不是一個(gè)新的研究課題,已出現(xiàn)了很多有價(jià)值的研究文獻(xiàn),文獻(xiàn)中的方法在實(shí)驗(yàn)中也取得了較好效果。開展這類嘗試性研究的關(guān)鍵是要在掌握有關(guān)方法內(nèi)在機(jī)理的基礎(chǔ)上,有針對(duì)性地進(jìn)行選取并優(yōu)化組合,而不是為了組合而組合。真實(shí)數(shù)據(jù)中往往不僅存在不平衡現(xiàn)象,往往還伴有重疊和噪聲,其中的屬性特征也經(jīng)常不完整。FRNN算法既可以對(duì)屬性不足的數(shù)據(jù)進(jìn)行分類,又能有效地對(duì)抗樣本重疊和噪聲。該方法的不足就在于它對(duì)于所有類的關(guān)注是等同的,缺乏將多數(shù)類和少數(shù)類區(qū)別處理的機(jī)制,因此在對(duì)不平衡數(shù)據(jù)分類問題上,它與SMOTE方法具有明顯契合性,這也是本文研究的立足點(diǎn)所在。本文目前關(guān)注的僅是不平衡數(shù)據(jù)二分類問題,在多分類問題上還未作進(jìn)一步研究。此外,減小FRNN算法計(jì)算開銷也是需考慮的問題。
參考文獻(xiàn):
[1] LUO M,WANG K,CAI Z,et al.Using imbalanced triangle synthetic data for machine learning anomaly detection[J]. Computers,Materials & Continua,2019,58(1):15-26.
[2] CAHYA R A,BACHTIAR F A. Weakening feature independence of na?ve bayes using feature weighting and selection on imbalanced customer review data[C]. The 5th International Conference on Science in Information Technology(ICSITech),2019:182-187.
[3] 陳旭,劉鵬鶴,孫毓忠,等. 基于不平衡醫(yī)療數(shù)據(jù)集的疾病預(yù)測(cè)模型研究[J]. 計(jì)算機(jī)學(xué)報(bào),2019,42(3):596-609.
[4] FERNANDEZ A,GARCIA S,CHAWLA N V,et al. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary[J]. Journal of Artificial Intelligence Research,2018,61:863-905.
[5] GEORGIOS D,F(xiàn)ERNANDO B,F(xiàn)ELIX L. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information Sciences,2018,465:1-20.
[6] DOUZAS G,BACAO F,LAST F.Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences,2018,465:1-20.
[7] DOUZAS G,BACAO F. Geometric SMOTE a geometrically enhanced drop-in replacement for SMOTE[J]. Information sciences,2019,501:118-135.
[8] QI W,ZHIHAO L,JINCAI H,et al.A Novel ensemble method for imbalanced data learning: bagging of extrapolation-SMOTE SVM[J]. Computational Intelligence & Neuroence,2017:1827016.
[9] MA L,F(xiàn)AN S.CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests[J]. BMC Bioinformatics,2017,18(1):1-18.
[10] GONG C,GU L.A Novel SMOTE-Based classification approach to online data imbalance problem[J].? Mathematical Problems in Engineering,2016(5):1-14.
[11] JENSEN R,CORNELIS C. Fuzzy rough nearest neighbour classification and prediction[J]. Theoretical Computer Science,2011,412(42):5871-5884.
[12] JENSEN R,CORNELIS C.Fuzzy-rough nearest neighbor classification[M]. Berlin: Springer Berlin Heidelberg,2011.
[13] SARKAR M. Fuzzy-rough nearest neighbor algorithms in classification[J]. Fuzzy Sets and Systems,2007,158(19):2134-2152.
[14] 何力,盧冰原. 基于EM 的模糊-粗糙集最近鄰算法[J]. 計(jì)算機(jī)工程,2010,36(24):136-138.
[15] 陶新民,郝思媛,張冬雪,等. 不均衡數(shù)據(jù)分類算法的綜述[J]. 重慶郵電大學(xué)學(xué)報(bào)( 自然科學(xué)版), 2013,25(1): 101-121.
[16] 王超學(xué),張濤,馬春森. 面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J]. 計(jì)算機(jī)科學(xué)與探索,2014,8(6):727-734.
[17] 劉余霞,劉三民,劉濤,等. 一種新的過采樣算法DB_SMOTE[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(6):92-95.
[18] ENISLAY R,SARAH V,NELE V,et al.IFROWANN:Imbalanced fuzzy-rough ordered? weighted average nearest neighbor classification[J]. IEEE Transactions on Fuzzy Systems,2014(99):1-15.
[19] LEE Y H,HU P J H,CHENG T H,et al. A preclustering-based ensemble learning technique for acute appendicitis diagnoses[J]. Artificial Intelligence in Medicine,2013,58(2):115-12.
(責(zé)任編輯:孫 娟)
收稿日期:2020-07-09
作者簡(jiǎn)介:章春梅(1979-),女,碩士,南京信息職業(yè)技術(shù)學(xué)院人工智能學(xué)院講師,研究方向?yàn)榫W(wǎng)絡(luò)應(yīng)用程序開發(fā)、數(shù)據(jù)挖掘。