祿鎧銑
(澳門大學)
不平衡數據集的特征就是在數據集里有一種樣本的數量大大小于其他的樣本數量.對于不平衡數據級來說,使用比較傳統(tǒng)的分類手段對其進行分類的話,其結果會十分的傾向多數類,一般來說,人們極為重視少數類,如果少數類被錯分,那么付出的代價十分的大,假如將入侵數據看作是正常數據來對待,有極大幾率會導致不必要的損失.
在數據挖掘與模式識別等等行業(yè)越來越喜歡用聚類算法了.如今聚類算法有很多種,可是,幾乎所有的聚類算法都有明顯的缺陷.因此,該文使用聚類融合技術,用來讓算法更加穩(wěn)定.
最近幾年內,融合方法大量應用在分類和回歸中,而且已經進入到了聚類行業(yè)中.Fred A L參考傳感器融合與分類器融合的成功經驗,發(fā)現了新的方法.它的詳細定義就是:把一組數據進行聚類的不一樣的結果相互融合,而不會使用該數據原來的自身特點.
主要在兩個方面進行探究:(1)怎樣生成有效果的聚類成員;(2)怎么對共識函數進行設計,讓聚類成員能夠合并到一起.具體就是聚類成員之間的區(qū)別,究竟對聚類融合結果有何影響,是否會影響聚類融合的穩(wěn)定.聚類融合重點:
如果有包括n個對象的數據集X={x1,x2,…,xn},使用h次聚類的算法讓X數據集能夠得到 h 個結果,H={C1,C2,…,Ch},當中 Ck(k=1,2,…,h)為了可以得出聚類結果重點在于對第k次算法.將h個聚類成員的不同的聚類結果加在一起,然后利用比較專業(yè)的共識函數,得出有關結果.
相比于單一算法,聚類融合算法可以得到更好地結果.
(1)魯棒性:不論是何種領域與數據集,這種方法的平均性能無疑是最強的.
(2)適用性:聚類結果是一般是單一聚類方法不能比擬的.
(3)穩(wěn)定性與確定性評價:聚類結果有一定的不確定性,可以從融合布局方面來進行評估噪聲、孤立點與抽樣,這對于聚類結果來說,沒有多大的影響.
(4)并行與可擴展性:可以讓數據子集并行合并或者是并行聚類,還可以合并分布式的數據源聚類結果或者是數據屬性的聚類結果.
機器學習行業(yè)的重點探究對象就是分類問題,部分分類方法都日漸成熟,用這些分類方法來對平衡數據進行分類,肯定可以有不錯的效果.但是,很多行業(yè)里還是有很多不均衡數據及存在的.以往傳統(tǒng)分類方法似乎偏向于對多數類有比較高的識別率,少數類識別率則相對比較低.所以,對不均衡數據集有關分類問題的探究,必須要找到一些新的手段與辨別準則.
不平衡數據的分類大致可以分為兩種:以數據層面作為基礎與將算法層面作為基礎的方法.
1.2.1 數據層面的處理方法
數據層面的處理方法就是將數據進行重抽樣,包括兩種處理辦法,分別是過抽樣和欠抽樣.
一致子集(consistent subset).
編輯技術(常用的是W ilson.s editing)
以及單邊選擇(one-sided selection)等[1-2].
以上技術最重要的是啟發(fā)性的使用(加權)歐氏距離和K-近鄰規(guī)則去辨別能夠科學刪除的樣本.Barandela 等人[3]和 Batista 等人[4]都對以上多種欠抽樣方法進行了細致的試驗與深入的探究.Dehmeshki等人[5]發(fā)現了以規(guī)則作為基礎的數據過濾技術,實際上也屬于欠抽樣方法.
和欠抽樣對立,過抽樣技術是想方設法的來讓少數類的學習樣本增多.最具代表的就是Chawla等人[6]發(fā)明的SMOTE 技術.SMOTE 技術理論就是利用插值產生全新人工樣本,并不是對樣本進行復制.Han等人[7]以此作為參考,發(fā)明了Borderline-SMOTE技術.
1.2.2 算法層面的處理方法
根據有關記載,我們得知,如今重點集中在四個不一樣的方法,包括代價敏感與單類學習、組合方法和支持向量機方法.
所提出分類算法是將聚類融合的不平衡數據作為基礎,就是 CE-Under,CE-SMOTE與CE-SMOTE+CE-Under方法.
精準度accuracy=(TP+TN)/(TP+TN+FP+FN)是分類問題里經常使用的評估標準(見表1).
表1 混合矩陣
從上可以得知分類器在數據集的整體分類方面的作用,可是不會發(fā)擰出不平衡數據集的分類作用.因此,在不平衡數據方面,必須要制定更為科學的評判標準,經常使用的標準包括:查全率 recall、F-value 值、查準率 precision、G-mean值、AUC.屬于少數類 recall、precision、G-mean、F-value值的計算手段如下:
F-value可以說是不平衡數據集學習里比較有效地評判標準,它將Recall與Precision相互組合,當中β是可調參數,一般取值為1.只有在Recall與Precision的值比較大的時候,F-value才會更大,所以它可以準確的反映出少數類的分類作用.另外,G-mean也如F-value一樣,是比較有效的評判標準,它是少數類里TP/(TP+FN)和多數類里TN/(TN+FP)的乘積的平方根,當這兩者的值都比較大的時候,G-mean才會變得更大,所以G-mean可以科學的評判不平衡數據集的整體分類作用.
在該文里,選擇十個少數類與多數類樣本比例不均衡的UCI機器學習數據集做實驗,每個數據集的基本信息見表2.在表2里,N是樣本的數量總和,NMIN是少數類樣本的數量,NMAJ為多數類樣本的數量,CD是少數類與多數類的樣本比例,NA為屬性數量(包括類別屬性).
表2 數據集的基本信息
在試驗里,與C4.5決策樹算法(直接對原數據集進行分類學習)和七類不均衡數據分類方法的作用作比較.上文所述不平衡數據分類方法全部利用C4.5決策樹算法,分類學習重抽樣后的數據集.
為了能夠讓上述的不均衡數據分類方法的比較更具客觀性,下面全部的實驗數據都是10折交叉驗證之后得出的結論.
使用weka軟件里的Simple Means聚類算法來多次聚類數據.對一致性系數CI閾值α進行聚類,之后取全部樣本的平均數值.依據過抽樣率與欠抽樣率的概念我們可以知道,SMOTE方法產生的合成樣本數量和原有少數類樣本數量一模一樣,就是全部少數類樣本數量多出了一倍,而Random Under方法剔除的多數類樣本數量則是原有多數類樣本的一半.為了能夠將過抽樣與欠抽樣后的數據集作比較,該論文對不平衡程度指標I-degree做出定義,它的數值就是數據集里少數類與多數類樣本的比值,I-degree的值越高代表著數據集里少數類樣本數量越大,多數類樣本的數量越少.當I-degree值幾乎等于1的時候,代表著數據集里面的多數類與少數類的樣本數量比較均衡.圖1顯示十個UCI的初始數據集OldDataSet和使用CE-SMOTE+CEUnder,CE-SMOTE與CE-Under方法進行重抽樣之后數據集的I-degree值,而且每種I-degree值全部經過10折交叉驗證之后得出的結論.從圖1我們可以知道,該論文所提出的CESMOTE+CE-Under、CE-SMOTE 與 CE-Under方法都能夠讓數據集不平衡的程度有所降低.因為CE-SMOTE+CE-Under方法可以對少數類與多數類同時做處理,所以進行重抽樣之后數據集I-degree值是最高的,而CE-SMOTE方法的I-degree值稍微高于CE-Un-der方法的I-degree值.
圖1 10個數據集的I-degree值
表3 8種方法在10個UCI數據集的少數類F-value值對比
表4 8種方法的G-mean值對比
表3與表4分別列舉了8種方法在十個UCI數據集上的少數類F-value值與數據集總體的G-mean值.而表中最底部的一行則列舉出了每一個方法在全部數據集里的平均結果.對于每一個數據集來說,分別得來對結合法、過抽樣法與欠抽樣法里每一種方法的F-value與G-mean值做對比,同時用黑體字來代表這三種方法里最高的F-value與G-mean值.
從表3與表4當中可以知道,上文提到的七類不平衡數據分類方法的少數類F-value值與數據集總體的G-mean值比原始數據集進行分類的C4.5算法都要高..
三種方法經過橫向對比可以得出如下結果,結合法里面的CE-SMOTE+CE-Under方法很顯然要比SMOTE+RandomUnder方法更加優(yōu)秀,而欠抽樣法里面的CE-Under方法一般來說要比Random Under方法更具優(yōu)勢.把三種方法進行縱向對比,我們得出的結論是,過抽樣法與結合法作比較,欠抽樣法則更具優(yōu)勢,同時結合法與過抽樣法的少數類F-value值與G-mean值相對比較大,綜上所述,上文提出的這些方法都是極為優(yōu)秀的方法.
總之,該論文提到的有關基于聚類融合的不平衡數據分類方法的識別率相對較高,特別是對于部分少數類和部分數據集總體也有著不錯的識別率.通過一系列的實驗,并且對比各個實驗數據,我們可以得出以下的結論,CE-SMOTE+CE-Under方法與CE-SMOTE方法對不平衡數據集的分類作用比較強,CE-Under方法則相對較弱,但是它的對比算法與其他的算法相比更具優(yōu)勢,這類方法的優(yōu)勢還是比較多的,不論在不一樣的過抽樣率、還是不一樣的欠抽樣率下乃至是聚類次數下,這種方法的少數類F-value值總是十分的穩(wěn)定.綜上所述,筆者提出的有關基于聚類融合的不平衡數據分類方法在不同條件下都可以良好降低數據集的不平衡程度,同理,在數據集整體G-mean值不下調的情況下,可以讓少數類的F-value值有所提升,這對多數類和少數類的均值都有不錯的識別率.
[1] Batista G E A P A,Pratir C,MONARDM C.A study of the behavior of several methods for balancing machine learning training data[J].Slgkdd Explorations,2004,6(1):20-29.
[2] KuBatm,Matwin S.Addressing the curse of imbalanced training sets:one-sided selection[C]//Proc of 14th International Conference on Machine Learning(ICML.97).Nashville:[s.n.],1997.179-186.
[3] Barandela R,Valdovindos R M,Snchez J S,et al.The imbalanced training sample problem:under or over sampling[C]//Proc of International Workshops on Structura,l Syntactic,and Statisti cal Pattern ecognition(SSPR/SPR.04).Lisbon:[s.n.],2004,806-814.
[4] Batista G E A P A,Pratir C,Monardm C.A study of the behavior of several methods for balancing machine learning training data[J].S IGKDD Explorations,2004,6(1):20-29.
[5] Dehmeshki J,Karak Y M,Casique M V.A rule-based scheme for filtering examples from majority class in an imbalanced training set[C] //Proc of MLDM,2003.215-223.
[6] Chawlanv,Halllo,Bowyer K W,et al.Smote:synthetic minority over sampling technique[J].Journal of Articial Intelligence Research,2002,16:321-357.
[7] Han H,Wang Wenyuan,Mao Binghuan.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C] //Proc of International Conference on Intelligent Computing(ICIC.05).Hefe:i[s.n.],2005.878-887.