宿 晨,徐 華,崔 鑫,王玲娣
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)
分類問(wèn)題是數(shù)據(jù)挖掘中的難點(diǎn)。絕大多數(shù)分類算法只是在平衡數(shù)據(jù)集分類效果顯著,而在不均衡數(shù)據(jù)集上分類效果欠佳。但現(xiàn)實(shí)生活中的分類問(wèn)題往往是類別不均衡的,例如銀行欺詐的檢測(cè)、垃圾郵件的檢測(cè)、車輛識(shí)別、疾病診斷等。不均衡數(shù)據(jù)分類問(wèn)題已經(jīng)成為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域的重要研究方向之一[1-2]。在實(shí)際的生活中,不均衡分類問(wèn)題大多數(shù)是多分類問(wèn)題,因此更具有研究意義。而多數(shù)類的不均衡分類問(wèn)題與二分類的分類問(wèn)題相比,多數(shù)類對(duì)于分類模型要求更高,獲取少數(shù)類的代價(jià)也更大,類間數(shù)據(jù)的分布也更多樣化,也更難被分類。針對(duì)不均衡數(shù)據(jù)分類的研究主要集中在數(shù)據(jù)層面與算法層面的改進(jìn)研究。數(shù)據(jù)層面的改進(jìn)主要集中在對(duì)數(shù)據(jù)集的改進(jìn),增加少數(shù)類數(shù)據(jù)或減少多數(shù)類數(shù)據(jù),使得原本的數(shù)據(jù)集相對(duì)均衡,主要的改進(jìn)方法是過(guò)采樣與欠采樣。早期,Chawla等[3-4],提出了一種SMOTEBoost(synthetic minority over-sampling technique and boost)的方法,將SMOTE采樣算法與集成算法Boost相結(jié)合,加強(qiáng)了對(duì)小類樣本的關(guān)注度;武森等[5]將聚類算法運(yùn)用到采樣中,先利用聚類欠采樣方法將數(shù)據(jù)集均衡化,然后利用AdaBoost算法對(duì)新生成的數(shù)據(jù)集進(jìn)行分類操作;2013年,Krawczyk 等[6]使用 PUSBE(pruned under-sampling balanced ensemble)方法,該方法有效運(yùn)用了特征選擇技術(shù);2014 年,Krawczyk等[7]又提出了 CS-MCS(cost-sensitive multiple classifier systems)集成方法,運(yùn)用隨機(jī)欠采樣結(jié)合遺傳算法相結(jié)合的方式。在低維數(shù)據(jù)集上效果明顯,但是高維數(shù)據(jù)集上效果欠佳。文獻(xiàn)[8]指出采樣方法雖然可以提升小類樣本的識(shí)別率,但是容易引入噪聲,丟失有用信息,分類器對(duì)小類樣本過(guò)分的關(guān)注也易使得算法陷入局部最優(yōu)。對(duì)此, TAO等[9]提出了一種新的過(guò)采樣技術(shù),該技術(shù)使用實(shí)值否定選擇(RNS)過(guò)程來(lái)生成人工少數(shù)類數(shù)據(jù),而無(wú)需實(shí)際的少數(shù)類數(shù)據(jù)。生成的少數(shù)類數(shù)據(jù)(如果有的話)會(huì)與實(shí)際的少數(shù)類數(shù)據(jù)一起使用,并與多數(shù)類數(shù)據(jù)相結(jié)合,作為二分類學(xué)習(xí)方法的輸入,并且在實(shí)驗(yàn)中證明了其有效性。
從算法的角度來(lái)看,改變概率密度,單類學(xué)習(xí)分類,集成學(xué)習(xí),代價(jià)敏感學(xué)習(xí),核方法等五種主要方法來(lái)解決數(shù)據(jù)分類不平衡問(wèn)題[10]。國(guó)際機(jī)器學(xué)習(xí)界的權(quán)威Dietterich已經(jīng)將集成學(xué)習(xí)列為機(jī)器學(xué)習(xí)4大研究之首[11]。TAO等[12]提出了一種新的基于自適應(yīng)權(quán)重的支持向量機(jī)成本敏感集成方法,用于不平衡數(shù)據(jù)分類,還創(chuàng)新性的提出了一種自適應(yīng)的順序錯(cuò)誤分類權(quán)重確定方法。該方法可以基于在提升過(guò)程中先前獲得的分類器,在每次迭代時(shí)自適應(yīng)地考慮少數(shù)實(shí)例對(duì)SVM分類器的不同貢獻(xiàn),這可以使其產(chǎn)生不同的分類器,從而提高泛化性能。隨后,Tao等[13]又提出了一種新的基于親和度和類別概率的模糊支持向量機(jī)技術(shù)(ACFSVM)。多數(shù)類樣本的親和力是根據(jù)支持向量描述域(SVDD)模型計(jì)算的,該模型僅由給定的多數(shù)類訓(xùn)練樣本在內(nèi)核空間中進(jìn)行訓(xùn)練,類似于FSVM學(xué)習(xí)所使用的模型。針對(duì)噪聲樣本的處理,Tao等[13]采用核k最臨近法來(lái)確定與以前相同的核空間中多數(shù)類別樣本的類別概率。具有較低分類概率的樣本更有可能是噪音,并且通過(guò)將相似度和分類概率結(jié)合起來(lái)構(gòu)成的低隸屬度,減少了噪聲樣本的影響。張苗燕等[14]結(jié)合細(xì)菌覓食算法的思想,提出了一種新的算法AdAdaboost,并對(duì)加權(quán)系數(shù)進(jìn)行了改進(jìn),全局優(yōu)化最佳弱分類器,改善了AdaBoost算法誤檢率的同時(shí)得到了較好的檢測(cè)性能; Guo 等[15]將AdaBoost.M1 算法與特征選擇結(jié)合起來(lái),提出了一種新的集成方法BAK(BPSO-AdaBoost-KNN),使用KNN作為基分類器,但KNN的缺點(diǎn)是不能直接處理帶權(quán)數(shù)據(jù),需要借助re-samplingd的方法轉(zhuǎn)化數(shù)據(jù)集后使用,而且AdaBoost.M1針對(duì)于基分類器的要求過(guò)于嚴(yán)苛,錯(cuò)誤率不能超過(guò)50%。對(duì)此,將胡旺[16]等提出的SPSO(simple particle swarm optimization)算法進(jìn)行改進(jìn),并與Zhu等[17]提出的SAMME.R版本的AdaBoost算法相結(jié)合,提出了WSPSO-SAMME.R-DT 算法,用以解決不平衡多分類問(wèn)題。與AdaBoost.M1 算法所不同的,SAMME.R使用決策樹作為基分類器,避免在訓(xùn)練樣本上花費(fèi)時(shí)間,降低對(duì)基分類器的要求。為了降低基分類器的相關(guān)性,引入了隨機(jī)化的方法。使用AUCarea作為性能度量指標(biāo),并將其作為適應(yīng)度值,優(yōu)化特征選擇。提升了小類樣本的識(shí)別率。
AdaBoost算法是一個(gè)迭代過(guò)程,弱分類器的生成是串行的。在AdaBoost的訓(xùn)練過(guò)程中,分類器的重心將轉(zhuǎn)移到那些更難分類的樣本上,即多次錯(cuò)誤分類的樣本。隨后的訓(xùn)練也會(huì)偏重于這些樣本,這是通過(guò)在算法運(yùn)行期間為訓(xùn)練樣本分配權(quán)重來(lái)實(shí)現(xiàn)的。樣本權(quán)重最初都是一致的,后續(xù)過(guò)程中每輪都會(huì)對(duì)樣本權(quán)重進(jìn)行更新,最終得到一組弱分類器,將所有弱分類器加權(quán)組合成一個(gè)強(qiáng)分類器。
AdaBoost 算法適用于二分類問(wèn)題, AdaBoost.M1可用于解決多分類問(wèn)題。但是AdaBoost.M1的前提條件是基分類器的錯(cuò)誤率小于50%,這一要求過(guò)于嚴(yán)格,易導(dǎo)致訓(xùn)練失敗。針對(duì)以上不足,筆者選擇 Zhu等[17]提出的SAMME.R 版本的 AdaBoost算法,降低了對(duì)基分類器過(guò)于嚴(yán)苛的要求,僅比隨機(jī)猜測(cè)略好即可。同時(shí),使用分類器的類別估計(jì)概率值來(lái)對(duì)樣本權(quán)重進(jìn)行更新。
在該算法中,獲得加權(quán)類概率估計(jì)的公式為:
p(t)k(x)=Probw(h=k|x),k=1,…,K,
(1)
其中:t為迭代次數(shù),k為類標(biāo)簽,Prob函數(shù)是返回區(qū)域中的數(shù)值落在指定區(qū)間內(nèi)的對(duì)應(yīng)概率。獲得加權(quán)類概率估計(jì)后,利用拉格朗日定理對(duì)稱約束優(yōu)化得到h(t)k(x)
(2)
更新樣本權(quán)重wi:
(3)
其中:y=(y1,…,ym)T
對(duì)于不平衡二分類問(wèn)題來(lái)說(shuō),經(jīng)常使用ROC曲線來(lái)度量分類中的不平衡性,ROC是接受者操作特性曲線(receiver operating characteristic),利用ROC曲線下的面積(area under the curve)作為算法的評(píng)價(jià)標(biāo)準(zhǔn),理想中分類器的AUC為1.0,隨機(jī)猜測(cè)的分類器AUC為0.5。
AUC評(píng)價(jià)標(biāo)準(zhǔn)無(wú)法直接應(yīng)用與多分類問(wèn)題,需要對(duì)其進(jìn)行拓展。最常用的2種擴(kuò)展方法分為[18]:1)一對(duì)一方法;2)一對(duì)多方法。為了更加清晰的對(duì)比這2種方法,令Y={y1,y2,…,yk} ,Y表示的是數(shù)據(jù)的類標(biāo)簽的集合。在一對(duì)一的方法中,計(jì)算所有類的兩兩組合(yi,yj)(i≠j) 的AUC值。一對(duì)多的方法中,先定義成二分類問(wèn)題,令yi∈Y,屬于yi的樣本定義為正類,剩余的樣本為負(fù)類,然后計(jì)算定義后的AUC值。由此將會(huì)得到一組AUC值{r1,r2,…,rn} ,最后取平均值,記作avgAUC,作為性能度量值使用。以上2種方法都可簡(jiǎn)單的實(shí)現(xiàn),但是無(wú)法做到可視化。因?yàn)楫?dāng)多個(gè)AUC都變化時(shí),avgAUC的值可能沒(méi)有任何變化。例如,當(dāng)ri變?yōu)閞i+σ,rj變?yōu)閞j-σ,(i,j)∈{1,2,…,n}), 最終其avgAUC的值沒(méi)有改變,也無(wú)法進(jìn)行分類模型調(diào)整的評(píng)價(jià)。
采用Hand DJ[19]提出的一種具有可視化優(yōu)點(diǎn)的度量指標(biāo)方法AUCarea。AUCarea會(huì)將所有的AUC的值在極坐標(biāo)上繪制出來(lái)。如圖1所示,黃色虛線三角形代表的就一個(gè)是三分類的AUCarea極坐標(biāo)圖示,黃色虛線所覆蓋的面積就是最終度量值。AUCarea的計(jì)算公式如下
(4)
其中:n為AUC的總數(shù);r為每對(duì)類組合(yi,yj)(i≠j)的AUC的值。
圖1 三分類的AUCarea極坐標(biāo)圖示Fig.1 Three-category AUCare polar plot
當(dāng)所有AUC的值為1時(shí),就達(dá)到了理想中的最優(yōu)狀態(tài),即AUCarea的最大值,如公式(5)所示
(5)
計(jì)算歸一化的為公式(6)
(6)
使用歸一化公式(6)所得值記為AUCarea,AUCarea除了可視化的優(yōu)點(diǎn)之外,也對(duì)單個(gè)差的AUC較為敏感。
雖然AdaBoost算法可通過(guò)增加小樣本的權(quán)重來(lái)增強(qiáng)對(duì)小樣本的關(guān)注,但它仍然使用正確率作為優(yōu)化目標(biāo),并且容易引起過(guò)擬合。因此,將特征選擇方法與SAMME.R AdaBoost算法結(jié)合。SAMME.R算法中加入特征選擇是基于以下考慮:去除不相干特征,減少時(shí)間與空間的浪費(fèi),加強(qiáng)對(duì)特征和特征值之間的聯(lián)系,從而更好的進(jìn)行分類[20]。特征選擇算法主要有三類:嵌入式(embedded)、過(guò)濾式(filter)和封裝式(wrapper)。嵌入式算法的思路是學(xué)習(xí)器自身自動(dòng)進(jìn)行選擇,雖然效果較好,但是對(duì)于參數(shù)的設(shè)置需要較高的知識(shí)背景;過(guò)濾式算法的思路是先對(duì)各特征的相關(guān)性或發(fā)散性進(jìn)行評(píng)估排序,根據(jù)設(shè)置的閾值來(lái)選擇。但是對(duì)特征之間的相關(guān)性難以評(píng)估,會(huì)造成部分有用信息的遺失;封裝式算法的思路是利用學(xué)習(xí)算法來(lái)評(píng)估特征的優(yōu)劣,相對(duì)于嵌入式算法與過(guò)濾式算法,雖然需要巨大的搜索空間,執(zhí)行時(shí)間稍長(zhǎng),但不需要過(guò)多的背景知識(shí),可直接面向算法優(yōu)化,并且特征間的組合效應(yīng)也得到了充分的挖掘。綜上,選擇封裝式算法來(lái)進(jìn)行特征選擇。
粒子群優(yōu)化(PSO, particle swarm optimization)[21]算法,具有易實(shí)現(xiàn)、結(jié)構(gòu)簡(jiǎn)單、沒(méi)有復(fù)雜變異交叉操作的優(yōu)點(diǎn),可運(yùn)用于特征選擇優(yōu)化問(wèn)題在。文獻(xiàn)[16]在證明PSO進(jìn)化過(guò)程與粒子速度無(wú)關(guān)后提出了簡(jiǎn)化版粒子群優(yōu)化(SPSO, simple particle swarm optimization)算法,去掉了速度選項(xiàng),SPSO的進(jìn)化公式為
xt+1id=ωxtid+c1r1(pid-xtid)+c2r2(pgd-xtid),
(7)
其中:xt+1id表示的是第t代第i個(gè)粒子的第d維分量;ω是慣性權(quán)重因子;c1和c2是學(xué)習(xí)因子常數(shù);r1和r2是隨機(jī)數(shù),服從U(0,1);pid表示第i個(gè)粒子個(gè)體極值的第d維,而pgd表示全局最優(yōu)解的第d維分量。
在粒子群算法中,慣性權(quán)重是重要的參數(shù)之一。其主要功能是平衡整個(gè)粒子群的全局搜索能力和局部搜索能力,從而顯著的提高算法的整體收斂速度。而在標(biāo)準(zhǔn)SPSO算法中,ω是固定的數(shù)值,無(wú)法改變。當(dāng)慣性權(quán)重較小時(shí),如果最優(yōu)解在初始搜索空間中,則粒子群算法可以快速找到全局最優(yōu)解,反之則無(wú)法正確找到。而慣性權(quán)值較大時(shí),粒子群算法更像是全局搜索算法,總會(huì)探索新的區(qū)域。這意味著需要更多的迭代來(lái)尋找全局最優(yōu),并且更有可能在找不到最優(yōu)解同時(shí)算法的時(shí)間復(fù)雜度也會(huì)增加。因此,ω應(yīng)該在算法的初期設(shè)置為較大值,在算法的后期設(shè)置為較小值。這樣設(shè)置的優(yōu)點(diǎn)在于:初始階段的全局尋優(yōu)能力會(huì)得到增強(qiáng),有利于避免局部最優(yōu);而在算法的后期,可增強(qiáng)算法在局部的搜索能力,同時(shí)提高算法收斂速度。因此,借鑒文獻(xiàn)[22]運(yùn)用的一種線性遞減動(dòng)態(tài)獲取慣性權(quán)重ω的方法,即
(8)
其中的參數(shù)取值為:ωini=0.9;ωend=0.4時(shí)效果較好。t=當(dāng)前迭代次數(shù),T=最大迭代次數(shù)。
特性選擇可看成0~1組合優(yōu)化問(wèn)題,Kennedy[23]等最早提出了二進(jìn)制粒子群優(yōu)化(BPSO, binary particle swarm optimization)算法將PSO算法擴(kuò)展到了離散二進(jìn)制空間,針對(duì)PSO在特征選擇應(yīng)用很多都是建立在BPSO的基礎(chǔ)上的,但其缺點(diǎn)是離散的PSO喪失了一些連續(xù)PSO的特性。在此情況下,選擇在特征選擇過(guò)程中,將特征選擇問(wèn)題轉(zhuǎn)換為一個(gè)向量,由(0,1)來(lái)表示。F=(fti1,fti2,…,ftid),ftid等于1時(shí),該維特征被選中,等于0時(shí),則未被選中。設(shè)定一個(gè)閾值δ來(lái)判斷是否被選中,如公式(9)所示
(9)
δ是隨機(jī)數(shù),取值范圍U(0.2,0.8)。根據(jù)公式(9)粒子的位置向量在連續(xù)空間域與離散問(wèn)題域中完成特征向量轉(zhuǎn)換。
在標(biāo)準(zhǔn)的PSO算法中,假設(shè)初始種群中存在先驗(yàn)近似最優(yōu)粒子,則可確定整體的搜索方向,這將大幅度地縮短WSPSO的進(jìn)化時(shí)間。所以,需要對(duì)數(shù)據(jù)預(yù)處理,得到特征的重要性。Brieman[24]提出了一種確定特征重要性的方法,其主要思想是:每次選擇特征時(shí),隨機(jī)替換特征的值,并記錄預(yù)測(cè)精度的變化,預(yù)測(cè)的準(zhǔn)確性越高說(shuō)明該特征的重要性越高。這里所提的特征重要性也就是對(duì)預(yù)測(cè)結(jié)果貢獻(xiàn)的百分比。因此可以得到占比最高的粒子,加入初始的種群。
給出基于封裝式特征選擇的WSPSO-SAMME.R-DT算法的具體步驟。其中DT代表基分類器決策樹。為了增加集成學(xué)習(xí)中基分類器間的多樣性,將隨機(jī)選擇決策樹中的最佳分割點(diǎn)。
算法2:WSPSO-SAMME.R-DT算法
輸入:訓(xùn)練集{(xi,yi)|i=1,2,…,n},最大迭代次數(shù)T,種群大小m。
1)初始化種群。依據(jù)特征重要性,選擇重要性最高的一個(gè)粒子作為初始粒子,剩余的m-1個(gè)粒子以隨機(jī)的方式生成。這m個(gè)粒子的各維分量都是U(0,1)的隨機(jī)數(shù),將所有粒子進(jìn)行組合,完成初始種群的構(gòu)建;
2)判斷是否滿足條件t≤Tandpg的適應(yīng)度小于1。若成立繼續(xù)下一步,不成立跳出循環(huán);
3)對(duì)于粒子i=1,2,…,m;
4)根據(jù)公式(9)將粒子xi轉(zhuǎn)化為特征向量,基于特征向量從訓(xùn)練集中選取訓(xùn)練子集。然后根據(jù)算法SAMME.R,訓(xùn)練出一個(gè)強(qiáng)分類器H;
5)根據(jù)強(qiáng)分類器H得到的預(yù)測(cè)結(jié)果,計(jì)算每對(duì)類別組合的AUC,然后按照公式(6)計(jì)算AUCarea,作為xi粒子的適應(yīng)度值;
6)根據(jù)得到的AUCarea的值來(lái)更新個(gè)體最優(yōu)pi和全局最優(yōu)pg;
7)根據(jù)公式(7)、(8)更新粒子位置;
8)根據(jù)公式(9)將pg轉(zhuǎn)化為特征向量;
輸出:最優(yōu)特征子集、強(qiáng)分類器H。
實(shí)驗(yàn)機(jī)器配置為:Window7,內(nèi)存6 GB,CPU2.50 GHz,算法基于Python3.6.2實(shí)現(xiàn)。實(shí)驗(yàn)所用的10組數(shù)據(jù)集來(lái)自KEEL官網(wǎng)與UCI數(shù)據(jù)集,數(shù)據(jù)都源于實(shí)際中的應(yīng)用領(lǐng)域,表1給出具體信息。不均衡比IR(imbalance ratio)是最大多數(shù)類別的樣本數(shù)與最小少數(shù)類別的樣本數(shù)之比。學(xué)習(xí)因子c1=c2=2,經(jīng)實(shí)驗(yàn)顯示,種群粒子數(shù)m=100時(shí)效果最佳,初始設(shè)置迭代次數(shù)T為300次,圖2給出了每代最優(yōu)個(gè)體適應(yīng)度值的曲線,隨著迭代次數(shù)增加,可以看出迭代次數(shù)T=50時(shí)個(gè)體適應(yīng)度值已趨于穩(wěn)定,所以最終選擇的迭代次數(shù)為T=50。
圖2 最優(yōu)個(gè)體適應(yīng)度值的曲線Fig.2 Curve of optimal individual fitness value
實(shí)驗(yàn)結(jié)果利用AUCarea以及另一個(gè)被廣泛應(yīng)用的不平衡分類指標(biāo)GM(G-Mean)[25]對(duì)算法進(jìn)行評(píng)價(jià)。GM定義如下
(10)
其中TP,FP,FN,TN分別表示:小類正確分類的數(shù)量,預(yù)測(cè)為小類但是真實(shí)為大類,預(yù)測(cè)為大類但是真實(shí)為小類,大類正確分類的數(shù)量。
表1 數(shù)據(jù)集信息
文獻(xiàn)[6][7][15]各自提出了PUSBE、CS-MCS、BAK算法,與提出的WSPSO-SAMME.R-DT進(jìn)行對(duì)比。采取一對(duì)一方法將PUSBE和CS-MCS擴(kuò)充到多分類問(wèn)題上,結(jié)果見(jiàn)表2、3。
表2 4種算法的AUCarea值對(duì)比
表3 四種算法的GM值對(duì)比
根據(jù)表2與表3可以得到如下結(jié)論:提出的算法WSPSO-SAMME.R-DT總體性能略優(yōu)于要其他3種算法,尤其是在New_thyroid、Wine與Zoo數(shù)據(jù)集上,AUCarea與GM的值都達(dá)到了100%。除了Contraceptive數(shù)據(jù)集外,在其他數(shù)據(jù)集上,WSPSO-SAMME.R-DT也略好于其他3種算法。其中CS-MCS在AUCarea上的平均值為0.832,比PUSBE的平均值低了2.1%;比BAK的平均值低了5.6%;比提出的WSPSO-SAMME.R-DT的平均值低了10.3%。而在GM值上CS-MCS的平均值為0.875,比PUSBE的平均值低了2.8%;比BAK的平均值低了2.4%;比提出的WSPSO-SAMME.R-DT的平均值低了5.3%。由此可看出算法總體性能相對(duì)較差,這是因?yàn)镃S-MCS算法并沒(méi)有跟其他3種算法一樣采用特征選擇技術(shù),這也證明了特征選擇可有效的應(yīng)用于不均衡多分類的問(wèn)題。
為了更直觀的對(duì)比4種算法的分類效果,圖3給出了4種算法AUCarea值的部分polar圖。根據(jù)圖3所示,圖中紅色虛線代表PUSBE;藍(lán)色虛線代表CS-MCS;黃色虛線代表BAK;青色虛線代表WSPSO-SAMME.R-DT。他們所圍成的面積就是其對(duì)應(yīng)的AUCarea的值。從圖中可以看出WSPSO-SAMME.R-DT在Hayes-Roth與Balance數(shù)據(jù)集中面積最大,意味著在這兩種數(shù)據(jù)集下,WSPSO-SAMME.R-DT優(yōu)于其他3種算法,在Dermatology算法中排名第二,但是與該數(shù)據(jù)集下的最優(yōu)算法PUSBE所產(chǎn)生的面積相差不多。
圖3 4種算法的AUCarea極坐標(biāo)圖示比較Fig.3 Comparison of AUCarea polar coordinates of four algorithms
結(jié)合特征選擇與集成學(xué)習(xí)方法提出了WSPSO-SAMME.R-DT算法,在10組不均衡數(shù)據(jù)集上對(duì)本算法進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。WSPSO-SAMME.R-DT使用了WSPSO算法并且以AUCarea作為適應(yīng)度值,來(lái)優(yōu)化特征選擇。其中,AUCarea具可視化的優(yōu)點(diǎn),并且對(duì)較差的AUC值更加敏感。筆者并沒(méi)有采用采樣技術(shù)對(duì)初始數(shù)據(jù)集進(jìn)行數(shù)據(jù)層面的改進(jìn),避免了丟失重要信息、引入噪聲等情況。WSPSO-SAMME.R-DT可直接應(yīng)用于多分類算法且并不需要進(jìn)行拓展。