王玲娣,徐 華
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
集成學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)的熱點研究方向之一,和傳統(tǒng)單個分類器的構(gòu)造目的不同,它并非力求得到單一最優(yōu)分類器,而是按照一定策略集成一組個體分類器。在兩種經(jīng)典的集成算法:Boosting[1]和Bagging[2]被提出之后,研究者又陸續(xù)提出了大量的集成學(xué)習(xí)算法。其中Boosting算法可將粗糙的、不太正確的、簡單的初級預(yù)測方法,按照一定的規(guī)則構(gòu)造出一個復(fù)雜的,精確度很高的預(yù)測方法,但是很難運用于實際中;AdaBoost[3]的出現(xiàn)有效地解決了這一問題,因此AdaBoost成為了Boosting家族的代表算法,受到極大的關(guān)注,成功應(yīng)用于聲音文件檢索[4]、人臉識別[5]、癌癥診斷[6]及目標(biāo)檢測[7-8]等實際問題中。
集成學(xué)習(xí)主要有兩個階段:一是基分類器的生成;二是組合策略的選擇。將相同的基分類器進(jìn)行集成是無意義的,因為組合而成的分類器與基分類器的分類結(jié)果必然相同。所以基分類器之間要存在差異,即分類器多樣性。Krogh等[9]證明,集成的泛化誤差是由個體分類器的平均泛化誤差和平均差異度決定的。雖然目前已存在多種多樣性度量方式,但是關(guān)于它的嚴(yán)格定義并不統(tǒng)一[10-11],只是可以從大量研究資料中獲知,多樣性有益于集成方法的設(shè)計,如:2012年,文獻(xiàn)[12]使用遺傳算法組合不同的多樣性用于選擇性集成;而文獻(xiàn)[13]于2014年通過向量空間模型形象地論證了多樣性的有效性;2015年文獻(xiàn)[14]明確提到多樣性是集成學(xué)習(xí)成功的重要條件;文獻(xiàn)[15]在2016年研究了很可能接近正確的(Probably Approximately Correct, PAC)學(xué)習(xí)框架下多樣性對基于投票組合策略的集成方法泛化能力的影響。多樣性對于AdaBoost來說同樣重要,文獻(xiàn)[16]提出一種基于隨機(jī)子空間和AdaBoost自適應(yīng)集成方法,將隨機(jī)子空間融合到AdaBoost的訓(xùn)練過程中,目的就是增加AdaBoost的多樣性。文獻(xiàn)[17]詳細(xì)總結(jié)了AdaBoost的發(fā)展,并指出它的進(jìn)一步研究方向之一是其弱分類器的多樣性研究,因為有關(guān)分類器多樣性的研究,有效結(jié)論太少,有待深入與完善。也有文獻(xiàn)[18]研究了多樣性度量在AdaBoost.M2算法下的變化,得到一些規(guī)律,但如何使用這些規(guī)律以及最終能否提高集成性能,并沒給出答案。
針對上述問題,本文研究了4種成對型多樣性度量在AdaBoost算法下的變化;并利用皮爾遜相關(guān)系數(shù)定量分析多樣性度量和分類性能之間的關(guān)系,發(fā)現(xiàn)雙誤度量(Double Fault, DF)變化模式固定——先增加后平緩;進(jìn)一步,提出了一種基于DF改進(jìn)的AdaBoost算法。結(jié)果表明改進(jìn)后的算法可以抑制AdaBoost的過適應(yīng)現(xiàn)象,降低錯誤率。
關(guān)于成對多樣性的研究主要集中在以下3個方面:1)多樣性的度量方法;2)多樣性度量與集成學(xué)習(xí)精度的關(guān)系;3)如何利用多樣性度量更好地選擇分類器來構(gòu)建集成系統(tǒng),以提高集成學(xué)習(xí)的性能。本文按照上述思路,先介紹4個成對型多樣性度量方法,然后研究這四種多樣性度量與AdaBoost產(chǎn)生的分類器精度有怎樣的關(guān)系,最后利用DF改進(jìn)AdaBoost算法。
成對型多樣性度量是定義在兩個分類器上的,假設(shè)分類器集合H={h1,h2,…,hm},hi和hj(i≠j)為兩個不同的分類器,它們對同一組樣本分類情況組合如表1所示,其中樣本總數(shù)為n。表1中,n11(n00) 代表被hi和hj共同正確(錯誤)分類的樣本數(shù),n10代表被hi正確分類、hj錯誤分類的樣本數(shù),n01代表被hi錯誤分類、hj正確分類的樣本數(shù),并且它們滿足式(1):
n11+n00+n10+n01=n
(1)
表1 兩個分類器的分類結(jié)果組合Tab. 1 Result combination of two classifiers
下面將分別介紹4種成對型多樣性度量。
1)Q統(tǒng)計。
Q統(tǒng)計(Q-statistics, Q)[19]源于統(tǒng)計學(xué),它的計算公式如下:
(2)
由式(2)可知Q的取值范圍是[-1,1]。當(dāng)兩個分類器的分類結(jié)果趨于一致時,Q值為正,否則為負(fù),完全相同時為1,完全不同時為-1。
2)相關(guān)系數(shù)。
相關(guān)系數(shù)(Correlation coefficient,ρ)[20]源于統(tǒng)計學(xué),ρ的取值范圍為[-1,1],計算公式如下:
(3)
3)不一致度量。
不一致度量(Disagreement Measure, DM)[21]衡量的是兩個分類器分類結(jié)果不一致的程度,它的值越大,表明兩個分類器的多樣性越大,取值范圍為[0,1],計算公式如下所示:
DMi, j=(n10+n01)/n
(4)
4)雙誤度量。
雙誤度量(DF)[22]關(guān)注的是兩個分類器在相同樣本上出錯的情況,取值范圍[0,1],最差的情況是兩個分類器錯誤率都是100%,此時DF的值為1,分類器的正確性與多樣性同時降到最低。計算公式如下:
DFi, j=n00/n
(5)
(6)
能否使用多個弱分類器來構(gòu)建一個強(qiáng)分類器?這是一個有趣的理論問題?!叭酢币馕吨诸惼鞯男阅軆H僅比隨機(jī)猜測略好,而“強(qiáng)”則表明分類器表現(xiàn)不錯。AdaBoost即脫胎于上述理論問題。AdaBoost算法是一個迭代過程,原理是:算法運行過程中會給訓(xùn)練樣本賦予權(quán)重,一開始,初始化成相等值,然后根據(jù)弱分類器學(xué)習(xí)算法訓(xùn)練第一個弱分類器,接著根據(jù)該分類器的加權(quán)誤差更新樣本權(quán)重,降低被正確分類的樣本權(quán)重,提高被錯誤分類的樣本權(quán)重?;谛碌臉颖緳?quán)重分布,繼續(xù)訓(xùn)練弱分類器。如此往復(fù),便可得到一組弱分類器,每個弱分類器也有一個權(quán)重,代表它在最后集成中的重要性。
下面將具體介紹樣本權(quán)重的更新過程。
對于二分類問題,令S={(xi,yi)|i=1,2,…,n}表示訓(xùn)練樣本集,其中yi∈{-1,1}代表樣本標(biāo)簽。Dt表示第t輪迭代的樣本分布矢量,初始化時,D1={1/n,1/n,…,1/n}。在AdaBoost算法中,基分類器ht的重要性和它在樣本權(quán)重分布上的錯誤率εt相關(guān),也被稱為加權(quán)誤差,定義如下:
(7)
(8)
接下來,根據(jù)αt來更新樣本(xi,yi)權(quán)重,見式(9):
Dt+1(i)=(Dt(i)exp(-yiht(xi)αt))/Zt
(9)
(10)
由上述可知,在AdaBoost的訓(xùn)練過程中,分類器的重心將被轉(zhuǎn)移到比較難分類的樣本上,這也是AdaBoost可以將“弱”變“強(qiáng)”的原因,但是如果訓(xùn)練樣本中存在大量的噪聲或者樣本數(shù)據(jù)錯誤,就會出現(xiàn)過適應(yīng)現(xiàn)象。因為這些噪聲或錯誤點是難分類點,隨著迭代的進(jìn)行,它們的權(quán)值會呈指數(shù)增長,在這樣的樣本權(quán)重分布下,訓(xùn)練產(chǎn)生的弱分類器的錯誤率相對增大,從而它們在最后的加權(quán)組合中作用變得非常小。而且由于歸一化,已經(jīng)被正確分類的樣本在過適應(yīng)的情況下,權(quán)重變得非常小,可能會出現(xiàn)被忽視的情況,那些被迭代前期產(chǎn)生的弱分類器正確分類的樣本,很有可能在最后組合分類器判斷下的結(jié)果是錯誤的,最終導(dǎo)致退化,影響集成性能。所以,在迭代后期,要控制弱分類器對困難樣本的關(guān)注,避免樣本分布扭曲。
針對上述問題,本文提出基于DF改進(jìn)的AdaBoost算法,通過改進(jìn)弱分類器選擇策略,控制弱分類器之間的DF值,來避免對困難樣本的過分關(guān)注。
AdaBoost算法使用單層決策樹訓(xùn)練弱分類器,它的一個最基本理論上的性質(zhì)是可以降低訓(xùn)練誤差,Schapire等[3]給出了AdaBoost訓(xùn)練誤差的上界,見式(11):
(11)
(12)
但是AdaBoost算法并沒有考慮這種情況:候選的弱分類器集合中有兩個或者多個弱分類器的加權(quán)誤差相同(或者是相差很小),但是這些弱分類器與已經(jīng)加入集成的弱分類器間的差異性有所不同,而最終選擇的弱分類器的多樣性不是最好的,這樣就會影響集成泛化能力;而且AdaBoost會出現(xiàn)過適應(yīng)就是因為對于某些樣本過于集中關(guān)注,當(dāng)增加了分類器間的多樣性,就可以適度分散這種集中關(guān)注度。因此,需要在選擇弱分類器的時候,加入多樣性的判斷。首先分析相關(guān)系數(shù)ρ,由式(3)可知,當(dāng)兩個基分類器的分類結(jié)果趨向不同時,ρ值為負(fù),即n10n01>n11n00,當(dāng)增大n10n01時,n11n00相應(yīng)地降低,但無法保證降低的是n00,從而無法保證平均分類精度,這意味著ρ與集成的分類性能關(guān)聯(lián)并不緊密,同時它的計算公式相對于其他三個多樣性度量公式最為復(fù)雜。Q統(tǒng)計與ρ計算公式的分子相同,可以把Q統(tǒng)計看作是ρ的一種簡化運算,因此Q存在著與ρ相同的問題。接下來分析不一致度量DM,由式(4)可知,DM越大,基分類器間的多樣性越大,但同時平均精度也越低。增加多樣性的目的是為了進(jìn)一步提高集成算法的分類精度,所以這三種多樣性度量從理論上分析都是不適合AdaBoost的。本文提出一種基于DF改進(jìn)的弱分類器選擇策略,如下所示:
(13)
其中:w1+w2=1,分別代表加權(quán)誤差與DF值在選擇策略中的比重;DFt-1,t表示候選弱分類器與上一輪迭代中已被選中弱分類器之間的DF度量值。由式(5)可知,DF變小,表示n00減少了,相對的n11+n01+n10就會增加。若增加的是n11,那么表明集成分類器的正確率提高了,若增加的是n10+n01,則表明基分類器間的差異性增大,集成多樣性提高了。對AdaBoost來說,DF變小意味著兩個弱分類器共同錯分的樣本數(shù)少了,它們各自有自己關(guān)注的困難樣本,就不會對某些樣本過于集中關(guān)注,避免某些樣本的權(quán)值過大,進(jìn)而抑制過適應(yīng)。
關(guān)于w1、w2的取值,在AdaBoost過程中不是固定不變的,而是根據(jù)AdaBoost的訓(xùn)練情況動態(tài)調(diào)整。w2為已經(jīng)加入集成的前t-1個弱分類器間的平均DF值,根據(jù)式(6)可得:
(14)
w1=1-w2
(15)
根據(jù)式(13)和(14)可知,若是迭代中的整體平均DF值有增大的趨勢,就會相應(yīng)地增加DFt-1,t在選擇標(biāo)準(zhǔn)中比重,控制對共同錯分樣本過分關(guān)注,從而達(dá)到抑制過適應(yīng)的目的,否則,加權(quán)誤差依然是選擇標(biāo)準(zhǔn)中的重要因素。這樣就能在弱分類器增加多樣性的同時保證其準(zhǔn)確性。式(11)已經(jīng)說明了AdaBoost最終模型的訓(xùn)練集誤差是有上界的,這表明該算法理論上可以收斂到誤差邊界;而修改后算法并沒有破壞AdaBoost算法框架,依然按照原來貪心策略進(jìn)行迭代,這一點保證了算法的可收斂性。
根據(jù)單層決策樹算法訓(xùn)練出的弱分類器的函數(shù)表達(dá)式如下:
(16)
其中:b∈{-1,1}是一個指示不等號方向的參數(shù),θ是特征閾值。假設(shè)訓(xùn)練樣本按照第j維特征值升序排列,使得x1, j≤x2, j≤…≤xm, j,則θ的取值范圍如下:
Θj={x1, j-1,xm, j+1}∪
(17)
則基于DF的弱分類器算法(Weak Learning algorithm based on Double Fault, WLDF)如下:
WLDF算法。
輸入:訓(xùn)練集S,樣本分布Dt。
初始化:EDFmin=+∞,h*=null
1)
根據(jù)式(14)和(15)計算出w1和w2
2)
for 樣本的每一特征j:
3)
由式(17)計算θ取值范圍Θj
4)
for 每一個閾值θ∈Θj:
5)
for 不等號b∈{-1,1}:
6)
訓(xùn)練出一個弱分類器ht
7)
計算EDF=w1εt+w2DFt-1,t
8)
ifEDF 9) EDFmin=EDF 10) h*=ht 11) end for 12) end for 13) end for 輸出:h*。 實驗分為實驗一和實驗二。實驗一研究Q、ρ、DM、DF四種多樣性度量在AdaBoost算法迭代過程中的變化規(guī)律及其與集成泛化能力的相關(guān)性,實驗二驗證WLDF算法的有效性。實驗機(jī)器配置為:Windows 10,內(nèi)存4 GB,CPU 3.2 GHz,算法基于Python 2.7實現(xiàn)。實驗數(shù)據(jù)來自UCI(University of CaliforniaIrvine Irvine)數(shù)據(jù)庫(http://archive.ics.uci.edu/ml/datas-ets.html),具體信息見表2。 表2 實驗數(shù)據(jù)集信息Tab. 2 Information of data sets 為充分使用數(shù)據(jù),實驗一采用10折交叉驗證,實驗結(jié)果如圖1所示。圖1分別呈現(xiàn)了6個數(shù)據(jù)集的多樣性度量變化與測試誤差變化。圖1(a)~(d)4個子圖分別呈現(xiàn)了ρ、Q、DM、DF的變化情況,其中縱坐標(biāo)是多樣性度量值,橫坐標(biāo)是迭代次數(shù)(也是基分類器數(shù)目),10次實驗的每一次結(jié)果畫一條實線表示,以此觀察10次結(jié)果的變化規(guī)律是否相同。子圖(e)中縱坐標(biāo)是10次實驗結(jié)果的平均測試誤差。 首先,整體觀察圖1,可以看到四種多樣性度量都在弱分類器數(shù)目增加到一定程度時,趨近一個值。觀察圖1中German、Heart、Pima以及Sonar數(shù)據(jù)集的實驗結(jié)果,子圖(a)~(d)中前階段的線條很亂,這表明10次實驗結(jié)果差別大,這時觀察相應(yīng)的子圖(e),測試誤差的變化很激烈,雖然總體方向是下降,但是曲線波動很大。而當(dāng)多樣性度量平穩(wěn)變化時,見圖1中Balance和Chess數(shù)據(jù)集的實驗結(jié)果,四種多樣性度量的10次結(jié)果幾乎在一條線上,而再看測試誤差變化,幾乎沒有波動,持續(xù)下降。這樣定性看來,多樣性與組合分類器精度之間有一定的關(guān)聯(lián)。 圖1 6個數(shù)據(jù)集上的實驗結(jié)果 Fig. 1 Experimental results on six data sets 然后,單獨看圖1的子圖(d),這是DF的變化曲線,每條曲線的變化都是相同的模式,先單調(diào)遞增后不變,而ρ、Q、DM在不同的數(shù)據(jù)集上變化有所區(qū)別。根據(jù)DF的計算公式,可以知道,它統(tǒng)計的是共同錯分的樣本占總數(shù)的比例,而AdaBoost算法特點是關(guān)注難分的樣本,隨著迭代的進(jìn)行,可以看到DF的值基本保持不變,說明AdaBoost算法的關(guān)注點確實集中到了這些共同錯分的樣本上。DF也能對組合分類器的精確度有所反映,它最后趨近的值越大,組合分類器的精度就相對越差。 通過觀察圖1,已經(jīng)對多樣性與分類精度之間的關(guān)系有了初步的直觀認(rèn)識,為了進(jìn)行更客觀地比較,采用定量分析的方法,利用皮爾遜相關(guān)系數(shù)公式如(18)所示,計算多樣性度量與測試誤差的相關(guān)性,結(jié)果見表3。式(18)中,x、y表示兩個變量,E(x)表示x的數(shù)學(xué)期望。 (18) 表3 多樣性度量與測試誤差之間的皮爾遜相關(guān)系數(shù)值Tab. 3 Pearson correlation coefficient between diversity measurement and test error 分析表3可知,在Balance、Chess、German、Sonar、Pima數(shù)據(jù)集上,DF與測試誤差之間的相關(guān)性均高于其他三種多樣性度量;在Heart 上四種多樣性度量與測試誤差之間都是極弱相關(guān)??偟膩碚f,DF與測試誤差之間的相關(guān)性最高。 實驗二中,使用WLDF作為AdaBoost的弱學(xué)習(xí)算法記為WLDF_Ada。為驗證WLDF_Ada的有效性,實驗采用10折交叉驗證法,比較WLDF_Ada與AdaBoost、Bagging、隨機(jī)森林(Random Forest, RF)以及文獻(xiàn)[16]提出的R_Ada方法的10次平均測試誤差,基分類器數(shù)目均為50。其中,Ada.、Bag、RF來自python機(jī)器學(xué)習(xí)工具箱sicikt-learn(http://scikit-learn.org/stable/index.html)。 表4 四種算法測試誤差對比Tab. 4 Comparison of test errors of four algorithms 分析表4可知:在Balance數(shù)據(jù)集上,R_Ada取得最小測試誤差,WLDF_Ada與AdaBoost次之,三者表現(xiàn)優(yōu)于Bagging、RF;在Chess數(shù)據(jù)集上Bagging和RF優(yōu)于其他三種AdaBoost算法。分析發(fā)現(xiàn)這是因為Chess數(shù)據(jù)屬性之間存在強(qiáng)烈的相互影響,需要增加決策樹的深度來改善分類性能,而本文實驗中AdaBoost算法是以單層決策樹作為弱分類器,Bagging和RF則對基分類器決策樹的深度沒有限制。在German數(shù)據(jù)集上,WLDF_Ada的測試誤差比Bagging、RF、AdaBoost、R_Ada分別低1.05%、0.44%、2.55%,0.05%。類似地在Heart、Pima以及Sonar數(shù)據(jù)集上WLDF_Ada的測試誤差比Bagging、RF、AdaBoost、R_Ada分別低了0.3%、0.74%、4.81%、3.14%;1.51%、1.14%、1.44%、1.08%以及2.57%、0.92%、2.22%、0.29%。除了在Chess和Balance數(shù)據(jù)集上,WLDF_Ada算法的表現(xiàn)均優(yōu)于其他四種算法。單獨比較WLDF_Ada與AdaBoost,除了在Balance數(shù)據(jù)集上,WLDF_Ada均比AdaBoost有不同程度上的性能提升。 多樣性是影響集成學(xué)習(xí)的重要因素,合適的多樣性度量可以指導(dǎo)基分類器的選擇以及組合。本文研究了4種成對型多樣性度量與AdaBoost算法表現(xiàn)之間的關(guān)系,實驗一的結(jié)果表明隨著迭代的進(jìn)行,4種多樣性度量值都趨于一個穩(wěn)定的值,其中DF的變化模式固定。另外針對AdaBoost的過適應(yīng)問題,本文改進(jìn)了傳統(tǒng)AdaBoost弱分類器的選擇策略,提出了弱分類器學(xué)習(xí)算法WLDF,實驗二結(jié)果表明WLDF算法可以抑制對困難樣本的過分關(guān)注,增加分類器間的多樣性,改善AdaBoost的分類性能。DF與AdaBoost算法的分類精度在一些數(shù)據(jù)集上關(guān)聯(lián)并不緊密,下一步可以嘗試根據(jù)樣本權(quán)值以及弱分類器的權(quán)重,設(shè)計一個更合適AdaBoost算法的多樣性度量方法。 參考文獻(xiàn)(References) [1] SCHAPIRE R E. The strength of weak learnability [J]. Machine Learning, 1990, 5(2): 197-227. [2] BREIMAN L. Bagging predictors [J]. Machine Learning, 1996, 24(2): 123-140. [3] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336. [4] MORENO P J, LOGAN B, RAJ B. A boosting approach for confidence scoring [EB/OL]. [2017- 03- 06]. http://www.mirrorservice.org/sites/www.bitsavers.org/pdf/dec/tech_reports/CRL-2001-8.pdf. [5] 廖廣軍,李致富,劉嶼,等.基于深度信息的弱光條件下人臉檢測[J].控制與決策,2014,29(10):1866-1870.(LIAO G J, LI Z F, LIU Y, et al. Human face detection under weak light based on depth information [J]. Control and Decision, 2014, 29(10): 1866-1870.) [6] PIAO Y, PIAO M, RYU K H. Multiclass cancer classification using a feature subset-based ensemble from microRNA expression profiles [J]. Computers in Biology & Medicine, 2017, 80: 39-44. [7] KIM B, YU S C. Imaging sonar based real-time underwater object detection utilizing AdaBoost method [C]// UT 2017: Proceedings of the 2017 IEEE Underwater Technology. Piscataway, NJ: IEEE, 2017: 1-5. [8] 李文輝,倪洪印.一種改進(jìn)的AdaBoost訓(xùn)練算法[J].吉林大學(xué)學(xué)報(理學(xué)版),2011,49(3):498-504.(LI W H, NI H Y. An improved AdaBoost training algorithm [J]. Journal of Jilin University (Science Edition), 2011, 49(3): 498-504.) [9] KROGH B A, VEDELSBY J. Neural network ensembles, cross validation, and active learning [J]. Advances in Neural Information Processing Systems, 1994, 7(10): 231-238. [10] KUNCHEVA L I. That elusive diversity in classifier ensembles [C]// Proceedings of the 1st Iberian Conference on Pattern Recognition and Image Analysis, LNCS 2652. Berlin: Springer, 2003: 1126-1138. [11] 孫博,王建東,陳海燕,等.集成學(xué)習(xí)中的多樣性度量[J].控制與決策,2014,29(3):385-395.(SUN B, WANG J D, CHEN H Y, et al. Diversity measures in ensemble learning [J]. Control and Decision, 2014, 29(3): 385-395.) [12] CAVALCANTI G D C, OLIVEIRA L S, MOURA T J M, et al. Combining diversity measures for ensemble pruning [J]. Pattern Recognition Letters, 2016, 74(C):38-45. [13] 楊春,殷緒成, 郝紅衛(wèi),等.基于差異性的分類器集成:有效性分析及優(yōu)化集成[J].自動化學(xué)報,2014, 40(4):660-674.(YANG C, YIN X C, HAO H W, et al. Classifier ensemble with diversity: effectiveness analysis and ensemble optimization [J]. Acta Automatica Sinica, 2014, 40(4): 660-674.) [14] PARVIN H, MIRNABIBABOLI M, ALINEJAD-ROKNY H. Proposing a classifier ensemble framework based on classifier selection and decision tree [J]. Engineering Applications of Artificial Intelligence, 2015, 37: 34-42. [15] LI N, YU Y, ZHOU Z H. Diversity regularized ensemble pruning [C]// Proceedings of the 2012 Joint European Conference on Machine Learning and Knowledge Discovery in Databases, LNCS 7523. Berlin: Springer, 2012: 330-345. [16] 姚旭,王曉丹,張玉璽,等.基于隨機(jī)子空間和AdaBoost的自適應(yīng)集成方法[J].電子學(xué)報,2013,41(4):810-814.(YAO X, WANG X D, ZHANG Y X, et al. A self-adaption ensemble algorithm based on random subspace and AdaBoost [J]. Acta Electronica Sinica, 2013, 41(4):810-814.) [17] 曹瑩,苗啟廣,劉家辰,等.AdaBoost算法研究進(jìn)展與展望[J].自動化學(xué)報,2013,39(6): 745-758.(CAO Y, MIAO Q G, LIU J C, et al. Advance and prospects of AdaBoost algorithm [J]. Acta Automatica Sinica, 2013, 39(6): 745-758.) [18] MEDDOURI N, KHOUFI H, MADDOURI M S. Diversity analysis on boosting nominal concepts [C]// Proceedings of the 2012 Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNCS 7301. Berlin: Springer, 2012: 306-317. [19] YULE G U. On the association of attributes in statistics: with illustrations from the material of the childhood society, &c [J]. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, 1900, 194(252/253/254/255/256/257/258/259/260/261): 257-319. [20] KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy [J]. Machine Learning, 2003, 51(2): 181-207. [21] SKALAK D B. The sources of increased accuracy for two proposed boosting algorithms [C]// AAAI ’96: Proceedings of the Workshop on Integrating Multiple Learned Models for Improving and Scaling Machine Learning Algorithms. Menlo Park, CA: AAAI Press, 1996: 120-125. [22] GIACINTO G, ROLI F. Design of effective neural network ensembles for image classification purposes [J]. Image and Vision Computing, 2001, 19(9/10): 699-707. This work is partially supported by the National Natural Science Foundation of Jiangsu Province (BK20140165). WANGLingdi, born in 1991, M.S.candidate. Her research interests include machine learning, data mining. XUHua, born in 1978, Ph.D., associate professor. Her research interests include computer intelligence, workshop scheduling, large data.4 實驗
4.1 實驗一的結(jié)果及分析
4.2 實驗二的結(jié)果及分析
5 結(jié)語