不平衡超限學(xué)習(xí)機(jī)的全局懲罰參數(shù)選擇方法

2017-10-17 12:35:59柯海豐盧誠(chéng)波徐卉慧

哈爾濱工程大學(xué)學(xué)報(bào) 2017年9期

柯海豐，盧誠(chéng)波，徐卉慧

(1. 浙江大學(xué)城市學(xué)院計(jì)算機(jī)系，浙江杭州 310015； 2.麗水學(xué)院工學(xué)院，浙江麗水 323000； 3.太平洋大學(xué) 工程與計(jì)算機(jī)科學(xué)學(xué)院，加利福尼亞斯托克頓 95211)

柯海豐1，盧誠(chéng)波2，徐卉慧3

超限學(xué)習(xí)機(jī)在對(duì)不平衡數(shù)據(jù)集進(jìn)行學(xué)習(xí)和分類時(shí)，正類樣本容易被錯(cuò)分。而加權(quán)超限學(xué)習(xí)機(jī)只考慮了數(shù)據(jù)集類之間的不平衡，忽視了樣本類內(nèi)的不平衡的現(xiàn)象。本文闡述了超限學(xué)習(xí)機(jī)在不平衡數(shù)據(jù)集上分類效果欠佳的原因，提出了根據(jù)數(shù)據(jù)集選取懲罰參數(shù)的方法，采用將類間的懲罰參數(shù)與類內(nèi)的懲罰參數(shù)相結(jié)合的方法，形成全局懲罰參數(shù)，即將類懲罰參數(shù)進(jìn)一步精確到樣本個(gè)體懲罰參數(shù)。結(jié)果表明：這種方法實(shí)現(xiàn)起來(lái)簡(jiǎn)單方便，與其他類型的超限學(xué)習(xí)機(jī)相比較，這種全局懲罰參數(shù)的選擇方法在提高分類準(zhǔn)確率方面能夠取得更好的效果。

數(shù)據(jù)挖掘；不平衡數(shù)據(jù)集；單隱層前饋神經(jīng)網(wǎng)絡(luò)；超限學(xué)習(xí)機(jī)；加權(quán)超限學(xué)習(xí)機(jī)；全局懲罰參數(shù)；分類器

Abstract：Conventional extreme learning machines (ELMs) usually perform poorly in learning and classifying imbalanced datasets, because positive samples are likely to be misclassified. However, weighted extreme learning machine only considered between- class imbalance but ignored within- class imbalance. This paper explained why ELMs failed, and proposed a direct method to determine the penalty parameter, we considered both of the two kinds of imbalance, combine the between- class cost parameter with within- class cost parameter to form global penalty parameter, that was, class penalty parameterwas refined further to single sample cost parameter. Theory analysis and simulation experiments showed that the global penalty parameter selection for extreme learning machine is convenient in implementation, and performed better in improving the classification accuracy than some other types of extreme learning machine.

Keywords：data mining; imbalanced data set; single hidden layer feedforward networks; extreme learning machine;weighted extreme learning machine; global penalty parameter; classifier

不平衡現(xiàn)象廣泛存在于現(xiàn)實(shí)世界中，例如，癌癥診斷、惡意騷擾電話識(shí)別、信用卡欺詐等問(wèn)題都是不平衡數(shù)據(jù)集[1-3]。大多數(shù)分類模型和學(xué)習(xí)算法都假設(shè)樣本分布均衡，可實(shí)際數(shù)據(jù)集往往是不平衡的。不平衡數(shù)據(jù)集的主要特征是類間樣本數(shù)不相等。在二分類問(wèn)題中，人們通常把樣本數(shù)較多的類稱為負(fù)類(多數(shù)類)，較少的類稱為正類(少數(shù)類)。近年，不平衡學(xué)習(xí)問(wèn)題得到了學(xué)術(shù)界、工業(yè)界和基金機(jī)構(gòu)的廣泛關(guān)注。2000年美國(guó)人工智能協(xié)會(huì)(the association for the advance of artificial intelligence，AAAI)舉辦了第一屆不平衡數(shù)據(jù)集研討會(huì)，主要關(guān)注了在類不平衡的情形下，如何評(píng)估學(xué)習(xí)算法，以及類不平衡和代價(jià)敏感學(xué)習(xí)的關(guān)系這兩個(gè)主題[4]。此后，基本上每隔一兩年就會(huì)召開一次關(guān)于不平衡學(xué)習(xí)的專題研討會(huì)，討論不平衡學(xué)習(xí)的最新研究成果[5-7]。

目前，不平衡學(xué)習(xí)的研究主要集中在數(shù)據(jù)層面與算法層面。數(shù)據(jù)層面上的研究通常是對(duì)訓(xùn)練集進(jìn)行重構(gòu)，包括過(guò)采樣和欠采樣。過(guò)采樣的目的是通過(guò)增加正類樣本數(shù)量，從而平衡類別分布。欠采樣的目的與之相同，但是通過(guò)剔除訓(xùn)練集中的負(fù)類樣本以達(dá)到平衡分布。兩種采樣方法各有優(yōu)缺點(diǎn)[8-10]。非隨機(jī)過(guò)采樣一般是人為增加正類樣本，其中具有代表性的方法是Chawla等提出的正類樣本合成過(guò)采樣技術(shù)(synthetic minority over- sampling technique, SMOTE)，SMOTE通過(guò)內(nèi)插的方式合成正類樣本[11]。比較常用非隨機(jī)欠采樣技術(shù)有Tomeklinks[12]、編輯技術(shù)[13]、單邊選擇等[14]。除了數(shù)據(jù)層面上的研究，模型和算法層面的研究也是處理類別不平衡問(wèn)題的重要方法。比較常用的有代價(jià)敏感學(xué)習(xí)[15]，單類分類器方法[16]等。

文獻(xiàn)[17]利用代價(jià)敏感學(xué)習(xí)的思想提出了加權(quán)超限學(xué)習(xí)機(jī)(weighted extreme learning machine, WELM)，加權(quán)超限學(xué)習(xí)機(jī)作為標(biāo)準(zhǔn)超限學(xué)習(xí)機(jī)(extreme learning machine, ELM)的改進(jìn)模型，在訓(xùn)練過(guò)程中使用不同的類懲罰參數(shù)對(duì)樣本的類別差異所造成的影響進(jìn)行相應(yīng)的補(bǔ)償以提高分類效果。但加權(quán)超限學(xué)習(xí)機(jī)只考慮了數(shù)據(jù)集的類間不平衡，而沒(méi)有考慮類內(nèi)的不平衡，實(shí)際上，類內(nèi)的不平衡對(duì)分類性能的影響也很大[18]。 Boosting 算法雖然對(duì)樣本賦予了獨(dú)立的權(quán)值，但需要反復(fù)迭代，訓(xùn)練時(shí)間長(zhǎng)[19]。

本文將類間的懲罰參數(shù)與類內(nèi)的懲罰參數(shù)相結(jié)合，形成全局懲罰參數(shù)，即將類懲罰參數(shù)進(jìn)一步精確到樣本個(gè)體懲罰參數(shù)。該方法在提高不平衡數(shù)據(jù)集的分類準(zhǔn)確率方面能夠取得更好的效果。

1 超限學(xué)習(xí)機(jī)與不平衡數(shù)據(jù)集

由于單隱層前饋神經(jīng)網(wǎng)絡(luò)能夠逼近任何復(fù)雜的非線性系統(tǒng)，這使得它在模式識(shí)別、自動(dòng)控制及數(shù)據(jù)挖掘等許多領(lǐng)域得到了廣泛的應(yīng)用。

圖1為一個(gè)單隱層前饋神經(jīng)網(wǎng)絡(luò)。

文獻(xiàn)[20]中提出了一種稱為超限學(xué)習(xí)機(jī)的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法，該算法已被廣泛地應(yīng)用到模式識(shí)別、回歸問(wèn)題，高維數(shù)據(jù)的降維算法、全息數(shù)據(jù)的外推與插值技術(shù)[21-24]等各個(gè)領(lǐng)域，均取得了非常好的效果。

超限學(xué)習(xí)機(jī)與其他神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的主要區(qū)別在于隱層節(jié)點(diǎn)為隨機(jī)產(chǎn)生，與訓(xùn)練樣本無(wú)關(guān)。訓(xùn)練樣本x的隱層輸出表示為一個(gè)行向量h(x)=[f(ω1x+b1)f(ω2x+b2)…f(ωLx+bL)]。給定N個(gè)訓(xùn)練樣本(xi,ti),單隱層前饋神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型為

Hβ=T

(1)

式中：H為隱層輸出矩陣，β為輸出權(quán)，T為目標(biāo)矩陣，其中

H=[h(x1)…h(huán)(xN)]T

(2)

利用正交投影法計(jì)算H的廣義逆后可得：

(3)

為了提高網(wǎng)絡(luò)的泛化性能，引入了正實(shí)數(shù)C，其數(shù)學(xué)模型為[23]：

(4)

subject toHβ=T-ε

(5)

求解下列二次規(guī)劃問(wèn)題的最優(yōu)解，可得

(6)

圖1 單隱層前饋神經(jīng)網(wǎng)絡(luò)Fig.1 A single- hidden- layer feedfor ward neural network

2 全局懲罰參數(shù)的選擇方法

2.1 類間懲罰參數(shù)的選擇

加權(quán)超限學(xué)習(xí)機(jī)正類和負(fù)類選取不同的懲罰參數(shù)，每個(gè)類內(nèi)的樣本采取相同的懲罰參數(shù)，具體的選取方式為：

(7)

式中：W1為N階對(duì)角矩陣，其對(duì)角線元素wii是對(duì)應(yīng)于樣本xi的懲罰參數(shù)，#(qi)為類qi中的樣本個(gè)數(shù)，N為訓(xùn)練樣本個(gè)數(shù)。

另一種選取方式采用黃金分割系數(shù)。

方式2：

(8)

式中AVG為類間樣本數(shù)的均值。

上述兩種類間懲罰參數(shù)的取法使得少數(shù)類中的樣本能夠獲得比多數(shù)類中的樣本更大的權(quán)值，實(shí)際上，權(quán)W2是無(wú)懲罰參數(shù)和類懲罰參數(shù)W1的權(quán)衡。為了最大化邊界距離同時(shí)最小化所有訓(xùn)練樣本的累積權(quán)誤差，因此，計(jì)算圖1中單隱層前饋神經(jīng)網(wǎng)絡(luò)的輸出權(quán)，可以表示成下列優(yōu)化問(wèn)題：

subject to:ε=O-T=Hβ-T,

(9)

上述優(yōu)化問(wèn)題的解為

(10)

2.2 類內(nèi)懲罰參數(shù)選擇

加權(quán)超限學(xué)習(xí)機(jī)通過(guò)選取不同的類懲罰參數(shù)來(lái)調(diào)整類之間的不平衡分布，但對(duì)同一類內(nèi)的樣本賦予了相同的懲罰參數(shù)，而沒(méi)有考慮類內(nèi)的不平衡，實(shí)際上，類內(nèi)的不平衡同樣會(huì)影響分類器的分類性能。將根據(jù)樣本近鄰中同類樣本分布的稠密性來(lái)決定該樣本的類內(nèi)懲罰參數(shù)，提高沒(méi)有被充分表示的樣本的類內(nèi)懲罰參數(shù)，降低已被充分表示的樣本的類內(nèi)懲罰參數(shù)，使得懲罰參數(shù)發(fā)揮的作用更大。具體的選取方式有兩種：

方式1：對(duì)于樣本xi，選取xi的k個(gè)近鄰樣本，記這k個(gè)樣本中屬于同類樣本的有q個(gè)，則該樣本的類內(nèi)懲罰參數(shù)為

(11)

式中：U1為N階對(duì)角矩陣，其對(duì)角線元素wii是對(duì)應(yīng)于樣本xi的懲罰參數(shù)，N為訓(xùn)練樣本個(gè)數(shù)。

注：若q=0，即意味著該樣本的k個(gè)近鄰中無(wú)同類樣本，一些研究將此類樣本視為“噪聲”，但實(shí)際上，當(dāng)數(shù)據(jù)集不平衡程度很嚴(yán)重時(shí)，很多非“噪聲”的正類樣本近鄰中都可能沒(méi)有同類樣本。因此，折衷地將這些樣本的類內(nèi)懲罰參數(shù)取值為1。

方式2：對(duì)于樣本xi，選取xi的k個(gè)近鄰樣本，分別計(jì)算xi到k個(gè)近鄰中其他同類樣本的距離之和，記作di, 以及xi到k個(gè)近鄰中其他類樣本的距離之和，記作Di,則該樣本的類內(nèi)懲罰參為

(12)

式中：U2為N階對(duì)角矩陣，其對(duì)角線元素wii是對(duì)應(yīng)于樣本xi的懲罰參數(shù)

為了取得更好的分類效果，大多數(shù)分類算法在訓(xùn)練過(guò)程中都試圖盡可能提高邊界和邊界附近樣本的分類精度，這些樣本比那些遠(yuǎn)離邊界的樣本更容易被錯(cuò)分，因此對(duì)分類器來(lái)說(shuō)更為重要。

上述兩種類內(nèi)懲罰參數(shù)的取法使得處于邊界和邊界附近的樣本獲得更大的懲罰參數(shù)，即使得它們被錯(cuò)分的代價(jià)要大于同類的其他樣本。

2.3 全局懲罰參數(shù)選擇

我們給每個(gè)樣本賦予兩個(gè)懲罰參數(shù)，一個(gè)懲罰參數(shù)為每個(gè)樣本的類間懲罰參數(shù)，采用式(7)或式(8)中的選取方式，第二個(gè)權(quán)值為每個(gè)樣本的類內(nèi)懲罰參數(shù)，采用式(11)或式(12)中的選取方式。全局懲罰參數(shù)為類間懲罰參數(shù)和類內(nèi)懲罰參數(shù)的乘積。

設(shè)類間懲罰參數(shù)為W，類內(nèi)懲罰參數(shù)為U，則全局懲罰參數(shù)為

D=W×U

(13)

使用全局懲罰參數(shù)，式(12)、(13)可修正為

(14)

單一地使用類間懲罰參數(shù)時(shí)，同一類中的訓(xùn)練樣本被賦予了相同的懲罰參數(shù)，但由于類內(nèi)不平衡現(xiàn)象的存在，少數(shù)類中也可能會(huì)存在冗余樣本，結(jié)合類內(nèi)懲罰參數(shù)，這些冗余樣本的全局懲罰參數(shù)將被降低；同樣，多數(shù)類中也可能會(huì)存在稀疏樣本，結(jié)合類內(nèi)懲罰參數(shù)，這些稀疏樣本的全局懲罰參數(shù)將被提高，從而提高分類器對(duì)不平衡數(shù)據(jù)集的分類性能。

3 仿真實(shí)驗(yàn)

通過(guò)對(duì)各種不平衡程度的數(shù)據(jù)集進(jìn)行分類測(cè)試，對(duì)ELM、加權(quán)超限學(xué)習(xí)機(jī)(W- ELM)和帶全局懲罰參數(shù)的超限學(xué)習(xí)機(jī)(G- ELM)的分類性能進(jìn)行比較。

在對(duì)不平衡數(shù)據(jù)集進(jìn)行分類時(shí)，不能簡(jiǎn)單地采用總體的分類準(zhǔn)確率來(lái)評(píng)價(jià)分類器的好壞。由于不平衡數(shù)據(jù)集中各類的樣本數(shù)量相差較大，因此如果分類器能夠完全識(shí)別負(fù)類樣本，即使對(duì)正類樣本的識(shí)別完全錯(cuò)誤，總體的準(zhǔn)確率也會(huì)維持在一個(gè)較高的水準(zhǔn)。因此，目前較多采用幾何平均值(G- mean)來(lái)評(píng)價(jià)分類器的有效性，即先計(jì)算分類器在每一類中的分類準(zhǔn)確率，G- mean值為這些準(zhǔn)確率的幾何平均。例如，對(duì)于二分類問(wèn)題，設(shè)TP和TN分別表示被正確分類的正類和負(fù)類樣本個(gè)數(shù)，F(xiàn)N表示負(fù)數(shù)類中被誤分為正數(shù)類的樣本個(gè)數(shù)，F(xiàn)P表示正數(shù)類中被誤分為負(fù)類的樣本個(gè)數(shù)，則

(15)

G- mean值能夠較準(zhǔn)確地反映分類器在不平衡數(shù)據(jù)集上的識(shí)別性能。

實(shí)驗(yàn)中使用46個(gè)二分類的數(shù)據(jù)集和3個(gè)多分類的數(shù)據(jù)集作為測(cè)試樣本，數(shù)據(jù)集描述如表1、2所示。

表1 雙分類數(shù)據(jù)集細(xì)節(jié)

表2UCI中的雙分類與多分類數(shù)據(jù)集細(xì)節(jié)

Table2DetailsofthebinaryandmulticlassdatasetsfromUCI

數(shù)據(jù)集屬性個(gè)數(shù)類別訓(xùn)練樣本個(gè)數(shù)測(cè)試樣本個(gè)數(shù)不平衡率Adult12324781277800.3306Banana2240049000.8605Colon60230320.6607Leukemia60238340.4074DNA1803200011860.4415Satimage366443520000.3871USPS25610729120070.4733

注：表1和表2中的數(shù)據(jù)集可分別從網(wǎng)絡(luò)中下載[25-26]

表1和表2中的不平衡率(IR)反映了數(shù)據(jù)集各類之間的不均衡程度，由式(16)、(17)計(jì)算得到

二分類集：

(16)

多類集：

(17)

本節(jié)實(shí)驗(yàn)中采用的數(shù)據(jù)集不平衡率的值最低為0.007 8，最高為0.860 5，基本上含括了各種比例的不均衡程度。因此實(shí)驗(yàn)結(jié)果有代表性。

使用的仿真軟件為：Matlab R2014a。該實(shí)驗(yàn)的環(huán)境為： Window 10 64bit操作系統(tǒng)，Intel Core i7-2620M2.70GHz，12GB內(nèi)存。

實(shí)驗(yàn)中對(duì)于數(shù)據(jù)集采用5-折交叉驗(yàn)證，運(yùn)行20次，計(jì)算G- mean值的平均值。為了便于比較，表1和表2采用文獻(xiàn)[19]中相同的數(shù)據(jù)集，同時(shí)，標(biāo)準(zhǔn)超限學(xué)習(xí)機(jī)、加權(quán)超限學(xué)習(xí)機(jī)(W1)、加權(quán)超限學(xué)習(xí)機(jī)(W2)的G- mean值結(jié)果直接引用文獻(xiàn)[19]中的結(jié)果。

從表3中的實(shí)驗(yàn)結(jié)果可以看出，由于未添加懲罰參數(shù)，標(biāo)準(zhǔn)的超限學(xué)習(xí)機(jī)在對(duì)不平衡數(shù)據(jù)集進(jìn)行分類的時(shí)候表現(xiàn)最差。采用全局懲罰參數(shù)的不平衡超限學(xué)習(xí)機(jī)對(duì)于大多數(shù)不平衡數(shù)據(jù)集的分類效果要優(yōu)于加權(quán)超限學(xué)習(xí)機(jī)與標(biāo)準(zhǔn)的超限學(xué)習(xí)機(jī)，這是因?yàn)椴黄胶鈹?shù)據(jù)集的不平衡程度并不完全由不平衡數(shù)據(jù)集類間的數(shù)量差異決定，也和各個(gè)類的類內(nèi)空間分布有關(guān)。此外，當(dāng)不平衡率較大時(shí)，對(duì)于加權(quán)超限學(xué)習(xí)機(jī)，無(wú)論是采用類權(quán)值W1還是W2，與標(biāo)準(zhǔn)超限學(xué)習(xí)機(jī)相比較，分類效果區(qū)別不大，但通過(guò)賦予每個(gè)樣本全局懲罰參數(shù)之后，分類器的識(shí)別能力得到進(jìn)一步提高。

表3 分類器G- mean值比較

4 結(jié)論

1)提出了一種加權(quán)超限學(xué)習(xí)機(jī)懲罰參數(shù)的選取方法，進(jìn)一步考慮了不平衡數(shù)據(jù)集的類內(nèi)不平衡現(xiàn)象，提出了類內(nèi)懲罰參數(shù)的概念，并設(shè)計(jì)了兩種類內(nèi)懲罰參數(shù)的選取方式，與類間的懲罰參數(shù)一起構(gòu)成全局懲罰參數(shù)，將懲罰參數(shù)精確到了每個(gè)樣本的懲罰參數(shù)，更大地發(fā)揮出來(lái)懲罰參數(shù)的作用。

2)該方法簡(jiǎn)單且易于實(shí)現(xiàn)，利用近鄰樣本的個(gè)數(shù)或者距離獲得類內(nèi)的懲罰參數(shù)，與類間懲罰參數(shù)結(jié)合，從而獲得全局懲罰參數(shù)。

3)同時(shí)考慮了類間懲罰參數(shù)和類內(nèi)懲罰參數(shù)，因此能夠有效地處理不平衡數(shù)據(jù)集的分類問(wèn)題，且同時(shí)保持了超限學(xué)習(xí)機(jī)的良好性能。

[1] GONZALEZ G F, JOHNSON T, ROLSTON K, et al. Predicting pneumonia mortality using CURB- 65, PSI, and patient characteristics in patients presenting to the emergency department of a comprehensive cancer center[J]. Cancer medicine, 2014, 3(4): 962-970.

[2] TRIVEDJ I, MONIKA, MRIDUSH M. Credit card fraud detection[J]. International journal of advanced research in computer and communication engineering, 2016, 5(1): 39-50.

[3] BAHNSEN A C, AOUADA D, STOJANOVIC A, et al. Feature engineering strategies for credit card fraud detection [J]. Expert systems with applications, 2016, 51: 134-142.

[4] PROVOST F. Machine learning from imbalanced data sets[C]// AAAI′2000 Workshop on Imbalanced Data Sets, 2000: 435-439.

[5] WEISS G, SAAR- TSECHANSKY M, ZADROZNY B. Report on UBDM-05: workshop on utility- based data mining[J]. ACM SIGKDD explorations newsletter, 2005, 7(2): 145-147.

[6] HULSE J V, KHOSHGOFTAAR T M, NAPOLITANO A. Experimental perspectives on learning from imbalanced data. Proceedings of the 24th international conference on Machine learning (ICML) [C]// Oregon State University, Corvallis, USA, 2007: 935-942.

[7] ERTEKIN S, HHUANG J, BOTTOU L, et al. Learning on the border: active learning in imbalanced data classification[C]// Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management, Lisbon, Portugal, 2007: 127-136.

[8] BARANDELA R, VALDOVINOS R M, SANCHEZ J S，et al. The imbalanced training sample problem: Under or oversampling[C]//Joint IAPR International Workshops on Structural, Syntactic, and Statistical Pattern Recognition (SSPR/SPR′04), Lecture Notes in Computer Science 2004, 3138: 806-814.

[9] NAPOLITANO A. Alleviating class imbalance using data sampling: Examining the effects on classification algorithms[D]. Boca Raton, Florida Atlantic University, 2006.

[10] VAN HULSE J, KHOSHGOFTAAR T M, NAPOLITANO A. experimental perspectives on learning from imbalanced data[C]// Proceedings of the 24th International Conference on Machine Learning, Corvallis, OR, USA, 2007: 935-942.

[11] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over- sampling technique[J]. Journal of machine learning research, 2002, 16: 321-357.

[12] TOMEK I. Two modifications of CNN[J]. IEEE trans on systems, man and communications, 1976, 6: 769-772.

[13] WILSON D L. Asymptotic properties of nearest neighbor rules using edited data sets[J]. IEEE Trans on systems, Man and Cybernetics 2 (1972): 408-421.

[14] KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one- sided selection[C]// Proceedings of 14th International Conference on Machine Learning (ICML′97), 1997: 179-186.

[15] RAZZAGHI T, XANTHOPOULOS P,EREF O, Constraint relaxation, cost- sensitive learning and bagging for imbalanced classification problems with outliers[J].Optimization letters, 2015: 1-14.

[16] BARNABé- LORTIE V, BELLINGER C, JAPKOWICZ. Active learning for one- class classification[J]. IEEE international conference on machine learning &applications, 2015: 201-206.

[17] ZONG W W, HUANG G B, CHEN Y Q. Weighted extreme learning machine for imbalance learning [J].Neurocomputing, 2013, 101: 229-242.

[18] JAPKOWICZ N. Concept- learning in the presence of between- class and within- class imbalances[J]. Lecture notes in computer science, 2001: 67-77.

[19] FAN W, STOLFO S, ZHANG J, et al. AdaCost: misclassification cost- sensitive boosting[C]\ Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA, 1999: 97-105.

[20] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: Theory and applications [J].Neurocomputing, 2006, 70(1-3): 489-501.

[21] SHRIVASTAVA N A, PANIGRAHI B K, LIM M H. Electricity price classification using extreme learning machines[J]. Neural computing &applications, 2016, 27(1): 9-18.

[22] FENG L, WANG J, LIU S L, et al. Multi- label dimensionality reduction and classification with Extreme learning machines[J].Systems engineering &electronics journal,2014, 25(3): 502-513.

[23] DENG W Y,ZHENG Q H, CHEN L. Regularized extreme learning machine[C]// IEEE Symposium on Computational Intelligence and Data Mining, 2009: 389-395.

[24] 孫超，何元安，商德江，等. 全息數(shù)據(jù)外推與插值技術(shù)的極限學(xué)習(xí)機(jī)方法[J].哈爾濱工程大學(xué)學(xué)報(bào)， 2014， 35(5): 544-551. SUN Chao, HE Yuanan, SHANG Dejiang, et al. Hologram data extrapolation method based on the extreme learning machine[J]. Journal of Harbin Engineering University, 2014， 35(5): 544-551.

[25] Keel Data, sethttp://sci2s.ugr.es/keel/study.php?cod=24 [DB]. 2017.

[26] UCI Data, http://archive.ics.uci.edu/ml/datasets.html [DB]. 2017.

Globalcostparameterselectionofextremelearningmachineforimbalancelearning

KE Haifeng1, LU Chengbo2, XU Huihui3

(1.School of computer & computing science, Zhejiang University City College, Hangzhou 310015, China; 2.Faculty of Engineering, Lishui University, Lishui 323000, China; 3.School of engineering and computer science, University of the Pacific, Stockton, 95211, USA)

10.11990/jheu.201610045

http://www.cnki.net/kcms/detail/23.1390.u.20170821.1833.002.html

TP183

1006- 7043(2017)09- 1444- 06

2016-10-12. < class="emphasis_bold">網(wǎng)絡(luò)出版日期

日期：2017-08-21.

國(guó)家自然科學(xué)基金項(xiàng)目(61373057)；浙江省自然科學(xué)基金項(xiàng)目(LY18F030003)；浙江省教育廳科研項(xiàng)目(Y201432787, Y201432200).

柯海豐(1977-), 男,副教授；盧誠(chéng)波(1977-), 男,副教授.

盧誠(chéng)波, E- mail:lu.chengbo@aliyun.com.

本文引用格式：柯海豐，盧誠(chéng)波，徐卉慧. 不平衡超限學(xué)習(xí)機(jī)的全局懲罰參數(shù)選擇方法[J]. 哈爾濱工程大學(xué)學(xué)報(bào)， 2017， 38(9): 1444-1449.

KE Haifeng, LU Chengbo, XU Huihui. Global cost parameter selection of extreme learning machine for imbalance learning[J]. Journal of Harbin Engineering University， 2017， 38(9): 1444-1449.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

不平衡超限學(xué)習(xí)機(jī)的全局懲罰參數(shù)選擇方法

1 超限學(xué)習(xí)機(jī)與不平衡數(shù)據(jù)集

2 全局懲罰參數(shù)的選擇方法

2.1 類間懲罰參數(shù)的選擇

2.2 類內(nèi)懲罰參數(shù)選擇

2.3 全局懲罰參數(shù)選擇

3 仿真實(shí)驗(yàn)

4 結(jié)論