黃重慶,徐哲壯,黃宴委,賴(lài)大虎
(福州大學(xué)電氣工程與自動(dòng)化學(xué)院,福州350108)
基于近似結(jié)構(gòu)風(fēng)險(xiǎn)的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
黃重慶,徐哲壯,黃宴委,賴(lài)大虎
(福州大學(xué)電氣工程與自動(dòng)化學(xué)院,福州350108)
隱層節(jié)點(diǎn)數(shù)是影響極端學(xué)習(xí)機(jī)(ELM)泛化性能的關(guān)鍵參數(shù),針對(duì)傳統(tǒng)的ELM隱層節(jié)點(diǎn)數(shù)確定算法中優(yōu)化過(guò)程復(fù)雜、容易過(guò)學(xué)習(xí)或陷入局部最優(yōu)的問(wèn)題,提出結(jié)構(gòu)風(fēng)險(xiǎn)最小化-極端學(xué)習(xí)機(jī)(SRM-ELM)算法。通過(guò)分析VC維與隱層節(jié)點(diǎn)數(shù)量之間的關(guān)聯(lián),對(duì)VC信任函數(shù)進(jìn)行近似改進(jìn),使其為凹函數(shù),并結(jié)合經(jīng)驗(yàn)風(fēng)險(xiǎn)重構(gòu)近似的SRM。在此基礎(chǔ)上,將粒子群優(yōu)化的位置值直接作為ELM的隱層節(jié)點(diǎn)數(shù),利用粒子群算法最小化結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)獲得極端學(xué)習(xí)機(jī)的隱層節(jié)點(diǎn)數(shù),作為最優(yōu)節(jié)點(diǎn)數(shù)。使用6組UCI數(shù)據(jù)和膠囊缺陷數(shù)據(jù)進(jìn)行仿真驗(yàn)證,結(jié)果表明,該算法能獲得極端學(xué)習(xí)機(jī)的最優(yōu)節(jié)點(diǎn)數(shù),并具有更好的泛化能力。
極端學(xué)習(xí)機(jī);結(jié)構(gòu)風(fēng)險(xiǎn);VC信任;粒子群優(yōu)化;隱層節(jié)點(diǎn)數(shù)
極端學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[1]是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),具有運(yùn)算速度快、泛化性能好等特點(diǎn)。與普通的前饋神經(jīng)網(wǎng)絡(luò)一樣,ELM為保證良好的泛化性能,確定合適的隱層節(jié)點(diǎn)數(shù)量尤為重要。文獻(xiàn)[2]指出,ELM雖然避免了梯度下降法存在的問(wèn)題,但如何確定最優(yōu)隱層節(jié)點(diǎn)數(shù),避免反復(fù)試驗(yàn)調(diào)節(jié),依然是個(gè)亟待解決的問(wèn)題。文獻(xiàn)[3]針對(duì)稀疏數(shù)據(jù)學(xué)習(xí)問(wèn)題提出了RCGA-ELM算法,利用遺傳算法,優(yōu)化ELM的隱層節(jié)點(diǎn)數(shù)、權(quán)重w和偏置b,由于涉及多重算子,算法復(fù)雜,耗費(fèi)大量時(shí)間。為了降低算法復(fù)雜度,提出了S-ELM算法,以5倍交叉驗(yàn)證來(lái)選擇S-ELM的最佳參數(shù)w和b值。PSO-ELM[4], IPSO-ELM[5]和ICGA-SRM-ELM[6]均提出基于粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法對(duì)ELM進(jìn)行改進(jìn),其中,PSO-ELM以均方根誤差為優(yōu)化目標(biāo)針對(duì)ELM中的w和b進(jìn)行自動(dòng)選擇與優(yōu)化。IPSO-ELM與ICGA-SRM-ELM類(lèi)似,強(qiáng)調(diào)優(yōu)化ELM的w和隱層節(jié)點(diǎn)數(shù),但I(xiàn)PSO-ELM強(qiáng)調(diào)優(yōu)化ELM的w值,并未涉及隱層節(jié)點(diǎn)數(shù)的優(yōu)化問(wèn)題,而且優(yōu)化目標(biāo)函數(shù)及迭代選擇標(biāo)準(zhǔn)與E-ELM[7]無(wú)實(shí)質(zhì)差別。ICGA-SRM-ELM則針對(duì)在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則下對(duì)隱層節(jié)點(diǎn)數(shù)進(jìn)行分析,但沒(méi)給出具體形式。文獻(xiàn)[8]提出一種能自動(dòng)確定隱層節(jié)點(diǎn)的OP-ELM算法,但是需通過(guò)多元稀疏回歸和留一(LOO)算法,把開(kāi)始設(shè)定的大隱層節(jié)點(diǎn)數(shù)刪減到最佳值,這與EM-ELM和μGELM[9]一樣,需要多重判斷標(biāo)準(zhǔn)機(jī)制來(lái)選擇增加或刪減節(jié)點(diǎn),使整個(gè)算法趨于復(fù)雜。此外,μG-ELM用遺傳算法優(yōu)化隱層節(jié)點(diǎn)數(shù),給出的優(yōu)化目標(biāo)函數(shù)僅僅是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,容易出現(xiàn)過(guò)學(xué)習(xí)。這些工作對(duì)ELM的可調(diào)參數(shù)優(yōu)化研究都做出了或多或少的貢獻(xiàn),但還是存在一些不足之處:(1)沒(méi)有給出具體的優(yōu)化目標(biāo)函數(shù);(2)優(yōu)化目標(biāo)函數(shù)為經(jīng)驗(yàn)風(fēng)險(xiǎn),容易出現(xiàn)過(guò)學(xué)習(xí)或陷入局部最優(yōu);(3)利用遺傳、差分進(jìn)化算法優(yōu)化過(guò)程復(fù)雜。
本文提出一種SRM-ELM算法,改進(jìn)VC信任函數(shù)以獲得凹函數(shù),與經(jīng)驗(yàn)風(fēng)險(xiǎn)構(gòu)成近似的結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Minimization,SRM)函數(shù),利用PSO算法尋找SRM最小化時(shí)的ELM隱層節(jié)點(diǎn)數(shù),為最佳的隱層節(jié)點(diǎn)數(shù)量。最后,由6組UCI數(shù)據(jù)和膠囊缺陷數(shù)據(jù)來(lái)仿真驗(yàn)證SRM-ELM的可行性與性能。
給定N個(gè)訓(xùn)練樣本(xi,yi),xi=[xi1,xi2,…, xin]T∈Rn,yi=[yi1,yi2,…,yim]T∈Rm,i=1,2,…, N。令隱層節(jié)點(diǎn)數(shù)量為K,激活函數(shù)為g(w,x,b),可構(gòu)造一個(gè)單隱層網(wǎng)絡(luò),則ELM模型為:
其中,i=1,2,…,N;j=1,2,…,K;wj=[wj1,wj2,…,wjn]T是連接輸入節(jié)點(diǎn)到第j個(gè)隱層節(jié)點(diǎn)的輸入權(quán)重;βj=[βj1,βj2,…,βjm]T是連接第j個(gè)隱層節(jié)點(diǎn)到輸出節(jié)點(diǎn)的輸出權(quán)重;bj是第 j個(gè)隱層節(jié)點(diǎn)的閾值。
把N個(gè)學(xué)習(xí)樣本分別代入式(1)中可得:
其中:
H稱(chēng)為網(wǎng)絡(luò)隱層輸出矩陣。在一般情況下,隱層節(jié)點(diǎn)數(shù)遠(yuǎn)小于訓(xùn)練樣本數(shù),即K?N,H就可能不是一個(gè)方陣,因此需求H的偽逆,即Moore-Penrose廣義逆。在式(2)中,任意人為給定w和b,以及激活函數(shù)g(w,x,b),由Moore-Penrose廣義逆定理求得廣義逆H+,從而β的解為:
與傳統(tǒng)的梯度下降法比較,ELM具有運(yùn)算速度快和不需反復(fù)調(diào)整權(quán)值等特點(diǎn)[10],但隱層節(jié)點(diǎn)數(shù)K成為影響ELM泛化性能的重要因素之一,如何自動(dòng)選擇參數(shù)K為本文研究重點(diǎn)。
3.1 SRM原理
為克服經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化存在的過(guò)學(xué)習(xí)問(wèn)題,文獻(xiàn)[11]提出了SRM[11],有如下結(jié)論:
對(duì)于來(lái)自具有有限VC維h的完全有界函數(shù)集0≤Q(z,α)≤B,α∈Λ的所有函數(shù),則:
成立的概率至少為1-η。式中R(α)為期望風(fēng)險(xiǎn);Remp(α)為經(jīng)驗(yàn)風(fēng)險(xiǎn),且:
其中,N為樣本數(shù)量,0<a≤4,0<b≤2,η∈(0,1],兩類(lèi)問(wèn)題中B=1,式(4)右邊第2項(xiàng)稱(chēng)為VC信任或VC置信區(qū)間。由SRM原則,為使R(α)最小,則必須使Remp(α)和VC信任總和最小。而在給定樣本情況下,VC信任取決于整個(gè)函數(shù)集的VC維h。從文獻(xiàn)[12-14]可知,隱層激活函數(shù)為sigmoid的神經(jīng)網(wǎng)絡(luò)VC維為:
其中,λ為網(wǎng)絡(luò)的權(quán)值個(gè)數(shù);l為網(wǎng)絡(luò)的隱層數(shù);n0為隱層神經(jīng)元和輸出層神經(jīng)元的總數(shù)。
由式(6)可知,h均與λ有關(guān),對(duì)ELM來(lái)講,l= 1,則:
其中,n為ELM輸入維數(shù);m為ELM輸出維數(shù);n和m由樣本確定。在n和m已知情況下,由式(7)可知VC維h為隱層節(jié)點(diǎn)數(shù)K的函數(shù)。
根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論,令式(4)中B=1,則VC信任可寫(xiě)成:
令a=4,b=1,對(duì)h求一次導(dǎo)得:
由式(9)可知,h=N時(shí)為僅有的極大值點(diǎn),即h=N時(shí)f(h)取得最大值。
3.2 VC信任函數(shù)的改進(jìn)
利用UCI數(shù)據(jù)庫(kù)中的Haberman數(shù)據(jù)進(jìn)行VC信任函數(shù)式(9)特性分析。圖1為VC信任函數(shù)f(h)與h的關(guān)系。在h∈[0,N]時(shí)f(h)為凸函數(shù)(經(jīng)過(guò)歸一化),則式(4)右邊兩項(xiàng)的和很難求出全局最小值,相反很容易陷入局部最小值,為此需要對(duì)f(h)進(jìn)行改進(jìn)。
不難發(fā)現(xiàn),對(duì)于任意h,滿(mǎn)足下列公式:
則式(4)寫(xiě)成:
另一方面,由式(4)得出概率:
由式(11)和式(12),得:
其中,η0∈(0,1],η∈(0,1]。即不等式:
成立的概率至少為1-η。
同樣利用UCI數(shù)據(jù)庫(kù)中的Haberman數(shù)據(jù)對(duì)改進(jìn)后的VC信任函數(shù)φ(h)與VC維h之間的關(guān)系進(jìn)行分析,如圖1所示。從圖1可知,改進(jìn)后VC信任φ(h)為VC維h的凹函數(shù),式(14)是VC維h的函數(shù),可近似獲得ELM的泛化能力:
圖1 f(h)、φ(h)與h的關(guān)系
3.3 PSO基本原理
本文把PSO的位置值直接作為ELM的隱層節(jié)點(diǎn)數(shù),PSO每迭代一次相當(dāng)于ELM訓(xùn)練一次,迭代完畢后即獲得最優(yōu)隱層節(jié)點(diǎn)數(shù)。
基于慣性權(quán)重的粒子速度v和位置p更新公式為:
其中,是粒子i在第k次迭代中的第d維位置;是粒子i在第k次迭代中的第d維速度;為粒子i在第k次迭代中第d維達(dá)到的最好位置;為粒子群在第k次迭代中第d維達(dá)到的最優(yōu)位置,d=1,2,…,N;c1,c2為學(xué)習(xí)因子,一般c1=c2=2;rand1,rand2介于(0,1)之間。
慣性權(quán)重τ計(jì)算公式為:
其中,τmax和τmin分別表示權(quán)重的最大值和最小值;itmax表示最大的迭代次數(shù);NC表示當(dāng)前迭代的次數(shù)。粒子在搜索過(guò)程中都有一個(gè)最大最小速度和最大最小位置,設(shè)置規(guī)則見(jiàn)PSO-ELM[4]。
PSO算法的優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單,容易實(shí)現(xiàn),且沒(méi)有過(guò)多參數(shù)需要調(diào)整,可以直接把粒子的位置參數(shù)替換成需要優(yōu)化的決策變量。SRM-ELM直接把PSO的位置值當(dāng)作隱層節(jié)點(diǎn)數(shù),粒子群最終達(dá)到的最佳位置就是所要尋找的最優(yōu)節(jié)點(diǎn)數(shù)。
3.4 SRM-ELM算法流程
SRM-ELM算法步驟如下:
Step 1 粒子種群初始化。
Step 2 粒子的位置量p直接作為隱層節(jié)點(diǎn)數(shù)K賦予ELM。
Step 3 在ELM訓(xùn)練的過(guò)程中,根據(jù)每個(gè)粒子的位置值(隱層節(jié)點(diǎn)數(shù))計(jì)算對(duì)應(yīng)的目標(biāo)函數(shù)R(α,h)。
Step 4 更新粒子最優(yōu)位置pbest和粒子群最優(yōu)位置gbest。如果當(dāng)前粒子的R(α,h)比上一代小,則對(duì)應(yīng)的位置作為目前粒子到達(dá)的最優(yōu)位置;如果當(dāng)前粒子群的最小R(α,h)比上一代的小,則對(duì)應(yīng)的位置作為目前粒子群到達(dá)的最優(yōu)位置。否則不更新。
Step 5 更新粒子位置p和速度v。根據(jù)式(16)和式(17)重新計(jì)算粒子的位置和速度。
Step 6 迭代終止。如果NC>itmax,則優(yōu)化結(jié)束,最后得到的粒子群最優(yōu)位置即所求的最優(yōu)隱層節(jié)點(diǎn)數(shù)K。否則轉(zhuǎn)到Step2循環(huán)操作。
PSO和ELM的結(jié)合關(guān)鍵在于PSO把位置值賦予ELM,作為隱層節(jié)點(diǎn)于ELM主體中,同時(shí)把目標(biāo)函數(shù)R(α,h)植入ELM,隨著PSO算法的迭代,逐漸接近最好的位置,即逐漸優(yōu)化出最佳隱層節(jié)點(diǎn)數(shù)。
4.1 參數(shù)設(shè)置
4.2 UCI數(shù)據(jù)
本文分別用UCI數(shù)據(jù)庫(kù)中的6組2類(lèi)數(shù)據(jù)來(lái)驗(yàn)證SRM-ELM算法,6組數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)信息
在ELM設(shè)計(jì)時(shí),一般利用交叉驗(yàn)證法在K值預(yù)設(shè)定的范圍內(nèi)確定最佳隱層節(jié)點(diǎn)數(shù)K。由Haberman數(shù)據(jù)進(jìn)行仿真,假設(shè)令K從1~300遞增,依次得到對(duì)測(cè)試樣本的分類(lèi)精度如圖2(a)所示,圖2(b)為最高測(cè)試精度為0.739 6所對(duì)應(yīng)的隱層節(jié)點(diǎn)數(shù)K=5。從圖2可知隨著K值繼續(xù)增加,ELM的測(cè)量精度總體上是遞減的,當(dāng)4≤K≤9時(shí),ELM具有很好的測(cè)試精度。
利用SRM-ELM算法對(duì)6組數(shù)據(jù)分別連續(xù)重復(fù)仿真50次,求平均值確定最佳隱層節(jié)點(diǎn)數(shù)K完成ELM網(wǎng)絡(luò)設(shè)計(jì)。圖3為Haberman數(shù)據(jù)的仿真結(jié)果,其中圖3(a)為50次仿真所得到的隱層節(jié)點(diǎn)數(shù)K,從50次仿真可知,K值主要集中于6≤K≤9,落在交叉驗(yàn)證法得到K的范圍中。圖3(b)為第10次仿真中隱層節(jié)點(diǎn)數(shù)K收斂情況,K從1遞增到10,在第16代時(shí)收斂于7。對(duì)比圖3與圖2可知,由SRMELM算法所獲得K值能夠很好地符合由交叉驗(yàn)證法得到的K值。
圖2 ELM對(duì)Haberman數(shù)據(jù)的測(cè)試精度
圖3 隱層節(jié)點(diǎn)數(shù)K分布
表2 SRM-ELM、ELM與試湊公式N0= +c的性能比較
表2 SRM-ELM、ELM與試湊公式N0= +c的性能比較
數(shù)據(jù)類(lèi)型 交叉驗(yàn)證法ELM N0= a+b+c SRM-ELMK測(cè)試精度/% K 測(cè)試精度/% K 測(cè)試精度/% Haberman 4~9 73.62±0.34 3~12 73.45±0.31 6~9 73.57±0.25 Blood 28~45 86.75±0.17 3~12 86.25±0.12 35~40 86.75±0.17 Pima 10~17 79.48±0.12 4~13 79.21±0.03 13~17 79.34±0.03 Ionosphere 35~55 91.58±0.49 7~16 85.64±0.30 27~33 90.59±0.19 Breast Cancer 35~50 99.75±0.15 4~13 99.75±0.15 13~21 99.25±0.10 Australian Credit 13~23 86.58±0.05 5~14 85.00±0.18 14~19 86.58±0.05
4.3 膠囊外觀缺陷檢測(cè)
圖4 正常膠囊和各種缺陷膠囊
表3 膠囊缺陷檢測(cè)結(jié)果
本文針對(duì)隱層節(jié)點(diǎn)數(shù)量影響ELM泛化性能的問(wèn)題,提出一種SRM-ELM算法。SRM-ELM在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則下,建立隱層節(jié)點(diǎn)數(shù)與泛化能力的關(guān)系函數(shù),利用PSO簡(jiǎn)單高效的全局搜索能力,優(yōu)化ELM的隱層節(jié)點(diǎn)數(shù),避免了傳統(tǒng)方法反復(fù)調(diào)節(jié)實(shí)驗(yàn)的繁瑣。由6組標(biāo)準(zhǔn)數(shù)據(jù)實(shí)驗(yàn)結(jié)果顯示,利用SRMELM計(jì)算得到的最優(yōu)隱層節(jié)點(diǎn)數(shù)均落在交叉驗(yàn)證法得到的ELM最優(yōu)隱層節(jié)點(diǎn)數(shù)范圍內(nèi),保證了良好的泛化性能,與試湊法比較顯現(xiàn)出準(zhǔn)確性高、推廣性好的優(yōu)勢(shì),并且可將該方法用于膠囊外觀缺陷檢測(cè)中。
[1] Huang Guangbin,ZhuQinyu,Siew C K.Extreme Learning Machine:A New Learning Scheme of Feed Forward Neural Networks[C]//Proc.of IEEE International Joint Conference on Neural Networks. [S.l.]:IEEE Press,2004:985-990.
[2] Feng Guorui,Huang Guangbin,Lin Qingping.Error Minimized Extreme Learning Machine with Growth of Hidden Nodes and Incremental Learning[J].IEEE Transactions on NeuralNetworks,2009,20(8): 1352-1357.
[3] Suresh S,Saraswathi S,Sundararajan N.Performance Enhancement of Extreme Learning Machine for Multicategory Sparse Cancer Classification[J].Engineering Applications of Artificial Intelligence,2010,23(7): 1149-1157.
[4] Xu You,Shu Yang.Evolutionary Extreme Learning Machine Based on Particle Swarm Optimization[C]// Advances in Neural Networks.[S.l.]:Springer,2006: 644-652.
[5] Han Fei,YaoHaifen,LingQinghua.AnImproved Extreme Learning Machine Based on Particle Swarm Optimization[C]//Proc.of the 7th International Conference on IntelligentComputing.Zhengzhou, China:[s.n.],2012:699-704.
[6] Saraswathi S,Sundaram S,Sundararajan N.ICGA-PSOELM Approach for Multiclass Cancer Classification Resulting Reduced Gene Sets in Which Genes Encoding Secreted Proteins are Highly Represented Inaccurate[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010,8(2):452-463.
[7] Zhu Qinyu,Qin A K,Suganthan P N.Evolutionary Extreme Learning Machine[J].Pattern Recognition, 2005,38(10):1759-1763.
[8] Miche Y,Sorjamaa A,Bas P.OP-ELM:Optimally Pruned Extreme Learning Machine[J].IEEE Transactions on Neural Networks,2010,21(1):158-162.
[9] Lahoz D,Lacruz B,Mateo P M.A Biobjective Microgenetic Extreme Learning Machine[C]//Proc.of IEEE Workshop on Hybrid Intelligent Models and Applications.[S.l.]:IEEE Press,2011:68-75.
[10] Huang Guangbin,ZhuQinyu,Siew C K.Extreme Learning Machine[J].Neurocomputing,2006,70(1): 489-501.
[11] Vapnik V N.Statistical Learning Theory[M].New York, USA:Wiley,1998.
[12] Koiran P,Sontag E D.Neural Networks with Quadratic VC Dimension[J].Journal of Computer and System Science,1997,54(1):190-198.
[13] Bartlett P L,Maiorov V,Meir R.Almost Linear VC Dimension Bounds for Piecewise Polynomial Networks [J].Neural Computation,1998,10(8):2159-2173.
[14] Karpinski M,Macintyre A.Polynomial Bounds for VC Dimension of Sigmoidal and General Pfaffian Neural Networks[J].JournalofComputerand System Sciences,1997,54(1):169-176.
[15] 朱啟兵,劉 杰,李允公,等.基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的奇異值分解降噪研究[J].振動(dòng)工程學(xué)報(bào),2005, 18(2):204-207.
編輯 顧逸斐
Optimization for Hidden Nodes Number of ELM Based on Approximate Structure Risk
HUANG Chong-qing,XU Zhe-zhuang,HUANG Yan-wei,LAI Da-hu
(College of Electrical Engineering&Automation,Fuzhou University,Fuzhou 350108,China)
The number of hidden nodes is a critical factor for the generalization of Extreme Learning Machine(ELM). There exists complex optimization process,over learning or traps in local optimum in traditional algorithm of calculating the number of hidden layer of ELM.Aiming at the problems,Structural Risk Minimization(SRM)-ELM is proposed. Combining empirical risk with VC confidence,this paper proposes a novel algorithm to automatically obtain the best one to guarantee good generalization.On this basis,the Particle Swarm Optimization(PSO)position value is directly treated as ELM hidden layer nodes,which employs the PSO in the optimizing process with Structural Risk Minimization(SRM) principle.The optimal number of hidden nodes is reasonable correspond to 6 cases.Simulation results show that the algorithm can obtain the extreme learning machine optimal nodes and better generalization ability.
Extreme Learning Machine(ELM);structural risk;VC confidence;Particle Swarm Optimization(PSO); hidden nodes number
1000-3428(2014)09-0215-05
A
TP18
10.3969/j.issn.1000-3428.2014.09.043
教育部博士點(diǎn)新教師基金資助項(xiàng)目(20113514120007);福建省教育廳科技基金資助項(xiàng)目(JA10034)。
黃重慶(1989-),男,碩士研究生,主研方向:圖像處理,智能系統(tǒng);徐哲壯(通訊作者),講師、博士;黃宴委,副教授、博士;賴(lài)大虎,碩士。
2013-08-12
2013-10-10E-mail:297964854@qq.com