李麗娜 閆德勤 楚永賀
(遼寧師范大學(xué)計算機與信息技術(shù)學(xué)院 遼寧 大連 116081)
基于微分同胚優(yōu)化極端學(xué)習(xí)機的人臉識別
李麗娜 閆德勤 楚永賀
(遼寧師范大學(xué)計算機與信息技術(shù)學(xué)院 遼寧 大連 116081)
極端學(xué)習(xí)機(ELM)以其快速高效和良好的泛化能力在模式識別領(lǐng)域得到了廣泛應(yīng)用。然而當(dāng)前的ELM及其改進算法并沒有充分考慮到隱層節(jié)點輸出矩陣對極端學(xué)習(xí)機泛化能力的影響。通過實驗發(fā)現(xiàn)激活函數(shù)選取不當(dāng)及數(shù)據(jù)維數(shù)過高將導(dǎo)致隱層節(jié)點輸出值趨于零,使得輸出權(quán)值矩陣求解不準(zhǔn),降低ELM的分類性能。為此,提出一種微分同胚優(yōu)化的極端學(xué)習(xí)機算法。該算法結(jié)合降維和微分同胚技術(shù)提高激活函數(shù)的魯棒性,克服隱層節(jié)點輸出值趨于零的問題。為驗證所提算法的有效性使用人臉數(shù)據(jù)進行實驗。實驗結(jié)果表明所提算法具有良好的泛化性能。
極端學(xué)習(xí)機 激活函數(shù) 微分同胚
近來Huang等人[1-3]基于單隱層前饋神經(jīng)網(wǎng)絡(luò)SLFNs結(jié)構(gòu)提出了一種極端學(xué)習(xí)機ELM算法[4]。與現(xiàn)有的神經(jīng)網(wǎng)絡(luò)算法相比,ELM隨機產(chǎn)生隱層節(jié)點的輸入權(quán)值和偏置值,在所有的參數(shù)中僅有輸出權(quán)值是經(jīng)過分析確定,通過平方損失誤差函數(shù)將求解輸出權(quán)值轉(zhuǎn)化為最小二乘解問題。文獻[5-7]通過分析指出ELM在隨機產(chǎn)生隱層節(jié)點的輸入權(quán)值和偏置值,分析確定輸出權(quán)值保持了SLFNs的通用逼近能力。與基于梯度思想的方法相比,ELM具有更高的效率和更好的泛化能力[8-10],與支持向量機SVM的二次規(guī)劃問題相比ELM采用最小二乘解具有非常快的求解速度。實際的研究中已經(jīng)證實ELM與SVM及其改進相比具有更好的泛化能力[11-12]。在過去的十幾年里ELM在理論和應(yīng)用方面都得到了長足的發(fā)展,文獻[13]進一步證實了ELM的通用逼近能力。文獻[14]在統(tǒng)計學(xué)習(xí)理論框架下進一步探究了ELM的泛化能力,對于具體問題的特殊需求已在ELM算法的基礎(chǔ)上提出了各種改進,例如將ELM應(yīng)用于在線連續(xù)數(shù)據(jù)學(xué)習(xí)[15-17]、不平衡數(shù)據(jù)學(xué)習(xí)[18]、噪音及缺失數(shù)據(jù)[19-20]和人臉識別[21]問題等。除了ELM可以應(yīng)用到傳統(tǒng)的回歸和分類問題中,近年來研究者已將ELM應(yīng)用于聚類[22]、特征提取[23]和表征學(xué)習(xí)中[24]。
雖然ELM在模式識別和機器學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用,但該算法并沒有充分考慮到隱層節(jié)點輸出矩陣對極端學(xué)習(xí)機分類性能和泛化能力的影響,文獻[25]通過分析指出,當(dāng)隱層節(jié)點輸出矩陣存在不適定問題時(隱層節(jié)點輸出值包含非常多的零元素),將導(dǎo)致輸出權(quán)值矩陣求解不準(zhǔn),造成過擬合的現(xiàn)象,從而影響ELM的分類性能和泛化能力。隱層節(jié)點輸出矩陣存在不適定問題的主要原因是由于激活函數(shù)選取不當(dāng)及數(shù)據(jù)樣本維數(shù)過高。通過實驗發(fā)現(xiàn)數(shù)據(jù)樣本維數(shù)較高時,若利用Sigmoid函數(shù)和高斯函數(shù)作為激活函數(shù)處理人臉數(shù)據(jù),隱層節(jié)點輸出矩陣將會包含非常多接近零的元素,導(dǎo)致輸出權(quán)值矩陣求解不準(zhǔn),降低ELM的分類性能和泛化能力。為了解決激活函數(shù)導(dǎo)致隱層節(jié)點輸出矩陣的病態(tài)問題,本文在Sigmoid函數(shù)的基礎(chǔ)上提出一種微分同胚優(yōu)化及魯棒激活函數(shù)DRAF(Diffeomorphic optimized robust activation function)的極端學(xué)習(xí)機算法(簡稱為DRAFELM)。該算法結(jié)合微分同胚技術(shù)提高激活函數(shù)的魯棒性,利用降維技術(shù)消除數(shù)據(jù)樣本包含的冗余屬性對激活函數(shù)的影響,同時利用微分同胚優(yōu)化激活函數(shù)有效避免隱層節(jié)點輸出矩陣存在不適定問題;利用改進的降維方法獲取數(shù)據(jù)的局部和全局信息,進而提高ELM的泛化能力。
本文所提的算法改進包括:
(1) 所提出的激活函數(shù)(DRAF)將Sigmoid激活函數(shù)中的輸入權(quán)值及隱層節(jié)點偏置值與數(shù)據(jù)樣本間的計算關(guān)系轉(zhuǎn)化為余弦度量,進而將這種余弦度量關(guān)系映射到微分同胚空間。微分同胚空間能夠很好地保持?jǐn)?shù)據(jù)樣本之間的內(nèi)在流形特征,有效避免數(shù)據(jù)樣本維數(shù)過高以及數(shù)據(jù)樣本含有的噪音和離群點對Sigmoid激活函數(shù)的影響,提高ELM的泛化性能。
(2) 提出一種有監(jiān)督稀疏排列的局部保持投影降維算法SSLPP(surprised sparse locality preserving projections)。SSLPP通過計算數(shù)據(jù)的鄰域信息動態(tài)確定數(shù)據(jù)局部線性化鄰域范圍,準(zhǔn)確獲取數(shù)據(jù)的全局和局部的判別信息。該方法克服了傳統(tǒng)降維算法對數(shù)據(jù)樣本學(xué)習(xí)不充分的問題,能有效消除數(shù)據(jù)樣本包含的冗余屬性對激活函數(shù)的影響,進而可以有效避免隱層節(jié)點輸出矩陣的不適定問題。
為驗證所提算法的有效性,實驗使用Yale、Yale B、ORL、UMIST人臉數(shù)據(jù),結(jié)果表明本文的改進算法能夠顯著提高ELM的分類性能和泛化能力。
文獻[26]指出非線性分段連續(xù)函數(shù)作為激活函數(shù)常用的有以下幾種。
(1) Sigmoid函數(shù):
(1)
(2) Hard-limit函數(shù):
(2)
(3) Gaussian函數(shù):
G(a,b,x)=exp(-b‖x-a‖2)
(3)
由式(1)-式(3)可知,上述三種激活函數(shù)的界為[0,1],對于任意數(shù)據(jù)樣本x不可避免地出現(xiàn)隱層節(jié)點輸出值為零的情況,只有當(dāng)數(shù)據(jù)分布近似滿足所選定的激活函數(shù)分布時,ELM應(yīng)用相應(yīng)的激活函數(shù)才能夠取得良好的效果;反之,激活函數(shù)的輸出值會非常小,即隱層節(jié)點輸出矩陣含有很多接近零的元素,當(dāng)數(shù)據(jù)樣本維數(shù)過高時上述情況將會更加嚴(yán)重。
由以上分析可知Sigmoid函數(shù)、Hard-limit函數(shù)、Gaussian函數(shù)都有可能使隱層矩陣輸出值為零,下面通過例子說明上述情況。
圖1 樣本A在激活函數(shù)下的輸出值分布
圖2 樣本B在激活函數(shù)下的輸出值分布
由圖1和圖2可以看出對于均勻分布的數(shù)據(jù)樣本A和B,Sigmoid函數(shù)、Hard-limit函數(shù)、Gaussian函數(shù)都在不同程度上出現(xiàn)了激活函數(shù)輸出值為零的情況,由圖中(b)可以看出上述情況更加嚴(yán)重,這將會導(dǎo)致隱層節(jié)點輸出矩陣出現(xiàn)病態(tài)問題,從而使輸出權(quán)值過大,出現(xiàn)過擬合學(xué)習(xí)。DRAF的值維持在(0.2,0.75),很好地避免了隱層節(jié)點輸出矩陣出現(xiàn)病態(tài)問題。
2.1ELM基本概念
對于N個不同的樣本(xj,tj),可表示為X=(x1,x2,…,xN)T∈RD×N,其中tj=(tj1,tj2,…,tjm)T∈Rm,具有L個隱層節(jié)點激活函數(shù)為g(x)的ELM模型如下形式:
(4)
其中j=1,2,…,N,ai=(ai1,ai2,…,ain)為連接第i個隱層節(jié)點與輸入節(jié)點的輸入權(quán)值向量,βi=(βi1,βi2,…,βim)為連接第i個隱層節(jié)點與輸出節(jié)點的輸出權(quán)值向量,bi為第i個隱層節(jié)點的偏置值,ai·xj表示ai和xj的內(nèi)積,tj=(tj1,tj2,…,tjm)T∈Rm為對應(yīng)于樣本xj的期望輸出向量,對所有數(shù)據(jù)樣本進行整合,式(4)可以改寫為如下形式:
Hβ=T
(5)
其中H是網(wǎng)絡(luò)隱層節(jié)點輸出矩陣,β為輸出權(quán)值矩陣,T為期望輸出矩陣:
(6)
(7)
當(dāng)隱層節(jié)點個數(shù)和訓(xùn)練樣本個數(shù)相同時(即L=N)我們可以通過式(5)直接求矩陣H的逆矩陣得到最優(yōu)的輸出權(quán)值矩陣β,但大多情況下隱層節(jié)點的個數(shù)遠(yuǎn)小于訓(xùn)練樣本的個數(shù),此時矩陣H為奇異矩陣,我們利用最小二乘解的方法對式(5)進行求解:
(8)
其中H+為矩陣H的廣義逆。
(9)
式中,ξi=(ξi1,…,ξ1m)T為對應(yīng)于樣本xi的訓(xùn)練誤差向量,C為懲罰參數(shù)。式(9)的求解可通過拉格朗日方法轉(zhuǎn)化為無條件最優(yōu)化問題進行求解。因此ELM算法求解過程可總結(jié)步驟如下:
(1) 初始化訓(xùn)練樣本集;
(2) 隨機指定網(wǎng)絡(luò)輸入權(quán)值a和偏置值b;
(3) 通過激活函數(shù)計算隱層節(jié)點輸出矩陣H;
2.2 微分同胚優(yōu)化及魯棒激活函數(shù)的極端學(xué)習(xí)機(DRAFELM)
及時清除溫室內(nèi)病蟲害的葉片、果實,減少病蟲害發(fā)生的污染源,并將之深埋或燒毀。同時對相應(yīng)區(qū)域及時滅菌與消毒,主要包含棚架、栽培器材以及土壤等。
2.2.1DRAF的提出
為了使激活函數(shù)對數(shù)據(jù)樣本維數(shù)過高及噪音具有更強的抗干擾能力,避免隱層節(jié)點輸出矩陣輸出值為零,提高ELM的泛化性能,本文在Sigmoid的基礎(chǔ)上提出一種基于微分同胚思想的魯棒激活函數(shù)(DRAF)。
微分同胚[27]是建立在李群上的一個空間。李群空間具有光滑流形和群的特點。李群與李代數(shù)具有對應(yīng)關(guān)系。李代數(shù)是一種代數(shù)結(jié)構(gòu),李群在單位元e處的切空間是李代數(shù)的向量空間。李群在單位元附近的局部性狀由李代數(shù)刻畫,在指數(shù)映射作用下可以將李代數(shù)的性質(zhì)提升到李群的層次。指數(shù)映射exp(·)是一個從李代數(shù)g中0的鄰域到李群G中單位元e的鄰域的微分同胚。設(shè)e1,e2,…,en是單位元e處切空間D(G)的一組基在局部坐標(biāo)系中對t∈G鄰域中的任意元素x,存在一個切空間的向量μ=∑iμiei∈De(G),使得x=t·exp(μ)。于是李群G上某一光滑函數(shù)在x處的泰勒展開式為:
(10)
微分同胚將隱層節(jié)點輸出矩陣映射到同胚空間能夠很好地保持?jǐn)?shù)據(jù)的流形信息,因此基于微分同胚思想的魯棒激活函數(shù)形式如下:
temph=ax+b
(11)
(a為輸入權(quán)值,b為隱層節(jié)點偏置值,x為輸入樣本)
(12)
將I代入式(10)可得:
f(I) =f[t·exp(u)]
2.2.2 構(gòu)造新的降維算法
現(xiàn)實中很多數(shù)據(jù)樣本具有較高的維數(shù),高維數(shù)據(jù)包含的冗余屬性減弱了激活函數(shù)的魯棒性,從而導(dǎo)致隱層節(jié)點輸出矩陣的不適定問題。為此,本文提出一種有監(jiān)督稀疏排列的局部保持投影降維算法。
對于稀疏的人臉圖像數(shù)據(jù)樣本集,樣本間重疊的信息量非常少,若利用傳統(tǒng)降維算法學(xué)習(xí)稀疏樣本集,則會導(dǎo)致欠學(xué)習(xí)的現(xiàn)象。為此,通過擴大k鄰域為k-N(i)區(qū)域?qū)υ紨?shù)據(jù)集進行區(qū)域信息加強,如圖3所示,k-N(xi)區(qū)域為N(xi)及其對應(yīng)的k近鄰點構(gòu)成,這使得在數(shù)據(jù)樣本集較少的情況下,同樣能夠?qū)崿F(xiàn)重疊信息量非常充分的流形學(xué)習(xí)效果,進而實現(xiàn)流形學(xué)習(xí)算法對人臉圖像數(shù)據(jù)判別信息的有效提取。通過全局優(yōu)化的方法對N(xi)及其對應(yīng)的k近鄰點構(gòu)成的信息域進行優(yōu)化。
圖3 以xi為中心的k-N(i)域
希望k-N(i)鄰域降維后樣本的鄰域關(guān)系盡可能保持不變,則第i個樣本鄰域最小化目標(biāo)函數(shù)為:
(13)
(14)
式中,c為所有樣本的類別總數(shù),uT為投影變換矩陣。依據(jù)文獻[28]對局部保持投影算法LPP(localitypreservingprojection)推導(dǎo)過程,對式(14)進行整理得:
(15)
其中Yi=[yi1,…,yik],el=[1,…,1]T,Il∈Rl×l的單位矩陣,L為拉普拉斯矩陣。有監(jiān)督稀疏排列的局部保持投影降維算法SSLPP(surprisedsparselocalitypreservingprojections)保持了LPP[29]算法原有的框架,因此優(yōu)化條件可寫為:
minε(u)=tr(uTXLXTu)s.t. uTXDXTu=I
(16)
其中Dii=∑jwij利用拉格朗日乘子法對式(16)進行求解可得:
XLXTu=λXDXTu
(17)
對矩陣XLXT和XDXT進行特征值分解,得到特征向量矩陣為U=[u1,u2,…,uN]。從特征向量矩陣中選取的第2到第d+1個最小特征值對應(yīng)的特征向量,即:[u2,u3,…,ud+1]T,則由y=uTx得到SSLPP算法。
2.2.3DRAFELM算法
微分同胚優(yōu)化及魯棒激活函數(shù)的極端學(xué)習(xí)機DRAFELM算法的步驟如下:
(1) 初始化訓(xùn)練樣本集,利用式(17)對數(shù)據(jù)集進行降維,得到數(shù)據(jù)集的低維表示Y;
(2) 隨機指定網(wǎng)絡(luò)輸入權(quán)值a和偏置值b;
(3) 利用DRAF計算ELM的隱層輸出矩陣H;
(4) 計算輸出權(quán)值β。
為了驗證本文方法的有效性,本文從兩方面進行實驗,一方面采用激活函數(shù)Gaussian,Sigmoid,Hard-limit,DRAF與三種降維算法SSLPP、PCA[30]、LPP[29]和LPANMM[31]結(jié)合在人臉數(shù)據(jù)集上進行對比實驗,將本文提出的魯棒激活函數(shù)DRAF與Gaussian、Sigmoid和Hard-limit函數(shù)進行對比,其次將本文提出的降維算法SSLPP與PCA、LPP和LPANMM進行對比。另一方面從ELM算法的角度,將本文提出的DRAFELM算法與ELM、MCVELM[32]、GELM[21](均采用激活函數(shù)Sigmoid)進行對比實驗。為了實驗的公平性,本次實驗中四種不同ELM算法的隱層節(jié)點均設(shè)置為200,懲罰參數(shù)設(shè)置為C=25。所用電腦為惠普工作站,處理器:Intel(R)Xeon(R)CPUE5-1603 0 @2.80GHz,內(nèi)存:8.00GB,操作系統(tǒng):MicrosoftWindows7(64位)。所使用的不同人臉庫圖像如圖4所示,4個不同人臉數(shù)據(jù)庫在人臉識別實驗中的參數(shù)設(shè)置如表1所示。
圖4 不同人臉圖像的訓(xùn)練集
DatasetsDimSamplessamples/subjectClassesYale10241651115YaleB102424145538ORL10244001040UMIST103045791820
3.1 不同激活函數(shù)及不同降維算法的比較
本節(jié)中分別采用Sigmoid,Hard-limit,Gaussian,DRAF激活函數(shù)函數(shù)應(yīng)用于3個不同人臉數(shù)據(jù)庫,并且進一步對比了LPP,PCA及LPANMM與SSLPP降維算法降至不同維度的識別率,識別率曲線如圖5-圖7所示及識別率如表2所示。(實驗中ELM算法的隱層節(jié)點個數(shù)設(shè)置為200,懲罰參數(shù)設(shè)置為C=25。訓(xùn)練集和測試集分別為總數(shù)據(jù)樣本的1/2)。
圖5 ORL人臉數(shù)據(jù)識別率曲線
圖6 UMIST人臉數(shù)據(jù)識別率曲線
圖7 Yale人臉數(shù)據(jù)識別率曲線
DatasetActivationFunctionLPPPCALPANMMSSLPPORLGaussian35.40±7.2043.30±9.5426.65±6.2691.65±4.37Sigmoid35.60±11.0353.30±4.7546.20±8.5297.25±1.06Hard-limit22.60±4.0552.00±4.0748.85±7.6097.30±1.06DRAF36.95±11.9285.00±4.6974.40±13.35100.00±0.00UMISTGaussian64.34±9.1851.44±10.7845.67±15.3885.33±3.51Sigmoid58.94±11.8282.61±2.8376.33±4.8693.39±1.95Hard-limit58.17±11.1279.67±3.3376.33±5.1292.94±1.78DRAF63.28±14.7184.66±2.3479.72±3.7097.89±0.94YaleGaussian27.60±5.3040.27±6.9432.93±7.7598.40±1.05Sigmoid19.60±7.0844.53±5.1939.87±6.5597.07±1.23Hard-limit18.00±2.9743.47±6.7840.53±3.9996.27±1.05DRAF29.07±6.1855.60±6.4151.73±5.2598.80±1.17
圖5-圖7給出了分別采用Gaussian、Sigmoid、Hard-limit和DRAF激活函數(shù),與SSLPP、LPP、PCA和LPANMM三種降維算法結(jié)合在ORL、UMIST和Yale人臉數(shù)據(jù)集的識別率曲線。從激活函數(shù)角度由圖5-圖7可以看出DRAF的識別率曲線顯著高于其他激活函數(shù)的識別率曲線,從而可以證實DRAF的魯棒性。由圖5-圖7還可以看出Sigmoid和Hard-limit激活函數(shù)的識別率曲線比較接近,在PCA和LPANMM降維識別率曲線中可以看出隨著數(shù)據(jù)維數(shù)的增大,Gaussian函數(shù)的識別率曲線出現(xiàn)下降的趨勢,這也驗證了對于維數(shù)過高的數(shù)據(jù)樣本在激活函數(shù)選取不當(dāng)?shù)那闆r下導(dǎo)致隱層節(jié)點輸出矩陣出現(xiàn)病態(tài)問題。從降維的角度,圖5-圖7可以看出本文所提降維算法的識別率曲線遠(yuǎn)高于LPP、PCA和LPANMM降維算法的識別率曲線。這主要是由于SSLPP通過計算人臉圖像數(shù)據(jù)的鄰域信息動態(tài)確定人臉圖像數(shù)據(jù)局部線性化鄰域范圍,準(zhǔn)確獲取人臉圖像數(shù)據(jù)的全局和局部的判別信息。因此,克服了傳統(tǒng)降維算法對數(shù)據(jù)樣本學(xué)習(xí)不充分的問題,有效消除數(shù)據(jù)樣本包含的冗余屬性對激活函數(shù)的影響,避免了隱層節(jié)點輸出矩陣的不適定問題,從而提高了ELM的分類性能和泛化性能。表2給出了ORL、UMIST和Yale人臉數(shù)據(jù)集的識別率,從表2可以看出DRAF的識別率普遍高于其他激活函數(shù)的識別率并且SSLPP的識別率高于PCA和LPANMM降維算法的識別率。
3.2 DRAFELM與ELM及其改進算法比較
實驗將DRAFELM與ELM、MCVELM[32]和GELM[21]進行對比。ELM、MCVELM和GELM均采用Sigmoid函數(shù)作為激活函數(shù),實驗使用Yale、Yale B、ORL和UMIST人臉數(shù)據(jù),實驗結(jié)果如圖8及表3所示(為了實驗的公平性,實驗中不同ELM算法的隱層節(jié)點個數(shù)設(shè)置為200,懲罰參數(shù)設(shè)置為C=25,圖8中TrainNum表示訓(xùn)練樣本個數(shù))。
圖8 ELM,MCVELM,GELM, DRAFELM識別率曲線
DatasetELMMCVELMGELMDRAFELMMaxAverageMaxAverageMaxAverageMaxAverageORL65.0042.8987.5066.5787.5071.4499.1793.54UMIST85.0073.0790.0078.7790.0077.5693.5787.79Yale40.0029.2566.6754.2664.0046.2486.6771.22YaleB74.7453.8896.8483.5396.3285.4196.3288.78
圖8和表3給出了ELM及其改進算法在ORL、UMIST、Yale和Yale B人臉數(shù)據(jù)集的識別率曲線及識別率,從圖8和表3可以看出DRAFELM的識別率顯著高于其他算法的識別率,進一步驗證了本文算法DRAFELM的魯棒性。
為了有效避免隱層節(jié)點輸出矩陣的病態(tài)問題,本文提出一種微分同胚優(yōu)化的魯棒激活函數(shù)的極端學(xué)習(xí)機算法。本文的創(chuàng)新是考慮到當(dāng)激活函數(shù)選取不當(dāng)及數(shù)據(jù)樣本維數(shù)過高將導(dǎo)致隱層節(jié)點輸出值趨于零,使得輸出權(quán)值矩陣求解不準(zhǔn),造成過擬合的現(xiàn)象,因此在Sigmoid函數(shù)的基礎(chǔ)上提出一種微分同胚優(yōu)化的魯棒激活函數(shù)。DRAF將Sigmoid激活函數(shù)中的輸入權(quán)值及隱層節(jié)點偏置值與數(shù)據(jù)樣本間的計算關(guān)系轉(zhuǎn)化為余弦度量,進而將這種余弦度量關(guān)系映射到微分同胚空間。為了解決數(shù)據(jù)樣本維數(shù)過高將導(dǎo)致隱層節(jié)點輸出值趨于零的問題,提出一種有監(jiān)督稀疏排列的局部保持投影降維算法。通過計算數(shù)據(jù)的鄰域信息動態(tài)確定數(shù)據(jù)局部線性化鄰域范圍,準(zhǔn)確獲取人臉圖像數(shù)據(jù)的全局和局部的判別信息。通過實驗結(jié)果表明,本文所提出的方法顯著提高了極端學(xué)習(xí)機的分類性能和泛化能力并且優(yōu)于其他算法。
[1] Feng G,Huang G B,Lin Q.Error minimized extreme learning machine with growth of hidden nodes and incremental learning[J].IEEE Transactions on Neural Networks,2009,20(8):1352-1357.
[2] Tang J,Deng C,Huang G B.Extreme learning machine for multilayer perceptron[J].IEEE Transactions on Neural Networks and Learning Systems,2015(99):1-13.
[3] Huang G B,Zhou H M,Ding X J,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42(2):513-529.
[4] Rajesh R,Prakash J S.Extreme learning machines-A Review and State-of-the-art[J].International Journal of Wisdom based Computing,2011,1:35-49.
[5] Huang G B,Chen L,Siew C K.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Trans.Neural Netw.,2006,17(4):879-892.
[6] Huang G B,Chen Y Q,Babri H A.Classification ability of single hidden layer feedforward neural networks[J].IEEE Trans.Neural Netw.,2000,11(3):799-801.
[7] Zhang R,Lan Y,Huang G B,et al.Universal approximation of extreme learning machine with adaptive growth of hidden nodes[J].IEEE Trans.Neural Netw.Learn.Syst.,2012,23(2):365-371.
[8] Wang Y,Cao F,Yuan Y.A study on effectiveness of extreme learning machine[J].Neurocomputing,2011,74(16):2483-2490.
[9] Wang X,Chen A,Feng H.Upper integral network with extreme learning mechanism[J].Neurocomputing,2011,74(16):2520-2525.
[10] Shi L C,Lu B L.EEG-based vigilance estimation using extreme learning machines[J].Neurocomputing,2013,102:135-143.
[11] FernándezDelgado M,Cernadas E,Barro S,et al.Direct kernel perceptron (DKP):Ultra-fast kernel ELM-based classification with noniterative closed-form weight calculation[J].Neural Networks,2014,50:60-71.
[12] Huang G,Song S J.Semi-supervised and unsupervised extreme learning machines[J].IEEE Transactions on Cybernetics,2014,44(12):2405-2417.
[13] Huang G B,Zhou H M,Ding X J,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42(2):513-529.
[14] Liu X Y,Gao C H,Li P.A comparative analysis of support vector machines and extreme learning machines[J].Neural Netw.,2012,33:58-66.
[15] Zhao J W,Wang Z H,Park D S.Online sequential extreme learning machine with forgetting mechanism[J].Neurocomputing,2012,87:79-89.
[16] Rong H J,Huang G B,Sundararajan N,et al.Online sequential fuzzy extreme learning machine for function approximation and classification problems[J].IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics,2009,39(4):1067-1072.
[17] Liang N Y,Huang G B,Saratchandran P,et al.A fast and accurate online sequential learning algorithm for feedforward networks[J].IEEE Transactions on Neural Networks,2006,17(6):1411-1423.
[18] Zong W W,Huang G B,Chen Y.Weighted extreme learning machine for imbalance learning[J].Neurocomputing,2013,101:229-242.
[19] Yu Q,Miche Y,Eirola E,et al.Regularized extreme learning machine for regression with missing data[J].Neurocomputing,2013,102:45-51.
[20] Man Z H,Wang D H,Cao Z W,et al.Robust single-hidden layer feedforward network-based pattern classifier[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(12):1974-1986.
[21] Peng Y,Lu B L.Discriminative graph regularized extreme learning machine and its application to face recognition[J].Neurocomputing,2015,149:340-353.
[22] Huang G,Song S J.Semi-supervised and unsupervised extreme learning machines[J].IEEE Transactions on Cybernetics,2014,44(12):2405-2417.
[23] Benoit F,van Heeswijk M,Miche Y,et al.Feature selection for nonlinear models with extreme learning machines[J].Neurocomputing,2013,102:111-124.
[24] Kasun L L C,Huang G B,Zhou H M.Representational learning with ELMs for big data[J].IEEE Intelligent Systems,2013,28(5):31-34.
[25] 韓敏,李德才.基于替代函數(shù)及貝葉斯框架的1范數(shù)ELM算法[J].自動化學(xué)報,2011,37(11):1345-1350.
[26] Huang G B.An insight into extreme learning machines:random neurons,random features and kernels[J].Cogn Comput,2014,6:376-390.
[27] 徐挺,劉偉,李傳富,等.基于Demons的微分同胚非剛性配準(zhǔn)研究[J].北京生物醫(yī)學(xué)工程,2009,29(1):50-52.
[28] Zhang T H,Tao D H.Patch Alignment for Dimensionality Reduction[J].IEEE Transactions On Knowledge and Data Engineering,2009,21(9):1299-1313.
[29] He X F,Niyogi P.Locality preserving projections[C].Advances in neural information processing systems,2004:153-160.
[30] Zong W W,Huang G B.Face recognition based on extreme learning machine[J].Neurocomputing,2011,74:2541-2551.
[31] Chen X M,Liu W Q,Lai J H.Face recognition via local preserving average neighborhood margin maximization and extreme learning machine[J].Soft Comput,2012,16:1515-1523.
[32] Iosifidis A,Tefas A.Minimum Class Variance Extreme learning machine for Human Action Recognition[J].IEEE Transactions on Circuits and Systems for Video Technology,2013,23(11):1968-1979.
FACE RECOGNITION USING OPTIMIZED EXTREME LEARNING MACHINE BASED ON DIFFEOMORPHISM
Li Li’na Yan Deqin Chu Yonghe
(SchoolofComputerandInformationTechnology,LiaoningNormalUniversity,Dalian116081,Liaoning,China)
Extreme learning machine (ELM) has been widely applied in the field of pattern recognition for its efficient and good generalization ability. However, the current ELM and its improved algorithm have not considered the effect of hidden layer nodes’ output matrix on the generalization ability of extreme learning machine. Through experiments we find that when the activation function is improperly selected and the data sample dimension is too high, it will result in output value of hidden layer node tending to zero. It comes to make the solution of output weight matrix inaccurate and reduce the classification performance of ELM. In order to solve these problems, an optimized extreme learning machine algorithm based on diffeomorphism is proposed. The algorithm combines techniques of diffeomorphism and dimensionality reduction to improve the robustness of activation functions and overcome the problem that the output value of hidden layer nodes tends to zero. In order to evaluate the validity of the proposed algorithm, face data is used to implement experiments. Experimental results show that the proposed algorithm has a good generalization performance.
Extreme learning machine Activation function Diffeomorphism
2016-03-22。國家自然科學(xué)基金項目(61105085,61373127)。李麗娜,碩士生,主研領(lǐng)域:數(shù)據(jù)降維,機器學(xué)習(xí)。閆德勤,教授。楚永賀,碩士生。
TP18
A
10.3969/j.issn.1000-386x.2017.04.029