最大相關(guān)熵準(zhǔn)則下多層極端學(xué)習(xí)機(jī)的批量編碼

2020-04-11 02:54:46劉兆倫王衛(wèi)濤張春蘭

小型微型計(jì)算機(jī)系統(tǒng) 2020年4期

劉兆倫，武尤，王衛(wèi)濤，張春蘭，吳超，劉彬，

1(燕山大學(xué) 河北省特種光纖與光纖傳感重點(diǎn)實(shí)驗(yàn)室，河北秦皇島 066004)2(燕山大學(xué) 信息科學(xué)與工程學(xué)院，河北秦皇島 066004)3(燕山大學(xué) 電氣工程學(xué)院，河北秦皇島 066004)

1 引言

近年來(lái)，為了克服基本極端學(xué)習(xí)機(jī)(extreme learning machine，ELM)及其改進(jìn)算法提取特征能力差[1]，難以有效處理圖像、視頻等自然信號(hào)的問題[2]，基于稀疏編碼的多層極端學(xué)習(xí)機(jī)(HELM)作為一種多層神經(jīng)網(wǎng)絡(luò)被提出[3]，其與傳統(tǒng)的疊加式自動(dòng)編碼器(SAE)相比，訓(xùn)練時(shí)間可以從小時(shí)縮短到秒[4]，在圖像處理[5-8]和非線性模型辨識(shí)[9，10]等領(lǐng)域得到了廣泛的研究.但在其應(yīng)用過(guò)程中，HELM暴露出一些明顯且公認(rèn)的缺點(diǎn)，即其在進(jìn)行大樣本數(shù)據(jù)集學(xué)習(xí)時(shí)所產(chǎn)生的巨大運(yùn)行內(nèi)存需求，以及當(dāng)訓(xùn)練集中存在噪聲等異常數(shù)據(jù)時(shí)，HELM的學(xué)習(xí)效果變差且過(guò)擬合現(xiàn)象明顯.

HELM在運(yùn)行過(guò)程中內(nèi)存占用較大的主要原因是：為保證HELM的學(xué)習(xí)精度，其決策層中的隱含層神經(jīng)元數(shù)量往往需要被設(shè)置得很大，這使得參與計(jì)算的特征矩陣維度升高，從而導(dǎo)致運(yùn)行內(nèi)存需求的劇增.目前學(xué)者們針對(duì)HELM內(nèi)存需求大的問題也多從降低決策層特征矩陣維度這個(gè)角度出發(fā)，通過(guò)PCA等多種算法實(shí)現(xiàn)對(duì)HELM的決策層隱含神經(jīng)元數(shù)量的縮減來(lái)提出改進(jìn)，如Wong Chi-man等將核學(xué)習(xí)引入HELM中來(lái)減小運(yùn)行內(nèi)存[11]；Zhou Hong-ming等人利用主成分分析法逐層對(duì)隱含層輸出的特征矩陣進(jìn)行降維以降低內(nèi)存占用[12]；Henríquez等人提出一種基于Garson算法的非迭代方法對(duì)隱含層神經(jīng)元進(jìn)行剪枝實(shí)現(xiàn)降低運(yùn)行內(nèi)存的目的[13].盡管這些方法均實(shí)現(xiàn)了減少運(yùn)行內(nèi)存的目的，但是增加的算法無(wú)疑會(huì)導(dǎo)致計(jì)算復(fù)雜度的上升和模型結(jié)構(gòu)復(fù)雜度的增加，從而使運(yùn)算時(shí)間變長(zhǎng)、學(xué)習(xí)速度變慢.針對(duì)這一問題，Liang Nan-ying等人提出的一種在線極端學(xué)習(xí)機(jī)[14]，可以實(shí)時(shí)根據(jù)新到來(lái)的數(shù)據(jù)對(duì)輸出層權(quán)重矩陣進(jìn)行矯正更新，給極端學(xué)習(xí)機(jī)處理大樣本數(shù)據(jù)提供了一種將訓(xùn)練數(shù)據(jù)分批次進(jìn)行學(xué)習(xí)的方法，也為降低多層極端學(xué)習(xí)的模型復(fù)雜度提供了思路.

HELM在訓(xùn)練集中存在噪聲等異常數(shù)據(jù)時(shí)，學(xué)習(xí)效果變差且易發(fā)生過(guò)擬合現(xiàn)象的原因是：HELM中的最小均方差準(zhǔn)則(MMSE)默認(rèn)數(shù)據(jù)誤差呈高斯分布[15]，這在實(shí)際應(yīng)用數(shù)據(jù)中這樣的假設(shè)明顯是不合理的.針對(duì)這個(gè)問題Xing Hong-jie等人提出了基于相關(guān)熵準(zhǔn)則(MMC)的極端學(xué)習(xí)機(jī)[16]，提升了極端學(xué)習(xí)機(jī)應(yīng)對(duì)異常數(shù)據(jù)的性能，降低模型對(duì)異常點(diǎn)的敏感性從而改善模型的過(guò)擬合問題.如Chen Liang-jun等人，用MCC準(zhǔn)則代替?zhèn)鹘y(tǒng)多層極端學(xué)習(xí)機(jī)(multilayer extreme learning machines，ML-ELM)決策層中的MMSE準(zhǔn)則，使ML-ELM的魯棒性和過(guò)擬合現(xiàn)象得到改善[3].唐哲等人將MCC準(zhǔn)則應(yīng)用于半監(jiān)督學(xué)習(xí)算法中，有效地提高了半監(jiān)督學(xué)習(xí)算法的學(xué)習(xí)性能[17].Luo Xiong等人將一種堆疊式多層極端學(xué)習(xí)機(jī)(stacked extreme learning machine，S-ELM)中的MMSE準(zhǔn)則替換為MCC準(zhǔn)則，實(shí)現(xiàn)了S-ELM學(xué)習(xí)精度的進(jìn)一步提高[18].這都為本文將MCC準(zhǔn)則引入HELM決策層提供了理論基礎(chǔ)和方法指導(dǎo).

根據(jù)上述多層極端學(xué)習(xí)機(jī)現(xiàn)存的問題和在線極端學(xué)習(xí)機(jī)、相關(guān)熵準(zhǔn)則等方法的啟發(fā)，本文提出一種基于最大相關(guān)熵準(zhǔn)則的批量編碼式多層極端學(xué)習(xí)機(jī).在原始多層極端學(xué)習(xí)機(jī)的決策層中引入最大相關(guān)熵準(zhǔn)則，構(gòu)建基于最大相關(guān)熵準(zhǔn)則的多層極端學(xué)習(xí)機(jī).基于最大相關(guān)熵準(zhǔn)則的多層極端學(xué)習(xí)機(jī)(MCC-HELM)分批次對(duì)由大數(shù)據(jù)集分解得到的多個(gè)小數(shù)據(jù)集進(jìn)行學(xué)習(xí)，接著利用在線極端學(xué)習(xí)機(jī)的方法，將多個(gè)批次的學(xué)習(xí)數(shù)據(jù)，在MCC-HELM的決策層實(shí)現(xiàn)融合，構(gòu)成基于最大相關(guān)熵準(zhǔn)則的批量編碼式多層極端學(xué)習(xí)機(jī)(BC-HELM)，并得到最終的學(xué)習(xí)結(jié)果.最后通過(guò)仿真實(shí)驗(yàn)確定其網(wǎng)絡(luò)參數(shù)并通過(guò)與其他多層極端學(xué)習(xí)機(jī)對(duì)比來(lái)驗(yàn)證其性能.

2 基于最大相關(guān)熵準(zhǔn)則的批量編碼式多層極端學(xué)習(xí)機(jī)

2.1 多層極端學(xué)習(xí)機(jī)與最大相關(guān)熵準(zhǔn)則的結(jié)合

原始多層極端學(xué)習(xí)機(jī)由兩部分組成：基于稀疏自動(dòng)編碼器的無(wú)監(jiān)督特征學(xué)習(xí)和基于傳統(tǒng)極端學(xué)習(xí)機(jī)的有監(jiān)督?jīng)Q策[19].而決策層中傳統(tǒng)極端學(xué)習(xí)機(jī)是基于MMSE準(zhǔn)則來(lái)建立目標(biāo)函數(shù)的，由于該準(zhǔn)則對(duì)異常點(diǎn)極為敏感，傳統(tǒng)極端學(xué)習(xí)機(jī)在應(yīng)用過(guò)程中極易出現(xiàn)過(guò)擬合現(xiàn)象.于是本文將原始多層極端學(xué)習(xí)機(jī)決策層中的MMSE準(zhǔn)則使用MCC準(zhǔn)則代替，設(shè)輸入的訓(xùn)練樣本數(shù)為S，隱含層神經(jīng)元個(gè)數(shù)為L(zhǎng)到，得到新的目標(biāo)函數(shù)：

(1)

(2)

式(2)中σ為尺度因子，τ為正則化參數(shù)。針對(duì)上述非線性優(yōu)化問題，采用半二次優(yōu)化技術(shù)通過(guò)迭代方法進(jìn)行求解，目標(biāo)函數(shù)為：

(3)

對(duì)式(3)進(jìn)行求導(dǎo)得到：

(4)

根據(jù)半二次優(yōu)化技術(shù)中的共軛凸函數(shù)理論[20]，式(4)中的高斯核的部分暫時(shí)使用對(duì)角矩陣中Λ表示即：

(5)

于是式(4)整理為矩陣形式變?yōu)椋?/p>

(6)

由于多層極端學(xué)習(xí)機(jī)是針對(duì)大樣本數(shù)據(jù)集的處理提出的，因此本文默認(rèn)訓(xùn)練樣本數(shù)遠(yuǎn)遠(yuǎn)大于隱含層神經(jīng)元的數(shù)目，則對(duì)式(6)進(jìn)行求解得到輸出權(quán)值矩陣的表達(dá)式為：

β=[2τσ2I+HTΛH]-1HTΛT

(7)

于是得到迭代表達(dá)式：

(8)

式(8)中的對(duì)角矩陣Λ是根據(jù)半二次優(yōu)化技術(shù)中的共軛凸函數(shù)理論建立的，來(lái)表示目標(biāo)函數(shù)中高斯核的部分.其中對(duì)角矩陣Λt+1中的Λii對(duì)應(yīng)第i組數(shù)據(jù)通過(guò)上一次迭代得到的輸出權(quán)重βt而求得的學(xué)習(xí)輸出與目標(biāo)輸出之間的距離；βt+1表示根據(jù)Λt+1中的距離更新得到的新的輸出權(quán)重矩陣.設(shè)輸出數(shù)據(jù)維度為m，設(shè)置一個(gè)轉(zhuǎn)換矩陣φ∈(S×m)，令：

β=HTφ

(9)

同時(shí)將式(7)中等號(hào)右邊求逆的部分換回等號(hào)左邊，則式(7)重構(gòu)為：

[2τσ2I+HTΛH]HTφ=HTΛT

(10)

將式(10)等號(hào)右邊中的HT乘進(jìn)括號(hào)中，等號(hào)兩邊便能夠同時(shí)抵消掉最右邊的HT，于是式(10)寫為：

[2τσ2I+ΛHHT]φ=ΛT

(11)

由核函數(shù)理論可知，存在低維輸入空間中的核函數(shù)k(x,x′)與高維特征空間中的內(nèi)積〈φ(x)·φ(x′)〉相等[21]，即核函數(shù)用來(lái)代替式(11)表達(dá)式中的內(nèi)積計(jì)算，則：

[2τσ2I+ΛK]φ=ΛT

(12)

同理，將式(9)的變換代入式(5)中，并將對(duì)角矩陣Λ中的內(nèi)積計(jì)算由核函數(shù)形式代替，得到：

(13)

式(13)中Ki表示第i個(gè)數(shù)據(jù)對(duì)應(yīng)隱含層輸出的特征矩陣的內(nèi)積hihiT，式(12)中K表示由Ki組成的對(duì)角矩陣，這里由于只需計(jì)算對(duì)角線上的數(shù)值，因此即使核變換導(dǎo)致運(yùn)算矩陣的維度由L×L升高至S×S但是計(jì)算量卻大大下降，避免了計(jì)算量因隱含神經(jīng)元數(shù)目的增加而劇增的問題，于是經(jīng)過(guò)式(9)變換后得到MCC-HELM的決策層即MCC-ELM的迭代公式為：

(14)

MCC-HELM結(jié)構(gòu)如圖1所示.

圖1 MCC-HELM結(jié)構(gòu)Fig.1 MCC-HELM network

2.2 最大相關(guān)熵準(zhǔn)則下多層極端學(xué)習(xí)機(jī)批量編碼的實(shí)現(xiàn)

在保證學(xué)習(xí)效果的前提下，訓(xùn)練數(shù)據(jù)的個(gè)數(shù)越多則需要的隱含層神經(jīng)元數(shù)量越大.于是本文將訓(xùn)練數(shù)據(jù)平均分為D組，每組數(shù)據(jù)形成一個(gè)批次，分別通過(guò)MCC-HELM進(jìn)行學(xué)習(xí)，從而降低每一個(gè)MCC-HELM對(duì)最后決策層中隱含層神經(jīng)元數(shù)量的需求.最后將在線極端學(xué)習(xí)機(jī)的方法引入進(jìn)來(lái)，將當(dāng)前組的MCC-HELM的決策層與歷史組數(shù)據(jù)的MCC-HELM決策層結(jié)合再完成決策.這樣一來(lái)，每一次的決策都是在綜合歷史訓(xùn)練數(shù)據(jù)通過(guò)多層稀疏自動(dòng)編碼器學(xué)習(xí)到的所有特征信息的基礎(chǔ)上進(jìn)行的，因此保證了學(xué)習(xí)結(jié)果的可靠性，達(dá)到保證精度的同時(shí)縮小內(nèi)存需求的要求.

由于在融合決策階段涉及到整體求逆的問題，為了減小求逆的時(shí)間，不再進(jìn)行式(9)以及核矩陣的轉(zhuǎn)換，仍然轉(zhuǎn)換為原始極端學(xué)習(xí)機(jī)中當(dāng)訓(xùn)練數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于隱含層神經(jīng)元時(shí)的輸出權(quán)重表達(dá)式的形式，從而減小融合決策時(shí)需要進(jìn)行求逆的矩陣的維度，縮短計(jì)算時(shí)間。用A表示由各批次數(shù)據(jù)的迭代結(jié)果Λ所組成的融合對(duì)角矩陣，即式(14)迭代運(yùn)算中的φ只為了求得更優(yōu)的Λ，來(lái)用于融合進(jìn)A中，而融合得到的A則代回式(7)求得最終的β。

于是假設(shè)多層極端學(xué)習(xí)機(jī)由兩層稀疏自動(dòng)編碼器和一層基于最大相關(guān)熵準(zhǔn)則的極端學(xué)習(xí)機(jī)構(gòu)成，以批次數(shù)為3做例，將訓(xùn)練數(shù)據(jù)平均分為3組，分別使用D1、D2、D3來(lái)表示。將D1輸入MCC-HELM1中，得到多層極端學(xué)習(xí)機(jī)決策層的隱含層輸出的特征矩陣Η31，并迭代求得第一部分訓(xùn)練數(shù)據(jù)D1所對(duì)應(yīng)的輸出權(quán)重矩陣β1；同理分別將D2、D3輸入MCC-HELM2、MCC-HELM3中，得到多層極端學(xué)習(xí)機(jī)決策層的隱含層輸出Η32、Η33。本文提出一種批量編碼式MCC-HELM的結(jié)構(gòu)，對(duì)D組訓(xùn)練結(jié)果進(jìn)行融合決策。對(duì)于數(shù)據(jù)D1來(lái)說(shuō)，根據(jù)2.1內(nèi)容所示令：

H1=H31

A1=Λ1

其中Λ1表示數(shù)據(jù)D1通過(guò)半二次優(yōu)化技術(shù)迭代求得的對(duì)角矩陣，則：

(15)

(16)

將第2批數(shù)據(jù)求解得到的特征矩陣Η32與第1批數(shù)據(jù)求得的特征矩陣Η31結(jié)合，得到Η2：

同時(shí)，通過(guò)式(14)的迭代得到Λ2，于是：

則得到：

(17)

式(17)右側(cè)求逆部分用M2表示，則：

(18)

式(17)右側(cè)非求逆部分可表示為：

(19)

于是得到：

(20)

同理，依次將每一批訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的MCC-HELM決策層中隱含層輸出進(jìn)行融合，得到MCC-HELM最終的迭代表達(dá)式：

(21)

式(21)中，t表示每一批數(shù)據(jù)的迭代次數(shù)，Z表示已輸入的數(shù)據(jù)批次數(shù)；每對(duì)一批訓(xùn)練數(shù)據(jù)進(jìn)行融合和學(xué)習(xí)，輸出權(quán)重矩陣β就被優(yōu)化并更新一次，最終得到一個(gè)包含對(duì)所有訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的信息的最優(yōu)輸出權(quán)重矩陣βfinal.在測(cè)試階段，將測(cè)試數(shù)據(jù)全部輸入MMC-HELM中，得到Η3t.直接通過(guò)式(22)得到預(yù)測(cè)輸出：

Y=H3tβfinal

(22)

基于最大相關(guān)熵準(zhǔn)則的批量編碼式多層極端學(xué)習(xí)機(jī)結(jié)構(gòu)如圖2所示.

3 實(shí)驗(yàn)仿真

本論文的數(shù)值計(jì)算得到了燕山大學(xué)超算中心的計(jì)算支持和幫助，均是基于Intel E5-2683v3(28核)@2.0GHz，64GB RAM，Centos7.2，使用Matlab R2018a仿真軟件進(jìn)行的.以MNIST、NORB兩個(gè)深度學(xué)習(xí)最常用的大樣本數(shù)據(jù)集為例對(duì)本文所提出的BC-HELM進(jìn)行參數(shù)的選擇并與其它多層極端學(xué)習(xí)機(jī)進(jìn)行性能對(duì)比.其中MNIST數(shù)據(jù)集由250人的手寫數(shù)字圖像構(gòu)成，是最常用的合理性檢驗(yàn)數(shù)據(jù)集；NORB數(shù)據(jù)集為以不同照明及擺放方式攝制玩具模型的雙目圖像，是常用的圖像分類數(shù)據(jù)集.具體信息如表1所示.

3.1 參數(shù)選擇

圖2 基于最大相關(guān)熵準(zhǔn)則的批量編碼式多層極端學(xué)習(xí)機(jī)結(jié)構(gòu)圖Fig.2 Structure of batch coded hierarchical extreme learning machine based on maximum correntropy criterion

表1 數(shù)據(jù)集信息
Table 1 Data set information

數(shù)據(jù)集特征數(shù)訓(xùn)練樣本數(shù)測(cè)試樣本數(shù)類別MNIST28?28600001000010NORB1024?224300243005

圖3 不同批次數(shù)性能對(duì)比Fig.3 Performance comparison of different batches

從圖3可以看到，對(duì)于最大內(nèi)存占用：當(dāng)批次數(shù)變大時(shí)，由于每次輸入的訓(xùn)練樣本數(shù)變小，使得最大內(nèi)存占用也會(huì)相應(yīng)減小.對(duì)于運(yùn)行時(shí)間：當(dāng)批次數(shù)變大時(shí)，每次輸入的訓(xùn)練樣本數(shù)變小，參與計(jì)算的矩陣維度減小，使得計(jì)算時(shí)間降低，但是同時(shí)，不同批次的訓(xùn)練結(jié)果依次進(jìn)行結(jié)合的過(guò)程需要額外的計(jì)算，因此隨著批次數(shù)的增加，這部分額外計(jì)算所需要的時(shí)間也將變大，因此，由于矩陣維度降低而縮短的計(jì)算時(shí)間大于多個(gè)訓(xùn)練批次結(jié)合的計(jì)算時(shí)間時(shí)，運(yùn)行時(shí)間將會(huì)下降，反之，運(yùn)行時(shí)間將會(huì)上升.于是隨著批次數(shù)的增加，最大內(nèi)存占用將呈現(xiàn)逐漸減小的趨勢(shì)，而整體運(yùn)行時(shí)間將會(huì)出現(xiàn)先下降后上升的情況.因此需要通過(guò)實(shí)驗(yàn)來(lái)折中選取每個(gè)數(shù)據(jù)集對(duì)應(yīng)最佳的批次數(shù)，即最大內(nèi)存占用盡量少的同時(shí)運(yùn)行時(shí)間也較低的情況.圖3(a)對(duì)應(yīng)NORB數(shù)據(jù)集將批次數(shù)依次設(shè)置為1-10時(shí)所占用的最大內(nèi)存和運(yùn)行時(shí)間，可以看出當(dāng)批次數(shù)為5的點(diǎn)是最接近原點(diǎn)的點(diǎn)，即將訓(xùn)練樣本分成5個(gè)批次進(jìn)行訓(xùn)練時(shí)，內(nèi)存占用與運(yùn)行時(shí)間都較低是最佳的情況.同時(shí)，由于測(cè)試樣本數(shù)相對(duì)較大(與訓(xùn)練樣本數(shù)相同)，當(dāng)批次數(shù)大于5時(shí)所占用的最大內(nèi)存將產(chǎn)生于測(cè)試數(shù)據(jù)的運(yùn)算過(guò)程中，因此呈現(xiàn)較為平緩的趨勢(shì).圖3(b)對(duì)應(yīng)MNIST數(shù)據(jù)集將批次數(shù)依次設(shè)置為1-10時(shí)所占用的最大內(nèi)存和運(yùn)行時(shí)間，當(dāng)批次數(shù)大于6時(shí)，訓(xùn)練樣本數(shù)降至10000以下，小于測(cè)試樣本數(shù)，所占用的最大內(nèi)存將產(chǎn)生于測(cè)試數(shù)據(jù)的運(yùn)算過(guò)程中，因此占用的最大內(nèi)存趨于穩(wěn)定，由于圖3(b)中當(dāng)批次數(shù)為7、8、9、10對(duì)應(yīng)的點(diǎn)相距較近，因此將這5種情況在表2中詳細(xì)列出進(jìn)行對(duì)比與選擇.

表2 MNIST數(shù)據(jù)集的相近批次數(shù)性能對(duì)比
Table 2 Performance comparison of similar batches under MNIST data sets

批次數(shù)運(yùn)行時(shí)間(S)標(biāo)準(zhǔn)差最大內(nèi)存(MB)標(biāo)準(zhǔn)差778.009.833948.55379.46875.0012.543921.14716.08972.008.634190.761026.071070.007.033909.84243.19

表2中標(biāo)準(zhǔn)差數(shù)值的大小反映了每次運(yùn)行的結(jié)果相對(duì)于均值的離散程度，標(biāo)準(zhǔn)差越小，表示運(yùn)行結(jié)果與均值的偏差越小.通過(guò)表2不難發(fā)現(xiàn)，對(duì)于MNIST數(shù)據(jù)集，批次數(shù)為7、8、9、10時(shí)相比，最大內(nèi)存占用相當(dāng)，而批次數(shù)為10時(shí)的運(yùn)行時(shí)間最短，同時(shí)運(yùn)行時(shí)間與最大內(nèi)存分別對(duì)應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)差也最小.因此綜上所述，對(duì)于MNIST數(shù)據(jù)集將批次數(shù)設(shè)置為10，對(duì)于NORB數(shù)據(jù)集將批次數(shù)設(shè)置為5.將每個(gè)數(shù)據(jù)集的訓(xùn)練批次數(shù)確定后，每批次輸入的樣本個(gè)數(shù)即確定了，在此基礎(chǔ)上通過(guò)實(shí)驗(yàn)可以得到BC-HELM的正則化系數(shù)C的數(shù)量級(jí)以及決策層隱含層神經(jīng)元個(gè)數(shù)L與測(cè)試精度之間的關(guān)系.實(shí)驗(yàn)結(jié)果如圖4、圖5所示.

圖4 MNIST數(shù)據(jù)集 BC_HELM在不同參數(shù)下性能對(duì)比Fig.4 Performance comparison of BC_HELM with different parameters data set MNIST data set

從圖4可以看出，對(duì)于MNIST數(shù)據(jù)集，當(dāng)C=220時(shí)(a)圖中的不同L值對(duì)應(yīng)的曲線開始趨于穩(wěn)定，同時(shí)從(b)圖中可以看出當(dāng)L=8000時(shí)不同C值對(duì)應(yīng)的曲線均達(dá)到最大值.即當(dāng)L=8000時(shí)BC-HELM的精度在趨于穩(wěn)定時(shí)達(dá)到最高，當(dāng)L<8000時(shí)，測(cè)試精度隨著L的增加而變大；當(dāng)L>8000時(shí)，測(cè)試精度略低于L=8000時(shí)的精度，且隨著L的增大，測(cè)試精度逐漸趨于穩(wěn)定.從圖5可以看出，對(duì)于NORB數(shù)據(jù)集，當(dāng)C=215時(shí)(a)圖中的曲線開始趨于穩(wěn)定，同樣從(b)圖中可以看出當(dāng)L=650時(shí)不同C值對(duì)應(yīng)的曲線達(dá)到最大值.即當(dāng)L=650時(shí)BC-HELM的精度趨于穩(wěn)定時(shí)達(dá)到最高，當(dāng)L<650和L>650時(shí)，測(cè)試精度隨著L的變化現(xiàn)象與MNIST數(shù)據(jù)集對(duì)應(yīng)相同.于是對(duì)于MNIST數(shù)據(jù)集將BC-HELM的正則化系數(shù)C設(shè)置為220，決策層隱含層神經(jīng)元個(gè)數(shù)L設(shè)置為8000；對(duì)于NORB數(shù)據(jù)集將BC-HELM的正則化系數(shù)C設(shè)置為215，決策層隱含層神經(jīng)元個(gè)數(shù)L設(shè)置為650.

圖5 NORB數(shù)據(jù)集 BC-HELM在不同參數(shù)下性能對(duì)比Fig.5 Performance comparison of BC_HELM with different parameters under NORB data set

3.2 與HELM比較

將所有參數(shù)確定后，將BC-HELM與HELM進(jìn)行性能對(duì)比.同時(shí)表3中列出了BC-HELM與HELM的多方面信息進(jìn)行對(duì)比.

表3 BC-HELM與HELM的性能對(duì)比統(tǒng)計(jì)
Table 3 Performance comparison statistics between BC-HELM and HELM

數(shù)據(jù)集網(wǎng)絡(luò)運(yùn)行時(shí)間(S)測(cè)試精度(%)最大內(nèi)存(MB)決策層隱含節(jié)點(diǎn)數(shù)MNISTHELM[22]281.3799.1213234.3712000BC-HELM101.0099.526021.348000NORBHELM[22]432.1991.287618.8615000BC-HELM41.0093.592130.17650

根據(jù)表3中的統(tǒng)計(jì)數(shù)據(jù)可以得到，BC-HELM雖然與HELM有著相同的收斂特性，但相較與HELM，BC-HELM可以收斂于更高的測(cè)試精度.即與HELM相比，在MNIST數(shù)據(jù)集上測(cè)試精度提高0.4%，在NORB數(shù)據(jù)集上測(cè)試精度提高2.31%.這是由于MCC準(zhǔn)則與HELM中MMSE準(zhǔn)則相比降低了網(wǎng)絡(luò)對(duì)異常點(diǎn)的敏感性，使網(wǎng)絡(luò)的過(guò)擬合問題得到改善，因此測(cè)試精度有小幅度的提升.從決策層隱含節(jié)點(diǎn)數(shù)來(lái)看，訓(xùn)練數(shù)據(jù)分批次輸入，使每次輸入的訓(xùn)練樣本數(shù)減小，這直接降低了數(shù)據(jù)對(duì)決策層節(jié)點(diǎn)數(shù)L的需求，因此在兩個(gè)數(shù)據(jù)集上BC-HELM的決策層節(jié)點(diǎn)數(shù)均小于HELM.同理，對(duì)于占用的最大內(nèi)存而言，BC-HELM與HELM相比，在MNIST數(shù)據(jù)集上降低54.50%，在NORB數(shù)據(jù)集上降低72.04%，這是由于輸入的訓(xùn)練樣本數(shù)減小，相當(dāng)于將特征矩陣縱向降維，同時(shí)決策層節(jié)點(diǎn)數(shù)減少相當(dāng)于對(duì)特征矩陣進(jìn)行橫向降維，雙重降維后對(duì)特征矩陣的計(jì)算量將大大減小，也因此與HELM相比運(yùn)行時(shí)間被大大縮短，分別在MNIST數(shù)據(jù)集上縮短64.10%，在NORB數(shù)據(jù)集上縮短90.51%.綜上所述，BC-HELM相比于HELM，在保證測(cè)試精度的前提下，縮短了運(yùn)行時(shí)間的同時(shí)大大降低了內(nèi)存需求.

3.3 與其他多層ELM網(wǎng)絡(luò)對(duì)比

下面針對(duì)運(yùn)行時(shí)間與測(cè)試精度兩個(gè)方面將BC-HELM與兩種經(jīng)典的多層ELM網(wǎng)絡(luò)(文獻(xiàn)[22，1])以及三種最新的多層ELM網(wǎng)絡(luò)(文獻(xiàn)[12，3，2])進(jìn)行對(duì)比，統(tǒng)計(jì)結(jié)果如表4所示.

表4 BC-HELM與其他多層ELM的性能對(duì)比統(tǒng)計(jì)
Table 4 Performance comparison statistics between BC-HELM and other multilayer ELM

數(shù)據(jù)集網(wǎng)絡(luò)運(yùn)行時(shí)間(S)測(cè)試精度(%)MNISTAE-S-ELM[12]4347.0098.89EH-ELM[2]1632.4599.05FC-MELM[3]268.0098.89ML-ELM[1]475.8399.04HELM[22]281.3799.12BC-HELM78.0099.52NORBAE-S-ELM[12]2799.0091.24EH-ELM[2]1341.6791.78FC-MELM[3]498.0091.87ML-ELM[1]775.2988.91HELM[22]432.1991.28BC-HELM41.0093.59

從表4中數(shù)據(jù)可以得到，兩種經(jīng)典的多層ELM網(wǎng)絡(luò)相比，HELM的運(yùn)行時(shí)間在MNIST數(shù)據(jù)集上較ML-ELM縮短40.87%，在NORB數(shù)據(jù)集上較ML-ELM縮短44.25%，同時(shí)測(cè)試精度分別提高了0.08%和2.37%，這是由于在決策層中加入一層隱含層映射，使決策層變?yōu)樵紭O端學(xué)習(xí)機(jī)，相比于ML-ELM的決策層減少了自動(dòng)編碼的大量計(jì)算因此運(yùn)行時(shí)間被縮短，也正因加入的隱含層映射，將編碼層無(wú)監(jiān)督學(xué)習(xí)到的結(jié)果映射至特征空間再進(jìn)行有監(jiān)督?jīng)Q策使測(cè)試精度提高，使HELM比ML-ELM具有更佳的學(xué)習(xí)性能.而3.2節(jié)中將HELM與本文提出的BC-HELM進(jìn)行對(duì)比可以得到，BC-HELM具有比HELM更高的學(xué)習(xí)效率.

從三種最新的多層ELM網(wǎng)絡(luò)數(shù)據(jù)來(lái)看，AE-S-ELM、EH-ELM兩個(gè)網(wǎng)絡(luò)在兩數(shù)據(jù)集上的運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)大于BC-HELM，較HELM也顯著增加，這說(shuō)明此兩種多層ELM網(wǎng)絡(luò)均存在著由于網(wǎng)絡(luò)復(fù)雜度的增加而使運(yùn)行時(shí)間被大幅增加的問題，而FC-MELM網(wǎng)絡(luò)的運(yùn)行時(shí)間雖然與HELM相比不相上下，但BC-HELM與之相比，在MNIST數(shù)據(jù)集上縮短70.90%，在NORB數(shù)據(jù)集上縮短91.77%，可見從運(yùn)行時(shí)間來(lái)看，BC-HELM最佳.從測(cè)試精度來(lái)看，在MNIST數(shù)據(jù)集上，BC-HELM較AE-S-ELM提高0.63%，較EH-ELM提高0.47%，較FC-MELM提高0.63%；在NORB數(shù)據(jù)集上，BC-HELM較AE-S-ELM提高2.35%，較EH-ELM提高1.81%，較FC-MELM提高1.72%，即與三種最新的多層ELM網(wǎng)絡(luò)相比BC-HELM的測(cè)試精度最高.綜上可得，本文提出的BC-HELM與兩種經(jīng)典的多層ELM網(wǎng)絡(luò)以及三種最新的多層ELM網(wǎng)絡(luò)相比，運(yùn)行時(shí)間更短且測(cè)試精度更高，具有更佳的學(xué)習(xí)效率.

4 結(jié) 論

本文構(gòu)建了一種基于最大相關(guān)熵準(zhǔn)則的批量編碼式多層極端學(xué)習(xí)機(jī)--BC-HELM.將MCC準(zhǔn)則應(yīng)用于HELM的決策層中，避免了傳統(tǒng)的MMSE準(zhǔn)則對(duì)異常點(diǎn)敏感的問題，使HELM網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象得到改善，從而保證了分類精度.同時(shí)提出了一種對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行批量編碼的學(xué)習(xí)方法，通過(guò)將訓(xùn)練樣本批量學(xué)習(xí)的方式，減少輸入網(wǎng)絡(luò)的樣本個(gè)數(shù)，降低了大樣本數(shù)據(jù)對(duì)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)的需求，使計(jì)算量隨之大大下降，從而也降低了學(xué)習(xí)過(guò)程中所占用的最大內(nèi)存與運(yùn)行時(shí)間.實(shí)驗(yàn)結(jié)果表明，本文提出的BC-HELM與HELM相比，在保證測(cè)試精度的前提下，運(yùn)行時(shí)間更短且內(nèi)存需求也被大大降低；與其他多層ELM網(wǎng)絡(luò)相比也具有更高的學(xué)習(xí)效率.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看