耿志強 張怡康
?
一種基于膠質(zhì)細胞鏈的改進深度信念網(wǎng)絡(luò)模型
耿志強1張怡康1
深度信念網(wǎng)絡(luò)(Deep belief network,DBN)是一種從無標簽數(shù)據(jù)學(xué)習(xí)特征的多層結(jié)構(gòu)模型.在同一層單元間缺少連接,導(dǎo)致數(shù)據(jù)中的深度關(guān)聯(lián)特征難以提取.受到人腦中膠質(zhì)神經(jīng)細胞機制的啟示,提出一種基于膠質(zhì)細胞鏈的改進DBN模型及其學(xué)習(xí)算法,以提取更多數(shù)據(jù)信息.在標準圖像分類數(shù)據(jù)集上的實驗結(jié)果表明,與其他幾種模型相比,本文提出的改進DBN模型可以提取更為優(yōu)秀的圖像特征,提高分類準確率.
深度信念網(wǎng)絡(luò),膠質(zhì)細胞,無監(jiān)督學(xué)習(xí),特征提取
引用格式耿志強,張怡康.一種基于膠質(zhì)細胞鏈的改進深度信念網(wǎng)絡(luò)模型.自動化學(xué)報,2016,42(6):943-952
近年來,使用深度學(xué)習(xí)方法,建立多層網(wǎng)絡(luò)模型,嘗試在樣本數(shù)據(jù)上逐層提取高級特征已成為機器學(xué)習(xí)、模式識別、特征提取與數(shù)據(jù)挖掘等領(lǐng)域的一個重要研究方向.神經(jīng)科學(xué)研究表明人類大腦是一個由神經(jīng)元組成的深度結(jié)構(gòu),對大腦皮層不同區(qū)域輸入信息的多級抽象,可以使人腦完成復(fù)雜的物體識別任務(wù)[1].因此,深度學(xué)習(xí)相關(guān)研究專注于模擬人類大腦的多層結(jié)構(gòu)以獲取更好的學(xué)習(xí)性能.
深度信念網(wǎng)絡(luò)(Deep belief network,DBN)是一種由多層非線性變量連接組成的生成式模型[2]. DBN可以看作由多個受限玻爾茲曼機(Restricted Boltzmann machine,RBM)層疊構(gòu)成,其中前一個RBM的隱含層將作為下一個RBM的可視層.組成DBN的每一個RBM都可以使用上一層的輸出單獨訓(xùn)練,因此與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,DBN的訓(xùn)練過程將會變得簡單.這種訓(xùn)練方法也有助于從無標簽數(shù)據(jù)獲取高級特征.
隨著深度學(xué)習(xí)方向研究的深入與發(fā)展,人們已提出多種改進的DBN模型.通過補充先驗方式,Hinton等導(dǎo)出一種快速的逐層貪婪算法可用于深度信念網(wǎng)絡(luò)的訓(xùn)練[3].該算法應(yīng)用于一個預(yù)訓(xùn)練過程,使用對比形式的Wake-sleep算法對RBM權(quán)值調(diào)優(yōu).在此之后,所有RBM組成的DBN生成式模型獲得了比判別式學(xué)習(xí)算法更優(yōu)秀的手寫字符分類效果.然而,這種方法由于設(shè)計為使用二值圖像數(shù)據(jù)并且缺少系統(tǒng)的方法處理感知不變性而存在一定局限性.Bengio等進一步研究了這種算法,將其成功地擴展到輸入為連續(xù)值或輸入分布的結(jié)構(gòu)并不能完全確定的情況,省去了有監(jiān)督學(xué)習(xí)中對其狀態(tài)的預(yù)測過程[4].實驗結(jié)果表明,這種貪婪逐層訓(xùn)練策略有助于優(yōu)化深層網(wǎng)絡(luò),同時也證明每一層的無監(jiān)督訓(xùn)練方式也十分重要.Lee等提出了一種稱為卷積深度信念網(wǎng)絡(luò)的層次生成模型,可用于全尺寸的圖像數(shù)據(jù)處理[5].這種DBN模型的關(guān)鍵方法是用概率的最大匯總將更高層的表示做壓縮,可使模型具有平移不變性,從而能支持高效率的自底向上和自頂向下概率推斷.Huang等也對卷積DBN進行研究并將其用于學(xué)習(xí)人臉識別的高分辨率圖像特征,提出了一種全新的局部卷積RBM模型,來獲取額外的特征表示并應(yīng)用到人工圖像描述符如LBP(Local binary patterns)中.相關(guān)實驗證明權(quán)值的學(xué)習(xí)不僅對于獲得良好的多層特征十分重要,同時也提供了選擇網(wǎng)絡(luò)參數(shù)的健壯性方法[6].在此基礎(chǔ)上,一種面部表情識別模型BDBN(Boosted deep belief network)被提出,這種模型通過三個階段的迭代來進行訓(xùn)練[7],能夠?qū)W習(xí)到一組可有效描述表情相關(guān)的面部外形特征并用統(tǒng)計方法構(gòu)建增強分類器.在手寫文字識別方面,Roy等提出了一種使用DBN的詞語假設(shè)查找改進方法[8],將DBN提取的有效區(qū)分性特征與基于遞歸神經(jīng)網(wǎng)絡(luò)的序列分類器組合,以進一步提高識別性能.在語音識別領(lǐng)域,Mohamed等用DBN替代高斯混合模型,在TIMIT數(shù)據(jù)集上獲得了更好的音素識別效果[9].這種DBN首先在沒有區(qū)分信息的情況下預(yù)訓(xùn)練,然后使用反向傳播的方法微調(diào).為了完全利用DBN的生成性特征,Kang等提出了對語音參數(shù)如頻譜和F0等建模,然后在語音合成功能的DBN中同步生成這些參數(shù)[10].這種DBN可以構(gòu)建出優(yōu)于HMM(Hidden Markov model)模型的頻譜,同時擁有更少的失真.
盡管DBN在眾多應(yīng)用領(lǐng)域都獲得了更好的結(jié)果,在隱含層缺少約束的DBN可能會產(chǎn)生非結(jié)構(gòu)化的權(quán)值模式.本文嘗試在神經(jīng)科學(xué)研究中尋找解決方法.除一般神經(jīng)元外,在人腦中還有另一種神經(jīng)細胞稱為膠質(zhì)細胞(Glia cell).在近期的神經(jīng)科學(xué)研究中,膠質(zhì)細胞已成為了解人腦工作機制的中心課題[11].膠質(zhì)細胞可以用離子作為傳遞信號的媒介,如Ca2+、GLU(Glutamate)、ATP(Adenosine triphosphate)等.在這些離子中,Ca2+十分特殊,可以改變神經(jīng)元的膜電位和相鄰膠質(zhì)細胞的狀態(tài).一些研究人員已注意到這種生物作用機制,并將其應(yīng)用于人工神經(jīng)網(wǎng)絡(luò)[12].這項研究提出了一種改進的多層感知器(Multilayer perceptron,MLP),在隱含層中包含了多個膠質(zhì)細胞.這些膠質(zhì)細胞與MLP中的神經(jīng)元相連并能被神經(jīng)元的輸出激活,同時已激活的膠質(zhì)細胞將向相鄰的膠質(zhì)細胞傳遞信號.這種改進MLP模型能夠獲取有助于優(yōu)化其學(xué)習(xí)過程的隱含層神經(jīng)元關(guān)聯(lián)信息.
與上述情況相似,DBN同層單元間也沒有連接,因此本文提出了一種基于與膠質(zhì)細胞鏈連接的受限玻爾茲曼機的DBN模型及改進的DBN逐層訓(xùn)練方法,以提高訓(xùn)練效率,抽取更多有效信息.在RBM的訓(xùn)練過程中,膠質(zhì)細胞能夠調(diào)整隱含層單元的激活概率并向其他膠質(zhì)細胞發(fā)出信號.在標準圖像數(shù)據(jù)集上的實驗結(jié)果顯示,與傳統(tǒng)DBN以及其他幾種模型相比,這種改進的DBN模型可以獲取更具抽象性的特征,同時提高分類準確率.
DBN是一種由多個隱含層組成的概率模型.每個隱含層在訓(xùn)練中都可以獲得比上一層更高級的數(shù)據(jù)特征.DBN可以通過堆疊多個受限玻爾茲曼機(RBM)來構(gòu)建.
1.1RBM
RBM是一種二部無向圖模型[13].如圖1所示,RBM由兩層結(jié)構(gòu)組成:可視層和隱含層.D維的可視層單元和K維隱含層單元間通過對稱的權(quán)值矩陣WD×K連接.在可視層單元間及隱含層單元間并不存在連接.
圖1 RBM結(jié)構(gòu)示意圖Fig.1 The structure of RBM
可視層單元和隱含層單元上的聯(lián)合概率分布可定義為:
RBM的權(quán)值和偏置定義了隱含層單元和可視層單元的一種可能狀態(tài)下的能量.如果可視層單元為二值形式,則能量函數(shù)可定義為:
其中bj和ci分別為隱含層單元和可視層單元的偏置,Wij為隱含層單元和可視層單元間的權(quán)值.如果可視層單元為實值,則能量函數(shù)定義為以下形式:
從能量函數(shù)可以看出,給定可視層單元的狀態(tài),隱含層單元彼此相互獨立.同樣,給定隱含層單元的狀態(tài),可視層單元也相互獨立.根據(jù)條件概率分布定義,對于隱含層,每個隱含單元的二進制狀態(tài)hj在下式情形可設(shè)置為1:
其中σ(s)=1/(1+exp(-s))為sigmoid函數(shù).與此類似,如果可視層是二值的,則可視層單元狀態(tài)依賴于隱含層單元,其狀態(tài)vi在下式情形為1:
如果可視層為實值,可視層單元是有對角協(xié)方差的獨立高斯變量:
其中N(·,·)是高斯分布函數(shù).
由于計算準確的梯度十分困難,因此RBM訓(xùn)練時常采用一種近似算法,稱為對比散度算法(Contrastive divergence,CD).
1.2對比散度算法
基于對數(shù)似然函數(shù)logP(v vv)的梯度,可以導(dǎo)出RBM的權(quán)值更新規(guī)則,如下式所示:
其中,Edata(vihj)是訓(xùn)練數(shù)據(jù)觀測的期望,Emodel(vihj)是由模型定義分布下的期望[14].由于難以計算,因此常用近似算法為對比散度(CD)[15].通過單步或多步吉布斯采樣,上述兩個期望將會更新.對于單步采樣的CD-1算法,其過程可簡述如下:
CD算法的細節(jié)將在第2.2節(jié)詳述.對于多步采樣,其過程如圖2所示.
圖2 多步采樣的CD算法過程Fig.2 Multistep sampling in CD algorithm
DBN網(wǎng)絡(luò)的訓(xùn)練可采用一種貪婪逐層算法[16].首先,最底層RBM使用原始訓(xùn)練數(shù)據(jù),通過CD算法訓(xùn)練.然后其參數(shù)將會保存,推斷出隱含層單元狀態(tài)作為下一層RBM的輸入,下一層RBM繼續(xù)訓(xùn)練,直到訓(xùn)練成完整的深層結(jié)構(gòu).
膠質(zhì)細胞是人腦中一種特殊的神經(jīng)細胞,可向神經(jīng)元和其他膠質(zhì)細胞傳遞信號.研究人員已開始關(guān)注膠質(zhì)細胞的特性,并將其應(yīng)用于人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程.Ikuta等提出了一種用膠質(zhì)細胞改進的多層感知器模型[17].在這種模型的訓(xùn)練中,膠質(zhì)細胞能夠產(chǎn)生脈沖信號并在神經(jīng)網(wǎng)絡(luò)中傳遞.實驗結(jié)果表明與傳統(tǒng)多層感知器相比,該模型擁有更好的學(xué)習(xí)性能.
同樣,DBN可看作一種稱為預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(Pre-trained deep neural network)的結(jié)構(gòu)[18].這類模型使用無監(jiān)督的預(yù)訓(xùn)練方式來促進后續(xù)的區(qū)分性微調(diào)過程.受上述模型的啟發(fā),本文認為膠質(zhì)細胞有助于RBM的訓(xùn)練,可學(xué)習(xí)到RBM同一層內(nèi)單元間的關(guān)聯(lián)信息.本文簡化了膠質(zhì)細胞的定義,使之適合RBM的結(jié)構(gòu).以這種方式改進的RBM及組成的DBN結(jié)構(gòu)如圖3所示.
圖3 膠質(zhì)細胞鏈改進的RBM及其組成的DBN模型Fig.3 Improved RBMs based on glia chains and a DBN composed of these RBMs
在圖3中,除了RBM的兩層單元,還有一組膠質(zhì)細胞以星形表示,連接成鏈式結(jié)構(gòu).此外,每個膠質(zhì)細胞還與RBM隱含層對應(yīng)位置的一個隱含單元相連.在本文提出模型中,膠質(zhì)細胞與所對應(yīng)的隱含單元間沒有權(quán)值,訓(xùn)練過程中所有膠質(zhì)細胞的效果都能直接作用于隱含層單元,調(diào)整隱含單元的輸出.通過膠質(zhì)細胞間的連接,每個膠質(zhì)細胞也能夠向其他膠質(zhì)細胞傳遞信號,調(diào)整其他膠質(zhì)細胞的膠質(zhì)效果.
2.1改進RBM隱含層單元輸出更新規(guī)則
在以膠質(zhì)細胞鏈改進的RBM訓(xùn)練中,隱含層單元的輸出將會被與之相連的處于激活狀態(tài)的膠質(zhì)細胞調(diào)整,然后這個膠質(zhì)細胞會將激活信號向其他膠質(zhì)細胞傳遞.例如,如果某個隱含單元h1的輸出高于指定的閾值,膠質(zhì)細胞g1將會被激活,之后產(chǎn)生一個信號傳遞給膠質(zhì)細胞g2.當(dāng)此信號傳遞到g2時,即使隱含單元h2的輸出沒有達到閾值,膠質(zhì)細胞g2依然會激活,然后產(chǎn)生第二個信號向下傳遞,而第一個信號也會繼續(xù)傳播.在本文中,為了簡化計算,所有信號定義為單向傳播,即從鏈上第一個膠質(zhì)細胞傳向最后一個.
隱含層單元輸出更新規(guī)則具體定義如下:
其中,hj是更新后的輸出,σ是sigmoid函數(shù),gj是膠質(zhì)效果值,α是膠質(zhì)效果的權(quán)重.膠質(zhì)效果權(quán)重α是一個需人工設(shè)置的參數(shù),設(shè)置此參數(shù)的目的是控制膠質(zhì)效果對RBM隱含層單元輸出調(diào)整作用的大小,膠質(zhì)效果將作為新的隱含層單元輸出的一部分,膠質(zhì)效果權(quán)重值越大,對隱含層單元輸出的調(diào)整作用就越明顯.隱含層單元的原始輸出h′j可由下式計算:
其中,Wij是連接到隱含層單元的權(quán)值,vi是可視層單元的狀態(tài),bj是隱含層單元的偏置.本文直接使用激活概率作為輸出而非對每個隱含層單元狀態(tài)隨機采樣,可以減少采樣的噪聲,加快學(xué)習(xí)速度[19].膠質(zhì)效果值gj定義為:
其中,θ是指定的閾值,T是激活后的不響應(yīng)時間,β是衰減因子.在本文中,已激活膠質(zhì)細胞產(chǎn)生的信號每次前進到下一個膠質(zhì)細胞,一個膠質(zhì)細胞的激活將取決于所連接的隱含層單元輸出是否達到了指定閾值,或前一個膠質(zhì)細胞是否給它傳遞了信號,并且它的上次激活距離當(dāng)前時刻差值必須大于不響應(yīng)時間T.如果此膠質(zhì)細胞激活,它將向下一個膠質(zhì)細胞傳遞信號,否則不會產(chǎn)生信號并且其膠質(zhì)效果將逐漸衰減.
2.2改進RBM及DBN的學(xué)習(xí)算法
在加入膠質(zhì)細胞機制后,RBM的學(xué)習(xí)算法得到改進:訓(xùn)練中每次計算隱含層單元輸出后,膠質(zhì)細胞鏈會根據(jù)之前狀態(tài)調(diào)整隱含層輸出,并且保存下一次的膠質(zhì)效果.改進的RBM訓(xùn)練算法偽碼如下:
輸出:權(quán)值矩陣W,隱含層偏置向量 b ,可視層偏置向量 c
訓(xùn)練階段:
2:for j=1,2,···,m(對所有隱含單元)
5:end for
6:for i=1,2,···,n(對所有可見單元)
9:end for
12:for j=1,2,···,m(對所有隱含單元)
14:end for
按下式更新參數(shù):
由多個RBM組成的DBN訓(xùn)練包含兩個部分:預(yù)訓(xùn)練過程和微調(diào)過程.在預(yù)訓(xùn)練中,組成DBN的所有RBM自底向上依次訓(xùn)練.當(dāng)某個RBM用改進的CD算法訓(xùn)練完成后,學(xué)習(xí)到的參數(shù)被保存,其隱含層輸出將作為下層RBM的輸入,下層RBM繼續(xù)使用該算法訓(xùn)練,直到所有RBM訓(xùn)練完成.在微調(diào)階段,所有RBM組成的網(wǎng)絡(luò)用反向傳播方式訓(xùn)練,進一步調(diào)整模型參數(shù),直至收斂.在本文中,膠質(zhì)細胞機制僅作用于預(yù)訓(xùn)練過程.DBN的訓(xùn)練過程如圖4所示.
為了驗證本文所提出模型的學(xué)習(xí)性能,本文在三個圖像分類數(shù)據(jù)集上進行實驗:MNIST數(shù)據(jù)集[20]、CIFAR-10數(shù)據(jù)集[21]、Rectangles images數(shù)據(jù)集[22].改進的RBM(DBN)模型與其他幾種模型結(jié)果做了比較:傳統(tǒng)RBM、稀疏自動編碼器(Sparse auto-encoder)[23]、BP神經(jīng)網(wǎng)絡(luò)(Backpropagation neural network)[24].實驗的硬件平臺為:CPU i5-3210M,2.50GHz,RAM 8GB.使用的深度學(xué)習(xí)框架為DeepLearnToolbox,運行的軟件環(huán)境為Matlab2012.對于多分類數(shù)據(jù)(MNIST及CIFAR-10),本文在實驗中選取了所有類別的數(shù)據(jù)進行訓(xùn)練,最終給出所有類的平均錯誤率.由于硬件條件有限,本文沒有選取深度學(xué)習(xí)中的另一圖像數(shù)據(jù)集ImageNet,而采用了矩形圖像數(shù)據(jù)集Rectangles images,來測試模型在二分類數(shù)據(jù)上的性能,并且進行更多實驗討論模型關(guān)鍵參數(shù)的選擇情況.為了提高學(xué)習(xí)效率,本文使用了分批訓(xùn)練方式,訓(xùn)練數(shù)據(jù)分為多個批次,在每批數(shù)據(jù)訓(xùn)練后更新模型參數(shù).
圖4 改進DBN的訓(xùn)練過程Fig.4 Training process of the improved DBN
3.1MNIST數(shù)據(jù)集
MNIST數(shù)據(jù)集(Mixed National Institute of Standards and Technology dataset)是廣泛應(yīng)用于機器學(xué)習(xí)領(lǐng)域的一個大型手寫數(shù)字數(shù)據(jù)集[25].該數(shù)據(jù)集包含60000張訓(xùn)練圖像和10000張測試圖像,每張圖像都是一個0到9的手寫數(shù)字,大小為28像素×28像素.
首先本文分別訓(xùn)練了改進RBM和傳統(tǒng)RBM,結(jié)構(gòu)均為784個可視層單元和100個隱含層單元,模型訓(xùn)練所學(xué)習(xí)到的特征可視化后如圖5所示.
圖5 RBM(上)和膠質(zhì)細胞鏈改進的RBM(下)學(xué)習(xí)特征的可視化Fig.5 Visualization of features learned by RBM(above)and improved RBM(below)
從圖5可以看出,傳統(tǒng)RBM學(xué)習(xí)到的特征多為模糊的塊狀區(qū)域,少量為字符的筆畫,而改進RBM學(xué)習(xí)到的特征多為更清晰的字符筆畫,更有區(qū)分性和局部性.
之后本文在此數(shù)據(jù)集上訓(xùn)練了幾種不同模型:RBM、改進RBM、稀疏自動編碼器、BP神經(jīng)網(wǎng)絡(luò).這幾種模型的算法程序均在DeepLearnToolbox基礎(chǔ)上實現(xiàn),其共同擁有的可調(diào)參數(shù)如學(xué)習(xí)率等均調(diào)整并設(shè)為相同值,隱含層單元均設(shè)置為從200逐漸增加到500,并比較它們在測試數(shù)據(jù)上的分類錯誤率及運行收斂時間,結(jié)果如表1所示.
表1 MNIST數(shù)據(jù)集上不同模型的測試結(jié)果Table 1 Testing results of different models on MNIST dataset
表1結(jié)果顯示,與傳統(tǒng)RBM及其他幾種模型相比,以膠質(zhì)細胞鏈改進的RBM擁有更好的分類性能.隨著隱含層單元數(shù)量的增加,所有模型的分類錯誤率都在不同程度上下降,但改進RBM始終保持最低的錯誤率,并且具有更快的收斂速度.由此可以推斷,改進RBM模型可學(xué)習(xí)到更優(yōu)更具區(qū)分性的特征.
為了進一步研究多隱含層結(jié)構(gòu)模型的學(xué)習(xí)性能,本文分別訓(xùn)練了DBN和膠質(zhì)細胞鏈改進DBN模型,均包含兩個隱含層,單元數(shù)為第一層500,第二層200.這兩種DBN共同具有的參數(shù)如學(xué)習(xí)率和動量等均設(shè)置為相同值.表2顯示了這兩種模型的訓(xùn)練和測試分類錯誤率、收斂時間.為了更詳細地顯示出兩種模型的分類情況,本文統(tǒng)計了兩種DBN模型在前三個類別的False positive(FP)及False negative(FN)數(shù)據(jù),如表3所示.
表2 MNIST數(shù)據(jù)集上傳統(tǒng)DBN及改進DBN的訓(xùn)練及測試錯誤率及收斂時間Table 2 Training,testing error rate and convergence time of DBN and improved DBN on MNIST dataset
表3 MNIST 數(shù)據(jù)集上傳統(tǒng)DBN 及改進DBN 的FP 及FN 數(shù)據(jù)Table 3 FP and FN data of DBN and improved DBN on MNIST dataset
表2和表3可以看出,當(dāng)采用多隱含層結(jié)構(gòu)時,改進DBN的分類錯誤率依然低于傳統(tǒng)DBN,收斂速度更快,并且在三種具體類別的圖像數(shù)據(jù)分類中,產(chǎn)生的FP和FN數(shù)據(jù)均較少,說明其分類效果更為優(yōu)秀.這進一步驗證了增加的膠質(zhì)細胞鏈能夠改進深層結(jié)構(gòu)的學(xué)習(xí)性能.在膠質(zhì)細胞鏈的調(diào)整效果下,DBN能夠獲取同一隱含層單元間的關(guān)聯(lián)信息,并且隱含層單元間可以通過膠質(zhì)細胞傳遞信息.
為了測試改進DBN的最優(yōu)性能,本文訓(xùn)練了包含三個隱含層的網(wǎng)絡(luò),其結(jié)構(gòu)(包含輸入)為784-500-500-2000,在每個隱含層內(nèi)還連接相同數(shù)量的膠質(zhì)細胞.在將參數(shù)調(diào)整后,改進DBN模型獲得了在MNIST數(shù)據(jù)集上,本文所有實驗的最低錯誤率,并與此數(shù)據(jù)集已記錄模型的結(jié)果相比,如表4所示.
表4 MNIST數(shù)據(jù)集上改進DBN取得的最優(yōu)結(jié)果與其他模型已有結(jié)果的比較Table 4 Comparison of DBN and other models′best results on MNIST dataset
3.2CIFAR-10數(shù)據(jù)集
CIFAR-10數(shù)據(jù)集包含60000張32×32大小的彩色圖像,共有10類.每張圖像中都包含一類物體,這些類別是完全獨立的.與MNIST數(shù)據(jù)集相比,CIFAR-10數(shù)據(jù)集更為復(fù)雜,彩色圖像數(shù)據(jù)維度更高,因此識別難度將會更大.
與之前實驗類似,本文訓(xùn)練了RBM和改進RBM,其隱含層單元數(shù)從600逐步增加到1000.
模型訓(xùn)練后的分類錯誤率如圖6所示.從圖中可以看出,在CIFAR-10數(shù)據(jù)集上,改進RBM的分類錯誤率依然低于傳統(tǒng)RBM,盡管輸入數(shù)據(jù)維數(shù)更高、內(nèi)容更復(fù)雜,膠質(zhì)細胞鏈改進的RBM仍能學(xué)習(xí)到更優(yōu)的圖像特征.
同樣,兩種DBN模型也在此數(shù)據(jù)上訓(xùn)練,兩個隱含層單元數(shù)分別為1000和500,訓(xùn)練和測試錯誤率如表5所示.可以看出,改進的DBN模型在CIFAR-10數(shù)據(jù)集也獲得了更低的訓(xùn)練錯誤、更高的測試分類準確率和更快的收斂速度.
圖6 RBM及膠質(zhì)細胞改進RBM在CIFAR-10數(shù)據(jù)集上的測試分類錯誤率Fig.6 Test error rate of RBM and RBM with glia chain on CIFAR-10 dataset
表5 CIFAR-10數(shù)據(jù)集上DBN及膠質(zhì)細胞改進DBN的訓(xùn)練和測試分類錯誤率及收斂時間Table 5 Training,testing error rate and convergence time of DBN and improved DBN on CIFAR-10 dataset
表6為在“Airplane”“Automobile”“Bird”這三類圖像數(shù)據(jù)中,DBN和改進DBN的FP和FN數(shù)據(jù).其結(jié)果顯示出改進DBN在識別這三類圖像中的物體時,仍然具有更少的誤分類,達到了更高的準確度.
表6 CIFAR-10數(shù)據(jù)集上DBN及膠質(zhì)細胞改進DBN的FP和FN數(shù)據(jù)Table 6 FP and FN data of DBN and improved DBN on CIFAR-10 dataset
3.3Rectangles images數(shù)據(jù)集
Rectangle images數(shù)據(jù)集包含62000張28×28的圖像數(shù)據(jù),每張圖像中均有一個矩形圖形,其高度和寬度不等.在此數(shù)據(jù)集上的分類任務(wù)為識別矩形的高度和寬度中的較大值,而矩形的位置并不固定.
與之前兩個數(shù)據(jù)上實驗相同,本文首先訓(xùn)練了不同隱含層單元數(shù)的RBM和改進RBM,其分類結(jié)果如圖7所示.
圖7 Rectangles images數(shù)據(jù)集上RBM及膠質(zhì)細胞改進RBM的測試分類錯誤率Fig.7 Test error rate of RBM and RBM with glia chain on Rectangles images dataset
由圖7可以看到,當(dāng)隱含層單元數(shù)逐漸增加時,改進RBM獲得了更低的測試分類錯誤率,在隱含單元數(shù)為200時最為明顯,并且在隱含層單元增加的過程中,改進RBM的錯誤率下降趨勢更大,說明改進RBM更適于多隱含層單元的模型,適合較復(fù)雜的圖像數(shù)據(jù)的分類.
對于兩個隱含層的DBN和改進DBN,其隱含單元數(shù)均設(shè)置為500和200.表7顯示了兩種模型的測試錯誤率、收斂時間、FP和FN數(shù)據(jù).從結(jié)果可以看出,改進的RBM和DBN模型仍然具有更優(yōu)秀的學(xué)習(xí)性能.
表7 Rectangles images數(shù)據(jù)集上DBN及膠質(zhì)細胞改進DBN的訓(xùn)練和測試錯誤率、收斂時間、FP和FN數(shù)據(jù)Table 7 Training,testing error rate,convergence time,and FP,F(xiàn)N data of DBN and improved DBN on Rectangles images dataset
3.4參數(shù)選擇
本文提出的改進DBN模型包含三個重要參數(shù):膠質(zhì)效果權(quán)重、衰減因子、膠質(zhì)細胞閾值.這三個參數(shù)將決定膠質(zhì)細胞對DBN的作用,進而影響訓(xùn)練模型的整體性能.由于在目前的改進DBN模型的定義中尚無這三個參數(shù)的自適應(yīng)調(diào)整方法,因此現(xiàn)階段膠質(zhì)細胞參數(shù)的調(diào)整需通過人工設(shè)置及實驗結(jié)果驗證.在本節(jié)中,本文在Rectangles images數(shù)據(jù)集上重點考察了當(dāng)這三個膠質(zhì)細胞參數(shù)取值為0到1區(qū)間內(nèi)間隔為0.05的20個不同值時,對模型測試分類錯誤率的影響,在每個參數(shù)不同取值下,本文均進行了30次實驗,取測試分類錯誤率的平均值作為最終結(jié)果,希望能在結(jié)果中探討參數(shù)的合理取值區(qū)間,為改進DBN模型的應(yīng)用提供一定的參考.
本文將測試單隱含層和雙隱含層的改進DBN模型,其隱含單元數(shù)設(shè)置為:第一隱含層500,第二隱含層200.首先測試膠質(zhì)效果權(quán)重不同取值下改進DBN模型在數(shù)據(jù)上的測試分類錯誤率,如圖8所示.
圖8 膠質(zhì)效果權(quán)重參數(shù)不同取值下改進DBN模型的測試分類錯誤率Fig.8 Testing error rate of improved DBN with different values of glia effect weight
從圖8可以看出,當(dāng)膠質(zhì)效果權(quán)重取值在0.05 到1的區(qū)間時,兩種結(jié)構(gòu)的改進DBN模型獲得的錯誤率均在不斷波動.但是可以明顯看出,當(dāng)權(quán)重取值靠近區(qū)間邊緣時(單隱含層取值0.1,雙隱含層取值0.95),都會出現(xiàn)較高的錯誤率,因此膠質(zhì)效果權(quán)重不應(yīng)設(shè)置過小或過大.另一方面,當(dāng)權(quán)重分別設(shè)置為0.85和0.75時,都獲得了最低的錯誤率,但是其相鄰取值時的錯誤率均出現(xiàn)了較高的點,并沒有一定規(guī)律.經(jīng)過比較,可以看到權(quán)重取值為0.5左右時,結(jié)果的變動較小,并且錯誤率相對較低,因此在此取值范圍內(nèi),膠質(zhì)效果適中,對DBN模型的影響較好.
圖9顯示了衰減因子參數(shù)為不同取值時的情況.最高錯誤率出現(xiàn)在0.55(單隱含層模型)及0.95(雙隱含層模型),而最低錯誤率分別出現(xiàn)在取值為1.00 和0.05.對于單隱含層模型,隨著衰減因子逐漸增大,其分類錯誤率有下降趨勢,而雙隱含層模型的分類錯誤率則總體略有上升.因此改進DBN的衰減因子參數(shù)取值較大時對單隱含層模型較為適合,而取值較小時,對于雙隱含層模型較適合.
圖10為膠質(zhì)細胞的閾值參數(shù)不同取值時兩種結(jié)構(gòu)改進DBN模型的分類錯誤率變化情況.其中膠質(zhì)細胞閾值的取值在0.40和0.45時,單隱含層模型分別獲得了最低和最高的錯誤率.當(dāng)取值為0.15和0.20時,雙隱含層模型擁有最高和最低的錯誤率.這兩種取值都較為接近,并且沒有一定的規(guī)律.但是可以看到,在0.80至0.90的區(qū)間內(nèi),兩種結(jié)構(gòu)的改進DBN模型的分類錯誤率均為較低水平,并且變化較小.因此這個區(qū)間對膠質(zhì)細胞閾值是一個較合理的取值區(qū)間.這可以在一定程度上說明較高的膠質(zhì)細胞閾值決定了只有少數(shù)的膠質(zhì)細胞能夠激活,也只有少數(shù)的DBN隱含層單元獲得更高的膠質(zhì)效果,因此更有利于DBN模型的訓(xùn)練.
圖9 膠質(zhì)衰減因子參數(shù)不同取值下改進DBN模型的測試分類錯誤率Fig.9 Testing error rate of improved DBN with different values of attenuation factor
圖10 膠質(zhì)閾值參數(shù)不同取值下改進DBN模型的測試分類錯誤率Fig.10 Testing error rate of improved DBN with different values of glia threshold
本文提出了一種基于人腦膠質(zhì)細胞和神經(jīng)元交互機制的改進DBN模型,其中膠質(zhì)細胞組成的鏈式結(jié)構(gòu)與DBN的隱含層相連.在此結(jié)構(gòu)基礎(chǔ)上,提出一種改進的DBN訓(xùn)練算法,以提取更優(yōu)的數(shù)據(jù)特征.在組成DBN的RBM訓(xùn)練過程中,膠質(zhì)細胞能夠調(diào)整隱含層單元的輸出并向其他膠質(zhì)細胞傳遞相關(guān)信息.為了驗證模型的學(xué)習(xí)性能,本文在MNIST、CIFAR-10、Rectangles images數(shù)據(jù)集上進行實驗.與其他幾種模型相比,改進的DBN能夠提取更加適于圖像分類任務(wù)的特征.但目前本文提出的模型仍有不足之處,由于膠質(zhì)細胞機制的引入,增加了需要調(diào)整的參數(shù),增大了訓(xùn)練模型時尋找最優(yōu)參數(shù)的難度.在今后的工作中,我們將會進一步研究提高算法的運行效率以及膠質(zhì)細胞參數(shù)的自適應(yīng)調(diào)整方法.
References
1 Kruger N,Janssen P,Kalkan S,Lappe M,Leonardis A,Piater J,Rodriguez-Sanchez A J,Wiskott L.Deep hierarchies in the primate visual cortex:what can we learn for computer vision.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1847-1871
2 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
3 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527-1554
4 Bengio Y,Lamblin P,Popovici D,Larochelle H.Greedy layer-wise training of deep networks.In:Proceedings of Advances in Neural Information Processing Systems 19.Cambridge:MIT Press,2007.153-160
5 Lee H,Grosse R,Ranganath R,Ng A Y.Unsupervised learning of hierarchical representations with convolutional deep belief networks.Communications of the ACM,2011,54(10):95-103
6 Huang G B,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks.In:Proceedings of the 2012 IEEE Conference on Computer Vision&Pattern Recognition.Providence,RI:IEEE,2012.2518-2525
7 Liu P,Han S Z,Meng Z B,Tong Y.Facial expression recognition via a boosted deep belief network.In:Proceedings of the 2014 IEEE Conference on Computer Vision&Pattern Recognition.Columbus,OH:IEEE,2014.1805-1812
8 Roy P P,Chherawala Y,Cheriet M.Deep-belief-network based rescoring approach for handwritten word recognition. In:Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition.Heraklion:IEEE,2014.506-511
9 Mohamed A R,Dahl G E,Hinton G.Acoustic modeling using deep belief networks.IEEE Transactions on Audio,Speech,&Language Processing,2012,20(1):14-22
10 Kang S Y,Qian X J,Meng H L.Multi-distribution deep belief network for speech synthesis.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Vancouver,BC:IEEE,2013. 8012-8016
11 Haydon P G.GLIA:listening and talking to the synapse. Nature Reviews Neuroscience,2001,2(3):185-193
12 Ikuta C,Uwate Y,Nishio Y.Investigation of multi-layer perceptron with pulse glial chain.IEICE Technical Report Nonlinear Problems,2011,111(62):45-48(in Japanese)
13 Fischer A,Igel C.An introduction to restricted Boltzmann machines.In:Proceedings of the 17th Iberoamerican Congress on Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications.Lecture Notes in Computer Science.Buenos Aires,Argentina:Springer,2012. 14-36
14 Deng L,Yu D.Deep learning:methods and applications. Foundations&Trends?in Signal Processing,2013,7(3-4):197-387
15 Hinton G E.Training products of experts by minimizing contrastive divergence.Neural Computation,2002,14(8):1771-1800
16 Bengio Y.Learning deep architectures for AI.Foundations &Trends?in Machine Learning,2009,2(1):1-127
17 Ikuta C,Uwate Y,Nishio Y.Multi-layer perceptron with positive and negative pulse glial chain for solving two-spirals problem.In:Proceedings of the 2012 International Joint Conference on Neural Networks.Brisbane,QLD:IEEE,2012.1-6
18 Hinton G,Deng L,Yu D,Dahl G E,Mohamed A R,Jaitly N,Senior A,Vanhoucke V,Nguyen P,Sainath T N,Kingsbury B.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups.IEEE Signal Processing Magazine,2012,29(6):82-97
19 Hinton G E.A practical guide to training restricted Boltzmann machines.Neural Networks:Tricks of the Trade(2nd edition).Berlin Heidelberg:Springer,2012.599-619
20 Lecun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324
21 Krizhevsky A,Hinton G.Learning Multiple Layers of Features from Tiny Images,Technical Report,University of Toronto,Canada,2009.
22 Larochelle H,Erhan D,Courville A,Bergstra J,Bengio Y,Ghahramani Z.An empirical evaluation of deep architectures on problems with many factors of variation.In:Proceedings of the 24th International Conference on Machine Learning.Oregon,USA:ICML,2007.473-480
23 Luo Y X,Wan Y.A novel efficient method for training sparse auto-encoders.In:Proceedings of the 6th International Congress on Image&Signal Processing.Hangzhou,China:IEEE,2013.1019-1023
24 Rumelhart D E,Hinton G E,Williams R J.Learning internal representations by error propagation.Neurocomputing:Foundations of Research.Cambridge:MIT Press,1988. 673-695
25 Platt J C.Using analytic Qp and sparseness to speed training of support vector machines.In:Proceedings of Advances in Neural Information Processing Systems 11.Cambridge:MIT Press,1999.557-563
26 Swersky K,Chen B,Marlin B,de Freitas N.A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets.In:Proceedings of the 2010 Information Theory and Applications Workshop (ITA).San Diego,USA:IEEE,2010.1-10
27 K′egl B,Busa-Fekete R.Boosting products of base classifiers. In:Proceedings of the 26th International Conference on Machine Learning.Montreal,Canada:ACM,2009.497-504
28 Hinton G E.What kind of a graphical model is the brain. In:Proceedings of the 19th International Joint Conference on Artificial Intelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,2005.1765-1775
29 Cortes C,Vapnik V.Support-vector networks.Machine Learning,1995,20(3):273-297
耿志強北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院教授.主要研究方向為神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)挖掘,過程建模與系統(tǒng)優(yōu)化.本文通信作者.
E-mail:gengzhiqiang@mail.buct.edu.cn (GENGZhi-QiangProfessor at theCollegeofInformationScience and Technology,Beijing University of Chemical Technology.His research interest covers neural networks,data mining,process modeling and system optimization.Corresponding author of this paper.)
張怡康北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院碩士研究生.主要研究方向為神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí).
E-mail:zykh11@163.com
(ZHANG Yi-KangMaster student at the College of Information Science and Technology,Beijing University of Chemical Technology.His research interest covers neural networks and deep learning.)
An Improved Deep Belief Network Inspired by Glia Chains
GENG Zhi-Qiang1ZHANG Yi-Kang1
Deep belief network(DBN)is a hierarchical model for learning feature representations from unlabeled data. However,there are no interconnections among the neural units in the same layer and the mutual information of different neural units may be ignored.Inspired by functions of glia cells in the neural network structure of human brain,we propose a variant structure of DBN and an improved learning algorithm to extract more information of the data.Experimental results based on benchmark image datasets have shown that the proposed DBN model can acquire better features and achieve lower error rates than a traditional DBN and other compared learning algorithms.
Deep belief network(DBN),glia cells,unsupervised learning,feature extraction
10.16383/j.aas.2016.c150727
Geng Zhi-Qiang,Zhang Yi-Kang.An improved deep belief network inspired by glia chains.Acta Automatica Sinica,2016,42(6):943-952
2015-10-31錄用日期2016-05-03
Manuscript received October 31,2015;accepted May 3,2016
國家自然科學(xué)基金(61374166),教育部博士點基金(20120010110 010),北京市自然科學(xué)基金(4162045)資助
Supported by National Natural Science Foundation of China (61374166),Ph.D.Programs Foundation of Ministry of Education of China(20120010110010),and Natural Science Foundation of Beijing(4162045)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院北京100029
1.College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029