程國(guó)建 郭文惠
摘要;如何提高圖像分類的準(zhǔn)確度是圖像研究的重要課題,而圖像特征的提取在圖像分類準(zhǔn)確度方面起決定性作用。該文詳細(xì)闡述了深度信念網(wǎng)絡(luò)結(jié)構(gòu)及其自動(dòng)提取圖像特征的過(guò)程,并對(duì)其原理進(jìn)行了詳細(xì)分析,說(shuō)明了深度信念網(wǎng)絡(luò)應(yīng)用于圖像分類的可靠性。
關(guān)鍵詞:圖像分類;深度信念網(wǎng)絡(luò);特征提取
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)07-0173-02
隨著社會(huì)的不斷進(jìn)步,圖像已經(jīng)成為重要的信息來(lái)源。而圖像分類是圖像處理中的一項(xiàng)重要工作,尤其對(duì)海量圖像進(jìn)行分類并提高其準(zhǔn)確度,是當(dāng)前圖像處理領(lǐng)域中要解決的關(guān)鍵問(wèn)題之一,包括張旭、付仲良x、Mariusz Myllarczuk等在內(nèi)的許多研究者在圖像處理方面做了大量研究。深度信念網(wǎng)絡(luò)是一種典型的深度學(xué)習(xí)算法,目前,已有很多研究者將深度信念網(wǎng)絡(luò)應(yīng)用于圖像分類中,可以用于多特征融合及深度信念網(wǎng)絡(luò)進(jìn)行了植物葉片識(shí)別、深度信念網(wǎng)絡(luò)識(shí)別了手寫數(shù)字、深度神經(jīng)網(wǎng)絡(luò)在小圖像分類中的應(yīng)用等。
傳統(tǒng)的巖石圖像分類是人工提取特征的,具有一定的主觀性并且效率低下,而深度信念網(wǎng)絡(luò)能自動(dòng)提取圖像的特征,克服了人工提取的不足,為圖像分類奠定堅(jiān)實(shí)的基礎(chǔ),可用于大量圖像的分類并具有較高的準(zhǔn)確度。
1受限玻爾茲曼機(jī)(RBM)
1.1受限玻爾茲曼機(jī)簡(jiǎn)介
受限玻爾茲曼機(jī)可看作一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),遵循神經(jīng)網(wǎng)絡(luò)的一般特性。相比于傳統(tǒng)玻爾茲曼,RBM的特點(diǎn)是層間神經(jīng)元全連接,而層內(nèi)神經(jīng)元無(wú)連接。它的結(jié)構(gòu)如圖1;
如圖1所示,RBM結(jié)構(gòu)由可見(jiàn)層v和隱含層h構(gòu)成,并且是對(duì)稱結(jié)構(gòu)。在一個(gè)RBM中,給定可見(jiàn)層,隱含層可以服從任意分布;相反地,給定隱含層,可見(jiàn)層也可服從任意分布。
1.2訓(xùn)練受限玻爾茲曼機(jī)
1.2.1神經(jīng)元之間的獨(dú)立性
在RBM中,只有層間的對(duì)稱連接,故,若給定所有可視層節(jié)點(diǎn)的值,則每一個(gè)隱藏層節(jié)點(diǎn)的取值是互不相關(guān)的,即,反之亦然,即。
1.2.2RBM的使用
正向傳遞過(guò)程:
假設(shè)已經(jīng)訓(xùn)練好一個(gè)可使用的RBM,權(quán)重矩陣為w。正向傳遞是在已知可見(jiàn)層節(jié)點(diǎn)值的條件下求隱含層節(jié)點(diǎn)開啟的概率。同普通神經(jīng)網(wǎng)絡(luò)一樣,首先計(jì)算出每個(gè)隱含層節(jié)點(diǎn)的激勵(lì)值。如圖2所示,以含有4個(gè)可見(jiàn)層節(jié)點(diǎn)、3個(gè)隱含層節(jié)點(diǎn)的RBM為例。每個(gè)可見(jiàn)層節(jié)點(diǎn)值x與其對(duì)應(yīng)的權(quán)重相乘,之后將這四個(gè)值(共四個(gè)輸入)相加后再與偏置6相加,以此作為該隱藏層節(jié)點(diǎn)的輸入,最后在該隱藏層節(jié)點(diǎn)上通過(guò)激勵(lì)函數(shù)的作用得到其輸出a。
然后,標(biāo)準(zhǔn)化每個(gè)隱層節(jié)點(diǎn)的激勵(lì)值。具體操作是用式1所示的sigmoid函數(shù)作用于該激勵(lì)值,將之轉(zhuǎn)化為0到1之間的數(shù),并用該值表示隱層節(jié)點(diǎn)開啟的概率。
(1)
最后,抽取隱層節(jié)點(diǎn)。將計(jì)算出來(lái)的隱層節(jié)點(diǎn)開啟概率與設(shè)定的u值進(jìn)行比較,最終決定隱元開啟或關(guān)閉,如式2,其中u值是從0,1分布中隨機(jī)抽取的。
(2)
反向傳遞過(guò)程:
RBM最顯著的性質(zhì)就是無(wú)監(jiān)督地重構(gòu)數(shù)據(jù),即在可見(jiàn)層與隱藏層之間進(jìn)行多次正向傳遞和反向傳遞,而不加大網(wǎng)絡(luò)深度。反向傳遞是對(duì)前一次正、反向傳遞后可見(jiàn)層結(jié)果的重構(gòu)過(guò)程。
如圖3所示,反向傳遞過(guò)程是在已知隱含層的條件下求可視層,將正向傳遞之后隱層節(jié)點(diǎn)的結(jié)果作為輸入,如正向傳遞過(guò)程一樣,這些輸入值又與同樣的權(quán)重相乘之后再相加,然后再與可見(jiàn)層的偏置相加,所得結(jié)果即為重構(gòu)值。
在RBM中,正向傳遞是通過(guò)初始值預(yù)測(cè)隱藏節(jié)點(diǎn)的值;反向傳遞則是通過(guò)隱藏節(jié)點(diǎn)的值重構(gòu)可視層節(jié)點(diǎn)值。通過(guò)重構(gòu)值與真實(shí)數(shù)據(jù)的對(duì)比為標(biāo)準(zhǔn)調(diào)節(jié)權(quán)重,使重構(gòu)值盡可能接近真實(shí)值,以此來(lái)提取原始數(shù)據(jù)的特征。
1.2.3對(duì)比散度算法訓(xùn)練RRM
對(duì)于RBM來(lái)說(shuō),其訓(xùn)練過(guò)程便是求得合適的層間權(quán)重。具體操作是通過(guò)多次正向傳遞和反向傳遞過(guò)程,得出可見(jiàn)層與隱藏層之間的聯(lián)合概率,將之作為連接權(quán)重。
目前常用的RBM訓(xùn)練方法是G-hinton提出的對(duì)比散度(CD)算法,其訓(xùn)練過(guò)程如下:
對(duì)于訓(xùn)練集中的一個(gè)樣本,將之輸入到可見(jiàn)層口(0),使用式(1)計(jì)算每個(gè)隱層單元開啟的概率,并用上文方法從中抽取出樣本h(0)。
使用h(0)重構(gòu)出可視層并抽取出樣本v(1)。
再使用計(jì)算出隱層單元的開啟概率。并按式3更新權(quán)重;
(3)
重復(fù)上述步驟直到訓(xùn)練完所有樣本。
2深度信念網(wǎng)絡(luò)(DBN)
2.1深度信念網(wǎng)絡(luò)簡(jiǎn)介
深度信念網(wǎng)絡(luò)是由G_hinton在2006年提出的一種深度學(xué)習(xí)算法,它能較為快速、準(zhǔn)確地提取樣本的本質(zhì)特征,可用于數(shù)據(jù)的分類與識(shí)別,克服了傳統(tǒng)方法中人工提取特征的盲目性以提高精度。其結(jié)構(gòu)可看作是若干個(gè)RBM的疊加,以三層DBN(兩個(gè)RBM疊加而成)結(jié)構(gòu)為例,其中RBM1的隱藏層可看作是RBM2的可視層。每個(gè)RBM的訓(xùn)練方法同普通RBM一樣。
2.2DBN的訓(xùn)練
DBN中前一層的輸出作為后一層的輸入。其訓(xùn)練過(guò)程是采取貪心算法的思想分層進(jìn)行的,即從輸入層開始,先訓(xùn)練好一個(gè)刪,將其權(quán)重固定,將第一個(gè)RBM的輸出作為第二個(gè)RBM的輸入訓(xùn)練好第二個(gè)RBM固定權(quán)重后,將之疊加在第一個(gè)RBM之上,依次類推,直到網(wǎng)絡(luò)最后一層。如此訓(xùn)練之后,使用wake-sleep算法對(duì)整個(gè)DBN進(jìn)行進(jìn)一步調(diào)優(yōu)。
在圖像分類中,是將DBN最后一層的輸出連接到普通分類器中實(shí)現(xiàn)的??蓪?duì)其進(jìn)行如下調(diào)優(yōu):在訓(xùn)練完所有RBM之后,對(duì)整個(gè)網(wǎng)絡(luò)使用梯度下降法調(diào)整權(quán)重,此時(shí),網(wǎng)絡(luò)就看作是一個(gè)普通神經(jīng)網(wǎng)絡(luò)。
3DBN的應(yīng)用
使用DBN進(jìn)行圖像分類一般包括圖像預(yù)處理、DBN建模、使用訓(xùn)練集數(shù)據(jù)訓(xùn)練DBN模型、最后使用測(cè)試集進(jìn)行測(cè)試幾個(gè)步驟。建模及訓(xùn)練方法上文已詳細(xì)介紹,下面主要介紹數(shù)據(jù)集預(yù)處理過(guò)程。
數(shù)據(jù)集預(yù)處理首先是通過(guò)降采樣等方法將圖像大小調(diào)整至適合網(wǎng)絡(luò)訓(xùn)練的規(guī)格。假設(shè)圖像為大小為28*28,那么網(wǎng)絡(luò)輸入層就需要28*28個(gè)節(jié)點(diǎn)。其次是采用數(shù)據(jù)歸一化和白化等操作對(duì)圖像進(jìn)行去燥和去冗余操作。最后將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分。
數(shù)據(jù)集預(yù)處理之后,使用訓(xùn)練集數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。首先是DBN的分層訓(xùn)練,然后是將分類器連接到DBN上通過(guò)梯度下降法進(jìn)一步調(diào)整網(wǎng)絡(luò),直到滿足要求。網(wǎng)絡(luò)訓(xùn)練好后便可通過(guò)DBN自動(dòng)提取特征,再將此特征輸入到普通分類器中對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類。
目前DBN已成功應(yīng)用于圖像識(shí)別領(lǐng)域,如林妙真將其應(yīng)用于人臉超分辨圖像識(shí)別,并分別在不同的表情、分辨率及不同姿態(tài)下都取得了較好的識(shí)別率,通過(guò)實(shí)驗(yàn)均取得了較好的結(jié)果,證明了DBN在圖像分類中的可靠性。
4結(jié)語(yǔ)
AiphaGo大戰(zhàn)圍棋高手李世石并取得勝利的事實(shí)證明了深度學(xué)習(xí)的巨大潛力,而深度信念網(wǎng)絡(luò)是深度學(xué)習(xí)中一個(gè)重要的網(wǎng)絡(luò),運(yùn)行效率較高并能自動(dòng)獲取圖像特征,可提高圖像分類效率和準(zhǔn)確度,既可用于大規(guī)模數(shù)據(jù)的分類,也可用于小規(guī)模數(shù)據(jù)的分類。將深度學(xué)習(xí)算法應(yīng)用于圖像分類,可大大提高工作效率及分類準(zhǔn)確性。