劉涵+賀霖+李軍
摘要:深度學(xué)習(xí)一般通過(guò)3種方式進(jìn)行:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和混合深度學(xué)習(xí)。以“無(wú)監(jiān)督或生成式特征學(xué)習(xí)”以及“有監(jiān)督特征學(xué)習(xí)和分類”為例,討論了深度學(xué)習(xí)及其在圖像處理等領(lǐng)域的進(jìn)展及未來(lái)可能的研究方向。認(rèn)為深度學(xué)習(xí)打破了傳統(tǒng)機(jī)器學(xué)習(xí)和信號(hào)處理技術(shù)普遍基于淺層結(jié)構(gòu)的局限。得益于相關(guān)非凸優(yōu)化等問(wèn)題的逐步解決,深度學(xué)習(xí)已經(jīng)在圖像處理等領(lǐng)域取得了一些突破性的進(jìn)展。
關(guān)鍵詞: 深度學(xué)習(xí);圖像處理;分層結(jié)構(gòu)
在過(guò)去10年左右的時(shí)間里,深度學(xué)習(xí)對(duì)信息技術(shù)的許多方面都產(chǎn)生了重要影響。諸多關(guān)于深度學(xué)習(xí)的描述普遍存在兩個(gè)重要的共同點(diǎn):包含多層或多階非線性信息處理的模型;使用了連續(xù)的更高、更抽象層中的監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)特征表示的方法。深度學(xué)習(xí)是以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),包含人工智能、圖模型、最優(yōu)化等技術(shù)在內(nèi)的交叉領(lǐng)域。它之所以如此受關(guān)注,主要源于3個(gè)方面:芯片硬件處理性能的巨大提升,為深度網(wǎng)絡(luò)的復(fù)雜計(jì)算提供了基礎(chǔ);用于訓(xùn)練的數(shù)據(jù)呈爆炸性增長(zhǎng),為復(fù)雜網(wǎng)絡(luò)的學(xué)習(xí)提供了可能;機(jī)器學(xué)習(xí)和信息處理等方面研究取得了很大進(jìn)展。
1 深度學(xué)習(xí)的發(fā)展
以前,絕大多數(shù)機(jī)器學(xué)習(xí)和信號(hào)處理技術(shù)都是基于淺層結(jié)構(gòu),如高斯混合模型(GMM)、線性或非線性動(dòng)力系統(tǒng)、條件隨機(jī)場(chǎng)(CRF)、最大熵模型(MaxEnt)、支持向量機(jī)(SVM)、邏輯回歸(LR)、核回歸以及多層感知器(MLP)等。這些結(jié)構(gòu)一般包含最多一到兩層的非線性特征變換。已有研究表明:淺層結(jié)構(gòu)在解決簡(jiǎn)單的或者約束較多的問(wèn)題上效果明顯,但是由于其建模和表示能力有限,在對(duì)實(shí)際應(yīng)用中一些較為復(fù)雜自然信號(hào)(比如人類語(yǔ)音、自然聲音和語(yǔ)言、自然圖像和視覺(jué)景色)進(jìn)行處理時(shí)會(huì)遇到一些困難。人類的聽(tīng)覺(jué)和視覺(jué)信息等的處理機(jī)制一般可以用深度結(jié)構(gòu)描述,通過(guò)該結(jié)構(gòu)可以從感官輸入信息中提取復(fù)雜結(jié)構(gòu)并構(gòu)建內(nèi)部表示。如果能實(shí)現(xiàn)有效和高效的深度學(xué)習(xí)算法,那么對(duì)于各種自然信號(hào)的處理技術(shù)而言,其性能會(huì)得到很大提升。
深度學(xué)習(xí)的概念一般被認(rèn)為來(lái)源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究。前饋神經(jīng)網(wǎng)絡(luò)或具有多隱層的多層感知器是深度神經(jīng)網(wǎng)絡(luò)(DNN)的典型模型。反向傳播(BP)算法是解決其學(xué)習(xí)問(wèn)題的廣泛運(yùn)用的典型算法。遺憾的是,僅僅使用BP算法在實(shí)際學(xué)習(xí)隱層數(shù)目較多的網(wǎng)絡(luò)時(shí)往往效果不是很好[1]。在優(yōu)化目標(biāo)為非凸函數(shù)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,通常存在局部最優(yōu)解等問(wèn)題。BP算法基于局部梯度信息,往往從一些隨機(jī)的初始點(diǎn)開(kāi)始尋優(yōu),當(dāng)使用批量梯度下降或隨機(jī)梯度下降的BP算法時(shí),目標(biāo)函數(shù)經(jīng)常會(huì)陷入局部最優(yōu)。隨著網(wǎng)絡(luò)層數(shù)的加深,局部最優(yōu)的情況也就會(huì)變得越來(lái)越嚴(yán)重。雖然相關(guān)研究者對(duì)小規(guī)模的神經(jīng)網(wǎng)絡(luò)的探究從未間斷過(guò),但是在很多機(jī)器學(xué)習(xí)和信號(hào)處理方法中,研究者們將研究重點(diǎn)從對(duì)神經(jīng)網(wǎng)絡(luò)本身的研究轉(zhuǎn)移到對(duì)具有凸損失函數(shù)的淺層模型的研究,這些模型以降低建模準(zhǔn)確度為代價(jià),達(dá)到快速高效地收斂到全局最優(yōu)化的目的。所以,深層網(wǎng)絡(luò)本身還存在著易于陷入局部最優(yōu)等缺陷,有待于進(jìn)行更深入的研究。
Hinton等在2006年左右提出了一種高效的基于深度置信網(wǎng)絡(luò)(DBN)的無(wú)監(jiān)督學(xué)習(xí)算法[2-3],他們利用經(jīng)驗(yàn)性的方法處理了與深度模型相關(guān)的最優(yōu)化難題。DBN是一種深度生成式模型,由一組受限玻爾茲曼機(jī)(RBMs)堆疊而成,它的核心部分是貪婪式的逐層學(xué)習(xí),這種算法可以最優(yōu)化DBN中的權(quán)重,且其時(shí)間復(fù)雜度與網(wǎng)絡(luò)的大小和深度呈線性關(guān)系。最近,相關(guān)研究者對(duì)于DNN與DBN進(jìn)行了更加細(xì)致的研究,如可使用DBN來(lái)初始化DNN的權(quán)值等。在DNN中,多隱層的使用不僅顯著提高了網(wǎng)絡(luò)的表示能力,而且可得到一些較優(yōu)解。然而,在訓(xùn)練過(guò)程中使用深而寬的神經(jīng)網(wǎng)絡(luò)需要依賴于強(qiáng)大的計(jì)算性能。隨機(jī)梯度下降(SGD)算法就是一種在訓(xùn)練集較大且冗余的情況下較為有效的學(xué)習(xí)算法[4]。已有的研究表明:SGD可以有效地實(shí)現(xiàn)并行方式的運(yùn)算。該并行運(yùn)算主要通過(guò)兩種方式實(shí)現(xiàn):一種方式是通過(guò)異步模式使用多臺(tái)計(jì)算機(jī)[5];另一種方式是使用多圖形處理器(GPU)的流水線型的BP算法[6]。另外,從單個(gè)或小批量樣本中估計(jì)得到的隨機(jī)性梯度使得SGD通常能跳出局部最優(yōu)解。其他的一些學(xué)習(xí)算法,如Hessian free[7]、Krylov subspace[12]方法等,都表現(xiàn)出了類似的學(xué)習(xí)能力。對(duì)于DNN學(xué)習(xí)中涉及的非凸優(yōu)化問(wèn)題,更好的參數(shù)初始化和學(xué)習(xí)技術(shù)都會(huì)學(xué)習(xí)出更好的模型。
DBN預(yù)訓(xùn)練并不是唯一可對(duì)DNN進(jìn)行有效初始化的方法?;诮翟胱詣?dòng)編碼器的方法對(duì)DNN進(jìn)行逐層地預(yù)訓(xùn)練,將每?jī)蓪右暈橐粋€(gè)降噪自編碼器,該編碼器再通過(guò)將輸入節(jié)點(diǎn)的隨機(jī)子集設(shè)置為零進(jìn)行正則化[1,8]。另一種方法則是使用壓縮自編碼器[14],該編碼器通過(guò)使輸入變量具有更好的魯棒性來(lái)達(dá)到同樣的目的。此外,Ranzato等開(kāi)發(fā)了稀疏編碼對(duì)稱機(jī)(SESM)[9],其在構(gòu)建DBN模塊中具有和RBM非常類似的架構(gòu),它也可以用來(lái)有效地初始化DNN的訓(xùn)練過(guò)程。除了使用貪婪方法逐層地進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,有監(jiān)督的預(yù)訓(xùn)練(有時(shí)稱為判別式預(yù)訓(xùn)練)也被證明是比較有效的[10-11]。有監(jiān)督的預(yù)訓(xùn)練的基本思路是從一個(gè)經(jīng)過(guò)BP算法訓(xùn)練的單個(gè)隱層MLP開(kāi)始,每一次需要添加一個(gè)新的隱層時(shí),用一個(gè)隨機(jī)初始化的新的隱層和輸出層替換輸出層,并用BP算法訓(xùn)練全新的MLP(或DNN)。在RBM發(fā)展的同時(shí),出現(xiàn)了另外兩種較有代表性的非概率的、非生成式的深度模型:一種是基于自編碼器(AE)的改進(jìn)模型,其使用與DBN訓(xùn)練相似的貪婪分層方法進(jìn)行訓(xùn)練;另一種是基于能量的模型,其利用稀疏表示來(lái)進(jìn)行非監(jiān)督學(xué)習(xí)。與DBN相似,其也可對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行高效的預(yù)訓(xùn)練。
2 3種深度學(xué)習(xí)網(wǎng)絡(luò)
深度學(xué)習(xí)是一類應(yīng)用廣泛的機(jī)器學(xué)習(xí)技術(shù)和架構(gòu),其特點(diǎn)是采用多層的非線性結(jié)構(gòu)進(jìn)行信息處理,這種方法在本質(zhì)上是分層實(shí)現(xiàn)的。根據(jù)不同應(yīng)用領(lǐng)域的任務(wù)目標(biāo)及對(duì)應(yīng)的不同深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),我們可以大致把已有深度學(xué)習(xí)結(jié)構(gòu)分為3類:
(1)無(wú)監(jiān)督的或生成式學(xué)習(xí)的深度網(wǎng)絡(luò)。該結(jié)構(gòu)針對(duì)模式分析和合成任務(wù),用于在沒(méi)有目標(biāo)類標(biāo)簽信息的情況下捕捉可見(jiàn)數(shù)據(jù)的高階相關(guān)性。已有的無(wú)監(jiān)督特征學(xué)習(xí)或表達(dá)學(xué)習(xí)指的就是這一類深度網(wǎng)絡(luò)。
(2)有監(jiān)督學(xué)習(xí)的深度網(wǎng)絡(luò)。該種網(wǎng)絡(luò)直接提供用于模式分類目的的判別能力,它的特點(diǎn)是描述了在給定可見(jiàn)數(shù)據(jù)的條件下不同類別的后驗(yàn)概率分布。對(duì)于這種有監(jiān)督的學(xué)習(xí),目標(biāo)數(shù)據(jù)的類別標(biāo)簽總是以直接或間接形式給出,所以它們也被稱作判別式深度網(wǎng)絡(luò)。
(3)混合式深度網(wǎng)絡(luò)。其目標(biāo)是實(shí)現(xiàn)判別式模型的效果,往往以生成式或無(wú)監(jiān)督深度網(wǎng)絡(luò)的結(jié)果作為重要輔助,通過(guò)更好地優(yōu)化和正則化以上類別(2)中的深度網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),也可以通過(guò)使用判別式準(zhǔn)則對(duì)以上類別(1)中所述的深度生成式或無(wú)監(jiān)督深度網(wǎng)絡(luò)進(jìn)行參數(shù)估計(jì)來(lái)實(shí)現(xiàn)。
從傳統(tǒng)機(jī)器學(xué)習(xí)的角度,深度學(xué)習(xí)模型可分為深度判別式模型和生成式/無(wú)監(jiān)督模型。然而這種模型分類方法忽略了深度學(xué)習(xí)研究中的一個(gè)重要觀點(diǎn),即生成式和無(wú)監(jiān)督學(xué)習(xí)模型可通過(guò)更好地正則化與優(yōu)化來(lái)提高深度判別網(wǎng)絡(luò)的訓(xùn)練效果。因此,深度學(xué)習(xí)網(wǎng)絡(luò)有時(shí)會(huì)以混合式的結(jié)構(gòu)形式出現(xiàn)。
3 深度學(xué)習(xí)在圖像目標(biāo)識(shí)別和計(jì)算機(jī)視覺(jué)中的應(yīng)用
多年來(lái),計(jì)算機(jī)視覺(jué)和圖像目標(biāo)識(shí)別等任務(wù)長(zhǎng)期依賴人工設(shè)計(jì)的特征,如尺度不變特征變換(SIFT)和方向梯度直方圖(HOG)等。此類特征僅僅是對(duì)圖像中低級(jí)別的邊緣信息進(jìn)行描述與表征,若要描述圖像中高級(jí)信息例如邊緣交叉和局部外觀等,其往往顯得力不從心。深度學(xué)習(xí)可以通過(guò)無(wú)監(jiān)督和有監(jiān)督的學(xué)習(xí)方法直接從數(shù)據(jù)中獲得層級(jí)化的視覺(jué)特征,從而提供一套更為有效的解決方案。深度學(xué)習(xí)方法經(jīng)常可從無(wú)監(jiān)督和有監(jiān)督兩個(gè)角度進(jìn)行討論:無(wú)監(jiān)督特征學(xué)習(xí),該類方法通常將深度學(xué)習(xí)用于特征提取,然后這些特征會(huì)被直接送入后續(xù)分類算法;有監(jiān)督的特征學(xué)習(xí),當(dāng)存在大量有標(biāo)簽樣本時(shí),此類方法通過(guò)端到端的學(xué)習(xí)策略實(shí)現(xiàn)特征提取與分類器的聯(lián)合優(yōu)化。
3.1 無(wú)監(jiān)督或生成特征學(xué)習(xí)
當(dāng)有標(biāo)簽樣本相對(duì)缺乏時(shí),無(wú)監(jiān)督學(xué)習(xí)算法可用于學(xué)習(xí)視覺(jué)特征層級(jí)結(jié)構(gòu)。如Hinton和Salakhutdinoy等最早提出將無(wú)監(jiān)督深度自編碼方法應(yīng)用于DBN模型的預(yù)訓(xùn)練[4]。他們利用該方法在僅有60 000個(gè)訓(xùn)練樣本的美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所修正(MNIST)數(shù)據(jù)庫(kù)上成功實(shí)現(xiàn)了圖像的識(shí)別和降維(編碼)任務(wù)。此外,Nair和Hinton提出了一種改進(jìn)的DBN,該DBN的頂層使用了一個(gè)三階的RBM [12]。當(dāng)這種DBN被應(yīng)用于NORB數(shù)據(jù)庫(kù)(一個(gè)三維目標(biāo)識(shí)別任務(wù)數(shù)據(jù)庫(kù))上時(shí),其錯(cuò)誤率幾乎下降到了目前所公布的最低水平,這再次表明了DBN在很大程度上是優(yōu)于類SVM這樣的淺層模型。隨后,還出現(xiàn)一些對(duì)DBN的改進(jìn)文獻(xiàn)。其他的一些無(wú)監(jiān)督深度特征學(xué)習(xí)方法還包括稀疏自編碼器及基于深度稀疏編碼的模型等[13]。
3.2 有監(jiān)督特征學(xué)習(xí)和分類
CNN是一種受到廣泛關(guān)注的有監(jiān)督深度學(xué)習(xí)結(jié)構(gòu)。有監(jiān)督CNN結(jié)構(gòu)獲得廣泛關(guān)注始于2012年10月ImageNet競(jìng)賽,這主要是由于大量的有標(biāo)簽樣本及高性能GPU計(jì)算平臺(tái)的出現(xiàn)使得大規(guī)模CNN的高效訓(xùn)練成為可能。圖1給出了文獻(xiàn)[14]中所描述的CNN的基本結(jié)構(gòu)。為了實(shí)現(xiàn)典型圖像像素的空間位置相對(duì)不變性這一特點(diǎn),CNN使用了一個(gè)帶有局部連接和共享權(quán)值的卷積層,該層的輸出通過(guò)一個(gè)非線性激活函數(shù)來(lái)獲得激活響應(yīng),接著通過(guò)一個(gè)非線性池化層來(lái)減小數(shù)據(jù)量,最后再將池化層的輸出連接到若干個(gè)全連接層。這種結(jié)構(gòu)也常被稱作深度卷積神經(jīng)網(wǎng)絡(luò)。
CNN在2012年的ImageNet競(jìng)賽中取得了矚目的成績(jī)。在該次比賽中,使用深度CNN進(jìn)行建模的方法獲得了前所未有的低錯(cuò)誤率。該深度CNN模型包含6千萬(wàn)個(gè)權(quán)值,65萬(wàn)個(gè)神經(jīng)元節(jié)點(diǎn)以及結(jié)合5個(gè)卷積層的最大池化層。此外,兩個(gè)全連接層也被用于這個(gè)CNN模型的最頂層。另外,還有兩個(gè)額外的因素也起到了很重要的作用:首先,是一個(gè)稱為“dropout”[15]的強(qiáng)大的正則化技術(shù);第二個(gè)重要因素是通過(guò)激活函數(shù)f(x)=max(x,0)所實(shí)現(xiàn)的整流線性單元(ReLU)的應(yīng)用,使得整個(gè)訓(xùn)練過(guò)程的效率被極大地提高,尤其是通過(guò)GPU并行運(yùn)算實(shí)現(xiàn)后取得的效果更加明顯。其后,基于更大規(guī)模的模型以及更多的訓(xùn)練數(shù)據(jù),CNN得到了進(jìn)一步的改進(jìn)。不少深度CNN模型和方法的強(qiáng)大學(xué)習(xí)能力在各年的ImageNet競(jìng)賽上得到了驗(yàn)證。
深度CNN已被證明在圖像目標(biāo)識(shí)別任務(wù)中具有卓越的分類性能,關(guān)于其機(jī)理也逐漸有了一些解釋,如Zeiler等利用基于反卷積網(wǎng)絡(luò)的可視化技術(shù)對(duì)CNN的機(jī)理進(jìn)行了一些討論[16]。圖2示意了反卷積機(jī)理,該反卷積網(wǎng)絡(luò)通過(guò)CNN中相應(yīng)前饋計(jì)算的相反連續(xù)操作,其中包括反池化、校正和濾波,使得特征圖譜之上的活動(dòng)得以重建。在實(shí)現(xiàn)反池化的過(guò)程中,最大池化操作的非可逆性通過(guò)近似逆向逼近的方法得以解決。
除了深度CNN結(jié)構(gòu)外,DNN結(jié)構(gòu)也在大量的計(jì)算機(jī)視覺(jué)任務(wù)上獲得了成功[17-19]。目前,基于深度CNN結(jié)構(gòu)的有監(jiān)督學(xué)習(xí)模式及其相關(guān)的分類技術(shù)已在相關(guān)研究領(lǐng)域產(chǎn)生很大影響,這尤其體現(xiàn)在2012—2013年的ImageNet比賽中。這些方法不僅可以用于圖像目標(biāo)識(shí)別任務(wù),同樣還可以應(yīng)用于其他一些計(jì)算機(jī)視覺(jué)的任務(wù)中。當(dāng)然,關(guān)于CNN深度學(xué)習(xí)方法的機(jī)理及其局限性等,仍有很多問(wèn)題需要探討。
4 結(jié)論及展望
深度學(xué)習(xí)作為當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域最熱門(mén)的技術(shù)之一,已經(jīng)在不少領(lǐng)域獲得了應(yīng)用,并且展現(xiàn)出巨大的前景。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,它大致可以分為無(wú)監(jiān)督、有監(jiān)督和混合神經(jīng)網(wǎng)絡(luò)3種類別。作為一種從本質(zhì)上來(lái)說(shuō)是分層非線性結(jié)構(gòu)的深度模型,它所構(gòu)建和學(xué)習(xí)的深層特征表示無(wú)疑極大地提升了傳統(tǒng)淺層模型的泛化能力;但是隨之而來(lái)的明顯非凸的優(yōu)化目標(biāo)形式卻長(zhǎng)期困擾著該領(lǐng)域的研究者,如其導(dǎo)致的局部最優(yōu)化等問(wèn)題,阻礙著基于梯度的BP算法的有效實(shí)施。得益于無(wú)監(jiān)督預(yù)訓(xùn)練方法對(duì)優(yōu)化初始點(diǎn)的改善,該問(wèn)題有了一些經(jīng)驗(yàn)性且行之有效的解決方案。雖然該類方法缺乏穩(wěn)固的理論基礎(chǔ),卻成功促成了深度學(xué)習(xí)方法在學(xué)術(shù)界和工業(yè)界的大規(guī)模成功應(yīng)用。通過(guò)最近的研究發(fā)現(xiàn),現(xiàn)有深度架構(gòu)在優(yōu)化技術(shù)等方面存在著巨大的提升空間[7,10,20-23]。
另一方面,如果訓(xùn)練數(shù)據(jù)集足夠大,理論上來(lái)講,模型的泛化能力將會(huì)得到較大的提升,那么通過(guò)深度置信網(wǎng)絡(luò)等預(yù)訓(xùn)練方法所帶來(lái)的良好優(yōu)化初始點(diǎn)的重要性必然會(huì)顯著降低。然而,要實(shí)施針對(duì)大規(guī)模數(shù)據(jù)集的應(yīng)用,強(qiáng)大的計(jì)算能力是必不可少的。當(dāng)前來(lái)看,有效且可拓展的并行算法是訓(xùn)練龐大數(shù)據(jù)集的關(guān)鍵所在。然而,常用的基于mini-batch的梯度下降技術(shù)很難并行實(shí)現(xiàn)。最近出現(xiàn)的異步梯度下降等技術(shù)為這一領(lǐng)域相關(guān)問(wèn)題的解決帶來(lái)了一些新思路,并在CPU集群[7,13]和GPU集群[24]中得到了初步的實(shí)現(xiàn)。未來(lái),對(duì)于并行學(xué)習(xí)和新型的大規(guī)模優(yōu)化算法仍需要進(jìn)行有針對(duì)性的理論研究。
目前,阻礙深度模型發(fā)展的另一主要問(wèn)題在于超參數(shù)的合理選擇。眾所周知,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)有著數(shù)量眾多且自由度極大的超參數(shù),如網(wǎng)絡(luò)架構(gòu)的層數(shù)以及每層的單元數(shù)、正則化強(qiáng)度、學(xué)習(xí)速率以及學(xué)習(xí)速率衰減率等?;趥鹘y(tǒng)的網(wǎng)格搜索等技術(shù)的解決方案無(wú)論從效率還是成本的角度上來(lái)講對(duì)于超參數(shù)的設(shè)定都是不可行的。此外,不同的超參數(shù)之間通常存在著相互依賴性,且微調(diào)代價(jià)巨大。這些問(wèn)題決定了我們需要開(kāi)展進(jìn)一步的研究來(lái)探索更有效的解決方案。令人欣慰的是,近來(lái)以隨機(jī)采樣[25]和貝葉斯優(yōu)化過(guò)程[26]為代表的方法給我們帶來(lái)了一些新思路。雖然一些經(jīng)驗(yàn)性的超參數(shù)設(shè)置即可在一定程度反映出深層結(jié)構(gòu)所具有的強(qiáng)大泛化能力,但是超參數(shù)的最優(yōu)化配置在對(duì)一些特定應(yīng)用方面進(jìn)一步提高深度模型性能上仍具有很大的研究?jī)r(jià)值。
領(lǐng)域知識(shí)的應(yīng)用是深度學(xué)習(xí)方法成功的另一大關(guān)鍵因素。根據(jù)不同任務(wù)的特點(diǎn)設(shè)計(jì)不同的不變性特征提取方法以及正則化方法等是當(dāng)前所流行的一種應(yīng)用方式。研究者們也在基于域適應(yīng)的遷移學(xué)習(xí)對(duì)于深度學(xué)習(xí)的輔助作用方面進(jìn)行了一些研究,但是能夠普遍適用于各類分類任務(wù)的深度學(xué)習(xí)技術(shù)仍然是不存在的,例如:當(dāng)前較為通用的生成式預(yù)訓(xùn)練伴隨判別式微調(diào)的學(xué)習(xí)策略在一些特定的任務(wù)(如語(yǔ)音識(shí)別)中表現(xiàn)并不理想。因此,更加有效的域適應(yīng)技術(shù)和新型的通用學(xué)習(xí)架構(gòu)對(duì)于圖像處理等領(lǐng)域中的一些較為復(fù)雜的問(wèn)題而言是極其重要的。
深度學(xué)習(xí)理論還有其他一些方面的基礎(chǔ)性理論問(wèn)題值得關(guān)注,例如:如何通過(guò)關(guān)注數(shù)據(jù)變化中潛在因素的分布式表示問(wèn)題來(lái)設(shè)計(jì)更合理的深度學(xué)習(xí)架構(gòu),進(jìn)而提取更高效的特征表示;在深度結(jié)構(gòu)的輸入輸出表示中同時(shí)引入結(jié)構(gòu)信息[27-29],使得大多數(shù)傳統(tǒng)的深度學(xué)習(xí)技術(shù)只能用于“扁平結(jié)構(gòu)”表示的缺陷得到改善。最后,為了實(shí)現(xiàn)理想中的“強(qiáng)人工智能”,從而實(shí)現(xiàn)具備類似人類大腦水平的智慧,傳統(tǒng)的以信號(hào)處理和機(jī)器學(xué)習(xí)為主要技術(shù)基礎(chǔ)的人工智能研究應(yīng)更多地尋求同神經(jīng)計(jì)算等領(lǐng)域的合作,通過(guò)借助于前沿生物領(lǐng)域?qū)θ祟惔竽X分層結(jié)構(gòu)的最新研究成果來(lái)改善當(dāng)前的系統(tǒng)計(jì)算模型。
參考文獻(xiàn)
[1] BENGIO Y. Learning Deep Architectures for AI [J]. Foundations and Trends? in Machine Learning, 2009, 2(1):1-127. DOI: 10.1561/2200000006
[2] HINTON G E, OSINDRO S, TEH Y. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006,18(7):1527-1554. DOI: 10.1162/neco.2006.18.7.1527
[3] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. science, 2006,313(5786):504-507. DOI: 10.1126/science.1127647
[4] BOTTOU L, CUN Y L. Large Scale online Learning[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2004
[5] DEAN J, CORRADO G, MONGA R, et al. Large Scale Distributed Deep Networks[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2004
[6] CHEN X, EVERSOLE A, LI G, et al. Pipelined Back-Propagation for Context-Dependent Deep Neural Networks[C]//Interspeech 2012. USA: IEEE,2012. DOI: 10.1.1.649.218
[7] MARTENS J. Deep Learning via Hessian-Free Optimization[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10).USA:IEEE, 2010. DOI: 10.1.1.170.2846
[8] VINCENT. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion[J]. Journal of Machine Learning Research, 11(Dec): 3371-3408. DOI: 10.1561/2200000006
[9] BOUREAU Y, CUN Y L. Sparse Feature Learning for Deep Belief Networks[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2008
[10] BENGIO Y. Greedy Layer-Wise Training of Deep Networks[C]//Advances in Neural Information Processing Systems.USA: NIPS, 2007:153
[11] YU K, LIN Y. Learning Image Representations from the Pixel Level via Hierarchical Sparse Coding[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2011. DOI: 10.1109/CVPR.2011.5995732
[12] MNIH V, KAVUKCUOGLU, SILVER D, et al, Playing Atari with Deep Reinforcement Learning[EB/OL].(2017-05-22). https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
[13] LE Q V. Building High-Level Features Using Large Scale Unsupervised Learning[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. USA: IEEE, 2013. DOI: 10.1109/ICASSP.2013.6639343
[14] LE C Y. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998. 86(11): 2278-2324. DOI: 10.1109/5.726791
[15] HINTON G E, SRIVASTAVA N, KRIZHEVSKY, et al, Improving Neural Networks by Preventing Co-Adaptation of Feature Detectors[EB/OL].(2017-05-22). https://arxiv.org/pdf/1207.0580.pdf
[16] ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[C]//European Conference on Computer Vision. EU: Springer, 2014
[17] CIRESAN D C. Deep, Big, Simple Neural Nets for Handwritten Digit Recognition[J]. Neural Computation, 2010, 22(12): 3207-3220. DOI: 10.1162/NECO_a_00052
[18] CIRESAN D. Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2012
[19] CIREGAN D and MEIER U. Multi-Column Deep Neural Networks for Image Classification[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2012. DOI:10.1.1.367.484
[20] MARTENS J, SUTSKEVER I. Learning Recurrent Neural Networks with Hessian-Free Optimization[C]//The 28th International Conference on Machine Learning. USA: IEEE, 2011
[21] LE V Q, NGUAN J, COATES A, et al. On Optimization Methods for Deep Learning[C]//The 28th International Conference on Machine Learning. USA: IEEE, 2011
[22] SAINATH T N. Optimization Techniques to Improve Training Speed of Deep Neural Networks for Large Speech Tasks[J]. IEEE Transactions on Audio, Speech, and Language Processing, 21(11): 2267-2276. DOI: 10.1109/TASL.2013.2284378
[23] WRIGHT S J. Optimization Algorithms and Applications for Speech and Language Processing[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(11): 2231-2243. DOI: 10.1109/TASL.2013.2283777
[24] COATES A, HUVAL B, WANG T, et al. Deep Learning with COTS HPC Systems[C]//International Conference on Machine Learning. USA: IEEE, 2013
[25] BERGSTRA J, BENGIO Y. Random Search for Hyper-Parameter Optimization [J]. Journal of Machine Learning Research, 2012, 13: 281-305. DOI: 10.2307/1268522
[26] SNOEK J, LAROCHELLE H, ADAMS P R. Practical Bayesian Optimization of Machine Learning Algorithms[C]//Advances in Neural Information Processing Systems. USA: IEEE, 2012
[27] SOCHER R. New Directions in Deep Learning: Structured Models, Tasks, and Datasets[C]//Neural Information Processing Systems. USA: NIPS, 2012
[28] DENG L. Design and Learning of Output Representations for Speech Recognition[C]//Neural Information Processing Systems. USA: NIPS, 2013
[29] SRIVASTAVA N, SALAKHUTDINOV R R. Discriminative Transfer Learning with Tree-Based Priors[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2013