徐 喆,宋澤奇
北京工業(yè)大學(xué) 信息學(xué)部,北京 100124
目標(biāo)識(shí)別一直是計(jì)算機(jī)圖像處理領(lǐng)域中的一個(gè)熱點(diǎn)問(wèn)題,隨著智能設(shè)備越來(lái)越普及,人們對(duì)識(shí)別準(zhǔn)確率更高,實(shí)時(shí)性更好的識(shí)別算法更加迫切。在眾多視覺檢測(cè)方法中,基于神經(jīng)網(wǎng)絡(luò)的物體檢測(cè)算法在最近幾年發(fā)展迅猛。因?yàn)檫@種檢測(cè)方法不再需要人為選取某些特定的視覺特征作為圖像分類的依據(jù),而是在訓(xùn)練階段根據(jù)訓(xùn)練樣本自適應(yīng)出更加有效的特征來(lái)進(jìn)行分類。神經(jīng)網(wǎng)絡(luò)雖然在檢測(cè)準(zhǔn)確率上遠(yuǎn)超傳統(tǒng)檢測(cè)方法,但是由于其內(nèi)部存在大量的神經(jīng)元參數(shù),使得神經(jīng)網(wǎng)絡(luò)在檢測(cè)過(guò)程中需要進(jìn)行大量的計(jì)算,以至于其檢測(cè)實(shí)時(shí)性相比其他算法有較大差距。
為了在準(zhǔn)確率下降盡量小的情況下得到結(jié)構(gòu)更簡(jiǎn)單,運(yùn)算量更少,檢測(cè)時(shí)間更短的視覺檢測(cè)神經(jīng)網(wǎng)絡(luò),2006年Caruana等人[1]提出了一種通過(guò)學(xué)習(xí)復(fù)雜模型的預(yù)測(cè)結(jié)果來(lái)實(shí)現(xiàn)簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)壓縮方法,該方法通過(guò)讓簡(jiǎn)單模型向復(fù)雜模型學(xué)習(xí)的手段來(lái)提高簡(jiǎn)單模型的識(shí)別能力。而后Caruana等人[2]也用實(shí)驗(yàn)證明通過(guò)模型壓縮手段可以使結(jié)構(gòu)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)達(dá)到較高的檢測(cè)準(zhǔn)確率。2014年Li等人[3]將這種模型壓縮方法成功地用在了語(yǔ)音識(shí)別技術(shù)中。2015年Hinton等人[4]改進(jìn)了原有算法的誤差計(jì)算方法,并引入了轉(zhuǎn)移控制參數(shù)Q來(lái)改善softmax回歸結(jié)果,使得這種模型壓縮方法得到了更高的準(zhǔn)確率,他稱這種模型壓縮方法為“知識(shí)提取”算法。
Geoffrey Hinton在論文中解釋了這種訓(xùn)練方法的有效性來(lái)自于簡(jiǎn)單模型通過(guò)訓(xùn)練學(xué)習(xí)到了復(fù)雜模型對(duì)樣本集中數(shù)據(jù)間的相近關(guān)系的理解,他以MNIST[5]手寫體識(shí)別任務(wù)為例說(shuō)明,如某一網(wǎng)絡(luò)對(duì)一個(gè)樣本“2”被誤判為“3”的平均概率約為10-6而被誤判為“7”的平均概率約為10-9。其實(shí)從這三個(gè)樣本的外形中也能很明顯的發(fā)現(xiàn):“2”和“3”比“2”和“7”在形態(tài)上要更相近。雖然Geoffrey Hinton闡述了這一問(wèn)題,但是在其方法中依然只是利用輸出結(jié)果對(duì)齊的方式來(lái)達(dá)到網(wǎng)絡(luò)壓縮的目的,并沒有考慮將這種相近關(guān)系量化,作為簡(jiǎn)單網(wǎng)絡(luò)的學(xué)習(xí)內(nèi)容來(lái)進(jìn)一步充實(shí)壓縮手段,提升壓縮效果。本文以比例因子的形式量化了網(wǎng)絡(luò)對(duì)訓(xùn)練樣本間相近關(guān)系的理解,將其作為“知識(shí)提取”算法中簡(jiǎn)單模型通過(guò)訓(xùn)練學(xué)習(xí)的目標(biāo)之一,充實(shí)了網(wǎng)絡(luò)壓縮手段。文章第2章詳細(xì)闡述了帶比例因子Z的“知識(shí)提取”訓(xùn)練方法,第3章通過(guò)在公開數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果說(shuō)明了算法的有效性,并在第4章得出了實(shí)驗(yàn)結(jié)論。
在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)監(jiān)督訓(xùn)練中,前向傳導(dǎo)過(guò)程為被訓(xùn)圖像經(jīng)過(guò)卷積層的滑窗卷積和夾雜其中的池化層來(lái)降低數(shù)據(jù)維度最終完成圖像特征的提取工作,提取到的特征數(shù)據(jù)經(jīng)過(guò)若干全連接層后再經(jīng)過(guò)softmax回歸運(yùn)算[6]最終在各類別的輸出端輸出當(dāng)前樣本可能為該類別的概率值[7]。而反向傳導(dǎo)過(guò)程則是根據(jù)最終的分類結(jié)果與訓(xùn)練數(shù)據(jù)集的樣本標(biāo)簽計(jì)算誤差后作為調(diào)整依據(jù)修改網(wǎng)絡(luò)參數(shù)[8]。
“知識(shí)提取”方法的訓(xùn)練原理是將一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)與一個(gè)已經(jīng)對(duì)同樣類型的樣本分類問(wèn)題已經(jīng)具有良好表現(xiàn)力的復(fù)雜卷積神經(jīng)網(wǎng)絡(luò)同時(shí)訓(xùn)練,使簡(jiǎn)單網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)除了標(biāo)準(zhǔn)數(shù)據(jù)集的標(biāo)簽外還包括復(fù)雜網(wǎng)絡(luò)的判決結(jié)果,以使得簡(jiǎn)單網(wǎng)絡(luò)的分類能力趨近于準(zhǔn)確度更高的復(fù)雜網(wǎng)絡(luò)[1]。在本文中稱作為被學(xué)習(xí)對(duì)象的復(fù)雜卷積神經(jīng)網(wǎng)絡(luò)為大模型,與之對(duì)應(yīng)的是網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單的作為壓縮結(jié)果的小模型。大模型在訓(xùn)練過(guò)程中只是與小模型對(duì)同樣的訓(xùn)練樣本進(jìn)行類別預(yù)測(cè),而不需要進(jìn)行反向傳導(dǎo)計(jì)算。對(duì)于需要進(jìn)行反向傳導(dǎo)計(jì)算的小模型,其反向計(jì)算過(guò)程中的參數(shù)調(diào)整依據(jù)除包含該網(wǎng)絡(luò)對(duì)樣本預(yù)測(cè)結(jié)果與樣本標(biāo)簽間的誤差外,還包含該預(yù)測(cè)結(jié)果與大模型對(duì)同樣樣本的預(yù)測(cè)結(jié)果間的誤差,這兩種誤差通過(guò)加權(quán)和的形式來(lái)構(gòu)成小模型的代價(jià)函數(shù)。
本文中大小模型對(duì)同一樣本的判別誤差來(lái)自于大小模型各自的softmax輸出端的誤差,傳統(tǒng)的softmax回歸運(yùn)算的假設(shè)函數(shù)如下所示:
其中x(i)為softmax層的某一個(gè)輸入樣本,y(i)為與之對(duì)應(yīng)的網(wǎng)絡(luò)判別輸出,θ為模型參數(shù),k為訓(xùn)練樣本的類別總數(shù),j為softmax層的輸出端編號(hào),且 j∈(0,k-1)。對(duì)同一樣本而言,公式中的分母為某一固定常數(shù),則可知softmax層的k個(gè)輸出端的輸出值的和總為1,其中輸出端數(shù)值最大者為網(wǎng)絡(luò)對(duì)此時(shí)預(yù)測(cè)樣本判別置信度最高的類別。
如果直接將傳統(tǒng)的softmax輸出結(jié)果運(yùn)用到知識(shí)提取中,會(huì)出現(xiàn)這樣的現(xiàn)象:除數(shù)值最大的結(jié)果輸出端口外,其余端口的輸出結(jié)果往往趨近于0[4]。這樣的結(jié)果對(duì)于體現(xiàn)網(wǎng)絡(luò)輸出的類間關(guān)系很不利,因此Hinton引入轉(zhuǎn)移控制參數(shù)Q[4]解決這一問(wèn)題,其具體實(shí)現(xiàn)方式如下所示:
將大小模型的softmax層計(jì)算方法同時(shí)進(jìn)行這樣的修改,其中Q為“知識(shí)”轉(zhuǎn)移中的轉(zhuǎn)移控制參數(shù),通常情況下將其設(shè)置為1,而在訓(xùn)練時(shí)將其賦值為一個(gè)大于1的整數(shù),并保證大小模型的控制參數(shù)相等,這樣可以放大softmax輸出端的值,使其計(jì)算結(jié)果不再趨近于0,從而提升“知識(shí)”轉(zhuǎn)移的效果,使得小模型的分類準(zhǔn)確度能夠更大程度的趨于大模型。
Hinton的“知識(shí)提取”網(wǎng)絡(luò)壓縮方法只是單純地讓大小模型的輸出結(jié)果對(duì)齊,以達(dá)到使小模型的分類能力趨近于大模型的效果。但在實(shí)際應(yīng)用中發(fā)現(xiàn),這種趨近程度還可以通過(guò)充實(shí)小模型向大模型學(xué)習(xí)的手段進(jìn)一步提升。本文通過(guò)將樣本的類間相近關(guān)系加入壓縮學(xué)習(xí)內(nèi)容中,以期待對(duì)壓縮網(wǎng)絡(luò)的分類準(zhǔn)確率進(jìn)一步提升。
所謂類間相近關(guān)系也就是網(wǎng)絡(luò)輸出端中各端點(diǎn)的數(shù)值關(guān)系。為了具體量化這種各輸出端之間的數(shù)值關(guān)系,這里定義“知識(shí)提取”比例因子Z,來(lái)表達(dá)大模型對(duì)于樣本相似性的理解細(xì)節(jié)。比例因子Z的具體表述如下:
其中qn、qm表示大小模型中softmax層第n、m輸出端對(duì)某一樣本的帶轉(zhuǎn)移溫度T的輸出概率值,以三分類的卷積神經(jīng)網(wǎng)絡(luò)為例n、m∈(0,1,2),m 比例因子的這種網(wǎng)絡(luò)輸出端口間的輸出值比較,將類間的相近關(guān)系以比例的形式進(jìn)行量化,能很好地表示相近關(guān)系這一特征,且道理上簡(jiǎn)單易懂、計(jì)算過(guò)程簡(jiǎn)便高效,不會(huì)大幅提升網(wǎng)絡(luò)訓(xùn)練時(shí)間。而比例因子對(duì)齊的這種做法本身就是對(duì)網(wǎng)絡(luò)學(xué)習(xí)手段的一種擴(kuò)充,這種對(duì)學(xué)習(xí)手段的擴(kuò)充可以對(duì)網(wǎng)絡(luò)學(xué)習(xí)效果起到積極的作用。 在神經(jīng)網(wǎng)絡(luò)的監(jiān)督訓(xùn)練過(guò)程中,網(wǎng)絡(luò)對(duì)輸入樣本通過(guò)前向運(yùn)算輸出判別結(jié)果,該結(jié)果與樣本標(biāo)簽比較后產(chǎn)生判別誤差。為了能夠?qū)崿F(xiàn)更準(zhǔn)確的分類效果,網(wǎng)絡(luò)通過(guò)判別誤差對(duì)神經(jīng)元參數(shù)進(jìn)行調(diào)整,以使得下一輪前向計(jì)算能夠輸出更加精確的判別結(jié)果。而這里的判別誤差就是通常所說(shuō)的網(wǎng)絡(luò)反向計(jì)算中代價(jià)函數(shù)的重要組成部分。求兩模型對(duì)同一樣本的比例因子間的歐氏距離W,并將其歸一化后的值作為代價(jià)函數(shù)的一部分用于小模型的反向計(jì)算過(guò)程。 歐氏距離作為一種簡(jiǎn)單常見的衡量數(shù)據(jù)差別的方法,被廣泛用于神經(jīng)網(wǎng)絡(luò)誤差分析中,而將兩網(wǎng)絡(luò)比例因子的歐氏距離加入代價(jià)函數(shù)正是利用了神經(jīng)網(wǎng)絡(luò)的自身調(diào)節(jié)能力來(lái)使得比例因子誤差量對(duì)小模型網(wǎng)絡(luò)參數(shù)調(diào)節(jié)起到一定作用,進(jìn)而使得其比例因子逐步向大模型靠近,以進(jìn)一步提升小模型的網(wǎng)絡(luò)分類準(zhǔn)確率。如圖1所示,大小模型在聯(lián)合訓(xùn)練的過(guò)程中通過(guò)比較大小模型的輸出值及其比例因子誤差值產(chǎn)生大小模型對(duì)應(yīng)輸出端的誤差以及大小模型比例因子的誤差,而小模型與標(biāo)準(zhǔn)數(shù)據(jù)集的標(biāo)簽值比較得到標(biāo)準(zhǔn)數(shù)據(jù)集判別誤差。最終將這三部分誤差加入小模型代價(jià)函數(shù),來(lái)對(duì)其內(nèi)部參數(shù)進(jìn)行調(diào)節(jié)。而神經(jīng)網(wǎng)絡(luò)的優(yōu)化目的就是通過(guò)誤差調(diào)節(jié)網(wǎng)絡(luò)參數(shù)來(lái)最小化代價(jià)函數(shù)值,進(jìn)而得到更高的分類準(zhǔn)確率的目的[9-10]。 圖1 帶比例因子的“知識(shí)提取”算法網(wǎng)絡(luò)結(jié)構(gòu)圖 本實(shí)驗(yàn)分別用傳統(tǒng)“知識(shí)提取”方法和本文提出的加入比例因子的“知識(shí)提取”網(wǎng)絡(luò)壓縮方法,對(duì)同一復(fù)雜卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮訓(xùn)練,并使得壓縮得到的兩個(gè)簡(jiǎn)單網(wǎng)絡(luò)在網(wǎng)絡(luò)規(guī)模上保持一致。而后在相同的驗(yàn)證集上對(duì)兩網(wǎng)絡(luò)的分類準(zhǔn)確率和分類耗時(shí)進(jìn)行比較,從而達(dá)到比較傳統(tǒng)“知識(shí)提取”壓縮方法與本文提出的帶比例因子的“知識(shí)提取”網(wǎng)絡(luò)壓縮方法壓縮能力的目的。 本文首先采用NICTA數(shù)據(jù)集[11]進(jìn)行網(wǎng)絡(luò)壓縮訓(xùn)練。該數(shù)據(jù)集包含3個(gè)目標(biāo)類別,分別是行人、汽車和除此以外的背景。該數(shù)據(jù)集包含訓(xùn)練集237 344張,驗(yàn)證集75 148張。圖2是數(shù)據(jù)集中的部分樣本。 圖2 NICTA數(shù)據(jù)集中的部分樣本 本實(shí)驗(yàn)中大小模型的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)參考了經(jīng)典的LeNet[5,12]手寫體分類神經(jīng)網(wǎng)絡(luò)模型。大模型包含3個(gè)卷積層,各卷積層后分別跟隨著1個(gè)池化層來(lái)降低特征復(fù)雜程度,在卷積結(jié)束后又通過(guò)4個(gè)全連接層以及1個(gè)softmax回歸層來(lái)進(jìn)行分類和各類別的概率輸出。小模型則包含2個(gè)卷積層,3個(gè)全連接層以及1個(gè)softmax回歸層,小模型省略的包含150個(gè)通道和包含800個(gè)通道的全連接層會(huì)使其網(wǎng)絡(luò)參數(shù)數(shù)量大大降低,從而獲得更高的分類速度。網(wǎng)絡(luò)壓縮訓(xùn)練的實(shí)驗(yàn)參數(shù)如表1所示,具體的大小模型網(wǎng)絡(luò)結(jié)構(gòu)如表2、3所示。 表1 壓縮訓(xùn)練實(shí)驗(yàn)參數(shù)說(shuō)明 在網(wǎng)絡(luò)訓(xùn)練中采用了AdaDelta[13]、Dropout[14]方法來(lái)盡量地抑制網(wǎng)絡(luò)過(guò)擬合問(wèn)題,使得網(wǎng)絡(luò)能夠得到更好的泛化能力,其中Dropout算法已經(jīng)在著名的AlexNet[15]網(wǎng)絡(luò)中證明了其出色的抵抗過(guò)擬合能力。 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的參數(shù)調(diào)整依據(jù)是網(wǎng)絡(luò)對(duì)訓(xùn)練集當(dāng)前的判決誤差,為了避免網(wǎng)絡(luò)參數(shù)過(guò)度擬合于訓(xùn)練集而偏離了真實(shí)情況,需要在訓(xùn)練過(guò)程中通過(guò)網(wǎng)絡(luò)對(duì)驗(yàn)證集的分類情況對(duì)網(wǎng)絡(luò)的決策能力進(jìn)行較客觀地評(píng)價(jià)。圖3、4是某次訓(xùn)練過(guò)程中神經(jīng)網(wǎng)絡(luò)對(duì)驗(yàn)證集分類準(zhǔn)確率和訓(xùn)練集分類代價(jià)函數(shù)值的分布記錄情況,其中傳統(tǒng)“知識(shí)提取”方法采用了Geoffrey Hinton的知識(shí)提取算法[4],而直接通過(guò)數(shù)據(jù)集訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型與小模型有著相同的網(wǎng)絡(luò)結(jié)構(gòu)。從圖4中傳統(tǒng)“知識(shí)提取”方法的代價(jià)函數(shù)值變化情況,可以發(fā)現(xiàn)這個(gè)值通常要小于加入比例因子的網(wǎng)絡(luò)代價(jià)值,而加入比例因子方法的代價(jià)函數(shù)之所以較大,就是因?yàn)閷⒈壤蜃右沧鳛榫W(wǎng)絡(luò)壓縮訓(xùn)練的目標(biāo),將其誤差值也作為代價(jià)函數(shù)的一部分來(lái)進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)節(jié)。圖4中也描述了本文提出的網(wǎng)絡(luò)訓(xùn)練方法中由于比例因子引起的帶來(lái)的代價(jià)值,如上所述這個(gè)值正是大小模型比例因子誤差的歸一化值,可以發(fā)現(xiàn)這個(gè)值隨著迭代次數(shù)的增加在逐漸減小并最終趨近于零,這說(shuō)明小模型通過(guò)調(diào)整網(wǎng)絡(luò)參數(shù)基本可以和大模型的比例因子保持一致。觀察圖3發(fā)現(xiàn)本文提出的訓(xùn)練方法所得到的神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)“知識(shí)提取”方法而言其分類準(zhǔn)確率變化緩慢,且前期準(zhǔn)確率較低,但其準(zhǔn)確率的最終穩(wěn)定值卻高于傳統(tǒng)“知識(shí)提取”訓(xùn)練方法。這說(shuō)明在代價(jià)函數(shù)中添加比例因子誤差量會(huì)使得網(wǎng)絡(luò)參數(shù)調(diào)整所參考的目標(biāo)更加豐富,進(jìn)而使得加入比例因子的訓(xùn)練方法得到的小模型的分類準(zhǔn)確率更接近于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,分類耗時(shí)較長(zhǎng),但準(zhǔn)確率更高的大模型。 圖3 不同方法在驗(yàn)證集上的準(zhǔn)確率分布 圖4 不同訓(xùn)練方法的代價(jià)函數(shù)值分布情況 表2 大模型的網(wǎng)絡(luò)結(jié)構(gòu)說(shuō)明 表3 小模型的網(wǎng)絡(luò)結(jié)構(gòu)說(shuō)明 表4為不同網(wǎng)絡(luò)在NICTA驗(yàn)證集上的分類時(shí)間和準(zhǔn)確率平均值,測(cè)試硬件平臺(tái)為CPU:I7-6700,GPU:GTX-TITAN X。從表中可以發(fā)現(xiàn)“知識(shí)提取”訓(xùn)練方法可以很好地讓小模型的分類準(zhǔn)確率趨近于大模型,從而平衡網(wǎng)絡(luò)的分類耗時(shí)和準(zhǔn)確率問(wèn)題。而本文提出的增加比例因子的“知識(shí)提取”訓(xùn)練方法在分類時(shí)間保持不變的情況下又使得這種趨近程度進(jìn)一步提高,使得相同網(wǎng)絡(luò)結(jié)構(gòu)的小模型能夠得到更高的分類準(zhǔn)確率。 表4 不同模型在NICTA驗(yàn)證集上的檢測(cè)結(jié)果對(duì)比 為了更加客觀地對(duì)本文的算法進(jìn)行驗(yàn)證,在ETHZ數(shù)據(jù)集[16]和TUD數(shù)據(jù)集[17]上對(duì)壓縮方法進(jìn)行驗(yàn)證。考慮到目前網(wǎng)絡(luò)加速可以通過(guò)多種途徑實(shí)現(xiàn),為了對(duì)比本文所提出算法與同類型算法的實(shí)際效果,采用文獻(xiàn)[18]提出的網(wǎng)絡(luò)剪枝算法對(duì)大模型進(jìn)行處理而后通過(guò)數(shù)據(jù)集進(jìn)行驗(yàn)證,文獻(xiàn)[18]通過(guò)對(duì)網(wǎng)絡(luò)參數(shù)的相關(guān)性進(jìn)行量化來(lái)判斷網(wǎng)絡(luò)參數(shù)的變化對(duì)網(wǎng)絡(luò)性能的影響,而后按照一定標(biāo)準(zhǔn)對(duì)網(wǎng)絡(luò)中一些不重要的參數(shù)進(jìn)行刪除以達(dá)到網(wǎng)絡(luò)加速的目的。實(shí)驗(yàn)結(jié)果如表5、6所示,該結(jié)果表明加入比例因子的“知識(shí)提取”網(wǎng)絡(luò)壓縮方法在這兩個(gè)數(shù)據(jù)集上同樣表現(xiàn)出較傳統(tǒng)“知識(shí)提取”方法更好的壓縮能力。而與文獻(xiàn)[18]所提出的網(wǎng)絡(luò)加速算法相比,本文展現(xiàn)出了更好的加速效果,從實(shí)驗(yàn)數(shù)據(jù)來(lái)看文獻(xiàn)[18]所提出的算法雖然在準(zhǔn)確率下降不明顯的情況下通過(guò)網(wǎng)絡(luò)剪枝起到了加速效果,但是通過(guò)對(duì)網(wǎng)絡(luò)冗余參數(shù)進(jìn)行裁剪的方法在參數(shù)下降規(guī)模上還是不及本文提出的網(wǎng)絡(luò)壓縮算法,導(dǎo)致其實(shí)際速度提升效果沒有本文提出的算法明顯。 表5 不同模型在ETHZ驗(yàn)證集上的檢測(cè)結(jié)果對(duì)比 表6 不同模型在TUD驗(yàn)證集上的檢測(cè)結(jié)果對(duì)比 本文在原有的“知識(shí)提取”網(wǎng)絡(luò)壓縮方法上,將網(wǎng)絡(luò)對(duì)分類樣本的在各輸出端的這種類間關(guān)系理解量化為比例因子。并在訓(xùn)練中將兩網(wǎng)絡(luò)的比例因子誤差作為被壓縮網(wǎng)絡(luò)代價(jià)函的一部分,來(lái)對(duì)被壓縮網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)節(jié),擴(kuò)充了網(wǎng)絡(luò)學(xué)習(xí)手段。觀察上述實(shí)驗(yàn)可以發(fā)現(xiàn),通過(guò)本文提出的壓縮方法得到的小模型其分類準(zhǔn)確率較原本的“知識(shí)提取”算法有了一定的提升。這說(shuō)明本文提出的加入比例因子的“知識(shí)提取”模型壓縮方法可以更好地將大模型的分類能力轉(zhuǎn)移到小模型從而達(dá)到在盡量保持網(wǎng)絡(luò)分類能力的前提下減小模型復(fù)雜度進(jìn)而達(dá)到提高實(shí)時(shí)性的效果。 如今對(duì)網(wǎng)絡(luò)加速算法的研究日趨廣泛,而網(wǎng)絡(luò)加速的途徑也越來(lái)越多,如果能將“知識(shí)提取”與這些算法進(jìn)行協(xié)同訓(xùn)練,進(jìn)而取得一加一大于二的性能,無(wú)疑會(huì)有更加強(qiáng)烈的實(shí)用價(jià)值,而這也將是未來(lái)研究的方向。 [1]Buciluǎ C,Caruana R,Niculescu-Mizil A.Model compression[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2006:535-541. [2]Ba J,Caruana R.Do deep nets really need to be deep?[C]//Advances in Neural Information Processing Systems,2014:2654-2662. [3]Li J,Zhao R,Huang J T,et al.Learning small-size DNN with output-distribution-based criteria[C]//INTERSPEECH,2014:1910-1914. [4]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[J].arXiv preprint arXiv:1503.02531,2015. [5]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to documentrecognition[J].Proceedingsofthe IEEE,1998,86(11):2278-2324. [6]Unsupervised feature learning and deep learning-softmax regression[EB/OL].http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression 2013-04-07/2016-08-24. [7]Zeiler M D,F(xiàn)ergus R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision,2014:818-833. [8]Goodfellow I,Bengio Y,Courville A.Deep learning[M].[S.l.]:The MIT Press,2016. [9]LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444. [10]Hagan M T,Demuth H B,Beale M H,et al.Neural network design[M].Boston:PWS Publishing Company,1996. [11]Overett G,Petersson L,Brewer N,et al.A new pedestrian dataset for supervised learning[C]//2008 IEEE Intelligent Vehicles Symposium,2008:373-378. [12]金連文,鐘卓耀,楊釗,等.深度學(xué)習(xí)在手寫漢字識(shí)別中的應(yīng)用綜述[J].自動(dòng)化學(xué)報(bào),2016,42(8):1125-1141. [13]Zeiler M D.ADADELTA:An adaptive learning rate method[J].arXiv preprint arXiv:1212.5701,2012. [14]Srivastava N,Hinton G E,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958. [15]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems,2012:1097-1105. [16]Ess A,Leibe B,Schindler K,et al.A mobile vision system for robust multi-person tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008(CVPR 2008),2008:1-8. [17]Wojek C,Walk S,Schiele B.Multi-cue onboard pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009(CVPR 2009),2009:794-801. [18]費(fèi)蕓潔,鄧偉.一種基于靈敏度分析的神經(jīng)網(wǎng)絡(luò)剪枝方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(7):34-35.3 實(shí)驗(yàn)
4 結(jié)束語(yǔ)