• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      小樣本問題下培訓(xùn)弱教師網(wǎng)絡(luò)的模型蒸餾模型

      2022-09-25 08:42:08蔡淳豪李建良
      計(jì)算機(jī)應(yīng)用 2022年9期
      關(guān)鍵詞:樣本特征圖像

      蔡淳豪,李建良

      (南京理工大學(xué)理學(xué)院,南京 210094)

      0 引言

      深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的訓(xùn)練需要在豐富且大量的數(shù)據(jù)集的前提下才能給出不錯(cuò)的模型,然而在實(shí)際工程中,由于內(nèi)容保密、知識(shí)產(chǎn)權(quán)等原因,很難為大量數(shù)據(jù)標(biāo)注信息,因此,在小樣本問題下,如何訓(xùn)練得到高性能目標(biāo)網(wǎng)絡(luò)獲得廣泛關(guān)注,其本質(zhì)上是如何在有限的數(shù)據(jù)中挖掘盡可能多的知識(shí),以及如何將知識(shí)從外界和內(nèi)部合理地傳遞給目標(biāo)模型。

      集成學(xué)習(xí)(Ensemble Learning,EL)作為一種有監(jiān)督的學(xué)習(xí)算法,在處理小樣本問題時(shí),用Bootstrap 算法對(duì)數(shù)據(jù)集進(jìn)行抽樣間接解決這一問題[1];然而在組合階段的堆疊泛化(Stacking)算法及l(fā)ogistic 回歸組合策略并不能很好地挖掘多個(gè)教師模型內(nèi)部的知識(shí)。

      遷移學(xué)習(xí)作為一種網(wǎng)絡(luò)訓(xùn)練算法,可以從優(yōu)質(zhì)網(wǎng)絡(luò)遷移知識(shí)到目標(biāo)網(wǎng)絡(luò)中去,以此來改善結(jié)果并解決數(shù)據(jù)缺乏的問題[2]。遷移學(xué)習(xí)中最常見的做法是通過預(yù)訓(xùn)練結(jié)合微調(diào)算法得到目標(biāo)模型,但是大規(guī)模細(xì)粒度蒸餾學(xué)習(xí)一文提出微調(diào)算法不能很好地解決語義相距很遠(yuǎn)的模型轉(zhuǎn)換問題[3-4]。在此基礎(chǔ)上FitNet 算法作為模型蒸餾的代表給出了一種教師培訓(xùn)計(jì)劃以此將知識(shí)蒸餾到目標(biāo)模型[5]。注意力蒸餾和Jacobian 匹配則從特征圖和Jacobian 生成的注意力特征圖著手來蒸餾源知識(shí)[6-7]。在此基礎(chǔ)上,異構(gòu)元學(xué)習(xí)模型蒸餾整合了從特征圖蒸餾知識(shí)的算法,用外部網(wǎng)絡(luò)增補(bǔ)數(shù)據(jù)集知識(shí),元網(wǎng)絡(luò)需提取知識(shí)與目標(biāo)網(wǎng)絡(luò)層對(duì)應(yīng)關(guān)系[8]。

      事實(shí)上,集成學(xué)習(xí)中有較高準(zhǔn)確率的Boosting 算法會(huì)耗費(fèi)較多的運(yùn)算時(shí)間,組合階段的Stacking 算法則依賴弱分類器的輸出結(jié)果,沒法真正學(xué)到分類器學(xué)習(xí)的知識(shí),同時(shí)經(jīng)組合后的模型過于龐大,很難在小型機(jī)上搭載。模型蒸餾在異構(gòu)源和目標(biāo)任務(wù)之間傳遞知識(shí)時(shí)會(huì)模糊原始數(shù)據(jù)包含的信息,尤其是當(dāng)任務(wù)的輸入域相似但實(shí)際任務(wù)有所不同時(shí),此時(shí)外部信息補(bǔ)充的數(shù)據(jù)集缺失信息可能是無關(guān)甚至是負(fù)面的,因而不能很好地指導(dǎo)目標(biāo)網(wǎng)絡(luò)學(xué)習(xí)。

      基于此,本文提出了一種小樣本問題下培訓(xùn)弱教師網(wǎng)絡(luò)的模型蒸餾。通過并行計(jì)算加快弱教師網(wǎng)絡(luò)訓(xùn)練,通過壓縮特征圖的手段搜集濃縮知識(shí),通過元網(wǎng)絡(luò)以蒸餾的手段組合異構(gòu)的弱教師網(wǎng)絡(luò)。實(shí)驗(yàn)對(duì)象為小規(guī)模的鳥類數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果在算法精度和算法速度上驗(yàn)證了本文算法的有效性和可用性;同時(shí)在相同數(shù)據(jù)集中數(shù)據(jù)減少的指標(biāo)下驗(yàn)證了所提算法的有效性和魯棒性。

      1 針對(duì)小樣本培訓(xùn)弱教師網(wǎng)絡(luò)的算法

      針對(duì)小樣本問題,本文選擇參考集成學(xué)習(xí)算法中Bootstrap 采樣的思想,以此擴(kuò)充數(shù)據(jù)集數(shù)量,解決數(shù)據(jù)量問題。

      傳統(tǒng)的集成學(xué)習(xí)算法主要有Boosting 及其相關(guān)的一系列改進(jìn)算法,例如AdaBoost、梯度提升樹等,也有可同時(shí)生成的并行式集成學(xué)習(xí)算法Bagging 算法。假定圖像數(shù)據(jù)集X由數(shù)據(jù){(xn,yn),n=1,2,…,N}構(gòu)成,其中y是圖像的分類標(biāo)簽,構(gòu)成標(biāo)簽集Ψ={1,2,…,K}。假設(shè)用于這個(gè)數(shù)據(jù)集的分類器φ(x,X)。此時(shí)基于原始數(shù)據(jù)集X以重采樣的方式構(gòu)造一系列用于學(xué)習(xí)的數(shù)據(jù)子集為(k=1,2,…,κ),根據(jù)數(shù)據(jù)子集得到一系列分類器組{φ(x,)},故有:

      經(jīng)典集成算法在處理小樣本多分類問題時(shí),由于選用Bootstrap 采樣,很大程度上擴(kuò)增了數(shù)據(jù)集的數(shù)據(jù)量,可以作為小樣本問題的一種對(duì)策;同時(shí)在劃分?jǐn)?shù)據(jù)集時(shí)隨機(jī)性的引入使得模型不易過擬合,也能較好地處理小樣本多分類導(dǎo)致的輸入數(shù)據(jù)高維度問題。集成算法中的Bagging 算法并行特性保證了模型訓(xùn)練的高效性。

      在劃分?jǐn)?shù)據(jù)時(shí),取值劃分較多的屬性會(huì)對(duì)弱學(xué)習(xí)器產(chǎn)生更大的影響,故弱學(xué)習(xí)器上的特征圖不具有可信度。部分集成學(xué)習(xí)的弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練。在弱分類器選用上,選用具有低偏差高方差的線性模型或樹模型;然而這些分類器在小樣本多分類問題中,無法作出有效的判斷。實(shí)驗(yàn)表明,在加利福尼亞理工學(xué)院鳥類數(shù)據(jù)庫—2011(Caltech-UCSD Birds-200-2011,CUB200)上決策森林準(zhǔn)確率只能在15.21%左右,說明這些弱學(xué)習(xí)器的分類結(jié)果不具有可信度,在后續(xù)聚合過程中,這些弱學(xué)習(xí)器提供的知識(shí)很難有效優(yōu)化模型的訓(xùn)練。為了提高弱學(xué)習(xí)器在劃分?jǐn)?shù)據(jù)集上的準(zhǔn)確率,本文選用淺層卷積網(wǎng)絡(luò)作為弱分類器以改善集成效果。

      2 多教師的模型蒸餾改進(jìn)

      小樣本問題下,集成學(xué)習(xí)訓(xùn)練了大量弱分類器作為教師網(wǎng)絡(luò),這也意味著搜集了大量冗余的數(shù)據(jù)信息,此時(shí)需要對(duì)這些信息合并、篩選、傳遞,同時(shí)引入外部數(shù)據(jù)信息,彌補(bǔ)數(shù)據(jù)集不夠豐富的缺陷。為了解決上述問題,有效控制目標(biāo)網(wǎng)絡(luò)的規(guī)模,本文改進(jìn)了結(jié)合元學(xué)習(xí)的模型蒸餾。

      2.1 經(jīng)典模型蒸餾與元學(xué)習(xí)

      傳統(tǒng)模型蒸餾針對(duì)Softmax 層輸出引入溫度參數(shù)Tem獲得新的軟標(biāo)簽

      來指導(dǎo)目標(biāo)網(wǎng)絡(luò)學(xué)習(xí),指導(dǎo)算法是修改訓(xùn)練損失函數(shù)為:

      其中:E為Softmax 層輸出通道集的序號(hào),Tem為給定溫度,Ls為軟標(biāo)簽損失,Lh為硬標(biāo)簽損失。

      在此基礎(chǔ)上異構(gòu)元學(xué)習(xí)的蒸餾針對(duì)圖像對(duì)象x在教師網(wǎng)絡(luò)的中間特征圖進(jìn)行蒸餾學(xué)習(xí),設(shè)教師網(wǎng)絡(luò)的第m層特征圖為Sm(x),目標(biāo)網(wǎng)絡(luò)第n層特征圖為(x),從而特征圖區(qū)別表示為:

      其中rθ為保證(x)與Sm(x)規(guī)模一致的線性變換。在學(xué)習(xí)過程中元網(wǎng)絡(luò)φ用于自動(dòng)比對(duì)層對(duì)間特征圖區(qū)別,結(jié)合原始數(shù)據(jù)集的網(wǎng)絡(luò)硬標(biāo)簽損失Λorg(θ|x,y)得到,元學(xué)習(xí)蒸餾的最終損失函數(shù)為:

      其中:β>0 是一個(gè)超參數(shù),Λwfm(θ|x,φ)是由元網(wǎng)絡(luò)φ測(cè)量得到的層對(duì)特征圖損失。元學(xué)習(xí)蒸餾一定程度上關(guān)注了教師網(wǎng)絡(luò)的卷積層知識(shí),在文獻(xiàn)[8]中給出了基于多個(gè)教師網(wǎng)絡(luò)的實(shí)驗(yàn)過程,但是通過理論研究與實(shí)驗(yàn)表明,隨著教師網(wǎng)絡(luò)個(gè)數(shù)增加,元網(wǎng)絡(luò)規(guī)模急劇上升,目標(biāo)網(wǎng)絡(luò)的訓(xùn)練任務(wù)量將會(huì)指數(shù)級(jí)上漲,故需要壓縮提煉教師網(wǎng)絡(luò)中的知識(shí)。

      2.2 基于同構(gòu)多教師模型的知識(shí)合并

      由于第一階段培訓(xùn)了大量相同結(jié)構(gòu)的教師網(wǎng)絡(luò),設(shè)教師網(wǎng)絡(luò)特征圖輸出層層數(shù)μmax,目標(biāo)網(wǎng)絡(luò)學(xué)習(xí)特征層層數(shù)νmax,在不考慮同一層特征圖個(gè)數(shù)的情況下,此時(shí)元網(wǎng)絡(luò)需要3μmaxνmax個(gè)需要在訓(xùn)練中同步優(yōu)化的卷積模塊,若教師網(wǎng)絡(luò)為異構(gòu)網(wǎng)絡(luò)需要逐層特征圖規(guī)模匹配。此時(shí)在教師網(wǎng)絡(luò)特征圖輸出層數(shù)不變,只增加教師網(wǎng)絡(luò)的情況下,元網(wǎng)絡(luò)的規(guī)模會(huì)成倍增長,從而大幅增加訓(xùn)練的難度和時(shí)間損耗,設(shè)共有J個(gè)教師網(wǎng)絡(luò),則元網(wǎng)絡(luò)需要3J μmaxνmax個(gè)需要在訓(xùn)練中同步優(yōu)化的卷積模塊,這在現(xiàn)實(shí)工程中是不合理的。因此需要對(duì)特征圖進(jìn)行聚合,設(shè)在具有相同體系結(jié)構(gòu)A的J個(gè)預(yù)訓(xùn)練教師網(wǎng)絡(luò)的集合中,每個(gè)教師網(wǎng)絡(luò)Aj從事Dj個(gè)不同的任務(wù),其中Dj≥1,意味著教師可以處于單個(gè)或多個(gè)任務(wù)的體系結(jié)構(gòu)中。對(duì)于有Dj個(gè)任務(wù)的教師網(wǎng)絡(luò)Aj,給定輸入圖像x,可以將Dj任務(wù)的輸出定義為=Aj(x,θstu,j)。對(duì)于每個(gè)教師網(wǎng)絡(luò),將層定義為最小單位,將該網(wǎng)絡(luò)表示為B個(gè)層的堆棧Aj=和最后幾個(gè)全連接的層。從每個(gè)層輸出的特征圖可以定義為:

      其中:S1=A(x,),以原始圖像為輸入,Sk為第k層所有教師網(wǎng)絡(luò)特征圖集合,故中間特征圖集合S={S1,S2,…,SB}包含所有要為目標(biāo)網(wǎng)絡(luò)合并的知識(shí)。如果只選擇一部分任務(wù),則SB不能直接用作指導(dǎo),因?yàn)槲催x擇任務(wù)的知識(shí)無差別地糾纏在一起,會(huì)污染原始任務(wù),而全部使用會(huì)大幅增加網(wǎng)絡(luò)訓(xùn)練的規(guī)模和時(shí)長。

      此時(shí)將特征圖{S1,S2,…,SB}經(jīng)合網(wǎng)絡(luò)h合并得組合特征圖H={H1,H2,…,HB}=h(S,Θ),要求中間特征圖能很好地保留原始圖像的信息,那么損失函數(shù)可以寫成:

      其中:‖Sk‖是特征圖Sk的空間大??;ek是使得原始圖像x與中間特征圖相同尺寸的糊化操作,通過最小化特征圖組合和原始圖像的區(qū)別,來確定特征圖組合過程中的權(quán)重。如圖1 所示,特征圖經(jīng)過合并后保留了較為完整的信息。從過程可以看出,此算法大幅減少了蒸餾過程中需要學(xué)習(xí)的知識(shí)量,不過需要對(duì)整合后的知識(shí)進(jìn)行不同于元學(xué)習(xí)的蒸餾方式。

      圖1 弱教師模型特征圖合并過程Fig.1 Merging process of weak teacher model feature maps

      2.3 基于組合特征圖的元模型蒸餾改進(jìn)

      由2.1 節(jié)對(duì)于弱教師網(wǎng)絡(luò)的改進(jìn),對(duì)于有Dj個(gè)任務(wù)的教師網(wǎng)絡(luò)Aj,用損失更新網(wǎng)絡(luò)Aj的參數(shù),其中l(wèi)是網(wǎng)絡(luò)Aj中每個(gè)任務(wù)的交叉熵?fù)p失,而和分別保留了第i個(gè)任務(wù)的原來和預(yù)測(cè)標(biāo)簽,使用該損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練可以獲得參數(shù)θ。

      集成算法在結(jié)果結(jié)合時(shí)使用Stacking 算法對(duì)應(yīng)的訓(xùn)練集只與預(yù)測(cè)集合相關(guān),缺乏對(duì)弱分類器的知識(shí)挖掘,降低了算法的準(zhǔn)確率與泛化性,同時(shí)作為堆疊算法大幅增加了算法的存儲(chǔ)空間;所以根據(jù)改進(jìn)模型蒸餾得到的組合特征圖H={H1,H2,…,HB},改用模型蒸餾將組合特征圖知識(shí)蒸餾進(jìn)目標(biāo)網(wǎng)絡(luò)。

      設(shè)Hm(x)為圖像x在組合特征圖集的第m層的中間特征圖,目標(biāo)網(wǎng)絡(luò)Tθ以θ為參數(shù),設(shè)(x)為中間目標(biāo)網(wǎng)絡(luò)第n層的特征圖:

      其中rθ是由θ參數(shù)化的線性變換,由式(10)得到了衡量組合特征圖與目標(biāo)網(wǎng)絡(luò)特征圖差距的損失函數(shù):

      其中Im(x)為圖像x在高性能網(wǎng)絡(luò)的第m層的中間特征圖。線性變換rθ1可以重新定義與訓(xùn)練,考慮到作用目標(biāo)都是目標(biāo)網(wǎng)絡(luò)的特征圖,為了保證結(jié)果收斂,同時(shí)為了簡(jiǎn)化運(yùn)算加快知識(shí)蒸餾速度,可以取定值或與細(xì)節(jié)蒸餾一致,本文按照rθ1進(jìn)行推導(dǎo)。

      為量化層對(duì)間的蒸餾量,在每對(duì)(m,n)引入一個(gè)可學(xué)習(xí)的參數(shù)λm,n≥0。將每對(duì)(m,n)的λm,n=(Hm(x))設(shè)置為元網(wǎng)絡(luò)gm,n的輸出,該網(wǎng)絡(luò)會(huì)自動(dòng)決定學(xué)習(xí)目標(biāo)任務(wù)的重要層對(duì)。給定組合特征圖的給定通道w的權(quán)重和匹配對(duì)λ的權(quán)重的總傳輸損失為:

      其中σ是一組候選對(duì)。同樣可以定義,對(duì)于高性能外部網(wǎng)絡(luò)的蒸餾損失:

      其中:Λorg是原始損失;β、γ是超參數(shù),當(dāng)不需要外部知識(shí)時(shí)γ=0。wm,n和λm,n分別表示特征圖知識(shí)蒸餾來源和量級(jí)。所以整體蒸餾過程思路簡(jiǎn)化如圖2 所示,即將組合特征圖集與目標(biāo)網(wǎng)絡(luò)特征圖比對(duì)設(shè)置損失函數(shù),以此訓(xùn)練網(wǎng)絡(luò),元網(wǎng)絡(luò)的作用在于協(xié)同比對(duì)特征圖尺寸,輸出影響權(quán)重。

      圖2 基于組合特征圖的元網(wǎng)絡(luò)蒸餾模型架構(gòu)Fig.2 Meta-network distillation model architecture based on combined feature maps

      當(dāng)使用訓(xùn)練目標(biāo)Λtotal(·|x,y,φ,φ1)學(xué)習(xí)目標(biāo)模型時(shí),由于元網(wǎng)絡(luò)通過正則化項(xiàng)Λde與Λwfm對(duì)目標(biāo)模型的學(xué)習(xí)過程產(chǎn)生了微弱的影響,因此它們對(duì)Λorg的影響可能很小,從而內(nèi)部循環(huán)迭代Tc再次使用梯度?φ Λorg更新φ。此時(shí)優(yōu)化的方案變?yōu)椋?)Tc0次更新θ以使得Λde(θ|x,φ)最??;2)Tc1次更新θ以使得Λwfm(θ|x,φ1)最小;3)更新θ以最小化Λorg(θ|x,y)一次;4)計(jì)算Λorg(θ|x,y)并更新φ與φ1以將其最小化。

      3 數(shù)值實(shí)驗(yàn)與分析

      3.1 數(shù)據(jù)集、實(shí)驗(yàn)環(huán)境及訓(xùn)練細(xì)節(jié)

      本文驗(yàn)證了對(duì)數(shù)據(jù)重采樣再劃分,以訓(xùn)練教師網(wǎng)絡(luò)的可行性,也可用于異構(gòu)網(wǎng)絡(luò)任務(wù)的實(shí)現(xiàn)優(yōu)化。由于Stacking 步驟運(yùn)用的是蒸餾思想,最初弱分類器的訓(xùn)練要求不需要很高,但速度要求相對(duì)明顯,所以選用可以并行運(yùn)算的Bagging算法訓(xùn)練弱學(xué)習(xí)器。在實(shí)驗(yàn)過程中使用自適應(yīng)時(shí)刻估計(jì)算法(Adaptive Moment Estimation,Adam)更新參數(shù)。

      本文所有實(shí)驗(yàn)基于2660ti 顯卡Intel Core i7-9750H CPU 2.60 GHz,16.0 GB 內(nèi)存,6.0 GB 顯存基礎(chǔ)上,在python3.7環(huán)境下運(yùn)用pytorch 開源包實(shí)現(xiàn),加速庫為計(jì)算機(jī)統(tǒng)一設(shè)備架 構(gòu) 10.1(Computer Unified Device Architecture 10.1,CUDA10.1)。為了評(píng)估本文算法,在圖片規(guī)模為224 × 224的小樣本鳥類數(shù)據(jù)集CUB200 上進(jìn)行實(shí)驗(yàn),CUB200 數(shù)據(jù)集共有11 788 幅鳥類圖像,包含200 類鳥類子類,其中訓(xùn)練數(shù)據(jù)集有5 994 幅圖像,測(cè)試集有5 794 幅圖像,可以作為小樣本的代表測(cè)試本文算法的效果。為了橫向?qū)Ρ刃颖緱l件下本文算法改進(jìn)的程度,選用圖片規(guī)模為32 × 32 的CIFAR-10(Canadian Institute For Advanced Research-10)圖像數(shù)據(jù)集,共10 個(gè)類,每個(gè)類別有6 000 幅圖像數(shù)據(jù),數(shù)據(jù)集中一共有50 000 幅訓(xùn)練圖片和10 000 幅測(cè)試圖片。在此基礎(chǔ)上對(duì)CIFAR-10 每個(gè)類別進(jìn)行按比例刪減訓(xùn)練集圖片,以此橫向?qū)Ρ人惴ㄐЧ?/p>

      本文實(shí)驗(yàn)選用的弱分類器是結(jié)合ImageNet[9]數(shù)據(jù)集訓(xùn)練出來的20個(gè)18層殘差網(wǎng)絡(luò)(Residual Network,ResNet)[10],外部網(wǎng)絡(luò)選用的是基于pytorch 的model_zoo 中的預(yù)訓(xùn)練網(wǎng)絡(luò),考慮到實(shí)驗(yàn)效率,選用的目標(biāo)網(wǎng)絡(luò)也是相同的ResNet18,異構(gòu)網(wǎng)絡(luò)在訓(xùn)練思路上是一致的。

      訓(xùn)練時(shí),首先將數(shù)據(jù)用Bootstrap 算法進(jìn)行擴(kuò)充再隨機(jī)劃分,并訓(xùn)練出弱教師網(wǎng)絡(luò);然后凍結(jié)教師網(wǎng)絡(luò)的權(quán)重,輸入圖像數(shù)據(jù),獲取教師網(wǎng)絡(luò)中間特征圖信息,訓(xùn)練合網(wǎng)絡(luò)參數(shù);再凍結(jié)合網(wǎng)絡(luò)參數(shù),根據(jù)合網(wǎng)絡(luò)輸出訓(xùn)練元網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。實(shí)驗(yàn)過程中,所有模型及弱教師網(wǎng)絡(luò)的參數(shù)中初始學(xué)習(xí)率lr和權(quán)重?fù)p失wd分別設(shè)為0.1 和0.000 1,動(dòng)量初始化為0.9,batch size 統(tǒng)一為32。其他超參數(shù)的設(shè)置如表1 所示,其中:J為教師網(wǎng)絡(luò)個(gè)數(shù),Tc0為細(xì)節(jié)損失更新次數(shù),Tc1為外部損失更新次數(shù),β、γ為損失函數(shù)中超參數(shù)。

      表1 不同模型在CUB200數(shù)據(jù)集上的超參數(shù)設(shè)置Tab.1 Hyperparameter settings of different models on CUB200 dataset

      對(duì)于有元網(wǎng)絡(luò)的實(shí)驗(yàn),將元網(wǎng)絡(luò)構(gòu)建為η層的全連接網(wǎng)絡(luò),η參數(shù)參考表1,元網(wǎng)絡(luò)以教師網(wǎng)絡(luò)第m層的全局平均池化特征作為輸入,經(jīng)全連接和Softmax 層后輸出和λm,n。元網(wǎng)絡(luò)的初始學(xué)習(xí)率和權(quán)重?fù)p失都設(shè)為0.000 1,元網(wǎng)絡(luò)偏置項(xiàng)初始化為1,元網(wǎng)絡(luò)采用Adam 優(yōu)化器進(jìn)行優(yōu)化。

      3.2 目標(biāo)任務(wù)的評(píng)估分析

      在教師網(wǎng)絡(luò)階段,選用的ResNet 作為教師網(wǎng)絡(luò)相較于決策森林在準(zhǔn)確率上提高了26.32%。蒸餾結(jié)果如表2 所示,在CUB200 數(shù)據(jù)集上,與第2 個(gè)最佳的元學(xué)習(xí)模型相比獲得了6.39%的相對(duì)改進(jìn),而不引入外部知識(shí)時(shí),相對(duì)不引入外部分網(wǎng)絡(luò)的經(jīng)典蒸餾算法,能有10.22%的準(zhǔn)確率提升,說明保留細(xì)節(jié)知識(shí)能有效改善學(xué)習(xí)準(zhǔn)確率和泛化性,驗(yàn)證了蒸餾的有效性。同時(shí)對(duì)比是否引入外部教師網(wǎng)絡(luò)的實(shí)驗(yàn),可以得出當(dāng)引入外部知識(shí)時(shí)能更好地豐富原有數(shù)據(jù)集缺乏的細(xì)節(jié)知識(shí)。

      表2 不同模型在CUB200數(shù)據(jù)集上的準(zhǔn)確率及運(yùn)算時(shí)間對(duì)比Tab.2 Accuracy and computing time comparison of different models on CUB200 dataset

      在算法速度上,弱學(xué)習(xí)器生成算法部分選用Boosting 獲得弱學(xué)習(xí)器的算法時(shí)間長達(dá)32.72 h,而Bagging 算法平均生成時(shí)間在5.68 h 左右,對(duì)比網(wǎng)絡(luò)生成速率提升了4.76 倍,時(shí)間約等于1/J的Boosting 算法時(shí)間,極大地縮短了目標(biāo)網(wǎng)絡(luò)的構(gòu)建時(shí)間。在準(zhǔn)確率上,Boosting算法聚合蒸餾的結(jié)果準(zhǔn)確率為69.37%,改進(jìn)僅0.16個(gè)百分點(diǎn),可以算作網(wǎng)絡(luò)訓(xùn)練誤差。

      本文模型將知識(shí)從子模型抽取再整合蒸餾到目標(biāo)模型中,由于弱分類器有較好的表現(xiàn),網(wǎng)絡(luò)在前期訓(xùn)練過程中改進(jìn)速度相對(duì)較快,如圖3 所示,在前期損失函數(shù)下降速度比基線算法更快,后期改進(jìn)則變緩趨于極限,驗(yàn)證了本文模型模塊化分步進(jìn)行的可行性。

      圖3 訓(xùn)練過程中集成蒸餾模型與元學(xué)習(xí)模型損失函數(shù)下降情況Fig.3 Loss function reduction situations of ensemble distillation model and meta-learning model in training process

      3.3 小樣本條件下模型效果分析

      為了充分評(píng)估小樣本條件下本文集成蒸餾模型的有效性與實(shí)用性,選用相同的圖像數(shù)據(jù)集CIFAR-10,通過等比例縮減每一類訓(xùn)練數(shù)據(jù)的方式模擬小樣本問題的情形,以此對(duì)比不同算法在不同數(shù)據(jù)量時(shí)候的效果。本文分別對(duì)比每個(gè)類別{100,200,400,700,1 000}個(gè)樣本時(shí),經(jīng)典模型、注意力模型、元學(xué)習(xí)模型以及集成蒸餾模型的準(zhǔn)確率。

      實(shí)驗(yàn)結(jié)果如表3 所示,從數(shù)據(jù)可以發(fā)現(xiàn)當(dāng)樣本數(shù)據(jù)量越少,模型蒸餾相對(duì)經(jīng)典模型具有越大幅度的改進(jìn),隨著樣本數(shù)據(jù)量的提升,所有模型準(zhǔn)確率都在提升,但是模型蒸餾改進(jìn)幅度逐漸減緩,這在邏輯上合理,符合當(dāng)數(shù)據(jù)量足夠時(shí)模型準(zhǔn)確率趨于模型上限的假設(shè)。實(shí)驗(yàn)驗(yàn)證了當(dāng)數(shù)據(jù)集的規(guī)模較小時(shí),集成蒸餾模型有更大的改進(jìn),在規(guī)模變大時(shí)依舊保留很好的適用性。這說明模型蒸餾能有效處理小樣本問題,同時(shí)面對(duì)較豐富數(shù)據(jù)量時(shí)也有比較好的表現(xiàn)。

      表3 不同模型在CIFAR-10數(shù)據(jù)集的不同規(guī)模圖像上的準(zhǔn)確率單位:%Tab.3 Accuracies of different models on CIFAR-10 dataset’s images with different scales unit:%

      3.4 模型特征圖顯著性分析

      比較顯著性圖[11]即源和目標(biāo)模型的最后一層之間的未加權(quán)和加權(quán)匹配,以此可視化知識(shí)蒸餾中使用的注意力圖變化,這有助于了解蒸餾過程中的傳輸內(nèi)容。顯著性圖如式(15)計(jì)算:

      其中x是圖像,c是圖像的某個(gè)通道,(i,j) ∈{1,2,…,H}×{1,2,…,W}是像素位置。

      圖4 展示了目標(biāo)網(wǎng)絡(luò)訓(xùn)練中特征圖對(duì)網(wǎng)絡(luò)訓(xùn)練的指導(dǎo)作用,可以看出組合網(wǎng)絡(luò)特征圖第4 層輸出圖像對(duì)目標(biāo)網(wǎng)絡(luò)各層的訓(xùn)練都有相對(duì)顯著的影響,其他各層間影響較小。

      圖4 弱分類器第4層對(duì)目標(biāo)網(wǎng)絡(luò)影響權(quán)重變化Fig.4 Influence weight change of the fourth layer of weak classifier on target network

      對(duì)于未加權(quán)的情況,使用統(tǒng)一的權(quán)重,對(duì)于加權(quán)情況則使用訓(xùn)練方案學(xué)習(xí)的元網(wǎng)絡(luò)的輸出wm,n=(Sm(x))。為了有效對(duì)比激活像素?cái)?shù)目,定義顯著圖像素點(diǎn)絕對(duì)值大于像素圖均值的為有效像素點(diǎn),有效像素點(diǎn)與全顯著圖像素個(gè)數(shù)比值為有效像素比,圖5 為激活像素展示圖,對(duì)比統(tǒng)計(jì)數(shù)據(jù)圖為圖6。

      圖5 顯示了與元學(xué)習(xí)模型相比,本文集成蒸餾模型的顯著圖在關(guān)注重點(diǎn)處有更多更集中的激活像素。如圖6 所示,當(dāng)使用集成蒸餾模型時(shí),包含任務(wù)特定對(duì)象的有效像素較多,而背景無效像素較少,縱向?qū)Ρ?,總圖像87.31%的圖像,就顯著圖的有效像素比指標(biāo),集成蒸餾模型比元學(xué)習(xí)更高。這意味著權(quán)重wm,n學(xué)習(xí)到源模型特定于任務(wù)的知識(shí),因此它可以改善蒸餾學(xué)習(xí)的效果。

      圖5 CUB200數(shù)據(jù)集上不同模型的激活像素Fig.5 Active pixels of different models on CUB200 dataset

      圖6 一個(gè)batch內(nèi)顯著圖有效激活像素比Fig.6 Proportion of effective active pixels in saliency map within a batch

      4 結(jié)語

      本文提出了一種小樣本問題下培訓(xùn)弱教師網(wǎng)絡(luò)的模型蒸餾模型,根據(jù)任務(wù)和架構(gòu)選擇性地傳輸知識(shí)。本文設(shè)計(jì)了一個(gè)有效的學(xué)習(xí)方案,包括提取細(xì)節(jié)、整合細(xì)節(jié)、細(xì)節(jié)傳輸?shù)牟襟E。通過上述步驟,借助細(xì)節(jié)特征圖和蒸餾元網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)網(wǎng)絡(luò)的高精度。在此基礎(chǔ)上,借助元網(wǎng)絡(luò)來進(jìn)行數(shù)據(jù)劃分、數(shù)據(jù)合并甚至最后貫穿整個(gè)目標(biāo)網(wǎng)絡(luò)訓(xùn)練過程是繼續(xù)研究的一個(gè)方向;另外,依靠元網(wǎng)絡(luò)來進(jìn)行對(duì)目標(biāo)網(wǎng)絡(luò)的訓(xùn)練給出可靠的邏輯解釋是未來可解釋性研究的另一思路。本文算法幾乎在每一步都給出了最優(yōu)方向,同時(shí)每一步可分割進(jìn)行,這指向了模型蒸餾的一個(gè)方向,即模塊化蒸餾。

      猜你喜歡
      樣本特征圖像
      改進(jìn)的LapSRN遙感圖像超分辨重建
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      有趣的圖像詩
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      推動(dòng)醫(yī)改的“直銷樣本”
      抓住特征巧觀察
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      舟山市| 孟村| 遵义市| 永昌县| 剑阁县| 舒城县| 南江县| 梨树县| 建湖县| 耒阳市| 潍坊市| 平顶山市| 丽江市| 乾安县| 永修县| 徐闻县| 凌海市| 赤城县| 兰西县| 鹤岗市| 逊克县| 西丰县| 鄂伦春自治旗| 曲靖市| 揭西县| 霍山县| 巫山县| 安龙县| 平果县| 榆树市| 临夏县| 鄄城县| 南宫市| 宾阳县| 房山区| 五指山市| 绥芬河市| 全州县| 嘉峪关市| 泰和县| 通海县|