• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識(shí)蒸餾的特定知識(shí)學(xué)習(xí)

      2022-01-05 02:31:04戴朝霞曹堉棟朱光明沈沛意
      計(jì)算機(jī)應(yīng)用 2021年12期
      關(guān)鍵詞:類別注意力分類

      戴朝霞,曹堉棟,朱光明,3,沈沛意,3,徐 旭,4,梅 林,4,張 亮,3*

      (1.中國(guó)電子科技集團(tuán)公司第三十研究所,成都 610041;2.西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710071;3.西安市智能軟件工程重點(diǎn)實(shí)驗(yàn)室,西安 710071;4.公安部第三研究所,上海 200031)

      (?通信作者電子郵箱liangzhang@xidian.edu.cn)

      0 引言

      不論是現(xiàn)實(shí)生活還是工業(yè)現(xiàn)場(chǎng),嵌入式設(shè)備隨處可見(jiàn),為使深度卷積神經(jīng)網(wǎng)絡(luò)運(yùn)行在這些資源緊缺設(shè)備上,模型壓縮應(yīng)運(yùn)而生。目前主流的模型壓縮方法主要分為四類:低秩分解、參數(shù)量化、模型剪枝和知識(shí)蒸餾。

      一般情況下,網(wǎng)絡(luò)模型訓(xùn)練完成后,卷積核存在低秩特性,因此需要去除冗余參數(shù)。常用低秩分解[1-5]方法多使用奇異值分解(Singular Value Decomposition,SVD)來(lái)對(duì)卷積核進(jìn)行分解,從而達(dá)到模型壓縮效果。低秩分解一定程度壓縮了網(wǎng)絡(luò)模型,但其實(shí)現(xiàn)復(fù)雜,難以大規(guī)模推廣。參數(shù)量化方法通過(guò)減少模型參數(shù)的存儲(chǔ)位數(shù)達(dá)到模型壓縮的效果,以減少多余的存儲(chǔ)資源的消耗。Vanhoucke 等[6]和Gupta 等[7]分別采用8 bit 和16 bit 大小存儲(chǔ)模型參數(shù),且保證準(zhǔn)確率基本不受影響。參數(shù)量化方法多適用于小型網(wǎng)絡(luò)的壓縮,對(duì)于大型網(wǎng)絡(luò)會(huì)導(dǎo)致準(zhǔn)確率大幅下降。

      研究表明,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中存在著大量的冗余結(jié)構(gòu),這些結(jié)構(gòu)會(huì)導(dǎo)致網(wǎng)絡(luò)模型過(guò)擬合問(wèn)題,降低泛化能力,對(duì)網(wǎng)絡(luò)性能造成影響。模型剪枝[8-12]算法就是通過(guò)裁剪這些冗余結(jié)構(gòu)來(lái)壓縮模型大小且適當(dāng)?shù)靥嵘W(wǎng)絡(luò)性能。模型剪枝算法分為非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝兩大類,非結(jié)構(gòu)化剪枝直接對(duì)參數(shù)權(quán)重作置零操作,而結(jié)構(gòu)化剪枝對(duì)網(wǎng)絡(luò)結(jié)構(gòu)整體作裁剪操作。知識(shí)蒸餾是模型壓縮中最具特色的一種壓縮方式,它首先訓(xùn)練好分類性能強(qiáng)大的大型網(wǎng)絡(luò),稱之為教師網(wǎng)絡(luò);再通過(guò)蒸餾過(guò)程指導(dǎo)訓(xùn)練小型網(wǎng)絡(luò),稱之為學(xué)生網(wǎng)絡(luò)。該方法得到的學(xué)生網(wǎng)絡(luò)能夠代替教師網(wǎng)絡(luò)部署到工業(yè)現(xiàn)場(chǎng),最終達(dá)到模型壓縮的效果。

      傳統(tǒng)知識(shí)蒸餾算法中教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)執(zhí)行的任務(wù)一致,本文側(cè)重于學(xué)生網(wǎng)絡(luò)在特定類別分類領(lǐng)域的分類效果,最終目的是得到網(wǎng)絡(luò)規(guī)模小但特定類分類性能等于甚至超過(guò)教師網(wǎng)絡(luò)的分類網(wǎng)絡(luò)。

      本文的主要工作包括:

      1)基于知識(shí)蒸餾提出新的特定知識(shí)學(xué)習(xí)概念,并結(jié)合注意力特征遷移蒸餾算法,提出僅使用特定數(shù)據(jù)訓(xùn)練的特定知識(shí)學(xué)習(xí)基礎(chǔ)算法;

      2)在特定知識(shí)學(xué)習(xí)基礎(chǔ)算法上引入抑制背景類知識(shí)的蒸餾策略;調(diào)整網(wǎng)絡(luò)抑制位置,僅在高層作抑制操作,得到蒸餾過(guò)程中特定知識(shí)含量更高的學(xué)生網(wǎng)絡(luò);

      3)使用常規(guī)數(shù)據(jù)集CIFAR-100,設(shè)置多組對(duì)照實(shí)驗(yàn),結(jié)合有先驗(yàn)信息的評(píng)估方式,驗(yàn)證本文所提特定知識(shí)學(xué)習(xí)算法在特定類別分類領(lǐng)域的優(yōu)越性。

      1 相關(guān)工作

      知識(shí)蒸餾的概念自Hinton 等[13]提出后,各種新的蒸餾算法層出不窮??v覽所有知識(shí)蒸餾算法,幾乎都圍繞著知識(shí)的定義以及傳遞知識(shí)的方式來(lái)提出研究的創(chuàng)新點(diǎn)。針對(duì)這兩個(gè)研究重點(diǎn),本文將概述已有的表現(xiàn)不俗的知識(shí)蒸餾算法。

      Hinton 等最早提出知識(shí)蒸餾的概念,并確立了蒸餾過(guò)程中教師-學(xué)生的框架。該方法不僅利用原始的標(biāo)簽信息,同時(shí)也結(jié)合了教師網(wǎng)絡(luò)產(chǎn)生的預(yù)測(cè)概率,而預(yù)測(cè)概率就是該方法傳遞的知識(shí)。在此基礎(chǔ)上,Romero 等[14]不僅僅使用教師網(wǎng)絡(luò)的預(yù)測(cè)概率,同時(shí)還利用了教師網(wǎng)絡(luò)的中間層特征圖。該方法強(qiáng)制讓學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)中間層特征圖信息,一定程度上增加了知識(shí)傳遞的含量但是卻導(dǎo)致了過(guò)正則化問(wèn)題,使得網(wǎng)絡(luò)難以收斂。為解決蒸餾過(guò)程中的強(qiáng)約束問(wèn)題,Zagoruyko 等[15]引入注意力機(jī)制,該方法僅讓學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)中間層的注意力特征圖,有效地提升了學(xué)生網(wǎng)絡(luò)的分類性能。

      除了直接利用教師網(wǎng)絡(luò)的輸出信息或者中間層信息外,其他蒸餾算法對(duì)傳遞的知識(shí)作了全新的定義。Yim 等[16]提出學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)模型層與層之間的映射關(guān)系,這種映射關(guān)系可以解釋為解決問(wèn)題的思路,即授人以魚(yú)不如授人以漁的哲學(xué)思想。Heo 等[17]提出學(xué)習(xí)教師網(wǎng)絡(luò)的邊界分布更有利于提升學(xué)生網(wǎng)絡(luò)的分類性能,通過(guò)最大化邊界誤差,使得學(xué)生網(wǎng)絡(luò)分類效果明顯提升。Zhang 等[18]提出了互相學(xué)習(xí)蒸餾算法,該方法脫離了教師-學(xué)生模式的約束,通過(guò)兩網(wǎng)絡(luò)互相并行訓(xùn)練學(xué)習(xí)共同提升網(wǎng)絡(luò)的分類能力。

      傳統(tǒng)知識(shí)蒸餾中教師網(wǎng)絡(luò)將所有的知識(shí)傳遞給學(xué)生網(wǎng)絡(luò),一定程度上提升了網(wǎng)絡(luò)的全分類性能,但在特定類別分類任務(wù)上提升效果并不明顯。本文提出的特定知識(shí)學(xué)習(xí)算法,將有效地提升學(xué)生網(wǎng)絡(luò)在特定類別分類領(lǐng)域的分類準(zhǔn)確率,使其成為該領(lǐng)域的專家網(wǎng)絡(luò),且保證網(wǎng)絡(luò)規(guī)模足夠小,便于工業(yè)現(xiàn)場(chǎng)的部署。該算法訓(xùn)練得到的學(xué)生網(wǎng)絡(luò)完全契合工業(yè)現(xiàn)場(chǎng)場(chǎng)景單一、分類數(shù)目少的特點(diǎn),對(duì)未來(lái)網(wǎng)絡(luò)模型在工業(yè)領(lǐng)域的部署有一定的啟發(fā)作用,具有非常重要的實(shí)用價(jià)值和意義。

      2 傳統(tǒng)知識(shí)蒸餾和特定知識(shí)學(xué)習(xí)

      本章將詳細(xì)介紹傳統(tǒng)知識(shí)蒸餾和特定知識(shí)學(xué)習(xí)之間的聯(lián)系和區(qū)別,并且指明特定知識(shí)學(xué)習(xí)最顯著的三個(gè)特點(diǎn)。

      傳統(tǒng)知識(shí)蒸餾的初衷是讓學(xué)生網(wǎng)絡(luò)替代教師網(wǎng)絡(luò),以達(dá)到模型壓縮的效果。為了追求較大的壓縮比,學(xué)生網(wǎng)絡(luò)規(guī)模通常遠(yuǎn)小于教師網(wǎng)絡(luò)。當(dāng)執(zhí)行簡(jiǎn)單分類任務(wù)時(shí),學(xué)生網(wǎng)絡(luò)通常表現(xiàn)不錯(cuò),但對(duì)于復(fù)雜的分類任務(wù),由于參數(shù)規(guī)模的差異,學(xué)生網(wǎng)絡(luò)的性能終究不會(huì)超過(guò)教師網(wǎng)絡(luò)。根本原因是層數(shù)少的學(xué)生網(wǎng)絡(luò)卷積層對(duì)圖像特征的提取和理解能力不強(qiáng),無(wú)法全部消化掉教師網(wǎng)絡(luò)指導(dǎo)的知識(shí)特征。

      針對(duì)此種情況,減小學(xué)生網(wǎng)絡(luò)的分類任務(wù)復(fù)雜度,即只執(zhí)行特定類別的任務(wù)分類,使其能專注特定類別領(lǐng)域的分類。在知識(shí)蒸餾框架中,只允許學(xué)生網(wǎng)絡(luò)學(xué)習(xí)一些特定知識(shí),并使其完全消化這部分知識(shí),目的是使學(xué)生網(wǎng)絡(luò)執(zhí)行特定類別的分類任務(wù)時(shí),效果將優(yōu)于普通學(xué)生網(wǎng)絡(luò)甚至教師網(wǎng)絡(luò)。綜上所述,本文提出特定知識(shí)學(xué)習(xí),將教師網(wǎng)絡(luò)的部分或者特定種類的圖像特征知識(shí)傳遞給學(xué)生網(wǎng)絡(luò),使學(xué)生成為該特定知識(shí)領(lǐng)域的專家網(wǎng)絡(luò)。

      相對(duì)于傳統(tǒng)知識(shí)蒸餾算法,特定知識(shí)學(xué)習(xí)著重強(qiáng)調(diào)特定二字。首先學(xué)生網(wǎng)絡(luò)執(zhí)行特定的分類任務(wù),其必須是教師網(wǎng)絡(luò)分類任務(wù)的子集。通常認(rèn)為教師網(wǎng)絡(luò)是一個(gè)功能強(qiáng)大的大型網(wǎng)絡(luò),其功能泛而不專;特定知識(shí)學(xué)習(xí)后的學(xué)生網(wǎng)絡(luò)功能更加專一,不考慮學(xué)生網(wǎng)絡(luò)對(duì)其他類別的分類性能,只驗(yàn)證學(xué)生網(wǎng)絡(luò)對(duì)特定類別的分類能力,這便是任務(wù)上的特定。

      其次在蒸餾過(guò)程中,為避免其他無(wú)關(guān)類別知識(shí)干擾,特意讓學(xué)生網(wǎng)絡(luò)只接受教師網(wǎng)絡(luò)特定類別的知識(shí)。這樣做的目的有:1)學(xué)生網(wǎng)絡(luò)規(guī)模小而精,只學(xué)習(xí)特定知識(shí)使得學(xué)生網(wǎng)絡(luò)能夠使用更多神經(jīng)元參與特定類的分類,不必為其他無(wú)關(guān)知識(shí)分擔(dān)精力;2)教師網(wǎng)絡(luò)是一個(gè)復(fù)雜綜合的網(wǎng)絡(luò),其學(xué)習(xí)到的知識(shí)是豐富的,在訓(xùn)練教師網(wǎng)絡(luò)的過(guò)程中,訓(xùn)練數(shù)據(jù)集包含了豐富種類的圖片,在網(wǎng)絡(luò)底層能夠?qū)W習(xí)到種類和數(shù)量更多的基礎(chǔ)特征,因此教師網(wǎng)絡(luò)在網(wǎng)絡(luò)中間層能夠?qū)W習(xí)到更豐富的內(nèi)容,且該部分知識(shí)具有泛化性,這是一個(gè)學(xué)生網(wǎng)絡(luò)單獨(dú)訓(xùn)練不可能獲得的知識(shí)。

      最后實(shí)現(xiàn)特定知識(shí)學(xué)習(xí)的方式是讓學(xué)生網(wǎng)絡(luò)只使用特定類別數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。

      如圖1 所示,為特定知識(shí)學(xué)習(xí)簡(jiǎn)圖,正如上文中所述,特定知識(shí)學(xué)習(xí)與傳統(tǒng)知識(shí)蒸餾之間存在著明顯的不同,即特定知識(shí)學(xué)習(xí)有著特定的數(shù)據(jù)集、執(zhí)行特定任務(wù)并且在蒸餾過(guò)程中傳遞特定知識(shí)。

      圖1 特定知識(shí)學(xué)習(xí)示意圖Fig.1 Schematic diagram of specific knowledge learning

      3 注意力特征遷移蒸餾算法

      在介紹特定知識(shí)學(xué)習(xí)算法之前,本章首先介紹注意力特征遷移蒸餾算法,本文所提算法皆基于該蒸餾算法,理解該算法便于閱讀后文內(nèi)容。

      研究表明,人類在圖像認(rèn)知時(shí),會(huì)選擇性地關(guān)注到完整信息的某一部分,忽略其他不重要的信息,這種信息處理方式大大提高了人類認(rèn)知圖片的效率。受此啟發(fā),Zagoruyko 等將此種機(jī)制引入到知識(shí)蒸餾中,并將注意力特征圖當(dāng)作學(xué)生網(wǎng)絡(luò)需要學(xué)習(xí)的知識(shí)。他提出讓學(xué)生網(wǎng)絡(luò)中間層對(duì)應(yīng)地學(xué)習(xí)教師網(wǎng)絡(luò)中間層生成的注意力特征圖,以保證學(xué)生網(wǎng)絡(luò)中間層特征圖和教師網(wǎng)絡(luò)相似。實(shí)驗(yàn)結(jié)果表明,這種方式是科學(xué)、正確的,在大多數(shù)情況下,注意力特征遷移算法的蒸餾效果要優(yōu)于其他蒸餾算法。注意力特征遷移蒸餾算法架構(gòu)如圖2 所示,其中AM 表示注意力特征圖(Attention Map)。由圖2 可知,學(xué)生網(wǎng)絡(luò)架構(gòu)和教師網(wǎng)絡(luò)結(jié)構(gòu)需要類似,圖中網(wǎng)絡(luò)結(jié)構(gòu)有三處的注意力特征圖是一一對(duì)應(yīng)的。

      圖2 注意力特征遷移結(jié)構(gòu)Fig.2 Attention feature transfer structure

      注意力特征遷移蒸餾算法損失函數(shù)由兩部分組成:類概率損失和蒸餾損失,如式(1)、(2)所示:

      其中:L代表?yè)p失函數(shù),L(WS,x)代表學(xué)生網(wǎng)絡(luò)的類概率損失,LKD代表蒸餾損失;X為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)中間層對(duì)應(yīng)的集合,分別代表X集合中第j對(duì)學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的注意力特征圖;β是蒸餾損失權(quán)重,用來(lái)約束蒸餾損失對(duì)整個(gè)損失的影響。

      為了獲得更好的知識(shí)傳遞效果,注意力特征圖的定義并不唯一,不同定義適用于不同的場(chǎng)景,供實(shí)驗(yàn)人員根據(jù)實(shí)驗(yàn)結(jié)果選擇特征圖定義。特征圖定義公式如式(3)~(5)所示,A代表網(wǎng)絡(luò)中間層的激活響應(yīng)圖,其大小通常為W×H×C,其中W和H分別代表圖像的寬和高,C代表通道數(shù)量。本文實(shí)驗(yàn)中選用是第2個(gè)公式,此時(shí)p=2。

      4 基于注意力遷移的特定知識(shí)學(xué)習(xí)算法

      前兩章介紹了特定知識(shí)學(xué)習(xí)的概念和傳統(tǒng)注意力特征遷移蒸餾算法,本章將重點(diǎn)介紹基于注意力特征遷移的三種特定知識(shí)學(xué)習(xí)算法,并表述其網(wǎng)絡(luò)架構(gòu)和損失函數(shù)。

      4.1 基礎(chǔ)算法

      為提升學(xué)生網(wǎng)絡(luò)在特定類別任務(wù)的分類性能,僅使用特定類別數(shù)據(jù)集去指導(dǎo)訓(xùn)練學(xué)生網(wǎng)絡(luò)。為敘述方便,本文將該算法稱為AT_Specific,其整體網(wǎng)絡(luò)架構(gòu)如圖3所示。如圖3中左側(cè)所示,將訓(xùn)練學(xué)生網(wǎng)絡(luò)的數(shù)據(jù)集作預(yù)處理,將全部數(shù)據(jù)集中無(wú)關(guān)類別的數(shù)據(jù)剔除,只留下特定類別的圖像數(shù)據(jù)。通過(guò)此方式,大大減弱了其他無(wú)關(guān)類別對(duì)特定類別分類任務(wù)的影響。當(dāng)只使用特定類別數(shù)據(jù)訓(xùn)練學(xué)生網(wǎng)絡(luò)時(shí),蒸餾過(guò)程中也僅傳遞特定類別的相關(guān)知識(shí),網(wǎng)絡(luò)中間層模仿到的注意力特征圖也是教師網(wǎng)絡(luò)中特定類別樣本的注意力特征圖,所以通過(guò)知識(shí)蒸餾學(xué)生網(wǎng)絡(luò)學(xué)習(xí)到了教師網(wǎng)絡(luò)中傳遞的特定知識(shí)。觀察圖3 右側(cè),教師網(wǎng)絡(luò)是一個(gè)全分類的分類網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)僅僅分類特定類別,這是特定知識(shí)學(xué)習(xí)算法中教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間的一個(gè)重要區(qū)別。

      圖3 特定知識(shí)學(xué)習(xí)基礎(chǔ)算法結(jié)構(gòu)Fig.3 AT_Specific structure

      4.2 背景類知識(shí)抑制算法

      在特定知識(shí)學(xué)習(xí)框架中,教師網(wǎng)絡(luò)是一個(gè)全分類網(wǎng)絡(luò),訓(xùn)練教師網(wǎng)絡(luò)時(shí),使用的數(shù)據(jù)集是全體數(shù)據(jù)集,并未經(jīng)過(guò)特定類別的分組處理。因此教師網(wǎng)絡(luò)中不僅僅包含了特定類別的知識(shí)信息,還包含了其他非特定類別的圖像特征。教師網(wǎng)絡(luò)中豐富的圖像特征有利有弊,好處是指導(dǎo)的學(xué)生網(wǎng)絡(luò)有著不錯(cuò)泛化能力,在分類全部類別時(shí)有不錯(cuò)的分類性能;壞處是僅針對(duì)分類特定類別的任務(wù)時(shí),其他無(wú)關(guān)類別的特征信息會(huì)造成干擾,影響分類效果?;谝陨戏治?,本文認(rèn)為在特定知識(shí)學(xué)習(xí)中,削弱甚至剔除蒸餾過(guò)程中的其他無(wú)關(guān)類別的特征知識(shí)很有必要。

      將背景類的概念引申到特定知識(shí)學(xué)習(xí)中來(lái),如果將全部類別數(shù)據(jù)當(dāng)成一張圖像,特定類別當(dāng)成前置物體,而其他類別當(dāng)成一種背景類,對(duì)于特定類別的提純可能會(huì)有幫助?;谏鲜霾孪?,本文將全體數(shù)據(jù)集做預(yù)處理,全體數(shù)據(jù)將分為兩大類:特定類數(shù)據(jù)集和背景類數(shù)據(jù)集。特定類數(shù)據(jù)集為本文要檢測(cè)的特定類別數(shù)據(jù)集合,而背景類數(shù)據(jù)集為所有其他的非特定類數(shù)據(jù)。本文將該算法稱為AT_Background,整體算法框架如圖4 所示。圖4 左側(cè)顯示全體數(shù)據(jù)集經(jīng)預(yù)處理后生成了特定類數(shù)據(jù)和背景類數(shù)據(jù)。同時(shí),在圖4 右側(cè)只有一個(gè)背景類標(biāo)簽,將所有原先的無(wú)關(guān)類別全部分類為背景類。這樣改進(jìn)的好處有兩點(diǎn):其一是通過(guò)整合所有無(wú)關(guān)類別,并將這些類別統(tǒng)稱為背景類的操作,避免了人為選取不同非特定類導(dǎo)致性能差距較大的結(jié)果;其二是在蒸餾過(guò)程中,由于網(wǎng)絡(luò)的中間特征圖被抑制后,對(duì)網(wǎng)絡(luò)輸出影響較大,因此將其他無(wú)關(guān)類別統(tǒng)一為同一背景類標(biāo)簽是有必要且合理的。

      圖4 背景類知識(shí)抑制算法結(jié)構(gòu)Fig.4 AT_Background structure

      中間傳遞過(guò)程中既包含學(xué)習(xí)特定類知識(shí),又包含抑制非特定類知識(shí),具體內(nèi)部細(xì)節(jié)如圖5 所示。圖5 蒸餾模塊中顯示,當(dāng)學(xué)生網(wǎng)絡(luò)獲取到特定類樣本時(shí),直接去模仿教師網(wǎng)絡(luò)對(duì)應(yīng)層的注意力特征圖;當(dāng)學(xué)生網(wǎng)絡(luò)獲取到背景類樣本時(shí),將教師網(wǎng)絡(luò)的注意力特征圖置零,通過(guò)學(xué)習(xí)零特征圖達(dá)到抑制背景類知識(shí)的目的,其損失函數(shù)表達(dá)式如式(6)。

      圖5 背景類知識(shí)抑制算法內(nèi)部蒸餾細(xì)節(jié)Fig.5 Internal distillation details of AT_Background

      其中:L代表?yè)p失函數(shù),Lspecific(WS,x)代表學(xué)生網(wǎng)絡(luò)的特定類類概率損失;X為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)中間層對(duì)應(yīng)的集合,和分別代表X集合中第j對(duì)學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的注意力特征圖;a和b參數(shù)分別代表特定類損失和非特定類損失占總損失的權(quán)重。對(duì)于特定類,學(xué)生網(wǎng)絡(luò)注意力特征圖和教師網(wǎng)絡(luò)注意力特征圖越相似,其損失越低;對(duì)于非特定類,直接抑制學(xué)生網(wǎng)絡(luò)的注意力特征圖,使其激活值趨向0。最終結(jié)果使得學(xué)生網(wǎng)絡(luò)更好地學(xué)習(xí)到教師網(wǎng)絡(luò)特定類知識(shí)且對(duì)于非特定類敏感程度降低,減少非特定類圖像特征的干擾,提升分類性能。

      4.3 網(wǎng)絡(luò)高層背景類知識(shí)抑制算法

      根據(jù)神經(jīng)網(wǎng)絡(luò)可視化研究,網(wǎng)絡(luò)底層通常是線條、曲線等基礎(chǔ)的圖像特征,高層才慢慢細(xì)分成與任務(wù)種類相關(guān)的圖像特征。AT_Background 算法中在網(wǎng)絡(luò)低層和中層作抑制操作多有不妥。因此,本文提出僅在網(wǎng)絡(luò)高層作抑制操作的AT_Background_High 算法,該算法網(wǎng)絡(luò)整體架構(gòu)和損失函數(shù)和之前類似,在此不再贅述。

      5 實(shí)驗(yàn)與結(jié)果

      本章將使用本文提出的特定知識(shí)學(xué)習(xí)算法在CIFAR-100數(shù)據(jù)集上執(zhí)行特定類別分類任務(wù),并分別與教師網(wǎng)絡(luò)、無(wú)知識(shí)蒸餾、有知識(shí)蒸餾學(xué)生網(wǎng)絡(luò)比較20 個(gè)特定任務(wù)的分類準(zhǔn)確率Acc(Accuracy)均值、精確率Pre(Precision)均值、召回率Re(Recall)均值以及F1(F1-Measure)均值。

      5.1 度量標(biāo)準(zhǔn)

      評(píng)判網(wǎng)絡(luò)模型分類性能的常用指標(biāo)Accuracy、Precision、Recall 和F1-Measure 多用于二分類任務(wù)中,計(jì)算公式如式(7)~(10)。依據(jù)數(shù)據(jù)集特性,本文實(shí)驗(yàn)中每一個(gè)特定分類任務(wù)為多分類,須將多分類轉(zhuǎn)化為二分類。

      其中:all表示分類的總體樣本數(shù);N表示多分類任務(wù)中的分類數(shù);TPi表示分類網(wǎng)絡(luò)將圖像正確地預(yù)測(cè)成第i類的樣本數(shù);FPi表示分類網(wǎng)絡(luò)將圖像錯(cuò)誤地預(yù)測(cè)成第i類的樣本數(shù);FNi表示分類網(wǎng)絡(luò)將圖像錯(cuò)誤地預(yù)測(cè)成非第i類的樣本數(shù)。

      為更好地評(píng)估分類網(wǎng)絡(luò)的特定類別分類性能,依據(jù)數(shù)據(jù)集構(gòu)成,每次都會(huì)評(píng)估20 個(gè)特定類別任務(wù),并求其均值來(lái)體現(xiàn)分類網(wǎng)絡(luò)的特定類別分類性能。

      由前文可知,學(xué)生網(wǎng)絡(luò)執(zhí)行的任務(wù)通常是教師網(wǎng)絡(luò)執(zhí)行分類任務(wù)的子集,由于存在分類數(shù)目不一致,最終預(yù)測(cè)結(jié)果時(shí)教師網(wǎng)絡(luò)由于不知道樣本粗標(biāo)簽信息導(dǎo)致評(píng)分下降。例如一個(gè)5分類的分類網(wǎng)絡(luò)隨機(jī)分類正確的概率為20%,而一個(gè)100分類的分類網(wǎng)絡(luò)隨機(jī)分類正確的概率為1%,如果直接進(jìn)行不同分類數(shù)目的分類網(wǎng)絡(luò)結(jié)果對(duì)比,顯然是不正確的。為公平起見(jiàn),在評(píng)估全分類網(wǎng)絡(luò)的特定類別分類性能時(shí),提前告知預(yù)測(cè)標(biāo)簽范圍,以保證全分類網(wǎng)絡(luò)和特定分類網(wǎng)絡(luò)之間的信息對(duì)等。本文實(shí)驗(yàn)評(píng)估都是在有先驗(yàn)信息的評(píng)估方式下進(jìn)行。

      5.2 數(shù)據(jù)集

      本文選用CIFAR-100 作實(shí)驗(yàn)數(shù)據(jù)集。CIFAR-100 數(shù)據(jù)集是極其常用的分類數(shù)據(jù)集,包含60 000 萬(wàn)張訓(xùn)練和測(cè)試集數(shù)據(jù)。該數(shù)據(jù)集中包含100 類圖像,類別與類別之間不存在交叉,完全互斥。

      CIFAR-100 數(shù)據(jù)集有個(gè)獨(dú)特特點(diǎn):對(duì)于每一張圖像,有粗粒度和細(xì)粒度兩個(gè)標(biāo)簽,例如對(duì)于一張蜜蜂圖片,其細(xì)粒度標(biāo)簽為bee,粗粒度標(biāo)簽為insects。通過(guò)兩種標(biāo)簽,使CIFAR-100 數(shù)據(jù)更具有結(jié)構(gòu)層次性。其中,CIFAR-100 數(shù)據(jù)集有20種粗粒度標(biāo)簽,每個(gè)粗粒度對(duì)應(yīng)5種細(xì)粒度標(biāo)簽。

      結(jié)合本文研究?jī)?nèi)容,利用CIFAR-100的結(jié)構(gòu)特性,將分類一個(gè)粗粒度標(biāo)簽中的5 個(gè)細(xì)粒度標(biāo)簽作為一個(gè)特定類別分類任務(wù)。本文的主要目的就是提升學(xué)生網(wǎng)絡(luò)在特定類別分類任務(wù)的分類性能,因此最終將對(duì)比20 個(gè)特定類別分類指標(biāo)的均值。

      5.3 實(shí)驗(yàn)結(jié)果

      進(jìn)行了多組對(duì)照實(shí)驗(yàn)來(lái)驗(yàn)證本文所提出的特定知識(shí)學(xué)習(xí)算法在特定類別分類領(lǐng)域的有效性和優(yōu)越性。

      首先選取編號(hào)為1 的特定分類任務(wù)結(jié)果來(lái)觀察,并列出了教師網(wǎng)絡(luò)、無(wú)知識(shí)蒸餾學(xué)生網(wǎng)絡(luò)100 分類(StudentFS-100)、無(wú)知識(shí)蒸餾學(xué)生網(wǎng)絡(luò)5 分類(StudentFS-5)以及結(jié)合了傳統(tǒng)注意力特征遷移蒸餾算法(AT)學(xué)生網(wǎng)絡(luò)的4 個(gè)指標(biāo),如表1 前四行所示。對(duì)比發(fā)現(xiàn)教師網(wǎng)絡(luò)由于存在參數(shù)規(guī)模大的優(yōu)勢(shì),在特定分類領(lǐng)域依舊表現(xiàn)良好,高于StudentFS-100、StudentFS-5 和AT 學(xué)生網(wǎng)絡(luò)。對(duì)比結(jié)合傳統(tǒng)的AT 蒸餾算法后,分類性能上確實(shí)比無(wú)知識(shí)蒸餾學(xué)生網(wǎng)絡(luò)要高,對(duì)于StudentFS-5 準(zhǔn)確率提升了2.20 個(gè)百分點(diǎn)(84.60% vs 82.40%),而對(duì)于StudentFS-100 甚至性能降低了0.60 個(gè)百分點(diǎn)(84.60% vs 85.20%),可見(jiàn)傳統(tǒng)知識(shí)蒸餾算法在分類特定任務(wù)時(shí)的局限性。

      表1 后三行代表本文提出的三種特定知識(shí)學(xué)習(xí)算法,AT_Specific 算法對(duì)比StudentFS-5 有2.8 個(gè)百分點(diǎn)(85.20%vs 82.40%)的性能提升,比AT 算法提升明顯,驗(yàn)證了特定知識(shí)學(xué)習(xí)算法的有效性。為提升蒸餾過(guò)程中特定知識(shí)含量,本文又加入了抑制背景類知識(shí)的策略,實(shí)驗(yàn)結(jié)果顯示效果提升明顯,AT_Background_High 算法達(dá)到了最優(yōu),準(zhǔn)確率均值超過(guò)StudentFS-100 網(wǎng)絡(luò)分類性能3.6 個(gè)百分點(diǎn)(88.80% vs 85.20%);比傳統(tǒng)知識(shí)蒸餾AT 算法提升了4.2 個(gè)百分點(diǎn)(88.80%vs 84.60%);甚至超過(guò)了規(guī)模比其大超過(guò)6 倍(7.4×106vs 1.2×106)的教師網(wǎng)絡(luò)的分類性能,提升了0.8 個(gè)百分點(diǎn)(88.80%vs 88.00%)。

      表1 CIFAR-100上特定分類任務(wù)1的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of specific category task 1 on CIFAR-100

      在特定任務(wù)1 中,實(shí)驗(yàn)結(jié)果表明特定知識(shí)學(xué)習(xí)在特定任務(wù)分類上的優(yōu)越性,為了更直觀地表現(xiàn)本文所提算法在不同特定任務(wù)上的性能表現(xiàn),本文繪制準(zhǔn)確率柱狀圖,如圖6 所示。圖中分別對(duì)比了無(wú)知識(shí)蒸餾StudentFS-100、無(wú)知識(shí)蒸餾StudentFS-5、有知識(shí)蒸餾AT、三種特定知識(shí)學(xué)習(xí)算法以及教師網(wǎng)絡(luò)的20個(gè)特定類別分類準(zhǔn)確率。由圖6可以看到絕大部分特定任務(wù)中特定知識(shí)學(xué)習(xí)算法都有著不錯(cuò)的提升,尤其對(duì)于任務(wù)編號(hào)14 的特定分類任務(wù)這種準(zhǔn)確率低、分類難度大的任務(wù),準(zhǔn)確率提升較為明顯。這說(shuō)明特定知識(shí)學(xué)習(xí)更適用于分類難度相對(duì)較大的特定類任務(wù),讓學(xué)生網(wǎng)絡(luò)集中精力學(xué)習(xí)該特定類抽象特征的策略是有效的。觀察圖中算法結(jié)果對(duì)比,特定知識(shí)學(xué)習(xí)算法中,絕大多數(shù)情況下AT_Background_High算法表現(xiàn)更好。最終的結(jié)果也驗(yàn)證了通過(guò)抑制其他無(wú)關(guān)類別即背景類知識(shí)以及僅在網(wǎng)絡(luò)高層作抑制操作的正確性。

      圖6 七種網(wǎng)絡(luò)在20個(gè)特定類別任務(wù)的準(zhǔn)確率柱狀圖Fig.6 Histogram of accuracy of 7 networks in 20 specific category tasks

      6 結(jié)語(yǔ)

      本文結(jié)合知識(shí)蒸餾,首次提出特定知識(shí)學(xué)習(xí),旨在提升分類網(wǎng)絡(luò)特定類別分類性能。在此基礎(chǔ)上,提出三種特定知識(shí)學(xué)習(xí)算法,并結(jié)合抑制背景類知識(shí)蒸餾策略以及僅高層作抑制的調(diào)整,有效地提升了分類網(wǎng)絡(luò)在特定類別領(lǐng)域的分類性能。大量對(duì)照實(shí)驗(yàn)的結(jié)果表明,本文提出的特定知識(shí)學(xué)習(xí)算法對(duì)于網(wǎng)絡(luò)在特定類別分類領(lǐng)域的分類效果有著明顯提升,最優(yōu)結(jié)果甚至超越了規(guī)模超其6 倍的教師網(wǎng)絡(luò)性能。特定知識(shí)學(xué)習(xí)非常契合工業(yè)場(chǎng)景,本文所提算法具有一定的實(shí)用性和重要意義。

      猜你喜歡
      類別注意力分類
      讓注意力“飛”回來(lái)
      分類算一算
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      服務(wù)類別
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      米易县| 晋中市| 沙坪坝区| 疏勒县| 枞阳县| 高州市| 呼图壁县| 桐庐县| 商城县| 阳东县| 廉江市| 平顶山市| 清流县| 金乡县| 凤凰县| 资源县| 钟山县| 安陆市| 郎溪县| 苍南县| 射阳县| 博野县| 万荣县| 博湖县| 勐海县| 南江县| 宜春市| 仁寿县| 北碚区| 兴安盟| 元阳县| 邹城市| 北流市| 乌什县| 博乐市| 都匀市| 长泰县| 太仓市| 麦盖提县| 宣恩县| 新田县|