• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于濾波器注意力機(jī)制與特征縮放系數(shù)的動(dòng)態(tài)網(wǎng)絡(luò)剪枝

      2019-09-09 03:44:56盧海偉夏海峰袁曉彤
      關(guān)鍵詞:剪枝濾波器準(zhǔn)則

      盧海偉,夏海峰,袁曉彤

      1(南京信息工程大學(xué) 自動(dòng)化學(xué)院,南京 210044)2(江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室,大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044) E-mail:761227301@qq.com

      1 引 言

      自Alexnet[1]奪得ISVRC2012冠軍以來,深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺上取得了巨大的發(fā)展,尤其在圖像分類、目標(biāo)檢測、面部識(shí)別、語義分割等多個(gè)領(lǐng)域取得了一系列的進(jìn)展.如AlexNet[1]、VGG[2],GoogleNet[3]、ResNet[4]等許多經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),隨著這些神經(jīng)網(wǎng)絡(luò)復(fù)雜度的提高,一方面,深度神經(jīng)網(wǎng)絡(luò)在各種視覺任務(wù)上不斷逼近精度極限;另一方面,浮點(diǎn)運(yùn)算率和存儲(chǔ)空間也在不斷的增加.由于移動(dòng)設(shè)備和嵌入式設(shè)備的資源限制,如計(jì)算能力,存儲(chǔ)容量、電池消耗等,使得網(wǎng)絡(luò)模型很難部署在這些移動(dòng)裝置上.如表1所示,隨著這些經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,神經(jīng)網(wǎng)絡(luò)的計(jì)算量和存儲(chǔ)量都在顯著的增加.在深度神經(jīng)網(wǎng)絡(luò)中,卷積層占據(jù)了絕大多數(shù)的計(jì)算量,巨大的計(jì)算量消耗了大量的CPU以及GPU等硬件資源,由于這些問題的存在,模型壓縮得到了快速的發(fā)展,在保證網(wǎng)絡(luò)精度基本不變的情況下,盡可能地壓縮網(wǎng)絡(luò)模型,無論是存儲(chǔ)量還是浮點(diǎn)運(yùn)算率都得到了有效的減少.

      剪枝是一種流行的模型壓縮方法,能夠有效地降低網(wǎng)絡(luò)運(yùn)算量以及存儲(chǔ)量.早期階段,Han等人[5]提出了迭代剪枝,其思想是不斷剪枝訓(xùn)練收斂后的神經(jīng)網(wǎng)絡(luò),得到一個(gè)精簡的網(wǎng)絡(luò)模型.在此基礎(chǔ)上,Han等人[6]進(jìn)一步提出對(duì)剪枝后的網(wǎng)絡(luò)模型參數(shù)進(jìn)行量化和哈夫曼編碼(Huffman Coding),有效地減小了模型大小.然而,裁剪神經(jīng)元連接是一種非結(jié)構(gòu)化剪枝方法,難以應(yīng)用于現(xiàn)有的硬件設(shè)備,無法得到實(shí)際的加速.針對(duì)這些問題,結(jié)構(gòu)化剪枝解決了非結(jié)構(gòu)化剪枝存在的局限性.

      表1 不同卷積神經(jīng)網(wǎng)絡(luò)模型的對(duì)比
      Table 1 Comparison of different convolutional neural network models

      網(wǎng) 絡(luò)層 數(shù)Imagenet Top5(%)存儲(chǔ)量(MB)浮點(diǎn)運(yùn)算率(GFLOPs)AlexNet[1]879.09223~2.5VGG[2]1690.38518~31GoogleNet[3]2293.33~44~3ResNet[4]15294.04226~23

      目前,結(jié)構(gòu)化剪枝能夠兼容現(xiàn)有的硬件設(shè)備和深度學(xué)習(xí)庫(BLAS),在不破壞網(wǎng)絡(luò)結(jié)構(gòu)的情況下,裁剪網(wǎng)絡(luò)每層中的冗余濾波器.同時(shí),在保證網(wǎng)絡(luò)精度基本不變的前提下,搜索到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu).Li等人[7]通過計(jì)算每層濾波器的L1范數(shù),評(píng)價(jià)每一個(gè)濾波器的重要性.此外,Liu等人[8]在損失函數(shù)中加入每層特征縮放值的稀疏項(xiàng),并根據(jù)給定的閾值裁剪每一層的濾波器.雖然這些方法最終都得到了一個(gè)精簡網(wǎng)絡(luò),但經(jīng)過本文的實(shí)驗(yàn)表明,只考慮網(wǎng)絡(luò)單層的參數(shù)信息裁剪每層濾波器,并不能準(zhǔn)確判別濾波器的重要性,神經(jīng)網(wǎng)絡(luò)損失的精度較多.針對(duì)這個(gè)問題,本文提出了一個(gè)新的剪枝準(zhǔn)則,基于濾波器注意力機(jī)制與特征縮放系數(shù)得到濾波器的重要性函數(shù),一方面,利用濾波器的注意力信息得到濾波器重要性值,并作為濾波器的重要性評(píng)判指標(biāo)之一;另一方面,利用BN層的參數(shù)信息,每一個(gè)BN層縮放系數(shù)都對(duì)應(yīng)著上一層的激活通道,因此,縮放系數(shù)作為濾波器的重要性的另一個(gè)評(píng)判指標(biāo),利用這兩個(gè)評(píng)判指標(biāo)精準(zhǔn)地判定冗余濾波器,并對(duì)其進(jìn)行裁剪,由第4部分實(shí)驗(yàn)發(fā)現(xiàn),在相同剪枝率的情況下,本文的方法取得了更好的精度.

      2 相關(guān)工作

      模型壓縮是一種減小網(wǎng)絡(luò)復(fù)雜度的有效方式,神經(jīng)網(wǎng)絡(luò)的壓縮和加速方式可以被分為以下五類:矩陣分解、結(jié)構(gòu)緊湊型網(wǎng)絡(luò)、量化、剪枝、知識(shí)蒸餾.

      矩陣分解是將一個(gè)卷積層分解成幾個(gè)小的有效層,用兩個(gè)低秩矩陣代替卷積網(wǎng)絡(luò)的每一層的權(quán)重矩陣.Denil等人[9]重構(gòu)權(quán)重矩陣的誤差,將權(quán)重矩陣分解為多個(gè)小的低秩矩陣.降低了參數(shù)的冗余性.Denton等人[10]提出了低秩近似和聚類方法分解每一層的濾波器.然而,雖然分解后的矩陣運(yùn)算量減少,但是矩陣分解本身增加了巨大的計(jì)算量,訓(xùn)練過程依然需要花費(fèi)較長的時(shí)間,占用較多的硬件資源.此外,為了減少計(jì)算量,Inception[11],GoogleNet[2],Xception[12]這些網(wǎng)絡(luò)都采用了1×1、3×3大小的卷積核,增加了矩陣分解的難度.

      結(jié)構(gòu)緊湊型網(wǎng)絡(luò)主要是設(shè)計(jì)新型的網(wǎng)絡(luò)模型,設(shè)計(jì)更加緊湊的濾波器,減小模型的大小.Inception[11]運(yùn)用大量的1×1卷積代替3×3卷積,減小了卷積層的運(yùn)算量.DenseNet[13]是一種密集連接的神經(jīng)網(wǎng)絡(luò),任意兩層之間都有連接,將前面所有層的信息合并作為下一層的信息,減少了參數(shù)量.ShuffleNet[14]將1×1卷積分組并將特征通道隨機(jī)打亂,增加不同通道之間的信息交流,雖然這些輕量化網(wǎng)絡(luò)減小了網(wǎng)絡(luò)的計(jì)算量,但仍然存在著很大的冗余性且對(duì)網(wǎng)絡(luò)的設(shè)計(jì)要求較高.

      量化是通過將高精度的模型參數(shù)轉(zhuǎn)變?yōu)榈途缺硎?Courbariaux等人[15]將浮點(diǎn)權(quán)重量化為1 bit表示,極大地減少了網(wǎng)絡(luò)模型的存儲(chǔ)大小和運(yùn)算量.然而,通過這種極少的量化位表示權(quán)重信息,使得網(wǎng)絡(luò)精度下降較大.為了縮小量化誤差,Rastegari等人[16]不僅將浮點(diǎn)權(quán)重和激活值都量化為1bit,而且對(duì)量化權(quán)重和激活都增加了一個(gè)縮放因子,提高了網(wǎng)絡(luò)精度.最近,受到剪枝方法的啟發(fā),Zhou[17]提出了增量量化,將浮點(diǎn)權(quán)重量化為2的指數(shù)冪和0,進(jìn)一步減小了模型存儲(chǔ)量.雖然這些量化方式有效地減小了模型的計(jì)算量和存儲(chǔ)量,但是,在訓(xùn)練過程中,量化后的參數(shù)往往是不可導(dǎo)的,這需要使用直通估計(jì)(straight-through estimator),采用近似梯度代替原梯度反向傳播,因此,網(wǎng)絡(luò)參數(shù)更新必定會(huì)存在誤差,造成網(wǎng)絡(luò)精度損失.

      知識(shí)蒸餾是通過訓(xùn)練出一個(gè)大網(wǎng)絡(luò)(教師網(wǎng)絡(luò)),并在小網(wǎng)絡(luò)(學(xué)生網(wǎng)絡(luò))的損失中加入大網(wǎng)絡(luò)的輸出作為指導(dǎo),訓(xùn)練一個(gè)模型小且性能高的網(wǎng)絡(luò).Hinton等人[18]首次提出了知識(shí)蒸餾,并將一個(gè)小網(wǎng)絡(luò)訓(xùn)練成一個(gè)高精度網(wǎng)絡(luò),在此基礎(chǔ)上,Lei等人[19]運(yùn)用知識(shí)蒸餾,在網(wǎng)絡(luò)性能基本不變的情況下,得到壓縮后的網(wǎng)絡(luò),有效地減小了網(wǎng)絡(luò)參數(shù)量.但是,與其它壓縮方法相比,這種方式訓(xùn)練時(shí)間較長,且只適用具有SoftMax層的神經(jīng)網(wǎng)絡(luò)中.

      剪枝是一種快速且有效的模型壓縮方法,裁剪掉網(wǎng)絡(luò)中不重要的神經(jīng)元或者濾波器,得到存儲(chǔ)容量小且推理速度快的網(wǎng)絡(luò)模型.早期,LeCun等人[20]和Hassibi等人[21]運(yùn)用損失函數(shù)的 Hessian 矩陣來確定網(wǎng)絡(luò)中的冗余連接,然而,Hessian矩陣的二階計(jì)算本身消耗了大量的計(jì)算時(shí)間,訓(xùn)練時(shí)間較長.Han等人[5]提出了迭代剪枝,根據(jù)設(shè)定閾值裁剪神經(jīng)元,與LeCun等人[20]的方法相比較,縮短了網(wǎng)絡(luò)訓(xùn)練時(shí)間.此外,Guo等人[22]對(duì)Han等人[5]的方法進(jìn)行了改進(jìn),在訓(xùn)練過程中,裁剪掉的神經(jīng)元可以再次恢復(fù),動(dòng)態(tài)搜索最優(yōu)的剪枝策略.同樣,Zhou等人[23]提出了根據(jù)激活值的大小裁剪不重要的節(jié)點(diǎn).然而,上述的剪枝方法都是一種非結(jié)構(gòu)化剪枝,破壞了網(wǎng)絡(luò)的原有結(jié)構(gòu),難以利用現(xiàn)有的深度學(xué)習(xí)庫加速和現(xiàn)有的硬件支持.與其相比,結(jié)構(gòu)化剪枝是一種有效且實(shí)用性高的方法,Jin等人[24]提出了對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)化剪枝后再進(jìn)行權(quán)重剪枝,進(jìn)一步壓縮網(wǎng)絡(luò)模型.Li等人[7]利用L1范數(shù)準(zhǔn)則和層敏感度分析方法逐層裁剪冗余濾波器.此外,He等人[25]通過優(yōu)化網(wǎng)絡(luò)每層輸出的LASSO誤差選擇冗余濾波器.然而,上述的這些結(jié)構(gòu)性剪枝方法都僅僅利用了單層的參數(shù)信息選擇冗余濾波器,且沒有利用網(wǎng)絡(luò)參數(shù)更新的動(dòng)態(tài)性,靈活地選取冗余濾波器,此外,濾波器本身參數(shù)存在噪聲,這些方法沒有縮小干擾信息的影響,影響了冗余濾波器的正確選擇.

      基于以上的討論,本文提出了一種基于濾波器注意力機(jī)制與特征縮放系數(shù)的剪枝準(zhǔn)則,利用卷積層和BN層這兩層的參數(shù)信息更加精準(zhǔn)地選取冗余濾波器,并對(duì)其裁剪,并且首次將注意力圖運(yùn)用到濾波器上,通過提出的注意力函數(shù)得到濾波器的注意力圖,將注意力集中在濾波器中的重要參數(shù),縮小干擾信息的影響,得到濾波器的一級(jí)重要性判斷值.另外,以BN層的縮放系數(shù)作為濾波器的二級(jí)重要性判斷值,聯(lián)合利用兩級(jí)濾波器重要性值,不但提高了選擇冗余濾波器的準(zhǔn)確性,而且在殘差網(wǎng)絡(luò)這種冗余性較低的網(wǎng)絡(luò)框架上表現(xiàn)出有效性.

      3 基于濾波器注意力與特征縮放系數(shù)的剪枝方法

      在不破壞網(wǎng)絡(luò)結(jié)構(gòu)的情況下,減少CNN的濾波器數(shù)目能夠有效地減少網(wǎng)絡(luò)的參數(shù)量和運(yùn)算量,加速網(wǎng)絡(luò)的推理速度.隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,卷積層和BN層被廣泛應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中,一方面,相對(duì)于全連接層,卷積層具有局部感受野和參數(shù)共享的特點(diǎn),有效地減少了計(jì)算量和參數(shù)量;另一方面,BN層具有加速網(wǎng)絡(luò)學(xué)習(xí)和正則化的優(yōu)勢,在先前的一些剪枝方法中,通過卷積層的權(quán)重參數(shù)選擇冗余濾波器,并對(duì)其進(jìn)行裁剪.在卷積層中,濾波器值的絕對(duì)值的大小代表了其重要程度,重要的濾波器值能夠提取出具有判別性的特征信息,但是,濾波器中的一些較小值往往會(huì)成為干擾信息,誤導(dǎo)網(wǎng)絡(luò)提取到不重要的特征信息.在BN層中,對(duì)輸出激活值歸一化,并通過縮放系數(shù)和偏移系數(shù)調(diào)整值的分布,由于每個(gè)縮放系數(shù)對(duì)應(yīng)輸出激活的每一個(gè)通道,每一個(gè)縮放系數(shù)代表其對(duì)應(yīng)激活通道的重要性程度.因此,本文利用卷積層和BN層的參數(shù)信息,提出了基于濾波器注意力機(jī)制與特征縮放系數(shù)的剪枝方法.

      3.1 基于濾波器注意力與特征縮放系數(shù)的剪枝框架

      為了有效地提取濾波器中重要參數(shù)信息,本文提出了一種新的濾波器重要性判斷指標(biāo),即聯(lián)合濾波器的注意力重要性值和BN層縮放系數(shù)判斷指標(biāo),濾波器的注意力重要性值指標(biāo)利用注意力機(jī)制得到濾波器注意力圖,將注意力集中在濾波器的重要參數(shù)值,縮小濾波器中不重要值的影響,放大濾波器中重要值的貢獻(xiàn).此外,BN層對(duì)每一層的特征圖進(jìn)行了歸一化且BN層的縮放系數(shù)是對(duì)應(yīng)每一個(gè)激活通道,縮放系數(shù)的大小和對(duì)應(yīng)激活通道上值的大小緊密相關(guān),用縮放系數(shù)表示每一個(gè)通道的重要性程度是一種簡單且有效的方式,并且沒有額外的開銷.在訓(xùn)練過程中,濾波器參數(shù)和BN層縮放系數(shù)都在不斷更新.因此,提出的剪枝方法能夠重復(fù)利用濾波器注意力重要性值和BN層縮放系數(shù)作為選取冗余濾波器的判斷指標(biāo),動(dòng)態(tài)裁剪冗余濾波器,網(wǎng)絡(luò)剪枝框架如圖1所示.

      圖1 基于濾波器注意力與特征縮放系數(shù)的剪枝框架Fig.1 Pruning frame based on filter attention and feature scaling factor

      3.2 利用濾波器注意力機(jī)制評(píng)價(jià)濾波器的重要性

      注意力機(jī)制是一種用于提取圖片主要特征信息的方式,被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)中,將注意力集中在需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,提取特征圖中的主要特征信息,忽略一些次要特征信息.這樣,從大量信息中.神經(jīng)網(wǎng)絡(luò)可以快速地篩選出有價(jià)值的信息,利用這些信息作為網(wǎng)絡(luò)最終判斷的主要特征依據(jù),增強(qiáng)了網(wǎng)絡(luò)的泛化性能.因此,利用注意力機(jī)制提取重要信息的原理,本文將注意力機(jī)制應(yīng)用在濾波器上,得到濾波器注意力圖.假設(shè)濾波器表示為Fi∈RC×H×W,C代表每一個(gè)濾波器的通道個(gè)數(shù),i代表濾波器的第i個(gè)通道,注意力函數(shù)A如公式(1)所示:

      (1)

      為了得到濾波器重要值的分布,如圖2所示,將公式(1)運(yùn)用在每一個(gè)濾波器上,得到了濾波器的注意圖.每一個(gè)3D濾波器變?yōu)榱?D濾波器注意力圖,2D濾波器注意力圖上的每一個(gè)值都代表了該值通道維度上的整體重要性,包含了該值通道維度的主要信息,在映射的過程中,注意力機(jī)制將干擾信息縮小化,放大了重要信息值.最終,2D濾波器注意力圖反映了每個(gè)值通道維度的不同重要性程度.

      圖2 濾波器注意力示意圖Fig.2 Filter attention map

      如圖3所示,在不同Epoch下,ResNet20中相同層的一個(gè)濾波器的注意力圖,可見,隨著訓(xùn)練時(shí)間增加,同一濾波器的注意力值也在不斷的變化,剪枝網(wǎng)絡(luò)不斷調(diào)整每層中需要裁剪的濾波器,直到網(wǎng)絡(luò)收斂,搜索到最優(yōu)的剪枝網(wǎng)絡(luò)結(jié)構(gòu).

      圖3 不同Epoch下的濾波器注意力圖Fig.3 Filter attention graph under different Epoch

      為了能夠表達(dá)出每個(gè)濾波器的重要性程度,運(yùn)用公式(2),通過LF范數(shù),將公式(1)每一個(gè)2D濾波器注意力圖A轉(zhuǎn)變?yōu)橐粋€(gè)濾波器的重要性值M,并將每個(gè)濾波器重要性值M作為評(píng)判濾波器的重要性指標(biāo)之一,在第4部分實(shí)驗(yàn)中,驗(yàn)證了該重要性指標(biāo)的有效性.

      M=‖A‖F(xiàn)

      (2)

      3.3 利用特征縮放系數(shù)評(píng)價(jià)濾波器的重要性

      由于BN層具有加速網(wǎng)絡(luò)收斂的作用,BN層已被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)中,一般置于卷積層的下一層,對(duì)卷積層的輸出特征歸一化,使得網(wǎng)絡(luò)每層都可以自己學(xué)習(xí),稍微獨(dú)立于其他層.BN層有兩個(gè)優(yōu)化參數(shù),分別為縮放系數(shù)和偏移系數(shù),這兩個(gè)參數(shù)微調(diào)歸一化后的特征數(shù)據(jù),使得特征值能夠?qū)W習(xí)到每一層的特征分布,BN層的運(yùn)算過程如公式(3)所示,其中,Zin為輸入,Zout為輸出,μC和σC分別為輸入激活值的均值和方差,α和β分別為對(duì)應(yīng)激活通道的縮放系數(shù)和偏移系數(shù).

      (3)

      如公式(3)所示,由于BN層的縮放系數(shù)α對(duì)應(yīng)每一個(gè)激活通道,表示每個(gè)激活通道的重要性,每一個(gè)激活通道是由上一層的卷積層卷積操作后得到,每一個(gè)激活通道都對(duì)應(yīng)著上一層的一個(gè)濾波器,通過縮放值α確定冗余的激活通道,再根據(jù)激活通道選擇裁剪上一層相應(yīng)的濾波器.因此,縮放值α間接反映了對(duì)應(yīng)濾波器的重要性.,可以根據(jù)BN層的縮放值的大小,裁剪卷積層的濾波器和BN層的偏移系數(shù).本文將縮放α作為評(píng)判濾波器重要性的另一個(gè)指標(biāo),能夠更加精準(zhǔn)地裁剪網(wǎng)絡(luò)中的冗余濾波器.

      3.4 聯(lián)合濾波器注意力機(jī)制與特征縮放值剪枝濾波器

      3.2節(jié)和3.3節(jié)介紹了卷積層參數(shù)和BN的縮放系數(shù)對(duì)選擇冗余濾波器的指導(dǎo)作用.一方面,卷積層利用了每個(gè)濾波器的注意力圖,重點(diǎn)關(guān)注重要的濾波器參數(shù),并將注意力圖通過LF范數(shù)轉(zhuǎn)化為評(píng)價(jià)濾波器的注意力重要性值,另一方面,BN層的縮放系數(shù)作為評(píng)價(jià)濾波器的另一個(gè)重要性值,如公式(4)所示,結(jié)合了3.2節(jié)和3.3節(jié)中的濾波器重要性指標(biāo)判斷濾波器的重要性程度,得到濾波器重要性函數(shù)I.

      I=‖A‖F(xiàn)×α

      (4)

      假設(shè)網(wǎng)絡(luò)共有L層,第i層共有Ni個(gè)濾波器,如算法1所示,展示了本文提出的動(dòng)態(tài)網(wǎng)絡(luò)剪枝算法的過程.

      算法1.基于濾波器注意力與特征縮放系數(shù)的剪枝算法

      輸入:訓(xùn)練樣本X,初始化權(quán)重W={w(i),1≤i≤l},剪枝率P

      輸出:收斂后的模型參數(shù)W

      1.For epoch=1;epoch

      2. Update the model parameters based on X;

      3. For i=1;i

      Calculate the importance value of each filter according to Equation.(4);

      4. Zeroize NiP filters and NiP offset value of BN layers;

      5. end for

      6.end for

      在每次迭代過程中,根據(jù)濾波器重要性函數(shù)公式(4)選擇需要裁剪的濾波器和BN層偏置系數(shù),對(duì)其進(jìn)行置零操作,這樣使得硬剪枝和網(wǎng)絡(luò)訓(xùn)練收斂時(shí)的精度保持一致.為了避免本次的誤裁剪,在下一個(gè)Epoch中,對(duì)置零的濾波器和其余濾波器再次更新,使得裁剪掉的濾波器能夠再次根據(jù)濾波器重要性函數(shù)公式(4)評(píng)估其重要性,不會(huì)因?yàn)橐淮蔚恼`裁剪降低網(wǎng)絡(luò)的性能.

      3.5 網(wǎng)絡(luò)殘差塊的硬剪枝

      在訓(xùn)練過程中,對(duì)需要裁剪的濾波器以及BN層的偏置系數(shù)不斷置零和更新,網(wǎng)絡(luò)趨于收斂.網(wǎng)絡(luò)準(zhǔn)確地搜索到每層中的冗余濾波器,最終得到冗余參數(shù)置零后的網(wǎng)絡(luò)模型.如圖4所示,展示了網(wǎng)絡(luò)殘差塊的硬剪枝過程,裁減掉濾波器1中的兩個(gè)濾波器和BN層中的兩個(gè)偏移系數(shù)后,特征圖1經(jīng)過濾波器1得到了特征圖2,裁剪掉特征圖2中的兩個(gè)通道,特征圖2經(jīng)過濾波器2得到了特征圖3,同樣裁剪掉特征圖3中的兩個(gè)通道,特征圖1經(jīng)過跳躍連接后得到特征圖1′,特征圖1′和特征圖3的通道數(shù)目相同,然而特征圖3是由特征圖1經(jīng)過一系列裁剪后的濾波器卷積后得到,為了保證特征圖3裁剪后的剩余通道能夠和特征圖1′對(duì)應(yīng).本文提出一種殘差塊的硬剪枝方法,提取出特征圖3裁剪后的剩余通道的索引,并將特征圖1對(duì)應(yīng)這些索引的通道和特征圖3組合,保證剪枝后的殘差塊中的特征圖對(duì)應(yīng),而不用保留每一個(gè)殘差塊的最后一個(gè)卷積層的冗余濾波器,增加不必要的運(yùn)算量.本文提出的硬剪枝方法,解決了跳躍連接與裁剪后的特征圖通道不對(duì)應(yīng)的問題,減小了網(wǎng)絡(luò)運(yùn)算量和存儲(chǔ)量.保證了硬剪枝后的網(wǎng)絡(luò)精度和訓(xùn)練收斂后的網(wǎng)絡(luò)精度一致.

      圖4 網(wǎng)絡(luò)殘差塊的硬剪枝Fig.4 Hard pruning of network residual blocks

      4 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證本文的方法在深度神經(jīng)網(wǎng)絡(luò)上的實(shí)際效果.本文采用冗余性較小的殘差網(wǎng)絡(luò),分別在ResNet20、ResNet32、ResNet56和ResNet110上進(jìn)行實(shí)驗(yàn),殘差塊的跳躍連接中沒有訓(xùn)練參數(shù),選用了標(biāo)準(zhǔn)CIFAR-10數(shù)據(jù)集和CIFAR-100數(shù)據(jù)集.首先,在4.1節(jié)中,本文考慮利用3.2節(jié)和3.3節(jié)提出的網(wǎng)絡(luò)單層信息(濾波器注意力機(jī)制或特征縮放系數(shù))和3.4節(jié)提出的雙層信息(濾波器注意力機(jī)制與特征縮放系數(shù))在相同的參數(shù)設(shè)置下做了實(shí)驗(yàn),將注意力(濾波器注意力剪枝準(zhǔn)則)、縮放系數(shù)(特征縮放系數(shù)剪枝準(zhǔn)則)、雙層信息(聯(lián)合濾波器注意力與特征縮放值剪枝準(zhǔn)則)三種剪枝方法分別在冗余性較小的殘差網(wǎng)絡(luò)上做了實(shí)驗(yàn),并對(duì)這三種方法做了對(duì)比.在訓(xùn)練過程中,結(jié)合了動(dòng)態(tài)網(wǎng)絡(luò)剪枝的策略,剪枝率P設(shè)為20%和30%,同時(shí)對(duì)每層中的濾波器以剪枝率P裁剪,并在下一個(gè)Epoch之前再次更新參數(shù),搜索網(wǎng)絡(luò)的最優(yōu)權(quán)重參數(shù).接著,在4.2節(jié)中,將本文提出的剪枝方法與其它先進(jìn)剪枝方法做了對(duì)比實(shí)驗(yàn),驗(yàn)證了本文剪枝方法的有效性.最后,在4.3節(jié)中,剪枝率設(shè)置為10%~90%,測試了不同的剪枝率和不同剪枝間隔對(duì)模型精度的影響.

      4.1 CIFAR-10和CIFAR-100上的剪枝結(jié)果對(duì)比

      CIFAR-10是一個(gè)3通道彩色數(shù)據(jù)集,共有10類,每張圖片的分辨率為32×32,共有60000張圖片,分為50000張訓(xùn)練集和10000張測試集.在該數(shù)據(jù)集上,本文分別采用了注意力剪枝準(zhǔn)則,縮放系數(shù)剪枝準(zhǔn)則和雙層信息剪枝準(zhǔn)則,并對(duì)比了這三種剪枝準(zhǔn)則的實(shí)驗(yàn)效果,CIFAR-100數(shù)據(jù)集的大小、分辨率和數(shù)量與CIFAR-10一致,不同的是,CIFAR-100分為100類,為了驗(yàn)證提出方法的有效性,實(shí)驗(yàn)同樣選取了冗余性較小的殘差網(wǎng)絡(luò),在本文提出的三種剪枝準(zhǔn)則上進(jìn)行了實(shí)驗(yàn),并對(duì)比三種剪枝準(zhǔn)則的精度.剪枝率為20%和30%表示每一層的濾波器個(gè)數(shù)減少20%和30%,如表2和表3所示,展示了三種剪枝準(zhǔn)則的精度與原網(wǎng)絡(luò)的精度對(duì)比,可以明顯看出,無論是剪枝率設(shè)為20%還是30%,單獨(dú)運(yùn)用縮放系數(shù)剪枝準(zhǔn)則或注意力剪枝準(zhǔn)則的精度較低,本文提出的雙層信息剪枝準(zhǔn)則的效果表現(xiàn)最好,充分利用了網(wǎng)絡(luò)參數(shù)信息.尤其在剪枝率為30%的情況下,CIFAR-10數(shù)據(jù)集運(yùn)用雙層信息剪枝準(zhǔn)則,ResNet56和ResNet110上的精度甚至超過了原網(wǎng)絡(luò)的精度,CIFAR-100數(shù)據(jù)集運(yùn)用雙層信息剪枝準(zhǔn)則,基本都能夠接近原網(wǎng)絡(luò)的精度.因此,如表2和表3所示,雙層信息剪枝準(zhǔn)則的實(shí)驗(yàn)結(jié)果表現(xiàn)最好,說明該準(zhǔn)則選擇的冗余濾波器更加精準(zhǔn),驗(yàn)證了該剪枝準(zhǔn)則的有效性.

      表2 三種剪枝準(zhǔn)則在CIFAR-10上的實(shí)驗(yàn)結(jié)果對(duì)比
      Table 2 Comparison of experimental results of three pruning
      criteria on CIFAR-10

      網(wǎng) 絡(luò)剪枝準(zhǔn)則剪枝率%基本精度%剪枝網(wǎng)絡(luò)精度%下降精度%ResNet56縮放系數(shù)注意力雙層信息20302030203093.5993.230.3692.171.4293.540.0593.510.0893.91-0.3293.540.05ResNet110縮放系數(shù)注意力雙層信息20302030203093.6893.590.0993.400.2894.05-0.3793.600.0893.87-0.1994.13-0.45

      表3 三種剪枝準(zhǔn)則在CIFAR-100上的實(shí)驗(yàn)結(jié)果對(duì)比
      Table 3 Comparison of experimental results of three pruning
      criteria on CIFAR-100

      網(wǎng) 絡(luò)剪枝準(zhǔn)則剪枝率%基本精度%剪枝網(wǎng)絡(luò)精度%下降精度%ResNet56縮放系數(shù)注意力雙層信息20302030203071.6069.412.1968.093.5170.690.9170.601.0071.140.4670.720.88ResNet110縮放系數(shù)注意力雙層信息20302030203073.8471.492.3569.264.5871.832.0172.221.6272.601.2472.591.25

      4.2 不同剪枝準(zhǔn)則的實(shí)驗(yàn)結(jié)果對(duì)比

      如表4所示,對(duì)比了本文提出的剪枝準(zhǔn)則和其它剪枝準(zhǔn)則的性能.在相同的剪枝率下,本文提出的剪枝準(zhǔn)則的精度明顯高于其它剪枝準(zhǔn)則,由于SFP[27]在動(dòng)態(tài)剪枝的過程中保留了BN層的偏置系數(shù),硬剪枝引起剪枝網(wǎng)絡(luò)精度的隨機(jī)下降,破壞了動(dòng)態(tài)剪枝中搜索到的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),此外,其它剪枝方法[7,25,26]都沒有對(duì)裁剪后的連接再恢復(fù),無法搜索到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu).由實(shí)驗(yàn)結(jié)果可知,得到的僅僅是一個(gè)次優(yōu)解.因此,在與其它剪枝方法比較之下,本文的剪枝方法具有最優(yōu)的網(wǎng)絡(luò)性能,在測試數(shù)據(jù)集上的泛化性能表現(xiàn)最好.

      表4 不同剪枝準(zhǔn)則的實(shí)驗(yàn)結(jié)果對(duì)比
      Table 4 Comparison of experimental results of different pruning criteria

      網(wǎng)絡(luò)剪枝率(%)方法基本精度%剪枝網(wǎng)絡(luò)精度%下降精度%剪枝網(wǎng)絡(luò)浮點(diǎn)運(yùn)算量(FLOPs)浮點(diǎn)運(yùn)算量減少(FLOPs)%ResNet20-LCCT[26]91.5391.430.103.20E720.3ResNet2030SFP[27]92.2090.831.372.43E742.2ResNet2030本文方法92.2091.280.922.43E742.2ResNet32-LCCT[26]92.3390.741.594.70E731.2ResNet3230SFP[27]92.6392.080.554.03E741.5ResNet3230本文方法92.6392.68-0.054.03E741.5ResNet56-PF[7]93.0491.311.739.09E727.6ResNet56-CP[25]92.8090.901.90-50.0ResNet5630SFP[27]93.5993.100.495.94E741.1ResNet5630本文方法93.5993.540.055.94E741.1ResNet110-PF[7]93.5392.940.591.55E838.6ResNet110-LCCT[26]93.6393.440.19-34.2ResNet11030SFP[27]93.6893.380.301.50E840.8ResNet11030本文方法93.6894.13-0.451.50E840.8

      4.3 不同剪枝率對(duì)精度的影響

      隨著剪枝率的增大,網(wǎng)絡(luò)的運(yùn)算量和存儲(chǔ)量在不斷減小,同時(shí)神經(jīng)網(wǎng)絡(luò)的性能也會(huì)受到不同程度的影響,利用本文提出的雙層信息剪枝準(zhǔn)則,在不同剪枝率下,研究了ResNet110的網(wǎng)絡(luò)精度變化.剪枝率范圍設(shè)定為10%~90%,實(shí)驗(yàn)結(jié)果如圖5和圖6所示,在一定范圍內(nèi),隨著剪枝率的提高,剪枝網(wǎng)絡(luò)的精度超過了基本網(wǎng)絡(luò)的精度;當(dāng)超過一定范圍,隨著剪枝率的提高,剪枝網(wǎng)絡(luò)的精度會(huì)逐漸低于基本網(wǎng)絡(luò)的精度.可以說明,當(dāng)剪枝率較小時(shí),剪枝會(huì)給網(wǎng)絡(luò)帶來正則化的作用,增強(qiáng)了網(wǎng)絡(luò)的泛化性能;當(dāng)剪枝率較大時(shí),網(wǎng)絡(luò)的表征能力受到嚴(yán)重破壞.模型的性能下降明顯,如表2所示,運(yùn)用雙層信息剪枝準(zhǔn)則,ResNet110在剪枝率為30%時(shí)的網(wǎng)絡(luò)精度比剪枝率為20%的網(wǎng)絡(luò)精度表現(xiàn)更好,這正是剪枝對(duì)網(wǎng)絡(luò)的正則化作用.

      圖5 ResNet110在CIFAR-10上不同剪枝率的精度Fig.5 Accuracy of different pruning rates of ResNet110 on CIFAR-10

      圖6 ResNet110在CIFAR-100上不同剪枝率的精度Fig.6 Accuracy of different pruning rates of ResNet110 on CIFAR-100

      4.4 不同剪枝間隔對(duì)精度的影響

      在訓(xùn)練過程中,不同剪枝間隔表示在這段時(shí)間中網(wǎng)絡(luò)的參數(shù)恢復(fù)程度.因此,為了驗(yàn)證不同Epoch更新間隔對(duì)網(wǎng)絡(luò)的精度的影響,本文設(shè)置剪枝率為30%、更新間隔單位為1個(gè)Epoch,比較在ResNet110上不同Epoch更新間隔的網(wǎng)絡(luò)精度.如圖7和圖8所示,隨著剪枝間隔的增大,剪枝網(wǎng)絡(luò)的準(zhǔn)確率在很小的范圍內(nèi)上下浮動(dòng),能夠基本保持不變,.因?yàn)樵趧?dòng)態(tài)剪枝的訓(xùn)練過程中,網(wǎng)絡(luò)始終在不斷調(diào)整冗余濾波器的選擇,即使本次未能準(zhǔn)確的裁剪掉冗余濾波器,在下一個(gè)Epoch中必然會(huì)選擇到冗余濾波器.因此,剪枝間隔的大小對(duì)網(wǎng)絡(luò)精度的影響較小,為了提高了網(wǎng)絡(luò)的訓(xùn)練速度,本文實(shí)驗(yàn)選取剪枝間隔為1個(gè)Epoch.

      圖7 ResNet110在CIFAR-10上不同剪枝間隔的精度Fig.7 Accuracy of different pruning intervals on CIFAR-10 for ResNet110

      圖8 ResNet110在CIFAR-100上不同剪枝間隔的精度Fig.8 Accuracy of different pruning intervals on CIFAR-100 for ResNet110

      4.5 速度性能分析

      假設(shè)剪枝率為P,i代表神經(jīng)網(wǎng)絡(luò)的第i層,濾波器個(gè)數(shù)為Ni,濾波器的長和寬都為K,輸入特征圖的長和寬分別為Hi和Wi,特征圖的通道數(shù)為Ci,步長為1,裁剪第i層P×Ni個(gè)濾波器,則運(yùn)算量減少P×Ni×K×K×Ci×Hi×Wi,相應(yīng)第i+1層的輸出特征圖將會(huì)減少P×Ni個(gè),運(yùn)算量再次減少了Ni+1×P×Ni×K×K×Hi+1×Wi+1.因此,裁剪第i層P×Ni個(gè)濾波器,則計(jì)算量減少:

      (5)

      5 結(jié) 論

      本文提出一種基于濾波器注意力機(jī)制與特征縮放系數(shù)的動(dòng)態(tài)網(wǎng)絡(luò)剪枝方法,利用網(wǎng)絡(luò)的動(dòng)態(tài)性不斷搜索最優(yōu)網(wǎng)絡(luò)參數(shù),并結(jié)合提出的硬剪枝方法得到壓縮后的網(wǎng)絡(luò).實(shí)驗(yàn)表明,一方面,濾波器的注意力圖獲取了濾波器上的重要參數(shù)信息,提取到具有判別性的信息;另一方面,特征縮放系數(shù)衡量了對(duì)應(yīng)濾波器的重要性,綜合這兩個(gè)濾波器的重要性判斷指標(biāo)得到濾波器重要性函數(shù),能夠更加精準(zhǔn)地選取冗余濾波器,實(shí)現(xiàn)了模型的最大程度的壓縮,提高了模型的泛化能力.進(jìn)一步地,可以根據(jù)網(wǎng)絡(luò)的層敏感性,結(jié)合剪枝準(zhǔn)則搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),達(dá)到更加理想的效果.

      猜你喜歡
      剪枝濾波器準(zhǔn)則
      人到晚年宜“剪枝”
      基于YOLOv4-Tiny模型剪枝算法
      具非線性中立項(xiàng)的二階延遲微分方程的Philos型準(zhǔn)則
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      開關(guān)電源EMI濾波器的應(yīng)用方法探討
      電子制作(2018年16期)2018-09-26 03:26:50
      剪枝
      天津詩人(2017年2期)2017-03-16 03:09:39
      基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
      基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
      一圖讀懂《中國共產(chǎn)黨廉潔自律準(zhǔn)則》
      一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
      武城县| 丹江口市| 高唐县| 新郑市| 乐安县| 虹口区| 凉山| 绿春县| 青田县| 乌拉特前旗| 多伦县| 东港市| 揭西县| 祁连县| 通江县| 望都县| 新兴县| 昭苏县| 临高县| 五原县| 富宁县| 涪陵区| 榆林市| 沧源| 咸宁市| 岑巩县| 新龙县| 柳江县| 红桥区| 濉溪县| 平顺县| 桃园市| 定远县| 卢氏县| 新野县| 榆林市| 临洮县| 扬州市| 岳池县| 临夏县| 建湖县|