• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      分類激活圖增強(qiáng)的圖像分類算法*

      2020-01-11 06:26:54楊萌林張文生
      計(jì)算機(jī)與生活 2020年1期
      關(guān)鍵詞:熱圖錯(cuò)誤率尺度

      楊萌林,張文生+

      1.中國(guó)科學(xué)院 自動(dòng)化研究所 精密感知與控制研究中心,北京100190

      2.中國(guó)科學(xué)院大學(xué) 人工智能學(xué)院,北京100049

      1 引言

      圖像分類是計(jì)算機(jī)視覺領(lǐng)域中的基本任務(wù)之一,它通過提取圖像的判別特征將不同類別的圖像區(qū)分開來。圖像分類在疾病診斷[1]、場(chǎng)景識(shí)別[2]等領(lǐng)域有著重要的應(yīng)用。近年來,由深度神經(jīng)網(wǎng)絡(luò)發(fā)展起來的深度學(xué)習(xí)[3]在各種計(jì)算機(jī)視覺任務(wù)上(如圖像分類[4]、語義分割[5]、目標(biāo)檢測(cè)[6]等)取得了顯著的成績(jī)。然而深度神經(jīng)網(wǎng)絡(luò)巨大的參數(shù)量和高度的非線性化,使其學(xué)習(xí)機(jī)制不能完全被人所理解。因此深度神經(jīng)網(wǎng)絡(luò)的可視化、可解釋性成為了深入理解深度學(xué)習(xí)的核心,也是突破深度學(xué)習(xí)發(fā)展瓶頸的關(guān)鍵[7]。

      一種可視化、可解釋特征圖——分類激活圖(classification activation map,CAM)[8]在2016 年被提出后,便得到了廣泛的關(guān)注和研究。分類激活圖是一種包含了高層語義信息的特征圖,經(jīng)過簡(jiǎn)單的后處理后,能夠得到原始圖像的分類熱圖,可用于可視化分析等。

      分類激活圖提供了直觀的分類依據(jù),但是分類激活圖具有稀疏、不完整、不連續(xù)等問題[9-10]。主要原因是在分類標(biāo)簽的監(jiān)督下,模型很容易陷入局部判別區(qū)域,而圖像中其他的區(qū)域也能夠提供一定的判別信息,這些判別信息可能是使模型獲得更高層語義信息、提升分類性能的關(guān)鍵。除此之外,以往相關(guān)的研究中,大部分工作[8,11]僅僅利用分類激活圖進(jìn)行可視化分析等。事實(shí)上,具有可解釋性的分類激活圖能夠幫助理解模型的結(jié)構(gòu),進(jìn)一步改進(jìn)和提升原有模型的性能。

      基于以上觀察,本文從分類激活圖入手,改進(jìn)和增強(qiáng)原有圖像分類算法。針對(duì)原始分類激活圖稀疏、不完整、不連續(xù)的問題,本文在特征層面上采用多尺度擴(kuò)張卷積,并自適應(yīng)學(xué)習(xí)每一個(gè)尺度的權(quán)重。由于原始分類激活圖的獲取需要兩步的后處理,本文結(jié)合多尺度特征的學(xué)習(xí)設(shè)計(jì)了單步的多尺度分類激活圖獲取的方法,并且構(gòu)成了端到端的網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí)??偨Y(jié)一下,本文主要的創(chuàng)新點(diǎn)和貢獻(xiàn)為:

      (1)提出了自動(dòng)加權(quán)的多尺度特征學(xué)習(xí)方法。該方法簡(jiǎn)單、高效,并且能夠根據(jù)梯度反傳自適應(yīng)學(xué)習(xí)每一個(gè)尺度特征的權(quán)重。

      (2)將多尺度特征學(xué)習(xí)與分類激活圖結(jié)合,提出了單步、直接的多尺度分類激活圖獲取方法,該方法能夠嵌入到網(wǎng)絡(luò)中形成一種端到端的結(jié)構(gòu)。同時(shí)該分類激活圖具有多尺度的特點(diǎn),在一定程度緩解了原來激活圖稀疏、不完整、不連續(xù)的問題。

      (3)設(shè)計(jì)了一種分類激活圖增強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu)ResNet-CE。該網(wǎng)絡(luò)在三種公開的數(shù)據(jù)集CIFAR10、CIFAR100、STL10 上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果表明ResNet-CE 的分類性能相對(duì)于基準(zhǔn)模型ResNet 都有了明顯提升,分類錯(cuò)誤率分別降低了0.23%、3.56%、7.96%,并且優(yōu)于目前大部分的分類模型。

      2 相關(guān)研究工作

      本文的工作涉及深度學(xué)習(xí)中主流的分類模型,基于擴(kuò)張卷積的多尺度特征學(xué)習(xí),分類激活圖等,以下相關(guān)研究工作將從這幾方面依次展開。

      2.1 基于深度學(xué)習(xí)的圖像分類模型

      1998 年,Lecun 等人提出了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)LeNet[12],應(yīng)用在了手寫數(shù)字識(shí)別上。2012 年,Krizhevsky 等人提出了8 層的AlexNet[4]利用GPU 加速,在大規(guī)模數(shù)據(jù)集ImageNet[13]上進(jìn)行了驗(yàn)證,相對(duì)于傳統(tǒng)的方法AlexNet 有了顯著的提升。2014 年,Simonyan 等人考慮使用較小的卷積核和步長(zhǎng)來提升參數(shù)量和網(wǎng)絡(luò)深度,提出了16、19 層的VGG 模型[14]。與此同時(shí),Szegedy 等人從多尺度的角度考慮引入了Inception 結(jié)構(gòu),并提出22 層的GoogLeNet[15]。進(jìn)一步,2015 年He 等人設(shè)計(jì)了一種殘差模塊[16-17],在一定程度上緩解了由深度引起的梯度彌散的問題,使得網(wǎng)絡(luò)深度得到了大幅度的提高,網(wǎng)絡(luò)的性能也得到了極大的提升。進(jìn)一步,2017 年Huang 等人從特征的重復(fù)、充分利用出發(fā)采用密集連接,提出了DenseNet[18]。表1 總結(jié)了以上模型的特點(diǎn)。

      Table 1 Summary of related deep neural networks表1 相關(guān)深度神經(jīng)網(wǎng)絡(luò)的總結(jié)

      2.2 基于擴(kuò)張卷積的多尺度特征學(xué)習(xí)

      與圖像層面的多尺度學(xué)習(xí)不同,本文提出的多尺度學(xué)習(xí)是在特征層面進(jìn)行的,并且根據(jù)梯度反向傳播自動(dòng)對(duì)每一個(gè)尺度的特征加權(quán),該方法簡(jiǎn)單、有效,幾乎不增加額外的計(jì)算量。該多尺度學(xué)習(xí)主要通過擴(kuò)張卷積來實(shí)現(xiàn),擴(kuò)張卷積典型的特點(diǎn)是在參數(shù)量相同時(shí),擁有更大的感受野。

      擴(kuò)張卷積,又稱為空洞卷積。相比普通的卷積,擴(kuò)張卷積引入了擴(kuò)張率的概念,即在相鄰的卷積核之間增加“空洞”(零元素)。擴(kuò)張卷積的數(shù)學(xué)形式很早就被提了出來用于小波分解[19]。2015年,Yu等人[20]將不同擴(kuò)張率的擴(kuò)張卷積用于不同的網(wǎng)絡(luò)層中,來提取上下文信息進(jìn)行語義分割和圖像分類。進(jìn)而,他們將擴(kuò)張卷積與ResNet 結(jié)合,提出DRN(dilated residual networks)模型[21]進(jìn)行圖像分割,并解決了由擴(kuò)張卷積引入的Gridding artifacts 問題。后期大部分的工作將擴(kuò)張卷積用于目標(biāo)定位、語義分割等[22]。

      2.3 分類激活圖

      深度神經(jīng)網(wǎng)絡(luò)的可視化或者可解釋性有著重要的意義,這里重點(diǎn)介紹采用分類激活圖的可視化方法。分類激活圖是一種具有高層語義信息的特征圖,由Zhou 等人[8]在2016 年提出來。構(gòu)造分類激活圖的基本思想是對(duì)網(wǎng)絡(luò)中最后一層的特征圖進(jìn)行加權(quán),該權(quán)重來自全連接層。在此基礎(chǔ)上Selvaraju 等人[23]發(fā)現(xiàn)了一種通過梯度的方法計(jì)算該權(quán)重的方法,從而提出了梯度加權(quán)的分類激活圖(gradient-weighted class activation mapping,Grad-CAM)。2018 年,Zhang 等人[9]證明了一種與原始分類激活圖[8]等價(jià)但更直接的方法,但是該方法無法直接解決分類激活圖固有的問題,Zhang 等人利用特征互補(bǔ)的方式實(shí)現(xiàn)分類激活圖的補(bǔ)全,進(jìn)行目標(biāo)定位。結(jié)合文獻(xiàn)[9]中的方法,本文提出了多尺度分類激活圖獲取方法,該方法能夠直接嵌入到網(wǎng)絡(luò)中提升判別能力、增強(qiáng)分類,并且在一定程度上緩解了分類激活圖存在的問題,在3.3 節(jié)中進(jìn)行了詳細(xì)的介紹。

      3 分類激活圖增強(qiáng)的圖像分類算法

      本文以殘差網(wǎng)絡(luò)為例構(gòu)造了ResNet-CE 模型,示意圖如圖1 所示。下面從基本網(wǎng)絡(luò)骨干ResNet、多尺度分類激活圖等依次展開相關(guān)的設(shè)計(jì)。

      Fig.1 Framework of classification algorithm based on classification activation map enhancement圖1 分類激活圖增強(qiáng)圖像的分類算法的基本框架

      3.1 基本網(wǎng)絡(luò)骨干

      ResNet 的基本結(jié)構(gòu)是殘差模塊,該模塊在一定程度緩解了梯度彌散的問題,增加了網(wǎng)絡(luò)的深度,提升了網(wǎng)絡(luò)的性能。

      如圖2 所示,在該模塊中,對(duì)特征圖x∈?W×H×N和經(jīng)過卷積輸出的f(x)∈?W×H×N直接建立了一條連接,進(jìn)行信息融合,得到輸出h(x)∈?W×H×N:

      其中,(W,H) 為特征圖的寬和高,N為特征圖的通道數(shù)。

      Fig.2 Residual block圖2 殘差模塊

      通過堆疊該模塊,可以得到不同層數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)。在一定的范圍內(nèi),層數(shù)越深,模型的分類效果越好,但同時(shí)訓(xùn)練時(shí)間、測(cè)試時(shí)間以及需要的計(jì)算資源會(huì)相應(yīng)地增加。兼顧分類性能和效率兩方面的因素,參照文獻(xiàn)[16]中ResNet-50(如表2 所示)的配置,取前3 個(gè)模塊,n取值為16,進(jìn)行本文的實(shí)驗(yàn),提出的ResNet-CE 即在該配置下進(jìn)行設(shè)計(jì)的。

      Table 2 Parameter configuration of ResNet-50表2 ResNet-50 參數(shù)配置

      3.2 多尺度特征學(xué)習(xí)與分類激活圖

      某一擴(kuò)張率的擴(kuò)張卷積能夠感受一定尺度的語義信息,而融合不同擴(kuò)張率的擴(kuò)張卷積能夠獲得多尺度或上下文的語義信息。同時(shí),與使用多種不同大小卷積核的卷積相比,采用多種不同擴(kuò)張率的擴(kuò)張卷積可以大大降低參數(shù)量和運(yùn)算量。如圖3 為擴(kuò)張卷積的示意圖(從左至右擴(kuò)張率依次為1、2、3)。擴(kuò)張卷積與普通的卷積在相同參數(shù)量的情況下,感受野得到了大幅度的提升。卷積核大小為3×3,擴(kuò)張率為d的卷積,其感受野與卷積核大小為[3+2(3d-1)]×[3+2(d-1)]的卷積相同,擴(kuò)張率d為1 時(shí),擴(kuò)張卷積和普通的卷積相同。

      Fig.3 Illustration of dilated convolution圖3 擴(kuò)張卷積示意圖

      對(duì)于特征圖x(i,j),當(dāng)采用卷積w(m,n)(其中i、j、m、n為二維矩陣的索引值),普通的卷積運(yùn)算為:

      擴(kuò)張率為d的卷積運(yùn)算為:

      進(jìn)一步,圖4 展示了三種分類激活圖的獲取方法。原始的分類激活圖(圖4 Original CAM)需要兩個(gè)步驟:(1)從全連接(fully connected,FC)層獲得權(quán)重;(2)將權(quán)重映射回之前的特征圖。文獻(xiàn)[9]中采用了一種等價(jià)的方法(圖4 Equivalent CAM),即用C個(gè)1×1 的卷積替換全連接層,并移至平均池化層(global average pooling,GAP)之前,從而直接得到通道數(shù)為C的特征圖,即為分類激活圖,其中C等于類別數(shù)。但是該方法沒有直接解決分類激活圖本身的問題,并且由N通道轉(zhuǎn)換至C通道時(shí)丟失了太多的語義信息。

      Fig.4 Methods to obtain classification activation map圖4 分類激活圖獲取方法

      考慮到多尺度特征學(xué)習(xí)以及語義信息的過渡,本文提出了多尺度分類激活圖獲取的方法(圖4 Proposed method):即模型在由N通道的特征圖轉(zhuǎn)換成C通道的特征圖時(shí),引入了一個(gè)多尺度的卷積模塊(圖4 Multiscale conv block)。該模塊中包含了多個(gè)尺度特征的提取,每一個(gè)尺度分別包含三個(gè)卷積,卷積核的大小分別是1×1、3×3、1×1,卷積的個(gè)數(shù)為N/2、N/2、C。擴(kuò)張卷積在第二個(gè)卷積中實(shí)現(xiàn),采用的擴(kuò)張率為1、2、3(過大的擴(kuò)張率會(huì)引入噪聲和無關(guān)的上下文信息)。進(jìn)行擴(kuò)張卷積時(shí),填補(bǔ)與擴(kuò)張率相等個(gè)數(shù)的零元素來保持特征圖的大小不變。其他兩個(gè)卷積分別實(shí)現(xiàn)語義信息的過渡,降低運(yùn)算量和直接將分類激活圖嵌入到網(wǎng)絡(luò)中形成端到端的結(jié)構(gòu)。

      利用該模塊可以獲得不同尺度的分類激活圖,由于不同尺度特征的重要性不同,本文采用一種自適應(yīng)加權(quán)的方式,具體的方法是:給每一個(gè)尺度的模塊賦予一個(gè)初始權(quán)重,然后通過梯度反傳的方式自動(dòng)更新該權(quán)重,該方法簡(jiǎn)單但卻十分有效??偨Y(jié)一下,構(gòu)造該模型的具體步驟為:

      (1)選取骨干網(wǎng)絡(luò)的最后一層(或倒數(shù)第二層)作為提取分類激活圖的特征圖f(x)。

      (2)將特征圖f(x)通過多尺度卷積模塊轉(zhuǎn)變?yōu)榫哂蓄悇e信息的特征圖g1(x)、g2(x)、g3(x)。

      (3)對(duì)該特征圖進(jìn)行加權(quán)融合:

      式(4)中,三個(gè)參數(shù)的初始權(quán)重設(shè)置為1 并隨著網(wǎng)絡(luò)的梯度反傳自動(dòng)調(diào)節(jié),得到的g(x)進(jìn)行批歸一化處理。

      式(5)中,E[?]表示均值,Var[?]表示方差,gk(x)表示第g(x)的第k個(gè)通道。式(6)中的γ、β是待學(xué)習(xí)的參數(shù)。

      (4)對(duì)融合的分類激活圖g(x)進(jìn)行池化操作,再經(jīng)過Softmax 輸出最終的概率y:

      式(7)、式(8)中,k的取值范圍為[1,C],表示第k類的輸出概率。

      3.3 損失函數(shù)與評(píng)價(jià)指標(biāo)

      模型采用分類任務(wù)中常用的交叉熵作為損失函數(shù),對(duì)于第k類,真實(shí)標(biāo)簽用yk表示,損失函數(shù)為:

      評(píng)價(jià)指標(biāo)用平均錯(cuò)誤率(mean error,mE)進(jìn)行度量,即測(cè)試集中分類錯(cuò)誤個(gè)數(shù)n與測(cè)試集中樣本總數(shù)N的比值:

      4 實(shí)驗(yàn)與結(jié)果

      由于構(gòu)造ResNet-CE 時(shí),另外加入了一個(gè)多尺度的模塊,因此基準(zhǔn)模型ResNet相應(yīng)的多加入一個(gè)殘差模塊進(jìn)行比較,確保參數(shù)量相當(dāng)。ResNet 和ResNet-CE 嚴(yán)格采取相同的數(shù)據(jù)預(yù)處理方法、初始化方式、訓(xùn)練過程、優(yōu)化方法、損失函數(shù)等。

      4.1 數(shù)據(jù)集

      本文在3 個(gè)公開數(shù)據(jù)集CIFAR10、CIFAR100[24]和STL10[25]上進(jìn)行了相關(guān)的實(shí)驗(yàn)。其中,CIFAR10 數(shù)據(jù)集包含了10 種不同的類別,分別是飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車。每張圖的大小是32×32,有3 個(gè)通道。CIFAR100 與CIFAR10 的圖片格式一致,而類別為100 種。

      4.2 CIFAR10 與CIFAR100 實(shí)驗(yàn)設(shè)置與結(jié)果

      在CIFAR10 和CIFAR100 的實(shí)驗(yàn)中,有50 000 張圖片作為訓(xùn)練集,10 000 張圖片作為測(cè)試集。本文采用與文獻(xiàn)[16]相同的數(shù)據(jù)預(yù)處理方法,即在訓(xùn)練集上進(jìn)行兩種處理:數(shù)據(jù)增廣和不進(jìn)行數(shù)據(jù)增廣。數(shù)據(jù)增廣:以0.5 的概率進(jìn)行水平翻轉(zhuǎn),并將圖片用零填充至36×36 的大小,然后在其中隨機(jī)剪切出來32×32 的圖片。無論哪種方式,都先在訓(xùn)練集上進(jìn)行歸一化,而在測(cè)試集上只進(jìn)行數(shù)據(jù)的歸一化,不進(jìn)行數(shù)據(jù)增廣。

      實(shí)驗(yàn)采用隨機(jī)梯度下降(stochastic gradient descent,SGD)的方式進(jìn)行優(yōu)化,與文獻(xiàn)[16]不同的是,本文實(shí)驗(yàn)迭代次數(shù)為200,學(xué)習(xí)率初始值為0.1,在60、120、160 時(shí)以0.2 的倍率下調(diào)。訓(xùn)練時(shí),圖像批處理大小設(shè)置為128,測(cè)試時(shí)設(shè)置為100。按照以上設(shè)置,實(shí)驗(yàn)在PyTorch 0.4 框架下獨(dú)立進(jìn)行了5 次,計(jì)算出來5 次均值作為最后的結(jié)果,實(shí)驗(yàn)結(jié)果如表3 所示。

      Table 3 Classification error rate of models on CIFAR10 and CIFAR100表3 模型在CIFAR10 和CIFAR100上的分類錯(cuò)誤率 %

      為了驗(yàn)證提出的ResNet-CE 的有效性,本文對(duì)比了多種模型在CIFAR10 和CIFAR100 上的實(shí)驗(yàn)結(jié)果,包括NIN(network in network)[26]、DSN(deeply supervised nets)[27]、FitNet[28]、HighwayNet[29]、LeNet[12]、VGG[14]、ResNet[16]。其中NIN 采用了一種多層感知機(jī)的卷積模塊并用全局平均池化代替全連接層;DSN 為每個(gè)隱藏層引入伴隨目標(biāo)函數(shù)來提供直接的監(jiān)督;FitNet采用了教師-學(xué)生的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行知識(shí)蒸餾;HighwayNet 應(yīng)用了可學(xué)習(xí)的門限機(jī)制并引入了跨層的信息通道,以上模型直接引用了相關(guān)論文中的實(shí)驗(yàn)結(jié)果。LeNet、VGG、ResNet 在2.1 節(jié)進(jìn)行了相關(guān)的介紹,在與ResNet-CE 相同的實(shí)驗(yàn)條件下,本文重新對(duì)這3 類模型進(jìn)行了相關(guān)的實(shí)驗(yàn)(在表3 中加*號(hào)來區(qū)別)。

      從表3 可以看出,本文提出的ResNet-CE 在兩種不同數(shù)據(jù)預(yù)處理的實(shí)驗(yàn)下(“+”表示采用數(shù)據(jù)增廣),分類的性能都好于基準(zhǔn)模型ResNet 并且優(yōu)于目前大部分主流的分類模型如VGG、HighwayNet、FitNet 等。采用數(shù)據(jù)增廣時(shí),ResNet-CE在CIFAR10和CIFAR100得到了5.73%和23.85%的錯(cuò)誤率,相對(duì)于基準(zhǔn)模型ResNet 分別降低了0.23%、3.56%。不進(jìn)行數(shù)據(jù)增廣時(shí),ResNet-CE 效果更為明顯,分類錯(cuò)誤率低于基準(zhǔn)模型0.35%和3.70%。

      4.3 STL10 實(shí)驗(yàn)設(shè)置與結(jié)果

      STL10 數(shù)據(jù)集[25]中包含了113 000 張圖片,每張圖像的大小為96×96。訓(xùn)練集有5 000 張圖片,測(cè)試集包含了8 000 張圖片,分別都有相同的10 個(gè)類別:飛機(jī)、鳥、車、貓、鹿、狗、馬、猴子、船舶、卡車。除此之外,STL10 還包含了一些無標(biāo)簽的圖片。該數(shù)據(jù)集可進(jìn)行半監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)的實(shí)驗(yàn),本文只利用有標(biāo)簽的圖像進(jìn)行監(jiān)督學(xué)習(xí),來驗(yàn)證提出算法在較大圖片以及少量樣本上的有效性,該數(shù)據(jù)集更符合實(shí)際的應(yīng)用場(chǎng)景。

      在STL10 上同樣進(jìn)行兩種數(shù)據(jù)預(yù)處理,即數(shù)據(jù)增廣和不進(jìn)行數(shù)據(jù)增廣。STL10 的數(shù)據(jù)增廣:以0.5的概率水平翻轉(zhuǎn),并在圖像周圍填充零元素至100×100,然后在其中隨機(jī)剪切出來96×96 大小的圖片。網(wǎng)絡(luò)配置和訓(xùn)練方式與CIFAR10/100 相同。

      從表4 中的實(shí)驗(yàn)結(jié)果可以看出,ResNet-CE 相比于基準(zhǔn)模型ResNet,在STL10 數(shù)據(jù)集上有明顯的提升。在兩種數(shù)據(jù)預(yù)處理下的實(shí)驗(yàn),ResNet-CE 錯(cuò)誤率分別降低了9.61%和7.96%,達(dá)到了27.03%和15.91%的錯(cuò)誤率。由于STL10 訓(xùn)練集只有5 000 張圖片,數(shù)據(jù)量小且少于測(cè)試集8 000 張圖片,進(jìn)行數(shù)據(jù)增廣后,兩個(gè)模型性能都有顯著的提升。

      Table 4 Classification error rate of models on STL10表4 模型在STL10 上的分類錯(cuò)誤率 %

      5 實(shí)驗(yàn)分析與討論

      5.1 自動(dòng)加權(quán)的多尺度特征學(xué)習(xí)

      為了驗(yàn)證自動(dòng)加權(quán)學(xué)習(xí)方式的有效性,本文將ResNet-CE 多尺度卷積模塊的每一個(gè)尺度權(quán)重系數(shù)固定為1,進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。

      在表5 中,ResNet-CE(-)表示不采用加權(quán)的學(xué)習(xí)模型。由實(shí)驗(yàn)結(jié)果可以看出采用加權(quán)學(xué)習(xí)的ResNet-CE 在3 種不同的數(shù)據(jù)集上,分別進(jìn)行的兩種實(shí)驗(yàn)(共6 組實(shí)驗(yàn))獲得的分類錯(cuò)誤率都有不同程度降低。在CIFAR10 和CIFAR100 上的錯(cuò)誤率較低的程度不是非常明顯,主要原因是該數(shù)據(jù)集相對(duì)簡(jiǎn)單,基準(zhǔn)模型已經(jīng)達(dá)到了很高的識(shí)別率。在STL10 上分類錯(cuò)誤率較為明顯,分別降低了3.59%、2.20%。

      Table 5 Classification error rate of models in different learning styles表5 模型在不同學(xué)習(xí)方式下的分類錯(cuò)誤率 %

      5.2 多尺度分類激活圖與分類熱圖

      STL10 數(shù)據(jù)集分辨率較大,本文以STL10 為例,生成STL10 對(duì)應(yīng)的分類熱圖進(jìn)行分析和討論。

      分類激活圖轉(zhuǎn)成可視化的熱圖需要簡(jiǎn)單的后處理:首先對(duì)得到的分類激活圖進(jìn)行雙線性插值,使分類激活圖大小等于原始圖像,進(jìn)一步覆蓋到原始圖像上,從而得到熱圖,其過程如圖5 所示。

      Fig.5 Heatmap generation process圖5 熱圖生成過程

      根據(jù)上述方法,圖6展示了由ResNet-CE和ResNet在STL10 生成的熱圖,其中第1、4 行是原始圖像,第2、5 行是由ResNet產(chǎn)生的熱圖,第3、6 行是由ResNet-CE 產(chǎn)生的熱圖,熱圖中高亮的區(qū)域代表與分類相關(guān)的區(qū)域。

      通過該熱圖能夠發(fā)現(xiàn):(1)模型是如何做出判斷的,即模型判斷的依據(jù),如對(duì)于貓、狗、猴子等動(dòng)物的判斷,模型關(guān)注目標(biāo)的臉部區(qū)域。對(duì)于船舶、飛機(jī)、卡車的識(shí)別,模型關(guān)注目標(biāo)主體部分,這對(duì)模型或算法的理解和改進(jìn)具有重要的意義。(2)基準(zhǔn)模型ResNet 產(chǎn)生的熱圖(第2、5 行)表現(xiàn)出稀疏、不連續(xù)、不完整等問題,相對(duì)而言本文提出的ResNet-CE 稍微緩解了以上問題,語義信息更加明顯和直觀。盡管如此,得到的熱圖仍然是不完整的,對(duì)大部分圖片,有相當(dāng)一部分的區(qū)域被抑制了。另外,整體上看響應(yīng)的判別區(qū)域越多越準(zhǔn),模型的表現(xiàn)越好,如何進(jìn)一步挖掘判別區(qū)域?qū)⑹且环萦幸饬x的工作。

      Fig.6 Classification heatmaps generated by ResNet-CE in STL10 dataset圖6 由ResNet-CE 在STL10 數(shù)據(jù)集上生成的分類熱圖

      5.3 分類熱圖與模型輸出

      為了更加清楚說明分類熱圖與分類的關(guān)系,本文以圖7 中的兩組樣本進(jìn)行說明。圖7 中第一列為待識(shí)別的圖,第二列為ResNet 產(chǎn)生的熱圖,第三列為ResNet-CE 產(chǎn)生的熱圖。從圖7 中可以看出ResNet-CE 感受到了更多、更精確的區(qū)域。

      Fig.7 Samples and correspnding heatmaps圖7 樣本以及對(duì)應(yīng)的熱圖

      除此之外,表6 列出了這兩個(gè)樣本對(duì)應(yīng)10 個(gè)輸出通道的概率值。結(jié)合表6 和圖7,可以看出樣本1(標(biāo)簽為猴子,對(duì)應(yīng)圖7 的第一行),ResNet 抓住了兩部分主要的特征,樹干和猴子的臉部。輸出通道#5和#8 的概率較大,分別為0.420 5 和0.377 0,其中#5對(duì)應(yīng)的標(biāo)簽是鹿,#8 對(duì)應(yīng)的是猴子。鹿的紋理和樹的紋理有一定的相似之處,ResNet 沒有很好地區(qū)分,而ResNet-CE 更多地關(guān)注了猴子臉部而抑制了樹干的特征,得到的#8 的概率為0.644 3,#5 的概率為0.047 0。同樣地,在樣本2 中(標(biāo)簽為飛機(jī),對(duì)應(yīng)圖7的第二行),雖然兩個(gè)模型最終的結(jié)果都判為了第一類,即飛機(jī),但是ResNet-CE 給出了更大的置信度(0.995 2),對(duì)應(yīng)熱圖中的區(qū)域也更大、更準(zhǔn)。

      Table 6 Probability value of output channel of samples表6 樣本輸出通道的概率值

      總的來說,ResNet-CE 通過多尺度擴(kuò)張卷積得到了更多的具有判別性質(zhì)的信息,進(jìn)一步利用這些信息幫助模型做出決策和判斷。通過不斷的梯度反傳,模型能夠得到更準(zhǔn)確的判別信息,從而提高模型的判別能力。

      6 結(jié)束語

      本文提出了一種分類激活圖增強(qiáng)的圖像分類算法。研究發(fā)現(xiàn):(1)通過自動(dòng)加權(quán)的多尺度擴(kuò)張卷積能夠在一定程度彌補(bǔ)原始分類模型下分類激活圖不完整、不連續(xù)以及稀疏等問題;(2)通過對(duì)分類熱圖的進(jìn)一步利用,挖掘出更多、更準(zhǔn)的判別區(qū)域,能夠在原有的分類模型上得到進(jìn)一步的提升。本文提出的方法非常簡(jiǎn)單但十分有效,同時(shí)保留了分類激活圖本身的可視化、可解釋的功能,但是挖掘更多的目標(biāo)區(qū)域仍需要進(jìn)一步的探索。下一步的工作計(jì)劃是研究圖像中目標(biāo)內(nèi)部的相似性以及與背景的差異性,來挖掘更多的激活區(qū)域提升模型的性能。

      本文提出的算法在醫(yī)學(xué)影像的疾病診斷、無人駕駛的場(chǎng)景識(shí)別等有重要的意義。同時(shí),也為分類算法等相關(guān)任務(wù)提供了一個(gè)新的研究思路和方向。

      猜你喜歡
      熱圖錯(cuò)誤率尺度
      限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      正視錯(cuò)誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      9
      大宁县| 朔州市| 马公市| 浮梁县| 赣州市| 滦南县| 大埔县| 靖西县| 屯留县| 资兴市| 芷江| 嘉荫县| 汝南县| 咸阳市| 区。| 特克斯县| 宁波市| 沅江市| 石泉县| 仁怀市| 岢岚县| 武强县| 鲁甸县| 红河县| 杂多县| 伊宁县| 台北县| 即墨市| 满城县| 大埔区| 土默特右旗| 盘山县| 汉阴县| 台前县| 汾西县| 九江县| 丹凤县| 礼泉县| 凤庆县| 宁安市| 镇原县|