• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融入選擇性卷積核的膠囊網(wǎng)絡(luò)圖像分類方法

      2022-02-25 06:45:04陳澤軒于蓮芝
      軟件導(dǎo)刊 2022年1期
      關(guān)鍵詞:路由選擇性卷積

      陳澤軒,于蓮芝

      (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

      0 引言

      圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向[1],旨在從圖像或圖像序列中提取出目標(biāo)的判別性特征,以精確判別目標(biāo)所屬類別。隨著圖像分類技術(shù)的快速發(fā)展,在許多應(yīng)用領(lǐng)域取得了較為顯著的成績(jī),并逐步推動(dòng)人類進(jìn)入智能時(shí)代。目前,圖像分類技術(shù)在醫(yī)療圖像處理[2]、智能交通[3]、人臉識(shí)別[4]等領(lǐng)域已得到大規(guī)模應(yīng)用。早期使用機(jī)器學(xué)習(xí)算法進(jìn)行圖像分類的流程為:首先提取特征,然后篩選特征,最后將特征向量輸入合適的分類器完成分類任務(wù)。但傳統(tǒng)圖像分類模型結(jié)構(gòu)較淺,不能提取較復(fù)雜的圖像特征,泛化性差,導(dǎo)致圖像識(shí)別精度不高,只能處理一些簡(jiǎn)單任務(wù)。

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)最早形態(tài)是Lecun 等[5]提出的LeNet-5,該網(wǎng)絡(luò)處理數(shù)字識(shí)別任務(wù)具有良好效果,但處理其它實(shí)際任務(wù)時(shí)效果不如Boosting 等傳統(tǒng)算法。2012 年,Krizhevsky 等[6]提出AlexNet網(wǎng)絡(luò)結(jié)構(gòu),并以15.4%創(chuàng)紀(jì)錄的低失誤率奪得2012 年ILSVRC 年度冠軍,表明使用深度學(xué)習(xí)方法處理圖像分類任務(wù)出現(xiàn)了較大突破。隨后圖像分類領(lǐng)域涌現(xiàn)出許多性能優(yōu)越 的 深 度 學(xué) 習(xí) 模 型,如ZFNet[7]、VGGNet[8]、GoogleNet[9]、ResNet[10]、DenseNet[11]、SENet[12]等。盡管卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)長(zhǎng)時(shí)間發(fā)展,產(chǎn)生了大量?jī)?yōu)秀模型,但因其本身結(jié)構(gòu)存在一些缺陷,需要研究一種新模型來(lái)處理圖像分類任務(wù)。

      膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)是在2017 年由Sabour 等[13]首次提出的,膠囊網(wǎng)絡(luò)首次提出使用矢量神經(jīng)元代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)中的標(biāo)量神經(jīng)元,去掉了池化層,創(chuàng)新性地提出動(dòng)態(tài)路由(Dynamic Routing,DR)算法計(jì)算初始膠囊層與高級(jí)膠囊層之間的連接權(quán)重,并采用新的擠壓函數(shù)取代Relu 函數(shù),從而學(xué)習(xí)到圖像特征之間的空間關(guān)系。之后出現(xiàn)了大量關(guān)于膠囊網(wǎng)絡(luò)的研究,如MS-CapsNet[14]、Dcaps[15]、VideoCapsuleNet[16]等。

      靜態(tài)卷積每層使用同一個(gè)卷積核,無(wú)法提取更豐富的特征信息。2020 年,Chen 等[17]提出動(dòng)態(tài)卷積網(wǎng)絡(luò),動(dòng)態(tài)地聚合多個(gè)并行卷積核提取的特征,增強(qiáng)了網(wǎng)絡(luò)表達(dá)能力;華為提出DyNet[18],核心思想與谷歌提出的CondConv[19]類似;曠視提出DRConv[20],在動(dòng)態(tài)卷積上引入空間分組;Tian 等[21]提出用于實(shí)例分割的條件卷積網(wǎng)絡(luò)。2021 年,Li等[22]通過(guò)矩陣分解回顧動(dòng)態(tài)卷積。

      本文提出一種基于膠囊網(wǎng)絡(luò)并融入選擇性卷積核網(wǎng)絡(luò)的圖像分類模型。膠囊網(wǎng)絡(luò)對(duì)空間信息比較敏感,可學(xué)習(xí)到不同特征間的位置關(guān)系,克服了卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像時(shí)整體平移的缺點(diǎn)。傳統(tǒng)卷積每一層使用單一卷積核,選擇性卷積核區(qū)別于傳統(tǒng)卷積的靜態(tài)結(jié)構(gòu),其使用兩個(gè)分支結(jié)構(gòu),動(dòng)態(tài)聚合兩個(gè)并行卷積核提取的特征,比靜態(tài)卷積具有更強(qiáng)的表示能力。在經(jīng)典膠囊網(wǎng)絡(luò)的Conv1 基礎(chǔ)上增加具有兩個(gè)分支的選擇性卷積核網(wǎng)絡(luò),可融合不同卷積核提取到的信息,豐富的圖像分類特征有效提高了圖像識(shí)別準(zhǔn)確率。

      1 膠囊網(wǎng)絡(luò)

      2011 年,Hinton 等[23]首次提出膠囊的概念,膠囊由多個(gè)向量化神經(jīng)元構(gòu)成,可有效保存圖像中的特征角度及姿態(tài)等更為豐富的信息。膠囊網(wǎng)絡(luò)區(qū)別于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),膠囊網(wǎng)絡(luò)的輸入與輸出神經(jīng)元都由標(biāo)量提升為矢量,池化操作由協(xié)議路由取代,并提出新的Squash 函數(shù)代替原來(lái)的ReLU 函數(shù)。

      1.1 總體結(jié)構(gòu)

      膠囊網(wǎng)絡(luò)總體架構(gòu)如圖1 所示。網(wǎng)絡(luò)共有3 層,兩個(gè)卷積層和一個(gè)全連接層,是一個(gè)比較淺的神經(jīng)網(wǎng)絡(luò)。由于常規(guī)的卷積操作可得到精確的低級(jí)圖像特征,第一層采用傳統(tǒng)卷積操作,使用256 個(gè)9×9 的卷積核對(duì)圖像像素作一次局部特征檢測(cè)。為最大限度地保留圖像特征信息,卷積之后沒(méi)有使用池化層。第二層是含有膠囊的卷積層,將Conv1 得到的低級(jí)特征送入可進(jìn)行路由運(yùn)算的Primary Capsule 層,經(jīng)過(guò)再次卷積提取特征后,將特征向量展開(kāi)成一維,對(duì)應(yīng)特征向量組合得到向量膠囊。數(shù)字膠囊層是全連接層,根據(jù)向量膠囊的模長(zhǎng)大小判斷并輸出圖片類別。

      Fig.1 Overall structure of capsule network圖1 膠囊網(wǎng)絡(luò)總體結(jié)構(gòu)

      1.2 標(biāo)量神經(jīng)元提升為向量神經(jīng)元

      卷積神經(jīng)網(wǎng)絡(luò)將神經(jīng)元輸入的標(biāo)量乘以各自權(quán)重,加權(quán)求和后輸入非線性函數(shù)進(jìn)行激活,得到輸出標(biāo)量。膠囊網(wǎng)絡(luò)在加權(quán)求和時(shí)比卷積神經(jīng)網(wǎng)絡(luò)多一個(gè)步驟,需要將輸入向量先乘以一個(gè)姿態(tài)矩陣,生成新的輸入向量后再乘以權(quán)重矩陣進(jìn)行加權(quán)求和。膠囊網(wǎng)絡(luò)工作原理如圖2 所示。

      Fig.2 Working principle of capsule network圖2 膠囊網(wǎng)絡(luò)工作原理

      1.3 動(dòng)態(tài)路由算法

      動(dòng)態(tài)路由是PrimaryCap 與DigitCaps 兩者間的一種信息傳遞機(jī)制。其兩者間的連接并不是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)之間簡(jiǎn)單的標(biāo)量連接,而是向量與向量之間的連接。低層膠囊與高層膠囊之間的連接權(quán)重會(huì)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中不斷隨著學(xué)習(xí)而改變,并使用動(dòng)態(tài)路由算法學(xué)習(xí)該權(quán)重。動(dòng)態(tài)路由算法如下:

      由權(quán)重矩陣Wij乘以輸入ui得到預(yù)測(cè)向量,對(duì)于每個(gè)低級(jí)別的,cij表示對(duì)應(yīng)的底層預(yù)測(cè)向量輸出到高層向量的權(quán)重大小,cij是由bij使用softmax 函數(shù)得到的,cij為非負(fù)數(shù),且∑jcij=1;之后使用sj=∑icij計(jì)算所有預(yù)測(cè)向量的加權(quán)和,再使用新提出的squash 函數(shù)得到輸出向量vj。在迭代過(guò)程中,權(quán)重bij初始賦值為零,采用公式bij=bij+更新權(quán)重bij。

      2 選擇性卷積核膠囊網(wǎng)絡(luò)

      本文提出選擇性卷積核膠囊網(wǎng)絡(luò)圖像分類方法,在經(jīng)典膠囊網(wǎng)絡(luò)的第一層卷積層中加入選擇性卷積核網(wǎng)絡(luò),利用網(wǎng)絡(luò)的動(dòng)態(tài)選擇機(jī)制自適應(yīng)地提取輸入信息多個(gè)尺度的感受野,將不同分支的特征圖根據(jù)權(quán)重進(jìn)行融合。選擇性卷積核網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      網(wǎng)絡(luò)通過(guò)分離、融合、選擇3 個(gè)步驟實(shí)現(xiàn)動(dòng)態(tài)選擇卷積核。在標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)中,每一層人工神經(jīng)元的感受野被設(shè)計(jì)為相同大小。本網(wǎng)絡(luò)的不同之處在于提出一種動(dòng)態(tài)選擇機(jī)制,使用兩個(gè)分支動(dòng)態(tài)提取輸入圖像特征。對(duì)于輸入的特征圖X∈RH′×W′×C′,并行進(jìn)行兩次變換,如式(1)、式(2)所示。

      式中,兩個(gè)F函數(shù)依次由高效卷積、批處理規(guī)范化與Relu 函數(shù)組成。使用核尺寸大小分別為3 和5 的卷積核提取特征信息,使用門控制來(lái)自兩個(gè)分支的信息流,兩個(gè)分支攜帶不同尺寸的特征信息進(jìn)入下一層神經(jīng)元。首先將兩個(gè)分支信息通過(guò)element-wise summation 進(jìn)行融合,u = u?+ ?,然后通過(guò)簡(jiǎn)單地使用全局平均池化嵌入全局信息生成信道統(tǒng)計(jì)信息,如式(3)所示。

      其中,F(xiàn)gp為全局平均池化函數(shù),Sc為信道統(tǒng)計(jì)信息。此外,為精確地引導(dǎo)自適應(yīng)選擇,創(chuàng)建一個(gè)緊湊特征z? Rd×1,并通過(guò)全連接(fc)層進(jìn)行實(shí)現(xiàn),如公式(4)所示。

      其中,б為ReLU 激活函數(shù),B代表批處理,W ? Rd×c。在壓縮特征描述符z的指導(dǎo)下,使用跨通道的軟注意機(jī)制自適應(yīng)地選擇不同空間的尺度信息,并在通道級(jí)數(shù)字上應(yīng)用softmax 操作,如式(5)所示。

      式中,a、b分別是u?和?的軟注意力矢量,最后特征由每個(gè)卷積核提取的特征乘以各自的注意力權(quán)重,再相加求和得到,如公式(6)所示。

      式中,Vc為加權(quán)融合兩個(gè)分支后的最終特征。

      將選擇性卷積核提取到的特征送入初始膠囊層中,由動(dòng)態(tài)路由算法學(xué)習(xí)權(quán)重參數(shù),數(shù)字膠囊層輸出圖片類別。膠囊網(wǎng)絡(luò)中的Conv1 層原本使用256 個(gè)9×9 卷積核提取特征,本文在該卷積操作后融入具有兩個(gè)分支的選擇性卷積核網(wǎng)絡(luò),分別使用3×3 和5×5 的卷積核并行提取圖像特征,得到初級(jí)膠囊(primary capsule)的輸入。初級(jí)膠囊是多維實(shí)體的最低級(jí)別,具有32 個(gè)8 通道的特征圖,每個(gè)卷積層具有8 個(gè)步幅為2、尺寸為9 的卷積核。PrimaryCapsules 的輸出是32×6×6 的膠囊(每個(gè)輸出是一個(gè)8 維矢量),將得到的膠囊展成一維,與對(duì)應(yīng)特征的膠囊進(jìn)行組合得到向量神經(jīng)元。其中,6×6 網(wǎng)格中每個(gè)膠囊彼此共享權(quán)重,權(quán)重通過(guò)路由算法進(jìn)行學(xué)習(xí)更新。最后一層(DigitCaps)中的每個(gè)類由一個(gè)16 維的向量膠囊表示,每個(gè)膠囊都接收來(lái)自上層級(jí)中所有膠囊的輸出作為輸入,依據(jù)膠囊向量的模長(zhǎng)預(yù)測(cè)并輸出圖像類別。采用Marginloss 作為損失函數(shù),如公式(7)所示。

      式中,k為分類類別。當(dāng)k存在時(shí),Tk= 1;當(dāng)k不存在時(shí),Tk= 0。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      為測(cè)試選擇性卷積核膠囊網(wǎng)絡(luò)處理圖像分類任務(wù)的有效性,采用圖像分類任務(wù)中的3 個(gè)經(jīng)典數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別為:CIFAR-10、Fashion-MNIST、SVHN。CIFAR-10 包含10 種類別的圖片,共6 萬(wàn)張;Fashion-MNIST 為涵蓋不同商品的圖片,共7 萬(wàn)張;SVHN 為包含街景門牌號(hào)碼的圖片,共10 萬(wàn)張。CIFAR-10、Fashion-MNIST 的測(cè)試集與訓(xùn)練集已劃分好,SVHN 可根據(jù)不同網(wǎng)絡(luò)結(jié)構(gòu)自行劃分測(cè)試集與訓(xùn)練集。數(shù)據(jù)集詳細(xì)情況介紹如表1 所示。

      Table 1 Presentation of data sets表1 數(shù)據(jù)集詳細(xì)情況介紹

      3.2 實(shí)驗(yàn)設(shè)置

      本文實(shí)驗(yàn)環(huán)境如下:CPU 為intel E5-2678V3,顯卡為GTX1080,內(nèi)存為16G,操作系統(tǒng)為Windows10。使用pytorch 深度學(xué)習(xí)框架,設(shè)置batch_size 為30,epochs 為50,初始學(xué)習(xí)率為0.001。在訓(xùn)練膠囊網(wǎng)絡(luò)時(shí),采用性能優(yōu)越的Adam 優(yōu)化器。

      設(shè)置選擇性卷積核膠囊網(wǎng)絡(luò)參數(shù)如下:路徑數(shù)M 為2,采用兩個(gè)分支結(jié)構(gòu),卷積核尺寸分別為3×3 和5×5,決定每個(gè)路徑的組數(shù)G 為8,控制融合操作比率的參數(shù)r 為2,步長(zhǎng)默認(rèn)為1。膠囊網(wǎng)絡(luò)使用動(dòng)態(tài)路由,激活函數(shù)為Squash 函數(shù),分類層的膠囊個(gè)數(shù)依據(jù)數(shù)據(jù)集包含的圖片種類數(shù)量設(shè)定。

      3.3 結(jié)果分析

      采用基線膠囊網(wǎng)絡(luò)與本文模型分別在3 個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。評(píng)價(jià)指標(biāo)使用top1 正確率,測(cè)試錯(cuò)誤率迭代圖分別如圖4-圖6 所示。模型分類精度對(duì)比如表2 所示。

      圖4-圖6 的測(cè)試結(jié)果迭代圖可直觀表現(xiàn)出本文模型的測(cè)試誤差明顯低于基線膠囊網(wǎng)絡(luò)。表2 列出了兩個(gè)網(wǎng)絡(luò)模型在3 個(gè)公開(kāi)數(shù)據(jù)集上的分類精度對(duì)比,其中基線膠囊網(wǎng)絡(luò)是簡(jiǎn)單的具有兩層卷積的網(wǎng)絡(luò)結(jié)構(gòu),在3 個(gè)數(shù)據(jù)集上得到的分類精度分別為78.78%、92.89%、94.88%。本文模型是融入了選擇性卷積核的膠囊網(wǎng)絡(luò)模型,相比基線網(wǎng)絡(luò)分類精度分別提升了1.73%、0.69%、0.53%,表明選擇性卷積核在提取特征時(shí)具有明顯優(yōu)勢(shì),彌補(bǔ)了傳統(tǒng)網(wǎng)絡(luò)提取特征時(shí)采用相同大小卷積核的缺點(diǎn),可提取到更加豐富的圖像分類特征。

      Fig.4 CIFAR-10 dataset test results圖4 CIFAR-10 數(shù)據(jù)集測(cè)試結(jié)果

      Fig.5 Fashion-MNIST dataset test results圖5 Fashion-MNIST 數(shù)據(jù)集測(cè)試結(jié)果

      Fig.6 SVHN dataset test results圖6 SVHN 數(shù)據(jù)集測(cè)試結(jié)果

      Table 2 Comparison of model classification precision表2 模型分類精度對(duì)比 單位:%

      4 結(jié)語(yǔ)

      本文提出應(yīng)用于圖像分類任務(wù)的選擇性卷積核膠囊網(wǎng)絡(luò),并在多個(gè)圖像分類數(shù)據(jù)集中對(duì)模型進(jìn)行實(shí)驗(yàn)測(cè)試與評(píng)估。針對(duì)卷積神經(jīng)網(wǎng)絡(luò)不能靈敏識(shí)別各特征之間相對(duì)位置關(guān)系的問(wèn)題,采用矢量膠囊表征實(shí)體不同特征間的空間位置關(guān)系。最大池化導(dǎo)致網(wǎng)絡(luò)不能精確反映實(shí)體特征與實(shí)體間的關(guān)系,采用膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制學(xué)習(xí)初級(jí)膠囊層與高級(jí)膠囊層之間的權(quán)重系數(shù),以準(zhǔn)確表征特征與實(shí)體的層級(jí)結(jié)構(gòu)。針對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中每一層人工神經(jīng)元的感受野被設(shè)計(jì)為相同大小這一問(wèn)題,采用選擇性卷積核網(wǎng)絡(luò)融合不同尺寸卷積核提取的特征信息。在CIFAR-10、Fashion-MNIST、SVHN 數(shù)據(jù)集上的測(cè)試結(jié)果表明,相比于基線膠囊網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)模型具有更高的識(shí)別精度,分別為80.51%、93.58%、95.41%。下一步研究將注意力機(jī)制與網(wǎng)絡(luò)相結(jié)合以提高模型識(shí)別精度,注意力機(jī)制可抑制一些無(wú)關(guān)信息,著重關(guān)注所需的重要信息,以提高模型分類準(zhǔn)確率。

      猜你喜歡
      路由選擇性卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      選擇性聽(tīng)力
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      探究路由與環(huán)路的問(wèn)題
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      選擇性應(yīng)用固定物治療浮膝損傷的療效分析
      選擇性執(zhí)法的成因及對(duì)策
      鈰基催化劑用于NH3選擇性催化還原NOx的研究進(jìn)展
      PRIME和G3-PLC路由機(jī)制對(duì)比
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      怀化市| 淳安县| 资中县| 曲阳县| 闽清县| 娄底市| 松阳县| 东乡族自治县| 贵阳市| 麦盖提县| 格尔木市| 茂名市| 祁连县| 互助| 喀喇| 肃南| 阿巴嘎旗| 宜宾市| 兴宁市| 宝丰县| 满洲里市| 呼图壁县| 阿克苏市| 靖安县| 澎湖县| 霞浦县| 深州市| 南昌县| 门源| 闽侯县| 叶城县| 克山县| 太白县| 宝清县| 新宁县| 镇远县| 南充市| 舟山市| 新乡县| 武陟县| 高雄市|