基于語義信息的場景識別方法研究

2021-12-23 12:55:26楊清溪張麗紅

測試技術(shù)學(xué)報(bào) 2021年6期

楊清溪，張麗紅

(山西大學(xué) 物理電子工程學(xué)院，山西太原 030006)

場景識別是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)任務(wù)之一.傳統(tǒng)的場景識別方法主要基于手工特征來研究，在表達(dá)能力上有限，識別精度較低.近年來，人們開始利用深度學(xué)習(xí)方法進(jìn)行場景識別，并取得了顯著成果.基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks，CNN)的方法不需要手工提取圖像特征，而且還可以將顏色、紋理、材料等低層潛在信息與區(qū)域、對象等高層信息相結(jié)合，從而獲得更好的場景表示以提高場景識別性能.

目前，國內(nèi)外場景識別的研究中，提高場景識別性能方法的主要趨勢集中在加深網(wǎng)絡(luò)的深度和寬度.但場景圖像類內(nèi)變化大，類間相似度高(不同場景類別有共享相似的場景表示對象)，會削弱網(wǎng)絡(luò)的泛化能力，因此，模型場景識別的性能并不會隨著網(wǎng)絡(luò)的深度和寬度線性變化.為了解決這一問題，國內(nèi)外研究人員提出一些基于上下文信息和判別對象信息來提升場景識別性能的方法.Xie等人基于上下文信息，通過判別候選區(qū)域的顯著性，構(gòu)建了一個(gè)融合局部和全局判別特性的CNN架構(gòu)，提高了場景圖像的細(xì)粒度識別[1]；同時(shí)，Zhao等人提出了一個(gè)判別發(fā)現(xiàn)網(wǎng)絡(luò)，它可以為每一幅輸入圖像生成相應(yīng)的判別映射，再將其輸入到多尺度通道內(nèi)進(jìn)行特征提取[2]；在判別對象信息方面，HerranzPerdiguero等人提出了在深度語義分割網(wǎng)絡(luò)的基礎(chǔ)上，引入支持向量機(jī)(Support Vector Machine，SVM)進(jìn)行基于對象直方圖的場景識別[3]；Wang等人設(shè)計(jì)了從面向?qū)ο蠛兔嫦驁鼍暗腃NN中提取基于Patch的特征來構(gòu)建場景的語義表示架構(gòu)[4]；Cheng等人提出的基于語義聚合描述子向量(Vectors of Semantically Aggregated Descriptors，VSAD)方法也可以在標(biāo)準(zhǔn)場景識別的基準(zhǔn)上取得優(yōu)良的性能[5].

盡管此類方法可以有效提高場景識別的準(zhǔn)確率，但基于對象的場景識別方法往往參數(shù)量大，導(dǎo)致計(jì)算量過大，而且對象之間的空間相互關(guān)系也沒有充分利用.因此，本文提出了基于語義信息的場景識別方法，通過語義分割利用對象實(shí)例之間的空間關(guān)系來引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí).實(shí)驗(yàn)結(jié)果證明，本文所提出的方法在顯著減少網(wǎng)絡(luò)單元數(shù)量和參數(shù)數(shù)量的同時(shí)，能夠獲得更好的識別性能.

1 基本原理

1.1 語義分割

語義分割任務(wù)是為圖像中的每一個(gè)像素分配一個(gè)對象標(biāo)簽.語義指的是對圖像內(nèi)容的理解；分割則指的是從像素的角度分割出圖片中的不同對象，即對圖像中的每個(gè)像素都進(jìn)行標(biāo)注.

通用的語義分割網(wǎng)絡(luò)是一個(gè)編-解碼網(wǎng)絡(luò).編碼器通常是一個(gè)預(yù)先訓(xùn)練的分類網(wǎng)絡(luò)，解碼器則是將編碼器學(xué)習(xí)到的語義特征(低分辨率)投影到像素空間(高分辨率)上，得到密集的分類.現(xiàn)行的語義分割方法主要分為3種：基于區(qū)域的語義分割、全卷積網(wǎng)絡(luò)語義分割、弱監(jiān)督語義分割.

在多模態(tài)特征融合方法的啟發(fā)下，本文基于RGB分支網(wǎng)絡(luò)，采用語義分割結(jié)果作為附加信息源來研究場景識別問題.

1.2 高效網(wǎng)絡(luò)

高效網(wǎng)絡(luò)是為了解決如何在有限的計(jì)算資源下得到網(wǎng)絡(luò)性能的最大值而提出的.卷積神經(jīng)網(wǎng)絡(luò)的縮放通?？梢栽谏疃?、寬度和圖像分辨率 3個(gè)維度上進(jìn)行.現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型架構(gòu)大多是選擇其中一個(gè)維度進(jìn)行縮放.高效網(wǎng)絡(luò)則是通過引入一個(gè)簡單而高效的復(fù)合系數(shù)按比例縮放網(wǎng)絡(luò)的深度、寬度和分辨率3個(gè)維度，從而使網(wǎng)絡(luò)具有更好的精度和效率[6].

卷積層可以定義為一個(gè)函數(shù)：Yi=Fi(Xi)，其中Yi是輸出張量，F(xiàn)i是卷積運(yùn)算，Xi是輸入張量，張量形狀為〈Hi,Wi,Ci〉.其中Hi和Wi為空間維度，Ci為通道維度.一個(gè)卷積神經(jīng)網(wǎng)絡(luò)N通?？梢员硎緸槎鄬泳矸e運(yùn)算

N=Fk⊙…⊙F2⊙F1(X1)=⊙j=1,…,kFj(X1).

(1)

實(shí)際設(shè)計(jì)中卷積神經(jīng)網(wǎng)絡(luò)被劃分為多個(gè)階段，除了第一層執(zhí)行下行采樣操作外，其余每個(gè)階段的卷積層都執(zhí)行相同的操作.此時(shí)，可將卷積神經(jīng)網(wǎng)絡(luò)表示為

(2)

模型縮放在不更改基線模型中預(yù)定義Fi的情況下擴(kuò)展網(wǎng)絡(luò)的長度、寬度和分辨率.其目標(biāo)是使給定資源約束的模型精度最大化，因此可以表示為以下優(yōu)化問題

Memory(N)≤target_memroy,

FLOPS(N)≤target%flops,

(3)

高效網(wǎng)絡(luò)使用一個(gè)復(fù)合系數(shù)φ來均勻縮放網(wǎng)絡(luò)的寬度、深度和分辨率

depth:d=αφ,width:w=βφ,

resolution:r=γφ,α≥1,β≥1,γ≥1,

(4)

式中：φ表示可提供的總體計(jì)算資源；α,β,γ表示為網(wǎng)絡(luò)寬度、深度和分辨率分配的計(jì)算資源.卷積的運(yùn)算量與d,w2,r2成正比，通過約束α·β2·γ2≈2，可以使得對于任意φ值，網(wǎng)絡(luò)整體的運(yùn)算量增加2φ倍，通過小型網(wǎng)格搜索，確定高效網(wǎng)絡(luò)基線模型中的w=1.10,d=1.20,r=1.15.

利用高效網(wǎng)絡(luò)在計(jì)算資源有限時(shí)的優(yōu)勢，本文采用高效網(wǎng)絡(luò)的基線模型作為RGB分支的特征提取網(wǎng)絡(luò).

1.3 多模態(tài)特征融合

多模態(tài)特征融合方法可以有效提高場景識別的性能.因此，本文提出融合圖像的RGB特征和語義特征來提升模型性能；本文采用基于度量學(xué)習(xí)的注意力機(jī)制融合架構(gòu)，即先將圖像的RGB特征和語義特征轉(zhuǎn)換到同一空間，再進(jìn)行基于注意力機(jī)制的特征融合.

1.3.1 基于度量學(xué)習(xí)的特征轉(zhuǎn)換

直接對多模態(tài)特征向量進(jìn)行融合，會忽略不同模態(tài)特征之間信息的互補(bǔ)性和一致性.基于度量學(xué)習(xí)的特征轉(zhuǎn)換方法，可以通過尋找線性變換，將圖像的原始特征轉(zhuǎn)換到更具有代表性和判別性的特征空間中，從而盡可能地保留一致性信息，實(shí)現(xiàn)不同特征向量的互補(bǔ)信息和判別信息的充分利用[7].

為了克服場景圖像的類內(nèi)多樣性和類間相似性，使同一類圖像之間的度量距離更小，不同類圖像之間的度量距離更大；以及最小化同一圖像的兩個(gè)不同特征向量之間的差異，將不同特征向量映射到同一個(gè)公共空間，自適應(yīng)判別度量學(xué)習(xí)的目標(biāo)函數(shù)可以表示為

(5)

不同的特征向量需要不同的變換矩陣，Wv∈Rdv×m表示第v個(gè)特征向量的變換矩陣，m表示公共空間的維數(shù)；αv是自適應(yīng)權(quán)重向量；β是正則化參數(shù)，以防止矩陣Wv中的元素過大；η是一個(gè)正則化參數(shù).對上述目標(biāo)函數(shù)進(jìn)行優(yōu)化，可以獲得不同特征向量相對應(yīng)的變換矩陣Wv，它可以將得到的深層特征向量轉(zhuǎn)換到更有識別力的特征空間.

在判別度量學(xué)習(xí)的基礎(chǔ)上，本文為了進(jìn)一步簡化模型結(jié)構(gòu)，只針對語義分支提取的特征進(jìn)行轉(zhuǎn)換，通過卷積操作直接將其轉(zhuǎn)換到RGB分支特征所處的空間中，再進(jìn)行基于注意力機(jī)制的特征融合.

1.3.2 基于注意力機(jī)制的特征融合

注意力機(jī)制的本質(zhì)是一系列權(quán)重系數(shù)的分配，可以使模型在學(xué)習(xí)過程中重新選擇聚焦位置，通過權(quán)重系數(shù)不僅可以強(qiáng)調(diào)或選擇圖像中重要對象的信息，而且可以抑制無關(guān)的細(xì)節(jié)信息，從而產(chǎn)生更具判別性的特征表示.

注意力機(jī)制是由多個(gè)注意力模塊堆疊而成的，每一個(gè)注意力模塊可以分為掩碼和主干分支兩部分，輸出可以表示為

Hi,c(x)=Mi,c(x)*Ti,c(x),

(6)

式中：Mi,c(x)是掩碼分支輸出的注意力權(quán)重；Ti,c(x)是主干分支提取的特征表示；Hi,c(x)表示二者的點(diǎn)積.

主干分支通過卷積操作提取特征.掩碼分支主要由下-上采樣的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成，下采樣產(chǎn)生低分辨率、強(qiáng)語義信息的特征圖，起到收集整個(gè)圖像全局信息的作用；上采樣擴(kuò)展下采樣產(chǎn)生的特征圖，使其尺寸與輸入下采樣前的特征圖相同，起到對輸入特征圖進(jìn)行推理選擇的作用.掩碼分支的輸出可以看作是主干分支輸出的控制器，過濾不重要的信息，強(qiáng)調(diào)重要信息.

本文基于卷積神經(jīng)網(wǎng)絡(luò)提取的特征，對特征張量的所有通道和空間位置直接使用Sigmoid函數(shù)，不添加其他任何額外約束，從而得到混合注意力模塊，Sigmoid函數(shù)的表達(dá)式為

(7)

式中：xi表示一個(gè)特征通道上的所有特征向量；c表示不同的特征通道.

本文通過混合注意力模塊由語義分支的輸出特征控制RGB分支的輸出特征，使得網(wǎng)絡(luò)的注意力集中到具有強(qiáng)語義表達(dá)的圖像區(qū)域上，以提升網(wǎng)絡(luò)的總體性能.

2 系統(tǒng)架構(gòu)

2.1 整體結(jié)構(gòu)及工作流程

本文提出了一種由雙分支CNN和注意力機(jī)制組成的多模態(tài)深度學(xué)習(xí)場景識別架構(gòu)，如圖 1 所示.設(shè)計(jì)思想主要是基于圖像的RGB特征和語義特征，可以起到相互補(bǔ)充的作用[8].整體網(wǎng)絡(luò)架構(gòu)由3部分組成：語義分支在語義分割的基礎(chǔ)上利用通道注意模塊實(shí)現(xiàn)圖像強(qiáng)語義信息的提??；RGB分支利用高效網(wǎng)絡(luò)基線模型提取圖像的整體特征；基于度量學(xué)習(xí)將得到的雙分支特征轉(zhuǎn)換到同一特征空間下后，通過注意力機(jī)制有效融合兩種特征，將融合后的特征輸入線性分類器，最終實(shí)現(xiàn)圖像場景類別的預(yù)測.

圖 1 基于語義信息的場景識別模型結(jié)構(gòu)

2.2 語義分支

語義分支由UPerNet-50語義分割模型和通道注意模塊兩部分組成.給定輸入圖像I，直接利用預(yù)訓(xùn)練好的UPerNet-50模型對圖像進(jìn)行語義分割，得到相應(yīng)的特征張量M，經(jīng)過降維處理后將其送入通道注意模塊提取強(qiáng)語義特征，最后利用卷積操作(卷積核為3×3,、步長S設(shè)為2)實(shí)現(xiàn)判別度量學(xué)習(xí)，將特征張量映射到7×7×320的特征空間中，便可得到最終語義分支的特征張量FM.

通道注意模塊使網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)圖像中與圖像場景類別有關(guān)的語義信息.其具體結(jié)構(gòu)如圖 2 所示.

圖 2 通道注意模塊的結(jié)構(gòu)

輸入特征圖F∈Rw′×h′×c′，首先通過平均池化和最大池化在空間維度上對特征圖F進(jìn)行壓縮，得到特征向量fmax和favg；再將fmax和favg輸入由ReLU激活函數(shù)連接的兩層全連接層當(dāng)中，得到特征向量f1和f2，將這兩個(gè)向量疊加并通過Sigmoid函數(shù)進(jìn)行正則化，從而生成1×1×192維的通道注意力地圖mc∈R1×1×c′.

f1=WC2·φ(WC1·favg),

(8)

f2=WC2·φ(WC1·fmax，

(9)

mc(F)=σ(f1+f2),

(10)

式中：σ表示Sigmoid激活函數(shù)；φ表示ReLU激活函數(shù)；C1，C2表示全連接層；W為全連接層的權(quán)重.

再用通道注意力地圖mc對F加權(quán)可以進(jìn)一步學(xué)習(xí)圖像的語義信息

F′=mc(F)⊙F，

(11)

式中：⊙表示哈達(dá)馬(Hadamard)乘積；F′表示通道注意模塊的輸出，特征張量的維度為14×14×192.

2.3 基于高效網(wǎng)絡(luò)的RGB分支

本文為了簡化模型結(jié)構(gòu)，直接使用了高效網(wǎng)絡(luò)模型系列當(dāng)中的基線模型——EfficientNet-B0來提取圖像的RGB特征，EfficientNet-B0的具體網(wǎng)絡(luò)結(jié)構(gòu)如表 1 所示.

EfficientNet-B0架構(gòu)由標(biāo)準(zhǔn)卷積層和移動(dòng)翻轉(zhuǎn)瓶頸卷積(Mobile inverted bottleneck convolution, MBConv)組成.網(wǎng)絡(luò)的具體結(jié)構(gòu)，以及不同階段輸出的分辨率和通道數(shù)如表1所示.其中，標(biāo)準(zhǔn)卷積層起調(diào)整輸入維度的作用；多階段MBConv可以對特征圖進(jìn)行低維子空間編碼，以降低計(jì)算復(fù)雜度；最后由卷積核為1×1，步長S為1的卷積操作輸出RGB分支的特征張量.

表 1 EfficientNet-B0基線網(wǎng)絡(luò)的具體結(jié)構(gòu)

2.4 注意力機(jī)制具體架構(gòu)

將語義分支的輸出特征FM轉(zhuǎn)換到與RGB分支輸出特征FI相同的特征空間后，通過注意力機(jī)制融合FM和FI便可得到最終的特征張量FA.

注意力機(jī)制的具體結(jié)構(gòu)如圖 3 所示.

(12)

(13)

FA=FI,A⊙FM,A,

(14)

圖 3 注意力機(jī)制的具體結(jié)構(gòu)

表 2 注意力機(jī)制的層數(shù)和輸出特征

最后將總的特征張量FA輸入由平均池化、隨機(jī)丟棄和全連接層組成的分類器當(dāng)中，生成特征向量f∈RK，通過對數(shù)歸一化指數(shù)函數(shù)，可以得到最終的場景識別預(yù)測概率y∈RK,

(15)

式中：K表示場景類別的總數(shù)；k表示當(dāng)前場景的類別；fi表示特征向量的第i個(gè)元素.

2.5 訓(xùn)練過程和損失函數(shù)

本文采用分階段訓(xùn)練的方法，以防止其中一個(gè)分支主導(dǎo)訓(xùn)練過程.

在第一階段，首先單獨(dú)訓(xùn)練網(wǎng)絡(luò)模型的RGB分支和語義分支；在第二階段，控制已經(jīng)訓(xùn)練好的RGB分支和語義分支結(jié)構(gòu)不變，再開始訓(xùn)練網(wǎng)絡(luò)的注意力機(jī)制和線性分類器模塊.

網(wǎng)絡(luò)的損失函數(shù)采用在分類問題中常用的Softmax損失，其表達(dá)式為

(16)

式中：-log(·)表示負(fù)對數(shù)似然函數(shù)；N為批處理中訓(xùn)練樣本的數(shù)量，在訓(xùn)練過程中設(shè)置為8.本文使用弗蘭克-沃爾夫深度(Deep Frank-Wolfe，DFW)算法來優(yōu)化網(wǎng)絡(luò).DFW算法是梯度下降算法的一種，神經(jīng)網(wǎng)絡(luò)通過利用誤差反向傳播在梯度下降的過程尋找損失函數(shù)的最優(yōu)解.誤差反向傳播是指通過比較網(wǎng)絡(luò)輸出的分類結(jié)果和真實(shí)標(biāo)簽之間的不同，從而得到誤差信號，并將誤差信號從輸出層逐層向前傳播，從而得到各隱藏層誤差信號，再基于這些誤差，調(diào)整各隱藏層之間的連接權(quán)重和偏置，以減小網(wǎng)絡(luò)最終的整體誤差.因此，在找到損失函數(shù)全局最優(yōu)解的同時(shí)，便完成了網(wǎng)絡(luò)當(dāng)中權(quán)重和偏置的更新和迭代.本文設(shè)置網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.1，動(dòng)量值為0.9，權(quán)重衰減值為0.000 1.

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)在ADE20K，MIT Indoor 67，SUN397 3個(gè)數(shù)據(jù)集上進(jìn)行.

ADE20K場景解析數(shù)據(jù)集：ADE20K場景解析數(shù)據(jù)集包含22 210幅以場景為中心、并對對象進(jìn)行了詳細(xì)標(biāo)注的圖像.將數(shù)據(jù)集中20 210張圖像用于訓(xùn)練，2 000張圖像用于驗(yàn)證.該數(shù)據(jù)集共有K=1 055個(gè)場景類，因此可以用于場景識別模型的訓(xùn)練，但這個(gè)數(shù)據(jù)集有一個(gè)缺點(diǎn)在于數(shù)據(jù)的組成不夠均衡.ADE20K數(shù)據(jù)集還具有150個(gè)語義類別標(biāo)簽，因此被用來預(yù)訓(xùn)練模型中的UPerNet-50 語義分割網(wǎng)絡(luò).

MIT Indoor 67數(shù)據(jù)集：MIT Indoor 67數(shù)據(jù)集包含15 620幅室內(nèi)場景圖像，共有K=67場景類.對于每個(gè)場景類，我們將80張圖像用于訓(xùn)練，20張圖像用于驗(yàn)證.

SUN397數(shù)據(jù)集：SUN397數(shù)據(jù)集包含 39 700幅場景圖像，分為K=397個(gè)場景類，涵蓋了室內(nèi)和室外的各種環(huán)境.數(shù)據(jù)集本身提供了一個(gè)評估協(xié)議，將整個(gè)數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集.按照協(xié)議，將每個(gè)場景類的50張圖像用于訓(xùn)練，另外50張圖像用于驗(yàn)證.

3.2 評價(jià)指標(biāo)

場景識別性能的好壞通常是通過Top@k精度指標(biāo)來評價(jià)的，k∈[1,K].本文選擇Top@{k=1,2,5}精度指標(biāo).Top@1精度度量了得分最高的預(yù)測結(jié)果與驗(yàn)證圖像真實(shí)標(biāo)簽相一致的百分比；Top@2精度度量了得分最高的2個(gè)預(yù)測結(jié)果中的任何一個(gè)結(jié)果與驗(yàn)證圖像真實(shí)標(biāo)簽相一致的百分比；Top@5精度則度量了得分最高的5個(gè)預(yù)測結(jié)果中的任何一個(gè)結(jié)果與驗(yàn)證圖像真實(shí)標(biāo)簽相一致的百分比.

Top@k精度的度量偏向于驗(yàn)證集中包含圖像數(shù)量多的場景類，即包含的圖像數(shù)量少的場景類幾乎不影響Top@k精度的度量.為了評估數(shù)據(jù)組成不均衡的驗(yàn)證集(如ADE20K)，使用平均類精度(MCA)來進(jìn)行性能度量

(17)

式中：Topi@1是場景類i的Top@1精度；K表示場景類別的總數(shù).對于一個(gè)完全平衡的數(shù)據(jù)集，MCA等于該場景類的Top@1精度.

3.3 實(shí)驗(yàn)結(jié)果

在ADE20K數(shù)據(jù)集上進(jìn)行了關(guān)于語義分支的消融研究，結(jié)果如表 3 所示.

表 3 中對比了單獨(dú)使用RGB分支或語義分支時(shí)所提出架構(gòu)的性能.實(shí)驗(yàn)結(jié)果表明，單獨(dú)使用任意一個(gè)分支的性能都沒有融合兩個(gè)分支的性能好.表明圖像的RGB特征和語義特征在場景識別任務(wù)中具有很強(qiáng)的互補(bǔ)性.

表 3 在ADE20K數(shù)據(jù)集上場景識別結(jié)果

在MIT Indoor 67數(shù)據(jù)集上，將本文模型與近年來國內(nèi)外先進(jìn)模型做了對比，場景識別的Top@1精度結(jié)果對比如表 4 所示.

表 4 本文模型與其他模型在MIT Indoor 67數(shù)據(jù)集上的Top@1比較表

由表 4 可知與其他國內(nèi)外先進(jìn)模型相比，本文所設(shè)計(jì)的模型結(jié)構(gòu)不僅使用的參數(shù)數(shù)量更少，而且在MIT Indoor67數(shù)據(jù)集上可以獲得更高的識別精度.

本文設(shè)計(jì)的網(wǎng)絡(luò)在MIT Indoor 67數(shù)據(jù)集上訓(xùn)練時(shí)的損失函數(shù)曲線如圖 4 所示，損失函數(shù)隨迭代次數(shù)的增加不斷下降，最終降到0.508左右，網(wǎng)絡(luò)收斂.

圖 4 本文模型在MIT Indoor 67數(shù)據(jù)集上的訓(xùn)練損失

在SUN397數(shù)據(jù)集上，同樣將本文模型與近年來國內(nèi)外先進(jìn)模型做了對比，場景識別的 Top@1 精度結(jié)果對比如表5所示.

表 5 本文模型與其他模型在SUN397數(shù)據(jù)集上的Top@1比較表

由表5可知，與其他國內(nèi)外先進(jìn)模型相比，本文所設(shè)計(jì)的模型在SUN397數(shù)據(jù)集同樣可以獲得更高的識別精度，說明了本文模型結(jié)構(gòu)的魯棒性較好.

為了更形象化地看到語義信息在場景識別任務(wù)中的先驗(yàn)學(xué)習(xí)作用，以及注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)模型關(guān)注圖像中強(qiáng)判別性的區(qū)域，本文進(jìn)一步給出了類激活映射，如圖5所示.

圖 5 不同數(shù)據(jù)集圖像的類激活映射

圖5中的第1行分別從3個(gè)數(shù)據(jù)集中各取了 1張圖片，(a)來自ADE20K，(b)來自MIT Indoor67，(c)來自SUN397；第2行則表示3個(gè)圖片分別對應(yīng)的類激活映射，(d)對應(yīng)為(a)的類激活映射，(e)對應(yīng)為(b)的類激活映射，(f)對應(yīng)為(c)的類激活映射；其中，顏色從藍(lán)到紅表示網(wǎng)絡(luò)為該圖像塊分配的權(quán)值越來越大，其中紅色部分表示網(wǎng)絡(luò)重點(diǎn)關(guān)注的區(qū)域；同時(shí)，在激活圖的左上角也給出了圖像的真實(shí)標(biāo)簽和得分最高的前3個(gè)預(yù)測結(jié)果.

4 結(jié)束語

本文提出了一種由雙分支CNN和注意力機(jī)制組成的多模態(tài)深度學(xué)習(xí)場景識別模型.首先由語義分支網(wǎng)絡(luò)有效提取圖像的語義信息，同時(shí)RGB分支利用高效網(wǎng)絡(luò)提取圖像的全局特征，通過注意力機(jī)制有效融合兩種特征，從而完成場景識別任務(wù).在ADE20K，MIT Indoor 67，SUN397 3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出多模態(tài)特征融合的方法，不僅可以有效提升模型場景識別的性能，同時(shí)減少了參數(shù)量，加快計(jì)算速度.本文由于僅僅用ADE20K數(shù)據(jù)集訓(xùn)練了語義分割網(wǎng)絡(luò)，故模型優(yōu)勢在MIT Indoor 67和SUN397數(shù)據(jù)集上沒有完全體現(xiàn)出來，因此改進(jìn)語義分割網(wǎng)絡(luò)可以進(jìn)一步提升模型的場景識別能力.