王芋人,武德安,朱 莉
電子科技大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,成都 610097
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中的一個(gè)備受關(guān)注的問(wèn)題,其主要圍繞目標(biāo)分類(lèi)和目標(biāo)定位兩個(gè)任務(wù)。自從具有開(kāi)創(chuàng)性的R-CNN[1]提出,許多新穎的設(shè)計(jì)得以提出:Faster-RCNN[2]、YOLOv3[3]、SSD[4]、FPN[5],這些設(shè)計(jì)大多搭載強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò)主干:DCN[6]、Resnet[7]、AlexNet[8]、VGG[9]、GoogLeNet[10]。近些年,受視覺(jué)注意力啟示,許多學(xué)者將注意力引入到卷積神經(jīng)網(wǎng)絡(luò)中,選擇性的增強(qiáng)目標(biāo)特征,抑制無(wú)關(guān)信息,以提高小目標(biāo)檢測(cè)的準(zhǔn)確率[11]。至此,提出了多種注意力模型,有SENet[12]、EcaNet[13]、CBAM[14]、GSoP-Net[15]、AA-Net[16]、SkNet[17],這些注意力模型如SENet、EcaNet通常以每個(gè)通道的平均值作為該通道的代表值。而CBAM采用了平均值和最大值作為代表值。盡管平均值池化(global average pooling,GAP)和最大值池化具有簡(jiǎn)單高效的特點(diǎn),但處理多種不同通道時(shí)缺乏特征多樣性,無(wú)法獲取豐富的輸入信息。所以,便有了一個(gè)疑問(wèn),平均值和最大值能否代表各種通道信息。FcaNet[18]提出了用離散余弦變化替代均值池化對(duì)通道注意力進(jìn)行預(yù)處理的方法,增加了特征多樣性,但缺少對(duì)空間域注意力的探討。因此,理論分析了平均值池化和頻域預(yù)處理結(jié)果的區(qū)別,隨后用離散哈特利變化(discrete Hartley transform,DHT)[19]從通道和空間域兩個(gè)方向?qū)μ卣鲌D進(jìn)行了預(yù)處理改造。最后在小目標(biāo)數(shù)據(jù)集(small object dataset)[20]上驗(yàn)證了該模型的改進(jìn)效果。
首先介紹了通道注意力模型、空間域注意力模型、離散哈特利變化,然后簡(jiǎn)要了證明了通道注意力和離散哈特利變化的性質(zhì)。
(1)通道注意力模型。
通道注意力模型廣泛用于卷積神經(jīng)網(wǎng)絡(luò)中,其能夠自動(dòng)調(diào)整每個(gè)通道權(quán)重,達(dá)到提高檢測(cè)精度的作用。假設(shè)X∈?C×H×W是卷積神經(jīng)網(wǎng)絡(luò)提取到的特征圖,C是特征圖的通道數(shù)量,H是特征圖的高度,W是特征圖的寬度。注意力機(jī)制可以寫(xiě)成如下形式[12-13]:
attc=sigmoid(fc(gapc(X))) (1)
其中,attc∈?C是通道注意力機(jī)制產(chǎn)生的C維權(quán)重向量,sigmoid是Sigmoid函數(shù),fc是全連接層或者卷積神經(jīng)網(wǎng)絡(luò),gapc是對(duì)C個(gè)通道全局平均池化。Sigmoid函數(shù)得到C個(gè)權(quán)重后,特征圖的每個(gè)通道乘以通道對(duì)應(yīng)的權(quán)重,對(duì)不同的特征通道進(jìn)行適當(dāng)增強(qiáng)或者抑制:
(2)空間域注意力模型。
空間注意力模型不同于通道注意力機(jī)制從通道方向?qū)μ卣鲌D進(jìn)行抑制和增強(qiáng),而是從空間域?qū)μ卣鲌DH×W個(gè)C維向量進(jìn)行平均值或者最大池化預(yù)處理得到H×W個(gè)實(shí)數(shù),作為全連接層的輸入。其有兩種形式如下[14]:
其中atts∈?H×W是空間域注意力機(jī)制產(chǎn)生的權(quán)重矩陣,sigmoid是Sigmoid函數(shù),fs一般是卷積神經(jīng)網(wǎng)絡(luò),gaps和maxs分別是對(duì)特征圖H×W個(gè)C維向量全局平均池化和最大值池化。Sigmoid函數(shù)得到權(quán)重矩陣后,特征圖的H×W個(gè)C維向量乘以權(quán)重矩陣對(duì)應(yīng)的權(quán)重,對(duì)不同的特征向量進(jìn)行適當(dāng)增強(qiáng)或者抑制:
(3)離散哈特利變化(DHT)。
通常,1DDHT定義公式如下[19]:
其中,f∈?L屬于1DDHT的輸出頻譜,x∈?L是輸入向量,L是輸入x的長(zhǎng)度。另外,二維(2D)DHT的公式如下:
其中,f2d∈?H×W是2DDHT的輸出頻譜,x2d∈?H×W是輸入特征圖,H、W分別是輸入特征圖x2d的高和寬。相應(yīng)地,2DDHT的逆變化可以寫(xiě)成如下公式:
通過(guò)公式(1)~(5)可知,現(xiàn)有的方法采用的是平均值或者最大值作為通道注意力模型和空間域注意力模型的預(yù)處理方法。公式(6)、(7)表明DHT的輸出可以視作對(duì)特征圖上像素點(diǎn)乘以DHT權(quán)重的加權(quán)求和結(jié)果,如果將多種頻率的DHT權(quán)重引入到特征圖的預(yù)處理中,將增加預(yù)處理結(jié)果的多樣性,而不僅僅局限于平均值和最大值這兩種結(jié)果。接下來(lái)將證明gap是2DDHT取最低頻率權(quán)重時(shí)的特殊情況,而僅僅使用2DDHT的最低頻率權(quán)重缺乏特征多樣性。因此,分別采用2DDHT和1DDHT從通道和空間兩個(gè)方向?qū)μ卣鲌D進(jìn)行了預(yù)處理改造。
(1)注意力模型的理論分析。
首先證明了現(xiàn)有的注意力模型中預(yù)處理方法gap是DHT取最低頻率權(quán)重時(shí)的特殊情況,然后從通道和空間兩個(gè)方向?qū)μ卣鲌D進(jìn)行了DHT處理。
理論1 GAP是(2D)DHT的一種特殊情況。
證明 設(shè)公式(7)中的h和w都為0,得到:
公式(9)中,f2d0,0代表(2D)DHT中最低頻率的部分,等于平均池化的結(jié)果。這樣理論1就得到了證明。
基于理論1,GAP是(2D)DHT的特殊情況,因此,可以使用(2D)DHT作為注意力機(jī)制預(yù)處理的一種方式。通過(guò)公式(8)可知,特征圖上的像素點(diǎn)是由多種頻率成分組成的,所以特征圖也是由多種頻率成分組成。
為方便敘述記:
則有:
根據(jù)公式(1)和(11),可以得出輸入特征圖X也不只由GAP組成:
看出在公式(1)GAP預(yù)處理方法中只用到了公式(12)第一項(xiàng),而其他頻率組成成分的信息被現(xiàn)有的預(yù)處理方法丟棄掉了。因此,把GAP替換成具有更多頻率組成成分的DHT作為注意力預(yù)處理的方法,用于解決特征信息多樣性缺乏的問(wèn)題。
(2)頻域混合注意力模塊。
以卷積神經(jīng)網(wǎng)絡(luò)中的特征圖X作為輸入,如圖1所示頻域混合注意力模塊先對(duì)特征圖做頻域通道注意力模塊處理,得到通道注意力權(quán)重attc∈?C×1×1,隨后再用頻域空間域注意力模塊對(duì)特征圖處理得到atts∈。整體的過(guò)程可以總結(jié)如下[14]:
圖1 ResBlock+頻域混合注意力模型Fig.1 ResBlock+Frequency mixture attention module
公式(13)中?表示對(duì)應(yīng)元素相乘,X″即為頻域混合注意力模塊的輸出特征圖。接下來(lái)將會(huì)詳細(xì)描述兩個(gè)注意力模塊的細(xì)節(jié)。
(3)頻域通道注意力模塊。
首先將特征圖X沿通道方向拆分為n份。將其表示為[X0,X1,…,Xn-1], 其 中Xi∈,i∈{0,1,…,n-1},C'=C/n,C可 以 被 拆分為n份,n常取16。對(duì)于每份,分配對(duì)應(yīng)的2DDHT頻率。這樣,2DDHT就可以用于處理通道注意力模型:
其中,[u,v]是對(duì)應(yīng)于Xi的頻率組成成分的二維索引。Freqic∈是一個(gè)C'維的向量。整個(gè)預(yù)處理結(jié)果用級(jí)聯(lián)形式表示為:
其中,F(xiàn)reqc∈?C是一個(gè)C維的向量。整個(gè)頻域通道注意力模型可以表示為:
其中,fc隱藏層為一層,輸入節(jié)點(diǎn)、隱藏層節(jié)點(diǎn)、輸出節(jié)點(diǎn)數(shù)量分別為通道長(zhǎng)度C、C/16、C的全連接層。
通過(guò)2DDHT的預(yù)處理將多種頻率組成成分的特征信息融入到注意力模型中,實(shí)現(xiàn)了頻域通道注意力模型,緩解了傳統(tǒng)注意力模型通道方向特征多樣性缺乏的問(wèn)題,此過(guò)程的整體過(guò)程如圖2所示。
圖2 頻域通道注意力模型Fig.2 Frequency channel attention module
(4)頻域空間域注意力模塊。
將 特 征 圖X∈?C×H×W沿 通 道 軸 線(xiàn) 方 向 拆 分 為H×W個(gè)C維 向 量 ,將 其 表 示 為[Y0,Y1,…,YH×W-1],Yi∈,i∈{0,1,…,H×W-1},如圖3中部的H×W個(gè)C維向量,然后為每一個(gè)C維向量分配對(duì)應(yīng)的1DDHT頻率處理。這樣,1DDHT就可以用于處理空間域注意力模型:記
其中,[u]是對(duì)應(yīng)于Yi的頻率組成成分的一維索引。Freqis∈是一個(gè)一維的實(shí)數(shù)。整個(gè)預(yù)處理結(jié)果用矩陣形式表示為:
其中,F(xiàn)reqs∈是一個(gè)H×W的矩陣,即為圖3右下角中黃色模塊,經(jīng)過(guò)卷積核為1×1,輸出通道為1的卷積神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果再通過(guò)Sigmoid函數(shù)映射為頻域空間注意力權(quán)重矩陣,該矩陣元素皆為0到1的權(quán)重,如圖3中右下角灰白色模塊。整個(gè)頻域空間域注意力模型可以表示為:
其中,fs是卷積核為1×1,輸入輸出通道均為1的卷積神經(jīng)網(wǎng)絡(luò)。
通過(guò)特征圖空間域方向的1DDHT的預(yù)處理,實(shí)現(xiàn)了頻域空間域注意力模型,從空間域方向?qū)μ卣鲌D進(jìn)行了選擇性的抑制和增強(qiáng),此過(guò)程的整體過(guò)程如圖3所示。
圖3 頻域空間域注意力模型Fig.3 Frequency spatial attention module
(5)選取頻譜成分的原則。
由公式(6)、(7)可知對(duì)特征圖進(jìn)行通道方向的2DDHT和空間域上的1DDHT變化時(shí),分別會(huì)有H×W組和C組頻率可供選擇,選擇哪一組頻率能夠得到較好的預(yù)測(cè)準(zhǔn)確率。本文參考FcaNet附錄中的Low-K(low‐est-k)方法,由于實(shí)驗(yàn)中取頻率最低的16種頻率組成成分能取得較高的準(zhǔn)確率,所以為兩種頻域注意力模塊選取了頻率最低的前16組頻率作頻率選擇,每次2DDHT(1DDHT)只從這16組頻率中選一組頻率作為輸入。因此,頻域通道注意力模塊中將通道分為n組,每一組對(duì)應(yīng)一個(gè)頻譜成分。所以頻域通道注意力模塊公式(15)中的n對(duì)應(yīng)取16,與頻譜成分的數(shù)目相同。
結(jié)合前文所敘述,提出的注意力網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。主要包含兩個(gè)組件:(1)卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)。Resnet-50,用于提取圖片特征信息,卷積網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,圖片經(jīng)過(guò)Conv1、Conv2_x卷積層后,得到初步的角點(diǎn)、紋理信息,再經(jīng)過(guò)深層次殘差網(wǎng)絡(luò)Conv3_x、Conv4_x、Conv5_x,學(xué)習(xí)到物體的形狀、外部輪廓及一些細(xì)節(jié)特征,最后通過(guò)多分類(lèi)交叉熵?fù)p失函數(shù)和Faster-RCNN的Smooth-L1邊框回歸函數(shù)進(jìn)行分類(lèi)回歸和邊框回歸,實(shí)現(xiàn)對(duì)目標(biāo)的分類(lèi)和定位。(2)頻域混合注意力模塊。豐富特征圖預(yù)處理的多樣性,隨著訓(xùn)練的加深,逐步獲得穩(wěn)定的注意力權(quán)重值,對(duì)特征圖進(jìn)行選擇性的抑制和增強(qiáng),從而提高特征信息辨識(shí)度和檢測(cè)精度。
圖4 注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Attention network structure
表1 Resnet-50卷積網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Building blocks of Resnet-50
首先,將數(shù)據(jù)集中圖片輸送到骨干網(wǎng)絡(luò)Resnet-50中提取特征信息,隨后對(duì)第四張?zhí)卣鲌Dlayer4做頻域混合注意力處理,layer4通道、寬、高分別為2 048、7、7,頻域混合注意力模型處理過(guò)程示意圖如圖1~3所示。頻域通道注意力模塊把特征圖的2 048個(gè)通道等分為16等分,結(jié)合第2章選取的16組最低頻率組成,為每一等份分配一組頻率,進(jìn)行公式(14)的2DDHT預(yù)處理得到公式(15)的C(2 048)維向量,預(yù)處理值經(jīng)過(guò)公式(16)中的全連接層得到權(quán)重值后,對(duì)通道進(jìn)行抑制和增強(qiáng);隨后頻域空間域注意力把特征圖拆分為7×7個(gè)2 048維度向量,將這49個(gè)向量分為16組,其中15組是3個(gè)向量一組,最后一組4個(gè)向量,對(duì)這49個(gè)向量進(jìn)行公式(18)的1DDHT預(yù)處理,預(yù)處理得到一個(gè)如公式(19)所示的通道為1,寬和高為7的特征圖,特征圖經(jīng)過(guò)公式(20)中卷積核為1×1,輸入輸出通道均為1的卷積神經(jīng)網(wǎng)絡(luò)后,再經(jīng)過(guò)Sigmoid函數(shù)映射為頻域空間注意力權(quán)重矩陣,得以對(duì)特征圖空間域方向的抑制和增強(qiáng)。
通實(shí)驗(yàn)操作系統(tǒng)為Ubuntu18.04,深度學(xué)習(xí)框架采用Pytoch1.3.0,GPU型 號(hào) 為NVIDIA GeForce GTX 2080Ti。
為了驗(yàn)證提出的頻域混合注意力模型對(duì)小物體檢測(cè)效果,分別與SENet、EcaNet、CBAM、FcaNet一共五種注意力模型,在小目標(biāo)數(shù)據(jù)集(small object dataset)做對(duì)比實(shí)驗(yàn)。選取了Small Object Dataset中的蜜蜂、觀(guān)賞魚(yú)、飛蟲(chóng)這三種物體作為檢測(cè)對(duì)象。
本文使用了COCO數(shù)據(jù)集定義mAP作為評(píng)價(jià)指標(biāo):
其中,t代表閾值。當(dāng)預(yù)測(cè)的錨框和標(biāo)注框交并比IoU大于該閾值時(shí),即算成功預(yù)測(cè)到物體,計(jì)為T(mén)P(true positives)表示真正例。而低于該閾值就規(guī)定為沒(méi)有預(yù)測(cè)到物體,計(jì)為FP(false positives)即將正例預(yù)測(cè)為負(fù)例的數(shù)量。
其中,t=[0.50,0.55,0.60,0.65,0.70,0.75,0.80,0.85,0.90,0.95]即將IOU閾值分別設(shè)定為從0.50到0.95,步長(zhǎng)為0.05的10個(gè)IOU閾值分別計(jì)算準(zhǔn)確率AP求和后,再除 以10得 到mAP,并 選 取 了AP50、AP75、APs、APM、Parameters、FLOPs一共七個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn)。
實(shí)驗(yàn)基于Small Object Dataset數(shù)據(jù)集,計(jì)算在Faster-RCNN目標(biāo)檢測(cè)框架下,特征提取網(wǎng)絡(luò)選用Resnet-50時(shí)的平均精度mAP和AP50、AP75、APs、APM、Parameters、FLOPs一共七個(gè)指標(biāo)。
從表2中可以看出,頻域混合注意力模型相對(duì)其他注意力模型,在相近的參數(shù)數(shù)量和計(jì)算量下,取得了較好的準(zhǔn)確率,mAP相對(duì)SENet、CBAM、EcaNet、FcaNet分別提高了1.2、1.1、0.9、0.7個(gè)百分點(diǎn)。APs相對(duì)SENet、CBAM、EcaNet、FcaNet分別提高了2、1.8、1.6、1.4個(gè)百分點(diǎn)。這六次對(duì)比實(shí)驗(yàn),小物體數(shù)據(jù)集訓(xùn)練時(shí)損失函數(shù)變化曲線(xiàn)如圖5所示。
圖5 損失函數(shù)變化曲線(xiàn)Fig.5 Loss function variation curve
表2 實(shí)驗(yàn)精度對(duì)比Table 2 Object detection results of different methods on small object dataset
可見(jiàn)訓(xùn)練過(guò)程中,六組實(shí)驗(yàn)的損失函數(shù)曲線(xiàn)逐漸趨于平穩(wěn),沒(méi)有出現(xiàn)明顯的顛簸現(xiàn)象,訓(xùn)練到20個(gè)epoch時(shí),網(wǎng)絡(luò)逐漸趨于平穩(wěn),到80個(gè)epoch時(shí),到達(dá)最優(yōu)結(jié)果,實(shí)驗(yàn)結(jié)束,其中頻域混合注意力模型能取得較好的收斂效果。
部分檢測(cè)可視化結(jié)果對(duì)比圖如圖6、圖7所示。
圖6 蜜蜂檢測(cè)可視化圖Fig.6 Visualization map of honeybee detection
圖6(a)圖為Resnet-50檢測(cè)結(jié)果圖,右下角的兩只蜜蜂漏檢,而在圖6(f)頻域混合注意力模型檢測(cè)結(jié)果圖中,卻能檢測(cè)出來(lái),而且兩只蜜蜂的分類(lèi)置信度分?jǐn)?shù)分別能達(dá)到90%、53%,比另外四種注意力模型同一位置的兩只蜜蜂的分類(lèi)置信度均高。圖7(a)圖為Resnet-50檢測(cè)結(jié)果圖,最底部的一只觀(guān)賞魚(yú)漏檢,而在圖7(f)頻域混合注意力模型檢測(cè)結(jié)果圖中,卻能檢測(cè)出來(lái),而且分類(lèi)置信度分?jǐn)?shù)能達(dá)到90%,比另外四種注意力模型同一位置的觀(guān)賞魚(yú)的分類(lèi)置信度均高。表明頻域混合注意力模型的加入能提高原有Faster-RCNN的檢測(cè)精度,并且檢測(cè)精度能高于現(xiàn)有的多種注意力模型。
圖7 觀(guān)賞魚(yú)檢測(cè)可視化圖Fig.7 Visualization map of fish detection
本文首先理論分析了平均值預(yù)處理和頻域預(yù)處理結(jié)果的區(qū)別,然后從通道和空間域兩個(gè)方面對(duì)特征圖進(jìn)行DHT處理,增加了特征多樣性,獲取更為豐富的輸入信息。最后在小目標(biāo)數(shù)據(jù)集(small object dataset)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,表明相近計(jì)算量下,該模型的檢測(cè)精度要高于現(xiàn)有注意力模型,體現(xiàn)出頻域混合注意力模型的有效性。