• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于注意力掩模融合的目標(biāo)檢測算法

      2019-09-13 06:18:54董瀟瀟何小海吳曉紅卿粼波滕奇志
      液晶與顯示 2019年8期
      關(guān)鍵詞:掩模注意力卷積

      董瀟瀟,何小海,吳曉紅,卿粼波,滕奇志

      (四川大學(xué) 電子信息學(xué)院,四川 成都 610065)

      1 引 言

      目標(biāo)檢測是結(jié)合了目標(biāo)定位和識別2個任務(wù)的一項基礎(chǔ)性計算機(jī)視覺任務(wù),它的目的是在圖像的復(fù)雜背景中找出若干目標(biāo),給出一個精確的目標(biāo)邊框(Bounding box),并判斷該邊框中目標(biāo)所屬的類別[1]。目標(biāo)檢測在人工智能和信息技術(shù)的諸多領(lǐng)域如機(jī)器人視覺、消費電子、自動駕駛、人機(jī)交互、基于內(nèi)容的圖像檢索、智能視頻監(jiān)控[2-3]等有著廣泛的應(yīng)用。

      目前,基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩類,一是單階段方法,二是兩階段方法。兩階段方法將檢測問題劃分為兩個過程,首先產(chǎn)生區(qū)域建議(Region proposals),然后對候選區(qū)域進(jìn)行分類和邊界框回歸,這類算法的典型代表是基于區(qū)域建議的R-CNN系列算法,如R-CNN[4]、SPPNet[5]、Fast R-CNN[6]、Faster R-CNN[7]、Mask R-CNN[8]等。一階段方法采用基于回歸的思想,跳過區(qū)域建議階段,直接產(chǎn)生物體的類別概率和位置坐標(biāo)值,經(jīng)過單次檢測即可得出最終的檢測結(jié)果,故在檢測速度上有更好的結(jié)果,其代表性算法有:YOLO[9]、SSD[10]、Focal Loss[11]等。SSD結(jié)合了YOLO中的回歸思想和Faster-RCNN中的Anchor機(jī)制,使用多尺度的特征圖譜進(jìn)行回歸,既保持了YOLO速度快的特性,也保證了Faster-RCNN精度高的優(yōu)點。隨后為了進(jìn)一步提高SSD的精度和對小目標(biāo)的檢測能力,各種不同的方法被提出來。Fu等[12]為了提高淺層特征的表征能力,將基礎(chǔ)網(wǎng)絡(luò)由VGG替換為ResNet,并借助反卷積模塊以增加各層之間的上下文信息,提高了對小目標(biāo)的檢測能力,但是速度相對于SSD卻大幅下降。Liu等[13]從人類視覺的感受野結(jié)構(gòu)出發(fā),提出了感受野模塊(RFB),通過構(gòu)建多分支卷積層和隨后的空洞卷積層以加強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)到的深層特征。Zhang等[14]綜合一階段和兩階段目標(biāo)檢測的技巧,一方面引入兩階段中對包圍框由粗到細(xì)的思想,一方面結(jié)合特征融合用于檢測網(wǎng)絡(luò),取得了很好的效果。Liang等[15]利用多層卷積特征進(jìn)行目標(biāo)檢測,其中利用淺層卷積特征實現(xiàn)目標(biāo)定位,利用深層卷積特征實現(xiàn)目標(biāo)識別,以充分發(fā)揮各層卷積特征的作用。

      近年來,注意力機(jī)制在計算機(jī)視覺中的應(yīng)用逐漸增加?,F(xiàn)有的視覺注意模型可分為軟注意模型和強(qiáng)注意模型。軟注意模型以確定性的方式預(yù)測注意區(qū)域,由于它是可微的,故可以使用反向傳播進(jìn)行訓(xùn)練[16],讓神經(jīng)網(wǎng)絡(luò)學(xué)到每一張新圖片中需要關(guān)注的區(qū)域,因而形成了注意力。強(qiáng)注意模型隨機(jī)預(yù)測圖像的注意點,通常通過強(qiáng)化學(xué)習(xí)或最大化近似變分下界來訓(xùn)練。一般來說,軟注意模型比強(qiáng)注意模型更有效,因為強(qiáng)注意模型需要抽樣進(jìn)行訓(xùn)練,而軟注意模型可以進(jìn)行端到端訓(xùn)練。Hu等[17]設(shè)計了目標(biāo)關(guān)系模塊,其注意力權(quán)重主要由外觀特征權(quán)重和空間權(quán)重組成,通過聯(lián)合其他目標(biāo)的信息從而允許對它們之間的關(guān)系進(jìn)行建模。Wang等[18]提出了一種基于Attention的殘差學(xué)習(xí)方式,設(shè)計了一種可堆疊的網(wǎng)絡(luò)結(jié)構(gòu),并從可堆疊的基本模塊中引入了注意力機(jī)制,不同的注意力特征圖譜可以捕捉到不同類型的注意力。Hu等[19]重點關(guān)注通道關(guān)系,顯示地建模特征通道之間的依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng),從而增強(qiáng)有用的特征而抑制冗余特征。綜上,為了讓目標(biāo)檢測重點關(guān)注有效信息,本文將注意力模型融入到目標(biāo)檢測中去,在SSD和RefineDet基礎(chǔ)上提出了基于注意力掩模融合的改進(jìn)的特征金字塔算法,主要用于改進(jìn)當(dāng)前目標(biāo)檢測算法缺乏視覺注意力信息的缺點。實驗結(jié)果表明,本文算法進(jìn)一步改進(jìn)了目標(biāo)檢測的精度,同時也能保持高效的速度。

      2 RefineDet

      RefineDet的損失函數(shù)主要包含ARM和ODM兩方面。ARM包含二進(jìn)制分類損失Lb和回歸損失Lr,ODM包含多類別分類損失Lm和回歸損失Lr,ARM和ODM兩部分的損失函數(shù)一起前向傳播,損失函數(shù)如下:

      (1)

      圖1 RefineDet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network of RefineDet

      3 本文算法

      3.1 網(wǎng)絡(luò)結(jié)構(gòu)

      算法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。以輸入尺寸為320×320的圖像為例:

      (1)使用基準(zhǔn)網(wǎng)絡(luò)VGG16[20]提取特征,經(jīng)過卷積操作和6次下采樣操作后,得到多尺度的卷積特征層。

      (2)使用基本的卷積層conv4_3,conv5_3,fc7以及conv6_2進(jìn)行初步的二分類和包圍框回歸操作,以得到預(yù)選框,減少負(fù)樣本搜索。

      (3)將注意力掩模模塊Attention Mask Module(AMM)和特征金字塔結(jié)構(gòu)結(jié)合起來,即將頂層特征同底層特征融合后,再輔之以注意力信息AMM,得到更加有效的特征P1,P2,P3,P4。

      (4)最后將上述特征直接用于多分類和回歸操作,不斷訓(xùn)練迭代模型,得到最終的檢測結(jié)果。

      圖2 本文算法網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network of proposed algorithm

      3.2 注意力掩模模塊

      觀察一幅圖片時,人腦并不均衡地關(guān)注整幅圖片,而是帶有一定權(quán)重分布的。對于深度學(xué)習(xí)中的目標(biāo)檢測任務(wù)而言,想要檢測出相關(guān)的人或者特定物體,將其與背景天空等區(qū)分開來,同樣需要有一定的選擇性側(cè)重。為此,引入文獻(xiàn)[18]中的注意力模型,將原本的殘差結(jié)構(gòu)改為基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并去除了一些卷積層,以便更加適應(yīng)本文的網(wǎng)絡(luò)訓(xùn)練。

      注意力掩模模塊(AMM)的結(jié)構(gòu)圖如圖3所示。在本文中,使用基本的卷積函數(shù)(conv),激活函數(shù)(relu)和池化函數(shù)(pool)來構(gòu)建基本網(wǎng)絡(luò)。每個注意力掩模模塊分為兩個分支:掩模分支和主干分支。給定輸入x,主干分支經(jīng)過卷積后得到輸出G(x),掩模分支經(jīng)過卷積和反卷積操作得到相同尺寸的輸出M(x)。掩模分支中,首先經(jīng)過兩次conv,relu,pool操作,然后經(jīng)過兩次deconv操作得到特征圖譜S(x),最后經(jīng)過sigmoid函數(shù)得到輸出的掩模:

      在選取特征點匹配的算法時要考慮與其搭配的特征點提取算法,使用特征提取過程得到的特征描述符(DESCRIPTOR)數(shù)據(jù)類型有的是FLOAT類型的,比如說:SURF,SIFT,有的是UCHAR類型的,比如說有ORB,BRIEF。對應(yīng)FLOAT類型的匹配方式有:FLANNBASEDMATCHER,BRUTEFORCE等。對應(yīng)UCHAR類型的匹配方式有:BRUTEFORCE。所以O(shè)RB特征描述子只能使用BRUTEFORCE匹配法。另外還有一種相對于更加傳統(tǒng)的SURF+FLANN的方法。

      (2)

      圖3 注意力掩模模塊Fig.3 Attention mask module

      輸出掩模類似于Highway Network[21]中的門控單元,控制著主干分支的神經(jīng)元,可以自適應(yīng)地學(xué)習(xí)到有效的特征并且抑制噪聲。主干分支中,經(jīng)過兩次conv函數(shù)得到主干輸出。最后輸出的注意力模型P(x)公式如下所示:

      Pi,c(x)=(1+Mi,c(x))*Gi,c(x),

      (3)

      式中:i代表神經(jīng)元的空間位置,c代表神經(jīng)元的通道位置。類似于殘差網(wǎng)絡(luò)中的恒等映射,M(x)的輸出范圍為[0,1],當(dāng)M(x)接近0時,P(x)的輸出接近原始的特征G(x)。

      在注意力掩模模塊中,注意力掩模不僅在前向傳播中充當(dāng)特征選擇器,在反向傳播中也能進(jìn)行梯度更新。特征掩模的梯度如下所示:

      (4)

      其中:θ是掩模分支參數(shù),φ是主干分支參數(shù)。

      3.3 改進(jìn)的特征金字塔融合

      SSD網(wǎng)絡(luò)雖然取得了較好的效果,但由于其只在若干個特征圖譜上進(jìn)行檢測,并沒有結(jié)合不同尺寸的特征,導(dǎo)致低層的特征圖譜缺乏語義信息,這樣不利于小目標(biāo)的檢測。而RefineDet網(wǎng)絡(luò)采取側(cè)邊連接的方法,將高層語義信息同低層定位信息融合在一起,可以進(jìn)行多種尺度的檢測,仍然缺乏注意力信息。本文提出了融合不同特征圖譜與注意力掩模的結(jié)構(gòu),不僅能進(jìn)行多尺度檢測,還可以結(jié)合注意力模型關(guān)注感興趣區(qū)域,從而有效地檢測出所有尺度物體。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      圖4 特征金字塔融合結(jié)構(gòu)Fig.4 Feature pyramid fusion structure

      輸入的特征圖譜為(H×W×C),其中H和W代表高和寬,C代表通道的個數(shù)。對于底部特征L1,首先經(jīng)過3×3的卷積層進(jìn)行特征降維,將維度從512降到256,對于檢測特征P2,經(jīng)過2×2的反卷積操作,在擴(kuò)大特征圖譜同時也進(jìn)行了降維的操作,得到的輸出為(40×40×256);然后將上述輸出進(jìn)行eltwise sum操作,得到融合后的特征圖譜T1亦為(40×40×256);最后將注意力掩模模塊同T1融合以增加注意力信息,經(jīng)過Relu層后得到的檢測特征P1可應(yīng)用于檢測系統(tǒng)。

      若圖片中存在多種尺度的目標(biāo),低層的特征如P1和P2可以用來檢測小目標(biāo),而高層的特征如P3和P4具有更大的感受野,負(fù)責(zé)檢測大目標(biāo)。

      4 實 驗

      本次實驗在以下兩個公開數(shù)據(jù)集中開展:PASCAL VOC[22]2007和PASCAL VOC 2012。PASCAL VOC數(shù)據(jù)集包含20類物體,包括飛機(jī)、自行車、鳥等。本文的實驗平臺為:Ubuntu 16.04.5,Nvidia GTX 1080Ti GPU,Intel(R)Xeon(R)CPU E5-2686。采用的深度學(xué)習(xí)框架為Caffe,采用的精度評價指標(biāo)為mAP(Mean average precision),速度評價指標(biāo)為fps(Frames per second)。

      4.1 VOC2007數(shù)據(jù)集

      VOC2007數(shù)據(jù)集的訓(xùn)練集有5 011張,測試集有4 952張。本次實驗在VOC2007 trainval和VOC2012 trainval上進(jìn)行訓(xùn)練,在VOC2007 test數(shù)據(jù)集上測試。所有的方法在VGG16基準(zhǔn)網(wǎng)絡(luò)中進(jìn)行預(yù)訓(xùn)練。如圖2所示,使用conv4,conv5,fc7以及新增的conv6層進(jìn)行定位和置信度的預(yù)測。使用Multistep方式來調(diào)整學(xué)習(xí)率,即在前80k次迭代中學(xué)習(xí)率設(shè)置為10-2,隨后20k和40k次迭代中學(xué)習(xí)率分別設(shè)置為10-3和10-4。輸入圖片尺寸為320×320時,訓(xùn)練時batch size設(shè)置為16,GPU數(shù)量為1;當(dāng)圖片尺寸為512×512時,由于一塊GPU顯存不夠,故采用兩塊GPU進(jìn)行聯(lián)合訓(xùn)練。測試時batch size設(shè)置為1。

      表1 不同算法在VOC2007和VOC2012數(shù)據(jù)集上的測試結(jié)果Tab.1 Test results of different algorithms on VOC2007 and VOC2012 datasets

      續(xù) 表

      表2 不同算法在VOC2007數(shù)據(jù)集上20類別的AP比較Tab.2 AP comparison of 20 categoriesfor different algorithms on VOC2007 dataset

      如表1所示,將本文的算法與其他主流的目標(biāo)檢測算法進(jìn)行對比。對于320×320的輸入,mAP達(dá)到了81%,與RefineDet 320相比提高了1%,與SSD相比提高了6.7%。由于本文測試所使用的GPU不同于RefineDet,故將RefineDet中在VOC07+12數(shù)據(jù)集上訓(xùn)練的320×320的模型在1080Ti上進(jìn)行測試,觀察得到,本文算法的速度同其相比降低了18.4%。在速度和精度的均衡下,本文算法仍能取得較好的效果。對于512×512的輸入,mAP為82.2%,比RefineDet的精度提高了0.4%,這也證明了本文算法的有效性。同精度更高的基于區(qū)域的目標(biāo)檢測方法進(jìn)行比較,可以看到,本文算法在尺寸小于CoupleNet的情況下,mAP幾乎能夠達(dá)到CoupleNet的效果。

      表2中列舉出各類算法中20類目標(biāo)的AP(Average precision),可以看到大部分類別的平均精度都有提升。

      4.2 VOC2012數(shù)據(jù)集

      VOC2012數(shù)據(jù)集的訓(xùn)練集有11 540張,測試集有10 991張。本次實驗在VOC2007 trainval和VOC2012 trainval上進(jìn)行訓(xùn)練,在VOC2012 test數(shù)據(jù)集上測試。使用Multistep方式來調(diào)整學(xué)習(xí)率,即在前160k次迭代中學(xué)習(xí)率設(shè)置為10-2,隨后40k和80k次迭代中學(xué)習(xí)率分別設(shè)置為10-3和10-4。對于320×320和512×512的輸入,訓(xùn)練的batch size設(shè)置為16,并且使用兩塊GPU進(jìn)行訓(xùn)練。其余實驗設(shè)定和4.1中相同。

      如表1所示,Proposed320 mAP為79.0%,與RefineDet 320相比提高了0.9%,與SSD相比提高了6.6%。同二階段方法相比,本文算法比精度最高的CoupleNet低了1.4%。Proposed512 mAP為80.8%,與RefineDet 320相比提高了0.7%,且精度超過了CoupleNet,為所提算法中最高的。

      4.3 定性結(jié)果

      圖5給出了本文算法模型在VOC2007和VOC2012數(shù)據(jù)集上的具體測試結(jié)果。

      圖5 VOC2007和VOC2012數(shù)據(jù)集的測試結(jié)果。(a)VOC2007測試結(jié)果,強(qiáng)調(diào)檢測的多尺度效果;(b)VOC2007測試結(jié)果,重點檢測小目標(biāo);(c)VOC2012測試結(jié)果,強(qiáng)調(diào)檢測的多尺度效果;(d)VOC2012測試結(jié)果,重點檢測小目標(biāo)。Fig.5 Test result on VOC2007 and VOC2012 dataset.(a)Test result on VOC2007,emphasizing the multiscale effect of detection;(b)Test result on VOC2007,focusing on small targets;(c)Test result on VOC2012,emphasizing the multiscale effect of detection;(d)Test result on VOC2012,focusing on small targets.

      5 結(jié) 論

      本文提出了一種基于注意力掩模融合的目標(biāo)檢測算法,通過神經(jīng)網(wǎng)絡(luò)提取特征得到多尺度卷積特征圖譜,初步進(jìn)行二分類和回歸,在特征金字塔結(jié)構(gòu)中結(jié)合注意力掩模模塊進(jìn)行多尺度的檢測。實驗結(jié)果證明:對于320×320的圖片輸入,本文算法在VOC2007和VOC2012數(shù)據(jù)集上達(dá)到了81.0%mAP和79.0%mAP,檢測速度為60.9 fps;對于512×512的圖片輸入,本文算法在VOC2007和VOC2012數(shù)據(jù)集上達(dá)到了82.2%mAP和80.8%mAP,檢測速度為35.0 fps,實現(xiàn)了精度和速度的均衡要求。

      猜你喜歡
      掩模注意力卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于直寫技術(shù)的微納掩模制作技術(shù)研究進(jìn)展*
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      掩模圖像生成時閾值取值的合理性探討
      掩模位置誤差對光刻投影物鏡畸變的影響
      A Beautiful Way Of Looking At Things
      Cr光柵掩模對金屬平板超透鏡成像質(zhì)量的影響
      定襄县| 北辰区| 东方市| 青河县| 双江| 尼玛县| 昭觉县| 西贡区| 浦县| 湟中县| 贵定县| 连山| 亚东县| 张家港市| 南靖县| 神农架林区| 丁青县| 巨鹿县| 岑巩县| 阳曲县| 丹寨县| 巧家县| 威海市| 安溪县| 芦溪县| 吐鲁番市| 安新县| 新田县| 临泽县| 定州市| 平远县| 三都| 大同县| 陇南市| 渝中区| 泗阳县| 奉新县| 乐东| 仁怀市| 永定县| 涿鹿县|