• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向小目標(biāo)檢測(cè)結(jié)合特征金字塔網(wǎng)絡(luò)的SSD改進(jìn)模型

      2019-09-23 09:22:08張建明劉煊赫吳宏林黃曼婷
      關(guān)鍵詞:金字塔淺層卷積

      張建明, 劉煊赫, 吳宏林, 黃曼婷

      (1.長(zhǎng)沙理工大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)智能處理重點(diǎn)實(shí)驗(yàn)室 湖南 長(zhǎng)沙 410114;2.長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院 湖南 長(zhǎng)沙 410114)

      0 引言

      目標(biāo)檢測(cè)在計(jì)算機(jī)視覺(jué)領(lǐng)域一直是研究熱點(diǎn),通用類(lèi)的目標(biāo)檢測(cè)是智能監(jiān)控、智能機(jī)器人等大量應(yīng)用投入實(shí)際使用時(shí)所需要的支撐技術(shù).人臉檢測(cè)[1]和行人檢測(cè)[2]這兩個(gè)單一類(lèi)別目標(biāo)檢測(cè)技術(shù)已經(jīng)相當(dāng)成熟;但通用類(lèi)的目標(biāo)檢測(cè)精度一直不是很高,檢測(cè)的效果還有很大提升空間.通用類(lèi)目標(biāo)檢測(cè)的難點(diǎn)在于待檢測(cè)的目標(biāo)物體的尺寸、形狀、顏色等特征千變?nèi)f化,并且很難找到其中的共性,所以傳統(tǒng)的機(jī)器學(xué)習(xí)手工設(shè)計(jì)待檢測(cè)目標(biāo)的特征對(duì)通用類(lèi)的目標(biāo)檢測(cè)來(lái)說(shuō),難度很大.近來(lái),越來(lái)越多的研究者轉(zhuǎn)向深度學(xué)習(xí),涌現(xiàn)出了很多優(yōu)秀的基于深度學(xué)習(xí)的檢測(cè)算法.

      2012年至今,許多深度學(xué)習(xí)的算法被提出來(lái),如AlexNet[3]、ZFNet[4]、VGGNet[5]、Google-Net[6]、R-CNN[7]及Faster R-CNN[8]等,但這些方法都是分階段的,檢測(cè)速度慢,不能達(dá)到實(shí)時(shí)性的要求.鑒于分段式目標(biāo)檢測(cè)方法的缺陷,2016年,Redmon等人提出了YOLO(you only look once:unified,real-time object)[9]網(wǎng)絡(luò)模型,同年,Liu等人提出了SSD(single shot multibox detector)網(wǎng)絡(luò)[10].YOLO和SSD與之前的深度模型不同,它們是基于回歸得到輸入圖片邊界框和類(lèi)別概率的神經(jīng)網(wǎng)絡(luò)框架.這種一站式完成提取特征和檢測(cè)任務(wù)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了端到端的優(yōu)化,提升了框架的速度,但SSD對(duì)小目標(biāo)檢測(cè)的精度較低,因?yàn)樾∧繕?biāo)檢測(cè)需要高分辨率,而原始的SSD模型不能對(duì)淺層的特征圖進(jìn)行充分利用.本文借鑒SSD網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合特征金字塔網(wǎng)絡(luò)[11]進(jìn)行改進(jìn),充分利用淺層的高分辨率的特征圖,以便提升原模型的精度.

      本文以SSD為基本的框架模型,針對(duì)小目標(biāo)檢測(cè)問(wèn)題,用特征金字塔網(wǎng)絡(luò)對(duì)原始SSD框架進(jìn)行改進(jìn).原始的SSD是基于金字塔特征層對(duì)各層不同大小的特征圖進(jìn)行回歸,產(chǎn)生默認(rèn)框的位置信息和類(lèi)別信息,但原始的SSD對(duì)小目標(biāo)的識(shí)別能力不足.本文將采用特征金字塔網(wǎng)絡(luò),將原始的SSD更深層的特征圖與淺層的特征圖進(jìn)行融合,目的是將深層特征圖更抽象的語(yǔ)義信息賦予淺層特征圖,然后對(duì)融合后的特征圖進(jìn)行回歸,得到默認(rèn)框的位置信息和類(lèi)別信息.實(shí)驗(yàn)表明,在PASCAL VOC數(shù)據(jù)集上的檢測(cè)精度比原始的SSD有所提升.

      1 預(yù)備知識(shí)

      1.1 SSD模型

      SSD模型有3個(gè)關(guān)鍵的特征:① 多尺度特征圖預(yù)測(cè).分別從Conv4_3層、Conv7層、Conv8_2層、Conv9_2層、Conv10_2層和Conv11_2層引出特征圖,用這些大小不同的特征圖做預(yù)測(cè);② 卷積層預(yù)測(cè).每個(gè)特征層,都可以通過(guò)一組卷積濾波器得到一組固定的預(yù)測(cè)結(jié)果;③ 默認(rèn)框和長(zhǎng)寬比.每個(gè)特征圖上的像素點(diǎn)都會(huì)對(duì)應(yīng)一系列的框,再根據(jù)不同的長(zhǎng)寬比,生成更多尺寸不同的框,這些不同尺寸的框可以用來(lái)預(yù)測(cè)不同尺寸和形狀的目標(biāo).

      對(duì)于一個(gè)給定的像素點(diǎn)位置,有k個(gè)默認(rèn)框,每個(gè)默認(rèn)框要預(yù)測(cè)出c個(gè)類(lèi)別分?jǐn)?shù)和4個(gè)相對(duì)原始默認(rèn)框的偏移值,即每個(gè)框要預(yù)測(cè)(c+4)個(gè)值.這樣對(duì)于一個(gè)給定的位置需要k×(c+4)個(gè)值,就需要k×(c+4)個(gè)卷積核來(lái)實(shí)現(xiàn).所以對(duì)于一個(gè)m×n大小的特征圖,共有m×n×k×(c+4)個(gè)輸出.

      1.2 特征金字塔網(wǎng)絡(luò)

      金字塔是種“形近”的表達(dá),如圖1所示,深度學(xué)習(xí)中有各種各樣的金字塔,示意圖中灰色部分黑色邊框?yàn)檩斎氲膱D片,白色部分黑色邊框?yàn)橥ㄟ^(guò)神經(jīng)網(wǎng)絡(luò)得到的特征圖.圖1(a) 神經(jīng)網(wǎng)絡(luò)的輸入為尺寸單一的圖片,經(jīng)過(guò)不同的卷積層和池化層(通過(guò)卷積和池化操作,特征圖逐漸變小,也形似金字塔),僅根據(jù)最后一層的特征圖進(jìn)行預(yù)測(cè),這是單特征圖(single feature map).圖1(b) 對(duì)圖片進(jìn)行不同比例的放縮,輸入到模型,然后對(duì)不同尺度的圖片進(jìn)行處理預(yù)測(cè),最后對(duì)各個(gè)預(yù)測(cè)結(jié)果進(jìn)行綜合判定,這是特征化圖像金字塔(featurized image pyramid).圖1(c) 輸入為尺寸單一的圖片,不同的卷積池化層,對(duì)不同大小的特征圖分別進(jìn)行預(yù)測(cè),然后再對(duì)所有的預(yù)測(cè)結(jié)果進(jìn)行綜合判定,這是金字塔特征層(pyramidal feature hierarchy).原始的SSD就是采用多層卷積特征圖進(jìn)行綜合預(yù)測(cè)的.圖1(d) 對(duì)一張圖片進(jìn)行一個(gè)尺寸的單一輸入,經(jīng)過(guò)不同的卷積層和池化層,得到尺寸大小不一的特征圖,再對(duì)這些大小不同的特征圖分別進(jìn)行預(yù)測(cè),然后再對(duì)所有的預(yù)測(cè)結(jié)果進(jìn)行綜合判定.但是不同的是,它選用的用來(lái)預(yù)測(cè)的特征圖是將當(dāng)前層的更深一層的特征圖進(jìn)行上采樣后,再和當(dāng)前層的特征圖進(jìn)行融合得到的特征圖,這是特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN).

      圖1 各種類(lèi)型金字塔Fig.1 Various types of pyramid

      2 FPN-SSD模型

      SSD是從多層不同尺度大小的特征圖去做預(yù)測(cè).不同層級(jí)的特征圖上有著不同的語(yǔ)義信息,淺層的特征圖分辨率高,但只是一些淺層特征,表達(dá)特征的能力有限,會(huì)影響檢測(cè)性能.SSD利用了深層特征,但卻沒(méi)有充分利用淺層特征,而是增加網(wǎng)絡(luò)深度,拋棄淺層特征圖所攜帶的細(xì)節(jié)信息,這會(huì)影響小物體目標(biāo)的檢測(cè).FPN的思想是將淺層和深層的特征圖進(jìn)行融合,使得到的淺層特征層也擁有深層的語(yǔ)義能力,且又不影響小物體的檢測(cè).FPN能夠利用各個(gè)層級(jí)特征圖的特點(diǎn),來(lái)提高SSD網(wǎng)絡(luò)的綜合檢測(cè)能力.結(jié)合FPN思想,提出了FPN-SSD檢測(cè)器(feature pyramid network for single shot multibox detector,F(xiàn)PN-SSD).

      2.1 FPN-SSD模型的處理流程

      一張圖片輸入到FPN-SSD模型中,處理過(guò)程如圖2所示. 首先圖片尺寸會(huì)被更改為300×300的大小,再依次通過(guò)VGG16的Conv5_3部分及Conv6、Conv7、Conv8_1、Conv8_2、Conv9_1、Conv9_2、Conv10_1、Conv10_2、Conv11_1、Conv11_2這些卷積層進(jìn)行處理.然后,對(duì)Conv11_2的1×1大小的特征圖,由c10_2進(jìn)行上采樣操作,得到尺寸為3×3的特征圖.用t10_2減少Conv10_2的特征圖的通道數(shù),得到3×3大小的特征圖.然后由co10_2將這兩個(gè)3×3的特征圖進(jìn)行相加操作(融合),得到融合后尺寸大小為3×3的特征圖;然后再對(duì)融合后得到的特征圖,經(jīng)過(guò)c9_2的上采樣操作,再與t9_2橫向連接層得到的特征圖進(jìn)行融合,得到融合層co8_2的特征圖,依次進(jìn)行同樣的操作得到所有融合層的特征圖,最后用p4_3、p7、p8_2、p9_2和p10_2處理融合層的特征圖,得到預(yù)測(cè)層的特征圖,再用非極大值抑制進(jìn)行預(yù)測(cè).其中,p11_2處理的特征圖是由Conv11_2直接得到,不來(lái)自融合層.

      圖2 基于特征金字塔網(wǎng)絡(luò)的網(wǎng)絡(luò)模型圖Fig.2 Network model map based on feature pyramid network

      2.2 FPN-SSD模型分層介紹

      FPN-SSD模型分為SSD層、橫向連接層、上采樣層、融合層和預(yù)測(cè)層.SSD層是原始的SSD模型,詳細(xì)的參數(shù)見(jiàn)文獻(xiàn)[10].其余的橫向連接層、上采樣層、融合層和預(yù)測(cè)層是本文的設(shè)計(jì),各層詳細(xì)的參數(shù)和作用如表1所示.表1展示了橫向連接層的各個(gè)層由該層到下層的卷積核的大小、通道數(shù)量、進(jìn)行卷積操作時(shí)的步長(zhǎng)和填充及經(jīng)過(guò)卷積后得到的特征圖的大?。搶幽康氖菧p少通道數(shù),為后續(xù)的融合做準(zhǔn)備.因?yàn)橹挥斜蝗诤系膬蓪佑邢嗤耐ǖ罃?shù),才能進(jìn)行融合.

      表1 橫向連接層參數(shù)Tab.1 Lateral connection layer parameters

      上采樣層將特征圖進(jìn)行放大,放大到原來(lái)的兩倍.在特征圖放大的過(guò)程中,會(huì)出現(xiàn)很多沒(méi)有像素值的空位,空位采用最鄰近插值進(jìn)行值的填充,特征圖數(shù)量均為256,上采樣層c4_3、c7、c8_2、c9_2、c10_2的輸出特征圖尺寸分別為38×38、19×19、10×10、5×5、3×3.上采樣是為了得到融合時(shí)所需要尺寸的特征圖.

      融合層co4_3、co7、co8_2、co9_2、co10_2的輸出特征圖尺寸分別為38×38、19×19、10×10、5×5、3×3,該層實(shí)現(xiàn)了將橫向連接層得到的特征圖和上采樣層得到的特征圖進(jìn)行相加的操作,之前已經(jīng)將它們的通道數(shù)全部轉(zhuǎn)換為256,只有通道數(shù)相同且特征圖大小一致,才能完成特征圖的融合.

      表2展示的是預(yù)測(cè)層的參數(shù),該層由融合層執(zhí)行卷積操作得到,目的是將融合層的特征圖進(jìn)行去模糊化操作.因?yàn)樘卣鲌D經(jīng)過(guò)放大都是根據(jù)臨近位置的像素值進(jìn)行填充的,這就可能會(huì)造成成塊的像素值大小相近,目標(biāo)物體的輪廓不明顯,使目標(biāo)變得模糊,所以就需要這步操作.

      表2 預(yù)測(cè)層參數(shù)Tab.2 Prediction layer parameters

      3 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)結(jié)果

      3.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)環(huán)境是14.04.1-Ubuntu系統(tǒng),處理器的型號(hào)為Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30 GHz×12,顯卡的型號(hào)為NVIDIA GeForce GTX TITAN X,顯存為12 G,內(nèi)存為128 G.

      本文實(shí)驗(yàn)是在PASCAL VOC數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)的模型框架是FPN-SSD,預(yù)測(cè)層是p4_3、p7、p8_2、p9_2、p10_2和p11_2,訓(xùn)練采用的是隨機(jī)梯度下降,批次大小是32,權(quán)重衰減是0.000 5,動(dòng)量是0.9,學(xué)習(xí)率衰減因子是0.94.其中,權(quán)重衰減是正則化的系數(shù),防止過(guò)擬合;動(dòng)量的作用是擺脫局部最優(yōu)達(dá)到全局最優(yōu).

      3.2 實(shí)驗(yàn)結(jié)果

      表3是在PASCAL VOC 2007 train+val數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在PASCAL VOC 2007 test數(shù)據(jù)集上進(jìn)行測(cè)試得到的結(jié)果.其中,F(xiàn)ast是指Fast R-CNN網(wǎng)絡(luò);Faster是指Faster R-CNN網(wǎng)絡(luò);SSD300是指SSD網(wǎng)絡(luò)輸入的圖片尺寸首先更改為300×300;前3行引自文獻(xiàn)[10].可以看出,原來(lái)的SSD300還沒(méi)Faster的mAP高.改進(jìn)后的FPN-SSD,mAP由SSD的68.0%上升到了69.8%,與Faster基本持平,并且大多數(shù)的類(lèi)別也有明顯的提升.其中,加粗的是與SSD相比較有提升的類(lèi)別(表3列舉出了大多數(shù)類(lèi)別).

      表4是在PASCAL VOC 2007和2012 train+val數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在PASCAL VOC 2007 test數(shù)據(jù)集上測(cè)試得到的結(jié)果. 可以看到mAP由原來(lái)SSD的74.3%提升到75.8%,并且精度在大多數(shù)的類(lèi)別上都有所提升,尤其以盆栽植物這類(lèi)原SSD模型不能很好檢測(cè)的密集小目標(biāo),也有較好的提升.其中,加粗的是與SSD相比較有提升的類(lèi)別.

      在PASCAL VOC 2007和2012 train+val數(shù)據(jù)集上訓(xùn)練,YOLOv1在PASCAL VOC 2007 test數(shù)據(jù)集上的mAP為63.4%.相同條件下,YOLOv2 288的mAP為69.0%;YOLOv2 352的mAP為73.7%;本文方法的mAP為75.8%.其中,YOLOv1是指YOLO的第一個(gè)版本,YOLOv2 288是指YOLO的第二個(gè)版本且輸入首先resize為288×288,YOLOv2 352同理.可以看出同為端到端的模型,本文模型在精度上具有一定的優(yōu)勢(shì).

      不同模型的檢測(cè)結(jié)果如圖3所示.第一行是SSD模型,第二行是本文的FPN-SSD模型.第一幅盆栽,F(xiàn)PN-SSD正確檢測(cè)到了所有的盆栽植物,而SSD模型有一個(gè)盆栽沒(méi)有檢測(cè)到,并且還有一個(gè)多余的檢測(cè)框;第二幅飛機(jī),F(xiàn)PN-SSD有2架飛機(jī)漏檢,而SSD模型有5架飛機(jī)漏檢;第三幅瓶子,F(xiàn)PN-SSD檢測(cè)到9個(gè)瓶子,而SSD檢測(cè)到5個(gè)瓶子.這些都是密集類(lèi)小目標(biāo)的檢測(cè),可以看出,對(duì)于這類(lèi)目標(biāo),本文設(shè)計(jì)的FPN-SSD的網(wǎng)絡(luò)確實(shí)比原始的SSD有一定的提升.

      圖3 不同模型的檢測(cè)結(jié)果對(duì)比Fig.3 Comparison of detection results of different models

      4 結(jié)束語(yǔ)

      本文選用了端到端檢測(cè)的經(jīng)典模型SSD,相比于YOLO模型,SSD模型是利用多層不同尺度大小的卷積特征對(duì)目標(biāo)物體進(jìn)行預(yù)測(cè).同時(shí)借助于特征金字塔網(wǎng)絡(luò)可以將深層的特征圖所攜帶的語(yǔ)義信息與淺層的特征圖進(jìn)行融合,且融合后的特征圖有更強(qiáng)的語(yǔ)義信息和更豐富的細(xì)節(jié)信息,對(duì)小目標(biāo)的物體檢測(cè)有所幫助.將特征金字塔網(wǎng)絡(luò)的思想用于SSD模型的改進(jìn),實(shí)現(xiàn)了FPN-SSD模型在PASCAL VOC數(shù)據(jù)集上的檢測(cè)能力有所提升.但是改進(jìn)后的模型也還是有很多不足,如實(shí)驗(yàn)結(jié)果中展示的漏檢的飛機(jī)和瓶子,這種密集小目標(biāo)的檢測(cè)雖然有所提升,仍然還有漏檢.就檢測(cè)精度而言,對(duì)用于真實(shí)場(chǎng)景下的檢測(cè)[12],還有一定的提升空間.

      猜你喜歡
      金字塔淺層卷積
      “金字塔”
      A Study of the Pit-Aided Construction of Egyptian Pyramids
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      淺層換填技術(shù)在深厚軟土路基中的應(yīng)用
      基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      海上有座“金字塔”
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      神秘金字塔
      童話世界(2017年11期)2017-05-17 05:28:25
      淺層地下水超采區(qū)劃分探究
      齐齐哈尔市| 荆州市| 星子县| 辉县市| 景泰县| 健康| 临沂市| 兴仁县| 东丰县| 吉安县| 湘阴县| 宁安市| 寻甸| 天水市| 县级市| 时尚| 开鲁县| 林甸县| 汉寿县| 桦川县| 大埔区| 孟州市| 宽甸| 香港 | 乐东| 台中市| 麻阳| 乳山市| 溆浦县| 来宾市| 揭西县| 天水市| 富锦市| 青神县| 黔东| 彭山县| 张家口市| 屯门区| 班戈县| 乐清市| 秦安县|