• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)SSD的目標(biāo)檢測(cè)方法

      2020-03-02 11:36:35欒浩王力姜敏
      軟件 2020年1期
      關(guān)鍵詞:特征融合目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)

      欒浩 王力 姜敏

      摘 ?要: 為了提高目標(biāo)檢測(cè)的準(zhǔn)確度與穩(wěn)定性,在原始SSD算法的基礎(chǔ)上提出一種新的檢測(cè)方法。該方法在原先的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行優(yōu)化和改進(jìn),把原本級(jí)聯(lián)的網(wǎng)絡(luò)改成殘差連接結(jié)構(gòu)并加入FPN算法思想,把網(wǎng)絡(luò)中高低層的特征進(jìn)行融合。同時(shí)為了解決用預(yù)訓(xùn)練模型訓(xùn)練網(wǎng)絡(luò)所帶來(lái)的學(xué)習(xí)目標(biāo)偏差和體系結(jié)構(gòu)受分類網(wǎng)絡(luò)的限制,修改不方便等問(wèn)題,采用批處理歸一化BatchNorm去隨機(jī)初始化訓(xùn)練模型。在PASCAL VOC數(shù)據(jù)集上的測(cè)試結(jié)果表明,相比于原始SSD,該方法可以自由地修改體系結(jié)構(gòu),而不需要預(yù)訓(xùn)練,并且進(jìn)一步提高了小目標(biāo)的檢測(cè)精度。

      關(guān)鍵詞: 目標(biāo)檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);殘差連接;FPN;特征融合;BatchNorm

      中圖分類號(hào): TP391.41 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.007

      本文著錄格式:欒浩,王力,姜敏,等. 基于改進(jìn)SSD的目標(biāo)檢測(cè)方法[J]. 軟件,2020,41(01):2935

      【Abstract】: In order to improve the accuracy and stability of object detection, a new detection method is proposed based on the original SSD algorithm. The method optimizes and improves the original network structure, changes the original cascaded network into a residual connection structure and adds the FPN algorithm idea to fuse the high and low layer features in the network. At the same time, in order to solve the problem that the learning object deviation caused by training the network with the pre-training model and the architecture is restricted by the classification network, and the inconvenient modification, the batch normalized (BatchNorm) is used to randomly initialize the training model. The test results on the PASCAL VOC dataset show that compared to the original SSD, the method can freely modify the architecture without pre-training and further improve the detection accuracy of small objects.

      【Key words】: Object detection; Convolutional neural network; Residual connection; FPN; Feature fusion; BatchNorm

      0 ?引言

      目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究方向和研究熱點(diǎn)[1],在入侵檢測(cè)、指紋識(shí)別、違章車輛檢測(cè)、車牌識(shí)別、行人檢測(cè)、視頻檢索等各個(gè)領(lǐng) ? ?域[2]有著無(wú)與倫比的重要性。在目標(biāo)檢測(cè)的早期時(shí)候,常用的一些方法通常都是依靠先驗(yàn)知識(shí)來(lái)建立與之相關(guān)的數(shù)學(xué)模型來(lái)實(shí)現(xiàn),常用的方法有:Hough變換[3]、幀差法[4]、背景減除法[5]、光流法[6]、滑動(dòng)窗口模型[7]、可變形部件模型[8]等。這六種方法的實(shí)現(xiàn)方式不盡相同,大體可以分為兩種:前四種方法是利用數(shù)據(jù)的特征來(lái)建立模型,最終求解模型得到檢測(cè)的結(jié)果,這種方法主要采用數(shù)據(jù)特征和數(shù)學(xué)模型的形式去實(shí)現(xiàn);而后兩種方法則是采用特征提取加分類器的方法,利用SHIFT[9]HOG[10]、Haar[11]等一些手工設(shè)計(jì)特征的方法并且結(jié)合像SVM、Adaboost等一些分類器,最后根據(jù)數(shù)據(jù)的特征進(jìn)行分類得到檢測(cè)結(jié)果。然而傳統(tǒng)的目標(biāo)檢測(cè)算法無(wú)論在精度和速度上都很不理想,隨著深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)領(lǐng)域大放異彩,早期的一些目標(biāo)檢測(cè)方法逐漸被淘汰。

      深度學(xué)習(xí)相比于傳統(tǒng)的目標(biāo)檢測(cè)算法,大大提升了檢測(cè)的精度和魯棒性。深度神經(jīng)網(wǎng)絡(luò)不用像早期目標(biāo)檢測(cè)算法那樣來(lái)手工設(shè)計(jì)特征,它能夠通過(guò)卷積計(jì)算自主的學(xué)習(xí)不同層級(jí)的特征,所學(xué)習(xí)到的特征相比較于手工設(shè)計(jì)的特征來(lái)說(shuō)更加的豐富,同時(shí)表征能力也更強(qiáng)[12]?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩類:基于區(qū)域建議的目標(biāo)檢測(cè)算法和基于回歸的目標(biāo)檢測(cè)算法?;趨^(qū)域建議的目標(biāo)檢測(cè)算法如下:R-CNN[13]、Fast R-CNN[14]、Faster R-CNN[15]、R-FCN[16]等等。該類算法首先通過(guò)目標(biāo)候選區(qū)域生成算法(如Selective Search)生成一系列目標(biāo)候選區(qū)域,然后把這些候選區(qū)域送入深度神經(jīng)網(wǎng)絡(luò)去提取相應(yīng)的特征,最后用這些提取出來(lái)的特征來(lái)預(yù)測(cè)目標(biāo)的類別和位置。相比于基于區(qū)域建議的檢測(cè)算法,基于回歸的目標(biāo)檢測(cè)算法則是把耗時(shí)的目標(biāo)區(qū)域的生成過(guò)程去除,然后按照預(yù)先設(shè)定好的方法去劃分默認(rèn)框,這樣做可以有效地提升檢測(cè)速度,保證檢測(cè)的實(shí)時(shí)性,其代表算法有YOLO[17]和SSD[18]。SSD算法相比于YOLO算法加入了Faster R-CNN的anchor機(jī)制,這樣做既保證了實(shí)時(shí)性,又保證了較高的檢測(cè)準(zhǔn)確率。但是,SSD算法對(duì)小目標(biāo)的檢測(cè)效果較差[18]。

      為了改進(jìn)SSD在小目標(biāo)檢測(cè)方面的缺陷,結(jié)合殘差網(wǎng)絡(luò)結(jié)構(gòu)和FPN[19]算法中特征金字塔思想對(duì)特征進(jìn)行融合,同時(shí)在改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)中添加BatchNorm,從頭訓(xùn)練該網(wǎng)絡(luò)。結(jié)果表明,該改進(jìn)方法充分利用了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢(shì),提高了模型對(duì)小目標(biāo)物體檢測(cè)的準(zhǔn)確度,具有一定的參考價(jià)值。

      1 ?SSD目標(biāo)檢測(cè)算法

      1.1 ?原始SSD算法模型結(jié)構(gòu)

      原始SSD模型可以分為以下幾個(gè)部分:骨干網(wǎng)絡(luò)部分,其中骨干網(wǎng)絡(luò)又分為基礎(chǔ)網(wǎng)絡(luò)和附加特征提取層,原始包圍框生成部分和卷積預(yù)測(cè)部分,卷積預(yù)測(cè)又包括目標(biāo)類別預(yù)測(cè)和位置預(yù)測(cè)。算法的主要流程如下:首先輸入原始圖像,利用深度神經(jīng)網(wǎng)絡(luò)提取特征;然后對(duì)所提取的不同尺度的特征圖設(shè)計(jì)不同的默認(rèn)框;接著提取默認(rèn)框中的特征來(lái)預(yù)測(cè)目標(biāo)的種類和位置;最后通過(guò)非極大值抑制算法篩選出與真實(shí)框最匹配的預(yù)測(cè)結(jié)果。

      1.1.1 ?基礎(chǔ)網(wǎng)絡(luò)

      基礎(chǔ)網(wǎng)絡(luò)是由VGG-16[20]的卷積部分組成,主要的作用是對(duì)輸入的圖像進(jìn)行淺層的特征提取,經(jīng)過(guò)卷積網(wǎng)絡(luò)得到的特征有兩方面作用。一方面是送入下一層進(jìn)行更深層的特征提取,另一方面是用于目標(biāo)預(yù)測(cè)和邊框的回歸。該基礎(chǔ)網(wǎng)絡(luò)包括5個(gè)卷積模塊,前兩個(gè)模塊包括兩個(gè)卷積層和一個(gè)池化層,后三個(gè)模塊包括三個(gè)卷積層和一個(gè)池化層,一共包含13個(gè)不同的卷積層。如果把一張大小為300*300的三通道圖像送入該基礎(chǔ)網(wǎng)絡(luò),最終可以得到512張19*19的特征圖。

      1.1.2 ?附加特征提取層

      附加特征提取層由10層卷積層級(jí)聯(lián)而成,是為了對(duì)基礎(chǔ)網(wǎng)絡(luò)所提取的特征進(jìn)行進(jìn)一步的卷積計(jì)算,提取不同尺度的特征。附加層的頭兩層是按照文獻(xiàn)[21]當(dāng)中所提出的下采樣和atrous方法由VGG-16中的兩個(gè)全連接層修改而成。其余的卷積層是由卷積核分別為1和3的常用卷積層組成。

      1.1.3 ?預(yù)測(cè)框生成部分

      1.1.4 ?預(yù)測(cè)網(wǎng)絡(luò)部分

      預(yù)測(cè)框生成之后,選取不同尺度的特征送入預(yù)測(cè)網(wǎng)絡(luò)部分進(jìn)行預(yù)測(cè)計(jì)算,輸出的預(yù)測(cè)結(jié)果分為兩個(gè)部分。一部分是預(yù)測(cè)框的修正值,另一部分就是框內(nèi)物體是目標(biāo)還是背景的概率。

      1.2 ?損失函數(shù)

      其中,N是與ground truth目標(biāo)框匹配的預(yù)測(cè)框的個(gè)數(shù);Lconf(z,c)代表置信度損失;Lloc(z,l,g)代表位置損失,一般采用Smooth L1 Loss[13]去計(jì)算;z表示預(yù)測(cè)框是否與ground truth目標(biāo)框相匹配,如果匹配就等于1,否則為0;c則表示預(yù)測(cè)框的置信度;l表示預(yù)測(cè)框的位置信息;g表示為ground truth目標(biāo)框的位置信息;α為權(quán)重參數(shù),用來(lái)決定置信度損失和位置損失所占的權(quán)重關(guān)系,一般兩者取相同的權(quán)重,值設(shè)為1。

      2 ?原始SSD算法存在的問(wèn)題

      2.1 ?骨干網(wǎng)絡(luò)部分

      原始SSD算法的骨干網(wǎng)絡(luò)是直接利用VGG-16的卷積層,卷積層之間級(jí)聯(lián)連接,每層卷積層的輸入就只是上一層卷積層的輸出,跟之前的卷積層毫無(wú)關(guān)系,并沒(méi)有把之前卷積計(jì)算所得到的大量特征信息給利用起來(lái)。除此之外,在這種級(jí)聯(lián)的連接方式下,如果前面一些卷積層的權(quán)重更新出現(xiàn)較大誤差,那么會(huì)導(dǎo)致后面的卷積層都會(huì)受影響,影響最終的預(yù)測(cè)結(jié)果。

      2.2 ?模型訓(xùn)練部分

      目前大多數(shù)先進(jìn)的目標(biāo)檢測(cè)算法訓(xùn)練模型都是在大規(guī)模分類數(shù)據(jù)集ImageNet上預(yù)先訓(xùn)練好的網(wǎng)絡(luò)上進(jìn)行微調(diào)。一般,在訓(xùn)練好的現(xiàn)成網(wǎng)絡(luò)上進(jìn)行微調(diào)所獲得的模型,其性能都會(huì)比從頭開(kāi)始訓(xùn)練的模型要好。但是,這種訓(xùn)練模型的方法有一些不可忽視的局限性。一方面,在目標(biāo)檢測(cè)的過(guò)程中,通常被分為兩個(gè)任務(wù):一是分類任務(wù),二是檢測(cè)任務(wù),這兩個(gè)任務(wù)具有不同的敏感度。平移不變性對(duì)于分類任務(wù)更加重要,分類任務(wù)需要下采樣操作來(lái)獲得更好的性能,下采樣操作一般包括池化和卷積操作。然而,檢測(cè)任務(wù)更傾向于局部紋理信息,這使得對(duì)下采樣操作更加敏感,需要謹(jǐn)慎使用。另一方面,使用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去微調(diào)模型,在微調(diào)過(guò)程中修改網(wǎng)絡(luò)結(jié)構(gòu)是很不方便的。當(dāng)改變網(wǎng)絡(luò)結(jié)構(gòu)時(shí),應(yīng)該在大規(guī)模數(shù)據(jù)集上重新預(yù)訓(xùn)練,這需要很高的計(jì)算成本。

      3 ?改進(jìn)方法

      改進(jìn)的SSD目標(biāo)檢測(cè)算法是把基礎(chǔ)網(wǎng)絡(luò)和附加的特征提取部分原本的級(jí)聯(lián)方式替換成殘差連接結(jié)構(gòu),用來(lái)增加前后特征層之間的聯(lián)系,除此之外還把FPN算法思想融入到網(wǎng)絡(luò)結(jié)構(gòu)中,把低層特征的高分辨信息和高層特征的高語(yǔ)義信息通過(guò)橫向連接和top-down網(wǎng)絡(luò)融合起來(lái),充分利用各個(gè)尺度卷積層的特征信息,增加模型對(duì)小目標(biāo)物體檢測(cè)的魯棒性。同時(shí),為了解決使用預(yù)訓(xùn)練模型微調(diào)模型所帶來(lái)的問(wèn)題,在原始SSD的骨干網(wǎng)絡(luò)和預(yù)測(cè)卷積層中添加批處理歸一化BN(BatchNorm)操作[22],借助其帶來(lái)的穩(wěn)定和可預(yù)測(cè)的梯度從頭開(kāi)始訓(xùn)練模型,這樣就不會(huì)受到不良收斂的影響,可以探索任意的網(wǎng)絡(luò)架構(gòu)。

      3.1 ?殘差連接骨干網(wǎng)絡(luò)部分

      整個(gè)的骨干網(wǎng)網(wǎng)絡(luò)部分由原來(lái)的級(jí)聯(lián)變成了殘差連接方式?;A(chǔ)網(wǎng)絡(luò)部分由兩到三個(gè)卷積層組成的殘差塊構(gòu)成,每個(gè)塊的具體操作如圖1所示。第一個(gè)卷積層的輸入是前面殘差塊的輸出,第二層的輸入則是第一層卷積的輸出,第二層卷積計(jì)算出的結(jié)果經(jīng)過(guò)BatchNorm操作后和前一個(gè)殘差塊的輸出進(jìn)行組合,然而在與前一個(gè)殘差塊的輸出進(jìn)行結(jié)合之前要進(jìn)行維度判斷,如果兩者的維度不相等則通過(guò)卷積核大小為1的卷積進(jìn)行維度變換,組合后的結(jié)果再一次經(jīng)過(guò)BatchNorm操作,所得到的結(jié)果作為該殘差塊最終的卷積計(jì)算結(jié)果。附加的特征提取層把原來(lái)卷積核為1的卷積層換成卷積核為3的卷積層,然后進(jìn)行殘差連接,連接方式跟基礎(chǔ)網(wǎng)絡(luò)部分一樣。

      3.2 ?FPN算法

      FPN算法最主要的思想就是把低層特征和高層特征通過(guò)橫向連接和top-down網(wǎng)絡(luò)進(jìn)行融合,充分利用卷積計(jì)算出來(lái)的特征信息。橫向連接就是卷積核大小為1的卷積操作,它的主要目的是改變特征的輸出個(gè)數(shù),但是并不改變輸出特征的尺度大小。自頂向下網(wǎng)絡(luò)就是一個(gè)上采樣的過(guò)程,采用最近鄰插值方法,將上采樣結(jié)果和自底向上(網(wǎng)絡(luò)的前向過(guò)程)所生成的相同大小的feature map進(jìn)行融合,融合之后還會(huì)采用卷積核大小為3的卷積對(duì)融合后的結(jié)果進(jìn)行卷積計(jì)算,以此來(lái)消除上采樣的混疊效應(yīng)(aliasing effect)。結(jié)構(gòu)圖如圖2所示。

      3.3 ?BatchNorm

      3.3.1 ?BatchNorm算法概述

      BatchNorm是為了解決訓(xùn)練過(guò)程中數(shù)據(jù)分布的改變,提高網(wǎng)絡(luò)泛化性,加快網(wǎng)絡(luò)訓(xùn)練的一種算法。在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,參數(shù)不斷地在更新,前一層網(wǎng)絡(luò)參數(shù)的更新,就會(huì)導(dǎo)致下一層網(wǎng)絡(luò)輸入數(shù)據(jù)分布的變化(輸入層的數(shù)據(jù)除外,因?yàn)樵谳斎刖W(wǎng)絡(luò)之前,已經(jīng)人為地對(duì)數(shù)據(jù)進(jìn)行了歸一化的操作),那么該層網(wǎng)絡(luò)就要去適應(yīng)新的數(shù)據(jù)分布,這樣大大影響了網(wǎng)絡(luò)訓(xùn)練的速度。另一方面,CNN的訓(xùn)練過(guò)程就是在學(xué)習(xí)數(shù)據(jù)分布,如果數(shù)據(jù)分布不斷發(fā)生變化的話,那么會(huì)降低網(wǎng)絡(luò)的泛化能力。BatchNorm本質(zhì)就是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,把數(shù)據(jù)送入網(wǎng)絡(luò)之前,先對(duì)它進(jìn)行歸一化,這樣做可以減少數(shù)據(jù)分布的變化,使得網(wǎng)絡(luò)的泛化性和訓(xùn)練速度大大提高。

      3.3.2 ?BatchNorm算法預(yù)處理

      在神經(jīng)網(wǎng)絡(luò)中常常用白化操作進(jìn)行數(shù)據(jù)預(yù)處理,但是該操作計(jì)算量太大,并且不是處處可微的,于是BatchNorm算法在白化的基礎(chǔ)上進(jìn)行改進(jìn),首先讓每個(gè)維度的特征獨(dú)立地歸一化成均值為0,方差為1,而不是對(duì)層輸入和輸出進(jìn)行聯(lián)合白化。比如有一個(gè)d維輸入x=(x(1),x(2),...x(d)),BatchNorm會(huì)歸一化每個(gè)維度特征,過(guò)程如下式所示。

      3.4 ?改進(jìn)SSD算法的整體結(jié)構(gòu)

      改進(jìn)后的SSD整體結(jié)構(gòu)圖如圖3所示。基礎(chǔ)網(wǎng)絡(luò)部分是由多個(gè)殘差塊組成,卷積得到的高低層特征通過(guò)FPN進(jìn)行融合,融合后的特征最后送入預(yù)測(cè)網(wǎng)絡(luò)。特征層融合之后的特征參數(shù)如表1所示,以融合層conv_fpn_6為例進(jìn)行說(shuō)明。這一層的維度輸出為512x38x38。conv_fpn_5輸出維度為512x19x19經(jīng)過(guò)上采樣后得到維度為512x38x38的特征圖;block4_x輸出的特征維度為512x38x38,然后把上采樣后的結(jié)果和block4_x相拼接得到conv_fpn_6,其維度為512x38x38,融合之后再經(jīng)過(guò)BatchNorm操作,最后送入卷積核大小為3x3的卷積中進(jìn)行預(yù)測(cè)計(jì)算。

      4 ?實(shí)驗(yàn)與結(jié)果分析

      為了檢驗(yàn)優(yōu)化后SSD算法的有效性,在PASCAL VOC數(shù)據(jù)集上進(jìn)行測(cè)試,并將測(cè)試結(jié)果與原始SSD算法結(jié)果進(jìn)行比較和分析。

      4.1 ?模型訓(xùn)練

      模型是在VOC 2007 trainval和VOC 2012 trainval,一共16551張圖片上訓(xùn)練的,訓(xùn)練數(shù)據(jù)經(jīng)過(guò)左右翻轉(zhuǎn)和隨機(jī)采樣實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),隨機(jī)采樣的最小jaccard overlap[23]值為0.5,數(shù)據(jù)輸入尺寸為300*300,使用限制學(xué)習(xí)率的動(dòng)態(tài)自適應(yīng)梯度法[24](ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE,Adabound)來(lái)訓(xùn)練,采用默認(rèn)參數(shù),lr設(shè)為0.001,final_lr為0.1,權(quán)重衰減為0.0005。該算法是對(duì)Adam等自適應(yīng)學(xué)習(xí)率算法的改進(jìn),通過(guò)對(duì)自適應(yīng)學(xué)習(xí)率進(jìn)行動(dòng)態(tài)裁剪,使得該算法在訓(xùn)練早期更加接近Adam,隨著時(shí)間的增長(zhǎng)該算法在后期更加接近于SGD,在獲得快速收斂速度的同時(shí)又在測(cè)試集上表現(xiàn)良好。訓(xùn)練平臺(tái)為一塊NVIDIA Titan RTX GPU,Windows 10,Intel i7 8700。為了保證BatchNorm在訓(xùn)練階段有穩(wěn)定的統(tǒng)計(jì)結(jié)果,根據(jù)文獻(xiàn)[25]需要設(shè)置較大的batch_size,但是實(shí)驗(yàn)條件有限,最后batch_size設(shè)為32。在模型訓(xùn)練的時(shí)候使用回調(diào)函數(shù)ReduceLROnPlateau監(jiān)控val_loss,耐心值patience設(shè)為15,當(dāng)val_loss經(jīng)過(guò)15個(gè)epoch不下降時(shí),learning_rate降低10倍。

      4.2 ?實(shí)驗(yàn)結(jié)果分析

      4.2.1 ?訓(xùn)練結(jié)果

      模型訓(xùn)練過(guò)程中的training loss如圖4所示,整個(gè)網(wǎng)絡(luò)利用批歸一化BatchNorm帶來(lái)的穩(wěn)定和可預(yù)測(cè)的梯度從頭訓(xùn)練,經(jīng)過(guò)144個(gè)epoch訓(xùn)練后learning_rate從0.001降低為0.0001,200epoch后模型收斂。VOC 2007 test一共4952張,包含常見(jiàn)的各類物體例如羊、人、自行車等等共20種類別,訓(xùn)練出來(lái)的模型在該數(shù)據(jù)集上進(jìn)行測(cè)試。目標(biāo)檢測(cè)中,一般選用mAP(mean Average Precision)來(lái)評(píng)估模型的檢測(cè)準(zhǔn)確度。在置信度閾值為0.5的條件下,改進(jìn)后SSD算法的mAP為78.5,相比較于原始SSD算法提升了1.3。

      4.2.2 ?小目標(biāo)物體檢測(cè)結(jié)果對(duì)比

      為了測(cè)試改進(jìn)后的算法對(duì)小目標(biāo)物體的檢測(cè)性能,從VOC 2007 數(shù)據(jù)集中選取110張包含小目標(biāo)物體的圖像,其中包括鳥(niǎo)(bird)、船(boat)、羊(sheep)、飛機(jī)(aeroplane)、瓶子(bottle)、汽車(car)、椅子(chair)、牛(cow)、狗(dog)、馬(horse)、摩托車(motorbike)、人(person)一共12類物體,分別對(duì)原始SSD算法和改進(jìn)后SSD算法進(jìn)行目標(biāo)檢測(cè),從中選擇了幾張檢測(cè)結(jié)果圖進(jìn)行對(duì)比,如圖5所示,左邊一列是原始SSD檢測(cè)出來(lái)的結(jié)果,右邊則是改進(jìn)之后的SSD所檢測(cè)出來(lái)的結(jié)果。

      比較檢測(cè)結(jié)果我們可以得出以下幾個(gè)結(jié)論:(1)改進(jìn)之后算法相比較原始算法可以檢測(cè)出更多的物體。(2)對(duì)于類別相似的物體改進(jìn)算法檢測(cè)準(zhǔn)確率更高,減少了誤檢。(3)檢測(cè)出來(lái)的同一物體,改進(jìn)算法的檢測(cè)置信度更高。

      4.2.3 ?小目標(biāo)物體檢測(cè)精度對(duì)比

      用制作的小目標(biāo)數(shù)據(jù)集來(lái)測(cè)試模型的檢測(cè)精度,每類物體對(duì)應(yīng)的檢測(cè)精度AP(Average Precision)如表2所示。從表中可以看出改進(jìn)后的算 ? ?法幾乎每一類物體的AP都要高出原始算法。改進(jìn)后SSD算法的mAP為0.753,比原始算法提高 ? ? 了0.068。

      綜合以上的實(shí)驗(yàn)結(jié)果,改進(jìn)后的SSD算法對(duì)小目標(biāo)的檢測(cè)效果相比于原始算法要更準(zhǔn)確。

      5 ?結(jié)論

      本文首先介紹了原始SSD算法的框架和工作原理,然后分析了該算法對(duì)小目標(biāo)物體檢測(cè)效果較差的原因,同時(shí)也指出了用預(yù)訓(xùn)練網(wǎng)絡(luò)去微調(diào)模型存在的一些不足之處,針對(duì)這些問(wèn)題提出了相對(duì)應(yīng)的改進(jìn)方法,首先把級(jí)聯(lián)連接的骨干網(wǎng)絡(luò)改成殘差結(jié)構(gòu),除此之外把FPN算法思想融入到原始SSD算法框架中,通過(guò)高層特征和底層特征的相互融合增加算法對(duì)小目標(biāo)物體檢測(cè)的魯棒性,同時(shí)為了解決使用預(yù)訓(xùn)練模型訓(xùn)練網(wǎng)絡(luò)所帶來(lái)的問(wèn)題,在網(wǎng)絡(luò)結(jié)構(gòu)中加入批量歸一化BatchNorm從頭開(kāi)始訓(xùn)練。改進(jìn)之后的SSD算法在PASCAL VOC數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,獲得了較高的mAP,相比于原始算法提高了1.3。此外為了驗(yàn)證改進(jìn)算法對(duì)小目標(biāo)的檢測(cè)效果,從VOC2007test中選取110張小目標(biāo)數(shù)據(jù)集進(jìn)行測(cè)試,相比于原始SSD算法,改進(jìn)后SSD的mAP比原始算法提高了0.068,從而驗(yàn)證了文中方法的有效性。下面將進(jìn)一步改善其模型,加強(qiáng)各層之間的特征共享,提高模型的泛化性,進(jìn)一步提高算法的性能。

      參考文獻(xiàn)

      [1] Erhan D, Szegedy C, Toshev A, et al. Scalable object detection using deep neural networks[C]//Proceedings of the IEEE Conference on computer Vision and Pattern Recognition, 2014: 2147-2154.

      [2] Borji A, Cheng M M, Jiang H, et al. Salient object detection: A benchmark[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5706-5722.

      [3] Merlin P M, Farber D J. A parallel mechanism for detecting curves in pictures[J]. IEEE Transactions on Computers, 1975, 100(1): 96-98.

      [4] Singla N. Motion detection based on frame difference method[J]. International Journal of Information & Computation Technology, 2014, 4(15): 1559-1565.

      [5] Lee D S. Effective Gaussian mixture learning for video background subtraction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 827-832.

      [6] Horn B K P, Schunck B G. Determining optical flow[J]. Artificial Intelligence, 1981, 17(1-3): 185-203.

      [7] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2003, 1: I-511- I-518.

      [8] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

      [9] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

      [10] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, IEEE, 2005, 1: 886-893.

      [11] Panning A, Al-Hamadi A K, Niese R, et al. Facial expression recognition based on Haar-like feature detection[J]. Pattern Recognition & Image Analysis, 2008, 18(3): 447-452.

      [12] Kong T, Yao A, Chen Y, et al. HyperNet: towards accurate region proposal generation and joint object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 845-853.

      [13] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

      [14] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

      [15] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards realtime object detection with region proposal networks[C]// Advances in Neural Information Processing Systems, 2015: 91-99.

      [16] Li Y, He K, Sun J. R-fcn: Object detection via region-based fully convolutional networks[C]//Advances in Neural Information Processing Systems, 2016: 379-387.

      [17] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.

      [18] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.

      [19] T.-Y.Lin, P.Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.

      [20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//ICLR, 2015.

      [21] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[C]//Proceedings of International Conference on Learning Representations.[S.I.]: Computational and Biological Learning Society, 2015: 1-14.

      [22] Rui Zhu, Shifeng Zhang, Xiaobo Wang, Longyin Wen, Hailin Shi, Liefeng Bo, Tao Mei. Training Single-Shot Object Detectors from Scratch. In CVPR, 2019.

      [23] ERHAN D, SZEGEDY C, TOSHEV A, et al. Scalable object detection using deep neural networks[EB\OL].[2017-08-28].

      [24] Liangchen Luo, Yuanhao Xiong, Yan Liu, Xu Sun. ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE. In LCLR, 2019.

      [25] Z. Shen, Z. Liu, J. Li, Y.-G. Jiang, Y. Chen, and X. Xue. Dsod: Learning deeply supervised object detectors from scratch. In ICCV, 2017.

      猜你喜歡
      特征融合目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)
      基于移動(dòng)端的樹(shù)木葉片識(shí)別方法的研究
      科技資訊(2017年11期)2017-06-09 18:28:13
      基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
      融合整體與局部特征的車輛型號(hào)識(shí)別方法
      視頻中目標(biāo)檢測(cè)算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
      清丰县| 通州市| 盐亭县| 公安县| 湘乡市| 和林格尔县| 哈巴河县| 正宁县| 昌黎县| 资源县| 邵武市| 舒兰市| 铜山县| 治多县| 重庆市| 开平市| 嘉荫县| 沿河| 额敏县| 广南县| 新郑市| 灵石县| 南投县| 阿拉善右旗| 金坛市| 临泉县| 宁蒗| 丹寨县| 偃师市| 越西县| 西华县| 宽城| 汤阴县| 襄汾县| 堆龙德庆县| 佛冈县| 祁连县| 昌江| 平阳县| 霍城县| 临朐县|