• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多尺度深度學(xué)習(xí)的自適應(yīng)航拍目標(biāo)檢測(cè)

      2022-07-04 07:19:22劉芳韓笑
      航空學(xué)報(bào) 2022年5期
      關(guān)鍵詞:尺度卷積特征

      劉芳,韓笑

      北京工業(yè)大學(xué) 信息學(xué)部,北京 100124

      近年來(lái),無(wú)人駕駛飛行器(Unmanned Aerial Vehicles,UAV)逐漸由軍事應(yīng)用轉(zhuǎn)變?yōu)楣I(yè)應(yīng)用,應(yīng)用在目標(biāo)跟蹤、搜索和救援、智能停車、航空攝影和基礎(chǔ)設(shè)施檢查等方面,受到廣泛關(guān)注。無(wú)人機(jī)具有視角寬、拍攝范圍廣、靈活性高等優(yōu)點(diǎn),可以從不同位置和角度采集數(shù)據(jù)信息。對(duì)無(wú)人機(jī)視頻圖像進(jìn)行目標(biāo)檢測(cè)是無(wú)人機(jī)應(yīng)用中常見的任務(wù),由于無(wú)人機(jī)拍攝視角和高度等原因,無(wú)人機(jī)圖像中的目標(biāo)存在尺寸較小、尺度多變等問(wèn)題,導(dǎo)致目前的檢測(cè)算法效果不理想。因此,研究快速準(zhǔn)確的無(wú)人機(jī)圖像目標(biāo)檢測(cè)方法是無(wú)人機(jī)視覺領(lǐng)域的熱點(diǎn)問(wèn)題。

      隨著人工智能和深度學(xué)習(xí)的興起與發(fā)展,許多研究人員將卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNNs)應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域中,取得了顯著的成果。但是相比于其他自然場(chǎng)景圖像,無(wú)人機(jī)圖像包含的眾多密集小目標(biāo),不利于卷積神經(jīng)網(wǎng)絡(luò)提取特征。文獻(xiàn)[3]將SSD(Single Shot MultiBox Detector)用于無(wú)人機(jī)圖像檢測(cè)行人和車輛,針對(duì)網(wǎng)絡(luò)模型過(guò)大、參數(shù)過(guò)多等問(wèn)題,通過(guò)消減通道數(shù)、構(gòu)建輕量感受野模塊,有效降低了參數(shù)量,但是對(duì)小目標(biāo)的檢測(cè)效果不理想;文獻(xiàn)[4]提出了一種改進(jìn)的Faster-RCNN網(wǎng)絡(luò),提出ResNet-58作為骨干網(wǎng),同時(shí)引入?yún)^(qū)域數(shù)目調(diào)節(jié)層,能在訓(xùn)練中調(diào)整RPN (Region Proposal Networks)網(wǎng)絡(luò)中的候選區(qū)的數(shù)量,有效提升了檢測(cè)效果,但是候選區(qū)域生成網(wǎng)絡(luò)會(huì)產(chǎn)生較大開銷,降低了實(shí)時(shí)性;文獻(xiàn)[5]在Faster-RCNN的基礎(chǔ)上,添加了K-Means聚類方法,生成適應(yīng)數(shù)據(jù)集的預(yù)設(shè)錨框,增強(qiáng)了網(wǎng)絡(luò)的魯棒性,但是該網(wǎng)絡(luò)主干網(wǎng)采用VGG-16,導(dǎo)致深層語(yǔ)義特征提取不明顯,不適用于多尺度目標(biāo)檢測(cè);文獻(xiàn)[6] 提出一種基于YOLOv2的多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò),提取不同尺度的特征進(jìn)行融合,解決了淺層語(yǔ)義特征不足的問(wèn)題,但是對(duì)弱小目標(biāo)和被遮擋目標(biāo)檢測(cè)效果不佳。綜上所述,當(dāng)前目標(biāo)檢測(cè)算法往往無(wú)法準(zhǔn)確高效完成無(wú)人機(jī)圖像的目標(biāo)檢測(cè)。

      針對(duì)上述問(wèn)題,在不損失檢測(cè)實(shí)時(shí)性的情況下,為了提升無(wú)人機(jī)圖像中目標(biāo)檢測(cè)準(zhǔn)確率,提出一種基于多尺度深度學(xué)習(xí)的自適應(yīng)航拍目標(biāo)檢測(cè)算法。首先,為了提高對(duì)無(wú)人機(jī)圖像中多尺度特征的表征能力,采用多尺度卷積(Mutil-Scale Convolution,MSConv)對(duì)標(biāo)準(zhǔn)卷積進(jìn)行優(yōu)化,構(gòu)建自適應(yīng)特征提取網(wǎng)絡(luò)MSDarkNet-53,針對(duì)不同尺度的目標(biāo)采用不同類型的卷積核提取特征。其次,在卷積模塊之間引入注意力卷積模塊(Convolutional Block Attention Module,CBAM),在空間和通道維度學(xué)習(xí)特征的權(quán)重分布,增強(qiáng)有效特征,抑制無(wú)效特征。最后,在預(yù)測(cè)網(wǎng)絡(luò)部分對(duì)不同尺度特征圖進(jìn)行上采樣,融合成高分辨率特征圖,在單一尺度的高分辨率特征圖上預(yù)測(cè)目標(biāo)位置和類別信息,增強(qiáng)對(duì)小目標(biāo)的預(yù)測(cè)能力。

      1 算法介紹

      在保證檢測(cè)效率的情況下,針對(duì)航拍圖像中的目標(biāo)尺寸小、尺度變化大的問(wèn)題,提出一種基于多尺度深度學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)航拍目標(biāo)檢測(cè)算法。算法的總體模型如圖1所示。所提算法主要分為2部分,第1部分為自適應(yīng)特征提取網(wǎng)絡(luò)(MSDarkNet-53),用于提取無(wú)人機(jī)圖像中目標(biāo)特征,該網(wǎng)絡(luò)將金字塔特征融合策略引入到卷積過(guò)程中,使用不同類型卷積核提取不同尺度目標(biāo)特征,增強(qiáng)感受野,同時(shí)在卷積模塊中添加注意力模塊,自適應(yīng)優(yōu)化權(quán)重,提升網(wǎng)絡(luò)表征能力。第2部分為預(yù)測(cè)網(wǎng)絡(luò)部分,用于預(yù)測(cè)特征圖中目標(biāo)的類別和位置,首先將特征提取網(wǎng)絡(luò)產(chǎn)生的多層特征映射通過(guò)1×1卷積固定到特定維度并進(jìn)行上采樣,然后完成多尺度特征融合得到高分辨率特征圖,融合目標(biāo)細(xì)節(jié)信息和語(yǔ)義信息,最后在單一尺度上進(jìn)行目標(biāo)檢測(cè),提升對(duì)小目標(biāo)的檢測(cè)能力。其中上采樣過(guò)程采用階梯插值方法,使融合后高分辨率特征圖更加平滑。

      圖1 算法總體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Overall network structure of algorithm

      1.1 自適應(yīng)特征提取網(wǎng)絡(luò)

      感受野是卷積神經(jīng)網(wǎng)絡(luò)每一層輸出的特征圖上的像素點(diǎn)在輸入圖片上映射的區(qū)域大小,類似于人類的視覺系統(tǒng)。對(duì)于大尺寸目標(biāo),較大感受野能更完整地提取特征信息;對(duì)于小目標(biāo),較小感受野能獲取更多細(xì)節(jié)信息。標(biāo)準(zhǔn)卷積運(yùn)算只通過(guò)一步操作,將輸入特征圖進(jìn)行卷積得到輸出特征圖,如圖2所示。采用固定類型的卷積核對(duì)整幅特征圖進(jìn)行運(yùn)算,感受野映射區(qū)域有限,但是無(wú)人機(jī)圖像中往往包含多種尺度的目標(biāo),距離較近的目標(biāo)尺寸較大,距離較遠(yuǎn)的目標(biāo)尺寸較小,固定尺寸的卷積核對(duì)于多尺度目標(biāo)的特征表達(dá)能力有限,無(wú)法針對(duì)不同尺度目標(biāo)進(jìn)行有效的特征提取,導(dǎo)致提取的特征不夠完整或者提取到的特征包含過(guò)多的背景信息。

      圖2 標(biāo)準(zhǔn)卷積Fig.2 Standard convolution

      為了解決上述問(wèn)題,本文參考了GoogLeNet中Incepetion模塊的思路,引入多尺度深度學(xué)習(xí)方式,采用多尺度卷積替換傳統(tǒng)卷積,在卷積過(guò)程中,對(duì)不同尺度的特征采用不同類型的卷積核進(jìn)行特征提取,增強(qiáng)網(wǎng)絡(luò)的表征能力。如圖3所示,多尺度卷積(MSConv)是包含一個(gè)由層不同類型卷積核構(gòu)成的多尺度卷積模型。MSConv的主要任務(wù)是在不增加計(jì)算復(fù)雜度參數(shù)量的前提下,采用多尺度卷積核對(duì)輸入特征進(jìn)行處理。MSConv由多層不同尺度的卷積核分別進(jìn)行卷積操作,每一層的卷積核尺寸和深度不同,一方面卷積核大小在增加,另一方面卷積核深度(連通性)在減少。因此,這種多尺度的卷積結(jié)構(gòu)能針對(duì)輸入特征圖中不同目標(biāo)的大小選擇不同類型的卷積核進(jìn)行特征提取,增強(qiáng)網(wǎng)絡(luò)的特征提取能力,提取到更完整、更有效的特征信息。

      圖3 多尺度卷積Fig.3 Multi-scale convolution

      對(duì)于標(biāo)準(zhǔn)卷積,設(shè)輸入特征圖維度為××,卷積核尺寸為×,卷積核輸入特征通道數(shù),則執(zhí)行個(gè)相同尺寸與深度的卷積核得到個(gè)×的輸出特征圖,即輸出特征圖維度為××。所以,經(jīng)過(guò)一次標(biāo)準(zhǔn)卷積的參數(shù)量和計(jì)算復(fù)雜度分別為

      Parameters=××

      (1)

      FLOPs=×××(×)

      (2)

      (3)

      需要注意的是,由于卷積神經(jīng)網(wǎng)絡(luò)中卷積核尺寸一般為奇數(shù)且不會(huì)過(guò)大,如3×3或5×5等,為了便于計(jì)算和分組,對(duì)式(3)中分母部分計(jì)算值進(jìn)行取整操作,若取整后為奇數(shù),則對(duì)其減1化為偶數(shù)。

      所以,在多尺度卷積過(guò)程中,卷積核尺寸隨著深度漸加深逐漸減小,對(duì)應(yīng)的輸出特征維度為,,…,o。即經(jīng)過(guò)多尺度卷積后的輸出特征圖維度為××。MSConv的參數(shù)量和計(jì)算復(fù)雜度為

      FLOPs=Parameters×(×)

      (5)

      式中:++…+o=。

      由式(4)和式(5)可以看出,當(dāng)每一層級(jí)的輸出通道數(shù)相近,則每一層的參數(shù)量與計(jì)算復(fù)雜度的分布相對(duì)比較均勻,所以總的參數(shù)量和計(jì)算復(fù)雜度和標(biāo)準(zhǔn)卷積相近。同時(shí)在多尺度卷積使用分組卷積(Group Convolution)的方式,將輸入特征劃分為不同的組獨(dú)立進(jìn)行卷積計(jì)算,每組特征圖的通道數(shù)是不相同的,通過(guò)分組卷積的方式實(shí)現(xiàn)卷積核深度改變,當(dāng)組數(shù)增加時(shí),卷積核深度相應(yīng)減少,卷積的計(jì)算代價(jià)以一定的倍數(shù)(由組數(shù)決定)減少,減少全連接產(chǎn)生的參數(shù)量。

      將普通卷積改進(jìn)為多尺度卷積之后,雖然能在不增加計(jì)算量的基礎(chǔ)上,提升網(wǎng)絡(luò)對(duì)目標(biāo)的表征能力,但是隨著網(wǎng)絡(luò)層數(shù)的不斷加深,依然會(huì)產(chǎn)生大量參數(shù)。因此,采用CSP(Cross Stage Partial)策略設(shè)計(jì)了新的卷積模塊,如圖4所示,該策略主要從網(wǎng)絡(luò)設(shè)計(jì)結(jié)構(gòu)角度來(lái)解決在網(wǎng)絡(luò)推理過(guò)程中計(jì)算量大的問(wèn)題,將輸入特征圖分為2部分,其中一部分通過(guò)多尺度卷積正常地進(jìn)行網(wǎng)絡(luò)計(jì)算,提取特征;另一部分直接通過(guò)1×1卷積進(jìn)行特征圖通道維度的固定,然后以shortcut連接方式連接到第1部分的輸出特征圖中,融合得到最終輸出特征。CSP策略能夠在實(shí)現(xiàn)輕量化學(xué)習(xí)的情況下保持特征提取的準(zhǔn)確性,有效地控制網(wǎng)絡(luò)的計(jì)算量,同時(shí)shortcut連接方式能減少目標(biāo)細(xì)節(jié)信息的損失,避免梯度消失、網(wǎng)絡(luò)退化等問(wèn)題。

      此外,在卷積模塊中引入注意力機(jī)制,能聚焦于局部信息,重點(diǎn)關(guān)注目標(biāo)區(qū)域獲得更多細(xì)節(jié)信息,同時(shí)該機(jī)制中參數(shù)量少,減少計(jì)算資源的浪費(fèi)。如圖4所示,由于多尺度卷積中卷積核尺寸和通道數(shù)并不是固定的,要使較大的目標(biāo)獲得較大的感受野保證特征的完整性,較小的目標(biāo)使用較小的感受野保證足夠的細(xì)節(jié)信息,需要對(duì)不同類型的卷積核進(jìn)行權(quán)重學(xué)習(xí),使重點(diǎn)關(guān)注的信息獲得更大的權(quán)重,因此將卷積后的特征圖通過(guò)卷積注意力模塊(CBAM)改變?cè)刑卣鞯臋?quán)重分布,同時(shí)優(yōu)化特征在空間和通道維度上的權(quán)重分布,進(jìn)行特征權(quán)重的自適應(yīng)學(xué)習(xí)。CBAM結(jié)合了空間注意力機(jī)制模塊和通道機(jī)制注意力模塊,空間注意力關(guān)注特征的位置信息,通道注意力關(guān)注目標(biāo)的語(yǔ)義特征,分別在空間和通道2個(gè)維度,學(xué)習(xí)或提取特征中的權(quán)重分布,依次推斷得到注意力特征圖。將注意力特征圖與原特征圖相乘進(jìn)行自適應(yīng)特征優(yōu)化,使網(wǎng)絡(luò)能更多地關(guān)注感興趣的目標(biāo)區(qū)域,增強(qiáng)有效特征,抑制無(wú)效特征或噪聲,尤其是對(duì)于小目標(biāo)區(qū)域,能獲取更多地小目標(biāo)的細(xì)節(jié)信息,避免小目標(biāo)因特征不明顯而被當(dāng)成背景信息。

      圖4 卷積模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure diagram of convolution module

      綜上所述,構(gòu)建了自適應(yīng)特征提取網(wǎng)絡(luò)(MSDarkNet-53)用于提取無(wú)人機(jī)圖像的目標(biāo)特征。該模型網(wǎng)絡(luò)參數(shù)結(jié)構(gòu)如表1所示,其中Kernel表示卷積核類型,即卷積核尺寸和通道數(shù),對(duì)于淺層特征采用較大卷積核,保證特征的完整性,通過(guò)分組卷積減少全連接產(chǎn)生的參數(shù)量。對(duì)于深層特征,細(xì)節(jié)信息較少,采用小尺寸卷積核學(xué)習(xí)語(yǔ)義信息,分組數(shù)相對(duì)減少。Output size表示輸出特征尺寸,Output channels表示輸出特征圖維度。

      表1 MSDarkNet-53網(wǎng)絡(luò)模型Table 1 Network model of MSDarkNet-53

      1.2 目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)

      無(wú)人機(jī)圖像中的目標(biāo)尺寸普遍較小,特征信息不明顯,容易被識(shí)別成背景信息而發(fā)生漏檢。文獻(xiàn)[12-13]通過(guò)對(duì)VGG-16提取的圖像特征進(jìn)行可視化,發(fā)現(xiàn)淺層特征圖包含更多的小目標(biāo)特征,所以淺層特征圖更適合作為小目標(biāo)的檢測(cè)層。淺層特征圖的分辨率高,包含更多的小目標(biāo)特征,但是卻缺少語(yǔ)義信息,不能充分地利用上下文信息來(lái)提高檢測(cè)效果。此外,主流單階段目標(biāo)檢測(cè)器(如YOLO系列)存在一定程度的目標(biāo)重寫現(xiàn)象,即2個(gè)目標(biāo)中心距離太近,在特征圖上采樣時(shí),導(dǎo)致其中一個(gè)目標(biāo)被判定為負(fù)樣本而重寫,無(wú)法進(jìn)行到訓(xùn)練當(dāng)中。尤其在目標(biāo)越密集、尺寸接近的無(wú)人機(jī)圖像中,目標(biāo)重寫現(xiàn)象更為明顯,嚴(yán)重影響對(duì)小目標(biāo)的檢測(cè)效果。

      為了解決上述問(wèn)題,提出一種基于多尺度特征融合的目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)。如圖5所示,首先,選取骨干網(wǎng)絡(luò)MSDarkNet-53中多層級(jí)映射{C1,C2,C3,C4},分別來(lái)自卷積模塊{Conv_2,Conv_3,Conv_4,Conv_5},分別對(duì)低分辨率特征圖利用階梯插值方法進(jìn)行上采樣,得到更加平滑的高分辨率特征圖,增強(qiáng)了小目標(biāo)的語(yǔ)義特征。其次,為了充分利用上下文信息,將各層級(jí)上采樣后的特征圖進(jìn)行加權(quán)融合,淺層特征具有較小的感受野,有助于目標(biāo)定位;深層特征有較強(qiáng)的語(yǔ)義信息,有利于目標(biāo)分類,融合不同層級(jí)的特征圖中小目標(biāo)特征的細(xì)節(jié)信息和語(yǔ)義信息,得到包含更多小目標(biāo)細(xì)節(jié)信息的高分辨率特征圖,增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)特征的識(shí)別能力。最后,在融合后的高分辨率特征圖中直接做目標(biāo)的類別識(shí)別和位置回歸。此外,預(yù)測(cè)網(wǎng)絡(luò)中采用1×1卷積來(lái)固定特征圖的通道維度,保持前后特征圖維度一致。

      圖5 預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Prediction network structure

      (6)

      式中:(·)表示上采樣函數(shù);Conv(·)表示1×1卷積操作;、、、分別表示經(jīng)過(guò)上采樣后特征映射;、分別表示不同卷積模塊輸出的特征映射。、、、、和分別表示各層權(quán)重系數(shù),為了避免特征融合過(guò)程中的信息冗余,設(shè)置層融合權(quán)重系數(shù)之和為1,取值分別為0.7、0.3、0.6、0.4、0.4、0.6,因?yàn)闇\層特征圖中包含細(xì)節(jié)特征較多,相對(duì)權(quán)重占比較大,所以隨著、特征層級(jí)的加深,包含細(xì)節(jié)信息減少,權(quán)重、、也相應(yīng)減小。

      卷積神經(jīng)網(wǎng)絡(luò)中,通常對(duì)低分辨率圖像進(jìn)行上采樣來(lái)恢復(fù)圖像的分辨率,得到高分辨率特征圖,使小目標(biāo)更容易被檢測(cè)。由于無(wú)人機(jī)圖像中小目標(biāo)特征細(xì)節(jié)信息較少,與背景信息差異不明顯,直接上采樣會(huì)丟失小目標(biāo)的一部分細(xì)節(jié)信息,因此采用階梯插值方法,其關(guān)鍵思想是使用雙三次插值以較小的增量對(duì)低分辨率特征圖進(jìn)行多次插值,該插值方法一次將特征圖分辨率增加不超過(guò)原圖的10%,直到達(dá)到所需大小為止。相比于直接上采樣,通過(guò)插值方法對(duì)圖像進(jìn)行上采樣能在不損失小目標(biāo)細(xì)節(jié)信息的前提下,以一種更加平滑的方式增大特征圖的分辨率,有利于不同層級(jí)特征圖的融合,得到包含更多特征細(xì)節(jié)和語(yǔ)義信息的高分辨率特征圖,有利于檢測(cè)小目標(biāo)。

      1.3 多任務(wù)損失

      目標(biāo)檢測(cè)的主要任務(wù)是準(zhǔn)確輸出圖像中目標(biāo)的類別及所在位置,因此需要進(jìn)行位置回歸和分類的訓(xùn)練。損失函數(shù)作為深度神經(jīng)網(wǎng)絡(luò)對(duì)誤檢樣本評(píng)判的依據(jù),在很大程度上影響神經(jīng)網(wǎng)絡(luò)模型收斂的效果。同時(shí)為目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練提供優(yōu)化方向,該算法的損失函數(shù)主要包含2部分,

      =+

      (7)

      式中:分類損失負(fù)責(zé)評(píng)估分類代價(jià),定位損失負(fù)責(zé)評(píng)估回歸代價(jià)。

      (8)

      式中:前2項(xiàng)為傳統(tǒng)的IoU Loss;后2項(xiàng)為懲罰項(xiàng),用于修正真實(shí)目標(biāo)框與預(yù)測(cè)包圍框的寬高比;(·)表示目標(biāo)真實(shí)中心坐標(biāo)與預(yù)測(cè)包圍框中心坐標(biāo)的歐氏距離;為真實(shí)坐標(biāo)框和預(yù)測(cè)包圍框的對(duì)角線距離(最小閉包區(qū)域);用來(lái)衡量寬高比的相似性;為正權(quán)重系數(shù)。CIoU損失充分考慮了目標(biāo)與預(yù)測(cè)包圍框的重疊面積、中心點(diǎn)距離以及包圍框的寬高比等因素,使預(yù)測(cè)包圍框和真實(shí)包圍框的寬高比盡量保持一致。

      2 實(shí)驗(yàn)結(jié)果與分析

      根據(jù)實(shí)際應(yīng)用需求,文中所采用的實(shí)驗(yàn)數(shù)據(jù)主要由2部分組成,一部分來(lái)自VisDrone 2019無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集,共有10 209張,包含不同場(chǎng)景的無(wú)人機(jī)圖像,分別包含6 471張訓(xùn)練集、3 190張測(cè)試集和5 48張驗(yàn)證集圖像,另一部分來(lái)自實(shí)驗(yàn)室無(wú)人機(jī)拍攝數(shù)據(jù)集共5 791張、3 791 張訓(xùn)練集、1 500張測(cè)試集、500張驗(yàn)證集。數(shù)據(jù)集主要以俯視圖和側(cè)視圖為主,總共標(biāo)記了7類預(yù)定義的目標(biāo)類別,包括行人、汽車、貨車、公共汽車、自行車(包括自行車和電動(dòng)自行車)、摩托車和三輪車。由于無(wú)人機(jī)航拍過(guò)程中飛行高度和拍攝角度不斷變化,拍攝的數(shù)據(jù)集中包含大量多尺度目標(biāo)和密集的小目標(biāo),并且目標(biāo)占比小,包含較多背景信息,因此該數(shù)據(jù)集是一個(gè)多尺度、小目標(biāo)豐富、場(chǎng)景復(fù)雜的無(wú)人機(jī)航拍目標(biāo)檢測(cè)數(shù)據(jù)集。實(shí)驗(yàn)平臺(tái)采用Ubuntu18.04操作系統(tǒng)、內(nèi)存為32 G,處理器為i7-9800X,圖形處理器(GPU)為NVIDIA GeForce RTX2080Ti。

      2.1 目標(biāo)檢測(cè)算法有效性

      為了驗(yàn)證所提算法在實(shí)際場(chǎng)景中的目標(biāo)檢測(cè)效果,選取無(wú)人機(jī)數(shù)據(jù)集中具有代表性并且實(shí)際檢測(cè)較為困難的圖像進(jìn)行測(cè)試,評(píng)估算法檢測(cè)效果并進(jìn)行可視化分析。部分檢測(cè)結(jié)果如圖6所示,圖6(a)為多尺度情況下目標(biāo)檢測(cè)的效果圖,由于無(wú)人機(jī)拍攝高度及視角等原因,導(dǎo)致圖中既包含大尺度目標(biāo),又包含正?;虍a(chǎn)生形變的小尺度目標(biāo),所提算法可以很好地檢測(cè)到圖中不同尺度的目標(biāo),說(shuō)明利用多尺度卷積對(duì)不同尺度的目標(biāo)采用不同類型的卷積核提取目標(biāo)特征,可以增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度特征的表征能力,在多個(gè)尺度上捕獲目標(biāo)的局部特征細(xì)節(jié)信息。圖6(b)和圖6(c) 分別為包含小目標(biāo)和密集目標(biāo)的檢測(cè)效果圖,圖中目標(biāo)占比較小,分布較為集中,同時(shí)包含大量的背景信息,所提算法依然可以準(zhǔn)確檢測(cè)目標(biāo),說(shuō)明所提算法中的多尺度特征融合的預(yù)測(cè)網(wǎng)絡(luò)能有效地融合不同層級(jí)特征圖,得到包含特征細(xì)節(jié)信息和語(yǔ)義信息的高分辨率特征圖,既能增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的預(yù)測(cè)能力,又能避免密集目標(biāo)中心距離相近造成漏檢的問(wèn)題。此外,考慮到影響無(wú)人機(jī)目標(biāo)檢測(cè)的其他因素(如光照),圖6(d) 所示,所提算法受光照等外部條件影響較小,在強(qiáng)光或夜間等情況下仍有很好的檢測(cè)性能,說(shuō)明所提算法受外部因素影響較小,具有很好的泛化能力,能滿足實(shí)際任務(wù)需求。

      圖6 多場(chǎng)景檢測(cè)效果圖Fig.6 Multi scene detection rendering

      2.2 算法模塊可行性

      為了評(píng)估所提骨干網(wǎng)絡(luò)在特征提取過(guò)程中的有效性,在相同實(shí)驗(yàn)條件下,將本文所提骨干網(wǎng)絡(luò)MSDarkNet-53分別與DarkNet-53、CSPDarkNet-53、MSDarkNet-53_Original進(jìn)行對(duì)比試驗(yàn),其中DarkNet-53為YOLOv3的骨干網(wǎng)絡(luò),CSPDarkNet-53為YOLOv4的骨干網(wǎng)絡(luò),MSDarkNet-53_Original為所提骨干網(wǎng)絡(luò)中沒有引入注意力機(jī)制進(jìn)行優(yōu)化的原始網(wǎng)絡(luò),該網(wǎng)絡(luò)中沒有采用CBAM模塊進(jìn)行優(yōu)化。MSDarkNet-53為經(jīng)過(guò)CBAM優(yōu)化后的骨干網(wǎng)絡(luò),即為本文算法最終采用的骨干網(wǎng)絡(luò)。根據(jù)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)模型性能分析,選取MSCOCO數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

      由表2可以看出,本文所提MSDarkNet-53框架在MSCOCO數(shù)據(jù)集上平均準(zhǔn)確率達(dá)43.8%,分別比DarkNet-53、CSPDarkNet-53提升了10.8%和1.1%,同時(shí)MSDarkNet-53框架的模型比另外2種網(wǎng)絡(luò)模型分別減少了5%和7%,說(shuō)明所提網(wǎng)絡(luò)性能較好。相比于MSDarkNet-53_Original網(wǎng)絡(luò),使用CBAM對(duì)骨干網(wǎng)進(jìn)行優(yōu)化后,檢測(cè)精度和模型大小方面均有提升,尤其表現(xiàn)在優(yōu)化模型大小方面,說(shuō)明注意力卷積模塊能有效優(yōu)化網(wǎng)絡(luò)模塊,提升模型性能。精度提升的主要原因是多尺度卷積使網(wǎng)絡(luò)可以從具有較低連通性的大感受野探索到具有較高連通性的較小感受野,具有較小感受野的卷積核捕獲相關(guān)較小目標(biāo)或目標(biāo)局部的信息,較大感受野的卷積核為大目標(biāo)或上下文信息提供了更可靠的細(xì)節(jié),不同類型的卷積核帶來(lái)了互補(bǔ)信息,增強(qiáng)了網(wǎng)絡(luò)的表征能力。而精度的提升沒有導(dǎo)致計(jì)算量的增大主要因?yàn)槎喑叨染矸e方式與普通卷積參數(shù)量相近,不會(huì)產(chǎn)生較大計(jì)算量,此外注意力卷積模塊的引入使網(wǎng)絡(luò)模型能自適應(yīng)地學(xué)習(xí)特征權(quán)重,優(yōu)化特征權(quán)重分布,抑制無(wú)效信息,減少了不必要計(jì)算開銷。

      表2 MSDarkNet-53性能分析Table 2 Performance analysis of MSDarkNet-53

      為了驗(yàn)證算法模塊的有效性,設(shè)計(jì)消融實(shí)驗(yàn)對(duì)網(wǎng)絡(luò)模塊性能進(jìn)行評(píng)估,消融實(shí)驗(yàn)的目的是評(píng)估不同模塊或不同改進(jìn)方法在相同條件下對(duì)目標(biāo)檢測(cè)算法性能的影響。為了驗(yàn)證預(yù)測(cè)網(wǎng)絡(luò)對(duì)密集小目標(biāo)檢測(cè)的有效性,基于無(wú)人機(jī)數(shù)據(jù)集設(shè)計(jì)如下對(duì)比實(shí)驗(yàn),其中實(shí)驗(yàn)1采用YOLOv3網(wǎng)絡(luò),由骨干網(wǎng)DarkNet-53和原預(yù)測(cè)網(wǎng)絡(luò)Head組成,原預(yù)測(cè)網(wǎng)絡(luò)Head在3個(gè)尺度上對(duì)不同大小目標(biāo)分類進(jìn)行目標(biāo)類別預(yù)測(cè)和邊界框回歸。實(shí)驗(yàn)2將骨干網(wǎng)改進(jìn)為本文所提的MSDarkNet-53,Head仍使用YOLOv3中的預(yù)測(cè)網(wǎng)絡(luò)。實(shí)驗(yàn)3為本文所提網(wǎng)絡(luò),采用MSDarkNet-53和改進(jìn)Head進(jìn)行目標(biāo)檢測(cè)。在實(shí)驗(yàn)中采用mAP、AP、AP、FPS等評(píng)價(jià)指標(biāo)來(lái)評(píng)估算法性能,其中mAP表示平均檢測(cè)精度(Mean Average Precision),用于衡量算法在所有類別上平均檢測(cè)精度;AP和AP分別表示IoU閾值為0.5和0.75時(shí)的檢測(cè)精度;FPS(Frame Per Second)表示每秒幀率,用來(lái)評(píng)價(jià)檢測(cè)速度,值越大,實(shí)時(shí)性越好。如表3所示,通過(guò)比較實(shí)驗(yàn)1和實(shí)驗(yàn)2可以看出,實(shí)驗(yàn)2在mAP、AP、AP指標(biāo)均優(yōu)于實(shí)驗(yàn)1,說(shuō)明MSDarkNet-53具有更好的特征表達(dá)能力;通過(guò)實(shí)驗(yàn)2和實(shí)驗(yàn)3對(duì)比,改進(jìn)后的預(yù)測(cè)網(wǎng)絡(luò)明顯優(yōu)于原預(yù)測(cè)網(wǎng)絡(luò),改進(jìn)后預(yù)測(cè)網(wǎng)絡(luò)主要針對(duì)圖像中的密集目標(biāo)和小目標(biāo)改進(jìn),說(shuō)明多尺度特征融合和單尺度高分辨率特征圖進(jìn)行回歸更有利于密集小目標(biāo)的檢測(cè),減少了漏檢率,有效提升了檢測(cè)精度。

      表3 各實(shí)驗(yàn)有效性分析Table 3 Effectiveness analysis of each module

      本文目標(biāo)檢測(cè)算法在無(wú)人機(jī)數(shù)據(jù)集中的每一類的檢測(cè)結(jié)果如表4所示,其中包含YOLOv3和YOLOv4在該數(shù)據(jù)集上各類的檢測(cè)結(jié)果作為實(shí)驗(yàn)對(duì)比數(shù)據(jù),部分可視化檢測(cè)結(jié)果如圖7所示,可以看出,YOLOv3和YOLOv4對(duì)小目標(biāo)和距離相近的目標(biāo)存在不同程度的漏檢。綜合來(lái)看,本文算法對(duì)于各類目標(biāo)的平均檢測(cè)精度高于YOLOv3和YOLOv4,尤其是對(duì)于Pedestrian(行人)、Bicycle(自行車)、Motor(摩托車)等密集的小目標(biāo)檢測(cè)效果明顯。主要原因是YOLOv3和YOLOv4更關(guān)注深層特征,忽略了小目標(biāo)的細(xì)節(jié)信息,同時(shí)采用3種不同尺度的預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行邊界框回歸會(huì)導(dǎo)致相差不大的目標(biāo)被強(qiáng)制分層預(yù)測(cè),影響密集小目標(biāo)的檢測(cè)效果。而在本文預(yù)測(cè)網(wǎng)絡(luò)中,為減少目標(biāo)細(xì)節(jié)信息的損失,選取特征提取網(wǎng)絡(luò)中4個(gè)層級(jí)的特征映射進(jìn)行特征融合,整合不同層級(jí)特征圖中的有效特征信息,映射到單一尺度的高分辨率特征圖中,使小目標(biāo)的分類特征更加明顯,提升了檢測(cè)準(zhǔn)確率,同時(shí)單一尺度特征圖中做邊界框回歸可以避免錨框尺度分配不均問(wèn)題,在一定程度上減少了密集目標(biāo)漏檢的概率,更適用于目標(biāo)小、密集度高的無(wú)人機(jī)航拍圖像中。

      表4 無(wú)人機(jī)數(shù)據(jù)集中各類檢測(cè)結(jié)果分析Table 4 Analysis of various results in UAV database

      圖7 不同算法結(jié)果對(duì)比Fig.7 Comparison of results of different algorithms

      2.3 主流無(wú)人機(jī)目標(biāo)檢測(cè)算法對(duì)比結(jié)果

      為了驗(yàn)證所提算法的性能,將所提算法與當(dāng)前主流算法進(jìn)行對(duì)比實(shí)驗(yàn),在同一平臺(tái)下,對(duì)不同的主流目標(biāo)檢測(cè)算法采用相同的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練并對(duì)所得模型進(jìn)行性能評(píng)估,主要對(duì)比不同檢測(cè)網(wǎng)絡(luò)在無(wú)人機(jī)航拍過(guò)程中準(zhǔn)確檢測(cè)地面目標(biāo)的能力。進(jìn)行對(duì)比實(shí)驗(yàn)的主流目標(biāo)檢測(cè)算法包括Faster-RCNN、RetinaNet、YOLOv3、ConnerNet、CenterNet、YOLOv4。

      為了便于比較各主流算法性能指標(biāo),表5列出了主流目標(biāo)檢測(cè)算法的具體結(jié)果。綜合來(lái)看,在無(wú)人機(jī)航拍數(shù)據(jù)集中,本文算法性能優(yōu)于其他算法。從目標(biāo)檢測(cè)精度方面來(lái)看,本文算法的AP值相比于其他算法有較大提升,平均檢測(cè)精度達(dá)到27.48%,整體檢測(cè)效果優(yōu)于其他算法。AP可以反映出算法對(duì)于目標(biāo)的分類能力, AP則是評(píng)價(jià)目標(biāo)檢測(cè)算法的邊界框回歸能力的有效指標(biāo),可以看出本文算法在IoU=0.5的情況下與效果最優(yōu)的YOLOv4、CenterNet等相近,即對(duì)目標(biāo)的分類能力相近,而在IoU=0.75的情況下,本文算法的AP值優(yōu)于其他算法,達(dá)到26.95%,說(shuō)明本文算法在無(wú)人機(jī)航拍數(shù)據(jù)中具有更好的目標(biāo)分類能力和較高的邊界框回歸精度。在分類方面,MSDarkNet-53中采用多尺度卷積方式,在多個(gè)尺度上解析輸入,在不增加成本的情況下擴(kuò)大卷積核的感受野,考慮不同層級(jí)的空間上下文依賴關(guān)系,捕獲更詳細(xì)的信息,并且shortcut連接方式使特征信息可以不經(jīng)過(guò)中間卷積變換直接傳到高層特征圖,極大程度地避免了由于空間分辨率損失導(dǎo)致細(xì)節(jié)信息丟失的問(wèn)題,提取到更多有效特征,有利于目標(biāo)分類。在回歸方面,預(yù)測(cè)網(wǎng)絡(luò)提取多層級(jí)特征映射進(jìn)行多尺度特征融合,將包含小目標(biāo)細(xì)節(jié)信息較多的底層特征和語(yǔ)義信息較為豐富的高層特征進(jìn)行加權(quán)融合,得到包含更多局部特征細(xì)節(jié)和語(yǔ)義特征高分辨率特征圖,有利于檢測(cè)小目標(biāo);同時(shí),在單一尺度特征圖上進(jìn)行邊界框回歸既能有效避免密集目標(biāo)之間的標(biāo)簽重寫問(wèn)題,又能防止不同尺度特征中錨框分配不均的問(wèn)題,增強(qiáng)了網(wǎng)絡(luò)對(duì)密集目標(biāo)的檢測(cè)能力。

      表5 無(wú)人機(jī)數(shù)據(jù)集中主流目標(biāo)檢測(cè)算法結(jié)果分析Table 5 Analysis of main object detection algorithms in UAV database

      此外,本文算法具有良好的檢測(cè)實(shí)時(shí)性,實(shí)時(shí)性遠(yuǎn)優(yōu)于兩階段目標(biāo)檢測(cè)器(如Faster-RCNN),檢測(cè)速度與YOLOv4接近,比YOLOv3提升了約18%,主要原因是多尺度卷積方式計(jì)算過(guò)程中產(chǎn)生參數(shù)量與標(biāo)準(zhǔn)卷積相近,不會(huì)產(chǎn)生過(guò)多的計(jì)算開銷,同時(shí)CSP策略將網(wǎng)絡(luò)推理過(guò)程中的梯度變換操作集成到特征圖中,避免了重復(fù)梯度信息導(dǎo)致計(jì)算量增加的問(wèn)題,并且保持推理準(zhǔn)確性。

      3 結(jié) 論

      1) 結(jié)合多尺度卷積方式和注意力機(jī)制,構(gòu)建了自適應(yīng)特征提取網(wǎng)絡(luò)MSDarkNet-53,在不增加計(jì)算開銷的基礎(chǔ)上,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),提升了網(wǎng)絡(luò)的特征表達(dá)能力。

      2) 提出了基于多尺度特征融合的目標(biāo)預(yù)測(cè)網(wǎng)絡(luò),融合不同層級(jí)特征映射,在單一尺度的高分辨率特征圖上進(jìn)行分類和回歸,有效增強(qiáng)了不同網(wǎng)絡(luò)層之間的上下文信息,提升了目標(biāo)預(yù)測(cè)的準(zhǔn)確性,尤其對(duì)小目標(biāo)的檢測(cè)效果提升明顯。

      3) 實(shí)驗(yàn)結(jié)果表明,與其他無(wú)人機(jī)檢測(cè)算法相比,該算法達(dá)到了較好的檢測(cè)性能,在保證檢測(cè)速度的前提下,顯著提高了檢測(cè)精度。但是該算法在遮擋過(guò)多的情況下,存在一定的漏檢現(xiàn)象,下一步將繼續(xù)優(yōu)化網(wǎng)絡(luò),進(jìn)一步提升檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性。

      猜你喜歡
      尺度卷積特征
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      如何表達(dá)“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠(chéng)的四個(gè)特征
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      抓住特征巧觀察
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      9
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      昌黎县| 新沂市| 桑植县| 吉木萨尔县| 巴彦淖尔市| 琼结县| 城固县| 乐陵市| 阜阳市| 崇文区| 兰州市| 高台县| 武胜县| 无锡市| 鞍山市| 江川县| 兴和县| 安仁县| 龙江县| 黎平县| 扬中市| 壤塘县| 花莲市| 厦门市| 遂溪县| 新宾| 绥宁县| 邯郸县| 增城市| 准格尔旗| 松滋市| 镇宁| 玉山县| 灵武市| 黑龙江省| 鄄城县| 冕宁县| 申扎县| 阿克苏市| 澳门| 清流县|