張云佐, 武存宇, 劉亞猛, 張?zhí)欤?鄭宇鑫
(1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.河北省電磁環(huán)境效應(yīng)與信息處理重點實驗室,河北 石家莊 050043)
作為信息化時代的新型技術(shù)產(chǎn)物,無人機在遙感測繪、城市管理、災(zāi)害預(yù)警等領(lǐng)域都展現(xiàn)出了巨大的價值和應(yīng)用前景[1]。但無人機高空巡航、飛行高度不定等作業(yè)方式,使其所捕獲的圖像通常存在背景復(fù)雜、包含大量密集微小目標(biāo)、目標(biāo)尺度變化劇烈等特點[2-3],因此無人機圖像目標(biāo)檢測仍然是一項具有挑戰(zhàn)性的任務(wù)。
傳統(tǒng)目標(biāo)檢測方法通??煞譃槿剑菏紫韧ㄟ^區(qū)域選擇器以遍歷的方式選出候選區(qū)域;然后利用HOG(Histograms of Oriented Gradients)[4],Haar[5]等特征提取器進行特征提??;最后使用AdaBoost[6]、支持向量機[7]等分類器對提取到的特征進行分類。但該類方法通過窮舉候選框來得到感興趣區(qū)域,不僅時間復(fù)雜度高,而且會產(chǎn)生大量窗口冗余[8]。此外手工設(shè)計的特征提取器泛化能力不足以應(yīng)對航拍圖像中的復(fù)雜場景和多類檢測任務(wù)[9]。
得益于硬件和算力的發(fā)展,基于深度學(xué)習(xí)的無人機圖像目標(biāo)檢測算法逐漸代替?zhèn)鹘y(tǒng)方法成為了主流。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法因其出色的特征表達(dá)和學(xué)習(xí)能力促進了無人機航拍圖像目標(biāo)檢測的發(fā)展。Yang等[10]提出了一種集群檢測網(wǎng)絡(luò)ClusDet,將聚類和檢測過程統(tǒng)一到了端到端框架中,同時通過隱式地建模先驗上下文信息提高尺度估計的準(zhǔn)確性。Yu等[11]對于無人機數(shù)據(jù)集中類別分布不均衡的問題進行了研究,并采用雙路徑方式分別處理頭部類和尾部類,這種處理方式有效提高了尾部類的檢測效果。Liu等[12]設(shè)計了一種針對高分辨率圖像的檢測模型HRDNet。該方法利用深層主干網(wǎng)絡(luò)和淺層主干網(wǎng)絡(luò)分別對低分辨率特征圖和高分辨率特征圖進行處理,解決了檢測高分辨率特征圖時計算開銷過大的問題。Wu等[13]從提高無人機目標(biāo)檢測魯棒性的角度展開研究,通過對抗學(xué)習(xí)方式區(qū)分有效的目標(biāo)特征和干擾因素,提高了單類目標(biāo)檢測的魯棒性。Youssef等[14]將多層級聯(lián)RCNN與特征金字塔進行融合,在個別類別上提升了精度,但整體效果下降。Li等[15]提出了一種感知生成對抗網(wǎng)絡(luò)模型,用于實現(xiàn)小目標(biāo)的超分辨率表示,使小目標(biāo)具有與大目標(biāo)相似的表達(dá),從而縮減尺度差異。Tang等[16]設(shè)計了一種無錨框的檢測器,并將原始高分辨率圖像分割為多個子圖像進行檢測,這使得算法在精度上得到提高,但這也帶來了更多的計算負(fù)荷。Mekhalfi等[17]通過膠囊網(wǎng)絡(luò)對目標(biāo)之間的關(guān)系進行建模,提高了網(wǎng)絡(luò)對于擁擠、遮擋情況下目標(biāo)的解析能力。Chen等[18]提出了場景上下文特征金字塔,強化了目標(biāo)與場景之間的關(guān)系,抑制了尺度變化帶來的影響,此外在ResNeXt結(jié)構(gòu)的基礎(chǔ)上,引入了膨脹卷積增大感受野。這些方法從不同角度入手對密集微小目標(biāo)檢測任務(wù)進行優(yōu)化,但此類方法沒有考慮到復(fù)雜背景對航拍圖像目標(biāo)檢測任務(wù)的影響,以及微小目標(biāo)信息隨網(wǎng)絡(luò)層數(shù)增加而丟失的問題。
為了實現(xiàn)對無人機視角中微小目標(biāo)的精準(zhǔn)檢測,本文提出了一種聯(lián)合自注意力和分支采樣的無人機圖像目標(biāo)檢測方法。首先,通過嵌套殘差結(jié)構(gòu)將自注意力機制集成到主干網(wǎng)絡(luò)中,實現(xiàn)對于全局信息和局部信息的有效結(jié)合,提升網(wǎng)絡(luò)對全局信息和上下文信息的捕獲能力。其次,針對現(xiàn)存特征融合模塊的缺陷,設(shè)計了一種基于分支采樣的特征融合模塊,通過分支并行策略分別實現(xiàn)上、下采樣操作,而后對不同分支的采樣結(jié)果進行融合,有效強化模型的空間位置信息和特征表達(dá)能力,并緩解了小目標(biāo)信息丟失問題。此外,將包含細(xì)粒度特征的淺層特征圖引入到特征融合序列中,改善小目標(biāo)檢測效果。最后,構(gòu)建了一種基于反殘差結(jié)構(gòu)的特征增強模塊以提取具有鑒別性的小目標(biāo)特征。
目前主流目標(biāo)檢測算法可以分為兩大類:以R-CNN系列[19-20]為代表的雙階段算法和以Yolo系列[21-22]為代表的單階段算法,其中雙階段算法的精度更高,但檢測速度較慢,而單階段算法憑借簡潔快速的優(yōu)點得到了更廣泛的應(yīng)用。
本文選擇Yolov5算法作為基線模型,改進后的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,其中,主干部分由CSPDarkNet53和本文提出卷積和自注意力相結(jié)合的嵌套殘差模塊(Nested Residual combining Convolution and Self-attention, NRCS)構(gòu)成,CSPDarkNet53用于提取局部特征,NRCS模塊獲取特征之間的全相關(guān)性,實現(xiàn)局部特征和全局特征的結(jié)合。Neck部分通過本文所提出的雙分支采樣的特征融合模塊(Double-Branch Sampling Feature Fusion model, DBS-FU)實現(xiàn)特征融合。該結(jié)構(gòu)通過多分支并行策略生成更精細(xì)的特征以提高特征融合效果。Head中引入淺層特征,構(gòu)建新的檢測頭(Head 1)。每個檢測頭通過編碼目標(biāo)信息生成具有S2×B×(4+1+C)維度的張量。S2為特征圖中包含的網(wǎng)格數(shù);B為每個網(wǎng)格上預(yù)設(shè)的預(yù)測框數(shù)量,在本文中被設(shè)置為3;S2×B×(4+1+C)中的數(shù)字4表示預(yù)測框的坐標(biāo)信息(x,y,h,w),數(shù)字1表示置信度;C表示待檢測目標(biāo)的類別數(shù)量。同時使用本文提出的反殘差結(jié)構(gòu)的特征增強模塊(Feature Enhancement module of In-Residual,F(xiàn)E-IR)對新增的檢測頭進行特征增強。
圖1 本文所提算法整體結(jié)構(gòu)圖Fig.1 Overall structure of the algorithm proposed in this paper
無人機所捕獲的高分辨率航拍圖像背景復(fù)雜,在通常情況下背景信息遠(yuǎn)超目標(biāo)信息。如果不予以處理,主干網(wǎng)絡(luò)在特征提取過程中就會提取到大量的無效背景信息。因此,需要讓模型聚焦在有效的目標(biāo)信息上。
自注意力機制最初被廣泛應(yīng)用在自然語言處理領(lǐng)域中。Dosovitskiy等[23]首次將自注意力機制引入到了計算機視覺領(lǐng)域,并取得了一定成效。隨著對自注意力機制研究的不斷深入,自注意力機制的作用已經(jīng)在計算機視覺領(lǐng)域得到了廣泛認(rèn)可。
在基于卷積神經(jīng)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)中,通過共享的卷積核進行特征提取,減少冗余參數(shù)的同時也帶來了兩種歸納偏好,即平移不變性和局部相關(guān)性,這使得卷積神經(jīng)網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面具有很大優(yōu)勢,但這也導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)受限于局部感受野,無法捕獲全局依賴關(guān)系。而自注意力機制則通過全局相似度計算像素之間的聯(lián)系,為不同像素點賦予不同權(quán)重,從而獲得全局相關(guān)性。自注意力相似度計算公式如下:
其中:X表示輸入序列,Wq,Wk,Wv分別表示三個隨機初始化矩陣,并且它們可以通過注意力進行動態(tài)調(diào)整,X與它們相乘得到Q,K,V。
其中:Q點乘KT,計算每個輸入序列和其他序列之間的相似程度。除以用于防止內(nèi)積過大導(dǎo)致梯度消失。其中dk為隱藏層維度。通過Softmax進行歸一化計算得到權(quán)重系數(shù)后再與V相乘即可得到通過自注意力機制調(diào)整后的輸入序列。
卷積神經(jīng)網(wǎng)絡(luò)擅長于對局部信息進行提取,而自注意力機制更擅長于對全局信息進行建模。綜上,基于卷積神經(jīng)網(wǎng)絡(luò)和自注意力機制互補的思想,設(shè)計了卷積和自注意力相結(jié)合的嵌套殘差模塊NRCS,其結(jié)構(gòu)如圖2所示。該結(jié)構(gòu)是一種嵌套殘差結(jié)構(gòu),外層殘差邊對局部信息進行恒等映射,內(nèi)層殘差結(jié)構(gòu)中使用多頭自注意力模塊(Multi Head Self Attention module,MHSA)計算全局相關(guān)性。與卷積結(jié)構(gòu)相比,所提出的NRCS模塊通過結(jié)合局部信息和全局信息提高模型對上下文信息的捕獲能力。
圖2 NRCS結(jié)構(gòu)圖Fig.2 Structure diagram of NRCS
此外,無人機圖像分辨率遠(yuǎn)超普通圖像,Sun等[24]研究發(fā)現(xiàn),對分辨率較高的特征圖進行全局相關(guān)性計算會帶來過多的計算量和顯存開銷,并導(dǎo)致訓(xùn)練過程難以收斂。實驗中發(fā)現(xiàn)目標(biāo)檢測任務(wù)中淺層的高分辨率特征圖更依賴卷積的局部特征提取能力。而對經(jīng)過多次下采樣的深層低分辨率特征圖進行全局相關(guān)性建模不僅可以保證主干網(wǎng)絡(luò)對局部信息和全局信息進行有效提取,而且所需的內(nèi)存開銷和計算量也更符合應(yīng)用需求。因此,本文方法僅在主干網(wǎng)絡(luò)末端使用NRCS結(jié)構(gòu),其余部分仍然使用卷積神經(jīng)網(wǎng)絡(luò)。這樣做既保留了卷積神經(jīng)網(wǎng)絡(luò)強大的局部特征提取能力,也通過自注意力獲取了全局信息。同時在深層低分辨率特征圖中使用NRCS模塊可以有效減少模型的參數(shù)量。
在特征融合階段,原始網(wǎng)絡(luò)結(jié)構(gòu)中通過構(gòu)建雙向特征金字塔實現(xiàn)信息交互,其中第一個特征金字塔通過線性插值進行上采樣,將淺層特征圖中的空間位置信息傳遞到深層特征圖。第二個特征金字塔則通過卷積進行下采樣,將融合后的信息逐步傳遞回淺層特征圖,保證每層特征層都有足夠的信息進行預(yù)測,但這種設(shè)計有兩個明顯的缺陷。首先,在深層特征圖向淺層特征圖傳遞信息的時候使用的采樣方法單一,導(dǎo)致深層語義信息并未有效傳遞。其次,在淺層特征圖向深層特征圖適配的過程中會出現(xiàn)嚴(yán)重的信息衰減的問題。而小目標(biāo)攜帶的信息量本就遠(yuǎn)小于常規(guī)目標(biāo),因此信息衰減問題對小目標(biāo)檢測來說更加致命。針對這些缺陷,設(shè)計了一種基于雙分支采樣的特征融合模塊DBS-FU。具體來講,DBSFU包含DBUS和DBDS兩個主要模塊。其結(jié)構(gòu)如圖3所示。
圖3 DBS-FU結(jié)構(gòu)圖Fig.3 Structure diagram of DBS-FU
如圖3(a)所示,DBUS模塊通過構(gòu)建Bilinear和Nearest兩條并行分支分別實現(xiàn)上采樣,其中Bilinear分支和Nearest中的采樣倍數(shù)(Scale_factor)均設(shè)為2。得到上采樣結(jié)果后使用歸一化(Batch Normalization, BN)分別對不同的上采樣結(jié)果進行處理,防止梯度消失。最后將各分支采樣結(jié)果進行逐元素加和,并使用SiLU激活函數(shù)引入更多非線性因素,得到最終的采樣結(jié)果。相較于單一的采樣方式,該結(jié)構(gòu)通過生成高質(zhì)量的上采樣結(jié)果強化淺層特征圖中的語義信息,從而提高模型對混淆目標(biāo)的分類能力。該過程定義如下:
其中:Branch_Bi和Branch_Ne對應(yīng)不同分支的上采樣結(jié)果,BN表示批處理歸一化層,⊕表示逐元素加和。
如圖3(b)所示,DBDS通過構(gòu)建Conv和Maxpool兩條并行分支分別實現(xiàn)下采樣,其中,Conv分支中卷積核大小為3,填充量為1,步長為2;Maxpool分支中池化核大小為2,填充量為0,步長為2。Conv分支提取局部感受野內(nèi)的整體特征,Maxpool分支則專注于池化核內(nèi)最突出的信息。這兩種特性對小目標(biāo)來說同樣重要,任意一種單一采樣方式都會導(dǎo)致某種信息的丟失。而分支并行策略可以有效緩解這一問題。每條分支都代表了原始特征圖中一部分特征。將下采樣結(jié)果融合后,可以對深層特征圖中的空間位置信息進行進一步強化,提高對小目標(biāo)的定位能力,并保留更多的上下文信息。其公式如下:
其中:Branch_Conv和Branch_Max對應(yīng)不同分支的下采樣結(jié)果,BN表示批處理歸一化層,⊕表示逐元素加和。
在基于卷積的深度學(xué)習(xí)網(wǎng)絡(luò)對圖像進行處理的過程中,特征圖的分辨率會隨著層數(shù)加深而逐漸變小。深層特征圖包含豐富的語義信息,但空間位置信息逐漸喪失。相比而言,淺層特征圖保留著較多的細(xì)粒度信息,更適合預(yù)測無人機圖像中大量的密集小目標(biāo)。因此,本文選擇將較淺層的特征圖集成到特征圖融合序列中。所提算法將最終用于預(yù)測的特征圖分為S×S個單元格,每個單元格僅預(yù)測一個中心點落入該單元格內(nèi)的目標(biāo)。當(dāng)多個目標(biāo)的中心點落入同一個單元格時會導(dǎo)致大量目標(biāo)漏檢。而淺層高分辨率特征圖將包含更密集的S,這降低了多個目標(biāo)落入同一網(wǎng)格區(qū)域的概率,有效提高密集小目標(biāo)的檢測精度。同時,我們通過將高分辨率特征圖的通道數(shù)由128提升至256,以提高特征融合過程中的淺層特征圖權(quán)重,該方法可有效提高模型對微小目標(biāo)的敏感性。
此外,在輸出最終的檢測結(jié)果前,需要先對特征進行降維,但對無人機圖像中大量存在的小目標(biāo)來說,低維特征不足以保留足夠的有用信息。并且特征通道數(shù)不足可能會阻礙梯度回傳,不利于模型訓(xùn)練。因此本文設(shè)計了一個基于反殘差的特征增強模塊FE-IR。該結(jié)構(gòu)先對特征進行升維,并利用深度卷積(Depthwise Convolution, DWConv)對高維特征進行特征提取以保證代表性。同時,我們將跳連路徑建立在升維后的特征上,將增強后的特征映射至下一層。激活函數(shù)ReLU會將分布小于0的特征截斷,導(dǎo)致信息損失。因此本文選擇在深層模型上效果更好的Swish作為激活函數(shù),以提高FE-IR模塊性能。本文將該模塊嵌入到檢測層之前,用于對小目標(biāo)特征進行增強。其結(jié)構(gòu)圖如圖4所示。
圖4 FE-IR 模塊結(jié)構(gòu)圖Fig.4 Structure diagram of FE-IR
損失函數(shù)用于度量網(wǎng)絡(luò)的預(yù)測結(jié)果與真實標(biāo)簽之間的距離,通過使損失函數(shù)最小化,不斷修正網(wǎng)絡(luò)參數(shù),實現(xiàn)精準(zhǔn)預(yù)測。所提算法使用的損失函數(shù)由三部分組成:置信度損失表示檢測框內(nèi)是否存在目標(biāo);回歸損失用于衡量預(yù)測框與真實框的誤差;分類損失表示預(yù)測類別和真實標(biāo)簽的差異??傮w損失函數(shù)定義如下:
其中:LossObj,LossRect,LossCls分別表示置信度損失、回歸損失和分類損失。A,B,C表示不同損失所占權(quán)重。
本文在計算回歸損失時考慮到預(yù)測值與真實值中心點坐標(biāo)、重疊面積和寬高比之間的相關(guān)性,通過CIoU處理回歸損失。定義如下:
其中:ρ為預(yù)測框和真實框的中心點距離,c為兩者的最小包圍矩形的對角線長度,v為兩者的寬高比相似度,λ為v的影響因子。
本文置信度損失使用二值交叉熵(Binary cross entropy, BCE)。置信度損失定義如下:
其中:oi表示預(yù)測框i內(nèi)是否存在目標(biāo),ci表示預(yù)測值。
BCE損失不僅適用于二分類任務(wù),也可以通過多個二元分類疊加實現(xiàn)多標(biāo)簽分類,故本文分類損失同樣采用BCE損失,分類損失定義如下:
其中:Oij表示預(yù)測框i內(nèi)的目標(biāo)是否為當(dāng)前類別,Cij表示預(yù)測值。
本文實驗的運行環(huán)境為:操作系統(tǒng)CentOS7,顯卡型號NVIDIA Tesla V100S-PCIE-32GB,處理器Intel(R) Xeon(R) Gold 6226R CPU @ 2.90 GHz。采用Pytorch深度學(xué)習(xí)框架。實驗過程中,所有模型訓(xùn)練均采用隨機梯度下降算法,初始學(xué)習(xí)率為0.001,動量因子為0.9,Batchsize為2。
VisDrone2019數(shù)據(jù)集[25]由AISKYEKY團隊制作,其中包含288個視頻片段,共包括261 908幀和10 209個靜態(tài)圖像,官方提供的數(shù)據(jù)集中選取了6 471張圖像作為訓(xùn)練集,548張圖像作為驗證集。數(shù)據(jù)集中包含了11個類別,分別是行人、汽車、人、公交車、自行車、卡車、面包車、帶棚三輪車、三輪車、摩托車以及others,其中others是非有效目標(biāo)區(qū)域,本次實驗中予以忽略。訓(xùn)練過程中,輸入圖像分辨率為1 536×1 536。
UAVDT數(shù)據(jù)集[26]由Du等在2018年歐洲計算機視覺會議提出。數(shù)據(jù)集中包含50個視頻片段。本文按照通用標(biāo)準(zhǔn),將前30個視頻片段中的22 919張圖像用于訓(xùn)練,后20個視頻片段中的17 457張圖像用于測試。該數(shù)據(jù)集共包含汽車、貨車、公交車3類檢測目標(biāo),涉及十字路口、高速公路、街區(qū)等常見場景。訓(xùn)練過程中,輸入圖像分辨率為800×800。
為了精準(zhǔn)量化所提模型在無人機航拍圖像上的檢測性能,本文采用多類目標(biāo)檢測任務(wù)中公認(rèn)度最高的評估指標(biāo):平均精度均值(mean Average Precision, mAP)。其中mAP是通過按0.05為步長在0.5~0.95中取10個IoU閾值再取平均精度的過程,mAP50和mAP75則是分別以0.5和0.75的作為IoU閾值計算得到的平均精度,mAP計算過程如下:
其中:TP(True Positives)表示真正例,F(xiàn)P(False Positive)表示假正例,F(xiàn)N(Flase Negatives)表示假反例,n表示類別數(shù)量,J(Precision,Recall)k表示平均精度函數(shù)。
為了適應(yīng)不同的需求,本文通過調(diào)整網(wǎng)絡(luò)的深度和寬度獲得了兩種不同規(guī)模的模型:m和s。其中m模型精度更高,但檢測速度相對較低。s模型檢測速度優(yōu)于m模型,但精度相較于m模型有所下降。我們將兩種模型在VisDrone2019數(shù)據(jù)集上的表現(xiàn)和其他目標(biāo)檢測算法進行比較,并在UAVDT數(shù)據(jù)集上驗證所提方法的泛化能力。
3.4.1 VisDrone數(shù)據(jù)集實驗結(jié)果
為了直觀地展示本文所提算法相較于基線模型的性能提升,我們在表1中顯示了兩種基線模型和本文所提算法對VisDrone2019數(shù)據(jù)集中各類目標(biāo)的檢測性能。實驗結(jié)果表明,本文所提算法的兩種模型在全部類別上均實現(xiàn)提升,其中,行人、人、摩托車等小目標(biāo)提升效果明顯。
表1 基線模型和本文算法在VisDrone2019上的性能對比Tab.1 Comparison of the results of the baseline and the algorithm in this paper on VisDrone2019(%)
為了客觀地展示本文所提方法的性能優(yōu)勢,我們將兩種型號的模型與其他最先進的目標(biāo)檢測方法在VisDrone2019數(shù)據(jù)集上的性能表現(xiàn)進行了比較和分析。結(jié)果如表2所示,其中所提方法的m模型的mAP50,mAP和mAP75分別達(dá)到62.1%,38.9%和39.5%,在所有對比算法中達(dá)到最優(yōu)。此外,所提算法的s模型的mAP50,mAP和mAP75分別達(dá)到59.3%,37.1%和38.3%,其中mAP和mAP75達(dá)到次優(yōu)。mAP50僅次于所提算法的m模型和HRDNet。值得注意的是,HRDNet算法的輸入圖像分辨率遠(yuǎn)超本文所提方法,盡管這會提高精度,但這會嚴(yán)重影響檢測速度。本文所提方法的兩種模型在輸入圖像分辨率遠(yuǎn)低于HRDNet的情況下,整體性能仍然取得了最優(yōu)和次優(yōu)的結(jié)果。因此,本文所提方法更適合處理無人機圖像目標(biāo)檢測。
表2 不同算法模型在VisDrone2019上的結(jié)果對比Tab.2 Comparison of results of different algorithm models on VisDrone2019(%)
3.4.2 UAVDT數(shù)據(jù)集實驗結(jié)果
為了探究本文所提算法的泛化能力,我們測試了兩種型號的基線模型和本文所提算法在UAVDT數(shù)據(jù)集中的檢測性能。結(jié)果如表3所示,相較于基線模型,本文所提算法在全部類別上的檢測精度均實現(xiàn)提升。
表3 基線模型和本文方法在UAVDT上的性能對比Tab.3 Comparison of the results of the baseline and the algorithm in this paper on UAVDT(%)
表4列舉了本文所提方法和其他對比算法在UAVDT數(shù)據(jù)集上的性能表現(xiàn)。實驗結(jié)果表明,本文所提方法的m模型在UAVDT數(shù)據(jù)集上的mAP50,mAP和mAP75分別達(dá)到44.7%,25.3%和28.1%,相較于其他對比方法,m模型的三項指標(biāo)均達(dá)到最優(yōu),而s模型的mAP50和mAP也達(dá)到次優(yōu)。綜上,本文所提方法具有較高的檢測精度和泛化能力。
表4 不同算法在UAVDT數(shù)據(jù)集上的結(jié)果對比Tab.4 Comparison of results of different algorithm models on UAVDT(%)
本文提出的DBS-FU模塊通過并行分支分別進行采樣,以獲取高質(zhì)量的特征融合結(jié)果。為了驗證單一采樣和并行采樣方式的性能差異,我們在VisDrone2019數(shù)據(jù)集上進行了相關(guān)測試,結(jié)果如表5所示。當(dāng)使用基線模型默認(rèn)的Nearest上采樣和Conv下采樣時,mAP50和mAP分別為53.7%和31.7%。相較于Nearest,Bilinear利用相鄰像素分別在兩個方向上進行插值。在替換Bilinear后,模型性能有所提升。而本文所提出的DBUS模塊通過不同分支分別進行上采樣,并在批處理歸一化后對不同的上采樣結(jié)果進行逐元素加,再由激活函數(shù)SiLU引入更多非線性因素。相較于單一方式的采樣結(jié)果,DBUS所得到的特征圖中攜帶更多的信息量,在特征融合過程中可以向淺層特征圖傳遞更豐富的語義信息,從而提高模型對目標(biāo)的分類性能。因此,當(dāng)使用DBUS時,模型精度優(yōu)于任意一種單一采樣方法。在下采樣時,使用卷積或池化任意一種下采樣方式都會導(dǎo)致另一部分信息缺失,而本文所提出的DBDS模塊同時使用兩條采樣分支捕獲不同信息,有效減少信息損耗。
表5 不同采樣方式性能對比Tab.5 Performance comparison of different sampling methods(%)
表6 消融實驗結(jié)果Tab.6 Ablation experiment result
為了驗證本文所提出的各個模塊對模型整體性能的影響,本文選取6.0版本的Yolov5-s作為基線模型,通過消融實驗對所提出的各個模塊的有效性進行驗證。結(jié)果如表5所示。對于消融實驗結(jié)果的具體分析如下:
在未添加任何改進模塊時,基線模型的mAP50和mAP分別為53.7%和31.7%。在此基礎(chǔ)上,引入淺層高分辨率特征圖構(gòu)建新的檢測頭,mAP50和mAP增長至54.8%和32.4%,但參數(shù)量有所上升。當(dāng)提高特征融合序列中淺層特征圖權(quán)重占比,并通過加大深層特征圖中卷積步距來平衡參數(shù)時,mAP50和mAP進一步增長至56.1%和34.3%,并且參數(shù)量下降。NRCS模塊通過結(jié)合局部信息和全局信息,降低復(fù)雜背景對模型的影響。數(shù)據(jù)表明在加入NRCS模塊后,mAP50和mAP增長至56.9%和35.1%,參數(shù)量明顯下降??紤]到現(xiàn)有特征融合方法無法高效融合多尺度信息,信息衰減嚴(yán)重,構(gòu)建DBS-FU特征融合模塊,該模塊通過并行分支生成高質(zhì)量特征圖,提高信息傳遞效率。數(shù)據(jù)表明分別加入DBUS模塊和DBDS模塊后,mAP50和mAP均出現(xiàn)上升,證明采用分支并行策略生成的采樣結(jié)果在特征融合過程中效果更優(yōu)。為了對小目標(biāo)特征進行增強,設(shè)計了FE-IR模塊,數(shù)據(jù)表明加入3組FE-IR模塊后,mAP50和mAP增長至59.7%和37.1%,但檢測速度有所下降。鑒于FE-IR模塊即插即用,使用者可以根據(jù)需求靈活增加或減少FE-IR模塊的數(shù)量。綜上所述,消融實驗表明本文所提的四個改進點都可以提高無人機圖像目標(biāo)檢測的精度。
為客觀表現(xiàn)本文所提算法相較于其他算法的優(yōu)勢,本文在VisDrone2019和UAVDT數(shù)據(jù)集中選取了不同場景下的圖片作為測試對象,不同檢測結(jié)果中差異較大的區(qū)域被黃色線框標(biāo)注(彩圖見期刊電子版)。
如圖5所示,我們在VisDrone2019數(shù)據(jù)集中選取了四種常見的無人機圖像,分別為高空視角、低空視角、密集小目標(biāo)場景和夜間場景。圖5(a)展示無人機在城市高空捕獲的鳥瞰圖像,該類圖像分辨率較高,但背景信息復(fù)雜,容易對待測目標(biāo)造成干擾。如圖5(a)結(jié)果所示,其他檢測算法不僅將圖像右上角中的形似物體(民房、小屋等)誤判為目標(biāo),而且部分待測目標(biāo)并未被檢測,而本文所提算法可以通過引入全局信息對復(fù)雜背景進行有效抑制。圖5(b)中展示了無人機在低空作業(yè)環(huán)境下捕獲的圖像,該類圖像中目標(biāo)尺寸差異明顯。觀察結(jié)果可發(fā)現(xiàn),此類圖像中漏檢情況較為頻繁,而所提方法在檢測不同尺寸的目標(biāo)時更具有優(yōu)勢。圖5(c)展示了密集小目標(biāo)場景中模型的檢測性能,其他算法中將特征圖分為若干網(wǎng)格單元,每個網(wǎng)格單元預(yù)測一個目標(biāo)。當(dāng)目標(biāo)尺寸較小且排列密集時,多個目標(biāo)落入同一網(wǎng)格單元的概率將大大增加,導(dǎo)致大量目標(biāo)未被檢測。而所提方法通過改進后的檢測頭引入淺層特征層增加了網(wǎng)格單元的數(shù)量,減少了多個小尺寸目標(biāo)落入同一網(wǎng)格的概率。圖5(d)中展示了夜間場景的檢測結(jié)果。目標(biāo)檢測模型極易受到光線不足帶來的影響。該類圖像中,可用特征較少,目標(biāo)難以與背景分離。其他算法的檢測結(jié)果中大量受到遮擋或處于暗處的目標(biāo)未能被檢測。而本文所提算法可以提取到精細(xì)和具有鑒別性的特征,從而提高在此類場景中的檢測能力。
圖5 不同算法在VisDrone2019數(shù)據(jù)集上的檢測結(jié)果對比Fig.5 Comparison of detection results of different algorithms on VisDrone2019
圖6中展示了不同算法在UAVDT數(shù)據(jù)集上的檢測結(jié)果。結(jié)果表明,本文所提方法街道、路口、夜晚多種復(fù)雜場景中取得了顯著的檢測結(jié)果。
圖6 不同算法在UAVDT數(shù)據(jù)集上的檢測結(jié)果對比Fig.6 Comparison of detection results of different algorithms on UAVDT
不同數(shù)據(jù)集上的驗證結(jié)果表明,本文所提方法具有抗干擾性強、檢測精度高、泛化能力強等優(yōu)勢,更適合于無人機圖像目標(biāo)檢測任務(wù)。
無人機圖像中存在背景復(fù)雜、尺度變化劇烈、包含大量密集微小目標(biāo)等問題,這對無人機圖像目標(biāo)檢測任務(wù)帶來了一定挑戰(zhàn)性。針對上述問題,本文提出了一種聯(lián)合自注意力和分支采樣的無人機圖像目標(biāo)檢測方法。首先,該方法在現(xiàn)有的目標(biāo)檢測算法基礎(chǔ)上,構(gòu)建卷積和自注意力相結(jié)合的嵌套殘差模塊NRCS,通過結(jié)合局部信息和全局信息提高模型對上下文信息的捕獲能力,緩解復(fù)雜背景帶來的干擾問題。其次,針對現(xiàn)有特征融合模塊的缺陷,通過分支并行策略構(gòu)建DBS-FU特征融合模塊,提高特征融合質(zhì)量。最后,將經(jīng)過權(quán)重調(diào)整后的淺層細(xì)粒度特征圖引入到特征融合序列中,設(shè)置對應(yīng)的檢測頭以適應(yīng)尺度變化的影響,并利用提出的特征增強模塊FE-IR捕獲更具有鑒別能力的小目標(biāo)特征。實驗結(jié)果表明,本文所提方法在不同場景中均表現(xiàn)出了良好的檢測性能。