李容光 楊夢龍
摘? 要:在多尺度多目標的背景下,小目標由于像素少、提取特征困難,其檢測精度遠遠低于大中目標。文章通過使用離散自注意力提取跨尺度的全局的上下文背景信息,使用跨尺度通道注意力和尺度注意力來增強模型的尺度敏感性,捕捉到更多不同的、更豐富的物體-物體、背景-物體信息,使得每一層特征層都是一個跨空間和跨尺度的擁有更豐富特征信息的特征層,從而提高在多尺度背景下小目標檢測的效果。在COCO數(shù)據(jù)集上,本算法的APs高于基準retinanet最高達2.9,在DIOR數(shù)據(jù)集上mAP能夠達到69.0,優(yōu)于該數(shù)據(jù)集上最優(yōu)算法,同時能夠維持自己單階段的速度。
關(guān)鍵詞:目標檢測;小目標檢測;離散自注意力;跨尺度注意力
中圖分類號:TP391.4? ? 文獻標識碼:A? ? 文章編號:2096-4706(2023)05-0001-07
Small Object Detection Method under the Background of Multi-Scale Image
Based on Attention and Context
LI Rongguang, YANG Menglong
(School of Aeronautics and Astronautics, Sichuan University, Chengdu? 610065, China)
Abstract: Under the background of multi-scale and multi-target, the detection accuracy of small targets is far lower than that of large and medium targets due to fewer pixels and difficulty in feature extraction. Through using discrete self-attention to extract cross-scale global context information, and using cross-scale channel attention and scale attention to enhance the scale sensitivity of the model, this paper captures more different and richer object-Object and background-object information, so that each feature layer is a feature layer with richer feature information across space and scale, thereby improving the effect of small target detection under the background of multi-scale. On the COCO data set, the APs of this algorithm are higher than the benchmark retinanet by up to 2.9, and the mAP on the DIOR data set can reach 69.0, which is better than the optimal algorithm on this data set, while maintaining its own single-stage speed.
Keywords: object detection; small object detection; discrete self-attention; cross-scale attention
0? 引? 言
隨著深度學(xué)習(xí)的發(fā)展,目標檢測迎來了新的發(fā)展,相比較于傳統(tǒng)的目標檢測,其精度和速度都上了一個大的階梯,被廣泛地應(yīng)用到自動駕駛、視覺導(dǎo)航、工業(yè)檢測、航空航天和救援等諸多的領(lǐng)域。然而,在很多應(yīng)用場景中,存在著大量的小目標對象,這些對象與其他大尺度的對象共存于待檢測的圖中,這些小目標由于像素少,信噪比低和在多層下采樣導(dǎo)致的大感受野中占比極小,導(dǎo)致檢測的效果很難滿足實際的需要,所以,提升小目標的檢測效果有很大的實際意義。
目標檢測的主要任務(wù)是從給定的圖像中定位物體的位置和識別物體的類別。根據(jù)階段的數(shù)量,可以將目標檢測分為單階段和雙階段模型。單階段模型是將定位和分類一步到位,其優(yōu)勢是速度快,代表性的框架有YOLO[1]系列、fcos[2]和ssd[3]等一階段目標檢測模型;雙階段模型先通過rpn(region proposal network)網(wǎng)絡(luò)或者其他算法生成proposal,第二階段再對proposal進行位置的修正和分類,所以雙階段網(wǎng)絡(luò)的檢測準確率比單階段網(wǎng)絡(luò)高很多,代表性的網(wǎng)絡(luò)有rcnn[4]系列網(wǎng)絡(luò)。此外還可以按照有無anchor分類,分為anchor-based和anchor-free,其中anchor-based方法需要提前在特征圖上面鋪設(shè)anchor,并設(shè)置一系列的超參數(shù),如長寬比、尺度大小、anchor數(shù)量。模型檢測結(jié)果對這些超參數(shù)都比較敏感。而像fcos[2]和centerne[5]類的anchor-free方法,在檢測上達到了與單階段anchor-based方法接近的效果,且減少了anchor相關(guān)的超參數(shù),使得訓(xùn)練和調(diào)節(jié)超參數(shù)變得簡單。小目標的檢測,也是使用的是目標檢測的框架,其固有的下采樣特性對小目標不友好。
小目標的定義[6]主要有兩種,一種是COCO數(shù)據(jù)集規(guī)定的按照絕對尺寸大小來進行劃分,像素值小于32×32即為小目標;第二種是按照相對尺寸來進行劃分,檢測目標與圖像面積之比在1%以下的為小目標。在過去的幾年里,眾多學(xué)者已經(jīng)做了很多關(guān)于小目標檢測的研究,這些研究主要是根據(jù)導(dǎo)致小目標檢測困難的原因進行的研究。小目標檢測的一個難點在于像素點少,針對這個原因,有學(xué)者采用超像素[7]的方法,在檢測前,先對圖像通過超像素網(wǎng)絡(luò)生成高像素的圖片,再進行檢測,但是這種辦法增加了檢測的時間;也有學(xué)者使用GAN來單獨針對小目標生成與大目標分布類似的特征[8],再進行檢測;深度學(xué)習(xí)模型中多次下采樣會導(dǎo)致小目標信息丟失嚴重,為了減少深度學(xué)習(xí)模型對小目標的影響,有學(xué)者采用了下采樣倍數(shù)比較小的淺層特征圖[9]進行識別,這種方式對資源的需求比較大;針對存在多尺度物體的圖像中,小尺度的物體檢測效果不好,有學(xué)者采用圖像金字塔[10],將多個尺度的圖像輸入到模型分別進行訓(xùn)練,但是這會導(dǎo)致訓(xùn)練時間增加,顯存占用也極大;為了解決圖像金字塔存在的問題,有學(xué)者提出了特征金字塔[3],在每個不同尺度的特征層進行檢測,能夠有效地避免大的計算量和顯存占用;為了解決小尺度特征層上語義信息不足,有學(xué)者在特征金字塔上使用特征融合[11],豐富底層的特征的語義信息和高層特征的空間信息;除了上述的使用特征金字塔進行多尺度物體的檢測以外,有人提出了專門針對多尺度檢測的訓(xùn)練方法[12]來增加檢測性能,還通過采用不同感受野大小的filter[13]進行提取特征,再進行檢測。此外大部分基于anchor的模型,其本身對小目標是不友好的,因為小目標的檢測對anchor的大小、密集程度等超參數(shù)的變化很敏感,因此在訓(xùn)練的時候,會根據(jù)小目標的數(shù)量進行anchor大小和密集程度進行調(diào)節(jié)。針對現(xiàn)有IoU匹配方法對小目標不友好的問題,有學(xué)者提出了新的專門針對小目標的匹配方法[14]。雖然針對小目標,大家提出了很多的解決辦法,然而小目標的檢測指標相對于大中目標還是相差甚遠。
根據(jù)小目標攜帶的特征信息較少,缺乏將其與背景或類似物體區(qū)分開的有效外觀信息的特征,本文提出了在自然場景下的目標檢測任務(wù)中融入目標周圍甚至全局的跨尺度上下文信息的方法和跨尺度特征融合的方法,來豐富特征信息的表達,提升模型對小目標的檢測效果。即通過跨尺度離散注意力的方法來進行跨尺度上下文信息的提取,通過跨尺度通道注意力和尺度注意力模塊來進行實現(xiàn)跨尺度的特征融合。
1? 模型和方法
1.1? 注意力機制
人類的視覺機制可以對重點區(qū)域重點關(guān)注,將有限的注意力集中在重點信息上,分配更多的注意力,同時減少對其他區(qū)域的關(guān)注。在計算機視覺中,利用類似的機制,可以顯著地降低模型的計算量,同時可以定位到感興趣的信息,抑制無用信息,而實現(xiàn)重點關(guān)注和非重點關(guān)注的方法就是使用權(quán)重進行加權(quán)。注意力的作用對象可以使用一個序列att={att1, att2,…, attN}來表示,其中atti∈RD,D表示維度,其中N表示代處理對象的個數(shù),這里的處理對象在空間注意力可能會是特征圖上不同的像素點,在通道注意力上,是特征圖的每個通道。注意力主要做的事就是在每個時刻t計算出針對每個對象atti的權(quán)重at, i,計算公式為:
Mt,i=fa(att1,att2,…attN)
Mt,i表示中間變量,j表示對象下標,fa(·)表示關(guān)系建模的操作,可以表示一個子網(wǎng)絡(luò),也可以表示內(nèi)積,余弦相似度等方法。計算出權(quán)重以后,Φ(·)就可以使用上面的權(quán)重通過某種方法對對象進行選擇,得到新的對象的表示。如軟注意力使用線性加權(quán)函數(shù),比較有名的工作有SEnet[15]和CBAM[16];硬注意力使用離散選取的方式,圖像裁剪即是一種硬注意力。本文方法都啟發(fā)于注意力機制。
1.2? 離散自注意力
從自然語言處理領(lǐng)域遷移過來的自注意力模型[17]是注意力機制的變體,其減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。可以用來編碼全局信息,建模物體與物體間的關(guān)系,增強目標的特征表示。但是其訓(xùn)練收斂慢,且需要大量的數(shù)據(jù)才能收斂。經(jīng)過研究發(fā)現(xiàn),自注意力機制的注意力矩陣一開始是一個比較均勻的密集矩陣,經(jīng)過訓(xùn)練以后的矩陣是稀疏矩陣,這意味著特征圖里里面的每個點q不是與全局中的每個k都有關(guān),而只是與幾個點有關(guān),所以可以讓注意力矩陣一開始就是離散的,受到上述啟發(fā),改進了自注意力,提出了離散自注意力,具體如下:
如圖1所示,使用q經(jīng)過一個位置偏移預(yù)測網(wǎng)絡(luò)預(yù)測出q與圖上哪些點有關(guān),然后將這些點與q進行自注意力的操作,使用公式描述過程如下:
posi=netselect(q)
上述的q為自注意力機制中的Query,netselect(·)為一個預(yù)測位置的多層感知機網(wǎng)絡(luò),輸出的結(jié)果為相關(guān)點的坐標偏移,其中參考點為q點,每個預(yù)測的相關(guān)的k點的偏移坐標都是相對于q點的,k為自注意力中的Key,v為Value,加了posi下標的符號表示是從預(yù)測的位置提取出的k和v。q′為新的結(jié)合了最相關(guān)的全局上下文信息的q的表示。其中netselect預(yù)測的坐標點個數(shù)是一個超參數(shù),太大會增加模型的計算和引入過多的不必要的信息,導(dǎo)致收斂的速度變慢,太少使得該點需要的背景沒有被充分的加入進去,本文通過大量的實驗,發(fā)現(xiàn)最好的效果的值為12。離散自注意力可以用來捕獲非局部的特征,以實現(xiàn)較遠空間內(nèi)的特征交互。
1.3? 跨尺度背景上下文提取
目標檢測的主流框架是采用多尺度預(yù)測,即每層特征圖預(yù)測不同尺度的物體,小物體在比較低的特征層下識別,大的物體在更高的特征層識別。然而這種情況下,會產(chǎn)生上下文信息和目標對象特征之間的矛盾:需要融合的上下文信息與目標對象的特征不屬于同一特征層。比如區(qū)分電腦顯示器和電視的一個背景因素是鼠標,然而負責預(yù)測鼠標的層跟負責預(yù)測電腦和電視的層不一樣,就會導(dǎo)致矛盾。大目標和小目標大小相差太大,在相同尺度下特征信息相差太大,所以非局部交互應(yīng)該是在目標相應(yīng)的尺度上,而不是一個統(tǒng)一的尺度,即大物體與小物體的交互應(yīng)該是負責識別大物體的特征層上的有關(guān)大物體的特征和負責識別小物體的特征層上的有關(guān)小物體的信息進行交互。
綜上所述,需要一種能夠提取尺度內(nèi)的全局背景信息和跨尺度提取上下文信息的方法,而1.2小節(jié)提到的離散自注意力能夠有效地在同一層進行局部特征與全局特征的交互,生成關(guān)于每個點的全局上下文信息,只需要稍微改進,就可以擁有跨尺度交互的能力。為了能夠更好地使得不同尺度的信息進行交互,得到更利于識別的特征,這里通過改進離散自注意力加入了跨尺度交互的自注意力,如圖2所示,與1.2小節(jié)的尺度內(nèi)交互的自注意力操作類似,只是k點的選取除了在同尺度內(nèi),還會在相鄰的高層特征圖進行選取,整個結(jié)構(gòu)的計算方向,是自底向上的方式,通過這樣的操作進行跨尺度上下文的提取,能夠豐富每個特征的表示,進一步提升小目標的檢測效果。
1.4? 跨尺度特征融合
1.4.1? 跨尺度通道注意力特征融合
常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)通過backbone的最后一個特征圖的特征來進行識別,這對于小目標而言是有害的,因為分辨率較低的特征圖容易忽視小的目標,一種解決方案為使用特征金字塔,對于較大的目標,在深層特征圖中預(yù)測,對于較小的目標,使用淺層的特征圖預(yù)測。但是這種預(yù)測方式在實驗的過程中仍然有一些問題,原因在于低層特征圖因為沒有進行后續(xù)的卷積特征提取,使得該特征層缺少足夠的語義信息,而語義信息對物體的類別識別有很重要的作用,一個解決方案是將上層的特征圖與下層的特征圖進行一個融合,使得空間信息和語義信息都更加充足。
本文依然采用了融合上層的語義信息來增強小目標的特征表示,同時增加了跨尺度的交互的部分。具體的操作如圖3所示,通過對下層特征圖的通道進行關(guān)系的建模,生成對應(yīng)的通道權(quán)重(b,c,1,1),使用該權(quán)重加權(quán)上層特征圖。該操作可以來提取下層特征圖通道全局信息,然后使用這些信息來指導(dǎo)上層特征圖的通道關(guān)系,使得下層的信息與上層的全局信息進行交互,同時通過此通道注意力抑制多余的信息,突出更有用的信息。通過跨尺度通道注意力得到的特征圖,再進行2倍上采樣,然后與其相鄰的下層特征圖進行特征融合。
1.4.2? 尺度注意力特征融合
此處借鑒了PANET[18]的思想,PANET是先進行top-down的特征融合,然后進行bottle-up的特征融合,本篇文章采取不一樣的融合方式,相當于同時進行了top-down和bottle-up的融合,而不是串行的方式。如圖4所示,F(xiàn)1,F(xiàn)2,F(xiàn)3表示相鄰的三個特征層,將F1上采樣到F2的大小,然后將F3下采樣到F1大小,再進行相加,這里相加不是直接相加,而是借鑒了通道注意力的思想,使用一個權(quán)重預(yù)測網(wǎng)絡(luò),來預(yù)測每個特征層的權(quán)重,使用權(quán)重加權(quán)對應(yīng)的特征層,將加權(quán)后的特征圖相加,得到新的特征圖。此操作使每一層都能夠獲得來自上層的語義信息和來自下層的空間信息,同時加權(quán)的操作提升了模型的尺度敏感性,更能夠適應(yīng)多尺度背景下的檢測。相比于尺度內(nèi)的交互,跨尺度的交互能夠捕捉到更多不同的、更豐富的物體-物體、背景-物體信息去幫助更好地去進行物體識別和檢測,使得每一層都是一個跨空間和尺度交互的擁有更豐富特征信息的特征層。
1.5? 整體架構(gòu)
如圖5所示,與retinanet[19]的模型一樣,采用backbone輸出的多層特征圖進行預(yù)測,每兩層特征圖中間使用離散自注意力獲取跨尺度和長距離的上下文信息,同時將跨尺度的上層語義信息通過跨尺度通道注意力提取出來,然后語義信息、上下文信息和特征圖加起來得到信息更豐富的特征層。然后對最上層的特征層進行一個兩倍下采樣,生成的四層特征層作為操作3的輸入。操作3為尺度注意力特征融合模塊,具體的闡述在1.4小節(jié)。其中尺度注意力模塊是可以疊加多個,經(jīng)過實驗,發(fā)現(xiàn)N=2的時候,達到的效果最好。圖5中操作1為1.3小節(jié)闡述的跨尺度離散自注意力模塊,操作2為1.4小節(jié)的跨尺度通道注意力特征融合模塊。
2? 實? 驗
2.1? 實驗準備及實驗設(shè)置
現(xiàn)有的用于檢測多尺度情況下小目標檢測的數(shù)據(jù)集分為兩種,第1種是公共數(shù)據(jù)集,即COCO數(shù)據(jù)集;第2種是各個領(lǐng)域的應(yīng)用數(shù)據(jù)集如遙感數(shù)據(jù)集、人臉數(shù)據(jù)集、行人數(shù)據(jù)集及交通標志和信號燈數(shù)據(jù)集等。本文實驗所用的數(shù)據(jù)集為COCO數(shù)據(jù)集和DIOR[20]數(shù)據(jù)集,使用兩個數(shù)據(jù)集配置的測試集進行測試。其中DIOR數(shù)據(jù)集類別信息和類別如圖6所示,該數(shù)據(jù)集主要有以下兩個特征:
一個是規(guī)模大,由23 463張圖片組成,類別數(shù)為20,總實例數(shù)為192 472,圖像大小為800×800。
另一個是尺度差異大,這里的尺度指的是實例的空間大小。DIOR數(shù)據(jù)集中,不僅類別間的實例尺度差異大,而且類內(nèi)的實例尺度差異也比較大,物體尺度的多樣性有利于與真實世界相關(guān)的任務(wù),小尺度物體和大尺度物體的數(shù)量處于一個比較均衡的狀態(tài),這對檢測的模型是一個挑戰(zhàn),因為整個數(shù)據(jù)集上面的物體尺度跨越比較大。
一般會采用兩種方式來測試檢測模型的效果。在IoU(交并比)為[0.5:0.95:0.5]這10個值上分別計算mAP,最后計算平均值,這是COCO數(shù)據(jù)集采用的測試指標;另外一種需要計算IoU=0.5時相應(yīng)的精度和召回率,最后得到相應(yīng)的mAP。顯而易見,前者的多IoU評價方法能夠更好地反應(yīng)檢測模型和算法的綜合的性能,對算法和模型要求更高。
在此基礎(chǔ)上,本文設(shè)計了消融實驗和橫向?qū)Ρ仍囼瀮山M實驗。消融實驗主要是為了驗證本文提出的各模塊的有效性,為了能夠比較精細地看到每個模塊的作用,這一部分實驗采用的是第一種評估方式,使用COCO數(shù)據(jù)集進行訓(xùn)練和測試。橫向?qū)Ρ葘嶒炇菫榱藢Ρ任闹刑岢龅乃惴ㄅc其他的算法的優(yōu)劣,為了提高實驗的效率這里直接采用第二種評估方式來進行評估,使用DIOR數(shù)據(jù)集進行訓(xùn)練和測試。
實驗使用的配置與retinanet一致,使用相同的數(shù)據(jù)增強方法,輸入設(shè)置為1 333×800;使用在Imagenet[21]上預(yù)訓(xùn)練的Resnet-50[22]作為消融實驗的backbone,k設(shè)置為12。模型使用SGD訓(xùn)練12個epoch,momentum=0.9,weight_decay=0.000 1,學(xué)習(xí)率使用線性縮減策略,訓(xùn)練開始使用學(xué)習(xí)率為0.001,當訓(xùn)練到第9個epoch和第12個epoch時,將學(xué)習(xí)率降到0.000 1和0.000 01。消融實驗使用的是COCO2017數(shù)據(jù)集,訓(xùn)練和測試集使用官方劃分。對比實驗采用的是DIOR數(shù)據(jù)集,按照1:2:7的比例劃分驗證集、測試集和訓(xùn)練集。實驗環(huán)境為ubuntu 20.04,工具為pytorch,在2張Titan RTX顯卡進行訓(xùn)練。
2.2? 消融實驗結(jié)果
消融實驗的基準為retinanet,所用數(shù)據(jù)集為COCO。為了測試所提出的各模塊的有效性,實驗比較了加入不同模塊模型的性能。Re_content指的是只加入了離散自注意力提取背景上下文的模型,Re_seme指的是只加入了跨尺度語義信息的模型,Re_scale指的是加入尺度注意力的模型,Re_all指的是加入上述所有操作的模型。實驗結(jié)果如表1所示,每個模塊都對小目標的檢測,起到了積極的作用,re-all的AP相比于基準retinanet提高了2.1,APs提高了2.9,其他指標也都有顯著的提高,可以看出本文提出的方法對小目標的檢測有很大的提升。
2.3? 對比實驗結(jié)果
對比試驗采用的數(shù)據(jù)集為DIOR數(shù)據(jù)集,訓(xùn)練方式與[20]一致,使用ci(i=0,1,…,20)來分別表示20個類別。
結(jié)果如表2所示,得益于retinanet本身優(yōu)秀的算法設(shè)計以及經(jīng)過本文提出的三個模塊,re-a(ours)算法在檢測精度上超過了DIOR數(shù)據(jù)集上大部分的檢測算法,其mAP達到了最高69.0的性能,大部分類別的AP值相比于其他算法都是最優(yōu)值,說明此算法在尺度差異比較大的數(shù)據(jù)集上起到了很好的效果。同時由于依然是單階段模型,所以其速度也快于大部分的雙階段算法。所以本文提出的方法相比于現(xiàn)有方法具有很大的優(yōu)越性,在對尺度差異比較大的數(shù)據(jù)集中,本文的改進算法具有很好的應(yīng)用前景。
2.4? 推理結(jié)果比較
圖7展示了在相同的訓(xùn)練和推理參數(shù)設(shè)計下,部分retinanet和re-all的推理結(jié)果,總共兩組圖像,組1和組2??梢悦黠@看到,每個圖像中re-all模型對小目標的效果都要好于retinanet模型,retinanet在小目標極小和目標比較密集的時候,容易出現(xiàn)漏檢和錯檢,如圖7所示,retinanet在組1,組2每幅圖上基本都有不同程度的漏檢,在圖7的組1和組2的第4幅圖中,可以看到,Airplane類別由于與Wind mill類別特征比較相似經(jīng)常被檢測算法錯誤的檢測,而在re-all算法中,由于提升了小目標的特征提取能力,其漏檢和錯檢的目標要少得多,特別是很少混淆Airplane類與Wind mill類,可以明顯感覺到加入背景上下文的方法起作用了。此外,從圖7的組1的第1、3幅圖和組2的第2幅圖大尺度目標的置信度變化,以及組1第2幅圖retinanet錯檢出大尺度目標,可以看出re-all算法不僅提高了小目標,也提高了大目標的檢測效果。
3? 結(jié)? 論
本文提出了一種通過跨尺度非局部交互和同尺度非局部交互提取背景上下文的方式,同時也使用類似注意力的方式進行特征融合,通過上述兩種方式捕捉到更多不同的、更豐富的物體-物體、背景-物體信息去幫助更好地去進行物體識別和檢測,使得每一層都是一個跨空間和跨尺度的擁有更豐富特征信息的特征層,從而提高在多尺度背景下,對小目標檢測的效果。在實驗的過程中發(fā)現(xiàn),本文的模型在單階段模型中使用效果比較好,能夠顯著的提升小目標的檢測的效果,但是將本文提出的模塊用在多階段目標檢測的模型中時,效果不是很好,甚至出現(xiàn)了mAP值下降,所以下一階段將會探索為什么此模塊在多階段模型中不起作用,研究適合多階段模型使用的背景上下文提取和特征融合模塊。
參考文獻:
[1] BOCHKOVSKIY A,WANG C-Y,LIAO H-Y M. Yolov4:Optimal Speed and Accuracy of Object Detection [J/OL].arXiv:2004.10934 [cs.CV].(2020-04-23).https://arxiv.org/abs/2004.10934.
[2] Tian Z,Shen C H,Chen H,et al. FCOS:Fully Convolutional One-Stage Object Detection [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:9626-9635.
[3] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector [C]//European Conference on Computer Vision-ECCV 2016.Cham:Springer,2016:21-37.
[4] GIRSHICK R. Fast R-CNN [C]//2015 IEEE international conference on Computer Vision(ICCV).Santiago:IEEE,2015:1440-1448.
[5] DUAN K,BAI S,XIE L X,et al. CenterNet:Keypoint triplets for Object Detection [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:6568-6577.
[6] LIU Y,SUN P,WERGELES N,et al. A Survey and Performance Evaluation of Deep Learning Methods for Small Object Detection [J].Expert Systems with Applications,2021,172(4):114602.
[7] NOH J,BAE W,LEE W,et al. Better to Follow,F(xiàn)ollow to be Better:Towards Precise Supervision of Feature Super-Resolution for Small Object Detection [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:9724-9733.
[8] RABBI J,RAY N,SCHUBERT M,et al. Small-Object Detection in Remote Sensing Images with End-To-End Edge-Enhanced GAN and Object Detector Network [J].Remote Sensing,2020,12(9):1432.
[9] HUANG H X,TANG X D,WEN F,et al. Small Object Detection Method with Shallow Feature Fusion Network for Chip Surface Defect Detection [J].Scientific Reports,2022,12(1):1-9.
[10] SINGH B,DAVIS L S. An Analysis of Scale Invariance in Object Detection-SNIP [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE,2018:3578-3587.
[11] LIN T-Y,DOLL?R P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:936-944.
[12] SINGH B,NAJIBI M,DAVIS L S. SNIPER:Efficient Multi-Scale Training [C]//NIPS'18:Proceedings of the 32nd International Conference on Neural Information Processing Systems.Montréal:Curran Associates,2018:9333-9343.
[13] LI Y H,CHEN Y T,WANG N Y,et al. Scale-Aware Trident Networks for Object Detection [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:6053-6062.
[14] WANG J W,XU C,YANG W,et al. A Normalized Gaussian Wasserstein Distance for Tiny Object Detection [J/OL].arXiv:2110.13389 [cs.CV].(2021-10-26).https://arxiv.org/abs/2110.13389.
[15] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE,2018:7132-7141.
[16] WOO S,PARK J,LEE J-Y,et al. CBAM:Convolutional Block Attention Module [C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:ECCV,2018:3-19.
[17] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you Need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates,2017:6000-6010.
[18] WANG K X,LIEW J H,ZOU Y T,et al. PANet:Few-Shot Image Semantic Segmentation with Prototype Alignment [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:9196-9205.
[19] LIN T-Y,GOYAL P,GIRSHICK R,et al. Focal Loss for Dense Object Detection [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(2):318-327.
[20] LI K,WAN G,CHENG G,et al. Object Detection in Optical Remote Sensing Images:A Survey and a New Benchmark [J].ISPRS Journal of Photogrammetry and Remote Sensing,2020,159:296-307.
[21] DENG J,DONG W,SOCHER R,et al. ImageNet:A Large-Scale Hierarchical Image Database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009:248-255.
[22] HE K,ZHANG X,REN S,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
作者簡介:李容光(1997—),男,漢族,四川巴中人,碩士研究生在讀,研究方向:小目標檢測;通訊作者:楊夢龍(1983—),男,漢族,四川成都人,副研究員,博士研究生,研究方向:計算機視覺,模式識別,圖像處理。
收稿日期:2022-11-28