喬騰飛,張 超,熊建林,劉 斌,胡劍平
基于深度學(xué)習(xí)的目標(biāo)檢測框架組件研究
喬騰飛,張 超,熊建林,劉 斌,胡劍平
(北京遙測技術(shù)研究所 北京 100076)
深度學(xué)習(xí)與計算機(jī)視覺的結(jié)合給目標(biāo)檢測研究領(lǐng)域帶來了全新的檢測模式,通過對基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)分析研究,目標(biāo)檢測網(wǎng)絡(luò)框架可模塊化地拆分為特征提取網(wǎng)絡(luò)、多尺度融合和預(yù)測網(wǎng)絡(luò)三個部分。從組成目標(biāo)檢測網(wǎng)絡(luò)模塊化的角度對各個模塊進(jìn)行了詳細(xì)的分析綜述,并給出了如何根據(jù)實(shí)際需求來構(gòu)建適合的模型框架建議,為基于深度學(xué)習(xí)的目標(biāo)檢測方法研究提供參考。
深度學(xué)習(xí);目標(biāo)檢測;計算機(jī)視覺;模塊化
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其應(yīng)用場景也在不斷地擴(kuò)展,從最初的圖像分類網(wǎng)絡(luò)到后續(xù)的目標(biāo)檢測、實(shí)例分割等應(yīng)用場景,深度學(xué)習(xí)都展現(xiàn)出優(yōu)異的性能,取得了不錯的效果。2012年AlexNet[1]網(wǎng)絡(luò)模型的提出,以巨大的優(yōu)勢在圖像分類賽道上取得了遠(yuǎn)超第二名的優(yōu)異成績,成功將基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型引入到人們的視野中,后續(xù)又有VGGNet[2]、GoogLeNet[3]等優(yōu)秀的網(wǎng)絡(luò)陸續(xù)出現(xiàn),均表現(xiàn)優(yōu)異。2014年,Girshick R通過將卷積神經(jīng)網(wǎng)絡(luò)引入目標(biāo)檢測領(lǐng)域,形成了整個R-CNN(Region-based Convolution Neural Networks)[4]系列的兩階段檢測網(wǎng)絡(luò),并取得了不錯的效果,之后學(xué)術(shù)界又陸續(xù)出現(xiàn)了SSD[5]、YOLO[6]、CenterNet[7]等優(yōu)秀的一階段檢測網(wǎng)絡(luò)。
目標(biāo)檢測框架的流程要比分類網(wǎng)絡(luò)模型更為復(fù)雜,并且不同的檢測框架會帶來不同的檢測效果,為了獲得一個高性能的檢測網(wǎng)絡(luò),需要將網(wǎng)絡(luò)框架中的不同模塊進(jìn)行適當(dāng)?shù)男薷暮徒M合。但隨著網(wǎng)絡(luò)模塊的層出不窮,各種網(wǎng)絡(luò)模塊容易讓初學(xué)者眼花繚亂,因此有必要對組成檢測網(wǎng)絡(luò)的不同模塊進(jìn)行分析綜述。
目標(biāo)檢測一直是圖像處理領(lǐng)域的一個重要話題,早在上個世紀(jì)就已經(jīng)開展了很多的研究,并且也形成了一套非常成熟的框架體系,一般會先對圖像進(jìn)行濾波降噪增強(qiáng)處理,提取出候選區(qū)域,然后通過手動設(shè)計方式進(jìn)行特征提取,之后會對目標(biāo)進(jìn)行分類,判斷屬于哪一個類別。但是在實(shí)際圖像中,檢測目標(biāo)的形態(tài)是多種多樣的,光照條件多變,背景復(fù)雜,傳統(tǒng)特征提取算子很難適應(yīng)不同條件下的目標(biāo)檢測需求,為此相關(guān)學(xué)者采用卷積神經(jīng)網(wǎng)絡(luò)來提取特征,結(jié)合深度學(xué)習(xí)技術(shù),形成了目前主流的目標(biāo)檢測方法。
R-CNN是早期經(jīng)典的基于深度學(xué)習(xí)的目標(biāo)檢測方法,該方法采用卷積神經(jīng)網(wǎng)絡(luò)來作為特征提取模塊,并通過訓(xùn)練學(xué)習(xí)的方式來自動提取特征,然后將提取的特征送入傳統(tǒng)SVM(Support Vector Machine)分類器進(jìn)行判斷類別,取得了較好的實(shí)驗效果。以該方法為基礎(chǔ),除了特征提取模塊以外,后續(xù)相關(guān)學(xué)者又繼續(xù)將多尺度特征融合、分類定位預(yù)測等功能都替換為相應(yīng)的神經(jīng)網(wǎng)絡(luò)模塊,從而形成了基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)框架,該框架主要包括特征提取網(wǎng)絡(luò)模塊、多尺度特征融合模塊和預(yù)測網(wǎng)絡(luò)模塊,如圖1所示。
圖1 基于深度學(xué)習(xí)的目標(biāo)檢測框架
特征提取網(wǎng)絡(luò)一般是網(wǎng)絡(luò)模型的基礎(chǔ)部分,是輸入數(shù)據(jù)的接口,其作用主要是從輸入的圖像數(shù)據(jù)中提取出一些高維度的特征信息,如人臉中的眼鼻口耳、動物的毛發(fā)紋理等特征,這些特征很難用傳統(tǒng)的特征描述算子直接表示,卷積網(wǎng)絡(luò)通過大量的參數(shù)構(gòu)建了一個高維度的空間,將輸入的數(shù)據(jù)映射到這個空間中進(jìn)行表示。著名的ImageNet競賽中每年都會出現(xiàn)一些優(yōu)秀的網(wǎng)絡(luò)模型,2012年Hinton和他的學(xué)生Alex Krizhevsky設(shè)計出的AlexNet以遠(yuǎn)超第二名的成績奪冠,證明了卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neutral Network)具有優(yōu)秀的特征提取能力;2015年何凱明等人提出了ResNet[8]網(wǎng)絡(luò),該網(wǎng)絡(luò)成為了至今最常用的特征提取網(wǎng)絡(luò)。除了基于CNN的特征提取網(wǎng)絡(luò)之外,來自NLP領(lǐng)域的Transformer也開始在計算機(jī)視覺領(lǐng)域大放異彩,尤其是2021年的ViT[9]和Swin Transformer[10]在圖像領(lǐng)域取得巨大成功。除此之外,還有一些其他的優(yōu)秀網(wǎng)絡(luò),如DLA[11]、Hourglass[12]網(wǎng)絡(luò)等。
圖2 殘差模塊系列
Transformer是谷歌于2017年首次提出的一種應(yīng)用在自然語言處理領(lǐng)域的深度學(xué)習(xí)框架,之后兩年席卷了自然語言處理的大部分方向,表現(xiàn)優(yōu)異。2021年,微軟亞洲研究院發(fā)布了Swin Transformer,成功將Transformer應(yīng)用在目標(biāo)檢測、語義分割等領(lǐng)域,并取得了不錯的成績。與已有的網(wǎng)絡(luò)不同,Transformer不同于卷積神經(jīng)網(wǎng)絡(luò),其將圖像分割為一系列的小切片進(jìn)行序列化再輸入網(wǎng)絡(luò),為了與現(xiàn)有的視覺領(lǐng)域的檢測框架相融,其必須顯式的構(gòu)建出不同尺度的層次結(jié)構(gòu)。隨著網(wǎng)絡(luò)層次的加深,節(jié)點(diǎn)的感受也在不斷擴(kuò)大,CNN這一特征在Swin Transformer中也是滿足的。Swin Transformer的這種層次結(jié)構(gòu),也賦予了它可以像FPN,U-Net等結(jié)構(gòu)實(shí)現(xiàn)可以進(jìn)行分割或者檢測的任務(wù)。
圖3 CSPNet模塊系列
目前的特征提取網(wǎng)絡(luò)的優(yōu)化主要集中在模型的深度(卷積層數(shù)),通道方面的分離(CSP Block)和注意力機(jī)制(SENet),以及分組卷積(Res2Net)和深度可分離卷積(MobileNet)相關(guān)方面,選擇一個好的特征提取網(wǎng)絡(luò)對后續(xù)的多尺度融合和預(yù)測網(wǎng)絡(luò)至關(guān)重要,在選擇的時候不僅要考慮精度,也要根據(jù)實(shí)際的需求,選擇適當(dāng)大小的模型以實(shí)現(xiàn)速度上的要求。
多尺度特征融合的作用是將特征提取網(wǎng)絡(luò)中提取到的不同尺度特征進(jìn)行融合,可以進(jìn)一步提高網(wǎng)絡(luò)的特征提取能力,并且引入了多尺度檢測之后還可以幫助網(wǎng)絡(luò)更好地檢測到不同尺寸的目標(biāo)。圖像金字塔是圖像多尺度表達(dá)的一種,是一種以多分辨率來解釋圖像的有效但簡單的結(jié)構(gòu),特征圖金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Networks)[20]是2017年提出的一種網(wǎng)絡(luò),F(xiàn)PN主要解決的是物體檢測中的多尺度問題,在基本不增加原有模型計算量的情況下,大幅度提升了小目標(biāo)的檢測性能。
早期的檢測網(wǎng)絡(luò),如Faster RCNN、YOLOv1等均采用特征提取網(wǎng)絡(luò)的最后一層作為最終的特征層,在其上進(jìn)行分類和定位預(yù)測。由于卷積池化的過程會構(gòu)建出一個多尺度的特征層,因此可以通過使用不同層的特征圖來進(jìn)行不同尺度目標(biāo)的預(yù)測。如下采樣倍數(shù)為8的特征圖適合用來預(yù)測小目標(biāo),下采樣倍數(shù)為16的特征圖適合用來預(yù)測中等大小目標(biāo),而下采樣倍數(shù)為32的特征圖適合用來預(yù)測大目標(biāo),根據(jù)實(shí)際需求,如果有特別大的目標(biāo)也可以引入64倍下采樣的特征層來。
在特征提取網(wǎng)絡(luò)中,淺層的特征語義信息較少,但是目標(biāo)位置準(zhǔn)確;高層的特征語義信息比較豐富,但是目標(biāo)位置等細(xì)節(jié)信息比較粗略。雖然也有部分算法采用多尺度特征融合的方式,但通常采用融合后的特征做預(yù)測,而FPN不一樣的地方在于預(yù)測是在不同特征層獨(dú)立進(jìn)行的,并且增加了一條自上而下的路徑,用來進(jìn)行預(yù)測的每一層特征圖不僅來自對應(yīng)尺度的主干網(wǎng)絡(luò)的輸出,還有來自于上一層特征圖的下采樣,兩者共同組成了當(dāng)前層的特征圖。自上而下的過程是對更抽象、語義更強(qiáng)的高層特征圖進(jìn)行上采樣,而橫向連接則是將上采樣的結(jié)果和自底向上生成的相同大小的特征圖進(jìn)行融合。橫向連接的兩層特征在空間上尺寸相同,這樣做可以利用底層定位細(xì)節(jié)信息,這個過程是迭代的,直到生成一系列的多分辨率圖。如圖4所示,其中綠色模塊為特征提取網(wǎng)絡(luò),淺藍(lán)色模塊為FPN輸出層。
圖4 多尺度特征融合
FPN網(wǎng)絡(luò)獲得的多層特征圖搭配相應(yīng)的目標(biāo)檢測網(wǎng)絡(luò)可以使得模型同時具備多個尺度目標(biāo)檢測能力,這種方式也成為了后續(xù)的多尺度目標(biāo)檢測的基石,后續(xù)的工作主要都是圍繞著FPN的改進(jìn)工作進(jìn)行。PANet[21]是2018年提出來的,作者認(rèn)為FPN網(wǎng)絡(luò)的特征提取還不夠充分,F(xiàn)PN做的是將高層的語義信息反向傳遞,利用高層語義信息來提升低層的特征表達(dá)。網(wǎng)絡(luò)的低層特征中含有更多的位置信息,高層特征中含有更多的語義信息。但是主干網(wǎng)絡(luò)中的卷積層數(shù)太多,在卷積運(yùn)算的過程中位置信息不能充分地上傳到高層的特征圖中,因此PANet在FPN下采樣結(jié)束后,再返回進(jìn)行上采樣,并通過橫向連接獲取同級下采樣的信息,提高底層信息的利用率。如圖4所示,通過主干網(wǎng)絡(luò)淺層信息傳遞到上層往往需要100多層的卷積層,引入PANet之后,經(jīng)過的路徑通常少于10層,也就是說底層的信息能更快速地傳遞到上層網(wǎng)絡(luò)中,使回歸網(wǎng)絡(luò)更好地定位目標(biāo)位置。
除了PANet之外,谷歌團(tuán)隊在2019年提出的EfficientDet[22]中首次提到了BiFPN。以往的特征融合是平等地對待不同尺度特征,BiFPN引入了權(quán)重,能更好地平衡不同尺度的特征信息。BiFPN將圖4中深藍(lán)色的輸入除了同一層的淺藍(lán)色特征圖和上采樣特征圖之外,還把同一層的綠色特征圖也進(jìn)行了融合,三個特征圖分別賦予不同的權(quán)重系數(shù),這些系數(shù)可以通過網(wǎng)絡(luò)的學(xué)習(xí)獲得。此外,還有2020年的Recursive-FPN[23],通過將特征提取網(wǎng)絡(luò)中的特征圖和FPN輸出的特征圖進(jìn)行迭代增強(qiáng),進(jìn)一步加強(qiáng)了網(wǎng)絡(luò)的特征表示能力,但是要求的算力很高,需要權(quán)衡。ASFF[24]研究了將FPN的不同尺度的輸出層再一次融合,融合的時候也是帶權(quán)重融合。
FPN引入了一條自頂向下的通道來融合特征,PANet在FPN的基礎(chǔ)上增加了一條自底向上的通道,而BiFPN是在PANet的基礎(chǔ)上增加了一條額外的邊,每層的特征圖輸出有三個來源,每個來源都有對應(yīng)的權(quán)重,充分利用了已有的特征圖,豐富了BiFPN網(wǎng)絡(luò)的最終輸出特征層信息。整體的思路圍繞著如何復(fù)用已有的特征圖信息來增強(qiáng)網(wǎng)絡(luò)的特征提取能力。
預(yù)測網(wǎng)絡(luò)即分類定位網(wǎng)絡(luò),是一個網(wǎng)絡(luò)的末端部分,負(fù)責(zé)預(yù)測類別和回歸邊界框的位置坐標(biāo)。根據(jù)網(wǎng)絡(luò)的任務(wù)目標(biāo)不同,會針對這些特征進(jìn)行進(jìn)一步的處理,比如分類網(wǎng)絡(luò)會將這些特征信息通過全連接層映射為類別的預(yù)測概率信息,定位網(wǎng)絡(luò)會通過卷積提取出目標(biāo)的位置信息,分割網(wǎng)絡(luò)會通過反卷積來恢復(fù)像素的類別信息等。之前所介紹的一些特征提取網(wǎng)絡(luò)、多尺度特征融合、注意力機(jī)制等都是所有網(wǎng)絡(luò)中通用的技巧,是用來提高卷積模型的特征提取能力,而檢測頭的設(shè)計則根據(jù)不同任務(wù)不同模型會有所不同。根據(jù)是否需要提供候選框分支網(wǎng)絡(luò)來區(qū)分,目前的目標(biāo)檢測網(wǎng)絡(luò)可以分為一階段和兩階段檢測器,比較經(jīng)典的模型有三種,分別以兩階段R-CNN、一階段YOLO和Anchor-Free對應(yīng)的預(yù)測網(wǎng)絡(luò)模塊為代表。
R-CNN系列是深度學(xué)習(xí)應(yīng)用在目標(biāo)檢測領(lǐng)域最早的一個模型之一,該系列是屬于兩階段的檢測器,網(wǎng)絡(luò)中存在一個候選框預(yù)測分支網(wǎng)絡(luò),負(fù)責(zé)提供圖像中潛在的感興趣區(qū)域,將感興趣區(qū)域送入預(yù)測網(wǎng)絡(luò)進(jìn)行類別預(yù)測和位置定位,這也是兩階段的檢測器普遍的一個框架。第二階段提取到的是目標(biāo)的候選框,意味著每一個候選框?qū)?yīng)一個潛在目標(biāo)。一般來說,R-CNN的檢測頭都會包含有全連接層,全連接層的輸入維度必須是提前計算好的,為了能應(yīng)對不同大小的圖片輸入,網(wǎng)絡(luò)必須保證在全連接層之前的特征圖大小是固定的,ROI Pooling操作將不同大小的特征圖歸一化為統(tǒng)一的、固定的尺寸。在分類網(wǎng)絡(luò)中SoftMax層替換了傳統(tǒng)的SVM,使用卷積、全連接層作為邊框回歸,這一操作也基本成為了后續(xù)目標(biāo)檢測流程中的模板。
后續(xù)又出現(xiàn)了Cascade R-CNN網(wǎng)絡(luò)[25],該網(wǎng)絡(luò)是通過級聯(lián)R-CNN檢測頭的方式來加強(qiáng)檢測的精度。該網(wǎng)絡(luò)解決了兩個問題,首先以往基于錨框的檢測頭算法在計算正負(fù)樣本的時候都是通過比較IoU的閾值來判定,一般這個閾值設(shè)為0.5,為了避免漏檢,這個閾值的設(shè)定就比較小,但問題也就隨之而來,低閾值會產(chǎn)生大量的誤檢框,給模型的訓(xùn)練引入了一定的噪聲。提高閾值可以減少候選框的數(shù)量,但是隨之帶來的是模型精度的下降。Cascade R-CNN通過設(shè)置三個R-CNN檢測頭級聯(lián)的方式,三個檢測頭的IoU閾值分別是[0.5, 0.6, 0.7],靠前的檢測頭的閾值較低,因此可以減少漏檢,靠后的閾值較高,可以提高檢測的精度,通過這種組合的形式從而提高了模型整體的檢測精度。
目前的檢測算法主要思路還是設(shè)置大量anchor+正負(fù)樣本分配+訓(xùn)練的一個思路,anchor的本質(zhì)是目標(biāo)的候選框,目的是幫助網(wǎng)絡(luò)更好地收斂到真實(shí)目標(biāo)框。但是因為目標(biāo)的形狀和位置的多種可能性,anchor的數(shù)量往往非常龐大,否則會出現(xiàn)遺漏的情況,這種情況對于一階段的檢測算法更加突出。anchor有兩個缺點(diǎn):①通常會產(chǎn)生大量的anchor,但只有少部分和真實(shí)框的重合比較大,可以作為正樣本訓(xùn)練,其它都是負(fù)樣本,這樣就帶來了正負(fù)例anchor的比例不均衡,也降低了網(wǎng)絡(luò)的訓(xùn)練速度。② anchor boxes的引入帶來了許多的超參數(shù),并且需要進(jìn)行細(xì)致設(shè)計,包括anchor boxes的數(shù)量、尺寸、長寬比例。特別是單一網(wǎng)絡(luò)在多尺度進(jìn)行預(yù)測的情況下會變得復(fù)雜,每個尺度都需要獨(dú)立設(shè)計。
在YOLO系列中,網(wǎng)絡(luò)最后輸出的每個尺度的特征圖只有一個主干分支,在這個特征圖上同時預(yù)測目標(biāo)的類別、中心坐標(biāo)、長寬信息。有一些網(wǎng)絡(luò)則采用多分支預(yù)測的方法,比如CenterNet采用了三個分支網(wǎng)絡(luò),分別預(yù)測三個目標(biāo)信息。這種方法和Anchor-Based的方法關(guān)系十分密切,因為feature map中的每一個像素點(diǎn)都可以看作是一個anchor,只不過這種anchor只和位置有關(guān)。此外,由于Anchor Free算法計算量小、速度快的優(yōu)點(diǎn),這類算法一般也可以直接作為二階段檢測算法中的候選區(qū)域提取算法,來替換如Faster R-CNN網(wǎng)絡(luò)中的RPN網(wǎng)絡(luò),如最新的CenterNet2[26]模型中,就是使用了CenterNet網(wǎng)絡(luò)來作為一個候選框的提取,如圖5所示。
圖5 預(yù)測網(wǎng)絡(luò)
從2014年開始,研究人員對深度學(xué)習(xí)在目標(biāo)檢測領(lǐng)域的研究不斷深入,不斷有新的優(yōu)秀模型被提出,如R-CNN系列、YOLO系列、Anchor-Free系列等。同時,也有很多根據(jù)特定的場景需求,在經(jīng)典模型上加入一些新的技巧進(jìn)行改造出來的模型。
圖6 目標(biāo)檢測模型時間軸
本文對目標(biāo)檢測網(wǎng)絡(luò)的三個主要組件進(jìn)行簡單的分析,根據(jù)實(shí)際需求構(gòu)建出一個具體的檢測網(wǎng)絡(luò),一般步驟如下。
①選取特征提取網(wǎng)絡(luò)
特征提取網(wǎng)絡(luò)通常是一個模型最關(guān)鍵的部分,對最終的檢測精度有很大的影響;也是模型最大的部分,模型的卷積層數(shù)從十幾層到幾百層,參數(shù)量從幾兆到幾百兆。實(shí)際選取時,需要注意速度和精度兩個因素。速度和精度是互相制約的,速度的極限意味著精度的損失,反之亦然。速度的快慢通常會受到卷積層數(shù)(網(wǎng)絡(luò)深度)、通道數(shù)、卷積核大小、特征圖大小等因素的影響,比如ResNet50和ResNet151兩種特征提取網(wǎng)絡(luò),前者只有50層,后者多達(dá)150多層,前者的速度要快于后者,但是后者的精度要優(yōu)于前者。
除了深度和通道數(shù),也可以選擇不同的特征增強(qiáng)模塊加入網(wǎng)絡(luò)主干中,如注意力機(jī)制模塊,有可變形卷積等技巧來增強(qiáng)卷積網(wǎng)絡(luò)的特征提取能力。注意力機(jī)制模塊一般可以分為通道注意力和空間注意力,典型的模塊有SE-block[27]、CBAM[28]、SKNet[29]等,這些特征增強(qiáng)模塊的特點(diǎn)是即插即用,與之前介紹的網(wǎng)絡(luò)模型完全兼容,可以適當(dāng)?shù)丶尤肽P椭羞M(jìn)行驗證。
目前大多數(shù)的檢測模型都會提供不同大小的模型,如YOLOv5就有5s、5x、5m、5l四個類型選擇,其主要區(qū)別就是特征提取網(wǎng)絡(luò)中的模塊重復(fù)次數(shù)的區(qū)別,參數(shù)小的網(wǎng)絡(luò)檢測精度會差一些,但是速度會更快。
②選取多尺度融合策略
多尺度特征金字塔是目標(biāo)檢測中普遍采用的策略,可以針對不同大小的目標(biāo)進(jìn)行調(diào)整。常規(guī)的目標(biāo)檢測網(wǎng)絡(luò)如YOLO系列會使用三層特征圖信息,其下采樣倍數(shù)分別為8、16、32,下采樣的倍數(shù)越大,其感受野就越大,對應(yīng)的可以檢測更大尺寸的目標(biāo)。而SSD采用了六層特征圖信息,CenterNet僅使用了4倍下采樣特征層,實(shí)際建模時采用什么樣的特征圖需要根據(jù)實(shí)際的需求來確定。除了選取多尺度尺寸外,在多尺度融合策略上還可以采用不同的結(jié)構(gòu),如上文介紹的PANet和BiFPN,這兩個結(jié)構(gòu)都是從特征層信息復(fù)用的角度出發(fā),為了更好地使用特征提取網(wǎng)絡(luò)獲得的特征圖信息。
③ 選取預(yù)測網(wǎng)絡(luò)
預(yù)測網(wǎng)絡(luò)選取一般是各個模型最大的區(qū)別,不同的模型對應(yīng)不同的需求。一般來說選擇的原則是追求精度可以選擇兩階段的預(yù)測網(wǎng)絡(luò),如Cascade R-CNN,通過級聯(lián)方式進(jìn)一步增強(qiáng)網(wǎng)絡(luò)精度;追求速度可以選擇一階段YOLO系列的預(yù)測網(wǎng)絡(luò)。根據(jù)YOLOX[30]中提出的實(shí)驗數(shù)據(jù),分類適用全連接層,定位適用卷積操作,在預(yù)測時選擇將分類和定位分開,這樣的預(yù)測效果更佳。
經(jīng)過近十年的不斷探索,基于深度學(xué)習(xí)的目標(biāo)檢測模型在公開數(shù)據(jù)集上的表現(xiàn)已經(jīng)十分優(yōu)異,人們逐漸開始將深度學(xué)習(xí)目標(biāo)檢測落地到具體的工業(yè)商用領(lǐng)域,如遙感圖像、自動駕駛、人臉識別檢測等領(lǐng)域,這些領(lǐng)域中的實(shí)際場景不同,給模型提出了更艱巨的挑戰(zhàn)。
遙感領(lǐng)域中,圖像的特點(diǎn)是尺寸非常大,一般是上萬的分辨率,這與常規(guī)圖片中幾百的分辨率相差巨大,并且遙感圖像中的目標(biāo)具有整體稀疏、局部集中的特點(diǎn),如港口船舶、機(jī)場飛機(jī)等目標(biāo)對象,在一幅圖中幾乎95%以上的區(qū)域都是沒有目標(biāo)的,甚至沒有價值信息。因此避免不必要的運(yùn)算量在遙感圖像目標(biāo)檢測中是至關(guān)重要的一點(diǎn),否則會因為巨大的計算量導(dǎo)致模型無法使用。類似的還有一些航空圖像,遠(yuǎn)距離成像的圖片都具備這一特點(diǎn)。
自動駕駛領(lǐng)域中,圖像是車輛最主要的信息來源。由于車輛的行駛速度很快,對實(shí)時性要求非常高,只有快速的檢測才能讓車輛反應(yīng)更快。且大多數(shù)車輛終端的處理器計算能力較弱,為了兼顧速度上的需求,精度上就無法做到很高,如何解決類似終端芯片上的目標(biāo)檢測應(yīng)用也是一個很有價值的研究方向。
一些密集目標(biāo)檢測的場景,如行人檢測,對模型的要求非常高。在模型的檢測過程中,由于很多目標(biāo)框之間的互相重疊,會導(dǎo)致模型無法識別到被遮擋的目標(biāo),從而漏檢甚至誤檢。針對小目標(biāo)檢測,也是一個非常難解決的問題,小目標(biāo)由于尺寸小,導(dǎo)致信息量較少,模型很難提取到充分的信息,但小目標(biāo)又是實(shí)際應(yīng)用中很常見的類型,這方面還需進(jìn)一步的研究來提高檢測效果。
此外,目前大部分的深度學(xué)習(xí)模型都是數(shù)據(jù)驅(qū)動型,必須要有大量標(biāo)注好的數(shù)據(jù)來供模型進(jìn)行訓(xùn)練,數(shù)據(jù)集制作的好壞將直接影響到模型的檢測性能,網(wǎng)絡(luò)模型對數(shù)據(jù)的依賴程度非常高。但很多情況下,由于標(biāo)注成本或者采集難度等問題,無法獲得足夠量的數(shù)據(jù)或者獲得的數(shù)據(jù)無法標(biāo)注,導(dǎo)致模型就很難進(jìn)行足夠的訓(xùn)練,減少模型對大量數(shù)據(jù)的過度依賴也是一個亟待解決的問題。這方面的研究有半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)等,其目的都是為了減少模型對數(shù)據(jù)的依賴,從而減少人為的參與,讓模型更加智能。
盡管近幾年基于深度學(xué)習(xí)的目標(biāo)檢測模型研究十分成熟,尤其是卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的模型已經(jīng)形成了一系列成熟的框架,但在實(shí)際的應(yīng)用過程中也面臨著諸多困難??傮w來說,目前關(guān)于檢測模型方面的研究趨勢主要有兩個:
①在學(xué)術(shù)界,基于深度學(xué)習(xí)的目標(biāo)檢測模型主要針對的是檢測框架中的組件,致力于如何提高這些組件的性能,使用的多是常規(guī)數(shù)據(jù)集如COCO、VOC等,大多是即插即用的組件,如注意力機(jī)制、上下文信息等一些特征增強(qiáng)的模塊,或者跨學(xué)科、跨領(lǐng)域的知識遷移,如將自然語言處理中的Transformer機(jī)制引入到視覺中。
②在工業(yè)界,目標(biāo)檢測模型研究以應(yīng)用為主,根據(jù)實(shí)際的背景需求來搭建一個合適的網(wǎng)絡(luò)模型,這需要對檢測框架中的不同模塊進(jìn)行一些驗證測試,選擇最佳的網(wǎng)絡(luò)組件。航拍圖像中如停車場、港口船舶會引入旋轉(zhuǎn)框、遙感圖像中的稀疏目標(biāo)會進(jìn)行粗篩選等。同時,考慮到部署相關(guān)的需求還會針對模型的剪枝量化做出一些改進(jìn)工作。
影響一個模型檢測性能的因素有很多,不同的組件在組合的過程中,單個最優(yōu)并不一定組合最優(yōu),還要進(jìn)行一定的速度和精度的權(quán)衡,實(shí)際的應(yīng)用也是主要圍繞速度和精度這兩點(diǎn)展開。由于深度學(xué)習(xí)中有過多的超參數(shù)以及各種模塊的搭建都需要人工測試,需要很大的精力,目前也有一部分圍繞著訓(xùn)練超參數(shù)的工作展開,使用基于強(qiáng)化學(xué)習(xí)的策略主動去學(xué)習(xí)設(shè)計網(wǎng)絡(luò)。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,目標(biāo)檢測模型的性能上限在不斷刷新,應(yīng)用領(lǐng)域也在不斷擴(kuò)展,基于深度學(xué)習(xí)的目標(biāo)檢測應(yīng)用出現(xiàn)在了不同的行業(yè),給各個專業(yè)領(lǐng)域都帶來了新的研究模式。目前已經(jīng)出現(xiàn)了越來越多的深度學(xué)習(xí)模型,但是其中經(jīng)典的模型數(shù)量卻有限,大多還是根據(jù)已有的一些技巧進(jìn)行多方面的組合或者針對其中一個技巧進(jìn)行針對性的改善。但是針對具體場景、具體需求時還是需要研究工作者多去嘗試不同技巧的組合,這樣才能找到最適合的網(wǎng)絡(luò)模型。同時,也可以根據(jù)相關(guān)的研究趨勢進(jìn)行特定模塊的優(yōu)化。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]//Conference and Workshop on Neural Information Processing Systems(NIPS), 2012.
[2] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint:1409.1556, 2014.
[3] SZEGEDY C, LIU W, JIA Y Q. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014.
[4] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE InternationalConference on Computer Vision, 2015: 1440–1448.
[5] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector [C]//European Conference on Computer Vision (ECCV), 2015.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
[7] ZHOU X Y, WANG D Q, PHILIPP K. Objects as points[J]. arXiv preprint: 1904.07850, 2019.
[8] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
[9] ALEXEY D, LUCAS B, ALEXANDER K, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]//In International Conference on Learning Representations, 2021.
[10] LIU Z, LIN Y T, CAO Y, et al.Swin Transformer: Hierarchical vision transformer using shifted windows[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2021.
[11] YU F, WANG D Q, SHELHAMER E, et al. Deep layer aggregation[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.
[12] NEWELL A, YANG K Y, DENG J. Stacked hourglass networks for human pose estimation[C]//European Conference on Computer Vision (ECCV), 2016.
[13] XIE S, TU Z W, GIRSHICK R, et al. Aggregated residual transformations for deep neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.
[14] GAO S H, CHENG M M, ZHAO K, et al. Res2net: A new multi-scale backbone architecture[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
[15] HUANG G, LIU Z, KILIAN Q, et al.Densely connected convolutional networks[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 4700–4708.
[16] WANG C Y, YUAN H, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop), 2020.
[17] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.
[18] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
[19] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.
[20] LIU T Y, DOLLAR P, GRISHICK R, et al. Feature Pyramid for Object Detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.
[21] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.
[22] TAN M X, PANG R M, QUOC V. Efficientdet: Scalable and efficient object detection[J]. arXiv preprint:1911.09070, 2019.
[23] QIAO S Y, CHEN L C, YUILLE A. DetectoRS: Detecting objects with recursive feature pyramid and switchable atrous convolution[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2020.
[24] LIU S T, HUANG D, WANG Y H.Learning spatial fusion for single-shot object detection[J]. arXiv preprint: 1911.09516v2, 2019.
[25] CAI Z W, VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.
[26] ZHOU X Y, KOLTUN V, KRAHENBUHL P. Probabilistic two-stage detection[J]. arXiv preprint:2103.07461, 2021.
[27] HU J, SHEN L, SAMUEL A, et al. Squeeze-and-Excitation Networks[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.
[28] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]//In Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3–19.
[29] LI X, WANG W H, HU X L, et al. Selective kernel networks[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.
[30] GE Z, LIU S T, WANG F, et al. YOLOX: Exceeding YOLO series in 2021[J]. arXiv preprint arXiv:2107.08430, 2021.
Research components of object detection framework based on deep learning
QIAO Tengfei, ZHANG Chao, XIONG Jianlin, LIU Bin, HU Jianping
(Beijing Research Institute of Telemetry, Beijing 100076, China)
The combination of deep learning and computer vision has brought a new detection mode in the field of object detection. Through the analysis of deep learning-based object detection network, the object detection network framework can be modularized and divided into three parts: feature extraction network, multi-scale fusion network and prediction network. This paper analyzes and summarizes each module from the modularized perspective of detection network, and gives suggestions on how to build a suitable model framework according to actual demand, which provides a reference for the research of target detection method based on deep learning.
Deep learning; Object detection; Computer vision; Modularization
Website: ycyk.brit.com.cn Email: ycyk704@163.com
TP183
A
CN11-1780(2022)06-0108-09
10.12347/j.ycyk.20220105001
喬騰飛, 張超, 熊建林, 等.基于深度學(xué)習(xí)的目標(biāo)檢測框架組件研究[J]. 遙測遙控, 2022, 43(6): 108–116.
10.12347/j.ycyk.20220105001
: QIAO Tengfei, ZHANG Chao, XIONG Jianlin, et al. Research components of object detection framework based on deep learning[J]. Journal of Telemetry, Tracking and Command, 2022, 43(6): 108–116.
2022-01-05
2022-02-20
喬騰飛 1996年生,碩士研究生,主要研究方向為智能圖像處理。
張 超 1986年生,博士,工程師,主要研究方向為圖像處理與模式識別。
熊建林 1965年生,碩士,研究員,主要研究方向為航天測控技術(shù)。
劉 斌 1978年生,博士,研究員,主要研究方向為空間電子信息技術(shù)。
胡劍平 1970年生,本科,研究員,主要研究方向為衛(wèi)星數(shù)據(jù)存儲與處理技術(shù)。
(本文編輯:楊秀麗)