摘 要:開放世界目標(biāo)檢測(open world object detection,OWOD)是一個計算機視覺挑戰(zhàn),聚焦于現(xiàn)實世界環(huán)境,其不僅要檢測出標(biāo)記出的已知物體,還需要能處理訓(xùn)練過程中被忽視的未知物體。針對已知和未知物體的檢測混淆、密集未知目標(biāo)和小目標(biāo)遺漏等問題,提出了一種新的基于偏移過濾和未知特征強化的開放世界目標(biāo)檢測器(offset filter and unknown-feature reinforcement for open world object detection,OFUR-OWOD)。首先設(shè)計一個未知類特征強化(unknown class feature reinforcement,UCFR)模塊,通過自適應(yīng)未知對象得分的方法來強化未知類目標(biāo)特征,進而提高模型對未知類對象的訓(xùn)練準確度。然后,將重疊框偏移過濾器(overlapping box offset filter,OBOF)應(yīng)用于目標(biāo)預(yù)測框,根據(jù)目標(biāo)位置和大小,獲得不同偏移得分,以過濾冗余未知框。通過豐富實驗證明,該方法在COCO-OOD和COCO-Mix上優(yōu)于現(xiàn)有一些最先進的方法。
關(guān)鍵詞:開放世界目標(biāo)檢測;自適應(yīng)得分;未知目標(biāo)特征強化;偏移過濾
中圖分類號:P315.69 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)02-041-0618-05
doi:10.19734/j.issn.1001-3695.2024.05.0183
Offset filter and unknown feature reinforcement for open world object detection
Wang Chaoa,Su Shuzhia,Zhu Yanminb’,Xu Yanga
(a.School of Computer Science amp; Engineering,b.School of Mechanical amp; Electrical Engineering,Anhui University of Science amp; Technology,Huainan Anhui 232001,China)
Abstract:OWOD is a computer vision challenge focusing on real-world environments,requiring the detection of both labeled known objects and previously unseen unknown objects during training.This paper proposed a novel open world object detector based on OFUR-OWOD to address the problems of confusing the detection of known and unknown objects,dense unknown objects and small object omission.Firstly,it designed an unknown class feature reinforcement (UCFR) module to reinforce the unknown object features by means of adaptive unknown object scoring,which in turn improved the training accuracy of the model for unknown objects.Then,it applied overlapping box offset filter (OBOF) to the proposals to obtain different offset scores according to the object position and size in order to filter redundant unknown object boxes.Extensive experiments demonstrate that this method outperforms some of the state-of-the-art methods on COCO-OOD and COCO-Mix.
Key words:OWOD;adaptive scoring;unknown object feature reinforcement;offset filtering
0 引言
目標(biāo)檢測[1]的任務(wù)是從圖像中精確且高效地識別、定位出大量預(yù)定義類別的物體實例。近年來,目標(biāo)檢測越來越多地應(yīng)用于許多實際應(yīng)用中,如自動駕駛[2]、視頻監(jiān)控[3]和機器人[4]。傳統(tǒng)目標(biāo)檢測方法是基于封閉世界假設(shè)的,即訓(xùn)練類別數(shù)量是固定的。然而,對于含有無限范圍的視覺輸入條件(如姿勢和環(huán)境)和概念的現(xiàn)實世界應(yīng)用程序,這一假設(shè)并不成立。實際上,通過單個數(shù)據(jù)集獲得現(xiàn)實世界所有視覺信息是不可能的。從這些角度來看,重要的是使檢測方法對未知物體具有魯棒性,從而使它們能夠在開放的世界環(huán)境中發(fā)揮作用。
開集識別[5,6]旨在正確地分類已見類別樣本,同時準確地識別并拒絕未見類別樣本。近年來,此領(lǐng)域涌現(xiàn)出大量的基于深度學(xué)習(xí)模型的研究工作,2018年Neal等人[7]提出了OSRCI方法,OSRCI生成與訓(xùn)練集中的圖像相似,但不屬于任何已知類的圖像,并使用生成的圖像來訓(xùn)練開集分類器,這項工作還建立了現(xiàn)有的OSR基準套件。2021年Kong等人[8]通過使用對抗性訓(xùn)練的鑒別器來描繪閉集圖像和開集圖像,利用真實的開集圖像進行模型選擇,實現(xiàn)了強大的OSR性能。
近年來,隨著研究的深入,由于基于學(xué)習(xí)的方法[9~11]在精度和召回率方面的優(yōu)異表現(xiàn),研究人員已經(jīng)將其作為解決目標(biāo)檢測(object detection,OD)問題的一種主流方法。開放世界對象檢測[12,13]是指從包含未知或新奇對象的未知圖像或視頻流中,檢測和識別出所有可能的對象及其對應(yīng)的位置和邊界框。未知目標(biāo)檢測的困難源于未知類對象缺乏相應(yīng)的監(jiān)督,因為與已知目標(biāo)不同,未知目標(biāo)沒有標(biāo)簽。由此,當(dāng)訓(xùn)練OD[14,15]模型時,包含未知對象的對象建議將會被錯誤地作為背景懲罰。到目前為止,大多數(shù)OWOD方法都試圖克服這一挑戰(zhàn),在訓(xùn)練過程中使用不同的啟發(fā)方法來區(qū)分未知物體和背景。例如,OLN-Mask[16]使用OLN代替RPN[17,18],利用定位質(zhì)量預(yù)測頭代替分類頭,有效抑制了超分布(out of distribution,OOD)對象作為背景的偏差。OW-DETR[19]使用偽標(biāo)記方案,將骨干特征激活程度高的圖像塊確定為未知對象,并使用這些偽標(biāo)簽來監(jiān)督OD模型。VOS[20]提出一種新的OOD檢測框架,利用自適應(yīng)合成離群值來正則化檢測模型的決策邊界。UnSniffer[21]使用廣義置信度得分,將具有更高目標(biāo)性概率的非已知類建議確定為未知對象,并使用負能量抑制來進一步限制非物體。在本文中,介紹了一種新的基于偏移感知和未知特征強化的開放世界檢測[22,23]框架(offset filter and unknown-feature reinforcement for open world object detection,OFUR-OWOD)。一方面,通過未知特征強化模塊優(yōu)化分類器的設(shè)計,使分類器可以更準確地區(qū)分已知類和未知類。另一方面,在推理階段中,通過加入一個過濾模塊,過濾掉與已知類或未知類偏移得分過低的未知類預(yù)測框。在保留模型對于已知類識別精度的同時,提高模型對于未知類的識別精度。
1 方法
1.1 問題描述
在本節(jié)中,首先定義集合D={(I,L),I∈X,L∈Y}作為目標(biāo)檢測的數(shù)據(jù)集。其中I代表待檢測圖像,X表示待檢測圖像數(shù)據(jù)集,L={(ci,bi)}Ni=1表示待檢測圖像中的N個已知目標(biāo)的類別和標(biāo)簽。其中ci∈C表示第i個目標(biāo)的類別,C表示所有類別的集合,bi表示第i個對象的標(biāo)簽,Y表示數(shù)據(jù)集中圖像的目標(biāo)類別和標(biāo)簽的集合。定義訓(xùn)練集為Dtrain,測試集為Dtest。訓(xùn)練集Dtrain共包含K個已知類別Cκ={1,2,…,K},Cκ∈C,測試集Dtest不僅要包含K個已知類別Cκ,還要包含U個未知類別CU,CU∈C。在測試過程中,由于無法得知CU具體代表哪種未知類別,所以統(tǒng)一被命名為未知,即CU中所有的類別構(gòu)成該任務(wù)中的第K+1個類別。模型只對包含已知類對象的數(shù)據(jù)集{(In,Ln)|cn∈Cκ,bn∈Ln}Dtrainn=1進行訓(xùn)練,對包含未知對象的數(shù)據(jù)集{(In,Ln)|cn∈Cκ∪{K+1},bn∈Ln}Dtestn=1進行測試。
1.2 網(wǎng)絡(luò)框架
OFUR-OWOD網(wǎng)絡(luò)的主體架構(gòu)如圖1所示。具體而言,采用Faster R-CNN[24]作為方法的基礎(chǔ)探測器,其中包含一個特征提取層、一個RPN層以及一個R-CNN層。本文首先將圖像輸入特征提取網(wǎng)絡(luò)ResNet50提取5層特征,表示為Fl{l=1,2,3,4,5},其中前兩層為低層特征,中間一層為中層特征,最后一層為高層特征。低層特征包含更豐富的輪廓信息,但含有較多噪聲,中層特征包含更多樣的信息分類,高層特征包含更多語義信息,但更為抽象。然后,將Fl輸入特征金字塔網(wǎng)絡(luò)FPN進行特征融合,使得所有尺度上的特征都有豐富的語義信息,表示為F^l{l=2,3,4,5,6}。其次,將F^l輸入RPN,RPN會先利用3×3卷積分別生成位置錨框和邊界框回歸偏移量,然后計算得到候選框。接著,將候選框集送入R-CNN的RoI池化層,利用候選框從F^l中提取候選框特征,然后使用7×7卷積對其進行歸一化。再次將候選框特征送入置信度頭Ξ和回歸器,Ξ利用一個1 024維的全連接層計算候選框包含未知對象置信度,并利用極值函數(shù)取前ν個輸入未知特征強化器,進行未知目標(biāo)特征擇優(yōu)強化?;貧w器利用一個獨立的全連接網(wǎng)絡(luò),計算候選框特征的回歸偏移量。接下來,將經(jīng)過強化后的候選框特征送入分類器,利用一個獨立的1 024維全連接層計算候選框?qū)儆诿款惸繕?biāo)的概率,并進行分組。之后,利用分類器和回歸器結(jié)果計算預(yù)測框在原圖中的位置坐標(biāo),并輸入偏移過濾器。過濾器利用偏移感知得分去除已知目標(biāo)重疊預(yù)測框和未知目標(biāo)冗余預(yù)測框,最后將結(jié)果輸入原圖進行可視化。
1.3 未知類特征強化
針對未知類對象的誤檢和漏檢問題,設(shè)計了未知類特征強化模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。具體而言,在開放世界目標(biāo)檢測任務(wù)的設(shè)定中,訓(xùn)練過程中只能獲得各個訓(xùn)練樣本已知類別目標(biāo)的標(biāo)注框以及類別標(biāo)簽,無法獲得任何未知類別的標(biāo)注信息與標(biāo)簽信息。為了解決未知對象和已知對象混淆而導(dǎo)致的未知對象誤檢問題,需要先解決未知對象信息的缺失問題,首先將經(jīng)過RoI層處理的提議框集輸入目標(biāo)概率性頭,與已知真實邊界框進行對象性得分計算,具體計算過程如下:
Pro(pi,tj)=wij×hijai+gj(1)
其中:wij表示提議框pi和真實框tj之間的水平距離;hij則表示兩者之間的垂直距離,i∈{0,1,…,N},j∈{0,1,…,M};N和M分別表示提議框數(shù)量和真實框數(shù)量;Pro(pi,tj)表示提議框pi含有第j類已知對象的概率;ai表示提議框的區(qū)域大?。籫j表示真實框的區(qū)域大小。通過比較提議框特征與已知類真實框特征的相似度,可以得到一組對象性得分,用來表示提議框包含已知對象的概率。其次,將目標(biāo)概率性得分高于閾值α的提議框作為初步已知提議框集,將得分小于α的提議框作為未知候選提議框集輸入分類頭,分類頭根據(jù)其對應(yīng)的真實框類別,將其分為M組。然后,利用IOP和IOC得分對初步已知提議框集和未知候選提議框集進行未知對象提議框的初步篩選,過濾掉已知提議框集中的未知對象提議框,進一步緩解已知對象和未知對象的混淆問題,以解決未知對象誤檢問題。提議框pik的IOP和IOC得分可以表示為
IOP(pik,tk)=|pik∩tk||pik|(2)
IOC(pik,tk)=|pik∩tk||tk|(3)
其中:tk表示第k類已知對象真實框,k∈{0,1,…,M};pik表示第k組第i個提議框。接著,將IOP得分大于β或IOC得分大于β的提議框和Pro得分小于閾值ζ的提議框組成未知提議框集PU,并送入未知類特征強化頭,使用DOU得分對其進行進一步篩選強化。通過保留低目標(biāo)概率得分的提議框,可以有效地從背景類中篩選出大量包含未知對象的提議框,從而避免了由于過度懲罰背景類提議框而導(dǎo)致的未知對象漏檢問題。具體計算公式如下:
DOU(pUi,pUj)=d2ijSi(4)
其中:pUi和pUj表示PU中的第i個和第j個提議框,且i≠j,Si表示pUi的區(qū)域大小,dij表示兩個提議框之間的歐氏距離,可以表示為
dij=(xci-xcj)2+(yci-ycj)2(5)
其中:xci、yci和xcj、ycj分給表示pUi和pUj的中心點坐標(biāo)。通過DOU得分,可以得到提議框之間的近似度,只取DOU得分大于ε的提議框,也就是過濾掉包含同一未知對象的提議框,能夠進一步提煉未知對象特征。
接著,將經(jīng)過篩選的未知對象提議框送入未知類置信度頭Ξ進行處理。Ξ由一個1 024維的全連接層構(gòu)成,并經(jīng)過多輪訓(xùn)練趨于穩(wěn)定后才投入使用,能夠?qū)μ嶙h框計算對象完整性。只采用置信度得分大于λ的未知提議框,如果數(shù)量大于υ,還會使用max函數(shù)提取置信度最大的υ個提議框作為最終的未知提議框,即PUυ。通過這種方法,可以抑制背景類或只包含部分對象類提議框被當(dāng)成未知對象類訓(xùn)練情況的發(fā)生,從而有效降低未知對象誤檢的可能性。
最后,將PUυ輸入真實框更改器,更改真實框集中的未知對象標(biāo)簽,強化未知對象特征,并送回目標(biāo)概率性頭對RoI特征圖中的未知提議框進行更加準確的訓(xùn)練,從而降低未知對象誤檢率和漏檢率,提高檢測器對于未知對象的檢測性能。
1.4 重疊偏移過濾
針對已知對象和未知對象的誤檢以及未知對象預(yù)測框的冗余問題,設(shè)計了重疊框偏移過濾器。事實上,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region with CNN,R-CNN)層的作用即確定每個候選框所屬對象類別及其在原圖中的位置。然而,在推理過程中,對已知類對象采用后處理機制非極大抑制(non maximum suppression,NMS)剔除多余框的方法并不適用于未知對象的處理,因為數(shù)據(jù)集中的未知對象邊界框和數(shù)目是不確定的。偏移過濾器主要利用偏移感知方法計算預(yù)測框之間的偏移得分,然后利用偏移得分過濾掉誤檢框和重疊框。如圖3所示,首先對RoI頭和未知特征提取模塊輸出的提議框進行已知對象判定,將部分與已知真實框匹配的提議框作為初始已知框集,并送入NMS進行處理,得到最終的已知對象框集。其次,將剩余的提議框與已知對象框集輸入偏移過濾器對提議框進行下一步的篩選處理。未知特征提取模塊由一個池化層和多個全連接層組成,經(jīng)過多輪訓(xùn)練,能夠額外提取數(shù)據(jù)集中的未知對象特征。然后,過濾器通過計算中心點距離、邊界框大小以及四個邊之間的距離得到提議框pi和pj之間的偏移得分,具體計算方法如下:
其中:和ρ是超參數(shù);dij通過式(5)得到,表示兩個提議框之間的歐氏距離;hij和wij分別表示框i上邊到框j下邊垂直距離以及兩個框之間左邊到右邊的水平距離; dijtop、dijbottom、dijleft和dijright是pi和pj對應(yīng)四條邊之間的距離,計算方法為
dijleft=|xci-wi2-xcj+wj2|,dijtop=|yci-hi2-ycj+hj2|(7)
dijright=|xci+wi2-xcj-wj2|, dijbottom=|yci+hi2-ycj+hj2|(8)
ω~是標(biāo)準化函數(shù),負責(zé)將不同特征值統(tǒng)一到相同尺度,具體計算公式如下:
ω~(si)=e-si-min(sp)max(sp)-min(sp)(9)
其中:sp表示所有提議框區(qū)域大小的集合。最后,將與已知對象框偏移得分小于閾值τ的未知對象提議框去掉,能夠有效避免未知對象誤檢框的出現(xiàn),同時將與其他未知提議框偏移得分小于閾值τ的未知對象提議框去掉,減少未知對象重疊框的出現(xiàn),有效提高了檢測器對于未知對象的檢測精度和檢測全度。
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集和實驗環(huán)境
實驗環(huán)境及參數(shù)設(shè)置如表1所示。
本文采用PASCAL VOC[25]作為訓(xùn)練集,VOC-test 作為驗證集,COCO-OOD和COCO-Mix數(shù)據(jù)集作為測試集。訓(xùn)練集由16 551張PASCAL VOC圖片構(gòu)成,含有20類已知目標(biāo)標(biāo)注數(shù)據(jù)。驗證集由4 952張圖片構(gòu)成,包含20類已知對象標(biāo)簽。COCO-OOD由504張圖片構(gòu)成,僅包含未知對象標(biāo)簽,COCO-Mix由897張圖片構(gòu)成,包含20類已知標(biāo)簽和隨機未知對象標(biāo)簽。具體結(jié)構(gòu)如表2所示。
2.2 評價指標(biāo)
根據(jù)最常用的目標(biāo)評估指標(biāo),使用平均精度(mAP)來評估模型對于已知目標(biāo)的檢測效果,具體計算公式如下:
mAP=∑Ki=1APiK (10)
其中:K表示已知對象類別數(shù)量;APi表示第i個已知對象類的平均精度。參考已知類平均精度計算方法,引入U-AP表示未知類平均精度。同時,為了更好地體現(xiàn)模型對于未知類的檢測效果,參考已知類計算查準率和查全率的方法,引入U-PRE表示未知類的查準率,U-REC表示未知類的查全率,計算公式如下:
U-PRE=TPuTPu+FPu,U-REC=TPuTPu+FNu(11)
其中:TPu表示真陽未知對象;FPu表示假陽未知對象;FNu表示假陰未知對象。為了進行更加全面的比較,還引入了U-PRE和U-REC的調(diào)和平均值U-F1來表示未知類的F1得分,計算為
U-F1=2×U-PRE×U-RECU-PRE+U-REC(12)
值得注意的是,對于mAP和U-AP,本實驗在0.5~0.95的不同IoU閾值上進行測量,對于U-PRE、U-REC和U-F1只在IoU閾值0.5處測量。
2.3 結(jié)果分析
2.3.1 消融實驗
為了驗證模型每個關(guān)鍵模塊的有效性,本文基于COCO-OOD和COCO-Mix數(shù)據(jù)集設(shè)計了四組消融實驗,以詳細觀察各個模塊對于整體OWOD檢測器的影響。實驗結(jié)果如表3所示,其中“√”表示引入相應(yīng)模塊,“×”表示暫不使用相應(yīng)模塊。其中UCFR表示未知類特征強化模塊,OBOF表示重疊框偏移過濾器。
通過對比表3中的實驗1和2可知,添加UCFR模塊后,檢測器的U-F1值在OOD和Mix數(shù)據(jù)集上分別提高了3.6和1.2百分點,U-AP值在Mix數(shù)據(jù)集上也提高了1.5百分點,證明強化未知對象特征對于檢測器性能有著促進作用。對比實驗1和3可知,基于偏移感知的重疊框過濾器能夠有效提高檢測器未知對象檢測性能,在OOD和Mix數(shù)據(jù)集上U-F1分別提高了2.4和3.1百分點,U-AP分別提高了1和3.6百分點。通過實驗4可知,將UCFR和OBOF同時加入檢測器后,檢測器在兩個數(shù)據(jù)集上的大部分指標(biāo)都達到了最優(yōu),證明了兩個模塊之間有相互促進的作用,也充分證明了本文方法的可行性和有效性。
2.3.2 對比實驗
如表4所示,首先在2.1節(jié)描述的實驗設(shè)置下驗證了本文方法在開放世界設(shè)定下的檢測性能。表中數(shù)據(jù)展示了檢測模型OFUR-OWOD在封閉集和開放世界數(shù)據(jù)集上的結(jié)果,以及Faster R-CNN、VOS、OW-DETR、ORE[26]和UnSniffer的結(jié)果。其中UnSniffer是目前開放世界檢測領(lǐng)域的最優(yōu)方法,F(xiàn)aster R-CNN是二階段目標(biāo)檢測的基礎(chǔ)方法,ORE在Faster-RCNN基礎(chǔ)上利用基于能量的判別器來識別潛在的未知對象。VOS通過自適應(yīng)合成虛擬離群值來有意義地正則化模型的決策邊界,從而達到未知對象感知的目的。OW-DETR顯式編碼多尺度語境信息并利用知識從已知類向未知類遷移,實現(xiàn)了對未知對象的區(qū)分。UnSniffer采用廣義置信度得分和基于圖的未知框判定方案檢測圖片中的潛在未知對象。
由表中可以看出,在COCO-OOD數(shù)據(jù)集上,OFUR-OWOD在U-F1和U-PRE指標(biāo)上優(yōu)于其他方法,分別比第二名高出1.8和5.1百分點。在COCO-Mix數(shù)據(jù)集上,本檢測器OFUR-OWOD在U-AP、U-F1和U-PRE指標(biāo)都達到了最優(yōu),分別比第二名高出1.7、1.7和4.1百分點。這些比較表明,本文方法在未知對象檢測方面,要優(yōu)于現(xiàn)有的方法,這歸功于未知類特征強化器,加強了對于未知對象的訓(xùn)練,使得模型能夠更準確地檢測出開放環(huán)境下的未知對象。此外,偏移過濾模塊起到了積極的作用,有效地減少了模型對于未知對象的誤判和冗余檢測。同時從表中可看出,在兩個開放數(shù)據(jù)集的召回率方面,本檢測器并未取得最優(yōu)性能。這是因為本檢測器設(shè)計的兩個創(chuàng)新模塊都對提取特征進行了自適應(yīng)擇優(yōu)強化。使得檢測器篩選掉了一部分相對較弱的未知目標(biāo)特征,從而導(dǎo)致檢測器準確率提高的同時,也付出了查全率略微下降的代價,但總體上,這兩個創(chuàng)新模塊對于檢測器的性能提升是起積極作用的。
圖4比較了不同基線方法Faster R-CNN、VOS、ORE、UnSniffer與本文方法OFUR-OWOD在COCO-Mix和COCO-OOD數(shù)據(jù)集上的檢測效果,前兩張是OOD數(shù)據(jù)集圖片,后三張是Mix數(shù)據(jù)集圖片。從圖中可以看出,本文方法相比于其他OWOD方法在檢測未知對象方面擁有更加出色的性能。在第四張圖片中,OFUR-OWOD既能夠準確檢測出沙發(fā)、椅子這類已知對象,又能夠準確檢測出行李箱、靠枕這類未知對象,對已知對象和未知對象區(qū)分能力較強,同時能夠有效處理已知對象重疊框和未知對象冗余框問題。VOS、ORE和UnSniffer均存在將未知的行李箱對象誤檢成已知小汽車對象的情況,VOS存在將沙發(fā)誤檢為未知對象,ORE存在將沙發(fā)誤檢成椅子、小汽車和未知對象,UnSniffer存在將沙發(fā)誤檢成了小汽車的情況。通過對比一、三兩張圖片檢測效果可以看出,本文方法很好地緩解了小目標(biāo)漏檢、重檢問題。通過對比二、四、五三張圖片的檢測效果可以看出,在多目標(biāo)檢測的準確度上,本文方法擁有明顯的優(yōu)勢,有效地降低了誤檢的概率。
通過檢測效果的比較與分析可以證明,本文方法在開放世界未知對象檢測方面具有良好的性能表現(xiàn),可以準確、可靠地給出檢測結(jié)果。這也證明了未知特征強化器和偏移過濾器是可行的,能夠很好地提升檢測器對于未知對象的檢測性能。
3 結(jié)束語
本文成功提出了一種新的開放世界目標(biāo)檢測器,該檢測器通過兩項關(guān)鍵改進有效提高了未知對象檢測性能。通過在分類器前添加未知類特征強化模塊,加強對未知對象的訓(xùn)練,從而在不影響已知類檢測率情況下進一步提高未知類的檢測精度和全度。另外,在推理階段加入基于偏移感知的重疊框過濾器,篩除已知對象誤檢框和未知對象重疊框,避免了對象密集和對象混淆提議框影響模型對于未知對象的檢測性能。本文在開放世界檢測的基準數(shù)據(jù)集上對提出的方法進行了評估。在兩個不同實驗設(shè)置和四個數(shù)據(jù)集下,本文方法在大部分指標(biāo)上取得了當(dāng)前領(lǐng)域最優(yōu)的性能。這證明了本文方法對于OWOD問題有著良好的解決能力,消融實驗也證明了方法中的每一個模塊的可行性以及對于整體模型性能的有效性。為了進一步發(fā)現(xiàn)未知對象的判別方法,在未來工作中,應(yīng)該加強已知對象和未知對象之間相關(guān)性的研究。同時應(yīng)深入研究輕量化模型,進一步優(yōu)化檢測器結(jié)構(gòu),提高模型的檢測速率和性能。
參考文獻:
[1]Menezes A G,De Moura G,Alves C,et al.Continual object detection:a review of definitions,strategies,and challenges[J].Neural Networks,2023,161:476-493.
[2]時高松,趙清海,董鑫,等.基于PPO算法的自動駕駛?cè)藱C交互式強化學(xué)習(xí)方法[J].計算機應(yīng)用研究,2024,41(9):2732-2736.(Shi Gaosong,Zhao Qinghai,Dong Xin,et al.Human-machine interactive reinforcement learning method for autonomous driving based on PPO algorithm [J].Application Research of Computers,2024,41(9):2732-2736.)
[3]Lee J W,Kang H S.Three-stage deep learning framework for video surveillance[J].Applied Sciences,2024,14(1):408.
[4]Deng Yafei,Lyu Jun,Huang Delin,et al.Combining the theoretical bound and deep adversarial network for machinery open-set diagnosis transfer[J].Neurocomputing,2023,548:126391.
[5]Wang Qian,Meng Fanlin,Breckon T P.Progressively select and reject pseudo-labelled samples for open-set domain adaptation[EB/OL].(2021-10-25).https://arxiv.org/abs/2110.12635.
[6]孫旭豪,沈陽,魏秀參,等.結(jié)合環(huán)狀原型空間優(yōu)化的開放集目標(biāo)檢測[J].中國圖象圖形學(xué)報,2023,28(9):2719-2732.(Sun Xuhao,Shen Yang,Wei Xiushen,et al.Open-set object detection based on annular prototype space optimization[J].Journal of Image and Graphics,2023,28(9):2719-2732.)
[7]Neal L,Olson M,F(xiàn)ern X,et al.Open set learning with counterfactual images [C]//Proc of European Conference on Computer Vision.2018:613-628.
[8]Kong Shu,Ramanan D.OpenGAN:open-set recognition via open data generation[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:813-822.
[9]Zaidi S S A,Ansari M S,Aslam A,et al.A survey of modern deep learning based object detection models[J].Digital Signal Proces-sing,2022,126:103514.
[10]Tong Kang,Wu Yiquan.Deep learning-based detection from the perspective of small or tiny objects:a survey[J].Image and Vision Computing,2022,123:104471.
[11]Liu Zhaowei,Yang Dong,Wang Yingjie,et al.EGNN:graph structure learning based on evolutionary computation helps more in graph neural networks[J].Applied Soft Computing,2023,135:110040.
[12]Joseph K J,Khan S,Khan F S,et al.Towards open world object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:5830-5840.
[13]Qi Lu,Kuen J,Wang Yi,et al.Open world entity segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(7):8743-8756.
[14]Zhu Linxiang,Lee Feifei,Cai Jiawei,et al.An improved feature pyramid network for object detection[J].Neurocomputing,2022,483:127-139.
[15]Yang Xue,Yan Junchi.On the arbitrary-oriented object detection:classification based approaches revisited[J].International Journal of Computer Vision,2022,130(5):1340-1365.
[16]Kim D,Lin T Y,Angelova A,et al.Learning open-world object proposals without learning to classify[J].IEEE Robotics and Automation Letters,2022,7(2):5453-5460.
[17]Tian Shishun,Chen Ruifeng,Zou Wenbin,et al.MI-RPN:integrating multi-modalities and multi-scales information for region proposal[J].Multimedia Tools and Applications,2023,83(20):58267-58292.
[18]Yao Fengqin,Wang Shengke,Li Rui,et al.An accurate box localization method based on rotated-RPN with weighted edge attention for bin picking[J].Neurocomputing,2022,482:264-277.
[19]Gupta A,Narayan S,Joseph K J,et al.OW-DETR:open-world detection transformer [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:9235-9244.
[20]Du Xuefeng,Wang Zhaoning,Cai Mu,et al.VOS:learning what you don’t know by virtual outlier synthesis[EB/OL].(2022-05-09).https://arxiv.org/abs/2202.01197.
[21]Liang Wenteng,Xue Feng,Liu Yihao,et al.Unknown sniffer for object detection:don’t turn a blind eye to unknown objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:3230-3239.
[22]Chen Xun,Li Chang,Liu Aiping,et al.Toward open-world electroencephalogram decoding via deep learning:a comprehensive survey[J].IEEE Signal Processing Magazine,2022,39(2):117-134.
[23]Yao Lewei,Han Jianhua,Wen Youpeng,et al.Detclip:dictionary-enriched visual-concept paralleled pre-training for open-world detection[J].Advances in Neural Information Processing Systems,2022,35:9125-9138.
[24]Chen Yuhua,Wang Haoran,Li Wen,et al.Scale-aware domain adaptive Faster R-CNN[J].International Journal of Computer Vision,2021,129(7):2223-2243.
[25]Tong Kang,Wu Yiquan.Rethinking PASCAL-VOC and MS-COCO dataset for small object detection[J].Journal of Visual Communication and Image Representation,2023,93:103830.
[26]Zhao Xiaowei,Ma Yuqing,Wang Duorui,et al.Revisiting open world object detection[J].IEEE Trans on Circuits and Systems for Video Technology,2023,34(5):3496-3509.