• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種角度自適應(yīng)的橢圓模板檢測(cè)器

      2022-12-26 14:11:08胡永利武劍孫艷豐
      關(guān)鍵詞:錨框橢圓損失

      胡永利,武劍,孫艷豐

      (北京工業(yè)大學(xué)人工智能與自動(dòng)化學(xué)院,北京 100124)

      1 引言

      近年來,隨著深度學(xué)習(xí)的興起,基于卷積神經(jīng)網(wǎng)絡(luò)[1][2](Convolutional Neural Networks,CNN)的 深 度學(xué)習(xí)算法不斷刷新諸如圖像識(shí)別、目標(biāo)檢測(cè)、語義分割、姿態(tài)估計(jì)等各類視覺任務(wù)的性能上限。相較于傳統(tǒng)的特征提取器,卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)從圖像數(shù)據(jù)中學(xué)習(xí)到各個(gè)層次的視覺特征,淺層的卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像的邊緣、紋理等低級(jí)特征,深層的卷積神經(jīng)網(wǎng)絡(luò)則可以提取出圖像的高級(jí)抽象特征。整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)過程無需手工設(shè)計(jì)參數(shù),與此同時(shí),隨著硬件性能的不斷提高,加快了卷積神經(jīng)網(wǎng)絡(luò)算法的落地和應(yīng)用。

      自2014年以來,涌現(xiàn)出了許多基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法,這類算法大體上都包含三個(gè)部分:首先利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,之后處理圖像特征信息從而完成對(duì)物體的類別預(yù)測(cè)和定位。目前已有的優(yōu)秀目標(biāo)檢測(cè)算法包括,基于錨框的目標(biāo)檢測(cè)算法Fast RCNN[3]、Faster RCNN[4]、SSD[5]、YOLO[6][7][8]等,以及擺脫錨框的目標(biāo)檢測(cè)算法CenterNet-Keypoint[9]、CenterNet[10]、FCOS[11]、Corner-Net[12]等。這些優(yōu)秀的方法為目標(biāo)檢測(cè)的應(yīng)用及落地創(chuàng)造了可能,具有很高的應(yīng)用價(jià)值。

      雖然上述目標(biāo)檢測(cè)算法均采用了不同的模型結(jié)構(gòu),但受限于數(shù)據(jù)集的影響,這些算法通常使用矩形框來進(jìn)行檢測(cè)。例如,現(xiàn)有常用的兩個(gè)公開目標(biāo)檢測(cè)數(shù)據(jù)集VOC[13],COCO[14]均采用矩形框進(jìn)行標(biāo)注。如圖1(a)所示,如果檢測(cè)對(duì)象存在傾斜的角度,那么矩形框?qū)?huì)包含很多背景區(qū)域。在提取圖像特征的過程中,由于目標(biāo)物體包含了大量的背景區(qū)域,勢(shì)必會(huì)對(duì)網(wǎng)絡(luò)的分類性能造成影響。于是近些年在遙感和文本圖像檢測(cè)方面,出現(xiàn)了一些基于旋轉(zhuǎn)矩形框的目標(biāo)檢測(cè)算法,例如R3Det[15]、RoI Transformer[16]、GlidingVertex[17]、RRPN[18]等。旋轉(zhuǎn)矩形框改善了矩形框的問題,但在面對(duì)自然圖像中復(fù)雜的物體時(shí)候,依然會(huì)包含較多的背景區(qū)域,如圖1(b)所示。另外,這類算法由于需要額外學(xué)習(xí)一個(gè)傾斜角度參數(shù),導(dǎo)致錨框的使用成倍增加,進(jìn)而使計(jì)算復(fù)雜度大幅上升。因此,設(shè)計(jì)一種能夠在不同場景、姿態(tài)和方向上均能準(zhǔn)確檢測(cè)物體邊界的模型是非常有價(jià)值和現(xiàn)實(shí)意義的工作。如圖1(c)所示,若采用旋轉(zhuǎn)橢圓框進(jìn)行檢測(cè)則能夠更好地適配物體的輪廓。另外據(jù)我們所知,目前沒有以橢圓框進(jìn)行標(biāo)注的自然場景下的數(shù)據(jù)集。因此,我們希望通過構(gòu)建一個(gè)以旋轉(zhuǎn)橢圓框標(biāo)注的自然場景下的數(shù)據(jù)集,推動(dòng)越來越多的研究者研究橢圓框目標(biāo)檢測(cè)器。

      圖1 不同形式檢測(cè)框

      2 橢圓模板檢測(cè)器

      2.1 符號(hào)表示

      圖2 EllipseNet網(wǎng)絡(luò)結(jié)構(gòu)圖

      2.2 網(wǎng)絡(luò)結(jié)構(gòu)

      如圖2所示,原始圖像首先經(jīng)過ResNet50來提取出不同尺度大小的特征圖C3-C5。其中C5包含了豐富的語義信息,但隨著下采樣率的增加導(dǎo)致C5上包含的小物體的有效信息逐漸較少。而淺層特征圖C3包含了小物體的邊緣信息但語義信息不足。為了融合不同特征層之間的語義信息,本文采用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),F(xiàn)PN首先使用一個(gè)的卷積核來將C2-C5的通道數(shù)目統(tǒng)一變成256,之后相鄰特征層借助上采樣來自上而下的融合不同特征層之間語義信息,最終經(jīng)過FPN得到了四張融合后的特征圖F1-F5,后續(xù)分別用于完成圖像的分類和定位。

      在得到F1-F5之后,EllipseNet的回歸層部分則是在各個(gè)特征層的基礎(chǔ)上用以預(yù)測(cè)橢圓的類別及屬性(圓心位置、長短軸長和旋轉(zhuǎn)角度)。然而在實(shí)際實(shí)驗(yàn)過程中,如圖3(a)所示,觀察到FCOS預(yù)測(cè)出物體的中心位置會(huì)跟實(shí)際的中心發(fā)生偏移,究其原因是由于特征圖下采樣丟失精度以及FCOS會(huì)在中心區(qū)域附近選擇正樣本。為了彌補(bǔ)圓心偏移的損失,在預(yù)測(cè)層中額外回歸了圓心偏移量。假設(shè)第i個(gè)特征圖Fi中的某個(gè)位置坐標(biāo)為,則該位置和圓心之間的真實(shí)偏移量如公式(1)所示:

      圖3 FCOS和EllipseNet檢測(cè)效果圖

      2.3 正負(fù)樣本選擇

      EllipseNet正樣本的選擇采用了FCOS算法的思想,即首先將每個(gè)特征圖的像素位置映射回原圖尺度,若特征圖的某個(gè)位置落在了真實(shí)框內(nèi),則將其視為正樣本的一個(gè)必要條件;之后如公式(2)所示,設(shè)計(jì)了一個(gè)中心采樣比例系數(shù),分別為每個(gè)特征層Fi根據(jù)其下采樣步長設(shè)定了一個(gè)半徑r,將特征圖上的像素位置在半徑范圍內(nèi)的視為正樣本的另一個(gè)必要條件;

      但此時(shí)并沒有考慮FPN結(jié)構(gòu)按照各自特征圖尺度分配正樣本的原則,故又額外設(shè)計(jì)了regree_ranges參數(shù),該參數(shù)為每個(gè)特征圖Fi設(shè)計(jì)了一個(gè)尺度范圍scale,若正樣本的最長邊落在某個(gè)scale內(nèi),則該特征層負(fù)責(zé)預(yù)測(cè)該物體,其余特征層則視為負(fù)樣本。

      在完成上述正樣本分配后,如圖4所示,此時(shí)依然存在一個(gè)正樣本點(diǎn)可能同時(shí)匹配兩個(gè)真實(shí)框的情況,而本文做法則是直接按照面積匹配最小原則將當(dāng)前正樣本點(diǎn)匹配給面積最小的真實(shí)框。

      圖4 正樣本點(diǎn)匹配兩個(gè)真實(shí)框示意圖

      2.4 損失函數(shù)

      EllipseNet整體損失函數(shù)如公式(3)所示:

      其中Lcls表示類別損失,而表示橢圓的交并比損失??紤]到任意形狀的兩個(gè)橢圓的交并比存在運(yùn)算強(qiáng)度大的缺點(diǎn)。因此,為了加速網(wǎng)絡(luò)的訓(xùn)練,重新定義的損失函數(shù)為:

      另外,本文還額外引入了一種橢圓交并比損失函數(shù),如圖5所示,令和分別表示橢圓的真實(shí)長短軸長和預(yù)測(cè)長短軸長,則

      圖5 橢圓交并比損失函數(shù)

      兩個(gè)橢圓的近似交并比如公式(8)所示:

      由于交并比需要優(yōu)化到1,最終的橢圓交并比損失為:

      當(dāng)然在模型訓(xùn)練初始階段,網(wǎng)絡(luò)還不能夠準(zhǔn)確的預(yù)測(cè)橢圓的旋轉(zhuǎn)角度和中心偏移量,因此橢圓交并比損失是在模型訓(xùn)練穩(wěn)定后才被添加進(jìn)去的。

      2.5 推理過程

      給定一張輸入圖像后,經(jīng)過FPN得到五張?zhí)卣鲌D,之后經(jīng)過回歸層之后每張?zhí)卣鲌D的每個(gè)位置會(huì)得到五個(gè)預(yù)測(cè)值:類別置信度分?jǐn)?shù)、中心度分?jǐn)?shù)、橢圓中心偏移量、長短軸長以及旋轉(zhuǎn)角度。然后將特征圖所有像素點(diǎn)映射回原圖,將類別置信度分?jǐn)?shù)和中心度分?jǐn)?shù)相乘得到最終每個(gè)像素點(diǎn)的置信度分?jǐn)?shù),另外,本文設(shè)定一張圖最多只檢測(cè)個(gè)物體,并通過一個(gè)分?jǐn)?shù)閾值來過濾掉低于閾值的像素點(diǎn)。在得到預(yù)測(cè)點(diǎn)之后,再通過公式(1)來修正這些點(diǎn)的位置便得到了橢圓圓心的位置,另外在結(jié)合對(duì)應(yīng)位置其他預(yù)測(cè)值(長短軸長,旋轉(zhuǎn)角度)便得到了預(yù)測(cè)橢圓框,最終經(jīng)過橢圓的NMS便得到了最終的輸出結(jié)果。

      3 實(shí)驗(yàn)結(jié)果

      3.1 數(shù)據(jù)集

      據(jù)本文所知,目前沒有用旋轉(zhuǎn)橢圓框標(biāo)注的自然場景下的數(shù)據(jù)集。為了測(cè)試EllipseNet在自然場景數(shù)據(jù)集上的性能,本文在PASCAL VOC2007數(shù)據(jù)集基礎(chǔ)上構(gòu)造了一個(gè)旋轉(zhuǎn)數(shù)據(jù)集,其中原始的PASCAL VOC2007數(shù)據(jù)集包含了豐富的自然場景,該數(shù)據(jù)集總共標(biāo)注了20個(gè)類別的物體。但由于PASCAL VOC2007數(shù)據(jù)集中物體大多數(shù)垂直于地面,為了增加角度的多樣性需要對(duì)該數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)。本文通過使用傳統(tǒng)的圖像處理算法等比例的旋轉(zhuǎn)圖像并人為的用旋轉(zhuǎn)橢圓框?qū)ξ矬w進(jìn)行了標(biāo)注。本文將構(gòu)造完成的數(shù)據(jù)集稱為Rotate VOC2007數(shù)據(jù)集,該數(shù)據(jù)集總共包含了5,747張圖像,其中4,981張圖像用于訓(xùn)練,766張圖像用于測(cè)試,總共包含了隸屬于20個(gè)類別的18,445個(gè)旋轉(zhuǎn)的物體。

      3.2 對(duì)比方法

      本文選擇了目前性能優(yōu)異的旋轉(zhuǎn)檢測(cè)算法和EllipseNet做對(duì)比,包括一階段旋轉(zhuǎn)檢測(cè)算法和二階段旋轉(zhuǎn)檢測(cè)算法。其中,一階段檢測(cè)算法包括:

      (1)RetinaNet-OBB[21],一種借助水平錨框的高效旋轉(zhuǎn)檢測(cè)算法。

      (2)FCOS-Poly[11]:在FCOS算法基礎(chǔ)上結(jié)合Poly-IoU-Loss損失函數(shù)進(jìn)行旋轉(zhuǎn)檢測(cè)的算法。

      (3)Gliding Vertex[17]:一種在預(yù)測(cè)水平矩形框基礎(chǔ)上額外再預(yù)測(cè)四個(gè)角點(diǎn)偏移量的旋轉(zhuǎn)檢測(cè)算法。

      (4)R3Det[15]:一種通過引入特征微調(diào)模塊來克服旋轉(zhuǎn)候選框特征不對(duì)齊的旋轉(zhuǎn)檢測(cè)算法。

      與上述一階段旋轉(zhuǎn)檢測(cè)算法相比,二階段旋轉(zhuǎn)檢測(cè)算法由于額外增加了一個(gè)RPN模塊其性能普遍較好,但隨之帶來的缺點(diǎn)就是檢測(cè)速度相對(duì)較慢。本文選擇的二階段檢測(cè)算法包括:

      (1)R2CNN-OBB[4]:一個(gè)在FasterRCNN基礎(chǔ)上改造的直接預(yù)測(cè)旋轉(zhuǎn)框的二階段檢測(cè)算法。

      (2)RoI Transformer[16]:一種借用水平錨框并借助RoI Learner模塊學(xué)習(xí)水平錨框到旋轉(zhuǎn)錨框變換的二階段檢測(cè)算法。

      (3)Oriented RCNN[22]:一種借助Oriented RPN模塊學(xué)習(xí)水平錨框到旋轉(zhuǎn)錨框變換的二階段目標(biāo)檢測(cè)算法。

      3.3 超參數(shù)設(shè)置

      本文將數(shù)據(jù)集R-VOC2007中圖像統(tǒng)一變換成[512,800,3]大小。另外,在模型訓(xùn)練過程中,使用了隨機(jī)上下、左右翻轉(zhuǎn)的圖像增強(qiáng)方法。模型總共迭代了100輪,并將初始學(xué)習(xí)率設(shè)置為5e-5。使用Adam[23]優(yōu)化器并以批次2對(duì)模型進(jìn)行訓(xùn)練。在正負(fù)樣本選擇過程中,令中心采樣率,各特征圖下采樣率為。在損失函數(shù)計(jì)算過程中,將Focal Loss的兩個(gè)超參分別設(shè)置為和,將權(quán)重系數(shù)分別設(shè)置為,。

      本文采用的硬件平臺(tái)為因特爾的i9-10900X CPU和一塊顯存為24GB的英偉達(dá)3090顯卡,Pytorch采用的版本為1.7.1。

      3.4 實(shí)驗(yàn)結(jié)果分析

      表1展示了EllipseNet和其他旋轉(zhuǎn)檢測(cè)算法的性能比較。從表中可以看出,二階段目標(biāo)檢測(cè)算法RoI Transformer和一階段目標(biāo)檢測(cè)算法Gliding Vertex分別以48.27%和46.06%的mAP值取得了最優(yōu)的性能。雖然EllipseNet僅取得了38.71%的mAP值,但在汽車和自行車兩個(gè)類別上分別擊敗了其余所有的方法,這也在一定程度上驗(yàn)證了本文方法在面對(duì)復(fù)雜的自然場景時(shí)也具有一定的性能優(yōu)勢(shì)。

      表1 RVOC2007數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比

      3.5 消融實(shí)驗(yàn)

      (1)橢圓中心回歸:一個(gè)橢圓的中心對(duì)確定一個(gè)橢圓框的位置非常重要。雖然FCOS能夠預(yù)測(cè)物體的中心區(qū)域,但在一定程度上,如圖3(a)所示,依然會(huì)存在一定的偏差。表2展示了是否添加橢圓中心偏差分支的消融實(shí)驗(yàn),從中可以看出,在額外回歸橢圓圓心偏差后mAP有1.4%的提升,從而驗(yàn)證了橢圓中心對(duì)預(yù)測(cè)橢圓位置的重要性。

      表2 橢圓中心偏差分支消融實(shí)驗(yàn)

      (2)橢圓交并比損失函數(shù):表3展示了不同損失函數(shù)對(duì)EllipseNet性能的影響,從表中可以看出,相較于僅使用Smooth L1 Loss[4],在添加了橢圓交并比損失后EllipseNet的mAP漲了0.9%,從而驗(yàn)證了橢圓交并比損失函數(shù)能夠進(jìn)一步的提升模型的性能。

      表3 損失函數(shù)消融實(shí)驗(yàn)

      3.6 可視化分析

      如圖6所示,本文可視化了EllipseNet在RVOC2007數(shù)據(jù)集上的部分檢測(cè)結(jié)果,可以看出,在復(fù)雜的自然場景下EllipseNet能夠較好的檢測(cè)各個(gè)角度姿態(tài)下的物體。

      圖6 RVOC2007可視化

      4 結(jié)論

      本文提出了一種能夠更加精確檢測(cè)物體的旋轉(zhuǎn)橢圓目標(biāo)檢測(cè)器EllipseNet,設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)使其預(yù)測(cè)橢圓的圓心偏移量、長短軸長以及旋轉(zhuǎn)角度來完成旋轉(zhuǎn)橢圓的預(yù)測(cè)。另外在損失函數(shù)部分,考慮到橢圓框本質(zhì)上應(yīng)該作為一個(gè)整體來進(jìn)行損失計(jì)算,而不應(yīng)該用Smooth L1 Loss來單獨(dú)回歸橢圓框的各個(gè)屬性,因此本文額外又提出了一種橢圓交并比損失函數(shù)來進(jìn)一步提升了模型的性能。最終實(shí)驗(yàn)表明,EllipseNet具有一定的應(yīng)用價(jià)值。

      猜你喜歡
      錨框橢圓損失
      基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
      Heisenberg群上由加權(quán)次橢圓p-Laplace不等方程導(dǎo)出的Hardy型不等式及應(yīng)用
      錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
      基于SSD算法的輕量化儀器表盤檢測(cè)算法*
      基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
      少問一句,損失千金
      胖胖損失了多少元
      例談橢圓的定義及其應(yīng)用
      一道橢圓試題的別樣求法
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      文水县| 邯郸县| 山西省| 枝江市| 兴安县| 故城县| 深圳市| 通化县| 中方县| 酉阳| 瓮安县| 孟州市| 新竹县| 抚州市| 昌宁县| 唐山市| 句容市| 肇源县| 台州市| 瑞金市| 白城市| 德安县| 开平市| 江永县| 贵德县| 彭阳县| 连南| 平罗县| 长阳| 西畴县| 浪卡子县| 玉树县| 临汾市| 峨边| 电白县| 五寨县| 广德县| 高雄市| 长顺县| 凤山县| 曲水县|