• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      目標檢測尺度不平衡問題綜述

      2021-01-15 11:33:48
      關鍵詞:金字塔尺度卷積

      張 偉

      (北京信息科技大學 自動化學院,北京 100192)

      0 引言

      目標檢測是計算機視覺領域重要任務之一,在無人駕駛、視頻監(jiān)控等方面有著廣泛的應用。目標檢測包括目標分類和目標定位。早期由于視覺技術和計算機硬件設備等因素的限制,傳統(tǒng)目標檢測算法要依據(jù)人工標注特征,對特定的檢測目標要設計和訓練分類器,如DPM(deformable parts model)和Adaboost。近些年,隨著深度學習和卷積神經網絡在計算機視覺領域的應用不斷發(fā)展,基于深度卷積神經網絡的目標檢測算法不斷涌現(xiàn),在目標檢測領域取得了巨大的成功?;谏疃染矸e神經網絡的目標檢測算法分為兩類:一類是以RCNN[1-3]系列為代表的兩階段方法,另一類是以SSD[4-6]系列和YOLO[7-10]系列為代表的一階段方法。

      基于深度學習的目標檢測方法的檢測速度在不斷加快,其準確率也在不斷提高,但是在算法實現(xiàn)的過程中會出現(xiàn)不平衡問題,導致檢測模型的性能降低。不平衡問題的出現(xiàn)引起廣大研究者的關注。最典型的不平衡問題是前景類別(正類)和背景類別(負類)的不平衡。它主要表現(xiàn)在給定圖像數(shù)據(jù)集中會有數(shù)量較少的正樣本和數(shù)量較多的負樣本,正負樣本之間會呈現(xiàn)出極度不平衡狀態(tài)。數(shù)據(jù)集中不平衡的樣本使模型在訓練過程中側重樣本數(shù)目較多的類別,而“輕視”樣本數(shù)目較少類別,導致模型在測試數(shù)據(jù)上的泛化能力和準確性方面受到嚴重影響。

      目標檢測不平衡問題可以分為4類:類別不平衡問題、尺度不平衡問題、空間不平衡問題、優(yōu)化目標不平衡問題。本文對近年來目標檢測尺度不平衡問題進行了總結,從尺度不平衡問題出現(xiàn)的原因和解決方法的角度出發(fā),對尺度不平衡問題領域中一些有啟發(fā)性的研究成果進行整理、歸納和分析,并對主要方法的性能指標進行了比較分析,以便于相關研究者參考和借鑒。

      1 尺度不平衡問題描述

      數(shù)據(jù)集中由于目標對象尺度分布不均勻,小尺度的目標對象可能會多一些,大尺度的目標對象可能會少一些,有些數(shù)據(jù)集中二者會相反。數(shù)據(jù)集中目標對象尺度不平衡,會引起檢測模型尺度不平衡問題發(fā)生,在測試模型時就會出現(xiàn)目標定位不準和小尺度目標對象漏檢的現(xiàn)象,因此強化檢測模型的檢測能力就顯得至關重要。

      通過對目標檢測算法實現(xiàn)過程仔細分析,發(fā)現(xiàn)引起尺度不平衡問題主要體現(xiàn)在兩個方面:一方面是目標對象及包圍框存在尺度不平衡,另一方面是在神經網絡中不同特征層對整個檢測模型貢獻程度存在不平衡。

      2 目標對象及包圍框不平衡

      目前多數(shù)的目標檢測方法是基于深度卷積神經網絡的,其中骨干神經網絡部分是在圖像分類的基礎上預訓練得到,使用遷移學習方法應用到深度卷積神經網絡中。預訓練骨干神經網絡的圖像分類數(shù)據(jù)集與目標檢測數(shù)據(jù)集存在某些差異。當目標檢測數(shù)據(jù)集中的目標對象及包圍框過度表示,就會對檢測器的感興趣區(qū)域(region of interest,RoI)產生嚴重影響,使檢測器發(fā)生尺度不平衡問題,整體檢測性能就會變差。

      針對目標對象及包圍框引起的尺度不平衡問題,解決思路是使用不同的特征層進行不同尺度的預測或結合多尺度特征層進行預測[11],解決方法是對深度卷積網絡中特征空間的特征層進行調整,其中圖像金字塔法和特征金字塔法最為典型。

      2.1 圖像金字塔法

      圖像金字塔法的結構如圖1所示。其早期需要通過人工標注特征,在圖像處理任務中廣泛使用。在深度卷積神經網絡中,由于圖像金字塔法計算量較大與內存資源需求因素的限制,沒有大量推薦使用。

      Singh等[12]通過對尺度不平衡問題的分析,在圖像金字塔的基礎上提出了圖像金字塔尺度歸一化方法(scale normalization for image pyramids,SNIP)。該方法選擇多尺度圖像訓練模型,目標尺度在特定范圍的圖像作為訓練對象。在反向傳播時,選擇性地忽略一些過大和過小的目標,可以使訓練時的尺度與原始圖像的尺度相似,從而提高準確率并減少領域偏移(domain-shift)。

      SNIP可以緩解圖像金字塔法在內存方面的要求,也可以使檢測模型在檢測小目標對象的性能得到提升,但訓練過程耗時較長。

      Singh等[13]提出的SNIPER(scale normalization for image pyramids with efficient resampling)是在SNIP的基礎上進行改進的多尺度訓練方法,其通過圖像裁剪的方式得到一定大小的片(chips),再將chips縮放到固定的尺度,最后選擇固定尺度的chips作為神經網絡的輸入。與SNIP相比較,SNIPER不僅使檢測模型在檢測小目標對象的性能得到提升,還使訓練速度得到明顯的提升。

      2.2 特征金字塔法

      特征金字塔法是在圖像金字塔法的基礎之上創(chuàng)建而來。深度卷積神經網絡的特征層對應著不同的信息,淺層網絡分辨率較高,可以學習到目標的紋理、形態(tài)等細節(jié)信息;深層網絡分辨率較低,可以學習到目標的語義信息。讓淺層網絡和深層網絡的信息互補,使深度卷積神經網絡對特征信息的表達能力加強。

      Lin等[14]提出的特征金字塔網絡(feature pyramid networks,F(xiàn)PN)方法,其網絡結構如圖2所示。將神經網絡深層豐富的語義信息和淺層的細節(jié)信息相互融合起來,形成一種橫向連接(lateral connection)的自上而下(top-down)的結構。由于淺層和深層的信息能夠互補,得到了多尺度的特征圖并包含了上下文的信息。

      圖2左側自下而上(bottom-up)的特征卷積路徑是網絡的前向過程,伴隨網絡層數(shù)的加深,特征圖將從大到小遞減,其通道數(shù)會不斷增加,則可以保證特征的平移不變性。右側自上而下(top-down)的路徑通常采用反卷積或上采樣方式連接,而橫向連接是將反卷積或上采樣的特征圖和(C2,C3,C4,C5)與1×1卷積核生成的具有高度、寬度和通道數(shù)大小相同的特征圖進行融合,使淺層的細節(jié)信息和深層的語義信息相互融合形成多尺度特征圖(P2,P3,P4,P5),并且采用3×3卷積核對融合特征圖進行卷積操作,目的是消除上采樣引起的重疊效應。

      FPN方法的出現(xiàn),使檢測模型的性能得到明顯的提升,尤其是小目標對象的漏檢問題得到顯著的改善,使得由數(shù)據(jù)集中目標對象及包圍框的過度表示引起的尺度不平衡問題得到一定程度的緩解。

      3 特征層貢獻程度不平衡

      FPN中淺層的特征和深層的特征要融合,而骨干神經網絡每個階段的特征層也要進行特征融合,此過程中長路徑融合會造成特征間發(fā)生相關性的損失[15],使特征層的貢獻程度不平衡,稱之為特征不平衡,它屬于尺度不平衡的子問題。解決思路是改善檢測模型的結構,目前的解決方式是圍繞FPN結構進行改進。

      3.1 改進特征金字塔

      由于FPN中并沒有充分利用好淺層網絡的細節(jié)信息與深層網絡的語義信息的融合。Liu等[16]提出了PANet(path aggregation network)方法,其結構如圖3所示。其在FPN結構上再添加一個自下而上(N2,N3,N4,N5)的路徑,目的是進一步聚合淺層和深層的特征信息,增強整個神經網絡特征層的結構。

      圖3中新添加的自下而上的增強路徑(bottom-up path augmentation),還有短連接(低層箭頭)使信息路徑縮短,方便淺層的細節(jié)信息得到更充分的利用,使PANet的定位性能得到明顯的提升。

      在FPN中,根據(jù)RoI的大小將其分配到不同的特征層上,這種方式雖然取得了有效的成果,但仍不能令人滿意。Liu等通過實驗發(fā)現(xiàn)特征的重要性與所屬的特征層沒有直接的關系,不論是淺層特征還是深層特征都非常有用,因此提出通過RoI Align(region of interest pooling)池化的方式選取每層的特征,然后再做逐像素求和(sum)或相加(add)的特征融合操作。整個過程稱之為自適應特征池化(adaptive feature pooling),使得特征不平衡的問題得到一定程度的緩解,也使PANet檢測小目標對象的性能得到提升。

      3.2 改進骨干網絡

      目標檢測任務中檢測模型的性能高度依賴于骨干神經網絡提取的特征。骨干網絡的改進主要是使用文獻[17]提出的ResNet(residual networks)和文獻[18]提出的 DenseNet(dense convolutional network)加強特征的傳遞,進而可以更有效地利用特征信息,減少特征間相關性的損失。其與FPN結構最大區(qū)別是取消了自上而下的路徑,形成獨特結構。

      Kim等[19]提出的PFPNet(parallel feature pyramid network)是在骨干網絡基礎上進行改進,其網絡結構如圖4所示。使用文獻[20]提出的SPP(spatial pyramid pooling)思維來構造特征金字塔得到不同尺度的特征圖,其中SPP模塊擴展了網絡的寬度,讓輸入任意大小的圖像和不同尺度的目標對象,均能輸出固定的特征。MSCA(multi scale context aggregation)模塊為特征融合操作,可以聚合不同規(guī)模的上下文信息形成最終的特征圖用于預測。

      3.3 改進神經結構搜索技術

      神經結構搜索(neural architecture search,NAS)已經在圖像分類任務上取得巨大的成功,但是在目標檢測任務上的應用非常少。而前文提到的檢測方法,均是人工設計的特征金字塔結構,能解決特征不平衡問題,但仍不是最優(yōu)的FPN結構。為了更靈活地獲得最優(yōu)的FPN結構,研究人員創(chuàng)新性地提出采用NAS技術來構建FPN結構。

      Ghiasi等[21]提出的NAS-FPN首次用NAS技術在搜索空間中發(fā)現(xiàn)最優(yōu)的FPN結構。NSA-FPN網絡結構如圖5所示,使用Lin等[22]提出的RetinaNet為主框架,其搜索空間被設計成模塊化以便于管理。模塊化的搜索空間涵蓋所有可能出現(xiàn)的跨尺度連接的FPN,并且一個FPN是由多個merging cells 組成。搜索過程使用強化學習來訓練一個控制器??刂破魇褂米幽P驮谒阉骺臻g中的準確性作為激勵信號來更新其參數(shù)。通過多次反復試驗,控制器學會尋找最優(yōu)的FPN結構,將發(fā)現(xiàn)的新的FPN結構稱之為NAS-FPN結構。

      Chen等[23]首創(chuàng)性提出DetNAS方法,同樣使用NAS技術,以Ma等[24]提出的ShuffleNetv2為基礎的搜索空間去發(fā)現(xiàn)最優(yōu)的骨干網絡結構。搜索空間被設計為兩個大小不同的空間,大搜索空間用于主要結果,小搜索空間用于消融研究。搜索過程受One-Shot NAS(one-shot neural architecture search)等方法的啟發(fā),先在ImageNet上預訓練One-shot SuperNet網絡,然后使用測試數(shù)據(jù)集對One-shot SuperNet網絡進行微調,最后使用進化搜索算法來滿足約束條件。這種方式尋找的骨干網絡結構在性能方面可以超過人工設計的骨干網絡結構。DetNAS對中小目標對象的檢測性能也優(yōu)于人工設計的檢測模型。

      改進特征金字塔和改進骨干網絡均促使特征信息融合,使深層和淺層的特征信息得到充分利用,讓特征層之間保持平衡。改進神經結構搜索技術可以充分利用硬件設備的計算能力發(fā)現(xiàn)最優(yōu)結構,排除人為因素的影響,因此神經結構搜索技術必將成為一個熱門研究方向。上述的改進方法均使特征層貢獻程度不平衡引起的尺度不平衡問題得到一定程度的緩解。

      4 算法性能對比

      為比較上述目標檢測方法的檢測性能,將這些檢測算法在常用的COCO[25]目標檢測數(shù)據(jù)集上的檢測結果進行對比。其中COCO數(shù)據(jù)集包含20萬個圖像,檢測類別有80類。各算法的檢測精度如表1所示,表中數(shù)據(jù)分別取自文獻[2-4,8-9,12-13,16-20]。

      算法性能對比過程中選擇AP(average precision)值作為評價指標,并依據(jù)IoU(intersection over union)取值將AP進行劃分。IoU值從0.5~0.95的AP值記為Ap50~95并作為整個檢測算法的評價指標,IoU值為0.5和0.75對應的AP值記為Ap50和Ap75。另外還依據(jù)COCO數(shù)據(jù)集中目標對象的尺度進行劃分,將目標對象分為小目標,中目標,大目標,它們對應的AP值分別記為ApS、ApM和ApL并作為參考指標。

      從表1中可以看出,檢測算法的Ap50~90值可以從最低值21.3提升到最高值47.4,使用改進特征金字塔法的PANet的精度最高,其次是使用圖像金字塔的SNIPER和SNIP。小目標對象的ApS值從5.0提升到30.1,它的增長體現(xiàn)出檢測算法對小目標對象越來越敏感,讓整個檢測算法的性能得到顯著的提升。

      通過對比改進神經結構搜索技術的DetNAS與人工設計的PFPNet,從表1中發(fā)現(xiàn)Ap50~90值和APS值均有提升,說明改進神經結構搜索技術發(fā)現(xiàn)最優(yōu)結構在特征平衡方面確實有較好的表現(xiàn)。

      表1 基于COCO數(shù)據(jù)集的檢測精度 %

      5 結束語

      本文介紹了目標檢測尺度不平衡問題,針對目標檢測尺度不平衡問題進行全面的分析與歸納,總結了引起尺度不平衡的原因,針對每種原因總結了解決方法。

      盡管基于深度卷積神經網絡的檢測算法被不斷提出,算法的性能也在不斷提升,但目標檢測尺度不平衡問題也一直相伴隨,并越來越受到重視。相信隨著計算能力的加強和數(shù)據(jù)規(guī)模的擴大,未來對目標檢測尺度不平衡問題的研究會有新的突破。

      猜你喜歡
      金字塔尺度卷積
      “金字塔”
      A Study of the Pit-Aided Construction of Egyptian Pyramids
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      財產的五大尺度和五重應對
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      海上有座“金字塔”
      基于傅里葉域卷積表示的目標跟蹤算法
      神秘金字塔
      童話世界(2017年11期)2017-05-17 05:28:25
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      9
      神农架林区| 红原县| 灵璧县| 井研县| 崇仁县| 富川| 巧家县| 金华市| 万载县| 普定县| 卓资县| 嘉善县| 城口县| 石楼县| 益阳市| 莱芜市| 白沙| 林州市| 广汉市| 同心县| 拉萨市| 彰化市| 彭州市| 华阴市| 临夏市| 绥宁县| 蕉岭县| 广汉市| 临猗县| 额尔古纳市| 太和县| 临沭县| 商丘市| 怀化市| 利津县| 滨海县| 河北省| 搜索| 股票| 南充市| 石阡县|