• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于反饋機制與空洞卷積的道路小目標檢測網(wǎng)絡

      2023-01-27 08:28:30竇允沖侯進曾雷鳴陳子銳
      計算機工程 2023年1期
      關鍵詞:金字塔空洞主干

      竇允沖,侯進,曾雷鳴,陳子銳

      (1.西南交通大學信息科學與技術學院智能感知智慧運維實驗室,成都 611756;2.西南交通大學計算機與人工智能學院,成都 611756;3.西南交通大學綜合交通大數(shù)據(jù)應用技術國家工程實驗室,成都 611756)

      0 概述

      近年來,深度學習的快速發(fā)展推動了目標檢測在汽車自動駕駛領域的研究。汽車在行駛中采集到的高精度街景信息具有多樣性,同時當汽車行駛的速度較快時,在一次采集中遠處行人、車輛、交通標志及其他物體較小。因此,在自動駕駛領域中,對小目標的檢測準確性與速度都有更高的要求。當前對于小目標[1]的定義有2 種:一種是尺寸小于原圖尺寸十分之一的目標;另一種是像素點數(shù)少于32×32 的目標。目標檢測技術在大、中目標上取得了很大的進步,但是在小目標檢測中面臨極大的挑戰(zhàn)。

      在利用深度學習進行目標檢測前,普遍使用不同分辨率的圖像金字塔與不同分辨率的分類器對不同尺度的物體進行滑動檢測,實現(xiàn)在較小窗口檢測到小目標的目的。由于之前方法效率低、耗時久,GHIASI 和LI等[2-3]提出特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN),通過在不同特征層提取特征進行預測,SINGH等[4]借鑒多尺度訓練的思想在一定程度上解決了FPN對于較小物體檢測效果不理想的問題。為了進一步提高精確度,PANet[5]優(yōu)化了FPN,增強了多尺度融合信息,F(xiàn)ocal Loss[6]網(wǎng)絡與Focal Loss V2[7]網(wǎng)絡則將困難樣本結合FPN 提高網(wǎng)絡的檢測性能,而R3Det[8]設計了特征精煉模塊提高檢測精度。

      目前,基于深度學習有兩種具有代表性的目標檢測方法。首先是兩階段的目標檢測方法:第一階段生成候選區(qū)域,第二階段對候選區(qū)域進行分類和回歸,代表網(wǎng)絡有R-CNN 系列網(wǎng)絡[9-11]、Cascade R-CNN[12]、D2Det[13]等。D2Det 在R-CNN 的基礎上對分類和回歸分支進行改進,進一步提高了精度。其次是單階段目標檢測方法,這種方法不使用候選框,直接預測出類別信息和位置信息,單次檢測直接得到最終的結果,如YOLO 系列[14-16]、SSD[17]、YOLOx[18]等網(wǎng)絡。YOLO 系列網(wǎng)絡直接對圖片進行網(wǎng)格劃分,將檢測轉化為回歸;YOLOv4[19]是對YOLO 與當時其他經(jīng)典網(wǎng)絡的一次借鑒;SSD 網(wǎng)絡同時借鑒了單階段和雙階段的思路,即具有雙階段類似的先驗框,也包括單階段的一次完成目標定位與分類的過程;YOLOx 網(wǎng)絡在YOLO 網(wǎng)絡基礎上對YOLO Head 解耦,同時采用了無錨框。

      然而,單階段目標檢測算法和兩階段目標檢測算法的小目標檢測效果都不如大目標檢測。針對該問題,本文選取YOLOv4[19]作為主要檢測網(wǎng)絡,提出一種改進的YOLOv4-RF 小目標檢測算法。

      1 相關工作

      1.1 YOLOv4 算法

      YOLOv4 算法在YOLOv3[16]算法的基礎上進行優(yōu) 化,主要優(yōu)化為:借 鑒CSPNet[20]思想設計CSPDarkNet53[19],在增加網(wǎng)絡深度的同時減少了參數(shù)量;為得到更豐富的多尺度信息,在主干網(wǎng)絡與Neck 部分增加空間池化金字塔SPP[21]模塊,同時不限制網(wǎng)絡的輸入尺寸;引入路徑綜合網(wǎng)絡(Path Aggregation Network,PANet)[5]代替多層特征金字塔;同時使用當時一些優(yōu)秀的優(yōu)化策略,如馬賽克數(shù)據(jù)增強、網(wǎng)絡訓練方式、Mish 激活函數(shù)等。由此形成CSPDarkNet53+SPP+PANet+YOLO Head 的網(wǎng)絡結構,在效果上實現(xiàn)了速度與精度結合的最佳平衡。

      1.2 空洞卷積

      空洞卷積的提出,使傳統(tǒng)深層網(wǎng)絡中下采樣過程的圖像分辨率降低、信息丟失等問題得到了較好解決。在消耗相同計算量時,達到擴大感受野與信息不丟失的目的。與標準卷積相比,空洞卷積在卷積核之間增加間隔數(shù),增加的間隔數(shù)稱為擴張率。設置不同的擴張率會得到不同的感受野,從而獲得多尺度信息。擴張率為1,2,4 的空洞卷積示意圖如圖1 所示。在相同參數(shù)量的情況下,由圖1(a)可以看出擴張率為1 的空洞卷積和標準卷積相同;圖1(b)的空洞卷積感受野為5×5;同理,經(jīng)過圖1(a)、圖1(b)和圖1(c)進行卷積后,得到的感受野為15×15,比3 個標準卷積后得到的感受野要大。

      圖1 擴張率為1、2、4 的空洞卷積Fig.1 Cavity convolution with expansion rates of 1,2 and 4

      1.3 遞歸特征金字塔

      遞歸特征金字塔[22]在特征金字塔和主干網(wǎng)絡之間建立反饋連接,將第i次提取的特征反饋到主干網(wǎng)絡,作為主干網(wǎng)絡第i+1 次的部分輸入。多級遞歸特征金字塔可以遞歸地增強FPN,不斷提升FPN 的表示能力。FPN 的特征計算公式為:

      其中:B為主干網(wǎng)絡;Bi表示第i個階段;F函數(shù)為自頂向下的FPN,F(xiàn)i表示第i個特征層。得到第i層輸出特征fi,加入反饋連接后,得到的遞歸特征金字塔公式為:

      其中:Ri(fi)為反饋后的輸出,然后送入自下而上的主干網(wǎng)絡。RFP 反饋特征示意圖如圖2 所示。

      圖2 RFP 反饋特征圖Fig.2 RFP feedback characteristic diagram

      2 算法優(yōu)化

      2.1 優(yōu)化后網(wǎng)絡的整體結構

      本文主要從主干網(wǎng)絡、特征金字塔網(wǎng)絡、損失函數(shù)、目標框的聚類分析等方面對YOLOv4算法進行優(yōu)化,以提高面向自動駕駛的小目標檢測精度與速度。YOLOv4-RF 網(wǎng)絡整體結構如圖3 所示,主干網(wǎng)絡部分由于反饋機制需要二次提取特征,考慮到原CSPDarkNet5 會使整個網(wǎng)絡架構太復雜,參考YOLOv5 中BottleNeckCSP結構對CSPDarkNet53 進行輕量化減枝。為保留更多的小目標信息,本文結合空洞卷積和遞歸特征金字塔,同時獲得了更加豐富的特征信息。通過對KITTI 數(shù)據(jù)集進行分析,發(fā)現(xiàn)數(shù)據(jù)集中的小目標及個數(shù)較少的目標屬于困難樣本。受RetaiNet[6]網(wǎng)絡的啟發(fā),對原網(wǎng)絡中置信度損失和類別損失均使用Focal Loss 損失函數(shù)。同時在錨框設定時,發(fā)現(xiàn)KITTI 數(shù)據(jù)集的錨框與coco的有較大的差距。因此,本文采用K-means++自主生成的預測框尺寸,更好地適應數(shù)據(jù)集。

      圖3 YOLOv4-RF 網(wǎng)絡結構Fig.3 YOLO4-RF network structure

      本文目標檢測網(wǎng)絡結構的具體設計如下:

      1)為保留更多待檢測物體的特征信息,對特征圖進行多尺度采樣。同時,采用空洞卷積替代池化層來減少信息損失?;谝陨?,設計一個空洞卷積特征金字塔網(wǎng)絡ASPP 替換YOLOv4 中SPP 模塊。

      2)為更好地提取多尺度的特征信息,在特征金字塔網(wǎng)絡與主干網(wǎng)絡之間引入反饋機制,使用二級遞歸特征金字塔對提取后的特征進行處理。每個反饋層均由從上至下的特征層融合得出,同時在每個反饋分支都添加ASPP 模塊,對融合的特征信息做進一步處理。此部分工作可使YOLOv4 處理小目標的漏檢和誤檢問題得到改善。

      3)由于引入帶有反饋機制的特征金字塔網(wǎng)絡,需要部分的主干網(wǎng)絡二次提取特征,訓練與推理時間明顯增加?;诖?,對YOLOv4 主干網(wǎng)絡CSPDarkNet53進行輕量化。從深度和寬度對CSPDarkNet53 網(wǎng)絡進行縮減:在主干網(wǎng)絡中減少BottleNeckCSP模塊的個數(shù),對于BottleNeckCSP 的卷積核個數(shù)也進行縮減。同時針對減少主干網(wǎng)絡輕量化后帶來特征提取能力不足的問題,在自頂向下的特征金字塔網(wǎng)絡中加入BottleNeckCSP 模塊。

      隨著對行業(yè)的逐漸了解,何正偉開始在田間做起了示范田。雖然撒可富在四川已經(jīng)有了一定的渠道基礎,但由于近年來農(nóng)作物價格很不理想,農(nóng)戶們對于肥料價格十分敏感,對于走高端路線的撒可富來說,并不占優(yōu)勢。在何正偉看來,撒可富過硬的質(zhì)量是打開局面的突破口。利用撒可富肥效長、同等用量肥效更強的特點,何正偉與中阿公司商議在柑橘種植區(qū)推出40公斤小包裝產(chǎn)品,經(jīng)過試驗,不僅能保證肥效,甚至優(yōu)于同類50公斤產(chǎn)品。真正幫助農(nóng)戶減肥增效,增產(chǎn)增收。

      2.2 網(wǎng)絡算法改進

      2.2.1 輕量化的CSPDarkNet53

      YOLOv4 中CSPDarkNet53 實際含有73 層卷積層,而本文所使用的特征金字塔包含反饋連接,得到預測的特征圖時,要經(jīng)過主干網(wǎng)絡兩次提取,這就顯得原來的特征網(wǎng)絡過深,耗時較長,不能滿足自動駕駛領域?qū)δ繕藱z測的速度要求。因此,本文著重對CSPDarkNet53 中的BottleneckCSP 部分在寬度和深度方面進行簡化。對BottleNeckCSP 的輕量化分為兩種,分別為CSP1 和CSP2。其中,CSP1 包含多個殘差結構(ResNet),CSP2 包含多個空洞卷積進行采樣。對于兩種CSP 中的卷積核個數(shù)進行相應減少,從而達到寬度和深度的輕量化。具體在低目標信息采用CSP2,同時在原SPP,現(xiàn)有的ASPP 后加一層CSP2,加深網(wǎng)絡而不增加較多的計算量,得到CSPDarkNet-Lite。

      CSPDarkNet53 中CSP 模塊均是通過堆疊BottleNeck 殘差結構以增加網(wǎng)絡深度。由表1 可以看出,本文對CSP模塊在深度和寬度方面進行了輕量化。由于反饋網(wǎng)絡的存在,使得輕量化后的網(wǎng)絡仍能得到較好的精確度。

      表1 CSPDarkNet-Lite 網(wǎng)絡結構Table 1 CSPDarkNet-Lite network structure

      2.2.2 空洞卷積池化金字塔

      當前主流的目標檢測網(wǎng)絡都使用一些比較深層的主干網(wǎng)絡,如ResNet[23]、ResNext[24]、DenseNet[25]、CSPDarkNet53 等。這些網(wǎng)絡普遍的問題是網(wǎng)絡模型的感受野會隨著深度的加深而擴大,以及小目標的位置信息在高層特征圖中缺失嚴重。在YOLOv4中,SPP 使用池化層在多個尺度進行采樣,雖然會對主干網(wǎng)絡提取的特征進行多尺度融合,但也會造成信息的損失。針對這一問題,本文結合空洞卷積的特點,使用不同空洞率的空洞卷積代替池化層形成空洞空間池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)[26],達到增大不同感受野同時保留大量目標位置信息的目的??斩绰史謩e為1、3、3、1 的ASPP結構如圖4 所示。

      圖4 ASPP 結構Fig.4 ASPP structure

      2.2.3 二級遞歸特征金字塔網(wǎng)絡

      YOLOv4 采用PANet 網(wǎng)絡進行路徑增強和聚合,對來自FPN 的信息重復處理,使底層的定位信息更容易傳播。FPN 和PANet 網(wǎng)絡均反映了特征信息的重復使用和細化的重要性。為獲得更加豐富的定位信息,本文設計二級遞歸特征金字塔(Recurisive Feature Pyramid,RFP)網(wǎng)絡,其結構如圖5 所示。

      圖5 二級遞歸特征金字塔網(wǎng)絡結構Fig.5 Two-level recursive feature pyramid network structure

      本文從FPN 層增加了FPN 到主干網(wǎng)絡的反饋連接,使主干網(wǎng)絡二次訓練對應的特征層,在反饋訓練時也包含了PANet 的自底向上的傳播。為解決主干網(wǎng)絡輕量化后輸出特征表達能力不足的問題,本文在特征金字塔每個特征層自頂向下傳播中增加一個CSP2 結構,即在反饋時,每個特征層都先經(jīng)過CSP2模塊,經(jīng)過ASPP 獲得多尺度特征信息并調(diào)整輸出尺寸,然后送入原主干網(wǎng)絡。為減少參數(shù)量,本文在反饋時共享原卷積層的參數(shù),比PANet 少了一個特征金字塔層的參數(shù)。

      2.2.4 K-means++與Focal Loss

      在對KITTI 數(shù)據(jù)集進行分析后,本文對原類別進行調(diào)整,除去雜項及其他項后,剩余7 個類別。通過對處理后的類別進行分析,本文融合其中的一些類別形成最終的3 個類別。與COCO 數(shù)據(jù)集和Pascal Voc2012數(shù)據(jù)集相比,KITTI數(shù)據(jù)集的寬高比更大。由于K-means算法存在依賴初始值的缺點,為獲得更加精確、穩(wěn)定的尺寸,本文采用K-means++自主生成的預測框尺寸。根據(jù)模型結構,對KITTI數(shù)據(jù)集標簽進行聚類,生成9組不同的寬高組合,聚類結果如表2 所示。

      表2 KITTI anchor 聚類結果Table 2 KITTI anchor clustering result

      由于小目標含有像素少、易受干擾等原因,YOLOv4 的損失函數(shù)不能很好地表達小目標的損失在所有損失中的占比,導致不能更好地訓練小目標。因此,在邊界框回歸損失上,本文和YOLOv4一致,采用CIoU 損失函數(shù)。但由于存在正負樣本比例失衡,以及困難樣本(小目標)等問題,本文對YOLOv4 中的置信度損失和分類損失均采用Focal Loss 損失函數(shù),利用Focal Loss 中的調(diào)節(jié)因子調(diào)整正負樣本以及困難樣本的權重。Focal Loss 損失函數(shù)(見式(5))是在標準交叉熵損失函數(shù)(見式(3))的基礎上進行改進,增加了正負樣本權值αt與難易樣本權值(1-pt)γ。式(3)、式(4)中p表示預測樣本為1 的概率。

      綜上,本文使用K-means++聚類預測框,使用CIOU 損失函數(shù)對邊界框進行回歸損失,使用Focal Loss 對置信度和類別計算損失,加快回歸速度,增強網(wǎng)絡的魯棒性。

      3 實驗結果與分析

      3.1 數(shù)據(jù)分析與預處理

      本文實驗采用德國卡爾斯魯厄理工學院和豐田美國技術研究院聯(lián)合創(chuàng)辦的KITTI 數(shù)據(jù)集[27],其中包含8 個類別,共有訓練集7 481 張圖片、測試集7 518 張圖片。數(shù)據(jù)集中Misc 類別為雜項,圖6(a)為去除Misc 后訓練集的類別分布圖。從圖6(a)可以看出類別數(shù)量具有較大差距,最少的僅有199 個目標,而最多的達到25 942 個目標。為使圖片更好地應用于自動駕駛算法訓練及驗證,本文先通過隨機裁剪、放大、光度變化等方法對數(shù)量較少的類別擴增1.5 倍,再對數(shù)據(jù)集中不同類別進行融合為一類,最后分為Car、Person、Cyclist 這三個類別。處理后的數(shù)據(jù)集類別數(shù)量如圖6(b)所示。由于訓練集的數(shù)量較少,本文在訓練時采用Mosia 數(shù)據(jù)增強,以增強網(wǎng)絡的魯棒性并減少類別的不平衡。

      圖6 KITTI 數(shù)據(jù)集類別分布Fig.6 KITTI dataset category distribution

      3.2 評價標準

      本文從準確率、召回率、平均準確率(mean Average Precision,mAP)以及各類別的P-R曲線圖衡量模型的整體性能,其中:P表示正確檢測的目標個數(shù)在所有檢測目標中占有的比例,即準確率;R表示正確檢測的目標在全部目標中占有的比例,即召回率。

      由于置信度的影響,目標檢測標準中單一的P或R都不能作為評價標準,因此本文采用P-R曲線圖進行定性分析,在數(shù)值上采用mAP 定量分析模型精度。公式如下:

      在式(6)和式(7)中:TP表示對樣本中檢測正確的個數(shù)(True Positive);FP則與此相反,表示誤檢的個數(shù)(False Positive);FN為樣本中漏檢的個數(shù)(False Negative)。在式(8)中:樣本中類別的數(shù)量表示為N;Pn為該類的AP 值。

      3.3 訓練策略

      由于數(shù)據(jù)集的尺寸較大,本文網(wǎng)絡的輸入尺寸采用640×640,訓練時對圖片進行放縮處理,同時啟用馬賽克數(shù)據(jù)增強。訓練時分為兩個階段:先進行150 個epoch 凍結訓練;再進行200 個epoch 解凍訓練。凍結階段凍結主干網(wǎng)絡,占用的顯存較少,僅對網(wǎng)絡進行微調(diào),此時設置batch_size 為8。解凍階段不凍結主干網(wǎng)絡,網(wǎng)絡的所有參數(shù)都會發(fā)生改變,占用的內(nèi)存較大,此時設置batch_size 為4。學習率在凍結階段初始化為0.001,解凍階段初始化為0.000 1,兩階段均采取每個epoch 更新一次學習率,乘法因子為0.94。

      本文實驗環(huán)境為:Pytorch1.6 深度學習框架,Intel Core I7,NVIDIA GeForce GTX1080Ti,顯存32 GB。

      3.4 消融實驗

      為了更全面地評估本文的改進部分,對YOLOv4 網(wǎng)絡進行消融實驗,將改進后的主干網(wǎng)絡以及特征金字塔分別加入到YOLOv4 網(wǎng)絡中,其他的與YOLOv4 保持一致,YOLOv4 作為對照組,共組成3 組對照組合,消融實驗結果如表3 所示。從表3中可以看出:僅使用改進后的RFP 模塊對檢測的精確度有明顯提升,但是模型規(guī)模增大了55 MB;在對主干網(wǎng)絡進行輕量化后,雖然精確度僅增加1.4,但模型規(guī)模縮小了138 MB。

      表3 模塊消融實驗結果Table 3 Result of module ablation experiment

      3.5 預測結果分析

      通過消融實驗發(fā)現(xiàn),本文算法在KITTI 數(shù)據(jù)集類別上預測的結果要稍高于YOLOv4。為進一步評價網(wǎng)絡的綜合性能,首先在KITTI 數(shù)據(jù)集上,針對各個類別的準確率和復雜街景的4 組預測圖,將本文提出的算法YOLOv4-RF 與YOLOv4[19]進行對比。然后從KITTI 數(shù)據(jù)集各類別的P-R曲線圖評價算法的預測能力。從表4 中可以看出,在Cyclist 類別上本文算法與YOLOv4 算法的精確度保持一致,而在其余類別上本文算法的精確度稍高于YOLOv4。再從圖7(b)與圖7(a)中的4 組對照圖片可以看出,在復雜街景中,本文算法對小目標物體的檢測能力與定位能力要優(yōu)于YOLOv4。

      表4 YOLOv4 與YOLOv4-RF 算法的精確度比較Table 4 Comparison of accuracy between YOLOv4 and YOLOv4-RF algorithms

      圖7 KITTI 數(shù)據(jù)集測試結果對比Fig.7 Comparison of test results on KITTI data set

      最后,在召回率R取值0,0.01,0.02,0.03,…,1時,采用插值方法計算出精確度,畫出KITTI 數(shù)據(jù)集各類別的P-R曲線圖。對比圖8(a)與圖8(b)可知,本文算法的各類別曲線在相同的取值R下,精確度基本都高于YOLOv4,進一步表明本文算法具有更強的預測能力。由此可見本文算法在性能上優(yōu)于YOLOv4 算法。

      圖8 各類別P-R 曲線Fig.8 P-R curve of various classes

      3.6 對比實驗

      本文選取YOLOv3、YOLOv4、RetinaNet50 這3 種經(jīng)典網(wǎng)絡作為對照組進行性能對比。然后在KITTI 數(shù)據(jù)集上從準確率、召回率以及mAP 上對比4 種算法的性能,如表5 所示,可以看出,YOLOv4-RF在精度上明顯優(yōu)于其他算法。

      表5 YOLOv4-RF 與其他算法的綜合比較Table 5 Comprehensive comparison between YOLOv4-RF and other algorithms %

      4 結束語

      現(xiàn)有深度學習算法在自動駕駛領域應用時存在小目標漏檢、誤檢、檢測精度及速度不高的問題。對此,本文提出一種改進算法YOLOv4-RF 對主干網(wǎng)絡進行輕量化以增加推理速度。加入空洞卷積池化金字塔,獲得更加豐富的上下文信息,提高小目標檢測的準確性。此外,使用二級遞歸金字塔增加反饋機制,得到表達更好的輸出特征。實驗結果表明,YOLOv4-RF 在綜合性能上具有較大優(yōu)勢。后續(xù)將部署高準確度的輕量化模型到嵌入式設備,設計更輕量化和推理速度更快的模型。

      猜你喜歡
      金字塔空洞主干
      全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
      軍事文摘(2024年2期)2024-01-10 01:58:34
      “金字塔”
      抓主干,簡化簡單句
      A Study of the Pit-Aided Construction of Egyptian Pyramids
      二代支架時代數(shù)據(jù)中糖尿病對無保護左主干患者不同血運重建術預后的影響
      高齡無保護左主干病變患者血運重建術的長期預后
      海上有座“金字塔”
      神秘金字塔
      童話世界(2017年11期)2017-05-17 05:28:25
      空洞的眼神
      用事實說話勝過空洞的說教——以教育類報道為例
      新聞傳播(2015年20期)2015-07-18 11:06:46
      鄂托克前旗| 昌宁县| 夏津县| 崇州市| 舞阳县| 广安市| 嘉荫县| 平谷区| 华亭县| 青神县| 花垣县| 项城市| 县级市| 肃南| 文成县| 连城县| 玉屏| 霍林郭勒市| 昆明市| 裕民县| 雅安市| 信阳市| 临颍县| 乐陵市| 佳木斯市| 武穴市| 台江县| 基隆市| 宜丰县| 正蓝旗| 基隆市| 新沂市| 巴中市| 日喀则市| 吴江市| 莒南县| 湖北省| 邻水| 句容市| 建湖县| 眉山市|