• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種融合軟注意力機制的DenseNet-SSD 檢測算法

      2022-09-07 05:05:30吳松林張國偉盧秋紅施建壯
      現(xiàn)代計算機 2022年13期
      關(guān)鍵詞:精確度特征提取注意力

      吳松林,張國偉,,盧秋紅,黃 威,施建壯

      (1.上海電力大學自動化工程學院,上海 200090;2.上海合時智能科技有限公司,上海 200040)

      0 引言

      隨著人工智能時代的到來,無人車已然成為當前技術(shù)的熱點。精準的環(huán)境感知是無人車中最重要的技術(shù)之一,目標識別感知與無人車的地圖構(gòu)建,甚至路徑規(guī)劃緊密相連,當前,隨著機器視覺與深度學習的發(fā)展,這一技術(shù)取得了巨大進步。

      傳統(tǒng)的目標檢測主要是通過特征候選區(qū)域?qū)δ繕诉M行特征提取,再進行分類識別,隨著深度學習在人工智能領(lǐng)域的發(fā)展,各種目標檢測算法日益得到人們的重視并取得了較好的發(fā)展,且逐步取代了傳統(tǒng)的檢測方法。在目標檢測領(lǐng)域的算法目前大致分為兩類:一是以Fast R-CNN、R-CNN、SPP-NET等為標志的兩階段(two-stage)目標檢測算法,此類方法雖然檢測精度較高,但速度較慢,且對硬件設備等要求較高,在產(chǎn)品中的設備部署亦存在較大困難;二是以SSD(single shot detector)和YOLO為代表的一階段(one-stage)檢測算法,此類方法直接在輸入數(shù)據(jù)上進行回歸分類,速率較快,精確度相對于二階段算法有所下降。在基于深度學習的目標檢測算法中,由于SSD算法在檢測速度上的優(yōu)勢,其在工業(yè)生產(chǎn)中得到了廣泛的應用,該算法設計上整體借鑒了YOLO 算法與Faster-RCNN 的錨框設計,在保證運行速度的情況下,相對提高了其精度。

      傳統(tǒng)的SSD 目標檢測方法在大型環(huán)境下的無人車工作時,目標檢測識別的精確度以及實時性的效果較差,主要有以下兩點不足:

      (1)細節(jié)信息與小特征提取的語義信息不足:基礎層特征提取網(wǎng)絡在特征提取過程中提取的目標信息相對不足,且存在信息丟失,在目標識別過程中如果目標信息較少,則會大幅度減弱算法的準確性;

      (2)特征提取層的空間信息不足:在大型場景下的目標檢測時,不同的空間維度代表不同的特征信息,在復雜且存在重疊區(qū)域的空間維度上,會使得檢測算法的魯棒性下降。

      針對上述問題,本文在SSD 網(wǎng)絡模型的基礎上做了以下改進:

      (1)提出一種DenseNet 網(wǎng)絡模型作為SSD網(wǎng)絡的基礎特征提取層,使得改進后的神經(jīng)網(wǎng)絡具有更加具體且豐富的語義與細節(jié)信息;

      (2)在特征提取基礎層與額外層結(jié)合軟注意力機制,賦予其空間域與通道域注意力,從而使得網(wǎng)絡能夠有效地進行目標信息的篩選,提高網(wǎng)絡模型的魯棒性;

      (3)對SSD 網(wǎng)絡引進反卷積操作,增加目標感受野,訓練過程中采用遷移學習的方式,提高訓練模型的效率。

      1 主要工作

      1.1 傳統(tǒng)SSD網(wǎng)絡

      傳統(tǒng)SSD網(wǎng)絡是以VGG-16為特征提取的基本網(wǎng)絡,并增加級聯(lián)卷積層,利用anchor 設計理念,實現(xiàn)了端到端的檢測方法。首先,傳統(tǒng)的網(wǎng)絡模型舍棄了VGG-16 的FC7 層,并將FC6、FC7 層設計為Conv6、Conv7 卷積層;其次,為了提取不同尺度特征圖,在網(wǎng)絡末端添加了Conv8_2、Conv9_2、Conv10_2、Conv11_2等多個級聯(lián)層;最后通過生成錨框,對目標進行回歸預測,采用非極大值抑制的算法對目標進行多尺度檢測。其模型結(jié)構(gòu)如圖1所示。

      圖1 傳統(tǒng)SSD網(wǎng)絡模型

      1.2 改進特征提取網(wǎng)絡

      考慮到傳統(tǒng)SSD 算法中特征提取模塊獲得的語義信息不足和VGG 網(wǎng)絡中缺少細節(jié)信息、魯棒性不強等問題,本文參考目標檢測器DSOD的替換規(guī)則,利用具有隱含監(jiān)督、特征重復利用的輕量型DenseNet 網(wǎng)絡代替VGG-16,為了提高DenseNet 網(wǎng)絡的顯存利用效率,提高算法運行速度,本文采用有3 個稠密塊(dense block)連接的稠密網(wǎng)絡,并對于Densenet網(wǎng)絡Pooling層采用3 × 3的卷積核,在引入軟注意力機制與反卷積后能夠保證通道數(shù)減少的同時避免池化操作造成的信息丟失。DenseNet 網(wǎng)絡結(jié)構(gòu)如圖2 所示,輸入通過Dense block 后,本文為了避免網(wǎng)絡稠密造成的通道數(shù)上升的問題,在Feauter map 每次拼接時進入兩個1×1 卷積核進行降維處理,然后送入池化層,之后進入下一個稠密層,網(wǎng)絡中每一層都建立起了與前面層的連接,使特征圖進行如圖3所示方式的重復利用,網(wǎng)絡中誤差信號可以很容易地傳播到較早的層,提高了特征提取網(wǎng)絡的有效性。

      圖2 Densenet網(wǎng)絡流程圖

      圖3 特征圖重復利用

      1.3 融合混合域軟注意力模塊

      上節(jié)中改進的特征提取網(wǎng)絡在包含更多的語義信息以及細節(jié)特征的同時仍會存在一些干擾特征,這些干擾特征不但會使算法整體效率降低,而且會加大模型的計算復雜度。傳統(tǒng)SSD 模型在進行目標檢測時使用Conv4_3 等模塊(如圖1)產(chǎn)生的6 個不同感受野的特征圖,這種方法并沒有考慮到網(wǎng)絡特征圖中的重點特征信息,因此本文引進了一種空間域與通道域混合的軟注意力機制。

      注意力機制的提出主要是依據(jù)生物視覺特性,主要分為空間域、通道域、混合域。Jaderberg 等提出的Transformer Networks 是一種典型的空間域注意力機制,這一機制優(yōu)先將注意力更多地聚焦在關(guān)鍵信息中,摒棄其中的非關(guān)鍵性或無用信息,從而使神經(jīng)網(wǎng)絡有選擇性地聚焦信息,將輸入網(wǎng)絡的原始圖像變換至另一空間且保留關(guān)鍵信息,該模型如圖4所示。

      圖4 Transformer Networks模型

      該機制忽略了通道域中的信息,將每個通道域中的信息特征按照同等權(quán)重處理,使得空間域變換方法局限在了圖片特征提取階段,在模型網(wǎng)絡中的其他網(wǎng)絡層應用作用不大。而通道域注意力機制則未考慮到空間域信息,對通道內(nèi)的信息流直接全局平均池化,通道內(nèi)的局部信息則完全忽略,因此,考慮到本文算法主要面向?qū)嶋H產(chǎn)品的需求,本文算法融合了一種軟注意力機制,該軟注意力機制包含通道注意力機制(channel attention module,CAM)和空間域注意力機制(spatial attention module, SAM),且相互獨立,這種架構(gòu)可以有效地節(jié)約網(wǎng)絡模型參數(shù)和網(wǎng)絡計算力,并且可以作為獨立的模塊設置于網(wǎng)絡中。

      混合域軟注意力機制是一種有效的輕量級模塊,額外開銷可以忽略不計,在通道域和空間域兩個維度推斷出注意力權(quán)重,然后與原特征圖相乘,從而對特征進行自適應調(diào)整。其中,通道域注意力模塊CAM 設計結(jié)構(gòu)如圖5所示。在此模塊中,改進特征提取層后的SSD模型的輸入特征圖F經(jīng)過最大池化層(MaxPool)、平均池化(AvgPool)后生成兩個特征圖F、F,其中表示輸入模型的第層特征圖,如公式(1)、公式(2)所示:

      圖5 通道域注意力機制CAM

      緊接著特征圖信息會傳入一個兩層神經(jīng)網(wǎng)絡中,通過Relu 激活函數(shù)學習不同通道之間的非線性特征,然后通過加和操作聚集兩個神經(jīng)網(wǎng)絡中的不同通道特征信息,最后利用Sigmoid激活函數(shù)產(chǎn)生通道的權(quán)值集合,該過程如公式(3)所示:

      公式(3)中CA()即通道域注意力函數(shù)(chanel attention),()代表激活函數(shù)Sigmoid,F(xiàn)CR()表示全連接層和激活函數(shù)Relu,從而生成最終的通道域注意力特征圖。公式(1)、(2)、(3)整合后即為該模塊整個過程,如公式(4)所示:

      通道域注意力機制主要注重于各個通道之間的語義特征信息,為了提取出空間域信息,本文主要利用網(wǎng)絡中淺層特征圖中豐富的空間信息與通道信息,加強了對特征圖中的空間依賴關(guān)系,通過對關(guān)鍵區(qū)域的特性加權(quán),有選擇性地聚焦關(guān)鍵特征,空間域注意力模塊SAM 如圖6所示。

      圖6 空間域注意力機制SAM

      該網(wǎng)絡中,首先輸入的特征圖經(jīng)過BN 層和ReLu 層,然后通過最大池化和平均池化得到×的特征圖,將得到的兩個特征圖進行Concat(通道拼接)操作,之后在本文中經(jīng)過一個6 × 6 的卷積層得到注意力矩陣,將其送入到Sigmoid函數(shù)中得到M,其運算過程見式(5)。

      本文中,空間域與通道域先進行并聯(lián)操作,再進行串聯(lián),其網(wǎng)絡模型如圖7所示。

      由圖7 可知,本文中輸入特征圖F先經(jīng)過CAM,SAM1 進行通道域和空間域的并行操作,再與輸入特征像素加和,由公式(4)和公式(5)可知兩模塊輸出分別為MF)、MF),則圖中斷點線部分操作可表示為公式,其中⊙表示逐元素相乘,之后串聯(lián)通過SAM2并與E加和后輸出最終結(jié)果D,如式(6)和式(7)所示:

      圖7 混合域模型

      混合域注意力機制旨在通道域和空間域兩個維度推斷出注意力權(quán)重,通過對空間域注意力模塊的并聯(lián)疊加,學習任意兩個特征之間的聯(lián)系,加深了特征圖關(guān)鍵位置與語義信息間的表達能力。

      1.4 改進后的網(wǎng)絡總體結(jié)構(gòu)

      傳統(tǒng)SSD 網(wǎng)絡在特征提取層之后采用逐層卷積的形式進行特征圖的傳播。在檢測過程中,尺寸大的特征圖具有的感受野往往較小,而感受野較大的特征圖尺寸往往較小,所以本文為了能夠?qū)Ω惺芤拜^大的特征圖進行尺寸放大,增加DenseNet 稠密連接網(wǎng)絡特征的重利用,引進反卷積操作,如圖8 所示,為通道數(shù),、分別為輸入特征圖高、寬。該模塊的輸入輸出關(guān)系為公式(8),反卷積輸入輸出尺寸的關(guān)系為式(9)。其中代表輸出尺寸(size of output),代表輸入尺寸(size of input),代表填充(padding),代表步長(strides)。

      圖8 反卷積操作

      改進后的總體網(wǎng)絡架構(gòu)如圖9所示。

      圖9 改進后網(wǎng)絡總體模型

      2 實驗結(jié)果與分析

      2.1 實驗平臺與參數(shù)設置

      本實驗采用Windows系統(tǒng),使用PyCharm 專業(yè)版編譯器通過SSH 遠程連接mist 云服務器,采用RTX3090 顯卡,24 G 顯存,實驗框架為Pytroch1.9.0,Opencv4,CUDA11.4深度學習框架。

      本文中優(yōu)化方法采用SGD 隨機梯度下降法,學習率初始設置為0.00025,權(quán)值衰減為0.0002,避免過擬合現(xiàn)象的發(fā)生,動量為0.6,模型的batchSizes 大小為18,迭代次數(shù)為20000,網(wǎng)絡中反卷積層的設置如表1所示。采用預訓練得到的權(quán)值進行遷移學習訓練,提高收斂效率。

      表1 反卷積層參數(shù)設置

      2.2 數(shù)據(jù)集與評價指標

      2.2.1 數(shù)據(jù)集

      本文采用的數(shù)據(jù)集為PACAL VOC2012+2007,并劃分為訓練集、驗證集、測試集,且對訓練數(shù)據(jù)集進行數(shù)據(jù)增強。VOC 數(shù)據(jù)集包含21 個類別(包含1 個背景類),其中訓練集為VOC2012,VOC2007,共包含大約16000 張數(shù)據(jù)集圖像,驗證集為VOC2012 中的eval 數(shù)據(jù);測試集為VOC2007,共包含約5000張圖像。

      2.2.2 評價指標

      本文采用精確度和召回率(precision-recall)關(guān)系和平均精度均值(mean average precision,mAP)作為模型評價指標。其中Precision 和Recall 計算公式分別為式(10)和式(11),TR 表示預測與標簽匹配一致,F(xiàn)R 表示預測目標為背景,F(xiàn)n表示將背景誤判為檢測目標。

      平均精度均值表示所有類別的平均精度(average precision,AP)的均值,其計算方法如式(12)所示,V表示成功預測的正確數(shù)量。如果真實框與預測框的交并比(intersertion-overunion,IOU)大于0.5,則認為檢測結(jié)果正確。

      2.3 實驗結(jié)果

      為了驗證本文1.2 節(jié)所提特征提取網(wǎng)絡與1.3 節(jié)所提軟注意力模塊算法的有效性,本文將特征提取網(wǎng)絡Resnet、VGG16 與本文所述替代特征提取網(wǎng)絡做對比,進行算法效果評估,結(jié)果如表2所示。實驗結(jié)果表明本文所提改進特征提取網(wǎng)絡能夠使得檢測精確度提升,且加強特征圖的重利用能夠有效應對梯度消失問題。融合混合域注意力機制后,算法可以通過注意力自適應的分配權(quán)重優(yōu)化特征圖,提升魯棒性,算法的平均準確率有了進一步提高。

      表2 不同特征提取網(wǎng)絡的檢測結(jié)果 單位:%

      在1.4 節(jié)中,本文為了進一步提高網(wǎng)絡小感受野特征的檢測率,為算法融入了反卷積模塊,此模塊能在一定程度上消除池化操作對特征圖的影響,加入反卷積操作后本文整體算法分別與SSD+VGG16,SSD+Resnet 等一階段算法和Faster RNN 二階段算法做對比,表3 為各個算法的Precision-recall 關(guān)系。由表3 可以看出,本文算法在加入反卷積模塊后相比未加入反卷積精確度提高了0.3%,召回率提高了0.2%;相比于傳統(tǒng)的SSD 算法精確度提高了2.1%,召回率提高了4.7%,且精確率和召回率更加接近,這一指標能夠提高算法的平均精確率;與基于Resnet的SSD網(wǎng)絡相比,本文算法精確度和召回率均有所提高;與二階段算法Faster RNN 相比本文算法精確度提高了0.2%,召回率提高了2.4%,且二者差值有了明顯縮小,F(xiàn)aster RNN二者差值為2.9%,本文算法僅存在0.5%的差值,進一步提高了算法的魯棒性。

      表3 各個算法的Precision-recall關(guān)系 單位:%

      圖10 為算法改進前后各個類別的平均精確度對比。

      圖10 改進前后算法mAP對比

      由圖10 可以看出,本算法相對原始SSD 算法有較大的提高,加入了注意力機制以及反卷積模塊后,網(wǎng)絡對小尺寸特征識別和具有較小感受野的大尺寸目標檢測精確度有顯著提高,對于鳥類的檢測平均精確度由原來的77.6%上升至92.5%,這主要是由于DenseNet 網(wǎng)絡的特征重利用有效地解決了目標特征丟失問題,以及注意力機制對重點特征的權(quán)重增加,摒棄了其中的非關(guān)鍵性或無用信息,從而使神經(jīng)網(wǎng)絡有選擇性地聚焦信息并輸入網(wǎng)絡的原始圖像。

      圖11、圖12 分別為改進算法前后的可視化對比圖。由左側(cè)圖可知,算法改進前并沒有檢測到大尺寸小感受野的卡車,改進后的算法對大尺寸小感受野的卡車檢測得分達到了79%,有效提高了算法的精確性;在右側(cè)圖中,對于小特征的遠處人物由于特征網(wǎng)絡得到的語義信息以及細節(jié)信息不足,原算法并沒有感受到遠方關(guān)鍵特征,改進后算法的混合域注意力機制對重點特征的權(quán)重增加,且經(jīng)過反卷積模塊消除特征損失,對遠方小特征目標檢測得分達到82%。與改進前對比可知,算法改進后對具有小感受野的大尺寸目標以及小特征目標,檢測效果明顯提升。

      圖11 改進前后可視化效果對比

      圖12 改進后可視化效果圖

      表4為本文算法與傳統(tǒng)SSD算法的平均精確度mAP 的對比,由對比可知,本文算法的平均精確度為86.4%,比傳統(tǒng)SSD 的平均精確度提高了7.8%,有效提高了算法的檢測精確性和魯棒性。

      表4 改進前后算法比較 單位:%

      3 結(jié)語

      針對傳統(tǒng)SSD 算法提取目標特征的細節(jié)信息與小特征提取的語義信息不足,且存在信息丟失,以及特征提取層的空間信息缺乏等問題,本文通過使用DenseNet 網(wǎng)絡改進傳統(tǒng)算法的特征提取層,進行特征重利用,增強目標的細節(jié)以及語義信息;引入混合域軟注意力空間模型,在通道域以及空間域?qū)μ卣鬟M行學習,從而自適應地分配權(quán)重,對關(guān)鍵性信息進行重點關(guān)注學習,優(yōu)化特征圖;同時增加反卷積層,進一步減少池化層對特征的影響,使得算法整體魯棒性、精確度得以提升。實驗結(jié)果表明,本文算法與原算法相比其精確度、召回率得到顯著提高,且二者差值得以顯著縮小,平均精確度比原算法提高了7.8%,且混合域網(wǎng)絡模型為即插即用型的輕量化模型,實用價值較高。但實驗中發(fā)現(xiàn),本算法雖然只利用了DenseNet網(wǎng)絡前3層,在中間層雖已優(yōu)化通道數(shù),通道數(shù)量仍相對較大,但在可接受范圍內(nèi)。

      猜你喜歡
      精確度特征提取注意力
      讓注意力“飛”回來
      研究核心素養(yǎng)呈現(xiàn)特征提高復習教學精確度
      “硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      A Beautiful Way Of Looking At Things
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      Walsh變換在滾動軸承早期故障特征提取中的應用
      軸承(2010年2期)2010-07-28 02:26:12
      近似數(shù)1.8和1.80相同嗎
      辽源市| 屯昌县| 比如县| 永丰县| 冷水江市| 商水县| 曲沃县| 启东市| 当阳市| 伊吾县| 保亭| 玛曲县| 勐海县| 左贡县| 井冈山市| 勐海县| 沙湾县| 灵丘县| 宁德市| 黄平县| 灵丘县| 卫辉市| 峡江县| 莱西市| 伊吾县| 大新县| 商洛市| 阜平县| 淅川县| 准格尔旗| 九江市| 福清市| 长顺县| 兴隆县| 尉犁县| 彰化市| 九龙县| 调兵山市| 延边| 札达县| 衢州市|