• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多尺度注意力機制的道路場景語義分割模型

      2023-02-20 09:39:34范潤澤劉宇紅張榮芬李景玉
      計算機工程 2023年2期
      關鍵詞:池化解碼器尺度

      范潤澤,劉宇紅,張榮芬,李景玉

      (貴州大學 大數(shù)據(jù)與信息工程學院,貴陽 550025)

      0 概述

      對自動駕駛領域而言,語義分割可以對道路場景中的物體進行分割分類,給車輛避讓行人等障礙提供輔助信息。文獻[4]提出一種全卷積網絡(Fully Convolutional Networks,F(xiàn)CN),實現(xiàn)了端到端的分割方法,也使卷積神經網絡在圖像分割中變?yōu)橹髁鞣椒?。文獻[5]提出針對語義分割的編碼器-解碼器的網絡結構,通過編碼器提取特征,使用解碼器恢復特征的結構并對像素進行分類。文獻[6]提出U-Net 網絡模型,通過編碼器-解碼器的網絡結構、跳連連接等,將語義分割推向一個新的階段,利用全卷積網絡、壓縮路徑和擴展路徑實現(xiàn)圖像語義分割。文獻[7]將編碼器-解碼器結構與金字塔結構相結合,收集多尺度信息,提高了分割精度。然而,對于無人駕駛而言,上述的圖像語義分割網絡在邊緣細節(jié)上還存在一些問題,如邊界分割不明顯、小目標物體不易識別、相似物體與重疊物體誤判等。

      本文將注意力機制與小波變換相結合,設計一種基于多尺度注意力機制的道路場景語義分割模型,利用圖像小波變換具有多尺度多頻率信息分析的特點,使用小波多尺度變換的原理設計多尺度注意力機制,將原始圖像的多尺度信息進行提取與融合。通過保留原始圖像的高頻特征,對圖像邊緣輪廓細節(jié)更加關注,并借助小波多尺度變換,改善卷積操作帶來的高頻特征損失問題。此外,在網絡中增加殘差注意力連接以及層級跳連模塊,保留上下文特征信息并加以復用,并使用多級損失函數(shù),在每一個解碼器模塊后將得到的特征進行輸出,將不同分辨率的輸出和最終結果進行融合得到損失函數(shù),從而加速網絡收斂。

      1 相關工作

      1.1 圖像語義分割

      近年來,基于深度學習的分割方法顯著提高了分割的準確率和速度,多尺度特征的提取也得到了飛快發(fā)展,通過編碼器-解碼器結構進行圖像語義分割的網絡,如全卷積網絡[4]、U-Net[6]、SegNet[8]等,其編碼器通過下采樣等操作,將圖像壓縮并提取特征,最后通過解碼器將特征層還原成原始分辨率。金字塔網絡能夠利用多尺度信息的特點,PSPNet[9]等通過金字塔結構融合多尺度信息進行圖像的語義分割,DeepLabV3+[7]則將編碼器-解碼器與金字塔結構融合,結合不同方法的優(yōu)勢,提高了分割精度。目前在提高模型精度這一問題上,大部分方法聚焦于注意力機制的設計與模塊的選擇。

      1.2 注意力機制

      注意力機制在深度學習領域被廣泛應用,它可以理解為對于原本平均分配的資源根據(jù)注意力對象的重要程度重新分配資源,著重關注需要重點使用的地方,得到更多的特征信息。文獻[10]提出一種Non-local 操作獲取圖像特征,隨著通道注意力[11]和空間注意力[12]的提出,不同的注意力機制被運用到語義分割的網絡中,如雙注意力網絡DANet[13]在FCN 結構中引入了注意力機制,特征金字塔注意力網絡(Pyramid Feature Attention Network,PFANet)[14]對不同層級的特征添加注意力并結合全局池化與金字塔融合模塊提高網絡的分割精度。注意力機制的引入補充了網絡中的語義信息,增加了特征提取的豐富程度,但伴隨著注意力機制的添加,模型的參數(shù)量也隨之增加。

      1.3 深度學習與小波變換

      小波變換通過多級分解得到不同頻率特征下的不同子帶,使之具有多分辨率多尺度分析的特點,通過逆變換更能無損失地恢復原信號,因此常被用于信號處理和圖像分析領域。此外,小波變換的多尺度特性也更符合人類的視覺機制。神經網絡中不論是卷積操作還是池化操作(最大池化、平均池化),在處理不同頻率信息時均有一定程度的丟失,而通過與小波變換相結合的操作可以保留不同頻率的信息特征,且不增加額外的參數(shù)量。目前小波與深度學習結合方向也有一些探索,文獻[15]結合小波變換與殘差網絡,發(fā)現(xiàn)小波變換的更多子帶可以提高網絡的學習效果。文獻[16]提出深度小波超分辨率恢復,通過處理子帶恢復卷積提取特征的過程中缺失的細節(jié)信息。文獻[17]提出將小波變換代替神經網絡中的池化操作,保留原始圖像的高頻信息以及邊緣細節(jié)。文獻[18]則將小波變換集成到編碼器-解碼器的過程中,提高了網絡的運算速度,降低了參數(shù)量,但目前還沒有將小波變換與多尺度特征融合這兩種方式與注意力機制進行結合的處理方法。

      2 本文算法

      本文采用“編碼器-解碼器”結構搭建道路場景語義分割模型,其中設計了多尺度小波注意力模塊,通過注意力模塊加強特征提取的同時保留高頻邊緣特征信息。編碼器網絡采用ResNet-34,并移除了全連接層,在編碼器與解碼器的連接處通過改進的金字塔池化模塊將原始圖像特征進行多尺度融合,最后通過解碼器網絡對上述特征進行多次上采樣。解碼器的每個模塊對特征進行2 倍的上采樣,并通過卷積和編碼器的跳連連接更好地進行特征映射與邊緣信息補充,逐步恢復帶有語義信息的原始分辨率圖像,輸出語義分割結果。本文模型結構如圖1 所示,圖中C為輸出通道數(shù),BN 為批歸一化處理(Batch Normalization)。

      圖1 本文模型結構Fig.1 Structure of model in this paper

      2.1 多尺度小波注意力機制

      采用2D Haar小波變換的離散小波變換(Discrete Wavelet Transform,DWT)[19]可以將原始圖像x分解成4 個子帶圖像,圖像大小(即圖像分辨率)變?yōu)樵紙D像的1/4。上述操作可同等于使用4 個濾波器(fLL、fLH、fHL、fHH)對原始圖像x進行分解,獲得xLL、xLH、xHL、xHH4 個子帶圖像,其中A為低頻圖像、V為豎直細節(jié)圖像、H為水平細節(jié)圖像、D為對角細節(jié)圖像,濾波器的參數(shù)固定,即不隨網絡訓練的反向傳播進行梯度下降操作更新參數(shù),步幅設置為2。Haar小波濾波器的表達式如式(1)所示:

      使用具有潛在腎毒性藥物時應遵循以下原則:⑴嚴格按照藥物適應證用藥,盡量選用無毒或腎毒性較小的藥物。⑵根據(jù)患者的病理生理情況,確定合適的給藥劑量、途徑、速度和療程。⑶在用藥過程中應密切觀察尿量,監(jiān)測血肌酐、血清胱抑肽C等腎損傷標記物的變化情況。⑷對于已發(fā)生急性腎損傷患者應及時停藥,促進藥物排泄,保護腎功能,維持血壓,糾正電解質和酸堿失衡[2]。因此,建議臨床在使用膦甲酸鈉注射液治療期間,應當密切監(jiān)測患者腎功能;避免與腎毒性藥物聯(lián)用;用藥前及用藥期間應給予充足的水化治療;發(fā)生腎損傷后應及時停藥,水化利尿促進藥物排泄[3]。

      輸入圖像為x(i,j),其中i為行,j為列,則2D Haar 小波變換的離散小波變換可表示為式(2)所示:

      其中:?表示卷積操作;輸入x可通過與不同濾波器進行卷積操作來表示。

      根據(jù)上述原理,本文基于小波多尺度變換提出一種多尺度小波注意力(Multi-Scale Wavelet Attention,MWA)機制。不同于通道注意力[11]通過對每個通道進行計算來獲取權重,空間注意力[12]通過池化操作反映圖像特征,而全局平均池化(Global Average Pooling,GAP)和最大池化得益于其易用性與高效性一般會作為首選。但由于池化操作的特性,不論是最大池化還是平均池化,都不能完整地反映整個圖像的特征信息,缺乏對輸入信息的多樣性處理。文獻[20]認為均值信息不足以代表其特點,而平均池化等價于圖像變換中的低頻分量,因此如果僅使用平均池化,會忽略其他有用的頻率分量。受此啟發(fā),本文選擇結合小波變換的特征與多尺度輸入,設計多尺度小波注意力模塊,加強對不同頻率分量的特征注意力。多尺度小波注意力模塊如圖2所示。

      圖2 多尺度小波注意力模塊Fig.2 Multi-scale wavelet attention module

      2.2 改進的金字塔池化模塊

      在道路景觀分割的過程中,需要充分考慮不同尺度物體的影響,在上下文信息的處理上需要引入不同尺度、感受野的全局信息。在圖像語義分割的過程中不僅需要提煉特征圖中深層語義信息,并對像素進行分類,也需要淺層特征圖中的輪廓邊緣信息幫助定位。通過金字塔池化模塊可以在編碼器與解碼器的過渡階段將網絡深層語義與網絡淺層輪廓細節(jié)相結合,從而充分利用不同尺度的特征信息。

      與原始的金字塔池化模塊相比,本文替換了3 個不同比例的空洞卷積,并通過小波變換分解得到3 個高頻子帶,將得到的多尺度特征進行拼接融合。改進的金字塔池化模塊如圖3 所示。

      圖3 改進的金字塔池化模塊Fig.3 Improved pyramid pool module

      2.3 編碼器與解碼器

      本文在編碼器部分采用ResNet-34 作為骨干網絡,同時將本文設計的多尺度小波注意力模塊嵌入到骨干網絡中,添加注意力機制的同時保留原始輸入的高頻輪廓信息,通過提取不同頻率信息、不同尺度上的特征來提高訓練的準確度。解碼器由3 個解碼器模塊組成,其中解碼器模塊通道數(shù)隨著分辨率上升而減少。此外,本文還整合了深度可分離卷積[21],其能減少參數(shù)量,節(jié)約計算成本。通過這些操作進一步提高語義分割的精度與效率。本文通過最近鄰上采樣增加分辨率,并利用深度可分離卷積整合特征信息。由于在解碼器進行上采樣的過程難以避免信息丟失,本文利用1×1 的卷積操作,通過解碼器跳連連接將編碼器提取的特征整合進來,在3 個解碼器模塊后通過2 個上采樣模塊將特征層恢復到原始大小。

      2.4 損失函數(shù)

      為提高網絡訓練效果,本文在每一個解碼器模塊后加入一個輸出,將不同分辨率的輸出和最后結果輸入到網絡末端并最終得到損失函數(shù),損失函數(shù)選擇交叉熵函數(shù),如式(3)所示:

      其中:class 表示像素i的真實標簽;x表示像素i在模型輸出中相應類別所得分數(shù);N表示輸出的整體分辨率。由于還有3 個解碼器模塊的輸出,因此總的損失函數(shù)為4 部分損失函數(shù)的和,且由于不同輸出的分辨率不同,本文根據(jù)分辨率的大小分配了不同的權重,從小到大分配比例為1∶2∶3∶4。

      3 實驗結果與分析

      3.1 實驗設置及數(shù)據(jù)集

      本文實驗環(huán)境選擇CPU 為AMD Ryzen 9 處理器,內存為64 GB,GPU 使用RTX3090,采用梯度下降法訓練模型,優(yōu)化器選擇Adam 并動態(tài)調整學習率,初始學習率設置為0.002。

      本文數(shù)據(jù)集采用劍橋駕駛標注視頻數(shù)據(jù)集(Cambridge-driving Labeled Video Database,CamVid)[22],這是一個從駕駛汽車的角度拍攝的、具有目標類別語義標簽的場景視頻數(shù)據(jù)集。該數(shù)據(jù)集共有5 個視頻片段,語義類別共有32個,訓練集圖像367張,測試集圖像233張。訓練前對圖像進行水平與垂直翻轉,從而增強數(shù)據(jù)。

      為更好地評估本文模型的效果,本文選擇平均交并比(Mean Intersection over Union,MIoU)作為結果的評價標準,其表達式如式(4)所示:

      其中:pij表示真實值為i,被預測為j的數(shù)量;k+1是類別個數(shù)(包含空類別);pii是真正的數(shù)量。MIoU 一般基于類別進行計算,將每一類的IoU 計算后累加再進行平均得到的就是基于全局的評價。

      3.2 模型對比

      本文將現(xiàn)有的幾種注意力模型與本文注意力模型在CamVid 數(shù)據(jù)集上進行對比實驗,骨干網絡都選擇ResNet-34,具體設計與實驗結果如表1 所示。

      表1 不同注意力模型的對比實驗結果 Table 1 Comparative experimental results of different attention networks

      在表1中,ResNet網絡的MIoU為54.03%,SENet網絡比ResNet網絡約增加了0.6 個百分點。CBAM 網絡的加入使MIoU 提高了1.25個百分點,但參數(shù)量也有所提升。FcaNet網絡在沒有額外增加參數(shù)量的情況下MIoU提高了3.44個百分點,這說明提取不同的頻域信息對網絡分割效果有提升作用。本文設計的多尺度小波變換注意力網絡得益于小波變換不額外添加參數(shù)量的優(yōu)點,通過保留不同的高頻信息,有效整合了多尺度特征,并提高了網絡在多分辨率多尺度下的特征感知能力。

      本文在CamVid 數(shù)據(jù)集上與現(xiàn)有的其他語義分割模型進行對比,實驗結果如表2 所示。

      表2 不同語義分割模型的結果對比 Table 2 Comparison of results of different semantic segmentation models

      在表2中,與使用密集連接DenseNet 作為骨干網絡的DenseASPP 模型相比,本文模型的MIoU 提升了8.01 個百分點,且參數(shù)量下降了約2×107。與使用ResNet-50 作為骨干網絡的PSPNet 模型以及使用更深特征提取層作為骨干網絡的GCN、RefineNet 以及DeepLabV3+模型相比,本文模型在使用網絡層數(shù)較少的ResNet-34 作為骨干網絡的情況下,不僅MIoU 有所提升,而且網絡參數(shù)量也有所減少。

      3.3 消融實驗

      為對比不同模塊與多級損失函數(shù)對分割結果的影響,本文針對不同模塊進行了消融實驗,對比了注意力模塊、改進的金字塔池化模塊以及多級損失函數(shù)的有效性,實驗結果如表3 所示,其中“√”表示使用該模塊,“×”表示不使用該模塊。

      表3 不同模塊的對比實驗 Table 3 Comparative experiment of different wmodules %

      由表3 可知,僅添加注意力模塊時MIoU 為57.88%,僅使用改進的金字塔池化模塊時MIoU 為56.20%,同時添加注意力模塊與改進的金字塔池化模塊后MIoU 相較于未添加或添加單一模塊時的MIoU 均有所提升。實驗結果表明,對比其他語義分割模型,得益于小波變換不額外增加參數(shù)量,以及整合了多分辨率多尺度不同特征信息的優(yōu)點,本文模型提高了MIoU,并減少了參數(shù)量,在無人駕駛中能夠更好地適配移動端計算設備。

      為更好地展示模型的分割效果,本文選擇具有代表性的DeepLabV3+與DenseASPP 和本文模型進行對比,結果如圖4 所示(彩色效果見《計算機工程》官網HTML 版本),小尺度細節(jié)對比如圖5 所示(彩色效果見《計算機工程》官網HTML 版本)。

      圖4 不同模型的分割結果對比Fig.4 Comparison of segmentation results of different models

      圖5 不同模型分割結果的細節(jié)對比Fig.5 Comparison of details of segmentation results of different models

      圖4 為大尺度場景,在場景1(圖4 中第1 行)中行人較少,車輛集中在右側,路面較空曠。大尺度目標檢測的難點在于左右兩側的人行道檢測。原始圖像中人行道長、寬且一直連續(xù),過長的目標增加了模型分割的難度。DenseASPP 模型在左側人行道檢測中只有遠處一小部分,丟失了大面積目標特征。DeepLabV3+模型雖檢測出了左右兩側人行道,但并不連續(xù)且左側植物部分出現(xiàn)大面積空缺。本文模型不僅在兩側人行道檢測連續(xù),在左側植物檢測部分也相對密集。場景2(圖4 中第2 行)中車輛較多,植物景觀與建筑重疊且密集,給語義圖像的連續(xù)性分割增加了難度。DenseASPP 模型在遠處綠色植物的分割上有不規(guī)則的斑塊;DeepLabV3+模型在建筑物上有明顯的色塊;本文模型在植物部分的語義信息飽滿,建筑物與天空的語義檢測填充也相對密集。場景3(圖4 中第3 行)中路面相對空曠,行人集中在圖像左側,大尺度檢測目標為天空、道路、人行道、右側植物以及近端的墻面。DenseASPP 模型在道路、天空和左側建筑墻面都做出了精確分類,但右側植物與墻面出現(xiàn)了不規(guī)則的斑塊,不能很好地將長距離大尺度目標分割開;DeepLabV3+模型雖然在植物與墻面的分割上表現(xiàn)不錯,但左側墻面下的人行道并沒有有效分割,并且還有一些誤分;本文模型在左側墻面以及右側植物的分割上都做出了有效分類。

      圖5 為不同模型分割結果的小尺度細節(jié)對比。在場景1(圖5 中第1 行和第2 行)中,難點在于右側突出的4 個廣告牌以及路燈這種小輪廓物體,它們在整體圖像中并不突出但邊緣輪廓明顯,DenseASPP 模型對路燈的檢測并不連續(xù),且右側4 個廣告牌只檢測出了1 個;DeepLabV3+模型完整檢測出了遠處的路燈,但廣告牌也只檢測出了遠處的一個,上述2 種模型都沒有完整地檢測出右側近端的路燈;本文模型不僅檢測出遠點和近點的路燈桿,還分割出右側墻壁的廣告牌。場景2(圖5 中第3 行和第4 行)中車輛較多,且遠處還有行人,難點在于行人之間輪廓重疊的檢測與識別,以及在眾多車輛之間交通燈的識別,可以看到DenseASPP 模型在右側遠處路燈的識別上不夠準確,距離較近的交通燈會出現(xiàn)漏檢誤檢現(xiàn)象。DeepLabV3+模型在檢測遠側行人時輪廓不夠清晰,沒能把行人與周圍場景分割開來,且以上2 種模型對燈桿的分割不連續(xù)。本文模型在燈桿的分割以及行人輪廓的清晰度上都比上述2 種模型的表現(xiàn)優(yōu)異。場景3(圖5 中第5 行和第6 行)較空曠,只有近處的3 個行人,難點在于右側貼近墻邊的小目標物體,即自行車與交通信號燈的識別,對比本文模型,DenseASPP 和DeepLabV3+模型都沒有完全檢測出自行車和路燈,對比可知本文模型在小目標物體的分割上要優(yōu)于DenseASPP 和DeepLabV3+模型。綜上可知,本文模型在簡單場景的道路分割、復雜場景的重疊目標檢測,以及遠處小目標物體的識別上均有良好的分割效果,在不同場景下的魯棒性較好。

      4 結束語

      本文提出一種基于多尺度注意力機制的語義分割模型,利用小波變換具有多尺度多頻率信息分析的特征,設計一種多尺度小波注意力模塊,提升對不同尺度特征的感知能力,保留更多邊緣輪廓細節(jié)。改進金字塔池化操作使網絡充分聯(lián)系上下文特征信息,并通過多級損失函數(shù)加速網絡收斂。在CamVid數(shù)據(jù)集上的實驗結果表明,本文模型在提升道路場景語義分割精度的同時降低了模型參數(shù)量。下一步將通過知識蒸餾、降低模型參數(shù)量等手段,實現(xiàn)語義分割網絡的輕量化,使其能夠部署在移動端設備中。

      猜你喜歡
      池化解碼器尺度
      面向神經網絡池化層的靈活高效硬件設計
      基于Sobel算子的池化算法設計
      卷積神經網絡中的自適應加權池化
      軟件導刊(2022年3期)2022-03-25 04:45:04
      科學解碼器(一)
      科學解碼器(二)
      科學解碼器(三)
      財產的五大尺度和五重應對
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
      基于卷積神經網絡和池化算法的表情識別研究
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      华坪县| 确山县| 枣阳市| 六盘水市| 涞源县| 靖安县| 绥宁县| 广昌县| 鲜城| 阳城县| 闽清县| 玉环县| 镇远县| 孟州市| 肇东市| 大英县| 长治县| 太仆寺旗| 多伦县| 礼泉县| 金湖县| 吉林市| 巴彦淖尔市| 乳山市| 武义县| 潍坊市| 黑水县| 芷江| 故城县| 定西市| 教育| 甘孜县| 义马市| 古丈县| 昌平区| 阿尔山市| 娄底市| 永平县| 砚山县| 交城县| 监利县|