• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合低階特征與全局特征的圖像語義分割方法

      2021-09-07 00:48:34董立紅李宇星符立梅
      計算機工程與應用 2021年17期
      關鍵詞:低階全局語義

      董立紅,李宇星,符立梅

      西安科技大學 計算機科學與技術學院,西安710600

      圖像語義分割是計算機視覺領域中的一項基本任務。其主要目標是通過某個特定的算法,將輸入的整幅圖像分割成多個具有特定含義的像素區(qū)域塊,并對每個像素區(qū)域標注特定的語義標簽,最終得到一幅像素級的語義分割圖像[1]。目前,在圖像語義分割方面的研究特別廣泛,自動駕駛、遙感測繪、人機交互和醫(yī)療影像分割等領域都有深入的研究與應用[2-3]。例如,在自動駕駛領域,車體配備有圖像采集裝置,通過對采集到的圖像進行語義分割,精確定位車輛、道路、建筑物等目標,輔助駕駛系統(tǒng)做出正確的決策,從而提高駕駛之安全性。

      隨著深度學習的興起,基于卷積神經網絡(Convolutional Neural Network,CNN)的圖像語義分割方法取得了突破性的成就。卷積神經網絡能夠自動地從圖像中學習像素的特征表示,有效減少了人工提取特征的工作量。通過在大量的圖像樣本中反復訓練,可以學到深層的語義特征。近年,基于全卷積的圖像語義分割算法得到了快速的發(fā)展[4-7],為計算機視覺領域的發(fā)展帶來了新的契機。

      2015年,Long等人[4]提出的全卷積神經網絡(Fully Convolutional Networks,F(xiàn)CN)用卷積層替換了分類網絡的全連接層,然后通過上采樣將特征圖擴展到原始尺寸,實現(xiàn)了像素到像素的類別預測,然而經過多次連續(xù)的卷積池化操作后使得特征圖的分辨率降低,導致上下文信息丟失。Kendall等人[8]提出的SegNet網絡是一種基于“編碼器—解碼器”的結構。編碼過程中,通過卷積層提取特征,利用池化法擴大感受野。在解碼過程中,通過相應編碼器在最大池化過程中存儲的索引來進行非線性上采樣,減少了對上采樣過程的學習,雖然在一定程度上降低了時間復雜度,卻以犧牲分割精度為代價。Chen等人[9]提出的DeepLab網絡采用了空洞卷積層,在不增加參數(shù)的同時擴大感受野,可以更出色地提取全局信息,結合馬爾科夫隨機場的概率模型以提高分割圖的邊界信息來提升精度,但將不同尺度的特征圖裁剪成相同尺度后進行簡單求和,容易造成局部區(qū)域誤識別。并且這些方法也沒有充分利用全局信息來提升語義分割結果。

      本文設計了一個用于圖像語義分割的深度全卷積網絡,該網絡采用了“編碼器—解碼器”的結構,編碼器前端通過下采樣來減少模型參數(shù)以加深網絡深度;編碼器后端通過空洞卷積替換傳統(tǒng)的卷積下采樣組合來緩解因多次下采樣造成的信息損失;加入了低階特征融合模塊將淺層語義信息融合到解碼過程來精細化邊緣信息;通過引入全局特征融合模塊來提升模型的感知能力。

      1 相關理論與方法

      1.1 基于全卷積神經網絡的語義分割方法

      一個全卷積神經網絡模型如圖1所示。

      圖1 全卷積神經網絡模型Fig.1 Fully convolutional neural network model

      (1)輸入層。若干張圖片組成的像素矩陣。

      (2)卷積層。組成卷積神經網絡的重要部分。一個卷積層由多個尺寸相同的卷積核構成,每個卷積核經過多次迭代后學習到圖像的不同特征參數(shù)。學習過程可以表示為:

      其中,x代表卷積層的輸入,y代表卷積層的輸出,w為卷積核,?為卷積運算操作,b為偏移量,f(?)為非線性激活函數(shù)。

      (3)池化層。池化層又稱為聚合層,用下采樣的方法將前一層特征圖中一定鄰域內的特征值在本層特征圖中用一個特征值表示,即用一個像素值來代表一個鄰域內的像素信息。在多層卷積運算中,會產生大量的可學習參數(shù),采用池化的方法可以降低參數(shù)數(shù)量,從而降低學習代價。在連續(xù)的下采樣過程中,可以逐漸擴大感受野,隨著感受野的擴大,卷積核所覆蓋的特征范圍越大,可以學習到的全局特征范圍也越大。目前常用的池化法主要有平均池化法(Average-Pooling)和最大池化法(Max-Pooling),平均池化法是用本層特征圖中一個特征值表示對應上層特征圖中一定領域內特征的平均值,最大池化法是用本層特征圖中一個特征值表示對應上層特征圖中一定領域內特征的最大值。

      (4)上采樣層。上采樣是一種使圖像變成更高分辨率的技術,此處的主要目的是將特征圖逐層恢復至輸入圖像尺寸。

      (5)輸出層。輸出具有像素級的語義分割圖像。在圖像分割任務中,常見的輸出層為Softmax層。它把所有輸入映射為0~1之間的實數(shù),并保證這些值的總和為1,第i類特征的概率定義為:

      特征值越大的類,輸出的概率值越大。最后取最大輸出值的類標簽作為預測類標簽。

      1.2 批歸一化

      批歸一化(Batch Normalization,BN)是Ioffe等人[10]在2015年提出的,該方法保證了網絡中數(shù)據(jù)傳輸?shù)囊恢滦?。特別在較深的神經網絡模型中,訓練過程容易出現(xiàn)“梯度爆炸”“梯度消失”的現(xiàn)象,導致訓練結果難以收斂。批歸一化在一些網絡模型[11-12]中表現(xiàn)出了良好的性能,加快了模型的訓練,提高了模型的泛化能力。

      神經網絡中每層的特征分布在訓練過程中會不斷變化,使得網絡訓練困難。歸一化方法標準化了每層的均值與方差,使網絡中任何一層參數(shù)學習到的都是比較穩(wěn)定的分布,從而提高網絡的訓練速度。對于給定一批特征圖x∈RN×C×H×W,公式如下:

      其中,μ(x)、δ(x)是特征圖的均值和標準差,γ和β是數(shù)據(jù)優(yōu)化的仿射參數(shù)。通常,批量歸一化方法在批量較大、數(shù)據(jù)分布相近的情形下作用更加明顯。

      1.3 空洞卷積

      空洞卷積(Dilated Convolution)又稱膨脹卷積,由Yu等人[13-14]提出,空洞卷積可被視為一種特殊的卷積操作。在圖像語義分割領域中,輸出的標簽尺寸需要同輸入圖像保持一致,而深度卷積網絡結構中都包含有多次下采樣操作,隨著網絡的加深語義信息更加抽象,但是在這個過程中不可避免地損失了大量的細節(jié)信息,且不可恢復??斩淳矸e在一定程度上緩解了這個問題,在不降低特征圖分辨率的同時擴大了感受野,并且不會增加卷積核的可學習參數(shù)。

      在一維情形中,公式可表示為:

      其中,一維卷積核為w[n],n為卷積核長度,y[i]為空洞卷積的輸出,r對應了輸入的采樣步長,其值為1時即標準卷積。二維情形如圖2所示。

      圖2 空洞卷積感受野Fig.2 Receptive field of dilated convolution

      圖2中的(a)對應了大小為3×3,步長r為1的卷積核,即標準卷積核。(b)對應了大小為3×3,步長r為2的卷積核。此時卷積核大小實質上仍為3×3,但空洞為1,即對7×7的區(qū)域只有9個點參與了運算,其他點可視為對應的卷積核權重為0。所以在步長r為2的情況下,大小為3×3的卷積核將感受野擴展到了7×7。

      1.4 反卷積

      反卷積(Deconvolution)由Zeiler等人[15]于2010年提出,在圖像語義分割領域中主要用來上采樣。反卷積運算是卷積運算的逆過程,即反卷積運算的前向傳播過程即為卷積運算的反向傳播過程,所以也可以視反卷積的相乘矩陣為卷積的置換矩陣,故也常稱作置換卷積。反卷積運算可以增大特征圖的分辨率,擴大感受野。

      反卷積過程如圖3所示,輸入特征圖尺寸為3×3,卷積核大小為3×3,步長為2,填充為1,計算得到的輸出特征圖大小為5×5。公式如下:

      其中,i為輸入,o為輸出,s為步長,k為卷積核大小,p為填充。

      2 融合低階特征與全局特征的圖像語義分割

      在圖像語義分割領域,深度全卷積網絡通常需要進行多次連續(xù)的下采樣操作,在下采樣過程中特征圖的分辨率不斷降低,最終導致大量的語義特征信息丟失,容易造成分割精度的損失。針對這個問題,本文方法基于深度全卷積網絡進行改進,融合低階語義信息和全局語義信息進行圖像語義分割,使得分割結果更加精細,有效提高分割精度。

      2.1 低階特征融合模塊設計

      在基于深度學習的圖像語義分割任務中,融合低階特征是提高分割性能的一種重要方法。低階語義信息通常在深度網絡的前幾層,經過的卷積和下采樣操作比較少,相較高階語義特征而言,其語義性低,但分辨率高,存在豐富的邊緣紋理等低階信息。而高階特征雖有更抽象的語義特征,但經過多次卷積和下采樣操作降低了分辨率,缺乏低階特征的細節(jié)信息。

      通過設計一個簡單的特征融合方案,對每次下采樣前產生的低階語義特征進行降維保存,然后將這些不同分辨率的低階特征融合到每次上采樣后對應分辨率的高階特征上,然后通過卷積和上采樣繼續(xù)對融合后的特征圖進行運算,直到特征圖恢復至初始分辨率大小。為了達到更好的融合效果,本文采用了特征圖通道疊加的方法進行融合。

      在網絡解碼器端得到的融合特征既包含了低階語義信息又包含了高階語義信息,相較于只經過編碼器和解碼器提取的特征,融合低階語義特征后可以提供更多的細節(jié)信息,有利于提高分割精度,如圖4所示。

      圖4 低階特征融合模塊Fig.4 Low order feature fusion module

      2.2 全局特征融合模塊設計

      在以往的研究中[16],卷積神經網絡在提取高階特征信息的任務中展示了良好的性能,對經過多層卷積操作提取的高階語義信息進行分類時經常會丟失一部分全局信息,容易使目標的邊緣部分或者復雜場景中的物體出現(xiàn)誤分類。

      全局特征可以進一步提高網絡模型對場景的感知能力,從而提高模型的分割性能。全局結構主要以特征圖的全局信息為特征,在逐像素分類過程中起到一定的作用。如圖5所示,本文引入了一個全局特征融合模塊,其由池化層和卷積層共同構成。全局池化層對輸入大小為C×H×W的特征圖的每個通道都進行了全局池化,形成大小為C×1×1的全局特征圖。其中,C為特征圖的通道大小,H為特征圖的高度,W為特征圖的寬度。

      圖5 全局特征融合模塊Fig.5 Global feature fusion module

      C×1×1的全局特征圖包含了所有通道的全局信息,然后用1×1的卷積運算降低全局特征的通道數(shù),并通過復制特征值的方法對全局特征的每個通道擴張分辨率,最后將學習到的全局特征融合到解碼器產生的高階特征當中。

      2.3 總體結構

      本文的網絡架構由一個16層的編碼器和一個10層的解碼器組成,對網絡輸出的特征圖進行逐像素分類。同時,通過引入低階語義融合模塊將編碼階段產生的不同分辨率下的低階特征融合到解碼過程,補充淺層特征以精細化特征圖目標的邊緣信息,并且在網絡中引入了全局特征融合模塊,進一步提高網絡模型對場景的感知能力。所以,整個網絡是26層的全卷積網絡結構,其結構如圖6所示。

      圖6 融合低價特征與全局特征的網絡結構Fig.6 Network structure with fusion of global and low order features

      在該網絡的16層編碼結構中,前8層采用了VGG-19[17]的前8層卷積層,每一組卷積核將前一部分的輸出進行卷積操作生成一組特征圖,卷積操作均采用了大小為3×3的卷積核。為了維持數(shù)據(jù)傳輸過程的一致性,將每層卷積生成的特征圖通過BN層進行批正則化處理,接著再通過修正線性單元(Rectified Linear Unit,ReLU)進行非線性映射。在下采樣過程中采用了核大小為2×2,步長為2的最大池化法來擴大感受野,為保存邊緣信息,采用了邊緣擴充的方法。經過3組連續(xù)的卷積池化操作將特征圖大小降低到了原始分辨率的1/8。同時,低階語義信息提取模塊將每組池化前的特征圖通過1×1的卷積核將維度降低至原來的1/4作為低階語義信息,以期融合到解碼過程。

      編碼器后8層使用了8層空洞卷積進行特征提取。由于池化層對特征圖進行降采樣后,雖然在一定程度上擴大了感受野,但每經過一層池化操作特征圖尺寸就會縮小為原來的1/2,多次池化后會使圖像的細節(jié)信息嚴重損失。為了緩解這個問題,故而采用空洞卷積在不降低特征分辨率的同時來擴大感受野。為了不因空洞卷積采樣步長過大而過多地損失細節(jié)信息,本網絡將前4層空洞卷積層的采樣步長r設為2,后4層的采樣步長r設為4。然后將前四層空洞卷積層的輸出與后四層空洞卷積的輸出按1∶1進行融合作為編碼器的輸出。經過多層空洞卷積后能有效獲取特征圖的全局特征信息,用全局特征提取模塊將編碼器的輸出進行全局平均池化,然后用1×1的卷積核進行降維,以期融合到最后的解碼過程。

      在解碼過程中,本文方法采用了反卷積操作進行上采樣,通過每次上采樣將上一組輸出特征圖的尺寸擴展為原來的2倍,經過三次上采樣操作將特征圖尺寸恢復到原始輸入尺寸。并且在每次上采樣后,將低階特征融合模塊提取的低階語義特征以維度擴展的形式融合到解碼過程中對應尺寸的高階語義特征圖中,本文低階特征與高階特征的比例設為1∶4。最后將全局特征融合模塊提取的全局特征融合到解碼器后端,全局特征與高階特征比例設為1∶8。并在表1中列出了網絡主結構的配置參數(shù)。

      表1 網絡配置參數(shù)Table 1 Network parameter configuration

      3 實驗結果與分析

      3.1 實驗環(huán)境與數(shù)據(jù)集

      為了節(jié)約時間,通過Google發(fā)布的tesorflow深度學習框架來構建網絡。采用的GPU型號為RTX 2080Ti,該卡顯存大小為11 GB,352位顯存位寬與4 352個CUDA核心單元。實驗環(huán)境的主要參數(shù)如表2所示。

      表2 實驗環(huán)境參數(shù)Table 2 Experimental environmental parameters

      在本次任務中采用CamVid(Cambridge-driving labelled Video database)[18]數(shù)據(jù)集來訓練網絡。其中,標簽圖為單通道,每一個像素值對應了物體類別的ID號。將數(shù)據(jù)集中的所有像素區(qū)域共分成了11種目標的語義標簽,即sky、building、pole、road、pavement、tree、signsymbol、fence、car、pedestrian、cycle。因此在本次實驗中將對以上11種目標實現(xiàn)語義分割。

      3.2 實驗方案及結果分析

      在訓練網絡時,為了增強網絡的泛化能力,輸入圖像在第一層卷積前經過了局部響應歸一化(Local Response Normalization)處理,α=0.000 1,β=0.75。通過使用學習率為0.001的Adam算法優(yōu)化目標損失函數(shù),并迭代至損失函數(shù)收斂。在訓練過程中,訓練數(shù)據(jù)集隨機打亂,然后將每5個訓練圖像作為一個批次,即batchsize設為5。網絡的目標函數(shù)選用了交叉熵損失(cross-entropy loss)函數(shù),并在網絡最后一層加入了L2正則化防止過擬合。由于數(shù)據(jù)集中各個類別的像素數(shù)量偏差較大,通過中值頻率均衡法進行類間平衡處理。

      實驗評估過程中使用了如下的評估指標:全局平均精度(PA)和平均交并比(mIoU),公式如下:

      其中,nij表示第i類像素被預測為第j類像素的數(shù)量,ncl表示目標的類別數(shù),表示第i類目標的像素總數(shù)。

      由于mIoU的代表性強,高效簡潔,已經成為目前通用的語義分割評價指標,所以,將mIoU作為本實驗主要的評價指標,而PA值作為mIoU的一個補充。

      由于CamVid數(shù)據(jù)集比較小,為了防止在訓練網絡的過程中發(fā)生過擬合現(xiàn)象,通過裁剪和左右翻轉的方法對其進行了數(shù)據(jù)增強。本次實驗中數(shù)據(jù)集的語義類別總共分為11類,在測試過程中將分割出11種語義目標。經過50 epochs后停止訓練,訓練過程中驗證集的mIoU值、平均像素精度和損失值的變化如圖7所示。

      圖7 mIoU、PA與Loss曲線圖Fig.7 Curves of mIoU,PA and Loss

      從圖7中可以看出,網絡訓練到第12個epoch時mIoU值就達到了70%,迭代到27個epoch后mIoU達到了80%,在之后的訓練中,mIoU雖然有非常緩慢的提升,但效果并不明顯。PA值在網絡迭代到37個epoch時就達到了95%。Loss值在網絡迭代到21個epoch時降低到10%左右,在接下來的訓練過程中,模型基本開始收斂。經過50個epoch迭代之后模型的mIoU達到了83%,PA值基本保持在了95%左右,Loss降低到了7%以下。

      當網絡在訓練過程中精度不再顯著提高后,用測試集對此時的網絡模型進行測試,并使用PA和mIoU作為評價指標。將測試結果與近期文獻所提的一些網絡結構[19-23]進行了比較,各方法評價結果的具體數(shù)值如表3所示。結果表明本文方法的mIoU值高于當前大多方法,并且PA值也達到了90%,特別在區(qū)域平滑方面有很好的性能。

      表3 與其他網絡的比較Table 3 Comparison with other networks %

      同時為了測試本文各個模塊的性能,在表4中列出了消融實驗的結果,D表示加入了空洞卷積,L表示為融合低階語義特征,G表示為融合全局語義特征。

      表4 消融實驗測試結果Table 4 Ablation experiments %

      從表4可以看出,本文所使用的各模塊都能對分割精度提升起到一定的作用,各模塊相互組合可以進一步提高網絡的分割結果。當所有改進模塊聯(lián)合訓練時,測試結果最終達到了90.14%的PA值和71.95%的mIoU值。加入空洞卷積后網絡結構變深,可以提取更加豐富的高階特征,并且沒有降低特征圖的分辨率,保留了更多的特征信息。融合低階語義特征后,結合豐富的邊緣紋理等細節(jié)信息,使分割結果的邊界更加精確。在分割特征圖時融合全局特征信息后提高了模型的感知能力,可以有效降低誤分類的概率。實驗表明,融合低階特征和全局特征的深度全卷積網絡可以在輸入圖像中預測出更加平滑的像素級標簽,深層網絡架構可以有效提高圖像語義分割精度。

      最后,圖8展示了本文設計的網絡在訓練了50個epoch后得到模型在測試集上分割的結果。其第一行為輸入圖像;第二行為手工標注圖;第三行為本網絡分割結果。在CamVid數(shù)據(jù)集中,地面、天空、建筑物等大型目標在圖像中占據(jù)了很大的比例,對這些目標的分割效果極大地影響著全局分割精度。

      圖8 CamVid測試集上的分割結果Fig.8 Results on CamVid test dataset

      4 結束語

      本文設計了一個用于圖像語義分割的26層深度全卷積網絡。該網絡基于“編碼器—解碼器”的結構,采用了空洞卷積來降低信息損失,并且設計了低階特征融合模塊和全局特征融合模塊通過融入低階語義信息和全局語義信息來提升分割精度。最后,在CamVid數(shù)據(jù)集上進行了訓練和測試。實驗結果表明,在樣本數(shù)量充足的情況下,本文的網絡可以很好地學習圖像特征,并且準確保留圖像的邊緣信息,特別在區(qū)域平滑方面有很大的提升。

      猜你喜歡
      低階全局語義
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      山西低階煤分布特征分析和開發(fā)利用前景
      礦產勘查(2020年11期)2020-12-25 02:55:34
      語言與語義
      一類具低階項和退化強制的橢圓方程的有界弱解
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      Extended Fisher-Kolmogorov方程的一類低階非協(xié)調混合有限元方法
      “上”與“下”語義的不對稱性及其認知闡釋
      國內外低階煤煤層氣開發(fā)現(xiàn)狀和我國開發(fā)潛力研究
      中國煤層氣(2015年3期)2015-08-22 03:08:23
      認知范疇模糊與語義模糊
      呼图壁县| 专栏| 汤阴县| 定日县| 县级市| 道孚县| 邵阳市| 榆中县| 历史| 濉溪县| 资阳市| 鄢陵县| 赫章县| 隆林| 汉阴县| 会同县| 牙克石市| 白山市| 家居| 武山县| 博乐市| 德江县| 横峰县| 和龙市| 台州市| 阿拉尔市| 禹州市| 吴堡县| 岳池县| 临漳县| 满洲里市| 达拉特旗| 鞍山市| 马关县| 白沙| 江陵县| 清徐县| 青海省| 黄浦区| 华蓥市| 新乡县|