基于類別相關(guān)的領(lǐng)域自適應(yīng)交通圖像語義分割方法

2020-04-21 07:58:26賈穎霞郎叢妍馮松鶴

計算機研究與發(fā)展 2020年4期

賈穎霞郎叢妍馮松鶴

(北京交通大學計算機與信息技術(shù)學院北京 100044)

圖像語義分割作為計算機視覺領(lǐng)域的一個重要研究問題，旨在對輸入圖像的每一個像素根據(jù)其所屬的類別進行分類，最終整合得到包含語義信息的分割輸出結(jié)果，其分割結(jié)果的準確度對后續(xù)的場景理解、目標追蹤以及圖文轉(zhuǎn)換等課題起著直接且至關(guān)重要的作用.近年來，由于深度學習的發(fā)展以及全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network, FCN)[1]的出現(xiàn)，語義分割得以快速發(fā)展.

然而，現(xiàn)有的語義分割算法[1-4]存在著許多不足，特別是對精準標注過分依賴.由于對數(shù)據(jù)進行人工標注將會耗費大量的時間和精力，因此實際應(yīng)用中收集到的圖像大多沒有精準的數(shù)據(jù)標注.對精準標注的過分依賴導致現(xiàn)有的語義分割方法難以直接應(yīng)用于非精準甚至無標注數(shù)據(jù)集中.

為解決這一問題，近年來提出領(lǐng)域自適應(yīng)方法，用于縮小所含類別相似、數(shù)據(jù)分布相近的有標注源域數(shù)據(jù)集和無標注目標域數(shù)據(jù)集之間的語義鴻溝.擁有一定量的有標注數(shù)據(jù)，通過訓練神經(jīng)網(wǎng)絡(luò)模型，便可對其進行特征提取與語義分割.利用生成-對抗學習[5]的思想，對這個網(wǎng)絡(luò)經(jīng)過調(diào)整、優(yōu)化，即可將其有效應(yīng)用在其他跨域的無標注數(shù)據(jù)集中.而與常見的利用生成對抗網(wǎng)絡(luò)(generative adversarial network， GAN)[5]進行圖像分類或圖像增強的方法不同，語義分割方法所需的特征需要同時包含圖像整體的空間布局信息和局部語義類別的上下文信息，實現(xiàn)難度大.

現(xiàn)有的領(lǐng)域自適應(yīng)語義分割方法大多存在2個問題：

1) 絕大多數(shù)算法直接將領(lǐng)域自適應(yīng)方法應(yīng)用在原圖上，分別利用來自源域和目標域的原圖進行對抗學習，進而實現(xiàn)語義分割，而實驗結(jié)果表明，這一做法存在2個不足：①若直接對原圖進行識別及語義分割、對抗判別等操作，容易出現(xiàn)分割不準或過度分類等問題，如圖1左側(cè)展示的場景是陰天1輛轎車停在紐約街頭馬路，圖1右側(cè)展示的場景是晴天1輛跑車停在倫敦鄉(xiāng)鎮(zhèn)的柵欄外，2張原圖間場景存在較大差異，而在語義分割方法中，兩者所包含的語義信息及語義類別卻較為相近.②現(xiàn)有的領(lǐng)域自適應(yīng)方法所采用的對抗判別基準多為直接使用GAN[5]網(wǎng)絡(luò)中的鑒別器，判別輸入的2張圖片是否來自同一數(shù)據(jù)域.而圖像語義信息通過其包含的全部語義類別體現(xiàn).僅利用整張原圖進行語義判別，容易造成類別錯分等分割結(jié)果不理想的問題.

Fig. 1 Comparison of original image and segmentation results圖1 原圖及語義分割結(jié)果對比圖

2) 目前許多數(shù)據(jù)集均存在“長尾分布”效應(yīng)，即20%的語義類別占據(jù)80%的數(shù)據(jù)量，諸如在交通場景數(shù)據(jù)集中，車輛、道路等占據(jù)了約80%的數(shù)據(jù)量，而交通信號燈及路標等類別，因其所占數(shù)據(jù)量較小且易與背景混淆而時常難以被正確分割，為實際應(yīng)用帶來了諸多不便.

根據(jù)以上分析，本文針對現(xiàn)有的領(lǐng)域自適應(yīng)及語義分割方法中存在的問題，提出2個改進方案：

1) 為改善現(xiàn)有數(shù)據(jù)集中數(shù)據(jù)分布不均的情況提出基于改進focal loss[6]的損失函數(shù)；同時，引入Pixel Shuffle方法[7]改進上采樣方法，在對源域數(shù)據(jù)進行語義分割的過程中，有效提高解碼器對原圖空間信息及上下文語義信息的恢復程度.

2) 提出一種新的基于類別相關(guān)的領(lǐng)域自適應(yīng)語義分割方法，通過提出新的領(lǐng)域自適應(yīng)階段、設(shè)計基于語義類別相關(guān)的對抗判別標準，并對目標域語義分割網(wǎng)絡(luò)進行約束調(diào)優(yōu)來有效解決不同數(shù)據(jù)集跨域分割問題，使得語義分割效果具有更細粒度的提升，進而減少對全標注樣本的需求；同時顯著提高對于標注情況、圖像風格、數(shù)據(jù)分布均不相似但包含相同語義類別的2個數(shù)據(jù)集間的自適應(yīng)水平，提升語義分割精準度和泛化性能.

1 研究現(xiàn)狀

1.1 語義分割

目前大多數(shù)語義分割方法的核心思想來自FCN[1]，F(xiàn)CN將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[8]中的最后一層替換為卷積層，同時使用跳躍式結(jié)構(gòu)，將高層次特征與低層次特征結(jié)合，有效提高分割精準度.而為了更好地融合多尺度語義信息，提高分割結(jié)果，近年來，許多方法采用“編碼器-解碼器”[2]結(jié)構(gòu)，其中編碼器負責提取高層抽象語義特征，解碼器通過反卷積[9]或反池化等方法擬合不同層次特征，逐步將分割特征圖的語義信息和大小恢復至與原圖一致.近來，文獻[3]中提出名為Deeplab V3+的方法，引入可任意控制編碼器用以提取特征的分辨率，同時通過空洞卷積方法平衡其精度和耗時.

針對現(xiàn)有監(jiān)督方法過于依賴精確標注的問題，文獻[10]中提出基于顯著圖信息的弱監(jiān)督語義分割方法，通過顯著圖求得每個像素屬于前景物體或者背景的概率，并采用多標簽交叉熵損失訓練出一個簡單的深度卷積神經(jīng)網(wǎng)絡(luò)，再根據(jù)數(shù)據(jù)集中圖像級別的標注信息剔除部分噪聲，使得該網(wǎng)絡(luò)具備較高語義分割能力.文獻[11]中提出基于對抗性擦除的方法，將圖片輸入至分類網(wǎng)絡(luò)，通過訓練得到對于當前圖片而言最具判別力的區(qū)域，將這部分的像素值在網(wǎng)絡(luò)中設(shè)置為0，并將擦除后的圖片輸入分類網(wǎng)絡(luò)進行再訓練.網(wǎng)絡(luò)會自動尋找其他證據(jù)，使得圖像可以被正確分類，重復以上操作，最后通過融合經(jīng)擦除的區(qū)域獲取相應(yīng)物體的整個區(qū)域.文獻[12]中提出基于圖模型和圖匹配的自監(jiān)督學習語義分割方法，提出一種基于類內(nèi)連通圖的三元組抽樣方案改進分割精度.以上方法均取得較為優(yōu)異的結(jié)果，但針對完全無標注的圖像，依然難以有效、快速地處理.

針對以上問題，本文引入1.2節(jié)中描述的領(lǐng)域自適應(yīng)方法，通過對有標注數(shù)據(jù)集的分割方法進行訓練學習與遷移，解決對無標注數(shù)據(jù)集的跨域分割問題，顯著提升無標注數(shù)據(jù)集的語義分割精準度.

1.2 領(lǐng)域自適應(yīng)

領(lǐng)域自適應(yīng)是遷移學習[13]在計算機視覺領(lǐng)域的應(yīng)用，用以解決源域和目標域之間的域不變及域遷移問題.根據(jù)“適應(yīng)”內(nèi)容的不同，目前主要有3類領(lǐng)域自適應(yīng)方法.1)基于對抗-生成[5]思想，使得目標域有效“適應(yīng)”源域的分割模型及方法；2)基于風格轉(zhuǎn)換[13],利用目標域數(shù)據(jù)對源域數(shù)據(jù)進行圖像增強，進而實現(xiàn)2個域內(nèi)數(shù)據(jù)彼此“適應(yīng)”的方法；3)采用“師生”模型體系結(jié)構(gòu)的基于知識蒸餾[14]的領(lǐng)域自適應(yīng)方法.

在基于生成對抗思想的方法中，依據(jù)對抗階段采用的判別標準的不同，可將其分為基于數(shù)據(jù)分布的域適應(yīng)、基于特征選擇的域適應(yīng)以及基于子空間學習的域適應(yīng)方法等.這類方法的主要實現(xiàn)難點在于如何有效減小源域數(shù)據(jù)集與目標域數(shù)據(jù)集兩者間的分布差異.文獻[15]中通過最小化最大平均差異方法，實現(xiàn)對源域和目標域之間特征分布的有效對齊.文獻[16]中提出依據(jù)相關(guān)對齊損失，匹配源域數(shù)據(jù)集和目標域數(shù)據(jù)集特征的均值和協(xié)方差.

針對現(xiàn)有領(lǐng)域自適應(yīng)方法中，多采用原圖或高層次抽象特征圖進行跨域訓練，進而造成的語義不一致或類別錯分問題，本文提出一種新的基于類別相關(guān)的領(lǐng)域自適應(yīng)語義分割方法：首先，對原圖進行粗分割；其次，對其分割結(jié)果進行類別相關(guān)的優(yōu)化調(diào)整.通過提升跨域數(shù)據(jù)集間的自適應(yīng)水平，有效實現(xiàn)對無標注數(shù)據(jù)集的跨域語義分割，提高算法的泛化性能.

2 一種基于類別相關(guān)的語義分割方法

2.1 方法綜述

在本節(jié)中，如圖2所示，本文提出一種包含3個處理階段的基于類別相關(guān)領(lǐng)域的自適應(yīng)語義分割方法模型.

1) 對基于監(jiān)督學習的語義分割方法進行改進.為了提高圖像中類別邊緣的分割精度，改進解碼過程中基于特征圖的上采樣(upsampling)方法，提高對輸入圖像中的空間信息及上下文語義信息的恢復程度；同時，針對數(shù)據(jù)集中數(shù)據(jù)分布不均的情況，對現(xiàn)有方法的損失函數(shù)進行相應(yīng)改進，使本文方法針對難分割、數(shù)據(jù)量小的類別，能有效提高其分割準確度.

2) 根據(jù)前期調(diào)研，現(xiàn)有領(lǐng)域自適應(yīng)方法的適應(yīng)階段大多選擇在原圖或經(jīng)卷積處理后的特征圖上進行，而本文則選擇在經(jīng)過分割網(wǎng)絡(luò)處理得到的粗分割輸出空間上進行學習與訓練，這樣使得本文方法既能在一定程度上有效避免語義不一致問題，又能有效利用圖像中的基礎(chǔ)結(jié)構(gòu)化的域不變特征、上下文語義及空間信息.此外，提出將類別相關(guān)的數(shù)據(jù)分布情況作為領(lǐng)域自適應(yīng)的對齊標準，并對整體的語義分割網(wǎng)絡(luò)進行約束調(diào)優(yōu)，使本文方法的分割效果較先前方法有更細粒度的提升.

3) 根據(jù)前2階段學習及訓練得出的網(wǎng)絡(luò)，設(shè)計損失函數(shù)，對算法網(wǎng)絡(luò)進行全局約束優(yōu)化，提高本文算法泛化性，使得標注情況、圖像風格、數(shù)據(jù)分布均不相似但包含相同語義類別的2個數(shù)據(jù)集間能夠更好地實現(xiàn)領(lǐng)域自適應(yīng).

Fig. 3 The graph of super-resolution reconstruction method圖3 超分辨率重建方法示意圖

2.2 方法設(shè)計

2.2.1 基于監(jiān)督學習的方法改進

本文首先對現(xiàn)有基于監(jiān)督學習的語義分割網(wǎng)絡(luò)進行改進.

本文針對源域數(shù)據(jù)集采用的基礎(chǔ)網(wǎng)絡(luò)模型為DeepLab[3]，其使用“編碼器-解碼器”結(jié)構(gòu)，在解碼過程中使用雙線性插值方法，利用周圍4個像素點信息對待測樣點進行插值計算，繼而將特征圖逐步復原至輸入圖像的大小.

而雙線性插值方法不僅計算量較大，且僅考慮待測樣點周圍4個直接相鄰點灰度值的影響，未考慮其他各相鄰點間灰度值變化率的影響，從而導致縮放后圖像的高頻分量損失，相應(yīng)類別的分割邊緣模糊；同時，因在相鄰點之間反復計算，存在一定程度的重疊(overlap)現(xiàn)象.

因此，在擴大特征圖大小且恢復圖像語義信息的上采樣過程中，本文采用如圖3所示的超分辨率重建[7]方法.首先通過卷積計算得到r2個通道的特征圖，然后通過周期篩選方法得到更高分辨率的圖像.其中，r為上采樣因子(upscaling factor)，即相應(yīng)圖像的擴大倍率.

將帶有精準標注的源域數(shù)據(jù)輸入至經(jīng)過優(yōu)化的語義分割網(wǎng)絡(luò)中，得到語義分割結(jié)果，并將此結(jié)果與源域數(shù)據(jù)中的真實分割區(qū)域(ground truth)進行比對，求得當前方法的分割準確率.

同時，針對數(shù)據(jù)集中語義類別分布存在的如圖4所示的“長尾效應(yīng)”，即20%的語義類別占據(jù)數(shù)據(jù)集中80%的數(shù)據(jù)量，而其他很多對分割精準度具有重要影響的語義類別因所占數(shù)據(jù)比例較小而難以被正確分割，本文提出如式(1)所示的基于改進focal loss[6]的優(yōu)化方法，作為基于監(jiān)督學習語義分割方法的損失函數(shù)，旨在將更多的注意力傾注在數(shù)據(jù)量小但對分割結(jié)果影響較大的數(shù)據(jù)類別上，使得相應(yīng)類別及圖像整體的分割準確率能夠得到有效提升.

Fig. 4 The graph of long tail distribution圖4 長尾分布示意圖

(1)

其中,PS表示源域中某個類別被正確預(yù)測的概率,與參數(shù)α,γ一起用于優(yōu)化分割結(jié)果.依據(jù)此函數(shù)及其計算結(jié)果，對當前的監(jiān)督學習方法進行迭代優(yōu)化.

2.2.2 基于類別對齊的領(lǐng)域自適應(yīng)方法

根據(jù)文獻閱讀及實驗復現(xiàn)，現(xiàn)有的領(lǐng)域自適應(yīng)語義分割方法選擇的自適應(yīng)階段通常為目標域數(shù)據(jù)原圖或經(jīng)卷積計算處理后的特征圖.對語義分割方法而言，原圖中所含冗余因子較多，如光照情況、色彩情況等.直接對原圖進行領(lǐng)域自適應(yīng)及分割，容易導致語義不一致問題.同時，經(jīng)卷積提取的特征圖中所含的圖像上下文及空間信息又較為匱乏，因而容易導致邊緣模糊或類別錯分問題.

此外，現(xiàn)有方法選擇的自適應(yīng)判別基準通常直接采用GAN[5]的思想，即直接將整張圖像輸入至領(lǐng)域自適應(yīng)網(wǎng)絡(luò)的判別器中，判斷2個輸入圖像是否來自同一數(shù)據(jù)域.然而，此判別基準可能過度關(guān)注全局信息的對齊而忽略原本相近的語義類別，導致原本正確分割的語義類別被調(diào)節(jié)至錯誤分割.

根據(jù)理論分析及驗證性實驗結(jié)果，本方法首先將源域數(shù)據(jù)和目標域數(shù)據(jù)直接輸入至2.2.1節(jié)的網(wǎng)絡(luò)中進行分割.對于源域數(shù)據(jù)，得到基于監(jiān)督學習的精準分割結(jié)果；對于目標域數(shù)據(jù)，得到其粗分割結(jié)果.

因此，將2.2.1節(jié)中設(shè)計及優(yōu)化后的分割網(wǎng)絡(luò)視為生成器，并固定其網(wǎng)絡(luò)結(jié)構(gòu)及相應(yīng)參數(shù)設(shè)置，將源域數(shù)據(jù)中的語義類別及其分割情況作為起始基準.結(jié)合目標域數(shù)據(jù)的分割結(jié)果，根據(jù)式(2)(3)，在判別環(huán)節(jié)分別計算源域和目標域的分割結(jié)果中具體語義類別及其數(shù)據(jù)分布情況,并傳入本文設(shè)計的判別網(wǎng)絡(luò)中，根據(jù)類別相關(guān)對齊原理，進行類別層面的對齊調(diào)優(yōu)，使得源域數(shù)據(jù)與目標域數(shù)據(jù)所含的語義類別類內(nèi)相似性不斷提升，類間獨立性不斷擴大.

(2)

(3)

同時，針對以上基于類別相關(guān)的領(lǐng)域自適應(yīng)方法，首先統(tǒng)計2個域的總體數(shù)據(jù)分布情況，然后根據(jù)生成-對抗學習思想設(shè)計損失函數(shù)，并利用其計算結(jié)果，對本文方法的對齊過程及判別器設(shè)計進行相應(yīng)優(yōu)化：

(4)

(5)

(6)

2.2.3 約束調(diào)優(yōu)

以2.2.1節(jié)和2.2.2節(jié)中優(yōu)化設(shè)計的模型為基礎(chǔ)，對本文提出的算法網(wǎng)絡(luò)進行整體約束優(yōu)化，同時，經(jīng)由此階段處理，可對2.2.2節(jié)中部分類別不一致及類別在2個域間分布不均的情況進行優(yōu)化調(diào)整.

將分割結(jié)果輸入到領(lǐng)域自適應(yīng)階段的判別器中進行判別，根據(jù)判別結(jié)果，對分割網(wǎng)絡(luò)進行迭代優(yōu)化，直至判別器無法鑒別其接收的分割結(jié)果圖來自源域還是目標域，即類別對齊已完全實現(xiàn)時，則認為當前基于類別相關(guān)的算法網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)達到較為理想的結(jié)果，實現(xiàn)了對領(lǐng)域自適應(yīng)語義分割方法的有效提高.

在此過程中，提出式(7)所示的損失函數(shù)，將本文方法模型視為一個基于GAN[5]的結(jié)構(gòu)，依據(jù)此函數(shù)計算本算法的整體損失值，對算法網(wǎng)絡(luò)進行優(yōu)化與改進.

(7)

其中，IS,IT分別表示源域數(shù)據(jù)和目標域數(shù)據(jù)正確分割的情況.

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

本文提出一種基于類別相關(guān)的領(lǐng)域自適應(yīng)語義分割方法，并在道路交通數(shù)據(jù)集GTA5[17]，SYNTHIA[18]，Cityscapes[19]上進行實驗.

同時，為了證明本文方法的魯棒性，在MSCOCO[20]和VOC 2012[21]數(shù)據(jù)集上進行驗證性實驗，并統(tǒng)計交通場景相應(yīng)數(shù)據(jù)類別的實驗結(jié)果.

GTA5[17]是基于游戲Grand Theft Auto V提取的包含有25 966張分辨率為1 914×1 052的超高清且自動帶有標注數(shù)據(jù)的賽車游戲場景圖像數(shù)據(jù)集，其場景均為對美國洛杉磯和南加州真實交通環(huán)境場景的復現(xiàn)，所包含的類別與Cityscapes數(shù)據(jù)集完全兼容.

SYNTHIA[18]是由計算機合成的、城市道路駕駛環(huán)境的像素級標注的數(shù)據(jù)集，包含21 494張分辨率為1 914×1 052的超高清且自動帶有標注數(shù)據(jù)的交通場景圖像，其所含類別與Cityscapes完全兼容.

Cityscapes[19]是由梅賽德斯-奔馳提供的無人駕駛環(huán)境下的圖像分割數(shù)據(jù)集，用于評估視覺算法在城區(qū)場景語義理解方面的性能.Cityscapes包含德國50個城市不同場景、不同背景、不同季節(jié)的街景，其中包含5 000張精細標注的道路交通場景圖像、20 000張粗略標注的圖像、30類標注物體以及1 525張只包含原圖、沒有標簽的測試集圖像.

MSCOCO[20]是微軟發(fā)布的，包括91個類別、328 000張圖片和2 500 000條標注信息的數(shù)據(jù)集，而其對于圖像的標注信息不僅有類別、位置信息，還有對圖像的語義文本描述.

VOC 2012[21]是包含11 530張圖片的開源數(shù)據(jù)集，其中每張圖片都有標注，標注的物體包括人、動物(如貓、狗、鳥)、交通工具(如車、船和飛機等)、家具(如椅子、桌子、沙發(fā)等)在內(nèi)的20個類別.

3.2 實驗環(huán)境、網(wǎng)絡(luò)設(shè)計及評價指標

本文模型所使用的深度學習框架為Pytorch 1.0.0版本，相關(guān)實驗在基于Ubuntu 16.04操作系統(tǒng)的2塊NVIDIA TITAN XP獨立顯卡上運行.

本文實驗采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，對于本文提出的方法，在計算式(1)所示的損失值時，設(shè)定α=0.2，γ=2效果最為理想.在訓練過程中，我們將初始語義分割階段視為生成部分，在對輸入圖像進行語義分割時，分別使用VGG-16[22]和ResNet-101[23]這2種網(wǎng)絡(luò)模型作為基礎(chǔ)架構(gòu)，源域與目標域共享參數(shù)，使用Leaky-ReLU[24]作為激活函數(shù),并使用超分辨率重建[7]作為上采樣方法，使用隨機梯度下降法(stochastic gradient descent, SGD)[25]作為生成部分的優(yōu)化方法，令初始學習率rg=2.5×10-4，動量參數(shù)βg=0.9；對于判別部分中的判別網(wǎng)絡(luò)，使用4層通道數(shù)分別為 {64,128,256,1}的卷積層，使用Leaky-ReLU[24]為激活函數(shù)，令初始學習率rd=1.0× 10-6，令1階矩估計、2階矩估計的指數(shù)衰減率分別為β1=0.9，β2=0.99；在計算本文方法的整體損失值時，分別將基于監(jiān)督學習的損失值、基于類別相關(guān)的判別損失值及基于GAN[5]模型結(jié)構(gòu)的損失值對應(yīng)權(quán)重設(shè)置為λ1,λ2,λ3，對應(yīng)權(quán)重值分別為0.2,1.0,0.5.

本文采用的主要評價指標為如式(8)(9)所示的針對每個類別的像素分割精準度(pixel accurancy, PA)和針對圖像整體的平均交并比(mean inter-section over union,mIoU).

像素分割精度表示的是該類別標記正確的像素數(shù)目占總像素數(shù)目的比例:

(8)

其中，pii表示被正確分類的像素數(shù)目，pij表示實際類別為i而被預(yù)測為類別j的像素點的數(shù)目.

平均交并比表示的是預(yù)測分割區(qū)域(predicted segmentation)和真實分割區(qū)域間交集與并集的比值：

(9)

其中，k+1表示數(shù)據(jù)集中全部類別數(shù)目.

3.3 實驗結(jié)果

根據(jù)圖2所示的網(wǎng)絡(luò)結(jié)構(gòu)，在3.1節(jié)中的數(shù)據(jù)集上進行實驗，得到統(tǒng)計結(jié)果.

3.3.1 以GTA5數(shù)據(jù)集為源域的對比實驗

設(shè)定GTA5[17]為源域數(shù)據(jù)集,設(shè)定Cityscapes[19]為無標注目標域數(shù)據(jù)集.選擇VGG-16網(wǎng)絡(luò)作為本算法的基礎(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，將本方法與現(xiàn)有的其他領(lǐng)域自適應(yīng)語義分割方法[26-33]進行表1、表2所示的對比分析.

表1所示，本文方法與近期一些實現(xiàn)方法相比，分割精準度及平均交并比均有所提升.特別是交通標志或交通燈等占有數(shù)據(jù)量較小，易與背景類混淆，因而難以被正確地分割語義類別，利用本文提出的類別相關(guān)方法，其分割精準度得到有效提升.先前方法中，路燈類的平均分割精準度為19.4%，最高精準度[31]為30.3%，本文方法可以將其提高至33.4%；路標類在先前方法中的平均分割精準度為9.6%，最高精準度[28]為18.3%，而本文提出的方法將其提高至19.7%；同時，本文方法將車行道類別的分割精準度提高至87.3%，將植物草木類的分割精準度提高至83.2%.近年來，使用ResNet[23]的算法均取得較為理想的效果，本文采用其作為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型，繼續(xù)在GTA5[17]與Cityscapes[19]數(shù)據(jù)集上訓練本文提出的領(lǐng)域自適應(yīng)語義分割方法，并與直接在目標域上使用ResNet結(jié)構(gòu)的語義分割方法和使用VGG-16[22]作為基礎(chǔ)模型的本文方法進行對比實驗.

表2展示出3個方法在2個數(shù)據(jù)集上的實驗結(jié)果，其中，RES表示單獨使用ResNet對數(shù)據(jù)集進行特征提取與分割的結(jié)果，Ours-V表示使用VGG-16作為本文骨架網(wǎng)絡(luò)得到的實驗結(jié)果，Ours-R表示使用ResNet作為本文骨架網(wǎng)絡(luò)得到的實驗結(jié)果.相比其他2個方法，使用基于ResNet-101[23]結(jié)構(gòu)的本文方法，在具體語義類別及整體圖像的分割精準度上均有提升.例如，將交通標志類的平均分割精準度從20%提升至23.4%,將路燈類的平均分割精準度從32%提升至35.4%，繼而將圖像整體的分割平均交并比提升至43.7%.

Table 1 Comparison of Results with GTA5 as Source and Cityscapes as Target Domain表1 GTA5為源域、Cityscapes為目標域的實驗結(jié)果對比

Notes: The best results are in bold; Swal stands for Sidewalk, Buil stands for Building, Veg stands for Vegetation, Per stands for Person, and Moto stands for Motorbike.

Table 2 Comparison of Experimental Results with Baseline on ResNet and VGG-16表2 分別以ResNet和VGG-16為Baseline的實驗對比結(jié)果

Notes: Swal stands for Sidewalk, Buil stands for Building, Veg stands for Vegetation, Per stands for Person, and Moto stands for Motorbike.

圖5展示了本文提出的方法在以GTA5[17]為源域、Cityscapes[19]為目標域的分割結(jié)果.其中圖5(b)所示為直接對無標注數(shù)據(jù)集進行分割的結(jié)果，其中如車行道、汽車等語義類別已被識別，但與之相比，圖5(c)中展示的結(jié)果對于圖像中每個類別的分割邊緣，其中路標、信號燈以及人行道等語義類別的分割精準度均有顯著提升，且分割結(jié)果與圖5(d)所示的數(shù)據(jù)集給出的真實分割區(qū)域較為接近.

Fig. 5 An example of semantic segmentation results with GTA5 as source domain and Cityscapes as target domain圖5 以GTA5為源域、Cityscapes為目標域分割示例

3.3.2 以SYNTHIA數(shù)據(jù)集為源域的對比實驗

基于先前的模型及參數(shù)設(shè)置，以虛擬合成數(shù)據(jù)集SYNTHIA[18]為源域、以Cityscapes[19]數(shù)據(jù)集為目標域進行實驗.

表3所示，圖像整體的分割平均交并比被提升至43.6%，圖中汽車、車行道、人行道等語義類別的分割精準度也得到顯著提升.其中，車行道類的平均分割精準度在先前方法中的均值為66%，最高值[31]為79.9%，而本文方法可將其提升至84.4%；汽車類的分割精準度在先前方法中的均值為60.4%，最高值[29]為71.1%，本文方法可將其提升至73.6%.對于信號燈、路標以及公共汽車這3個語義類別，現(xiàn)有方法的分割精準度均值為4.9%,8.2%,12.4%，而本文方法可將其提升至12.6%,14.3%，21.4%.

Table 3 Comparison of Experimental Results with SYNTHIA as Source Domain and Cityscapes as Target Domain表3 以SYNTHIA數(shù)據(jù)集為源域、Cityscapes數(shù)據(jù)集為目標域的方法實驗結(jié)果對比

Notes: The best results are in bold; Swal stands for Sidewalk, Buil stands for Building, Veg stands for Vegetation, Per stands for Person, and Moto stands for Motorbike.

此外，基于不同源域數(shù)據(jù)集上的實驗結(jié)果也表明了本文所提方法的正確性、有效性和泛化性.

圖6展示了本文提出方法在以SYNTHIA[18]為源域、Cityscape[19]為目標域的分割結(jié)果.圖6(b)所示為未經(jīng)自適應(yīng)優(yōu)化的結(jié)果，觀察可見，圖像中汽車、道路等常見語義類別已經(jīng)可以被提取，但由于源域SYNTHIA是計算機合成的數(shù)據(jù)集，與目標域Cityscapes的真實交通圖像場景略有不同，因而目標域的分割結(jié)果中存在分割邊緣模糊和類別錯分等現(xiàn)象.圖6(c)所示為本文方法的實驗結(jié)果，經(jīng)過本文的方法處理，車輛、道路、交通信號燈以及行人等類別的分割結(jié)果與圖6(d)中所示的真實分割標注已經(jīng)非常接近，而路障、建筑以及人行道等類別也被有效識別及分割.

Fig. 6 An example of semantic segmentation results with SYNTHIA as source domain and Cityscapes as target domain圖6 以SYNTHIA為源域、Cityscapes為目標域分割示例

3.3.3 以MSCOCO數(shù)據(jù)集為源域的對比實驗

為了驗證本文方法的有效性和泛化性，設(shè)定MSCOCO[20]數(shù)據(jù)集中帶有精準語義標注的圖像數(shù)據(jù)為源域數(shù)據(jù)集,VOC 2012[21]數(shù)據(jù)集中針對分割任務(wù)的圖片為目標域數(shù)據(jù)集，與文獻[26-29]中的方法進行對比與驗證實驗.

表4所示，對于圖像整體，以及圖像中汽車、摩托車和行人等常見的交通語義類別，本文方法依然擁有較高的分割精準度.其中，汽車類在先前方法中的分割精準度均值約為53.8%，本文方法可將其提升至62.6%；摩托車類在先前方法中的分割精準度均值為42%，本文方法將其提升為43.4%；而先前方法中圖像分割的平均交并比值最高[29]為45.9%，本文提出的方法可達48.6%.

3.4 消融實驗

在3.3節(jié)中，經(jīng)過3組與先前方法的對比實驗，已驗證本文方法的有效性和泛化性；為了進一步驗證本文方法中每個步驟的可行性，本節(jié)對本文方法中具體的優(yōu)化階段進行消融實驗，驗證每個處理階段的正確性和必要性.

Table 4 Comparison of Results with MSCOCO as Source Domain and VOC 2012 as Target Domain

Notes: The best results are in bold; Moto stands for Motorbike, Per stands for Person, and TVmo stands for TV-monitor.

3.4.1 針對源域數(shù)據(jù)的消融實驗結(jié)果

如表5所示，Ours-BC表示直接使用骨架網(wǎng)絡(luò)的本文基礎(chǔ)方法在源域數(shù)據(jù)集上得到的實驗結(jié)果；Ours-PS表示單獨改進本文上采樣方法得到的實驗結(jié)果；Ours-FL表示單獨改進本文監(jiān)督學習方法的損失函數(shù)得到的實驗結(jié)果；Ours表示融合2個優(yōu)化方法在源域數(shù)據(jù)集上得到的實驗結(jié)果.針對2.2.1節(jié)中提出的基于監(jiān)督學習的源域數(shù)據(jù)分割優(yōu)化方法，經(jīng)本文消融實驗對比，在使用不同的基礎(chǔ)網(wǎng)絡(luò)的前提下，超分辨率重建和改進focal loss損失均可提升原分割結(jié)果約2%，本文方法中將其結(jié)合使用，可在源域數(shù)據(jù)集GTA5中提高整體分割精準度約4%.同時，在基礎(chǔ)網(wǎng)絡(luò)中，使用ResNet的分割結(jié)果優(yōu)于使用VGG-16得到的分割結(jié)果約2%.

Table 5 Ablation Study Results of Optimization Method with GTA5 as Source Domain

Notes: “√” indicates that the method described in the corresponding column is used for the experiment described in the current row.

3.4.2 針對目標域數(shù)據(jù)的消融實驗結(jié)果

針對本文2.2節(jié)中提出的優(yōu)化源域分割方法和使用類別相關(guān)信息進行數(shù)據(jù)對齊，在采用2種基礎(chǔ)網(wǎng)絡(luò)的前提下，消融實驗對比結(jié)果如表6所示.在表6中，Ours-BC表示直接使用骨架網(wǎng)絡(luò)的本文基礎(chǔ)方法在目標域數(shù)據(jù)集上得到的實驗結(jié)果；Ours-S表示單獨對源域訓練部分進行優(yōu)化在目標域上得到的實驗結(jié)果；Ours-C表示單獨利用類別相關(guān)信息，在改進目標域跨域方法時在目標域上得到的實驗結(jié)果；Ours表示使用本文完整方法得到的實驗結(jié)果.在進行領(lǐng)域自適應(yīng)的過程中經(jīng)過優(yōu)化源域分割方法，可提升目標域數(shù)據(jù)集Cityscapes的分割精準度約3%，使用類別信息可提升分割精準度約3%，本文在2.2.1節(jié)和2.2.2節(jié)中綜合考慮并實現(xiàn)2階段的優(yōu)化方法，將目標域的整體分割精準度提升約6%.

綜上，將本文提出的方法，在3個不同類型的源域數(shù)據(jù)集、2個不同類型的目標域數(shù)據(jù)集上進行驗證實驗.結(jié)果表明：分割的精準度在不同的語義類別上均有著較高的提升，證明了本文方法的有效性，同時，也證明了基于類別相關(guān)的領(lǐng)域自適應(yīng)語義分割方法擁有較強的泛化性，可以有效應(yīng)用于不同類型的數(shù)據(jù)集和圖像場景中.

Table 6 Results of Ablation Study with GTA5 as Source Domain and Cityscapes as Target Domain

Notes: “√” indicates that the method described in the corresponding column is used for the experiment described in the current row.

此外，經(jīng)過對源域數(shù)據(jù)集和目標域數(shù)據(jù)集的消融實驗驗證，本文方法中針對分割過程中每個階段提出的優(yōu)化方法均可有效提升實驗結(jié)果，并且，經(jīng)過本文方法的整體約束優(yōu)化，分割結(jié)果達到更高的精準度.

4 總結(jié)與展望

本文提出了一種基于類別相關(guān)的領(lǐng)域自適應(yīng)語義分割方法，用以解決數(shù)據(jù)集中類別分布不均及無標注數(shù)據(jù)集的語義分割問題.實驗結(jié)果表明：本文方法通過優(yōu)化上采樣方法、關(guān)注小樣本數(shù)據(jù)類別、調(diào)整領(lǐng)域自適應(yīng)階段、尋找結(jié)構(gòu)化信息以及在判別階段中采用基于類別相關(guān)的方法，可以有效提升源域數(shù)據(jù)集和目標域數(shù)據(jù)集中圖像的語義分割精準度，并且可以將領(lǐng)域自適應(yīng)的方法有效應(yīng)用到更大的范圍中.然而，本文提出的方法在針對行人等具有運動性且容易出現(xiàn)遮擋等問題的類別、分割精準度及邊緣清晰度等結(jié)果仍有一定提升空間，未來考慮引入行人重識別中的一些特征、屬性提取方法，以及根據(jù)已有數(shù)據(jù)集得到先驗約束對分割結(jié)果再次約束優(yōu)化等方法，對本文提出的方法進行更深層次的優(yōu)化.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于類別相關(guān)的領(lǐng)域自適應(yīng)交通圖像語義分割方法

1 研究現(xiàn)狀

1.1 語義分割

1.2 領(lǐng)域自適應(yīng)

2 一種基于類別相關(guān)的語義分割方法

2.1 方法綜述

2.2 方法設(shè)計

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

3.2 實驗環(huán)境、網(wǎng)絡(luò)設(shè)計及評價指標

3.3 實驗結(jié)果

3.4 消融實驗

4 總結(jié)與展望

3.2 實驗環(huán)境、網(wǎng)絡(luò)設(shè)計及評價指標