史健鋒,相 寧,王阿川
(東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,黑龍江 哈爾濱 150040)
基于語義分割的場景解析是計(jì)算機(jī)視覺的一個(gè)熱點(diǎn)問題,它對于自動駕駛、機(jī)器人傳感等實(shí)景任務(wù)具有廣泛的應(yīng)用[1]。場景解析要求提供對場景的完整理解,它預(yù)測整幅圖像中每個(gè)像素的標(biāo)簽、位置,對其所屬物體進(jìn)行分類和定位[2]。場景解析有兩大關(guān)鍵難點(diǎn):高分辨率的保持和高層語義信息的獲取。然而,這兩個(gè)需求與卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是相矛盾的:靠近輸入端的特征圖擁有高分辨率和高語義信息,但是缺少邊緣和細(xì)節(jié)信息;靠近輸出端的特征圖分辨率很低,丟失了語義信息,但是獲取到了大量的細(xì)節(jié)信息。因此,如何平衡這兩個(gè)難題,得到語義正確、細(xì)節(jié)豐富的場景解析算法,并降低其計(jì)算代價(jià),從而應(yīng)用于生產(chǎn)實(shí)踐,仍然需要研究者們不斷地探索。
目前最先進(jìn)的語義分割場景解析框架大多是基于chen等人提出的全卷積網(wǎng)絡(luò)(FCN)[3],去除了全連接層,通過反卷積恢復(fù)特征圖分辨率成功地將圖像分類網(wǎng)絡(luò)轉(zhuǎn)化為圖像分割網(wǎng)絡(luò)。自FCN之后,研究者們提出了一系列語義分割方法。Ronneberger等 人 提 出 了UNet[4],其利用一個(gè)與編碼結(jié)構(gòu)完全對稱的解碼結(jié)構(gòu)逐步恢復(fù)特征圖的分辨率,以進(jìn)行像素的稠密估計(jì)。Badri?narayanan等人[5]提出了SegNet,旨在解決自動駕駛或者智能機(jī)器人問題。Yu等人提出了空洞卷積[6],可以在不增加參數(shù)的情況下改變卷積核的感受野,其提出的DRNet(Dilated Residual Net?works)獲得了比普通ResNet[7]更好的結(jié)果。隨后空洞卷積被廣泛應(yīng)用于其他計(jì)算機(jī)視覺任務(wù)中。Chen等人利用創(chuàng)新性的空洞空間金字塔池化模塊(ASPP)和條件隨機(jī)場(CRF)提出了DeepLab網(wǎng)絡(luò)[8],取得了良好的效果。隨后他們又利用批歸一化層(BN)、深度可分離卷積、空洞可分離卷積等方法提出了精度更高的DeepLabV2、Deep?LabV3、DeepLabV3+系列版本[9-11],促進(jìn)了圖像語義分割的發(fā)展。
為了融合全局特征,Zhao等人[12]提出了金字塔場景解析網(wǎng)絡(luò)(PSPNet),其以ResNet作 為 特征提取主干,輔以深度監(jiān)督損失的優(yōu)化策略,并將像素級特征擴(kuò)展到特別設(shè)計(jì)的全局金字塔匯集特征,使得最終預(yù)測更加可靠,取得了當(dāng)時(shí)多個(gè)數(shù)據(jù)集的最佳結(jié)果。2019年,Sun等人[13]為了解決人體姿態(tài)估計(jì)任務(wù)提出了高分辨率網(wǎng)絡(luò)(HRNet),其以一個(gè)高分辨率子網(wǎng)作為第一個(gè)階段,逐漸增加高分辨率到低分辨率的子網(wǎng)以形成更多的階段,多個(gè)階段的子網(wǎng)并行連接。隨后他們將HRNet應(yīng)用于語義分割任務(wù),利用上采樣方式融合了4條并行通路上的特征圖信息,獲得了優(yōu)秀的分割結(jié)果。
本文從場景解析任務(wù)的兩大難題出發(fā),借鑒以往研究,提出了整體性能良好的高分辨率場景解析網(wǎng)絡(luò)(HRSPNet)。首先,選擇HRNet作為基干特征提取網(wǎng)絡(luò),利用其并行通路保持4級分辨率,提取不同層次的語義信息和物體細(xì)節(jié)信息。利用3級空洞率的空洞可分離卷積改進(jìn)網(wǎng)絡(luò)中的殘差模塊,在減少參數(shù)數(shù)量的同時(shí)提升模型分割多尺度目標(biāo)的能力,進(jìn)一步獲取豐富的細(xì)節(jié)信息。其次,將輸出的4級分辨率的特征圖使用類似FPN網(wǎng)絡(luò)圖像金字塔的方式逐級鏈接[14],充分融合各自的信息。最后,利用改進(jìn)的金字塔池化模塊來匯集特征,其中不同尺寸的平均池化層可以融合不同范圍的上下文信息,進(jìn)一步補(bǔ)充語義信息從而提高分類準(zhǔn)確率。
目前語義分割使用的深度學(xué)習(xí)方法大多是基于FCN的網(wǎng)絡(luò)結(jié)構(gòu),使用去除了全連接層的圖像分類網(wǎng)絡(luò)提取特征,利用一種或多種上采樣方法恢復(fù)特征圖的分辨率,如反卷積和反池化等,以獲得預(yù)測結(jié)果。例如FCN最初使用的基干網(wǎng)絡(luò)便是VGG,PSPNet和DeepLabV3使用的是ResNet。
ImageNet大規(guī)模視覺識別挑戰(zhàn)賽歷年的冠亞軍網(wǎng)絡(luò)均被廣泛地作為特征提取網(wǎng)絡(luò)使用,在各個(gè)領(lǐng)域取得了豐富的成果,如AlexNet[15]、VGG[16]、ResNet[7]等。這些網(wǎng)絡(luò)有一個(gè)共同的特點(diǎn),即均是線性結(jié)構(gòu)的網(wǎng)絡(luò)。這些網(wǎng)絡(luò)被應(yīng)用于語義分割時(shí),去除了全連接層,此時(shí)的中間結(jié)果為多次下采樣之后得到的多通道、低分辨率的特征圖,因此需要使用上采樣以恢復(fù)至原圖像大小得到語義分割的預(yù)測結(jié)果。在恢復(fù)分辨率的過程中,難免會丟失大量的信息,使最后獲得的預(yù)測結(jié)果不夠細(xì)膩。
不同于目前流行的串行連接的網(wǎng)絡(luò),Sun等人提出的HRNet[13]是一種全新的并行體系結(jié)構(gòu)。HRNet通過多個(gè)階段不斷地相互融合,全程保持分辨率,避免了下采樣帶來的信息丟失問題。這樣的并行網(wǎng)絡(luò)有兩個(gè)優(yōu)點(diǎn):(1)并行結(jié)構(gòu)能夠保持特征圖分辨率,而不是通過從低到高的過程恢復(fù)分辨率,因此預(yù)測的熱圖在空間上更加精確。(2)并行結(jié)構(gòu)在相同深度和相似級別的低分辨率的特征表示的幫助下,執(zhí)行重復(fù)的多尺度融合來增強(qiáng)高分辨率的特征表示。將HRNet應(yīng)用于語義分割任務(wù)中的V2版本在未添加額外的模塊且經(jīng)過簡單上采樣的情況下便取得了良好的性能和預(yù)測精度[17]。HRNet的并行結(jié)構(gòu)如圖1所示。基于以上分析,本文選擇使用HRNet作為基礎(chǔ)的特征提取網(wǎng)絡(luò)。
圖1 高分辨率網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Schematic diagram of high resolution network structure
2.2.1殘差模塊的改進(jìn)
HRNet的特性使得模型具有很多優(yōu)點(diǎn),但是多個(gè)階段之間大量重復(fù)的相互融合會產(chǎn)生數(shù)倍的計(jì)算復(fù)雜度和參數(shù)量,密集的特征融合也會計(jì)算大量冗余和相同的信息。因此本文選擇使用空洞可分離卷積改進(jìn)網(wǎng)絡(luò)中大量使用的殘差模塊,在減少參數(shù)的同時(shí)提高模型性能。改進(jìn)前后的殘差模塊如圖2所示。
圖2 改進(jìn)前后殘差模塊示意圖Fig.2 Schematic diagram of residual block before and after improvement
空洞可分離卷積使用了空洞卷積的深度可分離卷積,曾在DeepLabV3+中取得了良好的效果。常規(guī)卷積是通過控制卷積核的數(shù)量來控制輸出通道的數(shù)量,而深度可分離卷積是先將輸入張量的每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算,然后使用1×1卷積改變通道數(shù)量。在輸入和輸出的張量不變的情況下,深度可分離卷積能減少幾倍甚至幾十倍的參數(shù)數(shù)量。對于一般大小的網(wǎng)絡(luò)結(jié)構(gòu)而言,大量使用深度可分離卷積會降低模型性能。不過對于擁有上百層結(jié)構(gòu)的HRNet來說,我們在CityScapes等數(shù)據(jù)集上通過多次實(shí)驗(yàn)并取平均結(jié)果的方式,均以1/4的參數(shù)數(shù)量實(shí)現(xiàn)了相同級別的分割效果。
2.2.2空洞可分離卷積疊加結(jié)構(gòu)
在場景解析任務(wù)中,對于數(shù)量不均衡的多尺度物體的分割是很困難的。HRNet擁有不同的階段并全程保持了4種不同的分辨率,在一定程度上提高了多尺度目標(biāo)分割能力。為了進(jìn)一步增強(qiáng)模型對于各種大小物體的分割能力,將空洞卷積引入深度可分離卷積中,即空洞可分離卷積??斩淳矸e可以在不增加參數(shù)數(shù)量的基礎(chǔ)上成倍擴(kuò)大感受野,利用不同的空洞率調(diào)整感受野的大小。然而空洞卷積存在網(wǎng)格問題:在卷積核之間填充0值會使卷積過于稀疏,導(dǎo)致感受野僅能覆蓋類似網(wǎng)格圖案的區(qū)域,大量信息沒有參與計(jì)算,在疊加使用多個(gè)不適合空洞率的空洞卷積時(shí)網(wǎng)格問題更加嚴(yán)重。出現(xiàn)的網(wǎng)格問題如圖3所示。
圖3 網(wǎng)格問題示意圖Fig.3 Schematic diagram of gridding issue
因此不能簡單地使用空洞可分離卷積。為了減輕網(wǎng)格問題的影響,我們選擇使用Wang等人[18]設(shè)計(jì)的混合空洞卷積框架以減輕疊加使用空洞卷積時(shí)產(chǎn)生的網(wǎng)格問題,擴(kuò)大接收野以聚合全局信息,設(shè)計(jì)了一個(gè)空洞率為1,2,3的空洞可分離卷積按順序循環(huán)疊加的模型結(jié)構(gòu)。
過去的研究者們已經(jīng)證明了融合不同尺度的特征是提高性能的重要手段。其在網(wǎng)絡(luò)的低層分辨率更高,包含了更多的空間和位置信息;在網(wǎng)絡(luò)的高層分辨率低,語義信息更強(qiáng),對細(xì)節(jié)感知較差。因此如何高效地融合二者,一直都是計(jì)算機(jī)視覺領(lǐng)域的重點(diǎn)之一。
一般來說,按照特征融合與預(yù)測的先后順序,特征融合可分為早融合和晚融合。前者使用跳躍鏈接等操作,在使用融合后的特征繼續(xù)訓(xùn)練模型,例如FCN等;后者結(jié)合不同層的分割結(jié)果以改進(jìn)分割性能,例如UNet等。本文使用的基干網(wǎng)絡(luò)HRNet的方法最初是用于人體姿態(tài)估計(jì),后來也被用于圖像分類、檢測、分割等計(jì)算機(jī)視覺任務(wù)。本文針對這3種問題對基干HRNet輸出的4種分辨率的特征圖設(shè)計(jì)了3種后融合方式,對于語義分割問題使用的融合結(jié)構(gòu)如圖4所示,并將使用這種融合方式的HRNet命名為HRNetV2。
圖4 高分辨率網(wǎng)絡(luò)針對語義分割問題的融合方式Fig.4 Fusion method for semantic segmentation in highresolution networks
HRNet中多個(gè)階段的特征提取已經(jīng)反復(fù)地使用了跳躍鏈接、特征相加等方式進(jìn)行特征融合,充分學(xué)習(xí)到了多維度的特征,但是對于其原本簡單的后融合階段,我們認(rèn)為還有繼續(xù)改進(jìn)的空間。因此,我們重新構(gòu)建了HRNetV2后融合機(jī)制:由尺寸最小的下采樣32倍的特征圖開始,逐級上采樣進(jìn)行了3次連接并使用1×1卷積調(diào)整通道數(shù)量,最后再對得到的4組特征圖進(jìn)行連接。
很多物體擁有相似的細(xì)節(jié)特征,缺乏收集上下文信息的能力,增加了錯(cuò)誤分類的機(jī)會。上下文關(guān)系對于復(fù)雜的場景理解尤其重要。
以往有一些方法,例如條件隨機(jī)場(CRF)等,用以計(jì)算像素間關(guān)系,補(bǔ)充上下文信息,優(yōu)化分割結(jié)果。但是這類方法存在兩點(diǎn)不足:一是概率圖模型用于計(jì)算大量像素與像素的關(guān)系,其計(jì)算量過于龐大;二是分步驟的處理模式增加了額外的開銷,在實(shí)際應(yīng)用中應(yīng)盡量通過端到端的方式縮減后續(xù)處理,盡可能使模型從原始輸入到最終輸出。基于以上分析,我們選擇添加金字塔池化模塊補(bǔ)充全局和局部上下文信息以提升模型性能。
金字塔池化模塊最早是在PSPNet中提出的。它融合了4種不同金字塔比例下的特征,其4個(gè)級別池化后的特征圖尺寸分別是1×1,2×2,3×3,6×6,然后通過1×1卷積將維數(shù)縮減到1/4,使用上采樣恢復(fù)至相同分辨率進(jìn)行連接得到最終的金字塔池化全局特征,其結(jié)構(gòu)如圖5所示。
圖5 金字塔場景解析網(wǎng)絡(luò)中的金字塔池化模塊結(jié)構(gòu)圖Fig.5 Pyramid pooling module structure in pyramid scene parsing network
不同于PSPNet最后使用的ResNet輸出的1/8原圖像大小的特征圖,本文方法在經(jīng)過逐級上采樣之后輸出的是1/4原圖像大小的特征圖。因此在一定程度上,重構(gòu)了常規(guī)的金字塔池化模塊:將池化核大小分別設(shè)置為輸入特征圖大小的1/8,1/16,1/32,1/64四個(gè)級別,形成倍數(shù)比例的金字塔池化模塊,使對于不同尺寸的輸入圖像處理更加靈活。在本文使用的尺寸為512×512圖像的輸入下,4個(gè)級別的尺寸分別為8×8,16×16,32×32,64×64。對于不同大小的輸入,4個(gè)級別的尺寸會有所不同。改進(jìn)后的金字塔池化模塊更加細(xì)膩且靈活,對于大尺寸的圖像也能夠較好地計(jì)算全局信息。
綜上所述,高分辨率場景解析網(wǎng)絡(luò)(HRSPNet)模型結(jié)構(gòu)示意圖如圖6所示。網(wǎng)絡(luò)主要由3部分組成:(1)添加了空洞率分級的空洞可分離卷積的高分辨率網(wǎng)絡(luò);(2)多階段融合的上采樣結(jié)構(gòu),得到一組特征圖,其有不同尺度的語義信息;(3)使用改變了池化層尺寸的金字塔池化模塊聚合信息,使網(wǎng)絡(luò)對于不同尺寸的圖像處理更加靈活。
圖6 高分辨率場景解析網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖Fig.6 Structure diagram of high resolution scene parsing network
本文使用CityScapes[19]和Camvid[20]公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。前者記錄了歐洲50多個(gè)城市的城市景觀,擁有30個(gè)類別,5 000張精標(biāo)注圖像。后者是劍橋大學(xué)自動駕駛數(shù)據(jù)集,擁有32個(gè)類別,701張圖像。
本文主要使用平均交并比MIOU來評價(jià)HRSPNet的分割效果,使用像素精度和模型參數(shù)大小來綜合驗(yàn)證模型的優(yōu)勢。平均交并比的計(jì)算公式如式(1)所示:
其中k代表物體類別數(shù)量,k+1為物體加背景的類別數(shù),pij表示實(shí)際類別為i類且預(yù)測為j類的像素?cái)?shù)目。
實(shí)驗(yàn)基于英特爾i5-10400F CPU,NVIDIA GeForce RTX 2070SUPER 8 GB顯卡,編程語言為python,使用tensorflow和keras進(jìn)行實(shí)驗(yàn)。對于數(shù)據(jù)增強(qiáng),所有數(shù)據(jù)集采用0.5~2之間的隨機(jī)鏡像和隨機(jī)調(diào)整大小,并在-15°~15°之間添加隨機(jī)旋轉(zhuǎn),對數(shù)據(jù)集添加隨機(jī)高斯模糊。這種全面的數(shù)據(jù)增強(qiáng)方案使網(wǎng)絡(luò)能夠抵抗過擬合,并且在一定程度上提高了精度。在實(shí)驗(yàn)過程中,批歸一化是十分有效的手段,提升批次大小可以產(chǎn)生良好的性能。由于顯卡的物理內(nèi)存有限,因此將經(jīng)過數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)切割為512×512大小,并在訓(xùn)練時(shí)將批尺寸(Batchsize)設(shè)置為4。
模型使用交叉熵?fù)p失函數(shù)和可以自適應(yīng)學(xué)習(xí)率并加以約束的adam優(yōu)化器。由于使用的數(shù)據(jù)集類別較多,且各類別像素分布不均衡,我們調(diào)整了各類別在損失函數(shù)上的權(quán)重,使得數(shù)量少的類別可以更加準(zhǔn)確地預(yù)測。
為了評估HRSPNet,本文在CityScapes數(shù)據(jù)集設(shè)置了大量對比實(shí)驗(yàn),并展示了Camvid數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果?;€網(wǎng)絡(luò)為HRNetV2-w48,下面將簡寫為HRNetV2。實(shí)驗(yàn)包括空洞可分離卷積和HDC結(jié)合帶來的影響、使用多級融合特征的作用、添加PPM的效果等多個(gè)方面。
如表1所示,使用任何深度可分離卷積均可減少大量的模型參數(shù),可是未使用空洞卷積或者使用固定空洞率的空洞卷積大量減少參數(shù)時(shí),會對模型精度造成影響,后者還可能發(fā)生嚴(yán)重的網(wǎng)格效應(yīng)。在所有設(shè)置中,整體使用以HDC方式組合的空洞可分離卷積可以獲得最佳的性能。我們將以HRNetV2-3代表此模型,并在此基礎(chǔ)上進(jìn)行后續(xù)實(shí)驗(yàn)。
表1 使用可分離卷積對參數(shù)數(shù)量和平均交并比的影響Tab.1 Influence of using separable convolution on the number of parameters and MIOU
本文在HRNetV2-3的基礎(chǔ)上添加了金字塔池化模塊,進(jìn)一步改善了模型的分割效果。借鑒PSPNet的實(shí)驗(yàn)過程,平均池化比最大池化效果更好,經(jīng)過池化之后利用1×1卷積改變通道數(shù)量也會獲得不同的結(jié)果。表2展示了上述實(shí)驗(yàn),其中MAX表示最大池化,AVE表示平均池化,隨后的數(shù)字表示池化后的通道數(shù)量。
表2 金字塔池化模塊對準(zhǔn)確率和平均交并比的影響Tab.2 Influence of pyramid pooling module on accuracy and MIOU
原始的HRNetV2-w48通過直接連接4種尺寸的特征圖,后接上采樣的方式得到最終的語義分割結(jié)果。本文將逐級融合后輸出的1/4原圖像大小的特征圖通過PPM取得了最高性能,如表3所示,得到了高分辨率場景解析網(wǎng)絡(luò)HRSPNet。
表3 逐級特征融合方式的影響Tab.3 Influence of level by level feature fusion method
為了驗(yàn)證本文提出的HRSPNet的實(shí)際效果,選擇與當(dāng)前主流語義分割算法(FCN-2S、BlitzNet、PSPNet、DeepLabv3、HRNetV2-w48)進(jìn)行對比實(shí)驗(yàn)。不同模型對于CityScapes的參數(shù)數(shù)量、平均交并比如表4所示,驗(yàn)證了本文方法的優(yōu)勢。
表4 不同模型的參數(shù)數(shù)量和平均交并比Tab.4 Number of parameters and the MIOU of different models
本文方法在CityScapes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖7所示,在Camvid數(shù)據(jù)集上的效果如圖8所示。
圖7 CityScapes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results on Cityscapes dataset
圖8 Camvid數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.8 Experimental results on Camvid dataset
實(shí)驗(yàn)表明:數(shù)據(jù)增強(qiáng)和預(yù)訓(xùn)練均可以加速訓(xùn)練,提升性能;可分離卷積可以大量減少模型參數(shù),并且對于復(fù)雜網(wǎng)絡(luò)模型來說,一般不會顯著降低精度;目前深度學(xué)習(xí)的特征提取網(wǎng)絡(luò)能力已經(jīng)十分強(qiáng)大,這一點(diǎn)在圖像分類領(lǐng)域已經(jīng)證實(shí),但是上采樣的結(jié)構(gòu)和方法仍有許多不足;金字塔池化模塊可以顯著改進(jìn)網(wǎng)絡(luò)性能,可以改善分割結(jié)果包含噪點(diǎn)的模型,在使用時(shí),可以根據(jù)任務(wù)和任務(wù)量的不同,調(diào)整池化層的大小、池化層的類型等。
由于實(shí)驗(yàn)設(shè)備顯存不足的原因,使用了過小的批次大小,在一定程度上會影響訓(xùn)練過程和精度。批歸一化層文獻(xiàn)中給出的批次大小的一般性下限為32,實(shí)驗(yàn)表明,在可以增加顯卡數(shù)量或者顯存容量的條件下,本文模型的性能還可以繼續(xù)提升。
本文方法在CityScapes數(shù)據(jù)集上一些失敗的實(shí)驗(yàn)結(jié)果如圖9所示。盡管相比于其他主流方法,HRSPNet在整體精度、參數(shù)數(shù)量上均有一定優(yōu)勢,可仍然存在一些分類失敗等問題。
圖9 失敗案例Fig.9 Result of failure on Cityscapes dataset
通過觀察、實(shí)驗(yàn),我們認(rèn)為失敗主要有3點(diǎn)原因:(1)原始數(shù)據(jù)集圖像分辨率為2 048×1 024像素,可以較為清楚地分辨物體細(xì)節(jié)。由于實(shí)驗(yàn)設(shè)備顯存不足,我們將原圖像使用線性插值將尺寸調(diào)整為512×512像素,數(shù)據(jù)量減少至1/8,即小于8像素的物體細(xì)節(jié)被大量舍去。原圖像中分類明確的部分,在真實(shí)實(shí)驗(yàn)中語義可能變得模棱兩可,增加了失敗的可能性。例如圖9中的第一張圖片,圈中的自行車已經(jīng)降維到肉眼難以分辨的程度,其特征接近消失,本文算法對其分割失敗。(2)不同的數(shù)據(jù)集,其對于標(biāo)注的處理是不同的,例如在Pascal Voc2012數(shù)據(jù)集中,海報(bào)中的人、動物會被標(biāo)注為相應(yīng)的類別,而不是海報(bào)標(biāo)簽。在本文使用的CityScapes數(shù)據(jù)集中,卻與此相反。例如圖9中的第二張圖片,紅框中的人行道的下半部分已經(jīng)損壞,失去了原有的絕大多數(shù)特征,即便使用金字塔池化模塊補(bǔ)充局部的語義信息,也難以將其分類為正確的類別。加上此處類似的照片較少,無法訓(xùn)練充分,造成了解析失敗。(3)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)主要由卷積核來記錄特征參數(shù),這使得其處理圖像分類問題取得了超越人類的正確率。但是我們認(rèn)為這種結(jié)構(gòu)缺少存儲知識的能力。人類識別環(huán)境并不僅是依靠物體的特征與形狀,更是通過物質(zhì)的本身抽象出來共性。這就導(dǎo)致對于不同國家地區(qū)的建筑、汽車等,卷積網(wǎng)絡(luò)在未經(jīng)過相應(yīng)數(shù)據(jù)集訓(xùn)練時(shí),無法做到準(zhǔn)確分類,而人類對于從未見過的風(fēng)格的建筑物,仍可以做到識別。即便使用目前的補(bǔ)充全局、局部上下文信息的方法,本質(zhì)上也是利用了訓(xùn)練數(shù)據(jù)中不同位置像素的位置關(guān)系,進(jìn)而增加準(zhǔn)確率。因此,對于圖9中的第三張圖片中生長了草坪的路臺,本文方法將其分類為植物。一是由于其特征和植物幾乎完全一樣,二是由于其與公路的相對位置與一般植物、樹木基本類似,金字塔池化模塊補(bǔ)充的全局信息仍未將其分類正確。
盡管本文方法以較少的參數(shù)數(shù)量實(shí)現(xiàn)了較高的精度,但仍然存在一定的問題:(1)并行通路會同時(shí)保留大量特征圖,使用大量顯存,難以達(dá)成訓(xùn)練速度和訓(xùn)練精度的平衡;(2)通過金字塔池化模塊補(bǔ)充全局、局部上下文信息,在相當(dāng)程度上提升了分類準(zhǔn)確率,尤其減少了物體內(nèi)部一部分分類錯(cuò)誤的可能性,但是由于池化操作的存在,也相應(yīng)增加了將包含在大物體中的小物體錯(cuò)判為大物體一部分的可能性。
未來的研究將專注于解決這兩個(gè)問題:(1)優(yōu)化主干網(wǎng)絡(luò)結(jié)構(gòu),降低顯存的實(shí)時(shí)消耗,以使用更高分辨率的輸入數(shù)據(jù)、增大批尺寸(Batchsize)的大小;(2)通過額外的信息輸入方式,改善當(dāng)前根據(jù)特征分類、利用數(shù)據(jù)集中的上下文信息提高準(zhǔn)確率兩種方式的不足之處。進(jìn)而實(shí)現(xiàn)更加準(zhǔn)確、高效、低耗的場景解析方法。
為了能夠更好地對復(fù)雜環(huán)境進(jìn)行分割和場景解析,本文利用分級的空洞可分離卷積和金字塔池化模塊提出了高分辨率場景解析網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果證明了結(jié)合空洞卷積和深度可分離卷積的空洞可分離卷積在多尺度目標(biāo)分割和參數(shù)數(shù)量上的優(yōu)勢。此外,使用了金字塔池化模塊的高分辨率網(wǎng)絡(luò)可以得到良好的性能,在城市景觀數(shù)據(jù)集(CityScapes)上僅以16.4Mbit的參數(shù)數(shù)量實(shí)現(xiàn)了83.3% MIOU的精度,在Camvid數(shù)據(jù)集也取得了良好的效果,實(shí)現(xiàn)了更加可靠、準(zhǔn)確、低計(jì)算量的基于語義分割的場景解析方法。