王改華, 翟乾宇, 曹清程, 甘 鑫
(1.湖北工業(yè)大學(xué) 電氣與電子工程學(xué)院, 湖北 武漢 430068; 2.湖北工業(yè)大學(xué) 太陽能高效利用協(xié)同創(chuàng)新中心, 湖北 武漢 430068)
語義分割是計(jì)算機(jī)視覺中最基礎(chǔ)的任務(wù),其目標(biāo)是解析圖像中每個(gè)像素的類別,并以不同的顏色標(biāo)記.語義分割可以廣泛應(yīng)用于自動(dòng)駕駛[1]、醫(yī)療圖像診斷[2]、遙感圖像分析[3]等領(lǐng)域.
早期,研究者采用邊緣檢測(cè)[4]的方法,希望通過觀察相鄰像素的依賴關(guān)系來分割圖像,但是在大數(shù)據(jù)集上并沒有取得較好的效果.近年來, FCN[5](Fully Convolutional Neural Network)的出現(xiàn)開創(chuàng)了使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行分割的先河.但是由于卷積算子和網(wǎng)絡(luò)結(jié)構(gòu)的局限性,其分割效果并不理想.為了解決這些問題,不同的研究者提出了不同的解決方案.這些方法包括:
(1)融合多尺度的空間信息方法.例如:PSPNet[6],DeepLab系列[7,8],LedNet[9]等網(wǎng)絡(luò),利用不同尺度的池化層或空洞卷積構(gòu)成空間池化金字塔獲得不同尺度的上下文信息.
(2)增加注意力機(jī)制的方法.例如: DFNet[10],EncNet[11]等網(wǎng)絡(luò)受SENet[12]啟發(fā),通過給網(wǎng)絡(luò)的每個(gè)通道增加自適應(yīng)的權(quán)值來使網(wǎng)絡(luò)更加關(guān)注通道維度的信息.DANet[13],TANet[14]通過并行的位置和通道注意力模塊,自動(dòng)提取位置和通道維度的信息,希望解決網(wǎng)絡(luò)長(zhǎng)期依存問題.
(3)對(duì)稱的編碼-解碼的方法.如U-Net[15],SegNet[16],ENet[17]和LSPNet[18],通過對(duì)稱的建模來引入更多低維信息彌補(bǔ)下采樣過程中帶來的位置信息的丟失.
(4)在監(jiān)督上下文學(xué)習(xí)方面,CPNet提出了Affinity Loss[19],選擇性地捕獲類內(nèi)和類間上下文相關(guān)性.
這些方法在一定程度上能夠有效聚合更多上下文信息,提高分割精度.但在推理速度和訓(xùn)練上需要耗費(fèi)大量時(shí)間,無法部署在移動(dòng)端設(shè)備上.同時(shí),忽略了非常重要的一點(diǎn),即如何讓網(wǎng)絡(luò)通過學(xué)習(xí)自動(dòng)區(qū)分不同類別之間的聯(lián)系,而這正是決定語義分割效果的關(guān)鍵.如圖1所示,如果忽略不同類別像素點(diǎn)之間的關(guān)系,就很容易出現(xiàn)紅框中將“人”錯(cuò)分為“馬”的情況.
圖1 語義分割示意圖
為了降低網(wǎng)絡(luò)的復(fù)雜度,減少網(wǎng)絡(luò)的推理時(shí)間,本文提出一種輕量級(jí)的語義分割網(wǎng)絡(luò),稱為MPNet(Mobile-Pyramid Net).它最大程度的平衡了分割精度和推理速度之間的關(guān)系,較低的參數(shù)量使其應(yīng)用在移動(dòng)端成為可能.本文的主要貢獻(xiàn)如下:
(1)為了實(shí)現(xiàn)對(duì)圖像的快速分割,放棄使用ResNet50[20]作為主干網(wǎng)絡(luò),使用特征提取更加高效的MobileNet v2[21]作為主干網(wǎng)絡(luò)(參數(shù)量只有同層級(jí)ResNet50[20]的十分之一),并利用空洞卷積來幫助網(wǎng)絡(luò)獲得更大的感受野.
(2)引入一個(gè)新的條形位置注意力模塊來捕獲上下文信息,并利用條形池化來降低計(jì)算成本.
(3)提出一種新的損失函數(shù),以類內(nèi)與類間關(guān)系進(jìn)行建模,讓網(wǎng)絡(luò)自動(dòng)區(qū)分不同像素點(diǎn)之間的關(guān)系,監(jiān)督網(wǎng)絡(luò)進(jìn)行準(zhǔn)確分割.
MobileNets是一個(gè)專注于移動(dòng)端或嵌入式設(shè)備中的輕量級(jí)CNN(Convolutional Neural Network),它在保持模型性能的前提下盡可能減少模型參數(shù)量.通過將傳統(tǒng)卷積替換為深度可分離卷積(如圖2所示),可將參數(shù)量降為普通卷積的九分之一.深度可分離卷積雖然可以降低參數(shù)量,但也會(huì)導(dǎo)致特征損失.Google公司在MobileNet的基礎(chǔ)上提出了 v2[21]和v3[22]版本,有效的解決了這一問題.通過1x1卷積對(duì)通道進(jìn)行升維,然后進(jìn)行3x3的深度離卷積提取特征,最后再通過1x1卷積進(jìn)行降維構(gòu)成倒殘差結(jié)構(gòu).
圖2 深度可分離卷積示意圖
這樣巧妙利用1x1卷積調(diào)整通道數(shù),即彌補(bǔ)了深度可分離卷積造成特征提取的不足,又降低了參數(shù).對(duì)于深度網(wǎng)絡(luò)梯度消失問題,MobileNet v2[21]通過加入Shortcut(殘差連接)使其有效緩解.按一定規(guī)律將倒殘差結(jié)構(gòu)進(jìn)行堆疊得到的MobileNet v2[21]與ResNet50[20]在ImageNet圖像分類上數(shù)據(jù)集上取得了近似的結(jié)果.
注意力機(jī)制 是對(duì)重要的特征賦予更大的權(quán)重,使網(wǎng)絡(luò)通過學(xué)習(xí)更加關(guān)注這些特征.注意力機(jī)制能夠有效解決卷積神經(jīng)網(wǎng)絡(luò)存在的長(zhǎng)期依存問題,使網(wǎng)絡(luò)獲得豐富的全局信息.2017年,Jie Hu團(tuán)隊(duì)[12]將注意力機(jī)制運(yùn)用到卷積神經(jīng)網(wǎng)絡(luò)中,提出SE模塊,通過全局平均池化和兩層神經(jīng)網(wǎng)絡(luò)來自適應(yīng)的使網(wǎng)絡(luò)關(guān)注通道的信息.同年,Wang等[23]提出Non-Local模塊,它對(duì)特征圖中每個(gè)位置進(jìn)行加權(quán)求和來捕獲像素點(diǎn)之間的關(guān)系,使得網(wǎng)絡(luò)能夠?qū)θ中畔⑦M(jìn)行建模.雖然Non-Local能夠有效解決長(zhǎng)期依存問題,但計(jì)算成本十分高昂,Huang等[24]通過兩個(gè)重復(fù)的CC模塊降低了捕獲全局信息所需的計(jì)算量.DANet[13]和DRANet[25]利用通道注意力模塊和位置注意力模塊來對(duì)通道和位置進(jìn)行建模,使網(wǎng)絡(luò)能夠更加全面的捕獲全局信息.
建議的網(wǎng)絡(luò)總體結(jié)構(gòu)如圖3所示,主要在三個(gè)方面進(jìn)行了改進(jìn).首先,以MobileNet v2[21]作為特征提取網(wǎng)絡(luò),對(duì)輸入圖像進(jìn)行特征提取,并以空洞卷積代替普通卷積來獲得更大的感受野.其次,采取了計(jì)算簡(jiǎn)單,參數(shù)相對(duì)較少的金字塔模塊來捕獲上下文信息同時(shí),以SPA(Strip Position Attention)模塊對(duì)全局信息進(jìn)行建模,整合位置信息,彌補(bǔ)下采樣過程中位置信息的丟失.最后,通過輔助損失函數(shù)來監(jiān)督整個(gè)網(wǎng)絡(luò),保證網(wǎng)絡(luò)能夠通過學(xué)習(xí)自動(dòng)區(qū)分不同類別之間的關(guān)系.
在CNN中,卷積核的尺寸越大,網(wǎng)絡(luò)獲得的感受野就越大,分割的結(jié)果就越精確.但是,更大卷積核會(huì)帶來更多參數(shù)量,造成網(wǎng)絡(luò)體積龐大且難以訓(xùn)練.空洞卷積的出現(xiàn)很好的解決了這一問題,它能在不增加參數(shù)量的情況下擴(kuò)大網(wǎng)絡(luò)的感受野.原始網(wǎng)絡(luò)與修改后網(wǎng)絡(luò)對(duì)比如表1所示.
表1 主干網(wǎng)絡(luò)修改結(jié)果
對(duì)于主干網(wǎng)絡(luò)MobileNet v2[21],將最后的Bottleneck5,Bottleneck6模塊的步長(zhǎng)修改為1,同時(shí)使用空洞率為2和4的空洞卷積來提取特征,使最后輸出特征圖的大小變?yōu)檩斎氤叽绲?/8.這樣能讓網(wǎng)絡(luò)保留更多的細(xì)節(jié)信息的同時(shí)獲取更大的感受野.
由于使用MobileNet v2[21]作為主干網(wǎng)絡(luò),勢(shì)必會(huì)帶來特征提取能力的不足,為了緩解這個(gè)問題,提出了一種新的條形位置注意力模塊來增強(qiáng)網(wǎng)絡(luò)捕獲上下文信息的能力,如圖4所示.
圖4 條形位置注意力模塊示意圖
SPA模塊主要分為三個(gè)部分,依次為水平和垂直信息提取分支及特征融合部分.假設(shè)通過池化金字塔模塊后局部特征圖F的尺寸為B×C×H×W,其中B為batch數(shù),C為通道數(shù),H、W分別是特征圖的高和寬.首先,對(duì)輸入特征圖F進(jìn)行1×W的條形平均池化,然后通過BN,ReLu做歸一化和激活處理,得到尺寸為B×C×1×W的行向量Q,Q向量的每一點(diǎn)融合了原始特征圖每一行的信息,然后對(duì)其進(jìn)行1x3的條形卷積,獲得行向量Q′.同理,對(duì)輸入特征圖F進(jìn)行H×1的條形平均池化,BN,ReLu激活,得到尺寸為B×C×W×1的列向量K,K向量的每一點(diǎn)融合了原始特征圖中每一列的所有信息,然后對(duì)其進(jìn)行3×1的條形卷積獲得列向量K′最后,將K′與Q′進(jìn)行矩陣乘法,并通過softmax激活函數(shù)獲得每個(gè)位置的分?jǐn)?shù),得到B×C×H×W的注意力矩陣.注意力矩陣中的每一個(gè)像素點(diǎn),都是輸入特征圖中某一行像素的平均值與某列像素平均值的乘積,表征特征圖中的局部信息.如第i行第j列的像素點(diǎn)表征輸入特征圖的i行j列的所有信息,將所有像素點(diǎn)組合起來就能獲得上下文信息.
在得到注意力矩陣之后,與原始輸入的特征圖依據(jù)注意力矩陣的分?jǐn)?shù)進(jìn)行特征融合,使網(wǎng)絡(luò)獲得更加豐富的上下文信息.值得注意的是,在實(shí)驗(yàn)過程中,發(fā)現(xiàn)將特征矩陣與輸入特征圖做加法的結(jié)果要好于它們之間做元素相乘.
為了進(jìn)一步提升網(wǎng)絡(luò)的分割效果,并且不增加網(wǎng)絡(luò)參數(shù)量,以類內(nèi)距離與類間距離作為約束條件設(shè)計(jì)了一個(gè)損失函數(shù).它由類內(nèi)損失和類間損失兩部分組成.
類間損失定義為:
(1)
式(1)中:ω為該批次所有像素點(diǎn)的總數(shù),N為網(wǎng)絡(luò)輸出的預(yù)測(cè)特征圖的個(gè)數(shù),i,j分別表示第i,j張?zhí)卣鲌D,Ci,Cj分別表示將網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行Softmax函數(shù)之后再進(jìn)行全局平均池化得到的兩個(gè)點(diǎn),它們代表著該特征圖的全部信息.以任意兩個(gè)特征圖全局平均池化后的差值為約束條件來最大化類間距離.
類內(nèi)損失定義為:
(2)
式(2)中:ω,N,Ci的含義與式(1)相同,Smn代表第i張?zhí)卣鲌D的第m行,第n列的像素點(diǎn).以每個(gè)像素點(diǎn)與平均池化的差值為約束條件來最小化類內(nèi)距離.
原始的語義分割網(wǎng)絡(luò)使用的損失函數(shù)為交叉熵函數(shù),因此,總的損失函數(shù)可以表示為:
L=CE_loss+φ-τ
(3)
整個(gè)實(shí)驗(yàn)過程在GPU(GTX 950M)設(shè)備上進(jìn)行,Python版本為3.6.3,網(wǎng)絡(luò)框架為Pytorch1.1,實(shí)驗(yàn)主要參數(shù)見表2所示.優(yōu)化器為帶動(dòng)量的SGD(Stochastic Gradient Descent),其中Momentum為0.9,Weight decay為0.0001.PASCAL VOC 2012數(shù)據(jù)集輸入圖像的大小設(shè)定為400x400,裁剪到380x380大小.DLRSD和WHDLD遙感圖像數(shù)據(jù)集,則直接裁剪到224x224,并對(duì)其進(jìn)行了翻轉(zhuǎn),旋轉(zhuǎn),縮放,隨機(jī)打亂等操作進(jìn)行數(shù)據(jù)增強(qiáng).基礎(chǔ)的學(xué)習(xí)分別率設(shè)置為0.005,0.000 8和0.001,VOC迭代次數(shù)為180,DLRSD和WHDLD迭代次數(shù)為120次.本次實(shí)驗(yàn)的損失函數(shù)均為交叉熵,且主干網(wǎng)絡(luò)都采用預(yù)訓(xùn)練的權(quán)重,其中PSPNet[6]和SPNet[26]都有輔助損失,它的權(quán)重設(shè)置為默認(rèn)值0.4.
本次實(shí)驗(yàn)的主要性能指標(biāo)為mIoU(Mean Intersection over Union)和PA(Pixel accuracy).它們能夠比較簡(jiǎn)單直觀的衡量分割的效果,是語義分割任務(wù)中最廣泛的性能指標(biāo).它們的定義式如下:
(4)
(5)
式(4)、(5)中:TP(True Positive)指的是預(yù)測(cè)為正例,實(shí)際也為正例;TN(True Negative)指的是預(yù)測(cè)為負(fù)例,實(shí)際也為負(fù)例;FP(False Positive)指的是預(yù)測(cè)為正例,實(shí)際為負(fù)例;FN(False Negative)指的是預(yù)測(cè)為負(fù)例,實(shí)際為正例;k+1為類別數(shù)量.
表2 實(shí)驗(yàn)參數(shù)
3.2.1 Passal VOC 2012數(shù)據(jù)集
Pascal VOC 2012數(shù)據(jù)集可以用于分類、檢測(cè)和分割,是常用的公共數(shù)據(jù)集.它包含背景總共21個(gè)類別.實(shí)驗(yàn)中使用的是增強(qiáng)型的PASCAL VOC 2012 ,其中包含訓(xùn)練圖片共10 582張,驗(yàn)證圖片共1 449張.
3.2.2 DLRSD數(shù)據(jù)集
DLRSD數(shù)據(jù)集是武漢大學(xué)制作的遙感圖像分割和分類數(shù)據(jù)集.它包含遙感圖像中常見的耕地、河流、公路等21個(gè)類別,每個(gè)類別共100張圖像,共2 100張圖像,每張圖像的大小為256×256.數(shù)據(jù)集的分割部分共17個(gè)類別,每個(gè)類別配有不同顏色的標(biāo)簽.在本次實(shí)驗(yàn)中,按照訓(xùn)練集和驗(yàn)證集0.8∶0.2的比例劃分?jǐn)?shù)據(jù)集.
3.2.3 WHDLD數(shù)據(jù)集
WHDLD數(shù)據(jù)集是武漢大學(xué)專門制作的遙感圖像分割數(shù)據(jù)集.它包含耕地、建筑、地面、馬路、植被、水面六個(gè)類別,總共4950張 遙感圖像,每張圖像大小為256×256.WHDLD數(shù)據(jù)集中的圖像分辨率較低,且整體偏暗,是十分具有挑戰(zhàn)性的數(shù)據(jù)集.本次實(shí)驗(yàn)隨機(jī)選取3952張作為訓(xùn)練集,998張作為驗(yàn)證集.
為了驗(yàn)證提出模塊的有效性,分別對(duì)每個(gè)模塊在PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行了單獨(dú)的測(cè)試,將它們與只替換主干網(wǎng)的PSPNet[6]進(jìn)行比較.對(duì)比結(jié)果如表3所示.
表3 消融實(shí)驗(yàn)結(jié)果
其中,由于條形位置注意力模塊能幫助網(wǎng)絡(luò)獲得更多的上下文信息,在進(jìn)行分割時(shí)會(huì)考慮不同像素之間的關(guān)系,使mIoU從67.9%上升到69.4%.建議的損失函數(shù)能夠監(jiān)督模型區(qū)分類內(nèi)與類間的關(guān)系,為mIoU帶來3.0 %的提升.將兩個(gè)方法結(jié)合起來會(huì)將mIoU從67.9%提升到71.7%.
3.4.1 PASCAL VOC 2012實(shí)驗(yàn)結(jié)果
為了進(jìn)一步的驗(yàn)證建議方法的有效性,在PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行了對(duì)比試驗(yàn).對(duì)比網(wǎng)絡(luò)使用的主干網(wǎng)絡(luò)均為加深的ResNet50[20],并且用帶網(wǎng)格的空洞卷積替換layer3,Layer4的卷積層,其中每個(gè)block的空洞率分別為2、4.ResNet50[20]在網(wǎng)絡(luò)層數(shù)上與MobileNet v2[21]相近,并且為了加快網(wǎng)絡(luò)的訓(xùn)練,全部都使用在ImageNet上的預(yù)訓(xùn)練權(quán)重.
實(shí)驗(yàn)結(jié)果如表4所示.在mIoU方面,建議的網(wǎng)絡(luò)在VOC數(shù)據(jù)集上的mIoU指標(biāo)為71.7%,相比于原來的網(wǎng)絡(luò)有3.8%的提升.相比于PSPNet[6],在使用MobileNet v2[21]為主干網(wǎng)絡(luò)的前提下,還得到了0.9%的提升.由于網(wǎng)絡(luò)本身參數(shù)量的限制,與DANet[13]相比,PA還存在著0.5%的差距.在參數(shù)量方面,建議的網(wǎng)絡(luò)參數(shù)總量?jī)H為18.7 MB,不到DRANet[25]參數(shù)量的十分之一.本文在相同設(shè)備上測(cè)試了不同網(wǎng)絡(luò)的推理時(shí)間,建議的網(wǎng)絡(luò)FPS(Frame Per Second)為18,是DRANet[25]推理速度的3.8倍.
表4 VOC數(shù)據(jù)集對(duì)比試驗(yàn)結(jié)果
不同網(wǎng)絡(luò)的可視化結(jié)果如圖5所示.可以發(fā)現(xiàn),所有網(wǎng)絡(luò)都存在一定程度的誤分,但建議的方法整體分割效果更好.對(duì)于圖像中的“馬”和“瓶子”,建議的方法能夠自動(dòng)聚合同類,相比于其它方法分割的結(jié)果更加連續(xù).在第三行的圖像中,“椅子”是該數(shù)據(jù)集中數(shù)量較少,面積較小,不易分割的部分.第四行圖像表明對(duì)比網(wǎng)絡(luò)都存在將“人”當(dāng)成“?!保蛘摺榜R”當(dāng)成“?!钡那闆r.這都是因?yàn)榫W(wǎng)絡(luò)無法有效區(qū)分不同類別之間的關(guān)系而造成的誤分,而建議的模型使用了輔助損失函數(shù),分辯不同類別像素的能力得到了加強(qiáng),所以分割效果較好.每個(gè)類別的分割情況如表5所示.對(duì)于數(shù)據(jù)集中數(shù)量較少類別如“椅子(chair)”、“盆栽(potted)”、“電視(tv)”,建議的方法取得了34.6%、56.4%、69.8%的最高IoU(Intersection over Union).
圖5 VOC數(shù)據(jù)集實(shí)驗(yàn)結(jié)果圖
表5 每個(gè)類別的IoU(%)結(jié)果
3.4.2 DLRSD實(shí)驗(yàn)結(jié)果
由于建議的網(wǎng)絡(luò)設(shè)計(jì)的應(yīng)用場(chǎng)景是無人機(jī)等嵌入式設(shè)備,為了檢驗(yàn)其復(fù)雜場(chǎng)景的分割效果,故在DLRSD遙感圖像數(shù)據(jù)集上進(jìn)行對(duì)比測(cè)試,結(jié)果見表6所示.
遙感圖像中的物體尺度變化十分劇烈,非??简?yàn)網(wǎng)絡(luò)的特征提取能力.從測(cè)試結(jié)果可以發(fā)現(xiàn),UperNet[27]、PSPNet[6]使用了金字塔模塊來提取不同尺度的特征獲得了相對(duì)較好的成績(jī).但它們都使用ResNet[20]作為主干網(wǎng)絡(luò),增加了圖像分割的計(jì)算開銷,對(duì)嵌入無人機(jī)等移動(dòng)端設(shè)備是十分不利的.相比之下,建議模型在FLOPs(Floating Point Operations)上僅為DeepLab v3+[8]的10.2%,但在mIoU上僅比DeepLab v3+[8]低0.2%.LedNet[9]通過將較大的卷積分解為1×3和3×1的卷積極大的降低了計(jì)算量,但與建議的方法相比,在mIoU上有著5.6%的差距.
表6 DLRSD數(shù)據(jù)集對(duì)比結(jié)果
3.4.3 WHDLD實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證建議方法的泛化能力,本文在WHDLD遙感圖像數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),其結(jié)果見表7所示.由于該數(shù)據(jù)集的圖像拍攝光線較暗,導(dǎo)致所有測(cè)試的網(wǎng)絡(luò)在該數(shù)據(jù)集中分割效果有所下降.但建議的網(wǎng)絡(luò)在mIoU上的下降幅度不大,說明建議的網(wǎng)絡(luò)有著較強(qiáng)的泛化能力來應(yīng)對(duì)輸入圖像的變化.與其它網(wǎng)絡(luò)相比,建議的方法取得了59.3%和82.7%最高的驗(yàn)證mIoU和PA.與輕量級(jí)分割網(wǎng)絡(luò)LedNet[9]相比,建議的網(wǎng)絡(luò)在mIoU上領(lǐng)先12.4%的同時(shí),每輪訓(xùn)練時(shí)間僅上升1.4分鐘.與多尺度網(wǎng)絡(luò)DeepLab v3+[8]和PSPNet[6]相比,建議的網(wǎng)絡(luò)使用輕量級(jí)的MoblieNet v2[21]作為特征提取網(wǎng)絡(luò),每輪訓(xùn)練耗時(shí)大幅度減少,約是它們的四分之一.由于采用了高效的條形位置注意力模塊和輔助損失函數(shù),使得網(wǎng)絡(luò)能夠在保證分割精度的前提下極大的提升了網(wǎng)絡(luò)的分割速度.
表7 WHDLD數(shù)據(jù)集對(duì)比結(jié)果
驗(yàn)證集曲線如圖6所示.可以發(fā)現(xiàn),由于加載了預(yù)訓(xùn)練權(quán)重,所有網(wǎng)絡(luò)都能在短時(shí)間內(nèi)快速收斂,但建議的模型約在第20次迭代完成收斂,開始震蕩調(diào)整,在第90個(gè)epoch分割準(zhǔn)確率基本保持不變,并維持了最好成績(jī).通過120個(gè)epoch的訓(xùn)練,可以發(fā)現(xiàn)SPNet[26]在第30個(gè)epoch后基本維持不變,說明網(wǎng)絡(luò)泛化能力較弱.DeepLab v3+[8]憑借著參數(shù)量的優(yōu)勢(shì),在WHDLD數(shù)據(jù)集上能夠獲得較高的mIoU,但是與建議的網(wǎng)絡(luò)存在著1%的差距.
圖6 WHDLD驗(yàn)證集mIoU曲線
本文基于MobileNet v2,提出了一個(gè)輕量級(jí)的語義分割網(wǎng)絡(luò),在保證準(zhǔn)確率的前提下能夠極大程度的減少網(wǎng)絡(luò)的預(yù)測(cè)時(shí)間.特別地,提出全新的注意力模塊和輔助損失函數(shù).大量實(shí)驗(yàn)表明建議的網(wǎng)絡(luò)能夠以較少的計(jì)算成本獲取相對(duì)較好的分割結(jié)果.但是與傳統(tǒng)的網(wǎng)絡(luò)對(duì)比,建議的模型在分割準(zhǔn)確度上還存在著一定的差距.在只考慮分割效果的場(chǎng)景應(yīng)使用傳統(tǒng)的模型.建議的模型能夠在PASCAL VOC 2012數(shù)據(jù)集上以18 FPS的推理速度取得71.7%的mIoU.因此,建議的方法適合應(yīng)用在對(duì)推理速度有要求的場(chǎng)景.在后續(xù)研究中,應(yīng)著重致力于輕量級(jí)網(wǎng)絡(luò)分割準(zhǔn)確性的研究,探索更加高效簡(jiǎn)潔的特征提取方式.