毛 昊, 李新利, 王孝偉, 楊國(guó)田, 彭 鵬, 邵宇鷹
(1.華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,北京 102206;2.國(guó)網(wǎng)上海市電力公司,江蘇 上海 200120)
電力應(yīng)急搶修作業(yè)過(guò)程和日常巡檢中易發(fā)生人員傷亡事故、造成損失,因此使用智能機(jī)器人進(jìn)行變電站作業(yè)是一個(gè)重要的研究方向。在變電站的搶修作業(yè)及日常巡檢的場(chǎng)景下,圖像語(yǔ)義分割技術(shù)可以幫助機(jī)器人識(shí)別事故現(xiàn)場(chǎng)的人員以及各種電力設(shè)備的位置和狀態(tài)等環(huán)境語(yǔ)義信息,對(duì)于機(jī)器人正確決策、減少人員傷亡和財(cái)產(chǎn)損失具有重大意義。
傳統(tǒng)的圖像語(yǔ)義分割方法根據(jù)圖像的顏色、紋理信息、空間結(jié)構(gòu)等底層特征對(duì)圖像進(jìn)行分割,例如基于閾值的OTSU自適應(yīng)閾值分割算法[1],基于決策樹的Text on Forest算法[2]。自從2015年LONG J等首次提出全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Networks)[3]以來(lái),基于編碼器-解碼器架構(gòu)的神經(jīng)網(wǎng)絡(luò)成為實(shí)現(xiàn)圖像語(yǔ)義分割任務(wù)的首選方法[4]。在FCN的基礎(chǔ)上,研究人員相繼提出了包括U-Net[5]、SegNet[6]、DeepLab[7]等用于圖像語(yǔ)義分割的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型;其中U-Net模型主要用于二分類語(yǔ)義分割任務(wù),而SegNet,DeepLab等模型主要用于多分類語(yǔ)義分割任務(wù)。
針對(duì)電力場(chǎng)景下的語(yǔ)義分割,趙振兵等[8]使用FCN網(wǎng)絡(luò)提取電力場(chǎng)景下的輸電線輪廓;薛冰等[9]使用Mask-RCNN網(wǎng)絡(luò)對(duì)電力設(shè)備上的銹跡進(jìn)行[10]檢測(cè);王彤等人使用U-Net網(wǎng)絡(luò)對(duì)變電站線路周邊的隱患進(jìn)行檢測(cè)。上述研究成果都能很好地對(duì)某一類別的目標(biāo)進(jìn)行語(yǔ)義分割。然而電力設(shè)備實(shí)際場(chǎng)景中通常包含多個(gè)類別的目標(biāo),存在較嚴(yán)重的類別不平衡問(wèn)題。當(dāng)各類別目標(biāo)出現(xiàn)頻率差別較大時(shí),會(huì)導(dǎo)致模型不能在所有類別上同時(shí)收斂,因此在各類別上的語(yǔ)義分割效果不一致,分割效果較差。
針對(duì)圖像語(yǔ)義分割任務(wù)中的類別不平衡問(wèn)題,目前主要有三種方法:第一種是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行裁剪,如Valverde S等[11]對(duì)訓(xùn)練數(shù)據(jù)加以裁剪以平衡各類別實(shí)例的出現(xiàn)頻率,實(shí)驗(yàn)證明,這種方法雖然能緩解類別不平衡問(wèn)題,但是裁剪數(shù)據(jù)的過(guò)程舍棄了部分訓(xùn)練數(shù)據(jù),降低了模型在所有類別上的總體分割能力。第二種方法是在損失函數(shù)中對(duì)不同的類別進(jìn)行加權(quán),給出現(xiàn)頻率較小的類別以更高的權(quán)重,Badrinarayanan V等[6]將損失函數(shù)中各類別的權(quán)值設(shè)為該類別實(shí)例出現(xiàn)頻率的倒數(shù)。這種方法在一定程度上能夠緩解類別不平衡問(wèn)題,但是在類別不平衡現(xiàn)象較嚴(yán)重時(shí),加權(quán)抑制類別不平衡現(xiàn)象的效果有限;而且這種方式引入了新的超參數(shù):各類別在損失函數(shù)的權(quán)重,當(dāng)類別數(shù)量較多時(shí),難以有效地選取合適的權(quán)重。第三種方式是使用對(duì)小類更友好的損失函數(shù)(如Focal Loss,Tversky Loss等[12])訓(xùn)練模型,這類損失函數(shù)能夠在訓(xùn)練過(guò)程中動(dòng)態(tài)地調(diào)整各類別的權(quán)值,如Salehi等[13]使用Tversky Loss損失函數(shù)訓(xùn)練了U-Net模型,Zhu W等[14]使用Focal Loss和Tversky Loss聯(lián)合訓(xùn)練了U-Net模型,Zhao Y等[15]根據(jù)分割對(duì)象的特點(diǎn),提出Constrained Focal Loss對(duì)語(yǔ)義分割模型加以訓(xùn)練。上述實(shí)驗(yàn)均證明使用對(duì)小類友好的損失函數(shù)訓(xùn)練得到的模型的性能優(yōu)于傳統(tǒng)的交叉熵?fù)p失函數(shù)。上述研究均基于二分類語(yǔ)義分割任務(wù),而變電站實(shí)際場(chǎng)景中面臨的通常是一個(gè)多類別語(yǔ)義分割任務(wù),且通常面臨嚴(yán)重的類別不平衡問(wèn)題。
針對(duì)多類別語(yǔ)義分割中的類別不平衡問(wèn)題,本文提出了一種多類別Focal Loss損失函數(shù),該損失函數(shù)可以在訓(xùn)練過(guò)程中根據(jù)訓(xùn)練效果動(dòng)態(tài)調(diào)節(jié)各類別的權(quán)值,使小類得到更充分的訓(xùn)練?;谧冸娬緢?chǎng)景的實(shí)際圖像,采用多類別Focal Loss損失函數(shù)訓(xùn)練FCN、SegNet和DeepLab V3語(yǔ)義分割模型,實(shí)現(xiàn)變電站場(chǎng)景圖像語(yǔ)義分割。
在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,損失函數(shù)是網(wǎng)絡(luò)模型的性能度量。通常用于訓(xùn)練二分類語(yǔ)義分割模型的損失函數(shù)包括交叉熵?fù)p失函數(shù)和Focal Loss損失函數(shù)。FCN和SegNet網(wǎng)絡(luò)模型誕生之初,均采用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,自從Lin T Y等[16]提出二分類Focal Loss損失函數(shù)以來(lái),F(xiàn)ocal Loss損失函數(shù)在圖像語(yǔ)義分割領(lǐng)域得到了廣泛應(yīng)用。
二分類語(yǔ)義分割的Focal Loss損失是基于交叉熵?fù)p失函數(shù)改造得到的,其數(shù)學(xué)表達(dá)式如下所示:
FL(pt)=-(1-pt)γlog(pt)
(1)
式中:FL表示圖像上每個(gè)像素點(diǎn)的Focal Loss損失函數(shù)值;-log(pt)為初始交叉熵函數(shù)值;pt表示模型在該像素點(diǎn)上對(duì)正類的輸出值,γ為聚焦系數(shù),取值范圍介于[0,+∞)之間。當(dāng)γ取0時(shí),F(xiàn)ocal Loss損失函數(shù)退化為交叉熵?fù)p失函數(shù)。γ越大,F(xiàn)ocal Loss損失函數(shù)抑制類別不平衡現(xiàn)象的能力越強(qiáng),但選取過(guò)大的γ可能會(huì)影響模型的整體準(zhǔn)確率。
本文提出的用于多類別語(yǔ)義分割任務(wù)的多類別Focal Loss損失函數(shù)的數(shù)學(xué)表達(dá)式如下:
(2)
lossc=-αc(1-pc)γlog(pc)
(3)
(4)
式中:FL為圖像上某像素點(diǎn)對(duì)應(yīng)的多類別Focal Loss損失函數(shù)值;ct為該像素點(diǎn)的真實(shí)類別;pc∈[0,+∞)表示模型在該像素點(diǎn)上對(duì)第c類的輸出值,其數(shù)學(xué)意義是模型判斷該像素點(diǎn)屬于第c類的肯定程度;freq(c)表示第c類實(shí)例在數(shù)據(jù)集中的出現(xiàn)頻率。
多類別Focal Loss損失函數(shù)中有3個(gè)超參數(shù):加權(quán)系數(shù)β∈[0,+∞)、聚焦系數(shù)γ∈[0,+∞)和負(fù)類門控系數(shù)?!?0,1),其中加權(quán)系數(shù)β和聚焦系數(shù)γ共同作用以調(diào)節(jié)損失函數(shù)中各類別的權(quán)重,而負(fù)類門控系數(shù)Γ用于控制是否在損失函數(shù)中考慮錯(cuò)誤類別。
式(2)中,lossc表示模型在該像素點(diǎn)上對(duì)第c類的損失函數(shù)值,由三部分組成:αc表示損失函數(shù)中第c類的初始權(quán)值,(1-pc)γ表示模型在每個(gè)輪次結(jié)束之后對(duì)第c類權(quán)值的動(dòng)態(tài)修正量,兩者的乘積是損失函數(shù)中第c類的真正權(quán)值;-log(pc)為初始交叉熵?fù)p失函數(shù)值。初始權(quán)值αc的大小由加權(quán)系數(shù)β控制,β越大,出現(xiàn)頻率較小的類的初始權(quán)值相對(duì)越大。權(quán)重的動(dòng)態(tài)修正量的大小由聚焦系數(shù)γ控制,γ越大,模型通過(guò)調(diào)整權(quán)值緩解類別不平衡現(xiàn)象的作用越強(qiáng),但γ取值過(guò)大時(shí)會(huì)影響模型在所有類別上的總體分割能力。圖1展示了不同γ取值下第c類的損失函數(shù)值lossc隨模型對(duì)第c類的輸出值pc的變化趨勢(shì)。
圖1 不同γ取值下的lossc曲線Fig. 1 Lossc curve under different γ
圖像上某像素點(diǎn)的Focal Loss損失函數(shù)值由兩部分構(gòu)成:該像素點(diǎn)上正確分類造成的損失函數(shù)值和該像素點(diǎn)上錯(cuò)誤分類造成的損失函數(shù)值。而負(fù)類門控系數(shù)Γ用于調(diào)節(jié)損失函數(shù)中錯(cuò)誤分類造成的損失占總損失函數(shù)的比例,Γ=0表示不考慮模型輸出在錯(cuò)誤類別上造成的損失,Γ=1表示考慮模型輸出在錯(cuò)誤類別上造成的損失。
基于深度學(xué)習(xí)的圖像語(yǔ)義分割研究在近幾年呈現(xiàn)爆發(fā)態(tài)勢(shì),各種新網(wǎng)絡(luò)層出不窮。通用的語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)包括FCN[3]、U-Net[5]、SegNet[6]和DeepLab系列網(wǎng)絡(luò)[7]等。本文選用經(jīng)典的FCN網(wǎng)絡(luò)、SegNet網(wǎng)絡(luò)和DeepLabV3網(wǎng)絡(luò)模型以驗(yàn)證多類別Focal Loss損失函數(shù)對(duì)圖像語(yǔ)義分割效果的提升作用。
FCN網(wǎng)絡(luò)是第一個(gè)成功實(shí)現(xiàn)圖像語(yǔ)義分割的深度學(xué)習(xí)模型,其創(chuàng)造性地將轉(zhuǎn)置卷積用于網(wǎng)絡(luò)上采樣,并通過(guò)如圖2所示的跳躍結(jié)構(gòu)[3]將網(wǎng)絡(luò)淺池化層輸出與深池化層的輸出相加,這種結(jié)構(gòu)融合了不同抽象程度的語(yǔ)義信息,大幅度提高了網(wǎng)絡(luò)的分割能力[17]。
圖2 跳躍結(jié)構(gòu)示意圖Fig. 2 Diagram of skip architecture
本文構(gòu)建的FCN網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖3所示,網(wǎng)絡(luò)接收尺寸為224×224的彩色三通道輸入圖像,經(jīng)過(guò)5個(gè)連續(xù)的卷積池化模塊,將輸入圖像中的語(yǔ)義信息壓縮為7×7×512的特征圖,之后再經(jīng)過(guò)5個(gè)轉(zhuǎn)置卷積模塊將特征圖放大為224×224×4的輸出張量,輸出張量的每一層表示模型判斷輸入圖像對(duì)應(yīng)像素屬于該類別實(shí)例的置信程度。
圖3 FCN網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Structure of FCN
SegNet網(wǎng)絡(luò)對(duì)FCN網(wǎng)絡(luò)進(jìn)行了改進(jìn),將網(wǎng)絡(luò)結(jié)構(gòu)分為互相對(duì)稱的編碼器模塊和解碼器模塊。SegNet網(wǎng)絡(luò)改進(jìn)了FCN模型的上采樣方式,通過(guò)在解碼器中使用重用編碼器的池化索引實(shí)現(xiàn)上采樣,其運(yùn)算過(guò)程如圖4所示[6]:先將輸入圖像的每個(gè)像素放大到對(duì)應(yīng)池化核大小,再將池化索引對(duì)應(yīng)位置上的值設(shè)為輸入像素值,其它位置上置零。這種上采樣方式,既保留了圖像下采樣前池化核內(nèi)部的具體位置信息,又避免了引入額外的卷積或插值運(yùn)算。
圖4 FCN網(wǎng)絡(luò)和SegNet網(wǎng)絡(luò)上采樣原理Fig. 4 Principle of upsampling in FCN and SegNet
本文構(gòu)建的SegNet網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,其輸入輸出張量和特征圖張量的尺寸與上文構(gòu)建的FCN網(wǎng)絡(luò)相同。
圖5 SegNet網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Structure of SegNet
DeepLabV3網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示[7],在編碼器部分使用了空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)模塊[18]和殘差結(jié)構(gòu)[19]。相比于前述網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,空洞卷積有效地?cái)U(kuò)大了卷積核的感受野,提高了輸出的特征圖的細(xì)膩程度。殘差結(jié)構(gòu)融合了輸入圖片的不同尺度的語(yǔ)義信息,極大程度地在特征圖中保留了圖片的原始語(yǔ)義信息。
圖6 DeepLabV3網(wǎng)絡(luò)結(jié)構(gòu)Fig. 6 Structure of DeepLabV3
與FCN網(wǎng)絡(luò)和SegNet網(wǎng)絡(luò)相同,本文構(gòu)建的DeepLabV3網(wǎng)絡(luò)模型的輸入輸出張量尺寸分別為224×224×3和224×224×4,輸出張量的每一層表示模型將輸入圖片中對(duì)應(yīng)位置的像素點(diǎn)判斷為該類別對(duì)象的置信程度。
實(shí)驗(yàn)數(shù)據(jù)集來(lái)自于某變電站巡檢過(guò)程圖片,包含約300張變電站配電室和室外場(chǎng)景的圖片,針對(duì)圖片中的機(jī)柜、變壓器和人體等巡檢過(guò)程中較重要部分進(jìn)行標(biāo)注?;谶@些類別,使用各類別像素出現(xiàn)頻率,即各類別的像素點(diǎn)占數(shù)據(jù)集中像素點(diǎn)總數(shù)的比率來(lái)衡量數(shù)據(jù)集中的類別不平衡現(xiàn)象,數(shù)據(jù)集中各類別實(shí)例的出現(xiàn)頻率如圖7所示。該數(shù)據(jù)集中存在著較嚴(yán)重的類別不平衡問(wèn)題,其中最小類別實(shí)例的出現(xiàn)頻率(人體,0.038)僅為最大類別實(shí)例的出現(xiàn)頻率(機(jī)柜,0.342)的1/10。
圖7 數(shù)據(jù)集中各類別實(shí)例的出現(xiàn)頻率Fig. 7 Frequency of different classes in dataset
為增強(qiáng)模型的泛化能力,提升模型的性能,采用了一系列數(shù)據(jù)增強(qiáng)方法對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),按照8∶1∶1的比例分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。具體的數(shù)據(jù)增強(qiáng)方法包括隨機(jī)翻轉(zhuǎn)、視角變換、色彩變換、添加噪聲和隨機(jī)裁剪等,其效果如圖8所示。
圖8 圖像增強(qiáng)手段及其效果Fig. 8 Data augment methods and effects
本文從兩個(gè)方面衡量圖像語(yǔ)義分割模型的性能:一是模型的總體分割能力,表現(xiàn)為模型在所有類別上的語(yǔ)義分割效果的均值;二是模型緩解類別不平衡現(xiàn)象的能力,表現(xiàn)為模型在不同類別上的分割能力的差距。
設(shè)nc表示類別數(shù),ti表示第i類像素點(diǎn)的總數(shù),nij表示第i類像素點(diǎn)中被預(yù)測(cè)成第j類的個(gè)數(shù)。為量化模型的上述兩個(gè)能力,定義包括像素準(zhǔn)確率(Pixel Accuracy, PA)、像素準(zhǔn)確率的標(biāo)準(zhǔn)差(Standard deviation of Pixel Accuracy, SPA)、平均準(zhǔn)確率(Mean Accuracy, MA)和平均交并比(mean Intersection over Union, mIoU)在內(nèi)的4個(gè)評(píng)價(jià)指標(biāo)。
(5)
像素準(zhǔn)確率用于衡量模型在某一類別上的分割效果,其數(shù)值越大,模型在該類別上的分割能力越強(qiáng)。
像素準(zhǔn)確率的標(biāo)準(zhǔn)差的數(shù)學(xué)表達(dá)式如下:
SPA=σ(PA(i))|i∈{1…nc}
(6)
像素準(zhǔn)確率的標(biāo)準(zhǔn)差反映了模型緩解類別不平衡現(xiàn)象的能力,其數(shù)值越小,模型類別不平衡現(xiàn)象的能力越強(qiáng)。
平均準(zhǔn)確率是指模型在不同類別上的像素準(zhǔn)確率的均值,其數(shù)學(xué)表達(dá)式如下:
(7)
平均準(zhǔn)確率反映了模型的總體分割能力,其數(shù)值越大,模型的總體分割能力越強(qiáng)。
平均交并比指的是分割結(jié)果與原始圖像真值的重合程度,其數(shù)學(xué)表達(dá)式如下[20]:
(8)
平均交并比綜合考慮了分割結(jié)果在所有類別上的準(zhǔn)確率和召回率,是一個(gè)衡量模型總體分割能力的指標(biāo),其數(shù)值越大,模型的總體分割能力越強(qiáng)。
國(guó)內(nèi)外學(xué)者圍繞活性炭、多孔硅膠、煤粉、干水、介孔硅等介質(zhì)的粒徑、孔徑等因素進(jìn)行了大量的甲烷水合物生成實(shí)驗(yàn)。然而,凍土區(qū)和海底沉積層賦存的水合物常在含砂類介質(zhì)下穩(wěn)定存在,受地壓的影響,水合物相鄰賦存區(qū)域的溫度梯度差異較小。且關(guān)于小梯度溫度下甲烷水合物在砂類介質(zhì)中的生成實(shí)驗(yàn)研究較少。石英砂作為一種常見的多孔介質(zhì),價(jià)格低廉,可重復(fù)率高,比表面積大,界面性好。故本研究選取石英砂開展273.75 K、273.85 K、273.95 K 3種溫度下甲烷水合物生成實(shí)驗(yàn),分析水合物生成過(guò)程中的熱力學(xué)特性和動(dòng)力學(xué)行為。
在上述4個(gè)指標(biāo)中,MA和mIoU用于衡量模型在所有類別上的總體分割能力,SPA用于衡量模型緩解類別不平衡現(xiàn)象的能力。其中MA只考慮了分割結(jié)果的準(zhǔn)確率,而mIoU綜合考慮了分割結(jié)果的準(zhǔn)確率和召回率,因此mIoU比MA更客觀地反映模型的總體分割能力。
針對(duì)所構(gòu)建的FCN網(wǎng)絡(luò)、SegNet網(wǎng)絡(luò)和DeepLabV3網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。為加速收斂,模型的編碼器部分均預(yù)加載了在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的VGG16網(wǎng)絡(luò)模型[21]的權(quán)重,并在此基礎(chǔ)上進(jìn)行遷移學(xué)習(xí)訓(xùn)練。網(wǎng)絡(luò)的可訓(xùn)練參數(shù)總量及其生成的權(quán)重文件大小如表1所示。
表1 網(wǎng)絡(luò)模型的規(guī)模Tab.1 Size of models
使用Adam優(yōu)化器[22]進(jìn)行梯度下降運(yùn)算,其初始學(xué)習(xí)率取0.000 1,動(dòng)量參數(shù)β1取0.9,β2取0.999 9,并對(duì)模型參數(shù)進(jìn)行L2正則化[23],正則化參數(shù)weight_decay取0.98。
分別使用交叉熵?fù)p失函數(shù)和不同超參數(shù)組合下的多類別Focal Loss損失函數(shù)進(jìn)行訓(xùn)練,以對(duì)比研究Focal Loss損失函數(shù)對(duì)模型訓(xùn)練效果的影響。多類別Focal Loss損失函數(shù)的超參數(shù)包括聚焦系數(shù)γ、加權(quán)系數(shù)β和負(fù)類門控系數(shù)Γ,實(shí)驗(yàn)中這些超參數(shù)分別選取如下值進(jìn)行訓(xùn)練:
聚焦系數(shù)γ分別取到2和5,以比較聚焦程度對(duì)訓(xùn)練效果的影響。
加權(quán)系數(shù)β分別取到0和1,以比較各種權(quán)值初始化方式對(duì)訓(xùn)練效果的影響。
負(fù)類門控系數(shù)Γ分別取到0和1,以比較是否考慮錯(cuò)誤分類造成的損失對(duì)訓(xùn)練效果的影響。
本次實(shí)驗(yàn)在RTX 2080Ti顯卡上進(jìn)行訓(xùn)練。其中FCN網(wǎng)絡(luò)、SegNet網(wǎng)絡(luò)和DeepLabV3網(wǎng)絡(luò)模型的平均收斂時(shí)長(zhǎng)分別為約2小時(shí)、4小時(shí)和3小時(shí),訓(xùn)練得到的模型在測(cè)試集上的各性能指標(biāo)分別如表2、表3和表4所示,其中交叉熵?fù)p失函數(shù)不具有γ、β和Γ參數(shù),因此表格中對(duì)應(yīng)位置以×表示。
表2 不同損失函數(shù)下FCN網(wǎng)絡(luò)模型的性能Tab.2 Performance of FCN trained by different loss functions
表3 不同損失函數(shù)下SegNet網(wǎng)絡(luò)模型的性能Tab.3 Performance of SegNet trained by different loss functions
表4 不同損失函數(shù)下DeepLabV3網(wǎng)絡(luò)模型的性能Tab.4 Performance of DeepLabV3 trained by different loss functions
從表2、表3和表4可以看出,三種語(yǔ)義分割模型的性能從高到低分別為DeepLabV3網(wǎng)絡(luò)、SegNet網(wǎng)絡(luò)和FCN網(wǎng)絡(luò)。DeepLabV3網(wǎng)絡(luò)模型尺寸最小且性能最優(yōu),但該模型的網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,實(shí)現(xiàn)難度較大。SegNet網(wǎng)絡(luò)模型的各項(xiàng)性能指標(biāo)總體上優(yōu)于FCN網(wǎng)絡(luò)模型,這是因?yàn)橄啾扔贔CN網(wǎng)絡(luò),SegNet網(wǎng)絡(luò)的規(guī)模較大且網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜。但SegNet網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間和推斷時(shí)間均長(zhǎng)于FCN網(wǎng)絡(luò)模型。在實(shí)際工程應(yīng)用中,需要根據(jù)對(duì)實(shí)時(shí)性和準(zhǔn)確性的要求靈活選取模型。由網(wǎng)絡(luò)性能指標(biāo)可知,使用多類別Focal Loss損失函數(shù)訓(xùn)練得到的模型的各項(xiàng)性能指標(biāo)均優(yōu)于使用交叉熵?fù)p失函數(shù)的性能指標(biāo),表明了使用多類別Focal Loss損失函數(shù)訓(xùn)練網(wǎng)絡(luò)模型,不僅可以增強(qiáng)模型緩解類別不平衡現(xiàn)象的能力,也能提升模型的總體分割能力。在所有超參數(shù)組合中,組合γ=2,β=1,Γ=0在三個(gè)模型上均取得最優(yōu)訓(xùn)練效果,且各超參數(shù)對(duì)訓(xùn)練效果的影響基本一致,體現(xiàn)出多類別Focal Loss損失函數(shù)在基于深度學(xué)習(xí)的圖像語(yǔ)義分割模型上具有一定的通用性。
聚焦系數(shù)γ、加權(quán)系數(shù)β和負(fù)類門控系數(shù)Γ的不同取值對(duì)訓(xùn)練結(jié)果的影響如下。
(1) 聚焦系數(shù)γ對(duì)訓(xùn)練結(jié)果的影響
從模型訓(xùn)練結(jié)果的各項(xiàng)性能指標(biāo)來(lái)看,γ取值較大時(shí)網(wǎng)絡(luò)模型在出現(xiàn)頻率低的小類上的分割效果有所增強(qiáng),類別不平衡現(xiàn)象得到緩解,但模型在所有類別上的總體分割效果略有降低。根據(jù)各模型的性能指標(biāo)數(shù)據(jù)分析可知,在變電站搶險(xiǎn)救災(zāi)場(chǎng)景下的語(yǔ)義分割任務(wù)中,取γ=2最合適。
(2) 加權(quán)系數(shù)β對(duì)訓(xùn)練結(jié)果的影響
對(duì)比不同β取值下訓(xùn)練得到的網(wǎng)絡(luò)模型的各項(xiàng)性能指標(biāo),可以發(fā)現(xiàn)在其它超參數(shù)取值不變的情況下,取β=1時(shí),模型的各項(xiàng)性能指標(biāo)均優(yōu)于取β=0時(shí)訓(xùn)練的訓(xùn)練結(jié)果。這說(shuō)明在損失函數(shù)中初始化各類別權(quán)值時(shí)根據(jù)出現(xiàn)頻率適當(dāng)進(jìn)行加權(quán)可以同時(shí)提高模型在所有類別上的總體分割能力和模型緩解類別不平衡現(xiàn)象的能力。
圖9展示了β分別取到0和1時(shí),各類別的像素準(zhǔn)確率的變化情況??梢钥闯觯m當(dāng)進(jìn)行加權(quán)后,模型在出現(xiàn)頻率較低的小類上的分割效果略有升高,而在出現(xiàn)頻率較高的大類上的分割效果略有降低。
圖9 不同β取值下各類別的像素準(zhǔn)確率Fig. 9 Pixel accuracy under different β
(3) 負(fù)類門控系數(shù)Γ對(duì)訓(xùn)練結(jié)果的影響
根據(jù)訓(xùn)練結(jié)果分析可知,將負(fù)類門控系數(shù)Γ設(shè)為0,即只考慮正確分類造成的損失而忽略錯(cuò)誤分類造成的損失時(shí),訓(xùn)練得到的網(wǎng)絡(luò)模型的總體分割能力更好。
基于交叉熵?fù)p失函數(shù)和最優(yōu)超參數(shù)取值下的Focal Loss損失函數(shù)訓(xùn)練得到的模型的分割結(jié)果如圖10所示。對(duì)比FCN、SegNet和DeepLabV3網(wǎng)絡(luò)的分割結(jié)果,可以發(fā)現(xiàn)DeepLabV3網(wǎng)絡(luò)模型分割結(jié)果的準(zhǔn)確度和分割圖邊緣的平滑程度均遠(yuǎn)優(yōu)于FCN網(wǎng)絡(luò)和SegNet網(wǎng)絡(luò)模型,而SegNet網(wǎng)絡(luò)的準(zhǔn)確度和分割邊緣的平滑程度又優(yōu)于FCN網(wǎng)絡(luò)。對(duì)比使用多類別Focal Loss損失函數(shù)和交叉熵?fù)p失函數(shù)訓(xùn)練得到的模型,可以看出使用多類別Focal Loss損失函數(shù)得到的訓(xùn)練結(jié)果在人體和變壓器等小類上的分割效果遠(yuǎn)優(yōu)于交叉熵?fù)p失函數(shù),在機(jī)柜等大類上的分割效果略低于交叉熵?fù)p失函數(shù),體現(xiàn)出多類別Focal Loss損失函數(shù)緩解類別不平衡現(xiàn)象的能力。
圖10 基于不同模型和不同損失函數(shù)的語(yǔ)義分割結(jié)果Fig. 10 Results of semantic segmentation based on different combination of model and loss function
為進(jìn)一步說(shuō)明多類別Focal Loss損失函數(shù)的普適性,在Pascal VOC和Camvid數(shù)據(jù)集的子集上分別使用交叉熵?fù)p失函數(shù)和多類別Focal Loss損失函數(shù)進(jìn)行訓(xùn)練SegNet模型并統(tǒng)計(jì)其性能指標(biāo)。
本次實(shí)驗(yàn)在Pascal VOC和Camvid數(shù)據(jù)集上分別選取50,100,200,400,800條數(shù)據(jù)進(jìn)行訓(xùn)練,以體現(xiàn)多類別Focal Loss損失函數(shù)在數(shù)據(jù)量較小時(shí)對(duì)訓(xùn)練效果的提升作用,實(shí)驗(yàn)結(jié)果如表5和表6所示。
表5 不同規(guī)模Pascal VOC子集下的訓(xùn)練結(jié)果Tab.5 Training results of different scale Pascal VOC Subsets
表6 不同規(guī)模Camvid子集下的訓(xùn)練結(jié)果Tab.6 Training results of different scale Camvid Subsets
實(shí)驗(yàn)結(jié)果顯示,在不同訓(xùn)練數(shù)據(jù)集規(guī)模下,使用Focal Loss損失函數(shù)訓(xùn)練模型得到的效果均優(yōu)于交叉熵?fù)p失函數(shù)的訓(xùn)練結(jié)果,隨著訓(xùn)練集規(guī)模的增加,兩種損失函數(shù)訓(xùn)練效果的差異逐漸減小,這說(shuō)明Focal Loss損失函數(shù)在數(shù)據(jù)規(guī)模較小時(shí)緩解類別不平衡的效果尤其明顯。
針對(duì)變電站場(chǎng)景下圖像語(yǔ)義分割的類別不平衡問(wèn)題,本文提出了一種多類別Focal Loss損失函數(shù),該損失函數(shù)能夠在訓(xùn)練過(guò)程中根據(jù)訓(xùn)練效果動(dòng)態(tài)調(diào)節(jié)各類別的權(quán)值,對(duì)出現(xiàn)頻率小的小類更加友好?;谧冸娬緢?chǎng)景圖片,分別采用多類別Focal Loss損失函數(shù)和交叉熵?fù)p失函數(shù)訓(xùn)練FCN、SegNet和DeepLabV3語(yǔ)義分割模型。通過(guò)像素準(zhǔn)確率、像素準(zhǔn)確率標(biāo)準(zhǔn)差、平均準(zhǔn)確率、平均交并比指標(biāo)分別衡量模型緩解類別不平衡現(xiàn)象的能力和模型在所有類別上的整體分割能力,分析了聚焦系數(shù)γ、加權(quán)系數(shù)β、負(fù)類門控系數(shù)Γ對(duì)訓(xùn)練結(jié)果的影響。實(shí)驗(yàn)結(jié)果證明,使用多類別Focal Loss損失函數(shù)進(jìn)行訓(xùn)練,可以同時(shí)提高模型緩解類別不平衡現(xiàn)象的能力和模型的整體分割能力,通過(guò)一系列對(duì)比試驗(yàn)獲取針對(duì)變電站場(chǎng)景下多類別Focal Loss損失函數(shù)中超參數(shù)的最優(yōu)取值。