黃一昕 方文珊 劉傳朋 胡朝鵬
1.中國(guó)鐵路經(jīng)濟(jì)規(guī)劃研究院有限公司,北京 100038;2.中國(guó)鐵路設(shè)計(jì)集團(tuán)有限公司,天津 300308
鐵路遙感技術(shù)主要是通過(guò)航天、航空等傳感器獲取地物影像,并對(duì)其進(jìn)行解譯、分析和調(diào)查,獲取鐵路沿線的地形、地貌、地質(zhì)構(gòu)造等信息,從而對(duì)線路方案、重大構(gòu)筑物等所處的地質(zhì)條件做出評(píng)價(jià),為后期選線提供技術(shù)支撐,輔助勘察設(shè)計(jì)工作[1]。無(wú)人機(jī)技術(shù)作為航空遙感的重要一環(huán),憑借不受空域限制、影像獲取便捷、覆蓋地物全面的特點(diǎn),在鐵路勘察設(shè)計(jì)階段的重要性日益凸顯。目前對(duì)于鐵路無(wú)人機(jī)影像的特征提取工作主要通過(guò)人工目視解譯完成,人工成本高,生產(chǎn)效率低,亟待尋求新方法,在保證精度的前提下提升工作效率。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的重要研究方向之一,它通過(guò)對(duì)海量影像數(shù)據(jù)進(jìn)行學(xué)習(xí),能夠快速、精準(zhǔn)、自動(dòng)地檢測(cè)出影像上的地物特征[2]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是深度學(xué)習(xí)的代表性算法之一,能夠以較小的計(jì)算量學(xué)習(xí)到影像的淺層特征與深層特征[3]。U?Net 網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)的代表性模型之一,在小數(shù)據(jù)集的情況下依然有很好的表現(xiàn)[4]。學(xué)者們?cè)趯?duì)U?Net 網(wǎng)絡(luò)進(jìn)行深入研究的基礎(chǔ)上做了大量的改進(jìn)。劉浩等[5]提出了以U?Net 網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)的Se?Unet,并使用dice 函數(shù)和交叉熵函數(shù)復(fù)合的損失函數(shù)進(jìn)行訓(xùn)練,以提升模型精度并減輕樣本不平衡問(wèn)題。馮凡等[5]通過(guò)在U?Net 網(wǎng)絡(luò)結(jié)構(gòu)中引入基于殘差的金字塔池化模塊(Pyramid Pooling Module,PPM)和基于殘差密集連接的聚合特征精化模塊,提升建筑物分類精度。宋延強(qiáng)等[7]通過(guò)在U?Net 網(wǎng)絡(luò)的編碼器部分加入通道注意力機(jī)制,突出目標(biāo)特征,抑制背景噪聲干擾,從而提高深淺層信息融合的準(zhǔn)確率。王曦等[8]針對(duì)傳統(tǒng)的遙感圖像分割方法效率低下、分割精細(xì)度不夠的問(wèn)題,提出了一種U?Net 網(wǎng)絡(luò)結(jié)構(gòu)與特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)結(jié)構(gòu)相結(jié)合的方法,緩解了對(duì)小尺度目標(biāo)和大尺度目標(biāo)邊緣分割不佳的問(wèn)題。
本文利用U?Net 網(wǎng)絡(luò)對(duì)鐵路無(wú)人機(jī)影像進(jìn)行建筑物提取,針對(duì)U?Net 網(wǎng)絡(luò)直接下采樣造成信息損失且參數(shù)量大的問(wèn)題,提出帶有金字塔池化模塊與深度可分離卷積相結(jié)合的U?PPM 系列網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過(guò)對(duì)影像不同尺度的特征進(jìn)行聚合獲取包含不同尺度的信息,并利用深度可分離卷積代替標(biāo)準(zhǔn)卷積對(duì)影像特征進(jìn)行提取。
U?Net 網(wǎng)絡(luò)于2015 年提出,該模型采用了基于編碼-解碼的架構(gòu)模式,見(jiàn)圖1。U?Net 網(wǎng)絡(luò)的編碼部分通過(guò)不斷的卷積操作,逐層提取影像的特征信息。原圖一共經(jīng)歷了4次卷積與池化操作。模型的解碼部分通過(guò)對(duì)影像進(jìn)行反卷積操作使影像尺寸變大但維度減半,然后將其與對(duì)應(yīng)編碼層的特征圖進(jìn)行融合拼接,最終將影像上采樣至原圖大小。
圖1 U?Net網(wǎng)絡(luò)結(jié)構(gòu)
U?Net網(wǎng)絡(luò)可以實(shí)現(xiàn)端到端的結(jié)果輸出,通過(guò)4次下采樣操作將圖像縮小了16倍,深層次地提取了圖像特征。再通過(guò)4 次上采樣操作進(jìn)行圖像還原,將提取的高級(jí)特征圖還原到原始圖像大小,且保證了還原出來(lái)的分割影像邊緣不會(huì)太粗糙。該網(wǎng)絡(luò)還具備躍層連接的特點(diǎn),在同一層級(jí)將高層的語(yǔ)義特征圖和低層的視覺(jué)特征圖相結(jié)合,使得模型高級(jí)特征圖位置語(yǔ)義信息與低級(jí)特征圖低層視覺(jué)信息都更為豐富,可以有效地實(shí)現(xiàn)多尺度預(yù)測(cè),更好地還原圖像。
U?Net 網(wǎng)絡(luò)存在兩個(gè)明顯的缺點(diǎn):①模型采用最大池化的方式在單一尺度上對(duì)影像進(jìn)行下采樣,在一定程度上會(huì)造成影像特征信息的損失,從而影響模型后續(xù)的分類精度;②模型采用了連續(xù)的標(biāo)準(zhǔn)卷積對(duì)影像進(jìn)行特征提取,雖然在一定程度上可以增大影像的感受野,但是隨著網(wǎng)絡(luò)深度的不斷增加,模型的運(yùn)算參數(shù)變多,運(yùn)算效率減慢。
針對(duì)上述問(wèn)題,通過(guò)在模型的下采樣部分引入金字塔池化模塊對(duì)影像不同尺度的特征進(jìn)行聚合,提高獲取不同特征尺度的能力,進(jìn)而提升模型的分類精度。使用深度可分離卷積代替標(biāo)準(zhǔn)卷積對(duì)影像特征進(jìn)行提取,達(dá)到減少模型運(yùn)算參數(shù)的目的。
金字塔池化模塊最早在金字塔場(chǎng)景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)中提出,它通過(guò)全局平均池化和特征融合的方式來(lái)聚合不同區(qū)域的上下文信息,減少不同子區(qū)域間的上下文信息丟失,從而提高獲取包含不同尺度的全局信息的能力。通過(guò)PPM 獲取的高層特征圖有助于提高關(guān)鍵點(diǎn)檢測(cè)的能力。PPM結(jié)構(gòu)如圖2所示。
圖2 金字塔池化結(jié)構(gòu)
PPM 利用4 個(gè)不同的金字塔尺度融合特征,圖中第一個(gè)紅色方塊部分是通過(guò)全局池化產(chǎn)生的整體輸出,剩下的3 個(gè)金字塔層級(jí)將輸入的特征圖劃分為不同的子區(qū)域。PPM 共包含4 個(gè)不同尺寸的特征圖,為了保持全局特征的權(quán)重,首先對(duì)特征圖進(jìn)行卷積核為1×1的卷積操作來(lái)降低維度,然后使用雙線性插值將4 幅特征圖上采樣至原圖尺寸大小,最后將不同尺度的特征融合起來(lái)作為PPM的輸出。
為了使U?Net 網(wǎng)絡(luò)在下采樣的過(guò)程中減少輸入影像信息的丟失,促進(jìn)不同尺度影像的特征融合,將對(duì)模型的下采樣部分添加PPM 結(jié)構(gòu)。在每次最大池化前分別引入輸出特征圖尺寸固定的PPM?1248 結(jié)構(gòu)、PPM?14816 結(jié)構(gòu),以及輸出特征圖尺寸隨影像尺寸改變而成比例變化的PPM?change結(jié)構(gòu),如圖3所示。
圖3 引入不同PPM結(jié)構(gòu)的U?Net下采樣部分
在每次下采樣操作前,PPM?1248結(jié)構(gòu)根據(jù)輸入影像的大小自動(dòng)調(diào)整平均池化的步長(zhǎng),輸出固定尺寸的特征圖。例如,輸入影像的尺寸為h(長(zhǎng)度)×w(寬度)×c(維度),經(jīng)平均池化后得到的4幅特征圖尺寸分別為1× 1×c,2 × 2 ×c,4 × 4 ×c,8× 8×c。之后利用卷積核為1×1、濾波器個(gè)數(shù)為c∕4 的卷積操作逐一對(duì)特征圖進(jìn)行降維。最后采用反卷積操作將得到的特征圖上采樣至原始輸入影像大小并同輸入影像進(jìn)行堆疊,見(jiàn)表1。
表1 PPM?1248特征圖尺寸
由于原始輸入的影像尺寸較大,直接將影像下采樣至1× 1×c、2 × 2 ×c、4 × 4 ×c、8× 8×c,會(huì)造成影像細(xì)節(jié)信息的丟失。因此,PPM?14816 結(jié)構(gòu)通過(guò)調(diào)整平均池化的步長(zhǎng)將原始影像分別下采樣至1× 1×c、4 × 4 ×c、8× 8×c、16 × 16 ×c,使得到的特征圖尺寸變大,以保證在獲取多尺度特征圖的前提下包含盡可能多的影像特征信息,見(jiàn)表2。
表2 PPM?14816特征圖尺寸
U?Net 網(wǎng)絡(luò)的4 次下采樣操作會(huì)將原始影像分別縮小至原圖大小的1∕2、1∕4、1∕8、1∕16,使用輸出特征圖尺寸固定的PPM?1248 結(jié)構(gòu)與PPM?14816 結(jié)構(gòu)無(wú)法更好地捕獲不同尺寸的影像特征。PPM?change 結(jié)構(gòu)根據(jù)輸入影像的大小按照一定的比例構(gòu)建影像特征圖,見(jiàn)表3。
表3 PPM?change特征圖尺寸
若輸入影像的尺寸為h×w×c,得到的特征圖尺寸分別為h∕32×h∕32×c,h∕16×h∕16×c,h∕8×h∕8×c,h∕4 ×h∕4 ×c。輸出特征圖的尺寸分別是輸入影像尺寸的1∕32,1∕16,1∕8,1∕4。PPM?change結(jié)構(gòu)使每幅特征圖包含更多的影像信息。
深度可分離卷積由Sifre 等[9]提出,應(yīng)用在圖像紋理分類方面效果很好。通常使用的標(biāo)準(zhǔn)卷積既包含了特征映射的空間信息,又包含了通道之間信息。而深度可分離卷積把標(biāo)準(zhǔn)卷積分解成兩步,分別是逐通道卷積和逐點(diǎn)卷積[10]。逐通道卷積是對(duì)輸入的每個(gè)通道單獨(dú)做卷積,即每個(gè)通道有m個(gè)單獨(dú)的卷積核,假設(shè)輸入t個(gè)通道,輸出有mt個(gè)通道,通常m取1。逐點(diǎn)卷積是標(biāo)準(zhǔn)的1×1卷積,它將逐通道卷積產(chǎn)生的mt個(gè)特征映射看成一個(gè)整體,組合起來(lái)做一次標(biāo)準(zhǔn)卷積操作。深度可分離卷積實(shí)現(xiàn)了通道和空間的分離,與標(biāo)準(zhǔn)卷積相比減少了參數(shù),網(wǎng)絡(luò)的訓(xùn)練速度更快,能夠在網(wǎng)絡(luò)中傳播更多的特征信息,提高了網(wǎng)絡(luò)的重建質(zhì)量。
本研究將在模型中使用深度可分離卷積代替標(biāo)準(zhǔn)卷積,探索引入深度可分離卷積是否可以在降低網(wǎng)絡(luò)參數(shù)量的同時(shí)保證分類的正確率。
采用某鐵路沿線的無(wú)人機(jī)航空影像作為試驗(yàn)數(shù)據(jù),該數(shù)據(jù)前期已經(jīng)過(guò)影像調(diào)色、POS 解算,空三加密等操作,并生成供本項(xiàng)目使用的數(shù)字正射影像(Digital Orthophoto Map,DOM)。其中,DOM 的空間分辨率為0.08 m。根據(jù)設(shè)計(jì)圖要求,將影像裁剪至鐵路沿線兩側(cè)500 m范圍內(nèi),覆蓋面積約4 km2。
由于研究區(qū)域的DOM 數(shù)據(jù)缺少對(duì)應(yīng)的地面真實(shí)標(biāo)簽,對(duì)其進(jìn)行人工手動(dòng)標(biāo)注。影像涉及到的建筑物主要有居民住房、彩鋼房、廠房、學(xué)校等,將這些建筑物的灰度值設(shè)為255。其余地物均為背景,灰度值設(shè)為0。采用了ArcGIS軟件矢量標(biāo)注功能。為了滿足計(jì)算機(jī)GPU 的顯存要求,將標(biāo)注后的影像統(tǒng)一裁剪至512 × 512 大小,達(dá)不到512 大小的部分填充0 值。最終,共獲得1 465 張影像。所有原始影像均為T(mén)iff 格式,為提高模型的訓(xùn)練速度,將其轉(zhuǎn)換為PNG 格式進(jìn)行訓(xùn)練,如圖4所示。
圖4 DOM數(shù)據(jù)及其對(duì)應(yīng)地面真實(shí)標(biāo)簽
一般來(lái)說(shuō),數(shù)據(jù)量越大,模型越容易學(xué)習(xí)到具有代表性的特征。由于數(shù)據(jù)集有限,采用數(shù)據(jù)增強(qiáng)的方法擴(kuò)充原始影像,將每張影像分別進(jìn)行水平翻轉(zhuǎn)180°、垂直翻轉(zhuǎn)180°、隨機(jī)裁切、對(duì)比度變換、飽和度變換、亮度變換,最終結(jié)果如圖5所示。
圖5 圖像增強(qiáng)示意
使用準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)作為最終評(píng)價(jià)指標(biāo)。正樣本(Positive)為建筑物,負(fù)樣本(Negative)為背景,計(jì)算公式如下:
式中:α為模型的準(zhǔn)確率;β為模型的精確率;γ表示模型的召回率;φ為F1 分?jǐn)?shù);TP為實(shí)際為真模型預(yù)測(cè)也為真的樣本數(shù)量;TN為實(shí)際為假模型預(yù)測(cè)也為假的樣本數(shù)量;FN為實(shí)際為真模型預(yù)測(cè)為假的樣本數(shù)量;FP為實(shí)際為假模型預(yù)測(cè)為真的樣本數(shù)量。
神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)需要人為設(shè)置一些超參數(shù)來(lái)指導(dǎo)模型學(xué)習(xí),如學(xué)習(xí)率、優(yōu)化函數(shù)、權(quán)重衰減參數(shù)等。經(jīng)過(guò)多次試驗(yàn),本文最終設(shè)置的初始學(xué)習(xí)率為0.01,使用自適應(yīng)學(xué)習(xí)率方法中的Adam 優(yōu)化算法[11],批尺寸(Batch Size)為8,每個(gè)卷積層后使用線性整流函數(shù)(Rectified Linear Unit,ReLU)[12]作為激活函數(shù),并添加批標(biāo)準(zhǔn)化(Batch Normalization,BN)層,選用sigmoid 函數(shù)σ作為最終輸出的激活函數(shù)[13],選用二值交叉熵(Binary Cross?entropy)B作為損失函數(shù),
式中:y*i為地面真實(shí)標(biāo)簽;yi為預(yù)測(cè)值。
標(biāo)簽中每個(gè)像素被設(shè)置為0 和1 來(lái)表示負(fù)類別和正類別,閾值取0.5,總共訓(xùn)練30 個(gè)epoch。訓(xùn)練集與測(cè)試集劃分為8∶2,計(jì)算機(jī)硬件配置見(jiàn)表4。
表4 計(jì)算機(jī)硬件配置
共開(kāi)展了7 個(gè)對(duì)比試驗(yàn)。首先利用原始U?Net 網(wǎng)絡(luò)對(duì)影像進(jìn)行訓(xùn)練,網(wǎng)絡(luò)標(biāo)記為U?Net。然后在U?net網(wǎng)絡(luò)下采樣部分分別引入PPM?1248、PPM?14816 及PPM?change,網(wǎng)絡(luò)標(biāo)記為U?PPM?1248、U?PPM?14816、U?PPM?change。最后將各PPM 結(jié)構(gòu)與深度可分離卷積結(jié)合,網(wǎng)絡(luò)標(biāo)記為U?PPM?1248*,U?PPM?14816*、U?PPM?change*。7 種模型在影像測(cè)試集上的建筑物提取精度見(jiàn)表5。由于采用隨機(jī)采樣策略和充分的訓(xùn)練,原始U?Net網(wǎng)絡(luò)精度較高。相對(duì)于原始網(wǎng)絡(luò),改進(jìn)后的網(wǎng)絡(luò)在精確率、召回率、總體精度、F1分?jǐn)?shù)都有了明顯提升。這說(shuō)明本研究的改進(jìn)方法有效。
表5 建筑物提取精度
U?Net下采樣部分添加PPM結(jié)構(gòu)后,U?PPM?1248、U?PPM?14816 的召回率分別為0.932 4、0.961 6,相比U?PPM?change 網(wǎng)絡(luò)分別降低了0.033 3、0.004 1。這說(shuō)明隨著輸入影像的大小按比例調(diào)整輸出特征圖的方式,可以使更多的建筑物被網(wǎng)絡(luò)識(shí)別。對(duì)于總體精度而言,U?PPM?change 網(wǎng)絡(luò)的總體精度與其他兩種網(wǎng)絡(luò)相比顯著提升,對(duì)影像特征的識(shí)別更準(zhǔn)確。F1分?jǐn)?shù)進(jìn)一步說(shuō)明了模型的分類精度得以提升。
在PPM 結(jié)構(gòu)中使用深度可分離卷積代替標(biāo)準(zhǔn)卷積時(shí),U?PPM?1248*、U?PPM?14816*、U?PPM?change*的各項(xiàng)精度指標(biāo)比原先稍有提升,參數(shù)量卻大幅驟減。這表明深度可分離卷積可以在降低網(wǎng)絡(luò)參數(shù)量的同時(shí)保證分類的正確率。
預(yù)測(cè)建筑物對(duì)比見(jiàn)圖6,可以看出,各個(gè)網(wǎng)絡(luò)都能取得較好的建筑物識(shí)別效果。與U?PPM?1248、U?PPM?14816 相比,U?PPM?change 網(wǎng)絡(luò)結(jié)構(gòu)更顯著地保留了建筑物的細(xì)節(jié)信息和建筑物的連續(xù)性。在引入深度可分離卷積后,影像的邊緣特征顯著增強(qiáng),建筑物內(nèi)部的空洞呈不同程度的減少。然而,對(duì)于形狀不規(guī)則的建筑物,改進(jìn)后的網(wǎng)絡(luò)雖然較原始U?Net 網(wǎng)絡(luò)有了明顯的提升,但是部分細(xì)節(jié)信息還沒(méi)有體現(xiàn),應(yīng)進(jìn)一步提高網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力。
圖6 預(yù)測(cè)建筑物對(duì)比
1)在U?Net網(wǎng)絡(luò)的下采樣部分引入PPM 結(jié)構(gòu)進(jìn)行多尺度的特征融合有助于保留原始影像豐富的信息,提升分類精度。
2)與固定特征圖尺寸的U?PPM?1248、U?PPM?14816 網(wǎng)絡(luò)相比,輸出特征圖尺寸隨影像尺寸按比例變化的U?PPM?change 網(wǎng)絡(luò)對(duì)于影像的信息保留更豐富,能夠更精準(zhǔn)地識(shí)別建筑物的邊緣等細(xì)節(jié),提升聚合特征的判別力。
3)針對(duì)使用標(biāo)準(zhǔn)卷積提取地物信息參數(shù)量大的問(wèn)題,使用深度可分離卷積代替標(biāo)準(zhǔn)卷積,可以在降低網(wǎng)絡(luò)參數(shù)量的同時(shí)保證分類的正確率。
4)本文的試驗(yàn)數(shù)據(jù)中,由于鐵路沿線周邊建筑物的相似性強(qiáng),訓(xùn)練樣本有限且獲取到的影像均來(lái)自同一傳感器,而實(shí)際應(yīng)用時(shí)往往是多源數(shù)據(jù)的混合使用,且影像覆蓋地物類型眾多。以后的模型改進(jìn)中應(yīng)更注重模型的普適性,增加數(shù)據(jù)集的多樣性和數(shù)量。
5)本文僅提取了研究區(qū)的建筑物,并沒(méi)有對(duì)建筑物進(jìn)行分類,若將影像中的建筑物預(yù)先分成不同類型再進(jìn)行提取,則可對(duì)影像實(shí)現(xiàn)更精細(xì)的提取,有助于后續(xù)房屋應(yīng)用相關(guān)研究的開(kāi)展。