蘇杭 劉佳蕙
基金項目:江蘇省研究生科研與實踐創(chuàng)新計劃項目;項目名稱:基于深度學習的高分辨率遙感圖像邊緣提取研究;項目編號:2021XKT0095。江蘇省研究生科研與實踐創(chuàng)新計劃項目;項目名稱:電力設(shè)施環(huán)境AI遙感監(jiān)測研究;項目編號:KYCX21_2627。
作者簡介:蘇杭(1998— ),女,河南洛陽人,碩士研究生;研究方向:深度學習,邊緣檢測,遷移學習。
摘要:建筑物邊緣提取對智慧城市建設(shè)具有重要的研究意義,采用人工標注建筑物邊緣的方法需要消耗大量的人力物力。目前,利用深度學習的方法已經(jīng)能提取建筑物大致輪廓,但其需要大量的人工標注的精確樣本進行訓練。因此,文章構(gòu)建了3個邊緣檢測數(shù)據(jù)集并復現(xiàn)了2個經(jīng)典邊緣檢測網(wǎng)絡(luò)RCF和BDCN進行交叉訓練測試實驗,評估邊緣檢測模型的可遷移性,為研究構(gòu)建普適性更強的邊緣檢測網(wǎng)絡(luò)提供思路。
關(guān)鍵詞:深度學習;邊緣檢測;遷移學習
中圖分類號:P237 文獻標志碼:A
0 引言
建筑物是城市化建設(shè)過程中更新最頻繁的地物之一,因此及時更新建筑物變化信息對于城市的發(fā)展至關(guān)重要。近年來,越來越多的測繪學者傾向于從高分遙感影像上提取建筑物信息[1]。傳統(tǒng)的邊緣檢測算法主要依靠局部像素的灰度劇烈變化判斷邊緣[2],然而在遙感圖像中存在道路、汽車等非建筑物的邊緣。因此,傳統(tǒng)的邊緣檢測算子提取出的邊緣并不純粹。
隨著計算機技術(shù)的發(fā)展,學者們將深度卷積神經(jīng)網(wǎng)絡(luò)運用到邊緣檢測中來,并提出了一系列基于深度學習的邊緣檢測方法。其中,比較經(jīng)典的有:RCF充分考慮VGG16網(wǎng)絡(luò)所有的卷積層,從而能夠獲得更豐富的特征信息,大幅提高邊緣檢測的性能。BDCN在網(wǎng)絡(luò)模型中加入了尺度增強模塊,使網(wǎng)絡(luò)能夠充分學習不同尺度的特征。近年來,不少學者將其應用于高分遙感影像的建筑物邊緣檢測并取得了較高的精度。
但深度學習模型的訓練依賴于大量人工標注的精確樣本,且不同地區(qū)不同分辨率的遙感圖像存在差異,訓練好的模型普適性較差,表現(xiàn)出強烈的樣本依賴性。遷移學習指將一個區(qū)域?qū)W習到的知識運用到另一個區(qū)域中。其中,帶有精確標簽的區(qū)域稱為源域,缺乏標簽的區(qū)域稱為目標域。遷移學習可以使網(wǎng)絡(luò)在學習源域特征時兼顧學習目標域的特征,使深度學習模型能夠更好地適用于目標域[3]。目前,邊緣檢測的遷移多為醫(yī)學領(lǐng)域[4],醫(yī)學影像相似度高,背景比較單一,遷移難度低。而遙感影像地物復雜,背景雜亂,不同地區(qū)各有特點,遷移難度大。因此,評估邊緣檢測網(wǎng)絡(luò)的可遷移性,并分析影響遷移性的各種因素具有重要的研究價值。本文復現(xiàn)了常用的深度邊緣檢測網(wǎng)絡(luò)RCF和BDCN并將其應用于高分遙感影像的建筑物邊緣提取,構(gòu)建三大高分遙感影像建筑物數(shù)據(jù)集,評估邊緣檢測網(wǎng)絡(luò)的可遷移性。
1 數(shù)據(jù)集
1.1 南京市江北新區(qū)無人機數(shù)據(jù)集
本文的實驗區(qū)的無人機正射影像是通過無人機于2019年10月在中國江蘇省南京市江北新區(qū)飛行航拍獲得。該數(shù)據(jù)的空間分辨率為0.3m,波段為RGB,尺寸為27 337×21 816大小的柵格圖像。整個數(shù)據(jù)集大約覆蓋9 km2。由于計算機配置有限,將圖片裁剪為256×256大小。通過數(shù)據(jù)標注、劃分切片、篩去無建筑切片等步驟完成數(shù)據(jù)集制作。最終用于訓練、測試的圖塊數(shù)目分別為8 000張、515張。
1.2 馬薩諸塞州衛(wèi)星遙感影像數(shù)據(jù)集
馬薩諸塞州數(shù)據(jù)集為多倫多大學2013年標注的航空影像建筑數(shù)據(jù)集。該數(shù)據(jù)集空間分辨率為1m,波段為RGB,覆蓋馬薩諸塞州364.5 km2區(qū)域。該數(shù)據(jù)集每幅影像分辨率為1 500×1 500,共162張。該影像中建筑物個體分明,分布較為均勻,建筑物類型多樣,其中以小型建筑物居多。本文主要研究邊緣檢測問題,因此將原數(shù)據(jù)集中的面標簽統(tǒng)一矢量化為線標簽。為更好地做模型評價,統(tǒng)一將影像裁剪為256×256大小,最終用于訓練、驗證測試的圖塊數(shù)目分別為10 600張、250張。
1.3 Inria航空影像數(shù)據(jù)集
Inria數(shù)據(jù)集包含覆蓋面積810 km2的空間分辨率為0.3 m的航空正射彩色圖像。這些影像覆蓋了不同的城市聚落,數(shù)據(jù)量大,涵蓋范圍廣,建筑物風格多樣。本文與馬薩諸塞州數(shù)據(jù)集處理方法相同,同樣將面標簽進行矢量化,將影像和標簽統(tǒng)一裁剪為256×256大小。最終用于訓練、驗證測試的圖塊數(shù)目分別為55 955張、9 025張。
2 深度學習邊緣檢測網(wǎng)絡(luò)
2.1 RCF網(wǎng)絡(luò)
RCF以VGG16分類網(wǎng)絡(luò)為基礎(chǔ)框架,RCF在每一層主干部分的卷積都連接一個卷積核大小為1×1,通道深度為21的卷積層,對得到的每層特征進行上采樣,計算交叉熵損失。最終使用1×1大小的卷積對5個側(cè)邊層進行特征融合,得到融合層的建筑物邊緣提取結(jié)果。本文經(jīng)過多次實驗最終得出RCF網(wǎng)絡(luò)訓練3個數(shù)據(jù)集的最優(yōu)參數(shù)如表1所示。
2.2 BDCN網(wǎng)絡(luò)
BDCN同樣以VGG16分類網(wǎng)絡(luò)為基礎(chǔ)框架,不同于RCF,BDCN采用了雙向傳播邊緣特征圖的方式,可以在淺層和深層之間雙向傳播。低層的網(wǎng)絡(luò)可以注意到更多的邊緣細節(jié),但是同時會引入很多非建筑物邊緣的噪聲。高層網(wǎng)絡(luò)提取的建筑物圖像更加整潔,非邊緣噪聲減少,但邊緣較粗,忽略了細節(jié)邊緣。將10個特征層經(jīng)過上采樣后融合在一起可以使網(wǎng)絡(luò)提取不同尺度的信息。表2描述了BDCN網(wǎng)絡(luò)在3個建筑物邊緣數(shù)據(jù)集最終優(yōu)化的參數(shù)值。
2.3 訓練結(jié)果
2.3.1 精度評價指標
通常對邊緣檢測網(wǎng)絡(luò)提取結(jié)果的精度評價采用邊緣提取的評價指標,本文采用6個常用的評價指標衡量邊緣提取的準確性,分別是總體準確率(OA)、精確率(Precision)、召回率(Recall)、F1分數(shù)、IoU值和Kappa系數(shù)。
在邊緣檢測網(wǎng)絡(luò)中,人眼難以精準勾繪有些真值標簽數(shù)據(jù)集。本文按照松弛標準下的精確率和召回率作為該類情況的評價指標。松弛精確率定義為真實建筑邊緣像元ρ個像元范圍內(nèi)的預測邊緣像元的指標得分,而松弛召回率定義為預測建筑物邊緣像元ρ個像元范圍內(nèi)的真實邊緣像元的指標得分。本研究將ρ設(shè)置為3作為松弛方案的實驗參數(shù)。
2.3.2 江北新區(qū)數(shù)據(jù)集訓練結(jié)果
本文按照常用的邊緣檢測評價指標評估了2個邊緣檢測網(wǎng)絡(luò)的RCF和BDCN對于江北新區(qū)數(shù)據(jù)集預測精度結(jié)果。如表3所示,2個網(wǎng)絡(luò)的OA值得分均在94%以上。在召回率方面,2個網(wǎng)絡(luò)相差不大。在準確率方面,BDCN明顯優(yōu)于RCF。
2.3.3 馬薩諸塞州數(shù)據(jù)集訓練結(jié)果
表4為RCF和BDCN兩個邊緣檢測網(wǎng)絡(luò)對于馬薩諸塞州數(shù)據(jù)集的邊緣概率圖預測精度結(jié)果。在召回率方面,2個網(wǎng)絡(luò)相差不大。在準確率方面,BDCN明顯優(yōu)于RCF。但不同的是,馬薩諸塞州地物背景單一。由于分辨率較低,小型建筑物群建筑物類型區(qū)別不大,網(wǎng)絡(luò)能夠更快地完成收斂,總體預測精度較高。
2.3.4 Inria訓練結(jié)果
表5為RCF和BDCN兩個邊緣檢測網(wǎng)絡(luò)對于Inria數(shù)據(jù)集的邊緣概率圖預測精度結(jié)果。BDCN在召回率方面比RCF高很多,在準確率方面有所下降,但最終F1評分都比較低。由于Inria數(shù)據(jù)集建筑物類型眾多且復雜,部分地區(qū)樹木對建筑物遮擋較多,且由于太陽角度,建筑物陰影邊緣與真實建筑物邊緣難以區(qū)分。網(wǎng)絡(luò)參數(shù)有限,難以對每一類建筑物都做出較好的預測。因此,Inria訓練難度最大,時間最長,訓練結(jié)果精度較低。
3 交叉遷移結(jié)果評估
為了分析RCF、BDCN邊緣檢測網(wǎng)絡(luò)對于不同數(shù)據(jù)集的可遷移性,本文進行了交叉數(shù)據(jù)集的評估實驗。本文使用的兩種邊緣檢測網(wǎng)絡(luò)在3個數(shù)據(jù)集上進行跨數(shù)據(jù)集訓練和測試,松弛的定量評估結(jié)果如表6—7所示。顯然各數(shù)據(jù)集在其由自己區(qū)域的標簽訓練出來的網(wǎng)絡(luò)取得的精度最高,采用其他數(shù)據(jù)集和標簽訓練的網(wǎng)絡(luò)精度表現(xiàn)較差。
綜合對比兩表,從數(shù)據(jù)集方面看,以Inria數(shù)據(jù)集作為訓練集遷移到其他測試集上取得的效果最好,尤其是在馬薩諸塞州測試集上能夠獲得更好的表現(xiàn)。而以馬薩諸塞州作為訓練集訓練出的模型遷移到其他數(shù)據(jù)集上取得的精度最差。由此分析,Inria數(shù)據(jù)集覆蓋面積大,建筑物類型多,網(wǎng)絡(luò)能夠?qū)W習到更豐富的建筑物特征,采用此數(shù)據(jù)集作為訓練集遷移效果會優(yōu)于其他數(shù)據(jù)集。而馬薩諸塞州數(shù)據(jù)集分辨率低,建筑物類型單一,將其作為訓練集學習到的建筑物特征太少,遷移效果不夠理想。因此,數(shù)據(jù)集的選擇對于遷移學習具有一定的影響,但過度增加訓練集數(shù)量,會增加網(wǎng)絡(luò)訓練時長,甚至會由于數(shù)據(jù)差異過大,網(wǎng)絡(luò)參數(shù)有限,不能完成收斂。從邊緣檢測網(wǎng)絡(luò)方面看,在訓練集和測試集相同的情況下,相對來說BDCN的網(wǎng)絡(luò)的遷移性優(yōu)于RCF網(wǎng)絡(luò),因為BDCN網(wǎng)絡(luò)包含尺度增強模塊,且其獨特的雙向傳播方法可以更好地保留建筑物不同尺度的特征。因此,可以參考BDCN網(wǎng)絡(luò)的特性,重點關(guān)注如何提取不同尺度建筑物邊緣的特征,使其能夠適用于更多不同地區(qū)、不同風格的建筑物邊緣提取。
4 結(jié)語
文章探討了深度學習、邊緣檢測、遷移學習等相關(guān)理論,構(gòu)建了江北新區(qū)、馬薩諸塞州、Inria三大建筑物邊緣數(shù)據(jù)集,同時復現(xiàn)兩個經(jīng)典的邊緣檢測網(wǎng)絡(luò)RCF和BDCN并將其應用于建筑物邊緣提取中。通過實驗對比可知,以數(shù)據(jù)量大、建筑物類型豐富的數(shù)據(jù)集作為訓練集,有助于網(wǎng)絡(luò)學習更多的建筑物邊緣特征,從而提升遷移效果。BDCN網(wǎng)絡(luò)的遷移性優(yōu)于RCF,但其效果仍具有很大的改進空間。未來通過改進邊緣檢測模型解決遷移問題具有很大的研究空間和研究價值。
參考文獻
[1] YANG G, ZHANG Q, ZHANG G. EANet: Edge-aware network for the extraction of buildings from aerial images[J]. Remote Sensing, 2020(13): 2161.
[2]杜緒偉,陳東,馬兆昆,等.基于Canny算子的改進圖像邊緣檢測算法[J].計算機與數(shù)字工程,2022(2):410-413,457.
[3]司龍偉.基于遷移學習的高分遙感影像場景分類[J].江蘇科技信息,2019(35):22-24.
[4]黎英,宋佩華.遷移學習在醫(yī)學圖像分類中的研究進展[J].中國圖象圖形學報,2022(3):672-686.
(編輯 王永超)
Abstract: The edge extraction of buildings has important research significance for the construction of smart cities. The method of artificially marked the edge of the building requires a lot of manpower and material resources. At present, the method of deep learning has been able to extract the rough outline of the building, but it requires a large number of precise samples of artificially labeled for training. Therefore, this article builds three edge detection data sets and reproduces two classic edge detection network RCF and BDCN for cross-training test experiments, to evaluate the migration of the edge detection model and build a more universal edge detection network for the study.
Key words: deep learning; edge detection; transfer learning