黃小賽,李 艷,馬佩坤,高 揚,吳劍亮
(1.南京大學 國際地球系統(tǒng)科學研究所,江蘇 南京 210023;2.江蘇省地理信息技術重點實驗室,江蘇 南京 210023)
隨著高分辨率衛(wèi)星和航空遙感圖像的不斷涌現,從這些數據中自動檢測或提取人工目標和結構已受到廣泛關注。Kim T[1]等提出了一種基于投票策略的建筑物提取方法,首先用Canny算子等邊緣檢測算法獲取建筑物的邊緣線段,再根據它們之間的空間關系進行分組,最終通過一些經驗知識和搜索方法建立建筑物的空間結構和外形輪廓。CUI S Y[2]等先提取建筑物的幾何特征和灰度特征,再根據其空間分布特征和Hough變換特征提取建筑物輪廓。Croitoru A[3]等首先建立城市建筑物的幾何規(guī)則,然后用直角檢測進一步提高建筑物的提取精度,在城市地區(qū)取得了不錯的效果。Jung C R[4]等先通過窗口Hough變換提取矩形屋頂的角點,再根據幾何約束確定矩形的中心點和方向,最終實現對矩形屋頂的提取。Kass M[5]等提出的Snake算法及其改進算法,特別是水平集算法,由于考慮到分割結果的平滑性,且容易集成先驗知識,被廣泛應用于圖像分割,建筑物提取也不例外[6]。
近年來,深度學習發(fā)展迅速[7]。在圖像處理領域,卷積神經網絡(CNN)[8]在圖像識別中取得了以往分類算法難以實現的驚人效果。與人工提取圖像特征所造成的不確定性相比,該方法可從少量預處理甚至原始數據中學習到抽象、本質和高級的特征,并對平移、旋轉、縮放或其他形式的變形具有一定的不變性,已被廣泛應用于車牌檢測、人臉偵測、文字識別、目標跟蹤、機器學習、計算機視覺等領域[9-11]。
本文將一張高分辨率航空影像和一張DSM圖像作為實驗數據。集成方法中包含兩種網絡模型:用于計算對象是建筑物概率的回歸模型和用于判斷建筑物形狀的分類模型。
首先使用選擇性搜索算法[12]生成感興趣區(qū)域(ROI)及其對應的圖像,這是一個矩形的子圖像;再使用訓練好的回歸模型對每個ROI打分,并采用非極大值抑制算法得到建筑物對象;然后使用分類模型獲得建筑物的形狀;最后使用一種基于點集匹配的形狀匹配方法獲得準確的建筑物輪廓。
Szegedy C[13]等闡述了深層CNN的概念。CNN的工作過程分為前向傳播和后向傳播兩個階段。前向傳播對輸入圖像數據進行多層卷積運算,再利用損失函數計算卷積結果得到損失值。反向傳播是基于卷積反方向上損失值的傳播,用于更新卷積核的權重。
CNN的最大特點是多層卷積,模擬了人類的視覺過程。CNN模型可從低到高,從邊緣、線條到矩形平面地識別對象。
本文提出了回歸網絡模型來評估一個ROI為建筑的概率(圖1)。樣本包括ROI的輸入圖像以及相應的LRaB。
圖1 回歸網絡模型
首先需生成訓練所需的ROI圖像,常見的方法是提供一個固定大小的矩形框,沿著像素移動,再將圖像裁剪為ROI圖像。然而,該方法有兩個問題:ROI圖像的數量太大和相鄰區(qū)域對應的ROI圖像非常相似,換言之,數據非常冗余。為此,參考文獻[12]提出了選擇性搜索算法,用于生成ROIs。選擇性搜索利用基于圖的圖像分割算法[12]生成基本區(qū)域,該分割方法通常是過分割的,但各分割區(qū)域內部具有非常好的同質性,局部細節(jié)保存也很好。一般來說,這些基本區(qū)域很小,是ROI的重要組成部分,所以需按一定的標準將這些基本區(qū)域合并為目標區(qū)域。參考文獻[12]提出了一種區(qū)域合并方法,首先定義了一個函數來計算兩 個區(qū)域在顏色、紋理、大小和擬合度等方面的綜合相似度,再根據綜合相似度的順序來合并基本區(qū)域。通過選擇性搜索,將較小的基本區(qū)域合并為大區(qū)域,就得到了包含不同層次的ROI集合,其中當然也包括建筑物。根據外接矩形切割每個ROI,屬于ROI的像素保留原始灰度值,而其他像素填充為零,即可得到訓練所需的ROI圖像。
然后需為每個ROI指定對應的LRaB,即它們是建筑物的概率。手工分割圖像得到一個二值圖像,其中1為建筑區(qū)域,0為非建筑區(qū)域。LRaB的計算公式為:
式中,Pi為i號ROI 的LRaB;Ri為一張和原始圖像大小相同的二進制圖像,其中位于i號ROI內部的像素值為1,其他像素值為0;Aj為一個手工分割的建筑圖像,大小與原始圖像相同,在編號為j的建筑物內部的像素為1,其他像素為0;S為一張二值圖像中值為1的像素總數(圖2)。通過以上步驟,創(chuàng)建了訓練數據集,如圖3所示。
圖2 選擇性搜索結果和人工分割圖像
圖3 回歸網絡模型訓練數據制作
本文需通過訓練分類模型來判斷建筑物的形狀,因此訓練數據是建筑物圖像以及相應的形狀類別。LRaB>0.7的ROI圖像被認為是建筑物圖像,它的形狀類別被手動標記。本文預定義了4種形狀(圖4),以這些建筑物圖像及其形狀類別作為訓練數據,對建筑物形狀分類模型進行訓練。
圖 4 預定義建筑物形狀類別
輸入一個圖像,通過選擇性搜索得到ROI集,再通過訓練好的回歸模型計算各ROI是建筑物的概率。若一個ROI滿足下列條件則被認定為建筑物:①評分大于0.5;②該ROI的評分超過所有與其有重疊區(qū)域的ROI的評分,即該ROI的評分是一個局部極大值。
圖5為實驗數據1、2的提取結果,證明了回歸模型具有優(yōu)秀的識別和定位能力,圖中白色矩形是被認定為建筑物的ROI的外接矩形。
圖5 回歸模型結果
每個建筑物的形狀是由訓練完成的分類模型判斷得到的。圖6顯示了實驗數據1和2的分類結果,其中不同的顏色對應不同的先驗形狀。從圖6a中可以發(fā)現,這些建筑物的分類最接近于目視觀察的識別。
圖6 建筑物形狀判斷結果(外接矩形顏色與圖4相對應)
為了獲得建筑物的精確輪廓,必須確定從先驗形狀到建筑物ROI的平移、縮放和旋轉參數。通過將建筑物像素設置為1,其他像素設置為0,將每個確定的建筑物ROI轉換為二進制圖像;再通過提取其邊緣得到一個邊緣點集合B(圖7b中白色像素)。
給定5個參數(tx,ty,sx,sy,θ)和一個先驗形狀S,可以得到一個變換后的形狀S*。點的坐標變換方程為:
(x*, y*,1)T=rotation×scaling×translation×(x, y,1)T(2)式中,(x, y)為S中某點的坐標;(x*, y*)為其在S*中的坐標。
式中,translation為平移矩陣;scaling為縮放矩陣;rotation為旋轉矩陣;(a0,b0)為先驗形狀S的重心坐標。
為了提取建筑物的準確輪廓,本文建立了一個代價函數來衡量轉換后的形狀S*與B之間的吻合程度:
式中,?(x, y)為點(x, y)到變換后的形狀S*的最短距離;H(?)為一個二值函數。
式中,T為閾值。
式(7)用于計算B中到變換后形狀S*的最短距離大于閾值T的點的數目。這個代價函數的設計是考慮到集合B中存在一些距離真實建筑物輪廓較遠的“錯誤點”。為了消除這些錯誤點的影響,需找到可以匹配B中大多數點的S*。為了最小化該代價函數,采用基于確定性排擠機制的小生境遺傳算法(NGA)[14]。
完成上述計算后,得到了一組五元參數(tx1,ty1,sx1,sy1,θ1)和對應的變換后形狀S*1。 S*
1已非常接近建筑物真實輪廓,不過為了進一步優(yōu)化建筑輪廓,本文剔除了B中最短距離大于閾值T的點,得到一個新的建筑邊緣點集合B1,并建立了一個新的代價函數為:
依然使用NGA來最小化式(9),目的是尋找最佳匹配。事實上,由于之前求得的五元參數(tx1,ty1,sx1,sy1,θ1)已非常接近最佳匹配,所以可減少搜索空間到它的一個較小鄰域,這樣可大幅提高搜索速度。簡而言之,最小化式(7)消除了錯誤輪廓點,并得到五元參數的近似最優(yōu)值;再最小化式(9),求出最佳匹配參數。
圖8 集成方法圖像分割結果
圖8a、8b的提取精度如表1所示。兩個指標的計算公式為:
式中,B為在真實情況和分割結果中均被分類為建筑物區(qū)域的像素總數量;G為真實情況中是建筑物區(qū)域的像素總數量;O為分割結果中被分類為建筑物區(qū)域的像素總數量。
表1 定量評價
本文提出了一個集成方法來檢測和提取圖像中的建筑物,精細化建筑物的輪廓。該方法包括建筑物定位、建筑物形狀判斷、建筑物形狀匹配等步驟;使用了選擇性搜索算法、CNN和遺傳算法。實驗結果表明,該集成方法在DSM圖像和高分辨率遙感影像上均取得了良好的效果。在未來的研究中,將探索如何在訓練數據較少的情況下訓練出有效的CNN,以及如何在沒有先驗形狀約束的情況下提取準確的建筑物輪廓。
[1] Kim T, Lee T Y, Lim Y J, et al. The Use of Voting Strategy for Building Extraction from High Resolution Satellite Images[J]. IEEE International Geoscience and Remote Sensing Symposium,2005(2):1 269-1 272
[2] CUI S Y, YAN Q, Reinartz P. Complex Building Description and Extraction Based on Hough Transformation and Cycle Detection[J]. Remote Sensing Letters,2012,3(2):151-159
[3] Croitoru A, Doytsher Y. Right-angle Rooftop Polygon Extraction in Regularised Urban Areas: Cutting the Corners [J].Photogrammetric Record,2004,19(108):311-341
[4] Jung C R, Schramm R. Rectangle Detection Based on a Windowed Hough Transform[C].Computer Graphics and Image Processing, Xvii Brazilian Symposium, IEEE Computer Society,2004:113-120
[5] Kass M, Witkin A, Terzopoulos D. Snakes: Active Contour Models[J]. International Journal of Computer Vision,1988,1(4):321-331
[6] LI Y, ZHU L, Shimamura H, et al. An Integrated System on Large Scale Building Extraction from DSM[J]. Int Arch Photogramm Remote Sensing Spat Inf Sci,2010(38):35-39
[7] Salakhutdinov R, Hinton G. Using Deep Belief Nets to Learn Covariance Kernels for Gaussian Processes[C].International Conference on Neural Information Processing Systems, Curran Associates Inc.,2007:1 249-1 256
[8] Fukushima K. A Neural Network Model for Selective Attention in Visual Pattern Recognition[J]. Applied Optics,1986,9(1):5-15
[9] Lawrence S, Giles C L, Tsoi A C, et al. Face Recognition: a Convolutional Neural-network Approach[J]. IEEE Transactions on Neural Networks,1997,8(1):98-113
[10] Turaga S C, Murray J F, Jain V, et al. Convolutional Networks can Learn to Generate Affinity Graphs for Image Segmentation[J].Neural Computation,2010,22(2):511
[11] DONG C, Loy C C, He K, et al. Image Super-resolution Using Deep Convolutional Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295
[12] Vand S K E A,Uijlings J R R, Gevers T,et al. Segmentation as Selective Search for Object Recognition[C].International Conference on Computer Vision, IEEE Computer Society,2011:1 879-1 886
[13] Szegedy C, LIU W, JIA Y, et al. Going Deeper with Convolutions[C].IEEE Conference on Computer Vision and Pattern Recognition, IEEE Computer Society,2015:1-9
[14] Mahfoud S W. Crowding and Preselection Revisited[C].In Parallel Problem Solving from Nature, North-Holland,1992:27-36