基于DDPM的遙感建筑輪廓數(shù)據(jù)增強(qiáng)方法

2024-11-02 00:00:00馬孝冬朱靈杰解則曉高翔

現(xiàn)代電子技術(shù) 2024年21期

摘 "要：針對現(xiàn)有真實場景遙感建筑輪廓數(shù)據(jù)集存在數(shù)據(jù)豐富度有限、復(fù)雜形狀數(shù)據(jù)樣本量少，影響模型性能等問題，文中提出一種基于擴(kuò)散模型的有限遙感數(shù)據(jù)增強(qiáng)方法，對合成數(shù)據(jù)和真實數(shù)據(jù)進(jìn)行訓(xùn)練，從而得到形狀更加豐富的建筑物數(shù)據(jù)，擴(kuò)充建筑物數(shù)據(jù)的多樣性。首先，使用擴(kuò)散模型DDPM對合成建筑數(shù)據(jù)和真實場景數(shù)據(jù)訓(xùn)練集進(jìn)行訓(xùn)練，生成大量與真實數(shù)據(jù)分布更接近、形狀更多樣的數(shù)據(jù)；然后，使用基于Transformer改進(jìn)的輪廓提取模型在合成數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練；最后，在真實數(shù)據(jù)集上進(jìn)行建筑物輪廓提取。實驗結(jié)果表明：使用預(yù)訓(xùn)練模型訓(xùn)練與未使用預(yù)訓(xùn)練模型相比，在交并比、頂點檢測精確率、頂點檢測召回率、頂點檢測[F1]分?jǐn)?shù)、角度預(yù)測精確率、角度預(yù)測召回率、角度預(yù)測[F1]分?jǐn)?shù)上分別提升了1.7%、2.4%、2.5%、2.5%、7.3%、8.2%、7.7%，表明在大規(guī)模合成數(shù)據(jù)上預(yù)訓(xùn)練有助于提升建筑物輪廓提取模型在真實數(shù)據(jù)上的表現(xiàn)；同時使用1.2×105合成數(shù)據(jù)預(yù)訓(xùn)練比2.4×104合成數(shù)據(jù)預(yù)訓(xùn)練在上述指標(biāo)上提升0.8%、0.9%、1.3%、1.1%、1.1%、0.7%、0.9%，驗證了預(yù)訓(xùn)練數(shù)據(jù)量增加對模型性能提升的有效性。

關(guān)鍵詞：遙感數(shù)據(jù)；合成數(shù)據(jù)；建筑物輪廓提??；數(shù)據(jù)生成；數(shù)據(jù)增強(qiáng)；擴(kuò)散模型

中圖分類號： TN911?34； TP751.1 " " " " " " " " " " 文獻(xiàn)標(biāo)識碼： A " " " " " " " " "文章編號： 1004?373X（2024）21?0106?07

Remote sensing building contour data augmentation method based on DDPM

MA Xiaodong1， ZHU Lingjie2， XIE Zexiao1， GAO Xiang3

（1. College of Engineering， Ocean University of China， Qingdao 266100， China;

2. Cenozoic Robotics， Hangzhou 310052， China;

3. Institute of Automation， Chinese Academy of Sciences， Beijing 100190， China）

Abstract： In view of the limited data richness in the existing real scene remote sensing building contour data sets and the insufficient samples of complex?shaped data， which affects model performance， a limited remote sensing data enhancement method based on diffusion model is proposed. In the method， the synthetic data and real data are trained to obtain buildings with richer shapes and expand the diversity of building data. First， the denoising diffusion probabilistic model （DDPM） is used to train the synthetic building data and real scene data training set， which in turn generates a large amount of data with closer distribution and more diverse shapes than the real data. Then， the improved contour extraction model based on Transformer is used for pre?training on the synthetic dataset. Finally， the building contour extraction is performed on the real dataset. The experimental results indicate that the training with pre?trained models improves the performance in comparison with the training without pre?training on the synthetic dataset， with respective increases of 1.7%， 2.4%， 2.5%， 2.5%， 7.3%， 8.2% and 7.7% in intersection over union （IoU）， vertex detection precision， vertex detection recall， vertex detection [F1] score， angle prediction precision， angle prediction recall， and angle prediction [F1] score， which demonstrates that the pre?training on large?scale synthetic data helps improve the performance of building contour extraction models on real data. Additionally， the pre?training with 1.2×105 synthetic data improves the above mentioned indicators by 0.8%， 0.9%， 1.3%， 1.1%， 1.1%， 0.7% and 0.9%， respectively， in comparison with the results of the pre?training with 2.4×104 synthetic data， which validates that the increase of pre?training data is effective in improving the performance of the model.

Keywords： remote sensing data; synthetic data; building contour extraction; data generation; data augmentation; diffusion model

0 "引 "言

從遙感圖像中提取矢量化表示的建筑物輪廓對于三維城市建模[1?2]、地籍地形測繪[3]、地圖更新[4]等方面具有重要意義。目前這項任務(wù)大都基于深度神經(jīng)網(wǎng)絡(luò)，有很多遙感圖像數(shù)據(jù)集[5?6]用于模型訓(xùn)練。但現(xiàn)有數(shù)據(jù)集豐富度有限，對于某些復(fù)雜形狀的建筑，難以獲得足夠的樣本來訓(xùn)練模型；除此之外，真實場景數(shù)據(jù)集中存在部分復(fù)雜形狀數(shù)據(jù)標(biāo)注不準(zhǔn)確的情況，影響模型的性能。

為解決上述問題，可以合成大量復(fù)雜形狀數(shù)據(jù)來訓(xùn)練模型。合成數(shù)據(jù)可以覆蓋更廣泛的場景和情況，提高數(shù)據(jù)豐富度，使模型在面對新的、未見過的情況時具有更好的泛化能力，從而提高建筑物輪廓提取的準(zhǔn)確性和魯棒性。在圖像生成方面，生成式模型是當(dāng)前主流方法，其主要目標(biāo)是學(xué)習(xí)并模擬數(shù)據(jù)的生成過程，從而能夠生成與原始數(shù)據(jù)類似的新樣本。生成式模型應(yīng)用非常廣泛，在圖像生成、自然語言處理、音頻生成等領(lǐng)域取得了顯著的成就。文獻(xiàn)[7]提出了變分自編碼器（Variational Autoencoder， VAE），它是一種基于概率圖模型的生成式模型，通過編碼器和解碼器的結(jié)合學(xué)習(xí)數(shù)據(jù)的潛在表示，并從中生成新的樣本。文獻(xiàn)[8]提出了生成對抗網(wǎng)絡(luò)（Generative Adversarial Network， GAN），其中包含一個生成器網(wǎng)絡(luò)和一個判別器網(wǎng)絡(luò)，通過對抗訓(xùn)練的方式，使得生成器網(wǎng)絡(luò)能夠生成逼真的樣本，從而模擬數(shù)據(jù)的真實分布。與VAE相比，GAN能生成更清晰和更多樣的數(shù)據(jù)。文獻(xiàn)[9]提出了擴(kuò)散模型（Diffusion Probabilistic Model， DPM），它基于馬爾科夫鏈（Markov Chain），在一系列隨機(jī)擴(kuò)散步驟中不斷添加高斯噪聲，逐漸將數(shù)據(jù)的分布代入簡單的高斯分布；之后使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個隨機(jī)過程的反向過程，將隨機(jī)采樣的高斯噪聲作為輸入，逐步去噪，從高斯分布逼近感興趣的分布，實現(xiàn)對數(shù)據(jù)的建模。DPM訓(xùn)練時只需要訓(xùn)練生成器即可，而GAN還需要訓(xùn)練判別器。文獻(xiàn)[10]提出了去噪概率擴(kuò)散模型（Denoising Diffusion Probabilistic Model， DDPM），它優(yōu)化了DPM，提高了生成圖像的質(zhì)量，奠定了擴(kuò)散模型在圖像生成領(lǐng)域應(yīng)用的基礎(chǔ)。

本文提出了一種基于DDPM的遙感數(shù)據(jù)增強(qiáng)方法。首先使用DDPM對初始建筑數(shù)據(jù)進(jìn)行訓(xùn)練，生成大規(guī)模合成建筑物輪廓數(shù)據(jù)，增加數(shù)據(jù)豐富度；然后基于Transformer[11]的建筑物輪廓提取模型[12]在合成建筑數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練；最后使用預(yù)訓(xùn)練模型在真實數(shù)據(jù)集上微調(diào)。該方法能增加數(shù)據(jù)豐富度及數(shù)量，用于提升建筑物輪廓提取模型性能，整體流程如圖1所示。

1 "數(shù)據(jù)生成

1.1 "去噪概率擴(kuò)散模型DDPM

DDPM的基本原理可以概括為兩個過程：前向擴(kuò)散過程和反向過程，如圖2所示。

1.1.1 "前向擴(kuò)散過程

設(shè)初始數(shù)據(jù)分布為[x0～qx]，DDPM的正向擴(kuò)散過程將向該分布中逐步添加高斯噪聲，隨著時間步長的增大，最終數(shù)據(jù)的分布[xT]變成了一個高斯分布。前向擴(kuò)散過程可以看作一個馬爾科夫鏈，表示為：

[px0：T=qx0t=1Tqxtxt-1] （1）

式中[p（x0：T）]表示整個網(wǎng)絡(luò)的聯(lián)合概率分布。由于概率密度函數(shù)[q（x）]無法確定但是[x0]已知，根據(jù)鏈?zhǔn)椒▌t，可以將聯(lián)合概率分布轉(zhuǎn)換為條件概率分布：

[qx1：Tx0=t=1Tqxtxt-1qxtxt-1=Nαtxt-1，（1-αt）I] （2）

式中[qxtxt-1]可以看作是在[αtxt-1]上增加了隨機(jī)高斯噪聲數(shù)據(jù)[?]。

[xt=αtxt-1+N0，（1-αt）I=αtxt-1+1-αt?， " "?～N（0，I）] （3）

式中[αtlt;1]。由式（3）可知，DDPM的前向擴(kuò)散過程中，隨著時間步的增加，[xt]最終將接近標(biāo)準(zhǔn)正態(tài)分布。原則上[xt]的獲取需要經(jīng)過循環(huán)運算，但是經(jīng)過重參數(shù)化，可將[xt]變?yōu)椋?/p>

[xt=αtx0+1-αt?， " "xt～Nαtx0，（1-αt）Iαt=i=1tαi， " "?～N（0，I）] （4）

由式（4）可以直接從[x0]計算任意時刻的[x]，提高運算效率。

1.1.2 "反向過程

DDPM的反向過程是一個去噪的過程。對于從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)采樣得到的高斯噪聲[xT]進(jìn)行逐步去噪，最終得到和初始數(shù)據(jù)分布一致的圖像[x0]。同樣，按照鏈?zhǔn)椒▌t，反向過程可分解為：

[p（x0：T）=p（xT）t=T-10pxtxt+1] （5）

式中條件概率[pxtxt+1]計算比較困難，因此，DDPM采用神經(jīng)網(wǎng)絡(luò)去擬合它，得到一個近似分布，定義為[pθxtxt+1]，[θ]為模型參數(shù)，通過以下目標(biāo)函數(shù)來優(yōu)化。

[argminθ?θ（xt，t）-?22] （6）

式中[?θ（xt，t）]表示從時間步[t]-1～[t]添加的隨機(jī)高斯噪聲。

1.2 "DDPM訓(xùn)練用數(shù)據(jù)

訓(xùn)練DDPM所使用的數(shù)據(jù)包括基礎(chǔ)合成數(shù)據(jù)以及3.1.1節(jié)中數(shù)據(jù)訓(xùn)練集。本文定義的合成多邊形數(shù)據(jù)集包括八種形狀的建筑模板，即矩形（Rec）、L形、T形、H形、C形、Z形、塔形（Tower）及交叉形（Cross），如圖3所示。

2 "建筑輪廓提取模型

RoomFormer[12]是一個基于Transformer改進(jìn)的網(wǎng)絡(luò)，如圖4所示，用于對室內(nèi)場景進(jìn)行矢量化建模。建筑物結(jié)構(gòu)化輪廓提取與室內(nèi)場景平面圖重建相似，為序列預(yù)測問題，輸入是圖片，輸出是多邊形序列；同時RoomFormer為Transformer架構(gòu)，對大數(shù)量具有更好的適配性，因此本文使用RoomFormer作為建筑物輪廓提取的基線方法進(jìn)行相關(guān)實驗。

RoomFormer將室內(nèi)場景矢量化建?？醋魇嵌噙呅涡蛄蓄A(yù)測問題，場景中每個房間被看作是一個有序頂點序列，利用Transformer對序列建模的有效性，引入了兩級查詢，使得網(wǎng)絡(luò)可以直接輸出室內(nèi)場景中每個房間的頂點序列。RoomFormer基本組成可分為以下幾個部分。

2.1 "特征提取網(wǎng)絡(luò)

特征提取網(wǎng)絡(luò)為CNN，對輸入圖像進(jìn)行卷積得到多尺度特征圖[xl∈RC×Hl×Wl]，其中[l]表示特征圖層級，[C]表示特征維度，[H]、[W]表示圖像高和寬；然后，對每層特征圖進(jìn)行逐像素位置編碼，將編碼后的位置信息[el∈RC×Hl×Wl]與特征圖相加，得到多尺度融合特征[fl∈RC×Hl×Wl]；最后，將各個尺度的融合特征圖展平進(jìn)行拼接得到Transformer編碼器的輸入。

2.2 "Transformer編碼器

Transformer編碼器輸入為多尺度特征圖，輸出為相同分辨率的增強(qiáng)特征圖。每個編碼器層由多尺度可變形自注意力（Multi?Scale Deformable Self?Attention， MS?DSA）模塊和前饋網(wǎng)絡(luò)（Feed Forward Network， FFN）組成。在MS?DSA模塊中，查詢和鍵元素都來自多尺度特征圖的像素特征。參考點是每個查詢像素的坐標(biāo)。特征表示中還加入了可學(xué)習(xí)的尺度級別嵌入，以確定每個查詢像素位于哪個特征級別。

MS?DSA與傳統(tǒng)注意力機(jī)制對輸入特征圖所有位置進(jìn)行運算不同，只對參考點周圍的關(guān)鍵采樣點進(jìn)行運算，減少了計算復(fù)雜度。

2.3 "Transformer解碼器

解碼器中的每個解碼器層由自注意力模塊、多尺度可變交叉注意力模塊（Multi?Scale Deformable Cross Attention， MS?DCA）和FFN組成。Transformer解碼器輸入為編碼器的增強(qiáng)特征圖和上一解碼器層的多邊形查詢向量[Qi-1∈RM×N×C]，輸出為不斷迭代細(xì)化后的多邊形查詢向量[Qi∈RM×N×C]。最終，細(xì)化后的多邊形查詢向量經(jīng)過一個FFN，得到密度圖的矢量化表達(dá)[S∈RM×N×3]，[M]表示設(shè)置的最大多邊形查詢數(shù)量，[N]表示設(shè)置的每個多邊形輪廓的最大長度，3表示預(yù)測頂點的信息，包括用于判斷是否為頂點的標(biāo)志（1表示頂點，0表示非頂點）及坐標(biāo)（[x]、[y]）。

3 "實驗與分析

3.1 "數(shù)據(jù)集及評價指標(biāo)

3.1.1 "數(shù)據(jù)集

本文使用的數(shù)據(jù)集來自Building3D數(shù)據(jù)集[13]，Building3D數(shù)據(jù)集是首個城市級建筑物數(shù)據(jù)集，其數(shù)據(jù)為真實建筑數(shù)據(jù)，包含了大部分房屋類型，可用于大規(guī)模城市場景建模。Building3D數(shù)據(jù)集中的樣本為來自愛沙尼亞城市的超過1.6×105棟建筑的激光雷達(dá)點云數(shù)據(jù)，包括建筑物點云和屋頂點云，標(biāo)簽為使用商業(yè)軟件建模得到的網(wǎng)格（Mesh）和線框（Wireframe）模型。由于建筑物輪廓提取模型輸入為圖片，因此需要對Building3D數(shù)據(jù)集進(jìn)行處理。將點云轉(zhuǎn)換成二值化點云投影圖，如圖5第一行所示；對Mesh進(jìn)行渲染，提取輪廓，得到輪廓數(shù)組作為標(biāo)簽，如圖5第二行所示。

3.1.2 "評價指標(biāo)

本文使用FID（Fréchet Inception Distance）[14]和最大平均差異（Maximum Mean Discrepancy， MMD）[15]來評估DDPM生成樣本的效果，使用交并比（Intersection over Union， IoU）、精確率、召回率和[F1]分?jǐn)?shù)評價建筑物輪廓提取模型的性能[12]。

FID是一種用于評估生成式模型生成圖像質(zhì)量的指標(biāo)，通過計算生成圖像的特征分布與真實圖像的特征分布之間的Fréchet距離來度量生成圖像的質(zhì)量。計算式如下：

[FID（X，Y）=μX-μY2+TrCX+CY-2CXCY] （7）

式中：[μX]、[μY]分別是數(shù)據(jù)集[X={x1，x2，…，xm}]和數(shù)據(jù)集[Y={y1，y2，…，yn}]的特征向量的均值；[CX]、[CY]分別是數(shù)據(jù)集[X]和數(shù)據(jù)集[Y]的特征向量的協(xié)方差矩陣；Tr表示矩陣的跡；[?2]表示[L2]范數(shù)。FID的值越低表示生成圖像與真實圖像之間的分布越接近，即生成的圖像質(zhì)量越高。與FID類似，MMD也是對生成數(shù)據(jù)和真實數(shù)據(jù)分布差異的一種度量，但是MMD是將數(shù)據(jù)映射到希爾伯特空間中進(jìn)行度量的。MMD將圖像輸入預(yù)訓(xùn)練的CNN中獲得高維特征向量，然后使用核函數(shù)（一般為高斯核函數(shù)）將兩個分布映射到希爾伯特空間，計算它們距離的均值。MMD的計算公式如下：

[MMD2（X，Y）=1mi=1mf（xi）-1nj=1nf（yj）2H] （8）

式中：[m]和[n]表示數(shù)據(jù)集[X]、[Y]的樣本數(shù)量；[f（?）]表示高斯核函數(shù)。MMD值越小表示兩個數(shù)據(jù)集之間的分布越相似。

[P]（精確率，Precision）、[R]（召回率，Recall）和[F1]分?jǐn)?shù)計算式分別如下：

[P=TP（TP+FP）R=TP（TP+FN）F1=2PR（P+R）] （9）

式中：TP表示樣本被分為正樣本且分類正確；FP表示樣本被分為正樣本但分類錯誤；FN表示樣本被分為負(fù)樣本但分類錯誤。

3.2 "實驗設(shè)置

DDPM使用Adam優(yōu)化器[16]進(jìn)行模型訓(xùn)練，學(xué)習(xí)率為8×10-5，損失函數(shù)為MSE（Mean Squared Error），在DDPM中，參數(shù)[βt=1-αt]，通常用于調(diào)整噪聲水平，以控制模型的生成過程。優(yōu)化[βt]的策略通常是通過訓(xùn)練過程中的學(xué)習(xí)，使得模型學(xué)習(xí)到最優(yōu)的[βt]值，以最大程度地減少生成樣本的噪聲，提高生成質(zhì)量。DDPM中使用Sigmoid動態(tài)增長策略，前向擴(kuò)散步數(shù)為1 000。

RoomFormer使用AdamW優(yōu)化器[17]進(jìn)行模型訓(xùn)練，學(xué)習(xí)率為5×10-5，采用多步長學(xué)習(xí)率調(diào)度器動態(tài)調(diào)整學(xué)習(xí)率，權(quán)重衰減因子為1×10-4，訓(xùn)練周期為400。

3.3 "DDPM相關(guān)實驗

對DDPM的訓(xùn)練策略進(jìn)行了相關(guān)對比實驗，實驗結(jié)果如表1所示。其中，Nof為Number of的縮寫，RTR（Random Transform Ratio）表示合成數(shù)據(jù)中變形數(shù)據(jù)占總數(shù)據(jù)量的比例，變形數(shù)據(jù)是對合成數(shù)據(jù)中隨機(jī)選取的邊進(jìn)行拉伸或收縮，拉伸或收縮的長度為該邊長度的[15～12]；Real Data表示在DDPM的訓(xùn)練過程中是否加入真實數(shù)據(jù)的訓(xùn)練集。

由定量結(jié)果可知，訓(xùn)練DDPM的合成數(shù)據(jù)量為1.28×105或2.56×105時，模型在FID和MMD上的表現(xiàn)是近似的。在合成數(shù)據(jù)量為1.28×105的基礎(chǔ)上，加入Random Transform后，模型生成數(shù)據(jù)的性能有了一定的提高，當(dāng)比例設(shè)置為0.2時，DDPM的FID和MMD較之前分別降低了4.21和0.028。在當(dāng)前基礎(chǔ)上加入真實數(shù)據(jù)的訓(xùn)練集訓(xùn)練DDPM，模型生成數(shù)據(jù)與真實數(shù)據(jù)的FID和MMD為36.41和0.443，比之前下降了1.84和0.032。本節(jié)最終選取1.28×105合成真實數(shù)據(jù)、RTR=0.2以及加入真實數(shù)據(jù)條件下訓(xùn)練的DDPM模型來生成新的合成數(shù)據(jù)，部分生成結(jié)果如圖6所示。

3.4 "RoomFormer實驗

3.4.1 "實驗一

在使用與真實數(shù)據(jù)訓(xùn)練集規(guī)模相當(dāng)?shù)暮铣蓴?shù)據(jù)量的條件下，對RoomFormer的訓(xùn)練策略進(jìn)行了相關(guān)對比實驗，實驗結(jié)果如表2所示。

表2中，Pre?Train Epochs表示RoomFormer在使用DDPM生成的數(shù)據(jù)集上預(yù)訓(xùn)練的輪數(shù)，Train Epochs表示RoomFormer在真實數(shù)據(jù)上的訓(xùn)練輪數(shù)。

由表2結(jié)果可知，使用預(yù)訓(xùn)練的RoomFormer在真實數(shù)據(jù)集上進(jìn)行微調(diào)后，在各個指標(biāo)上的綜合表現(xiàn)優(yōu)于未進(jìn)行微調(diào)的模型。當(dāng)微調(diào)輪數(shù)不變，預(yù)訓(xùn)練輪數(shù)增加時，RoomFormer的性能也隨之提高；當(dāng)預(yù)訓(xùn)練輪數(shù)不變，微調(diào)輪數(shù)設(shè)置在200時，模型的性能最優(yōu)。當(dāng)預(yù)訓(xùn)練輪數(shù)設(shè)置為400，微調(diào)輪數(shù)設(shè)置為200時，RoomFormer模型在測試集上的表現(xiàn)最優(yōu)，在IoU、頂點精確率、頂點召回率、頂點[F1]分?jǐn)?shù)、角度精確率、角度召回率、角度[F1]分?jǐn)?shù)上的表現(xiàn)比只訓(xùn)練200輪的Roomformer分別高1.7%、2.4%、2.5%、2.5%、7.3%、8.2%、7.7%。

實驗一的部分定性結(jié)果如圖7所示。其中，w/Pre?train表示RoomFormer在合成數(shù)據(jù)集上預(yù)訓(xùn)練400輪，在真實數(shù)據(jù)集上微調(diào)200輪，w/o Pre?train表示RoomFormer在真實數(shù)據(jù)集上訓(xùn)練200輪。由定性結(jié)果可知，經(jīng)過預(yù)訓(xùn)練的RoomFormer模型所提取的輪廓在輪廓點數(shù)以及輪廓形狀方面比未經(jīng)過預(yù)訓(xùn)練的模型更接近真值。

3.4.2 "實驗二

在實驗一得到的最優(yōu)訓(xùn)練策略的基礎(chǔ)上，對預(yù)訓(xùn)練模型所用數(shù)據(jù)量進(jìn)行相關(guān)實驗，驗證合成數(shù)據(jù)的數(shù)據(jù)量對于RoomFormer性能的提升效果。定量結(jié)果如表3所示。

由表3結(jié)果可知，隨著預(yù)訓(xùn)練使用的數(shù)據(jù)量增加，RoomFormer在真實數(shù)據(jù)集上的性能不斷提高，當(dāng)預(yù)訓(xùn)練數(shù)據(jù)為1.2×105時，模型各項指標(biāo)比預(yù)訓(xùn)練數(shù)據(jù)量為2.4×104時分別高0.8%、0.9%、1.3%、1.1%、1.1%、0.7%、0.9%。當(dāng)預(yù)訓(xùn)練使用的合成數(shù)據(jù)量為1.2×105時，部分定性結(jié)果如圖8所示，由定性結(jié)果可知，使用數(shù)據(jù)量為1.2×105時，預(yù)測的建筑物輪廓更加精確。

4 "結(jié) "語

本文針對建筑物輪廓提取任務(wù)中遙感數(shù)據(jù)豐富度有限及數(shù)據(jù)量有限的問題，提出一種基于擴(kuò)散模型DDPM的遙感數(shù)據(jù)增強(qiáng)方法。該方法使用基礎(chǔ)合成數(shù)據(jù)及真實數(shù)據(jù)訓(xùn)練集訓(xùn)練DDPM，生成大量隨機(jī)形狀數(shù)據(jù)，然后使用RoomFormer在合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，最后遷移到真實數(shù)據(jù)上進(jìn)行微調(diào)。定量和定性的實驗結(jié)果表明，該方法可以增加數(shù)據(jù)豐富度及復(fù)雜形狀數(shù)據(jù)的數(shù)量，提高建筑物輪廓提取的準(zhǔn)確性和魯棒性。但使用DDPM進(jìn)行建筑物輪廓數(shù)據(jù)合成時，會出現(xiàn)一些不合理的數(shù)據(jù)，如自交多邊形等，后續(xù)應(yīng)當(dāng)考慮對模型結(jié)構(gòu)進(jìn)行改進(jìn)，或者在訓(xùn)練時加入相關(guān)條件引導(dǎo)，降低模型產(chǎn)生不合理數(shù)據(jù)的比例。

注：本文通訊作者為高翔。

參考文獻(xiàn)

[1] LAFARGE F， DESCOMBES X， ZERUBIA J， et al. Automatic building extraction from DEMs using an object approach and application to the 3D?city modeling [J]. ISPRS journal of photogrammetry and remote sensing， 2008， 63（3）： 365?381.

[2] ZHU L J， SHEN S H， GAO X， et al. Large scale urban scene modeling from MVS meshes [C]// Proceedings of the European Conference on Computer Vision. Heidelberg， Germany： Springer， 2018： 640?655.

[3] TURKER M， KOC?SAN D. Building extraction from high?resolution optical spaceborne images using the integration of support vector machine （SVM） classification， Hough transformation and perceptual grouping [J]. International journal of applied earth observation and geoinformation， 2015， 34： 58?69.

[4] SUN X， ZHAO W， MARETTO R V， et al. Building outline extraction from aerial imagery and digital surface model with a frame field learning framework [J]. The international archives of the photogrammetry， remote sensing and spatial information sciences， 2021， 43： 487?493.

[5] VAN ETTEN A， LINDENBAUM D， BACASTOW T M. SpaceNet： A remote sensing dataset and challenge series [EB/OL]. [2018?08?13]. http：//arxiv.org/abs/1807.01232.

[6] MOHANTY S P， CZAKON J， KACZMAREK K A， et al. Deep learning for understanding satellite imagery： An experimental survey [J]. Frontiers in artificial intelligence， 2020， 3： 534696.

[7] KINGMA D P， WELLING M. Auto?encoding variational Bayes [EB/OL]. [2019?08?04]. http：//arxiv.org/abs/1312.6114.

[8] GOODFELLOW I， POUGET?ABADIE J， MIRZA M， et al. Generative adversarial networks [J]. Communications of the ACM， 2020， 63（11）： 139?144.

[9] SOHL?DICKSTEIN J， WEISS E A， MAHESWARANATHAN N， et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proceedings of the International Conference on Machine Learning. [S.l.： s.n.]， 2015： 2256?2265.

[10] HO J， JAIN A， ABBEEL P. Denoising diffusion probabilistic models [C]// Proceedings of the Advances in Neural Information Processing Systems. [S.l.： s.n.]， 2020： 6840?6851.

[11] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need [C]// Proceedings of the Advances in Neural Information Processing Systems. [S.l.： s.n.]， 2017： 5998?6008.

[12] YUE Y W， KONTOGIANNI T， SCHINDLER K， et al. Connecting the dots： Floorplan reconstruction using two?level queries [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2023： 845?854.

[13] WANG R S， HUANG S F， YANG H X. Building3D： An urban?scale dataset and benchmarks for learning roof structures from point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York： IEEE， 2023： 20019?20029.

[14] HEUSEL M， RAMSAUER H， UNTERTHINER T， et al. GANs trained by a two time?scale update rule converge to a local Nash equilibrium [C]// Advances in Neural Information Processing Systems 30： Annual Conference on Neural Information Processing Systems 2017. [S.l.： s.n.]， 2017： 6626?6637.

[15] GRETTON A， BORGWARDT K M， RASCH M J， et al. A kernel two?sample test [J]. The journal of machine learning research， 2012， 13（1）： 723?773.

[16] KINGMA D P， BA J. Adam： A method for stochastic optimization [EB/OL]. [2019?06?25]. http：//arxiv.org/abs/1412.6980.

[17] LOSHCHILOV I， HUTTER F. Decoupled weight decay regularization [EB/OL]. [2019?01?04]. https：//arxiv.org/abs/1711.05101.

作者簡介：馬孝冬（1999—），男，山東德州人，碩士研究生，研究方向為三維計算機(jī)視覺。

朱靈杰（1992—），男，湖北黃岡人，博士研究生，算法工程師，研究方向為三維計算機(jī)視覺。

解則曉（1968—），男，山東臨沂人，博士研究生，教授，研究方向為機(jī)器視覺與視覺測量。

高 "翔（1989—），男，山東臨沂人，博士研究生，副研究員，研究方向為三維計算機(jī)視覺。

現(xiàn)代電子技術(shù)2024年21期

現(xiàn)代電子技術(shù)的其它文章: 基于自適應(yīng)的改進(jìn)人工蜂群算法; 基于國產(chǎn)DSP多傳感器融合姿態(tài)解算系統(tǒng); 基于云層去除的偏振光導(dǎo)航應(yīng)用研究; 基于2D?DIC的軸體扭矩測量方法; 基于詞模式規(guī)則的輕量級日志模板提取方法; 基于LF?ATSO算法在光伏系統(tǒng)MPPT中的研究