基于微調語義分割模型的街景影像變化檢測方法

2021-03-12 07:01:14李文國左小清王譯著

軟件導刊 2021年2期

李文國，黃亮，2，左小清，王譯著

（1.昆明理工大學國土資源工程學院；2.云南省高校高原山區(qū)空間信息測繪技術應用工程研究中心，云南昆明 650093）

0 引言

街景是沿著城市道路拍攝的序列全景影像，記錄了房屋建筑、市政設施以及交通標志等豐富內容［1］。信息技術的發(fā)展使數碼相機、手機相機等圖像采集設備得以廣泛使用，積累了海量的街景影像。車載移動式街景測繪系統(tǒng)或固定的街景測繪系統(tǒng)使街景影像采集更加方便、快捷。街景影像不僅覆蓋城市絕大部分區(qū)域，而且包含豐富的城市特征，能提供真實的三維城市場景，具有極高的應用價值。2007 年谷歌推出了街景影像服務，服務范圍不斷擴大，應用實例愈加豐富，推動了街景影像與地理空間信息的整合發(fā)展，隨后百度和高德也相繼開發(fā)出全景地圖。全景地圖由真實場景構建生成，通過圖像繪制技術提供360°觀察視角，從而增強沉浸感，使用戶如同置身于真實場景一般［2］。全景地圖由街景影像構建而成，由于近距離拍攝能真實還原拍攝街景場景，所以具有拍攝速度快、數據量小、容易存儲和傳輸等優(yōu)點。在交通管理、城市規(guī)劃建設、商業(yè)廣告、旅游等領域全景地圖應用較多。相對于傳統(tǒng)電子地圖，全景地圖不僅能全方位展示真實地圖場景，而且能實現更快速和更精度的定位。物聯網、云計算等新一代信息技術發(fā)展不斷推動智慧城市形成，智慧城市需要三維立體地表達城市場景，單純使用立體線框模型和貼圖難以表達真實城市場景。街景影像可以全方位、連續(xù)地呈現真實城市環(huán)境，形成全新的三維空間立體效果，因此在智慧城市地理信息公共服務中應用廣泛。

影像變化檢測研究目的是根據對同一物體或現象在不同時間的觀測，確定不同的處理過程，即找出感興趣的變化信息，濾除不相干變化信息［3-4］。遙感影像具有宏觀性、客觀性、周期性、便捷性等特點，常作為變化檢測的主要數據來源。自動和半自動化的多時像遙感影像變化檢測技術已廣泛應用于土地調查、城市研究、生態(tài)系統(tǒng)檢測、災害檢測評估以及軍事偵查等領域［5-11］。

國際攝影測量與遙感學會（The International Society for Photogrammetry and Remote Sensing，ISPRS）為遙感影像變化檢測研究設置專項工作組，致力于推動利用遙感技術手段進行多領域變化檢測發(fā)展［12］。我國政府也高度重視遙感變化檢測技術在地理國情監(jiān)測中的應用，從2010 年開始國土資源部每年開展全國土地遙感監(jiān)測工作，利用多時相遙感影像變化檢測技術持續(xù)更新全國土地調查成果［13］。雖然遙感變化檢測技術研究已取得豐碩成果，但許多變化檢測方法依賴于人工參與，如幾何配準、輻射校正和遙感目視解譯等均需人工參與才能達到較高精度。相比遙感影像，街景影像具有以下特點：①街景影像在地面成像，受大氣干擾較小，與遙感影像相比，無需輻射校正；②街景影像成像距離短，街景影像分辨率高，同時地物邊界清晰，因此相比遙感影像更加容易配準；③街景影像視角與人類視角類似，目視解譯難度低甚至無需目視解譯；④遙感影像從空中對地表觀測，因此遙感影像以平面的方式觀測地物信息，而街景影像則從地面成像，能立面觀測地物信息；⑤街景影像采集設備和方式多種多樣，使街景影像成像方式更加方便、快捷。綜合而言，街景影像可提供新視角、更為詳盡的信息和更便捷的預處理方式。

街景語義分割研究較為豐富，但對多時相街景影像進行變化檢測的研究則相對較少。文獻［14］提出了基于BOVW 模型的場景變化檢測方法，并對比分析了不同字典構建方法對最終結果的影響；為了解決獨立分析引起的誤差累計問題，文獻［15］提出核化慢特征分析方法，并通過貝葉斯理論融合場景變化概率和場景分類概率；文獻［16-17］提出利用二維圖像進行場景變化檢測。該方法根據不同時間段獲取的圖像對場景進行建模，然后與基于其他時間段圖像建立的模型進行差異對比。但該類方法僅針對拍攝視角一致的圖像，不同視角拍攝的圖像則無法處理；文獻［18-21］將場景變化檢測轉換為三維領域的問題。這類方法首先建立穩(wěn)定持續(xù)的目標場景模型，然后將查詢圖像與目標圖像進行比較以檢測變化。但不同區(qū)域城市環(huán)境差異較大，因此場景模型并不適合其他地區(qū)。近年來，深度學習在計算機視覺領域表現優(yōu)異，在自動駕駛、人機交互、醫(yī)學等方面有諸多應用，也有學者利用深度學習進行場景變化檢測。文獻［22］提出結合CNN 和超像素方法對街景進行變化檢測。該方法利用CNN 網絡提取多時像影像特征，然后將不同時像的特征圖進行對比形成差異圖，再結合超像素形成的差異圖構建整幅圖像的差異圖，最后去除天空和建筑，得到建筑物變化檢測結果。但CNN網絡由于不斷將特征圖下采樣，導致小尺度地物特征丟失，因此CNN 網絡不適合街景影像特征提取。

綜上所述，三維建模方法不具有普適性，而傳統(tǒng)卷積神經網絡由于特征圖分辨率不斷變小的原因，會丟失小尺度地物。近年來，在CNN 網絡的基礎上衍生出許多性能優(yōu)秀的神經網絡，本文針對街景影像特點，研究適用于街景影像變化檢測的神經網絡。首先引入對小尺度地物具有很好識別能力的DeeplabV3+網絡模型，并對該網絡進行微調，然后將其用于街景影像分類，接著對分類結果進行CVA 運算得到差異影像，最后對差異影像進行二值化與精度評價。

1 研究方法

本文提出基于Deeplabv3+的街景影像變化檢測方法。方法架構包括3 個部分：①采用微調的DeeplabV3+訓練模型分類；②采用CVA 獲取差異影像；③差異影像二值化和精度評價。具體而言，首先將兩幅不同時像的街景數據輸入到微調的DeeplabV3+訓練模型得到分類圖，然后將此分類圖進行CVA 運算得到差異圖，最后將差異圖二值化并進行精度評價，流程如圖1 所示。

Fig.1 Change detection process圖1 變化檢測流程

1.1 街景影像語義分割

現有語義分割網絡較為豐富，如U-Net、ICNet、PSPNet、HRNet、Segnet、Deeplab 系列。其中，于2018 年提出的DeeplabV3+網絡是目前Deeplab 網絡系列中性能最優(yōu)的網絡，DeeplabV3+結合了空洞卷積與ASPP（Atrous Spa?tial Pyramid Pooling），與傳統(tǒng)卷積相比，DeeplabV3+網絡可保持特征圖分辨率不變，對尺寸小的地物具有很好的識別能力，且能夠較好地保留邊緣細節(jié)信息。DeeplabV3+網絡在PASCAL VOC 2012 數據集上取得新的最佳表現，mIoU=89.0，驗證了Deeplabv3+的優(yōu)秀性能［23］。

DeeplabV3+網絡由編碼和解碼兩部分組成，編碼模塊由特征提取網絡與ASPP 組成。其中特征提取網絡可以選用目前特征提取效果優(yōu)秀的網絡，特征提取網絡性能決定了DeeplabV3+網絡分類精度，因此選取性能優(yōu)秀的特征提取網絡至關重要。本文設計不同特征網絡下DeeplabV3+網絡性能對比實驗，將特征網絡為VGG 的DeeplabV3+網絡和Xception 的DeeplabV3+網絡進行對比，實驗采用相同的訓練方式，訓練完成后將訓練模型用于街景影像分類，分類結果如圖2 所示，從分類結果可以看出特征提取網絡為Xception 的DeeplabV3+網絡具有更優(yōu)秀的性能，因此本文選取Xception 網絡為特征提取網絡。

Fig.2 Classification results of Deep lab V3+networks with different feature extraction networks圖2 不同特征提取網絡的DeeplabV3+網絡分類結果

ASPP 由4 種不同空洞率的卷積層和全局平均池化層組成，將4 種卷積后的特征圖和全局平均池化后的特征圖合并作為ASPP 的輸出?？斩淳矸e用于擴大特征圖的感受野，提高小尺寸地物識別能力。全局平均池化層則防止過擬合，同時提取魯棒性強的特征。由于空洞卷積對小尺寸地物無法重建，同時會丟失空間層級信息，因此對ASPP 結構進行微調，將Xception 輸出的特征圖與ASPP 輸出的特征圖進行合并，這樣做有利于小尺寸地物重建，并加入空間層級信息，微調后的DeeplabV3+網絡結構如圖3 所示。

本文首先制作39 幅街景影像標簽用于微調后的Deep?labV3+網絡訓練，然后將訓練模型用于街景影像分類，分類結果如圖4（a）所示，可看出訓練模型分類性能極差，原因在于深度學習需要大量優(yōu)質的標簽，但制作標簽需要大量時間。考慮到時間成本，同時目前有許多公開的街景數據可供使用，如Cityspaces 數據集和Camvid 數據集，Camvid 數據集場景與本文使用的街景數據場景類似，因此本文將街景數據與Camvid 數據集聯合用于DeeplabV3+網絡訓練，然后將訓練模型用于街景影像分類，分類結果如圖4（b）所示，從分類結果可以看出混合數據訓練得到的訓練模型分類性能遠優(yōu)于街景數據訓練得到的訓練模型。

1.2 差異影像獲取與二值化

為了獲取兩期街景影像語義分割結果的變化區(qū)域，本文采用CVA 方法。CVA 是一種常用的多波段影像差異分析方法，每個像元特征采用向量的方式表示，對應為每個波段的一維列向量。由于本文數據集為3 個波段，初始化n=3。設時相t1和時相t2中像元灰度矢量為G=，其中g1,2,3和h1,2,3對應圖像的3 個通道，(t1)和(t2)分別是時相t1和時相t2第1 波段中第i行、第j列像元灰度。

對時相t1和時相t2進行差值計算，得到每個像元變化值，即為變化矢量Δ，公式為：

Δ包含兩期圖像中所有像元變化信息，其變化強度用歐式距離‖Δ‖表示，以此可以生成兩期影像變化強度圖。

Fig.3 DeeplabV3+network structure圖3 DeeplabV3+網絡結構

Fig.4 Training model classification results of street view image data set and joint data set圖4 街景影像數據集與聯合數據集訓練模型分類結果

其中，‖Δ‖表示是全部像元灰度差異，當‖Δ‖越大，變化可能性越大。因此可通過確定變化強度大小選擇分割最佳閾值，從而分割變化像元和非變化像元。

實驗在獲取差異影像后，將差異影像像素分為兩種類型：一種為0 值，代表未變化區(qū)域；另一種為非0 值，代表變化區(qū)域。然后將差異影像中為0 值的像素更改為255，將差異影像中非0 值像素更改為0，該過程即為二值化。二值化后黑色像素代表變化區(qū)域，白色像素代表未變化區(qū)域。

1.3 精度評價

本文采用3 種客觀評價指標：錯檢率（False Negatives Rate，FPR）、漏檢率（False Positives Rate，FPR）和正確率（Percentage Correct Classification，PCC），其中錯檢率計算公式為：

其中，TN 代表非變化區(qū)域正確的分類個數，TP 代表變化區(qū)域正確的分類個數，FN 代表漏檢數，FP 代表錯檢數。漏檢率計算公式為：

正確率計算公式為：

2 實驗結果與分析

2.1 數據介紹

本文采用的街景數據集為TSUNAMI 數據集，TSUNA?MI 數據集來源于文獻［24］，是日本某地區(qū)海嘯前后的全景街區(qū)影像。實驗選取的兩組街景影像及參考圖如圖5 所示，兩組影像均為1 024 像素×224 像素，對兩組街景影像分別命名為G1 和G2，其中t0 代表變化前影像，t1 代表變化后影像，G1 組t0 和t1 影像分別如圖5（a）、（b）所示，G2 組t0 和t1 影像分別如圖5（c）、（d）所示，G1 和G2 參考圖分別如圖5（e）、（f）。G1 組影像的變化區(qū)域像素為50 242，非變化區(qū)域像素為179 134；G2 組影像變化區(qū)域像素為55 052，非變化區(qū)域像素為174 324。從每組數據兩幅不同時刻的影像中看出建筑物尺度變化范圍大，遠處建筑物邊界十分模糊，在陰影地方建筑物與植被界限混淆在一起；同時車輛及電桿等地物也存在尺度范圍變化大、與周圍地物界限模糊的問題，因為不同天氣的原因天空像素不均，高亮區(qū)域和灰暗區(qū)域同時存在。

Fig.5 Street images and reference figures of G1 and G2圖5 G1 和G2 街景影像及參考圖

2.2 實驗設計

為驗證本文方法在街景影像變化檢測中的有效性，將該方法與OTSU［25］和K 均值［26］進行對比。實驗分別對G1和G2 兩組影像進行變化檢測。G1 和G2 兩組影像采用OT?SU 方法得到的結果如圖6（a）、（b）所示，采用K 均值方法得到結果圖如圖6（c）、（d）所示，本文方法結果圖如圖6（e）、（f）所示。實驗結果精度如表1 所示。

Fig.6 Experiment results of the first group圖6 第一組對比實驗結果

Table 1 Accuracy comparison of experimental results表1 實驗結果精度對比

OTSU 將圖像分割為兩類，閾值由類間方差求出，因此OTSU 不適用于地物類別豐富的影像。影像光譜信息越簡單，分辨率越低，OTSU 得到的效果越好。從差異圖可以看出，OTSU 在天空、道路和植被等區(qū)域均存在大量錯檢，由此可以看出OTSU 不能處理光譜信息多樣的街景影像。K均值錯檢區(qū)域少于OTSU，但依舊在天空和道路等區(qū)域存在大量錯檢，這源于K 均值聚類時，同物異譜的地物會聚類形成多種類別，因此造成錯檢。由此可以看出K 均值不適合高分辨率的街景影像。相比OTSU 和K 均值，本文方法對天空和道路的錯檢遠少于這兩種方法，本文方法可針對同物異譜現象，有效提取地物特征和影像空間信息。從G1和G2 兩組數據的差異圖中可以看出天空和道路等類別錯檢區(qū)域很少，這是因為本文方法提取的地物類別特征具有很好的魯棒性，在具有相同地物的影像上能產生相似的分類效果，這是OTSU 和K 均值不具有的優(yōu)點。

本文方法由Camvid 數據集和街景數據集混合訓練得到，這兩個數據集雖然都是拍攝于城市場景，但屬于不同國家的城市，因此兩個數據集存在差異，如街景數據級天空在影像中占比大，而Camvid 數據集建筑占比大。本文方法在兩個數據集上都表現出良好的分類性能，因此說明本文方法具有很好的泛化能力。

從精度評價結果來看，本文方法得到的總體精度比OTSU 分別高39%和41%，比K 均值分別高32%和29%。但由于訓練數據中街景樣本只有39 幅，而Camvid 數據集總有701 幅，樣本不平衡導致街景樣本訓練不充分，本文方法得到的精度僅大于70%，精度還有待提升。加入更多的街景訓練樣本，或改善DeeplabV3+網絡損失函數平衡樣本，會得到更好的訓練結果及精度。

綜上所述，本文方法相比OTSU 和K 均值，可適用于高分辨率、地物多樣和光譜信息復雜的街景影像變化檢測，同時本文方法具有較強的魯棒性和泛化能力。

3 結語

本文針對多時相街景影像變化檢測，提出了一種微調的DeeplabV3+網絡模型變化檢測方法。設計兩組對比實驗驗證該方法，實驗結果表明，本文方法精度比傳統(tǒng)統(tǒng)計方法、機器學習方法提升25%以上。實驗利用混合樣本訓練方法對街景數據進行分類，但這種未經過大量街景樣本訓練的神經網絡分類和泛化能力有待加強，后續(xù)可對數據集街景數據加入大量標注樣本，重新測試從而改進網絡。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看