劉天貽
關鍵詞:遙感數(shù)據(jù);深度學習云平臺;分布式存儲;分布式檢索;微服務
本文使用以并行計算為基礎的云計算技術解決遙感影像數(shù)據(jù)存儲管理過程中由于數(shù)據(jù)量大、更新頻繁而帶來的數(shù)據(jù)存儲和數(shù)據(jù)檢索的問題。以分布式計算和分布式存儲為基礎,結合遙感數(shù)據(jù)目標識別與變化檢測應用的需求,本平臺通過自研在線樣本采集和定制的深度學習算法,實現(xiàn)遙感影像的自動解譯。同時,本平臺還提供對模型預測結果人工修正的人口,將人工反饋結果作為反饋數(shù)據(jù)集交給模型訓練模塊進行迭代訓練,形成模型自迭代學習的機制。相較于傳統(tǒng)離線影像數(shù)據(jù)處理方法,本平臺基于分布式存算模型的遙感數(shù)據(jù)管理與訓練框架降低了生產過程中數(shù)據(jù)管理分發(fā)難度,簡化了遙感深度學習模型訓練流程,提高了遙感深度學習模型訓練效率和遙感影像利用效率,為海量衛(wèi)星遙感數(shù)據(jù)管理與應用平臺的研發(fā)提供一種新的思路。
1系統(tǒng)框架
一站式遙感大數(shù)據(jù)分布式管理與訓練云平臺由基礎設施層、分布式計算層、分布式混合存儲層、微服務層、應用層和運維系統(tǒng)組成。
(l)基礎設施層為其他各層提供通用的技術能力,包括為服務層提供持久化機制,為應用層傳遞消息等。虛擬化層在原始硬件級通過VMware虛擬CPU、內存和I/O設備以多個并行用戶來改進硬件資源的利用率[3].基于Docker容器的操作系統(tǒng)級虛擬化方案保證了物理機器和虛擬機實例數(shù)可以彈性伸縮,以很小的資源開銷實現(xiàn)文件系統(tǒng)、網(wǎng)絡、進程和資源的隔離。
(2)分布式存儲計算模塊負責多元異構影像數(shù)據(jù)及影像相關數(shù)據(jù)的存儲與檢索,為服務層提供數(shù)據(jù)讀寫與檢索接口[4]。存儲層針對遙感影像數(shù)據(jù)、影像標簽數(shù)據(jù)、矢量數(shù)據(jù)以及瓦片數(shù)據(jù)和系統(tǒng)業(yè)務數(shù)據(jù)分別設計基于HDFS,Ceph,HBase,Accumulo和PostgreSQL數(shù)據(jù)庫的存儲與操作接口,實現(xiàn)遙感數(shù)據(jù)的混合存儲與管理。ElasticSearch和Geomesa的引入優(yōu)化了數(shù)據(jù)檢索的效率。
(3)微服務層以彈性分布式計算為基礎,以低耦合高內聚為原則將系統(tǒng)中不同場景的業(yè)務和功能拆分成一組微服務分別提供服務。所有的微服務共同構建起整個系統(tǒng)的微服務層。微服務架構降低了單體應用部署、配置、維護的復雜性。
(4)應用層在整合底層模塊的基礎上為用戶提供數(shù)據(jù)管理與服務操作接口。通過遙感影像入庫系統(tǒng)、遙感影像分布式管理系統(tǒng)、樣本工程系統(tǒng)、樣本管理系統(tǒng)、模型訓練系統(tǒng)和應用系統(tǒng)六個子系統(tǒng)的數(shù)據(jù)流通與協(xié)同運轉為用戶提供遙感數(shù)據(jù)“入庫-管理-訓練,預測”的一站式服務。
2關鍵技術
2.1分布式混合存儲模型
本平臺根據(jù)不同數(shù)據(jù)類型的結構設計了不同的存儲模型。主要涉及影像數(shù)據(jù)模型、矢量信息、標簽數(shù)據(jù)和業(yè)務數(shù)據(jù)的存儲。
影像數(shù)據(jù)模型包含影像元數(shù)據(jù)、影像像元數(shù)據(jù)和影像瓦片數(shù)據(jù)。經過歸一化處理之后的遙感元數(shù)據(jù)數(shù)據(jù)量較小,適合存儲在關系型數(shù)據(jù)庫PostgreSQL中。最終選用分布式鍵值NoSQL數(shù)據(jù)庫Accumulo存儲影像瓦片數(shù)據(jù)。
矢量空間要素之間存在復雜的拓撲關系,同時在模型迭代過程中需要高效處理批量矢量圖斑數(shù)據(jù)的更新問題。本平臺選用面向列存儲的HBase數(shù)據(jù)庫存儲矢量要素。HBase在矢量空間數(shù)據(jù)存儲和管理過程中的優(yōu)勢主要體現(xiàn)在列存儲的高效性和高擴展性。
標簽數(shù)據(jù)由存儲地物分類信息的空間矢量數(shù)據(jù)通過矢量轉柵格的算法處理得到,本文選用分布式對象存儲系統(tǒng)Ceph存儲和管理標簽數(shù)據(jù)。Ceph對象存儲采用RADOS(Reliable Autonomic Distributed ObjectStore),保障標簽數(shù)據(jù)的讀寫效率,采用CRUSH數(shù)據(jù)放置采取算法,保障了標簽數(shù)據(jù)負載能夠得到有效均衡。
2.2時空大數(shù)據(jù)索引
為了保證存儲于HBase中的時空矢量數(shù)據(jù)的快速存敢,本文使用Ceomesa構建了矢量數(shù)據(jù)構索引。利用G eomesa提供的X23時空索引,將包含經度、緯度和時間三個維度的數(shù)據(jù)按照基于Z-Order填充曲線(見圖1)的CeoHash時空編碼技術進行降維,得到一維數(shù)據(jù)作為Key,方便在HBase數(shù)據(jù)庫中進行查詢。這種時空索引技術能高效地達到降維效果,同時可以保持數(shù)據(jù)的locality特性,提高基于經緯度和時間的檢索效率。
2.3微服務架構
為了滿足系統(tǒng)穩(wěn)定性和可擴展性方面的要求,本平臺選用基于服務網(wǎng)格的微服務架構。相對于Dubbo框架和Spring Cloud框架,該模式降低了服務治理與服務之間的耦合度。同時,服務網(wǎng)格框架強調了各個代理之間形成的有機網(wǎng)絡。以通用組件的形式管控系統(tǒng)中所有服務通信流量,同時下沉了微服務開發(fā)的技術棧,可以做到跨語言的服務調用、功能可擴展。
通過對平臺業(yè)務進行合理拆分,降低不同服務之間的關聯(lián)影響,本文設計了具備高可用性、高擴展性、可伸縮性和運維智能化的遙感大數(shù)據(jù)管理與訓練微服務架構。
3系統(tǒng)實現(xiàn)
3.1業(yè)務流程
一站式遙感大數(shù)據(jù)管理與訓練云平臺包括以下6個子系統(tǒng),并且它們相互依賴。
(1)遙感影像入庫系統(tǒng):負責對多源異構的遙感影像數(shù)據(jù)進行數(shù)據(jù)預處理、清洗、入庫等ETL工作,并將其存儲到平臺中。
(2)遙感影像管理系統(tǒng):對混合存儲模型中的多源異構遙感數(shù)據(jù)進行數(shù)據(jù)管理,并提供數(shù)據(jù)的多維度統(tǒng)計指標實現(xiàn)數(shù)據(jù)監(jiān)控。
(3)樣本工程系統(tǒng):負責樣本勾畫任務的創(chuàng)建和分配以及樣本勾畫過程跟蹤等。以樣本分類體系為基礎,體系化管理和維護采集中使用的地物解譯類別以及外業(yè)采集的實地圖片,為樣本管理系統(tǒng)提供數(shù)據(jù)支撐。
(4)樣本管理系統(tǒng):通過對檢索結果中的影像數(shù)據(jù)和矢量數(shù)據(jù)進行整理和重構生成訓練樣本集。訓練樣本集中包括影像切片數(shù)據(jù)和標簽數(shù)據(jù),是模型訓練系統(tǒng)的數(shù)據(jù)來源。
(5)模型訓練系統(tǒng):根據(jù)用戶選擇的模型訓練算法對訓練樣本集進行樣本類別轉換、訓練集劃分、驗證集劃分等操作。模型訓練完成之后,可參照系統(tǒng)提供模型精度評價調整模型參數(shù)進一步優(yōu)化模型。
(6)應用系統(tǒng):應用系統(tǒng)基于模型訓練系統(tǒng)提供的模型對影像數(shù)據(jù)進行地物提取或者變化監(jiān)測。基于預測的結果進行人工解譯可進一步生成反饋數(shù)據(jù)集。
3.2系統(tǒng)配置
本文基于上述技術設計搭建了服務于遙感影像處理和解譯模型訓練的一站式遙感大數(shù)據(jù)管理與訓練云平臺。該平臺的軟硬件配置如表1所列。
3.3性能測試
本文選取影像金字塔切分過程的耗時作為觀測指標來驗證分布式遙感云平臺的性能。在CPU頻率與內存容量等硬件水平相當?shù)沫h(huán)境下對分布式遙感云平臺和Arc CIS Server處理系統(tǒng)影像金字塔切分耗時進行對比測試實驗。實驗分別選取數(shù)據(jù)量大小在0.5GB.1CB,2CB,3GB左右的影像。從圖2可以看出,在硬件配置和影像大小相同的情況下,分布式遙感云平臺的金字塔分層切分耗時小于Arc CIS Server系統(tǒng),其相對加速比大于2。上述實驗數(shù)據(jù)證明了分布式遙感云平臺在遙感影像金字塔建模處理的效率上具有明顯優(yōu)勢。
4結束語
本文設計了一種基于計算機技術的一站式遙感大數(shù)據(jù)分布式管理與模型訓練云平臺。平臺構建了以異構的遙感數(shù)據(jù)為基礎的混合存儲模型,以Spark為載體的分布式計算模型,以服務注冊與發(fā)現(xiàn)、服務交互為基礎的微服務架構。結合深度學習在遙感影像數(shù)據(jù)處理的應用完成了一站式遙感大數(shù)據(jù)分布式管理與模型訓練云平臺的整體建設,為構建高可用、易擴展的遙感數(shù)據(jù)存儲共享與處理平臺提供了一種解決方案。