汪莉莉 吳 帥
(1.海軍工程大學(xué) 武漢 430033)(2.96823部隊 昆明 650219)
近年來,隨著大規(guī)模數(shù)據(jù)集和高性能計算硬件的發(fā)展,以深度學(xué)習(xí)為代表的人工智能在圖像的檢測[1~2]、分類[3~4]和分割[5]等領(lǐng)域取得了飛躍性的進步。但是從相關(guān)研究文獻看,人工智能技術(shù)在醫(yī)療診斷、指紋識別、面部識別、交通氣象以及衛(wèi)星云圖識別等方面[6~9]有著較好的應(yīng)用,但在地形目標判讀領(lǐng)域的研究和應(yīng)用還不常見。在實際地形目標判讀和分析中,定性描述多、定量描述少,分析不夠快速、不夠精確的現(xiàn)象還一定程度的存在。
針對以上問題,本文提出了一種基于Mask R-CNN模型[10]的地形目標判讀方法,可以在復(fù)雜背景下有效檢測與分割場坪、居民地、工廠、水源、交通設(shè)施等不同地形,便于給出定量分析結(jié)論,以輔助人員分析地形環(huán)境。
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,是指通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示的方法[11]。深度學(xué)習(xí)是當前人工智能技術(shù)中最具潛力的一種方法,是于2006年由加拿大高等研究院的Hinton教授等提出,在最近10多年得到了巨大發(fā)展,并使人工智能產(chǎn)生了革命性的突破。
深度人工神經(jīng)網(wǎng)絡(luò)是多層的人工神經(jīng)網(wǎng)絡(luò),是當前基于深度學(xué)習(xí)方法的模型中最為典型的代表,模型和數(shù)據(jù)是影響人工神經(jīng)網(wǎng)絡(luò)特征表達的兩個主要方面。傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)只包含2層或3層,而深度人工神經(jīng)網(wǎng)絡(luò)受到了生物神經(jīng)系統(tǒng)的啟發(fā),可能有幾百上千層或更多,它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域。深度人工神經(jīng)網(wǎng)絡(luò)并行使用神經(jīng)元模型操作,它由一個輸入層、多個隱藏層和一個輸出層組成,各層通過神經(jīng)元相互連接,每個隱藏層使用前一層的輸出作為其輸入。該類型的模型直接從圖像、文本或聲音中學(xué)習(xí)并執(zhí)行分類任務(wù)?;窘Y(jié)構(gòu)如圖1所示。
圖1 深度人工神經(jīng)網(wǎng)絡(luò)模型示意圖
基于深度學(xué)習(xí)的新一代人工智能的基本過程是用深度人工神經(jīng)網(wǎng)絡(luò)模擬人類大腦,從大量數(shù)據(jù)中學(xué)習(xí)技能,從而具備一定的人類技能,顯現(xiàn)出類似人類智能的過程。深度人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程如圖2所示。
圖2 基于深度學(xué)習(xí)的人工智能訓(xùn)練過程
深度學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強學(xué)習(xí)等,不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型不同。例如,掩碼區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask R-CNN)就是一種監(jiān)督學(xué)習(xí)下的深度學(xué)習(xí)模型,而深度置信網(wǎng)(DBN)就是一種無監(jiān)督學(xué)習(xí)下的深度學(xué)習(xí)模型。
Mask R-CNN模型包括分類、定位與分割3個網(wǎng)絡(luò)。它將目標檢測識別和實例分割功能融為一體,繼承于Faster R-CNN[12],是在Faster R-CNN的基礎(chǔ)上擴展了一個分割掩碼網(wǎng)絡(luò),并且改良了感興趣區(qū)域池化算法,提出了感興趣區(qū)域排列算法。掩碼網(wǎng)絡(luò)是應(yīng)用到每個感興趣區(qū)域上的一個小的全卷積網(wǎng)絡(luò),以像素到像素的方式預(yù)測分割掩碼,這個網(wǎng)絡(luò)與分類和定位網(wǎng)絡(luò)并行,性能上可以滿足實時檢測分割的要求。其結(jié)構(gòu)如圖3所示。
圖3 Mask R-CNN結(jié)構(gòu)框圖
分類網(wǎng)絡(luò)是在ResNet101[13]經(jīng)典模型的基礎(chǔ)上進行的結(jié)構(gòu)修改和參數(shù)調(diào)優(yōu),如圖4所示。
圖4 分類網(wǎng)絡(luò)框圖
分類網(wǎng)絡(luò)的輸入是分塊好的遙感圖像,經(jīng)過特征金字塔網(wǎng)絡(luò)的特征提取得到整個輸入圖像的特征向量,然后經(jīng)過全連接網(wǎng)絡(luò)得到分類值,輸出是根據(jù)分類值得到地形目標的分類判讀結(jié)果。此模型的強大之處在于它的多層結(jié)構(gòu)能自動學(xué)習(xí)特征,并且可以學(xué)習(xí)到多個層次的特征,較淺的卷積層感知域較小,能夠?qū)W習(xí)到局部區(qū)域的特征,較深的卷積層具有較大的感知域,能夠?qū)W習(xí)到更加抽象的特征。這些抽象特征對物體的大小、位置和方向等敏感性更低,從而有助于判讀性能的提高。
定位網(wǎng)絡(luò)結(jié)構(gòu)是在分類網(wǎng)絡(luò)的基礎(chǔ)上增加區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)結(jié)構(gòu)而形成的,如圖5所示。
圖5 定位網(wǎng)絡(luò)框圖
輸入的分塊圖像經(jīng)過特征金字塔卷積網(wǎng)絡(luò)后,提取出特征圖,特征圖數(shù)據(jù)經(jīng)過RPN網(wǎng)絡(luò)給出目標的邊框,并進行第一次邊框回歸損失函數(shù)計算,目標推薦區(qū)域經(jīng)過RoIAlign算法送入分類全連接網(wǎng)絡(luò)(可根據(jù)地形目標種類調(diào)整分類數(shù)),并再次進行邊框回歸損失函數(shù)計算,框選出某種地形目標區(qū)域,分別確定地形目標的類別和在輸入圖像中的相對位置。
分割網(wǎng)絡(luò)是在定位網(wǎng)絡(luò)的基礎(chǔ)上,再增加一個全卷積掩碼分割支路,可以對分類和定位后的地形目標進行像素級分割,如圖6所示。
圖6 分割網(wǎng)絡(luò)框圖
分割過程可以分解為兩個階段。第一階段,對輸入圖像進行卷積和池化,得到具有類別信息的特征圖,這一部分在分類和定位網(wǎng)絡(luò)中已經(jīng)完成,而且是共享一體的網(wǎng)絡(luò)結(jié)構(gòu)。第二階段,利用具有語義信息的特征圖,進行反卷積和上采樣,得到分割的標簽圖,實現(xiàn)地形目標分割的目的。
分割網(wǎng)絡(luò)與分類、定位網(wǎng)絡(luò)并行訓(xùn)練,網(wǎng)絡(luò)參數(shù)同步調(diào)整,損失函數(shù)見式(1)。
總體損失函數(shù)可以分為區(qū)域推薦網(wǎng)絡(luò)損失函數(shù)LRPN(p,t)和感興趣區(qū)域網(wǎng)絡(luò)損失函數(shù)LRoI(x,c,l,m,g)兩部分。其中區(qū)域推薦網(wǎng)絡(luò)損失函數(shù)包括RPN分類損失函數(shù)Lcls(pi,pa i)和RPN定位損失函數(shù)Lreg(ti,tia);感興趣區(qū)域網(wǎng)絡(luò)損失函數(shù)包括RoI分類損失函數(shù)Lcls(x,c)、RoI定位損失函數(shù)Lloc(x,l,g)和 RoI分割損失函數(shù)Lmask(x,m,g)三部分。分類損失函數(shù)采用Softmax函數(shù),定位損失函數(shù)采用L1平滑損失函數(shù),分割損失函數(shù)采用平均二元交叉熵損失函數(shù)。
以地形目標判讀中的場坪和居民地判讀為例,開展智能判讀實驗,驗證模型與算法的有效性。實驗采用英特爾CPU、英偉達圖形處理器、Ubuntu操作系統(tǒng)、Tensorflow計算環(huán)境和Python 3.6編程語言。
該算法在自制數(shù)據(jù)集上進行測試,數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集。在民用遙感圖像中收集1m分辨率的某大學(xué)場坪遙感圖像,并收集0.5m分辨率的居民地遙感圖像,采用數(shù)據(jù)擴增技術(shù)制作成300幅遙感圖像數(shù)據(jù)集,從數(shù)據(jù)集中隨機選取其中200幅圖像為訓(xùn)練集,40幅圖像為驗證集,另外60幅圖像作為測試集。并采用多邊形標注方式對訓(xùn)練集和驗證集圖像進行標注。
按照總體模型損失函數(shù)公式進行迭代訓(xùn)練,一次迭代處理一個圖像,λ設(shè)置為10,Ncls設(shè)置為256,Nreg設(shè)置為2400。這樣設(shè)置,RPN的兩部分損失值能保持平衡。在圖像中,選擇匹配度大于0.7的先驗框或匹配度最大的先驗框與正確標注的邊框作為正樣本。負樣本從匹配度低于0.3的樣本中隨機選擇。采用隨機梯度下降法對訓(xùn)練進行優(yōu)化。初始學(xué)習(xí)率為0.001,迭代次數(shù)為30000次,訓(xùn)練結(jié)果如表1所示。
表1 損失函數(shù)訓(xùn)練結(jié)果
使用平均精確率(AP)值來評估模型與算法的性能。AP是精確率-召回率曲線下的面積。精確率是正確檢測與檢測到的地形目標總數(shù)的比率。召回率是正確檢測與正確標注地形目標總數(shù)的比率。當改變分數(shù)閾值,將得到不同的精確率和召回率。精確率-召回率曲線顯示了召回率變化之后的精確率變化,從而可以反映算法的整體性能。
為測試不同數(shù)量訓(xùn)練數(shù)據(jù)集對模型性能的影響。分別從200幅訓(xùn)練集中隨機選出50、100兩種數(shù)量的訓(xùn)練數(shù)據(jù)集進行再訓(xùn)練,對訓(xùn)練后的網(wǎng)絡(luò)與原網(wǎng)絡(luò)進行性能比較實驗,分析其性能評價指標,結(jié)果如表2所示。
其中訓(xùn)練數(shù)據(jù)集數(shù)量為200的網(wǎng)絡(luò)模型性能最佳,其判讀結(jié)果如圖7、8所示。
圖7 某大學(xué)場坪智能判讀結(jié)果
圖8 某居民地智能判讀結(jié)果
實驗表明,當訓(xùn)練較少的數(shù)據(jù)時,模型性能不理想。訓(xùn)練樣本越多,目標地形目標的尺寸越大,算法的魯棒性越強,性能越好。
本文提出了一種基于Mask R-CNN深度學(xué)習(xí)模型的地形目標智能判讀方法,該方法采用遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)技術(shù),分三路對遙感圖像中的地形目標進行分類、定位和分割。在訓(xùn)練階段,利用正確的標注框匹配最好的先驗框,得到正樣本信息,用于學(xué)習(xí)地形目標特征。在測試階段,將測試圖像輸入網(wǎng)絡(luò),進行前向計算,得到目標地形的分類、定位和分割值。然后,根據(jù)設(shè)定的閾值,判斷是否為目標地形,得到最終的分類、定位和分割結(jié)果。實驗結(jié)果表明,該方法能較好地判讀出目標地形,得到準確的地形目標位置,并根據(jù)分割結(jié)果計算該地形目標的量化指標。從原理上看,該方法不僅適用于公共場坪、居民地、工廠、水源、交通設(shè)施等多種地形目標,適用于可見光、紅外、多光譜、激光雷達、SAR等多種圖像,而且也適用于機場、港口、要塞等多種重要目標判讀,對于減輕人員工作量,推動地形和重點目標判讀的自動化、智能化發(fā)展具有重要意義。