王振國 ,陳宏宇 ,徐文明
(1.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所上海200050;2.中國科學(xué)院微小衛(wèi)星創(chuàng)新研究院上海200120;3.上海科技大學(xué)信息科學(xué)與技術(shù)學(xué)院,上海200120;4.中國科學(xué)院大學(xué)北京101407)
遙感圖像場景分類是遙感圖像解譯的一個(gè)重要環(huán)節(jié),也是地理信息系統(tǒng)(Geographic Information System)的關(guān)鍵技術(shù),它在城市規(guī)劃與城市管理問題上發(fā)揮著重大作用。隨著可獲取的遙感圖像的空間分辨率越來越高,遙感圖像所展現(xiàn)的地面場景的細(xì)節(jié)更加豐富、類別更加多樣化、場景類間的相似性增大,使得場景的分類變得更加困難。因此,如何選取更有表達(dá)性的特征與更高效準(zhǔn)確的分類方法,成為高分辨率遙感圖像場景分類問題的關(guān)鍵。
目前,遙感圖像場景分類問題大多采用貝葉斯統(tǒng)計(jì)模型來解決[1-4],這類統(tǒng)計(jì)學(xué)分類模型在面對分類總數(shù)較少、類間干擾不大的分類問題時(shí)效果較好。然而,由于視覺單詞[5(]visual words)在描述復(fù)雜場景時(shí)的充分度不夠,統(tǒng)計(jì)學(xué)模型在處理類間相似度較大、總類別較多的分類問題時(shí),分類準(zhǔn)確度較低。
文獻(xiàn)提[6]出了一種基于多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(MS-DCNN)場景分類法,由于有限的遙感數(shù)據(jù)集無法充分訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),限制了其準(zhǔn)確率的提升。文獻(xiàn)[7]首次把ImageNet[8]數(shù)據(jù)集所預(yù)訓(xùn)練的AlexNet[9]作為一種遙感圖像的特征提取方式,并證明了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)特征提取方式在遙感圖像場景分類問題上的可行性。
在此基礎(chǔ)上,本文探討利用ImageNet數(shù)據(jù)集訓(xùn)練 的 Inspection-v3[10]、CaffeNet[11]和 OverFeatL[12]3 種DCNN提取的融合特征進(jìn)行場景分類的方法。并且利用3種DCNN的歸一化融合特征,配合多層感知機(jī)(MLP)在UCMLU(http://vision.ucmerced.edu/datasets/landuse.html)數(shù)據(jù)集上獲得了97.01%的準(zhǔn)確率。
物體分類與場景分類在過程上的相似性,決定了用物體分類數(shù)據(jù)集訓(xùn)練的DCNN可以作為一種遙感圖像場景特征提取方式。不同結(jié)構(gòu)的DCNN提取的遙感場景特征具有互補(bǔ)性。因此,融合不同結(jié)構(gòu)的DCNN特征可以提高場景分類效果。
底層視覺特征、中尺度視覺特征無法充分描述復(fù)雜場景的語義信息,這是制約基于底層、中尺度視覺特征提取的場景分類方法準(zhǔn)確率進(jìn)一步提高的關(guān)鍵因素。DCNN具有極強(qiáng)的非線性映射能力和語義表達(dá)能力,但是其訓(xùn)練卻需要大量的標(biāo)注樣本。目前,具有復(fù)雜場景標(biāo)記的遙感數(shù)據(jù)集的規(guī)模較小,無法達(dá)到訓(xùn)練DCNN的規(guī)模,這也限制了DCNN在遙感場景分類問題上的應(yīng)用。
遙感場景分類是一個(gè)把場景內(nèi)的各個(gè)組成單元及其對應(yīng)關(guān)系映射到場景語義的一個(gè)過程,這與物體分類的過程是相似的。因此,利用ImageNet數(shù)據(jù)集訓(xùn)練DCNN來提取遙感圖像的場景特征是一種可行的方案。這種方案即克服了底層、中尺度視覺特征場景表達(dá)不充分的問題,又避免了對大規(guī)模帶有場景標(biāo)記的遙感數(shù)據(jù)集的依賴。
我們所采用的3種DCNN為:CaffeNet、Over FeatL、Inspection-v3,他們在ImageNet目標(biāo)識別測試集上都取得較好效果。CaffeNet相對AlexNet而言只是交換了卷積層之間的歸一化和池化操作順序,基于Caffe[11]實(shí)現(xiàn)。OverFeatL相對于AlexNet而言增加了一層卷積操作并采取了不同的卷積核大小和步長,基于OverFeat[12]實(shí)現(xiàn)。Caffe和OverFeat分別提供了利用ImageNet預(yù)訓(xùn)練的CaffeNet和OverFeatL的初始化權(quán)重。
Inspection-v3基于GoogLeNet[13]和 Inspectionv2[10],并在Inspection-v2基本結(jié)構(gòu)的基礎(chǔ)之上引入了標(biāo)記平滑(label smoothing)以及輔助分類器的全連接層塊歸一化(batch-normalized)等多種策略。它是一種比前兩種DCNN結(jié)構(gòu)更優(yōu)化的一種網(wǎng)絡(luò)。其利用ImageNet預(yù)訓(xùn)練的初始化權(quán)重可以從tensorFlow(http://www.tensorflow.org,谷歌2016年3月分發(fā)布的深度學(xué)習(xí)開源軟件包)中獲取。
我們利用對應(yīng)的開源軟件包中的初始化權(quán)重來初始化3種深度網(wǎng)絡(luò)。對于CaffeNet和OverFeatL,我們?nèi)∽詈笠粚哟笮?096的隱含層的輸出來作為我們的特征向量,分別標(biāo)記為FC∈R4096、和FO∈R4096;而對于Inspection-v3,我們把線性映射層(logits層)所輸出的2048維的向量作為特征向量,記為FI∈ R2048。
我們所采取的基于深度神經(jīng)網(wǎng)絡(luò)特征提取的場景分類器如圖1所示。輸入圖片經(jīng)過3種深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生3種深度特征,經(jīng)過一定策略融合后的融合特征F輸入由一個(gè)隱含層和一個(gè)softmax分類器組成的MLP產(chǎn)生分類結(jié)果。
圖1 基于深度神經(jīng)網(wǎng)絡(luò)特征融合的場景分類器
圖1中的特征融合單元代表本文實(shí)現(xiàn)的4種特征融合策略:CaffeNet與Inspection-v3級聯(lián)、3種DCNN特征級聯(lián)、CaffeNet與Inspection-v3分別歸一化后級聯(lián)、3種DCNN特征分別歸一化后級聯(lián)。4種特征融合策略可以分別描述為:
其中norm2(F)=FT×F表示取F的2范數(shù)。
文中所采取的MLP由一個(gè)隱含層和一個(gè)softmax分類器組成。我們利用M表示隱含層的單元數(shù)目、C表示場景的類別數(shù)目、W∈RM×N表示MLP輸入層與隱含層之間的權(quán)重矩陣、b∈RM×1表示偏移向量、tanh作為隱含層的激活函數(shù),隱含層的輸出u∈RM×1可以表示為:
若θ∈RM×C表示隱含層與softmax層之間的權(quán)重矩陣、K表示訓(xùn)練樣本的總數(shù)目、y∈RK表示所有訓(xùn)練集的場景標(biāo)記,則MLP的損失函數(shù)為:
我們采用隨機(jī)梯度下降法來訓(xùn)練如圖1所示的場景分類器。圖1中的虛線表示在場景分類器訓(xùn)練過程中,我們只把分類預(yù)測誤差向MLP反饋并對MLP進(jìn)行參數(shù)調(diào)整,而不調(diào)整3種DCNN的參數(shù)。即,在實(shí)現(xiàn)隨機(jī)梯度下降算法時(shí),我們只考慮損失函數(shù)J關(guān)于W和θ的偏導(dǎo)數(shù),而不考慮J關(guān)于δDCNN的偏導(dǎo)數(shù)。這是因?yàn)镈CNN的結(jié)構(gòu)復(fù)雜、參數(shù)較多,利用有限的遙感數(shù)據(jù)集調(diào)整其參數(shù)時(shí)容易導(dǎo)致網(wǎng)絡(luò)過擬合。
我們采用的數(shù)據(jù)為UCMLU數(shù)據(jù)集,它是由21種場景組成,每個(gè)場景具有100張分辨率大小為256×256的三波段的空間的分辨率大約為1英尺的高分遙感圖像。我們隨機(jī)的選取每類100張圖片中的80張作為訓(xùn)練集,剩余的20張作為測試集。
為了增加訓(xùn)練集的數(shù)量,我們把每張256×256的圖片分別切割出最中間和四周的5張200×200的子圖,然后每張子圖分別做90度、180度、270度的旋轉(zhuǎn)。測試集也做相同的切割與旋轉(zhuǎn)處理,所有模型的訓(xùn)練和測試都在擴(kuò)展的數(shù)據(jù)集上進(jìn)行。
實(shí)驗(yàn)的計(jì)算機(jī)配置為Inte(lR)i7-6700HQ CPU@2.6 GHz,NVIDIA GTX960M GPU,8GB RAM,軟件仿真環(huán)境為Ubuntu16.04下安裝的eclipse(python開發(fā))、以及matlab R2014。用到的開源軟件包為:tensorFlow、Caffe軟件包、OverFeat軟件包、VLFeat(http://www.vlfeat.org)。
為了與傳統(tǒng)的特征提取方式對比,我們分別實(shí)現(xiàn)了GIST特征[14]、分層梯度方向直方圖(PHOG)、分層關(guān)鍵詞直方圖(PHOW)以及堆疊判別式自編碼器[16](SDASE)4種特征提取方式。PHOG特征我們設(shè)置的梯度方向量化為128級,分別在1×1、2×2、4×4 3種空間尺度提取梯度統(tǒng)計(jì)直方圖并合并。我們利用文獻(xiàn)[15]中相同的參數(shù)來提取512維的GIST特征。PHOW特征的提取分為3步:
1)為減小計(jì)算量,采用未擴(kuò)展的訓(xùn)練集的所有的圖片的最中間的200×200的子圖作為訓(xùn)練集并分別在1×1和2×2空間金字塔上利用VLFeat提取dense SIFT特征;
2)利用Kmean將所有的dense SIFT特征聚類為400個(gè)類,每個(gè)類的中心作為一個(gè)視覺單詞;
3)對于所有訓(xùn)練集中的任意一副圖像,分別在1×1和2×2空間金字塔上提取dense SIFT特征,利用K最近鄰(kNN,k-Nearest Neighbor)統(tǒng)計(jì)距離每個(gè)視覺單詞最近的dense SIFT特征數(shù)目并歸一化。最后,我們得到一個(gè)2000維的PHOW特征。
SDASE的輸入為顏色統(tǒng)計(jì)直方圖、PHOW、GIST的級聯(lián)特征,其中顏色統(tǒng)計(jì)直方圖的維數(shù)為384,分3個(gè)顏色通道每個(gè)通道分128級。PHOW與GIST特征的參數(shù)與上一段中所描述的參數(shù)相同。SDASE的輸入維度大小總共為參數(shù)為2 896。SDASE的結(jié)構(gòu)采用文獻(xiàn)[16]中準(zhǔn)確率最高的一種結(jié)構(gòu):2 896-4 896-1 448-720。無監(jiān)督訓(xùn)練和有監(jiān)督訓(xùn)練的學(xué)習(xí)率均為0.000 1。我們采用tensorFlow完成對MLP分類器的訓(xùn)練,MLP分類器的隱含層的大小被設(shè)為720。采用固定學(xué)習(xí)率0.000 1,迭代次數(shù)為50。
不同特征提取方式所提取的特征的分類準(zhǔn)確率的對比如圖2所示。由此可以看出:PHOG特征、GIST特征、PHOW特征的分類準(zhǔn)確率皆低于3種深度神經(jīng)網(wǎng)絡(luò) OverfeatL、CaffeNet、Inspection-v3 提取特征的分類準(zhǔn)確率;對于DCNN而言,Inspection-v3相比AlexNet而言具有更優(yōu)化的結(jié)構(gòu)策略與設(shè)計(jì)思想,在沒有進(jìn)行特征融合策略時(shí),其分類效果是最好的,達(dá)到了95.98%;
圖2 幾種特征提取方式分類準(zhǔn)確率的統(tǒng)計(jì)
雖然SDASE所提取特征的分類準(zhǔn)確率為91.89%,高于OverfeatL特征(91.24%),但是考慮到在訓(xùn)練MLP過程中對SDASE的參數(shù)進(jìn)行了微調(diào),不能完全的把SDASE作為一種特征提取方式。因此,我們可以得出:DCNN所提取的特征其分類準(zhǔn)確率要高于其他種類的特征提取方式;在遙感場景分類領(lǐng)域,Inspection-v3為最優(yōu)的一種場景特征提取方式。
表 1所示為式(1)、式(2)、式(3)、式(4)所示的4種特征融合方式的場景分類的準(zhǔn)確率以及其對準(zhǔn)確率提升的影響。可見,式(4)所示的3種DCNN提取的特征歸一化后的級聯(lián)特征取得了最高的準(zhǔn)確率97.01%,并且4種特征融合策略都提高了分類的結(jié)果。經(jīng)過歸一化后的特征相對原始特征而言具有更好的分類效果,這是因?yàn)椴煌腄CNN提取的特征經(jīng)過歸一化操作后,在級聯(lián)特征中占有了相同的比重,而不是由一種值較大的特來主導(dǎo)級聯(lián)特征的場景表現(xiàn)力。
表1 幾種融合特征提取方式的分類準(zhǔn)確率
圖3所示為準(zhǔn)確率最高的式(4)所示方式所提取的特征的分類結(jié)果的混淆矩陣(由于我們對結(jié)果的小數(shù)位數(shù)做了截?cái)嗵幚?,所以存在部分的列的?zhǔn)確率的和不為1的情況;數(shù)字表示場景類別),其中的數(shù)字與場景類別的對應(yīng)關(guān)系如表2所示。由此可以看出,由于建筑物、密集住宅區(qū)、中尺度住宅區(qū)、稀疏住宅區(qū)這4種場景具有相似性,導(dǎo)致了其分類準(zhǔn)確率低于平均準(zhǔn)確率。因此,DCNN所提取的相似的場景的特征的區(qū)分度相對較小,這是制約分類效果進(jìn)一步提升的關(guān)鍵因素。
圖3 基于式(4)特征分類結(jié)果的混淆矩陣。
表2 數(shù)字標(biāo)號與場景類型的對應(yīng)關(guān)系
物體識別與場景識別在流程上具有相似性,都是一個(gè)場景或物體中的各個(gè)部分逐步組合抽象成一個(gè)高層語義的過程。這是用ImageNet訓(xùn)練的DCNN可以作為遙感場景分類特征提取方式的基本理論依據(jù)。文中展示了不同結(jié)構(gòu)的DCNN的融合特征在在場景表達(dá)方面的優(yōu)勢。主要貢獻(xiàn)為在遙感圖像場景分類問題中首次提出了Inspection-v3、CaffeNet、以及OverFeatL 3種DCNN的特征融合策略,并運(yùn)用這種策略提高了分類的準(zhǔn)確率。
但是,由于深度的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)數(shù)目巨大,造成了特征提取的速度較慢。如何進(jìn)一步提高深度神經(jīng)網(wǎng)絡(luò)的特征提取速度以及相似場景的分類準(zhǔn)確率,將是未來研究工作的重點(diǎn)。
[1]Lienou M,Maitre H,Datcu H.Semantic annotation of satellite images using latent dirichlet allocation[J].IEEE Geosci.Remote Sens.Lett.,2010(7):28-32.
[2]Luo W,Li HL,Liu GH.Automatic annotation of multispectral satellite images using autho-topic model[J].IEEE Geosci.Remote Sens.Lett.,2012(9):634-638.
[3]W.Luo,H.L.Li,G.H.Liu,et al.Semantic AnnotationofSatelliteImagesUsingAuthor-Genre-Topic Model[J].IEEE Transactions on Geoscience and Remote Sensing,2014(52):1356-1368.
[4]Zhang Z,Yang M Y,Zhou M,et al.Simultaneous remote sensing image classification and annotation based on the spatial coherent topic model[C]//IEEE InternationalGeoscience and Remote Sensing Symposium.2014:1698-1701.
[5]Sivic J,Zisserman A.Video Google:A text retrieval approach to object matching in videos[C]//Computer Vision,2003.Proceedings.Ninth IEEE InternationalConferenceon.IEEE,2003:1470-1477.
[6]許風(fēng)暉,慕曉冬,趙鵬,等.利用多尺度特征與深度網(wǎng)絡(luò)對遙感影像進(jìn)行場景分類[J].測繪學(xué)報(bào),2016,45(7):834,840.
[7]Penatti O A B,Nogueira K,Santos J A D.Do deep features generalize from everyday objects to remote sensing and aerial scenes domains[C]//IEEE Int.Conf.Comput.Vis.Pattern Recognit.Workshops,2015:44-51.
[8]Deng J,Dong W,Socher R,et al.ImageNet:a large- scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition.2009:248-255.
[9]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[10]Szegedy C, Vanhoucke V, Ioffe S, etal.Rethinking the Inception Architecture for Computer Vision[J]. arXiv preprint arXiv:1512.00567,2015:1-10.
[11]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[J].ArXiv preprint arXiv:1408.5093,2014:1-4.
[12]Sermanet P,Eigen D,Zhang X,et al.Overfeat:Integrated recognition,localization and detection using convolutional networks[J].arXiv preprint arXiv:1312.6229,2013:1-16.
[13]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2015:1-9.
[14]楊昭,高雋,謝昭,等.局部Gist特征匹配核的場景分類[J].中國圖象圖形學(xué)報(bào),2013,18(3):264-270.
[15]Siagian C,Itti L.Rapid biologically-inspired scene classification using features shared with visual attention[J].IEEE transactions on pattern analysis and machine intelligence,2007,29(2):300-312.
[16]Yao X W,Han J W ,Gong C,et al.Semantic annotation of high-resolution satellite images via weakly supervised learning[J].IEEE Transactions on Geoscience and Remote Sensing,2016,54:3660-3671.