杜 政,方 耀
(1.河海大學(xué) 地球科學(xué)與工程學(xué)院,江蘇 南京 211100)
結(jié)合隨機(jī)森林的高分一號分類最優(yōu)組合研究
杜 政1,方 耀1
(1.河海大學(xué) 地球科學(xué)與工程學(xué)院,江蘇 南京 211100)
選取高分一號(GF-1)PMS多光譜影像,提取該數(shù)據(jù)的指數(shù)、共生矩陣紋理等特征與原始多光譜影像疊加,對疊加后影像進(jìn)行隨機(jī)森林分類并提取各波段重要性系數(shù)。根據(jù)重要性系數(shù)進(jìn)行最優(yōu)波段組合初選擇,在此基礎(chǔ)上利用最佳指數(shù)法(OIF)選取土地覆蓋分類最優(yōu)波段組合,利用隨機(jī)森林分類器對該組合進(jìn)行土地覆蓋分類,與傳統(tǒng)的OIF最優(yōu)波段選取結(jié)果進(jìn)行分類精度對比。結(jié)果表明,提出的方法能夠有效提取最優(yōu)波段組合,最優(yōu)波段組合為B2-B5-CON,與傳統(tǒng)方法相比,在隨機(jī)森林分類中總精度要高出20.49%。
高分一號;最佳指數(shù);隨機(jī)森林;穩(wěn)定系數(shù);重要性系數(shù)
目前,最佳波段選擇方法是解決多光譜遙感影像分類的有效手段之一,它通過選出有效表征地物類別的部分光譜通道(波段),可以達(dá)到數(shù)據(jù)壓縮和提高處理效率的目的,從而為土地利用/覆蓋信息的提取提供色彩豐富的備用影像。最佳波段選擇的方法可分為定性和定量二種,相比需要專業(yè)遙感知識、缺乏科學(xué)性和準(zhǔn)確性的定性分析,定量計(jì)算方法更為科學(xué)、直觀和快速,服務(wù)于現(xiàn)代遙感應(yīng)用的需求。國內(nèi)許多學(xué)者對TM、HJ 1A/B、Hyperion、CBERS-CCD及資源三號數(shù)據(jù)最佳波段選擇進(jìn)行了探索研究[1-5],但相關(guān)研究均基于原始的多光譜波段進(jìn)行最優(yōu)波段組合提取,紋理特征和指數(shù)特征信息并未被涉及。
多分類器分類方法能綜合不同分類方法生成最終結(jié)果,理論上已證明比單一的分類器具有更好的效果,并已廣泛應(yīng)用于各類實(shí)際問題[6]。而隨機(jī)森林(RF)是一種新型多分類器集成的分類器,由眾多分類樹構(gòu)成,每棵樹單獨(dú)完成分類運(yùn)算后,最終輸出的分類結(jié)果由各個(gè)分類樹的分類結(jié)果投票決定。隨機(jī)森林因其優(yōu)越的性能在國內(nèi)外諸多領(lǐng)域得到廣泛的應(yīng)用,而國內(nèi)學(xué)者分類研究與應(yīng)用則較少,隨機(jī)森林分類方法對高分一號數(shù)據(jù)的土地利用/覆蓋信息提取的性能和效果的研究也很少。
本文通過將紋理、指數(shù)等特征疊加到多光譜波段中,通過隨機(jī)森林分類進(jìn)行波段的初選擇,利用OIF指數(shù)對初選擇的波段組合進(jìn)行最優(yōu)波段選取,選擇OIF值最大的波段組合作為最優(yōu)波段組合,利用隨機(jī)森林分類器對最優(yōu)波段組合進(jìn)行土地覆蓋分類,并與傳統(tǒng)的OIF波段選取方法的分類結(jié)果進(jìn)行對比,分析評價(jià)OIF指數(shù)結(jié)合隨機(jī)森林分類器進(jìn)行最優(yōu)波段選取的效果。
本次實(shí)驗(yàn)選用高分一號數(shù)據(jù)于2013年8月獲得的一塊區(qū)域,研究區(qū)位于湖北省沙市市、江陵縣及公安縣的交匯處,研究區(qū)地物豐富,耕地主要分布在西南、西北方向,中間為城市居住區(qū),還有部分河流及養(yǎng)殖區(qū)存在(見圖1)。
圖1 研究區(qū)
高分一號(GF-1)是我國高分辨率對地觀測衛(wèi)星系統(tǒng)重大專項(xiàng)(簡稱“高分專項(xiàng)”)的第一顆衛(wèi)星。特點(diǎn)是增加了高分辨率多光譜相機(jī),該相機(jī)的性能在國內(nèi)投入運(yùn)行的對地觀測衛(wèi)星中最強(qiáng)。其重復(fù)周期只有4 d,PMS相機(jī)可以獲取包括8 m多光譜和2 m全色圖像。首先對數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正、研究區(qū)裁剪等預(yù)處理,以消除大氣和光照等因素對地物反射的影響。
分為林地、水體、耕地、未利用土地、不透水面5 類(見圖2)。紋理特征在圖像檢索和圖像分類中廣泛應(yīng)用。而灰度共生矩陣紋理被公認(rèn)為是具有較高效率的紋理特征提取方法,且具有較強(qiáng)的適應(yīng)能力和魯棒性[7]。眾多研究表明,灰度共生矩陣紋理在遙感影像分類、城市植被信息提取中都起到積極的促進(jìn)作用。實(shí)驗(yàn)中將灰度共生矩陣8個(gè)紋理量(Mean、Variance、Homogeneity、Contrast、Dissimilarity、Entropy、Second moment、Correlation)加入到最優(yōu)波段組合的運(yùn)算中。
植被指數(shù)(NDVI)作為用來表征地表植被覆蓋和生長狀況的度量參數(shù),已經(jīng)在影像分類、生態(tài)、農(nóng)業(yè)等領(lǐng)域有了廣泛的應(yīng)用。研究表明,歸一化水體指數(shù)(NDWI)可以提高遙感影像分類中水體的提取精度。因此選擇NDVI、NDWI參與到最優(yōu)波段信息組合的運(yùn)算中。
圖2 流程圖
2.1 最佳指數(shù)
波段選擇一般遵循信息總量大、相關(guān)性弱、目標(biāo)地物類型在所選的波段組合內(nèi)與其他地物有很好的分離性的原則。最佳指數(shù)(OIF)模型是美國科學(xué)家查維茨提出的最佳波段選擇數(shù)學(xué)模型,其計(jì)算的數(shù)學(xué)公式如下[8]:
式中,Si表示第i波段的標(biāo)準(zhǔn)差;Rij表示第i波段和第j波段的相關(guān)系數(shù)。因此,OIF方法能有效地將標(biāo)準(zhǔn)差和相關(guān)系數(shù)統(tǒng)一起來,為進(jìn)一步的圖像質(zhì)量判斷提供依據(jù)。由公式(1)可知,圖像數(shù)據(jù)的標(biāo)準(zhǔn)差越大,所包含的信息量也越大,而波段間的相關(guān)性信息越小,表明波段的獨(dú)立性越高,信息的冗余度越小。但OIF值是從整體上考慮信息量與獨(dú)立性之間的關(guān)系,只對信息量及相關(guān)系數(shù)進(jìn)行加和統(tǒng)計(jì)。有時(shí)候一些信息量低、相關(guān)性高的波段也被歸并到最佳波段中,所以,有必要在進(jìn)行OIF計(jì)算之前進(jìn)行波段的初選擇,保證提取的最佳波段組合中的波段是信息量大、獨(dú)立性好的波段。
2.2 穩(wěn)定性系數(shù)
在初選擇之后的波段中進(jìn)行OIF值計(jì)算,得到的最大OIF值的波段組合是最大的波段組合。文獻(xiàn)[3]提出用穩(wěn)定系數(shù)作為波段初選擇的標(biāo)準(zhǔn),計(jì)算公式如下:
式中,Ei代表第i波段的特征值;Si代表第i波段的標(biāo)準(zhǔn)差,即可以用標(biāo)準(zhǔn)差來衡量一個(gè)數(shù)據(jù)集的離散程度,標(biāo)準(zhǔn)差越大,說明各個(gè)數(shù)據(jù)偏離均值的程度越大,均值對所有數(shù)據(jù)的代表程度就越小。反之,標(biāo)準(zhǔn)差越小,其對數(shù)據(jù)集的代表程度就越好。特征值大信息豐富,特征值小信息量少。所以α值越大,代表波段信息越豐富,數(shù)據(jù)越集中。
2.3 重要性系數(shù)
本文結(jié)合隨機(jī)森林波段重要性來選擇最優(yōu)的OIF波段組合。隨機(jī)森林是由多棵CART決策樹組合構(gòu)成的新型機(jī)器學(xué)習(xí)算法[9]。其原理為:首先采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)中抽取N個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集大小約為原始數(shù)據(jù)集的2/3;再為每個(gè)訓(xùn)練集分別建立分類回歸樹,產(chǎn)生由N棵CART決策樹組成的森林,在每棵樹生長過程中,從全部M個(gè)特征變量匯總隨機(jī)抽取m個(gè)(m≤M),在這m個(gè)屬性中根據(jù)Gini系數(shù)最小原則選出最優(yōu)屬性進(jìn)行內(nèi)部節(jié)點(diǎn)分支;最后集合N棵決策樹的預(yù)測結(jié)果,采用投票的方式?jīng)Q定新樣本的類別;每次抽樣約有1/3的數(shù)據(jù)未被抽中,利用這部分袋外數(shù)據(jù)進(jìn)行內(nèi)部誤差估計(jì),產(chǎn)生OOB誤差。隨機(jī)森林通過OOB誤差計(jì)算特征變量重要性:首先根據(jù)袋外數(shù)據(jù)計(jì)算隨機(jī)森林中每個(gè)決策樹的袋外誤差et;再隨機(jī)改變袋外數(shù)據(jù)第j個(gè)特征變量Xj的值,并計(jì)算新的袋外誤差ejt,最后變量Xj的重要性V(Xj)表示為[10-11]:
Xj變量的變化引起的袋外誤差增加越大,精度減少的越多,說明該變量越重要。
隨機(jī)森林在分類樹增長過程中不斷選擇最佳屬性進(jìn)行分裂并對分類樹進(jìn)行剪枝處理,以降低運(yùn)算量。此外,對用戶輸入的變量不十分敏感的特點(diǎn),可將輸入值的正平方根作為參數(shù)參與實(shí)際運(yùn)算,以減小分裂運(yùn)算與整個(gè)過程的計(jì)算復(fù)雜度,同時(shí)還降低分類樹之間的協(xié)方差。因此,隨機(jī)森林可以處理高維數(shù)據(jù)并且適用于大數(shù)據(jù)量的分類計(jì)算,尤其在高維數(shù)據(jù)中,更能體現(xiàn)出其速度快、精度高、穩(wěn)定性好的優(yōu)勢[12]。
將高分一號PMS多光譜數(shù)據(jù)、灰度共生矩陣紋理數(shù)據(jù)以及指數(shù)數(shù)據(jù)進(jìn)行依次疊加,生成一幅具有高空間分辨率、多波段信息的遙感數(shù)據(jù)(其中B1-B4為高分一號多光譜波段;B5-B12為紋理特征8個(gè)變量;B13為NDVI;B14為NDWI),統(tǒng)計(jì)各波段的基本信息并計(jì)算穩(wěn)定系數(shù)及波段相關(guān)性(表1),然后用隨機(jī)森林分類器對疊加的遙感影像分類統(tǒng)計(jì)各波段的重要性;最后選取按重要性排名前8的波段組成的影像參與到最優(yōu)OIF的運(yùn)算;選擇OIF值最大的波段組合進(jìn)行隨機(jī)森林分類。
表1 各波段相關(guān)性
實(shí)驗(yàn)中通過隨機(jī)森林分類波段重要性可知,B6、B7、B9、B10、B11、B12的隨機(jī)森林分類重要性都小于3,對于這些波段予以排除,剩下的波段B1-B5、B8、B13-B14合成多波段遙感影像,參與到最后的最優(yōu)信息組合的運(yùn)算中,其中排名前十位的信息組合見表3。然后用穩(wěn)定系數(shù)法選出穩(wěn)定系數(shù)較大的4個(gè)波段分別為B1、B2、B5、B7,將此四波段看作一個(gè)整體,計(jì)算剩余波段與此整體的相關(guān)系數(shù)之和,最后選取總體相關(guān)性最低的4個(gè)波段B8、B10、B11、B12,并與上述整體構(gòu)成多波段遙感影像,計(jì)算上述影像OIF值,排名前十的組合見表2。
表2 前十OIF值分布
由表2知,波段重要性方法提取的最優(yōu)波段組合為B2-B5-B8,對應(yīng)于Green、Mean、Contrast,其OIF值達(dá)到833.70,而穩(wěn)定系數(shù)方法提取的最優(yōu)波段組合為B1-B8-B11,對應(yīng)于Blue、Contrast、Second moment,其OIF值達(dá)到1 255.32;對波段重要性方法得到最優(yōu)波段組合B2-B5-B8及穩(wěn)定系數(shù)方法得到的最優(yōu)波段組合B1-B8-B11用同樣的分類樣本進(jìn)行隨機(jī)森林分類,分類結(jié)果見圖3。
圖3 分類結(jié)果
分類樣本點(diǎn)分別為398、401、263、389、201個(gè);驗(yàn)證樣本點(diǎn)分別為231、225、128、168、141個(gè)。精度評價(jià)結(jié)果見表3、4。從表中可知,波段重要性方法提取的最優(yōu)波段組合B2-B5-B8的總體分類精度、Kappa系數(shù)分別為90.48和87.97,要高于穩(wěn)定系數(shù)方法得到的B1-B8-B11的分類精度,可知,最優(yōu)的波段組合并不能單純地用OIF數(shù)值大小來判斷,同時(shí),也說明本文提出的波段重要性的最優(yōu)波段選取方法結(jié)合隨機(jī)森林分類切實(shí)可行。
表3 B2-B5-B8精度評價(jià)
表4 B1-B8-B11精度評價(jià)
利用高分一號數(shù)據(jù),提取NDVI、NDWI指數(shù)特征以及共生矩陣紋理特征,將新特征與原始的多光譜PMS數(shù)據(jù)疊加得到多波段、高空間分辨率影像,對該影像進(jìn)行隨機(jī)森林分類提取各波段的分類重要性系數(shù),用該系數(shù)對合成影像進(jìn)行最優(yōu)波段選取之前的波段初選,最后用選擇出的各波段參與最優(yōu)波段選取的OIF值計(jì)算,得到最佳波段組合為B2-B5-B8,而穩(wěn)定系數(shù)方法得到的最佳波段組合為B1-B8-B11,通過對二種組合進(jìn)行隨機(jī)森林分類,對比分類精度發(fā)現(xiàn),本文提出的結(jié)合隨機(jī)森林分類的最優(yōu)波段選取方法總體的分類效果要優(yōu)于穩(wěn)定系數(shù)方法得到的最佳波段組合,說明本文提出的結(jié)合隨機(jī)森林分類的最優(yōu)波段選取方法切實(shí)可行,同時(shí)該方法對于降低數(shù)據(jù)維數(shù)和提高影像的處理速度具有一定的指導(dǎo)意義。
在隨機(jī)森林分類中,樹的數(shù)量是決定隨機(jī)森林分類器分類效果的重要因素,如何有效地評估隨機(jī)森林中分類樹的數(shù)目對分類及最優(yōu)波段組合選取的影響將是下一步研究的重點(diǎn)。
[1] 戴昌達(dá),雷莉萍.TM圖像的光譜信息特征與最佳波段組合[J].環(huán)境遙感,1989,4(4):282-292
[2] 汪繼偉,劉剛,馬海濤,等.環(huán)境減災(zāi)衛(wèi)星在宏觀檢測中的最佳波段組合研究[J].中國科技信息,2011 (16):40-40
[3] 張磊,邵振峰,等.改進(jìn)的OIF和SVM結(jié)合的高光譜遙感影像分類[J].測繪科學(xué),2014(39):114-117
[4] 周旭,安裕倫,張斌,等.CBERS-CCD數(shù)據(jù)土地利用/覆蓋信息提取最佳波段選擇:以貴州喀斯特山區(qū)為例[J].遙感技術(shù)與應(yīng)用,2009,24(6):743-748
[5] 趙芳,朱豐琪,馮仲科,等.運(yùn)用資源三號衛(wèi)星影像數(shù)據(jù)提取水體信息的方法研究[J].測繪通報(bào),2014 (3):25-28
[6] GIACINTO G,FABIO R.An Approach to the Automatic Design of Multiple Classifier Systems[J].Pattern Recognition Letters,2001,22(1):25-33
[7] 劉麗,匡綱要.圖像紋理特征提取方法綜述[J].中國圖像圖形學(xué)報(bào),2009,14(4):622-635
[8] 尹繼豪,王義松.高光譜遙感影像中最佳譜段的快速選擇方法[J].遙感信息,2010(3):3-6
[9] BREIMAN L.Random Forest[J].Machine Learning,2001(45):5-32
[10] ZHU Zhe,CURTIS E W,JOHN R,et al. Assessment of Spectral, Polarimetri, Temporal,and Spatial Dimensions for Urban and Peri-urban Land Cover Classification Using Landsat and SAR Data[J].Remote Sensing of Environment,2012(117):72-82
[11] BEIJMA S V,COMBER A,LAMB A.Random Forest Classification of Salt Marsh Vegetation Habitats Using Quadpolarimrtric Airborne SAR,Elevation and Optical RS Data[J]. Remote Sensing of Environment,2014(149):118-129
[12] VERIKAS A,GELZIN A,BACAUSKIENE M.Mining Data with Random Forests:A Survey and Results of New Tests[J].Pattern Recognition,2011,44(2):330-349
P237
B
1672-4623(2017)02-0015-04
10.3969/j.issn.1672-4623.2017.02.005
2016-03-15。
項(xiàng)目來源:國家自然科學(xué)基金資助項(xiàng)目(41201394)。
杜政,碩士研究生,研究方向?yàn)榈乩硇畔⑾到y(tǒng)開發(fā)與遙感圖像模式識別。