唐曉娜,張和生
(太原理工大學(xué),太原 030024)
隨著高分遙感衛(wèi)星的相繼問世,高分辨率遙感影像因其所具有的高度細節(jié)化的地表覆蓋信息特征為地物目標(biāo)分類提供了充分的依據(jù)[1]。傳統(tǒng)基于中低分辨率遙感數(shù)據(jù)的方法已經(jīng)不適用于處理高分遙感影像。近年來研究人員多采用面向?qū)ο蠓椒▉硖幚砀叻直媛蔬b感數(shù)據(jù)。面向?qū)ο蠓诸愅黄屏藗鹘y(tǒng)方法以像元為對象的局限性,實現(xiàn)了多細節(jié)、多信息的目標(biāo)對象提取[2]。但面向?qū)ο蠓椒ㄔ黾恿藢ο筇卣骶S度,故在分類前需進行特征優(yōu)化。隨機森林對于多維特征的數(shù)據(jù)集分類有很高的效率,應(yīng)用于土地利用分類也取得了較高精度的結(jié)果。當(dāng)特征維數(shù)過高時,過多的特征會使得運算變得復(fù)雜,處理效率降低,甚至?xí)?dǎo)致分類精度的降低,因此在分類前需要對特征空間進行優(yōu)化降維,選取對分類作用最大的特征[3]。
在現(xiàn)有研究中,與RF算法結(jié)合的特征選擇方法概括為過濾式(Filter)和封裝式(Wrapper)2種。Zhang等[4]將2類算法結(jié)合進行特征選擇并取得較好效果。Seyyedi[5]借鑒過濾和封裝相結(jié)合的思想提出了一種FSLA方法用于高維空間特征選擇,可以選出較原始數(shù)據(jù)集維度更低且分類性能較好的特征子集;肖艷針[6]對面向?qū)ο蠓诸愔写嬖诘奶卣骶S數(shù)過高的問題,提出了一種結(jié)合Relief F算法和遺傳算法的混合特征選擇方法,并利用多分類器組合方法對PolSAR影像分類,取得較好效果。
Filter特征選擇方法中,Relief F是處理多類別問題較成功的算法之一,通過計算特征權(quán)重來提取重要特征。Wrapper特征選擇方法選取基于隨機森林的新二進制粒子群優(yōu)化遺傳封裝算法(GANBPSO)。綜上,本文基于高分二號數(shù)據(jù),將Relief F算法和基于隨機森林的新二進制粒子群優(yōu)化遺傳封裝算法結(jié)合,提出了混合粒子群優(yōu)化遺傳算法隨機森林Filter-Wrapper組合式特征選擇方案來篩選重要特征變量構(gòu)建優(yōu)化數(shù)據(jù)集,并將其應(yīng)用于面向?qū)ο蟪鞘杏玫胤诸愔?,通過與其他特征選擇方法結(jié)果對比,驗證此方案的有效性。
Relief F算法是一種過濾式(filter)多類別特征選擇算法,通過計算權(quán)重表征特征重要程度[7]。Relief F算法在處理多類問題時,每次從訓(xùn)練樣本集中隨機取出一個樣本R,然后從和R同類的樣本集中找出R的k個近鄰樣本(near hits),從每個R的不同類的樣本集中均找出k個近鄰樣本(near misses),然后更新每個特征的權(quán)重,如下式所示:
(1)
式中:c為異類樣本的類別;R[m]為個體R特征m的值;Hj[m]為第j個最鄰近同類樣本Hj[m]特征m的值;P[c]為異類樣本類別為c的概率;class(R)為個體R的類別;P(class(R))為樣本類別與R相同的概率;T(c)t[m]是第j個最鄰近c類樣本特征m的值。
特征變量權(quán)重越大,表明此特征使得樣本類間差距越大,識別不同類效果越明顯。
遺傳算法(genetic algorithms,GA)利用生物啟發(fā)算子,隨機產(chǎn)生一定數(shù)量的初始個體構(gòu)成原始種群,通過選擇、交叉、變異形成新種群,利用適應(yīng)度函數(shù)對個體評估,并逐步淘汰適應(yīng)度函數(shù)值低的解,增加適應(yīng)度函數(shù)高的解,將適應(yīng)度高的個體遺傳到下一代,直到滿足終止條件,輸出最優(yōu)解[8]。
新的離散二進制粒子群算法(novel binary particle swarm optimization algorithm,NBPSO)在d維搜索空間初始化由二進制編碼組成的粒子群,用位置、速度和適應(yīng)度函數(shù)得到的適應(yīng)度值表示該粒子特征,通過上一時刻粒子的運動方向和狀態(tài)更新粒子位置和速度[9]。位置和速度更新公式如下:
(2)
(3)
(4)
(5)
隨機森林是以多個分類回歸樹(classification and regression trees,CART)為基礎(chǔ)分類器的集成分類器[10],主要分為樣本訓(xùn)練與分類兩部分。訓(xùn)練過程首先采用自助(bootstrap)重采樣技術(shù)從總體數(shù)據(jù)集N中有放回地重復(fù)選取n個樣本生成新的訓(xùn)練樣本,每個樣本集的大小一致;然后根據(jù)自助樣本集生成n個CART分類決策樹組成隨機森林,在生成決策樹的過程中,從每個決策樹的每個節(jié)點中隨機選取m個特征(m小于總特征數(shù)M),基于基尼系數(shù)最小原則計算節(jié)點最佳分裂方式;最后新樣本的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)決定。并用未抽到的用例(樣本)作預(yù)測,評估其誤差。在袋裝算法(bootstrap aggregating,Bagging)的每輪隨機采樣中,約有36.8%的數(shù)據(jù)未被選中來參加訓(xùn)練集模型的擬合,稱為袋外誤差(out of bag error,OOB)。OOB誤差可以檢驗?zāi)P偷姆夯芰Γ琌OB誤差越小,代表分類精度越高。
特征優(yōu)選過程中,RF算法除了要評估各特征組合的分類精度和各特征的重要性,還用于后續(xù)的城市用地信息提取。RF模型在R語言平臺上構(gòu)建,在每次分類前,對模型中的2個參數(shù)賦值:總決策樹數(shù)目n和節(jié)點分類時選取的特征變量個數(shù)m,獲得使OOB誤差最小的參數(shù)組合進行后續(xù)分類。
隨著對地觀測空間分辨率的提高,地物的細節(jié)得到極大的豐富,同類地物表現(xiàn)出更為復(fù)雜的光譜特征,紋理信息和形狀信息的加入對于區(qū)分復(fù)雜的地類變得必要,總共選取光譜特征、紋理特征、形狀特征、指數(shù)特征等共76 個特征參數(shù)。
首先利用Relief F算法對提取的76個特征進行初選,剔除類間距距離小于類內(nèi)距離的特征,篩選出與目標(biāo)類相關(guān)性較大的35個特征,對特征進行排序,利用RF算法計算交叉驗證精度接近穩(wěn)定時的變量組合作為初始化特征集。在NBPSO算法中加入GA算法的選擇、交叉和變異算子步驟,利用離散二進制粒子群算法來重建變異算子,使得模型加快搜索速度,提高全局尋優(yōu)能力[11]。優(yōu)化的混合算法流程如下:
①隨機產(chǎn)生由確定長度的二進制串組成的粒子種群并進行編碼,初始化參數(shù)和粒子位置、速度。
②計算粒子的適應(yīng)度值,采用權(quán)重的方法作為封裝算法的適應(yīng)度函數(shù),公式如下:
G=q·OA+p·(1-N0/N)
(6)
式中:OA 表示當(dāng)前特征子集的總分類精度;q+p=1,且q,p>0;N0表示當(dāng)前特征子集的數(shù)量;N表示特征總數(shù)。
③粒子更新,執(zhí)行改進的NBPSO算法,在NBPSO算法中加入GA算法的選擇、交叉和變異算子步驟。對粒子的位置和速度進行更新,計算每個粒子的適應(yīng)度值,較高值的前半部分粒子進入下一代的個體;后半部分進行交叉、變異操作。
④收斂判斷,判斷是否收斂,若不收斂,重新執(zhí)行③;反之若收斂,更新粒子個體極值和全局極值位置,更新粒子位置和速度,達到最大迭代數(shù),選取適應(yīng)度最高的粒子作為最優(yōu)特征集。
特征優(yōu)選流程如圖1所示,其中有2個參數(shù)直接影響算法搜索的性能,分別為最大迭代數(shù)(MaxIteration)和種群規(guī)模(PopSize)。綜合多次實驗,MaxIteration取值200,PopSize取值50。
圖1 特征選擇流程圖
本文采用高分二號(GF-2)衛(wèi)星于2017年5月6號獲取的山西省太原市萬柏林區(qū)的部分區(qū)域的遙感影像進行實驗,該影像全色影像分辨率為1 m,多光譜影像分辨率為4 m。其他數(shù)據(jù)為同年土地利用數(shù)據(jù)。參考文獻中對城市生態(tài)用地的分類經(jīng)驗[12-13],將實驗區(qū)域城市用地類型分為5類,分別為:植被、房屋建筑區(qū)、道路、水體和裸露地表。
利用ENVI5.3對GF-2數(shù)據(jù)進行預(yù)處理,結(jié)合RPC信息和DEM數(shù)據(jù)分別對多光譜和全色影像進行正射校正及幾何配準(zhǔn),使用NNDiffuse Pan Sharpening方法進行圖像融合,融合后的分辨率為1 m;利用FLAASH大氣校正模型進行大氣校正,最后根據(jù)需求在影像中裁剪出合適的研究區(qū)域。研究區(qū)示意圖如圖2所示。
圖2 研究區(qū)示意圖
結(jié)合2017年太原市土地利用數(shù)據(jù)與實際調(diào)查數(shù)據(jù),總共選取750個樣本點。將樣本隨機分為2組,其中2/3作為訓(xùn)練組,用于特征選擇和RF分類建模,1/3作為測試組,利用模型將其分類,并于實際類別對比,評估RF分類準(zhǔn)確率。經(jīng)過多次對比實驗,本研究中多尺度分割的分割尺度為30,光譜因子0.9,緊致度因子0.3;光譜差異分割的最大光譜差異尺度為50時,能取得較好的分割效果。
經(jīng)過多次實驗發(fā)現(xiàn),對于全特征集合All_FS,當(dāng)m為20時OOB誤差接近最小值15.26%,n≥500時,分類總體OOB誤差趨于穩(wěn)定。故選取m=20,n=500作為RF建模的初始參數(shù)。在Matlab和R語言平臺上對全特征集進行篩選,最終得到包含15個特征的最優(yōu)特征集。在最優(yōu)特征集中包括6個光譜特征、6個紋理特征和3個指數(shù)特征,形狀特征由于影像分割后地塊破碎使得各地類間形狀差異較小未選入最優(yōu)特征集合中。
表1 最優(yōu)特征集
利用優(yōu)選后的15 個特征,選取令OOB誤差最小的參數(shù)組合m=4,n=500,建立RF模型對試驗區(qū)進行土地利用分類,分類結(jié)果如圖3所示。計算混淆矩陣,進行精度分析。由表2可知,PF_FS分類方案的總體精度為91.17%,Kappa系數(shù)為0.874,除道路外,其他4類的生產(chǎn)者精度都在90%之上。水體、裸露地表、植被的生產(chǎn)者精度較高,僅道路與房屋建筑區(qū)因光譜信息相似且交叉分布現(xiàn)象分類精度低于其他地類,但總體分類結(jié)果與實際地物信息相符。
圖3 不同特征選擇方案的高分遙感影像用地信息分類
表2 Relief F-GANBPSO_RF分類方案混淆矩陣
圖4為選取較有代表性的11個太原市實驗區(qū)域土地利用現(xiàn)狀樣例點,并在表3中對樣例點的土地利用現(xiàn)狀與本文分類結(jié)果情況進行對比。
圖4 樣例點示意圖
表3 土地利用現(xiàn)狀與分類結(jié)果樣例點對比
為驗證Relief F-GANBPSO_RF特征選擇方案的有效性,將其與常用的GABPSO算法優(yōu)化特征集、Relief F算法優(yōu)化特征集、全部特征集的RF分類結(jié)果做對比,在4種特征選擇分類方案中,各自選取使分類精度最高的參數(shù)和特征數(shù)量,分類結(jié)果如圖3所示。這4種特征選擇方案分類的精度和Kappa系數(shù)如表4所示,其中以本文方法為首的4種特征選擇方法分別表示為Relief F-GANBPSO_RF、GABPSO_RF、Relief F_RF和ALL_RF。
表4 不同模型分類方法精度比較
由表4可知,在4種分類結(jié)果中,基于Relief F-GANBPSO_RF分類的總體精度和Kappa系數(shù)最高,分別為91.17%和0.874,利用GABPSO算法篩選的特征集獲得的分類精度與本文方法差距最小,精度和Kappa系數(shù)只低于1.86%和0.036 8;而Relief F_RF分類精度和Kappa系數(shù)略低于GABPSO_RF分類效果,分別為87.72%和0.825 4。說明先利用Relief F算法對特征進行預(yù)篩選,再利用GABPSO封裝算法對特征進一步優(yōu)選能夠在一定程度上提高分類精度,并且能獲取更少的特征變量來提高運行時間和效率。本次實驗中,全特征集參與分類得到的精度比其他3種方案降低了6.47%~9.92%,表明過多的特征變量有可能會導(dǎo)致分類精度的降低。因此綜合上述結(jié)果及分析,Relief F-GANBPSO_RF特征選擇方案能夠一定程度提高高分辨率遙感影像的分類精度。
針對高分影像數(shù)據(jù)特征維數(shù)高、數(shù)據(jù)冗余等問題,本文以GF-2影像為數(shù)據(jù)源,提出了一種結(jié)合Relief F和GANBPSO封裝算法的混合特征優(yōu)選方法,隨后采用隨機森林算法對研究區(qū)城市用地進行分類,并結(jié)合實際調(diào)查數(shù)據(jù)及土地利用數(shù)據(jù)對分類結(jié)果進行分析。結(jié)果表明,本文特征提取方案的分類結(jié)果優(yōu)于對比結(jié)果,驗證了結(jié)合Relief F和GANBPSO封裝算法的混合特征優(yōu)選方法能夠更有效地提取優(yōu)化特征,在對高分辨率遙感數(shù)據(jù)多特征優(yōu)化方面具有一定的可行性。