萬(wàn)曙靜,張承明,劉俊華
(1.中國(guó)測(cè)繪科學(xué)研究院政府地理信息中心,北京100083;2.山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院,山東泰安271018;3.山東省農(nóng)科院,山東 濟(jì)南250100)
多光譜遙感圖像是土地利用應(yīng)用中主要的數(shù)據(jù)源,針對(duì)多光譜遙感圖像的根本特點(diǎn)研究適宜的分類(lèi)算法,是獲取高精度土地利用信息主要手段。
20世紀(jì)80年代,主要是利用統(tǒng)計(jì)模式識(shí)別方法進(jìn)行遙感圖像的計(jì)算機(jī)分類(lèi)[1]。20世紀(jì)90年代期間至今,涌現(xiàn)出了大量的遙感圖像分類(lèi)方法,如人工智能分類(lèi)法、遙感與GIS結(jié)合法、面向?qū)ο蟮姆诸?lèi)法、復(fù)合分類(lèi)法等都取得較好的效果[2]。Dixon等將支持向量機(jī)法用于TM影像土地利用分類(lèi)取得了最好的分類(lèi)精度。Wardlow等在美國(guó)中央大平原采用決策樹(shù)分類(lèi)方法進(jìn)行農(nóng)作物分類(lèi),取得了優(yōu)于80%的總體分類(lèi)精度。陶超等[3]針對(duì)高分辨率遙感影像中“同譜異物”現(xiàn)象提出一種基于概率潛在語(yǔ)義模型的高分辨率遙感影像分類(lèi)方法。李剛提出了基于高維云模型和改進(jìn)RBF神經(jīng)網(wǎng)絡(luò)的不確定性分類(lèi)技術(shù)[4]。傳統(tǒng)的遙感圖像分類(lèi)方法在自動(dòng)化、智能化和分類(lèi)精度方面不能令人滿(mǎn)意[5];基于神經(jīng)網(wǎng)絡(luò)的遙感分類(lèi)技術(shù)盡管具有容錯(cuò)能力好、自適應(yīng)性強(qiáng)等優(yōu)點(diǎn),但在實(shí)際應(yīng)用中存在著結(jié)構(gòu)選取困難、局部收斂過(guò)快、學(xué)習(xí)過(guò)程難以控制等問(wèn)題,導(dǎo)致其并不完全優(yōu)于傳統(tǒng)的分類(lèi)技術(shù);基于決策樹(shù)的分類(lèi)方法對(duì)邊界處理不太理想[6-7]。
本文根據(jù)多光譜遙感圖像的根本特點(diǎn),綜合考慮土地利用分類(lèi)的速度和精度,提出一種引入自適應(yīng)最小距離調(diào)整的分類(lèi)方法,以期更好地滿(mǎn)足實(shí)際生產(chǎn)的需要。
現(xiàn)有遙感分類(lèi)方法對(duì)如何提高聚類(lèi)中心的生成研究較多,而在判定待分類(lèi)像元的歸屬問(wèn)題上,多采用先計(jì)算待分類(lèi)像元與所有聚類(lèi)中心的距離,再將其歸入距離最小的一類(lèi)的方式,從而導(dǎo)致分類(lèi)精度難以提高。
理想條件下,遙感圖像上代表同類(lèi)地物的像元特征向量將分布在同一特征空間區(qū)域;而不同的地物由于特征向量不同,應(yīng)分布在不同的特征空間區(qū)域上,則對(duì)一個(gè)有b個(gè)波段待分類(lèi)遙感圖像,圖像中任何一類(lèi)地物在任一個(gè)波段中只有一個(gè)灰度值范圍,對(duì)于某個(gè)地物類(lèi)c,可以獲取該類(lèi)的像元在各個(gè)波段上的取值集合,如圖1所示。
圖1 理想條件下光譜范圍示意圖
對(duì)于類(lèi)別c的某一波段i,以li表示其灰度值的下界,以hi表示其灰度值的上界,則在第i波段上,灰度值的中心mi值為:,以此為基礎(chǔ),可以定義為該類(lèi)的中心特征向量,利用中心特征向量來(lái)更好地描述聚類(lèi)中心的自適性變動(dòng)情況。以ri表示波段i相應(yīng)的允許誤差半徑,根據(jù)上述分析,ri的值為可以將所有的波段最大允許誤差構(gòu)成的向量稱(chēng)為有效半徑向量。對(duì)于一個(gè)欲分入c類(lèi)的像元x,逐一比較每個(gè)波段上的灰度值與中心特征向量相應(yīng)分量的距離,如果距離都不超過(guò)相應(yīng)允許的半徑,則將其歸為c類(lèi)。
“同物異譜”現(xiàn)象是由于同類(lèi)地物由于種種原因,在某些波段或全部波段上的值偏差過(guò)大,從而導(dǎo)致該類(lèi)的特征向量在特征空間上分布過(guò)于分散,難以像期望的歸于同一個(gè)集群中。為了更好地說(shuō)明這個(gè)問(wèn)題,現(xiàn)在以一個(gè)二波段圖像的分類(lèi)為例進(jìn)行解釋?zhuān)僭O(shè)該圖像將被分為A、B兩個(gè)類(lèi),每個(gè)類(lèi)的像元分布如圖2所示。
圖2 “同物異譜”導(dǎo)致分類(lèi)錯(cuò)誤的示意圖
在圖2中,由于類(lèi)B的像元分布在兩個(gè)區(qū)域,生成的聚類(lèi)中心與兩個(gè)區(qū)域的距離過(guò)大,從而導(dǎo)致識(shí)別的范圍(即大橢圓)過(guò)大。作為一種較為極端的情況,另一類(lèi)別A的區(qū)域反而被包圍在了B的識(shí)別范圍,矩形包圍的一部本應(yīng)分為A類(lèi)的像元,被錯(cuò)誤地分為B類(lèi)。
從以上分析可以看出,聚類(lèi)中心及識(shí)別半徑過(guò)大導(dǎo)致兩個(gè)聚類(lèi)中心的識(shí)別范圍相交,是分類(lèi)精度降低的根本原因。為此,可以通過(guò)自適應(yīng)最小距離調(diào)整,對(duì)聚類(lèi)中心進(jìn)行分裂,消除識(shí)別范圍相交,則可以有效地提高分類(lèi)精度。
基于第2節(jié)中的方析,給出自適應(yīng)最小距離調(diào)整的方法為:在樣本學(xué)習(xí)結(jié)束后,對(duì)聚類(lèi)中心進(jìn)行相交性判斷,如果根據(jù)兩個(gè)聚類(lèi)中心的識(shí)別半徑生成的范圍相交的部分,則說(shuō)明需要對(duì)聚類(lèi)中心進(jìn)行分裂。具體的分裂步驟是:
1)對(duì)生成的聚類(lèi)中心兩兩計(jì)算,判斷兩個(gè)聚類(lèi)中心是否相交,如果相交,則按下一步處理。
2)對(duì)于兩個(gè)聚類(lèi)中心中識(shí)別范圍過(guò)大的一個(gè)進(jìn)行分裂。從待分裂的類(lèi)的樣本中任選一個(gè)樣本,隨機(jī)選取一個(gè)小于原來(lái)最大識(shí)別距離的值作為閾值,將樣本分為不同的子集,對(duì)每一個(gè)分別進(jìn)行學(xué)習(xí),產(chǎn)生各自的聚類(lèi)中心,并與未分裂的類(lèi)進(jìn)行相交性判斷,如果仍存在某個(gè)子集的聚類(lèi)中心與其有相交的情況,則再選一個(gè)更小的閾值進(jìn)行,重新進(jìn)行分裂。
算法使用k-means算法對(duì)聚類(lèi)中心進(jìn)行分裂,每次分解為兩個(gè)子集,并以二叉樹(shù)方式進(jìn)行樣本集合分裂。每一類(lèi)生成一棵二叉樹(shù),稱(chēng)為該類(lèi)的子集樹(shù)。二叉樹(shù)的一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)球體,記錄每個(gè)球體的球心半徑,以及對(duì)應(yīng)的樣本子集。球體的中心定義為該節(jié)點(diǎn)上樣本子集的中心,半徑是該節(jié)點(diǎn)上的樣本點(diǎn)到球心歐氏距離的最大值。由一個(gè)節(jié)點(diǎn)的子集細(xì)分得到的球體則表示為該節(jié)點(diǎn)的兩個(gè)子節(jié)點(diǎn)。
自適應(yīng)最小距離分類(lèi)器對(duì)待分類(lèi)點(diǎn)i的分類(lèi)步驟如圖3所示。
圖3 自適應(yīng)最小距離分類(lèi)算法流程圖
1)求出該點(diǎn)到各類(lèi)對(duì)應(yīng)的子集樹(shù)的距離D。待分類(lèi)點(diǎn)P到子集樹(shù)T的距離D(T,P)定義為:①如果P到T的根節(jié)點(diǎn)對(duì)應(yīng)的球心歐氏距離d大于該節(jié)點(diǎn)球體的半徑的兩倍,則忽略該節(jié)點(diǎn)細(xì)分得到的所有小球,并令D=d;②如果T的根節(jié)點(diǎn)已經(jīng)是葉節(jié)點(diǎn),則令D=d;③ 若A、B均不滿(mǎn)足,則D遞歸定義為P到T的左右子樹(shù)T1,T2的距離D1,D2的最小者。
2)將距離D最小的一子集樹(shù)的類(lèi)號(hào)賦予待分類(lèi)點(diǎn)。
距離計(jì)算中使用了二叉樹(shù)查找,使得只有一部分節(jié)點(diǎn)參與距離D的求取,可以有效降低實(shí)際參加計(jì)算d的數(shù)并不多,保證了在樣本數(shù)量增大或者細(xì)分得到球體增多的情況下計(jì)算量不會(huì)增加很多。
本文選取山東省萊蕪市雪野流域作為研究區(qū)。選取水體、林地和裸露土壤3種差異較大的土地利用類(lèi)別進(jìn)行分類(lèi)比較。
試驗(yàn)所用的數(shù)據(jù)源為分辨率為30m的ETM+影像,共8個(gè)波段,大小為1500像素×1200像素,獲取時(shí)間為2007年5月31日。
從圖4分類(lèi)結(jié)果來(lái)看,采用最小距離法分類(lèi)時(shí),待分類(lèi)像元數(shù)目明顯增多,待分類(lèi)和林地混分的現(xiàn)象較為嚴(yán)重,水體受陰影影響存在錯(cuò)分現(xiàn)象。K近鄰法可以很好地區(qū)分水體和祼露土地,但是對(duì)于林地卻不能很好地識(shí)別,有一部分林地被錯(cuò)分成水體。最大似然法雖然對(duì)水體的分類(lèi)效果較好,但林地、裸露土壤錯(cuò)分為待分類(lèi)現(xiàn)象嚴(yán)重。K近鄰法可以很好地區(qū)分水體和祼露土地,但是對(duì)于林地卻不能很好地識(shí)別,有一部分林地被錯(cuò)分成水體。BP神經(jīng)網(wǎng)絡(luò)法對(duì)各類(lèi)分類(lèi)都有較好的效果,但是仍然有一部分植被類(lèi)別未被區(qū)分出來(lái)。分類(lèi)精度如表1所示。
圖4 雪野水庫(kù)分類(lèi)結(jié)果
表1 常用分類(lèi)方法分類(lèi)精度
使用自適應(yīng)最小距離分類(lèi)方法分類(lèi)時(shí),其試驗(yàn)結(jié)果如圖5所示。
圖5 雪野水庫(kù)分類(lèi)結(jié)果圖
不同訓(xùn)練樣本及類(lèi)別模式的分類(lèi)精度如表2所示。
表2 不同訓(xùn)練樣本及類(lèi)別模式的分類(lèi)精度
對(duì)比不同方法的分類(lèi)結(jié)果,可以看出,利用本文方法進(jìn)行分類(lèi),結(jié)果中的待分類(lèi)像元明顯減少,精度平均提高1.06%。
本文在建模分析分類(lèi)問(wèn)題的基礎(chǔ)上,提出了一種基于最小距離自適應(yīng)調(diào)整實(shí)現(xiàn)聚類(lèi)中心分裂的方法。通過(guò)試驗(yàn)與傳統(tǒng)分類(lèi)方法作比較,該方法能夠有效提高分類(lèi)精度,解決了分類(lèi)方法中識(shí)別范圍相交導(dǎo)致分類(lèi)精度難以提高的問(wèn)題。結(jié)果證明了本方法的有效性和可靠性。
[1]羅來(lái)平.遙感圖像分類(lèi)中模糊模式識(shí)別和決策樹(shù)方法的應(yīng)用研究[D].北京:首都師范大學(xué),2006.
[2]史澤鵬,馬友華,王玉佳.遙感影像土地利用/覆蓋分類(lèi)方法研究進(jìn)展[J].中國(guó)農(nóng)學(xué)通報(bào),2012,28(12):273-278.
[3]陶超,譚毅華,彭碧發(fā).一種基于概率潛在語(yǔ)義模型的高分辨率遙感影像分類(lèi)方法[J].測(cè)繪學(xué)報(bào),2011,40(2):155-161.
[4]李剛,萬(wàn)幼川.基于高維云模型和RBF神經(jīng)網(wǎng)絡(luò)的遙感影像不確定性分類(lèi)方法[J].測(cè)繪科學(xué),2012,37(1):115-118.
[5]錢(qián)茹茹.遙感影像分類(lèi)方法比較研究[D].西安:長(zhǎng)安大學(xué),2007.
[6]賈坤,李強(qiáng)子,田亦陳.遙感影像分類(lèi)方法研究進(jìn)展[J].光譜學(xué)與光譜分析,2011,31(10):2618-2623.
[7]郭亞琴,王正群,樂(lè)曉容.基于自適應(yīng)距離度量的最小距離分類(lèi)器集成[J].計(jì)算機(jī)應(yīng)用,2006,26(7):1703-1706.