詹勇,馬紅,程方遠
(1.重慶市勘測院,重慶 400020; 2.浙江省寧海縣規(guī)劃局,浙江寧波 315000)
聚類分析就是用數(shù)學的方法處理給定對象的分類,已經(jīng)被廣泛應用到模式識別,數(shù)據(jù)挖掘,計算機視覺等領域[1]。隨著遙感技術的發(fā)展,各種不同類型的傳感器提供了大量的遙感數(shù)據(jù),如何從海量數(shù)據(jù)中獲取有用信息,聚類分析就是一種有效的方法,在土地覆蓋分類、地物識別中起到了重要的作用。
上世紀70年代開始,科學家就開始研究并建立光譜相應與植被覆蓋間的近似關系,在眾多的植被指數(shù)中,歸一化植被指數(shù)(NDVI)運用最多最廣泛[2]。時序植被指數(shù)數(shù)據(jù)連續(xù)記錄了植物生長變化的過程,通過對時序NDVI數(shù)據(jù)的分析有利于提高土地覆被分類的精度,因此時序NDVI數(shù)據(jù)的聚類分析研究具有重要的意義和應用價值[3,4]。
單獨利用NDVI進行地表覆蓋分類存在著較大的誤差,近年來多時相數(shù)據(jù)在研究低分辨率土地覆蓋和土地覆蓋變化分析等方面引起許多研究者的興趣,這些工作都是在強調利用植被指數(shù)的同時,或者引入其他的遙感觀測數(shù)據(jù)[5]。Lambin和 Ehrhich提出 Ts/NDVI模型[6],Ramakrishna Nemani和 Steve Running 利用NOAA/AVHRR多光譜遙感數(shù)據(jù)[7];紅波段,近紅波段和Ts波段對美國進行土地覆蓋覆被分類信息提取。隨著遙感技術的發(fā)展和應用研究的深入,盡管許多新的植被指數(shù)考慮了土壤、大氣等多種因素并得到發(fā)展,但是這些方法大都忽略了地表覆蓋的持續(xù)動態(tài)變化,存在較多不可預測性誤差。由于植被與非植被之間、各種不同的植被之間NDVI的變化曲線是不同的,所以可以利用季相性變化的NDVI指數(shù),即時序NDVI來進行區(qū)域性地表覆蓋分類或者提取土地覆蓋的變化信息。本文是利用時序植被指數(shù)數(shù)據(jù)進行聚類分析,實驗證明本文方法精度達到89.76%,高于傳統(tǒng)聚類方法精度。
聚類分析源于許多研究領域,包括數(shù)據(jù)挖掘、統(tǒng)計學、機器學習、模式識別等。它是數(shù)據(jù)挖掘中的一個功能,但也能作為一個獨立的工具來獲得數(shù)據(jù)分布的情況,概括出每個簇的特點或者幾種注意力對特定的某些簇作進一步的分析。
聚類分析的輸入可以用一組有序對(X,s)或(X,d)表示,這里X表示一組樣本,s和d分別是度量樣本間相似度或相異度(距離)的標準。聚類系統(tǒng)的輸出時對數(shù)據(jù)的區(qū)分結果,即 C={C1,C2,…,Ck},其中 Ci(i=1,2,…,k)是X的子集,且滿足如下條件:
C中的成員C1,C2,…,Ck稱為類或者簇。
J.B.MacQueen 在 1967 年提出的 k-means算法是到目前為止用于科學和工業(yè)應用的諸多類算法中一種極有影響的技術。它是聚類方法中一個基本的劃分方法,本文討論的是在誤差平方和準則基礎上的kmeans算法。
k-means算法又稱硬 C-means(HCM)算法,能夠對超橢球狀的數(shù)據(jù)進行分類。屬于動態(tài)聚類算法,理論上來講,對于一個聚類命題,由于樣本數(shù)目是有限的,可能的劃分也是有限的,因而可以用窮舉法來求解,但是對于大多數(shù)命題來說,窮舉法是完全行不通的。設樣本數(shù)為n,要求分為C類,則使每類不為空的劃分大約有Cn/C!種,當n=100,c=5時,就有約1067種劃分,因而實際采用迭代最優(yōu)化的方法來求得最優(yōu)劃分。
已知樣本集合 X={x1,x2,…,xn},xk=(xk1,xk2,…,xks)T∈Rs,n 是樣本個數(shù),類別 c事先給定,mi?RS(1≤i≤C)是聚類原型模式或聚類中心,選擇誤差平方和準則函數(shù)最小為目標函數(shù),如式(2):
式中n是總的樣本數(shù)目。其中:
若xj離第i個類別的聚類中心最近,則μij=1,即xj∈Xi;否則 μij=0,xj?X。
Dunn根據(jù)Ruspini定義的模糊劃分的概念,把硬C均值聚類算法推廣到模糊聚類情況,為了給隸屬度函數(shù)一個權重,對隸屬度函數(shù)進行了改進,把μij變成了,式(4)是模糊 C 均值(FCM,F(xiàn)uzzy C-Means)算法的數(shù)學描述:
Bezdek把上述表達式推廣到一般的情況,式(5)是 FCM 算法的描述[8]:
其中,m是模糊加權指數(shù)(m≥1)。
歸一化差異植被指數(shù)(NDVI)產(chǎn)生于上世紀70年代,由Rouse提出,是遙感監(jiān)測地面植物生長和分布的一種方法。定義如下:
式中,pNIR代表紅光波段、pRED為近紅外波段。
季節(jié)性變化是土地覆蓋最本質的特征之一,也是土地覆被狀況的光譜特征表現(xiàn),它是受氣候、水文、土壤、高程等自然因子和人為影響而隨時間變化的一種自然現(xiàn)象。鑒于植被與非植被之間、各種不同的植被之間NDVI的變化曲線是不同的,可以利用季相性變化的NDVI指數(shù)(即時序NDVI)進行區(qū)域地表覆蓋分類。
對于NDVI數(shù)據(jù),用戶信息提取的數(shù)據(jù)量一般很大,噪聲影像嚴重,并且數(shù)據(jù)冗余;本文采用特征提取和特征選擇的方式有效減少噪聲、壓縮數(shù)據(jù)。常用的NDVI時間分析方法包括:
(1)代數(shù)運算法。通過對NDVI時序數(shù)據(jù)直接進行代數(shù)運算提取特征,如變化幅度、變化均值等。
(2)線性變換法,通過線性變換方法,如主成分變換,纓帽變換等壓縮高維信息,提取特征信息。
(3)時域-頻率變換法。通過數(shù)據(jù)信號處理的方法,將NDVI時序數(shù)據(jù)構成的時序信號通過傅里葉變換到頻率域中進行特征提?。?]。
將原始數(shù)據(jù)進行實驗裁剪和波段疊加等預處理,將數(shù)據(jù)進行主成分變換分析提取時序NDVI數(shù)據(jù)。在此基礎上,分別采用K均值算法和模糊C均值算法進行聚類分析,對聚類結果進行整合,輸出聚類結果,即可得到地表覆蓋分類結果。算法實現(xiàn)流程如圖1所示。
圖1 時序NDVI數(shù)據(jù)聚類分析流程
本文實驗數(shù)據(jù)是源于美國NASA Pathfinder ACHRR的中國衛(wèi)星遙感植被指數(shù)(NDVI)數(shù)據(jù)集。該數(shù)據(jù)集包含一年內1月~12月三顆衛(wèi)星,共12旬數(shù)據(jù)。圖2為原始的幀影像,24位bmp圖,其中R=B=G。
裁剪后的影像(共12幅,每月1幅),用Erdas對其進行波段疊加;再對疊加后的影像進行主成分(PCA)變換,取前三位得到主成分變換圖像,其中前三個波段的對數(shù)據(jù)集的貢獻率分別為99.06%,0.4%,0.11%,總計99.67%,因而能代表12個波段數(shù)據(jù)。
圖2 中國植被指數(shù)(NDVI)數(shù)據(jù)(其中一幀)
針對處理后的影像(時序NDVI數(shù)據(jù)),分別采用K均值和模糊C均值方法進行聚類分析。聚類結果如圖3所示。
圖3 時序NDVI數(shù)據(jù)聚類結果
分別對K均值算法和模糊C均值算法聚類結果進行處理。借鑒IGBP的全球土地覆蓋分類系統(tǒng)將初始聚類結果后處理為15類[10]。對比分析時,認為該分類結果中半灌木荒漠、沙漠及建筑用地與8類分類系統(tǒng)的裸地對應,典型草地及荒漠草地與草地對應,本文實驗采用的數(shù)據(jù)集,圖中DN值為1的是水體,已經(jīng)被剔除,圖例中給出7類,實際還有1類是水,共8類。處理結果如圖4所示。
精度驗證通常用外業(yè)驗證或利用對應土地利用圖完成,本文選取全國土地利用圖來進行驗證。分類對K均值算法和模糊C均值算法的聚類結果進行精度評定;同時將K均值算法和模糊C均值算法對單幅NDVI分類結果進行精度評定。采用隨機抽樣法分別抽取300個樣本,計算他們的總精度和Kappa系數(shù)。表1所示的計算結果表明,利用時序NDVI對地表覆蓋進行分類精度遠高于直接利用單幅影像進行分類的結果,而且同類數(shù)據(jù)中,利用模糊C均值算法聚類的結果比K均值算法聚類的結果更好。
圖4 聚類分析處理后的結果圖
精度評定結果 表1
通過本文利用不同的聚類算法對時序NDVI數(shù)據(jù)進行聚類分析,通過對實驗結果進行分析,可得知經(jīng)典的K均值算法和模糊C均值算法具有良好的特點,在影像聚類分割中具有很高的地位,由文中試驗可以看出K均值算法和模糊C均值算法均能夠得到較高的分類精度。
此外,本文利用K均值算法和模糊C均值算分別對單幅影像進行聚類分析,并將分類結果與時序NDVI數(shù)據(jù)聚類結果進行比較??傻弥獣r序NDVI數(shù)據(jù)比單幅影像數(shù)據(jù)更能準確反映地表覆蓋情況,時序NDVI數(shù)據(jù)分類結果遠高于單幅影像分類結果。
[1]Pedrycz W.基于知識的聚類從數(shù)據(jù)到信息粒[M].北京:北京師范大學出版社,2008.
[2]郭鈮.植被指數(shù)及其研究進展[J].干旱氣象,2003,4(13):71~75.
[3]Viovy N.Automatic Classification of Time Series(ACTS):a new clustering method for remote sensing time series[J].International Journal of Remote Sensing.200,7(6):1537~1560.
[4]劉慶鳳,劉吉平,宋開山.基于MODIS/NDVI時序數(shù)據(jù)的土地覆蓋分[J].中國科學院研究生院學報,2010,2(27):163~169.
[5]程麗莉.基于時序NDVI的區(qū)域土地覆被分類方法探討[D].2007.
[6]Krishnapuram R,Keller J M.A possibilistic approach to clustering.[J].IEEE Transactions on Fuzzy Systems.1993,2(1):98~110.
[7]R K,M A K J.The Possibilistic C-Means Algorithm:Insights and Recommendations[J].IEEE Transactions on Fuzzy Systems.1996,3(4):385~393.
[8]孫茜,武坤.一種改進的可能性聚類算法及其有效性指標[J].計算機工程與科學,2009,31(8):49~51.
[9]Lhermitte S.Hierarchical image segmentation based on similarity of NDVI time series[J].Remote Sensing of Environment.2008,2(11):506~521.
[10]王長耀,駱成鳳,齊述華等.NDVI-Ts空間全國土地覆蓋分類方法研究[J].遙感學報,2005,1(9):94~98.