陸曉果,王同科,梁社芳,陸 苗※
(1.天津師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,天津300387;2.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所/農(nóng)業(yè)部農(nóng)業(yè)遙感重點實驗室,北京100081)
遙感影像分類技術(shù)能夠快速提取土地利用和地表覆蓋信息,為實現(xiàn)資源的有效利用提供技術(shù)支撐,為研究生態(tài)環(huán)境的變化等提供重要的基礎(chǔ)數(shù)據(jù)[1]。根據(jù)是否需要訓(xùn)練樣本,遙感影像分類方法分為非監(jiān)督分類和監(jiān)督分類。非監(jiān)督分類是在沒有先驗類別知識的情況下,根據(jù)圖像自身的統(tǒng)計特征以及自然點群的分布情況來劃分地物類別的分類技術(shù)[2]。監(jiān)督分類是以建立的統(tǒng)計識別函數(shù)為理論基礎(chǔ),依據(jù)典型的樣本訓(xùn)練方法進(jìn)行分類的技術(shù),例如最小距離法、最大似然法和神經(jīng)元網(wǎng)絡(luò)分類法等[3]。相比非監(jiān)督分類,監(jiān)督分類不僅能確定分類類別,而且具更高的精度。
在監(jiān)督分類中,樣本的選取對分類結(jié)果的精度十分重要。許多學(xué)者從樣本數(shù)量和質(zhì)量等方面,分析了其對分類精度的影響[4]。朱秀芳等[5]在其研究過程中發(fā)現(xiàn)不同分類方法的分類精度隨著樣本數(shù)量的不斷增加而增加。Arai等[6]基于最大似然法,提出了一種純化訓(xùn)練樣本的方法,研究結(jié)果表明,進(jìn)行純化后訓(xùn)練樣本的分類精度比沒有純化的訓(xùn)練樣本得到的分類精度有了大幅提高。薄樹奎等[7]基于面向?qū)ο蠓诸惙椒?,利用統(tǒng)計模型確定訓(xùn)練樣本的最佳數(shù)量,并用遙感影像的不同波段進(jìn)行驗證。目前的研究通常利用多次的嘗試性實驗分析樣本對精度的影響,缺乏算法特點和樣本質(zhì)量特征的綜合分析。該研究以最大似然分類為基礎(chǔ),首先從算法原理上分析影響其分類精度的樣本質(zhì)量特征,然后從樣本數(shù)量和樣本質(zhì)量兩方面,分析訓(xùn)練樣本對最大似然分類精度的影響。
最大似然法分類是基于經(jīng)典統(tǒng)計模式識別理論的監(jiān)督分類方法之一,它的實質(zhì)是基于貝葉斯準(zhǔn)則的分類錯誤最小的非線性分類[8]。最大似然法假設(shè)遙感影像中每個波段中的數(shù)據(jù)都呈正態(tài)分布,把多波段的遙感數(shù)據(jù)作為多維正態(tài)分布,從而來構(gòu)造判別分類函數(shù),進(jìn)一步求出每一個像元相對于每個地物類別的歸屬概率,通過比較將該像元分到概率最大的地物類別中[9]。
假設(shè)地物類型訓(xùn)練樣本對應(yīng)的直方圖服從正態(tài)分布,用正態(tài)概率分布函數(shù)(曲線)來近似該分布(圖1)。第ki類地物的估計概率函數(shù)用公式(1)計算:
式(1)中,exp[ ]是e(自然對數(shù))為底的冪函數(shù),x是在X軸上的一個亮度值,μi是該類別訓(xùn)練類中所有值的估計均值,是該類所有觀測值的估計方差。所以,只需存儲各訓(xùn)練類的均值和方差,就可以計算各類中任何像元亮度值的密度函數(shù)。
圖1 利用正態(tài)概率密度函數(shù)近似表示的數(shù)據(jù)分布Fig.1 Data distribution approximated by normal probability density function
如果訓(xùn)練數(shù)據(jù)是由多波段遙感數(shù)據(jù)組成,可以采用n維多元正態(tài)密度函數(shù):
式(2)中,│Vi│是協(xié)方差矩陣的行列式,為協(xié)方差矩陣的逆矩陣,Mi為每類的均值,(X-Mi)T是矩陣(X-Mi)的轉(zhuǎn)置。
設(shè)gi(X)為判別函數(shù),像元X出現(xiàn)在ki類的概率為p(ki│X),所以
式(3)中,p(ki│X)又稱后驗概率,根據(jù)貝葉斯公式,則有
式(4)中,p(X│ki)為ki類中觀察到像元X的條件概率;即像元X的概率實質(zhì)函數(shù);p(ki)為類別ki的先驗概率;p(X)為X與類別無關(guān)條件下出現(xiàn)的概率,且為若干計算公式中都出現(xiàn)的公共項,所以在類別間比較的時候可以忽略。當(dāng)待分類圖像中存在若干個地物類別時需要計算并比較多個p(ki│X),然后取其中最大的p(ki│X)所代表的地物類別為待判別像元的所屬類別[10]。
通過預(yù)先選擇的訓(xùn)練樣本,可以求出其平均值及方差,協(xié)方差等特征參數(shù),從而可以求出總體的先驗概率密度函數(shù):
在計算并比較多個gi(X)的實際過程中,可以省略先驗概率這一項,從而得到一個簡單的分類規(guī)則[11]。
式(6)中,Mi是第i類的均值測度向量,Vi是第i類第k到第l波段的協(xié)方差矩陣。計算時用訓(xùn)練樣本的協(xié)方差和均值替代Vi和Mi,便可計算出任一像元屬于各類別的歸屬概率。若對于所有可能的j=1,2…m;j≠i有g(shù)i(X)>gj(X),將像元X歸到第類中。從公式(6)中可看出,在未考慮先驗概率的情況下,對于判別分類函數(shù)的主要影響因素是訓(xùn)練樣本的協(xié)方差和均值。
以Landsat8影像為基礎(chǔ),從不同樣本的數(shù)量、均值和標(biāo)準(zhǔn)差上分析訓(xùn)練樣本對最大似然分類的影響,技術(shù)路線如圖2所示。首先獲取研究區(qū)域的Landsat8遙感影像,根據(jù)研究區(qū)域地表覆蓋特征,確定分類類別。以已有的地表覆蓋數(shù)據(jù)Globeland30為底圖,采用分層隨機抽樣的方法選取10組不同數(shù)量的訓(xùn)練樣本,進(jìn)行相應(yīng)的最大似然分類。從谷歌地球高分影像上選取訓(xùn)練樣本,對10組分類結(jié)果進(jìn)行精度評價,并分析樣本數(shù)量、均值和標(biāo)準(zhǔn)差對分類結(jié)果的影響。
圖2 訓(xùn)練樣本敏感度分析流程Fig.2 Sensitivity analysis process of training samples
利用混淆矩陣進(jìn)行分類的精度評估[12]?;煜仃囀怯蒼行n列組成的矩陣,能夠說明不同類型地物的分類結(jié)果與實際地物類別的相符程度,通過混淆矩陣計算得到的總體分類精度和Kappa系數(shù)是評價分類結(jié)果的重要指標(biāo)??傮w分類精度(Overall Accuracy)表示對于每一個隨機樣本,被分類的結(jié)果和實際地物類型一致的概率[13]:
式(7)中,Pij表示矩陣中的元素,i,j=1,2…n,Kappa系數(shù)考慮了誤差矩陣中所有的因子,能夠全面反映總體的分類精度:
式(8)中,q是混淆矩陣的總列和,即總類別數(shù);Pij為混淆矩陣中第i行、第i列的值,也是被正確分類的像元數(shù);Pi+、P+i是第i行、第i列的總像元數(shù)量;P是參與分類的總像元數(shù)。Kappa值越大,代表分類的精度越高。
研究區(qū)域位于天津?qū)氎鎱^(qū)中西部,地理位置為緯度39.34°~39.41°,經(jīng)度117.13°~117.21°。該研究區(qū)域地勢平坦,主要以耕地為主,靠近水域。該研究所用數(shù)據(jù)是從地理空間數(shù)據(jù)云網(wǎng)站(http://www.gscloud.cn/)下載的Landsat8影像(行列號為122/23),成像時間為2016年5月24日。該文選取30m空間分辨率的海岸波段、藍(lán)波段、綠波段、紅波段、近紅外波段、短波紅外1、短波紅外2和卷云波段進(jìn)行波段疊置得到研究區(qū)域的遙感影像如圖3。
以2010年的30m全球地表覆蓋數(shù)據(jù)產(chǎn)品Globeland30為底圖,采用分層隨機抽樣的方法,分層隨機抽取圖幅面積比例分別為0.1%、0.5%、1%、1.5%、2%、3%、5%、7%、10%和15%的像元作為訓(xùn)練樣本,共計10組。各地類樣本的數(shù)量和樣本總數(shù)量如表1所示。同時,在谷歌地球高分影像上隨機選出均勻分布的475個檢驗樣本,經(jīng)目視解譯后確定樣本類型,包括63個水體、311個耕地和101個建設(shè)用地的樣本,利用這些樣本驗證不同訓(xùn)練樣本的分類精度。
圖3 研究區(qū)域位置和遙感影像Fig.3 Location and remote sensing image of the study area
表1 不同比例的10組訓(xùn)練樣本數(shù)量Table 1 Quantity of 10 training samples in different proportion
基于表1不同組的訓(xùn)練樣本,利用ENVI軟件中的最大似然分類工具,對研究區(qū)域影像進(jìn)行分類,各組分類結(jié)果如圖4所示,該區(qū)域被分為耕地、建筑用地和水體3類。從圖4中可看出,隨著樣本數(shù)量的增加,分類結(jié)果有所差別。目視上可看出,樣本量從0.1%,0.5%和1%的分類結(jié)果差別較大(圖4(a),(b)和(c)),后續(xù)分類結(jié)果的差別較小。
圖4 不同比例訓(xùn)練樣本的最大似然分類結(jié)果(a)0.1%,(b)0.5%,(c)1%,(d)1.5%,(e)2%,(f)3%,(g)5%,(h)7%,(i)10% 和 (j)15%Fig.4 Maximum likelihood classification results of training samples with different proportions(a)0.1%,(b)0.5%,(c)1%,(d)1.5%,(e)2%,(f)3%,(g)5%,(h)7%,(i)10%and(j)15%
利用檢驗樣本對各分類結(jié)果的精度進(jìn)行檢驗,kappa系數(shù)和總體精度的計算結(jié)果如圖5所示。總體上看,總體分類精度和Kappa系數(shù)“先升后降”。當(dāng)樣本數(shù)量為0.1%時分類精度最低,總體精度是77.23%,Kappa系數(shù)是0.56。隨著樣本數(shù)量的增加,分類精度隨之增加。當(dāng)樣本數(shù)量達(dá)到總體樣本的1%時分類精度最高,即總體精度是82.4%,Kappa系數(shù)是0.70。之后繼續(xù)增加樣本的數(shù)量,分類精度反而下降;在樣本數(shù)量高于總體樣本5%之后出現(xiàn)微小波動,隨后趨于平穩(wěn)。當(dāng)樣本量較少時,不能較好的反映不同類型地物的均值和方差,參數(shù)值的估計不夠準(zhǔn)確,使得分類結(jié)果精度較低。當(dāng)樣本量在0.5%到1%時,通過訓(xùn)練樣本能準(zhǔn)確估算各地物類型的均值和方差,因此分類精度較高。當(dāng)樣本再逐漸增加時,樣本的純度不夠,干擾因素增多,因此精度開始下降。分類精度的“先升后降”和Hughes現(xiàn)象一致[7]。
圖5 不同比例訓(xùn)練樣本量的總體精度Fig.5 Overall accuracy of training sample quantity with different proportion
選擇能反映水體、建筑用地和耕地特征的典型波段,分析樣本均值對分類精度的影響[14]。水體選擇海岸波段、藍(lán)光波段和綠光波段,建筑用地選擇綠光和兩個短波紅外波段,耕地選擇藍(lán)光、綠光和紅光波段,不同比例訓(xùn)練樣本的均值和檢驗樣本均值如圖6(a)-(i)所示??傮w來看,當(dāng)樣本量是0.1%時,訓(xùn)練樣本均值和檢驗樣本均值差異最大,在1%樣本量處,和檢驗樣本的均值比較接近,隨后兩者的接近程度逐漸穩(wěn)定。以水體的藍(lán)光波段為例,0.1%的訓(xùn)練樣本在藍(lán)光波段的均值是9 917,和檢驗樣本的均值10 149差別最大,1%的檢驗樣本在該波段的均值是10 030,和檢驗樣本最接近;隨著樣本量的增加,兩者接近程度逐漸下降,并且趨于穩(wěn)定。其他波段和地物類型都表現(xiàn)出相似的趨勢,該趨勢和圖5不同比例訓(xùn)練樣本的總體精度一致。這說明當(dāng)訓(xùn)練樣本均值和檢驗樣本差別較大時,分類精度較低,如0.1%訓(xùn)練樣本;訓(xùn)練樣本均值和檢驗樣本比較接近時,分類精度較高,如1%訓(xùn)練樣本。
各訓(xùn)練樣本正態(tài)密度函數(shù)的在不同波段存儲除了與均值有關(guān)外,還和方差有關(guān)系。為了使單位一致把方差變形為標(biāo)準(zhǔn)差[15]。與樣本均值分析過程相同,分別比較三類不同數(shù)量訓(xùn)練樣本和檢驗樣本在其典型波段的標(biāo)準(zhǔn)差,如圖7(a)-(i)所示。當(dāng)樣本量為0.1%時,訓(xùn)練樣本標(biāo)準(zhǔn)差的值與檢驗樣本差距最大,并且在該樣本數(shù)量下的分類結(jié)果精度最差,當(dāng)樣本數(shù)量為1%時,訓(xùn)練樣本標(biāo)準(zhǔn)差的值與檢驗樣本差距最小,在該樣本數(shù)量下的分類結(jié)果精度最高。以水體的藍(lán)光波段為例,在樣本數(shù)量為0.1%時,檢驗樣本的標(biāo)準(zhǔn)差比訓(xùn)練樣本的標(biāo)準(zhǔn)差大180,此時分類精度最低,當(dāng)樣本數(shù)量為1%時,檢驗樣本的標(biāo)準(zhǔn)差僅比訓(xùn)練樣本的標(biāo)準(zhǔn)大10,此時分類精度最高。分析表明不同數(shù)量的訓(xùn)練樣本的標(biāo)準(zhǔn)差對分類精度的影響與均值對分類精度的影響一致,當(dāng)訓(xùn)練樣本的標(biāo)準(zhǔn)差越接近檢驗樣本的標(biāo)準(zhǔn)差時,分類結(jié)果越精確。
圖6 不同數(shù)量的水體、建筑用地和耕地訓(xùn)練樣本均值和檢驗樣本的比較Fig.6 Comparison of mean values between training samples and test samples of water,building and cropland
該文采用了最大似然分類算法對研究區(qū)域的遙感影像進(jìn)行土地分類。首先利用現(xiàn)有的地表覆蓋數(shù)據(jù)選取10組不同數(shù)量的訓(xùn)練樣本進(jìn)行分類,然后基于真實的檢驗樣本分析不同數(shù)量和質(zhì)量的訓(xùn)練樣本對分類結(jié)果的影響,得到的結(jié)論如下。
(1)在樣本數(shù)量方面,隨著樣本量的增加,分類精度呈現(xiàn)先升后降,然后趨于穩(wěn)定。在最大似然分類過程中,訓(xùn)練樣本數(shù)量的選取存在臨界值,當(dāng)?shù)竭_(dá)臨界值時即可滿足分類結(jié)果的精度要求,隨后即使增加樣本的數(shù)量也無法顯著提高分類結(jié)果的精度。較多的樣本量會給分類結(jié)果帶來誤差和干擾,因此增加樣本的數(shù)量不一定能持續(xù)提高分類的精度。
(2)在樣本質(zhì)量方面,以樣本的均值和標(biāo)準(zhǔn)差為特征,分析樣本質(zhì)量對分類結(jié)果的影響。分析發(fā)現(xiàn),訓(xùn)練樣本的均值和標(biāo)準(zhǔn)差與檢驗樣本的接近程度影響分類精度,當(dāng)訓(xùn)練樣本均值和標(biāo)準(zhǔn)差與檢驗樣本比較接近時,分類精度較高,反之分類精度較低。
圖7 不同數(shù)量的水體、建筑用地和耕地訓(xùn)練樣本的標(biāo)準(zhǔn)差和檢驗樣本比較Fig.7 Comparison of standard deviation between training samples and test samples of water,building and cropland
該文主要分析了樣本數(shù)量和質(zhì)量對最大似然分類的影響,但是在土地利用分類的實際利用中,不同地物之間的可分離性也會影響訓(xùn)練樣本數(shù)量的選擇。今后會加入地物分離度等其他對分類結(jié)果有影響的不確定性因素,并綜合考慮其它監(jiān)督分類方法如支持向量機、機器學(xué)習(xí)等算法,進(jìn)一步探討不同訓(xùn)練樣本對不同分類方法精度的影響。