陸海霞 何江 劉立
摘? 要:文章分別使用基于像元和基于對象的KNN分類器算法對1024*1024像元大小的寧夏中衛(wèi)市地區(qū)15m空間分辨率Landsat8融合影像進行分類,比較二者分類效率和準確率,探討其在影像分類上的不同。研究表明無論是基于對象還是基于像元的KNN分類器算總體分類精度都在90%以上。但基于對象的KNN分類器算法相比基于像元的總體分類精度提高1.9%,Kappa系數(shù)提高0.026。且使用相同的訓(xùn)練樣本進行訓(xùn)練和分類,基于對象的KNN分類器算法僅耗時0.281秒,而基于像元的KNN分類器算法耗時53分7.275秒。
關(guān)鍵詞:基于對象;KNN分類器;影像分類
中圖分類號:K90 文獻標志碼:A 文章編號:2095-2945(2019)11-0027-04
Abstract: This paper uses the pixel-based and object-based KNN classifier algorithm to classify the 15m spatial resolution Landsat8 fusion image of Ningxia Zhongwei City with a 1024*1024pixel size, compare the classification efficiency and accuracy, and explore its image classification.The research shows that the overall classification accuracy of both the object-based and pixel-based KNN classifiers is above 90%. However, the object-based KNN classifier algorithm improves the overall classification accuracy by 1.9% and the Kappa coefficient by 0.026. And using the same training samples for training and classification, the object-based KNN classifier algorithm only takes 0.281 seconds, while the pixel-based KNN classifier algorithm takes 53 minutes and 7.275 seconds.
Keywords: object-based; KNN classifier; image classification
引言
機器學(xué)習(xí)法是一種從海量數(shù)據(jù)中自動或半自動尋找模式的過程,一旦模式被發(fā)現(xiàn),則具有重復(fù)性,不同的解譯人員,將該模式應(yīng)用到其它類似的數(shù)據(jù)上可以得到相同的結(jié)果。大大提高了工作效率的同時結(jié)果的可信度具有可比性[1]。目前常用的機器學(xué)習(xí)法有:決策樹、人工神經(jīng)網(wǎng)絡(luò)、KNN、支持向量機、隨機森林等。
KNN分類算法是一種典型的非參數(shù)學(xué)習(xí)方法,因其實現(xiàn)的簡單性及較高的分類精度[2,3]在許多領(lǐng)域得到廣泛的應(yīng)用,一直是數(shù)據(jù)挖掘、機器學(xué)習(xí)和統(tǒng)計模式識別研究中的熱點問題[4]。算法考察與待分類樣本最相似的K個樣本,根據(jù)這K個樣本的類別屬性來確定待分類樣本的類別,而最相似的K個樣本是通過待分類樣本和訓(xùn)練樣本之間的距離來確定的[5]。在K近鄰分類器中,K值的選擇很重要,K值選擇如果過小,不能充分體現(xiàn)待分類樣本的特點,但當K值選擇過大時,一些和待分類樣本并不相似的樣本也被包含進來,導(dǎo)致分類效果降低[6]。
其也存在一些不足:KNN是種惰性的學(xué)習(xí)方法,它緩存所有訓(xùn)練樣本,直到待分類數(shù)據(jù)需要分類時才建立分類,它存放所有的訓(xùn)練樣本,直到測試樣本需要分類時才建立分類,當訓(xùn)練集規(guī)模較大或維度較高時,會導(dǎo)致分類效率低下[7,8]。傳統(tǒng)基于像元的分類方法是以像元為單位來進行影像處理,當影像區(qū)域較大時,將嚴重影響分類效率。而基于對象的影像分析是以對象為基元而不是像元進行影像分類,除了能充分利用地物的光譜、紋理、形狀、大小和上下文等信息的優(yōu)點之外,它能大大減少影像處理的數(shù)a寧夏中衛(wèi)市地區(qū)的Landsat8融合數(shù)據(jù)為數(shù)據(jù)源,使用KNN分類器分別執(zhí)行基于像元和基于對象的分類,比較在使用相同的訓(xùn)練樣本、驗證樣本和特征數(shù)據(jù)集的情況下影像的分類特點,探討集成基于對象影像分析與KNN算法的多光譜遙感影像分類的優(yōu)勢。
1 研究區(qū)概況和數(shù)據(jù)準備
1.1 研究區(qū)概況
研究區(qū)位于寧夏中衛(wèi)市西部,屬半干旱氣候,具有典型的大陸性季風(fēng)氣候和沙漠氣候的特點,干旱少雨。研究區(qū)的經(jīng)緯度范圍為105°12′E~105°22′E,37°27′N~35°35′N。研究區(qū)的南部為黃河,水源豐富,因此,該區(qū)域雖然降雨量少,但灌溉農(nóng)業(yè)發(fā)展,分布著大片的水稻田和水澆地[9]。研究區(qū)土地覆被類型豐富,主要土地覆被類型有水稻田、水澆地、水域用地、居民地、裸巖地和日光溫室等。
1.2 數(shù)據(jù)準備及預(yù)處理
本次研究的數(shù)據(jù)源是寧夏中衛(wèi)市2013年6月18日的Landsat8數(shù)據(jù)。Landsat8衛(wèi)星攜帶了兩個傳感器:陸地成像儀(OLI)和熱紅外傳感器(TIRS)。OLI陸地成像儀包括9個波段,分別是多光譜波段(海岸波段、藍波段、綠波段、紅波段、近紅外波段、短波紅外波段1和2,30m),全色波段(15m)和卷云波段(30m)。TIRS包括兩個熱紅外波段,空間分辨率為100m。本次研究所用的波段為OLI傳感器上的多光譜波段以及全色波段數(shù)據(jù)。
數(shù)據(jù)預(yù)處理包括幾個方面:(1)輻射定標與大氣校正:在遙感圖像處理平臺(ENVI5.3)中對其進行輻射定標和Flaash大氣校正獲得地表反射率數(shù)據(jù),消除由于傳感器本身產(chǎn)生的誤差和大氣輻射影響等非地物變化引起的圖像輻射值改變。(2)影像融合:將經(jīng)過Flaash大氣校正的多光譜數(shù)據(jù)與全色輻射定標得到的表觀反射率數(shù)據(jù)進行融合,得到空間分辨率為15米的多光譜融合數(shù)據(jù),所用的方法為Gram-Schmidit算法。(3)研究區(qū)裁剪:在空間分辨率為15m的多光譜融合影像上裁剪得到1024*1024像元的子區(qū)。
2 原理、方法和步驟
2.1 影像分割-多分辨率分割算法
在基于對象影像分析法中,多分辨率分割算法可有效融入影像的光譜、紋理、形狀等特征信息,使同質(zhì)像元構(gòu)成大小不同的分割對象,是一種基于區(qū)域增長的分割算法,使得內(nèi)部的一致性以及相鄰分割對象間的異質(zhì)性均達到最大[10]。
eCognitionDeveloper軟件中多分辨率分割算法的主要參數(shù)包括尺度因子(Scale)、形狀因子(Shape)、緊湊度因子(Compactness)??赏ㄟ^組合3個不同值的參數(shù)可以確定影像的分割結(jié)果。尺度因子決定單個對象內(nèi)允許的最大異質(zhì)性。其中,尺度因子決定影像對象的平均大小,理論上,尺度因子越大,影像對象越大,尺度因子越小,影像對象越小。
形狀參數(shù)和光譜參數(shù)是形狀因子的兩個構(gòu)成指標,二者參數(shù)和為1,此消彼長,共同決定形狀因子的大小,進而在一定程度上影響著所形成的分割多邊形的的形狀。光滑度和緊湊度的參數(shù)之和為1,是緊湊度因子的兩個構(gòu)成元素,二者在緊湊度因子中各自所占的權(quán)重比組合可改變緊湊度因子,進而影響可改善分割多邊形的形狀,起到優(yōu)化分割結(jié)果的作用。
2.2 KNN分類算法原理
2.3 精度評價原理
本文使用eCognition9.0軟件提供的Error Matrix based on Samples精度評價方法進行分類精度評價。精度評價的結(jié)果包括三個部分,分別是混淆矩陣、單一類別的精度評價結(jié)果和總體類別的精度評價結(jié)果。
2.4 研究步驟
本次研究包括五個基本步驟:(1)數(shù)據(jù)預(yù)處理。包括
FLAASH大氣校正、影像融合和裁剪等步驟。(2)影像分割。基于對象KNN分類算法進行分類時,使用ENVI軟件中基于邊緣檢測的分水嶺分割算法進行分割。而用基于像元的KNN分類器算法進行分類時,使用棋盤格分割算法,把分割尺度設(shè)為1,將影像分割成單個像元。(3)訓(xùn)練樣本和驗證樣本的選擇。將在ENVI中得到的分割結(jié)果導(dǎo)入到Arcgis10.2中進行樣本的選擇。在選擇樣本的時候,通過在屬性表中添加兩個文本字段用來標記不同土地覆被類型的訓(xùn)練樣本和驗證樣本。(4)基于KNN分類器進行分類。將預(yù)處理后的研究區(qū)影像數(shù)據(jù)以及在ENVI中分割并在Arcgis10.2.中標記了訓(xùn)練樣本和驗證樣本的矢量數(shù)據(jù)作為專題數(shù)據(jù)加載到eCognition9.0中,完全依據(jù)矢量專題數(shù)據(jù)對影像進行分割。創(chuàng)建兩個圖層,一層中導(dǎo)入訓(xùn)練樣本(L1)進行基于KNN分類器的影像分類,另一層導(dǎo)入驗證樣本(L2)用于精度評價。本步驟共執(zhí)行兩次,第一次是基于對象的KNN分類器分類,第二次是基于像元(即將影像分割成單個像元)的KNN分類器分類。(5)精度評價。使用混淆矩陣、生產(chǎn)者精度、用戶精度、Hellden精度和Short精度以及條件Kappa系數(shù)對每一類土地覆被類型進行精度評價,并用總體精度和Kappa系數(shù)評價總體的分類精度。
3 結(jié)果分析
分別使用基于像元的KNN分類器算法和基于對象的KNN分類器算法對影像進行分類,分類時使用相同的訓(xùn)練樣本和特征數(shù)據(jù)集,所得到的分類結(jié)果如圖1所示。從圖中可以看出,基于像元的方法的分類結(jié)果“椒鹽現(xiàn)象”特別明顯,而基于對象的分類結(jié)果有效的避免了“椒鹽現(xiàn)象”,分類結(jié)果更為完整。
使用相同的驗證樣本對分類結(jié)果進行精度評價,得到基于像元的KNN分類器算法的總體精度為91.7%,Kappa系數(shù)為0.895,而基于對象的KNN分類器算法的總體精度為93.6%,Kappa系數(shù)為0.921,相比基于像元的分類算法總體精度和Kappa系數(shù)都有所提高,說明影像的分類的總體分類精度相比于基于像元的分類算法有所改善。
從混淆矩陣中可以看出,基于像元的KNN分類器算法,幾乎各個土地覆被類型之間都有相互混淆的像元,類別之間的可分性比較差。而基于對象的KNN分類算法,除了個別土地覆被類型(不透水表面和裸地,水澆地和日光溫室)之間出現(xiàn)部分混淆之外,大多數(shù)地物的之間都沒有出現(xiàn)混淆現(xiàn)象,說明各個土地覆被類型的分類精度都有所提高。
對比各個土地覆被類型在基于像元的KNN分類器算法和基于對象的KNN分類器算法的生產(chǎn)者精度、用戶精度、Hellden精度、Short精度以及條件Kappa系數(shù)(表1-2)。可以發(fā)現(xiàn)除裸地的各個精度指標有所降低之外,其他土地覆被類型的各項指標值都有所提高,說明相比基于像元的KNN分類算法有所提高。
從分類的效率來說,基于對象的KNN分類器算法的效率遠遠大于基于像元的KNN分類器算法。據(jù)統(tǒng)計,本次研究中基于對象的KNN分類算法整個分類過程耗時僅為0.218秒,而基于像元的KNN分類器算法耗時53分7.275秒,基于對象的KNN分類器算法大大減少了計算開銷。使用KNN分類器算法進行分類時,K值的設(shè)定對分類結(jié)果的影響較大,需要通過反復(fù)試驗選擇合適的K值,才能得到較優(yōu)的分類結(jié)果。另外,特征參數(shù)組合的選擇對分類結(jié)果的影響也比較關(guān)鍵,并非特征參數(shù)選擇的越多得到的分類結(jié)果就越好,因此,選擇一個有效的方法來獲取最優(yōu)的特征參數(shù)組合,可以有效的優(yōu)化分類結(jié)果的精度。
綜合上述分析結(jié)果,不論是基于像元還是基于對象的KNN分類器算法所得的分類結(jié)果的精度都比較高,但可以看出集成基于對象影像分析的KNN分類器算法相比基于像元的KNN分類器算法而言具有很大的優(yōu)勢,不僅有效的避免了“椒鹽現(xiàn)象”,更能滿足制圖的需要,同時提高了分類的效率和準確率,對于大數(shù)據(jù)量的影像分類處理優(yōu)勢尤為明顯。
4 結(jié)論和討論
綜合上述研究結(jié)果,可以得出以下結(jié)論:
(1)KNN分類器算法是一個分類精度較高的分類器算法,無論是基于對象還是基于像元進行分類,都能取得較高的分類精度。在本次研究中其總體分類精度都達到了0.9以上,Kappa系數(shù)都在0.85以上。
(2)相比基于像元的KNN分類器算法,基于對象的
KNN分類器算法具有較大的優(yōu)勢?;趯ο蟮腒NN分類器算法不僅有效的避免了分類的“椒鹽現(xiàn)象”,同時還一定程度上提高了分類精度,并且大大提供了分類的效率。
(3)基于像元的KNN分類器算法,訓(xùn)練樣本的選擇以及K值的設(shè)定對分類精度影響特別明顯。因此選擇合適的訓(xùn)練樣本和設(shè)定有效的K值是KNN分類器算法的關(guān)鍵所在。
(4)分類特征數(shù)據(jù)集的選擇對KNN分類器算法的分
類精度也比較關(guān)鍵,并非選擇的特征越多得到的分類結(jié)果就越好。因此,需要尋找一個有效的方法找到最優(yōu)的特征組合,才能使最終的分類結(jié)果更加精確。
KNN分類器算法雖然具有較高的分類精度,但對于大區(qū)域影像數(shù)據(jù)的計算消耗仍然很大,分類效率較低,需要進一步改進算法來提高的分類效率。另外,如何選擇訓(xùn)練樣本和設(shè)定K值以及選擇最優(yōu)的特征參數(shù)組合,目前尚未有比較通用的方法,需要進一步進行研究。
參考文獻:
[1]張著英,黃玉龍,王翰虎.一個高效的KNN分類算法[J].計算機科學(xué),2008,35(3):170-172.
[2]WITTEN I H, FRANK E. Data Mining: Practical machine learning tools and techniques[M].? Morgan Kaufmann, 2005.
[3]WU X, KUMAR V, QUINLAN J R, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008,14(1):1-37.
[4]冷明偉,陳曉云,譚國律.基于小樣本集弱學(xué)習(xí)規(guī)則的KNN分類算法倡[J].計算機應(yīng)用研究,2011,28(3).
[5]朱彪.基于KNN的地基可見光云圖分類方法研究[D].成都信息工程學(xué)院,2012.
[6]閆晨.KNN文本分類研究[D].秦皇島:燕山大學(xué),2010.
[7]丁應(yīng)逵.訓(xùn)練樣本分布不均的KNN分類改進算法[J].價值工程,2014,33(2):180-182.
[8]熊忠陽,楊營輝,張玉芳.基于密度的kNN分類器訓(xùn)練樣本裁剪方法的改進[J].計算機應(yīng)用,2010,30(3):799-801.
[9]孫宇翼.基于對象影像分析的多源遙感影像濕地信息提取方法及其尺度效應(yīng)研究[D].蘭州大學(xué),2016.
[10]王露,劉慶元.高分辨率遙感影像多尺度分割中最優(yōu)尺度選取方法綜述[J].測繪與空間地理信息,2015(3):166-169.
[11]余鷹,苗奪謙,劉財輝,等.基于變精度粗糙集的KNN分類改進算法[J].模式識別與人工智能,2012,25(4):617-623.