• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于高分一號(hào)特征優(yōu)選的CART決策樹(shù)面向?qū)ο蠓诸愌芯?/h1>
      2019-06-21 06:06:36趙英俊
      資源環(huán)境與工程 2019年2期
      關(guān)鍵詞:訓(xùn)練樣本決策樹(shù)紋理

      李 明, 趙英俊

      (核工業(yè)北京地質(zhì)研究院,北京 100029)

      隨著高分辨率衛(wèi)星影像應(yīng)用愈加廣泛,如何利用高分辨率遙感影像豐富的光譜信息、紋理信息、幾何及語(yǔ)義信息進(jìn)行計(jì)算機(jī)自動(dòng)快速提取信息成為遙感技術(shù)領(lǐng)域的一項(xiàng)重要研究。

      面向?qū)ο笥跋穹治龇椒ㄊ沟脤?duì)地物不同特征的分析上升到了一個(gè)新的高度,在利用高分辨率遙感影像對(duì)自然資源及土地資源的研究中,如何利用一個(gè)個(gè)同質(zhì)“對(duì)象”豐富各項(xiàng)信息、準(zhǔn)確快速地區(qū)別較難區(qū)分的地物類型是一個(gè)難點(diǎn)。單純地利用光譜信息而忽略紋理信息會(huì)導(dǎo)致“錯(cuò)分、漏分”等現(xiàn)象,但是傳統(tǒng)的監(jiān)督分類如果加入紋理信息又會(huì)導(dǎo)致計(jì)算量過(guò)大、分類效率降低、分類精度有限等問(wèn)題,因此在面向?qū)ο笥跋穹治龅幕A(chǔ)上,出現(xiàn)了模糊分類法、SVM支持向量機(jī)分類法、C45決策樹(shù)分類法、人工神經(jīng)網(wǎng)絡(luò)分類法等眾多影像分類方法。 這些方法相比于傳統(tǒng)的基于像元的分類方法分類精度有了明顯提高。

      本文所研究的CART決策樹(shù)分類方法具有自動(dòng)選擇分類特征、自動(dòng)確定閾值、運(yùn)算速度快、分類精度高等諸多優(yōu)點(diǎn)[1],因此非常適合在自然資源及土地覆蓋的計(jì)算機(jī)自動(dòng)提取工作中得到應(yīng)用,能夠大大加快工作效率,提高分類精度。

      1 研究區(qū)及數(shù)據(jù)預(yù)處理

      研究區(qū)位于陜西省榆林市北部神木縣,東經(jīng)109°44′53″~109°52′10″,北緯39°5′49″~39°5′57″,面積71.15 km2,地處毛烏素沙漠東南緣,陜、晉、蒙接壤地帶,典型的黃土地貌,地處丘陵、森林草原向沙漠、干草原的過(guò)渡地帶,基本土壤為風(fēng)沙土和黃土,石多土薄,水土流失嚴(yán)重。氣候?qū)僦袦貛О敫珊荡箨懶约撅L(fēng)氣候,四季分明,春季多風(fēng),夏季炎熱,多雷陣雨,秋季多雨,冬季寒冷干燥,多西北風(fēng)。年平均氣溫7.5~8.0℃,最熱為 7月,平均23.9℃,極端最高氣溫38.9℃,最冷為一月,平均-8.4℃,極端最低氣溫-24℃;年平均降雨量460 mm,年蒸發(fā)量1 200 mm,最大年降雨量849.6 mm,最少199.6 mm。

      研究所用影像數(shù)據(jù)為2015年6月8日高分一號(hào)衛(wèi)星PMS2全色/多光譜相機(jī)影像。高分一號(hào)衛(wèi)星是中國(guó)“高分專項(xiàng)”計(jì)劃的第一顆衛(wèi)星,突破了高空間分辨率、多光譜與寬覆蓋相結(jié)合的光學(xué)遙感技術(shù),搭載了兩臺(tái)2 m分辨率全色/8 m分辨率多光譜PMS相機(jī)與四臺(tái)16 m分辨率多光譜WFV相機(jī),全色波段光譜范圍為0.45~0.9 μm,多光譜四個(gè)波段光譜范圍分別為Band1(0.45~0.52 μm)、Band2(0.52~0.59 μm)、Band3(0.63~0.69 μm)、Band4(0.77~0.89 μm)。其中作為精度驗(yàn)證的人工目視解譯所用影像為高分二號(hào)2 m分辨率影像。本文所用影像經(jīng)過(guò)輻射校正—大氣校正—幾何校正—影像融合四個(gè)階段的預(yù)處理達(dá)到了研究所需。

      2 CART決策樹(shù)

      決策樹(shù)常用的算法有CART、C4.5和D3等[2],CART(Classification And Regression Tree)決策樹(shù)算法1984年由Breiman提出,采用經(jīng)濟(jì)學(xué)中的基尼系數(shù)來(lái)作為選擇最佳測(cè)試變量(分類特征)和分割閾值(特征閾值)的標(biāo)準(zhǔn),其定義如下所示:

      (1)

      (2)

      (3)

      式中:p(j/h)是從訓(xùn)練樣本集中隨機(jī)抽取一個(gè)樣本,當(dāng)某一測(cè)試變量值為h時(shí)屬于第j類的概率;nj(h)為訓(xùn)練樣本中測(cè)試變量值為h時(shí)屬于第j類的樣本個(gè)數(shù);n(h)為訓(xùn)練樣本中該測(cè)試變量值為h的樣本個(gè)數(shù);j為類別個(gè)數(shù)[3]。CART也屬于監(jiān)督分類方法之一,在執(zhí)行分類前,需要提供指定的訓(xùn)練樣本對(duì)其進(jìn)行構(gòu)建與評(píng)價(jià)。訓(xùn)練樣本結(jié)構(gòu)如下:

      L=X1,X2,…Xm,YX2=x11,x12,…x1t1

      (4)

      Xm=xm1,xm2,…xmtnY=Y1,Y2,…Yk

      (5)

      式中:X1,X2,…,Xm稱為屬性向量(Attribute Vectors)。其屬性可以是有序的,也可以是離散的;Y稱為標(biāo)簽向量(Label Vectors),其屬性可以是有序的,也可以是離散的。由訓(xùn)練樣本公式可以看出,該算法既可用于分類,又可用于連續(xù)變量的預(yù)測(cè),它的基本原理是:將訓(xùn)練數(shù)據(jù)集(訓(xùn)練樣本)劃分為測(cè)試變量和目標(biāo)變量,通過(guò)對(duì)這兩變量的循環(huán)分析形成二叉決策樹(shù)。分類算法公式如下:

      (6)

      訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2)…(xn,yn)},利用特征A的取值a將數(shù)據(jù)分為兩部分,計(jì)算A=a時(shí)的基尼系數(shù),對(duì)整個(gè)數(shù)據(jù)集中所有的可能特征A以及其可能取值a選取基尼系數(shù)最小的特征A*與特征下的取值a*,將數(shù)據(jù)集切分,數(shù)據(jù)D1、D2分到兩個(gè)子節(jié)點(diǎn)中去,對(duì)子節(jié)點(diǎn)遞歸的重復(fù)迭代直至滿足所有條件。回歸算法公式如下:

      (7)

      (8)

      (9)

      預(yù)剪枝算法如下:

      (10)

      a=mina,gt

      (11)

      設(shè)T=T0,k=0,a=+,自上而下地訪問(wèn)內(nèi)部節(jié)點(diǎn)t,對(duì)最小的g(t)=ag(t)=a進(jìn)行剪枝,并對(duì)葉節(jié)點(diǎn)t以多數(shù)表決形式?jīng)Q定其類別,得到樹(shù)T。令k=k+1,ak=a,Tk=T,對(duì)于產(chǎn)生的子樹(shù)序列{T0,T1,…,Tn}分別計(jì)算損失,得到最優(yōu)子樹(shù)T*并返回[4]。

      相對(duì)于其他的決策樹(shù)模型,CART決策樹(shù)模型CART算法具有如下特點(diǎn):嚴(yán)格無(wú)參數(shù),對(duì)輸入數(shù)據(jù)沒(méi)有任何統(tǒng)計(jì)分布的假設(shè)要求;能夠清楚地指出變量對(duì)于分類的重要性,選擇與分類相關(guān)的變量;方法實(shí)現(xiàn)簡(jiǎn)單,運(yùn)行速度較快;結(jié)構(gòu)清晰,容易理解。

      3 面向?qū)ο蠓诸?/h2>

      BaatzM和Sch?peA針對(duì)高分辨率遙感影像的特點(diǎn),提出了面向?qū)ο蟮倪b感影像分類方法[5]。分析單元是由分割形成的具有相同特征的像元組成的同質(zhì)對(duì)象[6],分析目標(biāo)對(duì)象的相關(guān)特征屬性,包括光譜、形狀、紋理、陰影、空間位置等,隨后應(yīng)用不同的分類方法建立相應(yīng)的規(guī)則對(duì)分割得到的同質(zhì)性對(duì)象進(jìn)行影像分類和信息提取。相對(duì)于傳統(tǒng)的基于像元的分析方法,面向?qū)ο蟮挠跋穹治龇椒軌虺浞挚紤]對(duì)象之間的語(yǔ)義信息[7],根據(jù)所提取的目標(biāo)可以調(diào)整不同的尺度,從較高層次對(duì)影像進(jìn)行分類,因此解決了由于單個(gè)像元光譜異質(zhì)性大而導(dǎo)致的高光譜遙感分類“胡椒鹽”噪聲問(wèn)題,以及基于像元方法中存在的“同物異譜,同譜異物”現(xiàn)象。

      3.1 多尺度分割

      依據(jù)分割時(shí)使用的灰度特征和紋理特征,影像分割方法可分為直方圖閾值、特征空間聚類、區(qū)域增長(zhǎng)與合并、邊緣檢測(cè)4種類型[8],其中應(yīng)用最為廣泛、最為成功的面向?qū)ο笥跋穹指罴夹g(shù)是基于分形網(wǎng)絡(luò)演化算法(Fractal Net Evolution Approach,FNEA)的多尺度分割(multi-scalesegmentation)方法,該方法是基于鄰域異質(zhì)性最小的原則以隨機(jī)單個(gè)像元作為起始點(diǎn),形成對(duì)象自下而上的區(qū)域合并。

      如何確定最優(yōu)分割尺度是目前研究的一個(gè)重要方向,王志華等以利用分型網(wǎng)絡(luò)演化分割算法為例,開(kāi)展尺度參數(shù)選擇研究[9];明冬萍等提出了基于譜空間統(tǒng)計(jì)的高分辨率影像分割尺度估計(jì)方法[10];殷瑞娟等利用主成分變換后的特征值作為各個(gè)主成分圖像的權(quán)重,改進(jìn)了原分割質(zhì)量評(píng)價(jià)值(GS),并利用GS值確定最優(yōu)分割指數(shù)[11]。本文使用eCognition9.0實(shí)現(xiàn)影像分割,分割參數(shù)主要包括波段的權(quán)重、均質(zhì)性因子和分割尺度。影像對(duì)象的異質(zhì)性閾值由分割尺度決定。本文采取建立多個(gè)分割層、利用光譜差異分割的方法進(jìn)行影像分割,并利用OIF最佳指數(shù)法選取432波段組合,經(jīng)過(guò)反復(fù)對(duì)比實(shí)驗(yàn)(圖1),最終針對(duì)研究區(qū)建立了較為合適的分割參數(shù)設(shè)置,如圖2所示。

      圖1 分割尺度研究Fig.1 The research of the segmentation scale

      3.2 樣本選擇及特征選取

      根據(jù)實(shí)際項(xiàng)目解譯要求,將訓(xùn)練區(qū)分為草地、林地、耕地、水體、其它土地五類。輔以2016年人工目視解譯結(jié)果作為參考,進(jìn)行訓(xùn)練樣本的選擇并分析所選樣本的光譜特征及紋理特征,依據(jù)地類區(qū)分難易程度進(jìn)行樣本由多到少的選取。

      根據(jù)樣本統(tǒng)計(jì)結(jié)果,初步選擇光譜特征:432波段的均值、標(biāo)準(zhǔn)差、比率、亮度、NDVI(植被指數(shù))、NDWI(水體指數(shù))、MSAVI(修正土壤調(diào)整植被指數(shù));形狀特征:長(zhǎng)寬比、形狀指數(shù)。紋理特征計(jì)算方法應(yīng)用Haralick等人提出的灰度共生矩陣方法[12]。用兩個(gè)位置象素的聯(lián)合概率密度來(lái)定義共生矩陣,它不僅能夠反映亮度的分布特性,也反映具有同樣亮度或接近亮度的象素之間的位置分布特性,是有關(guān)圖像亮度變化的二階統(tǒng)計(jì)特征。從共生矩陣導(dǎo)出一些反映矩陣狀況的參數(shù),如對(duì)比度、相關(guān)度、熵、均值、差異性、均勻度[13]。

      圖2 分割參數(shù)設(shè)置Fig.2 The settings of the segmentation parameter

      本文主要針對(duì)較難區(qū)分的草地、耕地等地類引入紋理特征進(jìn)行提取,這些地類在近紅外波段反射值較高、可區(qū)分性最大,因此針對(duì)近紅外波段進(jìn)行上述紋理特征的全方向提取。個(gè)別特征計(jì)算方法介紹如下:

      (12)

      (13)

      (14)

      本文運(yùn)用eCognition9.0針對(duì)分割后的對(duì)象進(jìn)行紋理特征的提取,不需要通過(guò)計(jì)算J-M距離來(lái)調(diào)整窗口大小而可以直接計(jì)算各紋理特征。初步選取紋理特征如下:con-對(duì)比度、cor-相關(guān)度、ent-熵、mean-均值、dis-差異性、hom-均勻度。

      (15)

      (16)

      (17)

      (18)

      (19)

      (20)

      初步選取光譜形狀及紋理特征共計(jì)21個(gè),運(yùn)用CART決策樹(shù)分類時(shí),考慮到運(yùn)算速度及較難區(qū)分地物比如耕地、草地等能更加充分利用所選特征來(lái)進(jìn)行判斷,較容易區(qū)分的水體應(yīng)用NDWI指數(shù)通過(guò)設(shè)定閾值單獨(dú)提取。

      3.3 優(yōu)化特征空間及分類結(jié)果對(duì)比

      特征的選擇并不是越多越好,相反盲目地使用多種特征所導(dǎo)致的計(jì)算量急劇增大、分類精度降低、分類特征冗余問(wèn)題是會(huì)大大影響整個(gè)分類過(guò)程的[14],因此如何找到類別之間區(qū)分最大平均、最小距離的特征組合,優(yōu)化特征空間是一個(gè)值得研究的問(wèn)題。叢佃敏等選取研究區(qū)分割對(duì)象的48個(gè)特征,利用OOB誤分率對(duì)各個(gè)特征的重要性排序,從而優(yōu)化特征空間[15];林鵬等運(yùn)用遺傳算法對(duì)初始特征集進(jìn)行最優(yōu)特征集提取[16];余曉敏等運(yùn)用改進(jìn)的SEaTH算法進(jìn)行特征優(yōu)選[17]。本文所用CART決策樹(shù)分類方法能夠自動(dòng)選擇特征,自動(dòng)確定閾值,利用易康9.0特征優(yōu)選工具FSO模塊優(yōu)選出的特征構(gòu)建特征空間進(jìn)行自動(dòng)分類,其中,FSO工具優(yōu)選結(jié)果如圖3。

      圖3 FSO工具特征維數(shù)與區(qū)分距離關(guān)系Fig.3 The relationship between feature dimension and distinguish distance

      這里可以看到,排除水體單獨(dú)提取所用到的NDWI指數(shù),初選的20個(gè)特征在14個(gè)特征組合時(shí)樣本之間的區(qū)分距離達(dá)到最大,光譜特征分別是:3波段的比率標(biāo)準(zhǔn)差及均值、NDVI、4波段的比率標(biāo)準(zhǔn)差、形狀指數(shù)、長(zhǎng)寬比,初選的6個(gè)紋理特征全部在優(yōu)選的特征范圍內(nèi),可見(jiàn)紋理特征在訓(xùn)練樣本的區(qū)分中起到了較為明顯的作用,但由于最鄰近分類引入紋理特征分類時(shí)會(huì)導(dǎo)致計(jì)算量過(guò)大、運(yùn)算速度過(guò)慢,因此在最鄰近分類時(shí)采用8個(gè)特征進(jìn)行分類,分別是:形狀指數(shù)、3波段比率和標(biāo)準(zhǔn)差、NDVI、紋理相關(guān)性、紋理差異性、紋理均勻度及4波段比值?;谒x特征,利用FSO工具計(jì)算所選訓(xùn)練樣本的可分離度,如圖4所示。

      圖4 訓(xùn)練樣本在14個(gè)特征組合時(shí)的可分離度Fig.4 The separable degrees of the training samples combined with 14 features

      可以看出所選訓(xùn)練樣本林地與草地的可分離度較差(只有1.18),草地與耕地的可分離度最差為1.15,在所選特征保持不變的前提下,通過(guò)進(jìn)一步調(diào)整所選樣本,最終使得林地、草地分離度達(dá)到1.35,草地與耕地分離度達(dá)到1.26。

      由于訓(xùn)練樣本相同,為了加快運(yùn)算速度、提高分類精度,CART分類利用FSO工具進(jìn)行特征優(yōu)選后的14個(gè)特征進(jìn)行特征空間的構(gòu)建,其中水體用NDWI指數(shù)單獨(dú)提取,建樹(shù)如下。

      在訓(xùn)練樣本相同的條件下,最鄰近分類、CART決策樹(shù)分類結(jié)果如圖5、圖6所示。

      圖5 基于光譜及紋理特征執(zhí)行的CART決策樹(shù)Fig.5 The process of CART decision tree based on spectrum and texture features

      圖6 最鄰近分類(左)與CART分類(右)結(jié)果圖Fig.6 The results of the classification between nearest neighbor(left) and CART decision tree(right)

      3.4 精度評(píng)價(jià)

      為了客觀地評(píng)價(jià)研究區(qū)不同分類方法的結(jié)果精度,采用野外實(shí)地驗(yàn)證的110個(gè)控制點(diǎn)建立混淆矩陣進(jìn)行分類結(jié)果精度評(píng)價(jià),最鄰近分類、CART分類精度及各項(xiàng)指標(biāo)如表1、表2所示。

      總體來(lái)看,最鄰近分類方法在總體分類精度上略高于CART決策樹(shù)分類,但是在數(shù)據(jù)處理運(yùn)算速度上,兩者相差過(guò)大,這是由于兩者不同的分類原理導(dǎo)致的。即使CART分類所選用的特征比最鄰近的多了6個(gè),但是運(yùn)算速度相差60倍。兩種分類方法在草地的分類上都不是很理想,尤其是CART決策樹(shù)分類,在草地與其它土地的錯(cuò)分率和漏分率均高于最鄰近分類,而在耕地的分類上精度明顯高于最鄰近分類。結(jié)合原始影像分析,最鄰近分類是通過(guò)某個(gè)樣本在特征空間中最相鄰的幾個(gè)樣本特征來(lái)歸類,這種判斷方法更加適合研究區(qū)林草地混雜的情況,而CART決策樹(shù)分類可能在草地的分類中產(chǎn)生了過(guò)擬合現(xiàn)象。對(duì)于CART決策樹(shù)而言,通過(guò)選取更多更精確的訓(xùn)練樣本,對(duì)于較難區(qū)分的地類其錯(cuò)分率和誤分率可以得到有效降低。而在耕地分類中,最鄰近分類將少數(shù)耕地分為了水體是錯(cuò)誤的,CART分類將少數(shù)其它土地(實(shí)際為廢棄的水坑)分為了水體,結(jié)合影像來(lái)看是可以理解的。

      表1 最鄰近分類結(jié)果精度評(píng)價(jià)表Table 1 The accuracy evaluation of the nearest neighbor

      表2 CART分類結(jié)果精度評(píng)價(jià)表Table 2 The accuracy evaluation of the CART decision tree

      4 結(jié)論

      目前面向?qū)ο蠓诸惙椒ㄖ?CART決策樹(shù)是一種高效準(zhǔn)確的分類方法。在保證精確訓(xùn)練樣本和有效特征空間構(gòu)建的前提下,該方法能夠準(zhǔn)確高速對(duì)影像數(shù)據(jù)進(jìn)行自動(dòng)分類,并且取得較高的精度。尤其是在處理大數(shù)據(jù)量的影像數(shù)據(jù)中,該方法具有很大的應(yīng)用價(jià)值。雖然CART算法能夠自動(dòng)選取特征及確定閾值,但是如何選取這種特征并沒(méi)有詳細(xì)的算法,而且過(guò)量的特征也會(huì)導(dǎo)致信息的冗余和分類速度的減慢,會(huì)出現(xiàn)過(guò)擬合導(dǎo)致分類精度的降低。本文經(jīng)過(guò)其與最鄰近方法的對(duì)比,利用其優(yōu)化特征空間工具FSO,對(duì)分類特征進(jìn)行初步優(yōu)選,在保證分類精度的前提下,加快了運(yùn)算速度,提高了工作效率。

      猜你喜歡
      訓(xùn)練樣本決策樹(shù)紋理
      基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
      軟件(2020年3期)2020-04-20 01:45:18
      人工智能
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      使用紋理疊加添加藝術(shù)畫(huà)特效
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      TEXTURE ON TEXTURE質(zhì)地上的紋理
      Coco薇(2017年8期)2017-08-03 15:23:38
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      基于決策樹(shù)的出租車乘客出行目的識(shí)別

      曲松县| 花莲市| 绵阳市| 宝兴县| 池州市| 商都县| 沂源县| 巴楚县| 靖边县| 深州市| 峨山| 金坛市| 黑龙江省| 珠海市| 岑巩县| 丁青县| 藁城市| 南陵县| 喀喇沁旗| 阿勒泰市| 怀安县| 虎林市| 紫金县| 郁南县| 定边县| 宜宾市| 中卫市| 泾川县| 阿拉善右旗| 滨州市| 墨竹工卡县| 遵义县| 谢通门县| 富源县| 通道| 平阴县| 长阳| 桐梓县| 昌图县| 安国市| 施甸县|