[摘 要]運(yùn)用數(shù)據(jù)挖掘的決策樹方法為未利用土地適宜性評(píng)價(jià)建立模型,以福建省福州市閩侯縣作為一個(gè)試驗(yàn)區(qū),本文首先運(yùn)用主成分分析法,消除各因素之間的相關(guān)性,得出8個(gè)相互獨(dú)立的指標(biāo)(影響因子)作為測試屬性,共提取了67個(gè)樣本,再運(yùn)用C45算法構(gòu)建未利用土地適宜性評(píng)價(jià)決策樹并進(jìn)行了分析,表明所得規(guī)則符合實(shí)際并且易于理解。然后運(yùn)用生產(chǎn)的規(guī)則對(duì)試驗(yàn)區(qū)未利用土地進(jìn)行評(píng)價(jià),并與應(yīng)用實(shí)地調(diào)查所得的結(jié)果作對(duì)比分析。結(jié)果表明:基于決策樹技術(shù)的未利用土地適宜性評(píng)價(jià)方法不僅不依賴于經(jīng)驗(yàn)知識(shí),而且通過此模型得到的評(píng)價(jià)結(jié)果具有較高準(zhǔn)確率,能夠滿足評(píng)價(jià)的要求。
[關(guān)鍵詞]數(shù)據(jù)挖掘;決策樹;未利用土地適宜性評(píng)價(jià)
[中圖分類號(hào)]TP393 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1005-6432(2013)10-0052-03
決策樹分類方法是數(shù)據(jù)挖掘中經(jīng)常使用的數(shù)據(jù)分類方法之一,它一般采用以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,在確定了訓(xùn)練集,之后學(xué)習(xí)完全依賴數(shù)據(jù)本身,生成類似于流程圖的樹狀結(jié)構(gòu)來表示數(shù)據(jù)挖掘所得的結(jié)果。而未利用土地適宜性評(píng)價(jià)是在綜合考慮土地的自然、社會(huì)經(jīng)濟(jì)等條件下的一種針對(duì)土地用途適宜性的評(píng)價(jià),也可以看成是對(duì)影響土地某種用途適宜性的因子量化后的混合空間數(shù)據(jù)的分類問題,其分類的結(jié)果便是土地某種用途適宜性等級(jí)劃分的結(jié)果。傳統(tǒng)的評(píng)價(jià)方法與之相比,大多依賴于知識(shí)、經(jīng)驗(yàn),無法對(duì)知識(shí)的不完備性做出適當(dāng)?shù)恼{(diào)整,不完備、不準(zhǔn)確的知識(shí)會(huì)給結(jié)果帶來較大偏差,并且不具有自學(xué)習(xí)能力,且難以處理定性描述的變量。傳統(tǒng)的方法如模糊綜合評(píng)判法、極限條件法、灰色關(guān)聯(lián)度分析法、經(jīng)驗(yàn)指數(shù)和法等。本文嘗試把數(shù)據(jù)挖掘中的常用的決策樹分類法應(yīng)用于未利用土地適宜性評(píng)價(jià)中,在克服傳統(tǒng)評(píng)價(jià)方法過于依賴經(jīng)驗(yàn)知識(shí)和無法處理不完備信息的基礎(chǔ)上,進(jìn)而為未利用土地適宜性評(píng)價(jià)的研究提供另一種思路和方法。
1 主成分分析法概述
11主成分分析
主成分分析也稱為主量分析(Karhunnen-loeve變換),它是一種研究如何將多指標(biāo)的問題轉(zhuǎn)化為只有較少的綜合指標(biāo)的統(tǒng)計(jì)分析方法,它能將問題從高維空間降到低維空間去處理,不僅簡化了變量系統(tǒng)的數(shù)字統(tǒng)計(jì)特征,而且還能夠提供更多重要的系統(tǒng)信息。從數(shù)學(xué)方法的角度來看,這種方法被稱之為降維,即把多指標(biāo)轉(zhuǎn)化為關(guān)聯(lián)度比較小的少數(shù)幾個(gè)綜合指標(biāo)。
選用主成分分析法,其核心是通過分析、選擇p個(gè)主成分,并且以每個(gè)主成分zi的方差貢獻(xiàn)率ai作為權(quán)數(shù),構(gòu)造出綜合評(píng)價(jià)函數(shù):
12 主成分分析法選擇評(píng)價(jià)因子
影響未利用土地適宜性的因素較多,如果將全部因子都予以考慮,一方面資料很難收集,另一方面其中有些因素對(duì)未利用土地的適宜性沒有很直接的影響或影響程度不顯著,因此本文先用主成分分析的方法選取了質(zhì)地、有機(jī)質(zhì)含量等8個(gè)關(guān)聯(lián)性比較弱的因素作為評(píng)價(jià)因子。評(píng)價(jià)因子指標(biāo)的分級(jí)反映了其對(duì)主要農(nóng)作物類型的生物學(xué)適應(yīng)性,主要根據(jù)參評(píng)因子對(duì)農(nóng)作物的適宜性程度來確定。在確定評(píng)價(jià)因子后,結(jié)合福建省福州市閩侯縣的實(shí)際情況, 然后采用特爾斐法來分析確定各評(píng)價(jià)因子的分級(jí)指標(biāo)。
2 決策樹應(yīng)用原理與方法
21 基本原理
決策樹是以IF-THEN規(guī)則形式對(duì)所用數(shù)據(jù)進(jìn)行自動(dòng)分類。在決策樹的內(nèi)部節(jié)點(diǎn)比較屬性值,并根據(jù)不同的屬性值來判斷確定自該節(jié)點(diǎn)向下的分支,最后從決策樹的葉節(jié)點(diǎn)得到結(jié)論。所以從樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑對(duì)應(yīng)著一條生成的提取規(guī)則,相應(yīng)的整棵決策樹對(duì)應(yīng)著一組表達(dá)式規(guī)則。
決策樹的構(gòu)造過程分為構(gòu)造樹和樹剪枝兩個(gè)階段:
(1)構(gòu)造樹階段。這一階段最關(guān)鍵的操作就是在樹的根節(jié)點(diǎn)上選取最適合的測試屬性,選取的標(biāo)準(zhǔn)包括基尼指數(shù)、信息增益、信息增益比以及基于距離的劃分等。然后按照所有可能取值的相應(yīng)屬性建立向下的分枝,接著依次劃分訓(xùn)練樣本,直到每一個(gè)節(jié)點(diǎn)上的所有樣本都被劃分為同一個(gè)類或者某一節(jié)點(diǎn)中樣本數(shù)量低于給定的值時(shí)為止。
(2)樹的剪枝階段。決策樹構(gòu)造過程中可能許多分枝所反映的是數(shù)據(jù)訓(xùn)練中的噪聲或者孤立點(diǎn)。因此,生成決策樹的過程中需要按某種規(guī)則來將相近或相似的分枝進(jìn)行合并之后剪除,從而得到一棵能夠反映數(shù)據(jù)集特性的決策樹。樹的剪枝方法主要可分為后剪枝、先剪枝或者兩者相結(jié)合的方法。樹的剪枝方法的剪枝標(biāo)準(zhǔn)主要包括期望錯(cuò)誤率最小原則和最小描述長度原則(MDL)等。
22 算法的比較
當(dāng)前,最常用的決策樹方法法是Quinlan提出的ID3算法和C45算法。C45算法是對(duì)ID3算法的改進(jìn),改進(jìn)后不僅可以處理離散型的屬性值,還可以處理連續(xù)型的屬性值。此外C45算法選擇測試屬性的標(biāo)準(zhǔn)是信息增益比,克服了之前ID3選用信息增益作為測試屬性的標(biāo)準(zhǔn)的弊端,比如偏向于取值較多的屬性等。常用的決策樹算法還有PUBLIC、CART、SPRINT、CAL5和QUEST等。具體的算法可參考文獻(xiàn)[3][4]等。
23 應(yīng)用思路
運(yùn)用決策樹方法研究未利用土地適宜性評(píng)價(jià)的思路如圖1所示。
(1)數(shù)據(jù)的預(yù)處理。根據(jù)未利用土地適宜性評(píng)價(jià)的目的,選取并構(gòu)建用于決策樹的訓(xùn)練集。
(2)決策樹的構(gòu)建,提取評(píng)價(jià)規(guī)則。未利用土地適宜性的影響因素既有離散型的,如土壤的質(zhì)地,又有連續(xù)型的,如耕層的厚度等,本文研究采用C45算法來構(gòu)建未利用土地適宜性評(píng)價(jià)決策樹模型,再從經(jīng)過剪枝后的決策樹模型提取出評(píng)價(jià)規(guī)則,最后以IF…THEN…形式的結(jié)構(gòu)組織。
(3)規(guī)則的應(yīng)用。根據(jù)所提取的規(guī)則,建立關(guān)于未利用土地適宜性評(píng)價(jià)因素的空間數(shù)據(jù)庫,以規(guī)則匹配的方式對(duì)未利用土地適宜性評(píng)價(jià)空間數(shù)據(jù)庫中的數(shù)據(jù)集進(jìn)行推理運(yùn)算,得到評(píng)價(jià)的結(jié)果。
3 實(shí)例應(yīng)用分析
福建省福州市閩侯縣2011年的土地利用現(xiàn)狀變更調(diào)查結(jié)果表明,全縣參與評(píng)價(jià)了的未利用土地面積大約為1132596公頃。本文下述的未利用土地面積均指參與評(píng)價(jià)了的未利用土地面積,不包括沼澤地、鹽堿地、裸巖石礫地以及其他未利用地。
31 數(shù)據(jù)的預(yù)處理
本實(shí)例采用1∶50000的土地利用現(xiàn)狀圖,評(píng)價(jià)單元是土地利用現(xiàn)狀圖中的地塊單元,其原因;一是由于土地利用現(xiàn)狀中的地塊單元相對(duì)于其他來說其單元內(nèi)各種條件和標(biāo)準(zhǔn)比較一致,另外也方便評(píng)價(jià)結(jié)果的應(yīng)用。在整個(gè)試驗(yàn)區(qū)域中,依據(jù)樣本級(jí)別分布均勻和空間分布均勻兩大原則,總共選取了67個(gè)地塊作為決策樹訓(xùn)練的樣本集。
32 決策樹的構(gòu)建
本文應(yīng)用決策樹中常用的C45算法構(gòu)建未利用土地適宜性評(píng)價(jià)決策樹模型,應(yīng)用程序中各相關(guān)因子及其屬性取值定義:其中,continuous表示的是對(duì)應(yīng)因子屬性的取值為連續(xù)型,如有機(jī)質(zhì)取值必須是連續(xù)的。其余的都表示離散型的因子及其屬性的取值范圍,如以“輕壤,中壤,重壤,輕粘,砂壤,中粘,砂土”之一來描述其中某一土地單元的土壤質(zhì)地。
33 結(jié)果與分析
依據(jù)從決策樹中提取出來的規(guī)則,對(duì)用于未利用土地適宜性評(píng)價(jià)的空間數(shù)據(jù)庫以規(guī)則匹配的方式實(shí)施推理和運(yùn)算,得到評(píng)價(jià)結(jié)果。其中各類別(林地、耕地、園地、其他)面積分別為:192442畝,440197畝,415608畝,286727畝。而對(duì)這一樣區(qū)進(jìn)行實(shí)地調(diào)查驗(yàn)證的各類別面積分別為:201402畝,450832畝,402514畝,278226畝。圖2為應(yīng)用決策樹方法所得結(jié)果和實(shí)地調(diào)查結(jié)果所做的一個(gè)對(duì)比,若以后者為基準(zhǔn),各級(jí)偏差分別為45%,26%,29%,31%。另外對(duì)具體地塊的用地類別進(jìn)行了對(duì)比分析,其吻合率達(dá)到了923%。
4 結(jié) 論
決策樹分類方法只需要預(yù)先給定訓(xùn)練集,之后完全依賴數(shù)據(jù)學(xué)習(xí)得到?jīng)Q策樹模型,并用定量規(guī)則的方式來表達(dá)所獲取的知識(shí),應(yīng)用于未利用土地適宜性評(píng)價(jià)即只需選取合適的未利用土地適宜性評(píng)價(jià)的樣本,包括每個(gè)樣本評(píng)價(jià)單元的屬性值以及未利用土地適宜性評(píng)價(jià)的類別。本文通過質(zhì)地、灌溉條件、有機(jī)質(zhì)、坡度、土層厚度、≥10℃積溫、PH、海拔等屬性,用決策樹方法確定未利用土地適宜性評(píng)價(jià)類別,并驗(yàn)證了其可行性,該方法不僅可有效地避免主觀判斷和彌補(bǔ)缺陷的經(jīng)驗(yàn)知識(shí),且可以隨著土地資源數(shù)據(jù)的變更,快速更新未利用土地適宜性評(píng)價(jià)的數(shù)據(jù)集,為土地的適宜性評(píng)價(jià)提供了一種新的思路和方法。當(dāng)然它的應(yīng)用也有一定的局限性,比如當(dāng)它用于某一土地評(píng)價(jià)單元,其“有效土層厚度”小于8cm時(shí),即使地形坡度等其他條件再好,也不適宜作為耕地,而應(yīng)用決策樹方法很難處理這類問題,而采用傳統(tǒng)的“極限條件法”卻能很快處理。因此,在實(shí)際工作中,我們要結(jié)合多種方法,對(duì)不同的數(shù)據(jù)分析對(duì)象采用不同的分析方法,從而得到更為科學(xué)、合理、適用的結(jié)果。
參考文獻(xiàn):
[1]周斌,王繁基于決策樹模型的土壤性質(zhì)空間推斷[J].土壤通報(bào),2004,35(4).
[2]張海玲,過仲陽,等決策樹方法在環(huán)境物理量場與暴雨之間關(guān)系研究中的應(yīng)用[J].地理信息科學(xué),2005,7(4):39-41
[3]焦利民人工神經(jīng)網(wǎng)絡(luò)和模糊邏輯在未利用土地適宜性評(píng)價(jià)中的應(yīng)用研究[D].武漢:武漢大學(xué),2002
[4]韓慧,毛鋒,等數(shù)據(jù)挖掘中決策樹算法的最新進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2004(12).
[5]邢世和,黃吉,黃河GIS支持下的區(qū)域耕地質(zhì)量評(píng)價(jià)[J].福建農(nóng)林大學(xué)學(xué)報(bào)(自然科學(xué)版), 2002, 31(3):378-382