王海洋 陳杰 韓杏杏
摘要 [目的]借用機(jī)器學(xué)習(xí)算法——判別分析算法來(lái)簡(jiǎn)化耕地地力評(píng)價(jià)工作,探索區(qū)域尺度上機(jī)器學(xué)習(xí)方法在地力評(píng)價(jià)應(yīng)用的新途徑。[方法]基于輝縣市測(cè)土配方施肥財(cái)政補(bǔ)貼項(xiàng)目耕地地力評(píng)價(jià)工作獲取的基礎(chǔ)數(shù)據(jù),依據(jù)我國(guó)農(nóng)業(yè)部標(biāo)準(zhǔn)《耕地地力調(diào)查與質(zhì)量評(píng)價(jià)技術(shù)規(guī)程》(NY/T 1634—2008)和該市耕地地力評(píng)價(jià)實(shí)踐經(jīng)驗(yàn),選取研究區(qū)表層土壤質(zhì)地、土壤剖面特征、地表礫石度、速效鉀、有效磷、有機(jī)質(zhì)含量、灌溉保證率、排澇能力、地貌類型、坡度等10個(gè)土壤和立地條件因素作為耕地地力水平的判別變量,構(gòu)建Fisher典則判別函數(shù)模型,對(duì)5 922個(gè)評(píng)價(jià)單元的耕地地力狀況進(jìn)行判斷分析和歸類分級(jí)。[結(jié)果]經(jīng)對(duì)判別結(jié)果進(jìn)行統(tǒng)計(jì)驗(yàn)證和回代驗(yàn)證,顯示預(yù)測(cè)判別正確率高達(dá)91.4%。[結(jié)論]在耕地地力評(píng)價(jià)與分級(jí)標(biāo)準(zhǔn)確定的前提下,判別分析算法在區(qū)域尺度上對(duì)分析耕地地力狀況、預(yù)測(cè)耕地地力等級(jí)方面具有獨(dú)特優(yōu)勢(shì)。
關(guān)鍵詞 耕地地力;耕地地力評(píng)價(jià);判別分析;典則判別函數(shù)
中圖分類號(hào) S158 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 0517-6611(2017)25-0199-04
Abstract [Objective]To simplify the evaluation of cultivated land fertility by applying the machine learning algorithm, which aims to explore a new approach to the application of machine learning method in the evaluation work of cultivated land fertility at regional scale.[Method] Based on Technical Specification for Investigation and Quality Evaluation of Cultivated Land Fertility (NY/T 1634—2008) and the local practices of cultivated land evaluation, the methods applied by this study generally are supposed to use the based data obtained by the financial subsidy project for soil testing and formulated fertilization conducted in Huixian City, Henan Province, to establish canonical discriminate functions. 10 soil and site condition factors including surface soil texture, soil profile characteristics, surface gravel degree, rapidly available potassium in soil, available phosphorous in soil, organic matter content in soil, irrigation guarantee rate, capacity for drainage, geomorphic types, and surface slope are selected as the discriminant variables of cultivated land fertility level. By constructing the model of Fisher discriminant functions, Fisher discriminant analysis (FDA) was employed to determine, analyzed and classified land fertility in 5 922 sampled sites of the studied region using that Fisher discriminate functions. [Result]The results of the methods demonstrate a prediction accuracy reaching up 91.4% after mathematical statistics verification and back substitution verification which means the original data being returned back to the Fisher discriminant functions. [Conclusion]Under the premise of identifying the standard of evaluation and classification of cultivated land, the discriminant analysis algorithm has a unique advantage in analyzing and classifying the fertility situation of cultivated land and predicting the grade of cultivated land.
Key words Cultivated land fertility;Evaluation of cultivated land fertility;Discriminant analysis;Canonical discriminate functions
耕地是農(nóng)業(yè)生產(chǎn)活動(dòng)中最重要的生產(chǎn)資料,是農(nóng)業(yè)生產(chǎn)可持續(xù)的基礎(chǔ)[1],耕地地力是評(píng)價(jià)耕地質(zhì)量的一個(gè)綜合指標(biāo)[2],是耕地內(nèi)在自然屬性和人類干預(yù)活動(dòng)交互作用下的現(xiàn)實(shí)生產(chǎn)能力表現(xiàn),耕地地力水平直接影響著作物生長(zhǎng)發(fā)育、農(nóng)產(chǎn)品產(chǎn)量和質(zhì)量[3]。河南省是傳統(tǒng)的農(nóng)業(yè)大省,是我國(guó)最重要的糧食主產(chǎn)區(qū)之一,肩負(fù)著保障國(guó)家糧食安全的重要使命。為實(shí)現(xiàn)《國(guó)家糧食核心區(qū)建設(shè)規(guī)劃》《河南省高標(biāo)準(zhǔn)糧田“百千萬(wàn)”工程建設(shè)規(guī)劃》提出的戰(zhàn)略目標(biāo),全省正堅(jiān)持以耕地質(zhì)量建設(shè)為核心,依靠科技進(jìn)步,全面實(shí)施耕地質(zhì)量提升綜合技術(shù)措施,改善耕地土壤理化性狀,提高耕地綜合生產(chǎn)能力,強(qiáng)化抗御自然災(zāi)害的能力,保護(hù)農(nóng)業(yè)生態(tài)環(huán)境。各項(xiàng)耕地質(zhì)量培育、綜合地力提升技術(shù)措施的順利、高效實(shí)施,離不開(kāi)對(duì)耕地生產(chǎn)力現(xiàn)狀的全面了解、準(zhǔn)確評(píng)價(jià)以及對(duì)耕地地力等級(jí)的科學(xué)劃分和空間分布格局的全面掌握。
判別分析(Discriminate Analysis,DA)是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法,其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大樣本數(shù)據(jù)確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo),據(jù)此確定特定樣本的類型歸屬[4-6]。判別分析是一種在實(shí)踐中應(yīng)用較為廣泛的機(jī)器學(xué)習(xí)算法[7]。實(shí)際應(yīng)用中,判別分析有多種形式:根據(jù)判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;根據(jù)判別標(biāo)準(zhǔn)不同,可以分為距離判別、Bayes判別、Fisher判別法等[8]。
Fisher判別分析(Fisher Discriminant Analysis,F(xiàn)DA)亦稱典則判別,是根據(jù)線性Fisher函數(shù)值進(jìn)行判別,其基本思路就是投影,針對(duì)P維空間中的某點(diǎn)x=(x1,x2,…,xp),尋找一個(gè)能使它降為一維數(shù)值的線性函數(shù)y(x)=Cjxj,然后應(yīng)用這個(gè)線性函數(shù)把P維空間中的已知類別總體以及求知類別歸屬的樣本都變換為一維數(shù)據(jù),再根據(jù)其間的親疏程度把未知?dú)w屬的樣本點(diǎn)判定其歸屬。投影的原則是使得每一類的差異盡可能小,而不同類間投影的離差盡可能大。判別函數(shù)主要有兩種,即線性判別函數(shù)(Linear Discriminant Function)和典則判別函數(shù)(Canonical Discriminate Function)。其中,構(gòu)建線性判別函數(shù)的基本前提是各類樣本相互對(duì)立、且符合正態(tài)分布;而典則判別函數(shù)是建立在方差分析思想上,可較好地區(qū)分出各個(gè)總體,而不對(duì)總體分布做任何要求[9-10]。我國(guó)農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)(NY/T 1634—2008)中規(guī)定的耕地地力評(píng)價(jià)方法——綜合指數(shù)法在我國(guó)耕地地力評(píng)價(jià)與分級(jí)實(shí)踐中的應(yīng)用最為廣泛,根據(jù)計(jì)算出的每一評(píng)價(jià)單元的耕地地力指數(shù),采用耕地地力指數(shù)累積曲線法劃分耕地地力等級(jí)。該方法對(duì)軟件要求較高,且步驟復(fù)雜繁瑣。在國(guó)內(nèi)一些案例研究中,支持向量機(jī)(Support Vector Machine,SVM)算法、模糊支持決策算法以及分類與回歸樹(shù)算法等機(jī)器學(xué)習(xí)、決策分析等領(lǐng)域內(nèi)的新技術(shù)被用于耕地地力評(píng)價(jià),而判別分析算法自問(wèn)世以來(lái),在國(guó)內(nèi)礦藏評(píng)估、風(fēng)險(xiǎn)預(yù)警、財(cái)務(wù)分析、交通規(guī)劃、疾病診斷、智能識(shí)別等領(lǐng)域應(yīng)用廣泛,但鮮有學(xué)者將其應(yīng)用于耕地地力等級(jí)劃分。筆者將Fisher判別分析算法引入耕地地力分級(jí)實(shí)踐中,通過(guò)縣域案例研究,探索區(qū)域尺度上機(jī)器學(xué)習(xí)技術(shù)在耕地質(zhì)量評(píng)價(jià)、耕地地力分級(jí)以及中低產(chǎn)田劃分應(yīng)用的新途徑。
1 數(shù)據(jù)來(lái)源與研究方法
1.1 研究區(qū)概況
河南省輝縣市(新鄉(xiāng)市代管的縣級(jí)市)地處河南省西北部,地理坐標(biāo)為35°17′~35°50′E、113°20′~113°57′N。輝縣市屬暖溫帶大陸性季風(fēng)氣候,總面積2 007 km2,區(qū)域內(nèi)西部為太行山脈,山地面積1 007 km2,平原面積783 km2,丘陵217 km2。截至2005年末,全市耕地面積5.34萬(wàn)hm2。根據(jù)第二次全國(guó)土壤普查結(jié)果,全市共分布潮土、風(fēng)沙土、褐土、砂姜黑土、水稻土、沼澤土和棕壤等7個(gè)土類、13個(gè)亞類的土壤[11]。
2.2 數(shù)據(jù)來(lái)源
研究區(qū)主要數(shù)據(jù)源為河南省輝縣市測(cè)土配方施肥補(bǔ)貼項(xiàng)目及其耕地地力評(píng)價(jià)專項(xiàng)獲取的表層土壤屬性數(shù)據(jù)以及相關(guān)立地環(huán)境數(shù)據(jù)、二調(diào)土地利用現(xiàn)狀數(shù)據(jù)庫(kù)、最新修訂的土壤圖、地形圖等相關(guān)圖件資料等。在已經(jīng)完成的輝縣市耕地地力評(píng)價(jià)實(shí)踐中,選取表層土壤質(zhì)地(x1)、土壤剖面特征(x2)、地表礫石度(x3)、速效鉀(x4)、有效磷(x5)、有機(jī)質(zhì)含量(x6)、灌溉保證率(x7)、排澇能力(x8)、地貌類型(x9)、坡度(x10)等10個(gè)對(duì)案例地區(qū)耕地生產(chǎn)性能影響較大、區(qū)域內(nèi)的變異明顯、且在時(shí)間序列上具有相對(duì)穩(wěn)定性、與農(nóng)業(yè)生產(chǎn)關(guān)系密切的因素作為耕地地力評(píng)價(jià)因素,據(jù)此將案例地區(qū)耕地從高到低劃分為4個(gè)等級(jí)(表1)[12-14]。
2.3 研究方法
判別分析的基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),F(xiàn)isher判別法的優(yōu)勢(shì)在于對(duì)分布、方差等都沒(méi)有任何限制,應(yīng)用范圍比較廣。其判別的核心思想是投影,需要選擇一個(gè)投影方向,使得同一類的樣點(diǎn)沿這個(gè)方向能最大程度地集中,不同類的樣點(diǎn)能較好地區(qū)分出來(lái),同時(shí)保證組間均方差與組內(nèi)均方差之比最大[15-16]。這就需要建立一個(gè)判別函數(shù),其線性表達(dá)式可寫(xiě)為:
3 判別分析結(jié)果與檢驗(yàn)
3.1 研究區(qū)耕地判別分析結(jié)果
根據(jù)農(nóng)業(yè)部標(biāo)準(zhǔn)《耕地地力調(diào)查與質(zhì)量評(píng)價(jià)技術(shù)規(guī)程》(NY/T 1634—2008)和輝縣市測(cè)土配方施肥財(cái)政補(bǔ)貼項(xiàng)目耕地地力評(píng)價(jià)實(shí)踐,采用表層土壤質(zhì)地、土壤剖面特征等10個(gè)土壤和立地條件因素作為耕地地力狀態(tài)的判別變量,通過(guò)構(gòu)建Fisher判別函數(shù),對(duì)輝縣市5 922個(gè)樣點(diǎn)的耕地地力狀況進(jìn)行判斷分析和歸類分級(jí)。
按照組內(nèi)離差小、組間離差大的原則分析樣點(diǎn)數(shù)據(jù),建立判別函數(shù),判別函數(shù)是在已知觀測(cè)樣本的分類和特征變量值的前提下,基于那些蘊(yùn)涵信息豐富、最大程度描述各類間關(guān)系的變量構(gòu)建的判別函數(shù),參與分析的觀測(cè)量共分為m個(gè)總體,則建立n(n
Fisher判別函數(shù)的系數(shù)反映出不同的預(yù)測(cè)變量對(duì)各個(gè)判別函數(shù)的貢獻(xiàn)率,表2反映出:土壤剖面特征與第1判別函數(shù)相關(guān)性最強(qiáng),地表礫石度與第2判別函數(shù)相關(guān)性最強(qiáng),與第3判別函數(shù)相關(guān)的是其余的土壤及地表屬性變量。表3是對(duì)3個(gè)函數(shù)的WilksLamdba檢驗(yàn):
表3中,檢驗(yàn)的原假設(shè)為各組變量均值相等,WilksLambda是組內(nèi)平方和與總平方和的比,檢驗(yàn)判別函數(shù)的顯著性水平,值域在0~1,值越小表示組間有很大的差異,值接近1表示沒(méi)有組間差異;卡方是Lambda的卡方轉(zhuǎn)換,用于確定其顯著性;Sig.小于0.05,表明3個(gè)判別函數(shù)均具有統(tǒng)計(jì)學(xué)上的意義。
從表4可以看出,第1判別函數(shù)方差所占比例為96.6%,說(shuō)明其可以解釋樣品96.6%信息,僅利用此函數(shù)即可完成對(duì)絕大部分樣點(diǎn)的判別,當(dāng)利用第1判別函數(shù)無(wú)法對(duì)樣點(diǎn)所屬類別做出明確判斷時(shí),輔以第2甚至第3判別函數(shù)來(lái)解釋所有樣本的信息。以第1、第2典則判別函數(shù)為坐標(biāo)軸建立聯(lián)合分布圖(圖1)。
圖1是根據(jù)第1和第2典則判別函數(shù)做出的散點(diǎn)圖,圖上顯示,4個(gè)類別很顯著地彼此區(qū)別開(kāi)。研究區(qū)樣點(diǎn)各變量數(shù)據(jù)代入第1和第2典則判別函數(shù)中,以第1判別函數(shù)值為橫坐標(biāo),第2判別函數(shù)值為縱坐標(biāo),觀察樣本點(diǎn)落入的區(qū)域,即為預(yù)測(cè)出的耕地地力等級(jí)。經(jīng)統(tǒng)計(jì)計(jì)算,這些事先已知等級(jí)類別的訓(xùn)練數(shù)據(jù)按照以上分類函數(shù)進(jìn)行判別,既使分類函數(shù)是由訓(xùn)練數(shù)據(jù)推導(dǎo)出的,也不一定能全部正確分類。由表5可知,原始樣點(diǎn)中769個(gè)一等地樣點(diǎn)有7個(gè)被誤判為二等地,其余762個(gè)樣點(diǎn)仍為一等地;1 827個(gè)二等地樣點(diǎn)有155個(gè)被誤判為一等地,118個(gè)誤判為三等地,其余1 554個(gè)樣點(diǎn)仍為二等地;三等、四等地亦然。得到的輝縣市耕地地力等級(jí)見(jiàn)圖2。
3.2 地力等級(jí)判別結(jié)果檢驗(yàn)
對(duì)研究區(qū)耕地地力等級(jí)Fisher判別結(jié)果的檢驗(yàn)采用卡方檢驗(yàn)和回代法兩種方法,判別分析技術(shù)能否正確、有效地對(duì)樣本進(jìn)行分類歸屬,通過(guò)統(tǒng)計(jì)結(jié)果的顯著性分析進(jìn)行評(píng)估。假設(shè)樣本通過(guò)判別分析函數(shù)得到的分類結(jié)果同主觀猜測(cè)的結(jié)果沒(méi)有差別,那么構(gòu)造統(tǒng)計(jì)量:
式中,N為樣本總數(shù);g為組數(shù);o為正確分類的觀測(cè)值。因其服從自由度為1的卡方分布,所以其值若大于3.84(α=0.05)或6.64(α=0.01),表示基于判別分析技術(shù)獲取的結(jié)果和隨機(jī)臆測(cè)的結(jié)果有顯著不同。研究區(qū)樣點(diǎn)總數(shù)N=5 922,耕地地力等級(jí)數(shù)g=4,基于判別函數(shù)獲得正確分類的樣點(diǎn)數(shù)o=5 410,構(gòu)造的統(tǒng)計(jì)量遠(yuǎn)大于6.64,所以可以肯定地說(shuō)基于判別函數(shù)獲得的樣本分類結(jié)果與隨機(jī)臆測(cè)的結(jié)果有顯著不同(表6)。
在實(shí)際應(yīng)用中,還可以采用回代法計(jì)算判別模型的回判率η來(lái)進(jìn)行模型檢驗(yàn):
η=判對(duì)樣本數(shù)n(13)
一般η>75%即認(rèn)為判別模型有效。將樣點(diǎn)數(shù)據(jù)回代判別模型,得回判率η=5 410/5 922= 91.35%,錯(cuò)判率較低,說(shuō)明此模型能很好地應(yīng)用于耕地地力狀況的判斷分析和歸類分級(jí)。
4 結(jié)論
(1)河南省輝縣市的案例研究表明,F(xiàn)isher判別分析算法在確定研究區(qū)樣點(diǎn)地塊地力等級(jí)歸屬方面具有較好的應(yīng)用前景,其簡(jiǎn)捷、高效、精準(zhǔn)的特點(diǎn)使判別分析法在多指標(biāo)、多因素分類系統(tǒng)的樣本歸屬判斷領(lǐng)域具有巨大的應(yīng)用潛力。
(2)判別分析算法是在分類確定的條件下,根據(jù)樣本的各特征值判別其分類歸屬的一種多變量統(tǒng)計(jì)分析方法。因此,其主要劣勢(shì)在于在判別分析之前,需從研究區(qū)大量樣本的屬性特征中遴選分類因素、建立分類系統(tǒng);分類系統(tǒng)直接決定判別分析結(jié)果質(zhì)量的高低,這也是機(jī)器學(xué)習(xí)算法的共同特征。
(3)Fisher判別函數(shù)只適用于與已知分類樣本相同屬性變量的未分類樣本的類型歸屬。在該案例研究中,如果研究區(qū)未分類樣點(diǎn)的屬性變量少于、或者包括但不限于表層土壤質(zhì)地、土壤剖面特征、地表礫石度、速效鉀、有效磷、有機(jī)質(zhì)含量、灌溉保證率、排澇能力、地貌類型、地面坡度等10個(gè)屬性變量,則判別分析結(jié)果的準(zhǔn)確度將受到顯著影響;同時(shí),該案例研究區(qū)為范圍較小的縣域,氣候特征基本波動(dòng)不大,若推廣應(yīng)用于大區(qū)域范圍,則需對(duì)評(píng)價(jià)指標(biāo)做增刪改,評(píng)價(jià)精度低于小地域,F(xiàn)isher判別分析需根據(jù)實(shí)際情況加以改進(jìn)。
參考文獻(xiàn)
[1] 陳艷春.興安縣耕地地力等級(jí)劃分與評(píng)價(jià)[J].南方農(nóng)業(yè)學(xué)報(bào),2011,42(7):768-770.
[2] 王瑞燕,趙庚星,李濤,等.GIS支持下的耕地地力等級(jí)評(píng)價(jià)[J].農(nóng)業(yè)工程學(xué)報(bào),2004,20(1):308-310.
[3] 吳克寧,鄭義,康鴛鴦,等.河南省耕地地力調(diào)查與評(píng)價(jià)[J].河南農(nóng)業(yè)科學(xué),2004,33(9):49-52.
[4] 楊華容,王懷英,彭文甫,等.區(qū)域土地利用/覆被時(shí)空動(dòng)態(tài)變化研究:以四川省金堂縣為例[J].中國(guó)農(nóng)業(yè)資源與區(qū)劃,2016,37(8):37-46.
[5] DULAM J.Discriminate analysis for dust storm prediction in the gobi and steppe regions in Mongolia[J].Water,air & soil pollution:focus,2005,5(3/4/5/6):37-49.
[6] CHEN L,ZOU L J,TU L.Stream data classification using improved fisher discriminate analysis[J].Journal of computers,2009,4(3):208-214.
[7] 張學(xué)雷.計(jì)算機(jī)判別分析在土壤分類中的應(yīng)用:以山東省褐土分類為例[J].山東師大學(xué)報(bào)(自然科學(xué)版),1991,6(4):74-81.
[8] FU L.The discriminate analysis and dimension reduction methods of high dimension[J].Open journal of social sciences,2015,3(3):7-13.
[9] 邱琳,張富,李安波.應(yīng)用Fisher判別分析和案例推理兩種方法的土壤類型預(yù)測(cè)及制圖比較[J].江蘇農(nóng)業(yè)學(xué)報(bào),2012,28(6):1459-1465.
[10] BELHUMEUR P N,HESPANHA J P,KRIEGMAN D J.Eigenfaces vs.fisherfaces:Recognition using class specific linear projection[J].IEEE transaction on pattern analysis and machine intelligence,1997,19(7):711-720.
[11] 聶長(zhǎng)明,袁長(zhǎng)嶺,梅俊杰,等.河南省輝縣市耕地地力評(píng)價(jià)工作報(bào)告[R].河南:輝縣市土壤肥料管理站,2012.
[12] 周穎,張俠,周峰.江蘇省耕地地力等級(jí)劃分[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2003,39(4):580-586.
[13] 盛艷,姚云峰,秦富倉(cāng),等.基于GIS的耕地地力等級(jí)劃分研究[J].干旱區(qū)資源與環(huán)境,2014,28(6):27-32.
[14] 劉占朝.豫北太行山區(qū)土壤有機(jī)質(zhì)含量分布規(guī)律[J].河南林業(yè)科技,1992,3(1):18-19.
[15] 周俊,楊子凡,孫成勝.基于GIS的市級(jí)耕地地力評(píng)價(jià):以張掖市為例[J].中國(guó)農(nóng)業(yè)資源與區(qū)劃,2014,35(6):39-44.
[16] 余頌,陳善雄,余飛,等.膨脹土判別與分類的Fisher判別分析方法[J].巖土力學(xué),2007,28(3):499-504.