王全喜, 孫鵬舉, 劉學(xué)錄, 李尚澤, 高建存
(1.甘肅農(nóng)業(yè)大學(xué) 管理學(xué)院, 甘肅 蘭州 730070; 2.甘肅農(nóng)業(yè)大學(xué) 資源與環(huán)境學(xué)院, 甘肅 蘭州 730070;3.甘肅省國土資源規(guī)劃研究院,甘肅 蘭州 730000; 4.中國地質(zhì)大學(xué)(武漢) 公共管理學(xué)院, 湖北 武漢 430074)
隨著城鎮(zhèn)化進(jìn)程的持續(xù)推進(jìn),建設(shè)不斷占用耕地。同時,生態(tài)保護(hù)工程的實施也造成了耕地面積的減少。當(dāng)前,區(qū)域社會經(jīng)濟(jì)發(fā)展與耕地保護(hù)矛盾日益突出,耕地保護(hù)越顯重視。2017年國務(wù)院出臺《關(guān)于加強耕地保護(hù)和改進(jìn)占補平衡的意見》中強調(diào)了耕地數(shù)量、質(zhì)量、生態(tài)“三位一體”保護(hù)。耕地數(shù)量的變化反映了一個區(qū)域社會經(jīng)濟(jì)發(fā)展的基本態(tài)勢[1],其不斷減少會影響區(qū)域糧食安全[2]。了解耕地利用歷史變化規(guī)律,探析區(qū)域的耕地面積變化及影響因素的研究愈發(fā)重要。
當(dāng)前關(guān)于耕地面積變化及影響因素研究已經(jīng)取得豐碩成果。項靈志等[3]針對耕地面積變化與各產(chǎn)業(yè)關(guān)系進(jìn)行了研究。然而,耕地面積變化與影響因素之間關(guān)系復(fù)雜,影響因素多元,耕地面積預(yù)測精確度有待提高?,F(xiàn)階段針對耕地面積變化研究包括兩個方面:一方面考慮社會經(jīng)濟(jì)驅(qū)動因素,主要采用STIRPAT模型[4]、灰色關(guān)聯(lián)分析法[5]、主成分分析法[6-7]、地理加權(quán)回歸模型[8]、PLS方法[9]等方法研究影響因素。另一方面是對耕地面積進(jìn)行預(yù)測,探討合適的耕地面積預(yù)測模型,提高預(yù)測精度。包括灰色預(yù)測模型[10]、空間自回歸模型[11]、移動趨勢平均法[12]等傳統(tǒng)方法,BP神經(jīng)網(wǎng)絡(luò)[13]、支持向量回歸機(jī)[14]等算法,使得預(yù)測精度有了較大提高。上述研究成果表明:經(jīng)濟(jì)發(fā)展水平、人口因素和農(nóng)業(yè)發(fā)展水平等是影響耕地面積變化的主要因素。但是,當(dāng)前研究往往將耕地面積變化影響因素分析以及耕地面積預(yù)測單獨進(jìn)行研究,對兩者的研究采用兩種或多種方法來進(jìn)行,而且對導(dǎo)致耕地面積變化的影響因素重要程度研究較少。
隨機(jī)森林(random forest,RF)算法能夠很好的處理非線性建模問題[15],對數(shù)據(jù)量綱不敏感,無需歸一化處理,通過對大量分類樹的匯總來提高預(yù)測精度,而且能夠測度各影響因素的重要性[16]。當(dāng)前,隨機(jī)森林算法已應(yīng)用于需水量和山體滑坡空間預(yù)測[17-18],農(nóng)耕區(qū)[19]、工礦復(fù)墾區(qū)[20]等特殊區(qū)域進(jìn)行土地利用分類,研究證實了RF算法是預(yù)測和分類的有效方法。田義超等[21]研究了近300 a來黃土高原耕地變化及時空格局,表明黃土高原耕地面積呈現(xiàn)出從增加到減少,然后又到增加的趨勢。因此,本研究以屬于黃土高原地區(qū)的慶陽市為例,嘗試采用隨機(jī)森林算法對慶陽市耕地面積進(jìn)行預(yù)測,并探析慶陽市社會經(jīng)濟(jì)發(fā)展對耕地面積變化的影響,以期為更精確地預(yù)測耕地面積,分析耕地面積變化的影響因素提供新方法,對合理確定耕地保護(hù)紅線以及更好地保護(hù)耕地具有重要意義。
慶陽市(106°20′—108°45′E,35°15′—37°10′N),位于甘肅省東部的隴東黃土高原區(qū),地處陜甘寧3省區(qū)的交匯處,屬黃河中上游黃土高原溝壑區(qū)。地勢為北高南低,海拔高度為885~2 082 m。境內(nèi)山、川、塬兼有,溝、峁、梁相間,是黃土高原的典型代表區(qū),年均降雨480~660mm,是甘肅優(yōu)質(zhì)農(nóng)畜產(chǎn)品生產(chǎn)基地。慶陽市現(xiàn)轄1區(qū)7縣,2015年總?cè)丝跒?.65×104,土地總面積為2.71×106hm2。如圖1所示,根據(jù)整理的1995—2015年慶陽市耕地面積可以看出:1995—2015年慶陽市耕地面積變化總體呈現(xiàn)先減少后波動上升的態(tài)勢。
圖1 1995-2015年慶陽市耕地面積變化
本研究以1995—2015年為研究期,所涉及的數(shù)據(jù)中,2000—2015年數(shù)據(jù)來源于《慶陽年鑒》(2001—2016),1995—1999年數(shù)據(jù)來源于《甘肅發(fā)展年鑒》(1996—2000),部分?jǐn)?shù)據(jù)通過計算得到。
綜合借鑒國內(nèi)相關(guān)研究成果[4-8],耕地面積變化受到自然因素、社會、經(jīng)濟(jì)、農(nóng)業(yè)發(fā)展和政策的影響,它們之間相互影響、相互制約而綜合作用于土地利用方式,然而一定時期內(nèi)可以認(rèn)為自然因素變化較穩(wěn)定。本研究主要考慮社會經(jīng)濟(jì)因素的影響,影響因素選取遵循代表性、可行性等原則,初步采用文獻(xiàn)分析法來分析影響因素。人口因素是導(dǎo)致土地利用變化最重要的因素[1],而經(jīng)濟(jì)因素決定土地的開發(fā)利用方向和開發(fā)程度,提高農(nóng)業(yè)技術(shù)的投入提高耕地的產(chǎn)出和利用效益可以緩解耕地面積的減少帶來的壓力。綜合考慮慶陽市耕地利用的實際情況與數(shù)據(jù)資料的可獲取性,選取了人口因素、經(jīng)濟(jì)因素、農(nóng)業(yè)因素3個方面的10個具體影響因素。包括人口因素:總?cè)丝?x1),農(nóng)業(yè)人口(x2),城市化水平(x3);經(jīng)濟(jì)因素:GDP(x4),固定資產(chǎn)投資額(x5),農(nóng)民人均純收入(x6),第一產(chǎn)業(yè)產(chǎn)值比重(x7),第二、三產(chǎn)業(yè)產(chǎn)值比重(x8);農(nóng)業(yè)因素:糧食總產(chǎn)量(x9),農(nóng)業(yè)機(jī)械總動力(x10)。
隨機(jī)森林算法是Breiman于2001年提出的一種非線性建模工具[15],包括分類(random forest classification,RFC)和回歸(random forest regression,RFR)兩種算法。通過bootstrap抽樣方法,從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取K個樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成K個決策樹組成隨機(jī)森林。對于回歸功能而言,將所有決策樹的平均值作為最終預(yù)測結(jié)果。通過預(yù)測精度法(衡量把一個變量的取值變?yōu)殡S機(jī)數(shù),隨機(jī)森林預(yù)測準(zhǔn)確性的降低程度)計算每個變量的重要性。隨機(jī)森林回歸算法計算步驟包括[22-23]:
(1) 利用bootstrap方法從原始數(shù)據(jù)集N中隨機(jī)抽取K個不同的樣本數(shù)據(jù)集,作為各決策樹的子訓(xùn)練集,各樣本容量和原始數(shù)據(jù)集相同;
(2) 利用每個樣本訓(xùn)練集,生成對應(yīng)的K顆決策樹;假設(shè)特征有M維,從M維特征中隨機(jī)抽取m(m為大于零且小于M的整數(shù))個特征作為當(dāng)前節(jié)點的分裂特征集,并以這m個特征中最好的分裂方式對該節(jié)點進(jìn)行分裂,每顆樹都完整生長而不進(jìn)行剪枝;
(3) 對于測試數(shù)據(jù),利用每個決策樹分別進(jìn)行測試,得到對應(yīng)的單顆決策樹的預(yù)測值;
(4) 將得到的K棵決策樹預(yù)測結(jié)果取平均值,最后得到最終預(yù)測值。
本研究通過構(gòu)建基于BP神經(jīng)網(wǎng)絡(luò)模型的耕地面積預(yù)測模型作為對比模型,同時計算相對誤差、均方根誤差指標(biāo)評價模型預(yù)測精度。
隨機(jī)森林算法運算過程中涉及ntree和mtry兩個參數(shù)的設(shè)定,即決策樹顆數(shù)和節(jié)點分裂的次數(shù)。一般而言,模型的計算量與每次生成的樹的數(shù)量成正比,在ntree增加時,在模型預(yù)測精度不能提高的情況下,ntree設(shè)定應(yīng)盡可能小,默認(rèn)為500。mtry設(shè)定為變量個數(shù)的1/3。本研究利用隨機(jī)森林算法構(gòu)建耕地面積預(yù)測模型,由于隨機(jī)森林算法對樣本數(shù)據(jù)的量綱和單位不敏感,所以運算時無需對樣本數(shù)據(jù)進(jìn)行歸一化處理。圖2可知,當(dāng)決策樹目為500,mtry為3時,均方誤差基本趨于穩(wěn)定狀態(tài)。
為了驗證模型的預(yù)測精度,同時采用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測。采用梯度下降法進(jìn)行訓(xùn)練,即traingd函數(shù),對模型進(jìn)行設(shè)定:循環(huán)1 000次顯示一次結(jié)果,學(xué)習(xí)率設(shè)為0.5,最大循環(huán)次數(shù)為50 000次,收斂誤差設(shè)為0.002,模型的輸入設(shè)為10,輸出設(shè)為1。經(jīng)多次測試,將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計為10—12—1。運算過程均以Matlab R2016b軟件來編程實現(xiàn),以慶陽市1995—2015年耕地面積為研究對象,將1995—2010年作為訓(xùn)練數(shù)據(jù),2011—2015年作為檢驗數(shù)據(jù)。
圖2 慶陽市耕地面積預(yù)測模型預(yù)測精度均方誤差變化
運用上述構(gòu)建的耕地面積預(yù)測模型,對2011—2015年慶陽市耕地面積進(jìn)行預(yù)測。此外,在預(yù)測2020,2025,2030年的耕地面積時,首先采用3次指數(shù)平滑法預(yù)測出各個影響因素相應(yīng)年份的預(yù)測值,然后將預(yù)測值分別輸入兩種耕地面積預(yù)測模型中,得到預(yù)測年份的耕地面積,具體結(jié)果見表1。同時,為驗證兩種預(yù)測模型的精度,通過計算2011—2015年耕地面積實際數(shù)據(jù)和預(yù)測結(jié)果間的相對誤差、均方根誤差進(jìn)行預(yù)測精度評價,最終得到預(yù)測精度對比結(jié)果(見表2)。
表1 慶陽市耕地面積的兩種模型預(yù)測值結(jié)果104 hm2
表2 慶陽市耕地面積的兩種模型預(yù)測結(jié)果精度對比
表1結(jié)果可知,隨機(jī)森林算法預(yù)測出未來15 a間慶陽市耕地面積不斷減少并且趨于穩(wěn)定,更加符合實際情況;BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測的2011—2015年耕地面積數(shù)量較實際值低,未來15 a間耕地面積整體結(jié)果也偏低。
表2結(jié)果可知,隨機(jī)森林算法預(yù)測結(jié)果相對誤差和均方根誤差均低于BP神經(jīng)網(wǎng)絡(luò)模型相應(yīng)值。隨機(jī)森林算法預(yù)測結(jié)果中,表現(xiàn)出2015年的相對誤差為0.459%,高于其他年份相應(yīng)值,精度相對低,而均方根誤差為0.121,滿足預(yù)測要求;BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果中,表現(xiàn)出2014年的相對誤差高達(dá)2.112%,均方根誤差為0.500,說明預(yù)測結(jié)果較隨機(jī)森林算法預(yù)測結(jié)果差。在預(yù)測結(jié)果穩(wěn)定性方面,2011—2015年隨機(jī)森林算法預(yù)測結(jié)果波動不大,而BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果變動幅度較大,說明隨機(jī)森林算法預(yù)測結(jié)果的穩(wěn)定性優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。針對BP神經(jīng)網(wǎng)絡(luò)而言,其結(jié)構(gòu)設(shè)計和參數(shù)確定困難[23],即隱含層個數(shù)和訓(xùn)練函數(shù)難確定,隱含層個數(shù)只能通過對程序不斷運行測試來確定,預(yù)測結(jié)果不穩(wěn)定,精度有待進(jìn)一步提高。隨機(jī)森林算法設(shè)置參數(shù)較少,僅有決策樹顆數(shù)和每次樹模型重建時節(jié)點分裂的次數(shù)2個參數(shù),而且在確定參數(shù)時,為不失一般性,通過隨機(jī)化處理方式設(shè)置參數(shù),預(yù)測精度高,穩(wěn)定性好,更加適用于耕地面積預(yù)測。
運用隨機(jī)森林算法進(jìn)行耕地面積變化影響因素的重要性分析,本研究選用隨機(jī)森林算法中的預(yù)測精度法比較變量重要程度,其主要通過擾動這些變量對精確度的影響大小而進(jìn)行判斷,比較平均準(zhǔn)確率降低程度反映各變量的重要性。圖3結(jié)果可知,預(yù)測精度法對影響因素重要程度由高到低排序為:農(nóng)業(yè)機(jī)械總動力(x10)>農(nóng)業(yè)人口(x2)>GDP(x4)>固定資產(chǎn)投資額(x5)>糧食總產(chǎn)量(x9)>農(nóng)民人均純收入(x6)>第一產(chǎn)業(yè)產(chǎn)值比重(x7)>第二、三產(chǎn)業(yè)產(chǎn)值比重(x8)>城市化水平(x9)>總?cè)丝?x10)。
圖3 慶陽市耕地面積變化影響因素重要性
3.3.1 人口因素對耕地面積變化的影響重要性 通過預(yù)測精度法計算出耕地面積變化影響因素重要性得分,農(nóng)業(yè)人口得分均高于總?cè)丝诤统鞘谢竭@2個影響因素得分值。將1995—2015年總體上可以分為2個階段:1995—2005年慶陽市農(nóng)業(yè)人口持續(xù)增加,從2.11×106人增加至2.26×106人,增加了1.56×105人。同期,耕地面積總體波動下降趨勢,從4.45×105hm2減少到4.43×105hm2,減少了0.26 hm2,農(nóng)業(yè)人口的增加必然需要占用更多的耕地用于農(nóng)村居民點等建設(shè)。2005—2015年慶陽市農(nóng)業(yè)人口總體上不斷減少,2015年農(nóng)業(yè)人口為1.91×106人,減少了3.54×105人。同期,耕地面積總體波動上升,從4.43×105hm2增加到4.55×105hm2,增加了1.18×104hm2,農(nóng)業(yè)人口的減少,空閑出部分非農(nóng)用地,尤其是農(nóng)戶對窯洞退出,通過實施土地整治項目,復(fù)墾窯洞等有效地增加了耕地面積。
3.3.2 經(jīng)濟(jì)因素對耕地面積變化的影響重要性 在影響耕地面積變化的經(jīng)濟(jì)因素中,地區(qū)生產(chǎn)總值(GDP)和固定資產(chǎn)投資額的重要性得分最高。1995—2000年,慶陽市GDP緩慢增長,由3.78×109元增加到了5.99×109元,增加了2.21×109元,同期固定資產(chǎn)投資也緩慢增長,增加了1.34×109元,但該時期耕地面積總體下降;2000—2015年,慶陽市GDP和固定資產(chǎn)投資額逐漸呈現(xiàn)快速增長現(xiàn)象,GDP增加到2015年的6.90×1010元,增加了10.18倍,固定資產(chǎn)投資額增加到2015年的1.22×1011元,增加了1.96×1011元。這一時期耕地面積總體波動上升。主要是由于:一方面,農(nóng)業(yè)經(jīng)濟(jì)的發(fā)展勢頭逐漸變好,農(nóng)民的生活水平的需求提高,對耕地的開墾與利用會變得更加重視;另一方面,經(jīng)濟(jì)發(fā)展使得農(nóng)民看到經(jīng)濟(jì)收益,通過農(nóng)業(yè)用地結(jié)構(gòu)的調(diào)整來達(dá)到目的,導(dǎo)致土地利用結(jié)構(gòu)變化[8],使得耕地面積不斷變化。
3.3.3 農(nóng)業(yè)因素對耕地面積變化的影響重要性 在影響耕地面積變化的農(nóng)業(yè)因素中,通過預(yù)測精度法對影響因素進(jìn)行重要性排序顯示,農(nóng)業(yè)機(jī)械總動力得分排第一,而且糧食總量與耕地面積的變化也有著密切關(guān)系。1995—2015年慶陽市農(nóng)業(yè)機(jī)械總動力總體不斷增長,其中1995—1997和2003—2006年增長速度較緩慢??傮w上從1995年的4.50×105kW增加至2015年的1.95×106kW,增加了1.50×106kW,年均增加7.10×104kW。主要是由于慶陽市土地整治工程的實施,使道路通達(dá)程度逐年提高,農(nóng)業(yè)機(jī)械總動力投入不斷增加,使農(nóng)民受益較多,激發(fā)了農(nóng)民對耕種的積極性,農(nóng)民對耕地開發(fā)和保護(hù)的意愿更強,影響耕地面積變化。
耕地面積變化影響因素多元,存在非線性關(guān)系,傳統(tǒng)統(tǒng)計方法分析耕地面積變化影響因素較難。而傳統(tǒng)智能算法雖具有較強的處理非線性問題的能力,比如BP神經(jīng)網(wǎng)絡(luò)模型,但其對訓(xùn)練數(shù)據(jù)樣本依賴性大,穩(wěn)定性不足。隨機(jī)森林算法一種比較新的非線性建模工具,具有精度高、穩(wěn)定性好、收斂快、參數(shù)少等特性,且不易產(chǎn)生過擬合現(xiàn)象[17]。隨機(jī)森林算法對數(shù)據(jù)集前提條件的要求寬松,且對量綱不敏感,無需預(yù)處理,在綜合性能上具有一定優(yōu)勢,耕地面積變化的各影響因素數(shù)據(jù)作為復(fù)雜的時間序列數(shù)據(jù),數(shù)據(jù)分布特征多樣,存在量綱,這些方面相比對訓(xùn)練樣本有依賴、需要預(yù)處理的智能算法,運用隨機(jī)森林算法構(gòu)建耕地面積預(yù)測模型更加可行。同時,隨機(jī)森林算法還能夠測定變量重要性,能夠采用預(yù)測精度法計算出變量重要性得分,進(jìn)而分析耕地面積變化的影響因素。
本研究運用隨機(jī)森林算法建立了慶陽市耕地面積預(yù)測模型,同時對影響耕地面積變化的因素進(jìn)行了重要性排序。采用隨機(jī)森林算法對耕地面積預(yù)測結(jié)果表明,與曹銀貴等[13]和車明亮等[24]通過建立BP神經(jīng)網(wǎng)絡(luò)耕地面積預(yù)測模型研究表明預(yù)測精度相比灰色預(yù)測模型的傳統(tǒng)方法優(yōu),但其結(jié)構(gòu)設(shè)計需要測試,隱含層個數(shù)不好設(shè)定,結(jié)果穩(wěn)定性差相比,隨機(jī)森林算法預(yù)測耕地面積更可行。從預(yù)測結(jié)果來看,在單純不考慮耕地政策或其他方面影響情況下,未來15 a間慶陽市耕地面積逐漸減少,而且相比BP神經(jīng)網(wǎng)絡(luò)模型,隨機(jī)森林算法較適合耕地面積預(yù)測。從影響因素重要程度來看,耕地面積變化受農(nóng)業(yè)機(jī)械總動力、農(nóng)業(yè)人口和GDP等因素的影響,這與卞德鵬等[25]對屬于黃土丘陵溝壑區(qū)的吳起縣的研究結(jié)果是相同的。針對單項因素而言,由于研究區(qū)域的差異,選取的指標(biāo)不同,研究結(jié)果也就不同。慶陽市耕地面積變化的影響因素重要程度不盡相同,更應(yīng)要重視農(nóng)業(yè)科技的投入,激發(fā)農(nóng)民對耕種的積極性,協(xié)調(diào)耕地資源與區(qū)域經(jīng)濟(jì)的關(guān)系。本研究僅從人口因素、經(jīng)濟(jì)因素和農(nóng)業(yè)發(fā)展方面分析影響因素來構(gòu)建了耕地面積預(yù)測模型,并未考慮耕地保護(hù)政策因素等的影響,還需要進(jìn)一步做更細(xì)致的研究。今后的研究將結(jié)合遙感影像來研究區(qū)域耕地空間格局變化特征,將自然因素、相關(guān)政策因素等因素共同納入隨機(jī)森林算法中進(jìn)行實證研究,以期全面考察耕地面積變化的重要驅(qū)動因素。
(1) 預(yù)測精度方面,隨機(jī)森林算法的預(yù)測值與實際值之間的相對誤差和均方根誤差均低于BP神經(jīng)網(wǎng)絡(luò)模型的,其預(yù)測出2020,2025,2030年耕地面積分別為4.515×105,4.513×105,4.512×105hm2,呈現(xiàn)減少的趨勢;預(yù)測結(jié)果穩(wěn)定性方面,隨機(jī)森林算法預(yù)測結(jié)果波動較小,優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。
(2) 運用預(yù)測精度法得到主要影響因素重要程度排序為:農(nóng)業(yè)機(jī)械總動力>農(nóng)業(yè)人口>地區(qū)生產(chǎn)總值>固定資產(chǎn)投資額。農(nóng)業(yè)機(jī)械總動力投入不斷增加,促進(jìn)了農(nóng)民對耕種的積極性,對耕地開發(fā)和保護(hù)的意愿更強;農(nóng)業(yè)人口的增減,經(jīng)濟(jì)發(fā)展使得人們對美好生活水平的需要不斷提高,使得耕地面積呈現(xiàn)波動變化態(tài)勢。