周玲+韓朝怡
【摘要】糧食,不僅是人們?nèi)粘I畹谋匦枋称?,還是保證國家糧食供給安全的重要前提。為了綜合度量各種因素對糧食總值面積的影響程度,本文建立影響糧食種植面積的指標(biāo)體系,通過多種建模方法實(shí)證分析發(fā)現(xiàn),影響我國糧食種植面積的主要因素有農(nóng)業(yè)勞動力比重、農(nóng)業(yè)機(jī)械總動力、農(nóng)用化肥施用量等,糧食最低收購價格雖然會影響糧食種植面積,但發(fā)揮的作用很小。
【關(guān)鍵詞】糧食 種植面積 指標(biāo)體系
一、引言
糧食種植面積是保證國家糧食供給安全的重要前提,研究糧食種植面積是十分有意義的。國家糧價收購政策、農(nóng)業(yè)從業(yè)人員、糧食進(jìn)出口貿(mào)易、農(nóng)民受教育程度、城鄉(xiāng)收入差距等因素都影響著糧食種植面積,為綜合度量各因素對糧食種植面積的影響程度,下文將建立指標(biāo)體系進(jìn)一步分析??紤]到數(shù)據(jù)的可得性,再參考現(xiàn)有文獻(xiàn)研究成果的基礎(chǔ)上,本文選取投入、產(chǎn)出及可持續(xù)發(fā)展三個方面的指標(biāo)建立有關(guān)糧食種植面積的指標(biāo)體系。為了更好的研究它們之間的關(guān)系,決定采用多元線性回歸模型、Bagging、m-Boosting回歸模型、支持向量機(jī)回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等方法分別對其進(jìn)行分析,以期得到最有效的結(jié)論。
二、方法介紹
在研究變量對變量的影響或變量之間的關(guān)系時,人們最先想到的是回歸,而線性回歸模型的前提假設(shè)較多且要求較高,所以現(xiàn)實(shí)數(shù)據(jù)是很難滿足這些條件,即使是滿足,還要受到其他因素的影響,近年來,隨著專家學(xué)者們對建模認(rèn)識的逐漸深入,再加上計算機(jī)技術(shù)的快速發(fā)展,出現(xiàn)了諸如決策樹、m-boosting等機(jī)器學(xué)習(xí)算法,這些算法模型在建模之前對數(shù)據(jù)沒有做出任何假定,使用的是諸如一致性、無偏性等概念進(jìn)行建模,能夠很好的解決多元線性回歸的不足,預(yù)測精度高,所以本文在建模中引入機(jī)器學(xué)習(xí)方法對糧食種植面積進(jìn)行研究。
決策樹(Decision Tree)是在已知概率的基礎(chǔ)上,通過計算預(yù)期的凈現(xiàn)值大于或者等于零的概率來評價某一項目運(yùn)行的風(fēng)險。隨機(jī)森林是用隨機(jī)的方式建立一個“森林”,森林里面有很多的決策樹組成。Bagging與m-Boosting算法類似,區(qū)別在于Bagging訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而m-Boosting訓(xùn)練集的選擇不是獨(dú)立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。神經(jīng)網(wǎng)絡(luò)本質(zhì)上是人腦處理信息方式的簡化模型。支持向量機(jī)(SVM,Support Vector Machines)有兩種功能,一是對數(shù)據(jù)進(jìn)行分類,二是對數(shù)據(jù)進(jìn)行回歸,目前主要用于對小樣本、非線性及高維數(shù)據(jù)進(jìn)行分類和回歸。
三、實(shí)證分析
糧食種植面積指標(biāo)體系的建立是從投入、產(chǎn)出及可持續(xù)發(fā)展三個角度出發(fā)的,投入是指種植糧食的成本,產(chǎn)出是指通過種植糧食獲得的收入,可持續(xù)發(fā)展是綜合考慮影響糧食種植面積的其他因素。具體的指標(biāo)選擇如下表:
其中:自然災(zāi)害成災(zāi)率=成災(zāi)面積/受災(zāi)面積;人力資本:受教育程度初中及以上勞動力
比重;農(nóng)業(yè)勞動力比重:鄉(xiāng)村就業(yè)人數(shù)占鄉(xiāng)村總?cè)丝诘谋戎?;農(nóng)業(yè)增加值比重=農(nóng)業(yè)增
加值/國內(nèi)生產(chǎn)總值。
數(shù)據(jù)來源于《中國統(tǒng)計年鑒2015》與《中國農(nóng)村統(tǒng)計年鑒2015》,時間維度為1990~2014年。糧食最低收購價格用稻谷、小麥和玉米的平均價格計算。由于我國糧食最低收購價格政策是從2005年開始實(shí)施的,故糧食的最低收購價格只有2005年之后數(shù)據(jù),2004年及之前的糧食最低收購價格用當(dāng)年糧食的最低收購價格代替。
在建模之前為了消除數(shù)量級和單位對模型精確性的影響,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,利用標(biāo)準(zhǔn)化之后的數(shù)據(jù)進(jìn)行建模,可以得出各種機(jī)器學(xué)習(xí)回歸方法關(guān)于訓(xùn)練集和測試集的錯判率,具體如下表2:
由上表可知,利用隨機(jī)森林建模所得的訓(xùn)練集與測試集的錯判率最低,分別為0.084與0.729,故選擇隨機(jī)森林回歸模型作為最終回歸模型。通過隨機(jī)森林回歸模型可以得到每個變量的對糧食種植面積的重要性排名,結(jié)果顯示農(nóng)業(yè)勞動力比重、農(nóng)業(yè)機(jī)械總動力、農(nóng)用化肥施用量、農(nóng)村居民家庭人均純收入和農(nóng)業(yè)增加值比重對糧食種植面積的影響排在前五位,其中前三名分別為勞動力投入、機(jī)械投入和資本投入,可以看到糧食種植的投入對種植面積的影響很大,排名第四和第五的指標(biāo)屬于地區(qū)經(jīng)濟(jì)發(fā)展水平,顯然地區(qū)經(jīng)濟(jì)發(fā)展水平對種植面積的影響也是非常大的。
四、研究結(jié)論
為了保障糧食安全,我國需要將增加農(nóng)民收入放在糧食保護(hù)政策的第一位。本文從投入、產(chǎn)出及可持續(xù)發(fā)展三個角度出發(fā)建立了糧食種植面積的指標(biāo)體系,并利用多元線性、Bagging、m-Boosting回歸模型、支持向量機(jī)、決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等回歸模型分別對糧食種植面積的影響因素進(jìn)行了分析,分析表明,使用隨機(jī)森林建模方法隨機(jī)森林準(zhǔn)確度最高。對影響因素的重要性進(jìn)行度量可以發(fā)現(xiàn),排名前五位的為農(nóng)業(yè)勞動力比重、農(nóng)業(yè)機(jī)械總動力、農(nóng)用化肥施用量、農(nóng)村居民家庭人均純收入和農(nóng)業(yè)增加值比重,可以得到糧食最低收購價對糧食種植面積有一定的影響,但其影響力低于農(nóng)業(yè)勞動力比重與農(nóng)村居民家庭人均純收入。
參考文獻(xiàn)
[1]王雙英,王群偉,曹澤.多指標(biāo)面板數(shù)據(jù)聚類方法及應(yīng)用——以行業(yè)一次能源消費(fèi)面板數(shù)據(jù)為例[J].數(shù)理統(tǒng)計與管理,2014,01:42-49.
[2]蘭錄平.中國糧食最低收購價政策研究[D].湖南農(nóng)業(yè)大學(xué),2013.
[3]李劍,宋長鳴,項朝陽.中國糧食價格波動特征研究——基于X-12-ARIMA模型和ARCH類模型[J].統(tǒng)計與信息論壇,2013,06:16-21.
作者簡介:周玲(1993-),女,漢族,山西晉中人,單位:山西財經(jīng)大學(xué)統(tǒng)計學(xué)院;韓朝怡(1994-),女,漢族,山西呂梁人,單位:山西財經(jīng)大學(xué)統(tǒng)計學(xué)院。