基于云遺傳BP神經(jīng)網(wǎng)絡的黃淮海旱作區(qū)土壤有機質(zhì)預測精度分析

2021-03-23 09:17:56徐清風于茹月勾宇軒趙云澤黃元仿

中國農(nóng)業(yè)大學學報 2021年4期

徐清風于茹月勾宇軒趙云澤李勇黃元仿*

(1.中國農(nóng)業(yè)大學土地科學與技術學院，北京 100193；2.自然資源部農(nóng)用地質(zhì)量與監(jiān)控重點實驗室，北京 100135；3.農(nóng)業(yè)農(nóng)村部華北耕地保育重點實驗室，北京 100193)

土壤有機質(zhì)是指進入土壤中的各種有機物質(zhì)，包括來源于動植物、微生物分解殘體和以及人類活動產(chǎn)生的還田秸稈等[1]。其作為陸地生態(tài)系統(tǒng)中碳循環(huán)的重要源和匯，是土壤的重要組成部分之一，影響土壤的肥力與生產(chǎn)力，并能夠抑制土壤中重金屬污染物的活性[2]。土壤受人類活動影響愈來愈頻繁，其有機質(zhì)成分和結構易受到農(nóng)業(yè)生產(chǎn)活動和土地利用變化等因素的影響，具有高度的空間異質(zhì)性[3-4]。因而探索不同土層土壤有機質(zhì)空間變異規(guī)律，對農(nóng)業(yè)生產(chǎn)管理及生態(tài)環(huán)境保護均具有重要意義。Campbell等[5]于1978年首先將地統(tǒng)計學方法應用于土壤特性空間變異研究中之后,Burgess等[6]、Webster等[7]運用普通克里金插值等地統(tǒng)計學方法對土壤各類屬性值的空間變異進行了大量研究，推動了土壤屬性空間變異研究的進展。雖然克里金插值在土壤屬性的預測上得到了廣泛的應用，但由于克里金插值的平滑效應與不同土層土壤屬性值的復雜多變相悖，因此使用普通克里金插值研究不同土層土壤空間變異性質(zhì)的準確性并不理想。后BP神經(jīng)網(wǎng)絡逐漸被應用于土壤屬性空間變異研究，其結果與普通克里金插值結果相比，預測的準確性得到了一定提高[8-10]。BP神經(jīng)網(wǎng)絡采用沿梯度下降的算法，也存在著對初始權值敏感、易陷入局部極小等問題[11]，在此基礎上，一些研究運用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡的權值計算過程[12]，原因是遺傳算法訓練神經(jīng)網(wǎng)絡對其初始權值不敏感，因而非常適用于神經(jīng)網(wǎng)絡參數(shù)優(yōu)化，然而，其交叉與變異概率隨機生成，易破壞優(yōu)良個體結構、限制弱勢個體進化速度，故仍存在精度不高的問題[13]。

黃淮海平原作為我國重要的糧食生產(chǎn)基地，年糧食總產(chǎn)量為近2億t，提高土壤有機質(zhì)預測精度對評估其未來生產(chǎn)潛力具有重要意義。本研究擬以黃淮海旱作區(qū)為研究對象，利用云模型云滴的隨機性和穩(wěn)定傾向性的特點[14]，將云模型與遺傳算法相結合，采用云發(fā)生器優(yōu)化遺傳算法中的交叉、變異操作構建基于云遺傳模型的BP神經(jīng)網(wǎng)絡，探究基于云遺傳BP神經(jīng)網(wǎng)絡、BP神經(jīng)網(wǎng)絡和GABP神經(jīng)網(wǎng)絡3 種方法對不同土層的土壤有機質(zhì)預測能力，對比得出具有較高預測精度的方法，為調(diào)整耕地管理措施及提高土壤質(zhì)量水平等方面提供依據(jù)。

1 材料與方法

1.1 研究區(qū)概況

黃淮海旱作區(qū)的界定以地形坡度<5°，1 km2網(wǎng)格內(nèi)旱地占耕地比>40%作為劃分依據(jù)，共包括北京、天津、河南、山東、河北與安徽6 個省市的274個區(qū)縣，面積總計28.12萬km2。黃淮海旱作區(qū)屬大陸性溫帶季風氣候，年均溫度14～16 ℃年降雨量在400～1 100 mm，主要降水時間多集中在夏季，主要土壤類型為潮土、棕壤及褐土等。

1.2 數(shù)據(jù)采集及處理

采樣布點的方案設計采用網(wǎng)格布點與分層抽樣相結合，抽樣時綜合考慮面積大小和集中程度，每種主要土類至少布設20 個采樣點，每個亞類盡量布設有采樣點，盡量保證每個黏粒等別上均有采樣點，每個區(qū)縣盡量保證有1 個采樣點。根據(jù)上述布設和抽樣規(guī)則，共確定265 個采樣點。采樣時間為2017年(不同區(qū)縣采樣時間上略有差異)，利用GPS定位在半徑5 m范圍內(nèi)采集3～5 點不同土層(0～40 cm)土樣混合，四分法取1.0～1.5 kg土樣進行分析，采用重鉻酸鉀外加熱法計算樣點土壤有機質(zhì)的值。

為了檢驗神經(jīng)網(wǎng)絡對土壤有機質(zhì)的預測精度，將265 個采樣點隨機劃分，隨機將其中80%作為訓練樣點、20%為驗證點[15]，使得訓練樣本與測試樣本空間分布均勻(圖1)。

1.3 研究方法

1.3.1云模型

云模型是由李德毅院士在模糊數(shù)學和概率論兩者的基礎之上，通過特定的結構算法所形成的定性概念與其定量表示之間的轉換模型[16]。主要反映了客觀事物中概念的模糊性和隨機性，為定性與定量相結合的信息處理提供了有力手段[17]。

圖1 研究區(qū)訓練樣點和檢驗樣點分布圖Fig.1 Distribution of training samples and test samples in the study area

1.3.2基于云遺傳BP神經(jīng)網(wǎng)絡的構建

基于BP神經(jīng)網(wǎng)絡的土壤有機質(zhì)空間預測以空間自相關理論為基礎，根據(jù)已知采樣點對曲面進行擬合，所求的函數(shù)表達式為：

z=f(x,y,A1,A2,…,An)

(1)

式中：z為預測樣點的土壤有機質(zhì)質(zhì)量分數(shù)；x與y分別為預測樣點的經(jīng)度與緯度；A1,A2,…,An依次為距預測樣點距離最近的土壤樣點所測得的土壤有機質(zhì)質(zhì)量分數(shù)；參考已有研究經(jīng)驗[26]，選取n的數(shù)值為5。

基于云模型與遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡法首先采用標準BP神經(jīng)網(wǎng)絡試探得到最佳的隱層結點數(shù)，沿用傳統(tǒng)遺傳算法的初始化種群、選擇操作，后基于正態(tài)云模型X條件云生成算法實現(xiàn)對遺傳算法中交叉與變異方法的優(yōu)化，經(jīng)過不斷迭代選擇生成最優(yōu)個體。根據(jù)得到的最優(yōu)個體對BP神經(jīng)網(wǎng)絡的權值和閾值進行賦值，從而得到具備全局最優(yōu)解的BP神經(jīng)網(wǎng)絡預測值。

1)隨機產(chǎn)生一個初始群體，編碼方法采用實數(shù)編碼，每個個體的基因位編碼長度由輸入層神經(jīng)元、隱藏層神經(jīng)元與輸出層神經(jīng)元個數(shù)決定，其中的每一個實數(shù)均視為1 個基因位。

2)分別將每個個體作為BP神經(jīng)網(wǎng)絡的初始權值與閾值，使用訓練數(shù)據(jù)訓練BP神經(jīng)網(wǎng)絡得到預測輸出值，根據(jù)預測輸出值與實際值間的誤差平方和的倒數(shù)作為適應度函數(shù)，個體適應度F計算公式如下：

(2)

3)選擇操作采用輪盤賭方式進行，每個個體被選擇遺傳至下一代的幾率與其自身的適應度大小成正比，每一代中染色體的總數(shù)保持不變。

4)相較于原始的不同個體隨機交叉，云模型優(yōu)化后的交叉概率pc由2 個個體間的最大適應度所決定，其計算公式為

(3)

式中：f1、f2分別為2 個個體的適應度值；f為每代個體中的平均適應度值；fmax為每代個體的最大適應度值，En與He分別為每代個體的熵與超熵；En′為以En為期望；He為標準差的正態(tài)隨機數(shù)；c1為控制云陡峭程度的常數(shù)，根據(jù)“3En”原則，通常取值為3，c2為控制云層厚度的常數(shù)，通常取值為10[11]。k1、k2可取0～1的常數(shù)，實驗過程中可根據(jù)具體情況調(diào)節(jié)參數(shù)的值，從而避免高適應度個體的基因因交叉操作丟失、增加低適應度個體的交叉幾率以改善神經(jīng)網(wǎng)絡的預測精度。執(zhí)行交叉操作時，雙方個體隨機選擇一段相同長度的染色體互換。

5)變異操作與交叉操作同理，變異概率由2 個個體間的最大適應度所決定，計算方法與交叉概率算法相同。執(zhí)行變異操作時，每個個體隨機改變1個基因位。

上述過程均在Matlab2018中借助其神經(jīng)網(wǎng)絡工具箱實現(xiàn)。

1.3.3預測精度評價

通過比較土壤有機質(zhì)預測值與實際值的平均絕對誤差(MAE)和均方根誤差(RMSE)來進行預測精度評價。其中平均絕對誤差反映估計值的實測誤差范圍，均方根誤差主要反映預測值的極值效應，其計算公式為

(4)

(5)

式中：yi為樣點土壤有機質(zhì)實測值；xi為對應樣點土壤有機質(zhì)的預測值；n為參加檢驗的土壤樣本點總數(shù)。

2 結果與分析

2.1 不同土層土壤有機質(zhì)描述統(tǒng)計結果

運用Excel軟件進行研究區(qū)265個采樣點不同土層土壤有機質(zhì)描述性統(tǒng)計分析，結果表明：研究區(qū)0～10 cm土層土壤有機質(zhì)的變幅最大，變幅在4.96～38.95 g/kg；研究區(qū)不同土層土壤有機質(zhì)含量的平均值隨著土壤深度增加而降低，0～10、10～20、20～30、30～40 cm土層土壤有機質(zhì)平均值分別為20.38、14.73、9.93、8.01 g/kg；數(shù)據(jù)分布方面，各土層土壤有機質(zhì)含量偏度與峰度均大于0，數(shù)據(jù)分布與正態(tài)分布相比存在著不同程度的向右偏移，研究區(qū)不同土層土壤有機質(zhì)的變異系數(shù)在32.20%～43.18%，均屬于中等程度變異[27](表1)。

表1 黃淮海旱作區(qū)不同土層土壤有機質(zhì)描述統(tǒng)計Table 1 Description of soil organic matter in different soil layers in Huang-Huai-Hai dry farming area

2.2 不同土層土壤有機質(zhì)地統(tǒng)計學參數(shù)分析

運用GS+7.0軟件對研究區(qū)不同土層土壤有機質(zhì)地統(tǒng)計學參數(shù)分析，以決定系數(shù)接近于1、殘差趨向于0為最佳標準選擇，不同土層土壤有機質(zhì)的最優(yōu)理論模型均為指數(shù)模型,結果見表2。由表2可見：不同土層土壤有機質(zhì)指數(shù)模型的決定系數(shù)在0.79～0.93，表明模型擬合均具有較高的合理性[28]；不同土層土壤有機質(zhì)均具有較高的塊金值與基臺值，表明研究區(qū)不同土層土壤有機質(zhì)存在著一定程度的空間變異，不同土層土壤有機質(zhì)塊基比的值在46.96%～51.19%，則進一步說明結構因素(如土壤母質(zhì)等)與隨機因素(如土壤耕作培肥等人為措施)的影響程度對空間變異的影響基本一致[29]。不同土層土壤有機質(zhì)變程值在1.17～9.56 m，變程較低，表明其空間自相關性較弱[30]。

表2 研究黃淮海旱作區(qū)不同土層土壤有機質(zhì)地統(tǒng)計學參數(shù)Table 2 Results of soil organic matter statistical parameters in different soillayersin Huang-Huai-Hai dry farming area

2.3 基于云遺傳-BP神經(jīng)網(wǎng)絡與其他BP神經(jīng)網(wǎng)絡預測能力對比

首先將BP神經(jīng)網(wǎng)絡調(diào)至最佳參數(shù)，后分別使用云遺傳模型BP神經(jīng)網(wǎng)絡、普通BP神經(jīng)網(wǎng)絡和遺傳優(yōu)化的GABP神經(jīng)網(wǎng)絡3 種方法對研究區(qū)土壤有機質(zhì)含量分別進行30 次預測，對各方法的土壤有機質(zhì)預測值與實際值的平均絕對誤差(MAE)與均方根誤差(RMSE)進行方差分析，結果見表3。

結果表明：云模型與遺傳算法結合的BP神經(jīng)網(wǎng)絡對變異系數(shù)最小的0～10 cm土層土壤有機質(zhì)的預測優(yōu)化效果最為明顯，其預測結果的平均絕對誤差與均方根誤差與其余二者相比均有顯著下降(P<0.05)，具有最高的預測精度。BP神經(jīng)網(wǎng)絡的平均絕對誤差與均方根誤差值均為最大，預測精度相對較低；結合遺傳算法的BP神經(jīng)網(wǎng)絡的平均絕對誤差與均方根誤差值相對BP神經(jīng)網(wǎng)絡有所降低，未與BP神經(jīng)網(wǎng)絡的各項預測誤差值相比未有顯著下降(P>0.05)。云模型與遺傳算法結合的BP神經(jīng)網(wǎng)絡對10～20 cm土層與20～30 cm 土層的土壤有機質(zhì)預測優(yōu)化效果次之，其預測結果的均方根誤差與BP神經(jīng)網(wǎng)絡相比顯著下降(P<0.05)，但與結合遺傳算法的BP神經(jīng)網(wǎng)絡相比各項計算誤差未有顯著下降(P>0.05)。而在變異系數(shù)最大的30～40 cm土層土壤有機質(zhì)預測方面，云模型與遺傳算法結合的BP神經(jīng)網(wǎng)絡預測結果的平均絕對誤差與均方根誤差與其余二者相比均未有顯著下降(P>0.05),未有顯著的優(yōu)化效果。

表3 基于云遺傳-BP神經(jīng)網(wǎng)絡與其他BP神經(jīng)網(wǎng)絡預測能力對比Table 3 Comparison of forecasting ability between cloud genetic-BP neuralnetwork and other BP neural networks

3 討論與結論

相較于傳統(tǒng)遺傳算法中交叉概率與變異概率隨機生成，由X條件云發(fā)生器生成的自適應交叉概率和變異概率，能夠一定程度上避免適應度大的個體結構遭到破壞，同時加快適應度較低的個體的進化速度，從而擁有更佳的預測能力,這與吳立鋒、張琛等人的預測結果相一致[13，31]。

在土壤有機質(zhì)的預測研究方面，未來綜合考慮成土母質(zhì)、土地利用類型等影響不同土層土壤有機質(zhì)值的非定量環(huán)境因子及其他輔助變量因子將會成為提高神經(jīng)網(wǎng)絡預測精度的重要突破口；而在云模型與遺傳算法對神經(jīng)網(wǎng)絡的性能優(yōu)化方面，可以從數(shù)據(jù)的變異系數(shù)、數(shù)據(jù)分布方式等方面進一步探討其適用范圍，從而為進一步提高神經(jīng)網(wǎng)絡的預測精度提供思路。

本研究運用云模型結合遺傳算法對BP神經(jīng)網(wǎng)絡進行優(yōu)化，以黃淮海旱作區(qū)為例，探究黃淮海旱作區(qū)不同土層土壤有機質(zhì)分布狀況，并分析結合云模型與遺傳算法的BP神經(jīng)網(wǎng)絡對黃淮海旱作區(qū)不同土層土壤有機質(zhì)分布的能力，結論如下：

1)研究區(qū)不同土層土壤有機質(zhì)值的數(shù)據(jù)分布與正態(tài)分布相比具有不同程度的向右偏移，頂峰較為陡峭、兩尾分布更廣，均屬于中等程度變異。

2)研究區(qū)不同土層土壤有機質(zhì)的半方差函數(shù)最優(yōu)擬合模型均為指數(shù)模型，研究區(qū)不同土層土壤有機質(zhì)的結構因素與隨機因素對空間變異的影響大小基本一致，空間分布趨向于破碎。

3)結合云模型與遺傳算法的BP神經(jīng)網(wǎng)絡對0～10、10～20、20～30 cm土層土壤有機質(zhì)的預測精度均得到了一定提升，而對30～40 cm土層土壤有機質(zhì)的預測精度沒有明顯的提升，這可能是由于30～40 cm土層土壤有機質(zhì)變異系數(shù)超過了一定范圍造成的。