范升旭,楊春曦,楊啟良,韓世昌
基于粒子群-隨機森林算法和氣象數(shù)據(jù)的三七葉面積生長預測模型
范升旭1,楊春曦2*,楊啟良3,韓世昌2
1. 昆明理工大學化學工程學院,云南 昆明 650500 2. 昆明理工大學機電工程學院,云南 昆明 650500 3. 昆明理工大學農(nóng)業(yè)與食品學院,云南 昆明 650500
基于數(shù)據(jù)挖掘技術,建立三七葉面積生長預測模型,對于三七整個生長期的精準管理與決策提供參考。基于粒子群-隨機森林算法,采用2018、2019年4~10月云南省紅河自治州瀘西縣三七種植基地棚內(nèi)氣象因子數(shù)據(jù)以及三七葉面積生長數(shù)據(jù)作為訓練集和測試集構建生長預測模型。通過特征工程中皮爾森系數(shù)分析可知,三七葉生長與土壤溫度、上方水蒸氣壓和下方水蒸氣壓等氣象因子呈正相關,其中土壤溫度正相關程度最大,其皮爾森相關系數(shù)在0.75~0.90;下方土壤熱通量與三七葉生長呈負相關,其皮爾森相關系數(shù)為?0.4~?0.3;通過粒子群優(yōu)化隨機森林算法訓練的生長預測模型,其均方根誤差(root mean square error,RMSE)收斂時值為0.021 82,模型優(yōu)化后的三七葉生長預測模型決定系數(shù)2達到0.999 97。通過多種算法對比實驗結果表明,粒子群-隨機森林算法構建的三七葉面積生長預測模型具有較高的預測精度。該方法為三七葉的生長預測提供了新的研究思路。
預測模型;三七葉;氣象因子;特征工程;隨機森林;粒子群優(yōu)化
三七葉系五加科人參屬植物三七(Burk.) F. H. Chen的干燥葉,性溫、味辛,具有止血、消腫、定痛,治吐血、外傷出血、癰腫毒瘡等作用,主要生長區(qū)域為云南和廣西等地,經(jīng)過初步統(tǒng)計,每年可采收三七葉約2500 t[1]。研究表明,三七葉可藥用也可食用,且毒性低、不良反應小[2-3]。因此,研究三七葉生長期的氣象數(shù)據(jù)特征,獲得三七葉生長與氣象因子之間的關系,對指導三七葉生長栽培以及整個三七生長期的精準管理與決策具有重要意義。
羅群等[4]指出三七在不同生長時期所需的光照、溫度、濕度、土壤等環(huán)境條件不同,其中,溫度持續(xù)過高或者過低都會對三七生長造成危害。熊凱等[5]提出影響三七生長的主要氣象因子有太陽凈輻射、棚內(nèi)溫濕度、土壤熱通量、飽和水蒸氣壓、土壤溫度、三七冠層上方溫濕度、飽和水蒸氣壓。目前,對影響三七生長因素的研究已經(jīng)取得一定成果。羅美佳等[6]提出光質對三七生長、光合特性及有效成分均有顯著影響,其中紅光有利于三七的株高生長,青、黃、紫、藍光均有利于三七地下部分生物量的積累,藍、黃光有利于三七光合作用。張子龍等[7]指出連作土壤對三七種子的萌發(fā)及幼苗的生長均表現(xiàn)明顯的障礙效應,化感(自毒)作用可能是造成三七連作障礙的原因之一。金航等[8]發(fā)現(xiàn)云南文山所產(chǎn)三七無論在質量還是產(chǎn)量上均優(yōu)于廣西靖西的主要原因是云南文山具有全年日照充足、溫度適宜、降雨適中、時間變化合理等有利的氣象條件,有利于三七的生長以及有效成分和干物質的積累。唐建楷等[9]指出不同灌水頻率和施肥量對三七形態(tài)指標、凈光合速率、蒸騰作用、葉水勢、水分利用效率、有效成分積累及發(fā)病率有明顯影響。王朝梁等[10]認為不同比例的自配肥可能增加三七的莖粗、葉面積和株高,改善其生物學性狀;不同比例自配肥處理的三七出苗率均達到差異顯著或極顯著水平,并且肥料中N∶P2O5∶K2O比例以1∶1∶2處理時三七出苗率最好。上述研究主要側重于探討影響三七生長的因素,鮮有綜合考慮多個氣象因子與三七葉生長之間的耦合關系,也未將氣象因子與三七葉生長的關系進行定量分析。
近年來,隨著大數(shù)據(jù)時代的快速發(fā)展,基于數(shù)據(jù)訓練得到預測模型的機器學習方法被廣泛應用于各個學科的研究中。其中,隨機森林[11]是一種在土地利用[12-13]、作物產(chǎn)量預測[14-15]、山體滑坡空間預測[16]、植株生長估測[17-18]等不同領域都取得較好應用效果的機器學習算法。Kennedy等[19]設計了粒子群優(yōu)化算法,通過迭代遵循適應度函數(shù)規(guī)則找到最優(yōu)解,目前已被廣泛應用于算法以及函數(shù)優(yōu)化等領域。龍泉等[20]提出基于粒子群優(yōu)化back propagation神經(jīng)網(wǎng)絡處理風電機組齒輪箱故障診斷,提高了神經(jīng)網(wǎng)絡的訓練效率,加快了網(wǎng)絡的收斂速度。穆朝絮等[21]提出基于粒子群優(yōu)化的非線性系統(tǒng)最小二乘支持向量機預測控制方法,為非線性系統(tǒng)在數(shù)學模型未知的情況下設計出有效的預測控制器,且具有良好的自適應能力和魯棒性。
本研究通過機器學習方法分析三七葉生長期的氣象因子的數(shù)據(jù)特征,進而獲得主要影響三七葉生長的氣象因子特征,氣象因子是具有連續(xù)性、非線性的變量,隨機森林算法在處理這類數(shù)據(jù)上效果突出,性能穩(wěn)定且具有良好的抗干擾能力[22-25]。利用粒子群算法優(yōu)化隨機森林算法[26-28]構建三七葉生長期的主要氣象因子數(shù)據(jù)與三七葉面積生長數(shù)據(jù)的生長預測模型,為提高三七葉產(chǎn)量的環(huán)境調(diào)控和氣象預警提供理論依據(jù)和技術支持。通過集成多學科知識與技術交叉融合,揭示三七生長習性規(guī)律,監(jiān)控三七生長與環(huán)境變化全過程,為中藥資源新興交叉學科的創(chuàng)建提供可能性方向,也為三七生長環(huán)境精細化管理奠定良好的基礎[29]。
試驗于2018年3月至2019年11月在云南省紅河哈尼彝族自治州瀘西縣昆明理工大學三七控水減排提質增效關鍵技術研究與示范基地(103°57'E,24°26'N)進行。試驗基地平均海拔1842 m,屬北亞熱帶低緯高原山地季風氣候。試驗期間,基地最高和最低氣溫分別為31 ℃和1 ℃,平均相對濕度58%。供試土壤為微酸性紅壤土,pH值6.0左右。試驗基地為塑料大棚,采用塑料膜擋雨,頂部設置遮陽網(wǎng),透光率為8.3%。三七田挖溝起壟,壟溝深0.40 m,每壟間距為0.50 m,每壟地長為18 m,寬為1.90 m,壟面均勻覆蓋5 mm干燥的松針,兩側埋設有黑色不透水薄膜。供試作物為2年生三七,種植間距為15 cm,種植密度為4.40×105株/hm2。
三七生長高峰期在4~10月,因此選用2018年和2019年的4~10月三七葉面積的生長數(shù)據(jù)、氣象因子數(shù)據(jù)作為總樣本。氣象因子樣本數(shù)據(jù)每小時采集1次,樣本數(shù)據(jù)來源于三七種植基地無線氣象因子遠程監(jiān)測系統(tǒng),其組成如圖1所示。
圖1 三七種植基地無線氣象因子遠程監(jiān)測系統(tǒng)
采集的氣象因子數(shù)據(jù)包括太陽凈輻射(W/m2)、棚內(nèi)上下方溫度(℃)、棚內(nèi)上下方濕度(%)、棚內(nèi)上下方土壤熱通量(W/m2)、棚內(nèi)上下方飽和水蒸氣壓(kPa)、土壤溫度(℃)、三七冠層上下方溫度(℃)、三七冠層上下方濕度(%)、三七冠層上下方土壤熱通量(W/m2)和三七冠層上下方飽和水蒸氣壓(kPa)。分別在施肥水平F1:60 kg/hm2、F2:90 kg/hm2、F3:120 kg/hm2、F4:150 kg/hm2;灌水水平W1:100 m3/hm2,W2:150 m3/hm2,W3:200 m3/hm2組合搭配后共計12個區(qū)域進行三七葉面積生長數(shù)據(jù)的采集。每月在各個區(qū)域貼有固定標簽的三七植株里取3片長勢相近的葉片進行葉面積均值計算統(tǒng)計。其中通過紙樣稱重法,對三七葉面積進行測量,新取的三七葉片平鋪于標準網(wǎng)格紙上,在紙上描繪出葉片輪廓后剪下,稱質量(1),面積為1(未知);取標準網(wǎng)格紙,稱質量(2),面積為2,則葉片面積1=1×2/2,其余三七葉面積按此方法計算,從每年4月4日開始,至10月4日測定結束。共計18個氣象因子特征以及三七葉面積實測數(shù)據(jù)14 915個,樣本組數(shù)為785組,隨機分成2部分,75%(=588)作為訓練樣本建立模型,25%(=197)作為測試樣本評價模型。傳感器節(jié)點和氣象因子采集系統(tǒng)布置圖見圖2,其中,圖2- a為傳感器節(jié)點實地安裝圖,圖2-b為傳感器節(jié)點結構示意圖,節(jié)點1是信號采集系統(tǒng);節(jié)點2是冠層上方溫濕度、土壤熱通量、飽和水蒸氣壓傳感器;節(jié)點3是太陽凈輻射傳感器;節(jié)點4是風速、風向傳感器;節(jié)點5是棚內(nèi)溫濕度、土壤熱通量、飽和水蒸氣壓傳感器;節(jié)點6是土壤溫度傳感器,埋于試驗地地下;節(jié)點7是太陽能電源模塊。
a-傳感器節(jié)點實地安裝圖 b-傳感器節(jié)點結構示意圖
由于采集系統(tǒng)中傳感器在長時間運行過程中會出現(xiàn)數(shù)據(jù)缺失及其他異常數(shù)據(jù),為保證特征在時間維度上一致,需要進行數(shù)據(jù)清洗。同時,為了保證模型能夠更好地反映三七葉生長高峰期與氣象因子的關系,本研究需要將每年4~10月份采集的氣象因子數(shù)據(jù)提取出來進行模型訓練。
不同氣象因子往往具有不同的量綱和量綱單位,為了避免研究中不同氣象因子對三七葉生長的影響權重不同,從而導致模型評估不精確,需對數(shù)據(jù)進行標準化處理,原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,可以進行綜合對比評價。Min-max標準化也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結果映射到[0,1],轉換如公式(1)所示。
(1)
max為特征數(shù)據(jù)中最大值,min為特征數(shù)據(jù)中最小值,為歸一化前數(shù)據(jù),*為歸一化后數(shù)據(jù)
1.4.1 皮爾森相關系數(shù)分析 皮爾森相關系數(shù)是一種線性相關系數(shù),也是最常用的1種相關系數(shù)[30]。首先通過皮爾森系數(shù)判斷各氣象因子與三七葉生長之間的相關性。皮爾森相關系數(shù)(,)的取值范圍為[?1,1],若取值在(0,1],取值越大表示正相關性越強;若取值在[?1,0),取值越小表示負相關性越大;取0值表示無相關性。皮爾森系數(shù)評價指標如公式(2)所示。
(2)
(,) 表示與的協(xié)方差,() 為的方差,()為的方差
其次,去除掉氣象因子與三七葉生長相關性較弱的特征,提取與三七葉生長有相關特征的樣本導入到預測模型訓練,達到降低維度,加快模型訓練速度。
1.4.2 隨機森林回歸預測算法 隨機森林是由Breiman[11]提出的一種分類算法,其通過自助法(bootstrap)重采樣技術,從原始訓練樣本中有放回地重復隨機抽取個樣本,生成新的訓練樣本集合訓練決策樹,然后按以上步驟生成棵決策樹組成隨機森林,新數(shù)據(jù)的分類結果按樹的投票數(shù)量決定。隨機森林算法的實質是對決策樹算法的一種改進,將多個決策樹合并在一起,每棵決策樹的建立依賴于獨立抽取的樣本,分類能力較弱。但產(chǎn)生大量的決策樹后,待測試的樣本數(shù)據(jù)可以通過每一棵樹的分類結果,經(jīng)統(tǒng)計后選擇最可能的分類,由于采用多棵決策樹并行的訓練模型,因此每棵決策樹都可以選擇部分樣本及特征,能夠在一定程度上避免過擬合;同時,每棵決策樹隨機選擇樣本以及特征,使得隨機森林算法具有很好的抗噪能力,性能穩(wěn)定。
1.4.3 粒子群優(yōu)化隨機森林回歸預測算法 粒子群優(yōu)化算法[16]是通過無質量的粒子來模擬鳥群里的鳥捕食行為設計的。其中每個粒子都具有2個屬性,即速度和位置。通過粒子的不斷搜索,得到最優(yōu)解,其中個體搜索最優(yōu)解為,群體最優(yōu)解為,粒子在迭代尋優(yōu)過程中,通過和不斷地更新自身的速度和位置,迭代過程如公式(3)所示。
(3)
通過已完成初始化的粒子群算法對隨機森林算法中初始參數(shù)進行最優(yōu)值搜尋,可以避免算法訓練模型中的初始參數(shù)采用人工經(jīng)驗值設置導致的參數(shù)不確定性。粒子群算法智能選擇合適的決策樹數(shù)目(n_estimators)和決策樹最大深度(max_depth),可以保證在有效增強模型的預測能力的情況下,增強訓練模型訓練的泛化能力;再進一步,選擇決策樹數(shù)目和決策樹最大深度2個參數(shù)作為粒子維數(shù),可以有效減少粒子群算法搜索運行時間,以及一定程度上增強搜尋效果。由于構建的算法搜索區(qū)域為二維空間,在確保能夠搜索到能優(yōu)化訓練模型所需參數(shù)值的同時,又縮短了算法搜索運行時間,從而保證算法效率。同時,選取隨機森林算法訓練模型的均方根誤差(root mean square error,RMSE)作為粒子群算法的適應度函數(shù),RMSE越小,則表示模型的預測性能越精確。利用粒子群算法對適應度函數(shù)RMSE進行最小值尋優(yōu),便可以確定隨機森林回歸模型達到搜尋條件時最佳性能所對應的參數(shù)值。模型構建流程圖見圖3。
本模型構建的實驗平臺單機處理器為英特爾酷睿i5-4590,頻率為CPU 3.3 GHz,運行內(nèi)存12 GB,操作系統(tǒng)為64位的Windows 7旗艦版,程序編譯語言為Python 3.7,編譯器為PyCharm。
采用4個指標作為評價模型擬合程度的優(yōu)劣,即決定系數(shù)(coeffient of determination,2)、均方誤差(mean square error,MSE)、平均絕對誤差(mean absolute error,MAE)、RMSE。
圖3 模型構建流程
(4)
(5)
(6)
(7)
式中(i) 表示第個三七葉面積數(shù)據(jù)的預測值,表示第個三七葉面積生長數(shù)據(jù)的真實值,表示三七葉面積生長數(shù)據(jù)均值,樣本個數(shù)為個。其中決定系數(shù)2取值范圍在[0,1],數(shù)值越接近1表示模型擬合效果越好;MSE是測試集實際值與預測值之差的平方和,RMSE為均方誤差平方根, MAE是預測值與真實值之差的絕對平均值。MSE、MAE以及RMSE的數(shù)值越趨近于0表示模型預測精度越高。
不同氣象因子數(shù)據(jù)與三七葉面積生長數(shù)據(jù)之間的皮爾森相關系數(shù)見表1。
表1 三七葉面積生長與各氣象因子間皮爾森相關系數(shù)
由表1可知,土壤溫度、上方水蒸氣壓、下方水蒸氣壓、下方土壤熱通量4個氣象因子,對三七葉生長的影響較為顯著。其中,土壤溫度、上方水蒸氣壓、下方水蒸氣壓與三七葉片生長呈正相關,其皮爾森相關系數(shù)在0.75~0.90;下方土壤熱通量與三七葉片生長呈負相關,其皮爾森相關系數(shù)為?0.4~?0.3。
本研究所采用的氣象因子均是氣溫相關的統(tǒng)計量,從已有的結果可以知道,土壤溫度對三七葉生長影響較為顯著,這與羅群等[4]、崔秀明等[31]研究的實驗結果相吻合。土壤溫度成為三七葉片生長過程的主要影響氣象因子,這可能歸咎于土壤溫度的變化會影響土壤呼吸,土壤呼吸又會影響三七根系的生理作用和營養(yǎng)物質傳輸[32],進而影響三七葉片生長情況。
同時,由于所采用的氣象因子均是氣溫及氣溫基礎上的統(tǒng)計量,為了探討其他氣象因子與土壤溫度之間的關系,分別計算不同氣象因子與土壤溫度之間的皮爾森相關系數(shù),見表2。由表2可知,上方水蒸氣壓和下方水蒸氣壓2個氣象因子與土壤溫度呈正相關關系較為顯著,其皮爾森相關系數(shù)在0.8~0.9。綜合表1、2可知與土壤溫度呈正相關的氣象因子對三七葉片生長具有明顯影響。
表2 土壤溫度與各氣象因子間皮爾森相關系數(shù)
經(jīng)過皮爾森系數(shù)分析后,為了降低特征維度,加快訓練速度,去除掉氣象因子與三七葉片生長相關性較弱的特征變量,如上方潛熱通量、下方潛熱通量、上方顯熱通量以及下方顯熱通量,并提取與三七葉片生長有相關特征樣本導入至預測模型進行訓練,預測模型對比實驗中的參數(shù)設置如表3所示。表3是未進行智能算法尋優(yōu)的支持向量機[33]、k近鄰[34]、隨機森林[11]模型初始參數(shù),均采用網(wǎng)格搜索確定。
測試樣本集測試結果表明,不同模型預測三七葉面積生長數(shù)據(jù)的能力不同,結果如圖4所示。
表3 預測模型參數(shù)設置
圖4 不同預測模型預測結果對比圖
由圖4可知,k近鄰算法的預測值與測試實際數(shù)據(jù)相差較大,支持向量機、隨機森林預測模型的預測結果基本符合測試集數(shù)據(jù)真實分布變化趨勢,但模型之間都存在不同程度的偏差波動。如表4所示,粒子群優(yōu)化隨機森林算法的MSE、MAE、RMSE值均小于其他預測模型,且決定系數(shù)2值大于其他預測模型,說明該算法具有更高預測精度。
采取隨機森林算法訓練模型的RMSE作為粒子群算法的適應度函數(shù),RMSE越小,則表示模型的預測性能越強;迭代次(=150)至RMSE收斂到最小,迭代過程如圖5所示。
表4 不同模型預測能力評價指標表
圖5 適應度函數(shù)與迭代次數(shù)間的關系
皮爾(R. Pearl)生長曲線[35]是描述生物生長與時間關系的模型,補充以皮爾生長曲線在施肥水平F1(60 kg/hm2)和灌水水平W1(100 m3/hm2)擬合填充三七葉面積數(shù)據(jù),并以構建的預測隨機森林模型進行預測,結果如圖6所示。隨機森林模型對皮爾生長曲線模型處理下的三七葉面積進行預測,RMSE為0.182 71,其中擬合曲線結果出現(xiàn)區(qū)域折線式上升,是預測模型訓練中選取的三七葉面積數(shù)據(jù)采樣周期間隔導致,擬合結果說明該模型同樣符合常規(guī)植株生長預測趨勢。
通過皮爾森系數(shù)篩選主要影響三七葉生長的氣象因子特征,篩選后的氣象因子數(shù)據(jù)以及對在不同灌水以及施肥水平下的三七葉面積生長數(shù)據(jù)導入到粒子群-隨機森林參數(shù)算法預測模型,該模型的決定系數(shù)2、MSE、MAE和RMSE均低于支持向量機以及k近鄰預測模型訓練結果,得出粒子群-隨機森林模型具有更高預測精度。
圖6 皮爾生長曲線與隨機森林預測圖
三七葉片生長與土壤溫度、上方水蒸氣壓和下方水蒸氣壓等氣象因子密切相關,其中土壤溫度正相關程度最大。分析與土壤溫度強相關性的氣象因子,得到上方水蒸氣壓和下方水蒸氣與三七葉片生長呈強正相關性,而下方土壤熱通量與土壤溫度呈強負相關性。
本研究所提出的方法能在未來使種植人員得到較準確的三七葉片長勢預測,為后期三七整個生長期的精準管理與種植決策提供技術支撐,也為中藥資源新興交叉學科的創(chuàng)建提供了可能性方向。以地區(qū)經(jīng)濟藥用植物三七為研究對象,揭示其生長習性規(guī)律,服務于三七生產(chǎn)全過程,推動三七規(guī)范化生產(chǎn)與品質提升、促進中藥資源全產(chǎn)業(yè)鏈的提質增效和綠色發(fā)展,從而降低三七種植風險,提升三七產(chǎn)業(yè)經(jīng)濟效益。
利益沖突 所有作者均聲明不存在利益沖突
[1] 周家明, 崔秀明, 曾鴻超, 等. 三七莖葉的綜合開發(fā)利用 [J]. 現(xiàn)代中藥研究與實踐, 2009, 23(3): 32-34.
[2] 雷偉亞, 史栓桃, 余思暢, 等. 三七葉總皂甙的毒性研究 [J]. 云南醫(yī)藥, 1984, 5(4): 241-244.
[3] 秦光和, 景簫, 王偉, 等. 三七莖葉毒理學安全性評價 [J]. 毒理學雜志, 2020, 34(2): 179-181.
[4] 羅群, 游春梅, 官會林. 環(huán)境因素對三七生長影響的分析 [J]. 中國西部科技, 2010, 9(9): 7-8.
[5] 熊凱, 楊啟良, 楊春曦, 等. 基于病害高發(fā)期氣象因子的三七病害發(fā)生率預測 [J]. 農(nóng)業(yè)工程學報, 2020, 36(24): 170-176.
[6] 羅美佳, 夏鵬國, 齊志鴻, 等. 光質對三七生長、光合特性及有效成分積累的影響 [J]. 中國中藥雜志, 2014, 39(4): 610-613.
[7] 張子龍, 王文全, 楊建忠, 等. 三七連作土壤對其種子萌發(fā)及幼苗生長的影響 [J]. 土壤, 2010, 42(6): 1009-1014.
[8] 金航, 崔秀明, 朱艷, 等. 氣象條件對三七藥材道地性的影響 [J]. 西南農(nóng)業(yè)學報, 2005, 18(6): 825-828.
[9] 唐建楷, 韓煥豪, 劉冰, 等. 灌水頻率和施肥量對三七有效成分積累與發(fā)病率的影響 [J]. 農(nóng)業(yè)工程學報, 2020, 36(24): 55-63.
[10] 王朝梁, 陳中堅, 孫玉琴, 等. 不同氮磷鉀配比施肥對三七生長及產(chǎn)量的影響 [J]. 現(xiàn)代中藥研究與實踐, 2007, 21(1): 5-7.
[11] Breiman L. Random forest [J]., 2001, 45: 5-32.
[12] 馬玥, 姜琦剛, 孟治國, 等. 基于隨機森林算法的農(nóng)耕區(qū)土地利用分類研究 [J]. 農(nóng)業(yè)機械學報, 2016, 47(1): 297-303.
[13] 劉舒, 姜琦剛, 馬玥, 等. 基于多目標遺傳隨機森林特征選擇的面向對象濕地分類 [J]. 農(nóng)業(yè)機械學報, 2017, 48(1): 119-127.
[14] 王鵬新, 齊璇, 李俐, 等. 基于隨機森林回歸的玉米單產(chǎn)估測 [J]. 農(nóng)業(yè)機械學報, 2019, 50(7): 237-245.
[15] 程千, 徐洪剛, 曹引波, 等. 基于無人機多時相植被指數(shù)的冬小麥產(chǎn)量估測 [J]. 農(nóng)業(yè)機械學報, 2021, 52(3): 160-167.
[16] 余坤勇, 姚雄, 邱祈榮, 等. 基于隨機森林模型的山體滑坡空間預測研究 [J]. 農(nóng)業(yè)機械學報, 2016, 47(10): 338-345.
[17] 李德, 陳文濤, 樂章燕, 等. 基于隨機森林算法和氣象因子的碭山酥梨始花期預報 [J]. 農(nóng)業(yè)工程學報, 2020, 36(12): 143-151.
[18] 馮海寬, 楊福芹, 楊貴軍, 等. 基于特征光譜參數(shù)的蘋果葉片葉綠素含量估算 [J]. 農(nóng)業(yè)工程學報, 2018, 34(6): 182-188.
[19] Kennedy J, Eberhart R. Particle swarm optimization [A] // Proceedings of ICNN’95-International Conference on Neural Networks [C]. Perth: IEEE, 1995: 1942-1948.
[20] 龍泉, 劉永前, 楊勇平. 基于粒子群優(yōu)化BP神經(jīng)網(wǎng)絡的風電機組齒輪箱故障診斷方法 [J]. 太陽能學報, 2012, 33(1): 120-125.
[21] 穆朝絮, 張瑞民, 孫長銀. 基于粒子群優(yōu)化的非線性系統(tǒng)最小二乘支持向量機預測控制方法 [J]. 控制理論與應用, 2010, 27(2): 164-168.
[22] Scornet E. On the asymptotics of random forests [J]., 2016, 146: 72-83.
[23] Delgado M F, Cernadas E, Barro S,. Do we need hundreds of classifiers to solve real world classification problems? [J]., 2014, 15(1): 3133-3181.
[24] Cutler D R, Edwards T C Jr, Beard K H,. Random forests for classification in ecology [J]., 2007, 88(11): 2783-2792.
[25] 韓敏, 朱新榮. 不平衡數(shù)據(jù)分類的混合算法 [J]. 控制理論與應用, 2011, 28(10): 1485-1489.
[26] 王杰, 程學新, 彭金柱. 一種基于粒子群算法優(yōu)化的加權隨機森林模型 [J]. 鄭州大學學報: 理學版, 2018, 50(1): 72-76.
[27] 王小楊, 羅多, 孫韻琳, 等. 基于ABC-SVM和PSO-RF的光伏微電網(wǎng)日發(fā)電功率組合預測方法研究 [J]. 太陽能學報, 2020, 41(3): 177-183.
[28] 王東風, 孟麗. 粒子群優(yōu)化算法的性能分析和參數(shù)選擇 [J]. 自動化學報, 2016, 42(10): 1552-1561.
[29] 段金廒, 宿樹蘭, 嚴輝, 等. 2016—2020年我國中藥資源學學科建設及科學研究進展與展望 [J]. 中草藥, 2021, 52(17): 5151-5165.
[30] 馬瑞, 周謝, 彭舟, 等. 考慮氣溫因素的負荷特性統(tǒng)計指標關聯(lián)特征數(shù)據(jù)挖掘 [J]. 中國電機工程學報, 2015, 35(1): 43-51.
[31] 崔秀明. 三七GAP研究與實踐 [M]. 昆明: 云南科技出版社, 2003: 32-35.
[32] 李玉強, 趙哈林, 趙學勇, 等. 土壤溫度和水分對不同類型沙丘土壤呼吸的影響 [J]. 干旱區(qū)資源與環(huán)境, 2006, 20(3): 154-158.
[33] Bouboulis P, Theodoridis S, Mavroforakis C,. Complex support vector machines for regression and quaternary classification [J]., 2015, 26(6): 1260-1274.
[34] Weinberger K, Saul L. Distance metric learning for large margin nearest neighbor classification [J]., 2009, 10: 207-244.
[35] 吳強, PENG Yuanying, 馬恒運, 等. 森林生態(tài)系統(tǒng)服務價值及其補償校準: 以馬尾松林為例 [J]. 生態(tài)學報, 2019, 39(1): 117-130.
Prediction model ofleaf area growth based on particle swarm-optimization random forest algorithm and meteorological data
FAN Sheng-xu1, YANG Chun-xi2, YANG Qi-liang3, HAN Shi-chang2
1. Faculty of Chemical Engineering, Kunming University of Science and Technology, Kunming 650500, China 2. Faculty of Mechanical and Electrical Engineering, Kunming University of Science and Technology, Kunming 650500, China 3. Faculty of Agriculture and Food, Kunming University of Science and Technology, Kunming 650500, China
Based on data mining technology, the growth prediction model of Sanqi () leaf area was established to provide reference for accurate management and decision-making ofduring the whole growth period.Based on the particle swarm-random forestalgorithm, the meteorological factor data in the shed ofplanting, Luxi County, Honghe Autonomous Prefecture, Yunnan Province from April to October 2018 and 2019 and leaf area growth data ofwere used as the training set and test set of machine learning methods to build a growth prediction model.After doing the Pearson coefficient analysis of the characteristic engineering, the simulation results showed that the leaf growth ofwas positively correlated with meteorological factors such as soil temperature, upper water vapor pressure and lower water vapor pressure. The positive correlation degree of soil temperature was the largest one with 0.75—0.90 Pearson correlation coefficient. On the contrary, the soil heat flux below was negative correlated with the leaf growth of, and the Pearson correlation coefficient was ?0.4—?0.3. For the prediction model trained by the proposed particle swarm-random forest algorithm, the convergence value of the root mean square error (RMSE) was 0.021 82, and the coefficient of determination2ofleaf growth prediction model reaches 0.999 97 after model optimization.The comparative results among different algorithms showed that the prediction model ofleaf area growth constructed by particle swarm optimization random forest algorithm has high prediction accuracy. Meanwhile, the combined algorithm proposed in this paper provides a new idea for the growth prediction research of stems and leaves of.
predication model; leafof(Burk.) F. H. Chen; meteorological factors; characteristic engineering; random forest; particle swarm optimization
R282
A
0253 - 2670(2022)10 - 3103 - 08
10.7501/j.issn.0253-2670.2022.10.021
2022-02-20
國家自然科學基金項目(62063011,51979134,51779113);云南省科技廳科技計劃項目(202001AU070032)
范升旭,碩士研究生,研究方向為機器學習算法與大數(shù)據(jù)技術研究。E-mail: 2507197269@qq.com
通信作者:楊春曦,教授,碩士研究生導師,主要從事于無線傳感器網(wǎng)絡以及大數(shù)據(jù)技術研究工作。E-mail: ycx@kmust.edu.cn
[責任編輯 潘明佳]