摘要:準(zhǔn)確預(yù)測(cè)我國林業(yè)蟲害的發(fā)生情況,對(duì)提高森林資源風(fēng)險(xiǎn)管控水平以及林業(yè)蟲害早期預(yù)警具有重要意義。研究雄安新區(qū)“千年秀林”中美國白蛾的發(fā)生和當(dāng)時(shí)的氣象環(huán)境因素之間的關(guān)系,結(jié)合群智能優(yōu)化算法和深度學(xué)習(xí)算法,提出一種基于WOA-BiLSTM-BA算法的林業(yè)蟲害預(yù)測(cè)模型。該算法通過WOA迭代優(yōu)化BiLSTM的最優(yōu)參數(shù)組合,將注意力機(jī)制模塊BA引入BiLSTM網(wǎng)絡(luò)中,以動(dòng)態(tài)分配權(quán)重信息,通過全連接層輸出預(yù)測(cè)結(jié)果。將提出模型與傳統(tǒng)的BP預(yù)測(cè)模型、LSTM預(yù)測(cè)模型、BiLSTM預(yù)測(cè)模型進(jìn)行對(duì)比,結(jié)果表明,WOA-BiLSTM-BA模型的效果均優(yōu)于其他對(duì)照預(yù)測(cè)模型,其決定系數(shù)[R2]達(dá)到0.989 1,均方根誤差[RMSE]僅為0.073,平均百分比誤差[MAPE]為0.227 5,平均絕對(duì)誤差[MAE]為0.056 4。
關(guān)鍵詞:林業(yè)害蟲;美國白蛾;鯨魚算法;長短時(shí)記憶網(wǎng)絡(luò);注意力機(jī)制
中圖分類號(hào):S763; TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095?5553 (2024) 11?0221?07
Forest pest prediction based on WOA-BiLSTM-BA algorithm
Shi Cuicui1, 2, Zhou Yi3, Wang Kejian1, 2, Wang Chao1, 2, Li Huiping2
(1. College of Information Science and Technology, Hebei Agricultural University, Baoding, 071001, China;
2. Hebei Provincial Innovation Center of Urban Forest Health Technology, Baoding, 071001, China;
3. School of Financial Technology, Hebei Finance University, Baoding, 071000, China)
Abstract: It is of great significance to accurately predict the occurrence of forest pests in China for improving the level of forest resource risk management and control as well as the early warning of forest pests. The occurrence of forest insect infestation is not only related to temperature and humidity, but also complicated with other meteorological factors. In order to achieve accurate prediction of forest insect infestation, meteorological data and insect infestation data are transformed into a time series prediction problem in this study. In this paper, the relationship between the occurrence of American white moth in the “Millennium Forest” of Xiongan New Area and the meteorological environment at that time was studied, combining swarm intelligent optimization algorithm and deep learning algorithm, a forest pest prediction model based on WOA-BiLSTM-BA algorithm was proposed. Firstly, WOA was used to continuously search for the optimal parameter combination of BiLSTM through iterative optimization to avoid the subjectivity of manual parameter selection and high training cost. Secondly, the Bahdanau Attention module BA was introduced into BiLSTM network to dynamically allocate weight information, and finally the prediction results were output through the fully connected layer. By comparing the proposed model with the traditional BP prediction model, LSTM prediction model and BiLSTM prediction model, the results showed that the effect of WOA-BiLSTM-BA model was better than that of other control prediction models, with R2 reaching 0.989 1, RMSE only 0.073, MAPE 0.227 5 and MAE 0.056 4.
Keywords: forest pest; American white moth; whale algorithm; long?short?term memory network; attention mechanism
0 引言
我國是世界上林業(yè)有害生物災(zāi)害發(fā)生程度最為嚴(yán)重的國家之一,其中蟲害發(fā)生的面積占比最大[1]。研究表明,林業(yè)病蟲害致使我國2006—2010年間年均損失高達(dá)1 101億元[2]。因此提前掌握林業(yè)蟲害的發(fā)生情況進(jìn)行林業(yè)蟲害預(yù)測(cè)具有重要意義,其不僅可以使林業(yè)工作者提前制定防范林業(yè)災(zāi)害的計(jì)劃,減少不必要的經(jīng)濟(jì)損失,還能夠提高森林資源風(fēng)險(xiǎn)管控水平,實(shí)現(xiàn)林業(yè)健康的可持續(xù)性發(fā)展。
據(jù)研究森林蟲害的成因記錄發(fā)現(xiàn),森林蟲害的形成原因大致分為七種:適宜的氣象條件、樹種單一和林分結(jié)構(gòu)簡(jiǎn)單、防治體系不完善、人類活動(dòng)促進(jìn)害蟲傳播、危害意識(shí)不足、害蟲自身特性、害蟲的天敵數(shù)量少。其中最重要的因素為適宜的氣象條件[3],蟲害的發(fā)生與其生長的環(huán)境信息緊密相關(guān)。研究林業(yè)蟲害的發(fā)生規(guī)律和與其有關(guān)的氣象、土壤等自然環(huán)境信息,對(duì)林業(yè)蟲害的預(yù)防有一定的參考價(jià)值[4]。
隨著大數(shù)據(jù)和人工智能的發(fā)展,越來越多的研究人員開始采用機(jī)器學(xué)習(xí)[5, 6]和深度學(xué)習(xí)[7, 8]的方法來解決不同領(lǐng)域的預(yù)測(cè)問題。同時(shí),基于機(jī)器學(xué)習(xí)的方法在林業(yè)中也具有廣闊的應(yīng)用前景,林業(yè)的蟲害預(yù)測(cè)就是其中一個(gè)方面。Zhao等[9]采用線性回歸預(yù)測(cè)算法,利用蟲害圖像信息預(yù)測(cè)林業(yè)蟲害的傳播范圍。但線性回歸方法對(duì)于蟲害預(yù)測(cè)中的非線性因素的影響難以衡量,精度得不到保證。張文一等[10]采用一般回歸神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)來預(yù)測(cè)超松毛蟲的發(fā)生區(qū)域。這種方法雖然在處理非線性問題上有一定的優(yōu)勢(shì),但是還存在特征維度多、數(shù)據(jù)規(guī)模大和處理速度慢的問題。
與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)在數(shù)據(jù)量極大的情況下預(yù)測(cè)效果明顯要更好。長短時(shí)記憶(Long Short Term Memory, LSTM)神經(jīng)網(wǎng)絡(luò)模型是近年來備受關(guān)注的一種深度學(xué)習(xí)模型。1997年由Hochreiter等[11]通過對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)網(wǎng)絡(luò)單元結(jié)構(gòu)進(jìn)行改進(jìn)并提出。通過設(shè)計(jì)控制門結(jié)構(gòu)解決了RNN中出現(xiàn)的梯度消失和梯度爆炸、長期記憶力不足等問題[12]。目前,LSTM神經(jīng)網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于語音識(shí)別、文本處理等方面。例如,Kakarla等[13]將登革熱病例數(shù)作為目標(biāo)變量,氣象因素作為自變量,應(yīng)用LSTM對(duì)未來一段時(shí)間內(nèi)的登革熱病例數(shù)進(jìn)行預(yù)測(cè),與支持向量機(jī)模型試驗(yàn)對(duì)比證明了LSTM預(yù)測(cè)精度更高、收斂速度更快。Kim等[14]結(jié)合環(huán)境條件和LSTM對(duì)水稻稻瘟病進(jìn)行早期預(yù)測(cè),預(yù)測(cè)效果優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的方法。Xiao等[15]通過Aprioro算法查找天氣因子與棉花病蟲害之間的規(guī)律,并使用LSTM基于關(guān)聯(lián)因素對(duì)棉花蟲害進(jìn)行預(yù)測(cè),預(yù)測(cè)精度進(jìn)一步提高,同時(shí)證明了氣象要素的重要性。Chen等[16]將病害發(fā)生預(yù)測(cè)問題表述為時(shí)間序列預(yù)測(cè)問題,然后采用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi?directional Long Short-Term Memory, BiLSTM)來解決問題,預(yù)測(cè)效果進(jìn)一步提升,證明了BiLSTM模型的優(yōu)越性。
此外,林業(yè)蟲害預(yù)測(cè)存在數(shù)據(jù)體量大、計(jì)算時(shí)間長等問題。傳統(tǒng)的BiLSTM模型在訓(xùn)練過程中依靠人工選取超參數(shù)、手動(dòng)調(diào)節(jié),這使得模型在處理高維數(shù)據(jù)時(shí)收斂速度較慢且易陷入局部最優(yōu)。
為解決上述問題,本文提出一種鯨魚算法(Whale Optimization Algorithm, WOA)[17]、注意力機(jī)制與BiLSTM有機(jī)結(jié)合的WOA-BiLSTM-BA林業(yè)蟲害預(yù)測(cè)方法。采用BiLSTM網(wǎng)絡(luò)對(duì)林業(yè)蟲害的時(shí)序性信息進(jìn)行捕獲,利用WOA對(duì)BiLSTM中的關(guān)鍵參數(shù)進(jìn)行迭代優(yōu)化,并在BiLSTM網(wǎng)絡(luò)中中引入注意力機(jī)制BA(Bahdanau Attention, BA),增強(qiáng)網(wǎng)絡(luò)提取信息的能力。
1 試驗(yàn)數(shù)據(jù)獲取與處理
1) 數(shù)據(jù)采集。本文所用林業(yè)蟲害數(shù)據(jù)集來自雄安新區(qū)“千年秀林”林業(yè)有害生物監(jiān)測(cè)預(yù)警系統(tǒng)數(shù)據(jù)庫。2020年4月—2022年12月在雄安新區(qū)“千年秀林”林區(qū)內(nèi)按照樹種、環(huán)境等因素設(shè)置病蟲害監(jiān)測(cè)點(diǎn),根據(jù)有害生物特點(diǎn)配備蟲情測(cè)報(bào)燈、孢子捕捉儀,對(duì)寄主植物主要分布區(qū)進(jìn)行標(biāo)準(zhǔn)地調(diào)查,每塊標(biāo)準(zhǔn)地設(shè)置面積0.67 hm2左右,隨機(jī)調(diào)查30~50株,由智能化自計(jì)數(shù)監(jiān)測(cè)系統(tǒng)對(duì)每塊標(biāo)準(zhǔn)地統(tǒng)計(jì)蟲害數(shù)據(jù)。對(duì)不同營林措施情況下的主要?dú)庀笠蛩?、重要檢疫性有害生物進(jìn)行近地面數(shù)據(jù)長期定位監(jiān)測(cè),采樣間隔為30 min,獲得“千年秀林”生長過程的動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù),結(jié)合物聯(lián)網(wǎng)和現(xiàn)代智能信息傳輸技術(shù)建立新區(qū)生態(tài)因子數(shù)據(jù)庫。本文所用數(shù)據(jù)為2021年3—10月,2022年3—10月間共2年氣象數(shù)據(jù)和蟲害數(shù)據(jù),包含空氣溫度、空氣濕度、降雨量、土壤溫度、土壤濕度、大氣壓強(qiáng)、風(fēng)強(qiáng)度以及害蟲數(shù)量。其中美國白蛾蟲害采集的部分氣象因子原始數(shù)據(jù)見表1。
2) 數(shù)據(jù)預(yù)處理。首先,對(duì)原始樣本數(shù)據(jù)中存在缺失數(shù)據(jù)的數(shù)據(jù)組進(jìn)行剔除。其次,由于數(shù)據(jù)采集存在不規(guī)則性,需要在以天為單位的50組數(shù)據(jù)集中進(jìn)行隨機(jī)抽樣獲取24組數(shù)據(jù)。林業(yè)蟲害形成時(shí)間長,氣象數(shù)據(jù)中同一特征維度的變化范圍和不同特征維度之間的量級(jí)相差很大,為避免網(wǎng)絡(luò)訓(xùn)練時(shí)間過長以及網(wǎng)絡(luò)無法收斂的情況,在進(jìn)行訓(xùn)練和測(cè)試之前,必須將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理[18]。林業(yè)氣象數(shù)據(jù)和蟲害數(shù)據(jù)呈正態(tài)分布,選擇Z-score方法進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化后,氣象數(shù)據(jù)和蟲害數(shù)據(jù)的特征維度的數(shù)值范圍都將被映射到[0,1]之間。第i個(gè)樣本的標(biāo)準(zhǔn)化公式如式(1)所示。
[v'=v-μk'] (1)
式中: [v']——標(biāo)準(zhǔn)化值;
[v]——個(gè)體觀測(cè)值;
[μ]——總體樣本數(shù)據(jù)均值;
[k']——總體標(biāo)準(zhǔn)差。
2 預(yù)測(cè)模型構(gòu)建
林業(yè)蟲害是指林木的葉片、枝條、樹干和樹根等單一或多個(gè)部位被森林害蟲取食危害,造成生理機(jī)能以及外部形態(tài)發(fā)生變化的現(xiàn)象。蟲害數(shù)據(jù)具有時(shí)間序列的特性,選取處理時(shí)序能力較強(qiáng)的BiLSTM模型作為基礎(chǔ)模型,并將蟲害預(yù)測(cè)問題轉(zhuǎn)化為時(shí)間序列預(yù)測(cè)問題,根據(jù)歷史數(shù)據(jù)預(yù)測(cè)蟲害的發(fā)生情況。
提出的WOA-BiLSTM-BA混合模型的基礎(chǔ)結(jié)構(gòu)如圖1所示,首先利用WOA迭代優(yōu)化BiLSTM網(wǎng)絡(luò)的學(xué)習(xí)率、迭代次數(shù)、batch_size、BiLSTM節(jié)點(diǎn)數(shù)和全連接層節(jié)點(diǎn)數(shù)。此方法在保留BiLSTM優(yōu)秀的訓(xùn)練及預(yù)測(cè)性能的基礎(chǔ)上,減少了模型訓(xùn)練時(shí)長,避免了人工選擇參數(shù)的主觀性問題。隨后將BiLSTM隱藏層輸出的信息作為BA注意力機(jī)制模塊的輸入,利用BA對(duì)隱藏層提取的信息賦予相應(yīng)的權(quán)重比,充分利用蟲害數(shù)據(jù)的時(shí)間序列屬性,挖掘蟲害數(shù)據(jù)之間的相關(guān)性。BA能夠降低歷史信息的丟失數(shù)量,突出關(guān)鍵歷史時(shí)間的蟲害數(shù)據(jù)信息,從而減少對(duì)蟲害預(yù)測(cè)準(zhǔn)確度的影響。最后將BA層的輸出作為全連接層的輸入,通過全連接層輸出最終的蟲害預(yù)測(cè)結(jié)果。
2.1 基于鯨魚算法參數(shù)選取
將BiLSTM模型應(yīng)用到林業(yè)蟲害預(yù)測(cè)時(shí),存在參數(shù)選取困難,訓(xùn)練時(shí)間長的問題。為解決人工選取BiLSTM超參數(shù)具有主觀性的問題以及提高預(yù)測(cè)精度,本文引入WOA迭代優(yōu)化模型的超參數(shù)組合。運(yùn)用WOA迭代優(yōu)化尋找BiLSTM超參數(shù)的具體流程如圖2所示。
Tang等[19]提出了一種基于WOA的非線性反演算法。該方法可以生成相對(duì)穩(wěn)定、準(zhǔn)確的初始模型,提供更精確的反演彈性參數(shù)。Kong等[20]提出一種新的WOA-SVM模型,用于刀具磨損的精確估計(jì),該文獻(xiàn)驗(yàn)證了在大多數(shù)情況下可將建模耗時(shí)減少30%以上。WOA具有機(jī)制簡(jiǎn)單、參數(shù)少、尋優(yōu)能力強(qiáng)等優(yōu)點(diǎn),其線性的收斂機(jī)制更契合本文的問題。
1) 對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并將清洗后的數(shù)據(jù)歸一化,按照時(shí)間順序?qū)?shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。
2) 初始化BiLSTM網(wǎng)絡(luò)超參數(shù),包括超參數(shù)的尋優(yōu)范圍。
3) 初始化WOA參數(shù),包括鯨魚種群規(guī)模和最大迭代次數(shù)。設(shè)置鯨魚種群位置的上下界。
4) 包圍式搜索。每個(gè)個(gè)體以當(dāng)前適應(yīng)度最優(yōu)鯨魚的個(gè)體位置設(shè)定為最優(yōu)位置向其靠近,位置更新為
[D=CX*(t)-X(t)] (2)
[X(t+1)=X*(t)-AD] (3)
式中: D——搜索粒子和優(yōu)化目標(biāo)的距離;
t——當(dāng)前迭代次數(shù);
[A]——系數(shù)向量;
[C]——系數(shù)向量;
[X*(t)]——局部最優(yōu)解向量;
[X(t)]——當(dāng)前鯨魚的位置向量。
[A]和[C]可由式(4)、式(5)計(jì)算得到。
[A=2ar-a] (4)
[C=2r] (5)
式中: [a]——跟隨迭代次數(shù)從2線性減少到0;
[r]——[0,1]中的隨機(jī)向量。
5) 螺旋式搜索。在螺旋式搜索階段,種群根據(jù)目前獲得的最優(yōu)位置通過螺旋的方式對(duì)目標(biāo)值進(jìn)行搜索,該行為的數(shù)學(xué)模型可表示為
[X(t+1)=D'?ebl?cos(2πl(wèi))+X*(t)] (6)
式中: [D']——鯨魚和目前最好的位置向量之間的距離,[D']=[X*(t)-X(t)];
[b]——對(duì)數(shù)螺旋形狀的常數(shù);
[l]——[-1,1]中的一個(gè)隨機(jī)數(shù)。
為了模擬鯨魚螺旋包圍并同時(shí)縮小包圍圈的行為,假設(shè)鯨魚有50%的概率來選擇螺旋包圍或縮小距離優(yōu)化鯨魚的位置。數(shù)學(xué)模型如式(7)所示。
[X(t+1)=X*(t)-ADif p<0.5D'?ebl?cos(2πl(wèi))+X*(t)if p>0.5] (7)
式中: [p]——[0,1]的隨機(jī)值。
6) 隨機(jī)搜索。與開發(fā)階段不同的是,此時(shí)的粒子不是以當(dāng)前最優(yōu)位置來更新位置,而是根據(jù)種群間彼此的位置隨機(jī)搜索。位置更新是基于[A]的變化來進(jìn)行全局搜索找到最優(yōu)解。當(dāng)[A<1]時(shí),跳到步驟4根據(jù)式(2)更新種群當(dāng)前位置,當(dāng)[A≥1]時(shí),隨機(jī)進(jìn)行搜索,數(shù)學(xué)模型如式(8)和式(9)所示。
[D=C?Xrand-X] (8)
[X(t+1)=Xrand-A?D] (9)
式中: [Xrand]——隨機(jī)選擇的鯨魚位置向量。
7) 迭代終止。在以上步驟迭代尋優(yōu),當(dāng)?shù)螖?shù)達(dá)到設(shè)定閾值時(shí),終止循環(huán),算法結(jié)束,得到并輸出最優(yōu)解,即超參數(shù),包括BiLSTM的2個(gè)節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)率、批次大小和全連接層節(jié)點(diǎn)數(shù)。
2.2 改進(jìn)的BiLSTM害蟲預(yù)測(cè)網(wǎng)絡(luò)構(gòu)建
2.2.1 BiLSTM
LSTM在非線性的時(shí)間序列預(yù)測(cè)中展現(xiàn)出其優(yōu)越性,相對(duì)于同樣適用于時(shí)間序列預(yù)測(cè)的RNN,解決了RNN在反向傳播時(shí)存在的梯度消失和梯度爆炸問題。LSTM體系結(jié)構(gòu)如圖3所示。
各部分的計(jì)算如式(10)~式(15)所示。
[ft=σ(Wf?ht-1,xt+bf)] (10)
[it=σ(Wi?ht-1,xt+bi)] (11)
[Ct=tanh(Wc?ht-1,xt+bc)] (12)
[Ct=ftCt-1+itCt] (13)
[ot=σ(Woht-1,xt+bo)] (14)
[ht=ottanh(Ct)] (15)
式中: [σ]——Sigmoid函數(shù);
[ft]、[it]、[ot]——t時(shí)刻的遺忘門、輸入門以及輸出門的輸出;
[ht]、[ht-1]——LSTM神經(jīng)網(wǎng)絡(luò)t時(shí)刻的網(wǎng)絡(luò)輸入、t-1時(shí)刻的網(wǎng)絡(luò)輸入;
[xt]——t時(shí)刻隱藏層的輸入;
[Wf]、[Wi]、[Wo]、[Wc]——遺忘門、輸入門、輸出門和當(dāng)前細(xì)胞狀態(tài)的權(quán)重矩陣;
[bf]、[bi]、[bc]、[bo]——遺忘門、輸入門、輸出門和當(dāng)前細(xì)胞狀態(tài)的偏置向量。
盡管LSTM在處理時(shí)序數(shù)據(jù)存在一定的優(yōu)勢(shì),但是其并不能考慮未來的信息。而在復(fù)雜的林業(yè)害蟲預(yù)測(cè)中需要考慮到林業(yè)蟲害的發(fā)生不是即時(shí)的,往往是由于較長時(shí)間各種因素的堆疊,而BiLSTM在LSTM的基礎(chǔ)上,結(jié)合了輸入序列在前、后兩個(gè)方向的信息,進(jìn)一步優(yōu)化了LSTM,因此本文選用BiLSTM作為基礎(chǔ)模型。BiLSTM的體系結(jié)構(gòu)如圖4所示。
BiLSTM網(wǎng)絡(luò)各部分計(jì)算如式(16)~式(18)所示。
[ht=F(wt,ht-1)] (16)
[ht=B(wt,ht-1)] (17)
[ht=ht,htT] (18)
式中: [F]、[B]——信號(hào)序列按前向、后向輸入LSTM網(wǎng)絡(luò);
[ht]、[ht]——前向和后向LSTM網(wǎng)絡(luò)在t時(shí)刻的蟲害預(yù)測(cè)值輸出;
[wt]——輸入數(shù)據(jù);
[ht]——最終的輸出的蟲害預(yù)測(cè)結(jié)果。
2.2.2 注意力機(jī)制
所采用的帶有Bahdanau注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器—解碼器模型如圖5所示。
關(guān)于林業(yè)蟲害龐大的數(shù)據(jù)集,注意力機(jī)制可以動(dòng)態(tài)分布蟲害信息的權(quán)重,加強(qiáng)對(duì)重要信息的關(guān)注,盡量忽略一些不重要的因素。Bahdanau等[21]在神經(jīng)網(wǎng)絡(luò)中引入了一種注意力機(jī)制,通過對(duì)數(shù)據(jù)時(shí)間片段分配不同的權(quán)重,使信息更有效地編碼。因此,本文對(duì)BiLSTM網(wǎng)絡(luò)進(jìn)行改進(jìn),引入Bahdanau注意力機(jī)制自動(dòng)對(duì)不同時(shí)刻歷史數(shù)據(jù)片段分配權(quán)重。
3 試驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集設(shè)置
采用的數(shù)據(jù)為雄安新區(qū)“千年秀林”9號(hào)地2021年3月15日—2022年10月1日的氣象和蟲害數(shù)據(jù)(圖6)。
將空氣溫度、空氣濕度、土壤溫度、土壤濕度、降雨量、壓強(qiáng)、風(fēng)力(風(fēng)速)7種環(huán)境參數(shù)作為輸入,用于預(yù)測(cè)未來蟲害的發(fā)生。如圖6所示,將前80%(2021年7月31日之前)的數(shù)據(jù)作為訓(xùn)練集,后20%(2021年8月1日之后)數(shù)據(jù)作為測(cè)試集。
3.2 評(píng)價(jià)指標(biāo)
為量化評(píng)價(jià)模型的性能指標(biāo),本文選取了均方根誤差(RMSE)、平均百分比誤差(MAPE)、平均絕對(duì)誤差(MAE)和決定系數(shù)R2作為評(píng)價(jià)指標(biāo)。其中RMSE、MAPE、MAE數(shù)值越小,模型預(yù)測(cè)結(jié)果與真實(shí)偏差越小,結(jié)果越準(zhǔn)確;決定系數(shù)[R2]越接近1,代表擬合優(yōu)度越大,模型預(yù)測(cè)效果越好。具體計(jì)算如式(19)~式(22)所示。
[RMSE=1ni=1n(yi-yi)2] (19)
[MAPE=1ni=1nyi-yiyi×100%] (20)
[MAE=1ni=1n(yi-yi)] (21)
[R2=1-in(yi-yi)2in(yi-yi)2] (22)
式中: [n]——數(shù)據(jù)樣本數(shù)量;
[yi]——美國白蛾蟲害發(fā)生的預(yù)測(cè)值;
[yi]——美國白蛾蟲害發(fā)生的真實(shí)值。
3.3 試驗(yàn)環(huán)境與參數(shù)選擇
試驗(yàn)采用Tensorflow2.2框架,使用Python語言編寫。處理器為Intel(R) Core(TM) i5-7300 HQ CPU @ 2.50 GHz,內(nèi)存8 GB,操作系統(tǒng)Windows10。
訓(xùn)練過程中使用了十折交叉驗(yàn)證。首先將數(shù)據(jù)集分成10份,其中9份用于訓(xùn)練模型,另1份用于驗(yàn)證模型。在第一輪中,將其中一份作為驗(yàn)證集,其余9份作為訓(xùn)練集,在訓(xùn)練集上訓(xùn)練模型,并在驗(yàn)證集上測(cè)試模型,得到其評(píng)價(jià)指標(biāo)結(jié)果,重復(fù)此步驟10次,得到10個(gè)驗(yàn)證集上的結(jié)果,并取其平均值。
基于WOA對(duì)BiLSTM網(wǎng)絡(luò)的迭代尋優(yōu),將確定網(wǎng)絡(luò)的超參數(shù)輸出,最終獲得的最優(yōu)參數(shù)組合如表2所示。
3.4 結(jié)果分析
3.4.1 不同模型性能比較
為了驗(yàn)證本文所提出模型的預(yù)測(cè)效果,本文與其他經(jīng)典的機(jī)器學(xué)習(xí)方法進(jìn)行了比較,分別利用BP神經(jīng)網(wǎng)絡(luò)、LSTM預(yù)測(cè)、BiLSTM建立蟲害預(yù)測(cè)模型,實(shí)驗(yàn)采用相同的數(shù)據(jù)源,訓(xùn)練集進(jìn)行訓(xùn)練,測(cè)試集預(yù)測(cè)模型性能。采用MAPE、RMSE、MAE和[R2]四種方法,對(duì)不同模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià)。根據(jù)評(píng)價(jià)指標(biāo)對(duì)不同預(yù)測(cè)模型的結(jié)果對(duì)比分析,如表3所示。
由表3可以看出,本文提出預(yù)測(cè)模型的平均絕對(duì)百分比誤差、均方根誤差、平均絕對(duì)誤差和R2分別為0.227 5、0.073 0、0.056 4和0.989 1,各項(xiàng)指標(biāo)均優(yōu)于其他預(yù)測(cè)模型。與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)、LSTM和BiLSTM相比,WOA-BiLSTM-BA的MAPE值分別降低了73.9%、50.6%、46.8%,說明WOA-BiLSTM-BA的蟲害預(yù)測(cè)誤差最?。籛OA-BiLSTM-BA的RMSE值相比這三種模型分別降低了81.2%、49.9%、42%,說明本文采用的模型預(yù)測(cè)值的離散程度小,預(yù)測(cè)值更加穩(wěn)定;WOA-BiLSTM-BA的MAE值比其他三種模型分別降低了81.4%、47.2%、42.9%,說明本文所使用的模型預(yù)測(cè)的誤差最小,精度更高。WOA-BiLSTM-BA的R2的值比其他三種模型分別提高了30%、3.4%、2.2%,說明本文所使用模型擬合數(shù)據(jù)的準(zhǔn)確程度更高。通過這四種評(píng)價(jià)指標(biāo)綜合分析可知,本文提出的WOA-BiLSTM-BA模型較傳統(tǒng)的模型效果有了極大的提升,其主要原因是WOA的迭代尋優(yōu)既避免了人工選擇參數(shù)的主觀性,又降低了訓(xùn)練成本,且注意力機(jī)制能夠提取和利用數(shù)據(jù)中的時(shí)序信息。
3.4.2 消融試驗(yàn)
為了驗(yàn)證WOA-BiLSTM-BA各部分的作用,將BiLSTM作為基準(zhǔn)模型,分別加入WOA、BA,構(gòu)建消融模型WOA-BiLSTM、BiLSTM-BA。通過消融試驗(yàn),得到本文模型與消融試驗(yàn)結(jié)果對(duì)比,如表4所示。
由表4可以看出,同BiLSTM相比,WOA-BiLSTM的MAPE、RMSE、MAE分別降低33.89%、11.36%、16.82%,R2提高0.71%,證明經(jīng)過WOA對(duì)超參數(shù)的迭代尋優(yōu),與人工選擇參數(shù)的原始BiLSTM相比,有效提高了模型的預(yù)測(cè)性能。同BiLSTM相比,BiLSTM-BA的MAPE、RMSE、MAE分別降低19.27%、25.26%、27.65%,[R2]提高1.47%,采用注意力機(jī)制進(jìn)行動(dòng)態(tài)分配權(quán)重,給重要的信息賦予高權(quán)重聚焦,對(duì)于不相關(guān)的信息賦予低權(quán)重進(jìn)行忽略,驗(yàn)證了注意力機(jī)制對(duì)模型預(yù)測(cè)性能的提升效果。同時(shí),與WOA-BiLSTM和BiLSTM-BA相比,本文所提出的模型各項(xiàng)評(píng)價(jià)指標(biāo)都達(dá)到了更好,對(duì)比結(jié)果表明WOA和BA的結(jié)合更加有效發(fā)揮了優(yōu)勢(shì),進(jìn)一步提升了模型的預(yù)測(cè)性能。WOA-BiLSTM-BA能夠更好地挖掘氣象數(shù)據(jù)與蟲害發(fā)生之間的關(guān)系,從而進(jìn)一步使預(yù)測(cè)值更加貼近實(shí)際值,提升了預(yù)測(cè)效果,能夠更好地為美國白蛾甚至更多的林業(yè)蟲害預(yù)測(cè)起到技術(shù)支持作用。
為了更直觀地對(duì)比各模型性能,各組的試驗(yàn)預(yù)測(cè)模型結(jié)果對(duì)比如圖7所示。
4 結(jié)論
雄安新區(qū)“千年秀林”工程是國家重點(diǎn)項(xiàng)目,造林量大,苗木來源復(fù)雜,極易產(chǎn)生病蟲害且一旦產(chǎn)生會(huì)造成不可估量的后果,因此對(duì)蟲害的預(yù)測(cè)刻不容緩。本文將林業(yè)蟲害的預(yù)測(cè)問題轉(zhuǎn)變?yōu)闀r(shí)間序列預(yù)測(cè)問題??紤]到蟲害預(yù)測(cè)的緊迫性,在蟲害預(yù)測(cè)方面要求的精度較高,提出WOA-BiLSTM-BA網(wǎng)絡(luò)模型,該模型通過WOA對(duì)BiLSTM網(wǎng)絡(luò)的超參數(shù)進(jìn)行迭代尋優(yōu),利用BiLSTM層對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行建模,并在BiLSTM層和全連接層之間添加注意力機(jī)制,最后采用全連接層對(duì)BiLSTM層映射輸出,得到最終的預(yù)測(cè)結(jié)果。以美國白蛾的預(yù)測(cè)為例進(jìn)行開展,得出如下結(jié)論。
1) 采用WOA對(duì)BiLSTM模型的超參數(shù)進(jìn)行迭代尋優(yōu),得到網(wǎng)絡(luò)的最佳組合,避免模型參數(shù)選擇的盲目性,節(jié)省模型的訓(xùn)練時(shí)間,提高蟲害的預(yù)測(cè)精度。
2) 將WOA-BiLSTM-BA與LSTM、BiLSTM及BiLSTM-BA模型進(jìn)行對(duì)比,結(jié)果表明,WOA-BiLSTM-BA的RMSE、R2、MAPE、MAE值分別為0.073、0.989 1、0.227 5、0.056 4,證明WOA和BA模塊進(jìn)一步優(yōu)化模型,提高預(yù)測(cè)精度。
參 考 文 獻(xiàn)
[ 1 ] 孟貴, 劉葉菲, 張旭峰, 等. 1998—2018年我國林業(yè)有害生物災(zāi)情的時(shí)序分析[J]. 林業(yè)科學(xué), 2022, 58(7): 134-143.
[ 2 ] 宋玉雙, 蘇宏鈞, 于海英, 等. 2006—2010年我國林業(yè)有害生物災(zāi)害損失評(píng)估[J]. 中國森林病蟲, 2011, 30(6): 1-4, 24.
[ 3 ] 張學(xué)珍, 賀清雯, 黃季夏. 基于Meta分析的1985—2018年中國森林蟲害的時(shí)空特征及其影響因素[J]. 地理科學(xué)進(jìn)展, 2023, 42(5): 960-970.
[ 4 ] 張善文, 張傳雷, 丁軍. 基于改進(jìn)深度置信網(wǎng)絡(luò)的大棚冬棗病蟲害預(yù)測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(19): 202-208.
Zhang Shanwen, Zhang Chuanlei, Ding Jun. Disease and insect pest forecasting model of greenhouse winter jujube based on modified deep belief network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(19): 202-208.
[ 5 ] Strom J B, Sengupta P P. Predicting preclinical heart failure progression: The rise of machine?learning for population health [J]. JACC Cardiovasc Imaging, 2022, 15(2): 209-211.
[ 6 ] Mavaie P, Holder L, Beck D, et al. Predicting environmentally responsive transgenerational differential DNA methylated regions (epimutations) in the genome using a hybrid deep?machine learning approach [J]. BMC Bioinformatics, 2021, 22(1): 575.
[ 7 ] Van Der Burgh H K, Schmidt R, Westeneng H J, et al. Deep learning predictions of survival based on MRI in amyotrophic lateral sclerosis [J]. Neuroimage Clin, 2017, 13: 361-369.
[ 8 ] Bibi M, Hanif M K, Sarwar M U, et al. Monitoring population phenology of Asian citrus psyllid using deep learning [J]. Complexity, 2021: 4644213.
[ 9 ] Zhao Z, Yang M, Yang L, et al. Predicting the spread of forest diseases and pests [J]. IEEE Access, 2020, 8: 199803-199812.
[10] 張文一, 景天忠, 嚴(yán)善春. 基于機(jī)器學(xué)習(xí)的落葉松毛蟲發(fā)生面積預(yù)測(cè)模型[J]. 北京林業(yè)大學(xué)學(xué)報(bào), 2017, 39(1): 85-93.
Zhang Wenyi, Jing Tianzhong, Yan Shanchun. Studies on prediction models of Dendrolimus superans occurrence area based on machine learning [J]. Journal of Beijing Forestry University, 2017, 39(1): 85-93.
[11] Hochreiter S, Schmidhuber J. Long short?term memory [J]. Neural Computation, 1997, 9(8): 1735-1780.
[12] Deihimi A, Orang O, Showkati H. Short?term electric load and temperature forecasting using wavelet echo state networks with neural reconstruction [J]. Energy, 2013, 57: 382-401.
[13] Kakarla S G, Kondeti P K, Vavilala H P, et al. Weather integrated multiple machine learning models for prediction of dengue prevalence in India [J]. Int J Biometeorol, 2023, 67(2): 285-297.
[14] Kim K?H, Cho J. Predicting potential epidemics of rice diseases in Korea using multi?model ensembles for assessment of climate change impacts with uncertainty information [J]. Climatic Change, 2016, 134(1-2): 327-339.
[15] Xiao Q, Li W, Kai Y, et al. Occurrence prediction of pests and diseases in cotton on the basis of weather factors by long short term memory network [J]. BMC Bioinformatics, 2019, 20(S25): 688.
[16] Chen P, Xiao Q, Zhang J, et al. Occurrence prediction of cotton pests and diseases by bidirectional long short?term memory networks with climate and atmosphere circulation [J]. Computers and Electronics in Agriculture, 2020, 176.
[17] Mirjalili S, Lewis A. The whale optimization algorithm [J]. Advances in Engineering Software, 2016, 95: 51-67.
[18] 李冬輝, 劉功尚, 高龍. 基于Inception-LSTM-Attention的冷水機(jī)組傳感器偏差故障診斷方法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023, 54(1): 102-112.
Li Donghui, Liu Gongshang, Gao Long. Fault diagnosis method of chiller sensor deviation based on Inception-LSTM-Attention [J]. Journal of Central South University(Science and Technology), 2023, 54(1): 102-112.
[19] Tang J, Li P, Huang X, et al. An exact zoeppritz based prestack inversion using whale optimization particle filter algorithm under bayesian framework [J]. Ieee Transactions on Geoscience and Remote Sensing, 2023, 61.
[20] Kong D, Chen Y, Li N, et al. Tool wear estimation in end milling of titanium alloy using NPE and a novel WOA-SVM model [J]. Ieee Transactions on Instrumentation and Measurement, 2020, 69(7): 5219-5232.
[21] Bahdanau D. Neural machine translation by jointly learning to align and translate [J]. arxiv preprint arxiv: 1409. 0473, 2014.
中國農(nóng)機(jī)化學(xué)報(bào)2024年11期