李磊+牟少敏+林中琦
摘 要:棉蚜是棉區(qū)的主要農(nóng)業(yè)害蟲(chóng)之一,對(duì)于棉花的產(chǎn)量和質(zhì)量影響較大。為了準(zhǔn)確地對(duì)棉蚜蟲(chóng)害的等級(jí)進(jìn)行分類(lèi)預(yù)測(cè),以便采取科學(xué)的防治措施,該研究對(duì)山東省濱州地區(qū)1990—2009年的20年中5—9月的平均氣溫、降水量、相對(duì)濕度、日照時(shí)數(shù)等氣象數(shù)據(jù)、棉蚜天敵數(shù)據(jù)與棉蚜蟲(chóng)害數(shù)據(jù)進(jìn)行了相關(guān)性分析,篩選后保留的影響因子數(shù)據(jù)構(gòu)建隨機(jī)森林棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)模型。結(jié)果表明:隨機(jī)森林模型的OOB為5.7%,等級(jí)的誤分率為0.09和0.019,經(jīng)測(cè)試集檢驗(yàn),模型預(yù)測(cè)的準(zhǔn)確率為82.2%。模型泛化性好,等級(jí)的誤分率低。
關(guān)鍵詞:隨機(jī)森林;棉蚜;氣象因子;等級(jí)預(yù)測(cè)
中圖分類(lèi)號(hào) TP391;S431 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1007-7731(2017)01-0018-03
Abstract:Cotton aphid is one of the main agricultural pests of cotton,for greater effects on the yield and quality of cotton. In order to accurately classify the level of cotton aphid pest forecast,through the acquisition of Binzhou area of Shandong Province region from May to September in 1990-2009,average temperature,precipitation,relative humidity,sunshine hours and other meteorological data and cotton aphid enemies and Aphis gossypii pest data correlation analysis,screening of meteorological data to build a random forest pests and Aphis gossypii level prediction model.Experimental results show that the random forest model of OOB was 5.7%,the level of point error rate was 0.09 and 0.019,have examined the test set and model prediction accuracy is 82.2%.The generalization of the model is good,and the rate of misclassification is low.
Key words:Random forest;Cotton aphid;Meteorological factors;level Prediction
棉花是我國(guó)重要的經(jīng)濟(jì)作物之一,山東省濱州地區(qū)棉花種植面積廣泛。棉蚜是造成棉花減產(chǎn)的主要害蟲(chóng)之一,由于其發(fā)生時(shí)間長(zhǎng),繁殖速度快,危害嚴(yán)重且防治困難,在一定程度上制約了濱州地區(qū)棉花的優(yōu)質(zhì)和高產(chǎn)。而氣象條件和天敵數(shù)量均對(duì)棉蚜產(chǎn)生直接的影響,為有效防治棉蚜的危害,學(xué)者們對(duì)棉蚜蟲(chóng)害的預(yù)測(cè)進(jìn)行了大量的研究。如張金[1]等采用逐步判別分析法分析了氣候條件和棉蚜蟲(chóng)害等級(jí)的關(guān)系,構(gòu)建了新疆石河子地區(qū)棉蚜多元線性回歸預(yù)測(cè)模型。吳昊[2]等對(duì)九江鄱陽(yáng)湖地區(qū)棉蚜發(fā)生規(guī)律和預(yù)報(bào)方法進(jìn)行了研究,以豐富該地區(qū)的棉蚜預(yù)報(bào)方法。慕彩云[3]等對(duì)東疆地區(qū)的棉蚜預(yù)測(cè)構(gòu)建了日預(yù)測(cè)、月預(yù)測(cè)及旬預(yù)測(cè)的線性回歸模型。目前,在棉蚜預(yù)測(cè)模型的構(gòu)建中多運(yùn)用線性回歸,但是在線性回歸分析中采用何種因子進(jìn)行表達(dá)只是一種推測(cè),從而影響了因子的多樣性和不可測(cè)性,使得回歸分析在某些情況下的使用受到限制。
隨機(jī)森林在運(yùn)算量沒(méi)有顯著提高的前提下提高了預(yù)測(cè)精度,并且對(duì)于多元共線性不敏感,對(duì)缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健[4],而且模型訓(xùn)練速度快,樣本選擇具有隨機(jī)性,不易產(chǎn)生過(guò)擬合。為此,本實(shí)驗(yàn)將隨機(jī)森林用于棉蚜蟲(chóng)害等級(jí)的短期預(yù)測(cè)中,提高了棉蚜預(yù)測(cè)的效率和準(zhǔn)確率,從而可以及時(shí)地為農(nóng)業(yè)生產(chǎn)者提供準(zhǔn)確的預(yù)警信息,提前采取防治措施,降低棉蚜對(duì)棉花的危害。
1 隨機(jī)森林算法
隨機(jī)森林算法[5]是2001年加利福尼亞大學(xué)的Leo Breiman提出的,是一種由多個(gè)決策樹(shù)組成的集成分類(lèi)算法。集成學(xué)習(xí)現(xiàn)已成為國(guó)際機(jī)器學(xué)習(xí)界研究的熱點(diǎn)機(jī)器學(xué)習(xí)范式[6]。隨機(jī)森林中引入了2個(gè)隨機(jī)化過(guò)程,使得不同的分類(lèi)樹(shù)具有不同的分類(lèi)能力,當(dāng)輸入待分類(lèi)樣本時(shí),隨機(jī)森林輸出的結(jié)果由每個(gè)決策樹(shù)的分類(lèi)結(jié)果進(jìn)行投票決定[7-8]。
隨機(jī)森林是一個(gè)樹(shù)型分類(lèi)器的集合。該算法中的元分類(lèi)器是由CART算法組成但沒(méi)有剪枝的分類(lèi)回歸樹(shù)。參數(shù)X是輸入向量;是獨(dú)立分布的隨機(jī)向量,決定單棵決策樹(shù)的生長(zhǎng)過(guò)程。隨機(jī)森林中最重要的是如何構(gòu)造一個(gè)隨機(jī)森林。隨機(jī)森林的算法步驟如下:
(1)假設(shè)數(shù)據(jù)的樣本數(shù)為N,那么每棵決策樹(shù)采樣的樣本數(shù)就是N。在這N個(gè)樣本中有放回的隨機(jī)選擇n(n (2)每個(gè)樣本有M個(gè)屬性,每棵決策樹(shù)的節(jié)點(diǎn)需要分裂時(shí),從這M個(gè)屬性中隨機(jī)的選取m(m (3)每棵決策樹(shù)的每個(gè)節(jié)點(diǎn)分裂都是按照步驟(2)進(jìn)行,使每個(gè)節(jié)點(diǎn)的不純度達(dá)到最小,直到節(jié)點(diǎn)不能分裂為止,不對(duì)樹(shù)進(jìn)行剪枝。 (4)根據(jù)生成的多個(gè)樹(shù)分類(lèi)器對(duì)新的測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,分類(lèi)結(jié)果按每個(gè)樹(shù)分類(lèi)器的投票而決定,即分類(lèi)公式為: 公式(1)中用majority vote表示多數(shù)投票,Ntree表示隨機(jī)森林樹(shù)的個(gè)數(shù)。隨機(jī)森林的隨機(jī)性體現(xiàn)在樣本的隨機(jī)選擇和屬性的隨機(jī)選擇,有了這兩個(gè)因素,即使每棵樹(shù)沒(méi)有進(jìn)行剪枝也不會(huì)出現(xiàn)過(guò)擬合。隨機(jī)森林中兩個(gè)參數(shù)n和m的設(shè)置:隨機(jī)森林樹(shù)的數(shù)量n一般取值比較大,m值一般選取M的平方根。在訓(xùn)練過(guò)程中每次抽樣生成了自助樣本集,全樣本集中約有37%的樣本不會(huì)出現(xiàn)在每一份自助樣本集中,我們稱(chēng)這37%的樣本為袋外數(shù)據(jù)(Out Of Bag,OOB)。OOB可以用來(lái)估計(jì)組合分類(lèi)器的泛化誤差和預(yù)測(cè)分類(lèi)的正確率。
2 實(shí)驗(yàn)對(duì)象及數(shù)據(jù)來(lái)源
2.1 棉蚜數(shù)據(jù) 棉蚜是棉區(qū)的主要害蟲(chóng)之一,本實(shí)驗(yàn)中棉蚜的數(shù)據(jù)來(lái)源于濱州市植保站對(duì)1990—2009年20年棉蚜百株蚜量動(dòng)態(tài)監(jiān)測(cè)的統(tǒng)計(jì)。棉蚜的動(dòng)態(tài)監(jiān)測(cè)從每年的5月開(kāi)始進(jìn)行,直到棉田的棉蚜完全消失。棉田調(diào)查為隨機(jī)取樣,通過(guò)對(duì)取樣點(diǎn)每株棉花上棉蚜記數(shù),最后換算為百株蚜量,為棉蚜蟲(chóng)害等級(jí)分類(lèi)提供劃分依據(jù)。棉蚜的發(fā)生程度分級(jí)標(biāo)準(zhǔn)按照2010中國(guó)農(nóng)業(yè)出版社出版的《主要農(nóng)作物病蟲(chóng)害測(cè)報(bào)技術(shù)規(guī)范應(yīng)用手冊(cè)》進(jìn)行劃分等級(jí)。棉蚜發(fā)生程度分級(jí)標(biāo)準(zhǔn)見(jiàn)表1。
2.2 氣象和天敵數(shù)據(jù) 濱州市位于山東省北部、黃河三角洲腹地、渤海灣西南岸,屬暖溫帶亞濕潤(rùn)季風(fēng)氣候。棉蚜發(fā)育繁殖所需要的適宜溫度逐步的提高,因此發(fā)生時(shí)間為每年的5—9月份,所以實(shí)驗(yàn)所用的氣象數(shù)據(jù)為5—9月份采集到的數(shù)據(jù)。采集到的氣象數(shù)據(jù)包括平均氣溫、平均相對(duì)濕度、平均水汽壓、日最高氣溫、日最低氣溫、日照時(shí)數(shù)等因子。棉蚜天敵數(shù)據(jù)來(lái)源于濱州市測(cè)報(bào)站5—9月份的動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù)。
3 棉蚜等級(jí)預(yù)測(cè)隨機(jī)森林模型
3.1 影響因子的相關(guān)性分析 從濱州市采集到的數(shù)據(jù)中,包含了15個(gè)影響因子數(shù)據(jù):20-20時(shí)降水量(X1),極大風(fēng)速(X2),平均本站氣壓(X3),平均風(fēng)速(X4),平均氣溫(X5),平均水汽壓(X6),平均相對(duì)濕度(X7),日照時(shí)數(shù)(X8),日最低本站氣壓(X9),日最低氣溫(X10),日最高本站氣壓(X11),日最高氣溫(X12),最大風(fēng)速(X13),最小相對(duì)濕度(X14),天敵數(shù)據(jù)(X15)。為了減少變量的冗余,提高因子的獨(dú)立性,對(duì)這15個(gè)影響因子用R進(jìn)行皮爾遜相關(guān)性分析,求得影響因子與等級(jí)的相關(guān)系數(shù)。用R語(yǔ)言進(jìn)行因子相關(guān)性分析后得到的相關(guān)系數(shù)如表2。通過(guò)表2中的相關(guān)系數(shù)可以看出,因子中的20-20時(shí)的降水量,平均風(fēng)速,日照時(shí)數(shù),最大風(fēng)速這4個(gè)氣象因子的相關(guān)系數(shù)偏小,說(shuō)明這4個(gè)氣象因子對(duì)于等級(jí)的分類(lèi)預(yù)測(cè)影響較弱。棉蚜的增長(zhǎng)受相對(duì)濕度影響較大,雨量會(huì)影響相對(duì)濕度,對(duì)20-20時(shí)降水量因子進(jìn)行了保留。篩選后的部分?jǐn)?shù)據(jù)集如表3所示,表中的一條記錄表示5—9月份采集到的1d的數(shù)據(jù)。
3.2 棉蚜等級(jí)預(yù)測(cè)隨機(jī)森林模型 基于隨機(jī)森林的棉蚜短期預(yù)測(cè)模型如下:(1)有放回的隨機(jī)抽樣。隨機(jī)森林對(duì)訓(xùn)練集中的樣本有放回的隨機(jī)選擇,選擇的樣本數(shù)小于訓(xùn)練集總的樣本數(shù)。(2)設(shè)置模型參數(shù)。隨機(jī)森林預(yù)測(cè)模型中樹(shù)的個(gè)數(shù)n取100[9],通過(guò)計(jì)算得出節(jié)點(diǎn)m為4。(3)模型訓(xùn)練。通過(guò)訓(xùn)練集中選取的樣本對(duì)模型進(jìn)行訓(xùn)練,得到模型的OOB和模型內(nèi)分類(lèi)的誤差率。(4)預(yù)測(cè)。使用構(gòu)建的隨機(jī)森林預(yù)測(cè)模型對(duì)測(cè)試集進(jìn)行分類(lèi)預(yù)測(cè),結(jié)合表1得到棉蚜的發(fā)生程度。
3.3 實(shí)驗(yàn)結(jié)果與分析 用在濱州市采集到的樣本數(shù)據(jù)(表3)構(gòu)建隨機(jī)森林模型,使用OOB和分類(lèi)準(zhǔn)確率對(duì)模型進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)得到模型的OOB為5.7%。模型的泛化誤差不大,說(shuō)明隨機(jī)森林預(yù)測(cè)模型的泛化性比較好。隨機(jī)森林的混淆矩陣顯示等級(jí)分類(lèi)誤差如表4所示。從表4可以看出,對(duì)于等級(jí)1的分類(lèi)錯(cuò)誤率為0.095,對(duì)于等級(jí)2的分類(lèi)錯(cuò)誤率為0.019。模型中每一類(lèi)的分類(lèi)錯(cuò)誤率都比較小,說(shuō)明棉蚜蟲(chóng)害等級(jí)判別的準(zhǔn)確率比較高。
測(cè)試樣本的分類(lèi)準(zhǔn)確率為82.2%,實(shí)驗(yàn)結(jié)果的混淆矩陣如表5所示。隨機(jī)森林的結(jié)果內(nèi)含有判別函數(shù),輸入采集到的樣本數(shù)據(jù)可以判別棉蚜的等級(jí),部分棉蚜等級(jí)預(yù)測(cè)結(jié)果如表6所示。結(jié)合表1得到棉蚜的發(fā)生程度,可以提前對(duì)棉區(qū)采取相應(yīng)的防治措施。
4 結(jié)論
將隨機(jī)森林用于分類(lèi)預(yù)測(cè)中,幾乎不需要輸入準(zhǔn)備,模型訓(xùn)練速度快,樣本選擇具有隨機(jī)性,而且隨機(jī)森林不易產(chǎn)生過(guò)擬合,從而有更好的效率和準(zhǔn)確率。本次實(shí)驗(yàn)將隨機(jī)森林用于棉蚜等級(jí)的短期預(yù)測(cè)中,結(jié)果表明,該模型泛化性好,誤分類(lèi)率低。隨機(jī)森林為棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)提供了一種新的方法。
通過(guò)采集更多的影響棉蚜生長(zhǎng)的影響因子數(shù)據(jù)以及棉蚜數(shù)據(jù)訓(xùn)練模型,提高隨機(jī)森林模型的預(yù)測(cè)準(zhǔn)確率,從而準(zhǔn)確及時(shí)地對(duì)棉蚜等級(jí)作出預(yù)測(cè),降低棉蚜的危害,實(shí)現(xiàn)棉花生產(chǎn)的高產(chǎn)和優(yōu)產(chǎn)。
參考文獻(xiàn)
[1]張金,王佩玲.新疆石河子地區(qū)棉蚜發(fā)生程度預(yù)測(cè)模型研究[J].新疆農(nóng)業(yè)科學(xué),2008,45(3):438-441.
[2]吳昊,徐梅珍,劉定忠.九江鄱陽(yáng)湖區(qū)棉蚜發(fā)生規(guī)律與預(yù)報(bào)方法研究[J].安徽農(nóng)業(yè)科學(xué),2013,41(1):113-116.
[3]慕彩蕓,車(chē)罡,道然·加帕依,朱曉華.新疆東疆棉蚜發(fā)生發(fā)展氣象等級(jí)預(yù)報(bào)模型[J].干旱氣象,2010,28(4):489-493.
[4]Iverson L R,Prasad A M,Matthews S N,et al.Estimating potential habitat for 134 eastern US tree species under six climate scenarios[J].Forest Ecology & Management,2008,254(3):390–406.
[5]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.
[6]溫廷新,張波,邵良杉.煤與瓦斯突出預(yù)測(cè)的隨機(jī)森林模型[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(10):233-237.
[7]董師師,黃哲學(xué).隨機(jī)森林理論淺析[J].集成技術(shù),2013,2(1):1-7.
[8]楊帆,林琛,周綺鳳,等.基于隨機(jī)森林的潛在 k 近鄰算法其在基因表達(dá)數(shù)據(jù)分類(lèi)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2012,32(4):815-825.
[9]劉敏,郎榮玲,曹永斌.隨機(jī)森林中樹(shù)的數(shù)量[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(5):126-131.
(責(zé)編:張宏民)