梁慧玲,郭福濤,蘇漳文,王文輝,林芳芳,林玉蕊*
(1.福建農林大學林學院,福州,350002;2.福建農林大學計算機與信息學院,福州,350002)
?
基于隨機森林算法的福建省林火發(fā)生主要氣象因子分析
梁慧玲1,2,郭福濤1*,蘇漳文1,王文輝1,林芳芳2,林玉蕊2*
(1.福建農林大學林學院,福州,350002;2.福建農林大學計算機與信息學院,福州,350002)
摘要:應用“隨機森林”算法,以福建省22個國家級氣象站每日氣象數(shù)據和2000年~2003年間林火火點衛(wèi)星解譯數(shù)據為基礎,對影響福建省林火發(fā)生的主要氣象因子進行分析,并對2004年的林火數(shù)據進行獨立檢驗。研究結果顯示,“日最高地表氣溫”、“日最低地表氣溫”、“日照時數(shù)”、“日最高氣溫”和“日最小相對濕度”等5個氣象因子是影響林火發(fā)生的主要驅動因子,且這5個氣象因子對林火發(fā)生的影響大小為:“日照時數(shù)”>“日最高氣溫”>“日最低地表氣溫”>“日最小相對濕度”>“日最高地表氣溫”;隨機森林算法的擬合結果顯示:隨機森林算法對福建省林火發(fā)生的預測精度為82.3%,表明隨機森林算法對我國福建省林火發(fā)生的預測具有較高的預測能力,可用于基于氣象因子的我國福建省林火發(fā)生的預測預報。本研究可為福建省林火的預測和決策工作提供一定的參考依據。
關鍵詞:氣象因子;林火發(fā)生;福建?。浑S機森林算法
0引言
林火是森林生態(tài)系統(tǒng)重要的干擾因子,對森林更新、演替有重要影響,同時也會對森林資源與環(huán)境造成損失和破壞[1-3]。目前,森林火災已成為一個全球性的問題,引起了各國政府和科研工作者的廣泛關注。已有研究表明,氣候變化是引發(fā)森林火災的一個重要原因,氣候變化會影響森林植被類型、可燃物濕度的變化,進而影響森林火災的發(fā)生及其危害程度[4]。在全球氣候變暖的條件下,森林火災的發(fā)生情況可能會越來越嚴重,防火要求和難度也會隨之加大[5,6]。因此,對森林火災發(fā)生與氣象因子之間的關系進行分析,對森林防火的預測預報和規(guī)劃管理具有十分重要的意義。目前,我國關于林火發(fā)生的預測研究主要集中在北方[2,7-12],對南方林區(qū)火災發(fā)生的預測研究還較少,且以上研究主要運用邏輯斯蒂模型進行林火預測分析,但是在運用邏輯斯蒂模型對林火發(fā)生進行建模分析時,模型無法自動去除變量之間的多重共線性,需要單獨對變量進行共線性診斷,因此存在將可能會顯著的變量提前剔除的風險。
福建省是我國四大林區(qū)之一,森林覆蓋率高達65.95%,位居全國首位,但同時也是我國的林火高發(fā)區(qū)。近年來,已有學者對福建省的林火發(fā)生進行了研究。何等[5](2013)采用GIS圖像處理技術對將樂縣的森林可燃物類型進行了等級劃分,得到不同等級可燃物的分布圖,并基于氣象數(shù)據對該地區(qū)的林火發(fā)生進行了時間尺度和空間尺度上的描述分析。郭等[13](2012)運用聚類分析法對三明地區(qū)的11個區(qū)縣進行了林火等級劃分。紀等[14](2013)運用分形理論,對1987年~2010年福建省森林火災的受災面積時間序列進行了分析。目前國內學者對福建省林火發(fā)生的研究主要采用災害風險指數(shù)法、層次分析法、加權綜合評價法、突變級數(shù)法、灰色拓撲預測法、加權馬爾科夫鏈預測方法和信息擴散理論等方法對福建省的森林火災進行風險評估、等級劃分和林火發(fā)生預測[15-19]。但以上對福建省林火發(fā)生的研究主要集中在對林火發(fā)生等級的劃分與評估,或者僅對林火發(fā)生序列進行預測,而關于林火發(fā)生的驅動因子分析目前研究還不充分。
隨機森林(random forest, RF)算法是一種基于分類和回歸樹(classification and regression trees, CART)的數(shù)據挖掘方法,由Breiman和Cutler[20-22]在2001年提出的一種較新的機器學習算法。目前隨機森林算法主要應用于生態(tài)學領域,并且表現(xiàn)出較高的預測精度[21-23]。近幾年,國外已有少數(shù)學者將隨機森林算法應用于林火的預測預報[20-25],并表現(xiàn)出了很好的預測能力,該算法是目前國際上比較推薦的應用于林火決策因子分析和預測預報的方法。但國內關于隨機森林算法在林火方面的應用還鮮有報道。因此,本文應用"隨機森林"算法,以福建省22個國家級氣象站每日氣象數(shù)據和2000年~2003年間林火火點衛(wèi)星解譯數(shù)據為基礎,對福建省林火發(fā)生的主要驅動因子進行分析,并基于隨機森林算法對福建省林火發(fā)生的預測概率,運用ArcGIS軟件對其進行空間插值,分析福建省林火發(fā)生概率的空間分布特征,且利用2004年的火點數(shù)據進行獨立檢驗。研究結論為當?shù)亓只鸢l(fā)生預測預報與決策工作提供一定的科學依據。
1研究區(qū)域概況
福建省位于我國東南沿海地帶,介于北緯23°33′~28°20′、東經115°50′~120°40′之間(圖1),緊靠北回歸線北面,屬亞熱帶。其氣候區(qū)域差異較大,閩東南沿海區(qū)域屬于南亞熱帶氣候,而閩東北、閩北和閩西屬于中亞熱帶,氣候自然條件十分優(yōu)越,適宜林木的生長,擁有1.15億畝的森林面積,是我國南方林區(qū)的重點省份之一。但是由于氣候條件變化、人類活動等因素的影響,福建省林火發(fā)生愈發(fā)頻繁。據統(tǒng)計,福建省1998年~2007年共發(fā)生4504次林火,其中2004年發(fā)生了1164次火災,1998年林火發(fā)生次數(shù)最少,為156次;僅十年就發(fā)生了40次重大火災[16]。
圖1 研究區(qū)域示意圖Fig.1 Sketch map of the study area
2數(shù)據來源與處理
本文數(shù)據來源包括林火發(fā)生數(shù)據和每日氣象數(shù)據(表1)兩部分。
林火發(fā)生數(shù)據來源于林業(yè)科學數(shù)據中心(http://www.cfsdc.org/indexAction.action?classId=1)提供的福建省2000~2004年衛(wèi)星火點解譯數(shù)據(包括起火地理坐標、火災發(fā)生時間等)。
每日氣象數(shù)據來源于中國氣象數(shù)據共享網絡(http://cdc.cma.gov.cn/),為福建省內22個國家級氣象站的每日氣象數(shù)據,一共包含極大風速的風向等22個氣象因子。本文預先對氣象數(shù)據進行了處理,剔除由于儀器設備損壞而造成的缺失數(shù)據,剩下的氣象因子包括日平均地表氣溫(℃),日最高地表氣溫(℃),日最低地表氣溫(℃),日平均風速(m·s-1),日最大風速(m·s-1),20~20時累計降水量(mm),日平均本站氣壓(hPa),日最高本站氣壓(hPa),日最低本站氣壓(hPa),日照時數(shù)(h),日平均氣溫(℃),日最高氣溫(℃),日最低氣溫(℃),日平均相對濕度(%),日最小相對濕度(%)共15個氣象因子。其提取步驟為:首先,以各氣象站點為中心建立緩沖區(qū);然后,以氣象站點到最外圍緩沖帶為半徑創(chuàng)建圓;最后,提取圓內的火點或隨機點所對應的每日氣象數(shù)據。
表1 氣象因子概況Table 1 The meteorological factors
在應用隨機森林算法對福建省林火發(fā)生數(shù)據構建分類模型時,需要構建一定比例的對照點(非火點)。因此,本文參照前人的研究,應用ArcGIS軟件按照1∶2的比例隨機創(chuàng)建對照火點[7]。
并應用R統(tǒng)計軟件對隨機森林算法進行實現(xiàn)。
3研究方法
隨機森林算法通過聚集大量的分類回歸樹來提高模型的預測精度,可以用來解決分類和回歸問題。與傳統(tǒng)的回歸模型相比,隨機森林算法不需要預先設定函數(shù)的具體形式,可以克服自變量之間的交互作用,而且不容易出現(xiàn)過度擬合的現(xiàn)象[23,26-28]。
隨機森林算法是基于分類回歸樹的非參數(shù)技術,由許多樹組成,且每棵樹的樣本數(shù)據集都通過自助法(bootstrap)重抽樣技術產生,而每次bootstrap重抽樣未被抽到的樣本(out-of-bag,OOB)用來檢驗模型擬合優(yōu)度。
首先,利用bootstrap重抽樣技術從原始數(shù)據集中抽取k個樣本數(shù)據集,每個樣本數(shù)據集的樣本容量均與原始數(shù)據集大小相同;然后,對這k個樣本數(shù)據集分別建立k棵分類樹,得到k個分類結果;最后,對這k個分類結果分別投票表決,從而得到隨機森林的最終分類結果(圖2)[26]。
圖2 隨機森林算法流程圖Fig.2 Random forest algorithm flow chart
隨機森林算法以使袋外誤差最小為原則對模型的特征變量進行選擇,本文調用R統(tǒng)計軟件中的varSelRF程序包對模型的特征變量進行選擇計算。基于隨機森林算法的特征變量選擇的具體步驟為:
第一步:計算每個特征變量的重要性得分,并根據其得分對特征變量進行降序排列;
第二步:確定剔除比例,從當前的特征變量集中剔除對應比例的最不重要的特征變量;
第三步:對第二步保留下來的特征變量重新構建隨機森林;
第四步:重復第二、三步,比較各指標集對應的袋外誤差(errOOB),選取與最小的errOOB相對應的特征子集作為模型的最終指標體系。[30]
其中,Σ是對所有的樹進行求和[22,30,31]。
受試者工作特征曲線(Receiver Operating Characteristic curve,ROC曲線)是一條以假陽性率為橫坐標,真陽性率為縱坐標繪制而成的曲線,其以所有的檢查結果作為可能的診斷閾值,是一種不依賴閾值的檢驗方法,以其曲線下的面積(the area under the curve, AUC)作為模型預測準確性的衡量指標。AUC值在[0.5,1]區(qū)間上變化,AUC值越大,模型的擬合效果越好。一般認為,AUC值等于0.5時等同于一個完全的隨機預測;在(0.5,0.7]之間說明模型的擬合效果較差;在(0.7,0.9]之間說明模型的擬合效果中等;在(0.9,1]之間說明模型的擬合效果非常好[25]。
4結果與分析
為了減少訓練樣本的分布情況對實驗結果的影響,本文將總體樣本數(shù)據隨機的分成60%的訓練樣本和40%的測試樣本[32],其中訓練樣本用于模型的建立,測試樣本用于模型的檢驗,并且重復5次隨機劃分,從而得到5組不同的樣本集和1個全樣本數(shù)據集。首先,分別對5個訓練樣本進行隨機森林算法特征變量的選擇計算,得到5組不同的特征子集,然后在五個樣本特征子集中選擇出現(xiàn)3次及以上的特征變量進入最后全樣本數(shù)據的擬合計算(表2)。
由表2可知,“日最高地表氣溫”、“日最低地表氣溫”、“日照時數(shù)”、“日最高氣溫”和“日最小相對濕度”共5個變量進入了全樣本數(shù)據的擬合階段。
表2 5個隨機樣本數(shù)據及全樣本數(shù)據擬合中的特征集Table 2 The significant variables in five randomlysamples and complete sample
注:+:變量在模型中;-:變量不在模型中。
本文在利用隨機森林算法對5個訓練樣本數(shù)據集和全樣本數(shù)據集進行模型變量選擇之后,分別對所得的6個特征子集進行重要性排序(圖3)。從全樣本的變量排序結果來看,“日照時數(shù)”對林火發(fā)生的影響最大,“日最高氣溫”對林火發(fā)生的影響次之,“日最高地表氣溫”對林火發(fā)生的影響最小。從6個樣本的擬合結果來看,“日照時數(shù)”對林火發(fā)生的影響均高于其他變量對林火發(fā)生的影響。
圖3 影響林火發(fā)生的氣象因子的重要性排序Fig.3 Sort the importance of the meteorological factors of forest fire注:其中平均準確率降低度(Mean Decrease Accuracy)是衡量把一個變量的取值變?yōu)殡S機數(shù),隨機森林算法預測準確性的降低程度,該值越大說明該變量的重要性越大[33]。
應用ROC曲線分析法對隨機森林算法的擬合優(yōu)度進行檢驗。圖4為5個子樣本和全樣本的ROC曲線圖,表3為各樣本的AUC值及其顯著性水平。由表3可知,樣本4的AUC值為0.896,介于(0.7,0.9]之間,說明隨機森林算法對樣本4的擬合效果中等;其余5個樣本的AUC值在(0.9,1]之間,說明隨機森林算法對這5個樣本的擬合效果非常好,且5個子樣本和全樣本的顯著性水平均小于0.001,說明所建立的隨機森林算法具有統(tǒng)計意義,可用于基于氣象因子的福建省森林火災發(fā)生的預測預報。
表3 隨機森林算法的AUC值和顯著性水平Table 3 The AUC and significant levelof random forest algorithm
圖4 隨機森林算法ROC曲線圖Fig.4 ROC curves of random forest algorithm
根據特征變量的選擇結果,計算隨機森林算法對林火發(fā)生的預測準確率(表4)。由表4可知,隨機森林算法對福建省林火發(fā)生的擬合精度較高。從五個樣本數(shù)據的擬合效果來看,隨機森林算法對福建省林火不發(fā)生(Y=0)的預測概率介于68.0%~76.7%之間,對福建省林火發(fā)生(Y=1)的預測概率介于84.3%~87.7%之間,其對林火發(fā)生的預測精度均高于對林火不發(fā)生的預測精度;對福建省林火發(fā)生總體的判別準確率為77.7%~81.9%。根據前5個樣本的變量選擇結果,選取在5個樣本中出現(xiàn)三次及以上的變量進入全樣本數(shù)據的擬合計算,其擬合精度為82.3%,與前5個樣本的擬合結果一致。擬合結果表明,基于氣象因子的隨機森林算法對福建省林火發(fā)生的預測預報具有較高的預測準確率。為了更好地對算法的擬合效果進行分析,本文利用2004年的林火數(shù)據進行獨立檢驗。經計算,隨機森林算法對福建省2004年林火數(shù)據的預測精度為68.6%,擬合效果雖然較2000年~2003年的預測精度低,但其擬合效果仍具有較高的可信度。
本文運用隨機森林算法對全樣本數(shù)據進行擬合計算,得出福建省2000年~2003年1783個火點與隨機點的預測概率,并基于克里格插值法運用ArcGIS軟件對其進行空間插值。由概率分布圖(圖5)可知,基于氣象因子的福建省林火發(fā)生預測概率整體表現(xiàn)較低,但也有高火險地區(qū)零散分布在全省各地市中。結果顯示,龍巖和南平有明顯的高火險區(qū),三明、寧德、福州和漳州也有較高的火險區(qū)。因此,在福建省的火災防護中應加強對這些高火險區(qū)的管理與監(jiān)督,以減少福建省的林火發(fā)生頻數(shù)。
為了更精確的分析隨機森林算法對福建省2000年~2003年林火發(fā)生的擬合優(yōu)度,本文對林火發(fā)生概率的殘差值(林火發(fā)生的真實值(0/1)-林火發(fā)生預測概率)進行空間插值計算,進一步分析隨機森林算法的擬合優(yōu)度[20]。由林火發(fā)生概率殘差圖(圖6)可知,隨機森林算法能準確的對福建省的林火發(fā)生進行預測,其殘差圖大面積趨向于0,低估福建省林火發(fā)生概率的區(qū)域較少。因此,隨機森林算法可用于基于氣象因子的福建省林火發(fā)生的預測預報。
表4 隨機森林算法的預測校正率Table 4 Prediction accuracy of random forest algorithm
圖5 福建省林火發(fā)生概率分布圖Fig.5 Fire probability distribution in Fujian province
圖6 福建省林火發(fā)生概率殘差圖Fig.6 Fire probability residual figure in Fujian province
5結論與討論
本文應用隨機森林算法對我國福建省林火發(fā)生與氣象因子之間的關系進行分析?;陔S機森林算法的變量選擇及其重要性排序結果顯示,“日最高地表氣溫”、“日最低地表氣溫”、“日照時數(shù)”、“日最高氣溫”和“最小相對濕度”共5個變量進入了全樣本數(shù)據的擬合階段,說明這5個氣象因子是影響林火發(fā)生的主要驅動因子,其中“日照時數(shù)”對福建省林火發(fā)生的影響最大,“日最高氣溫”對林火發(fā)生的影響次之,“日最高地表氣溫”對林火發(fā)生的影響最?。弧叭照諘r數(shù)”直接影響林內溫濕度變化,進而間接影響森林可燃物的蒸騰作用和含水率的變化,導致其燃燒性發(fā)生改變。此外,“日照時數(shù)”的顯著差異也是區(qū)別陰雨和晴天的一個重要指標。本研究也揭示了"日照時數(shù)"對林火發(fā)生的重要影響。研究還表明"氣溫"、"相對濕度"同"日照時數(shù)"一樣對森林火災有顯著影響,這也與國外一些學者的研究結論相一致[34,35]。
隨機森林算法的擬合優(yōu)度分析結果顯示,隨機森林算法對福建省林火發(fā)生的預測精度較高,在全樣本數(shù)據的擬合中,其擬合精度為82.3%,表明隨機森林算法可用于基于氣象因子的福建省林火發(fā)生的預測預報。
目前國內關于林火預測預報的研究主要集中在我國北方的大小興安嶺林區(qū),主要是對森林火災與驅動因子的相關關系、森林火災的空間分布格局進行分析或者基于驅動因子對林火發(fā)生進行預測預報,以及對預測模型選擇的研究[8,9,36-38]。郭等[7](2015)分別對大興安嶺塔河地區(qū)森林火災與氣象因子和地形植被之間的關系進行了分析;Zhang等[39](2010)綜合考慮了地形、人為因素和氣象等因素對我國內蒙古呼倫貝爾地區(qū)的林火發(fā)生情況進行了分析;Chang等[40](2013)運用邏輯斯蒂回歸模型對我國黑龍江省的林火發(fā)生與氣象、人為因素和植被類型等因素進行了分析。研究結果表明,地形、人為因素和植被類型等因素對林火發(fā)生具有重要的影響。本研究主要基于氣象因子對福建省的林火發(fā)生進行分析,缺少對地形、植被、人為因素和社會經濟等因素的分析,且沒有考慮空間的異質性,在今后的研究中,可在本研究的基礎上,盡可能多的對這些驅動因子進行分析,以期為福建省的林火發(fā)生預測預報提供更為準確、科學的參考依據。
參考文獻
[1] 張斌. 福建林火的發(fā)生特點與防治對策探討[J]. 福建林業(yè)科技, 1995, 22(4): 81-84.
[2] 彭歡, 等. 基于Logistic的大興安嶺雷擊火預測模型[J]. 東北林業(yè)大學學報, 2014, 42 (7): 166-169.
[3] Chuvieco E, et al. Global characterization of fire activity: towards defining fire regimes from earth observation data[J]. Global Change Biology, 2008, 14(7): 1488-1502.
[4] 陳鋒, 等. 氣候變化對云南省森林火災的影響[J]. 北京林業(yè)大學學報, 2012, 34(6): 7-15.
[5] 何中華, 等. 福建將樂縣森林燃燒性及林火時空分布規(guī)律研究[J]. 湖南農業(yè)科學, 2013, 04: 108-111.
[6] 郭福濤, 等. 不同模型對擬合大興安嶺林火發(fā)生與氣象因素關系的適用性[J]. 應用生態(tài)學報, 2010, 01: 159-164.
[7] 郭福濤, 等. 大興安嶺塔河地區(qū)雷擊火發(fā)生驅動因子綜合分析[J]. 生態(tài)學報, 2015, 35(19):6439-6448.
[8] 秦凱倫, 等. 大興安嶺塔河地區(qū)林火發(fā)生的優(yōu)勢預測模型選擇[J]. 應用生態(tài)學報, 2014, 25(3): 731-737.
[9] 朱沛林, 等. 黑龍江大興安嶺雷擊火概率預測模型研究[J]. 中南林業(yè)科技大學學報, 2014, 34(8): 82-85.
[10] 張偉, 等. 基于Logistic回歸的森林火險天氣等級模型[J]. 東北林業(yè)大學學報, 2013, 41(12): 121-131.
[11] 鄧歐, 等. 基于空間Logistic的黑龍江省林火風險模型與火險區(qū)劃[J]. 農業(yè)工程學報, 2012, 28(8): 200-205.
[12] 郭福濤, 等. 基于負二項和零膨脹負二項回歸模型的大興安嶺地區(qū)雷擊火與氣象因素的關系[J]. 植物生態(tài)學報, 2010, 34(5): 571-577.
[13] 郭懷文, 等. 福建三明地區(qū)森林火險區(qū)劃[J]. 東北林業(yè)大學學報, 2012, 40(11): 70-73.
[14] 紀志榮, 等. 基于時間序列的福建省森林火災分形特征[J]. 福建農林大學學報(自然科學版), 2013, 42(5): 508-511.
[15] 陳華泉. 福建省1990-2009年森林火災災害風險評估[J]. 西南林業(yè)大學學報, 2013, 33(4): 72-76.
[16] 朱學平, 等. 基于突變級數(shù)法的福建省森林火災評價分析[J]. 福建林學院學報, 2011, 31(4): 295-299.
[17] 金旭, 廖善剛. 基于信息擴散理論的福建省森林火災風險評估[J]. 河南大學學報(自然科學版), 2014, 44(2): 190-195.
[18] 曹彥, 等. 加權馬爾科夫鏈在福建省森林火災預測中的應用研究[J]. 西南林業(yè)大學學報, 2014, 34(3): 62-66.
[19] 張典銓. 灰色拓撲預測方法在森林火災預測中的應用[J]. 福建林學院學報, 2005, 25(1): 67-71.
[20] Oliveira S, et al. Modeling spatial patterns of fire occurrence in mediterranean europe using multiple regression and random forest[J]. Forest Ecology and Management, 2012, 275: 117-129.
[21] 李欣海. 隨機森林模型在分類與回歸分析中的應用[J]. 應用昆蟲學報, 2013, 50(4): 1190-1197.
[22] 張雷, 等. 隨機森林算法基本思想及其在生態(tài)學中的應用——以云南松分布模擬為例[J]. 生態(tài)學報, 2014. 34(3): 650-659.
[23] Cutler DR, et al. Random forests for classification in Ecology[J]. Ecology, 2007, 88(11): 2783-2792.
[24] Prasad AM, et al. Newer classification and regression tree techniques: Bagging and random forests for ecological prediction[J]. Ecosystems, 2006, 9(2): 181-199.
[25] Rodrigues M, De la Riva J. An insight into machine-learning algorithms to model human-caused wildfire occurrence[J]. Environmental Modelling & Software, 2014, 57: 192-201.
[26] Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5-32.
[27] 楊沐晞. 基于隨機森林模型的二手房價格評估研究[D]. 湖南: 中南大學, 2012.
[28] 彭國蘭. 隨機森林在企業(yè)信用評估中的應用[D]. 福建: 廈門大學, 2007.
[29] Liaw A, Wiener M. Classification and regression by random forest[J]. Rnews, 2002, 2(3): 18-22.
[30] Genuer R, et al. Variable selection using random forests[J]. Pattern Recognition Letters, 2010, 31(14): 2225-2236.
[31] 武曉巖, 等. 基因表達數(shù)據的隨機森林逐步判別分析方法[J]. 中國衛(wèi)生統(tǒng)計, 2007, 24(2): 151-154.
[32] Rodrigues M, et al. Modeling the spatial variation of the explanatory factors of human-caused wildfires in Spain using geographically weighted logistic regression[J]. Applied Geography, 2014, 48: 52-63.
[33] Liaw A. Package "randomForest"[EB/OL]. http://stat-www.berkele.edu./users/breiman/RandomForests, 2012.
[34] Flannigan MD, et al. Forest fires and climate change[J]. Science of the Total Environment, 2000, 262(3): 221-229.
[35] Wotton BM, et al. Climate change and people-caused forest fire occurrence in Ontario[J]. Climate Change, 2003, 60(3): 275-295.
[36] 于文穎, 等. 大興安嶺林區(qū)火災特征及影響因子[J]. 氣象與環(huán)境學報, 2009, 25(4): 1-5.
[37] 孫海濱, 等. 大興安嶺森林火災與氣象因子相關性研究[J]. 內蒙古農業(yè)大學學報, 2012, 33(5-6): 87-90.
[38] 郭福濤, 等. 應用空間點模式方法研究大興安嶺雷擊火空間分布格局[J]. 生態(tài)學報, 2009, 29(12): 6741-6747.
[39] Zhang ZX, et al. Using GIS spatial analysis and logistic regression to predict the probabilities of human-caused grassland fires [J]. Journal of Arid Environments, 2010, 74(3): 386-393.
[40] Chang Y, et al. Predicting fire occurrence patterns with logistic regression in Heilongjiang Province, China[J]. Landscape Ecology, 2013, 28(10): 1989-2004.
Analysis of meteorological factors on forest fire occurrence
of Fujian based on random forest algorithm
LIANG Huiling1,2, GUO Futao1, SU Zhangwen1,
WANG Wenhui1, LIN Fangfang2, LIN Yurui2
(1. College of Forestry, Fujian Agriculture and Forestry University, Fuzhou 350002, China;
2. College of Computer and Information Sciences, Fujian Agriculture and Forestry University, Fuzhou 350002, China)
Abstract:By Random Forest (RF) algorithm, an analysis of driving-factor on fire occurrence was performed based on the meteorological factors that were provided by the twenty-two national weather stations located in Fujian province and the fire dataset between 2000 and 2003 extracted from the satellite image, and used the dataset of 2004 to independent test. Daily maximum ground surface temperature, daily minimum ground surface temperature, sunshine hours, daily maximum temperature, daily minimum relative humidity were found to be the driving factors on forest fire occurrence. The importance test of predictors showed that the sunshine hours has the strong influence on the fire occurrence, followed by daily maximum temperature, daily minimum ground surface temperature, daily minimum relative humidity and daily maximum ground surface temperature. In addition, the result of model fitting revealed that RF approach performed very well in the prediction of fire occurrence in Fujian and the prediction accuracy reached 82.3%, which indicated that the RF method was suitable for the forest fire prediction of Fujian. Our study can benefit the fire prevention management and plan of Fujian.
Keyword: Meteorological factors; Fire occurrence; Fujian province; Random forest algorithm
DOI:10.3969/j.issn.1004-5309.2015.04.03
文章編號:1004-5309(2015)-00201-08
通訊作者:李陽,E-mail:406541533@qq.com
作者簡介:李陽(1986-),男,河北寧晉人,中國人民武裝警察部隊學院火災物證鑒定中心講師,材料學碩士研究生,主要從事火災調查、火災物證鑒定等相關的教學和研究工作。
收稿日期:2015-07-03;修改日期:2015-10-12
中圖分類號:S762.2;X954
文獻標識碼:A