摘 要:準確有效地預(yù)測降水量有利于農(nóng)業(yè)生產(chǎn)發(fā)展的規(guī)劃、水資源管理以及自然災(zāi)害的預(yù)防等方面,對于干旱半干旱地區(qū)作用更為顯著。該文利用慶陽市2023年1月至2024年1月的降水?dāng)?shù)據(jù),基于包裝法中的遞歸特征消除,迭代移除不重要的特征,后使用隨機森林模型對該數(shù)據(jù)進行分析和預(yù)測。結(jié)果表明,通過對2種方法的整合使用,能夠使模型具有良好的預(yù)測性能,且對慶陽市降水時刻與降水量作出較好的預(yù)測。該文研究內(nèi)容對其他地市的降水量預(yù)測具有參考價值,也對當(dāng)?shù)氐乃Y源合理利用以及促進當(dāng)?shù)厣鐣?jīng)濟可持續(xù)發(fā)展具有十分重要的意義。
關(guān)鍵詞:包裝法;遞歸特征消除;特征選擇;隨機森林;降水預(yù)測
中圖分類號:P457.6 文獻標志碼:A 文章編號:2096-9902(2024)19-0010-04
Abstract: Accurately and effectively predicting precipitation is conducive to the planning of agricultural production development, water resources management and prevention of natural disasters, and is more significant in arid and semi-arid areas. This paper uses the precipitation data of Qingyang City from January 2023 to January 2024, iteratively removes unimportant features based on recursive feature elimination in the packaging method, and then uses the random forest model to analyze and predict the data. The results show that by integrating the two methods, the model can have good prediction performance, and can make a good prediction for precipitation time and precipitation amount in Qingyang City. The research content in this paper also has reference value for precipitation prediction in other cities, and is also of great significance to the rational use of local water resources and the promotion of sustainable local social and economic development.
Keywords: packaging method; recursive feature elimination; feature selection; random forest; precipitation prediction
近年來,隨著區(qū)域經(jīng)濟發(fā)展和流域開發(fā)在國民經(jīng)濟的地位日趨提高,對降水量預(yù)報提出了更高的要求。同時,提高降水量的精細化預(yù)報水平是現(xiàn)如今很多行業(yè)共有的需求。慶陽市作為我國西北地區(qū)的重要糧倉,農(nóng)業(yè)發(fā)達,對降水預(yù)測的需求更高。隨著大數(shù)據(jù)時代的到來,相比于傳統(tǒng)方法,機器學(xué)習(xí)算法可以更有效地提高降水量預(yù)測的精度。準確地預(yù)測慶陽市降水量對于該地區(qū)農(nóng)業(yè)生產(chǎn)[1]、社會經(jīng)濟發(fā)展[2]、水資源合理利用[3]及防災(zāi)減災(zāi)[4]等方面都有積極影響,并對促進當(dāng)?shù)厣鐣?jīng)濟的可持續(xù)發(fā)展、提高人民生活質(zhì)量具有十分重要的意義。
1 材料與方法
1.1 研究區(qū)域概況
慶陽市位于中國西部地區(qū)的甘肅省東部,總面積27 119 km2,下轄1個區(qū)和7個縣,古稱慶州,常被稱為“隴東”,是中國“第一塊舊石器”的發(fā)現(xiàn)地,也是中醫(yī)鼻祖岐伯的出生地、中醫(yī)藥文化的發(fā)祥地。慶陽還是甘肅的革命老區(qū),長慶油田的發(fā)源地,因此被譽為“紅色圣地、岐黃故里、農(nóng)耕之源、能源新都”。慶陽是中華民族早期農(nóng)耕文明的發(fā)祥地之一,素有“隴東糧倉”的美稱。慶陽市屬大陸性氣候,冬季常受西北風(fēng)影響,夏季多為東南風(fēng),冬季干冷而晴朗,夏季炎熱而多雨。降雨量南多北少,氣溫南部高于北部,年平均氣溫在9.5~10.7 ℃,無霜期約為140~180 d。年日照時數(shù)2 213.4~2 540.4 h,太陽總輻射量125~145 kcal/m2,地面平均蒸發(fā)量為520 mm,總體上呈現(xiàn)出干旱、溫和、陽光充足的特點。
1.2 數(shù)據(jù)來源及變量選取
本文所使用的數(shù)據(jù)均來自美國國家大氣研究中心、計算與信息系統(tǒng)實驗室研究數(shù)據(jù)檔案ds094.0-NCEP氣候預(yù)報系統(tǒng)版本2(CFSv2)6小時產(chǎn)品(https://rda.ucar.edu/datasets/ds094-0/)。該數(shù)據(jù)檔案收錄的數(shù)據(jù)時間尺度為2011年1月至當(dāng)前日期,空間尺度為全球,空間分辨率為0.5°×0.5°的網(wǎng)格數(shù)據(jù),時間頻率為6 h。本文所使用的數(shù)據(jù)時間尺度為2023年1月至2024年1月,數(shù)據(jù)參數(shù)包括總降水量、溫度、相對濕度、蒸騰作用、冠層水分蒸發(fā)、裸土直接蒸發(fā)、臭氧總量、地?zé)嵬?、露點溫度、風(fēng)的u分量、晴空向下長波通量和向下短波輻射通量等24個指標,每項指標包含1 461個數(shù)據(jù)。
1.3 研究方法
1.3.1 包裝法
高維數(shù)據(jù)的特征選擇算法主要分為篩選法(Filter)、包裝法(Wrapper)、嵌入法(Embedded)以及集成法(Ensemble)4類。包裝法是一種基于機器學(xué)習(xí)模型性能評估的特征選擇方法,與其他3種不同,包裝法直接使用特定機器學(xué)習(xí)模型進行特征選擇,以評估特征的貢獻,并選擇最佳的特征子集。包裝法的基本思想是:對于給定的特征子集,使用一個特定的機器學(xué)習(xí)算法進行訓(xùn)練,并通過交叉驗證或者留出法等方式評估模型的性能。根據(jù)模型的性能表現(xiàn),對特征子集進行評分,然后選擇性能最佳的特征子集作為最終的特征集合。這個過程可以通過遞歸地添加或刪除特征來進行,直到達到某個預(yù)設(shè)的停止條件。主要的包裝法有以下4種:遞歸特征消除(Recursive Feature Elimination)、前向選擇(Forward Selection)、后向選擇(Backward Elimination)以及遞歸特征加入(Recursive Feature are Added)。本文主要使用基于隨機森林的遞歸特征消除法來篩選特征,相較于其他算法,此算法具有較好的特征選擇準確率,迭代次數(shù)少,且篩選出的特征子集有較好的一致性,對大數(shù)據(jù)集篩選也具有良好的效果[5]。
1.3.2 隨機森林算法
隨機森林是一種重要且有用的集成學(xué)習(xí)方法,具有靈活簡單、適應(yīng)能力強、應(yīng)用范圍廣等特點,在眾多領(lǐng)域都有良好的性質(zhì),是一種常見的機器學(xué)習(xí)方法[6]。決策樹作為隨機森林的基本單元,有著較好的泛化能力,既可以完成分類任務(wù)也適用于回歸問題。所以基于隨機森林算法對于分類和回歸問題的優(yōu)良性能,本文在特征選取及對降水量作回歸預(yù)測方面都選取了隨機森林這種算法。一棵決策樹的建立通常包含特征選擇、決策樹生成和剪枝3個部分。在決策樹生成過程中,考慮全部特征可能會帶來過擬合問題,決策樹的剪枝就是通過去掉部分細分的結(jié)點來提高決策樹泛化能力的過程。
1.3.3 回歸模型評價指標
在本文的研究中,分別選擇均方根誤差(Root Mean Square Error,RMSE)和絕對平均誤差(Mean Absolute Error,MAE)作為回歸模型精度的評價指標。RMSE和 MAE都是常用的評價模型的指標。RMSE不僅考慮了預(yù)測模型的方差,也包含模型的偏差。而MAE通常用于衡量預(yù)測值與觀測值之間的緊密程度。這2個指標的計算公式為
式中:fi表示模型得到的降水量預(yù)測值,yi為降水量真實值,n表示測試集樣本數(shù)量。
2 結(jié)果與分析
2.1 特征重要性的選擇分析
為了確定數(shù)據(jù)集中哪些自變量特征對因變量總降水量的預(yù)測最為關(guān)鍵,使用了基于隨機森林的遞歸特征消除(RFE)法。它利用機器學(xué)習(xí)模型來評估特征的重要性,并逐步剔除不重要的特征,直到達到指定的數(shù)量為止。
在研究中,首先訓(xùn)練了一個隨機森林模型,然后使用RFE對特征進行遞歸消除,選取了重要性前12的特征作為最終的特征集合,這些特征被認為對因變量總降水量的預(yù)測最具有影響力。為更明顯地顯示對于23個自變量的選擇,將所有自變量的特征重要性得分(特征重要性得分是隨機森林模型根據(jù)特征對目標變量的預(yù)測貢獻度進行計算的,得分越高表示該特征對目標變量的影響越大)以可視圖的形式展示如圖1所示。
根據(jù)可視化圖中變量特征的重要性程度,最終選擇的12個變量:相對濕度、冠層水分蒸發(fā)、動量通量u分量、溫度、磨擦速度、動量通量v分量、向下長波輻射通量、露點溫度、感熱通量、臭氧總量、蒸騰作用和裸土直接蒸發(fā)。
2.2 相關(guān)性分析與偏相關(guān)性分析
相關(guān)性分析和偏相關(guān)性分析是2種常見的統(tǒng)計方法。相關(guān)性分析是指對2個或多個具有相關(guān)性的變量元素進行分析,以確定它們之間的線性關(guān)系,即當(dāng)一個變量的值發(fā)生變化時,另一個變量的值是如何相應(yīng)地發(fā)生變化的。與此相反,偏相關(guān)性分析則旨在確定2個變量之間的關(guān)系,同時控制一個或多個其他變量的影響。它可以幫助研究者了解在控制其他因素的情況下,2個變量之間的獨立關(guān)系。相關(guān)系數(shù)與偏相關(guān)系數(shù)的取值范圍都在-1到1之間,通常它們的絕對值越接近于1,表示2個變量之間的關(guān)系越強。而P值用于判斷相關(guān)系數(shù)和偏相關(guān)系數(shù)的統(tǒng)計學(xué)意義,一般而言,如果P值小于0.05,則認為它們在統(tǒng)計學(xué)上有意義。
由表1可以看出,在5%顯著性水平下,篩選后保留的12個變量與總降水量的相關(guān)性均顯著,且偏相關(guān)性大多數(shù)也顯著,說明通過基于隨機森林的遞歸特征消除法選擇后的特征可以用于降水預(yù)測。
2.3 模型回歸預(yù)測結(jié)果分析
由表2可得,隨機森林預(yù)測模型的RMSE=1.069 993,MAE=0.267 631,考慮到目標變量的取值范圍比較大,且模型能夠在這種情況下預(yù)測得到比較準確的結(jié)果,可以說RMSE和MAE的值是可以接受的,并且反映了模型的預(yù)測誤差比較小,模型能夠很好地預(yù)測目標變量的值,這也被視為一個良好的模型性能表現(xiàn)。
圖2展示了部分測試樣本的隨機森林預(yù)測模型的擬合效果。從圖中可以看出,該模型對于大多數(shù)降水時刻能夠準確預(yù)測,并且在定量數(shù)據(jù)方面表現(xiàn)良好。然而,當(dāng)總降水量顯著增加時,模型的擬合程度仍有改進的空間。
3 精確降水預(yù)測對農(nóng)業(yè)生產(chǎn)的影響
3.1 及時調(diào)整種植計劃
通過提前知道未來一段時間內(nèi)的降水量,農(nóng)民可以及時地調(diào)整種植計劃,選擇適宜的作物品種和種植時間。例如,如果預(yù)測到某一地區(qū)即將迎來干旱期,農(nóng)民可以選擇耐旱性較強的作物進行種植;反之,如果預(yù)測到將有大量降雨,農(nóng)民則可以考慮種植一些對水分需求較大的作物。這不僅可以保證作物的正常生長,還能提高產(chǎn)量和質(zhì)量。
3.2 合理安排灌溉及排水
準確的降水預(yù)測還有助于農(nóng)民合理安排灌溉和排水工作。在干旱期間,農(nóng)民可以通過灌溉為作物提供必要的水分,避免因缺水而導(dǎo)致減產(chǎn)甚至絕收;在多雨季節(jié),農(nóng)民則可以提前做好排水工作,防止農(nóng)田積水過多而引起作物根部腐爛或其他病害。
3.3 減少或避免自然災(zāi)害損失
準確的降水預(yù)測還可以幫助農(nóng)民更好地應(yīng)對自然災(zāi)害。通過了解可能出現(xiàn)極端天氣事件的概率和時間,農(nóng)民可以及時采取相應(yīng)的防范和應(yīng)對措施,減少災(zāi)害造成的損失。同時,這也為政府和社會組織制定救災(zāi)策略和規(guī)劃提供了科學(xué)依據(jù)。
4 結(jié)束語
降水的精確化預(yù)測對地方生產(chǎn)生活有著至關(guān)重要的作用。本文通過遞歸特征消除法和隨機森林算法對慶陽市一年的降水?dāng)?shù)據(jù)進行模型建立,得出以下結(jié)論:利用隨機森林的特征降維能力,引入包裝法中的遞歸特征消除法來提高特征選擇的穩(wěn)定性。通過綜合2種方法,提升了后續(xù)隨機森林算法中的特征子集的一致性,減少了特征選擇程序的迭代次數(shù),并在處理大數(shù)據(jù)集時取得了良好的效果。在實際數(shù)據(jù)分析中,選取慶陽市降水?dāng)?shù)據(jù),以最終選擇的12個氣象要素建立了隨機森林預(yù)測模型,通過最終結(jié)果的分析表明,該模型在回歸預(yù)測方面表現(xiàn)出色。
未來的工作還可以從以下幾個角度展開,以提升預(yù)測的準確度。
1)考慮更多的機器學(xué)習(xí)方法。在本文中僅僅考慮了最為常用的隨機森林算法,除此之外,還有許多機器學(xué)習(xí)方法如支持向量機、k-近鄰算法等[7],它們與遞歸特征消除算法的結(jié)合也可能取得更好的特征選擇效果。
2)考慮張量在預(yù)測中的作用。張量作為一種高階數(shù)據(jù)形式,其多維性與降水?dāng)?shù)據(jù)的類型不謀而合,合理地使用張量來處理降水?dāng)?shù)據(jù)中的多維要素可能會使預(yù)測結(jié)果更加準確有效[8-10]。
3)考慮多種回歸預(yù)測模型。本文中的預(yù)測對于實際降水量過高的情況表現(xiàn)得不盡如人意,可以考慮其他回歸預(yù)測模型,如BP神經(jīng)網(wǎng)絡(luò)預(yù)測[11]等。
參考文獻:
[1] 陳昌毓.甘肅干旱半干旱地區(qū)降水特征及其對農(nóng)業(yè)生產(chǎn)的影響[J].干旱區(qū)資源與環(huán)境,1995,9(1):25-33.
[2] 李佳偉,左其亭,馬軍霞.新疆水資源-經(jīng)濟社會-生態(tài)環(huán)境時空演變特征分析[J].北京師范大學(xué)學(xué)報(自然科學(xué)版),2020,56(4):591-599.
[3] 任博.基于旱澇指標的遼寧省水資源應(yīng)急管理影響效應(yīng)研究[D].大連:遼寧師范大學(xué),2023.
[4] 詹德權(quán).新技術(shù)在氣象防災(zāi)減災(zāi)中的應(yīng)用進展及成效[J].海峽科學(xué),2023(11):23-26.
[5] 馮曉榮,瞿國慶.基于深度學(xué)習(xí)與隨機森林的高維數(shù)據(jù)特征選擇[J].計算機工程與設(shè)計,2019,40(9):2494-2501.
[6] 李航.統(tǒng)計學(xué)習(xí)方法[M].2版.北京:清華大學(xué)出版社,2019.
[7] 李智裕.基于機器學(xué)習(xí)的氣候降水預(yù)測模型[D].成都:成都理工大學(xué),2021.
[8] 楊兵.基于張量數(shù)據(jù)的機器學(xué)習(xí)方法研究與應(yīng)用[D].北京:中國農(nóng)業(yè)大學(xué),2014.
[9] 莫乃榕.張量分析[M].武漢:華中科技大學(xué)出版社,2023.
[10] 黃克智,薛明德,陸明萬.張量分析[M].3版.北京:清華大學(xué)出版社,2019.
[11] 智協(xié)飛,張珂珺,田燁,等.基于神經(jīng)網(wǎng)絡(luò)和地理信息的華東及華南地區(qū)降水概率預(yù)報[J].大氣科學(xué)學(xué)報,2021,44(3):381-393.