趙成兵,劉丹秀,謝新平,劉 靜
(安徽建筑大學(xué) 數(shù)理學(xué)院,安徽 合肥 230601)
氣候變化對(duì)人類活動(dòng)產(chǎn)生重要的影響,研究氣候非常有必要。隨著大數(shù)據(jù)時(shí)代的到來(lái),為氣象預(yù)報(bào)提供了更加科學(xué)的技術(shù)支持。由于氣象數(shù)據(jù)與時(shí)間緊密相關(guān),因而可以采用時(shí)間序列的方法對(duì)氣象數(shù)據(jù)進(jìn)行處理及分析。目前對(duì)于時(shí)間序列研究主要分為三個(gè)方面[1-2]:一是傳統(tǒng)統(tǒng)計(jì)模型包括線性模型、自回歸移動(dòng)平均模型(ARIMA)等。如Dimri 等[3]使用季節(jié)性ARIMA 擬合氣溫單變量模型,達(dá)到很好的擬合效果;譚小花[4]用隨機(jī)分析法對(duì)重慶市氣溫?cái)?shù)據(jù)做了趨勢(shì)分析,選用季節(jié)指數(shù)和ARMA 模型對(duì)序列擬合預(yù)測(cè),發(fā)現(xiàn)采用季節(jié)指數(shù)能更好地?cái)M合趨勢(shì)并預(yù)測(cè)未來(lái)序列。二是構(gòu)建機(jī)器學(xué)習(xí)模型。朱晶晶等[5]依據(jù)CMSVM2.0 函數(shù)估計(jì)和交叉驗(yàn)證等方法,利用月平均氣溫建立了SVM 回歸預(yù)報(bào)模型,發(fā)現(xiàn)交叉驗(yàn)證下的模型預(yù)測(cè)效果更好;張曼玉[6]對(duì)長(zhǎng)三角地區(qū)的日溫差進(jìn)行了隨機(jī)森林?jǐn)M合,發(fā)現(xiàn)影響溫度差的主要因子是地表溫度;陶曄等[7]利用隨機(jī)森林篩選出與氣溫變量高度相關(guān)的因子,將這些因子帶入長(zhǎng)短期記憶網(wǎng)絡(luò)中,建立了預(yù)測(cè)性能更佳的RF-LSTM 模型;王可心等[8]將輸入特征進(jìn)行復(fù)合,引入復(fù)合特征隨機(jī)森林回歸模型,并用袋外誤差率調(diào)試參數(shù),發(fā)現(xiàn)雨雪天氣狀況下的路面溫度預(yù)報(bào)精確度最高。三是以各種方式將統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)模型結(jié)合起來(lái)的混合模型。門曉磊等[9]使用嶺回歸,隨機(jī)森林和深度學(xué)習(xí)三種方法分別對(duì)逐日地面2 m 處的氣溫進(jìn)行預(yù)報(bào),發(fā)現(xiàn)三種方法預(yù)測(cè)能力相差不大,甚至在小數(shù)據(jù)集上,隨機(jī)森林和嶺回歸可能優(yōu)于深度學(xué)習(xí)方法;曾靜[10]將輸入變量進(jìn)行多項(xiàng)式擴(kuò)充,再采用回歸方法和隨機(jī)森林等方法,得出最優(yōu)擬合溫度訂正模型,再利用長(zhǎng)短期記憶模型建模,最終建立多氣象因子模式的溫度預(yù)報(bào)模型;盧維學(xué)等[11]提出了基于隨機(jī)森林算法的偏最小二乘回歸模型,通過(guò)比較發(fā)現(xiàn)該回歸模型的穩(wěn)定性和預(yù)測(cè)精度優(yōu)于其他模型。
在已有的研究中,隨機(jī)森林模型擬合氣溫時(shí)序數(shù)據(jù)將原始數(shù)據(jù)直接作為輸入特征,或者將輸入特征進(jìn)行組合,作為復(fù)合特征引入模型,忽略了氣溫?cái)?shù)據(jù)中存在的季節(jié)性特征。本文將月份信息分類并采用One-Hot 編碼,提取數(shù)據(jù)中的季節(jié)性,作為隨機(jī)森林模型的輸入特征,構(gòu)建模型參數(shù)組合。在此基礎(chǔ)上,利用隨機(jī)搜索和網(wǎng)格搜索對(duì)季節(jié)性模型中的超參數(shù)進(jìn)行進(jìn)一步優(yōu)化;最后計(jì)算擬合誤差和準(zhǔn)確率[12],并和乘積季節(jié)ARIMA 模型預(yù)測(cè)能力進(jìn)行比較。
ARIMA 模型的基本思想是通過(guò)變換去除序列的趨勢(shì),使非平穩(wěn)序列變成平穩(wěn)序列[13]。ARIMA模型的AR 部分是根據(jù)研究變量自身的歷史值進(jìn)行回歸,MA 模型則是出現(xiàn)在不同時(shí)間間隔的歷史誤差值的線性組合。
對(duì)于存在季節(jié)性的時(shí)間序列,季節(jié)性可能對(duì)建立的模型有影響,因而需要建立季節(jié)模型,該模型包括季節(jié)影響和非季節(jié)影響。季節(jié)ARIMA 模型記為SARIMA(p,d,q)(P,D,Q),其 中,P,D,Q 表示模型季節(jié)性部分。本文采用季節(jié)性ARIMA 模型進(jìn)行建模,主要建模步驟為:首先觀察數(shù)據(jù)時(shí)序圖,當(dāng)觀測(cè)到序列具有趨勢(shì)或異方差時(shí),則對(duì)其進(jìn)行變換或差分,去除趨勢(shì),穩(wěn)定方差,直到變換后的數(shù)據(jù)滿足平穩(wěn)性檢驗(yàn)的條件,然后根據(jù)最小信息量準(zhǔn)則和貝葉斯信息準(zhǔn)則,擬合預(yù)測(cè)模型。
隨機(jī)森林算法是監(jiān)督學(xué)習(xí)算法的一個(gè)分支,使用集成學(xué)習(xí)方法回歸,集成學(xué)習(xí)方法主要包括神經(jīng)網(wǎng)絡(luò)、SVM 和決策樹。隨機(jī)森林采用Bagging Bootstrap 技術(shù),通過(guò)隨機(jī)抽樣產(chǎn)生更多的樣本。在Bagging 技術(shù)中,每個(gè)模型都獨(dú)立運(yùn)行,且最終輸出的是匯總后的模型。但決策樹可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,且預(yù)測(cè)值對(duì)訓(xùn)練數(shù)據(jù)過(guò)于依賴和敏感,因而應(yīng)用隨機(jī)森林回歸作為大決策樹的組合,以此代替決策樹。隨機(jī)森林中構(gòu)建的樹并行運(yùn)行,沒(méi)有任何交互,其基本思想就是結(jié)合多個(gè)決策樹確定最終結(jié)果,而不是依賴單個(gè)決策樹。
文中隨機(jī)森林算法的過(guò)程可以總結(jié)為如下步驟:
(1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取并編碼季節(jié)信息;
(2)劃分?jǐn)?shù)據(jù)集,將其分成訓(xùn)練集和測(cè)試集;(3)對(duì)抽樣的訓(xùn)練集建立回歸樹模型,匯總多棵回歸樹的結(jié)果,取其平均作為最終預(yù)測(cè)結(jié)果;
(4)采用兩種搜索方法對(duì)訓(xùn)練模型進(jìn)行超參數(shù)的優(yōu)化。
1.3.1 平均絕對(duì)誤差(MAE)定義如下:
其中,n 為預(yù)測(cè)的時(shí)間點(diǎn)步長(zhǎng),fi為預(yù)測(cè)值,yi為實(shí)際觀測(cè)值。實(shí)際觀測(cè)值與預(yù)測(cè)值差值越接近,誤差越小,說(shuō)明預(yù)測(cè)模型的準(zhǔn)確性越佳。
1.3.2 平均絕對(duì)百分誤差(MAPE)
定義如下:
MAPE 越接近于零,表示模型預(yù)測(cè)的精度越高;若MAPE 大于100%,說(shuō)明預(yù)測(cè)模型為劣質(zhì)模型。
本文中數(shù)據(jù)來(lái)自中國(guó)氣象數(shù)據(jù)網(wǎng),數(shù)據(jù)包括合肥市某站點(diǎn)觀測(cè)到的每月平均最高溫度(A_MAX_T)、平均最低溫度(A_MIN_T)、日照時(shí)數(shù)(sunshine_duration)、最高溫度(MAX_T)、最低溫度(MIN_T)、平均溫度(AT)、降水量(precipitation)和月份(Month)八個(gè)指標(biāo),涵蓋了1988 年1 月至2020 年9 月的各月數(shù)據(jù),數(shù)據(jù)無(wú)缺失值。
2.2.1 差分運(yùn)算
差分運(yùn)算是一種提取序列中確定性信息的方法,適當(dāng)?shù)牟罘直憧梢猿浞痔崛⌒畔ⅰ?/p>
季節(jié)性ARIMA 模型是處理時(shí)間序列的流行模型之一,它將數(shù)據(jù)具有的季節(jié)性特征考慮到預(yù)測(cè)中,需要觀察自相關(guān)系數(shù)圖(ACF)和偏自相關(guān)系數(shù)圖(PACF)并依據(jù)赤池信息準(zhǔn)則或貝葉斯信息準(zhǔn)則選擇合適的模型。因?yàn)槠骄鶜鉁匦蛄兄泻屑竟?jié)效應(yīng),故采用季節(jié)模型進(jìn)行擬合,選取1988 年1 月到2019 年12 月的平均氣溫月度數(shù)據(jù)作為訓(xùn)練集,利用擬合的模型預(yù)測(cè)2020 年1 月至2020 年9 月的每月平均氣溫?cái)?shù)據(jù),并和真實(shí)值做對(duì)比,計(jì)算預(yù)測(cè)準(zhǔn)確度,建模過(guò)程通過(guò)R 語(yǔ)言實(shí)現(xiàn)。
圖1 是平均溫度時(shí)序圖。其中,橫軸表示日期,從1988 年1 月至2019 年12 月;縱軸表示實(shí)際觀測(cè)的月平均氣溫值,單位為℃。由圖可見,隨著時(shí)間推移,溫度值呈現(xiàn)上升后下降的循環(huán),具有很強(qiáng)的周期性,且無(wú)明顯增加或減少的趨勢(shì),序列平穩(wěn)。
圖1 平均溫度時(shí)序圖
圖2 是氣溫序列延遲60 階的自相關(guān)系數(shù)圖與偏自相關(guān)系數(shù)圖,橫軸表示延遲階數(shù)。左側(cè)圖中,縱軸表示的是序列的自相關(guān)系數(shù);右側(cè)圖中,縱軸表示偏自相關(guān)系數(shù)。由圖可知,左圖表明ACF 呈現(xiàn)正負(fù)值交替的趨勢(shì),且延遲60 階后,自相關(guān)系數(shù)無(wú)衰減趨勢(shì),表現(xiàn)為拖尾性;右圖顯示在延遲12 階后,PACF 落入兩倍標(biāo)準(zhǔn)差范圍內(nèi),呈現(xiàn)截尾,表明平均氣溫序列間具有自相關(guān)性。
圖2 自相關(guān)系數(shù)圖與偏自相關(guān)系數(shù)圖
由于序列存在自相關(guān)性和季節(jié)性,故對(duì)原序列作1 階12 步差分,即差分后新序列值為?12xt= xt- xt-12,其中 xt為序列值。12 步差分后的序列如圖3 所示,溫度值均在零值溫度線上下波動(dòng)。為檢驗(yàn)序列是否平穩(wěn),對(duì)差分后的序列進(jìn)行單位根檢驗(yàn),結(jié)果顯示P=0.01,小于顯著性水平0.05,表示不接受原假設(shè),即差分后的平均氣溫序列中不存在單位根,認(rèn)為差分后序列基本平穩(wěn)。
圖3 平均溫度12 步差分后時(shí)序圖
如圖4 所示,雖然延遲12 階的自相關(guān)系數(shù)顯著不為0,偏自相關(guān)系數(shù)在延遲12 階,24 階顯著不為0,但自相關(guān)系數(shù)與偏自相關(guān)系數(shù)基本在2 倍標(biāo)準(zhǔn)差范圍內(nèi)。
圖4 平均溫度差分后自相關(guān)系數(shù)圖與偏自相關(guān)系數(shù)圖
2.2.2 模型建立
根據(jù)上圖可得,自相關(guān)圖顯示延遲12 階自相關(guān)系數(shù)顯著大于2 倍標(biāo)準(zhǔn)差范圍,偏自相關(guān)系數(shù)圖也是如此,說(shuō)明序列仍然蘊(yùn)含顯著的季節(jié)效應(yīng),嘗試擬合簡(jiǎn)單ARMA 模型,但效果并不理想,考慮該序列具有的短期相關(guān)性和季節(jié)性,嘗試用乘積模型擬合序列的趨勢(shì)。
首先考慮序列12 階以內(nèi)的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)均不截尾,嘗試使用ARMA(1,1)模型提取差分后序列的短期自相關(guān)信息;其次自相關(guān)圖顯示延遲12 階的自相關(guān)系數(shù)顯著非零,但延遲24 階自相關(guān)系數(shù)落入兩倍標(biāo)準(zhǔn)差范圍內(nèi),偏自相關(guān)系數(shù)顯示延遲24 階以后的偏自相關(guān)系數(shù)顯著非零。故以12 步為周期,構(gòu)建ARMA(0,1)12,經(jīng)過(guò)多次調(diào)整之后,依據(jù)AIC,BIC 準(zhǔn)則最終確定擬合的模型為ARIMA(2,0,1)(0,1,1)12,此時(shí)BIC 值與AIC 值達(dá)到最小。
2.2.3 模型檢驗(yàn)
圖5 是差分后序列的殘差自相關(guān)檢驗(yàn)結(jié)果,可以發(fā)現(xiàn),自相關(guān)系數(shù)呈現(xiàn)逐步衰減趨勢(shì),存在小幅度波動(dòng),但均在兩倍標(biāo)準(zhǔn)差范圍內(nèi),說(shuō)明殘差序列自相關(guān)性弱。同時(shí)純隨機(jī)性檢驗(yàn)表明:12 步差分后的序列殘差在滯后6 期時(shí),P=0.962 1;當(dāng)滯后12期時(shí),P=0.85;當(dāng)滯后24 期時(shí),P=0.782 9,所有的P值均大于顯著性水平0.05,表明不拒絕原假設(shè),即差分后的序列的殘差獨(dú)立,模型通過(guò)殘差白噪聲檢驗(yàn),說(shuō)明擬合的乘積季節(jié)性模型ARIMA(2,0,1)(0,1,1)12有效。
圖5 差分后序列的殘差自相關(guān)圖
2.2.4 模型預(yù)測(cè)
表1 中給出了預(yù)測(cè)值與實(shí)際觀察值的數(shù)據(jù),并計(jì)算了預(yù)測(cè)誤差。可以看到僅有個(gè)別溫度點(diǎn)的預(yù)測(cè)值與實(shí)際值差異較大,最大溫度預(yù)測(cè)誤差為3.97℃,最小預(yù)測(cè)誤差為0.08℃,經(jīng)過(guò)計(jì)算可以得出:
表1 預(yù)測(cè)值與真實(shí)值對(duì)比
即使用擬合模型預(yù)測(cè)準(zhǔn)確度可以達(dá)到92%以上。
2.3.1 數(shù)據(jù)預(yù)處理
本文采用Python 語(yǔ)言編寫,基于Sklearn 環(huán)境下構(gòu)建隨機(jī)森林模型,樣本集中包含393 個(gè)樣本,其中70%劃分為訓(xùn)練集,剩余30%作為測(cè)試集。在對(duì)數(shù)據(jù)進(jìn)行初步分析后,發(fā)現(xiàn)氣象時(shí)序數(shù)據(jù)存在季節(jié)性特征,而冬季與夏季的溫度差距很大,僅僅考慮月平均氣溫,精度是不充分的,所以使用文本特征提取方法,將季節(jié)性特征也納入輸入特征。春、夏、秋、冬四個(gè)分類變量是無(wú)序的、離散的,將這些特征數(shù)字化時(shí),如果簡(jiǎn)單分類為1、2、3、4,分類變量之間便產(chǎn)生了順序,且不能直接放入機(jī)器學(xué)習(xí)算法中,故而使用One-Hot 編碼。
One-Hot 編碼,又稱一位有效編碼,主要對(duì)M種狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有自己獨(dú)立的寄存器位,并且在任意時(shí)候只有一位有效。即每個(gè)樣本的M 種屬性中只能有一個(gè)為1,表示該樣本的該屬性屬于這個(gè)類別,其余擴(kuò)展屬性都為0。具體編碼過(guò)程如下:
根據(jù)季節(jié)特征,將十二月、一月、二月歸類為冬季;三、四、五月歸類為春季;六、七、八月歸為夏季;剩余三個(gè)月份歸為秋季。
即 Sqi=(春季,夏季,秋季,冬季)=(0,1,0,0),若i 為夏季,則形式如表2:
表2 One-Hot 編碼規(guī)則
如果輸入樣本 xi是夏季,則以( xi,0,1,0,0)的形式采樣。
2.3.2 對(duì)比實(shí)驗(yàn)
隨機(jī)森林中包含大量的參數(shù),如隨機(jī)森林決策樹的數(shù)目、樹的最大深度,本文的數(shù)據(jù)量并不大,故將最大深度設(shè)置為None。節(jié)點(diǎn)最小分裂所需樣本個(gè)數(shù)是某節(jié)點(diǎn)樣本數(shù)的最小值,當(dāng)節(jié)點(diǎn)樣本數(shù)小于該值時(shí),不會(huì)將其劃分。葉子節(jié)點(diǎn)最小樣本數(shù)代表的是葉子節(jié)點(diǎn)最少的樣本數(shù)目,若小于該值,則該節(jié)點(diǎn)會(huì)被剪枝。為了驗(yàn)證季節(jié)性特征是否利于提高隨機(jī)森林模型預(yù)測(cè)精度,本文用簡(jiǎn)單隨機(jī)森林模型和季節(jié)性隨機(jī)森林模型進(jìn)行比較,從平均絕對(duì)誤差、均方誤差和準(zhǔn)確度三方面衡量預(yù)測(cè)能力。
如表3 顯示,在決策樹的個(gè)數(shù)M 均為20 的前提下,簡(jiǎn)單隨機(jī)森林模型的平均絕對(duì)誤差為0.28,平均絕對(duì)百分誤差是4.04%;而季節(jié)性模型所得出的平均絕對(duì)誤差是0.26,平均絕對(duì)百分誤差為3.86%,說(shuō)明加入季節(jié)性特征之后,減小了模型誤差,提高了預(yù)報(bào)準(zhǔn)確度。與兩種隨機(jī)森林算法相比,乘積季節(jié)性ARIMA 模型預(yù)報(bào)氣溫誤差更大,而且需要通過(guò)ACF 圖和PACF 圖主觀確定模型的階數(shù),預(yù)測(cè)氣溫的準(zhǔn)確率相對(duì)較低。
表3 各模型在月平均氣溫的預(yù)報(bào)性能對(duì)比
下圖是測(cè)試集包含的118 個(gè)樣本的真實(shí)標(biāo)簽值與預(yù)測(cè)值折線圖,其中紅色線表示預(yù)測(cè)值,綠色線表示標(biāo)簽值??梢钥吹?,使用季節(jié)性隨機(jī)森林模型進(jìn)行預(yù)測(cè),雖然有部分極值點(diǎn)的溫度預(yù)測(cè)值與標(biāo)簽值存在偏差,但整體趨勢(shì)一致,且準(zhǔn)確度可以達(dá)到96%以上,總體預(yù)測(cè)效果較好。
2.3.3 參數(shù)優(yōu)化
(1)網(wǎng)格搜索
超參數(shù)搜索算法一般包括目標(biāo)函數(shù)、搜索范圍等要素。網(wǎng)格搜索通過(guò)搜索上下限內(nèi)的所有點(diǎn)確定最優(yōu)值,因而極有可能找到全局最優(yōu)值,但局限性在于計(jì)算量較大、耗時(shí)耗力,特別是需要調(diào)優(yōu)的超參數(shù)較多時(shí)。一般先使用較廣的搜索范圍和較大的步長(zhǎng),尋找全局最優(yōu)值可能的位置,然后逐漸縮小搜索范圍和步長(zhǎng),尋找更精確的最優(yōu)值。
(2)隨機(jī)搜索
與網(wǎng)格搜索相比,隨機(jī)搜索在上下限內(nèi)隨機(jī)選取樣本點(diǎn),搜索時(shí)間相對(duì)縮短,但產(chǎn)生的結(jié)果不一定是全局最優(yōu)。當(dāng)樣本點(diǎn)集足夠大時(shí),隨機(jī)采樣也能找到全局最優(yōu)值或其近似值。
在樹的初始數(shù)目設(shè)為20 時(shí),季節(jié)性隨機(jī)森林模型預(yù)測(cè)精度可以達(dá)到96.14%,在此模型上進(jìn)行超參數(shù)優(yōu)化,并且使用三折交叉驗(yàn)證將數(shù)據(jù)集劃分訓(xùn)練集和測(cè)試集,即將原始數(shù)據(jù)集進(jìn)行三次劃分,多次訓(xùn)練,取三次輸出結(jié)果的均值作為算法精度的估計(jì)值,避免只將數(shù)據(jù)集一次劃分而得出錯(cuò)誤結(jié)論的情況。然后在季節(jié)性隨機(jī)森林產(chǎn)生的最優(yōu)參數(shù)空間基礎(chǔ)上進(jìn)行隨機(jī)搜索。
圖6 真實(shí)值與預(yù)測(cè)值對(duì)比圖
從表4 中可以看到,在Bootstrap 方法下,隨機(jī)搜索最佳模型在樹的個(gè)數(shù)為200、節(jié)點(diǎn)最小分裂所需樣本數(shù)為2 時(shí)得到,此時(shí)準(zhǔn)確率已經(jīng)達(dá)到96.42%,優(yōu)于樹的個(gè)數(shù)N 為20 時(shí)的季節(jié)性隨機(jī)森林模型。繼續(xù)根據(jù)隨機(jī)搜索產(chǎn)生的最佳參數(shù)空間,分別向最佳組合的左、右進(jìn)行網(wǎng)格搜索,搜索的參數(shù)空間設(shè)定為N 取50,100 或150 時(shí),節(jié)點(diǎn)最小分裂所需樣本數(shù)取1,2 或3,同樣使用Bootstrap 采樣。結(jié)果顯示,在樹的個(gè)數(shù)為150 時(shí),搜索到最佳組合,準(zhǔn)確度為96.34%。結(jié)果未尋找到更優(yōu)的參數(shù)組合,繼續(xù)向右搜索。
表4 隨機(jī)搜索與網(wǎng)格搜索參數(shù)空間
表5 結(jié)果表明,在三折交叉驗(yàn)證下,當(dāng)樹的個(gè)數(shù)為100、節(jié)點(diǎn)最小分裂所需樣本個(gè)數(shù)為2、葉子節(jié)點(diǎn)最小樣本數(shù)也為2 時(shí)取得最優(yōu),此時(shí)預(yù)測(cè)準(zhǔn)確率是96.45%,準(zhǔn)確度進(jìn)一步提升。
表5 向右網(wǎng)格搜索參數(shù)空間
氣候?qū)θ祟惖纳顣?huì)產(chǎn)生巨大的影響。本文使用了基于R 語(yǔ)言的季節(jié)性ARIMA 模型和基于Python 語(yǔ)言的季節(jié)性隨機(jī)森林兩種模型對(duì)氣象時(shí)間序列數(shù)據(jù)進(jìn)行分析與建模,并對(duì)未來(lái)時(shí)刻進(jìn)行了預(yù)測(cè),得到如下結(jié)論:
(1)季節(jié)性ARIMA 模型可以很好地?cái)M合時(shí)序數(shù)據(jù)中的季節(jié)性,預(yù)測(cè)精度超92%。雖然夏季高溫極端值預(yù)報(bào)偏高,但偏差絕對(duì)值基本在3℃以內(nèi),認(rèn)為預(yù)測(cè)效果有效。
(2)文中建立的隨機(jī)森林模型引入季節(jié)特征作為輸入特征時(shí),模型對(duì)于溫度極值的預(yù)測(cè)值偏小,整體擬合趨勢(shì)符合實(shí)際趨勢(shì),且預(yù)測(cè)效果優(yōu)于季節(jié)ARIMA 模型。
(3)在季節(jié)性隨機(jī)森林模型基礎(chǔ)上,利用隨機(jī)搜索找出優(yōu)化組合,然后根據(jù)該參數(shù)空間,在該組合附近進(jìn)一步使用網(wǎng)格搜索,搜索該區(qū)域內(nèi)所有可能值確定最優(yōu)參數(shù)組合,此時(shí)模型的預(yù)測(cè)精度最高。
引入季節(jié)性特征的隨機(jī)森林模型可用于氣溫預(yù)測(cè),且預(yù)測(cè)誤差較小。但由于資料限制,實(shí)驗(yàn)中數(shù)據(jù)僅是單個(gè)氣象站的數(shù)據(jù),輸入變量較少,未能考慮到將周圍地理氣象數(shù)據(jù)可能存在的影響,這也是下一步研究的方向。