萬慶同
(安徽省城建設(shè)計(jì)研究總院股份有限公司,安徽 合肥 230000)
強(qiáng)對流天氣一直是影響我國農(nóng)業(yè)、畜牧業(yè)、旅游業(yè)等產(chǎn)業(yè)發(fā)展的重要因素之一,水氣作為大氣中最活躍的部分,在大氣運(yùn)動(dòng)中扮演著重要角色。而水氣的變化與大氣加權(quán)平均溫度(Tm)息息相關(guān),因此獲取高精度的Tm數(shù)據(jù)具有十分重要的現(xiàn)實(shí)意義[1,2]。
目前,國際通用計(jì)算Tm的方法為1992年Bevis提出的線性模型,該模型結(jié)構(gòu)簡單,但適用區(qū)域較小,且僅考慮地表溫度(Ts)一種因素,在其他地區(qū)的適應(yīng)性有待提高。文獻(xiàn)[3]結(jié)合多因素分析,得出了Tm與緯度、高程、氣壓三者呈周期性的負(fù)相關(guān),與地面溫度和水汽壓呈周期性正相關(guān)的結(jié)論,并建立了中國地區(qū)的多因子回歸模型。隨著GNSS氣象學(xué)的發(fā)展,區(qū)域性Tm的精度要求逐漸提高,文獻(xiàn)[4]分別建立了多種區(qū)域性的Tm與Ts模型。但以往的區(qū)域模型均采用了線性關(guān)系,在部分地區(qū)的精度仍無法滿足應(yīng)用要求。文獻(xiàn)[5]基于數(shù)理統(tǒng)計(jì)模型,證明了Tm與Ts之間的非線性關(guān)系,為之后對于Tm的研究提供了新的方向。傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)[6]、卡爾曼濾波模型等,因其訓(xùn)練樣本分布的比重較大,易導(dǎo)致過擬合現(xiàn)象和穩(wěn)健性不足等問題,隨機(jī)森林作為一種新興的機(jī)器學(xué)習(xí)模型,能夠處理高維數(shù)據(jù)樣本而不用進(jìn)行降維處理,且參數(shù)調(diào)試少,泛用性強(qiáng),可以有效避免過擬合現(xiàn)象,具有很好的魯棒性,因此得到了廣泛的運(yùn)用[7]。
中國東部地區(qū)受季風(fēng)氣候的影響,水氣較為紊亂,易發(fā)生強(qiáng)對流天氣,從而導(dǎo)致大氣加權(quán)平均溫度的非線性變化明顯[8,9],傳統(tǒng)Tm模型難以滿足該地區(qū)發(fā)展的需求,因此亟須建立一種新的高精度Tm區(qū)域性模型。
本文選用2010年~2014年中國東部地區(qū)13個(gè)探空站的數(shù)據(jù),分析Tm和Ts的相關(guān)性,相關(guān)系數(shù)(R2)結(jié)果如表1所示:
中國東部13個(gè)探空站Tm-Ts相關(guān)系數(shù) 表1
由表1可知,相關(guān)系數(shù)整體處于0.7~0.93之間,按25°N與35°N從南向北依次劃分為三個(gè)研究區(qū)域,考慮到隨緯度變低,對流層與電離層相對更為活躍,進(jìn)而Tm的活躍程度越強(qiáng),因此,本文選用適用性較好的傅立葉級數(shù)模型,通過中國東部地區(qū)均勻分布的13個(gè)探空站2010年~2014年的Tm與Ts數(shù)據(jù),構(gòu)建了適用于該地區(qū)的非線性F-Tm模型,公式如下:
F-Tm=a*cos(k*Ts)+b*sin(k*Ts)+c
(4)
其中a=6.943,b=-13.8,k=0.0571,c=275.7。
以2010年-2014年積分求解的Tm數(shù)據(jù)作為檢核值,分別對F-Tm模型與傳統(tǒng)BEVIS模型進(jìn)行精度檢驗(yàn),偏差(BIAS)和均方根誤差(RMS)結(jié)果如圖1所示:
圖1 F-Tm與BEVIS模型偏差圖
由圖可知,F(xiàn)-Tm模型相較于BEVIS模型,整體具有更好的精度,RMS提高了約14%,其中在香港、章丘、射陽、臺州、福州、廈門、汕頭、南寧、海口共9個(gè)探空站地區(qū)的模型精度改善較高;但在大連、青島、上海、臺北4個(gè)探空站地區(qū)的精度沒有明顯提升,甚至在少部分地區(qū),因該地區(qū)特殊的地理位置,以及工業(yè)污染等影響,存在該模型精度下降的情況。為了進(jìn)一步提高模型的整體精度,使其能夠更好地服務(wù)于旅游業(yè)和農(nóng)業(yè)的生產(chǎn),本文基于隨機(jī)森林的方法對F-Tm模型進(jìn)行了進(jìn)一步的改善。
隨機(jī)森林于2001年由Breiman和Culter提出,屬于集成學(xué)習(xí)中的bagging算法。該方法通過bootstrap重采樣技術(shù),將數(shù)據(jù)分為原始訓(xùn)練樣本N以及預(yù)測樣本Z,從N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,然后根據(jù)特征值的選取,自助樣本集生成k個(gè)分類樹組成隨機(jī)森林,對模型預(yù)測結(jié)果有影響的兩個(gè)重要參數(shù)分別為決策樹數(shù)目(ntree)和備選變量(mtry),ntree一般取值為樣本個(gè)數(shù)的1/3,預(yù)測樣本Z的分類結(jié)果按分類樹而定。相對于常用神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等機(jī)器學(xué)習(xí)方法所體現(xiàn)出的過擬合、結(jié)構(gòu)復(fù)雜等問題,隨機(jī)森林算法具有明顯優(yōu)勢,因此近年來被廣泛運(yùn)用在遙感影像監(jiān)測,海洋次表層結(jié)構(gòu)預(yù)測等多個(gè)領(lǐng)域。
本文使用隨機(jī)森林的方法,選取與Tm有關(guān)的4個(gè)參數(shù)(氣壓P、地表溫度Ts、水汽壓es、比濕s)作為特征值,以2010年-2015年的偏差值為樣本數(shù)據(jù),對模型進(jìn)行預(yù)測改正,構(gòu)建RFF-Tm模型。結(jié)果表明,區(qū)域1的改進(jìn)程度尤為顯著,經(jīng)統(tǒng)計(jì)可得,相對于F-Tm模型,其MAE分別提高81%、76%、77%,RMS分別提高78%、72%、75%,能夠很好彌補(bǔ)該區(qū)域水氣的紊亂現(xiàn)象。而在區(qū)域2和區(qū)域3中,可能因?yàn)轭A(yù)測的時(shí)間尺度不合適,致該區(qū)域預(yù)測信號失真,精度有所下降,故而改進(jìn)程度并不明顯。
故而以不改變特征參數(shù)為前提,通過調(diào)整預(yù)測時(shí)長對RFF-Tm模型在區(qū)域2、區(qū)域3的適應(yīng)性進(jìn)行分析。以夾逼準(zhǔn)則的方式,分別對區(qū)域2和區(qū)域3的探空站作為期1年、半年、一季度、兩個(gè)月、一個(gè)月,以及15天的6種時(shí)間尺度上隨機(jī)森林預(yù)測建模,檢核精度結(jié)果如圖2所示:
圖2 RFF-Tm模型時(shí)空適應(yīng)性分析
由圖可知,隨著預(yù)測時(shí)間尺度的減少,兩個(gè)區(qū)域的MAE與RMS逐漸減小且趨于穩(wěn)定,在預(yù)測時(shí)間段為1個(gè)月的時(shí)間尺度上達(dá)到最佳預(yù)測狀態(tài),同時(shí),區(qū)域3改進(jìn)精度略優(yōu)于區(qū)域2,且更為穩(wěn)定。兩者在1個(gè)月的時(shí)間尺度上,MAE與RMS均小于1.5,具有很好的適應(yīng)性,可以提供一種高精度的Tm參考數(shù)據(jù),進(jìn)而更好地服務(wù)于中國東部地區(qū)的旅游業(yè)和農(nóng)業(yè)等領(lǐng)域發(fā)展。
本文利用中國東部地區(qū)13個(gè)探空站2010年-2014年的Tm和Ts數(shù)據(jù),采用傅立葉級數(shù)分析法,構(gòu)建了F-Tm模型,結(jié)果較BEVIS模型精度有所提高,但在部分地區(qū)精度仍存在改進(jìn)空間。故在F-Tm模型的基礎(chǔ)上,利用隨機(jī)森林的方法,選取4個(gè)特征值(P、Ts、es、s),對偏差進(jìn)行預(yù)測,得到RFF-Tm模型。對RFF-Tm進(jìn)行時(shí)空適應(yīng)性分析,空間上將探空站按緯度分為3個(gè)區(qū)域,時(shí)間上采用6個(gè)時(shí)間尺度進(jìn)行隨機(jī)森林預(yù)測。結(jié)果表明:①RFF-Tm模型在中國東部地區(qū)具有很好的適應(yīng)性,相對于F-Tm模型的改進(jìn)程度較明顯。②在緯度較低的區(qū)域1中具有很好的適應(yīng)性。③在區(qū)域2與區(qū)域3中,RFF-Tm模型隨著時(shí)間尺度的減小而逐漸趨于穩(wěn)定,并于1個(gè)月的時(shí)間序列預(yù)測效果達(dá)到最佳,其中區(qū)域3的改正幅度略優(yōu)于區(qū)域2,且改正效果更為穩(wěn)定,兩者均適應(yīng)于較短時(shí)間序列分析。