黃雄琪,田鎮(zhèn)滔,秦 睿,王雪梅,鄭陳亮
(廣西師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣西 桂林 541004)
近年來,全球氣候變暖備受國(guó)內(nèi)外學(xué)術(shù)界的關(guān)注。全球氣候的變化在近幾年的數(shù)據(jù)報(bào)告中呈現(xiàn)出致災(zāi)性的特點(diǎn),例如高溫、強(qiáng)風(fēng)、強(qiáng)降雨這些極端天氣會(huì)促使自然災(zāi)害的發(fā)生,繼而嚴(yán)重影響各國(guó)人民的生命財(cái)產(chǎn)安全。氣候變化所導(dǎo)致的一系列影響,讓全世界的學(xué)者們不得不重視氣象數(shù)據(jù)變點(diǎn)的分析及預(yù)測(cè)。
國(guó)內(nèi)外有不少學(xué)者在研究變點(diǎn)問題。對(duì)于響應(yīng)變量的個(gè)數(shù)比較少的情況,Horváth.L等[1]通過最小二乘的方法使用CUSUM方法檢測(cè)出了變點(diǎn)。Ga?briela[2]通過使用adaptive LASSO以及分位數(shù)的方法檢測(cè)出實(shí)時(shí)的變點(diǎn)。楊喜壽等[3]研究了氣候時(shí)間序列變點(diǎn)的推斷問題。Hawkins[4]研究了位置轉(zhuǎn)移替代方案的似然比檢驗(yàn),并應(yīng)用于氣象數(shù)據(jù)序列的變點(diǎn)檢測(cè)。Buishand[5]討論了5種累積偏差檢驗(yàn)的特點(diǎn),使用累計(jì)偏差與平均值構(gòu)建了檢驗(yàn)統(tǒng)計(jì)量,并對(duì)荷蘭年平均氣溫進(jìn)行了變點(diǎn)檢測(cè)。Alexandersson.H[6]等基于氣候時(shí)間序列,提出了一種在正態(tài)分布時(shí)間序列中檢測(cè)任意長(zhǎng)度序列變點(diǎn)的新方法。Beaulieu.C[7]等考慮了氣候時(shí)間變化的復(fù)雜性和氣候數(shù)據(jù)序列的自相關(guān)性,提出了一種基于IA(informational ap?proach)的變點(diǎn)檢測(cè)模型。趙紅等[8]基于VFP環(huán)境,對(duì)氣象數(shù)據(jù)使用滑動(dòng)t-檢驗(yàn)法和Yamamoto法進(jìn)行變點(diǎn)的檢測(cè)。許歡9]等運(yùn)用ASAMC算法估計(jì)了氣象數(shù)據(jù)結(jié)構(gòu)性變化的位置并給出了發(fā)生結(jié)構(gòu)性變化的原因。
本文將降雨量作為被解釋變量Yi,將風(fēng)向、風(fēng)級(jí)等作為解釋變量X1,…,Xp,并且還考慮了被解釋變量的滯后性,引入變量Yi-1,…,Yi-k。通過Lasso方法找到了這幾個(gè)變量之間的關(guān)系,并且找出了降雨量對(duì)應(yīng)的解釋變量的參數(shù)發(fā)生突變的時(shí)間點(diǎn)(變點(diǎn))。
首先考慮簡(jiǎn)單線性模型:
接下來結(jié)合解釋變量的滯后性,考慮如下模型:
我們可以把(2)式轉(zhuǎn)化成如下模型:
通過前m個(gè)觀測(cè)值得到簡(jiǎn)單的最小二乘估計(jì):
通過BIC準(zhǔn)則可以篩選一些變量,但是篩選出來的變量不精確,借助LASSO可以解決變量的稀疏性問題,這個(gè)方法是1996年由Tibshirani.R提出的。在設(shè)計(jì)矩陣Z滿足某些且不使用假設(shè)檢驗(yàn)的情況下,來消除掉一些不相關(guān)變量。之后在2006年zou提出了一種叫作的adaptive LASSO的方法,這個(gè)方法不需要設(shè)計(jì)矩陣Z的那些條件,方法如下:
由此我們可以得到相應(yīng)估計(jì)的殘差:
為了便于表述,引入指標(biāo)集A≡{j∈{1,…,p+k};≠0},同 理A*m≡{j∈{1,…,p+k};≠0}。其中A是真實(shí)參數(shù)的非零分量的指標(biāo)組成的集合,A*m是使用adaptive LASSO估計(jì)得到參數(shù)的分量指標(biāo)組成的集合。一般地對(duì)于參數(shù)?,我們用表示包含A相關(guān)因子的?的子向量。
考慮如下假設(shè):
對(duì)于誤差εi:
(S1)ε1,…,εm,εm+1,…是獨(dú)立同分布的,E[ε1]=0,方差有限Var(ε1)<∞,
(S2)對(duì)于解釋變量X1,…,X p,Y i-1,…,Y i-k存在一個(gè)正定矩陣C和常數(shù)η>0,有,更進(jìn)一步要求εi與Z i是獨(dú)立的。
在條件(S1)下Card(A)不依賴于m,設(shè)計(jì)矩陣m-1Z T Z收斂到一個(gè)正定矩陣C,調(diào)節(jié)參數(shù)λm有如下條件
有adaptive LASSO估計(jì)值滿足oracle性質(zhì):
(P1)漸近正態(tài)性:
矩陣CA包含矩陣C對(duì)應(yīng)的指標(biāo)集A中的元素,對(duì)于β的最小二乘估計(jì),可以得到
用上述方法得到β的估計(jì)后,我們可以得到總體方差σ2的估計(jì):
其中,Card(A*m)表示A*m的基數(shù)。
由于Card(A)不依賴于m,考慮adaptive LAS?SO的估計(jì)值的oracle性質(zhì),可以得到
首先考慮第一批m個(gè)觀測(cè)值之后的模型:
對(duì)于每一個(gè)給定的時(shí)間i,檢驗(yàn)該模型的參數(shù)是否和第一批m個(gè)模型的參數(shù)一致:
假設(shè)模型(2)是顯著的,即
為了構(gòu)造統(tǒng)計(jì)量,將采用Horváth.L等的CU?SUM(cumulative sum)方法,在此之前先求出=Y i-,i=m+1,…,m+T,然 后 求的CU?SUM,即:對(duì)于某個(gè)T>0,
對(duì)于給定常數(shù)γ∈[0,1/2),考慮歸一化函數(shù)(此歸一化函數(shù)為有界函數(shù)):
引理1在滿足假設(shè)(S1)(S2)的條件下,
(2)當(dāng)備擇假設(shè)成立時(shí),有
因此,根據(jù)上述假設(shè)檢驗(yàn)可得到相應(yīng)的檢驗(yàn)統(tǒng)計(jì)量
引理2對(duì)于給定的顯著性水平α容易通過模擬計(jì)算得到對(duì)應(yīng)的分位點(diǎn)cα(γ),因此,當(dāng)原假設(shè)被拒絕時(shí),可以得到停時(shí):
基于第二章提出的變點(diǎn)檢測(cè)模型,對(duì)廣西桂林市的降雨量真實(shí)數(shù)據(jù)進(jìn)行實(shí)證分析。
氣象數(shù)據(jù)的預(yù)測(cè)問題是氣象學(xué)研究領(lǐng)域中公認(rèn)的較為復(fù)雜的課題之一,其中降雨量為氣象數(shù)據(jù)預(yù)測(cè)中最難課題之一,降雨量大小引發(fā)的地質(zhì)災(zāi)害關(guān)系著人民生命財(cái)產(chǎn)安全,因此對(duì)降雨量大小的監(jiān)控和精準(zhǔn)預(yù)測(cè)是一項(xiàng)非常重要的工作。本文選取廣西桂林市的真實(shí)降雨量數(shù)據(jù),基于第二章提出的變點(diǎn)檢測(cè)模型對(duì)降雨量的時(shí)間序列數(shù)據(jù)進(jìn)行檢測(cè)分析,得出影響降雨量的因素以及降雨量的變點(diǎn)時(shí)刻,進(jìn)而為相關(guān)氣象部門做好防護(hù)預(yù)警提供有力的依據(jù),已達(dá)到減少人民生命財(cái)產(chǎn)損失的目的。
本章數(shù)據(jù)來自廣西桂林市2019年1月1日至2019年12月31日的降雨量情況。其中影響桂林市降雨量的變量如表1所示。
表1 桂林市降雨量的變量
圖1是桂林市降雨量情況的周度數(shù)據(jù)圖,可以看出時(shí)間在第23周時(shí),降雨量發(fā)生驟變,容易看出這個(gè)數(shù)據(jù)是存在變點(diǎn)的,因此可以對(duì)桂林市降雨量數(shù)據(jù)進(jìn)行變點(diǎn)檢測(cè)。
圖1 桂林市降雨量時(shí)序圖(周度數(shù)據(jù))
首先研究降雨量數(shù)據(jù)的滯后情況。對(duì)數(shù)據(jù)進(jìn)行時(shí)間序列分析,確定該降雨量序列是2階滯后的,因此確定滯后項(xiàng)階數(shù)k=2。
其次選用較簡(jiǎn)單的最小二乘法(4)對(duì)降雨量數(shù)據(jù)進(jìn)行分析,得到該模型(3)的最小二乘法估計(jì)為=(5.89,-0.34,0.06,0.025,-0.04,0,0,-0.21)T。
然后選用adaptive LASSO方法(5)對(duì)降雨量數(shù)據(jù)進(jìn)行分析,得到該模型(3)的adaptive LASSO估計(jì)為=(4.66,-0.26,0,0,0,0,0,-0.06)T,再 根 據(jù) 得到adaptive LASSO估計(jì)易得總體標(biāo)準(zhǔn)差估計(jì)(8)為=0.73。
接下來根據(jù)數(shù)據(jù)模擬得到統(tǒng)計(jì)量的分位數(shù)為(γ=1 4,α=0.05)和cα(γ)=42.37645,并根據(jù)計(jì)算不同時(shí)間點(diǎn)統(tǒng)計(jì)量的值可以得到停時(shí)=83。
最后綜合上述分析和結(jié)果得出,只有最高氣溫和降雨量一階滯后項(xiàng)兩個(gè)解釋變量是影響廣西桂林市降雨量情況的因素,并得到桂林市2019年1月1日至2019年12月31日降雨量的變點(diǎn)在第m個(gè)數(shù)據(jù)后的第83個(gè)位置,按照實(shí)際時(shí)間計(jì)算得到變點(diǎn)時(shí)刻為2019年4月13日。換句話說,在4月中旬來臨之前,相關(guān)部門應(yīng)該提前做好防洪防汛工作,防止內(nèi)澇和次生災(zāi)害的發(fā)生。桂林市在2017年和2020年分別發(fā)生了內(nèi)澇,導(dǎo)致了政府和人民財(cái)產(chǎn)的損失。使用該方法對(duì)降雨量進(jìn)行分析,可以為當(dāng)?shù)夭块T提供有效有力的數(shù)據(jù)支持和決策意見,以防止人員傷亡及財(cái)產(chǎn)損失。
2019年4月13日正值桂林市濕潤(rùn)季風(fēng)影響下的雨季,也是當(dāng)?shù)厝怂追Q的“南風(fēng)天”。這說明本文建立的基于混合回歸模型adaptive LASSO方法較為準(zhǔn)確的將實(shí)時(shí)降雨量驟變點(diǎn)檢測(cè)出來了,解決了一個(gè)氣象數(shù)據(jù)難預(yù)測(cè)的問題,進(jìn)而得出該模型檢測(cè)效果不錯(cuò),能夠較為準(zhǔn)確的定位降雨量變點(diǎn),并且結(jié)果符合實(shí)際情況,具有較大的實(shí)際意義,也為后續(xù)研究其他氣象問題提供一種好用又準(zhǔn)確的方法。