鐘 鈺,李壽梅,章 磊
(北京工業(yè)大學應用數(shù)理學院,北京 100124)
時間序列分析的研究有著悠久的歷史以及大量的學術成果, 并在很多領域中都有著廣泛的應用, 例如Box等[1]、Tsay[2]、Brockwell等[3]的專著及其所引用的參考文獻. 經(jīng)典時間序列模型研究的對象通常是隨著時間推移而形成的隨機變量或隨機向量序列, 通過建立時間序列模型來分析這些序列的動態(tài)規(guī)律.
然而, 隨著技術的發(fā)展, 人們收集到的數(shù)據(jù)變得更加復雜, 經(jīng)典的時間序列模型不再適用于一些較為復雜的數(shù)據(jù). 例如, 在分析股票數(shù)據(jù)時通常選取每個交易日的收盤價作為研究對象. 然而,當今的技術使得股票數(shù)據(jù)刷新頻率很高, 收盤價并不足以反映當天股票價格的變化. 比如說, 某一個交易日里某一支股票價格所有的觀測值為x1,x2,…,xn,這里n的值很大,而收盤價只是集合{x1,x2,…,xn}中的一個元素. 為能更準確地研究股票數(shù)據(jù),有一種方法是取每個交易日里股票價格的最高價和最低價,將其作為一個區(qū)間的2個端點,即研究對象是
Xt=[min{x1,x2,…,xn},max{x1,x2,…,xn}]
將區(qū)間Xt視為一個數(shù)據(jù)單元來研究問題. 可以看出,區(qū)間Xt不僅包含了收盤價的信息,而且還有當天股價變動的情況,這無疑是一個好的處理方法. 通過區(qū)間值或集值數(shù)據(jù)來描述一類復雜數(shù)據(jù),是一種分析復雜數(shù)據(jù)的手段. 另一方面,由于系統(tǒng)的復雜性,使得到的數(shù)據(jù)是某個范圍而不是一個確定的實數(shù)值. 比如讓專家估計明年中國的經(jīng)濟增長率,專家們往往會給出3%~6%,3.5%~5.7%這樣的數(shù)據(jù),顯然用區(qū)間來刻畫這類數(shù)據(jù)更加貼切. 引入?yún)^(qū)間值和集值數(shù)據(jù),不僅是對觀測數(shù)據(jù)的一種處理方式,而且還是對收集到的數(shù)據(jù)一種客觀并且準確的體現(xiàn).
事實上,區(qū)間是集合的一個特例,區(qū)間值隨機變量的相關性質都可以從集值隨機變量的性質中推導. 自從20世紀中葉,以經(jīng)濟學諾貝爾獎獲得者Aumann和Debreu為代表的一批研究者在研究市場均衡等經(jīng)濟問題時引入了集值映射的概念及方法,集值隨機理論有了較為完善的發(fā)展. Aumann[4]通過集值隨機變量的選擇集給出了集值隨機變量期望的定義,這里集值隨機變量的期望是選擇集中元素的期望構成的集合. Hiai等[5]定義了集值隨機變量的條件期望. Lyashenko[6]討論了歐式空間中集值隨機變量的性質,提出了集值隨機變量方差的定義,并給出了集值高斯隨機變量的定義及表達定理. Vitale[7]研究了集合的Lp距離的性質. 需注意的是,相較于集合的Hausdorff距離,Lp距離具有非常好的數(shù)學性質,這使得集值和區(qū)間值的統(tǒng)計模型大多數(shù)都建立在Lp距離之上. Diamond[8]討論了區(qū)間值仿射函數(shù)的最小二乘估計方法. Li等[9-10]研究了集值鞅的收斂性問題. Li等[11]的書中系統(tǒng)地總結了集值隨機變量的空間、期望與條件期望,強大數(shù)定律與中心極限定理等理論. Gil等[12]推廣了Lp距離. Yang等[13]通過Lp距離定義了集值隨機變量的協(xié)方差和相關系數(shù),并討論了方差、協(xié)方差和相關系數(shù)的性質. 張文修等[14]的書中闡述了集值隨機過程的一系列理論.
作為集合最簡單的特例,區(qū)間值時間序列被廣泛地討論. 有一類文獻是將區(qū)間的2個端點或中心半徑看作2個實值隨機變量,然后通過區(qū)間的2個端點或中心半徑來給出區(qū)間值時間序列模型,例如Wang等[15]、González-Rivera等[16]、唐娜娜[17]等. 而另一類文獻則是將區(qū)間值數(shù)據(jù)看成一個整體,使用集值隨機理論來分析區(qū)間值數(shù)據(jù),并建立區(qū)間值時間序列模型,例如王洵[18]、Wang等[19]、章磊[20]等.
區(qū)間值時間序列可以看作集值時間序列的一個特例,區(qū)間值時間序列的相關理論可以通過集值時間序列推出,而對集值時間序列的討論建立在集值隨機過程理論的框架下. 張文修等[14]的專著中,系統(tǒng)地介紹了集值隨機過程的一系列理論. Wang等[21]定義了嚴平穩(wěn)的集值隨機過程并討論了它的一系列性質. 然而,雖然在嚴平穩(wěn)性的條件下,集值隨機過程有許多好的性質,但在實際應用中難以使用. 因此Wang等[19]通過集值隨機變量的期望[4]和協(xié)方差[13]定義了集值時間序列的弱平穩(wěn)性,并進一步討論了弱平穩(wěn)條件下集值時間序列統(tǒng)計量的估計及其漸近性質.
本文在Wang等[19]、章磊[20]研究的基礎之上,進一步討論了集值隨機向量和集值多元時間序列的相關定義及性質. 首先,給出集值向量與集值隨機向量的相關理論;然后,討論集值多元時間序列;第三,給出集值多元時間序列在區(qū)間值情形下的應用;第四,給出區(qū)間值多元自回歸模型的一個實證分析;最后,簡要地給出結論.
A+B={a+b:a∈A,b∈B}
ΛA={λa:a∈A},?λ∈
Vitale[7]通過支撐函數(shù)定義了K(d)中2個元素間的Lp距離,1≤p<∞. 集合A∈K(d)的支撐函數(shù)定義為
不失一般性,本文接下來取p=2. 進一步地,由Yang等[13]可知空間(K(d),L2)是完備可分的.
稱由k個K(d)中的集合A1,A2,…,Ak構成的集值向量A=(A1,A2,…,Ak)T為k維集值向量. 記k維集值向量族為Kk(d). 需注意的是,集值向量A是kd中一個k維的超立方體. 由于假定了集值向量中每個元素都是Kk(d)中的集合,因此,可以推出關系式Kk(d)?K(kd)成立.
假定k≤m,任意的k維集值向量和m維集值向量A=(A1,A2,…,Ak)T,B=(B1,B2,…,Bm)T間的加法運算定義為
A+B=(A1+B1,…,Ak+Bk,Bk+1,…,Bm)T
進一步地,k維集值向量A與p×k的實值矩陣Λ=(λi,j)i=1,2,…,p,j=1,2,…,k間的矩陣乘法運算定義為
令(Ω,A,P)是一個完備的概率空間. 稱集值映射X(ω):Ω→K(d)為一個集值隨機變量,如果對于任意開集C,都有X-1(C)∈A,式中X-1(C)={ω∈Ω:X(ω)∩C≠?}.
記u[Ω,K(d)]為K(d)中的集值隨機變量族. 2個集值隨機變量X1、X2間的D2距離定義為
接下來可以通過Aumann[4]積分,給出集值隨機變量X期望的定義
式中L1[Ω,d]為一階矩存在的實值隨機向量族.
注意到u[Ω,K(d)]并非是一個線性空間,這使得許多通過線性空間的特性討論的統(tǒng)計問題無法平行地推廣至集值的情形,例如并不能直接定義集值隨機變量的方差和協(xié)方差,然而,可以通過D2距離來刻畫集值隨機變量的離散程度. Yang等[15]討論了通過D2距離定義的集值隨機變量方差的性質,并給出了集值隨機變量協(xié)方差和相關系數(shù)的定義.
對于u[Ω,K(d)]中的元素,進一步地記
為所有D2距離存在的集值隨機變量族. 集值隨機變量X1,X2∈L2[Ω,K(d)]的方差、協(xié)方差和相關系數(shù)分別定義為
式中Var(X1)Var(X2)≠0.
為便于接下來的討論,下面給出集值隨機變量協(xié)方差的一些性質.
命題1集值隨機變量X1、X2、X3的協(xié)方差具有下面幾個性質:
1) Cov(C,X1)=0,式中C是一個常集合.
2) Cov(λX1,X2)=λCov(X1,X2),式中λ≥0是一個常數(shù).
3) Cov(X1+X2,X3)=Cov(X1,X3)+Cov(X2,X3).
命題1的證明以及關于集值隨機變量方差、協(xié)方差的更多性質見Yang等[13]、Wang等[19].
考慮完備的概率乘積空間
(Ω1,A1,P1)×…×(Ωk,Ak,Pk)
稱向量X=(X1,X2,…,Xk)T為k維集值隨機向量,如果X1,X2,…,Xk是K(d)中的集值隨機變量. 記u[Ω1×Ω2×…×Ωk,Kk(d)]為k維集值隨機向量族.
k維集值隨機向量X的期望E[X]定義為
E[X]=(E[X1],E[X2],…,E[Xk])T
式中E[X1],E[X2],…,E[Xk]為X的不同分量在不同的概率測度P1,P2,…,Pk下的期望. 然而為了簡化記號,并不對不同概率測度下的期望加以記號區(qū)分,下面的協(xié)方差陣和交叉協(xié)方差陣等記號也同樣.
如果k維集值隨機向量X1=(X1,1,X2,1,…,Xk,1)T,和X2=(X1,2,X2,2,…,Xk,2)T的每一個分量都有Xi,j∈L2[Ωi,j,K(d)],i=1,2,j=1,2,…,k,那么X1的協(xié)方差陣為
X1和X2的交叉協(xié)方差陣為
X1和X2的交叉相關陣為
命題2k維集值隨機向量X1、X2、X3的交叉協(xié)方差陣具有下面幾個性質:
1) Cov(X1,X2)=Cov(X2,X1)T.
2) Cov(C,X1)=0k×k,式中C=(c1,c2,…,ck)T是一個常集值向量,0k×k是k×k的零矩陣.
3) 下面關系式成立
Cov(X1+X2,X3)=
Cov(X1,X3)+Cov(X2,X3)
4) Cov(PX1,QX2)=PCov(X1,X2)QT,式中P=(pi,j)i=1,…,p,j=1,…,k,Q=(qi,j)i=1,…,p,j=1,…,k是2個所有元素都非負的實值矩陣.
證明:
1) 由下面的表達式
可證得1).
2) 由命題1,可以推出
Cov(C,X1)=(Cov(ci,Xj,1))i,j=1,…,k=(0)i,j=1,…,k
即為2).
3) 由命題1,可以推出
Cov(X1+X2,X3)=
(Cov(Xi,1+Xi,2,Xj,3))i,j=1,…,k=
(Cov(Xi,1Xi,3)+Cov(Xi,2Xj,3))i,j=1,…,k=
Cov(X1,X3)+Cov(X2,X3)
即為3).
4) 由命題1,可以推出
即為4).
Wang等[19]在集值隨機變量及其期望、方差、協(xié)方差等統(tǒng)計量的定義的基礎上,定義了集值時間序列,并給出集值時間序列的平穩(wěn)性、自協(xié)方差函數(shù)和自相關函數(shù)的定義. 在Wang等[19]的基礎上,進一步給出集值多元時間序列的定義,并討論其性質.
對于集值多元時間序列的研究,不能將其視為一個更高維空間中的集值時間序列. 記Ω=Ω1×Ω2×…×Ωk. 雖然一個u[Ω,Kk(d)]中的元素同時也是u[Ω,K(kd)]中的集值隨機變量,但直接將其視為一個集值隨機變量來做進一步的討論,這樣就忽略了集值隨機向量的幾何信息. 因此應對其特別對待,下面給出集值多元時間序列的定義.
定義1稱由時間{t=1,2,…,T}生成的k維集值隨機向量序列X1,X2,…,XT∈u[Ω,Kk(d)]為一個k維集值多元時間序列.
定義2如果對于?t=1,2,…,T,一個k維集值多元時間序列X1,X2,…,XT,都有: 1) E[Xt]≡X0是一個常的集值向量, 2) Cov[Xt]=E[(Xt-X0)(Xt-X0)T]是k×k的常實值正定矩陣,那么稱這個k維集值多元時間序列X1,X2,…,XT是弱平穩(wěn)的.
由定義2可知,如果一個集值多元時間序列的前兩階矩不隨時間變化而變化,那么這個序列就是弱平穩(wěn)的. 由于嚴平穩(wěn)性的定義過于嚴格,就使得在實際應用中很難找到滿足嚴平穩(wěn)定義的序列,因此在這里不再討論集值多元時間序列嚴平穩(wěn)性的定義. 進一步地,將弱平穩(wěn)簡稱為平穩(wěn).
下面引入k維集值多元時間序列的交叉協(xié)方差陣的定義.
定義3滯后為l的k維集值多元時間序列的交叉協(xié)方差陣定義為
ΓlCov(Xt,Xt-l)
滯后為l的交叉相關陣定義為
命題3如果k維集值多元時間序列X1,X2,…,XT是平穩(wěn)的,那么其交叉協(xié)方差陣和交叉相關陣具有下面幾個性質:
3) 對于任意的λ1,λ2,…,λT∈k,T∈{1,2,…},都有
證明:
1)由平穩(wěn)性可以推出
2) 由平穩(wěn)性可知Dt=Dt-l,可推出2).
3) 由平穩(wěn)性,可以由下面的計算
證得3).
下面討論集值多元時間序列期望向量,交叉協(xié)方差陣及交叉相關陣的估計. 假定X1,X2,…,XT是平穩(wěn)的k維集值多元時間序列的觀測值.
期望向量X0的矩估計為
0(1,0,2,0,…,k,0)T=
對于l=0,1,…,L,L?T,滯后為l的交叉協(xié)方差陣的矩估計為
式中
滯后為l的交叉相關陣的矩估計為
l=-1l-1
定理期望向量和交叉協(xié)方差陣的估計0和l具有下面的漸近性質:
2) 如果當l→∞時,Γl→0k×k,那么l是一個漸近無偏估計,即成立.
證明:
1) 對于任意的i=1,…,k,有
對于?ε>0,T→∞,由Wang等[19]中定理1和定理6可知關系式
成立,由此可證得1)成立.
2) 只需證明
注意到關系式
(s(x,Xi,t)-s(x,i,0))(s(x,Xj,t-l)-s(x,j,0))=
(s(x,Xi,t)-s(x,Xi,0))(s(x,Xj,t-l)-s(x,Xj,0))+
(s(x,Xi,t)-s(x,Xi,0))(s(x,Xj,0)-s(x,j,0))+
(s(x,Xi,0)-s(x,i,0))(s(x,Xj,t-l)-s(x,Xj,0))+
(s(x,Xi,0)-s(x,i,0))(s(x,Xj,t-l)-s(x,j,0))
成立,進而由集值協(xié)方差的定義可以得出關系式
又當l→∞時,有Cov(Xi,t,Xj,t-l)=0,再結合期望向量估計0的表達式,可以推出
漸近無偏性2)得證.
下面討論給定平穩(wěn)的k維集值多元時間序列觀測值X1,X2,…,XT后,如何求得超前h步的最優(yōu)線性預測問題,h=1,2,…. 首先,定義一個用于衡量預測質量的準則,那么使得這個準則達到最優(yōu)的X1,X2,…,XT的某一個線性組合,即為最優(yōu)線性預測.
那么稱
T+h=A0+a1XT+…+aTX1
為最優(yōu)線性預測,式中A0=(A1,0,A2,0,…,Ak,0)T為k維集值向量截距,a1,a2,…,aT為k×k的實值系數(shù)矩陣,如果T+h使得均方預測誤差矩陣達到最小,即
當d=1時,將1簡寫為,那么K()為中所有非空有界閉區(qū)間族,即
進一步地,區(qū)間值隨機變量X的期望可以寫為
u[Ω,K()]中區(qū)間值隨機變量X1和X2間的D2距離可以寫為
L2[Ω,K()]中的區(qū)間值隨機變量X1、X2的方差和協(xié)方差可以寫為
稱向量X=(X1,X2,…,Xk)T為k維區(qū)間值隨機向量,如果X1,X2,…,Xk是K()中的區(qū)間值隨機變量. 記u[Ω1×Ω2×…×Ωk,Kk()]為k維區(qū)間值隨機向量族.
k維區(qū)間值隨機向量X的期望E[X]為
k維區(qū)間值隨機向量的協(xié)方差陣,交叉協(xié)方差陣及交叉相關陣形式與k維集值隨機向量的相同,在此不再給出.
平穩(wěn)的k維區(qū)間值多元時間序列由時間生成的k維區(qū)間值隨機向量序列X1,X2,…,XT組成,并且其前二階矩不隨時間變化而變化.
T+h=A0+a1XT+…+aTX1=
p階的k維區(qū)間值多元自回歸模型,簡記為IVAR(p)模型,其表達式為
Xt=Φ0+φ1Xt-1+φ2Xt-2+…+φpXt-p+Zt
記Γ0=Cov(Xt)為k維區(qū)間值多元時間序列的協(xié)方差矩陣,Zt的協(xié)方差陣為Σ. 由IVAR(p)模型的表達式可以推出IVAR(p)序列Xt的協(xié)方差陣為
Γ0=φ1Γ1+φ2Γ2+…+φpΓp+Σ
另一方面,對于?l>0,由IVAR(p)模型的表達式可以推出關系式
Γl=φ1Γl-1+φ2Γl-2+…+φpΓl-p
成立. 然后分別取l=1,2,…,p,聯(lián)立方程組,可以得到
考慮一個一階的2維區(qū)間值多元自回歸模型
Xt=Φ0+φ1Xt-1+Zt,t=2,3,…,T
本節(jié)分析2017- 06-16—2017- 08- 08北京市的空氣指數(shù)數(shù)據(jù),數(shù)據(jù)收集于網(wǎng)站http:∥beijingair.sinaapp.com. 數(shù)據(jù)由北京市12個空氣監(jiān)測站所收集到的空氣指數(shù)、空氣水平、主要污染物、PM 2.5、PM 10、CO、NO2、SO2的質量濃度組成,每個觀測站收集到的數(shù)據(jù)都是每小時更新1次.
本文的研究對象是PM 2.5和PM 10的質量濃度,取每一天里這些空氣監(jiān)測站收集到的PM 2.5和PM 10質量濃度的最小值和最大值作為當天的區(qū)間值隨機向量觀測值的端點,并分別記每天的PM 2.5和PM 10的質量濃度為X1,t和X2,t. 為計算方便,將所有數(shù)據(jù)除以100. 圖1給出了由PM 2.5和PM 10的質量濃度組成的區(qū)間值二元時間序列.
表1 系數(shù)估計的均方誤差
通過計算,可以得出區(qū)間值多元時間序列{Xt=(X1,t,X2,t)T:t=1,2,…,54}的協(xié)方差矩陣和自協(xié)方差矩陣的估計
由上面的估計可以推出IVAR(1)模型系數(shù)的估計
1,0=[0.065 1,0.069 1],2,0=[0.482 0,0.736 4]
進一步地做了3步預測,如圖2所示,實線段是真實的觀測區(qū)間,虛線段是通過IVAR(1)模型得到的預測區(qū)間. 可以看出,預測區(qū)間明顯地反映出了接下來的趨勢. 進一步地,可以計算出T+1、T+2和T+3的均方預測誤差為
1) 對于實際中多元的復雜的時間序列數(shù)據(jù),探討多元集值時間序列基礎理論,建立其時間序列模型是非常必要的. 由集值隨機向量的定義可知,集值隨機向量是一個具有特定幾何特征的集值隨機變量. 如果忽略這個向量形式而依舊將其視為集值隨機變量來討論相關的問題,將會導致信息的損失,這是一種非常粗糙的處理方式. 因此,從集值向量的定義出發(fā),進一步定義了集值隨機向量,并討論了集值隨機變量的期望向量、協(xié)方差陣、交叉協(xié)方差陣以及交叉相關陣的定義及性質.
2) 由于區(qū)間可以通過它的2個端點或中心半徑來確定,因此對區(qū)間值多元時間序列的討論是一個相對更為具體的問題. 相較而言集合則抽象得多,對集值多元時間序列的討論本質上是對區(qū)間值多元時間序列的一個推廣. 給出了集值多元時間序列及其平穩(wěn)性的定義,并研究了在平穩(wěn)的條件下,集值多元時間序列的期望向量、交叉協(xié)方差陣與交叉相關陣的性質,這些統(tǒng)計量的估計及估計的漸近性質,以及最優(yōu)線性預測問題. 以上研究為對集值多元時間序列的進一步討論打下了理論基礎.
3) 討論了區(qū)間值情形下的隨機向量和多元時間序列,并進一步給出區(qū)間值多元自回歸模型的表達形式及估計. 最后,通過一個實證分析展示了本文提出的模型及方法在實踐中的應用.