張 雪,田 媛,王德輝
(吉林大學 數(shù)學學院,長春130012)
由于函數(shù)型數(shù)據(jù)的特殊性,將經(jīng)典多元回歸方法應用到函數(shù)型回歸模型上通常不能得到較好的結果,因此出現(xiàn)了許多處理這類問題的方法.文獻[1]介紹了函數(shù)型線性模型的3種類型:向量型響應變量函數(shù)型解釋變量、函數(shù)型響應變量向量型解釋變量及響應變量和解釋變量均為函數(shù)型.文獻[2]討論了函數(shù)型線性模型.更一般地,在不滿足線性假設的情況下,文獻[3]介紹了非參數(shù)函數(shù)型數(shù)據(jù),研究了對連接函數(shù)的估計問題.文獻[4]用非參數(shù)方法建立了線性回歸系數(shù)的估計.當變量中既有向量型又有函數(shù)型時,稱其為混合數(shù)據(jù).文獻[5]介紹了針對混合數(shù)據(jù)的部分函數(shù)型線性模型,該模型結合經(jīng)典的多元線性模型和函數(shù)型線性模型,具有獨特的優(yōu)越性.在處理函數(shù)型線性模型時,主成分分析是一種非常重要的方法,文獻[6]介紹了函數(shù)主成分分析的性質.文獻[7]通過把L2空間的函數(shù)型數(shù)據(jù)進行K-L展開,給出了部分函數(shù)型線性模型中系數(shù)的估計量,并討論了估計量的漸近性質,但當函數(shù)型數(shù)據(jù)協(xié)方差算子的特征值只有少數(shù)非零時,該估計的結果與真實值相差較多.本文基于文獻[8]的思想,采用預平滑方法對文獻[7]中給出的估計量進行修正,得到新的相合估計量,解決了上述問題.
部分函數(shù)型線性模型[5],即標量返回值Y與預測值(z,X)滿足如下線性關系:
其中:z=(z1,z2,…,zp)T為p維隨機向量,Ez=0,Ezz′存在且有限;{X(t)}∈L2[0,1]為隨機過程,均值為零,
ε與z,X 相互獨立,且Eε=0,Varε=σ2;θ(t)∈L2[0,1]且‖θ‖2<∞;β為p 維向量.
特別地,當β=0時,模型(1)為Y=〈θ(t),X(t)〉+ε,即函數(shù)型線性模型,當θ=0時,模型(1)為Y=βTz+ε,即多元線性模型,故本文方法同樣適用于這兩種情況.
記過程X 的協(xié)方差函數(shù)KX(s,t)=Cov(X(s),X(t)),{(λj,φj)}j為協(xié)方差算子 K(x)(t)=〈x(s),KX(s,t)〉的特征值和特征函數(shù),即滿足 K(φj)=λjφj.類似地,記 KYX(·)= Cov(Y,X(·)),KzX(·)=Cov(z,X(·))= (Kz1X(·),…,KzpX(·))T,Kz= Var(z),KzY=Cov(z,Y).
根據(jù)文獻[7]采用主成分分析方法,選擇前m個最大特征值對應的主成分將θ(t)和X(t)進行K-L展開,使用最小二乘方法得到估計量:
由文獻[7]可知,β和θ的估計量中都有^λj做分母,因此對于只有少數(shù)非零特征值的函數(shù)型樣本,通過模擬可知這種估計量非常不穩(wěn)定,因此本文采用預平滑方法對估計量進行修正:令{αn}n為一列趨于0的正實數(shù).給出新的估計量:
式(4)和式(5)通過對分式分母的處理解決了分母趨于零的問題,使得估計量更穩(wěn)定.
估計量的相合性需要如下假設:
定理1 在假設(H1)~(H5)下,
定理2 在假設(H1)~(H5)下,‖^θαn-θ‖→0a.s.
定理1和定理2表明,在一定的條件下本文給出的系數(shù)函數(shù)估計量和系數(shù)向量估計量具有相合性.
下面證明定理1和定理2.定理1的證明類似于文獻[7]中定理3.1的證明,所用符號也與文獻[7]相對應,不同處將用上標αn標注.
引理1 令
則有
證明:由于
首先注意到
由于z(k)=g(k)+η(k),故
其中:g(k)=(〈gk,X1〉,…,〈gk,Xn〉)T;η(k)=(η1k,…,ηnk)T.經(jīng)計算可得
因為
故
同理可得
根據(jù)文獻[7],
其中Bkk為B的第k個對角線元素.從而得
即
從而
下面給出一個實例,比較Shin[7]給出的估計量和本文提出的估計量.在模型(1)中,令
分別為預測值的均方誤差、估計θ的均方誤差和估計β的均方誤差,其中p為維數(shù).
表1 兩種估計量的均方誤差Table 1 Mean square error for two types of estimators
由表1可見,當m≤3時兩種估計量的效果幾乎相同,由Shin提出的估計量在m=4時達到最優(yōu);當m>4時,由于趨于零的特征值在分母上產生較大波動,所以不能給出準確的估計,很明顯本文給出的估計量具有較好的穩(wěn)定性,而且優(yōu)于Shin的結果,表明在處理這類數(shù)據(jù)時使用本文的估計量可以選取適當大的m值而不必計算m的最優(yōu)值.
[1]Ramsay J O,Silverman B W.Functional Data Analysis[M].2nd ed.New York:Springer,2005:217-295.
[2]Cardot H,F(xiàn)erraty F,Sarda P.Functional Linear Model [J].Statistics & Probability Letters,1999,45(1):11-22.
[3]Ferraty F,Vieu P.Nonparametric Functional Data Analysis[M].New York:Springer,2006.
[4]Cristobal J A C,Roca F P,Manteiga W G.A Class of Linear Regression Parameter Estimators Constructed by Nonparametric Estimation[J].The Annals of Statistics,1987,15(2):603-609.
[5]Zhang D,Lin X,Sowers M F.Two-Stage Functional Mixed Models for Evaluating the Effect of Longitudinal Covariate Profiles on a Scalar Outcome[J].Biometrics,2007,63:351-362.
[6]Hall P,Hosseini-Nasab M.On Properties of Functional Principal Components Analysis[J].Journal of the Royal Statistical Society:Ser B,2006,68(1):109-126.
[7]Shin H.Partial Functional Linear Regression[J].Journal of Statistical Planning and Inference,2009,139(10):3405-3418.
[8]Ferraty F,González-Manteiga W,Martínez-Calvo A,et al.Presmoothing in Functional Linear Regression [J].Statistica Sinica,2012,22:69-94.