響應變量缺失時偏線性測量誤差模型的變量選擇

2014-08-06 11:17:42楊凌霞徐修友

廈門大學學報（自然科學版） 2014年1期

黃彬,楊凌霞,徐修友

(北京化工大學理學院,北京 100029)

變量選擇是回歸分析中的一個重要問題．當面對高維協(xié)變量集合時,選擇對響應變量具有顯著解釋能力的協(xié)變量子集,對于簡化模型，提高模型的解釋能力十分重要．一些基于懲罰的變量選擇方法,如LASSO(least absolute shrinkage and selection operator)[1],SCAD(smoothly clipped absolute deviation)[2],ALASSO(adaptive LASSO)[3]通過將部分回歸系數(shù)收縮至零,有效地選擇出重要變量并很好地估計模型參數(shù),同時基于SCAD和ALASSO的估計具有漸進正態(tài)性和先知性(Oracle性質(zhì)[2])．另外,Ueki[4]提出了STEE(smooth-threshold estimating equations)方法進行變量選擇,它的優(yōu)點是易于實現(xiàn),不用求解凸優(yōu)化問題．

偏線性模型是一種十分靈活的半?yún)?shù)模型,對于該模型及其推廣模型的參數(shù)估計和變量選擇已經(jīng)有了廣泛的研究[5-13]．然而,在響應變量缺失且協(xié)變量包含測量誤差情況下,一個重要的問題是如何選擇模型的重要變量,這個問題在文獻中還沒有被提及．本文主要研究偏線性模型在協(xié)變量包含測量誤差且響應變量有缺失時的估計和變量選擇問題．

我們將利用半?yún)?shù)回歸替代方法[11]來處理缺失的響應變量．基于SCAD懲罰最小二乘和STEE,對偏線性模型的參數(shù)部分提出兩種變量選擇方法．通過選擇合適的調(diào)整參數(shù),且在一定的正則條件下,可以證明這兩種變量選擇方法具有漸進正態(tài)性和先知性．數(shù)值模擬研究顯示,SCAD比STEE在估計精度和正確擬合模型方面更優(yōu),而STEE因不用求解凸優(yōu)化問題而易于實現(xiàn).

1 方法

1.1 響應變量缺失時偏線性測量誤差模型的估計

考慮偏線性模型

Y=XTβ+g(T)+ε,

(1)

這里X=(X1,…,Xp)T是p-維協(xié)變量向量,β是未知參數(shù)向量．為避免“維數(shù)災難”,T是取值于[0,1]的標量協(xié)變量,函數(shù)g(·)是[0,1]上的未知函數(shù),ε為隨機誤差,且E(ε|X,T)=0．令β0=(β01,…,β0p)T是β的真值．假設真實模型有一個稀疏形式,即β0的一些分量是0,令A0={j:β0j≠0}為重要變量下標集合．由于X包含測量誤差,我們觀測到W

W=X+U,

(2)

這里U是p-維測量誤差,且均值為0,協(xié)方差陣為ΣUU．令δ是響應變量是否缺失的標志,即δ=1表示Y被觀測到,δ=0表示Y缺失．假設選擇概率

π(x,t)=P(δ=1|X=x,T=t,Y=y)=

P(δ=1|X=x,T=t)．

(3)

注意,因為X不能被直接觀測到,所以這種缺失機制不是MAR(missing at ramdom)．進一步,假設U獨立于(X,T,Y,δ),且ΣUU已知．若ΣUU未知,可由部分重復樣本進行估計[5]．令{(Wi,Ti,Yi,δi),i=1,…,n}是來自模型(1)～(3)的隨機樣本,本文的目標是識別重要變量下標集合A0,并得到對應回歸系數(shù)的相合估計．

為了處理模型中的缺失響應變量,Wang等[11]提出了基于插補、半?yún)?shù)回歸替代方法來估計β和g(·)．Yang等[13]利用插補方法處理缺失的響應變量,同時考慮了協(xié)變量包含測量誤差的情況．為了簡單起見,我們應用半?yún)?shù)回歸替代方法來處理缺失的響應變量．在本文缺失機制的假設下,可以證明所提出的估計與Yang等[13]提出的估計有相同的漸近方差．

注意δY=δXTβ+δg(T)+δε,定義

由假設,有

g(t)=g2,c(t)-g1,c(t)Tβ．

類似于Yang等[13],可以得到下面的兩步估計．首先,利用完全觀測數(shù)據(jù)得到β的初始估計

(4)

(5)

E[δ{(UUT-ΣUU)β}?2]．

同時假設模型(1)～(3)滿足如下條件：

3)K(·)和M(·)為具有有界支撐的二階有界核函數(shù)．

5)T的密度函數(shù)fT(t)存在且直到二階導數(shù)都有界,滿足

文獻[11,13]中也有類似的條件．

(6)

類似于文獻[11]和文獻[13]的證明,可得:

(7)

從而定理1得證．

1.2 基于SCAD懲罰最小二乘的變量選擇

為同時選擇重要變量并估計未知回歸參數(shù),Fan等[2]提出了一個基于SCAD懲罰似然的變量選擇方法,且證明了當選擇合適的調(diào)整參數(shù)時,SCAD懲罰似然估計與先知估計等效．我們應用SCAD懲罰對偏線性模型進行變量選擇．

沿襲Fan等[2]方法,懲罰最小二乘定義為

(8)

其中pλj(·)是SCAD懲罰函數(shù),λj是調(diào)整參數(shù)．注意對所有的j,pλj(·)中的λj不必相同．為了簡單起見,我們假設β的所有分量的懲罰相同,且將pλj(·)寫為pλ(·)．懲罰函數(shù)pλ(·)定義為

利用BIC準則[15]選擇調(diào)整參數(shù),通過極小化

BIC(λ)=logRSSλ+e(λ)log(n)/n,

證明令αn=n-1/2+an,只需證對任意ε>0,存在一個大的常數(shù)M,使得

(9)

定義

且

注意pλ(0)=0和pλ(|β|)≥0對任意β成立,因此

LP(β0+αnu)-LP(β0)≥Dn1+Dn2.

進一步,由泰勒展開,

類似于定理1的證明,可以得到

且

由Slutsky定理

1.3 基于STEE的變量選擇

Ueki[4]提出了STEE變量選擇方法,它通過自動將不顯著的參數(shù)設置為0的方法,將對應的變量從模型中刪除,且其估計具有先知性質(zhì)．該方法的優(yōu)點是易于實現(xiàn),不需要求解凸優(yōu)化問題即可得到估計．本節(jié),我們應用這個方法對偏線性模型進行變量選擇．

沿襲Ueki[4],利用估計方程(10),可以同時實現(xiàn)變量選擇和參數(shù)估計,

(10)

其中

定理4在1)～7)下,對于任意正數(shù)λ和γ,使得當n→∞時,若n1/2λ→0和n(1+γ)/2λ→∞,則有

(i) 變量選擇相合性,即P(A=A0)→1;

我們使用BIC-型準則[7]來選擇調(diào)整參數(shù),通過極小化

表1 數(shù)值模擬結(jié)果

2 數(shù)值模擬

本節(jié),我們采用數(shù)值模擬的方法來進一步研究所提出的變量選擇方法的有限樣本性質(zhì)．考慮模型

從表1可以看出,本文所提出的方法都顯著地降低了模型復雜度．同時,SCAD估計在估計的精度和正確擬合模型方面,比STEE估計更好．SCAD估計的MRME非常接近于先知估計的MRME．而STEE估計由于不用求解凸優(yōu)化問題而更易于實現(xiàn)．

[1] Tibshirani R.Regression shrinkage and selection via the lasso[J]．Journal of the Royal Statistical Society,Series B:Methodological,1996,58(1):267-288.

[2] Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle property[J]．Journal of the American Statistical Association,2001,96:1348-1360.

[3] Zou H.The adaptive lasso and its oracle properties[J]．Journal of the American Statistical Association,2006,101(476):1418-1429.

[4] Ueki M.A note on automatic variable selection using smooth-threshold estimating equations[J]．Biometrika,2009,96(4):1005-1011.

[5] Liang H,Hardle W,Carroll R J.Estimation in a semiparametric partially linear errors-in-variables model[J]．The Annals of Statistics,1999,27:1519-1535.

[6] You J,Chen G.Estimation of a semiparametric varying-coefficient partially linear errors-in-variables model[J]．Journal of Multivariate Analysis,1996,97:324-341.

[7] Liang H,Li R.Variable selection for partially linear models with measurement errors[J]．Journal of the American Statistical Association,2009,104:234-248.

[8] Zhao P,Xue L.Variable selection for semiparametric varying coefficient partially linear errors-in-variables models[J]．Journal of Multivariate Analysis,2010,101:1872-1883.

[9] Wang H,Zou G,Wan A.Adaptive LASSO for varying-coefficient partially linear measurement error models[J]．Journal of Statistical Planning and Inference,2013,143:40-54.

[10] Wang Q H,Lindon O,Hardel W.Semiparametric regression analysis with missing response at random[J]．Journal of the American Statistical Association,2004,99:334-345.

[11] Wang Q H,Sun Z H.Estimation in partially linear models with missing responses at random[J]．Journal of Multivariate Analysis,2007,98:1470-1493.

[12] Liang H,Wang S,Carroll R.Partially linear models with missing response variables and error-prone covariates[J]．Biometrika,2007,94(1):185-198.

[13] Yang Y,Xue L,Cheng W.Two-step estimators in partial linear models with missing response variables and error-prone covariates[J]．Journal of Systems Science and Complexity,2011,24:1165-1182.

[14] Hunter D,Li R.Variable selection using MM algorithm[J]．The Annals of Statistics,2005,33:1617-1642.

[15] Wang H,Li R,Tsai C.Tuning parameter selectors for the smoothly clipped absolute deviation method[J]．Biometrika,2008,94:553-568.