黃 彬,楊凌霞,徐修友
(北京化工大學理學院,北京 100029)
變量選擇是回歸分析中的一個重要問題.當面對高維協(xié)變量集合時,選擇對響應變量具有顯著解釋能力的協(xié)變量子集,對于簡化模型,提高模型的解釋能力十分重要.一些基于懲罰的變量選擇方法,如LASSO(least absolute shrinkage and selection operator)[1],SCAD(smoothly clipped absolute deviation)[2],ALASSO(adaptive LASSO)[3]通過將部分回歸系數(shù)收縮至零,有效地選擇出重要變量并很好地估計模型參數(shù),同時基于SCAD和ALASSO的估計具有漸進正態(tài)性和先知性(Oracle性質(zhì)[2]).另外,Ueki[4]提出了STEE(smooth-threshold estimating equations)方法進行變量選擇,它的優(yōu)點是易于實現(xiàn),不用求解凸優(yōu)化問題.
偏線性模型是一種十分靈活的半?yún)?shù)模型,對于該模型及其推廣模型的參數(shù)估計和變量選擇已經(jīng)有了廣泛的研究[5-13].然而,在響應變量缺失且協(xié)變量包含測量誤差情況下,一個重要的問題是如何選擇模型的重要變量,這個問題在文獻中還沒有被提及.本文主要研究偏線性模型在協(xié)變量包含測量誤差且響應變量有缺失時的估計和變量選擇問題.
我們將利用半?yún)?shù)回歸替代方法[11]來處理缺失的響應變量.基于SCAD懲罰最小二乘和STEE,對偏線性模型的參數(shù)部分提出兩種變量選擇方法.通過選擇合適的調(diào)整參數(shù),且在一定的正則條件下,可以證明這兩種變量選擇方法具有漸進正態(tài)性和先知性.數(shù)值模擬研究顯示,SCAD比STEE在估計精度和正確擬合模型方面更優(yōu),而STEE因不用求解凸優(yōu)化問題而易于實現(xiàn).
考慮偏線性模型
Y=XTβ+g(T)+ε,
(1)
這里X=(X1,…,Xp)T是p-維協(xié)變量向量,β是未知參數(shù)向量.為避免“維數(shù)災難”,T是取值于[0,1]的標量協(xié)變量,函數(shù)g(·)是[0,1]上的未知函數(shù),ε為隨機誤差,且E(ε|X,T)=0.令β0=(β01,…,β0p)T是β的真值.假設真實模型有一個稀疏形式,即β0的一些分量是0,令A0={j:β0j≠0}為重要變量下標集合.由于X包含測量誤差,我們觀測到W
W=X+U,
(2)
這里U是p-維測量誤差,且均值為0,協(xié)方差陣為ΣUU.令δ是響應變量是否缺失的標志,即δ=1表示Y被觀測到,δ=0表示Y缺失.假設選擇概率
π(x,t)=P(δ=1|X=x,T=t,Y=y)=
P(δ=1|X=x,T=t).
(3)
注意,因為X不能被直接觀測到,所以這種缺失機制不是MAR(missing at ramdom).進一步,假設U獨立于(X,T,Y,δ),且ΣUU已知.若ΣUU未知,可由部分重復樣本進行估計[5].令{(Wi,Ti,Yi,δi),i=1,…,n}是來自模型(1)~(3)的隨機樣本,本文的目標是識別重要變量下標集合A0,并得到對應回歸系數(shù)的相合估計.
為了處理模型中的缺失響應變量,Wang等[11]提出了基于插補、半?yún)?shù)回歸替代方法來估計β和g(·).Yang等[13]利用插補方法處理缺失的響應變量,同時考慮了協(xié)變量包含測量誤差的情況.為了簡單起見,我們應用半?yún)?shù)回歸替代方法來處理缺失的響應變量.在本文缺失機制的假設下,可以證明所提出的估計與Yang等[13]提出的估計有相同的漸近方差.
注意δY=δXTβ+δg(T)+δε,定義
由假設,有
g(t)=g2,c(t)-g1,c(t)Tβ.
類似于Yang等[13],可以得到下面的兩步估計.首先,利用完全觀測數(shù)據(jù)得到β的初始估計
(4)
(5)
E[δ{(UUT-ΣUU)β}?2].
同時假設模型(1)~(3)滿足如下條件:
3)K(·)和M(·)為具有有界支撐的二階有界核函數(shù).
5)T的密度函數(shù)fT(t)存在且直到二階導數(shù)都有界,滿足
文獻[11,13]中也有類似的條件.
(6)
類似于文獻[11]和文獻[13]的證明,可得:
(7)
從而定理1得證.
為同時選擇重要變量并估計未知回歸參數(shù),Fan等[2]提出了一個基于SCAD懲罰似然的變量選擇方法,且證明了當選擇合適的調(diào)整參數(shù)時,SCAD懲罰似然估計與先知估計等效.我們應用SCAD懲罰對偏線性模型進行變量選擇.
沿襲Fan等[2]方法,懲罰最小二乘定義為
(8)
其中pλj(·)是SCAD懲罰函數(shù),λj是調(diào)整參數(shù).注意對所有的j,pλj(·)中的λj不必相同.為了簡單起見,我們假設β的所有分量的懲罰相同,且將pλj(·)寫為pλ(·).懲罰函數(shù)pλ(·)定義為
利用BIC準則[15]選擇調(diào)整參數(shù),通過極小化
BIC(λ)=logRSSλ+e(λ)log(n)/n,
證明令αn=n-1/2+an,只需證對任意ε>0,存在一個大的常數(shù)M,使得
(9)
定義
且
注意pλ(0)=0和pλ(|β|)≥0對任意β成立,因此
LP(β0+αnu)-LP(β0)≥Dn1+Dn2.
進一步,由泰勒展開,
類似于定理1的證明,可以得到
且
由Slutsky定理
Ueki[4]提出了STEE變量選擇方法,它通過自動將不顯著的參數(shù)設置為0的方法,將對應的變量從模型中刪除,且其估計具有先知性質(zhì).該方法的優(yōu)點是易于實現(xiàn),不需要求解凸優(yōu)化問題即可得到估計.本節(jié),我們應用這個方法對偏線性模型進行變量選擇.
沿襲Ueki[4],利用估計方程(10),可以同時實現(xiàn)變量選擇和參數(shù)估計,
(10)
其中
定理4在1)~7)下,對于任意正數(shù)λ和γ,使得當n→∞時,若n1/2λ→0和n(1+γ)/2λ→∞,則有
(i) 變量選擇相合性,即P(A=A0)→1;
我們使用BIC-型準則[7]來選擇調(diào)整參數(shù),通過極小化
表1 數(shù)值模擬結(jié)果
本節(jié),我們采用數(shù)值模擬的方法來進一步研究所提出的變量選擇方法的有限樣本性質(zhì).考慮模型
從表1可以看出,本文所提出的方法都顯著地降低了模型復雜度.同時,SCAD估計在估計的精度和正確擬合模型方面,比STEE估計更好.SCAD估計的MRME非常接近于先知估計的MRME.而STEE估計由于不用求解凸優(yōu)化問題而更易于實現(xiàn).
[1] Tibshirani R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,Series B:Methodological,1996,58(1):267-288.
[2] Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle property[J].Journal of the American Statistical Association,2001,96:1348-1360.
[3] Zou H.The adaptive lasso and its oracle properties[J].Journal of the American Statistical Association,2006,101(476):1418-1429.
[4] Ueki M.A note on automatic variable selection using smooth-threshold estimating equations[J].Biometrika,2009,96(4):1005-1011.
[5] Liang H,Hardle W,Carroll R J.Estimation in a semiparametric partially linear errors-in-variables model[J].The Annals of Statistics,1999,27:1519-1535.
[6] You J,Chen G.Estimation of a semiparametric varying-coefficient partially linear errors-in-variables model[J].Journal of Multivariate Analysis,1996,97:324-341.
[7] Liang H,Li R.Variable selection for partially linear models with measurement errors[J].Journal of the American Statistical Association,2009,104:234-248.
[8] Zhao P,Xue L.Variable selection for semiparametric varying coefficient partially linear errors-in-variables models[J].Journal of Multivariate Analysis,2010,101:1872-1883.
[9] Wang H,Zou G,Wan A.Adaptive LASSO for varying-coefficient partially linear measurement error models[J].Journal of Statistical Planning and Inference,2013,143:40-54.
[10] Wang Q H,Lindon O,Hardel W.Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association,2004,99:334-345.
[11] Wang Q H,Sun Z H.Estimation in partially linear models with missing responses at random[J].Journal of Multivariate Analysis,2007,98:1470-1493.
[12] Liang H,Wang S,Carroll R.Partially linear models with missing response variables and error-prone covariates[J].Biometrika,2007,94(1):185-198.
[13] Yang Y,Xue L,Cheng W.Two-step estimators in partial linear models with missing response variables and error-prone covariates[J].Journal of Systems Science and Complexity,2011,24:1165-1182.
[14] Hunter D,Li R.Variable selection using MM algorithm[J].The Annals of Statistics,2005,33:1617-1642.
[15] Wang H,Li R,Tsai C.Tuning parameter selectors for the smoothly clipped absolute deviation method[J].Biometrika,2008,94:553-568.