摘要:本文提出了一種針對高維刪失數(shù)據(jù)下線性模型問題變量選擇問題的方法,即利用Buckley-James方法對刪失部分進(jìn)行差補(bǔ),運(yùn)用SCAD方法懲罰因子進(jìn)行變量選擇。
關(guān)鍵字:刪失數(shù)據(jù);BJ法;變量選擇
0引言
在生存數(shù)據(jù)分析中,數(shù)據(jù)缺失的現(xiàn)象是非常普遍的。例如在對某項(xiàng)藥物對某種疾病的作用對進(jìn)行預(yù)測時(shí),患者由于某種原因沒有能夠繼續(xù)觀測,造成數(shù)據(jù)的缺失。對于缺失數(shù)據(jù)下線性模型的統(tǒng)計(jì)推斷,目前已有大量的文獻(xiàn)進(jìn)行研究(參見文獻(xiàn)[1-3])。但是關(guān)于生存數(shù)據(jù)下線性模型的變量選擇問題,目前研究的文獻(xiàn)不是太多。而在實(shí)際的回歸建模過程中往往會(huì)遇到大量的變量,因此在高維數(shù)據(jù)中這些變量中選出較為重要的變量成為回歸分析研究中一個(gè)重要的課題。基于此,本文研究高維數(shù)據(jù)生存分析的變量選擇問題。經(jīng)典的變量選擇方法,比如向前法、向后法以及逐步回歸等,是通過構(gòu)造一系列的子模型,然后利用假設(shè)檢驗(yàn)來選擇最優(yōu)的子模型,從而達(dá)到變量選擇的目的(參見文獻(xiàn)[4-6])。但是這些方法往往會(huì)計(jì)算量較大,并且很難得出所得估計(jì)的漸近性質(zhì)。為了克服這兩個(gè)弱點(diǎn),本文利用,得到了一個(gè)迭代算法。我們的方法可以同時(shí)給出參數(shù)分量以及非參數(shù)函數(shù)的估計(jì),并且變量選擇與系數(shù)估計(jì)同時(shí)進(jìn)行,因此大大降低了計(jì)算量并且很容易得到估計(jì)的漸近性質(zhì),利用Buckley-James方法對刪失部分進(jìn)行差補(bǔ),并且SCAD中的懲罰因子,進(jìn)行迭代計(jì)算,改進(jìn)了傳統(tǒng)的變量選擇方法,通過模擬分析,得到了較好的效果。
1方法論和主要結(jié)果
1.1 生存分析中刪失數(shù)據(jù)的Buckley-James方法[1-3]
假設(shè)Ti為第i個(gè)觀測者的生存時(shí)間,協(xié)變量為x,其中x=[x1,x2,...,xn],則有線性模型如下
式(1)
當(dāng)Ti為右刪失時(shí),我們假設(shè) ,其中 ,其中 ,如果沒有刪失數(shù)據(jù),則模型1為線性回歸模型,當(dāng)出現(xiàn)刪失時(shí),Buckley-James提出了利用條件期望對刪失部分進(jìn)行差補(bǔ)的方法,即令Y*i定下如下
式(2)
其中利用模型1中的α及εi,則新的隨機(jī)誤差為
則有
式(3)
其中F(t)為分布函數(shù)。經(jīng)過差補(bǔ)后的模型1可以轉(zhuǎn)化為以下模型
式(4)
其中ε*i為均值為0的隨機(jī)誤差。利用最小二乘法即可得到差補(bǔ)后模型的參數(shù)估計(jì)。
1.2 SCAD變量選擇方法[4]
在一般的生存分析數(shù)據(jù)中,遇到的問題一般為n>p的情況,當(dāng)出現(xiàn) p>n時(shí),一般的變量選擇方法不再適用,當(dāng)前,基于懲罰因子的變量選擇方法得到廣泛的應(yīng)用。學(xué)者Fan提出了SCAD的方法,考慮一個(gè)最小化問題,即
,其中 為懲罰項(xiàng),F(xiàn)an和Li給出了
懲罰項(xiàng)的一階導(dǎo)數(shù)
可以求出
其中α=3.7,而λ采用交叉驗(yàn)證的方法求解。
1.3 基于Buckley-James的SCAD迭代算法
(1)取β0為β的初始值
(2)利用式(3)計(jì)算Y*i
(3)通過 計(jì)算
(4)當(dāng) ,d為給定的數(shù),停止計(jì)算[]
(5)通過 ,計(jì)算出α
2 總結(jié)
通過Buckley-James的算法對缺失數(shù)據(jù)進(jìn)行差補(bǔ),并且利用懲罰因子SCAD方法進(jìn)行變量選擇,可以對高維數(shù)據(jù)生存分析進(jìn)行變量選擇問題,當(dāng)然此方法的理論證明還需要進(jìn)一步完善和通過模擬進(jìn)行進(jìn)一步驗(yàn)證。
參考文獻(xiàn):
[1]Wang Q H,Linton O, HardleW.Semiparametric Regression Analysis with Missing Response at Random[J].Journal of the AmericanStatistical Association,2004,99.
[2]Wang Q H, Sun Z H.Estimation in Partially Linear Models with Missing Responses at Random[J].Journal of Multivariate Analysis,2007,98.
[3]Buckley, J. and James, I. (1979). Linear regression with censored data[J]. Biometrika66,429–436.
[4]Fan,J.and Li,R.(2002)Variable selection via Nonconcave Penalized Likelihoodand its Oracle Properties[J]. Journal 01 the American Statistical Association,1348-1360.
[5]趙培信,薛留根.變系數(shù)部分線性模型的擬合優(yōu)度檢驗(yàn) [J].應(yīng)用數(shù)學(xué),2008,21(4).
作者簡介:江建明,廣西恭城人,講師,研究方向:應(yīng)用統(tǒng)計(jì)
基金項(xiàng)目:本文為2016年度廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目
(項(xiàng)目編號:KY2016Lx343)研究成果endprint