基于Buckley—James和懲罰因子的高維刪失數(shù)據(jù)變量選擇算法

2017-12-20 22:01:39江建明

科學(xué)與財(cái)富 2017年29期

摘要：本文提出了一種針對高維刪失數(shù)據(jù)下線性模型問題變量選擇問題的方法，即利用Buckley-James方法對刪失部分進(jìn)行差補(bǔ)，運(yùn)用SCAD方法懲罰因子進(jìn)行變量選擇。

關(guān)鍵字：刪失數(shù)據(jù)；BJ法；變量選擇

0引言

在生存數(shù)據(jù)分析中，數(shù)據(jù)缺失的現(xiàn)象是非常普遍的。例如在對某項(xiàng)藥物對某種疾病的作用對進(jìn)行預(yù)測時(shí)，患者由于某種原因沒有能夠繼續(xù)觀測，造成數(shù)據(jù)的缺失。對于缺失數(shù)據(jù)下線性模型的統(tǒng)計(jì)推斷，目前已有大量的文獻(xiàn)進(jìn)行研究（參見文獻(xiàn)[1-3]）。但是關(guān)于生存數(shù)據(jù)下線性模型的變量選擇問題，目前研究的文獻(xiàn)不是太多。而在實(shí)際的回歸建模過程中往往會(huì)遇到大量的變量，因此在高維數(shù)據(jù)中這些變量中選出較為重要的變量成為回歸分析研究中一個(gè)重要的課題。基于此，本文研究高維數(shù)據(jù)生存分析的變量選擇問題。經(jīng)典的變量選擇方法，比如向前法、向后法以及逐步回歸等，是通過構(gòu)造一系列的子模型，然后利用假設(shè)檢驗(yàn)來選擇最優(yōu)的子模型，從而達(dá)到變量選擇的目的（參見文獻(xiàn)[4-6]）。但是這些方法往往會(huì)計(jì)算量較大，并且很難得出所得估計(jì)的漸近性質(zhì)。為了克服這兩個(gè)弱點(diǎn)，本文利用，得到了一個(gè)迭代算法。我們的方法可以同時(shí)給出參數(shù)分量以及非參數(shù)函數(shù)的估計(jì)，并且變量選擇與系數(shù)估計(jì)同時(shí)進(jìn)行，因此大大降低了計(jì)算量并且很容易得到估計(jì)的漸近性質(zhì)，利用Buckley-James方法對刪失部分進(jìn)行差補(bǔ)，并且SCAD中的懲罰因子，進(jìn)行迭代計(jì)算，改進(jìn)了傳統(tǒng)的變量選擇方法，通過模擬分析，得到了較好的效果。

1方法論和主要結(jié)果

1.1 生存分析中刪失數(shù)據(jù)的Buckley-James方法[1-3]

假設(shè)Ti為第i個(gè)觀測者的生存時(shí)間，協(xié)變量為x，其中x=[x1，x2，...，xn]，則有線性模型如下

式（1）

當(dāng)Ti為右刪失時(shí)，我們假設(shè) ，其中，其中，如果沒有刪失數(shù)據(jù)，則模型1為線性回歸模型，當(dāng)出現(xiàn)刪失時(shí)，Buckley-James提出了利用條件期望對刪失部分進(jìn)行差補(bǔ)的方法，即令Y*i定下如下

式（2）

其中利用模型1中的α及εi，則新的隨機(jī)誤差為

則有

式（3）

其中F（t）為分布函數(shù)。經(jīng)過差補(bǔ)后的模型1可以轉(zhuǎn)化為以下模型

式（4）

其中ε*i為均值為0的隨機(jī)誤差。利用最小二乘法即可得到差補(bǔ)后模型的參數(shù)估計(jì)。

1.2 SCAD變量選擇方法[4]

在一般的生存分析數(shù)據(jù)中，遇到的問題一般為n>p的情況，當(dāng)出現(xiàn) p>n時(shí)，一般的變量選擇方法不再適用，當(dāng)前，基于懲罰因子的變量選擇方法得到廣泛的應(yīng)用。學(xué)者Fan提出了SCAD的方法，考慮一個(gè)最小化問題，即

，其中為懲罰項(xiàng)，F(xiàn)an和Li給出了

懲罰項(xiàng)的一階導(dǎo)數(shù)

可以求出

其中α=3.7，而λ采用交叉驗(yàn)證的方法求解。

1.3 基于Buckley-James的SCAD迭代算法

（1）取β0為β的初始值

（2）利用式（3）計(jì)算Y*i

（3）通過計(jì)算

（4）當(dāng) ，d為給定的數(shù)，停止計(jì)算[]

（5）通過，計(jì)算出α

2 總結(jié)

通過Buckley-James的算法對缺失數(shù)據(jù)進(jìn)行差補(bǔ)，并且利用懲罰因子SCAD方法進(jìn)行變量選擇，可以對高維數(shù)據(jù)生存分析進(jìn)行變量選擇問題，當(dāng)然此方法的理論證明還需要進(jìn)一步完善和通過模擬進(jìn)行進(jìn)一步驗(yàn)證。

參考文獻(xiàn)：

[1]Wang Q H，Linton O， HardleW.Semiparametric Regression Analysis with Missing Response at Random[J].Journal of the AmericanStatistical Association，2004，99.

[2]Wang Q H， Sun Z H.Estimation in Partially Linear Models with Missing Responses at Random[J].Journal of Multivariate Analysis，2007，98.

[3]Buckley， J. and James， I. （1979）. Linear regression with censored data[J]. Biometrika66，429–436.

[4]Fan，J.and Li，R.（2002）Variable selection via Nonconcave Penalized Likelihoodand its Oracle Properties[J]. Journal 01 the American Statistical Association，1348-1360.

[5]趙培信，薛留根.變系數(shù)部分線性模型的擬合優(yōu)度檢驗(yàn) [J].應(yīng)用數(shù)學(xué)，2008，21（4）.

作者簡介：江建明，廣西恭城人，講師，研究方向：應(yīng)用統(tǒng)計(jì)

基金項(xiàng)目：本文為2016年度廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目

（項(xiàng)目編號：KY2016Lx343）研究成果endprint

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于Buckley—James和懲罰因子的高維刪失數(shù)據(jù)變量選擇算法