張 偉 馮 萍 趙永紅 袁佳英 李 梅
在醫(yī)學研究過程中缺失數(shù)據(jù)現(xiàn)象是普遍存在的〔1-3〕,目前實際應用中對缺失值處理的方法主要采用缺失值的刪失以及單一填補〔4-5〕。隨著統(tǒng)計軟件相關程序的實現(xiàn),更有效的缺失值處理方法逐漸引起研究者的關注,如基于多重填補的方法,基于參數(shù)似然的方法以及基于加權估計的方法〔6-7〕。weighted estimating equations(WEE)法是加權估計法中的一種,是廣義估計方程(gerneralized estimating equations,GEE)方法的推廣,被認為估計效率高,穩(wěn)健性好,尤其在模型假定錯誤的情況下,仍可以獲得更接近真實值的無偏估計。目前,國際對于缺失數(shù)據(jù)處理方法的理論應用研究熱點多為WEE法〔8-10〕,而國內相對集中于多重填補的研究〔10-14〕,對于 WEE法的研究應用相對較少。因此本文對WEE法的理論框架進行詳細介紹。
WEE法最早是由 Robins〔15〕等人于1994年提出的一種與極大似然估計有相似性質的缺失數(shù)據(jù)處理方法,多用于處理可忽略缺失(ignorable missingness)的情況,也有研究將WEE法用于處理不可忽略缺失數(shù)據(jù)〔16〕。WEE法的原理是采用某種方式把缺失單元的權數(shù)分解到非缺失單元上,通過增大樣本觀測值的權數(shù)以減少由于缺失對估計量可能帶來的偏差。
WEE法是在結局變量與協(xié)變量間存在線性關系的前提下進行模型構建的,故假設在回歸模型中,令Yi表示結局變量,Xi為協(xié)變量,i=1,2…n表示樣本量,故結局的均值模型為:U=Ui(Xi,β)=E(Yi|Xi,β),其中β為參數(shù)。當沒有缺失值時,采用樣本數(shù)據(jù)對總體結局均值進行估計,則有,式中wi為第i個單元的權數(shù),是樣本單元入樣概率φi的倒數(shù);參數(shù)估計方程為|xi))。令u(β)=0,就可得到β的無偏估計。
當存在缺失時,對原權數(shù)wi進行調整,以表示調整后權數(shù),則,均值模型變?yōu)?,其中nobs表示已觀測單元的樣本量,εi為調整因子,協(xié)變量完全觀測到的概率πi的倒數(shù),是缺失機制的體現(xiàn)。當缺失機制為完全隨機缺失時,πi既不依賴于已觀測變量 Xobs,i,也不依賴于缺失變量 xmis,i,即 πi=Pr(ri=1|yi);當缺失機制為隨機缺失時,πi僅依賴于 xobs,i,即 πi=Pr(ri=1|yi,xobs,i);當缺失機制為非隨機缺失時,πi既依賴于Xobs,i,也依賴于 Xmis,i,即 πi=Pr(ri=1|yi,xobs,i,xmis,i),其中ri為指示變量,當ri=1表示Xi全部觀測,ri=0表示Xi部分觀測。
假定在給定(yi,xi)下,ri=1的概率為πi,則有πi= πi(θ)=Pr(ri=1|mi;θ),其中mi是(yi,xi)的某種函數(shù),以(yi,xi)表示mi,θ為缺失指示變量ri的參數(shù)。
當存在缺失時,若僅用觀測到的數(shù)據(jù)估計參數(shù)β,則似然估計方程為-u),上述方程為0時可獲得參數(shù)的估計,但由于估計方程僅用觀測到的數(shù)據(jù),因此對β的估計是有偏的。假設協(xié)變量全部觀測到時的概率πi已知或者可以有效估計出,將 ri替換為 ri/πi,權重變?yōu)閞i/πi,加權估計方程則變?yōu)閡i);在隨機缺失情形下,上述估計方程的期望對0是無偏的,即
因此令uWEE(β)=0時,可以得到參數(shù)β的無偏估計。
在上述估計方程中同時加入未觀測數(shù)據(jù)的信息以提高估計效率獲得更有效的無偏估計,若πi能被正確估 計, 則1成立,同時也可得=0。則更有效的無偏估計方程可寫為:
其中 q(yi,xobs,i;β,α)是已觀測數(shù)據(jù)(yi,xobs,i)、β和 α 的一個特定函數(shù):q(yi,xobs,i;β,α)=E[ui(β)|與前述相比,該法增加了部分信息,提高了效率,被認為是更有效的估計方程。但該方程的無偏估計是基于加入缺失信息的準確性,因此需要另一種估計方程來估計α。令 r=(β,α,φ),則加權估計方程為:
其中 u1i(β)= u1i(β;yi,xobs,i,xmis,i),u2i(β)=u2i(α;xobs,i,xmis,i),φ 是 ri的參數(shù)。如果缺失變量 xmis,i
為分類時,則:
其 中 wi,Xmis,i= P(xmis,i| xos,i,yi,γ) =,為缺失變量 xmis,i在已觀測數(shù)據(jù)(xobs,i,yi)下的條件概率。當缺失變量xmis,i為連續(xù)型變量時:
由于上述估計方程與極大似然估計得分方程相似,故 Lipsitz、Ibrahim &Zhao〔18〕提出采用 EM 算法或蒙特卡洛EM算法求解S()=0,獲得r的無偏估計。具體步驟如下:
(1)設定一個γ初始值,γ=γ(1),例如以已觀測數(shù)據(jù)計算得。在t步時,有γ(t)。
(2)令 wi,Xmis,i(t)為給定 γ=γ(t)時缺失變量的條件概率,并用 γ(t)計算
(3)將 wi,Xmis,i(t)作為固定值,用可加權的廣義線性方程對γ(t+1)求解S(γ(t+1)|γ(t))。
(4)反復上述步驟,迭代至收斂,當γ(t+1)=γ(t)=時,得到)=0的解。
上述加權估計方程公式中包含有三個模型:①目標參數(shù)模型:E(yi|xi)=ui(β),Var(yi)= φVi(β);②缺失機制模型:p(ri|φ;(yi,xi')')=πi;③在給定已觀測值下,缺失變量的條件分布模型:p(xmis,i|xobs,i,α)。其中任一個模型被假定正確時,另一模型無論是否正確,對參數(shù)的估計是漸近無偏的。對上述方程的性質,有學者〔17,19〕進行了理論證明,結果顯示上述加權估計方程具有雙重穩(wěn)健性。
WEE方法是基于加權的處理方法,該法的優(yōu)勢在于其穩(wěn)健性,能同時實現(xiàn)以下兩個目標:①在不完全數(shù)據(jù)的基礎上通過權數(shù)調整實現(xiàn)無偏或近似無偏的點估計;②通過權數(shù)調整提高點估計的效率,較大限度地降低估計誤差。WEE估計方法不需依賴總體參數(shù)分布,在一般總體分布下表現(xiàn)良好及穩(wěn)健。當缺失模型假定錯誤時,基于參數(shù)似然的方法以及基于多重填補的方法的估計結果可能出現(xiàn)偏倚,此時WEE法可以提供穩(wěn)健結果,但穩(wěn)健性的代價是參數(shù)估計效率會有所降低。但與當總體參數(shù)模型假定正確情況的參數(shù)似然及多重填補方法相比,WEE法不依據(jù)總體分布的估計率卻是偏低的。因此,在實際應用中,如果缺失機制能準確假定,如缺失機制為實際上,缺失數(shù)據(jù)統(tǒng)計分析方法的有效性很大程度上依賴于數(shù)據(jù)缺失是否與數(shù)據(jù)集完全隨機缺失(missing completely at random,MCAR)時,何種缺失數(shù)據(jù)處理方法均可,可以采用單一填補或是多重填補等簡單方法實現(xiàn)填補;當缺失機制為隨機缺失(missing at random,MAR)時,如果對于數(shù)據(jù)總體分布能準確估計,如總體滿足多元正態(tài)分布時,基于參數(shù)似然的方法以及基于多重填補的方法能獲得更為有效的估計;當缺失機制為非隨機缺失(not missing at random,MCAR)時,基于參數(shù)似然的方法以及基于多重填補的方法不能獲得有效估計,此時WEE卻能獲得穩(wěn)健結果。所以無論何種缺失處理方法在實際應用中,應綜合考慮資料類型、變量類型,以及不同缺失機制等條件下的數(shù)據(jù)特征,選擇適當?shù)姆椒ǎ赃_到較高估計效率,得到漸近無偏估計。
1.Shih W.Problems in dealing with missing data and informative censoring in clinical trials.Current Controlled Trials in Cardiovascular Medicine,2002,3:4.
2.Abraham W,Russell D.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.
3.Selvin S.Statistical analysis of epidemiologic data.2004,Oxford;New York:Oxford University Press.
4.Geert Molenberghs,Kenward MG.Missing Data in Clinical Studies.Paediatric and Perinatal Epidemiology,2007,21(6):552-554.
5.唐健元,楊志敏,楊進波等.臨床研究中缺失值的類型和處理方法研究.中國衛(wèi)生統(tǒng)計,2011,28(3):338-343.
6.Little RJA,Rubin DB.Statistical analysis with missing data.Hoboken,NJ:J Wiley & Sons,2002.
7.Graham JW.Missing data analysis:making it work in the real world.Annu Rev Psychol,2009,60:549-576.
8.Caroline Beunckens,Cristina Sotto,Geert Molenberghs.A simulation study comparing weighted estimating equations with multiple imputation based estimating equations for longitudinal binary data.Computational Statistics & Data Analysis,2008,52(3):1533-1548.
9.Lan Kong,Jianwen Cai,Sen PK.Weighted estimating equations for semiparametric transformation models with censored data from a casecohort design.Biometrika,2004,94(2):305-319.
10.Michelle Shardell,Miller RR.Weighted estimating equations for longitudinal studies with death and non‐monotone missing time‐dependent covariates and outcomes.Statistics in Medicine,2008,27(7):1008-1025.
11.周藝彪,姜慶五,趙根明.不完全數(shù)據(jù)處理方法:多重填充.中華預防醫(yī)學雜志,2004,38(6):424-426.
12.花琳琳,施學忠,楊永利.不同缺失值填充技術在HIV/AIDS血液樣品檢測數(shù)據(jù)中的應用.中國衛(wèi)生統(tǒng)計,2011,28(6):668-673.
13.金勇進.調查中的數(shù)據(jù)缺失及處理(I):缺失數(shù)據(jù)及其影響.數(shù)理統(tǒng)計與管理,2001,20(1):59-62.
14.馮志蘭,劉桂芬,劉力生等.缺失數(shù)據(jù)的多重估算.中國衛(wèi)生統(tǒng)計,2005,22(5):274-277.
15.Robins J,Rotnitzky A,Zhao L.Estimation of Regression Coefficients When Some Regressors Are Not Always Observed.Journal of the A-merican Statistical Association,1994,89(89):864-866.
16.Carpenter JR,Kenward MG,Vansteelandt S.A comparison of multiple imputation and doubly robust estimation for analyses with missing data.Journal of the Royal Statistical Society:Series A(Statistics in Society),2006,169(3):571-584.
17.Joseph G,Chen MH,Stuart R.Missing-Data Methods for Generalized Liner Models:A Comparative Review.Journal of the American Statistical Association,2005,100(469):332-346.
18.Lipsitz SR,Ibrahim JG,Zhao LP.A Weighted Estimating Equation for Missing Covariate Data with Properties Similar to Maximum Likelihood.Journal of the American Statistical Association,1999,94(448):1147-1160.
19.Troxel AB,Lipsitz SR,Brennan TA.Weighted Estimating Equations with Nonignorably Missing Response Data.Biometrics,1997,53(3):857-869.