尹長明,靳永濤,王亞東
(廣西大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院, 廣西 南寧 530004)
二值數(shù)據(jù)是指響應(yīng)變量的觀測結(jié)果有兩種情形,例如觀測某人是否有心血管疾病,銀行對某個客戶是否貸款,學(xué)生考試是否及格等??v向數(shù)據(jù)是對一個個體進(jìn)行多次觀測的數(shù)據(jù),其中對一個個體多次觀測的數(shù)據(jù)之間是相關(guān)的(相關(guān)系數(shù)不知道),而不同個體觀測的數(shù)據(jù)之間是獨(dú)立的。LIANG等[1]提出的廣義估計(jì)方程(generalized estimated equation, GEE)方法是對縱向數(shù)據(jù)進(jìn)行分析的重要工具,研究文獻(xiàn)很多[2-5]。廣義估計(jì)方程的一個重要性質(zhì)是即使工作相關(guān)系數(shù)假設(shè)錯誤,得到的估計(jì)仍然是相合的和漸近正態(tài)的。若工作相關(guān)系數(shù)等于真實(shí)相關(guān)系數(shù),得到的估計(jì)漸近方差最小。經(jīng)驗(yàn)似然也是一種重要的數(shù)據(jù)分析方法,有很多突出的優(yōu)點(diǎn),如用經(jīng)驗(yàn)似然構(gòu)造置信區(qū)間除有域保持性,變換不變性及置信域的性質(zhì)由數(shù)據(jù)自行決定等諸多優(yōu)點(diǎn)外,還有Bartlett糾偏性及無須構(gòu)造軸統(tǒng)計(jì)量等優(yōu)點(diǎn)[6-9]。QIN等[6]用經(jīng)驗(yàn)似然方法研究了獨(dú)立同分布的廣義估計(jì)方程,LI等[7]用經(jīng)驗(yàn)似然方法研究了廣義線性模型下的廣義估計(jì)方程,但條件不易驗(yàn)證,其結(jié)果也不理想。
下面將在易驗(yàn)證和比較弱的條件下證明二值縱向數(shù)據(jù)下經(jīng)驗(yàn)似然估計(jì)的漸近性質(zhì)。
設(shè)對第i個個體的第j次觀測后同時(shí)得到一個二值響應(yīng)變量Yij和一個p×1維協(xié)變量Xij(i=1,…,n,j=1,…mi)。設(shè)不同個體之間觀測的數(shù)據(jù)是獨(dú)立的,同一個個體mi次觀測的數(shù)據(jù)是相關(guān)的。XT表示X的轉(zhuǎn)置,記Yi=(Yi1,…,Yimi)T,Xi=(Xi1,…,Ximi)T。假設(shè)Yij期望為:
(1)
達(dá)到最小的β,其中t(β)滿足約束條件:
本文約定C,C1,C2,…表示與n無關(guān)的正常數(shù),在不同的地方表達(dá)的值可以不一樣。
對于二值縱向數(shù)據(jù)的經(jīng)驗(yàn)似然估計(jì)簡介可參考文獻(xiàn)[9]。為了得到其漸近性質(zhì),先作如下假定:
① 存在正常數(shù)C, 使‖Xij‖≤C,1≤i≤n,1≤j≤mi,即Xij一致有界。
③ 存在C>0使得λminRi≥C,λminRo≥C, 其中Ro表示真實(shí)相關(guān)陣。
定理2若條件①~③及假設(shè)H0:β=β0成立,則經(jīng)驗(yàn)似然比統(tǒng)計(jì)量為:
在給出上面主要結(jié)果的證明之前,需要如下引理:
(2)
C1I≤Ai(β0)≤C2I;C1I≤Ri≤C2I;
C1I≤Ri0≤C2I;C1Fn≤Ri≤C2Fn。
由上面結(jié)果易知:
再由Lindeberg中心極限定理即得式(2)成立,命題得證。
引理2在滿足條件①~③下,有[7]:
(3)
則有:
t(β)=Op(n-1/2)。
證明由式(3)知:
上式令t=t(β),變形得:
(4)
用文獻(xiàn)[4]給出的方法可以證明,以概率有:
再由微分中值定理、引理1和引理2可得:
通過矩陣運(yùn)算得:
再由約束條件(2)及引理2和引理3有:
對式(1)運(yùn)用泰勒展式,得:
由引理2和引理3可知:
另一方面運(yùn)用Cauchy-Schwarz不等式,則有:
因而:
由微分中值定理對上式在β0點(diǎn)展開有:
和存在正常數(shù)C1,C2使得:
所以,當(dāng)β∈?Nn(δ)時(shí),有:
再由Cauchy-Schwarz不等式:
所以當(dāng)δ充分大時(shí),在β∈?Nn(δ)有:
ln(β)≥ln(β0),
即:
其中:
定理2的證明類似文獻(xiàn)[6]中定理2的證明,在此省略。
模型P(Yij=1|Xij)=e0.3Xij/[1+e0.3Xij],Xij服從獨(dú)立的標(biāo)準(zhǔn)正態(tài)分布,詳細(xì)二值數(shù)據(jù)模擬生成可參考文獻(xiàn)[10],工作相關(guān)陣Ri定義如下:
運(yùn)用R語言運(yùn)行廣義估計(jì)方程GEE和經(jīng)驗(yàn)似然EL方法的結(jié)果見表1和表2。
表1 100樣本下GEE和EL方法的比較
表2 10 000樣本下GEE和EL方法的比較
從數(shù)值模擬結(jié)果可看出,EL估計(jì)參數(shù)擬合度在大樣本情況下比GEE估計(jì)結(jié)果更為理想。