吉肖肖, 張成毅, 羅雙華
(1.西安工程大學(xué) 理學(xué)院, 陜西 西安 710048; 2.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安 710049)
在抽樣調(diào)查、臨床試驗(yàn)、人口普查、環(huán)境監(jiān)測(cè)及生物醫(yī)學(xué)等研究領(lǐng)域, 經(jīng)常產(chǎn)生大量的缺失數(shù)據(jù)。缺失數(shù)據(jù)的統(tǒng)計(jì)推斷問(wèn)題已成為研究熱點(diǎn)[1-2]。 而在實(shí)際的統(tǒng)計(jì)推斷中, 輔助信息通常可以提高模型的估計(jì)效率。 因此, 本文擬討論響應(yīng)變量隨機(jī)缺失和具有輔助信息下的線性分位數(shù)回歸模型。 模型如下:
Y=XTβ+ε
(1)
式中:Y∈R是響應(yīng)變量;X=(X1,X2,…,Xd)T∈Rd是d維解釋變量;β=(β1,β2,…,βd)T∈Rd是d維未知參數(shù)向量;ε是模型的隨機(jī)誤差。 假設(shè){(Xi,Yi,δi),i=1,2,…,n}是模型(1)的一組不完全隨機(jī)樣本, 當(dāng)δi=1時(shí),Yi有觀測(cè)值; 當(dāng)δi=0時(shí),Yi缺失。 假設(shè)MAR缺失機(jī)制可表示為
P(δi=1|Yi,Xi)=P(δi=1|Xi)=π(Xi)
其中π(x)=P(δ=1|X=x)為選擇概率函數(shù)。
然而, 變量隨機(jī)缺失下的線性分位數(shù)回歸模型在經(jīng)濟(jì)學(xué)、金融學(xué)、醫(yī)學(xué)和生態(tài)學(xué)等領(lǐng)域應(yīng)用廣泛, 目前已取得了眾多研究成果[3-6]。 其中在統(tǒng)計(jì)分析領(lǐng)域, 由Owen[7]提出的經(jīng)驗(yàn)似然方法也已經(jīng)應(yīng)用到分位數(shù)回歸模型中, 但由于其模型的損失函數(shù)的勢(shì)函數(shù)不光滑, 所得估計(jì)效率并不高。 為了提高估計(jì)效率, Whang[8]和Otsu[9]利用光滑方法研究了分位數(shù)回歸模型的經(jīng)驗(yàn)似然估計(jì); 李忠桂等[10-11]利用光滑經(jīng)驗(yàn)似然方法研究了線性分位數(shù)回歸模型參數(shù)的檢驗(yàn)問(wèn)題, 并在此基礎(chǔ)上分別用經(jīng)驗(yàn)似然和光滑經(jīng)驗(yàn)似然的方法深入研究了右刪失數(shù)據(jù)下分位數(shù)回歸模型的參數(shù)檢驗(yàn)問(wèn)題。當(dāng)在數(shù)據(jù)隨機(jī)缺失的情況下, 李乃醫(yī)等[12]利用光滑經(jīng)驗(yàn)似然方法, 討論了缺失數(shù)據(jù)下非線性分位數(shù)回歸模型的回歸系數(shù)的經(jīng)驗(yàn)似然置信區(qū)域問(wèn)題; 袁曉惠等[13]在部分協(xié)變量隨機(jī)缺失機(jī)制下, 研究了分位數(shù)回歸參數(shù)的誘導(dǎo)光滑加權(quán)估計(jì)及其漸近協(xié)方差估計(jì); Lyu等[14]和Luo等[15]分別用光滑方法討論了缺失響應(yīng)數(shù)據(jù)下部分線性和線性分位數(shù)回歸模型的經(jīng)驗(yàn)似然估計(jì)。
另外, 在實(shí)際的統(tǒng)計(jì)推斷中, 輔助信息通??梢蕴岣吣P偷墓烙?jì)效率。 迄今已有大量研究[16-18]。 其中, Tang等[16]首次在正態(tài)逼近的基礎(chǔ)上, 用經(jīng)驗(yàn)似然的方法研究了含輔助信息的線性分位數(shù)回歸模型的估計(jì), 而其方法在進(jìn)行推理時(shí)須估計(jì)復(fù)雜的協(xié)方差矩陣。此外, Horowitz[19]和Whang[8]認(rèn)為, 標(biāo)準(zhǔn)的Bootstrap理論不能直接推理分位數(shù)回歸模型的估計(jì)。 故在上述研究的基礎(chǔ)上, Lyu等[17]提出基于光滑經(jīng)驗(yàn)似然方法研究輔助信息下分位數(shù)回歸模型的參數(shù)估計(jì)問(wèn)題, 不僅包含了輔助信息, 而且避免了估計(jì)復(fù)雜的協(xié)方差矩陣。 綜上, 基于對(duì)輔助信息且缺失響應(yīng)數(shù)據(jù)下的線性分位數(shù)回歸模型的統(tǒng)計(jì)推斷問(wèn)題還有很多值得討論。 因此, 本文借助光滑經(jīng)驗(yàn)似然的方法來(lái)研究缺失響應(yīng)數(shù)據(jù)和輔助信息下線性分位數(shù)回歸模型的參數(shù)估計(jì), 并在一定條件下討論所得估計(jì)的大樣本性質(zhì)。
(2)
由于分位數(shù)回歸的損失函數(shù)的勢(shì)函數(shù)不光滑,所得估計(jì)的效率并不高。為了提高估計(jì)效率,文獻(xiàn)[8]給出了缺失數(shù)據(jù)下分位數(shù)光滑經(jīng)驗(yàn)似然方法。
用光滑函數(shù)φh(·)近似代替φ(·), 可設(shè)β在完全數(shù)據(jù)下線性分位數(shù)回歸估計(jì)為
在實(shí)際的統(tǒng)計(jì)推斷中, 除用于推斷的可觀測(cè)到樣本數(shù)據(jù)外, 通常還可知樣本的一些其他信息。如果可得變量Z的輔助信息, 且存在函數(shù)A(·)滿足
E{A(Zi)}=0
其中A(Zi)是一個(gè)向量函數(shù)。通常情況下,使用輔助信息可以改進(jìn)統(tǒng)計(jì)推斷,提高參數(shù)估計(jì)的有效性。
因此, 定義在輔助信息且完全數(shù)據(jù)下,β線性分位數(shù)回歸估計(jì)為
β分位數(shù)光滑經(jīng)驗(yàn)對(duì)數(shù)似然比函數(shù)為
在基于輔助信息且完全數(shù)據(jù)下的光滑經(jīng)驗(yàn)似然僅用到了完全觀測(cè)的數(shù)據(jù), 不能充分利用缺失數(shù)據(jù)下所包含的信息。當(dāng)缺失概率很大時(shí), 輔助信息下的光滑經(jīng)驗(yàn)似然所得到的置信域的精度一般相對(duì)較低。 為提高置信域的精度, 下面給出基于輔助信息下加權(quán)分位數(shù)光滑經(jīng)驗(yàn)似然推斷。
首先利用1.1節(jié)中的方法, 可設(shè)β的加權(quán)分位數(shù)回歸估計(jì)為
然而, 在實(shí)際問(wèn)題中, 選擇概率函數(shù)π(x)通常未知, 需先用核方法去估計(jì)選擇概率。 Chen等[20]提出了π(x)估計(jì):
其次,定義輔助向量
利用輔助信息定義分位數(shù)光滑經(jīng)驗(yàn)對(duì)數(shù)似然比函數(shù)為
通過(guò)Lagrange乘子法,Lwas(β)可表示為
(3)
且λT滿足
(4)
為了方便理論結(jié)果,先定義如下必要的矩陣:
D=E(f(0|X)XXT)
定理1假設(shè)條件C1)~C6)都成立, 若β是真實(shí)參數(shù), 則有
由定理1, 可以構(gòu)造參數(shù)β的置信水平為(1-α)的置信域
Rα={β:Lwas(β)≤Cα}
定理2假設(shè)條件C1)~C6)都成立, 則有
通過(guò)數(shù)值模擬驗(yàn)證所提出方法的有限樣本性。 現(xiàn)考慮如下模型:
Yi=Xiβ+εi,(i=1,2,…,n)
(5)
式中:協(xié)變量X的觀測(cè)Xi來(lái)源于N(0,1)分布;εi來(lái)自于均勻分布U(0,1);取β=1。取τ=0.4,0.7,且對(duì)于不同的樣本量n=100,200,300,基于以下3種選擇概率函數(shù)分別產(chǎn)生2 000個(gè)隨機(jī)樣本:
π3(x)=0.6,x∈R
對(duì)以上3種選擇概率函數(shù)對(duì)應(yīng)的平均缺失率分別約為0.07、0.26和0.40。核函數(shù)選擇與文獻(xiàn)[21]中相同的核函數(shù),即
K(x)=0.75(1-x2)I{|x|≤1}
L(x)=0.5I{|x|≤1}
其中I{·}為示性函數(shù)。用最優(yōu)交叉核實(shí)法選擇最優(yōu)窗寬aopt和hopt。交叉核實(shí)準(zhǔn)則分別為
表 1 置信水平為0.95的置信區(qū)間的覆蓋概率Tab.1 Coverage probability of confidence interval with a confidence level of 0.95
由表1~2可得如下結(jié)論:
1) 在選擇概率π1(x),輔助信息且加權(quán)分位數(shù)光滑經(jīng)驗(yàn)似然的覆蓋概率pwas更高, 但置信區(qū)間Lwas更長(zhǎng)。 在選擇概率π2(x)和π3(x),相比其他方法,輔助信息且加權(quán)分位數(shù)光滑經(jīng)驗(yàn)似然的區(qū)間長(zhǎng)度Lwas較短且覆蓋概率pwas較高。 對(duì)3種選擇概率, 輔助信息且加權(quán)分位數(shù)光滑經(jīng)驗(yàn)似然得到的覆蓋概率和區(qū)間長(zhǎng)度和輔助信息且完整數(shù)據(jù)的分位數(shù)光滑經(jīng)驗(yàn)似然得到的幾乎接近, 說(shuō)明含輔助信息且加權(quán)分位數(shù)光滑經(jīng)驗(yàn)似然的效果較好。
3) 對(duì)每一種缺失率, 隨著n的增加, 置信區(qū)間長(zhǎng)度減小而覆蓋概率增加。 通常情況下, 當(dāng)缺失率增加時(shí), 區(qū)間長(zhǎng)度增加且覆蓋概率減小。
表 2 置信水平為0.95的置信區(qū)間的平均區(qū)間長(zhǎng)度Tab.2 Average confidence interval length of confidence interval with a confidence level of 0.95
設(shè)r是一個(gè)大于或等于2的整數(shù),g(x)、f(·|x)、F(·|x)分別表示X的密度函數(shù), 在Xi=x條件下ε的條件密度和條件分布函數(shù)。 證明主要結(jié)果前, 給出所需要的一些正則化條件:
C1) {Yi,Xi:i=1,2,…,n}是獨(dú)立且同分布的隨機(jī)向量。
C2)π(x)和g(x)都幾乎有至多個(gè)r階的有界偏導(dǎo)數(shù), 且有infxπ(x)>0。
C3) 假設(shè)以下3點(diǎn)成立:
ⅰ)K(·)有界且在[-1,1]上有緊支撐。
ⅱ)L(·)是r階的核函數(shù), 且存在正常數(shù)C1,C2和ρ滿足
C1I{‖u‖≤ρ}≤L(u)≤C2I{‖u‖≤ρ}。
ⅲ) 對(duì)任意常數(shù)Ck≠0,K(·)是r階核函數(shù), 即有
C4) 帶寬參數(shù)h滿足:當(dāng)n→∞時(shí),nh2r→0且nh/logn→∞。
C5)P(‖X‖>Mn)=o(n-1/2),其中, 當(dāng)n→∞時(shí), 0 為證明定理1及定理2,引入以下引理。 引理1設(shè)條件C2)、C3)中ⅱ)及C5)成立,則對(duì)所有1≤i≤n, O(h2r)+o(n-1/2) 一致成立。 該引理及其證明見(jiàn)文獻(xiàn)[20]。 引理2設(shè)條件C1)~C6)成立, 則當(dāng)n→∞時(shí), 有 (6) 將上式的右邊泰勒展開(kāi)得 綜上,引理2得證。 引理3設(shè)條件C1)~C6)成立, 有 證明由引理2的證明可知 令 則 由條件C4)可得T1=op(1)和T2=op(1)。故 E[A(Zi)A(Zi)T]=E(A(Z)A(Z)T) 由中心極限定理可得到引理3。 引理4在引理1條件下, 有 其中‖·‖表示·的范數(shù)。 證明記 參考文獻(xiàn)[7]中定理3.2, 可證明 (7) 由引理3知 (8) 由式(7)、(8)及中心極限定理可得 ‖λ‖=Op(n-1/2) 定理1的證明由引理4, 可知 對(duì)式(3)泰勒展開(kāi)得 (9) 由式(4)可知 計(jì)算可得 (10) 利用式(9)、(10)可得 利用引理3即可證明定理1。 定理2的證明令 其中 對(duì)分塊矩陣進(jìn)行簡(jiǎn)單的計(jì)算可得 利用引理3可知 利用光滑經(jīng)驗(yàn)似然的方法研究在具有輔助信息和缺失響應(yīng)數(shù)據(jù)下分位數(shù)回歸模型的參數(shù)估計(jì)問(wèn)題。 其方法不僅包含了缺失數(shù)據(jù)和輔助信息, 而且又可以在不估計(jì)復(fù)雜漸近協(xié)方差矩陣的情況下研究分位數(shù)回歸模型的光滑經(jīng)驗(yàn)似然估計(jì), 并且在一定條件下證明了所得估計(jì)的大樣本性質(zhì)。4 結(jié) 語(yǔ)