李生彪, 彭建奎
(蘭州文理學(xué)院 教育學(xué)院, 蘭州 730000)
用半?yún)?shù)回歸模型解決一些實(shí)際問(wèn)題時(shí)不可避免地會(huì)出現(xiàn)一些復(fù)雜的數(shù)據(jù)類型,如測(cè)量誤差數(shù)據(jù)、隨機(jī)缺失數(shù)據(jù)、刪除數(shù)據(jù)等.由于測(cè)量誤差數(shù)據(jù)具有復(fù)雜的結(jié)構(gòu),因此忽略其結(jié)構(gòu)的統(tǒng)計(jì)方法往往會(huì)降低估計(jì)結(jié)果的有效性.近年來(lái),一些學(xué)者對(duì)測(cè)量誤差下的半?yún)?shù)單調(diào)回歸模型(EV模型)進(jìn)行了研究.例如: Huang[1]研究了EV模型的估計(jì)問(wèn)題,并借助經(jīng)驗(yàn)過(guò)程的相關(guān)理論給出了估計(jì)的漸近性質(zhì);張文強(qiáng)等[2]在同時(shí)存在自變量和因變量的測(cè)量誤差的條件下,證明了加權(quán)弦估計(jì)量具有強(qiáng)收斂和依分布收斂于標(biāo)準(zhǔn)正態(tài)分布的極限性質(zhì); Deng等[3]在較弱的假設(shè)條件下研究了未知參數(shù)最小二乘估計(jì)的漸近正態(tài)性,并證明了該最小二乘估計(jì)具有強(qiáng)相合性.在上述研究的基礎(chǔ)上,本文研究半?yún)?shù)單調(diào)回歸EV模型的估計(jì)問(wèn)題,并通過(guò)模擬實(shí)驗(yàn)驗(yàn)證了本文方法的有效性.
非參數(shù)單調(diào)回歸模型為:
Y=h(W)+ε,
(1)
其中Y為響應(yīng)變量,h∈H,H為由單調(diào)函數(shù)的全體構(gòu)成的集合.將參數(shù)回歸模型和模型(1)結(jié)合起來(lái)即為半?yún)?shù)單調(diào)回歸模型:
Y=XTβ+h(W)+ε,
(2)
其中:X=(X1,X2,…,Xp)T是協(xié)變量;β是p維未知參數(shù);ε是隨機(jī)誤差,獨(dú)立于(X,W).在一些實(shí)際問(wèn)題中,X往往帶有測(cè)量誤差.此時(shí)X無(wú)法被觀測(cè)到,觀測(cè)到的只是Z=X+U, 其中U=(U1,U2,…,Up)T為p×1維測(cè)量誤差,且獨(dú)立于(Y,X,W),E(U)=0, Var(U)=ΣUU.所以模型(2)可寫(xiě)成:
(3)
模型(3)即為半?yún)?shù)單調(diào)回歸EV模型.
本文假設(shè)W∈P,P為R的閉子集,h(·)在P上單調(diào)遞增,E(ε)=0, Var(ε)=σ2.為了保證模型的可識(shí)別性,本文還假設(shè)ΣUU為已知.在實(shí)際應(yīng)用中,若ΣUU是未知的,仍通??梢哉业溅睻U的相合估計(jì)[4-5],且此時(shí)本文的結(jié)論仍然成立.設(shè){(Yi,Xi,Wi),i=1,2,…,n}是模型(3)的一個(gè)獨(dú)立同分布觀測(cè)樣本,由此模型(3)可寫(xiě)成:
對(duì)于模型(3)的估計(jì),其簡(jiǎn)單的方法就是忽略測(cè)量誤差,即用Z的觀測(cè)值代替X的值,以此將模型(3)簡(jiǎn)化為模型(2)進(jìn)行估計(jì),但由此得到的估計(jì)是不相合的.Huang[1]給出了模型(2)中β和h(·)的估計(jì),即:
其中B是Rp的凸子集,H為所有定義在P上的單調(diào)遞增函數(shù)的集合.本文在此結(jié)論的基礎(chǔ)上,借助嵌入Y和Z關(guān)于W條件期望的方法來(lái)構(gòu)造參數(shù)部分的估計(jì),以此給出非參數(shù)部分的單調(diào)約束最小二乘估計(jì).
首先用(Y,X,W)的一個(gè)獨(dú)立同分布觀測(cè)樣本{(Yi,Xi,Wi),i=1,2,…,n}求出參數(shù)β、σ2和h(·)的估計(jì).由模型(3)可得:
(4)
給定Wi, 對(duì)式(4)兩邊同時(shí)求條件數(shù)學(xué)期望可得:
E[Yi|Wi(]=E[Yi|Wi(]Tβ+h(Wi).
(5)
再由式(4)可得:
(6)
(7)
(8)
因式(8)中包含了未知的量E[Yi|Wi(]和E[Zi|Wi(], 故式(8)還不能直接作為β的估計(jì).記:
g1(ω)=E(Y|W=ω(),g2(ω)=E(Z|W=ω()=E(X|W=ω(),
其中?nj(·)=?nj(W1,W2,…,Wn)是由W1,W2,…,Wn決定的權(quán)函數(shù).本文用核函數(shù)構(gòu)造如下權(quán)函數(shù):
(9)
由于最優(yōu)化問(wèn)題(9)是H凸集上的一個(gè)凸函數(shù)的最小化問(wèn)題,因此式(9)存在唯一解.式(9)中的h(·)的單調(diào)約束最小二乘估計(jì)可用Zhou等[6]給出的方法求出:
首先給出如下幾個(gè)假設(shè)條件[7-8]和引理.
(C1)X在Rp上具有緊支撐.E(X-E(X|W())?2為正定矩陣,其中A?2=AAT.
(C3)?C>0,γ>0,C′>0,γ′>0, 使得E(exp(γ|ε|)) (C4)g1(ω)、g2(ω)和h(ω)滿足一階Lipschitz條件. 對(duì)Jn1的第(l,s)(l,s=1,2,…,p)個(gè)元素(Jn1)ls進(jìn)行變形可得: 再由大數(shù)定律可得 (10) 由E(Vi)=0、條件C1以及引理1、引理2有 (11) |(Jn1t)ls|=op(1),t=3,4,…,9. (12) Δn1+Δn2+Δn3+Δn4-Δn5-Δn6+Δn7. 對(duì)Δn1進(jìn)行變形可得 再由引理1— 引理3和類似于式(11)的證明方法可得: 故有|Δn1|=op(1). 類似于上述方法對(duì)Δn2進(jìn)行變形可得: 類似上述證明過(guò)程可得: 由以上計(jì)算結(jié)果可得: 類似于Rn1和Rn2的計(jì)算方法可得: 為了檢驗(yàn)本文所得估計(jì)的有限樣本性質(zhì),利用隨機(jī)模擬實(shí)驗(yàn)的方法對(duì)忽略測(cè)量誤差的估計(jì)方法(SIME方法)和帶有測(cè)量誤差的單調(diào)回歸估計(jì)方法(IEV方法)進(jìn)行比較.設(shè)模型為: 其中X1i~N(1,3),X2i~N(0,3),εi~N(0,1),Wi~U[-2.5,2.5],U1i~N(0,1.5),U2i~N(0,1.5),h(ω)=ω3,β1=β2=1,ΣUU=1.5·I2 ×2.實(shí)驗(yàn)中:核函數(shù)取K(x)=0.75(1-x2)·I; 在估計(jì)β時(shí),由于窗寬的選擇較為費(fèi)時(shí),且其僅用于參數(shù)部分的估計(jì),因此本文在試驗(yàn)中沒(méi)有采用交叉證實(shí)法選擇窗寬,而是根據(jù)數(shù)據(jù)經(jīng)驗(yàn)選取窗寬hn=1.3·n-1/3; 樣本量分別取n=50,100,150,200, 重復(fù)次數(shù)(M)為1 000次.計(jì)算估計(jì)偏差和方差的公式為: 使用SIME和IEV方法對(duì)β1和β2進(jìn)行模擬的結(jié)果見(jiàn)表1.由表1可以看出:隨著樣本量的增大,用IEV方法所得的β的估計(jì)偏差和方差均逐漸減小,這說(shuō)明用IEV方法所得的β的估計(jì)隨著樣本量的增大而越來(lái)越精確;而用SIME方法所得的β的估計(jì)值始終偏小,且β的方差隨著樣本量的增大逐漸減小,但偏差的絕對(duì)值卻并沒(méi)有逐漸變小,這說(shuō)明用SIME方法所得的β的估計(jì)不具有相合性.該結(jié)果與本文理論結(jié)果相吻合,由此進(jìn)一步說(shuō)明對(duì)協(xié)變量的測(cè)量誤差進(jìn)行糾偏是必要的. 表1 IEV方法和SIME方法的β1值 表2 IEV方法和SIME方法的β2值4 模擬比較