張巍巍, 薩如拉, 馮三營(yíng)
(1.內(nèi)蒙古農(nóng)業(yè)大學(xué)理學(xué)院, 內(nèi)蒙古呼和浩特 010018;2.鄭州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 河南鄭州 450001)
半變系數(shù)模型作為一類重要的半?yún)?shù)統(tǒng)計(jì)模型, 其一般形式為:
其中Y 是響應(yīng)變量, 協(xié)變量Z ∈Rp, X ∈Rq, U為單變量, β = (β1,··· ,βp)T為p×1未知參數(shù)向量, g(·) = (g1(·),··· ,gq(·))T為q ×1未知函數(shù)向量.本文假設(shè)模型誤差ε為異方差, 滿足E(ε|X,Z,U)=0, Var(ε|X,Z,U)=σ2(U)>0.
目前模型(1.1)的估計(jì)問(wèn)題已被統(tǒng)計(jì)學(xué)者廣泛研究, 并且提出了很多不同的估計(jì)方法.[1?4]在對(duì)實(shí)際數(shù)據(jù)建模時(shí), 模型有時(shí)會(huì)受到一些隨機(jī)因素的干擾, 而使得模型誤差ε可能會(huì)出現(xiàn)異方差, 針對(duì)異方差半變系數(shù)模型(1.1), 目前已有一些文獻(xiàn)對(duì)其估計(jì)問(wèn)題進(jìn)行了研究, 比如,Ahmad等[3]給出了級(jí)數(shù)估計(jì)方法; KAI等[4]提出了半?yún)?shù)復(fù)合分位數(shù)回歸方法; SHEN等[5]構(gòu)造了模型參數(shù)和非參數(shù)分量的加權(quán)profile最小二乘估計(jì)量; YUAN和ZHOU[6]提出了模型參數(shù)和非參數(shù)分量的自適應(yīng)加權(quán)估計(jì)量; ZHAO等[7]基于正交投影方法構(gòu)造了模型參數(shù)和非參數(shù)分量的估計(jì)量; 當(dāng)參數(shù)部分協(xié)變量Z帶有可加測(cè)量誤差時(shí), ZHAO等[8]提出了參數(shù)和非參數(shù)分量的加權(quán)糾偏profile最小二乘估計(jì)量.
在實(shí)際應(yīng)用中, 我們經(jīng)常會(huì)遇到數(shù)據(jù)缺失的情形, 針對(duì)缺失數(shù)據(jù)下半?yún)?shù)回歸模型的研究主要文獻(xiàn)可參閱文[9-11].在本文中, 假設(shè)協(xié)變量Z隨機(jī)缺失, 引入示性變量δ, δ =1表示Z可觀察, δ =0表示Z缺失, 即在給定Y,X,U的情形下, Z和δ條件獨(dú)立, 且滿足
其中π(·)為選擇概率函數(shù).目前統(tǒng)計(jì)學(xué)者主要基于完全樣本法、回歸借補(bǔ)法和逆概率加權(quán)法研究了缺失數(shù)據(jù)下半變系數(shù)模型(1.1)的統(tǒng)計(jì)推斷, 比如: 當(dāng)響應(yīng)變量Y 缺失時(shí), WEI[12]在完全觀察樣本情形下, 利用經(jīng)驗(yàn)似然方法研究了參數(shù)分量置信域的構(gòu)造問(wèn)題, 并針對(duì)參數(shù)分量的檢驗(yàn)問(wèn)題, 提出了修正的廣義似然比統(tǒng)計(jì)量; 當(dāng)響應(yīng)變量Y 缺失且參數(shù)部分協(xié)變量Z與X分別帶有可加測(cè)量誤差時(shí), 魏傳華[13]與XIAO和LI[14]基于回歸借補(bǔ)技術(shù)構(gòu)造了模型參數(shù)和非參數(shù)分量的借補(bǔ)糾偏估計(jì)量; 當(dāng)參數(shù)部分協(xié)變量Z缺失時(shí), 陳盼盼等[15]基于逆概率加權(quán)法提出了模型參數(shù)分量的逆概率加權(quán)估計(jì)量, 并構(gòu)造了參數(shù)分量的逆概率加權(quán)經(jīng)驗(yàn)似然比統(tǒng)計(jì)量; XU等[16]在協(xié)變量Z缺失且?guī)в锌杉訙y(cè)量誤差時(shí), 基于逆概率加權(quán)方法和糾偏方法構(gòu)造了模型參數(shù)分量的逆概率加權(quán)糾偏經(jīng)驗(yàn)似然比統(tǒng)計(jì)量.
在實(shí)際問(wèn)題分析時(shí), 除了樣本信息以外人們基于歷史研究等原因往往還會(huì)獲得一些關(guān)于參數(shù)的先驗(yàn)信息, 這些先驗(yàn)信息有助于提高參數(shù)估計(jì)的精度.本文假設(shè)參數(shù)分量β滿足:
其中A是k×p的已知矩陣, 且假設(shè)rank(A)=k, d是k×1的已知向量.目前有一些文獻(xiàn)研究了復(fù)雜數(shù)據(jù)下半變系數(shù)模型(1.1)在約束條件(1.3)下的統(tǒng)計(jì)推斷, 但是大部分文獻(xiàn)僅考慮模型誤差為同方差的情形, 比如: 魏傳華和吳喜之[17]針對(duì)線性約束條件, 提出了profile拉格朗日乘子檢驗(yàn)統(tǒng)計(jì)量, 當(dāng)參數(shù)部分協(xié)變量Z帶有可加測(cè)量誤差時(shí), ZHANG等[18]和WEI[19]基于線性約束條件, 提出了修正的約束估計(jì)量和修正的檢驗(yàn)統(tǒng)計(jì)量, 當(dāng)非參數(shù)部分協(xié)變量X帶有可加測(cè)量誤差時(shí), FENG和XUE[20]提出了糾偏的約束估計(jì)量和糾偏的profile拉格朗日乘子檢驗(yàn)統(tǒng)計(jì)量; 當(dāng)協(xié)變量Z和X同時(shí)帶有可加測(cè)量誤差時(shí), 樊明智和胡玉萍[21]提出了糾偏的約束估計(jì)量.
當(dāng)模型誤差為異方差, 為了得到模型參數(shù)分量和系數(shù)函數(shù)更有效的估計(jì), 一些文獻(xiàn)構(gòu)造了半變系數(shù)異方差模型(1.1)的加權(quán)估計(jì)量和加權(quán)檢驗(yàn)統(tǒng)計(jì)量, 比如; SHI和ZHAO[22]在參數(shù)分量Z帶有可加測(cè)量誤差的情形, 提出了加權(quán)糾偏的約束統(tǒng)計(jì)量和加權(quán)糾偏的profile拉格朗日乘子檢驗(yàn)統(tǒng)計(jì)量, ZHANG和LI[23]在非參數(shù)分量X帶有可加測(cè)量誤差情形, 構(gòu)造了模型參數(shù)分量和系數(shù)函數(shù)的加權(quán)糾偏約束估計(jì)量, 并針對(duì)線性檢驗(yàn)問(wèn)題, 提出了加權(quán)糾偏的profile拉格朗日乘子檢驗(yàn)統(tǒng)計(jì)量.但到目前為止, 有關(guān)缺失數(shù)據(jù)下異方差半變系數(shù)模型在約束條件下的統(tǒng)計(jì)推斷問(wèn)題還未被研究, 因此本文研究協(xié)變量Z滿足隨機(jī)缺失條件(1.2)下, 異方差半變系數(shù)模型(1.1)在約束條件(1.3)下的估計(jì)問(wèn)題.
則模型(2.2)轉(zhuǎn)化為
且極小化(2.3), 可得系數(shù)函數(shù)g(·)在u0點(diǎn)的估計(jì)
由上式可得M的估計(jì)為
將M的估計(jì)代入模型(2.4), 可得
基于上式和約束條件(1.3), 由拉格朗日乘數(shù)法, 構(gòu)造輔助函數(shù)
則約束條件(1.3)下M的估計(jì)為
由(2.9)和(2.11), 可得模型誤差ε的估計(jì)為
下面我們來(lái)處理缺失數(shù)據(jù), 一般情形下選擇概率函數(shù)π(·)未知, 因此需要去對(duì)它進(jìn)行估計(jì),但是利用非參數(shù)估計(jì)方法可能會(huì)產(chǎn)生維數(shù)災(zāi)禍, 為此本文借鑒文[15]的方法, 假設(shè)缺失機(jī)制為以下的Logistic回歸模型
可得系數(shù)函數(shù)g(·)在u0點(diǎn)的自適應(yīng)逆概率加權(quán)估計(jì)為
M的自適應(yīng)逆概率加權(quán)估計(jì)為
其中
基于約束條件(1.3), 由拉格朗日乘數(shù)法, 構(gòu)造加權(quán)輔助函數(shù)
下面給出估計(jì)量的漸近性質(zhì), 首先給出一些正則條件:
C1 隨機(jī)變量U具有有界支撐?, 它的密度函數(shù)f(·)滿足Lipschitz連續(xù)且在其支撐上有界且遠(yuǎn)離0, 并且具有二階連續(xù)導(dǎo)數(shù);
下面通過(guò)隨機(jī)數(shù)值模擬來(lái)驗(yàn)證估計(jì)量的有限樣本表現(xiàn).考慮以下異方差半變系數(shù)模型:
表3.2 參數(shù)分量β2估計(jì)量的偏差(Bias)和均方誤差(MSE)
表3.3 參數(shù)分量β3估計(jì)量的偏差(Bias)和均方誤差(MSE)
從表3.1-3.3可以得到: 1)參數(shù)分量的所有估計(jì)量都是漸近無(wú)偏的, 當(dāng)樣本量的增大時(shí), 估計(jì)量的絕對(duì)偏差和均方誤差都在減小; 2)當(dāng)缺失概率增大或異方差性增強(qiáng)時(shí), 所有估計(jì)量的絕對(duì)偏差和均方誤差都在增大; 3)當(dāng)模型誤差、缺失概率和樣本量相同時(shí), 本文提出估計(jì)量的均方誤差在大多數(shù)情形下小于忽略缺失值估計(jì)量, 絕對(duì)偏差前者明顯小于后者, 而且比忽略約束估計(jì)量?β和忽略異方差估計(jì)量有更小的絕對(duì)偏差和均方誤差.此外, 通過(guò)圖3.1發(fā)現(xiàn)系數(shù)函數(shù)的自適應(yīng)逆概率加權(quán)約束估計(jì)量與真實(shí)曲線比較接近.通過(guò)以上數(shù)值模擬驗(yàn)證了本文方法對(duì)缺失數(shù)據(jù)和異方差誤差的有效性, 進(jìn)一步說(shuō)明了所提出方法的可行性.
表3.1 參數(shù)分量β1估計(jì)量的偏差(Bias)和均方誤差(MSE)
圖3.1 系數(shù)函數(shù)g1(u)和g2(u)的估計(jì)曲線圖, 其中實(shí)線表示真實(shí)曲線, 點(diǎn)虛線表示本文提出的自適應(yīng)逆概率加權(quán)約束估計(jì).
所以
引理4.6假設(shè)條件C1-C8成立, 則當(dāng)n →∞, 有
結(jié)合Slutsky定理和中心極限定理即可完成證明.
引理4.7假設(shè)條件C1-C8成立, β的自適應(yīng)逆概率加權(quán)估計(jì)?β是漸近正態(tài)的, 即
證
則由引理4.4-4.6, 結(jié)合條件C6, 由Slutsky定理即可完成(4.11)的證明.
下面證明(4.10) 式, 經(jīng)簡(jiǎn)單運(yùn)算可得
為此只需要證明
(4.12)-(4.15)式與文[5]中定理3中的證明類似, 結(jié)合定理2.1、引理4.1-4.2, 條件C6-C7即可完成證明, 這里略去.
定理2.2的證明由(2.19)式, 可得
因此由引理4.7結(jié)合Slutsky定理即可完成證明.
定理2.3的證明由(2.20)式, 經(jīng)簡(jiǎn)單運(yùn)算可得
對(duì)于?1, 對(duì)u0鄰域內(nèi)的任意一點(diǎn)Ui, 對(duì)g(Ui)進(jìn)行Taylor展開(kāi)
則
由引理4.1, 結(jié)合定理2.1和引理4.2可證
結(jié)合(4.16)-(4.18), 由Slutsky定理即可完成證明.