劉 瑩, 葛悠美, 姜 榮
(東華大學(xué) 理學(xué)院, 上海 201620)
?
線性測量誤差模型的隨機加權(quán)分位數(shù)回歸
劉瑩, 葛悠美, 姜榮
(東華大學(xué) 理學(xué)院, 上海 201620)
摘要:將隨機加權(quán)法推廣到線性測量誤差模型,結(jié)合分位數(shù)回歸估計方法,提出線性測量誤差模型中參數(shù)的隨機加權(quán)分位數(shù)回歸方法.在一定條件下,可以用隨機加權(quán)法得到分位數(shù)回歸估計量的漸近分布,這種方法避免了估計冗余參數(shù),并且實施方便.通過模擬研究和艾滋病數(shù)據(jù)驗證了隨機加權(quán)分位數(shù)回歸方法的有效性.
關(guān)鍵詞:測量誤差; 分位數(shù)回歸; 隨機加權(quán)方法
考慮如下線性測量誤差模型[1]:
(1)
其中:x∈Rp是存在測量誤差的未觀測的隨機變量;X∈Rp是x的觀測值;β是p維未知參數(shù)向量;Y∈Rp是響應(yīng)向量;(ε, uT)T∈Rp+1是期望為零且獨立同分布的.設(shè)x是獨立同分布的隨機變量.x是非隨機的情況參見文獻(xiàn)[2].模型(1)作為線性測量誤差模型,修正了由于自變量測量誤差的引入所導(dǎo)致的參數(shù)估計的偏差,在某一程度上比普通的線性回歸
模型更加實用.
由于分位數(shù)回歸方法不僅能夠度量回歸變量對分布中心的影響,而且能度量回歸變量對分布上尾和下尾的影響,因此,其比經(jīng)典的最小二乘回歸法更具有優(yōu)勢.分位數(shù)回歸已在很多領(lǐng)域得到應(yīng)用,如經(jīng)濟學(xué)[3-4]、生存分析[5-6]、生長曲線圖[7-8]及其他[9-11].文獻(xiàn)[12]考慮了線性和部分線性測量誤差模型的分位數(shù)回歸估計,并建立了相應(yīng)的漸近性質(zhì).然而由于估計量的漸近分布中存在冗余參數(shù),很難被精確地估計.隨機加權(quán)法可以有效地解決上述問題.
隨機加權(quán)法[13]可以看作Bootstrap方法[14]的一個變形,它不是從數(shù)據(jù)中產(chǎn)生重復(fù)樣本,而是在每個觀察數(shù)據(jù)前附加一個隨機權(quán),通過重加權(quán)產(chǎn)生再生樣本來模擬總體分布(取再生樣本的容量和觀測樣本一樣).文獻(xiàn)[15]研究表明,隨機加權(quán)方法和 Bootstrap 方法有相似的漸近性質(zhì)(至少在一階時).由于隨機加權(quán)法具有良好的統(tǒng)計特性,在統(tǒng)計的某些方面已經(jīng)對其做了廣泛的研究.例如,文獻(xiàn)[15]使用隨機加權(quán)法得到線性回歸模型中 M 估計的近似分布;文獻(xiàn)[16]提出了比例風(fēng)險模型的隨機加權(quán)法;文獻(xiàn)[17]將隨機加權(quán)法拓展到了刪失回歸模型;文獻(xiàn)[18]討論了半線性測量誤差模型中的未知參數(shù)的隨機加權(quán)最小二乘估計.但文獻(xiàn)中很少有通過隨機加權(quán)法研究模型(1).
本文將隨機加權(quán)法應(yīng)用于模型(1),提出用于線性測量誤差模型的隨機加權(quán)分位數(shù)回歸方法,并給出相應(yīng)的漸近性質(zhì),最后通過模擬以及實例研究,驗證隨機加權(quán)分位數(shù)回歸方法的有效性.
1方法和主要結(jié)果
1.1隨機加權(quán)分位數(shù)回歸
(2)
其中:ρτ(r)=τr-rI(r<0),r為變量,τ為分位數(shù),I(·)為示性函數(shù).此外,文獻(xiàn)[12]證明在一定條件下,有
(3)
S=τ(1-τ)Σx+
(4)
其中:隨機權(quán)ωi(i=1, 2, …, n)是獨立同分布且E(ω1) =Var(ω1)=1的非負(fù)隨機變量.
研究估計量的漸進(jìn)性質(zhì),需要以下條件.
A1設(shè)(ε, uT)球?qū)ΨQ,且存在有限一階矩.ε的分布函數(shù)F絕對連續(xù),密度函數(shù)f在點qτ連續(xù),且從0到∞一致有界.
注:條件A1和A2是分位數(shù)回歸的常見條件[8],條件A3常用于隨機加權(quán)法[16].
(5)
特別,當(dāng)ωi=1,有
(6)
定理2在定理1的條件下,有
op(1)
相應(yīng)地,
(7)
2模擬結(jié)果
例1模擬數(shù)據(jù)由模型(1)生成,且隨機誤差變量分別服從標(biāo)準(zhǔn)正態(tài)分布N(0, 1)和自由度為3的t分布t3.自變量x是區(qū)間(3, 5)生成的均勻分布,研究β=1,2和5這3種情況.隨機加權(quán)變量ω分別
服從均值為1的指數(shù)分布exp(1)和均值為1的泊松分布P(1).所有的模擬重復(fù)運行 500次,隨機加權(quán)數(shù)重復(fù)次數(shù)為500.
εωnβ*ττ=0.25τ=0.50τ=0.75N(0,1)500.948(0.003)1.001(0.004)1.081(0.005)exp(1)1000.943(0.002)1.000(0.002)1.081(0.003)2000.941(0.001)1.001(0.001)1.080(0.002)500.948(0.003)1.001(0.004)1.081(0.005)P(1)1000.943(0.002)1.000(0.002)1.081(0.003)2000.941(0.001)1.001(0.001)1.080(0.002)t3501.044(0.002)1.043(0.002)1.083(0.003)exp(1)1001.043(0.001)1.042(0.001)1.068(0.002)2001.043(0.001)1.041(0.001)1.058(0.001)501.044(0.002)1.043(0.002)1.083(0.003)P(1)1001.043(0.001)1.042(0.001)1.068(0.002)2001.043(0.001)1.041(0.001)1.058(0.001)
εωnβ*ττ=0.25τ=0.50τ=0.75N(0,1)501.828(0.007)2.008(0.008)2.248(0.016)exp(1)1001.818(0.004)2.003(0.005)2.255(0.008)2001.824(0.002)2.004(0.002)2.240(0.005)501.828(0.007)2.008(0.008)2.248(0.016)P(1)1001.818(0.004)2.003(0.005)2.255(0.008)2001.824(0.002)2.002(0.002)2.240(0.005)t3502.035(0.002)2.036(0.002)2.055(0.006)exp(1)1002.034(0.001)2.034(0.001)2.045(0.002)2002.035(0.001)2.032(0.001)2.043(0.001)502.035(0.002)2.036(0.002)2.054(0.005)P(1)1002.034(0.001)2.034(0.001)2.045(0.002)2002.035(0.001)2.032(0.001)2.043(0.001)
εωnβ*ττ=0.25τ=0.50τ=0.75N(0,1)504.435(0.032)5.009(0.045)5.848(0.118)exp(1)1004.413(0.016)5.007(0.023)5.823(0.052)2004.417(0.008)5.000(0.012)5.820(0.025)504.436(0.033)5.010(0.045)5.847(0.117)P(1)1004.413(0.017)5.007(0.023)5.823(0.052)2004.417(0.008)5.000(0.012)5.820(0.025)t3505.018(0.002)5.018(0.002)5.026(0.004)exp(1)1005.016(0.001)5.018(0.001)5.018(0.002)2005.016(0.001)5.016(0.001)5.018(0.001)505.018(0.002)5.018(0.002)5.026(0.004)P(1)1005.017(0.001)5.018(0.001)5.018(0.002)2005.017(0.001)5.015(0.001)5.018(0.001)
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
例2對艾滋病臨床試驗組(ACTG315)的研究數(shù)據(jù)進(jìn)行分析.一般情況下,認(rèn)為病毒學(xué)反應(yīng)的RNA(由病毒載量反映)和免疫反應(yīng)(由CD4+細(xì)胞計數(shù)反映)在治療過程中呈負(fù)相關(guān).本研究的目的之一是調(diào)查艾滋病的臨床試驗中病毒學(xué)反應(yīng)的RNA和免疫反應(yīng)之間的關(guān)系.初步調(diào)查表明,病毒載量線性依賴于CD4+細(xì)胞計數(shù).因此,根據(jù)模型(1)建立病毒載量及CD4+細(xì)胞計數(shù)之間的關(guān)系模型為
式中:x為存在測量誤差的隨機變量[19],這里x為實際的CD4+細(xì)胞計數(shù);Y為病毒載量;X為觀測到的CD4+細(xì)胞計數(shù).
ωβ*ττ=0.25τ=0.50τ=0.75exp(1)β022.37430.92336.579β1-8.275-11.369-13.230P(1)β022.59630.89636.715β1-8.275-11.369-13.230
從表4看出,當(dāng)隨機加權(quán)變量分別取均值為1的指數(shù)分布exp(1)和均值為1的泊松分布P(1)時,病毒學(xué)反應(yīng)的RNA和免疫反應(yīng)在治療過程中都呈負(fù)相關(guān),與預(yù)想一致.
3定理證明
3.1定理1的證明
設(shè)V是一個對稱正定矩陣,U是一個隨機變量,An(s)是對角線最小值為αn的凸函數(shù).由文獻(xiàn)[20]知,若
ρτ(x-y)-ρτ(x)=
記
(βτ-β0)+o(1),
Qn=Qn1+Qn2,
其中
由于
其中∶=d表示服從相同分布.有
因此,
根據(jù)條件A2可知,
目標(biāo)函數(shù)Q0(θτ)的凸性,確保了極小值的唯一性,可知
ωi=1,則為
3.2定理2的證明
由定理1可知,
op(1),
(9)
(10)
由式(9)和(10)可知,
通過運用文獻(xiàn)[13]中相似論證,可知式(8)正確.定理證畢.
4結(jié)語
本文研究了線性測量誤差模型的估計問題,結(jié)合分位數(shù)回歸方法和隨機加權(quán)法,提出了隨機加權(quán)分位數(shù)回歸估計方法.證明了在一定條件下,可以用隨機加權(quán)法得到分位數(shù)回歸估計量的漸近分布,這種方法得到的近似分布有許多優(yōu)點,它避免了估計冗余參數(shù),且實施方便.通過模擬研究驗證了所提出的方法的有效性,再用實例研究說明了隨機加權(quán)分位數(shù)回歸估計方法具有實際的應(yīng)用價值.本文提出的方法可以拓展到更多的情形.
參考文獻(xiàn)
[1] DEATON A. Panel data from a time series of cross-sections[J]. Journal of Econometrics, 1985, 30(1/2): 109-126.
[2] FULLER W A. Measurement error models[M]. New York: Wiley, 1987.
[3] HENDRICKS W, KOENKER R. Hierarchical spline models for conditional quantiles and the demand for electricity[J]. Journal of the American Statistical Association, 1992, 87(417): 58-68.
[4] KOENKER R, HALLOCK K. Quantile regression[J]. Journal of Economic Perspectives, 2001, 15(4): 143-156.
[5] YANG S. Censored median regression using weighted empirical survival and hazard functions[J]. Journal of the American Statistical Association, 1999, 94(445): 137-145.
[6] KOENKER R, GELING R. Reappraising medfly longevity: A quantile regression survival analysis[J]. Journal of the American Statistical Association, 2001, 96(454): 458-468.
[7] WEI Y, HE X M. Conditional growth charts(with discussions)[J]. The Annals of Statistics, 2006, 34(5): 2069-2097.
[8] KOENKER R. Quantile regression[M]. Cambridge: Cambridge University Press, 2005.
[9] CAI Z, XU X. Nonparametric quantile estimations for dynamic smooth coefficient models[J]. Journal of the American Statistical Association, 2008, 103(484): 1596-1608.
[10] WANG J L, XUE L G, ZHU L X, et al. Estimation for a partial-linear single-index model[J]. The Annals of Statistics, 2010, 38(1): 246-274.
[11] KAI B, LI R, ZOU H. New efficient estimation and variable selection methods for semiparametric varying-coefficient partially linear models[J]. The Annals of Statistics, 2011,
39(1): 305-332.
[12] HE X M, LIANG H. Quantile regression estimates for a class of linear and partially linear errors-in-variables models[J]. Statistica Sinica, 2000, 10(1): 129-140.
[13] ZHENG Z G. Random weighting method[J]. Acta Mathematicae Applilcate Sinica, 1987, 10(2): 247-253.
[14] RUBIN D B. The Bayesian bootstrap[J]. The Annals of Statistics, 1981, 9(1): 130-134.
[15] RAO C R, ZHAO L C. Approximation to the distribution of M-estimates in linear models by randomly weighted bootstrap[J]. Sankhy ā A, 1992, 54(3): 323-331.
[16] CUI W Q, LI K, YANG Y N, et al. Random weighting method for Cox’s proportional hazards model[J]. Science in China Series A, 2008, 51(10): 1843-1854.
[17] WANG Z F, WU Y H, ZHAO L C. Approximation by randomly weighting method in censored regression model[J]. Science in China Series A, 2009, 52(3): 561-576.
[18] 姜榮,錢偉民,周占功. 半?yún)?shù)測量誤差模型中參數(shù)的隨機加權(quán)估計[J].同濟大學(xué)學(xué)報(自然科學(xué)報), 2011, 39(5): 768-772.
[19] LIANG H, WU H L, CARROLL R J. The relationship between virologic and immunologic responses in AIDS clinical research using mixed-effect varying-coefficient semiparametric models with measurement error[J]. Biostatistics, 2003, 4(2): 297-312.
[20] SHERWOOD B, WAN L, ZHOU X H. Weighted quantile regression for analyzing health care cost data with missing covariates[DB/OL].(2013-09-09)[2014-07-20]. http://onlinelibrary. wiley.com/d oi/10.1002/sim.5883.
[21] KNIGHT K. Limiting distributions forL1regression estimators under general conditions[J]. The Annals of Statistics, 1998, 26(2): 755-770.
[22] VAN DER VAART A W, WELLNER J A. Weak convergence and empirical processes[M]. New York: Springer-Verlag, 1996.
Random Weighting Quantile Regression for Linear Errors-in-Variables Models
LIUYing,GEYou-mei,JIANGRong
(College of Science, Donghua University, Shanghai 201620, China)
Abstract:The purpose is to extend the random weighting method to linear errors-in-variables models. By combining the quantile regression, random weighting quantile regression is proposed for linear errors-in-variables models. It is shown that the random weighting quantile regression estimation is uniformly consistent. The random weighting method provides a way of assessing the distribution of the quantile regression estimators without estimating the nuisance parameters. The simulation studies and an AIDS real data application are conducted to illustrate the finite sample performance of the proposed methods.
Key words:errors-in-variables; quantile regression; random weighting method
中圖分類號:O 213.9
文獻(xiàn)標(biāo)志碼:A
作者簡介:劉瑩(1991—),女,浙江衢州人,碩士研究生,研究方向為概率論與數(shù)理統(tǒng)計.E-mail: mygirl-ly@163.com
收稿日期:2014-12-05
文章編號:1671-0444(2016)01-0152-08