吳劉倉,張家茂,邱貽濤
(昆明理工大學 理學院,云南 昆明 650093)
在金融和經濟等領域,經常收集到的數(shù)據(jù)不是嚴格地服從正態(tài)分布,而是服從偏正態(tài)分布,因為偏態(tài)分布能夠較好地刻畫出數(shù)據(jù)的非對稱性和偏斜程度。一方面,偏態(tài)數(shù)據(jù)是正態(tài)數(shù)據(jù)的進一步推廣,是非常常見的一種統(tǒng)計數(shù)據(jù);另一方面,在現(xiàn)實數(shù)據(jù)的采集過程中,很多抽樣調查數(shù)據(jù)和實驗數(shù)據(jù)都會受到無回答的干擾,或者是因為某種原因而丟失。因此,對缺失偏態(tài)數(shù)據(jù)的統(tǒng)計分析具有重要的理論和實際意義,筆者旨在研究缺失偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的估計問題。
目前,缺失對稱數(shù)據(jù)下回歸模型研究已得到了廣泛關注,Cheng、Chu等人研究了缺失數(shù)據(jù)下回歸模型中非參數(shù)估計[1-2];Wang等人采用回歸插補方法,研究了線性回歸模型中響應變量均值的估計[3];閆莉等人討論了缺失數(shù)據(jù)下廣義線性模型中參數(shù)置信域問題[4];Little、金勇進等人對缺失數(shù)據(jù)做了詳細的介紹,并總結了缺失數(shù)據(jù)的處理方法[5]59-72[6]60-75;Azzalini對偏正 態(tài)分布 做了大量 研究,并應用此模型分析了一組運動數(shù)據(jù)[7];Xie等人研究了偏態(tài)數(shù)據(jù)下回歸模型中偏度和尺度參數(shù)的齊次性檢驗[8],而對缺失偏態(tài)數(shù)據(jù)下回歸模型的研究甚少。
偏正態(tài)分布實際是一種廣義的正態(tài)分布,一個隨機變量Y服從位置參數(shù)μ、尺度參數(shù)σ2和偏度參數(shù)λ的偏正態(tài)分布,記為y~SN(μ,σ2,λ),其密度函數(shù)為:
其中φ(·)、Φ(·)分別是標準正態(tài)分布的概率密度函數(shù)和分布函數(shù),這種分布的非對稱范圍是(-0.995,0.995)。當λ<0時,該分布有負的偏斜;當λ>0時,該分布有正的偏斜;當λ=0時,這個概率密度函數(shù)就是正態(tài)分布的概率密度函數(shù)。
偏態(tài)數(shù)據(jù)下線性回歸模型定義如下:
其中xi= (xi1,…,xip)T是可以觀測的協(xié)變量,β=(β1,…,βp)Τ是p×1維未知的線性回歸系數(shù),λ是響應變量yi的偏度參數(shù)。設xi可全部觀測到,yi有缺失,δi為指示yi缺失的變量,即:
假定yi滿足隨機缺失機制(MAR),即:
其中p(x)表示給定x下y被觀測到的概率。
假設樣本(xi,yi),i=1,2,…,n來自模型(2)且獨立同分布,由式(1)可得對數(shù)極大似然函數(shù)為:
通常的數(shù)值計算大多需要使用迭代算法,以下介紹極大似然估計的常用迭代法。事實上,這也就是非線性規(guī)劃中求解函數(shù)最大值(最小值)最典型的基本算法,即Gauss-Newton迭代法。
設X~f(x,θ),L(θ)=logf(x,θ),θ∈Θ,則極大似然估計=(X)滿足以下必要條件:
在某點θ0處展開可得:
因此可視θ0為初值,設計以下迭代公式:
其中D(θ)=[-L″(θ)]-1[L′(θ)],直到‖θi+1-θi‖≤ε,ε為預定的充分小的正數(shù),如ε=10-8等,則取θi+1作為極大似然估計的近似值。
Step1 給定迭代的參數(shù)初值:θ0=(,,λ0)T。
Step2 給定當前值:θi=(βTi,σ2i,λi)T,迭代θi+1=θi+[-L″(θi)]-1[L′(θi)]。
Step3重復Step2直到迭代收斂。
插補方法是處理缺失數(shù)據(jù)的一類常用的技術方法,是指給每一個缺失數(shù)據(jù)一些替代值,從而得到完整數(shù)據(jù)集;然后使用標準的完全數(shù)據(jù)統(tǒng)計方法進行數(shù)據(jù)分析和推斷。本文在缺失偏態(tài)數(shù)據(jù)下線性回歸模型中,采用不同的插補方法對缺失數(shù)據(jù)進行插補,得到完整數(shù)據(jù)集;再使用完全數(shù)據(jù)下參數(shù)的極大似然估計對參數(shù)進行估計。具體插補方法如下:
均值插補法是指對所有缺失值,用所有觀測值的均值進行插補。假定可以觀測到y(tǒng)1,…,yn1,而yn1+1,…,yn缺失,即插補值yj為:
得到完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,估計出參數(shù)。
均值插補的特點是操作簡便,并且對均值這樣的簡單變量可以有效地降低其點估計的偏差,但是由于其缺失值都由均值來充當,因而扭曲了變量的樣本分布,于是均值插補并不適用于偏態(tài)線性回歸模型中回歸系數(shù)、尺度、偏度的參數(shù)估計。
回歸插補法是根據(jù)目標變量Y和輔助變量X之間的相互關系建立回歸模型,然后利用已知的輔助變量信息和回歸模型,對目標變量的缺失數(shù)據(jù)進行插補的方法。在樣本中,如果變量Y和變量X之間存在高度相關,可以利用已知數(shù)據(jù)擬合回歸預測模型,計算出回歸替代值,插補出缺失數(shù)據(jù)。
對于yi~SN(μi,σ2,λ),給定x條件下y的密度函數(shù)為fθ(y|x),其中θ=(βT,σ2,λ)T。假定可以觀測到y(tǒng)1,…,yn1,而yn1+1,…,yn缺失,可以利用觀測值(x1,y1),…,(xn1,yn1),并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法,對參數(shù)θ進行估計,從而得到。這樣就可以對缺失值yj(j=n1+1,…,n)依照下式進行獨立的參數(shù)隨機插補:
然后得到插補后的完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,得到參數(shù)估計值。
在偏態(tài)數(shù)據(jù)下線性回歸模型中,由于變量Y和變量X之間存在高度相關,應用回歸插補時,對回歸系數(shù)的參數(shù)估計將會有十分好的效果,但是對于相同的xi(i=1,2,…,n),得到的插補值是相同的,這樣就和均值插補一樣,存在樣本分布扭曲問題,將會造成偏態(tài)數(shù)據(jù)下線性回歸模型中尺度、偏度參數(shù)估計的不良效果。為了克服這個缺點,本文在回歸插補方法(RI)的基礎上,針對缺失偏態(tài)數(shù)據(jù)線性回歸模型(2),提出一種新的迭代插補方法,稱之為修正回歸插補(CRI)方法,具體做法如下:
第一步,利用觀測值(x1,y1),…,(xn1,yn1),并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法,對參數(shù)θ進行估計,從而得到。
第二步,依次對第j個缺失值yj(j=n1+1,…,n),依照式(5)進行獨立的參數(shù)隨機插補。
第三步,將插補值當作觀測值,得到j組觀測值,重復第一步,估計出新的參數(shù)槇θ;重復第二步,插補出新的缺失值,直到所有缺失值插補完成,即j=n的時候 ,將得到參數(shù)的最終估計。
通過依次插補缺失值,迭代回歸插補的方法克服了樣本分布扭曲的問題,并改善了尺度參數(shù)和偏度參數(shù)的估計效果。
隨機回歸插補是在回歸插補的基礎上所作的改進,也因考慮到經過回歸后缺失值yj的估計為yj=對于相同的x(i=1,2,…,n),得到的插補值是i相同的,也存在樣本分布扭曲的問題。隨機回歸插補對缺失值yj(j=n1+1,…,n)依照下式進行獨立的參數(shù)隨機插補:得到完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,估計出參數(shù)。通過隨機地插補缺失值,克服了樣本分布扭曲的缺點,提高了尺度、偏度參數(shù)的估計效果。
yi,i=1,2,…,n產生于模型(2),是相互獨立的隨機變 量;協(xié) 變 量xi~U(-1,1),取 真 值β=(-2,3,4)T,σ2=0.5;在λ=-0.5、λ=0、λ=0.5,而且樣本量為100、200、300時,模擬1 000次,模擬結果見表1。
表1 完全數(shù)據(jù)下偏態(tài)線性回歸模型參數(shù)極大似然估計結果表
從表1模擬結果知:隨著樣本量的增加,在不同偏度下,完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計的均方誤差(MSE)越來越小,估計值越來越接近真值,說明本文的完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計效果是良好的,并且不依賴于偏度,適用于各種偏度情況下的參數(shù)估計。
yi,i=1,2,…,n產生于模型(2),是相互獨立的隨機變量,協(xié)變量xi~U(-1,1),取真值β=(2,3,-1)T,σ2=0.5,λ=0.5;對Y分別隨機缺失5%,10%和30%數(shù)據(jù)后,在插補方法為均值插補(EI)、回歸插補(RI)、隨機回歸插補(RRI)、修正回歸插補(CRI),而且樣本量n為100,200,300時,模擬1 000次,其中樣本量為100時模擬結果見表2;樣本量為300時模擬結果見表3;修正回歸插補方法估計結果見表4。
情形1 樣本量n=100,各種插補方法在不同缺失率下,參數(shù)的估計結果比較。
表2 樣本量n=100時各種插補方法結果比較表
情形2 樣本量n=300,各種插補方法在不同缺失率下,參數(shù)的估計結果比較。
表3 樣本量n=300時各種插補方法結果比較表
從表2表3可以得出以下結論:
1.均值插補后的極大似然參數(shù)估計隨著缺失率增大,估計值離真值越來越遠,均方誤差(MSE)越來越大,可見均值插補效果十分差,只適用于缺失率較低情況。
2.回歸插補后的極大似然參數(shù)估計對于回歸系數(shù)估計效果十分好,這與變量Y和輔助變量X之間具有很高的相關性有關,但隨著缺失率的增加,尺度參數(shù)估計值和偏度參數(shù)估計值離真值越來越遠,均方誤差(MSE)逐漸增大,參數(shù)估計效果比較差。
3.對比回歸插補,經過隨機回歸插補后的尺度和偏度參數(shù)估計,效果有了明顯地改善。
4.經過修正回歸插補后參數(shù)的極大似然參數(shù)估計,對回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果十分好,而且隨著缺失率的增加,對所有參數(shù)的估計都比較穩(wěn)定。參數(shù)估計效果比隨機回歸插補后更好,是所有插補方法中參數(shù)估計總體效果最佳的,十分適合偏態(tài)數(shù)據(jù)下線性回歸模型的參數(shù)估計。尤其是隨著缺失率和樣本量的增加,以上現(xiàn)象表現(xiàn)得更加明顯,這充分說明了筆者提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計,是十分有效的。
情形3 不同樣本量和不同缺失率下,修正回歸插補方法估計結果。
從表4可以看出:隨著缺失率的減小,修正回歸插補后的參數(shù)估計效果越來越好,符合數(shù)據(jù)缺失下參數(shù)估計的基本規(guī)律;隨著樣本量的增加,修正回歸插補后的參數(shù)估計效果越來越好,進一步說明了提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計是很好的。
表4 不同樣本量和不同缺失率下修正回歸插補方法估計結果表
體重指數(shù)(bmi,Y)是與體內脂肪總量密切相關的指標,為了簡單,考慮體重(x1)和性別(x2)兩個因素,當?shù)弥粋€人的體重和性別就可以簡要地計算出體重指數(shù)。該實例數(shù)據(jù)來自R軟件sn包中關于mle的例子,在R軟件中使用sn.mle命令得到估計參數(shù),并對數(shù)據(jù)中心化處理(截距為11.689),處理后的數(shù)據(jù)(bmi)概率密度函數(shù)如圖1。
圖1 bmi概率密度函數(shù)擬合圖
經過處理后的數(shù)據(jù)由圖1可知,體重指數(shù)(bmi)近似服從偏正態(tài)分布,所以令其滿足下列模型:
經過計算得到完全數(shù)據(jù)下模型參數(shù)估計如下:
在不同缺失率下對數(shù)據(jù)隨機缺失后,利用本文提出的修正回歸插補等方法,計算得到模型參數(shù)估計如表5。
從表5可以看出:隨著缺失率的減小,修正回歸插補后的參數(shù)估計效果越來越好,本文提出的修正回歸插補方法的表現(xiàn),是所有插補方法中總體表現(xiàn)最好的。
表5 體重指數(shù)(bmi)的參數(shù)極大似然估計結果表
本文主要目的是研究響應變量Y存在偏斜和隨機缺失下線性回歸模型的參數(shù)估計問題,針對缺失偏態(tài)數(shù)據(jù),為了克服樣本分布扭曲缺點,提高模型的回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果,提出了一種適合偏態(tài)數(shù)據(jù)下線性回歸模型中缺失數(shù)據(jù)的修正回歸插補方法。通過隨機模擬和實例研究,同均值插補、回歸插補、隨機回歸插補方法比較,結果表明所提出的修正回歸插補方法是有用可行的。
[1] Cheng P E.Nonparametric Estimation of Mean Functionals With Data Missing at andom[J].J.Amer.Statist Assoc,1994,89(425).
[2] Chu C K,Cheng P E.Nonparametric Regression Estimation With Missing Data[J].Journal of Statist Planning Inference,1995(1).
[3] Wang Q H,Rao J N K.Emprical Likelihood for Liner Regression Modles Under Imputation for Missing Responses[J].Scandinavain Journal of Statistics,2001(4).
[4] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性模型的經驗似然推斷[J].統(tǒng)計與信息論壇,2013(2).
[5] Little R J A,Rubin D B.Statistical Analysis With Missing Data[M].New York:John Wiley & Sons Inc,1987.
[6] 金勇進,邵軍.缺失數(shù)據(jù)的統(tǒng)計處理[M].北京:中國統(tǒng)計出版社,2009.
[7] Azzalini A.A Class of Distribution Which Include the Normal Ines[J].Scandinavain Journal of Statistics,1985(2).
[8] Xie F C,Wei B C,Lin J G.Homogeneity Dignostatics for Skew-normal Nonlinear Regression Models[J].Statistics and Probability Letters,2009(6).
[9] 韋博成.參數(shù)統(tǒng)計教程[M].北京:高等教育出版社,2006.