缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷

2013-09-05 02:10:18吳劉倉張家茂邱貽濤

統(tǒng)計與信息論壇 2013年9期

吳劉倉，張家茂，邱貽濤

（昆明理工大學理學院，云南昆明 650093）

一、引言

在金融和經濟等領域，經常收集到的數(shù)據(jù)不是嚴格地服從正態(tài)分布，而是服從偏正態(tài)分布，因為偏態(tài)分布能夠較好地刻畫出數(shù)據(jù)的非對稱性和偏斜程度。一方面，偏態(tài)數(shù)據(jù)是正態(tài)數(shù)據(jù)的進一步推廣，是非常常見的一種統(tǒng)計數(shù)據(jù)；另一方面，在現(xiàn)實數(shù)據(jù)的采集過程中，很多抽樣調查數(shù)據(jù)和實驗數(shù)據(jù)都會受到無回答的干擾，或者是因為某種原因而丟失。因此，對缺失偏態(tài)數(shù)據(jù)的統(tǒng)計分析具有重要的理論和實際意義，筆者旨在研究缺失偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的估計問題。

目前，缺失對稱數(shù)據(jù)下回歸模型研究已得到了廣泛關注，Cheng、Chu等人研究了缺失數(shù)據(jù)下回歸模型中非參數(shù)估計［1－2］；Wang等人采用回歸插補方法，研究了線性回歸模型中響應變量均值的估計［3］；閆莉等人討論了缺失數(shù)據(jù)下廣義線性模型中參數(shù)置信域問題［4］；Little、金勇進等人對缺失數(shù)據(jù)做了詳細的介紹，并總結了缺失數(shù)據(jù)的處理方法［5］59－72［6］60－75；Azzalini對偏正態(tài)分布做了大量研究，并應用此模型分析了一組運動數(shù)據(jù)［7］；Xie等人研究了偏態(tài)數(shù)據(jù)下回歸模型中偏度和尺度參數(shù)的齊次性檢驗［8］，而對缺失偏態(tài)數(shù)據(jù)下回歸模型的研究甚少。

二、偏態(tài)數(shù)據(jù)下線性回歸模型

（一）偏正態(tài)分布

偏正態(tài)分布實際是一種廣義的正態(tài)分布，一個隨機變量Y服從位置參數(shù)μ、尺度參數(shù)σ2和偏度參數(shù)λ的偏正態(tài)分布，記為y～SN（μ，σ2，λ），其密度函數(shù)為：

其中φ（·）、Φ（·）分別是標準正態(tài)分布的概率密度函數(shù)和分布函數(shù)，這種分布的非對稱范圍是（－0．995，0．995）。當λ＜0時，該分布有負的偏斜；當λ＞0時，該分布有正的偏斜；當λ＝0時，這個概率密度函數(shù)就是正態(tài)分布的概率密度函數(shù)。

（二）缺失偏態(tài)數(shù)據(jù)下線性回歸模型

偏態(tài)數(shù)據(jù)下線性回歸模型定義如下：

其中xi＝（xi1，…，xip）T是可以觀測的協(xié)變量，β＝（β1，…，βp）Τ是p×1維未知的線性回歸系數(shù)，λ是響應變量yi的偏度參數(shù)。設xi可全部觀測到，yi有缺失，δi為指示yi缺失的變量，即：

假定yi滿足隨機缺失機制（MAR），即：

其中p（x）表示給定x下y被觀測到的概率。

三、完全數(shù)據(jù)下參數(shù)的極大似然估計

假設樣本（xi，yi），i＝1，2，…，n來自模型（2）且獨立同分布，由式（1）可得對數(shù)極大似然函數(shù)為：

通常的數(shù)值計算大多需要使用迭代算法，以下介紹極大似然估計的常用迭代法。事實上，這也就是非線性規(guī)劃中求解函數(shù)最大值（最小值）最典型的基本算法，即Gauss－Newton迭代法。

（一）Gauss－Newton迭代法［9］113－114

設X～f（x，θ），L（θ）＝logf（x，θ），θ∈Θ，則極大似然估計＝（X）滿足以下必要條件：

在某點θ0處展開可得：

因此可視θ0為初值，設計以下迭代公式：

其中D（θ）＝［－L″（θ）］－1［L′（θ）］，直到‖θi＋1－θi‖≤ε，ε為預定的充分小的正數(shù)，如ε＝10－8等，則取θi＋1作為極大似然估計的近似值。

（二）極大似然估計的迭代算法

Step1 給定迭代的參數(shù)初值：θ0＝（，，λ0）T。

Step2 給定當前值：θi＝（βTi，σ2i，λi）T，迭代θi＋1＝θi＋［－L″（θi）］－1［L′（θi）］。

Step3重復Step2直到迭代收斂。

四、缺失數(shù)據(jù)下參數(shù)的極大似然估計

插補方法是處理缺失數(shù)據(jù)的一類常用的技術方法，是指給每一個缺失數(shù)據(jù)一些替代值，從而得到完整數(shù)據(jù)集；然后使用標準的完全數(shù)據(jù)統(tǒng)計方法進行數(shù)據(jù)分析和推斷。本文在缺失偏態(tài)數(shù)據(jù)下線性回歸模型中，采用不同的插補方法對缺失數(shù)據(jù)進行插補，得到完整數(shù)據(jù)集；再使用完全數(shù)據(jù)下參數(shù)的極大似然估計對參數(shù)進行估計。具體插補方法如下：

（一）均值插補（EI）

均值插補法是指對所有缺失值，用所有觀測值的均值進行插補。假定可以觀測到y(tǒng)1，…，yn1，而yn1＋1，…，yn缺失，即插補值yj為：

得到完全數(shù)據(jù)集，利用完全數(shù)據(jù)下參數(shù)的極大似然估計，估計出參數(shù)。

均值插補的特點是操作簡便，并且對均值這樣的簡單變量可以有效地降低其點估計的偏差，但是由于其缺失值都由均值來充當，因而扭曲了變量的樣本分布，于是均值插補并不適用于偏態(tài)線性回歸模型中回歸系數(shù)、尺度、偏度的參數(shù)估計。

（二）回歸插補（RI）

回歸插補法是根據(jù)目標變量Y和輔助變量X之間的相互關系建立回歸模型，然后利用已知的輔助變量信息和回歸模型，對目標變量的缺失數(shù)據(jù)進行插補的方法。在樣本中，如果變量Y和變量X之間存在高度相關，可以利用已知數(shù)據(jù)擬合回歸預測模型，計算出回歸替代值，插補出缺失數(shù)據(jù)。

對于yi～SN（μi，σ2，λ），給定x條件下y的密度函數(shù)為fθ（y｜x），其中θ＝（βT，σ2，λ）T。假定可以觀測到y(tǒng)1，…，yn1，而yn1＋1，…，yn缺失，可以利用觀測值（x1，y1），…，（xn1，yn1），并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法，對參數(shù)θ進行估計，從而得到。這樣就可以對缺失值yj（j＝n1＋1，…，n）依照下式進行獨立的參數(shù)隨機插補：

然后得到插補后的完全數(shù)據(jù)集，利用完全數(shù)據(jù)下參數(shù)的極大似然估計，得到參數(shù)估計值。

在偏態(tài)數(shù)據(jù)下線性回歸模型中，由于變量Y和變量X之間存在高度相關，應用回歸插補時，對回歸系數(shù)的參數(shù)估計將會有十分好的效果，但是對于相同的xi（i＝1，2，…，n），得到的插補值是相同的，這樣就和均值插補一樣，存在樣本分布扭曲問題，將會造成偏態(tài)數(shù)據(jù)下線性回歸模型中尺度、偏度參數(shù)估計的不良效果。為了克服這個缺點，本文在回歸插補方法（RI）的基礎上，針對缺失偏態(tài)數(shù)據(jù)線性回歸模型（2），提出一種新的迭代插補方法，稱之為修正回歸插補（CRI）方法，具體做法如下：

第一步，利用觀測值（x1，y1），…，（xn1，yn1），并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法，對參數(shù)θ進行估計，從而得到。

第二步，依次對第j個缺失值yj（j＝n1＋1，…，n），依照式（5）進行獨立的參數(shù)隨機插補。

第三步，將插補值當作觀測值，得到j組觀測值，重復第一步，估計出新的參數(shù)槇θ；重復第二步，插補出新的缺失值，直到所有缺失值插補完成，即j＝n的時候，將得到參數(shù)的最終估計。

通過依次插補缺失值，迭代回歸插補的方法克服了樣本分布扭曲的問題，并改善了尺度參數(shù)和偏度參數(shù)的估計效果。

（三）隨機回歸插補（RRI）

隨機回歸插補是在回歸插補的基礎上所作的改進，也因考慮到經過回歸后缺失值yj的估計為yj＝對于相同的x（i＝1，2，…，n），得到的插補值是i相同的，也存在樣本分布扭曲的問題。隨機回歸插補對缺失值yj（j＝n1＋1，…，n）依照下式進行獨立的參數(shù)隨機插補：得到完全數(shù)據(jù)集，利用完全數(shù)據(jù)下參數(shù)的極大似然估計，估計出參數(shù)。通過隨機地插補缺失值，克服了樣本分布扭曲的缺點，提高了尺度、偏度參數(shù)的估計效果。

五、Monte Carlo模擬

（一）完全數(shù)據(jù)下的參數(shù)估計模擬研究

yi，i＝1，2，…，n產生于模型（2），是相互獨立的隨機變量；協(xié) 變量xi～U（－1，1），取真值β＝（－2，3，4）T，σ2＝0．5；在λ＝－0．5、λ＝0、λ＝0．5，而且樣本量為100、200、300時，模擬1 000次，模擬結果見表1。

表1 完全數(shù)據(jù)下偏態(tài)線性回歸模型參數(shù)極大似然估計結果表

從表1模擬結果知：隨著樣本量的增加，在不同偏度下，完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計的均方誤差（MSE）越來越小，估計值越來越接近真值，說明本文的完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計效果是良好的，并且不依賴于偏度，適用于各種偏度情況下的參數(shù)估計。

（二）缺失數(shù)據(jù)下的參數(shù)估計模擬研究

yi，i＝1，2，…，n產生于模型（2），是相互獨立的隨機變量，協(xié)變量xi～U（－1，1），取真值β＝（2，3，－1）T，σ2＝0．5，λ＝0．5；對Y分別隨機缺失5%，10%和30%數(shù)據(jù)后，在插補方法為均值插補（EI）、回歸插補（RI）、隨機回歸插補（RRI）、修正回歸插補（CRI），而且樣本量n為100，200，300時，模擬1 000次，其中樣本量為100時模擬結果見表2；樣本量為300時模擬結果見表3；修正回歸插補方法估計結果見表4。

情形1 樣本量n＝100，各種插補方法在不同缺失率下，參數(shù)的估計結果比較。

表2 樣本量n＝100時各種插補方法結果比較表

情形2 樣本量n＝300，各種插補方法在不同缺失率下，參數(shù)的估計結果比較。

表3 樣本量n＝300時各種插補方法結果比較表

從表2表3可以得出以下結論：

1．均值插補后的極大似然參數(shù)估計隨著缺失率增大，估計值離真值越來越遠，均方誤差（MSE）越來越大，可見均值插補效果十分差，只適用于缺失率較低情況。

2．回歸插補后的極大似然參數(shù)估計對于回歸系數(shù)估計效果十分好，這與變量Y和輔助變量X之間具有很高的相關性有關，但隨著缺失率的增加，尺度參數(shù)估計值和偏度參數(shù)估計值離真值越來越遠，均方誤差（MSE）逐漸增大，參數(shù)估計效果比較差。

3．對比回歸插補，經過隨機回歸插補后的尺度和偏度參數(shù)估計，效果有了明顯地改善。

4．經過修正回歸插補后參數(shù)的極大似然參數(shù)估計，對回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果十分好，而且隨著缺失率的增加，對所有參數(shù)的估計都比較穩(wěn)定。參數(shù)估計效果比隨機回歸插補后更好，是所有插補方法中參數(shù)估計總體效果最佳的，十分適合偏態(tài)數(shù)據(jù)下線性回歸模型的參數(shù)估計。尤其是隨著缺失率和樣本量的增加，以上現(xiàn)象表現(xiàn)得更加明顯，這充分說明了筆者提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計，是十分有效的。

情形3 不同樣本量和不同缺失率下，修正回歸插補方法估計結果。

從表4可以看出：隨著缺失率的減小，修正回歸插補后的參數(shù)估計效果越來越好，符合數(shù)據(jù)缺失下參數(shù)估計的基本規(guī)律；隨著樣本量的增加，修正回歸插補后的參數(shù)估計效果越來越好，進一步說明了提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計是很好的。

表4 不同樣本量和不同缺失率下修正回歸插補方法估計結果表

六、實例分析

體重指數(shù)（bmi，Y）是與體內脂肪總量密切相關的指標，為了簡單，考慮體重（x1）和性別（x2）兩個因素，當?shù)弥粋€人的體重和性別就可以簡要地計算出體重指數(shù)。該實例數(shù)據(jù)來自R軟件sn包中關于mle的例子，在R軟件中使用sn．mle命令得到估計參數(shù)，并對數(shù)據(jù)中心化處理（截距為11．689），處理后的數(shù)據(jù)（bmi）概率密度函數(shù)如圖1。

圖1 bmi概率密度函數(shù)擬合圖

經過處理后的數(shù)據(jù)由圖1可知，體重指數(shù)（bmi）近似服從偏正態(tài)分布，所以令其滿足下列模型：

經過計算得到完全數(shù)據(jù)下模型參數(shù)估計如下：

在不同缺失率下對數(shù)據(jù)隨機缺失后，利用本文提出的修正回歸插補等方法，計算得到模型參數(shù)估計如表5。

從表5可以看出：隨著缺失率的減小，修正回歸插補后的參數(shù)估計效果越來越好，本文提出的修正回歸插補方法的表現(xiàn)，是所有插補方法中總體表現(xiàn)最好的。

表5 體重指數(shù)（bmi）的參數(shù)極大似然估計結果表

七、結論

本文主要目的是研究響應變量Y存在偏斜和隨機缺失下線性回歸模型的參數(shù)估計問題，針對缺失偏態(tài)數(shù)據(jù)，為了克服樣本分布扭曲缺點，提高模型的回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果，提出了一種適合偏態(tài)數(shù)據(jù)下線性回歸模型中缺失數(shù)據(jù)的修正回歸插補方法。通過隨機模擬和實例研究，同均值插補、回歸插補、隨機回歸插補方法比較，結果表明所提出的修正回歸插補方法是有用可行的。

［1］ Cheng P E．Nonparametric Estimation of Mean Functionals With Data Missing at andom［J］．J．Amer．Statist Assoc，1994，89（425）．

［2］ Chu C K，Cheng P E．Nonparametric Regression Estimation With Missing Data［J］．Journal of Statist Planning Inference，1995（1）．

［3］ Wang Q H，Rao J N K．Emprical Likelihood for Liner Regression Modles Under Imputation for Missing Responses［J］．Scandinavain Journal of Statistics，2001（4）．

［4］閆莉，陳夏．缺失數(shù)據(jù)下廣義線性模型的經驗似然推斷［J］．統(tǒng)計與信息論壇，2013（2）．

［5］ Little R J A，Rubin D B．Statistical Analysis With Missing Data［M］．New York：John Wiley ＆ Sons Inc，1987．

［6］金勇進，邵軍．缺失數(shù)據(jù)的統(tǒng)計處理［M］．北京：中國統(tǒng)計出版社，2009．

［7］ Azzalini A．A Class of Distribution Which Include the Normal Ines［J］．Scandinavain Journal of Statistics，1985（2）．

［8］ Xie F C，Wei B C，Lin J G．Homogeneity Dignostatics for Skew－normal Nonlinear Regression Models［J］．Statistics and Probability Letters，2009（6）．

［9］韋博成．參數(shù)統(tǒng)計教程［M］．北京：高等教育出版社，2006．