• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷

      2013-09-05 02:10:18吳劉倉張家茂邱貽濤
      統(tǒng)計與信息論壇 2013年9期
      關鍵詞:偏態(tài)偏度樣本量

      吳劉倉,張家茂,邱貽濤

      (昆明理工大學 理學院,云南 昆明 650093)

      一、引 言

      在金融和經濟等領域,經常收集到的數(shù)據(jù)不是嚴格地服從正態(tài)分布,而是服從偏正態(tài)分布,因為偏態(tài)分布能夠較好地刻畫出數(shù)據(jù)的非對稱性和偏斜程度。一方面,偏態(tài)數(shù)據(jù)是正態(tài)數(shù)據(jù)的進一步推廣,是非常常見的一種統(tǒng)計數(shù)據(jù);另一方面,在現(xiàn)實數(shù)據(jù)的采集過程中,很多抽樣調查數(shù)據(jù)和實驗數(shù)據(jù)都會受到無回答的干擾,或者是因為某種原因而丟失。因此,對缺失偏態(tài)數(shù)據(jù)的統(tǒng)計分析具有重要的理論和實際意義,筆者旨在研究缺失偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的估計問題。

      目前,缺失對稱數(shù)據(jù)下回歸模型研究已得到了廣泛關注,Cheng、Chu等人研究了缺失數(shù)據(jù)下回歸模型中非參數(shù)估計[1-2];Wang等人采用回歸插補方法,研究了線性回歸模型中響應變量均值的估計[3];閆莉等人討論了缺失數(shù)據(jù)下廣義線性模型中參數(shù)置信域問題[4];Little、金勇進等人對缺失數(shù)據(jù)做了詳細的介紹,并總結了缺失數(shù)據(jù)的處理方法[5]59-72[6]60-75;Azzalini對偏正 態(tài)分布 做了大量 研究,并應用此模型分析了一組運動數(shù)據(jù)[7];Xie等人研究了偏態(tài)數(shù)據(jù)下回歸模型中偏度和尺度參數(shù)的齊次性檢驗[8],而對缺失偏態(tài)數(shù)據(jù)下回歸模型的研究甚少。

      二、偏態(tài)數(shù)據(jù)下線性回歸模型

      (一)偏正態(tài)分布

      偏正態(tài)分布實際是一種廣義的正態(tài)分布,一個隨機變量Y服從位置參數(shù)μ、尺度參數(shù)σ2和偏度參數(shù)λ的偏正態(tài)分布,記為y~SN(μ,σ2,λ),其密度函數(shù)為:

      其中φ(·)、Φ(·)分別是標準正態(tài)分布的概率密度函數(shù)和分布函數(shù),這種分布的非對稱范圍是(-0.995,0.995)。當λ<0時,該分布有負的偏斜;當λ>0時,該分布有正的偏斜;當λ=0時,這個概率密度函數(shù)就是正態(tài)分布的概率密度函數(shù)。

      (二)缺失偏態(tài)數(shù)據(jù)下線性回歸模型

      偏態(tài)數(shù)據(jù)下線性回歸模型定義如下:

      其中xi= (xi1,…,xip)T是可以觀測的協(xié)變量,β=(β1,…,βp)Τ是p×1維未知的線性回歸系數(shù),λ是響應變量yi的偏度參數(shù)。設xi可全部觀測到,yi有缺失,δi為指示yi缺失的變量,即:

      假定yi滿足隨機缺失機制(MAR),即:

      其中p(x)表示給定x下y被觀測到的概率。

      三、完全數(shù)據(jù)下參數(shù)的極大似然估計

      假設樣本(xi,yi),i=1,2,…,n來自模型(2)且獨立同分布,由式(1)可得對數(shù)極大似然函數(shù)為:

      通常的數(shù)值計算大多需要使用迭代算法,以下介紹極大似然估計的常用迭代法。事實上,這也就是非線性規(guī)劃中求解函數(shù)最大值(最小值)最典型的基本算法,即Gauss-Newton迭代法。

      (一)Gauss-Newton迭代法[9]113-114

      設X~f(x,θ),L(θ)=logf(x,θ),θ∈Θ,則極大似然估計=(X)滿足以下必要條件:

      在某點θ0處展開可得:

      因此可視θ0為初值,設計以下迭代公式:

      其中D(θ)=[-L″(θ)]-1[L′(θ)],直到‖θi+1-θi‖≤ε,ε為預定的充分小的正數(shù),如ε=10-8等,則取θi+1作為極大似然估計的近似值。

      (二)極大似然估計的迭代算法

      Step1 給定迭代的參數(shù)初值:θ0=(,,λ0)T。

      Step2 給定當前值:θi=(βTi,σ2i,λi)T,迭代θi+1=θi+[-L″(θi)]-1[L′(θi)]。

      Step3重復Step2直到迭代收斂。

      四、缺失數(shù)據(jù)下參數(shù)的極大似然估計

      插補方法是處理缺失數(shù)據(jù)的一類常用的技術方法,是指給每一個缺失數(shù)據(jù)一些替代值,從而得到完整數(shù)據(jù)集;然后使用標準的完全數(shù)據(jù)統(tǒng)計方法進行數(shù)據(jù)分析和推斷。本文在缺失偏態(tài)數(shù)據(jù)下線性回歸模型中,采用不同的插補方法對缺失數(shù)據(jù)進行插補,得到完整數(shù)據(jù)集;再使用完全數(shù)據(jù)下參數(shù)的極大似然估計對參數(shù)進行估計。具體插補方法如下:

      (一)均值插補(EI)

      均值插補法是指對所有缺失值,用所有觀測值的均值進行插補。假定可以觀測到y(tǒng)1,…,yn1,而yn1+1,…,yn缺失,即插補值yj為:

      得到完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,估計出參數(shù)。

      均值插補的特點是操作簡便,并且對均值這樣的簡單變量可以有效地降低其點估計的偏差,但是由于其缺失值都由均值來充當,因而扭曲了變量的樣本分布,于是均值插補并不適用于偏態(tài)線性回歸模型中回歸系數(shù)、尺度、偏度的參數(shù)估計。

      (二)回歸插補(RI)

      回歸插補法是根據(jù)目標變量Y和輔助變量X之間的相互關系建立回歸模型,然后利用已知的輔助變量信息和回歸模型,對目標變量的缺失數(shù)據(jù)進行插補的方法。在樣本中,如果變量Y和變量X之間存在高度相關,可以利用已知數(shù)據(jù)擬合回歸預測模型,計算出回歸替代值,插補出缺失數(shù)據(jù)。

      對于yi~SN(μi,σ2,λ),給定x條件下y的密度函數(shù)為fθ(y|x),其中θ=(βT,σ2,λ)T。假定可以觀測到y(tǒng)1,…,yn1,而yn1+1,…,yn缺失,可以利用觀測值(x1,y1),…,(xn1,yn1),并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法,對參數(shù)θ進行估計,從而得到。這樣就可以對缺失值yj(j=n1+1,…,n)依照下式進行獨立的參數(shù)隨機插補:

      然后得到插補后的完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,得到參數(shù)估計值。

      在偏態(tài)數(shù)據(jù)下線性回歸模型中,由于變量Y和變量X之間存在高度相關,應用回歸插補時,對回歸系數(shù)的參數(shù)估計將會有十分好的效果,但是對于相同的xi(i=1,2,…,n),得到的插補值是相同的,這樣就和均值插補一樣,存在樣本分布扭曲問題,將會造成偏態(tài)數(shù)據(jù)下線性回歸模型中尺度、偏度參數(shù)估計的不良效果。為了克服這個缺點,本文在回歸插補方法(RI)的基礎上,針對缺失偏態(tài)數(shù)據(jù)線性回歸模型(2),提出一種新的迭代插補方法,稱之為修正回歸插補(CRI)方法,具體做法如下:

      第一步,利用觀測值(x1,y1),…,(xn1,yn1),并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法,對參數(shù)θ進行估計,從而得到。

      第二步,依次對第j個缺失值yj(j=n1+1,…,n),依照式(5)進行獨立的參數(shù)隨機插補。

      第三步,將插補值當作觀測值,得到j組觀測值,重復第一步,估計出新的參數(shù)槇θ;重復第二步,插補出新的缺失值,直到所有缺失值插補完成,即j=n的時候 ,將得到參數(shù)的最終估計。

      通過依次插補缺失值,迭代回歸插補的方法克服了樣本分布扭曲的問題,并改善了尺度參數(shù)和偏度參數(shù)的估計效果。

      (三)隨機回歸插補(RRI)

      隨機回歸插補是在回歸插補的基礎上所作的改進,也因考慮到經過回歸后缺失值yj的估計為yj=對于相同的x(i=1,2,…,n),得到的插補值是i相同的,也存在樣本分布扭曲的問題。隨機回歸插補對缺失值yj(j=n1+1,…,n)依照下式進行獨立的參數(shù)隨機插補:得到完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,估計出參數(shù)。通過隨機地插補缺失值,克服了樣本分布扭曲的缺點,提高了尺度、偏度參數(shù)的估計效果。

      五、Monte Carlo模擬

      (一)完全數(shù)據(jù)下的參數(shù)估計模擬研究

      yi,i=1,2,…,n產生于模型(2),是相互獨立的隨機變 量;協(xié) 變 量xi~U(-1,1),取 真 值β=(-2,3,4)T,σ2=0.5;在λ=-0.5、λ=0、λ=0.5,而且樣本量為100、200、300時,模擬1 000次,模擬結果見表1。

      表1 完全數(shù)據(jù)下偏態(tài)線性回歸模型參數(shù)極大似然估計結果表

      從表1模擬結果知:隨著樣本量的增加,在不同偏度下,完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計的均方誤差(MSE)越來越小,估計值越來越接近真值,說明本文的完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計效果是良好的,并且不依賴于偏度,適用于各種偏度情況下的參數(shù)估計。

      (二)缺失數(shù)據(jù)下的參數(shù)估計模擬研究

      yi,i=1,2,…,n產生于模型(2),是相互獨立的隨機變量,協(xié)變量xi~U(-1,1),取真值β=(2,3,-1)T,σ2=0.5,λ=0.5;對Y分別隨機缺失5%,10%和30%數(shù)據(jù)后,在插補方法為均值插補(EI)、回歸插補(RI)、隨機回歸插補(RRI)、修正回歸插補(CRI),而且樣本量n為100,200,300時,模擬1 000次,其中樣本量為100時模擬結果見表2;樣本量為300時模擬結果見表3;修正回歸插補方法估計結果見表4。

      情形1 樣本量n=100,各種插補方法在不同缺失率下,參數(shù)的估計結果比較。

      表2 樣本量n=100時各種插補方法結果比較表

      情形2 樣本量n=300,各種插補方法在不同缺失率下,參數(shù)的估計結果比較。

      表3 樣本量n=300時各種插補方法結果比較表

      從表2表3可以得出以下結論:

      1.均值插補后的極大似然參數(shù)估計隨著缺失率增大,估計值離真值越來越遠,均方誤差(MSE)越來越大,可見均值插補效果十分差,只適用于缺失率較低情況。

      2.回歸插補后的極大似然參數(shù)估計對于回歸系數(shù)估計效果十分好,這與變量Y和輔助變量X之間具有很高的相關性有關,但隨著缺失率的增加,尺度參數(shù)估計值和偏度參數(shù)估計值離真值越來越遠,均方誤差(MSE)逐漸增大,參數(shù)估計效果比較差。

      3.對比回歸插補,經過隨機回歸插補后的尺度和偏度參數(shù)估計,效果有了明顯地改善。

      4.經過修正回歸插補后參數(shù)的極大似然參數(shù)估計,對回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果十分好,而且隨著缺失率的增加,對所有參數(shù)的估計都比較穩(wěn)定。參數(shù)估計效果比隨機回歸插補后更好,是所有插補方法中參數(shù)估計總體效果最佳的,十分適合偏態(tài)數(shù)據(jù)下線性回歸模型的參數(shù)估計。尤其是隨著缺失率和樣本量的增加,以上現(xiàn)象表現(xiàn)得更加明顯,這充分說明了筆者提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計,是十分有效的。

      情形3 不同樣本量和不同缺失率下,修正回歸插補方法估計結果。

      從表4可以看出:隨著缺失率的減小,修正回歸插補后的參數(shù)估計效果越來越好,符合數(shù)據(jù)缺失下參數(shù)估計的基本規(guī)律;隨著樣本量的增加,修正回歸插補后的參數(shù)估計效果越來越好,進一步說明了提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計是很好的。

      表4 不同樣本量和不同缺失率下修正回歸插補方法估計結果表

      六、實例分析

      體重指數(shù)(bmi,Y)是與體內脂肪總量密切相關的指標,為了簡單,考慮體重(x1)和性別(x2)兩個因素,當?shù)弥粋€人的體重和性別就可以簡要地計算出體重指數(shù)。該實例數(shù)據(jù)來自R軟件sn包中關于mle的例子,在R軟件中使用sn.mle命令得到估計參數(shù),并對數(shù)據(jù)中心化處理(截距為11.689),處理后的數(shù)據(jù)(bmi)概率密度函數(shù)如圖1。

      圖1 bmi概率密度函數(shù)擬合圖

      經過處理后的數(shù)據(jù)由圖1可知,體重指數(shù)(bmi)近似服從偏正態(tài)分布,所以令其滿足下列模型:

      經過計算得到完全數(shù)據(jù)下模型參數(shù)估計如下:

      在不同缺失率下對數(shù)據(jù)隨機缺失后,利用本文提出的修正回歸插補等方法,計算得到模型參數(shù)估計如表5。

      從表5可以看出:隨著缺失率的減小,修正回歸插補后的參數(shù)估計效果越來越好,本文提出的修正回歸插補方法的表現(xiàn),是所有插補方法中總體表現(xiàn)最好的。

      表5 體重指數(shù)(bmi)的參數(shù)極大似然估計結果表

      七、結 論

      本文主要目的是研究響應變量Y存在偏斜和隨機缺失下線性回歸模型的參數(shù)估計問題,針對缺失偏態(tài)數(shù)據(jù),為了克服樣本分布扭曲缺點,提高模型的回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果,提出了一種適合偏態(tài)數(shù)據(jù)下線性回歸模型中缺失數(shù)據(jù)的修正回歸插補方法。通過隨機模擬和實例研究,同均值插補、回歸插補、隨機回歸插補方法比較,結果表明所提出的修正回歸插補方法是有用可行的。

      [1] Cheng P E.Nonparametric Estimation of Mean Functionals With Data Missing at andom[J].J.Amer.Statist Assoc,1994,89(425).

      [2] Chu C K,Cheng P E.Nonparametric Regression Estimation With Missing Data[J].Journal of Statist Planning Inference,1995(1).

      [3] Wang Q H,Rao J N K.Emprical Likelihood for Liner Regression Modles Under Imputation for Missing Responses[J].Scandinavain Journal of Statistics,2001(4).

      [4] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性模型的經驗似然推斷[J].統(tǒng)計與信息論壇,2013(2).

      [5] Little R J A,Rubin D B.Statistical Analysis With Missing Data[M].New York:John Wiley & Sons Inc,1987.

      [6] 金勇進,邵軍.缺失數(shù)據(jù)的統(tǒng)計處理[M].北京:中國統(tǒng)計出版社,2009.

      [7] Azzalini A.A Class of Distribution Which Include the Normal Ines[J].Scandinavain Journal of Statistics,1985(2).

      [8] Xie F C,Wei B C,Lin J G.Homogeneity Dignostatics for Skew-normal Nonlinear Regression Models[J].Statistics and Probability Letters,2009(6).

      [9] 韋博成.參數(shù)統(tǒng)計教程[M].北京:高等教育出版社,2006.

      猜你喜歡
      偏態(tài)偏度樣本量
      醫(yī)學研究中樣本量的選擇
      對稱分布的矩刻畫
      考試成績轉換成偏態(tài)分布量化成績的算法
      航空裝備測試性試驗樣本量確定方法
      測控技術(2018年4期)2018-11-25 09:46:52
      隧穿量子點分子的Wigner-Yanase偏態(tài)信息
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      基于偏度的滾動軸承聲信號故障分析方法
      考慮偏度特征的動態(tài)多響應穩(wěn)健參數(shù)設計與優(yōu)化
      基于偏度、峰度特征的BPSK信號盲處理結果可信性評估
      電子器件(2015年5期)2015-12-29 08:42:56
      雙模壓縮真空態(tài)光場作用下耦合雙原子的Wigner-Yanase偏態(tài)信息
      开远市| 普格县| 通州市| 天气| 巴林左旗| 景德镇市| 兴安县| 安阳县| 天等县| 惠水县| 新晃| 临沧市| 原平市| 绥中县| 兰溪市| 建湖县| 崇仁县| 正镶白旗| 墨玉县| 苍山县| 长阳| 厦门市| 灵丘县| 连江县| 大田县| 固镇县| 铅山县| 大宁县| 原阳县| 德兴市| 泗洪县| 江陵县| 同德县| 晋州市| 孝感市| 海兴县| 临猗县| 商洛市| 新昌县| 鄢陵县| 盐源县|