• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      響應(yīng)傾向得分匹配插補法

      2018-08-15 12:44:02楊貴軍孫玲莉
      統(tǒng)計與信息論壇 2018年8期
      關(guān)鍵詞:重數(shù)補法均方

      楊貴軍,孫玲莉,李 璐

      (天津財經(jīng)大學 中國經(jīng)濟統(tǒng)計研究中心,天津300222)

      一、引 言

      在統(tǒng)計數(shù)據(jù)收集過程中,無回答總是不可避免。無回答直接影響數(shù)據(jù)分析結(jié)果的可靠性,一直是統(tǒng)計學、醫(yī)學、生物學等領(lǐng)域研究和應(yīng)用的熱點[1]15-17[2]161-210[3]24-40[4-6]。插 補 法 通 過 特 定 算 法或模型給出無回答的插補值,是處理無回答問題的常用方法之一[7]47-67[8]。根據(jù)插補值個數(shù),插補法可分為單重插補法和多重插補法。單重插補法僅給出無回答的一個插補值。多重插補法可以給出無回答的多個插補值,進而給出插補值的精度描述[1]。多重插補法的應(yīng)用更為廣泛。

      根據(jù)插補原理,常用多重插補法主要分為三類。第一類是選用與無回答距離小的回答單元進行插補。例如,最近鄰插補法依據(jù)回答單元與無回答單元之間的距離選擇無回答插補值,常用的距離是歐氏距離。

      傾向得分匹配插補法依據(jù)傾向得分的距離選擇無回答插補值[9-11]。第二類是利用變量相關(guān)性進行插補。例如,回歸插補法利用回答單元建立響應(yīng)變量與解釋變量之間的回歸模型,根據(jù)回歸模型得到無回答的插補值。Rubin最早提出線性回歸多重插補法,Little和Rubin、Stef van Buuren將其擴展得到貝葉斯線性回歸多重插補法、自助線性回歸多重插補法[1]74-81[3]24-40[12]57-63。預(yù)測 均 值 匹 配 多 重 插 補 法(PMM)也屬于回歸插補法[13-14][15]147-162。第三類是依據(jù)無回答的統(tǒng)計性質(zhì)進行插補,例如,DA多重插補法[16-17]、EM 多重插補法及 EMB 多重插補法等[4,18]。其中,第二類多重插補法能保證變量之間的一致相關(guān)性,但對數(shù)據(jù)異常值較為敏感。第三類插補法往往迭代次數(shù)多,計算成本大。相比較,第一類插補法依據(jù)數(shù)據(jù)之間距離定義,應(yīng)用領(lǐng)域更廣。本文主要關(guān)注第一類插補法中的傾向得分匹配插補法。

      傾向得分匹配插補法能處理實際經(jīng)濟問題中多種無回答情形。Paul和Rubin借助反事實提出傾向得分匹配(Propensity Score Matching),利用Logistic模型平衡處理組與控制組的傾向得分,有效地均衡解釋變量的分布[9]。若處理組和控制組不同個體之間的傾向得分相同或近似相等,則認為個體匹配。將傾向得分匹配法的思想用于無回答問題,稱為傾向得分匹配插補法。無回答單元視為處理組,回答單元視為控制組。若無回答單元與回答單元之間的傾向得分相同或相近,對應(yīng)的回答單元作為無回答單元的插補值。但傾向得分匹配插補法存在某些局限。一是傾向得分匹配插補法依賴于數(shù)據(jù)是否為無回答建立傾向得分模型。然而,實際問題中無回答往往是完全隨機無回答或隨機無回答。二是Logistic回歸模型對無回答和回答的樣本比例較為敏感。無回答的樣本量較少或與回答樣本量的差異大往往會導致Logistic回歸模型擬合程度低,顯著降低插補值的可信度。

      基于上述討論,利用傾向得分匹配插補法的思想,本文提出響應(yīng)傾向得分匹配插補法(Response Propensity Score Matching Imputation)。響應(yīng)傾向得分匹配插補法將回答單元的響應(yīng)變量值的秩變換作為響應(yīng)變量,與其他解釋變量構(gòu)建Logistic模型,作為響應(yīng)傾向得分模型。將無回答單元和回答單元的解釋變量帶入模型分別得到無回答單元和回答單元的響應(yīng)傾向得分。與無回答響應(yīng)傾向得分差值小的回答單元,稱為無回答單元的匹配,用于無回答的插補值。響應(yīng)傾向得分匹配插補法保留了傾向得分匹配插補法的優(yōu)良性,并且克服了無回答和回答的樣本量差異影響,有效改善模型的擬合效果,提高插補值的可信度。

      二、響應(yīng)傾向得分匹配插補法

      傾向得分匹配的思想最早是由 Paul和Rubin提出,用于解決因果推斷中的處理組與控制組的匹配問題[9]。個體是否接受處理為二分類變量,與解釋變量建立得分模型,依據(jù)傾向得分進行處理組和控制組的個體匹配。Little將傾向得分匹配思想應(yīng)用于無回答,引入了傾向得分匹配插補法(Propensity Score Matching Imputation)[10]?,F(xiàn)有文獻將無回答和回答分別視為處理組和控制組,按是否回答設(shè)定示性變量作為響應(yīng)變量,建立得分模型,若無回答單元與回答單元的得分相同或相近,認為無回答單元與回答單元匹配,用回答單元的響應(yīng)值作為無回答單元的插補值[11,19]。一方面,這類傾向得分匹配插補法是按個體是否為無回答單元設(shè)定示性變量,但這與實際問題并不相符,實際中無回答單元往往是完全隨機或隨機無回答。另一方面,傾向得分模型對無回答和回答的樣本量較為敏感。當無回答的樣本量較少或與回答樣本量的差異大,都會導致模型無法收斂,影響擬合模型的可信度和插補效果。

      本文引入響應(yīng)傾向得分匹配插補法?;舅枷胧菍⒒卮饐卧憫?yīng)變量觀測值依照從小到大的順序排列,計算個體的秩,對秩變換為0至1區(qū)間內(nèi)的數(shù)值,再與解釋變量建立響應(yīng)傾向得分模型。利用擬合的響應(yīng)傾向得分模型,分別計算無回答組和回答組的單元響應(yīng)傾向得分。考慮無回答組和回答組的響應(yīng)傾向得分,將與無回答單元響應(yīng)傾向得分差異小的回答單元作為無回答的匹配,對應(yīng)的響應(yīng)變量觀測值作為無回答的插補值。相比于傾向得分匹配插補法,響應(yīng)傾向得分匹配插補法的主要創(chuàng)新有兩點,一是對響應(yīng)變量觀測值進行秩變換,二是建立秩變換與解釋變量之間的傾向得分模型。引入秩變換是保證響應(yīng)變量觀測值的大小不發(fā)生錯序,并使得響應(yīng)變量觀測值變換在0至1區(qū)間,改進傾向得分模型擬合效果,便于無回答組與回答組的個體匹配。響應(yīng)傾向得分匹配插補法既不受無回答組和回答組的樣本量差異大小影響,又保留了傾向得分匹配法的優(yōu)良性。

      假定響應(yīng)變量為Y={Ymis,Yobs},Ymis表示無回答單元的響應(yīng)變量,Yobs表示回答單元的響應(yīng)變量。無回答的樣本量記為nmis,回答單元樣本量記為nobs,n=nmis+nobs為總樣本量。X={Xmis,Xobs} 表示 Y={Ymis,Yobs}對應(yīng)的解釋變量。假定解釋變量不存在無回答,僅響應(yīng)變量存在無回答?;卮饐卧獢?shù)據(jù)記為{X0,i,y0,i}(i=1,2,…,nobs),無回答單元數(shù)據(jù)記為{X1,j,y1,j}(j=1,2,…,nmis)。響應(yīng)傾向得分匹配插補法的具體步驟如下:

      建立響應(yīng)傾向得分模型。將回答單元響應(yīng)變量值 y0,i(i=1,2,…,nobs) 按從小到大的順序排列,記為 y0,1',y0,2',…,y0,n'obs,計算每個觀測值的秩,分別記為 R0,i(i=1,2,…,nobs)。對秩進行變換,即:

      利 用 h(X0,i) 與 解 釋 變 量 X0,i= (x0,i1,x0,i2,…,x0,ik)'(i=1,2,…,nobs) 建立響應(yīng)傾向得分模型。本文選擇Logistic回歸模型作為響應(yīng)傾向得分模型,將h(X0,i) 作 為 被 解 釋 變 量,X0,i= (x0,1,x0,2,…,x0,nobs)'作為解釋變量,建立如下模型:

      其中,β =(β1,β2,…,βk)'為模型系數(shù),其估計值為擬合響應(yīng)傾向得分模型為:

      插補步。將無回答單元的解釋變量 X1,j代入擬合模型(3),得到無回答單元的響應(yīng)傾向得分值(X1,j)(j=1,2,…,nmis)。計算無回答單元響應(yīng)傾向得分值與回答單元響應(yīng)傾向得分值的差值:

      在回答組中,選擇與無回答單元 j∈ {1,2,…,nmis}的響應(yīng)傾向得分差值小的回答單元i∈{1,2,…,nobs}進行匹配。對于無回答單元 j,與回答單元的響應(yīng)傾向得分差值滿足:

      取前m個對應(yīng)的回答單元響應(yīng)變量值作為無回答單元響應(yīng)值的m重插補值。

      響應(yīng)傾向得分匹配插補法保留了傾向得分匹配法的優(yōu)點。將多個解釋變量的相關(guān)信息轉(zhuǎn)化為一個響應(yīng)傾向得分值,簡化匹配過程。響應(yīng)傾向得分基于最近距離進行匹配,降低了高維數(shù)據(jù)處理的復雜度,更合理利用了回答組與無回答組的共同屬性,提高了計算效率。另外,響應(yīng)傾向得分匹配插補法保證無回答的隨機性,不需要增加回答組和無回答組樣本量平衡等假定條件。

      三、隨機模擬研究

      利用統(tǒng)計模擬方法,探討響應(yīng)傾向得分匹配插補法的統(tǒng)計性質(zhì)。Rubin將無回答機制分為完全隨機無回答機制(MACR)、隨機無回答機制(MAR)和非隨機無回答機制(MNAR)[3]24-40。在非隨機無回答機制下,常常不建議使用插補法。本文主要給出完全隨機無回答機制和隨機無回答機制下的模擬結(jié)果。無回答機制下的統(tǒng)計模擬細節(jié)請參考楊貴軍等的研究[4]。本文選擇的模型設(shè)定為:

      其中,β0=1,β1=10,β2=1,β3=1,β4=2,ε為服從標準正態(tài)分布的隨機誤差項。X1,X2分別服從正態(tài)分布 N(1,4) 和 N(10,4);X3,X4分別服從二項分布 B(1,0.4) 和 B(1,0.5)。從解釋變量 X1,X2,X3,X4的分布中隨機產(chǎn)生100個隨機數(shù),根據(jù)模型(6)計算響應(yīng)變量對應(yīng)的100個觀測值y1,y2,…,y100。這100個隨機樣本構(gòu)成樣本數(shù)據(jù)集。

      本文主要選擇了5%、10%、20% 共3種不同無回答率,4 種不同的插補重數(shù),分別為 5、10、20、40,無回答機制分別為完全隨機無回答機制和隨機無回答機制。分別在無回答率、無回答機制與插補重數(shù)等多種組合情況下,采用響應(yīng)傾向得分匹配插補法對無回答進行插補。在每種組合情況下,分別得到m組插補值,m組插補值與回答組數(shù)據(jù)合并為m組插補后的完整數(shù)據(jù)集。分別利用每組完整數(shù)據(jù)集,估計模型(6)的回歸系數(shù),得到m組回歸系數(shù)估計值,記為。對m組回歸系數(shù)分別取均值,即:3,4)作為模型(6)的系數(shù)估計值。

      重復上述過程200次,得到200組系數(shù)估計值,計算回歸系數(shù)估計的偏差和均方誤差作為插補法優(yōu)良性的評價指標。偏差是回歸系數(shù)估計值與真值之差的平均數(shù),均方誤差為回歸系數(shù)估計值與真值之差值平方的平均數(shù)。為了對比分析,這里也給出了采用基于歐式距離的最近鄰插補法、傾向得分匹配插補法和回歸插補法的模擬結(jié)果。結(jié)果顯示在完全隨機無回答機制下和隨機無回答機制下,無回答率為10%的模擬結(jié)果介于無回答率為5%和20%的模擬結(jié)果之間。后文中僅給出無回答率為5%和20%的具體結(jié)論。

      (一)完全隨機無回答機制下回歸系數(shù)估計量的偏差和均方誤差

      在完全隨機無回答機制下,分別使用響應(yīng)傾向得分匹配插補法、最近鄰插補法、傾向得分插補法以及回歸插補法分別對Y的無回答進行插補,并估計模型的回歸系數(shù)。本節(jié)的最近鄰插補法選用的是歐式距離。在插補重數(shù)、插補法和無回答率的組合下的回歸系數(shù)估計偏差和均方誤差見表1和表2。表1、表2依次對應(yīng)無回答率5%、20% 的模擬結(jié)果。在表1和表2中,A、B、C、D依次表示響應(yīng)傾向得分匹配插補法、最近鄰插補法、傾向得分匹配插補法以及回歸插補法。每行對應(yīng)的插補重數(shù)相同。第3~7列依次給出了回歸系數(shù)估計的偏差,第8~12列依次給出了回歸系數(shù)估計值的均方誤差。如表1中第1行數(shù)值0.074、-0.023、-0.005、- 0.052、0.030依次為響應(yīng)傾向得分匹配插補法且插補重數(shù)為5的的偏差,0.251、0.008、0.002、0.113、0.092依次為響應(yīng)傾向得分匹配插補法且插補重數(shù)為5的的均方誤差。

      表1顯示,插補重數(shù)對回歸系數(shù)估計的偏差和均方誤差都有影響。隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法的回歸系數(shù)估計偏差絕對值和均方誤差都有增加趨勢,其中常數(shù)項估計的偏差絕對值和均方誤差增加幅度大,其他系數(shù)的偏差絕對值和均方誤差增加幅度小。最近鄰插補法的回歸系數(shù)估計量的偏差絕對值和均方誤差隨著插補重數(shù)增加也呈現(xiàn)遞增趨勢,增加幅度明顯大于基于響應(yīng)傾向得分匹配插補法的結(jié)果。傾向得分匹配插補法的回歸系數(shù)估計量的偏差絕對值和均方誤差隨著插補重數(shù)增加并沒有呈現(xiàn)明顯的遞增趨勢的偏差絕對值和的均方誤差隨著插補重數(shù)增加甚至呈現(xiàn)遞減趨勢。回歸插補法得到的回歸系數(shù)估計的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)略微遞減趨勢。

      表1 完全隨機無回答機制下無回答率為5%的模擬結(jié)果

      表2 完全隨機無回答機制下無回答率為20%的模擬結(jié)果

      表1顯示,不同插補法對系數(shù)估計量的偏差和均方誤差的影響不同。相比較而言,響應(yīng)傾向得分匹配插補法最優(yōu),相應(yīng)的系數(shù)估計量的偏差絕對值和均方誤差都較小。最近鄰插補法的回歸系數(shù)估計的偏差絕對值和均方誤差也較小,但略大于響應(yīng)傾向得分匹配插補法的結(jié)果。傾向得分匹配插補法和回歸插補法的偏差絕對值和均方誤差明顯大于前兩種方法。

      表2給出了完全隨機無回答機制下無回答率為20%的模擬結(jié)果。表2顯示,插補重數(shù)對回歸系數(shù)估計的偏差和均方誤差都有影響。隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法和最近鄰插補法偏差絕對值和均方誤差呈現(xiàn)遞增趨勢,其中增加幅度小的是響應(yīng)傾向得分匹配插補法。傾向得分匹配插補法和回歸插補法的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)遞減趨勢,回歸系數(shù)估計的均方誤差要大于前兩種插補法。表2顯示,響應(yīng)傾向得分匹配插補法系數(shù)估計的偏差絕對值和均方誤差都相對較小,小于其他插補法。對比表1和表2可知,隨著無回答率增加,采用四種插補法得到回歸系數(shù)估計的偏差絕對值以及均方誤差也往往增加。

      在完全隨機無回答機制下,響應(yīng)傾向得分匹配插補法的回歸系數(shù)估計的偏差絕對值和均方誤差,隨著插補重數(shù)增加呈現(xiàn)遞增趨勢,也隨著無回答率增加而呈現(xiàn)遞增趨勢。

      (二)隨機無回答機制下回歸系數(shù)估計量的偏差和均方誤差

      隨機無回答機制的設(shè)定與解釋變量有關(guān),考慮分別依賴于連續(xù)變量X1,X2與離散變量X3,X4的隨機無回答機制。變量X1,X2模擬結(jié)果規(guī)律相似,變量X3,X4的模擬結(jié)果規(guī)律相似,本節(jié)只給出依賴連續(xù)變量X1與離散變量X3的模擬結(jié)果。

      1.依賴連續(xù)變量X1的隨機無回答機制。表3和表4分別表示無回答率為5%、20% 時依賴連續(xù)變量X1的隨機無回答機制下的模擬結(jié)果,結(jié)構(gòu)同表1。

      表3 依賴連續(xù)變量X1隨機無回答機制下無回答率為5%的模擬結(jié)果

      表4 依賴連續(xù)變量X1隨機無回答機制下無回答率為20%的模擬結(jié)果

      表3顯示,在依賴連續(xù)變量X1的隨機無回答機制下,插補重數(shù)對回歸系數(shù)估計量的偏差和均方誤差都有影響。隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法回歸系數(shù)估計偏差絕對值和均方誤差都有增加趨勢,常數(shù)項估計的偏差絕對值和均方誤差增加幅度大,其他系數(shù)的偏差絕對值和均方誤差增加幅度小。最近鄰插補法的回歸系數(shù)估計量的偏差絕對值和均方誤差隨著插補重數(shù)增加也呈現(xiàn)遞增趨勢,增加幅度明顯大于基于響應(yīng)傾向得分匹配插補法的結(jié)果。傾向得分匹配插補法的回歸系數(shù)估計量均方誤差隨著插補重數(shù)增加呈現(xiàn)遞增趨勢,^β2、^β4的偏差絕對值隨著插補重數(shù)增加甚至呈現(xiàn)遞減趨勢?;貧w插補法的回歸系數(shù)估計的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)略微遞減趨勢。

      表3顯示,在依賴連續(xù)變量X1的隨機無回答機制下,不同插補法對系數(shù)估計量的偏差和均方誤差的影響不同。相比較而言,響應(yīng)傾向得分匹配插補法最優(yōu),相應(yīng)的系數(shù)估計量的偏差絕對值和均方誤差都較小。最近鄰插補法的回歸系數(shù)估計的偏差絕對值和均方誤差也較小,但略大于響應(yīng)傾向得分匹配插補法的結(jié)果。傾向得分匹配插補法和回歸插補法的偏差絕對值和均方誤差明顯大于前兩種方法。在幾種插補法下,相對于其他回歸系數(shù),^β2的偏差絕對值和均方誤差都最小,偏差絕對值小于0.05,均方誤差都小于0.3。

      表4為依賴連續(xù)變量X1隨機無回答機制下無回答率為20%的模擬結(jié)果。表4顯示,隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法、最近鄰插補法、傾向得分插補法的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)遞增趨勢,其中增加幅度小的是響應(yīng)傾向得分匹配插補法?;貧w插補法的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)略微遞減趨勢,回歸系數(shù)估計的均方誤差要大于前三種插補法。表4顯示,響應(yīng)傾向得分匹配插補法系數(shù)估計的偏差絕對值和均方誤差都相對較小,小于其他插補法。對比表3、表4可知,隨著無回答率增加,采用四種插補法得到的回歸系數(shù)估計的偏差絕對值和均方誤差遞增趨勢顯著。

      對比完全隨機無回答機制下的模擬結(jié)果,依賴連續(xù)變量X1隨機無回答機制下,采用四種插補法得到的回歸系數(shù)估計的偏差絕對值和均方誤差的普遍大于完全隨機無回答機制下的偏差絕對值和均方誤差。

      2.依賴離散變量X3的隨機無回答機制。變量X3為一個二分類變量,參考Jonathan Kropko等人的研究成果中對分類變量的隨機缺失機制模擬的方法[20]。首先利用Logistic函數(shù)將二分類變量轉(zhuǎn)換為概率 π,對于每個 x3,i都有一個對應(yīng)的概率 πi,再減去U(0,1)中的一個隨機數(shù)di,得到了100個觀察變量= πi- di(i=1,2,…,100)。依據(jù)無回答率確定變量的分位數(shù),將小于該分位數(shù)的觀測 yi,x1i,x2i,x3i,x4i中yi設(shè)定為無回答。利用插補法對Y的無回答進行多重插補,再估計模型的回歸系數(shù)。表5、表6分別表示無回答率為5%、20%時依賴離散變量X3的隨機無回答機制下的模擬結(jié)果,結(jié)構(gòu)同表1。

      表5 依賴離散變量X3隨機無回答機制下無回答率為5%的模擬結(jié)果

      根據(jù)表5可知,在依賴離散變量X3的隨機無回答機制下,插補重數(shù)對回歸系數(shù)估計量的偏差和均方誤差有影響。隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法、最近鄰插補法、傾向得分匹配插補法的回歸系數(shù)估計偏差絕對值和均方誤差都有增加趨勢。最近鄰插補法的回歸系數(shù)估計量的偏差絕對值和均方誤差的遞增幅度明顯大于基于響應(yīng)傾向得分匹配插補法和傾向得分匹配插補法的結(jié)果。回歸插補法得到回歸系數(shù)估計的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)略微遞減趨勢。

      表5顯示,在依賴離散變量X3的隨機無回答機制下,不同插補法對回歸系數(shù)估計量的偏差和均方誤差影響不同。響應(yīng)傾向得分匹配插補法效果最優(yōu),其對應(yīng)回歸系數(shù)估計量偏差絕對值和均方誤差明顯小于最近鄰插補法、傾向得分匹配插補法和回歸插補法的結(jié)果。傾向得分匹配插補法的偏差絕對值和均方誤差小于最近鄰插補法和回歸插補法的結(jié)果。

      表6為在依賴離散變量X3的隨機無回答機制下無回答率為20%的模擬結(jié)果。表6顯示,隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法、最近鄰插補法、傾向得分插補法的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)遞增趨勢,其中增加幅度小的是響應(yīng)傾向得分匹配插補法?;貧w插補法的偏差絕對值和均方誤差隨著插補重數(shù)增加呈現(xiàn)略微遞減趨勢,回歸系數(shù)估計的均方誤差要大于前三種插補法。表6顯示,響應(yīng)傾向得分匹配插補法的系數(shù)估計的偏差絕對值和均方誤差都相對較小,小于其他插補法。對比表5、表6可知,隨著無回答率增加,采用四種插補法得到的回歸系數(shù)估計的偏差絕對值和均方誤差遞增趨勢顯著。

      表6 依賴離散變量X3隨機無回答機制下無回答率為20%的模擬結(jié)果

      對比完全隨機無回答機制下和依賴連續(xù)變量X1的模擬結(jié)果,依賴離散變量X3隨機無回答機制下,采用四種插補法得到的回歸系數(shù)估計的偏差絕對值和均方誤差普遍大于完全隨機無回答機制下的偏差絕對值和均方誤差,但小于依賴連續(xù)變量X1隨機無回答機制下偏差絕對值和均方誤差。

      綜上所述,在完全隨機無回答機制下和隨機無回答機制下,響應(yīng)傾向得分匹配插補法的插補效果明顯優(yōu)于最近鄰插補法、傾向得分匹配插補法和回歸插補法。隨著插補重數(shù)增加,響應(yīng)傾向得分匹配插補法的偏差絕對值和均方誤差呈遞增趨勢。在實際使用響應(yīng)傾向得分匹配插補法時,插補重數(shù)選擇不宜過大,建議插補重數(shù)選擇為5。

      四、實證分析

      本研究使用響應(yīng)傾向得分匹配插補法分析Sparrows數(shù)據(jù)集[21]29-31①數(shù)據(jù)下載網(wǎng)址:http://highstat.com/index.php/a-beginner-s-guide-to-r。Sparrows數(shù)據(jù)集有 979 個樣本觀測值。本文選擇6個變量分別是:Wingcrd(羽翼長度)、Sex(性別)、Tarsus(脛骨長度)、Head(頭的尺寸)、Culmen(上嘴長度)、Wt(重量)。其中,性別中雌性表示為1,雄性表示為0。以Wingcrd為響應(yīng)變量,其余變量為解釋變量。為了描述羽翼長度,建立如下的線性模型:

      利用Sparrows數(shù)據(jù)集的數(shù)據(jù)擬合模型(7),估計結(jié)果如表7第2、3行所示。表7的列分別對應(yīng)模型系數(shù),第2、3行分別表示系數(shù)估計值及其方差估計。在顯著性水平0.005下,所有的系數(shù)估計都是顯著的。模型整體擬合效果較好,R2=0.634。其中,系數(shù)α1的估計值2.206為正,說明雌性麻雀要比雄性麻雀的羽翼更長。α2和 α3的估計值為正,不超過0.3,說明麻雀的脛骨越長,頭部越大,其羽翼更長。α4和 α5估計值為正,接近 0.4,說明麻雀的上嘴越長,重量越大,其羽翼更長。模型(7)的參數(shù)估計合理。

      表7 Sparrows數(shù)據(jù)集的估計結(jié)果

      針對Sparrows數(shù)據(jù)集,構(gòu)造無回答,無回答率為5%(49/979≈0.05)。在完全隨機無回答機制和隨機無回答機制下,構(gòu)造49個觀測的響應(yīng)變量Wingcrd為無回答。使用響應(yīng)傾向得分匹配插補法,選擇插補重數(shù) m=5,依次得到參數(shù) αk(k=0,1,…,5)的5個估計值,取5個估計值的平均數(shù)作為參數(shù)αk的估計值。插補后估計量的方差計算采用Rubin(1987)的公式:

      在完全隨機無回答機制下,采用響應(yīng)傾向得分匹配插補法的估計結(jié)果如表7第4和5行所示。其中,第4行是回歸系數(shù) αk(k=0,1,2,…,5) 的200個估計值的平均數(shù),第5行是200個方差估計的平均數(shù)。首先,從參數(shù)估計值角度。表7顯示,采用響應(yīng)傾向得分匹配插補法的估計值平均數(shù),與利用全部數(shù)據(jù)的參數(shù)估計值的差異小。相比較,最大的是常數(shù)項α0的估計值差值,為 0.082。對于參數(shù) α3,兩者差異為 0.005,對于參數(shù) α1、α2、α4和 α5,兩者差值小于等于 0.002。其次,從參數(shù)方差估計角度。在表7中,采用響應(yīng)傾向得分匹配插補法的方差估計平均數(shù)略大于利用全部數(shù)據(jù)的參數(shù)方差估計,兩者差異小。其中常數(shù)項α0的兩者差異最大,為0.820。對于其他參數(shù),兩者差值不超過0.002。在完全隨機無回答機制下,采用響應(yīng)傾向得分匹配插補法,能夠得到較好的模型系數(shù)。

      在隨機無回答機制下,分別考慮了無回答依賴于變量 Sex、Tarsus、Head、Culmen、Wt的情況。采用響應(yīng)傾向得分匹配插補法的估計結(jié)果如表7第6至15行所示。在依賴于每個變量的估計結(jié)果中,第1行是回歸系數(shù) αk(k=0,1,2,…,5) 的200個估計值的平均數(shù),第2行是200個方差估計的平均數(shù)。類似,先觀察參數(shù)估計值。表7顯示,采用響應(yīng)傾向得分匹配插補法的估計值平均數(shù),與利用全部數(shù)據(jù)的參數(shù)估計值的差異小。相比較,常數(shù)項α0的估計值差值最大。其中,依賴變量 Head的估計值差值為1.719,依賴其他變量的常數(shù)項的估計值差值均小于0.2。對于參數(shù) α3和 α4,不超過 0.095。對于參數(shù) α1、α2和α5,兩者差異更小,不超過 0.05。再觀察參數(shù)方差估計。在表7中,采用響應(yīng)傾向得分匹配插補法的方差估計平均數(shù)略大于利用全部數(shù)據(jù)的參數(shù)方差估計,兩者差值小。其中,對于常數(shù)項α0,兩者差異最大,不超過0.7。對于其他參數(shù),兩者差值不超過0.002。在隨機無回答機制下,采用響應(yīng)傾向得分匹配插補法,能夠較好估計模型系數(shù)。

      五、結(jié) 論

      在數(shù)據(jù)收集過程中,不可避免存在無回答。多重插補法是用于處理無回答的主要方法之一。本文引入了響應(yīng)傾向得分匹配插補法。將回答單元響應(yīng)變量觀測值的秩進行變換,建立響應(yīng)傾向得分模型。依據(jù)響應(yīng)傾向得分模型分別得到回答單元和無回答單元的響應(yīng)傾向得分,匹配無回答單元和回答單元的響應(yīng)傾向得分確定無回答的插補值。響應(yīng)傾向得分匹配插補法對無回答和回答單元的樣本量差異大小無要求。相比于傾向得分匹配插補法,有效改善了模型擬合效果,提高插補的可靠性。

      模擬結(jié)果顯示,在完全隨機無回答機制和隨機無回答機制下,響應(yīng)傾向得分匹配插補法優(yōu)于最近鄰插補法、傾向得分匹配插補法和回歸插補法。在相同的無回答機制下,隨著插補重數(shù)增加或隨著無回答率增加,采用響應(yīng)傾向得分匹配插補法的回歸模型系數(shù)估計的偏差絕對值和均方誤差呈遞增趨勢。利用Sparrows完整數(shù)據(jù)集的分析結(jié)果顯示,在完全隨機無回答機制和隨機無回答機制下,使用響應(yīng)傾向得分匹配插補法的回歸系數(shù)估計值與使用完整數(shù)據(jù)集得到的估計值和方差估計的差異都較小。在實際應(yīng)用響應(yīng)傾向得分匹配插補法時,插補重數(shù)選擇不宜過大,建議插補重數(shù)選擇為5。

      猜你喜歡
      重數(shù)補法均方
      一類隨機積分微分方程的均方漸近概周期解
      C3型李代數(shù)的張量積分解
      微分在代數(shù)證明中的兩個應(yīng)用
      基于絡(luò)病理論探討絡(luò)虛通補法在氣虛血瘀型椎動脈型頸椎病中的應(yīng)用
      A3型李代數(shù)的張量積分解
      基于少數(shù)類過采樣的傾向得分匹配插補法
      Beidou, le système de navigation par satellite compatible et interopérable
      以較低截斷重數(shù)分擔超平面的亞純映射的唯一性問題
      農(nóng)膜修補小竅門
      基于抗差最小均方估計的輸電線路參數(shù)辨識
      江口县| 将乐县| 海盐县| 镇赉县| 泗阳县| 马边| 赣榆县| 玛曲县| 仁化县| 佛学| 景德镇市| 临泽县| 安阳县| 榆中县| 启东市| 余干县| 宜兰县| 昂仁县| 孟州市| 枣庄市| 桂平市| 乐都县| 长兴县| 贵州省| 班玛县| 固安县| 洪湖市| 武穴市| 浏阳市| 桂林市| 安福县| 修武县| 华安县| 肥乡县| 台中市| 阿合奇县| 文化| 托克逊县| 拉萨市| 兰考县| 开原市|