• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      響應(yīng)傾向得分匹配法及處理效應(yīng)估計(jì)

      2021-04-23 07:24:10孫玲莉楊貴軍
      統(tǒng)計(jì)學(xué)報(bào) 2021年1期
      關(guān)鍵詞:控制組流動(dòng)人口類(lèi)別

      孫玲莉,楊貴軍

      (天津財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,天津300222;天津財(cái)經(jīng)大學(xué) 中國(guó)經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津300222)

      一、引言

      在社會(huì)經(jīng)濟(jì)領(lǐng)域,處理效應(yīng)的估計(jì)是制定相關(guān)政策及判斷政策實(shí)施效果的重要基礎(chǔ)(Tu 等,2000;胡吉祥等,2011;紀(jì)園園等,2020)[1-3]。例如,在制定吸引和留住流動(dòng)人口的政策時(shí),家庭消費(fèi)水平是評(píng)價(jià)流動(dòng)人口生活質(zhì)量的重要方面。根據(jù)消費(fèi)理論和人力資本理論,消費(fèi)依賴(lài)個(gè)人收入水平,而個(gè)人收入水平主要取決于受教育程度(Keynes,1936;Schultz,1961)[4,5]。因此,合理測(cè)算流動(dòng)人口受教育程度對(duì)家庭消費(fèi)的影響程度具有重要的現(xiàn)實(shí)意義。在其他條件完全相同的假定下,受教育程度不同的家庭消費(fèi)差異被視為教育對(duì)家庭消費(fèi)的處理效應(yīng)。

      在因果推斷中,處理變量取不同水平時(shí)的結(jié)果變量平均差值被稱(chēng)為處理效應(yīng)(Treatment effect)。處理效應(yīng)的估計(jì)常選用Rubin 因果模型(Rubin,1978)[6]。假設(shè)個(gè)體接受處理,則其屬于處理組,標(biāo)記T=1;個(gè)體未接受處理作為對(duì)照,屬于控制組,標(biāo)記T=0。兩組個(gè)體的潛在結(jié)果分別記為Y1、Y0,處理效應(yīng)τ=E(Y1-Y0)。在完全隨機(jī)化的可控實(shí)驗(yàn)中,處理組與控制組的個(gè)體具有同質(zhì)性,處理效應(yīng)τ=E(Y1-Y0)=E(Y1∣T=1)-E(Y0∣T=0)。在非隨機(jī)化實(shí)驗(yàn)中,每個(gè)個(gè)體只能觀測(cè)到一個(gè)潛在結(jié)果,未觀測(cè)到的結(jié)果被稱(chēng)為反事實(shí)(Counterfactuals)(Paul and Rubin,1983;Rubin and Thomas,1996)[7,8]?,F(xiàn)實(shí)中一些不可控的影響因素往往會(huì)使處理組與控制組產(chǎn)生個(gè)體選擇偏誤(Lalonde,1986)[9],導(dǎo)致處理效應(yīng)估計(jì)的可信度降低。此時(shí),處理效應(yīng)τ=E(Y1-Y0)≠E(Y∣T=1)-E(Y∣T=0)。經(jīng)濟(jì)問(wèn)題研究中常出現(xiàn)這類(lèi)問(wèn)題,其原因是存在客觀成本和人倫道德的約束,完全的隨機(jī)化實(shí)驗(yàn)難以實(shí)施(韓鋒和隋福民,2015)[10]。為了消除個(gè)體選擇偏誤,學(xué)者們主要采用了兩類(lèi)方法。(1)傾向得分匹配法(Propensity score matching)。傾向得分是指給定協(xié)變量的情形下個(gè)體屬于處理組的條件概率(Paul and Rubin,1983)[7]。分別來(lái)源于處理組和控制組的兩個(gè)個(gè)體的傾向得分若相近或相等,則兩者匹配,對(duì)應(yīng)的處理組為反事實(shí)匹配組。利用處理組和反事實(shí)匹配組估計(jì)處理效應(yīng),能夠有效消除個(gè)體選擇偏誤對(duì)處理效應(yīng)的影響。傾向得分匹配法易于使用,其對(duì)高維協(xié)變量匹配的效率高,故該方法現(xiàn)已得到廣泛應(yīng)用(盧闖等,2015;胡宏偉等,2012)[11,12]。(2)斷點(diǎn)回歸方法和雙重差分法。斷點(diǎn)回歸方法是按是否接受處理將觀測(cè)數(shù)據(jù)劃分出臨界點(diǎn),觀測(cè)數(shù)據(jù)即處于斷點(diǎn)的兩側(cè),根據(jù)斷點(diǎn)兩側(cè)的樣本數(shù)據(jù)就可以估計(jì)處理效應(yīng)(Thistlethwaite and Campbell,1960)[13]。雙重差分法主要是估計(jì)分組變量與時(shí)間變量的交叉項(xiàng)(Abadie,2005)[14]。

      在現(xiàn)有研究中,有關(guān)處理效應(yīng)的估計(jì)主要存在兩個(gè)缺陷。首先,斷點(diǎn)回歸的估計(jì)結(jié)果依賴(lài)預(yù)先設(shè)定的模型,結(jié)果變量是否受到其他處理因素的影響是很難識(shí)別的(余靜文和王春超,2011)[15]。雙重差分法的假設(shè)條件較為嚴(yán)格,平行趨勢(shì)假定(Parallel trend)難以得到滿(mǎn)足(陳林和伍海軍,2015)[16]。其次,傾向得分匹配法是根據(jù)接受處理分組的示性變量建立模型,擬合模型容易受到處理組和控制組樣本差異的影響,從而導(dǎo)致模型無(wú)法收斂。此外,如果不能較好地平衡處理組和控制組協(xié)變量與響應(yīng)變量的相關(guān)性,處理效應(yīng)估計(jì)的系統(tǒng)偏差就會(huì)增大。

      基于此,本文在傾向得分匹配法的基礎(chǔ)上引入一種新的方法——響應(yīng)傾向得分匹配法(Response Propensity Score Matching)(楊貴軍等,2018)[17]。相應(yīng)地,本文將原來(lái)的傾向得分匹配法稱(chēng)為類(lèi)別傾向得分匹配法(Categorical Propensity Score Matching),以示區(qū)別。響應(yīng)傾向得分匹配法最早是用于處理調(diào)查數(shù)據(jù)中的無(wú)回答問(wèn)題,本文借鑒該思路,將處理效應(yīng)中的控制組和處理組分別視為回答組和無(wú)回答組,用于處理效應(yīng)的估計(jì)。

      響應(yīng)傾向得分匹配法的基本思想是將控制組的結(jié)果變量觀測(cè)值按大小進(jìn)行排列并取秩,對(duì)結(jié)果變量的秩計(jì)算累計(jì)概率,再與協(xié)變量建立響應(yīng)傾向得分模型,尋找控制組的反事實(shí)匹配組,利用反事實(shí)匹配組估計(jì)處理效應(yīng)。響應(yīng)傾向得分匹配法不嚴(yán)格要求處理組和控制組的樣本容量,這就彌補(bǔ)了類(lèi)別傾向得分匹配法的不足。此外,利用結(jié)果變量觀測(cè)值的秩變換與協(xié)變量建立模型,可以保持協(xié)變量與響應(yīng)變量之間的相關(guān)性一致,減少個(gè)體選擇偏誤,提高處理效應(yīng)估計(jì)的可信性。相比于斷點(diǎn)回歸和雙重差分法,響應(yīng)傾向得分匹配法的限制更少,更便于操作。

      二、響應(yīng)傾向得分匹配法

      若記T為個(gè)體接受處理的示性變量,則T=1 代表個(gè)體接受處理,T=0 代表個(gè)體未接受處理。X=(X1,X2,…Xk)′為k維協(xié)變量,Y表示個(gè)體的結(jié)果變量。其中,(X0,i,Y0,i)(i=1,…,nc)為控制組,(X1,j,Y1,j)(j=1,…,nt)為處理組,樣本量分別為nc、nt,樣本均值分別為每個(gè)個(gè)體只有一個(gè)觀測(cè)結(jié)果,或者屬于處理組,或者屬于控制組。若個(gè)體不存在選擇偏誤,則處理效應(yīng)如下:

      在多數(shù)情況下,個(gè)體是存在選擇偏誤的,則處理效應(yīng)為:

      顯然,直接使用樣本均值之差估計(jì)處理效應(yīng)τ,則會(huì)出現(xiàn)系統(tǒng)偏差。

      在非隨機(jī)實(shí)驗(yàn)中,保證處理組和控制組個(gè)體協(xié)變量盡可能相同是估計(jì)處理效應(yīng)τ 的前提。Paul和Rubin(1983)[7]提出了傾向得分匹配法(本文稱(chēng)其為類(lèi)別傾向得分匹配法),將類(lèi)別傾向得分定義為給定協(xié)變量X條件下個(gè)體接受處理的條件概率,即有:

      如果類(lèi)別傾向得分相同或近似相等,兩個(gè)個(gè)體就是匹配的,相應(yīng)的控制組個(gè)體被稱(chēng)為處理組的反事實(shí)匹配個(gè)體。處理組與反事實(shí)匹配組個(gè)體之間的協(xié)變量相似,可以直接估計(jì)處理效應(yīng)。類(lèi)別傾向得分匹配法需要滿(mǎn)足兩個(gè)基本假定(Caliendo and Kopeinig,2008)[18]。

      假定1:給定協(xié)變量X,個(gè)體接受處理與否都和結(jié)果Y相互獨(dú)立。

      假定2:給定協(xié)變量X,個(gè)體接受處理與否的概率均為正。

      在類(lèi)別傾向得分匹配法的實(shí)際應(yīng)用中,處理組與控制組樣本容量差異過(guò)大會(huì)導(dǎo)致Logistic 模型參數(shù)估計(jì)無(wú)法收斂,而且類(lèi)別傾向得分匹配法不能保證處理組與控制組中協(xié)變量與響應(yīng)變量的相關(guān)性一致。因此,響應(yīng)傾向得分匹配法改進(jìn)的基本思路是,將控制組結(jié)果變量觀測(cè)值按從小到大的順序排列取秩,對(duì)秩計(jì)算累計(jì)概率,再與協(xié)變量建立響應(yīng)傾向得分模型,利用擬合的響應(yīng)傾向得分模型分別計(jì)算處理組與控制組個(gè)體的響應(yīng)傾向得分,并將與處理組個(gè)體響應(yīng)傾向得分差異小的控制組個(gè)體作為處理組的反事實(shí)匹配組個(gè)體。這樣做就能在很大程度上保持匹配個(gè)體的協(xié)變量與結(jié)果變量之間的一致相關(guān)性。

      響應(yīng)傾向得分匹配法的創(chuàng)新之處在于引入了秩統(tǒng)計(jì)量,而秩統(tǒng)計(jì)量不受分布影響,應(yīng)用更加廣泛(Spearman,1904;Torra 等,2006)[19,20]。統(tǒng)計(jì)模型的建立若考慮分類(lèi)變量的有序性,則可以彌補(bǔ)連續(xù)變量假定的缺陷。引入秩變換保證了結(jié)果變量觀測(cè)值的大小不發(fā)生錯(cuò)序,對(duì)秩計(jì)算累計(jì)概率使得結(jié)果變量觀測(cè)值保持在0 至1 區(qū)間,傾向得分模型的擬合效果以及控制組與處理組的匹配效果都得到了改進(jìn)。相比于傾向得分匹配法,響應(yīng)傾向得分匹配法是基于控制組數(shù)據(jù)建立模型,避免了控制組與處理組樣本量差異對(duì)模型的影響。具體而言,響應(yīng)傾向得分匹配法的使用主要包括四個(gè)步驟。

      (一)計(jì)算響應(yīng)變量秩的累計(jì)概率

      將控制組(T=0)的結(jié)果變量Y的觀測(cè)值y0,i(i=1,2,…nc)按從小到大的順序排列,我們得到:y0,1′<y0,2′<…,y0,n′c。記觀測(cè)值y0,i(i=1,2,…nc)的秩為R0,i(y0,i),則響應(yīng)變量Y取R0,i(y0,i)的概率為:

      累計(jì)概率為:

      根據(jù)樣本觀測(cè)值,選擇觀測(cè)值秩序的累計(jì)概率估計(jì)如下:

      (二)建立響應(yīng)傾向得分模型

      本文以樣本結(jié)果變量觀測(cè)值秩序的累計(jì)概率值為被解釋變量,以協(xié)變量X0,i(i=1,2,…nc)為解釋變量,建立響應(yīng)傾向得分logit 模型:

      將式(3)代入式(4),則有:

      響應(yīng)傾向得分為:

      其中,0≤P(Y≤R0,i(y0,i)∣X0,i)≤1。將全部個(gè)體的協(xié)變量代入擬合模型,我們分別得到控制組和處理組個(gè)體的響應(yīng)傾向得分。

      (三)匹配反事實(shí)個(gè)體

      本文定義響應(yīng)傾向得分的距離為絕對(duì)值距離,即處理組個(gè)體j與控制組個(gè)體i若匹配,則計(jì)算它們的響應(yīng)傾向得分距離:

      假定處理組個(gè)體j與控制組nc個(gè)個(gè)體的響應(yīng)傾向得分距離滿(mǎn)足:

      處理組個(gè)體j與控制組中的第一個(gè)個(gè)體的響應(yīng)傾向得分距離最小,控制組中的第一個(gè)個(gè)體就作為處理組個(gè)體j的匹配個(gè)體。將處理組個(gè)體y1,j(j=1,2,…nt)依次與控制組個(gè)體y′0,j(j=1,2,…nt)相匹配,則與處理組相匹配的控制組為反事實(shí)匹配組。

      (四)估計(jì)處理效應(yīng)

      本文利用處理組和反事實(shí)匹配組個(gè)體估計(jì)處理效應(yīng),處理效應(yīng)為:

      相應(yīng)的估計(jì)量為:

      響應(yīng)傾向得分匹配法保留了類(lèi)別傾向得分匹配法的優(yōu)勢(shì),具有較高的個(gè)體匹配計(jì)算效率。此外,響應(yīng)傾向得分匹配法具有較好的Logistic 模型擬合效果,其不需對(duì)處理組和控制組的樣本量差異大小進(jìn)行嚴(yán)格規(guī)定,處理效應(yīng)估計(jì)的可靠性更高。

      三、響應(yīng)傾向得分匹配法下處理效應(yīng)估計(jì)量的統(tǒng)計(jì)性質(zhì)模擬研究

      本文利用模擬的方法研究響應(yīng)傾向得分匹配法及處理效應(yīng)估計(jì)量的統(tǒng)計(jì)性質(zhì),并與類(lèi)別傾向得分匹配法進(jìn)行比較,模擬方法參考楊貴軍等(2016)[21]的研究。在實(shí)際的經(jīng)濟(jì)問(wèn)題研究中,多元線(xiàn)性回歸模型的應(yīng)用是最為廣泛的,故本文也選擇如下線(xiàn)性回歸模型:

      其中,X1、X2為連續(xù)變量,X3、X4、X5、X6為離散變量,T為處理變量。考慮到后文的實(shí)證數(shù)據(jù),這里設(shè)定處理效應(yīng)τ=0.5,同時(shí)選取ε 為服從正態(tài)分布N(0,0.15)的隨機(jī)誤差項(xiàng)。對(duì)于處理組T=1,本文分別從正態(tài)分布N(1 500,250)、N(4 800,600)及兩點(diǎn)分布B(1,0.4)、B(1,0.6)、B(1,0.8)、B(1,0.05)中獨(dú)立隨機(jī)抽取nt=600 個(gè)隨機(jī)數(shù)作為協(xié)變量X1、X2、X3、X4、X5、X6的觀測(cè)值,系數(shù)分別為β0=0.6,β1=0.6,β2=0.2,β3=0.03,β4=0.12,β5=-0.03,β6=-0.05。對(duì)于控制組T=0,本文分別從正態(tài)分布N(1 200,200)、N(4 000,630)及 兩 點(diǎn) 分 布B(1,0.2)、B(1,0.6)、B(1,0.2)、B(1,0.85)中獨(dú)立隨機(jī)抽取nc=4 500 個(gè)隨機(jī)數(shù)作為變量X1、X2、X3、X4、X5、X6的觀測(cè)值,系數(shù)分別設(shè)定為β0=0.6,β1=0.6,β2=0.2,β3=0.03,β4=0.05,β5=0.03,β6=0.05,并對(duì)連續(xù)協(xié)變量取對(duì)數(shù)。利用線(xiàn)性回歸模型,本文計(jì)算出處理組600 個(gè)個(gè)體的結(jié)果變量觀測(cè)值和控制組4 500 個(gè)個(gè)體的結(jié)果變量觀測(cè)值。

      本文分別采用類(lèi)別傾向得分匹配法和響應(yīng)傾向得分匹配法估計(jì)處理效應(yīng)τ。為了保證估計(jì)結(jié)果的穩(wěn)定性,上述模擬過(guò)程重復(fù)了200 次。對(duì)于類(lèi)別傾向得分匹配法和響應(yīng)傾向得分匹配法,每次重復(fù)模擬的處理效應(yīng)估計(jì)值記為和并取處理效應(yīng)200 估計(jì)值平均代表處理效應(yīng)估計(jì)的期望。本文選擇處理效應(yīng)估計(jì)的偏差和均方誤差作為方法應(yīng)用優(yōu)劣的評(píng)價(jià)指標(biāo)。偏差是指處理效應(yīng)估計(jì)值的期望與真值τ=0.5 之差,即,處理效應(yīng)估計(jì)值與真值τ=0.5 差值平方的平均數(shù)為均方誤差,偏差和均方誤差越小越好。

      為了比較樣本量對(duì)兩種傾向得分匹配法的影響,本文采用不重復(fù)匹配法,選取與處理組個(gè)體響應(yīng)傾向得分距離最小的控制組中K個(gè)不同個(gè)體進(jìn)行匹配,得到K個(gè)反事實(shí)匹配組。第一個(gè)反事實(shí)匹配組與處理組個(gè)體響應(yīng)傾向得分距離最小,第K個(gè)反事實(shí)匹配組與處理組個(gè)體響應(yīng)傾向得分距離最大,即處理組每個(gè)個(gè)體與其反事實(shí)匹配組個(gè)體的響應(yīng)傾向得分距離滿(mǎn)足dj,1≤dj,2≤dj,3…≤dj,k-1≤dj,k。這里,本文選擇K=7。

      表1 給出了利用處理組與第k(k=1,2,…7)個(gè)反事實(shí)匹配組數(shù)據(jù)及處理效應(yīng)的估計(jì)結(jié)果,其中,第三列是處理效應(yīng)估計(jì)的期望,第四列是處理效應(yīng)估計(jì)的偏差,第五列是處理效應(yīng)估計(jì)的均方誤差??傮w來(lái)看,類(lèi)別傾向得分匹配法和響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差均較小,兩種方法對(duì)處理效應(yīng)的估計(jì)都較好。處理效應(yīng)估計(jì)的統(tǒng)計(jì)性質(zhì)與處理組和反事實(shí)匹配組之間傾向得分的距離有關(guān),隨著反事實(shí)匹配組號(hào)k的增加,類(lèi)別傾向得分匹配法和響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差都呈現(xiàn)遞增趨勢(shì)。因此,隨著處理組與反事實(shí)匹配組之間傾向得分差異的增大,處理效應(yīng)估計(jì)的偏差和均方誤差也在增大。表1 的結(jié)果顯示,當(dāng)k≤3 時(shí),響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差都小于類(lèi)別傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差。當(dāng)k≥4 時(shí),響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差都大于類(lèi)別傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差。當(dāng)k=1 時(shí),兩種傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差都為最小。相對(duì)來(lái)說(shuō),響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)要優(yōu)于類(lèi)別傾向得分匹配法,其更接近于處理效應(yīng)的真值。因此,響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)更優(yōu),利用與處理組響應(yīng)傾向得分距離最小的k=1 反事實(shí)匹配組估計(jì)處理效應(yīng)是最好的。

      表1 處理效應(yīng)估計(jì)的偏差和均方誤差

      四、流動(dòng)人口受教育程度對(duì)家庭消費(fèi)差異影響的實(shí)證分析

      各地區(qū)要想加快經(jīng)濟(jì)發(fā)展,必須制定吸引和留住流動(dòng)人口的政策,保證流動(dòng)人口的生活質(zhì)量,而家庭消費(fèi)是評(píng)價(jià)流動(dòng)人口生活質(zhì)量的重要方面。近年來(lái),消費(fèi)發(fā)展趨勢(shì)問(wèn)題受到學(xué)者們的高度關(guān)注(殷俊茹等,2016)[22]。影響消費(fèi)的因素有很多,教育是其中的一個(gè)重要因素(Song,2008;楊碧云等,2014)[23,24]。在其他條件完全相同的假定下,受教育程度不同的家庭消費(fèi)差異可以視作教育對(duì)家庭消費(fèi)的處理效應(yīng),合理測(cè)算流動(dòng)人口家庭消費(fèi)的教育效應(yīng)具有重要的現(xiàn)實(shí)意義。

      國(guó)內(nèi)外的研究者多是基于調(diào)查數(shù)據(jù)測(cè)算受教育程度對(duì)消費(fèi)的影響,認(rèn)為教育對(duì)消費(fèi)具有正向作用。由于調(diào)查數(shù)據(jù)往往存在自選擇偏誤,這種自選擇偏誤容易使分析結(jié)論產(chǎn)生偏差。自選擇偏誤是指非完全隨機(jī)化樣本所導(dǎo)致的分析結(jié)論偏差,其產(chǎn)生的根源是調(diào)查數(shù)據(jù)中的居民受教育程度并不是完全隨機(jī)的。在完全隨機(jī)的調(diào)查數(shù)據(jù)中,除教育程度是不同質(zhì)的,居民家庭狀況、工作環(huán)境和收入等變量則具有同質(zhì)性,即家庭狀況、工作環(huán)境和收入等變量對(duì)家庭消費(fèi)的整體影響作用相同,這些變量可以稱(chēng)為協(xié)變量。受客觀成本和人倫道德的約束,完全的隨機(jī)化調(diào)查是難以實(shí)施的(韓鋒和隋福民,2015)[10]。在非完全隨機(jī)的調(diào)查數(shù)據(jù)中,受教育程度不同居民的協(xié)變量不具有同質(zhì)性(Lalonde,1986)[9],生活習(xí)慣、工作狀況和收入都不一致。因此,流動(dòng)人口受教育程度對(duì)家庭消費(fèi)的影響應(yīng)該包括兩個(gè)部分:一部分是在居民生活、工作狀況和收入等協(xié)變量相同條件下兩類(lèi)家庭的平均消費(fèi)支出差值,是居民家庭狀況、工作環(huán)境和收入等協(xié)變量同質(zhì)時(shí),僅由受教育程度不同所導(dǎo)致的家庭消費(fèi)差異;另一部分是教育通過(guò)改變生活習(xí)慣、工作狀況和收入等協(xié)變量,間接影響家庭消費(fèi)支出。因此,研究協(xié)變量相同條件下兩類(lèi)居民家庭的平均消費(fèi)支出差值,對(duì)于揭示流動(dòng)人口受教育程度影響家庭消費(fèi)的機(jī)制具有重要意義?,F(xiàn)有文獻(xiàn)沒(méi)有區(qū)分受教育程度對(duì)家庭消費(fèi)所產(chǎn)生的不同影響,本文則利用響應(yīng)傾向得分匹配法分析流動(dòng)人口受教育程度對(duì)家庭消費(fèi)所產(chǎn)生的處理效應(yīng),以期減少居民個(gè)體選擇偏誤,得到更合理的估計(jì)結(jié)果。

      (一)變量選擇

      有關(guān)教育對(duì)消費(fèi)影響的研究多是基于家庭生產(chǎn)理論(Becker,1964;Becker,1978)[25,26],認(rèn)為教育水平高的個(gè)人消費(fèi)水平較高,對(duì)新產(chǎn)品的購(gòu)買(mǎi)意愿也較強(qiáng)(Michael,1972)[27]。Hettich(1972)[28]研究發(fā)現(xiàn),教育水平高的女性購(gòu)買(mǎi)行為效率更高。Wang(1995)[29]基于美國(guó)消費(fèi)者支出數(shù)據(jù)的研究顯示,戶(hù)主受教育程度高的家庭在飲食消費(fèi)上的支出也更多。Wagner等(1988)[30]、Tansel 等(2006)[31]分別使用美國(guó)和土耳其的調(diào)查數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)夫妻二人的受教育程度對(duì)消費(fèi)具有正向影響。國(guó)內(nèi)的研究顯示,居民受教育程度對(duì)消費(fèi)影響的結(jié)論與國(guó)外的研究基本一致,即教育對(duì)消費(fèi)具有正向作用。劉曦子等(2018)[32]認(rèn)為,居民受教育程度對(duì)消費(fèi)具有顯著影響,動(dòng)態(tài)面板分位數(shù)回歸給出的受教育程度系數(shù)為0.3~0.5,即某地區(qū)大專(zhuān)以上學(xué)歷(含大專(zhuān))的人口占比每提高1 百分點(diǎn),該地區(qū)的消費(fèi)就增加0.3%~0.5%。劉子蘭等(2018)[33]將受教育程度作為人力資本的代理變量,使用混合OLS 模型測(cè)算了教育對(duì)居民消費(fèi)的影響,發(fā)現(xiàn)戶(hù)主受教育年限每增加1 年,家庭消費(fèi)性支出、生存性消費(fèi)、享受性消費(fèi)分別增長(zhǎng)1.71%、1.42%、2.47%。王弟海等(2017)[34]的面板回歸模型分析結(jié)果顯示,生產(chǎn)部門(mén)中人均受教育年限每增加1 年,人均GDP 增長(zhǎng)率平均提高0.7~1.4 百分點(diǎn)。楊碧云等(2014)[24]研究發(fā)現(xiàn),戶(hù)主受教育程度與服務(wù)性消費(fèi)負(fù)相關(guān),與其他支出正相關(guān)。

      目前,有關(guān)流動(dòng)人口家庭消費(fèi)影響因素的研究大多集中于戶(hù)籍制度、醫(yī)療社會(huì)保障、居住意愿、個(gè)人收入等方面(譚蘇華等,2015;周明海和金樟峰,2017;張義等,2020;孫文浩,2020;趙錦春等,2019)[35-39]。基于此,本文選擇流動(dòng)人口的家庭平均月總支出水平測(cè)度家庭消費(fèi),即將上年家庭在本地的平均月總支出作為結(jié)果變量,將流動(dòng)人口受教育程度作為處理變量。本文將居民受教育程度分為兩類(lèi),即大學(xué)專(zhuān)科以下、大學(xué)專(zhuān)科及以上。大學(xué)專(zhuān)科以下包括未上過(guò)學(xué)、小學(xué)、初中、高中/中專(zhuān),大學(xué)專(zhuān)科及以上包括大學(xué)專(zhuān)科、大學(xué)本科和研究生。每個(gè)居民的教育程度是已知的,其只能屬于上述分類(lèi)中的某一類(lèi),而不能同時(shí)屬于兩個(gè)類(lèi)別。借鑒譚蘇華等(2015)[35]的研究,本文的協(xié)變量主要考慮經(jīng)濟(jì)、家庭和社會(huì)三個(gè)方面。經(jīng)濟(jì)變量包括上年家庭在本地的平均月總食品支出和個(gè)人上月收入,家庭變量包括性別和婚姻狀況,社會(huì)變量包括就業(yè)單位的性質(zhì)(是否為集體企業(yè)、個(gè)體工商戶(hù)或港澳臺(tái)獨(dú)資企業(yè))和戶(hù)主的就業(yè)身份(是否為雇主或自營(yíng)勞動(dòng)者),婚姻狀況包括已婚和單身(已婚包括初婚和再婚,單身包括未婚、離婚和喪偶)。對(duì)于其他影響家庭消費(fèi)的變量,鑒于數(shù)據(jù)的可得性及研究目的,本文暫不考慮。

      本文選取2015 年全國(guó)流動(dòng)人口衛(wèi)生計(jì)生動(dòng)態(tài)監(jiān)測(cè)調(diào)查戶(hù)籍人口問(wèn)卷(A 卷)中天津市的調(diào)查數(shù)據(jù)進(jìn)行研究,其基本信息見(jiàn)表2。流動(dòng)人口衛(wèi)生計(jì)生動(dòng)態(tài)監(jiān)測(cè)調(diào)查中的天津市樣本容量為5 116 個(gè),其中,大學(xué)專(zhuān)科及以上類(lèi)別中有574 個(gè),大學(xué)專(zhuān)科以下類(lèi)別中有4 542 個(gè)。

      表2 變量描述

      表3 報(bào)告了全部樣本均值、574 個(gè)教育程度高的樣本均值、4 542 個(gè)教育程度低的樣本均值以及教育程度不同居民樣本均值的差值??梢钥闯觯逃潭雀撸╡du=1)的家庭消費(fèi)(t_exp)均值高于教育程度低(edu=0)的家庭消費(fèi)均值,教育程度高的居民收入(inc)均值也普遍高于教育程度低的居民收入均值。從離散變量來(lái)看,除單位是否為港澳臺(tái)獨(dú)資(I.hmt)外,其他變量中教育程度高的居民大部分均值低于教育程度低的居民均值。在兩個(gè)類(lèi)別的協(xié)變量中,除了性別比例差異不大外,其他協(xié)變量的均值差異都較大,容易形成自選擇偏誤,可能影響教育對(duì)家庭消費(fèi)支出的處理效應(yīng)。直接用兩類(lèi)家庭消費(fèi)支出的差值1 016.287 9 元作為家庭消費(fèi)的匹配教育效應(yīng)估計(jì)可能會(huì)產(chǎn)生系統(tǒng)偏差,因?yàn)檫@個(gè)差值是兩類(lèi)家庭消費(fèi)的教育效應(yīng),不僅包括家庭消費(fèi)的匹配教育效應(yīng),還包括其他協(xié)變量不同質(zhì)的非匹配教育效應(yīng)。因此,只有利用教育程度不同居民的協(xié)變量進(jìn)行匹配,減少樣本自選擇偏誤的影響,家庭消費(fèi)差值才能更好地反映家庭消費(fèi)的匹配教育效應(yīng)。

      表3 不同教育類(lèi)別的變量均值比較

      (二)基于響應(yīng)傾向得分的反事實(shí)匹配組

      本文采用響應(yīng)傾向得分匹配法估計(jì)流動(dòng)人口受教育程度對(duì)家庭消費(fèi)的處理效應(yīng)。edu=1 的個(gè)體為處理組,edu=0 的個(gè)體為控制組,為edu=1 處理組個(gè)體匹配edu=0 控制組個(gè)體,即可得到反事實(shí)匹配組,用于計(jì)算教育對(duì)家庭消費(fèi)的處理效應(yīng)。

      首先,本文計(jì)算響應(yīng)變量秩的累計(jì)概率。將edu=0 控制組中4 542 個(gè)觀測(cè)t_exp0按從小到大的順序排列,得到t_exp0,1,…,t_exp0,4542,取秩分別為R0,i(y0,i)(i=1,…,4542),則每個(gè)控制組響應(yīng)變量秩序的累計(jì)概率為:

      其次,本文采用響應(yīng)傾向得分模型,基于edu=0控制組的4 542 個(gè)觀測(cè)數(shù)據(jù)建立Logistic 模型。其中為被解釋變量,解釋變量分別為平均月總食品支出f_exp、個(gè)人上月收入inc、性別sex、婚姻狀況status、所在單位是否為集體企業(yè)I_col、是否為個(gè)體工商戶(hù)I_ind、所在單位是否為港澳臺(tái)獨(dú)資企業(yè)I_hmt,就業(yè)身份是否為雇主I_mas、是否為自營(yíng)勞動(dòng)者I_own。本文使用Logistic 回歸擬合模型,依據(jù)模型計(jì)算控制組中4 542 個(gè)個(gè)體的響應(yīng)傾向得分,將edu=1 處理組中574 個(gè)個(gè)體的協(xié)變量代入擬合模型,即可得到處理組個(gè)體的響應(yīng)傾向得分。從edu=0 控制組的4 542 個(gè)個(gè)體中分別找出與edu=1 處理組574 個(gè)個(gè)體響應(yīng)傾向得分距離盡可能接近0 的匹配個(gè)體,其即構(gòu)成反事實(shí)匹配組。

      為了進(jìn)一步分析響應(yīng)傾向得分匹配法的有效性,本文進(jìn)行了匹配后樣本的平衡性檢驗(yàn),主要比較處理組與反事實(shí)匹配組的樣本均值差和樣本方差比率。處理組與反事實(shí)匹配組之間樣本均值的差值越小,方差比率越接近于1,處理組與反事實(shí)匹配組的樣本差異就越小。

      從表4 基于響應(yīng)傾向得分匹配法的處理組與反事實(shí)匹配組平衡性檢驗(yàn)結(jié)果來(lái)看,連續(xù)變量匹配后的均值差明顯降低。平均月食品支出f_exp未匹配時(shí)的均值差為300.860 1 元,匹配后的均值差僅為31.829 3 元,方差比率為1.063 8。個(gè)人月收入inc未匹配前的均值差為775.263 2 元,匹配后的均值差為297.020 9 元,方差比率為1.004 1。離散變量除了單位是否為港澳臺(tái)獨(dú)資I.hmt和就業(yè)身份是否為雇主I.mas外,其他離散變量匹配后的均值差值都顯著小于匹配前的均值差值,特別是所在單位是否為集體企業(yè)I.col匹配前的均值差為-0.054 3,匹配后的均值差為-0.008 7,而就業(yè)身份是否為自營(yíng)勞動(dòng)者I.own匹配前的均值差為-0.218 7,匹配后的均值差為-0.101 0。從方差比率來(lái)看,匹配后幾乎所有變量的方差比率都更接近于1。總之,響應(yīng)傾向得分匹配法可以有效降低教育程度不同的兩類(lèi)居民的樣本自選擇偏誤,兩類(lèi)居民的協(xié)變量差異更小,分布也更加接近。

      表4 響應(yīng)傾向得分匹配法的協(xié)變量平衡性檢驗(yàn)結(jié)果

      (三)處理效應(yīng)估計(jì)

      利用處理組和反事實(shí)匹配組,本文估計(jì)了流動(dòng)人口受教育程度對(duì)家庭消費(fèi)的處理效應(yīng)。本文將處理組的每個(gè)家庭消費(fèi)支出t_exp1與其反事實(shí)匹配樣本家庭消費(fèi)支出t_exppipei做差并取均值,即可得到在控制其他協(xié)變量匹配條件下教育對(duì)家庭消費(fèi)t_exp的處理效應(yīng)。

      若將處理組的574 個(gè)觀測(cè)全部考慮在內(nèi),不考慮重復(fù)抽取多次,且設(shè)定K=1,則響應(yīng)傾向得分匹配法的處理效應(yīng)為:

      家庭消費(fèi)的匹配教育效應(yīng)占家庭消費(fèi)教育效應(yīng)(1 016.287 9)的48.02%,非匹配教育效應(yīng)占家庭消費(fèi)教育效應(yīng)的51.98%,二者的占比約為1∶1。

      類(lèi)別傾向得分匹配法估計(jì)的處理效應(yīng)為:

      本文采用類(lèi)別傾向得分匹配法計(jì)算得到天津市流動(dòng)人口家庭消費(fèi)的匹配教育效應(yīng)占家庭消費(fèi)教育效應(yīng)(1 016.287 9)的26.67%,非匹配教育效應(yīng)占家庭消費(fèi)教育效應(yīng)的73.33%,二者的占比約為1∶3。在計(jì)算處理效應(yīng)的過(guò)程中,本文剔除了異常值。

      為了檢驗(yàn)處理效應(yīng)估計(jì)的可信度,本文采用Bootstrap 抽樣方法,重復(fù)抽取處理組574 中的450個(gè)觀測(cè)值,共重復(fù)抽取200 次,分別得到200 個(gè)處理效應(yīng)的估計(jì)值,并取200 個(gè)估計(jì)值的均值代表處理效應(yīng)的期望。本文選擇控制組中與處理組響應(yīng)傾向得分距離最小K個(gè)單元作為K個(gè)反事實(shí)匹配單元,得到K個(gè)反事實(shí)匹配組,這里設(shè)定K=3。由于不知道處理效應(yīng)的真值,無(wú)法評(píng)價(jià)偏差與均方誤差,本文僅給出估計(jì)結(jié)果和標(biāo)準(zhǔn)差。從表5 重復(fù)抽取處理組的估計(jì)結(jié)果來(lái)看,整體而言,標(biāo)準(zhǔn)差和變異系數(shù)要比類(lèi)別傾向得分匹配法的估計(jì)結(jié)果更小,說(shuō)明響應(yīng)傾向得分匹配法的估計(jì)值更為穩(wěn)定。隨著K的增加,響應(yīng)傾向得分匹配法的估計(jì)值和標(biāo)準(zhǔn)差遞增幅度都在減小。

      表5 重復(fù)抽取處理組450 個(gè)觀測(cè)得到的結(jié)果

      從圖1 給出的使用類(lèi)別傾向得分匹配法和響應(yīng)傾向得分匹配法得出的處理效應(yīng)估計(jì)值箱線(xiàn)圖來(lái)看,類(lèi)別傾向得分匹配法處理效應(yīng)估計(jì)值的最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)、最大數(shù)分別為98、194、222、259、355,響應(yīng)傾向得分匹配法相應(yīng)的值分別為271、321、341、363、416??梢?jiàn),式(8)的處理效應(yīng)估計(jì)結(jié)果均在合理的范圍之內(nèi),而且響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)值要比類(lèi)別傾向得分匹配法的處理效應(yīng)估計(jì)值更大。

      圖1 兩種處理效應(yīng)估計(jì)值的箱線(xiàn)圖

      從以上天津市流動(dòng)人口監(jiān)測(cè)數(shù)據(jù)的分析結(jié)果來(lái)看,流動(dòng)人口受教育程度對(duì)家庭消費(fèi)確實(shí)具有顯著的影響,受教育程度有助于提高家庭消費(fèi)水平,這與已有文獻(xiàn)的結(jié)論一致。在使用響應(yīng)傾向得分匹配法消除樣本自選擇偏誤之后,教育程度對(duì)家庭消費(fèi)的匹配教育效應(yīng)估計(jì)值占家庭消費(fèi)教育效應(yīng)的48.02%,該值顯著大于類(lèi)別傾向得分匹配法下教育效應(yīng)占家庭消費(fèi)教育效應(yīng)的26.67%,二者的占比約為2∶1。可見(jiàn),響應(yīng)傾向得分匹配法消除了處理組和反事實(shí)控制組中協(xié)變量與響應(yīng)變量之間相關(guān)性的差異,可以更好地估計(jì)教育對(duì)家庭消費(fèi)水平的處理效應(yīng)。

      五、研究結(jié)論

      在社會(huì)經(jīng)濟(jì)問(wèn)題研究中,社會(huì)經(jīng)濟(jì)因素的不可控性使得樣本收集存在自選擇偏誤,降低了處理效應(yīng)估計(jì)的可信度。為了平衡處理組和控制組協(xié)變量的分布,縮小處理組與反事實(shí)控制組之間變量相關(guān)性的差異,本文提出響應(yīng)傾向得分匹配法。響應(yīng)傾向得分匹配法是將控制組的觀測(cè)值按從小到大的順序排列取秩,對(duì)秩的累計(jì)概率和協(xié)變量建立響應(yīng)傾向得分匹配模型,依據(jù)擬合模型計(jì)算出樣本個(gè)體的響應(yīng)傾向得分,并構(gòu)造反事實(shí)匹配組,利用處理組和反事實(shí)匹配組樣本就可以估計(jì)處理效應(yīng)。響應(yīng)傾向得分匹配法既具有類(lèi)別傾向得分匹配法的優(yōu)點(diǎn),又能有效降低處理組與反事實(shí)匹配組之間協(xié)變量相關(guān)性的影響程度。

      模擬結(jié)果顯示,隨著處理組與反事實(shí)匹配組之間傾向得分差值的增加,類(lèi)別傾向得分匹配法和響應(yīng)傾向得分匹配法處理效應(yīng)估計(jì)的偏差和均方誤差都呈現(xiàn)遞增趨勢(shì)。相比于類(lèi)別傾向得分匹配法,響應(yīng)傾向得分匹配法的處理效應(yīng)估計(jì)偏差和均方誤差更小。如果利用響應(yīng)傾向得分匹配法估計(jì)處理效應(yīng),本文建議使用最近鄰匹配構(gòu)造處理組和反事實(shí)匹配組。

      本文考察了流動(dòng)人口受教育程度對(duì)家庭消費(fèi)的影響,即針對(duì)調(diào)查數(shù)據(jù)存在的自選擇偏誤問(wèn)題,采用響應(yīng)傾向得分匹配法,構(gòu)造教育程度高的居民的反事實(shí)匹配組,估計(jì)家庭消費(fèi)的匹配教育效應(yīng)?;?015 年全國(guó)流動(dòng)人口衛(wèi)生計(jì)生動(dòng)態(tài)監(jiān)測(cè)調(diào)查戶(hù)籍人口問(wèn)卷(A 卷)中天津市調(diào)查數(shù)據(jù)的實(shí)證研究顯示:在消除樣本自選擇偏誤之后,天津市流動(dòng)人口受教育程度對(duì)家庭消費(fèi)的匹配教育效應(yīng)為488,約占家庭消費(fèi)教育效應(yīng)的48.02%,說(shuō)明受教育程度確實(shí)提高了家庭消費(fèi)水平,響應(yīng)傾向得分匹配法可以更好地消除樣本自選擇偏誤;其他協(xié)變量不同質(zhì)所引致的非匹配教育效應(yīng)約占家庭消費(fèi)教育效應(yīng)的51.98%,家庭消費(fèi)的匹配教育效應(yīng)與非匹配教育效應(yīng)占比約為1∶1。以上結(jié)果說(shuō)明,教育確實(shí)改變了人們的消費(fèi)觀念和消費(fèi)習(xí)慣,提高了個(gè)人家庭平均月總支出水平。需要說(shuō)明的是,本文所得的結(jié)論雖是基于天津市流動(dòng)人口動(dòng)態(tài)監(jiān)測(cè)的調(diào)查數(shù)據(jù),但其對(duì)其他省市乃至全國(guó)也具有參考價(jià)值,響應(yīng)傾向得分匹配法同樣適用于處理其他調(diào)查數(shù)據(jù)的自選擇偏誤問(wèn)題。

      猜你喜歡
      控制組流動(dòng)人口類(lèi)別
      給商品起名字
      馬來(lái)西亞華文小學(xué)識(shí)字教學(xué)的字理識(shí)字研究
      文教資料(2019年31期)2019-01-14 02:32:05
      漫畫(huà)
      數(shù)說(shuō)流動(dòng)人口
      民生周刊(2016年27期)2016-11-24 03:55:42
      數(shù)說(shuō)流動(dòng)人口
      民生周刊(2016年21期)2016-11-19 14:08:09
      多模態(tài)聽(tīng)力教學(xué)模式對(duì)英語(yǔ)綜合能力的影響
      服務(wù)類(lèi)別
      96例妊娠合并甲亢患者的管理現(xiàn)狀及危險(xiǎn)因素分析
      給流動(dòng)人口更多關(guān)注目光
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      渭源县| 自贡市| 泽库县| 阿荣旗| 夏邑县| 伊川县| 沅陵县| 毕节市| 桃源县| 六枝特区| 凤冈县| 炉霍县| 于都县| 胶州市| 周至县| 温宿县| 河曲县| 广河县| 晋宁县| 越西县| 安塞县| 达日县| 德阳市| 连江县| 克拉玛依市| 峨眉山市| 威海市| 孙吴县| 阿拉尔市| 阿鲁科尔沁旗| 河南省| 巴青县| 石阡县| 淮北市| 长子县| 南汇区| 中江县| 汨罗市| 石柱| 唐河县| 肇源县|