楊貴軍,杜 飛,孫玲莉
(天津財(cái)經(jīng)大學(xué) a.統(tǒng)計(jì)學(xué)院;b.中國經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津 300222)
在社會經(jīng)濟(jì)問題研究中,學(xué)術(shù)研究越來越依賴于微觀數(shù)據(jù)庫,分析社會經(jīng)濟(jì)的運(yùn)行機(jī)制以及數(shù)量關(guān)系。通過調(diào)查獲得的微觀數(shù)據(jù)常常存在一定程度的無回答,而且無回答是很難避免的。在大數(shù)據(jù)應(yīng)用中,無回答發(fā)生更頻繁。無回答會嚴(yán)重影響調(diào)查數(shù)據(jù)的質(zhì)量以及分析結(jié)果的可靠性。多數(shù)統(tǒng)計(jì)方法和統(tǒng)計(jì)分析軟件都是基于完整數(shù)據(jù)集設(shè)計(jì)的,如何有效地處理無回答成為獲取可靠分析結(jié)果的關(guān)鍵。20世紀(jì)70年代統(tǒng)計(jì)學(xué)者極其關(guān)注無回答問題,并提出了在經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)相關(guān)領(lǐng)域中處理無回答問題的方法[1-2]。
處理無回答的方法主要?jiǎng)澐譃槭虑邦A(yù)防和事后補(bǔ)救兩方面。鑒于數(shù)據(jù)收集過程中的條件限制,事前預(yù)防措施并不能從根本上解決無回答問題,因此多數(shù)方法從事后補(bǔ)救方面開展研究。無回答的事后補(bǔ)救措施大體可分為兩類:一是基于設(shè)計(jì)角度對目標(biāo)值進(jìn)行估計(jì)的方法。Robins等基于對無回答概率的估計(jì),提出估算目標(biāo)值的加權(quán)法[3]。金勇進(jìn)等則通過對無回答子總體進(jìn)行追加調(diào)查的方式來減小無回答偏差[4-5]。Little等討論了無回答的極大似然估計(jì)量[2,6-7]。二是對無回答進(jìn)行插補(bǔ)的方法。Chapman等討論了無回答的單重插補(bǔ)法[8-12]。Rubin將無回答的不確定性考慮在內(nèi),提出了多重插補(bǔ)方法,并作了進(jìn)一步的討論[1]?,F(xiàn)在,多重插補(bǔ)法已成為處理無回答的最常用方法。
多重插補(bǔ)法將無回答的不確定性考慮在內(nèi),彌補(bǔ)單重插補(bǔ)法的缺陷,提高了插補(bǔ)結(jié)果的可靠性。常用的多重插補(bǔ)法可分為三類:第一類是基于協(xié)變量相近性匹配的插補(bǔ)法,例如:最近鄰插補(bǔ)法、傾向得分匹配插補(bǔ)法;第二類是利用變量之間相關(guān)關(guān)系的插補(bǔ)法,例如:回歸多重插補(bǔ)法[1-2,13]、預(yù)測均值匹配多重插補(bǔ)法[14-17];第三類是依據(jù)無回答統(tǒng)計(jì)性質(zhì)的插補(bǔ)法,例如:DA多重插補(bǔ)法[16,18]、EMB多重插補(bǔ)法等[19-20]。其中,第一類插補(bǔ)方法在實(shí)際中應(yīng)用范圍最廣泛。相較于其他直接基于協(xié)變量匹配的插補(bǔ)方法,傾向得分匹配插補(bǔ)法是利用傾向得分模型對無回答單元與回答單元進(jìn)行傾向得分匹配,以此來提高插補(bǔ)效率。
傾向得分匹配(Propensity Score Matching,PSM)是由Paul和Rubin提出的基于反事實(shí)推斷模型的協(xié)變量匹配方法[21]。其基本思想是利用Logit或Probit模型估計(jì)處理組與潛在對照組中單元的傾向得分,依據(jù)單元的傾向得分,搜索與處理組單元相匹配的控制組單元以構(gòu)建對照組。PSM模型降低了匹配過程中由于混雜變量產(chǎn)生的影響,消除了系統(tǒng)性偏差,現(xiàn)已被廣泛應(yīng)用于經(jīng)濟(jì)學(xué)政策評價(jià)和因果推斷等研究中。Little首次將PSM模型應(yīng)用于處理無回答問題中,提出了傾向得分匹配插補(bǔ)法(簡記為PSM插補(bǔ)法),將無回答單元?jiǎng)潪樘幚斫M,回答單元?jiǎng)潪閷φ战M,根據(jù)傾向得分的相同或相近,將匹配的回答單元目標(biāo)變量值作為無回答單元的插補(bǔ)值[22]。PSM插補(bǔ)法保留了PSM模型匹配效率高、不易受混雜變量影響的優(yōu)點(diǎn),提高了插補(bǔ)的準(zhǔn)確性。然而,在實(shí)際應(yīng)用中,無回答率往往較低,明顯低于回答率,無回答單元數(shù)量與回答單元數(shù)量相差較大,造成Logit模型會傾向于誤判為多數(shù)單元的類別,降低PSM插補(bǔ)法的可靠性。
針對類別數(shù)據(jù)的非平衡問題,目前最常用的方法是隨機(jī)欠抽樣和隨機(jī)過抽樣。隨機(jī)欠抽樣方法通過隨機(jī)剔除部分多數(shù)類單元來改善數(shù)據(jù)集的非平衡程度,但會造成一定程度的信息損失。隨機(jī)過抽樣方法則通過隨機(jī)復(fù)制少數(shù)類單元,使各類單元數(shù)達(dá)到平衡,但該方法會導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。Chawla等針對上述兩種方法的缺陷提出少數(shù)類過采樣(Synthetic Minority Over-sampling Technique,SMOTE)算法,保留所有多數(shù)類單元,并在相距較近的少數(shù)類單元之間線性合成新的少數(shù)類單元,以改善數(shù)據(jù)集的非平衡程度[23]。因而,SMOTE算法既保留了所有數(shù)據(jù)的信息,又在一定程度上避免了過擬合現(xiàn)象的出現(xiàn)。
綜上,針對PSM插補(bǔ)法在處理無回答單元數(shù)量與回答單元數(shù)量相差較大情況下插補(bǔ)效果不佳的問題,本文創(chuàng)新性地將SMOTE算法的思想應(yīng)用于解決插補(bǔ)問題,提出了一個(gè)新的PSM插補(bǔ)方法,并通過統(tǒng)計(jì)模擬和實(shí)證分析,在僅考慮單一目標(biāo)變量存在無回答的情況下,比較SMOTE-PSM插補(bǔ)法與常用插補(bǔ)方法的插補(bǔ)效果,并分析不同無回答率、插補(bǔ)重?cái)?shù)和誤差分布對插補(bǔ)效果的影響,為解決在實(shí)際應(yīng)用中的無回答問題提供更好選擇。
下面首先總結(jié)SMOTE算法和PSM插補(bǔ)法及其性質(zhì),再給出基于SMOTE算法的PSM插補(bǔ)法。
圖1 SMOTE算法基本原理
SMOTE算法是由Chawla針對非平衡分類數(shù)據(jù)提出的,其基本原理詳見圖1。在非平衡分類數(shù)據(jù)中,多數(shù)單元類稱為正類,少數(shù)單元類稱為負(fù)類。由于正負(fù)兩類單元數(shù)量相差較大,往往造成傳統(tǒng)分類模型的分類精度下降,特別是對于負(fù)類單元,分類模型無法通過訓(xùn)練集數(shù)據(jù)充分?jǐn)M合其內(nèi)在規(guī)律,導(dǎo)致分類精度相對低。SMOTE算法是目前較為經(jīng)典的處理非平衡分類數(shù)據(jù)的一種過抽樣方法,不同于僅對負(fù)類單元進(jìn)行簡單復(fù)制的隨機(jī)過抽樣方法,而是在相距較近的負(fù)類單元之間線性插值產(chǎn)生新的合成單元,平衡分類數(shù)據(jù)集,提高分類模型準(zhǔn)確度。
SMOTE算法的基本假設(shè)為:距離較近負(fù)類單元之間的單元仍為負(fù)類,通過負(fù)類的合成單元來改善數(shù)據(jù)集的平衡程度。其具體過程如下:
第一步,確定單元合成率r。假定正類單元個(gè)數(shù)為n+,負(fù)類單元個(gè)數(shù)為n_,為使數(shù)據(jù)集類別平衡,需要產(chǎn)生負(fù)類的合成單元數(shù)ns=n+-n_,則單元合成率為:
(1)
第二步,計(jì)算負(fù)類單元之間的距離,選取近鄰單元。不失一般性,設(shè)dij表示負(fù)類單元xi與xj之間的歐式距離,對于每一個(gè)負(fù)類單元xi(i=1,2,…,n_),與其他負(fù)類單元的距離向量記為Di=(di1,…,dij,…,di(n_-1)),從中選取dij中最小的b個(gè)單元作為近鄰單元。
第三步,產(chǎn)生負(fù)類的合成單元。在負(fù)類單元xi選取的b個(gè)近鄰單元中,隨機(jī)抽取r個(gè)單元記為xl(l=1,2,…,r),利用xi與xl按照式(2)產(chǎn)生新的合成單元pil:
pil=xi+rand(0,1)×(xl-xi)
(2)
其中,rand(0,1)表示(0,1)之間的隨機(jī)數(shù)。最后將每一個(gè)負(fù)類單元xi的r個(gè)合成單元合并到原數(shù)據(jù)集中,形成新數(shù)據(jù)集。
綜上,SMOTE算法在負(fù)類的鄰近單元之間通過隨機(jī)線性插值產(chǎn)生負(fù)類的合成單元,構(gòu)造的新數(shù)據(jù)集不僅好于原數(shù)據(jù)集的分類平衡程度,還具有更豐富的負(fù)類單元信息,以改善傳統(tǒng)分類模型的擬合效果,提高分類精度。同時(shí),SMOTE算法還避免分類模型出現(xiàn)過擬合現(xiàn)象。
Little將PSM模型應(yīng)用于無回答的插補(bǔ)過程中,提出PSM插補(bǔ)法。PSM插補(bǔ)法的步驟主要分為匹配步和插補(bǔ)步,具體過程如下:
匹配步:將數(shù)據(jù)集中無回答單元視為處理組,回答單元視為對照組,回答與否的標(biāo)記作為響應(yīng)變量,利用Logit或Probit模型對每個(gè)單元的傾向得分進(jìn)行估計(jì),將傾向得分相同或相近的無回答單元與回答單元視為匹配單元。假定數(shù)據(jù)集樣本量為n,觀測變量為{Y,X},其中Y為被解釋變量,X為解釋變量。本文僅考慮被解釋變量Y存在無回答的情況,記Y中的無回答單元和回答單元為{Ymis,Yobs},樣本量為{nmis,nobs},與其對應(yīng)的解釋變量為{Xmis,Xobs},無回答單元集為{Ymis,Xmis},回答單元集為{Yobs,Xobs}。定義標(biāo)識變量為T,其中無回答單元標(biāo)記為1,回答單元標(biāo)記為0,即對于i=1,2,…,n,
利用標(biāo)識變量T與解釋變量X構(gòu)建傾向得分模型,并計(jì)算每個(gè)單元的傾向得分?jǐn)M合值。這里,選擇最常用的Logit模型作為傾向得分模型,有:
(3)
(4)
插補(bǔ)步:計(jì)算無回答單元與回答單元的傾向得分差值,將差值最小的m個(gè)回答單元的被解釋變量值作為無回答單元的m重插補(bǔ)值。假設(shè)無回答單元與回答單元的傾向得分差值為si,j,即對于i=1,2,…,nmis,j=1,2,…,nobs,
(5)
針對每個(gè)無回答單元,將傾向得分差值進(jìn)行排序,
si,1≤si,2≤…≤si,m-1≤si,m≤si,m+1≤…≤si,nobs
(6)
選取差值最小的m個(gè)回答單元的被解釋變量觀測值作為無回答單元的m重插補(bǔ)值。
PSM插補(bǔ)法利用傾向得分對無回答單元與回答單元進(jìn)行匹配,避免了混雜因素的影響,提高了插補(bǔ)的效率和可靠性。
在實(shí)際應(yīng)用中,人們都盡可能降低無回答率,導(dǎo)致調(diào)查數(shù)據(jù)的無回答單元數(shù)量與回答單元數(shù)量差異往往較大,PSM模型的分類精度下降。這里,繼承SMOTE算法處理非平衡數(shù)據(jù)的優(yōu)勢,提出基于SMOTE算法的PSM插補(bǔ)法。目前,處理無回答的方法是基于無回答缺失機(jī)制的假定。在大多數(shù)的實(shí)際應(yīng)用中,隨機(jī)缺失機(jī)制(簡記為MAR)最為常見,故選擇隨機(jī)缺失機(jī)制的假定。由MAR機(jī)制的定義可知:
p(T=1|Y,X)=p(T=1|X)
(7)
即變量的無回答概率僅依賴于完全觀測變量X,與無回答變量Y無關(guān)。例如:居民收入調(diào)查中,受訪者收入數(shù)據(jù)的無回答概率與其年齡有關(guān),年齡是完全觀測變量,則收入數(shù)據(jù)無回答往往為MAR機(jī)制。本文提出的SMOTE-PSM插補(bǔ)法先采用SMOTE算法利用無回答單元合成新的單元,改善數(shù)據(jù)集的非平衡程度,再通過PSM插補(bǔ)法對無回答單元與回答單元進(jìn)行匹配和插補(bǔ)。新方法的具體步驟如下:
第一步,產(chǎn)生合成單元集。根據(jù)回答單元數(shù)量與無回答單元數(shù)量確定合成率r,對于每個(gè)無回答單元{ymis,i,Xmis,i},選取距離最近的b個(gè)無回答單元,從中隨機(jī)抽取r個(gè)單元{ymis,l,Xmis,l},l=1,2,…,r,按照式(2)產(chǎn)生新的合成單元集{ymis,il,Xmis,il}:
{ymis,il,Xmis,il}={ymis,i,Xmis,i}+rand(0,1)×({ymis,l,Xmis,l}-{ymis,i,Xmis,i})
(8)
將合成單元集與原數(shù)據(jù)集組成新數(shù)據(jù)集{YS,XS}。
第二步,利用PSM插補(bǔ)法對無回答單元進(jìn)行插補(bǔ)。數(shù)據(jù)集{YS,XS}包含回答單元、無回答單元和合成單元。基于PSM插補(bǔ)法,將回答單元標(biāo)記為0,劃為對照組;將無回答單元和合成單元標(biāo)記為1,劃為處理組。對于k=1,2,…,n+r×nmis,標(biāo)識變量T(YS)定義為:
利用標(biāo)識變量T(YS)與解釋變量XS,構(gòu)建傾向得分模型,計(jì)算每個(gè)單元的傾向得分?jǐn)M合值,再對無回答單元與回答單元進(jìn)行匹配。將每個(gè)無回答單元的傾向得分差值最小的m個(gè)回答單元的被解釋變量觀測值作為該無回答單元的m重插補(bǔ)值。
本文將SMOTE算法處理非平衡分類數(shù)據(jù)集的優(yōu)勢擴(kuò)展到PSM插補(bǔ)法中,創(chuàng)新性地提出了SMOTE-PSM插補(bǔ)法,解決了無回答單元與回答單元在數(shù)量不平衡時(shí)PSM模型的擬合精度問題。本文提出的SMOTE-PSM插補(bǔ)法不僅保留了PSM插補(bǔ)法不易受混雜變量影響的優(yōu)點(diǎn),也繼承了SMOTE算法的優(yōu)勢,保證了插補(bǔ)的精度。
鑒于無回答真實(shí)值的不可獲得性,本文利用統(tǒng)計(jì)模擬方法研究SMOTE-PSM插補(bǔ)法的統(tǒng)計(jì)性質(zhì)。設(shè)定線性模型產(chǎn)生完整數(shù)據(jù)集,依據(jù)MAR機(jī)制設(shè)置無回答單元,利用SMOTE-PSM插補(bǔ)法對無回答單元進(jìn)行多重插補(bǔ),評價(jià)線性模型系數(shù)估計(jì)的統(tǒng)計(jì)性質(zhì)。設(shè)定的線性模型為:
Y=β0+β1X1+β2X2+β3X3+β4X4+ε
(9)
其中,解釋變量設(shè)定為兩種類型,將X1、X2設(shè)定為連續(xù)變量,分別服從正態(tài)分布N(1,4)和N(10,4),將X3、X4設(shè)定為離散變量,分別服從二項(xiàng)分布B(1,0.8)和B(1,0.6);截距項(xiàng)和解釋變量系數(shù)分別設(shè)定為β0=1,β1=10,β2=1,β3=1,β4=2;誤差項(xiàng)ε的分布分別設(shè)定為正態(tài)分布、T分布和Cauchy分布,以對不同誤差分布假定下的插補(bǔ)效果進(jìn)行比較,設(shè)定數(shù)據(jù)集的樣本量為100。
1.不同插補(bǔ)方法的模擬結(jié)果與分析
在MAR機(jī)制下,單元的無回答概率僅依賴于完全觀測變量,與無回答變量無關(guān)。本文選取X1和X3兩個(gè)不同類型的變量作為無回答概率的依賴變量,對單元進(jìn)行無回答設(shè)定,分別采用SMOTE-PSM插補(bǔ)法和其他比較方法對無回答單元進(jìn)行多重插補(bǔ)。在無回答概率依賴連續(xù)變量X1的情況下,選擇小于變量X1的給定無回答比率分位數(shù)的單元,將目標(biāo)變量值設(shè)定為無回答。在無回答概率依賴于離散變量X3的情況下,借鑒Kropko的方法,利用Logit模型將變量X3的值轉(zhuǎn)換為概率值pi,再按照依賴于連續(xù)變量X1的情況進(jìn)行設(shè)定單元的無回答。在采用SMOTE算法產(chǎn)生新的合成單元時(shí),若無回答率為5%,單元合成率r為18,近鄰個(gè)數(shù)b選為3;若無回答率為20%,單元合成率r為3,b為5。表1和表2分別給出單元無回答概率分別依賴于連續(xù)變量X1和離散變量X3的模擬結(jié)果,其中RE表示系數(shù)估計(jì)的相對誤差,MSE表示系數(shù)估計(jì)的均方誤差。
表1和表2中的模擬結(jié)果顯示,在無回答率與插補(bǔ)重?cái)?shù)的多種組合中,與其他插補(bǔ)方法相比,基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)的相對誤差和均方誤差最小。在無回答率為5%時(shí),SMOTE-PSM插補(bǔ)法明顯優(yōu)于其他插補(bǔ)方法。
表1 無回答概率依賴于連續(xù)變量X1的模擬結(jié)果
表2 無回答概率依賴于離散變量X3的模擬結(jié)果
由表1和表2的比較分析可知,在無回答率一定或插補(bǔ)重?cái)?shù)一定的情況下,五種插補(bǔ)方法的模擬結(jié)果表現(xiàn)特征相同。在給定無回答率的情況下,基于PSM插補(bǔ)法、響應(yīng)傾向得分匹配插補(bǔ)法和最近鄰插補(bǔ)法的系數(shù)估計(jì)相對誤差和均方誤差,都隨著插補(bǔ)重?cái)?shù)增加,呈現(xiàn)出遞增趨勢。而回歸插補(bǔ)法相應(yīng)的相對誤差和均方誤差未呈現(xiàn)明顯的變化趨勢。SMOTE-PSM插補(bǔ)法在不同無回答率下呈現(xiàn)不同的特征。在無回答率為5%的情況下,基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)相對誤差和均方誤差無明顯遞減趨勢;而在無回答率為20%的情況下,插補(bǔ)效果呈現(xiàn)下降趨勢。在插補(bǔ)重?cái)?shù)為30時(shí),插補(bǔ)效果更優(yōu)良。從相對誤差和均方誤差的變動(dòng)幅度來看,PSM插補(bǔ)法和最近鄰插補(bǔ)法受插補(bǔ)重?cái)?shù)的影響較大,響應(yīng)傾向得分匹配插補(bǔ)法和回歸插補(bǔ)法次之,SMOTE-PSM插補(bǔ)法的相對誤差和均方誤差變動(dòng)幅度最小,受插補(bǔ)重?cái)?shù)的影響小。
在給定插補(bǔ)重?cái)?shù)的情況下,基于五種插補(bǔ)法的模型系數(shù)估計(jì)相對誤差和均方誤差,在無回答率為20%的情況下均高于無回答率為5%的情況。其中,基于PSM插補(bǔ)法和回歸插補(bǔ)法在兩種給定無回答率下的系數(shù)估計(jì)相對誤差和均方誤差的變動(dòng)幅度較大,響應(yīng)傾向得分匹配插補(bǔ)法和最近鄰插補(bǔ)法次之,SMOTE-PSM插補(bǔ)法的變動(dòng)小,說明無回答率對SMOTE-PSM插補(bǔ)法的影響小,插補(bǔ)效果較為穩(wěn)健。
綜上可知,無論單元無回答概率依賴于連續(xù)變量還是離散變量,在無回答率與插補(bǔ)重?cái)?shù)的多種組合中,基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)的相對誤差和均方誤差最小,并且在不同無回答率和插補(bǔ)重?cái)?shù)下,系數(shù)估計(jì)的相對誤差和均方誤差變動(dòng)幅度最小,插補(bǔ)效果穩(wěn)定。
2.不同誤差分布假定下的模擬結(jié)果
為了分析誤差分布對SMOTE-PSM插補(bǔ)法的插補(bǔ)效果影響,分別選擇T分布、Cauchy分布和正態(tài)分布作為誤差分布,進(jìn)行模擬研究。為了簡潔展示模擬結(jié)果,給出無回答率20%、插補(bǔ)重?cái)?shù)5組合下的模擬結(jié)果,見表3和表4。其中,非正態(tài)誤差分布假定下的系數(shù)估計(jì)采用極大似然估計(jì)方法。
表3 不同誤差假定的模擬結(jié)果(無回答概率依賴于連續(xù)變量X1)
表4 不同誤差假定的模擬結(jié)果(無回答概率依賴于離散變量X3)
表3給出單元無回答概率依賴于連續(xù)變量X1的五種插補(bǔ)方法的模擬結(jié)果。從系數(shù)估計(jì)的相對誤差和均方誤差來看,在三種誤差分布假定下,回歸插補(bǔ)法的插補(bǔ)效果最差。基于SMOTE-PSM插補(bǔ)法的系數(shù)估計(jì)相對誤差和均方誤差最小,受誤差分布影響小,系數(shù)估計(jì)量的變動(dòng)幅度最小。表4給出單元無回答概率依賴于離散變量X3的五種插補(bǔ)法的模擬結(jié)果,與單元無回答概率依賴于連續(xù)變量X1的模擬結(jié)果相似。從系數(shù)估計(jì)的相對誤差和均方誤差來看,回歸插補(bǔ)法、最近鄰插補(bǔ)法和PSM插補(bǔ)法的插補(bǔ)效果較差,且回歸插補(bǔ)法和PSM插補(bǔ)法易受誤差分布的影響?;赟MOTE-PSM插補(bǔ)法的系數(shù)估計(jì)的相對誤差和均方誤差明顯低于其他四種插補(bǔ)法,受誤差分布影響最小,誤差分布對系數(shù)估計(jì)的變動(dòng)幅度影響最小。綜上可知,在多種誤差分布假定下,SMOTE-PSM插補(bǔ)法的插補(bǔ)效果最優(yōu),系數(shù)估計(jì)的相對誤差和均方誤差小,變化幅度小,插補(bǔ)效果穩(wěn)定。
由上可知,本文所提出的SMOTE-PSM插補(bǔ)法在各誤差分布假定下的插補(bǔ)效果最優(yōu),并且不同誤差分布假定下的系數(shù)估計(jì)相對誤差和均方誤差變化幅度小,受誤差分布的影響小,插補(bǔ)效果穩(wěn)定。從不同誤差分布來看,SMOTE-PSM插補(bǔ)法在正態(tài)分布和T分布假定下的插補(bǔ)效果較好,且兩者較為接近。
下面驗(yàn)證SMOTE-PSM插補(bǔ)法在Grilic(1)數(shù)據(jù)下載網(wǎng)址為:https:∥github.com/Stata-Club/Sharing-Center-of-Stata-Club。真實(shí)數(shù)據(jù)集中的應(yīng)用效果。Grilic數(shù)據(jù)集由12個(gè)觀測變量和758個(gè)觀測組成,用于研究年輕男子工資的影響因素。這里,選取Lw(工資對數(shù))作為被解釋變量,Kww(在“Knowledge of the World of Work”中的測試成績)、IQ(智商)、Smsa(大城市虛擬變量,住在大城市=1)和Mrt(婚姻虛擬變量,已婚=1)作為解釋變量,其中Kww和IQ為連續(xù)型變量,Smsa和Mrt為離散型變量。選擇的線性模型為:
Lw=α0+α1Kww+α2IQ+α3Smsa+α4Mrt+ε
(10)
表5給出了Grilic數(shù)據(jù)集在MAR機(jī)制下利用SMOTE-PSM插補(bǔ)法的實(shí)證結(jié)果。Grilic完整數(shù)據(jù)集的模型系數(shù)估計(jì)值在顯著性水平5%下均顯著為正,表明年輕男性群體中,在“Knowledge of the World of Work”測試中的成績越高,智商越高,所能獲得的期望工資越高;居住在大城市比居住在小城市獲得的期望工資高;已婚狀態(tài)比未婚狀態(tài)獲得的期望工資高。第3~18行給出了從Grilic數(shù)據(jù)集中簡單隨機(jī)抽取100個(gè)觀測依賴于解釋變量Kww、IQ、Smsa、Mrt缺失情況下的實(shí)證結(jié)果,由于從Grilic完整數(shù)據(jù)集中重復(fù)隨機(jī)抽取100個(gè)觀測進(jìn)行無回答設(shè)定,會導(dǎo)致系數(shù)估計(jì)的方差擴(kuò)大,大于選用完整數(shù)據(jù)集的系數(shù)估計(jì)標(biāo)準(zhǔn)誤。
表5 Grilic數(shù)據(jù)集的分析結(jié)果
微觀調(diào)查數(shù)據(jù)集中常常存在一定程度的無回答,且很難避免。無回答會嚴(yán)重影響調(diào)查數(shù)據(jù)的質(zhì)量和分析結(jié)果的可靠性。PSM插補(bǔ)法作為處理無回答數(shù)據(jù)的常用多重插補(bǔ)方法,利用PSM模型對無回答單元與回答單元進(jìn)行匹配,實(shí)現(xiàn)無回答數(shù)據(jù)的插補(bǔ),具有不易受混雜變量影響的優(yōu)點(diǎn)。但是,實(shí)際應(yīng)用中,調(diào)查數(shù)據(jù)的無回答率往往較低,無回答單元數(shù)量與回答單元數(shù)量相差較大,會造成PSM模型的匹配效果下降,降低PSM插補(bǔ)法的可靠性。
本文為了提高實(shí)際應(yīng)用中無回答單元數(shù)量明顯低于回答單元數(shù)量情況下PSM插補(bǔ)法的插補(bǔ)效果,將SMOTE算法處理非平衡數(shù)據(jù)集的優(yōu)勢引入PSM插補(bǔ)法,提出基于合成少數(shù)類過采樣的傾向得分匹配插補(bǔ)法,即SMOTE-PSM插補(bǔ)法。新插補(bǔ)法保留了PSM插補(bǔ)法的優(yōu)點(diǎn),并融合了SMOTE算法的優(yōu)勢,改善了非平衡分類數(shù)據(jù)的擬合性能,提高了插補(bǔ)效果。統(tǒng)計(jì)模擬結(jié)果演示,SMOTE-PSM插補(bǔ)法的插補(bǔ)效果明顯提高,且不易受誤差分布的影響,提高了插補(bǔ)的有效性及穩(wěn)健性。實(shí)證結(jié)果表明,SMOTE-PSM插補(bǔ)法在實(shí)際數(shù)據(jù)Grilic中同樣具有較好的可應(yīng)用性,能夠有效解決數(shù)據(jù)無回答問題,得出可靠的分析結(jié)果。本文的研究為PSM插補(bǔ)法在非平衡分類數(shù)據(jù)中的應(yīng)用提供了新思路,可將其推廣到政策評價(jià)和因果推斷等數(shù)據(jù)分析中。