王 峰,米子川
(山西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,山西 太原 030006)
在大數(shù)據(jù)日益成為歸納性統(tǒng)計(jì)研究的主流時(shí),以小數(shù)據(jù)為特征的微觀調(diào)查數(shù)據(jù)也再次成為演繹性抽樣估計(jì)關(guān)注的焦點(diǎn)。一般認(rèn)為,大數(shù)據(jù)告訴我們“是什么”,小數(shù)據(jù)則可以告訴我們“為什么”。2018年中國國家統(tǒng)計(jì)局與清華大學(xué)共同建立了國家統(tǒng)計(jì)局-清華大學(xué)數(shù)據(jù)開發(fā)中心,對(duì)“規(guī)模以上工業(yè)企業(yè)財(cái)務(wù)狀況年度調(diào)查”“住戶收支調(diào)查”等多個(gè)微觀調(diào)查數(shù)據(jù)和普查數(shù)據(jù)進(jìn)行開發(fā)應(yīng)用研究。此外還有諸如中國家庭追蹤調(diào)查(CFPS)、中國健康與養(yǎng)老追蹤調(diào)查(CHARLS)、中國綜合社會(huì)調(diào)查(CGSS)以及中國家庭金融調(diào)查(CHFS)等等一大批有影響力的微觀調(diào)查數(shù)據(jù)。這些眾多的微觀調(diào)查數(shù)據(jù),幾乎全部是采用復(fù)雜抽樣方法得到的。在實(shí)際的調(diào)查中,由于受到調(diào)查目的、估計(jì)精度、調(diào)查費(fèi)用和可操作性等調(diào)查要求的限制,需要采用分層、整群、不等概率和多階段等多種抽樣方法相結(jié)合的抽樣設(shè)計(jì),來提高抽樣效率和樣本的代表性。我們把除單純的簡單隨機(jī)抽樣方法外,由其他多種抽樣方法組合而成的抽樣方式稱為復(fù)雜抽樣,由此得到的樣本為復(fù)雜樣本。這里的“復(fù)雜”指的是抽樣設(shè)計(jì)的特征偏離了放回簡單隨機(jī)抽樣的設(shè)計(jì)特征,而在有限總體的抽樣框中放回簡單隨機(jī)抽樣所獲得的數(shù)據(jù)就是獨(dú)立同分布的數(shù)據(jù)[1]。顯然復(fù)雜抽樣數(shù)據(jù)不是獨(dú)立同分布數(shù)據(jù),其入樣概率多為不等概率,因此需要引入抽樣權(quán)數(shù)對(duì)復(fù)雜抽樣數(shù)據(jù)做系列調(diào)整。抽樣權(quán)數(shù)中的基礎(chǔ)權(quán)數(shù),也就是單元入樣概率的倒數(shù),可用于調(diào)整由于復(fù)雜設(shè)計(jì)帶來的不等概率的偏差。更進(jìn)一步,統(tǒng)計(jì)學(xué)家在考慮無回答、抽樣框覆蓋偏差等因素時(shí),需要對(duì)抽樣權(quán)數(shù)做進(jìn)一步調(diào)整,形成最終的抽樣權(quán)數(shù)。
很顯然,在估計(jì)總體均值或比例等一些描述性分析時(shí),抽樣權(quán)數(shù)是避免偏差必不可少的重要因素[2-4]。但是,在研究解釋變量和被解釋變量關(guān)系的模型中是否應(yīng)該考慮抽樣權(quán)數(shù),一直存有爭議[5-7]。近年來,對(duì)于抽樣權(quán)數(shù)和回歸模型也有集中性的討論[8-15]。應(yīng)用抽樣權(quán)數(shù)的優(yōu)勢是明顯的。首先能使樣本較好地代表總體,至少在一些重要特征上樣本的分布與總體的分布趨于一致,且在一般情況下,加權(quán)后的估計(jì)量是其總體參數(shù)的無偏估計(jì);其次,引入抽樣權(quán)數(shù)可以方便調(diào)整樣本信息,使樣本數(shù)據(jù)的應(yīng)用更加靈活。當(dāng)然,應(yīng)用抽樣權(quán)數(shù)進(jìn)行調(diào)整也存在明顯缺陷:首先增加了估計(jì)量的標(biāo)準(zhǔn)誤,從而導(dǎo)致估計(jì)的不穩(wěn)定性與精度的降低;其次是抽樣權(quán)數(shù)變化越大,其設(shè)計(jì)效應(yīng)(Kishs deff)也越大。因此,在沒有必要應(yīng)用抽樣權(quán)數(shù)的情況下,引入抽樣權(quán)數(shù)可能不僅不會(huì)使偏差減少,反而會(huì)造成估計(jì)量有效性的降低。另一方面,如果在應(yīng)該加入抽樣權(quán)數(shù)的情況下,沒有加入抽樣權(quán)數(shù),可能會(huì)使估計(jì)量產(chǎn)生更大偏差。
那么,在什么情況下應(yīng)該使用抽樣權(quán)數(shù)呢?更進(jìn)一步,使用復(fù)雜調(diào)查數(shù)據(jù)建立解釋變量和被解釋變量關(guān)系模型中是否應(yīng)該使用抽樣權(quán)數(shù)?Bollen認(rèn)為大體分三類:一類主要來自生物統(tǒng)計(jì)、公共衛(wèi)生和抽樣調(diào)查領(lǐng)域的學(xué)者,一般使用抽樣權(quán)數(shù);另一類來自經(jīng)濟(jì)社會(huì)領(lǐng)域(包括計(jì)量經(jīng)濟(jì))的學(xué)者,一般不考慮抽樣權(quán)數(shù);還有一小部分學(xué)者可能用也可能不用權(quán)數(shù)[2]。Chambers和Skinner認(rèn)為目前還沒有一個(gè)明確的答案[16]。本文將從抽樣權(quán)數(shù)的低效性和抽樣權(quán)數(shù)影響的顯著性入手,在平衡兩者得失的基礎(chǔ)上,給出一個(gè)判斷是否使用權(quán)數(shù)的思路,作為解決上述問題的一個(gè)參考,這也是本文的一個(gè)創(chuàng)新之處。
一般地,引入抽樣權(quán)數(shù)的估計(jì)量會(huì)滿足無偏性,但在通常情況下,其方差也會(huì)變大。Korn給出了引入抽樣權(quán)數(shù)所帶來的方差增大情況的測度指標(biāo),即抽樣權(quán)數(shù)低效性的測量,并給出了近似計(jì)算公式[17]。但是多數(shù)統(tǒng)計(jì)學(xué)家仍傾向于通過抽樣權(quán)數(shù)對(duì)模型造成的影響進(jìn)行測度,以此來決定抽樣權(quán)數(shù)的取舍。從該測度的方法角度可以分為直接測度(系數(shù)差異性的檢驗(yàn))和間接測度(抽樣權(quán)數(shù)輔助檢驗(yàn))。接下來,通過分析抽樣權(quán)數(shù)低效性和抽樣權(quán)數(shù)影響的顯著性,在其各自適用性和優(yōu)缺點(diǎn)的基礎(chǔ)上,得到抽樣權(quán)數(shù)可忽略性的檢驗(yàn)思路。
(1)
(2)
該公式來源于Korn,這里的CV是樣本權(quán)數(shù)的變異系數(shù)。低效性的檢驗(yàn)來自如下邏輯:我們當(dāng)然希望有一個(gè)無偏估計(jì)量,但是如果因?yàn)闊o偏而造成的方差(均方誤差)過大,我們還是選擇一個(gè)有偏估計(jì)量。這個(gè)低效性的計(jì)算就是測算這個(gè)方差(均方誤差)大多少,如果沒大多少,我們應(yīng)該選擇無偏估計(jì)量,即應(yīng)該使用抽樣權(quán)數(shù)。如果低效性很大了,說明加入權(quán)數(shù)后造成的方差(均方誤差)太大了,我們放棄無偏性,選擇有效性,即不應(yīng)該加入權(quán)數(shù)。
那么到底方差(均方誤差)大多少就是太大了呢?目前還沒有一個(gè)客觀的標(biāo)準(zhǔn),但是可以從以下幾個(gè)方面去考慮:
從低效性的絕對(duì)程度看:Korn認(rèn)為,5%到10%的低效性在實(shí)際應(yīng)用中不是很大[17]。本文認(rèn)為,考慮到當(dāng)前抽樣設(shè)計(jì)的復(fù)雜性,尤其是為降低抽樣成本以及無回答因素所帶來的抽樣設(shè)計(jì)上的復(fù)雜化,不超過30%的低效性,在實(shí)際中都會(huì)認(rèn)為不是很大。這一點(diǎn)在本文后續(xù)的國內(nèi)外數(shù)據(jù)測算中得到驗(yàn)證。
從低效性對(duì)估計(jì)量期望精度的影響看:例如,在75%的低效性下,使估計(jì)2%的標(biāo)準(zhǔn)誤從0.01%增加一倍到了0.02%,不會(huì)認(rèn)為是不可接受的大。同樣75%的低效性下,使估計(jì)2%的標(biāo)準(zhǔn)誤從0.5%增加一倍到了1%,這一般會(huì)認(rèn)為大到了無法接受的程度[17]。
從未加權(quán)估計(jì)量偏差的期望大小來看:如果能夠準(zhǔn)確估計(jì)未加權(quán)估計(jì)量的偏差,則可以考慮用偏差幫助選擇是否加權(quán)。即使不能從數(shù)據(jù)中足夠準(zhǔn)確地估計(jì)出偏差,若能從理論上說明對(duì)于某些類型的參數(shù),偏差可能會(huì)很小。例如,在估計(jì)兩個(gè)均值或比例的差異時(shí),偏差會(huì)比估計(jì)單個(gè)均值或比例時(shí)小。在這些情況下,即期望偏差很小時(shí),一般不會(huì)特別反對(duì)使用未加權(quán)估計(jì)量。
總的來看,從抽樣權(quán)數(shù)低效性測量的角度來判斷是否應(yīng)該使用抽樣權(quán)數(shù),還是需要研究者的主觀判斷,不同的使用者可能會(huì)有不同的結(jié)果;另外,在實(shí)際的應(yīng)用中,出于計(jì)算方便,一般采用近似計(jì)算,在某些情況下可能存在誤導(dǎo)(參見例子[17])。但是,低效性測量的優(yōu)勢也是明顯的,首先低效性測量不依賴于所采用的推斷方法或模型,這樣適用性就很強(qiáng);另外低效性的計(jì)算只依賴于抽樣權(quán)數(shù)的分布且計(jì)算簡單方便。
以上是根據(jù)抽樣權(quán)數(shù)對(duì)估計(jì)量方差(均方誤差)的影響,來判斷是否使用抽樣權(quán)數(shù)。另外一個(gè)思路是通過比較回歸模型中加權(quán)和未加權(quán)的系數(shù)是否有顯著差異來判斷是否需要加權(quán),或者將權(quán)數(shù)置于模型中判斷其是否顯著。
2.抽樣權(quán)數(shù)輔助檢驗(yàn)(Weight Association Tests)。Hausman曾建議評(píng)估其他形式的方程Y=Xβ+XMβM+ε中βM的顯著性來判斷設(shè)定誤差[18]。這里的XM是X的一個(gè)合適變形。用F檢驗(yàn)H0:βM=0來檢驗(yàn)設(shè)定誤差。另外,與一般多元回歸的假定類似,使用F檢驗(yàn)需要我們假定ε來自于正態(tài)分布。盡管Hausman建議用這樣一個(gè)形式去檢驗(yàn)各種設(shè)定誤差,但他并沒有考慮用它做加權(quán)檢驗(yàn)。
Dumouchel等利用Hausman的回歸方法并將其用于確定是否加權(quán)[20-21]。再次考慮方程Y=Xβu+Xwβw+ε,這里Y是被解釋變量的向量值,X是未加權(quán)的解釋變量陣對(duì)應(yīng)的系數(shù)為βu,Xw是相同解釋變量陣對(duì)應(yīng)的加權(quán)系數(shù)為βw,ε是誤差向量。Dumouchel and Duncan建議用OLS估計(jì)這個(gè)回歸模型然后用F檢驗(yàn)H0:βM=0去檢驗(yàn)是否需要權(quán)數(shù),拒絕原假設(shè)意味著需要加權(quán)。可以看出盡管Hausman并沒有這么做,作為權(quán)數(shù)輔助檢驗(yàn)(WA檢驗(yàn))的Dumouchel和Duncan和Fuller的F檢驗(yàn)回歸法都是遵循Hausman替代基于回歸的設(shè)定誤差檢驗(yàn)。Fuller將這一方法做了一個(gè)改變,推薦用回歸Y=Xβu+Wα+ε,這里W是權(quán)數(shù)變量,檢驗(yàn)其系數(shù)α是否顯著非零。
在得到調(diào)查數(shù)據(jù)的抽樣權(quán)數(shù)后,其分布就容易直觀得到。加之低效性的判斷不依賴于所采用的模型方法,因此在判斷抽樣權(quán)數(shù)是否可以忽略時(shí),首先計(jì)算抽樣權(quán)數(shù)的低效性,并根據(jù)前述內(nèi)容做出低效性是否可以接受的判斷。
為給出低效性的一個(gè)一般經(jīng)驗(yàn)水平,這里給出了一些常見分布下的抽樣權(quán)數(shù)頻數(shù)分布圖。樣本量取1 000,見圖1,從上往下依次為:均勻分布 [U(a=1,b=1 000)] 、正態(tài)分布 [N(μ=1 000,σ2=10)] 、二項(xiàng)分布 [B(n=50,p=0.25)] 、指數(shù)分布 [e(λ=0.1)] 、卡方分布 [χ2(3)] 、Possion分布 [P(λ=4)]抽樣權(quán)數(shù)的頻數(shù)分布圖。因?yàn)檫@里都是權(quán)數(shù)所以不是整數(shù)的全部取最大整數(shù)。
圖1常見分布下的權(quán)數(shù)分布圖
考慮到常數(shù)分布很簡單,為一條水平直線,這里沒有畫出。對(duì)于常數(shù)分布,樣本權(quán)數(shù)的低效性顯然為零。因?yàn)榇藭r(shí)的樣本就是等概率抽選,也可以認(rèn)為樣本是自加權(quán)的,不存在因?yàn)闄?quán)數(shù)的引入而造成估計(jì)量標(biāo)準(zhǔn)誤的增大。因此,抽樣權(quán)數(shù)的低效性為零,公式的計(jì)算結(jié)果也為零。可以認(rèn)為,在不考慮抽樣權(quán)數(shù)的調(diào)查數(shù)據(jù)分析時(shí),都是默認(rèn)抽樣權(quán)數(shù)為常數(shù),這顯然可能會(huì)低估估計(jì)量的標(biāo)準(zhǔn)誤,更主要的是通常會(huì)失去估計(jì)量無偏性。一般情況下,抽樣權(quán)數(shù)的分布不會(huì)是常數(shù),除樣本是自加權(quán)樣本外,均會(huì)產(chǎn)生抽樣權(quán)數(shù)低效性的發(fā)生,這里測算了以上幾種常見參數(shù)分布的抽樣權(quán)數(shù)的低效性,見表1。
表1 抽樣權(quán)數(shù)在常見分布下的低效性
① 這里需要說明的是“再抽樣權(quán)數(shù)”與抽樣權(quán)數(shù)一樣僅僅是一個(gè)公布的權(quán)數(shù)。因?yàn)橹袊彝プ粉櫿{(diào)查(CFPS)抽樣設(shè)計(jì)的復(fù)雜性,調(diào)查數(shù)據(jù)清理和加權(quán)調(diào)整也異常復(fù)雜,耗時(shí)較長,無法滿足研究者對(duì)調(diào)查數(shù)據(jù)進(jìn)行快速分析的需求。因此,在中國家庭追蹤調(diào)查的數(shù)據(jù)庫中包含了一個(gè)再整合數(shù)據(jù)庫,即對(duì)5個(gè)“大省”進(jìn)行再抽樣調(diào)整樣本,使5個(gè)“大省”的抽樣比與“小省”的抽樣比近似相同,以便在沒有及時(shí)獲得抽樣權(quán)數(shù)的情況下利用再抽樣調(diào)查權(quán)數(shù)去推斷總體。
以上圖形可以從便捷的角度給出實(shí)踐中抽樣權(quán)數(shù)分布的直觀認(rèn)知。即實(shí)際中可以很方便的畫出抽樣權(quán)數(shù)的頻數(shù)分布圖,如果這個(gè)分布圖與上述的某個(gè)圖形類似,就可以相應(yīng)的得到抽樣權(quán)數(shù)低效性的一般認(rèn)知。
由于抽樣權(quán)數(shù)的分布圖形只是對(duì)抽樣權(quán)數(shù)低效性判斷的一般認(rèn)知,具有很強(qiáng)的主觀性,多數(shù)情況下甚至是無法做出判斷,因此這里綜合抽樣權(quán)數(shù)的低效性和抽樣權(quán)數(shù)影響的顯著性,提出一個(gè)檢驗(yàn)抽樣權(quán)數(shù)可忽略性的判斷路徑,見圖2。
當(dāng)抽樣權(quán)數(shù)的分布為正態(tài)分布[N(μ=1 000,σ2= 10) ]、二項(xiàng)分布[B(n= 50,p= 0.25) ]和Possion分布[P(λ=4)]時(shí),抽樣權(quán)數(shù)的低效性比較小,也就是說考慮抽樣權(quán)數(shù)對(duì)估計(jì)量標(biāo)準(zhǔn)誤的影響很小,甚至可以忽略不計(jì),這時(shí)候應(yīng)該使用抽樣權(quán)數(shù),即在保證估計(jì)量無偏的情況下,不會(huì)對(duì)標(biāo)準(zhǔn)誤產(chǎn)生很大影響;如果抽樣權(quán)數(shù)的分布為指數(shù)分布[e(λ=0.1)]時(shí),此時(shí)的抽樣權(quán)數(shù)無效性達(dá)到了44.6%在這種情況下就要格外謹(jǐn)慎,雖然考慮抽樣權(quán)數(shù)能使估計(jì)量無偏,但此時(shí)估計(jì)量的穩(wěn)健性會(huì)較差。通常會(huì)選擇穩(wěn)健性,而放棄考慮抽樣權(quán)數(shù)。當(dāng)然也可以選擇重新構(gòu)建研究的子總體,獲取新的抽樣權(quán)數(shù)重新判斷; 如果抽樣分布類似均勻分布[U(a=1,b=1 000) ]和卡方分布[χ2(3)]時(shí),低效性達(dá)到了24.5%和25%,此時(shí)考慮抽樣權(quán)數(shù)可能會(huì)影響到估計(jì)量的標(biāo)準(zhǔn)誤,至于影響的大小是否能夠接受,可以用上述假設(shè)檢驗(yàn)的方法去檢驗(yàn)。但為什么不直接用該假設(shè)檢驗(yàn)來判斷呢?原因有二:一是低效性的判斷方便快捷不依賴于所采用的方法;二是假設(shè)檢驗(yàn)的判斷,目前還局限于回歸模型的分析中,雖然對(duì)其他模型的構(gòu)建可以提供參考,但當(dāng)前還沒有證明該假設(shè)檢驗(yàn)可以應(yīng)用于其他一切模型。
圖2 抽樣權(quán)數(shù)可忽略性的判斷路徑圖
CFPS是北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心主持的追蹤調(diào)查項(xiàng)目之一,調(diào)查對(duì)象是中國的25個(gè)省市自治區(qū)的家庭戶和家庭戶中的所有滿足調(diào)查條件的家庭成員。在抽樣設(shè)計(jì)上采用三階段、不等概率的整群抽樣設(shè)計(jì)[22]。本文以CFPS2010的數(shù)據(jù)為例,來說明抽樣權(quán)數(shù)可忽略性檢驗(yàn)。
首先利用抽樣權(quán)數(shù)的分布圖做一個(gè)直觀的分析,圖3中左側(cè)圖形為中國家庭抽樣權(quán)數(shù)分布圖右側(cè)為中國家庭再抽樣權(quán)數(shù)①分布圖。這兩個(gè)圖形都與常數(shù)分布差的很遠(yuǎn),與圖1中正態(tài)分布[N(μ=1 000,σ2=10)]、二項(xiàng)分布[B(n=50,p=0.25)]相差也比較大,與卡方分布[χ2(3)]類似,因此其低效性都不會(huì)很小。對(duì)比兩個(gè)圖形,再抽樣權(quán)數(shù)的低效性要大于抽樣權(quán)數(shù)低效性。
圖3 全國家庭抽樣和再抽樣權(quán)數(shù)分布圖
這里根據(jù)式(2),對(duì)CFPS2010的抽樣調(diào)查數(shù)據(jù)中的家庭權(quán)數(shù)和家庭再抽樣權(quán)數(shù)的低效性做進(jìn)一步分類測算,結(jié)果見表2。可以看出中國家庭的抽樣權(quán)數(shù)的低效性為26.208%;其中城鎮(zhèn)家庭抽樣權(quán)數(shù)的低效性低于全國水平為25.422%;農(nóng)村家庭抽樣權(quán)數(shù)的低效性高于全國水平為26.627%。同時(shí)也可以看出,家庭再抽樣的權(quán)數(shù)低效性較高,全國、城鎮(zhèn)和農(nóng)村家庭的再抽樣權(quán)數(shù)低效性分別為34.537%、34.676%和33.702%。無論是抽樣權(quán)數(shù)還是再抽樣的權(quán)數(shù),低效性雖然不小,但也沒有大到無法接受的程度。根據(jù)筆者掌握的國外抽樣權(quán)數(shù)低效性的測算結(jié)果:美國國家健康和營養(yǎng)調(diào)查(NHANES)中,NHANESII中2~18歲男孩抽樣權(quán)數(shù)的低效性是34%;NHANESI中25~74歲女性抽樣權(quán)數(shù)的低效性是48%;美國國民健康訪問調(diào)查(NHIS1987)18歲以上男性的抽樣權(quán)數(shù)的低效性是22%。為便于與國外比較,我們也計(jì)算了CFPS2010中25~74歲女性抽樣權(quán)數(shù)的低效性是26.451%,18歲以上男性的抽樣權(quán)數(shù)的低效性是26.131%,前者比美國同一指標(biāo)低,后者略高。
表2 農(nóng)村、城鎮(zhèn)及全國家庭抽樣權(quán)數(shù)的低效性單位:%
① 對(duì)于缺失數(shù)據(jù)可以考慮多種方法去插補(bǔ),由于這些缺失值對(duì)權(quán)數(shù)的分布影響不大,因此本文直接刪除處理;對(duì)于家庭消費(fèi)小于100元的家庭,CFPS用戶手冊(cè)中說明對(duì)其做過插補(bǔ)處理,但數(shù)據(jù)中仍然有6個(gè)家庭的消費(fèi)小于100元,這里也刪除處理。
為了做進(jìn)一步檢驗(yàn),我們計(jì)算了家庭消費(fèi)和家庭收入調(diào)整后的抽樣權(quán)數(shù)的低效性。這里面的調(diào)整主要包括刪除了家庭消費(fèi)和家庭收入中的缺失數(shù)據(jù),也刪除了家庭消費(fèi)在100元以下的數(shù)據(jù)①。經(jīng)過這樣的調(diào)整,抽樣權(quán)數(shù)略微有些變化,見表2。調(diào)整后城鎮(zhèn)家庭抽樣權(quán)數(shù)的低效性均高于農(nóng)村家庭抽樣權(quán)數(shù)的低效性,但低效性的變化都不是很大。
接下來我們測算了不同規(guī)模家庭的抽樣權(quán)數(shù)的低效性。根據(jù)家庭成員數(shù)將家庭規(guī)模劃分為:家1為1位家庭成員、家2為2位家庭成員,以此得到家6及以上為家庭成員數(shù)為6位及以上。從表3可以看出,雖然不同家庭規(guī)模的樣本量差異較大,一位家庭成員的家庭樣本數(shù)為728,三位家庭成員的家庭樣本數(shù)為33 556,但它們的抽樣權(quán)數(shù)的低效性都不是非常大,都沒有超過30%。
表3 按家庭人口數(shù)劃分的抽樣權(quán)數(shù)的低效性
因此,無論是家庭抽樣權(quán)數(shù)還是成人抽樣權(quán)數(shù),以及不同規(guī)模家庭的抽樣權(quán)數(shù),低效性都不是特別的大。因此,我們?cè)谑褂谜{(diào)查數(shù)據(jù)時(shí),應(yīng)該考慮抽樣權(quán)數(shù),這樣既可以得到一個(gè)無偏估計(jì)量,同時(shí)其有效性也不會(huì)降低很多。
由前面的分析可知,在考慮家庭收入和消費(fèi)時(shí),由于刪除了缺失數(shù)據(jù)和家庭消費(fèi)小于100元的數(shù)據(jù)后,抽樣權(quán)數(shù)的分布有了略微的變化。但抽樣權(quán)數(shù)的低效性依然不是很大,因此從低效性的角度看,我們應(yīng)該考慮抽樣權(quán)數(shù)。為對(duì)上述思路與路徑做完整的分析,接下來從抽樣權(quán)數(shù)影響的顯著性水平來檢驗(yàn)抽樣權(quán)數(shù)是否可以忽略。即假設(shè)認(rèn)為抽樣權(quán)數(shù)低效性的大小無法判斷,則通過假設(shè)檢驗(yàn)來判斷。
這里利用權(quán)數(shù)輔助檢驗(yàn)的方法,選取Dumouchel和Duncan所述方法對(duì)上述數(shù)據(jù)的抽樣權(quán)數(shù)是否應(yīng)該引入模型進(jìn)行檢驗(yàn)。Dumouchel和Duncan是將權(quán)數(shù)及權(quán)數(shù)與解釋變量的交互作用引入模型,利用F檢驗(yàn)其系數(shù)是否全部為零來判斷抽樣權(quán)數(shù)是否可以忽略。因?yàn)闄?quán)數(shù)輔助檢驗(yàn)需要依據(jù)模型來檢驗(yàn),由前述數(shù)據(jù),這里對(duì)家庭消費(fèi)和支出建立線性模型來檢驗(yàn)抽樣權(quán)數(shù)的可忽略性。
表4 家庭支出關(guān)于家庭收入的線性模型比較
注:***表示在1%水平上顯著。
為全面展示抽樣權(quán)數(shù)可忽略性的判斷路徑圖,這里給出了另外一種情況,即抽樣權(quán)數(shù)是可忽略的。依然以CFPS2010的數(shù)據(jù)為例,選取cyear指標(biāo)為抽樣權(quán)數(shù)。這其實(shí)相當(dāng)于認(rèn)為CFPS2010的數(shù)據(jù)是等概率抽選的,這也是在實(shí)際中,微觀調(diào)查數(shù)據(jù)建模時(shí)經(jīng)常默認(rèn)的,即數(shù)據(jù)是等概率抽樣獲取的,因此抽樣權(quán)數(shù)可以忽略。利用Dumouchel和Duncan所建議的檢驗(yàn)方法,計(jì)算得到F(2,8 188) = 1.411,P=0.244,在0.1的顯著性水平下,我們不能拒絕,由此得出cyear作為權(quán)數(shù)是可忽略的。
然而事實(shí)是這些數(shù)據(jù)并不是等概率獲取的,所以說,在給微觀調(diào)查數(shù)據(jù)建模的時(shí)候,如果對(duì)抽樣權(quán)數(shù)視而不見,其所建立的模型就值得懷疑,因?yàn)槎鄶?shù)大型、規(guī)范的調(diào)查數(shù)據(jù)很少是等概率抽取樣本,同時(shí)還要考慮因?yàn)闊o回答和抽樣框覆蓋偏差等因素所帶來的“過抽樣”和“欠抽樣”等問題。當(dāng)然不是說對(duì)于這類調(diào)查數(shù)據(jù)就必須在模型中考慮抽樣權(quán)數(shù),如果因?yàn)橐霗?quán)數(shù)帶來方差的增大,足以影響到數(shù)據(jù)分析,或者假設(shè)檢驗(yàn)沒有被拒絕,這時(shí)候可以如圖2所示,返回重新選擇研究的數(shù)據(jù)或者選擇不考慮抽樣權(quán)數(shù)處理。但無論怎么樣,對(duì)抽樣權(quán)數(shù)總歸要有一個(gè)處理,用要有用的理由,不用也要有個(gè)說明,這是我們的寫作動(dòng)機(jī)之一,本文就此給出了解決該問題的一個(gè)路徑。
權(quán)數(shù)是把雙刃劍,在提高精度的同時(shí),有可能提高估計(jì)量的誤差[15,23]。因此,在使用微觀調(diào)查數(shù)據(jù)時(shí),是否使用抽樣權(quán)數(shù),本文給出了一個(gè)判斷思路。即從抽樣權(quán)數(shù)的低效性和抽樣權(quán)數(shù)影響的顯著性兩方面入手,給出了一個(gè)判斷路徑圖。第一,通過分析抽樣權(quán)數(shù)低效性的計(jì)算過程,得出了抽樣權(quán)數(shù)低效性判斷的優(yōu)缺點(diǎn),并給出了抽樣權(quán)數(shù)在幾種常見分布下,低效性的一個(gè)一般經(jīng)驗(yàn)判斷。第二,通過對(duì)抽樣權(quán)數(shù)影響的顯著性檢驗(yàn)方法的綜述,根據(jù)方法的不同,分為系數(shù)差異性檢驗(yàn)和權(quán)數(shù)輔助檢驗(yàn),并得出這些檢驗(yàn)與Hausman的模型設(shè)定誤差檢驗(yàn)的關(guān)系。最后,通過CFPS2010驗(yàn)證了本文提出的檢驗(yàn)路徑,并給出了CFPS2010家庭抽樣調(diào)查數(shù)據(jù)抽樣權(quán)數(shù)的低效性,與國外類似調(diào)查數(shù)據(jù)的低效性進(jìn)行了比較。通過低效性判斷和Dumouchel-Duncan檢驗(yàn)說明其抽樣權(quán)數(shù)的不可忽略性,即得到在使用CFPS2010家庭抽樣調(diào)查數(shù)據(jù)做統(tǒng)計(jì)推斷或數(shù)據(jù)建模時(shí),應(yīng)當(dāng)考慮抽樣權(quán)數(shù)。當(dāng)然,本文所運(yùn)用的抽樣權(quán)數(shù)影響的顯著性檢驗(yàn)還局限于回歸分析,如何將其推廣到其他模型,比如結(jié)構(gòu)方程模型中,還需要做進(jìn)一步研究;文中抽樣權(quán)數(shù)低效性大小的判斷,還缺乏客觀統(tǒng)一的標(biāo)準(zhǔn),需要更多經(jīng)驗(yàn)數(shù)據(jù)的積累和方法的創(chuàng)新。