羅 薇
(廣東工業(yè)大學(xué) a.管理學(xué)院;b.大數(shù)據(jù)戰(zhàn)略研究院,廣東 廣州 510006)
自1965年Kish最早提出設(shè)計效應(yīng)的概念以來,設(shè)計效應(yīng)在復(fù)雜樣本設(shè)計階段起著非常重要的作用,通常利用設(shè)計效應(yīng)和簡單隨機抽樣下的方差來估計給定精度要求下的樣本量[1]257-263。設(shè)計效應(yīng)越大,意味所需的樣本量越大才能達(dá)到簡單隨機抽樣的效果,所以控制樣本的設(shè)計效應(yīng),使得預(yù)計的樣本量滿足成本和精度的要求,是抽樣設(shè)計領(lǐng)域的研究熱點。實證研究發(fā)現(xiàn),不同國家進行的相似調(diào)查中類似調(diào)查變量的設(shè)計效應(yīng)值相近[2];同一調(diào)查中樣本均值和復(fù)雜分析統(tǒng)計量的設(shè)計效應(yīng)值有一定關(guān)聯(lián)[3],這意味著可以將以往調(diào)查中某些調(diào)查變量的設(shè)計效應(yīng)移植到新調(diào)查的類似調(diào)查變量中,將一些調(diào)查統(tǒng)計量的設(shè)計效應(yīng)推廣到同一調(diào)查的其它調(diào)查統(tǒng)計量上,在連續(xù)性調(diào)查中使用前期調(diào)查的設(shè)計效應(yīng)信息來輔助現(xiàn)行調(diào)查設(shè)計。然而,另一些實證研究卻發(fā)現(xiàn),同一調(diào)查中的不同調(diào)查變量,以及連續(xù)性調(diào)查中同一調(diào)查變量的設(shè)計效應(yīng)值可能存在較大的差異[2],表明設(shè)計效應(yīng)的直接擴展受到一定的局限。顯然,如何將前期調(diào)查的設(shè)計效應(yīng)信息用于現(xiàn)行調(diào)查設(shè)計,進而在抽樣設(shè)計階段根據(jù)設(shè)計效應(yīng)來選擇抽樣方法,是設(shè)計效應(yīng)應(yīng)用于復(fù)雜樣本設(shè)計的核心問題,而目前對此并沒有進行系統(tǒng)的研究。為了彌補這一不足,本文對構(gòu)成復(fù)雜樣本的抽樣方法進行分解,從單項抽樣方法要素的視角來建立各種設(shè)計效應(yīng)模型,分析單項要素對復(fù)雜樣本設(shè)計效率的影響及應(yīng)用局限性,推導(dǎo)要素組合的綜合設(shè)計效應(yīng)模型,基于設(shè)計效應(yīng)模型的框架建立一套簡單實用的復(fù)雜樣本設(shè)計方法,進而研究設(shè)計效應(yīng)在子群、不同調(diào)查變量、不同統(tǒng)計量間的擴展。在應(yīng)用上,將上述設(shè)計效應(yīng)模型應(yīng)用于住戶調(diào)查的樣本設(shè)計,在樣本設(shè)計階段選擇合理的抽樣方法,使得估計的樣本量能滿足總體、域、子群的調(diào)查精度要求。
根據(jù)Kish提出的設(shè)計效應(yīng)概念,對于調(diào)查變量θ,Vc(θ)表示采用復(fù)雜抽樣設(shè)計的估計量方差,Vsrs(θ)表示相同樣本量下簡單隨機抽樣的估計量方差,θ的設(shè)計效應(yīng)為[1]257-263:
D2(θ)=Vc(θ)/Vsrs(θ)
(1)
(2)
為了明確復(fù)雜樣本設(shè)計下哪些要素會導(dǎo)致設(shè)計效應(yīng),梳理復(fù)雜樣本的基本特征如下:一是不同的抽樣方式;二是被調(diào)查單位有不同的權(quán)數(shù);三是不同子群的抽樣比有差異[4]。同時依據(jù)聯(lián)合國統(tǒng)計司的建議,將影響復(fù)雜樣本設(shè)計的單項要素分為分層、類集(包括整群、二階及多階抽樣)、加權(quán)調(diào)整三類[5]95-122。
1.分層的設(shè)計效應(yīng)
對一階分層抽樣,忽略有限總體校正因子時,調(diào)查變量y的分層設(shè)計效應(yīng)可以表示為[5]95-122:
(3)
其中,從總體單位數(shù)N中抽取樣本量n=∑nh,從單位數(shù)為Nh的第h層中抽取樣本量為nh的總體單位,Wh=Nh/N為第h層的層權(quán)。
(4)
(5)
其中,wh=Nh/nh為初始權(quán)數(shù)。
一般來說,由于分層樣本分布更為均勻,分層能減少樣本中總體單位的相關(guān)性,從而減小方差,進而減小設(shè)計效應(yīng)。但是,若各層均值大致相等,分層帶來的精度改進較少,此時分層設(shè)計效應(yīng)雖然小于1,但接近1。
2.類集的設(shè)計效應(yīng)
(6)
其中,δ稱為組內(nèi)同質(zhì)系數(shù),描述初級抽樣單元內(nèi)變量y的同質(zhì)性。實際中,初級抽樣單元中總體單位的各個調(diào)查變量都有一定的相似性,但這種相似性往往較低,所以δ幾乎總是數(shù)值較小的正數(shù)[5]。
(7)
通過對同質(zhì)系數(shù)δ的演繹,可以將式(7)應(yīng)用于PPS抽樣和各種子樣本設(shè)計方法組合的均等選擇概率設(shè)計下類集設(shè)計效應(yīng)的計算。
現(xiàn)實中由于初級抽樣單元的規(guī)模不等以及規(guī)模信息不準(zhǔn)確,往往采用與估計規(guī)模成比例的概率抽樣方法(Probability to Proportional to Estimated Size,簡稱PPES)抽取初級抽樣單元,此時要滿足均等選擇概率樣本的要求,則從各樣本初級抽樣單元中抽取的總體單位數(shù)b不等。當(dāng)各個子樣本規(guī)模差異不大時,式(7)仍可以計算類集的設(shè)計效應(yīng),但是b表示平均子樣本規(guī)模,即:
(8)
(9)
由于同質(zhì)系數(shù)δ是正數(shù),所以類集的設(shè)計效應(yīng)總是大于1。在實際工作中,出于成本的考慮,類集規(guī)模b不適宜設(shè)計較小,導(dǎo)致類集的設(shè)計效應(yīng)一般較大。上述分析還展示出各階段抽樣方法的選擇如何影響到δ和b的確定,進而引起類集設(shè)計效應(yīng)的變化。其中,δ是內(nèi)生的。經(jīng)驗研究表明,調(diào)查變量和初級抽樣單元相同或相似時,δ值具有較好的移植性[2],可以通過以往調(diào)查中相同或類似變量以及初級抽樣單元的信息來估計δ。但直接將歷史調(diào)查的類集設(shè)計效應(yīng)用于新的調(diào)查設(shè)計并不合理,因為每個調(diào)查變量的δ值都不一樣,b較大時,各個調(diào)查變量的δ值即使只有細(xì)微的差別,也會引起類集設(shè)計效應(yīng)的較大差異。例如,δ=0.05,b=30時,類集的設(shè)計效應(yīng)值為2.45;δ=0.08,b=30時,類集的設(shè)計效應(yīng)值高達(dá)3.32。
3.加權(quán)調(diào)整的設(shè)計效應(yīng)
上文的設(shè)計效應(yīng)分析基本上限于均等選擇概率抽樣設(shè)計,最終抽樣單元的權(quán)數(shù)相等,然而不均等選擇概率的情形也存在,當(dāng)抽樣設(shè)計偏離均等選擇概率,需要對初始權(quán)數(shù)(抽樣概率的倒數(shù))進行規(guī)模調(diào)整或是結(jié)構(gòu)調(diào)整,此時最終權(quán)數(shù)在某種程度上總是有差異的[9]。
(10)
由于特殊因素、無回答、抽樣框缺陷等情形對權(quán)數(shù)變動的影響是偶然的、隨機的,總體單位權(quán)數(shù)wj(j=1,2,…,n)將會帶來精度的損失,這個損失可以用權(quán)數(shù)wj的相對方差來表示,得出比式(10)更一般的形式:
=1+cv2(wj)
(11)
如果權(quán)數(shù)和調(diào)查變量無關(guān),則式(11)表示的不均等加權(quán)的設(shè)計效應(yīng),可以從一個調(diào)查變量擴展到其它調(diào)查變量。但是,如果權(quán)數(shù)通過事后分層或是根據(jù)某些外部來源的已知控制總量的校準(zhǔn)獲得時,當(dāng)目標(biāo)變量與這些控制總量高度相關(guān),則權(quán)數(shù)的調(diào)整顯然可以改進精度,而式(11)卻表現(xiàn)出精度的損失,將高估權(quán)數(shù)調(diào)整的設(shè)計效應(yīng),這時式(11)不再適用。
1.分層和類集的組合
(12)
(13)
(14)
(15)
2.類集和加權(quán)調(diào)整的組合
在類集和不等概率抽樣方法組合的復(fù)雜樣本中,Kish提出在權(quán)數(shù)隨機或近似隨機的情況下設(shè)計效應(yīng)模型近似為[10]:
(16)
3.分層、類集和加權(quán)調(diào)整的組合
在分層、類集和不等概率抽樣方法組合的復(fù)雜樣本中,總體均值的加權(quán)估計量可以表示為:
(17)
其中,從第h層抽取a個類集,bhβ是第ahα個類集的總體單位數(shù)。Gabler等在各小域方差相等,但各小域同質(zhì)系數(shù)不等的假設(shè)下推導(dǎo)出不重疊的完備域的設(shè)計效應(yīng)[11],本文用層替代小域,則可以得到式(17)的設(shè)計效應(yīng):
(18)
(19)
(20)
將以上種種綜合起來,可用圖1示之。
圖1 設(shè)計效應(yīng)的分解與組合圖
許多調(diào)查會深入到子群,因而需要計算子群描述性統(tǒng)計量以及復(fù)雜分析性統(tǒng)計量的設(shè)計效應(yīng),這些設(shè)計效應(yīng)都可以由樣本均值(比例)的設(shè)計效應(yīng)來進行擴展。
根據(jù)子群在初級抽樣單元中的分布情況,可以將子群分為兩類:第一,子群在初級抽樣單元中均勻分布,稱為交叉類(Cross Classes),人口、社會、經(jīng)濟的眾多分類都屬于交叉類,如年齡、性別、教育程度、職業(yè)子群。第二,子群集中在由若干個初級抽樣單元構(gòu)成的集合中,稱為分割類,如行政區(qū)子群、農(nóng)村和城市子群。
如果子群中權(quán)數(shù)的分布近似總樣本,則可以直接從總樣本來推導(dǎo)子群估計量的加權(quán)調(diào)整設(shè)計效應(yīng),即交叉類和總樣本的加權(quán)調(diào)整設(shè)計效應(yīng)幾乎一樣,所以下面只考慮子群的類集設(shè)計效應(yīng)。
1.交叉類的設(shè)計效應(yīng)
(21)
(22)
其中kd>1,且隨著交叉類規(guī)模變化。由于社會經(jīng)濟子群比人口子群的變化大些,更容易聚集,同質(zhì)性系數(shù)也大些,Kish通過總結(jié)大量的調(diào)查實踐,建議kd值取1.2(人口子群)或1.3(社會經(jīng)濟子群)[3]。
2.分割類的設(shè)計效應(yīng)
1.子群均值之差的設(shè)計效應(yīng)
隨著調(diào)查數(shù)據(jù)質(zhì)量的提高,對分析統(tǒng)計量的關(guān)注越來越多,最常見的分析統(tǒng)計量即兩個子群的均值(比例)差或比值。下文先分析兩個獨立樣本均值之差的設(shè)計效應(yīng):
(23)
如果兩個樣本均值的設(shè)計效應(yīng)、樣本量類似,則它們差的設(shè)計效應(yīng)等于它們各自設(shè)計效應(yīng)的加權(quán)平均,ni(i=1,2)表示樣本量,對應(yīng)的權(quán)數(shù)為1/ni,當(dāng)兩個樣本來自同一調(diào)查的不同時期,兩個樣本間的協(xié)方差將降低其差的設(shè)計效應(yīng):
(24)
當(dāng)兩個樣本來自相同類集(如初級抽樣單元、次級抽樣單元、最終抽樣單元),則式(24)中協(xié)方差為正,使得均值之差的設(shè)計效應(yīng)變小。Kish研究發(fā)現(xiàn),兩個子群均值之差的設(shè)計效應(yīng)大于1,但是小于假設(shè)兩個子群均值獨立時的設(shè)計效應(yīng)[3]。將上述結(jié)論表示成方差形式有:
(25)
當(dāng)子群是交叉類時,式(25)正協(xié)方差效應(yīng)使得均值之差的設(shè)計效應(yīng)變小,實證研究表明,協(xié)方差的影響作用相當(dāng)大,使得交叉類子群均值之差的設(shè)計效應(yīng)只比1大些許[3]。當(dāng)子群是分割類時,協(xié)方差的效應(yīng)不明顯,假設(shè)兩個子群總體單位方差相等,則式(25)簡化為:
(26)
2.其它復(fù)雜分析統(tǒng)計量的設(shè)計效應(yīng)
其它分析統(tǒng)計量,如均值比、中位數(shù)、分位數(shù)、線性回歸系數(shù)等,直接計算其設(shè)計效應(yīng)相當(dāng)困難,但是根據(jù)一系列分析統(tǒng)計量設(shè)計效應(yīng)的實證研究(見表1)可以歸納出一些規(guī)律[12]。
表1 三個復(fù)雜樣本中5種估計量的設(shè)計效應(yīng)值
注:數(shù)據(jù)來源于Kish和Frankel[12]。
(27)
第一步,明確各省的樣本量分配。表2給出了3種樣本分配方案:比例分配、常數(shù)分配、折中分配。由于各省規(guī)模差異較大,3種樣本分配方案截然不同。比例分配下,小省的樣本量太少,難以產(chǎn)生可靠的估計值;而常數(shù)分配則降低了全國估計的精度;折中分配與比例分配相比,小省的樣本量增加了,但是沒有按常數(shù)分配增加得多。采用比例分配時,分層的設(shè)計效應(yīng)為0.99;由于全國大型住戶調(diào)查中,層方差、層均值大致相等的假設(shè)是合理的[5],由式(3)得到常數(shù)分配的分層設(shè)計效應(yīng)為1.93;由式(5),折中分配產(chǎn)生的不等概率加權(quán)設(shè)計效應(yīng)為1.21。
表2 三種樣本分配下各省樣本量分配情況
第三步,綜合考慮類集設(shè)計效應(yīng)和各省樣本量非比例分配的設(shè)計效應(yīng)。根據(jù)式(16),采用折中分配時,全國樣本的設(shè)計效應(yīng)即1.21×1.95=2.36,則全國有效樣本量為10 000/2.36=4 237,全國社保未覆蓋率估計量的變異系數(shù)為0.027,顯然,全國估計量的樣本量超過給定的精度要求;采用常數(shù)分配時,設(shè)計效應(yīng)為1.93×1.95=3.76,有效樣本量為2 660,全國社保未覆蓋率估計量的變異系數(shù)為0.034,不能滿足樣本設(shè)計全國估計量變異系數(shù)的要求。
按照上述思路可以計算出關(guān)鍵調(diào)查變量的可能精度,依據(jù)設(shè)計要求修改樣本量。如果存在無回答、覆蓋不足的情況,還要考慮調(diào)整權(quán)數(shù)對設(shè)計效應(yīng)的影響,例如全國的回答率大約為90%,則樣本量還需要增加11%。
表3 抽樣方法組合設(shè)計效應(yīng)的比較結(jié)果
比較表3數(shù)據(jù)的模擬結(jié)果可發(fā)現(xiàn),按比例分層兩階段PPS樣本的設(shè)計效應(yīng)最小,0.99×1.95≈1.93,但這種分配方式對規(guī)模較小的省份不利,例如第10個省份在比例分配下,100戶的有效樣本量為100/1.93≈52,該省社保未覆蓋率的變異系數(shù)為0.24,遠(yuǎn)不能達(dá)到分省變異系數(shù)的要求;采用常數(shù)分配所產(chǎn)生的非比例分層的設(shè)計效應(yīng)較大,與類集設(shè)計效應(yīng)組合后,綜合設(shè)計效應(yīng)為3.76,相應(yīng)的有效樣本量僅僅為2 660戶,變異系數(shù)不能滿足全國要求;而介于比例分配和常數(shù)分配之間的折中分配,即使考慮無回答、不覆蓋所導(dǎo)致的加權(quán)調(diào)整設(shè)計效應(yīng),仍可能滿足全國和分省估計量的精度要求;對于總體的交叉類子群,由于類集設(shè)計效應(yīng)的顯著降低,折中分配分層兩階段PPS 樣本下的有效樣本量仍可以為子群提供較為精確的估計。
本文將影響復(fù)雜樣本設(shè)計的單項要素分為分層、類集、加權(quán)調(diào)整三類,以此為基礎(chǔ),將綜合設(shè)計效應(yīng)分解成要素的設(shè)計效應(yīng),研究結(jié)論表明復(fù)雜樣本設(shè)計導(dǎo)致總體單位間相關(guān)性的變化,進而影響總體方差及設(shè)計效應(yīng):分層設(shè)計帶來的總體單位間負(fù)相關(guān)性將減少方差及設(shè)計效應(yīng),但是總體單位分層帶來的精度改進十分有限,而各層樣本量的非比例分配引起的權(quán)數(shù)差異將引起設(shè)計效應(yīng)的增加;類集設(shè)計帶來較大及正的總體單位間相關(guān)將引起設(shè)計效應(yīng)的顯著增加,由于影響類集設(shè)計效應(yīng)的同質(zhì)系數(shù)具有一定的擴展性,類集設(shè)計效應(yīng)可以擴展到不同子樣本抽樣方法、子群、復(fù)雜分析統(tǒng)計量設(shè)計效應(yīng)的計算;當(dāng)權(quán)數(shù)和調(diào)查變量無關(guān),不均等加權(quán)的設(shè)計效應(yīng)也可以從一個調(diào)查變量擴展到其它調(diào)查變量;對于子群均值及其差值、復(fù)雜分析統(tǒng)計量,各種抽樣方法引起的總體單位間相關(guān)性減弱,所以其設(shè)計效應(yīng)也相對較小。
本文得出啟示:第一,由于綜合設(shè)計效應(yīng)反映了多種抽樣方法結(jié)合的影響,應(yīng)用時要分解為單項要素設(shè)計效應(yīng);第二,由于各種抽樣方法通過影響總體單位的相關(guān)性來影響設(shè)計效應(yīng),描述群內(nèi)相關(guān)性的同質(zhì)系數(shù)非常重要,在樣本設(shè)計階段使用設(shè)計效應(yīng)模型就需要估計出同質(zhì)系數(shù),鑒于同質(zhì)系數(shù)的可移植性,往往用歷史調(diào)查中相同或類似變量以及初級抽樣單元的信息來估計關(guān)鍵目標(biāo)變量的δ值;第三,設(shè)計效應(yīng)在樣本設(shè)計階段中發(fā)揮重要作用,理解非比例分配和類集設(shè)計對調(diào)查變量精度的影響是進行有效樣本設(shè)計的關(guān)鍵。