賀建風(fēng)
(仲愷農(nóng)業(yè)工程學(xué)院 統(tǒng)計(jì)系,廣州 510225)
傳統(tǒng)抽樣調(diào)查設(shè)計(jì)及其估計(jì)理論一般基于單一抽樣框的假定。然而,隨著社會經(jīng)濟(jì)的飛速發(fā)展,城市化進(jìn)程的推進(jìn)與產(chǎn)業(yè)政策的轉(zhuǎn)移使得人口流動與生產(chǎn)單位轉(zhuǎn)移變得比以往任何時期都要頻繁,很難建立覆蓋所有目標(biāo)單位的單一抽樣框,有時即使可以建成,建設(shè)費(fèi)用也一定是高昂的,或者需要很長的時間才能完成,建成后還得耗費(fèi)大量資源對其進(jìn)行不斷地更新與維護(hù),這不符合抽樣調(diào)查成本低、時效性強(qiáng)的原則。有一種方法可以彌補(bǔ)單一抽樣框覆蓋不完全問題,那就是采用雙重抽樣框(即兩個相互獨(dú)立的抽樣框),使他們聯(lián)合起來能夠完全覆蓋目標(biāo)總體,當(dāng)然這些抽樣框應(yīng)該是現(xiàn)有的資料,或者能夠輕易構(gòu)建起來,使提高調(diào)查精度的同時還可以節(jié)約調(diào)查的固定成本。
國外對于雙重抽樣框的理論研究起源于上世紀(jì)60年代。Hartley(1962,1974)對雙重抽樣框的估計(jì)問題進(jìn)行了開創(chuàng)性研究[1],隨后 Fuller and Burmeister(1972),Bankier(1986),Kalton and Anderson(1986)等人在此基礎(chǔ)上對雙重抽樣框的估計(jì)問題進(jìn)行了拓展[2][3],但是這些研究僅局限于單一階段抽樣,對于在雙重抽樣框抽樣情形下的二階段抽樣估計(jì)量研究的甚少,其中Casady,Snowden,and Sirken(1981)將Hartley 提出的基于雙重抽樣框的估計(jì)方法應(yīng)用于電話名錄框與區(qū)域框組合抽樣設(shè)計(jì)的分層多階段抽樣[4],B.C.Saxena,P.Narain,A.K.Srivastava(1984)探討了雙重抽樣框下的二階段抽樣估計(jì)問題,但是只考慮了次級抽樣單元在各域的單位調(diào)查成本相同的情形[5]。在國內(nèi),由于行政分級的政治模式,多階段抽樣調(diào)查成為實(shí)際中應(yīng)用較廣泛的一種調(diào)查手段(尤其是政府調(diào)查項(xiàng)目)。國內(nèi)理論界對于多階段抽樣的研究僅局限于單一抽樣框的前提,對于雙重抽樣框的情形未曾涉及?;诖?,本文擬引進(jìn)國外相對豐富的雙重抽樣框估計(jì)理論,研究國內(nèi)目前流行的多階段抽樣調(diào)查,將多階段抽樣擴(kuò)展到雙重抽樣框的情形,以求彌補(bǔ)國內(nèi)在這一領(lǐng)域的空缺。為了分析問題的簡便及計(jì)算的簡單可行,本文僅對雙重抽樣框下的二階段抽樣調(diào)查進(jìn)行研究,對于更多階段的抽樣調(diào)查情形可以按照本文的思路進(jìn)行推廣。
圖1 雙重抽樣框的一般結(jié)構(gòu)
在二階段的抽樣中,假定每個階段都面臨著從雙重框中抽選調(diào)查單元。設(shè)第一階段抽樣有兩個存在相互重疊部分的抽樣框A與B共同組成目標(biāo)總體,并記NA與NB分別為抽樣框A與B中的總體單位個數(shù),nA與nB為獨(dú)立取自抽樣框A與B的樣本數(shù)。從總體中抽取的初級抽樣單元能夠被分入三個子域(見圖1),即域a,域b和域ab。
域a:包含來自于抽樣框A而不在抽樣框B中的總體單位,記Na為總體單元個數(shù);
域b:包含來自于抽樣框B而不在抽樣框A中的總體單位,記Nb為總體單元個數(shù);
域ab:包含來自于抽樣框A與B公共部分的總體單位,記Nab為總體單元個數(shù)。
Hartley's(1962)提出簡單隨機(jī)抽樣情形下的總體總量事后分層估計(jì)量:
其中是域a的總體總值估計(jì)量,是域b的總體總值估計(jì)量,是域ab中來自A抽樣框的總體總值估計(jì)量,是域ab中來自B抽樣框的總體總值估計(jì)量,θ為抽樣權(quán)重系數(shù),且0≤θ≤1。
類似(1)式,第i個初級抽樣單元的總體總量事后分層估計(jì)量為:
將(2)式代入第一階抽樣下各子域的總體總值估計(jì)量公式中,再代入式(1)可得:
由于從兩個抽樣框選取樣本是相互獨(dú)立的,所以來自A抽樣框的統(tǒng)計(jì)量與來自B抽樣框的統(tǒng)計(jì)量之間的協(xié)方差為0,即:
所以(1)式中總體總值估計(jì)量的方差可以表示為:
對于每個抽樣框的兩個子域進(jìn)行事后分層,估計(jì)量的方差接近于:
根據(jù)式(5)估計(jì)量(θ)的方差,利用二階段抽樣的估計(jì)量方差公式可以推出(3)式估計(jì)量(θ,ξ)的方差為:
接下來,可以給出估計(jì)量方差的無偏估計(jì),其具體形式如(8)式:
本文打破了傳統(tǒng)抽樣調(diào)查僅基于單一抽樣框分析的束縛,引進(jìn)了在實(shí)際中成本更低廉、覆蓋面更廣的多重抽樣框調(diào)查新思路;針對雙重抽樣框下的二階段抽樣估計(jì)理論進(jìn)行了研究,給出了總體總值估計(jì)量及其估計(jì)量方差,并給出了方差的無偏估計(jì)。本文的重要意義在于為二階段抽樣中采用雙重抽樣框提供理論支持。
本文的研究展望有如下幾點(diǎn):其一,本文的研究僅基于所有階段以及各抽樣框的調(diào)查均為簡單隨機(jī)抽樣的情形,更進(jìn)一步的研究需要將這一估計(jì)方法拓展到一般類型抽樣調(diào)查的場合;其二,對于多重抽樣框以及多階段的情形本文并未展開分析,感興趣的讀者可以在本文的基礎(chǔ)上進(jìn)行拓展,但估計(jì)量的計(jì)算將更為繁瑣;其三,本文考慮的是二個階段均為雙重抽樣框的情形,并且假定所有雙重抽樣框的結(jié)構(gòu)均為圖1所示,對于某階段為單一抽樣框以及雙重抽樣框的結(jié)構(gòu)為完全重疊或某抽樣框包含另一個的情形而言,其估計(jì)量的計(jì)算比本文更簡單。限于篇幅,這里不再贅述。
[1]Hartley H.O.Multiple Frame Surveys[C].In Proceedings of the Social Statistical Section,ASA,1962.
[2]Hartley,H.O.Multiple-Frame Methodology and Selected Applications[J].Sankhya,Ser.C,1974,(36).
[3]Fuller,W.A.,Burmeister,L.F.Estimators for Samples Selected from Two Overlapping Frames[C].In Proceedings of the Social Statistics Section,American Statistical Association,1972.
[4]Casady,R.,Snowden,C.,Sirken,M.A Study of Dual Frame Estimators for the National Health Interview Survey[C].Proceeding of the Survey Research Methods Section,American Statistical Association,1981.
[5]B.C.Saxena,P.Narain,A.K.Srivastava.Multiple Frame Surveys in Two Stage Sampling[J].The Indian Journal of Statistics,1984,(4).