文 婷,吳 笛,胡桂華
(重慶工商大學(xué),重慶 400067)
人口普查的目標(biāo)是不重不漏地登記普查目標(biāo)內(nèi)的每一個人。然而,由于各種主觀或客觀原因,使得普查結(jié)果總會有誤差。在每次人口普查后,政府統(tǒng)計(jì)部門都要對普查數(shù)據(jù)的誤差進(jìn)行評估,其中的核心評估指標(biāo)是凈覆蓋誤差。
凈覆蓋誤差定義為普查登記人口數(shù)與普查目標(biāo)真實(shí)人口數(shù)之差。由于普查登記人口數(shù)已知,所以凈覆蓋誤差估計(jì)的關(guān)鍵是尋求一個估計(jì)量去估計(jì)目標(biāo)真實(shí)人口數(shù)。單系統(tǒng)估計(jì)量、雙系統(tǒng)估計(jì)量和三系統(tǒng)估計(jì)量均可充當(dāng)這個估計(jì)量[1-3]。
雙系統(tǒng)估計(jì)量來源于捕獲-再捕獲模型,它把普查人口名單看作第一次捕獲的結(jié)果,把事后計(jì)數(shù)調(diào)查人口名單看作第二次捕獲的結(jié)果,捕獲-再捕獲模型給出了用兩次捕獲的個體數(shù)目以及同時出現(xiàn)在兩次捕獲中的個體數(shù)目估計(jì)總體中全部個體數(shù)目的計(jì)算公式[3]。它要求人口普查名單與事后計(jì)數(shù)調(diào)查人口名單相互獨(dú)立。然而,這一要求在實(shí)際中常常不能滿足,這時就會導(dǎo)致交互作用偏差,從而高估或低估目標(biāo)真實(shí)人口數(shù)[4]。三系統(tǒng)估計(jì)量建立在三次捕獲模型基礎(chǔ)上,依據(jù)普查人口名單、事后計(jì)數(shù)調(diào)查人口名單、行政記錄人口名單及這三份人口名單的人數(shù)及名單之間匹配的人數(shù)而構(gòu)造[5-6]。相比雙系統(tǒng)估計(jì)量,三系統(tǒng)估計(jì)量不要求這三份人口名單獨(dú)立,而且三系統(tǒng)估計(jì)量利用了兩個輔助信息,其估計(jì)精度會高于雙系統(tǒng)估計(jì)量。然而由于三系統(tǒng)估計(jì)量在理論上和計(jì)算上都比較復(fù)雜,目前還不具備使用三系統(tǒng)估計(jì)量估計(jì)人口普查凈覆蓋誤差的能力。
單系統(tǒng)估計(jì)量依據(jù)樣本普查小區(qū)的事后計(jì)數(shù)調(diào)查人口名單而構(gòu)造。相對于雙系統(tǒng)估計(jì)量和三系統(tǒng)估計(jì)量,單系統(tǒng)估計(jì)量在計(jì)算上更為簡便,其缺陷是沒有使用輔助信息。本文研究單系統(tǒng)估計(jì)量在人口普查凈覆蓋誤差估計(jì)中的應(yīng)用。
單系統(tǒng)估計(jì)量依據(jù)事后計(jì)數(shù)調(diào)查樣本數(shù)據(jù)構(gòu)造。本文采用以普查小區(qū)為抽樣單位的分層二重抽樣[7-9]方案。在第一重抽樣中,按照地理位置,將所有普查小區(qū)劃分在城市層和鄉(xiāng)村層。使用H表示第一重抽樣層的總層數(shù),h表示任意一層,Nh表示h層的普查小區(qū)總數(shù)。在各個h層抽取第一重樣本,樣本量記作nh。在第二重抽樣中,將第一重樣本普查小區(qū)按照普查小區(qū)規(guī)模再次分層,共分為G層,g表示其中任意一層,Mhg表示層h中第一重樣本普查小區(qū)進(jìn)入層g的數(shù)目。每個g層仍然以普查小區(qū)為抽樣單位抽取第二重樣本,樣本規(guī)模記作mhg。
最終進(jìn)入第二重樣本的第i樣本普查小區(qū)的抽樣權(quán)數(shù)αhgi為:
這里用yhgi表示在層hg中第i個樣本普查小區(qū)某調(diào)查變量y的總?cè)藬?shù),目標(biāo)真實(shí)人口數(shù)Y的單系統(tǒng)估計(jì)量為:
在構(gòu)造了單系統(tǒng)估計(jì)量之后,還要從抽樣方差的角度來判斷其估計(jì)精度。雖然單系統(tǒng)估計(jì)量是較為簡單的估計(jì)量,但抽樣理論指出,如果采用的抽樣方法是復(fù)雜的,其估計(jì)量也會變得復(fù)雜。對于復(fù)雜估計(jì)量,其抽樣方差通常采用分層刀切法、泰勒線性方差或者其他方法近似計(jì)算[10-13]。
這里使用分層刀切法計(jì)算單系統(tǒng)估計(jì)量的抽樣方差。刀切法的關(guān)鍵在于復(fù)制權(quán)數(shù)和復(fù)制估計(jì)量的計(jì)算。復(fù)制權(quán)數(shù)是指在輪流刀切第一重樣本普查小區(qū)后,重新計(jì)算進(jìn)入第二重樣本普查小區(qū)的抽樣權(quán)數(shù),記作和k表示刀切層s的樣本普查小區(qū)k。
計(jì)算復(fù)制權(quán)數(shù)時可能出現(xiàn)的五種情況。①如果刀切的第一重樣本普查小區(qū)k就是第二重樣本普查小區(qū)i,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)為0。②如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)不在同一層,即s≠h,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)不變,為αhgi。③如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層,但k沒有進(jìn)入第二重樣本,也不在同一個g層,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)](Mhg/mhg)。④如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層,也在同一個g層,但k沒有進(jìn)入第二重樣本,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)][(Mhg-1)/mhg]。⑤如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層,也在同一個g層,k進(jìn)入了第二重樣本,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)][(Mhg-1)/(mhg-1)]。
根據(jù)上述論述,被刀切的第一重樣本普查小區(qū)k與剩下第二重樣本普查小區(qū)i之間存在五種關(guān)系:
其中θhg為進(jìn)入第二重樣本普查小區(qū)的集合。此時被刀切后的單系統(tǒng)復(fù)制估計(jì)量為:
則單系統(tǒng)估計(jì)量的分層刀切抽樣方差估計(jì)量為:
基于單系統(tǒng)估計(jì)量的人口普查凈覆蓋誤差為Y?-C,C為普查登記人口數(shù)。
為比較單系統(tǒng)估計(jì)量和雙系統(tǒng)估計(jì)量在人口普查凈覆蓋誤差上的估計(jì)精度,這里引入普查與事后計(jì)數(shù)調(diào)查獨(dú)立情況下的雙系統(tǒng)估計(jì)量[14-16]:
其中yhgi,v為層hg中第i個樣本普查小區(qū)在等概率人口層v的人口數(shù)。
雙系統(tǒng)估計(jì)量的抽樣方差估計(jì)量為:
模擬的目標(biāo)是使用單系統(tǒng)估計(jì)量及其方差估計(jì)量計(jì)算實(shí)際人口數(shù)及其抽樣誤差估計(jì)值,并與雙系統(tǒng)估計(jì)量進(jìn)行抽樣估計(jì)精度比較。假設(shè)重慶市某城鄉(xiāng)結(jié)合社區(qū)共有86個普查小區(qū)。按城鄉(xiāng)分為城市層h1和鄉(xiāng)村層h2,其中城市層有54個普查小區(qū),鄉(xiāng)村層有32個普查小區(qū),分別記作N1=54,N2=32。從層h1中隨機(jī)抽取8個普查小區(qū),從層h2中隨機(jī)抽取5個普查小區(qū),記作n1=8,n2=5。所抽取的這13個普查小區(qū)稱之為第一重樣本普查小區(qū)。對抽取的第一重樣本根據(jù)規(guī)模大小再次分層,分別記為g1,g2,其中規(guī)模大層有普查小區(qū)7個,規(guī)模小層有普查小區(qū)6個。從層g1中抽取6個普查小區(qū),從層g2中抽取4個普查小區(qū)。所抽取的10個普查小區(qū)稱之為第二重樣本普查小區(qū)。樣本形成及抽樣權(quán)數(shù)見表1。
表1 樣本形成、樣本普查小區(qū)的抽樣權(quán)數(shù)
對于進(jìn)入第二重樣本的普查小區(qū),采取問卷調(diào)查的方式獲得這10個樣本普查小區(qū)的事后計(jì)數(shù)調(diào)查人口名單。將這份名單與人口普查名單進(jìn)行比對,得到各層未加權(quán)的事后計(jì)數(shù)調(diào)查登記人口數(shù)和普查登記人口數(shù),同時登記在這兩份名單上的人口數(shù)如表2-表4。
表2 樣本普查小區(qū)各層的未加權(quán)事后計(jì)數(shù)調(diào)查人口數(shù)(N2v) 單位:人
表4 樣本小區(qū)各層的未加權(quán)匹配登記人口數(shù)(Mv)單位:人
表3 樣本普查小區(qū)各層的未加權(quán)普查登記人口數(shù)(N1v)單位:人
根據(jù)式(1)、式(2)、式(6)、式(7)和表2-表4,可分別計(jì)算出基于單系統(tǒng)估計(jì)量和雙系統(tǒng)估計(jì)量的總體真實(shí)人口數(shù)。根據(jù)式(3)、式(4)、式(9)可計(jì)算出復(fù)制權(quán)數(shù),單系統(tǒng)復(fù)制估計(jì)值和雙系統(tǒng)復(fù)制估計(jì)值,根據(jù)式(5)、式(8)和上述計(jì)算結(jié)果可計(jì)算其抽樣方差和人口普查凈覆蓋誤差,其結(jié)果見表5。
表5 各等概率人口層及總體真實(shí)人口數(shù)、抽樣方差及其凈覆蓋誤差 單位:人
從表5可以看出:(1)使用單系統(tǒng)估計(jì)量估計(jì)的總體實(shí)際人口數(shù)的抽樣標(biāo)準(zhǔn)誤差為274人,而使用雙系統(tǒng)估計(jì)量總體實(shí)際人口數(shù)的的抽樣標(biāo)準(zhǔn)誤差為285人,這說明在抽樣估計(jì)精度方面,單系統(tǒng)估計(jì)量優(yōu)于雙系統(tǒng)估計(jì)量;(2)如果每個普查小區(qū)平均住戶250人,該社區(qū)共有86個普查小區(qū),則該社區(qū)人數(shù)為21500人,若將這個人數(shù)當(dāng)作普查登記人口數(shù),單系統(tǒng)估計(jì)量估計(jì)的總體真實(shí)人口數(shù)為21591人,雙系統(tǒng)估計(jì)量估計(jì)的總體真實(shí)人口數(shù)為21812人,則可計(jì)算出基于單系統(tǒng)估計(jì)量的人口普查凈覆蓋誤差為91人,凈誤差率為0.4%,而基于雙系統(tǒng)估計(jì)量的人口普查凈覆蓋誤差為312人,凈誤差率為1.43%,這表明交互作用偏差使得雙系統(tǒng)估計(jì)量高于實(shí)際人口數(shù),人口普查凈覆蓋誤差較高。高估的原因在于,在普查中登記過的人,認(rèn)為已經(jīng)參與了普查,沒有必要再參加事后計(jì)數(shù)調(diào)查,這導(dǎo)致了這兩項(xiàng)調(diào)查的匹配人口數(shù)少,而匹配人口數(shù)是雙系統(tǒng)估計(jì)量的分母,從而使得雙系統(tǒng)估計(jì)量高于總體實(shí)際人口數(shù)。
第一,事后計(jì)數(shù)調(diào)查樣本既可以采取分層抽樣抽取,也可以采取二重抽樣抽取。相較于分層抽樣,分層二重抽樣的樣本代表性大,總體真實(shí)人口數(shù)的估計(jì)精度更高。
第二,如果不存在交互作用偏差,雙系統(tǒng)估計(jì)量的抽樣估計(jì)精度應(yīng)該高于單系統(tǒng)估計(jì)量。如果存在交互作用偏差,雙系統(tǒng)估計(jì)量中普查人口名單這一輔助信息的作用將會降低,單系統(tǒng)估計(jì)量可能優(yōu)于雙系統(tǒng)估計(jì)量。建議政府統(tǒng)計(jì)部門在決定使用單系統(tǒng)估計(jì)量還是雙系統(tǒng)估計(jì)量之前,要采用恰當(dāng)?shù)姆椒ㄅ袛嗥詹榕c事后計(jì)數(shù)調(diào)查是否獨(dú)立,只有在這兩項(xiàng)調(diào)查獨(dú)立的情況下,使用雙系統(tǒng)估計(jì)量才是合適的選擇。
第三,在分層二重抽樣下,單系統(tǒng)估計(jì)量為復(fù)雜估計(jì)量,其抽樣方差需要采用分層刀切等方法近似計(jì)算。采取分層刀切抽樣方差估計(jì)量計(jì)算單系統(tǒng)估計(jì)量抽樣方差的關(guān)鍵是復(fù)制估計(jì)值的計(jì)算。而計(jì)算復(fù)制估計(jì)值需要先計(jì)算刀切第一重樣本普查小區(qū)后其余第二重樣本普查小區(qū)的抽樣權(quán)數(shù),也就是復(fù)制權(quán)數(shù)。當(dāng)前我國政府統(tǒng)計(jì)工作者尚未完全掌握分層刀切抽樣方差估計(jì)量,建議統(tǒng)計(jì)部門聘請?jiān)摲矫娴膶<覍ぷ魅藛T進(jìn)行培訓(xùn),提高我國人口普查質(zhì)量評估水平。