基于設(shè)計效應(yīng)的人口普查質(zhì)量評估調(diào)查樣本量測算

2020-10-12 13:03:54胡桂華范署姍

統(tǒng)計與信息論壇 2020年10期

胡桂華，范署姍，吳婷

(重慶工商大學(xué) a.數(shù)學(xué)與統(tǒng)計學(xué)院；b.經(jīng)濟社會應(yīng)用統(tǒng)計重慶市重點實驗室，重慶 400067)

一、引言

1949年新中國成立后，分別于1953年、1964年、1982年、1990年、2000年和2010年進(jìn)行過六次全國人口普查。從1982年起，中國正式采取質(zhì)量評估調(diào)查開展人口普查質(zhì)量評估工作[1]。聯(lián)合國統(tǒng)計司建議各國使用質(zhì)量評估調(diào)查估計人口普查覆蓋誤差及內(nèi)容誤差[2]。覆蓋誤差是由于普查多報與漏報引起的總體實際人口數(shù)與總體普查人口數(shù)之差。內(nèi)容誤差指由于普查多報與漏報及普查項目填寫錯誤引起的類別實際人口數(shù)與類別普查人口數(shù)之差[3]。

質(zhì)量評估調(diào)查屬于大規(guī)模抽樣調(diào)查，采取分層整群抽樣或多重抽樣[4]。至于具體采取哪種抽樣方法，要結(jié)合本國的實際情況而定。中國、南非和烏干達(dá)等發(fā)展中國家采用分層整群抽樣，抽樣單位為普查小區(qū)或普查區(qū)，抽樣框是上次普查地址碼庫。中國普查小區(qū)平均包括80個住房單元，250人。這樣規(guī)定的理由是便于合理安排一個調(diào)查員的工作量，確保各個樣本小區(qū)的數(shù)據(jù)采集工作同時完成。中國小區(qū)規(guī)模大致相當(dāng)，按照小區(qū)規(guī)模對小區(qū)分層體現(xiàn)不出層與層之間的差異，失去分層意義。美國2000年質(zhì)量評估調(diào)查采取分層二重整群抽樣[5]。美國街區(qū)群之間規(guī)模差異較大，有的街區(qū)群包括住房單元0～2個，也有的包括住房單元3～79個，還有的街區(qū)群包括住房單元80個及以上。于是美國普查局在每一個州的第一重抽樣之前按照規(guī)模對街區(qū)群分層。中國按照城鄉(xiāng)分層各個省份的普查小區(qū)，在城市和鄉(xiāng)村層，以小區(qū)為抽樣單位簡單隨機或等距抽樣或不等概率抽取普查小區(qū)樣本。

人口普查質(zhì)量評估調(diào)查工作的最初環(huán)節(jié)是測算和分配全國樣本量[6]。然而在政府統(tǒng)計部門發(fā)布的人口普查質(zhì)量評估研究報告中，很少見到樣本量測算與分配的相關(guān)內(nèi)容，代表當(dāng)今人口普查質(zhì)量評估最高水平的美國也是如此。一些國家的政府統(tǒng)計部門往往是憑經(jīng)驗、主觀感覺確定全國樣本總量，根據(jù)調(diào)查經(jīng)費和調(diào)查便利程度分配全國樣本量。這與政府統(tǒng)計部門不重視質(zhì)量評估調(diào)查樣本量測算有關(guān)。聯(lián)合國統(tǒng)計司組織世界人口普查質(zhì)量評估專家撰寫的人口普查質(zhì)量評估操作指南也未涉及樣本量測算問題。中國在2010年及以前的人口普查質(zhì)量評估調(diào)查中一直未能從理論上解決樣本量測算與分配問題。抽樣理論說明樣本量測算與分配對總體指標(biāo)估計精度有直接影響。在人口普查質(zhì)量評估調(diào)查中重視這一工作，有助于減小人口普查覆蓋誤差及提高內(nèi)容誤差估計精度。

測算質(zhì)量評估調(diào)查樣本量有兩種方法，一是直接測算法，二是間接測算法。直接測算法是指給出既定抽樣方法的估計量抽樣方差公式，同時給出估計量的精度要求，即估計量抽樣方差的控制值。用方差公式表示以樣本量為未知數(shù)的方程式，解這個方程得到所需要的樣本總量。只要有條件這樣做，毫無疑問就應(yīng)該采用這種方法。但是，有的時候沒有條件使用直接的方法來測算樣本量。例如，抽樣設(shè)計方案和估計量的構(gòu)造形式復(fù)雜，難以直接寫出估計量方差的數(shù)學(xué)表達(dá)式和列出樣本量方程式，這時就只好使用間接法[7]。人口普查質(zhì)量評估調(diào)查就屬于這種情況。

中國國家統(tǒng)計局已確定在2020年人口普查質(zhì)量評估調(diào)查中使用間接法測算樣本量。下面以中國為例，討論間接方法的具體測算步驟[8-10]。第一步，計算2020年實際抽樣方案的設(shè)計效應(yīng)。它為2020年實際抽樣方案總體實際人口數(shù)估計量的抽樣方差與簡單隨機抽樣總體實際人口數(shù)估計量的抽樣方差之比。顯然，為了計算2020年設(shè)計效應(yīng)，要設(shè)計兩個抽樣方案：實際采用的抽樣方案稱之為A方案；簡單隨機抽樣方案稱之為B方案。中國2020年A方案包含兩個要點：使用分層整群抽樣抽取樣本和利用該樣本資料構(gòu)造三系統(tǒng)估計量估計全國實際人口數(shù)。三系統(tǒng)估計量很復(fù)雜，其抽樣方差使用分層刀切抽樣方差估計量近似估計。B方案的要點是：首先給出抽樣估計精度要求，它是實際人口數(shù)估計量方差的一個控制值。然后依照這個控制值，如果以普查小區(qū)為抽樣單位，在全國不分層抽取簡單隨機樣本，構(gòu)造全國實際人口數(shù)的簡單均值估計量及其抽樣方差估計量。第二步，根據(jù)精度要求，計算B方案全國需要的樣本總量。第三步，將2020年A方案的設(shè)計效應(yīng)乘以B方案2020年全國樣本總量，得到A方案2020年全國樣本總量。這里需要注意的是，2020年A方案尚未實施，還無法計算A方案的抽樣方差，2020年A方案的設(shè)計效應(yīng)自然也就算不出來。

如果2010年質(zhì)量評估調(diào)查采用A方案(當(dāng)時自然已經(jīng)算出了該方案中估計量的方差)，那么只要再用2010年樣本資料計算B方案的抽樣方差，把這兩個方差相除得到2010年A方案的設(shè)計效應(yīng)。把這個設(shè)計效應(yīng)拿到2020年使用應(yīng)該沒有問題。但問題是2010年質(zhì)量評估調(diào)查可能沒有使用A方案。由2010年的樣本資料可以制造出來一個A*方案，其特點是：抽取樣本的方式與A方案相同(事實上，中國2010年和2020年質(zhì)量評估調(diào)查都采取分層整群抽樣)，使用估計實際人口數(shù)的雙系統(tǒng)估計量[11-12]，而不是三系統(tǒng)估計量[13]。

中國2010年沒有使用雙系統(tǒng)估計量估計全國實際人口數(shù)，并據(jù)此估計全國普查凈誤差率，而是通過比對樣本普查小區(qū)的普查人口名單和質(zhì)量評估調(diào)查人口名單估計樣本普查小區(qū)的普查凈誤差率。

雖然中國在2010年沒有使用雙系統(tǒng)估計量估計全國實際人口數(shù)，但它采集了應(yīng)用雙系統(tǒng)估計量及其分層刀切抽樣方差估計量所需要的樣本數(shù)據(jù)資料，即擁有2010年全國416個樣本普查小區(qū)的普查人口名單和質(zhì)量評估調(diào)查人口名單及這兩份人口名單的匹配人口名單資料。因此，中國國家統(tǒng)計局積累了2010年質(zhì)量評估調(diào)查應(yīng)用雙系統(tǒng)估計量的實際數(shù)據(jù)資料。也就是說，雖然中國國家統(tǒng)計局沒有使用雙系統(tǒng)估計量，但積累了使用雙系統(tǒng)估計量所需要的數(shù)據(jù)資料。這些實際資料可以用來計算2010年設(shè)計效應(yīng)，我們并沒有獲得這些實際數(shù)據(jù)資料，是基于對中國質(zhì)量評估調(diào)查的了解及長期研究，模擬了一套與實際數(shù)據(jù)基本吻合的微觀數(shù)據(jù)。下面依據(jù)模擬的微觀數(shù)據(jù)計算2010年A*方案的設(shè)計效應(yīng)，并作為2020年A方案的設(shè)計效應(yīng)[14]。

雙系統(tǒng)估計量與三系統(tǒng)估計量的原理基本相同。不同的是，雙系統(tǒng)估計量只用普查人口名單、質(zhì)量評估調(diào)查人口名單的信息綜合在一起構(gòu)造估計量。與三系統(tǒng)估計量相比，缺少了行政記錄人口名單(戶籍人口名單)信息。由于缺少這個，雙系統(tǒng)估計量的精度可能會比三系統(tǒng)估計量差一些。相應(yīng)地，在一定精度要求下用A*方案的設(shè)計效應(yīng)算得的2020年樣本量會比實際需要的樣本量大一些。這樣的結(jié)果還是可以接受的，畢竟兩種估計量屬于同一個理論范疇，二者精度不會相差太多。

在人口普查質(zhì)量評估領(lǐng)域，樣本量測算與分配的研究成果較少。相比國內(nèi)外發(fā)表的為數(shù)不多的相關(guān)論文，我們的創(chuàng)新工作體現(xiàn)在以下幾個方面。一是將雙系統(tǒng)估計量納入設(shè)計效應(yīng)計算中，豐富了設(shè)計效應(yīng)理論；二是增加了數(shù)據(jù)分析環(huán)節(jié)，為政府統(tǒng)計部門設(shè)計質(zhì)量評估調(diào)查樣本量測算與分配方案提供了具體方法。受設(shè)計效應(yīng)公式復(fù)雜及獲取相關(guān)數(shù)據(jù)較難的限制，現(xiàn)有相關(guān)文獻(xiàn)只是從理論角度研究質(zhì)量評估調(diào)查樣本量的測算與分配，而未進(jìn)行數(shù)據(jù)模擬或?qū)嵶C分析。這不便于讀者理解及成果推廣應(yīng)用；三是與中國國家統(tǒng)計局人口普查質(zhì)量評估工作的一貫方法保持一致。現(xiàn)有相關(guān)文獻(xiàn)討論設(shè)計效應(yīng)時，使用分層二重抽樣或多階段抽樣抽取樣本，而中國人口普查質(zhì)量評估調(diào)查使用分層整群抽樣抽取樣本?；谶@一現(xiàn)實情況，我們使用基于分層整群抽樣的雙系統(tǒng)估計量和基于簡單隨機抽樣的簡單均值估計量的抽樣方差計算設(shè)計效應(yīng)。

二、全國樣本總量測算

(一)計算全國2010年設(shè)計效應(yīng)

在2010年質(zhì)量評估調(diào)查中，中國采取分層整群隨機抽樣，抽樣單位為普查小區(qū)[15]。首先，按省份把全國分為31層，其次，每層按照城—鄉(xiāng)分為兩層，即城鎮(zhèn)層和鄉(xiāng)村層?？紤]到西藏人口少，其樣本量單獨確定。這樣全國小區(qū)共分在60個抽樣層。抽樣層用h表示，h=1，2，…，60，抽樣層的小區(qū)數(shù)及樣本小區(qū)數(shù)分別用Nh和nh表示。

(1)

在討論式(1)之前，先構(gòu)造雙系統(tǒng)估計量和簡單均值估計量及其抽樣方差估計量。雙系統(tǒng)估計量依據(jù)普查人口名單和質(zhì)量評估調(diào)查人口名單構(gòu)造，而簡單均值估計量依據(jù)質(zhì)量評估調(diào)查人口名單建立。

1.雙系統(tǒng)估計量及其抽樣方差估計量。質(zhì)量評估調(diào)查日與普查日之間不可避免有人口移動。為便于討論，忽略人口移動，構(gòu)造無人口移動的雙系統(tǒng)估計量。相關(guān)資料顯示，雙系統(tǒng)估計量來源于最初估計封閉動物總體規(guī)模的捕獲-再捕獲模型。雙系統(tǒng)是指普查人口名單及質(zhì)量評估調(diào)查人口名單，分別對應(yīng)于捕獲-再捕獲模型的第一次和第二次捕獲。該模型為第一次和第二次捕獲的動物數(shù)量乘積除以同時在兩次捕獲中的動物數(shù)目。這啟發(fā)我們構(gòu)造雙系統(tǒng)估計量須比對這兩份人口名單，找出同時登記在兩份人口名單的人口。此外還要注意的是，捕獲-再捕獲模型須在同質(zhì)動物總體構(gòu)造及使用。同質(zhì)動物大多居住在一起(猴子等)，而不同質(zhì)動物分開居住，因而捕獲-再捕獲模型所需要的同質(zhì)性條件較易得到滿足。但人在年齡、性別、居住環(huán)境和居住位置等方面存在較大差異，不具備同質(zhì)性。相應(yīng)地，在將捕獲-再捕獲模型移植到人類總體構(gòu)造雙系統(tǒng)估計量時，應(yīng)該按照年齡、性別、文化程度、婚姻狀況、是否有屬于自己的房子等變量將總體人口分層，把變量值相同或大致相同的人放在同一層，稱之為事后層或等概率人口層，用v表示[16]。顯然，用于分層的變量越多，層v人口的同質(zhì)性越強。但在樣本規(guī)模一定情形下，層v的樣本人口數(shù)就越少，在事后層建立的雙系統(tǒng)估計量估計的實際人口數(shù)的抽樣誤差就越大。為計算方便，使用性別對總體人口分層，共分為兩個事后層，即男性層和女性層。匯總所有事后層的雙系統(tǒng)估計量，得到估計總體實際人口數(shù)的雙系統(tǒng)估計量。

為什么在總體人口數(shù)估計中使用由普查人口名單及質(zhì)量評估調(diào)查人口名單構(gòu)造的雙系統(tǒng)估計量，而不使用由這兩份人口名單之一構(gòu)造的單系統(tǒng)估計量呢？根本原因在于雙系統(tǒng)估計量對總體人口的覆蓋范圍大于單系統(tǒng)估計量，所估計的人口數(shù)自然接近于總體實際人口數(shù)。南非2011年使用雙系統(tǒng)估計量估計的全國人口數(shù)為49.79百萬人，而采用依據(jù)普查人口名單構(gòu)造的單系統(tǒng)估計量估計的全國人口數(shù)為42.08百萬人，使用依據(jù)質(zhì)量評估調(diào)查人口名單構(gòu)造的單系統(tǒng)估計量估計的全國人口數(shù)為40.62百萬人。南非2011年全國普查人口數(shù)為51.77百萬人。使用三系統(tǒng)估計量估計的南非2011年全國人口數(shù)會更加接近于該年的全國普查人口數(shù)。

(2)

(3)

whi=Nh/nh

(4)

從式(3)和(4)可以看出，式(2)是一個復(fù)雜估計量，應(yīng)該使用分層刀切抽樣方差估計量近似計算其抽樣方差[17]。雙系統(tǒng)估計量的抽樣方差為：

(5)

(6)

(7)

(8)

總體實際人口數(shù)的雙系統(tǒng)估計量為：

(9)

在計算總體實際人口數(shù)雙系統(tǒng)估計量的抽樣方差估計量時，由于各事后層之間并不是相互獨立，因此不僅需要計算各事后層的方差，還需要計算事后層之間的協(xié)方差。

(10)

V為事后層的總層數(shù)。

2.簡單均值估計量及其抽樣方差估計量。公式如下：

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(二)計算全國2020年樣本量

我們要求2020年總體實際人口數(shù)估計量的抽樣方差不超過指定值V。如果用抽樣誤差范圍d和置信概率95%表示精度要求，那么由于估計量近似服從正態(tài)分布，當(dāng)置信概率為95%時，標(biāo)準(zhǔn)正態(tài)分布雙側(cè)臨界值的絕對值是1.96，這時有V=(d/1.96)2。如果用相對抽樣誤差范圍δ和置信概率表示精度要求，這時V=(δY/1.96)2，其中Y為2020年全國實際人口數(shù)的真值，用2019年1‰人口抽樣調(diào)查全國實際人口數(shù)估計值來代替。

在該精度要求下，假若2020年在全國范圍內(nèi)以普查小區(qū)為單位，簡單隨機抽取樣本，構(gòu)造簡單均值估計量估計全國人口數(shù)，計算所需要的樣本量。這里需要用到2020年普查小區(qū)之間人口數(shù)的總體方差S2(用2010年質(zhì)量評估調(diào)查估計的全國小區(qū)人口數(shù)之間的總方差代替)、2020年全國小區(qū)數(shù)N和估計精度V。使用式(18)求出全國樣本小區(qū)數(shù)目nSRS：

(18)

如果2020年采用與2010年相同的抽樣方法，構(gòu)造相同形式的估計量(雙系統(tǒng)估計量)，那么樣本中應(yīng)含有的普查小區(qū)數(shù)nA*為：

(19)

如果在2020年采用比2010年更優(yōu)越的抽樣方法，將分層整群抽樣換為分層二重整群抽樣，雙系統(tǒng)估計量換成三系統(tǒng)估計量估計全國人口數(shù)，所需要的樣本含量(普查小區(qū)數(shù))，會低于式(19)計算的結(jié)果。

三、全國樣本總量分配

這包括兩個層次，一是全國樣本量在除西藏之外的30個省份分配，二是各個省份在抽樣層之間的分配。一般按照各省份或抽樣層最新普查小區(qū)數(shù)(或人口數(shù))或上次普查小區(qū)數(shù)(人口數(shù))比例分配。用n1A*，…，n30A*分別表示各個省份分配的普查小區(qū)數(shù)，計算公式為：

(20)

其中，k=1，2，…，30，Tk為第k省普查小區(qū)數(shù)或人口數(shù)，T為全國上次或本次普查小區(qū)數(shù)或人口數(shù)。用nklA表示抽樣層l從nkA分配的普查小區(qū)數(shù)，l=1，2，…，60，計算公式為：

(21)

其中，Tkl為第k省的第l抽樣層的人口數(shù)或普查小區(qū)數(shù)。

西藏人口稀少，在2010年質(zhì)量評估調(diào)查中，城鄉(xiāng)各指定1個樣本普查小區(qū)。從人口普查凈誤差估計、普查漏報估計、普查多報估計，以及普查內(nèi)容誤差估計的角度來看，每個抽樣層的樣本量應(yīng)該大于1。這是因為用于估計這些誤差的雙系統(tǒng)估計量、三系統(tǒng)估計量、普查漏報合成估計量、普查多報比率估計量、內(nèi)容誤差估計量屬于復(fù)雜估計量。對于復(fù)雜估計量，抽樣方差通常使用分層刀切抽樣方差估計量近似計算。該抽樣方差估計量的復(fù)制權(quán)數(shù)的分母為抽樣層的樣本量與1的差。在2020年質(zhì)量評估調(diào)查中，中國全國樣本普查小區(qū)數(shù)量將從2000年的602個和2010年的402個增加到1 000個。相應(yīng)地，西藏最低樣本量可規(guī)定為4個普查小區(qū)，其中城鄉(xiāng)各兩個樣本小區(qū)。

四、模擬分析

如果能夠獲得2010年中國每個省份城市和鄉(xiāng)村的普查小區(qū)數(shù)目、城鄉(xiāng)的樣本小區(qū)數(shù)目、全國每個小區(qū)的人數(shù)和2020年全國每個小區(qū)的人口數(shù)，就可以進(jìn)行實證分析。盡管我們?yōu)橹袊鴩医y(tǒng)計局制訂2020年人口普查質(zhì)量評估方案，包括樣本總量測算與分配方案，但受微觀數(shù)據(jù)保密性所限，依然無法從國家統(tǒng)計局獲得所需要的實際微觀數(shù)據(jù)。不得已只能做模擬分析。2010年中國各省份的普查小區(qū)總數(shù)及樣本小區(qū)總數(shù)可以從國家統(tǒng)計局網(wǎng)站或我們與國家統(tǒng)計局于2012年合作撰寫的《人口普查的事后質(zhì)量抽查報告》中得到，這便是實際數(shù)據(jù)。但該年各省份的城市和鄉(xiāng)村各自的普查小區(qū)數(shù)及樣本小區(qū)數(shù)沒有得到，于是采用城鄉(xiāng)人口數(shù)比例間接推算，這便是模擬數(shù)據(jù)。至于各個小區(qū)的住戶數(shù)或人口數(shù)，則是模擬的。模擬分析中的表1～6的數(shù)據(jù)都是模擬的。

(一)計算全國樣本總量

中國在2010年質(zhì)量評估調(diào)查中，從全國(西藏除外)30個省份的城鄉(xiāng)60個層中抽取樣本普查小區(qū)400個，西藏城鄉(xiāng)小區(qū)各1個。表1列示各層普查小區(qū)總數(shù)及樣本普查小區(qū)數(shù)。

表1 2010年全國人口普查質(zhì)量評估調(diào)查樣本量

為了使用簡單均值估計量估計全國實際人口數(shù)，需要獲得每一個樣本普查小區(qū)的人口數(shù)，具體見表2。利用表1～2的數(shù)據(jù)，使用式(11)～(17)，得到簡單均值估計量(除西藏外)估計的實際人口數(shù)及抽樣方差估計值分別為：

全國實際人口數(shù)估計值為：

總體方差估計量為：

=35 344 370 519 033

為使用雙系統(tǒng)估計量估計全國(除西藏外)實際人口數(shù)，除了需要獲得表1數(shù)據(jù)外，還需要獲得每一個樣本普查小區(qū)的普查正確登記人數(shù)、質(zhì)量評估調(diào)查人數(shù)，以及它們的匹配人數(shù)。這里只列出北京市20個樣本普查小區(qū)的人口數(shù)，見表3。

利用表1和表3數(shù)據(jù)，使用式(2)～(4)及式(9)得到雙系統(tǒng)估計量估計的全國實際人口數(shù)為：

為計算雙系統(tǒng)估計量的抽樣方差，一項核心工作是使用式(8)計算每刀切掉每一層的每一個樣本普查小區(qū)后，所有樣本普查小區(qū)的復(fù)制權(quán)數(shù)，被刀切小區(qū)的復(fù)制權(quán)數(shù)為0。模擬研究需刀切400個普查小區(qū)，因此，最后的結(jié)果是400×400的矩陣，如表4。每刀切一個樣本普查小區(qū)后重新計算的所有樣本小區(qū)的復(fù)制權(quán)數(shù)之和為全國總普查小區(qū)數(shù)(5 520 099)。

表2 樣本普查小區(qū)人數(shù) 單位：人

利用表3和表4數(shù)據(jù)，以及式(5)～(8)及式(10)得到全國雙系統(tǒng)估計值的抽樣方差：

使用式(1)和算得的均值單元估計值和雙系統(tǒng)估計值的抽樣方差，得到2010年質(zhì)量評估調(diào)查方案A*的設(shè)計效應(yīng)為：

=0.771 9

如果要求2020年全國實際人口數(shù)估計值與實際值的誤差范圍為7 468 267人，并假定2020年全國普查小區(qū)數(shù)與2010年相同，為5 520 099個，2020年全國普查小區(qū)人口數(shù)總體方差與2010年相同，為464，那么使用式(18)得到2020年采取簡單隨機抽樣全國樣本總量為：

如果2020年采取與2010年同樣的抽樣方法和雙系統(tǒng)估計量，那么使用式(19)得到2020年全國樣本普查小區(qū)數(shù)為：

如果2020年采取更優(yōu)的抽樣方法和估計量，如分層二重抽樣和三系統(tǒng)估計量，那么使用式(19)得到2020年全國樣本普查小區(qū)數(shù)應(yīng)該比751小，如700個。

表3 北京城鄉(xiāng)樣本小區(qū)普查人數(shù)、質(zhì)量評估調(diào)查人數(shù)及匹配人數(shù) 單位：人

表4 樣本小區(qū)復(fù)制權(quán)數(shù)

(二)全國樣本總量分配

假定2020年最終確定的全國樣本普查小區(qū)數(shù)700個。利用表1數(shù)據(jù)，使用式(20)～(21)，得到全國各個省份及城鄉(xiāng)抽樣層按普查小區(qū)數(shù)或人口數(shù)比例分配的樣本普查小區(qū)數(shù)，見表5和表6。

表5 基于小區(qū)數(shù)比例的2020年全國樣本量分配結(jié)果

表5中的數(shù)據(jù)基本上按照式(20)～(21)分配?？紤]到北京、天津、上海、寧夏和青海普查小區(qū)比例較小，適當(dāng)增加了樣本普查小區(qū)數(shù)，這與中國人口普查質(zhì)量評估調(diào)查的一貫做法一致。

表6 基于人口數(shù)比例的2020年全國樣本量分配結(jié)果

從表5和表6可以看出，采用2010年抽樣層的普查小區(qū)數(shù)或人口數(shù)比率分配的樣本量差異不明顯。如遼寧、江蘇、福建和云南，城鎮(zhèn)和鄉(xiāng)村無差異。但少數(shù)省份或其城鄉(xiāng)，采用普查小區(qū)數(shù)或人口數(shù)分配有明顯差異，如河南鄉(xiāng)村樣本量相差4個普查小區(qū)，四川城鎮(zhèn)樣本量相差5個小區(qū)及鄉(xiāng)村樣本量相差11個小區(qū)。這表明中國各個普查小區(qū)的人口數(shù)差異很少。事實上，中國樣本普查小區(qū)是按照250個常住人口來確定的。

五、結(jié) 論

第一，在人口普查質(zhì)量評估調(diào)查樣本總量測算中，使用總體實際人口數(shù)估計精度計算設(shè)計效應(yīng)[18]。這與人口普查質(zhì)量評估的主要目標(biāo)一致，即估計普查時點的總體實際人口數(shù)及普查凈誤差。設(shè)計效應(yīng)的分子是總體雙系統(tǒng)估計量的抽樣方差，分母是簡單均值估計量的抽樣方差。

第二，參照中國2000年和2010年普查凈誤差估計值，以及美國、烏干達(dá)和南非等國凈誤差估計值，綜合確定中國2020年總體實際人口數(shù)估計值的誤差范圍。

第三，計算簡單均值估計量的抽樣方差，需要全國普查小區(qū)之間人口數(shù)的方差。該方差計算資料可以是2010年質(zhì)量評估調(diào)查每個樣本普查小區(qū)的人口數(shù)，或2010年全國每個普查小區(qū)的人口數(shù)，也可以是2019年全國1‰人口抽樣調(diào)查資料。

第四，應(yīng)用設(shè)計效應(yīng)測算全國質(zhì)量評估調(diào)查樣本總量的前提是2020年采用與2010年同樣的抽樣方法和估計量。如果2020年采用優(yōu)于2010年的抽樣方法(分層二重抽樣)和估計量(三系統(tǒng)估計量)，那么2020年所需要的樣本總量會比同樣抽樣方法和同樣估計量時的要少一些。此時，可以根據(jù)2020年質(zhì)量評估調(diào)查的人力、物力、財力、時間及對普查覆蓋誤差和內(nèi)容誤差估計精度的要求，綜合確定2020年全國質(zhì)量評估調(diào)查的樣本總量。

第五，全國樣本總量確定之后，按照人口數(shù)或普查小區(qū)數(shù)比例分配全國樣本總量。對人口數(shù)特別少的省份或抽樣層，為避免因樣本量嚴(yán)重不足而影響估計精度，單獨確定樣本量或適當(dāng)增加樣本量。