摘 要:提出了人口年齡結(jié)構(gòu)模型——以年齡為自變量、累計的年齡百分比為因變量的函數(shù)形式,通過使用中國歷次人口普查數(shù)據(jù)和其他一些數(shù)據(jù)對模型的驗證,表明模型是成立的。累計的年齡百分比模型經(jīng)過兩次對數(shù)變換后,可以表示為線性函數(shù)的形式。以這一模型為基礎(chǔ),進(jìn)一步構(gòu)建了人口百分比、前后兩次人口普查對應(yīng)的年齡人口百分比之比等數(shù)學(xué)函數(shù)的表達(dá)式。在使用人口普查資料檢驗時發(fā)現(xiàn),模型雖然能很好地擬合累計的年齡人口百分比曲線,但當(dāng)人口的年齡波動較大時,年齡百分比模型的殘差就會變大。由此可以得出這樣的結(jié)論:用一個簡單的數(shù)學(xué)函數(shù)要準(zhǔn)確表示一般的年齡人口百分比是做不到的,若沒有其他數(shù)據(jù)支持,根據(jù)一次普查的數(shù)據(jù)要全面準(zhǔn)確判斷人口普查數(shù)據(jù)的準(zhǔn)確性也是不可能的。為了判別普查數(shù)據(jù)的報告誤差,把普查數(shù)據(jù)拆分為估計值、偏離值和誤報三部分,這里的估計值就是年齡百分比的模型值。本研究證明,在封閉人口條件下,年齡偏離系數(shù)(偏離值與估計值之比)是個常數(shù)。利用這個性質(zhì),可以用兩次普查的百分比模型值計算實際人口的年齡存活率,并通過估計年齡偏離系數(shù),估計出普查的誤報。利用上述模型,本文估算了1982年全國人口普查的年齡誤報情況。根據(jù)估算1982年7—91歲的年齡誤報有683萬人,年齡誤報率為6.74‰。由于年齡誤報,一些年齡的報告人口比估計的實際人口多,它們主要出現(xiàn)在中青年期,即青年期(24歲和25歲)和中年期,共計340萬人,而一些年齡的報告人口少于估計的實際人口,它們主要分布在青年期(17、18歲和21歲),共計342萬人。
關(guān)鍵詞:年齡結(jié)構(gòu)模型;人口普查;普查數(shù)據(jù)修正
中圖分類號:C92-03 文獻(xiàn)標(biāo)識碼:A? 文章編號:1000-4149(2023)06-0056-15
DOI:10.3969/j.issn.1000-4149.2023.00.040
人口以規(guī)模和結(jié)構(gòu)衡量,在各種結(jié)構(gòu)中,又以人口年齡結(jié)構(gòu)最為重要。年齡是人口研究中最常用的基礎(chǔ)變量,人口研究的許多領(lǐng)域都是以年齡為變量而展開的。例如人們熟知的年齡別生育率、年齡別死亡率、年齡別勞動參與率,等等,這些指標(biāo)分別是人口生育研究、人口死亡研究、就業(yè)研究中最重要的基礎(chǔ)指標(biāo),而這些指標(biāo)都必須以分年齡人口為基礎(chǔ)計算得到。如果人口數(shù)據(jù)不準(zhǔn),那么以此為基礎(chǔ)計算出的結(jié)果和得出的結(jié)論的可信度就令人存疑了。所以,一個國家和地區(qū)的各年齡的人口數(shù)以及它所占總?cè)丝诘谋?,即人口年齡結(jié)構(gòu)數(shù)據(jù)的準(zhǔn)確性特別受人重視。
在使用人口數(shù)據(jù)時,首先要檢查所用的數(shù)據(jù)是否準(zhǔn)確可靠,這是人口學(xué)專業(yè)必須的基礎(chǔ)訓(xùn)練。人口學(xué)學(xué)者對人口數(shù)據(jù)質(zhì)量的重視程度,可以從人口統(tǒng)計分析教科書的內(nèi)容看出:這些教科書一般都是從人口數(shù)據(jù)的來源和對數(shù)據(jù)質(zhì)量的評估開始的。在人口數(shù)據(jù)質(zhì)量的評估方面,人口學(xué)家提出了一些方法,如檢驗在某個年齡尾數(shù)上報告是否有偏好或排斥的方法有惠普爾指數(shù)、邁耶爾指數(shù)、聯(lián)合國的年齡—性別準(zhǔn)確性指數(shù)。黃榮清提出了用差分或者用每個年齡的數(shù)量與它左右兩邊年齡的人口數(shù)之差的符號分布來檢驗?zāi)挲g尾數(shù)上是否有偏好或排斥[1-2]。此外,可以通過兩次普查數(shù)據(jù)的一致性,即對應(yīng)年齡人口比的大小來判定普查中是否存在漏報和誤報,等等??梢哉f,在判斷人口數(shù)據(jù)的準(zhǔn)確性方面,人口學(xué)界已經(jīng)積累了許多方法,雖然這些方法尚有改進(jìn)的余地。但我們同時也注意到,即使檢驗出數(shù)據(jù)有質(zhì)量問題,如何修正卻沒有被很好解決,甚至可以說有點束手無策。例如,我們可以判定某個人口的數(shù)據(jù)在尾數(shù)為“0”的年齡上有堆積,但我們并不能確定是在每個尾數(shù)為“0”的年齡都有重報,還是在部分年齡上有重報;即使我們能確定在某個年齡上有重報,例如在40歲,但我們并不能確定是40歲以前還是40歲以后的人的誤報,若我們已經(jīng)確定是年齡高報,即40歲年齡以前的人報告到40歲,那到底是39歲,還是38歲,或者是35歲、36歲的人誤報,還是35歲到39歲的人都有誤報?若進(jìn)一步問,他們誤報的數(shù)量和比例是多少?諸如此類的問題,從現(xiàn)有的研究來看,我們并不能清晰地回答。
究其原因,實際上我們對人口數(shù)量在各年齡之間的相互聯(lián)系,或者說人口年齡結(jié)構(gòu)數(shù)量變化的規(guī)律還沒有清楚的認(rèn)識。在一些特殊的條件下,我們有已知的闡述年齡結(jié)構(gòu)的模型。如在生育水平和死亡水平保持不變,且兩者相等的條件下,人口的年齡結(jié)構(gòu)等于生命表中的靜止人口年齡結(jié)構(gòu);在放寬相等的條件,保持死亡水平、生育水平不變的條件下有穩(wěn)定人口年齡結(jié)構(gòu)。但上述模型都是建立在理論假設(shè)下,現(xiàn)實人口中,死亡水平、生育水平保持長期不變幾乎不存在,尤其如近現(xiàn)代的中國,經(jīng)歷了百年翻天覆地的變化,生育水平、死亡水平都發(fā)生了急劇的變化,顯然是無法用穩(wěn)定人口模型來解釋中國人口的年齡結(jié)構(gòu)及其變化的,所以,我們需要設(shè)計一個更加普遍適用的模型來刻畫人口年齡結(jié)構(gòu)的特征,并解釋在現(xiàn)實的人口統(tǒng)計中出現(xiàn)的種種問題。
一、年齡結(jié)構(gòu)模型
人口年齡結(jié)構(gòu)模型,就是以年齡為自變量、年齡結(jié)構(gòu)為因變量的數(shù)學(xué)函數(shù)。
1. 累計的年齡百分比模型
年齡結(jié)構(gòu)常常以某一年齡的人口占總?cè)丝诘谋戎貋肀硎?。設(shè)x年齡的人口為px,x歲及以上的人口為Ρx(在本文中,x歲年齡別人口比例用小寫字母表示,如px,x歲及以上的人口用大寫字母字母表示,如Ρx。字母加下標(biāo)表示觀測值,如ax, 表示x歲人口占總?cè)丝诘陌俜直扔^測值;a(x) 表示x歲人口占總?cè)丝诘陌俜直饶P椭?。?dāng)要表示某個時刻時,觀測值用下標(biāo)加括號,如ax(T)來表示,模型值則用二元函數(shù)的形式a(x,T)來表示。),
三、1982年全國人口普查年齡報告誤差
1982年第三次全國人口普查,我國開始按照現(xiàn)代人口普查的內(nèi)容設(shè)計,采用了先進(jìn)的技術(shù)手段,在當(dāng)時的社會環(huán)境下,基層組織對人口管理有效,人口流動的規(guī)模很小。在全國動員、上下重視和努力下,人口普查非常成功,獲得的調(diào)查數(shù)據(jù)質(zhì)量很高,這一結(jié)論得到國內(nèi)外學(xué)術(shù)界普遍的認(rèn)可(1984年3月在北京召開的“中國1982年人口普查北京國際討論會”上,出席會議的人口學(xué)家對這次人口普查的質(zhì)量一致地給予了很高的評價。)。但普查數(shù)據(jù)可靠與否,需要通過和其他數(shù)據(jù)是否一致,包括后來的普查數(shù)據(jù)是否一致來檢驗。在1982年普查以后,我國在1987年舉行了全國1%人口抽樣調(diào)查,在1990年又舉行了第四次全國人口普查。通過對比,人們發(fā)現(xiàn)在死亡數(shù)據(jù)方面,1982年數(shù)據(jù)存在著漏報,在年齡人口方面,存在著漏報和誤報的問題。這里不討論死亡數(shù)據(jù)漏報問題,主要討論年齡誤報問題。
下面,我們來觀察1982年和1990年前后兩次普查對應(yīng)年齡的人口比:設(shè)1982年x歲的人口為px(0), 它和1990年x+8歲的人口相對應(yīng),設(shè)為px+T(T) (T=8),對應(yīng)的人口比為px+T(T)/px(0),如果普查報告的人數(shù)無誤,這個比表示上次普查x歲的人經(jīng)過T年后存活的比率,簡稱存活率。1982年各年齡的人與1990年對應(yīng)人口之比和存活率(這里暫時把根據(jù)模型推算的普查人口之比看作存活率,后面將證明這一推算是成立的。)見圖5。
觀察圖5可以知道,兩次普查對應(yīng)年齡的人口比并不是一條光滑曲線,它是在存活率曲線上下波動的,這在40歲以前特別明顯(見圖6)。
理論上說,除出生人口外,其他年齡的人口隨時間的變化完全由死亡率決定。死亡率的變化一般是很穩(wěn)定的。由于中國人口基數(shù)很大,除了高齡人口外,各個年齡人口數(shù)都很大,例如在1982年,50歲以下每個年齡人口都在800萬以上,人口死亡率(或者存活率)的隨機(jī)誤差非常?。ㄋ劳雎蕵?biāo)準(zhǔn)誤差的計算可參見:蔣慶瑯.壽命表及其應(yīng)用[M].上海:上海翻譯出版公司,1984:49-50。),出現(xiàn)上述波動,可以認(rèn)為是由于人口誤差引起的。從這里似乎可以得出結(jié)論:普查的人口數(shù)據(jù)其實也不是很準(zhǔn)確的,是有一定差錯的。從1982年0—40歲的年齡看(見圖6),這些差錯是非常明顯的。
人口報告的錯誤最明顯地是出現(xiàn)在兩次普查的人口比大于1的年齡上。在人口封閉的情況下,人口隨時間(或者說年齡)推移發(fā)生變化,由于死亡的發(fā)生,只會變少,存活率肯定是小于1。如果在某個年齡 x歲人口比大于1的情況出現(xiàn),可能是以下情況導(dǎo)致的:上次普查x歲的人口有漏報,或是后一次普查x+T歲的人口有重報;當(dāng)然也可能是人口年齡誤報導(dǎo)致,即上一次普查x歲的人報告到其他年齡上去,導(dǎo)致報告人數(shù)少于實際人口,或后一次普查非x+T歲的人在普查時報告到了x+T歲,導(dǎo)致在x+T歲報告人數(shù)大于實際人口。
在1982—1990年兩次普查對應(yīng)年齡的人口比中,有11個年齡大于1。其中,在0—6歲有5個年齡,在14—32歲,有6個年齡的人口比大于1。由于1982年0—6歲人口少于1990年的8—14歲人口,很可能是在1982年普查時,一部分家庭未按計劃生育的規(guī)定“超生”,因為擔(dān)心受罰而瞞報了人口。到了1990年,這些被瞞報的人口都已進(jìn)入上學(xué)年齡,在這以前有些家庭已經(jīng)作出應(yīng)對,如已經(jīng)繳過了罰款,或采取了其他辦法,已不必再隱瞞或不再隱瞞,所以出現(xiàn)了1990年8—14歲的人口多于1982年0—6歲人口。這里,我們以1990年8—14歲人口為基礎(chǔ)并考慮了死亡的影響對1982年的0—6歲人口進(jìn)行了調(diào)整。在其他年齡,則認(rèn)為只是由于年齡報告的錯誤造成的。以下,我們來估計年齡報告的誤差。
算出的hx(0)和hx(T)見圖7。
由圖7可以看出,盡管hx(0)和hx(T)的起伏很大,但在80歲以前,兩者卻很接近,用hx(0)和hx(T)的平均來估計偏離度hx。
hx=0.5(hx(0)+ hx(T))(48)
把hx代回到公式(43)和公式(44)中,可得1982年和1990年各年齡百分比的報告誤差和實際值。
根據(jù)1982年和1990年全國人口普查數(shù)據(jù),1982年0—6歲的人口中有5個年齡少于對應(yīng)的1990年的8—14歲的人口。據(jù)此,本文以1990年8—14歲的人口為基礎(chǔ),按照1982—1990年的平均死亡率,反推估計1982年0—6歲人口,并把它作為1982年的實際人口,將其和1982年0—6歲的調(diào)查人口之差作為人口漏報數(shù),則1982年該年齡組漏報人口為527萬人。
在理論上,年齡上限可以無限大,這樣兩次普查在年齡上可以一一對應(yīng)。但在實際的統(tǒng)計中,總是會設(shè)定一個年齡上限。公布的1982年普查和1990年普查的年齡上限是100歲,該年齡是半開區(qū)間,即包括了100及以上的人口,所以能和1990年一一對應(yīng)的是1982年的91歲以下的年齡。以下的數(shù)據(jù)都是指1982年0—91歲年齡的數(shù)據(jù)。
由公式(43)可知,Δ(2)x(0)=ax(0)-a(x,0)(1+ hx), 可估計算出各個年齡百分比的報告誤差。
在7—91歲的年齡中,年齡誤報人口有683萬人,年齡誤報率為6.74‰。由于年齡誤報,一些年齡的報告人口比估計的實際人口多,它們主要出現(xiàn)在中青年期,即青年期(24歲和25歲)和中年期,共計340萬人,而一些年齡的報告人口少于估計的實際人口,它們主要分布在青年期(21歲和17、18歲),共計342萬人。而多報人數(shù)比率較高的主要是高齡(80歲以上),而少報人數(shù)比率較高的除了21歲,大多在60—79歲年齡段( 各年齡段誤報人數(shù)和誤報人數(shù)比率詳細(xì)數(shù)據(jù)可向作者索取。)。按1982年人口普查事后質(zhì)量抽樣調(diào)查結(jié)果,年齡誤報率為6.15‰[3]。相比于本文的計算結(jié)果,兩者還是很接近的。
四、小結(jié)和討論
人口年齡結(jié)構(gòu)是人口研究中最重要的基礎(chǔ)數(shù)據(jù)。人口年齡結(jié)構(gòu)數(shù)據(jù)的準(zhǔn)確性,直接影響到各項人口研究的質(zhì)量。人口結(jié)構(gòu)形形色色,不同地域在不同時點的人口年齡結(jié)構(gòu)都不同。本文提出了人口年齡結(jié)構(gòu)模型——以年齡為自變量、累計的年齡百分比為自變量的函數(shù)形式,并以中國歷次人口普查的數(shù)據(jù)和其他一些數(shù)據(jù)進(jìn)行了驗證,表明模型是成立的。這個結(jié)果是很有意義的。因為根據(jù)模型,一個人口的累計百分比的兩次對數(shù),通過變量替換后,可以表示為線性函數(shù)的形式。由于線性函數(shù)的可傳遞性,任何兩個人口的累計百分比的兩次對數(shù)都可以用線性函數(shù)來聯(lián)系。利用這個結(jié)果,可以方便地對不同的人口年齡結(jié)構(gòu)進(jìn)行區(qū)分和歸類,也可以利用已知的人口年齡結(jié)構(gòu)來推測未知的或信息缺失的另一個人口的年齡結(jié)構(gòu)。
由人口的年齡累計百分比模型可以推導(dǎo)出年齡百分比模型。年齡百分比模型值也可稱為人口年齡變化的估計值,而百分比模型值與觀測值差的分布可以作為人口報告是否有特定年齡尾數(shù)堆積的判定方法。
本文分析表明,許多人口的年齡分布不是單調(diào)均勻變化的,所以,要用一個簡單函數(shù)來準(zhǔn)確地表示出各種人口的年齡百分比幾乎是不可能的。特別是如我國的人口在不同年齡的比重起伏很大時,模型值和觀測值出現(xiàn)較大的殘差是必然的。但可以把年齡百分比模型值作為實際人口的年齡百分比的估計值。本文提出了這樣的概念:每個年齡的人口通??煞殖晒烙嫴糠趾推x部分。這兩部分的特點是,在人口封閉的條件下,隨著時間的推移,各年齡的人口占總?cè)丝诘谋戎匕l(fā)生改變,該年齡的估計部分的比重也隨之變動,但它的偏離部分與估計部分的比(本文名之為偏離度)是幾乎不變的。由此,就可以用兩次普查對應(yīng)年齡人口比的預(yù)估值來估計兩次普查對應(yīng)年齡人口的存活率,并估計出人口普查的年齡報告誤差。即把實際的年齡人口分成估計部分和偏離部分概念的引入,是估計人口普查報告誤差的關(guān)鍵。
但年齡人口的偏離度并不是調(diào)查數(shù)據(jù)直接給出的,它是由現(xiàn)今的人口年齡結(jié)構(gòu)數(shù)據(jù)或者歷史的出生人口數(shù)據(jù)得到的。它的準(zhǔn)確性取決于原始數(shù)據(jù)的準(zhǔn)確性。從表面上看,偏離系數(shù)和數(shù)據(jù)精度的估計相互依賴,成了解不開的結(jié)。這里需要注意的是,雖然年齡偏離系數(shù)是由調(diào)查數(shù)據(jù)估計出來的,但可利用的調(diào)查數(shù)據(jù)往往不是只有一個。我們可以利用數(shù)據(jù)質(zhì)量較高的調(diào)查,或者比較分析不同的調(diào)查結(jié)果,從而估計出較為可靠的年齡偏離系數(shù)。
本文1982年普查在高齡部分(80歲以上)的報告誤差較大,估計出的年齡偏離系數(shù)誤差也會比較大。但由于高齡人口數(shù)較少,對總的誤報數(shù)影響較小。這里就不加討論了。
參考文獻(xiàn):
[1]黃榮清.中國人口普查中人口年齡報告準(zhǔn)確性的檢驗[J].人口研究,2009(6):30-41.
[2]黃榮清,肖周燕.人口年齡結(jié)構(gòu)數(shù)據(jù)異常的檢驗[J].人口與經(jīng)濟(jì),2009(5):1-8,15.
[3]馬安. 對中國1982年人口普查資料質(zhì)量的評估[C]//李成瑞.中國1982年人口普查北京國際討論會論文集,1984.
Population Age Structure Model and Its Application
HUANG? Rongqing
Abstract: In this paper, a model of population age structure is proposed, which? is a function taking? age as the independent variable and the cumulative age percentage as? the dependent variable. The model is verified by the data of Chinese population censuses and other data. This model can be expressed as a linear function after two logarithmic transformations. On the basis of this model, this paper further constructs the expressions of mathematical functions such as the percentage of population and the ratio of the percentage of age population corresponding to the last two censuses. After the test of census data, the model can fit the cumulative age-population percentage curve well, but when the age of the population fluctuates greatly, the residual error of the percentage model will become larger. It can be concluded that it is impossible to accurately represent the general age population? percentage with a simple mathematical function, and it is impossible to fully and accurately judge the accuracy of the census data from a single census without other data support. In order to solve the reporting error of the census data, the census data is divided into three parts: the estimated value, the deviation value and false value. The estimated value here is the model value of the age percentage. This study shows that the age deviation coefficient (the ratio of the deviation value to the estimated value) is a constant under closed population conditions. Using this property, we can use the percentage model values of the two censuses to calculate the age survival rate of the actual population, and estimate the census false values by estimating the age deviation coefficient. Finally, the model is used to estimate the age misstatement of the 1982 population census in China. In 1982, it was estimated that 6.83 million people aged 7-91 years were misstated, and the age misstatement rate was 6.74‰. Due to age misstatement, the reported population of some ages is larger than the estimated actual population, and they occur mainly in adolescence (young adulthood (24 and 25 years old) and middle age), totaling 3.4 million, while the reported population of some ages is smaller than the estimated actual population, and they are mainly distributed in young adulthood (17,18 and 21 years old), totaling 3.42 million.
Keywords:age structure model; population census; census data revision
[責(zé)任編輯 武 玉]
收稿日期:2023-01-04;修訂日期:2023-06-18
作者簡介:黃榮清,首都經(jīng)濟(jì)貿(mào)易大學(xué)人口經(jīng)濟(jì)研究所教授,博士生導(dǎo)師。