王小寧
(中國傳媒大學(xué) 數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)
基于人口調(diào)查的分析始終是人口學(xué)研究領(lǐng)域的一個關(guān)鍵問題,當(dāng)前對人口統(tǒng)計相關(guān)的研究主要基于全國人口普查數(shù)據(jù),而對此的研究也集中采用第四、五、六次人口普查的數(shù)據(jù)。人口抽樣調(diào)查是根據(jù)隨機原則從所研究的人口總體中抽取一部分單位作為樣本,并利用抽取的樣本數(shù)據(jù)去推斷總體相應(yīng)各項指標(biāo)值的一種非全面調(diào)查。調(diào)查目的是用樣本信息去推斷總體信息,理想的情況是每個樣本代表的信息是相同的,但大多數(shù)情況下不同樣本代表的信息是有差異的。不少學(xué)者在處理抽樣數(shù)據(jù)時,只是用抽樣數(shù)據(jù)直接對總體進行估計,而不去考慮樣本的代表性問題,從而造成一定的偏差,使得樣本數(shù)據(jù)代表總體信息的說服力下降,本文基于此種現(xiàn)狀提出一種基于權(quán)數(shù)的參數(shù)估計和控制方法。
本文旨在分析常規(guī)的人口抽樣調(diào)查中計算權(quán)數(shù)的一般步驟和權(quán)數(shù)調(diào)整及控制方法,并結(jié)合刀切法計算參數(shù)的標(biāo)準(zhǔn)誤差,將權(quán)數(shù)調(diào)整和權(quán)重控制方法同時加入到常規(guī)的加權(quán)估計中,一方面有效控制了估計的標(biāo)準(zhǔn)誤差,另一方面降低了變量的變異系數(shù)。同時,采用第四次中國城鄉(xiāng)老年人生活狀況的調(diào)查數(shù)據(jù)(1)第四次中國城鄉(xiāng)老年人生活狀況抽樣調(diào)查數(shù)據(jù)來源于http://dscdc.cncaprc.gov.cn,由中國老齡科學(xué)研究中心提供。(以下簡稱老年人調(diào)查)為例進行分析,證明加權(quán)調(diào)整方法的實用性和有效性。
權(quán)數(shù)就是一種表征樣本代表總體的指標(biāo),可表示為衡量被抽中的個體所能代表的抽樣群體的人口數(shù)量。廣義的權(quán)數(shù)是指以某種數(shù)量形式來測度被評價事物中各因素自身相對重要程度的度量值。權(quán)數(shù)是指以某種數(shù)量形式對比、權(quán)衡被評價事物總體中諸因素相對重要程度的量值,它集中反映了統(tǒng)計總體中各個指標(biāo)的重要程度。在抽樣中,權(quán)數(shù)反映每個最終樣本單元對總體單元代表性的程度,其在調(diào)查數(shù)據(jù)的統(tǒng)計推斷中,占有重要的地位。在人口抽樣調(diào)查中,權(quán)數(shù)表示被抽中的樣本在還原總體的過程中所代表的人口數(shù)。權(quán)數(shù)的作用主要體現(xiàn)在兩方面:一方面,通過權(quán)數(shù)能夠?qū)颖具€原到總體,反映不同單元在總體特征估計中的重要程度,獲得總體特征的無偏估計;另一方面,由于抽樣的隨機性以及在實施過程中出現(xiàn)的無回答等情況,會使得樣本單元結(jié)構(gòu)和總體結(jié)構(gòu)之間不一致,這種不一致將會直接影響到統(tǒng)計推斷的精度,因此在實際使用權(quán)數(shù)過程中,需要對權(quán)數(shù)進行適當(dāng)調(diào)整,以使得樣本單元的結(jié)構(gòu)和總體的結(jié)構(gòu)接近,方便進行參數(shù)估計等深入的分析。
利用人口普查數(shù)據(jù)和抽樣調(diào)查數(shù)據(jù),不少研究者得出了很多有意義的結(jié)論,同時也發(fā)現(xiàn)了普查的一些問題,例如吳連霞和吳開亞采用全國第四、五、六次人口普查數(shù)據(jù)探析1990—2010 年中國人口老齡化時空演變規(guī)律,利用動態(tài)年齡指標(biāo),通過構(gòu)建生命表測度老年人口與老齡化,運用GIS空間分析法與固定年齡測算的老齡化進行比較分析,厘清了悲觀老齡化的認識誤區(qū),對拓展老年與老齡化研究方法和老齡社會的應(yīng)對策略等均具有一定的理論價值和現(xiàn)實意義[1]。張耀軍等根據(jù)北京市第三、四、五、六次人口普查的數(shù)據(jù),借助ArcGIS空間統(tǒng)計分析工具和技術(shù)對北京市人口空間分布進行了一定的分析并對優(yōu)化北京人口空間提出了一些建議措施[2]。但是,普查數(shù)據(jù)也有一定的質(zhì)量問題,張為民分析了2000年人口普查數(shù)據(jù),得出中國人口統(tǒng)計的數(shù)據(jù)質(zhì)量呈下降態(tài)勢,人口漏報達到1.81%,同時分析了產(chǎn)生漏報的原因是既有普查方案設(shè)計的影響,也與群眾配合、經(jīng)費投入、行政考核等密切相關(guān),并對第六次全國人口普查提出了具體的解決方案[3]。胡桂華和薛婷針對當(dāng)今民事登記系統(tǒng)覆蓋評估領(lǐng)域存在利用輔助信息量有限而難以提供精度高的凈誤差率的不足,提出用三系統(tǒng)估計量替代獨立雙系統(tǒng)估計量[4]。胡桂華的研究結(jié)論表明,真正的人口普查誤差其實是不能計算的;基于羅吉斯蒂回歸模型的雙系統(tǒng)估計量由于不受樣本量限制而可以選擇較多的事后分層變量,優(yōu)于基于事后分層的雙系統(tǒng)估計量[5]。
針對權(quán)數(shù)的分析,不少研究者從不同角度分析了其重要作用,金勇進和張喆系統(tǒng)闡述了抽樣調(diào)查分析中權(quán)數(shù)的獲取和調(diào)整過程,同時提出了一種利用權(quán)效應(yīng)來對權(quán)數(shù)進行評估的方法[6]。羅薇從不均等選擇概率的角度,提出兩類常見的權(quán)數(shù)調(diào)整類型及其調(diào)整方法——規(guī)模調(diào)整和結(jié)構(gòu)調(diào)整應(yīng)用于復(fù)雜樣本設(shè)計[7]。金勇進和劉展對非概率加權(quán)抽樣推斷提出了一種新的方案,即先采用傾向得分匹配選擇樣本,再用傾向得分逆加權(quán)、加權(quán)組調(diào)整和事后分層調(diào)整對匹配后的樣本進行加權(quán)調(diào)整來估計目標(biāo)總體[8]。針對抽樣調(diào)查中的無回答問題,賀飛燕認為,加權(quán)過程中對不同的無回答調(diào)整階段反映出的數(shù)據(jù)收集方法存在問題,并提出了具體建議[9]。
具體調(diào)查實踐中,權(quán)數(shù)的計算過程包含了兩個方面:設(shè)計權(quán)數(shù)和實際權(quán)數(shù)的計算,權(quán)數(shù)調(diào)整以及誤差計算。設(shè)計權(quán)數(shù)的計算是基于問卷設(shè)計方案計算出來的權(quán)數(shù),而實際權(quán)數(shù)是基于獲取的樣本信息得到的權(quán)數(shù)。本文以老年人調(diào)查為例進行詳細的分析,此次調(diào)查設(shè)計遵循科學(xué)性、高效性和可操作性原則。首先,此次抽樣方案設(shè)計是嚴格的概率抽樣,抽取樣本用以滿足全國目標(biāo)量估計的需求。其次,抽樣設(shè)計保證有較高的效率,即在一定的抽樣誤差范圍和調(diào)查經(jīng)費內(nèi)保證較高的估計精度。最后,抽樣設(shè)計結(jié)合了中國的實際情況,具有較強的可操作性。
設(shè)計權(quán)數(shù)是特定抽樣設(shè)計下,各樣本單元包含概率的倒數(shù),不同包含概率的樣本單元的權(quán)數(shù)也是不一樣的。對于多階段抽樣,設(shè)計權(quán)數(shù)為各階段樣本單元包含概率的倒數(shù)的乘積。由于抽樣調(diào)查數(shù)據(jù)輔助信息所限,無法獲得各街道(鄉(xiāng)鎮(zhèn))、各居(村)委會的老年人口總數(shù),故無法計算第三、四階段的樣本單元入樣概率,因此設(shè)計權(quán)數(shù)的計算公式較一般的多階段抽樣而言有所簡化。
以此次老年人抽樣調(diào)查為例,第h個省份的第i個區(qū)縣第j個街道辦事處或鄉(xiāng)鎮(zhèn),第k個居(村)委會第l個被抽中的老年人的設(shè)計權(quán)數(shù)公式如下:
(1)
設(shè)計權(quán)數(shù)是在保證抽樣過程中完全按照設(shè)計方案得到的樣本權(quán)數(shù),但是在實際的調(diào)查過程中,往往存在無回答或其他突發(fā)情況導(dǎo)致調(diào)查樣本比設(shè)計的多或少,樣本結(jié)構(gòu)和實際人口結(jié)構(gòu)不一致的情況,這就需要對設(shè)計權(quán)數(shù)進行進一步的調(diào)整,從而計算出基于實際調(diào)查樣本的實際權(quán)數(shù)。實際權(quán)數(shù),主要是通過對實際調(diào)查樣本單元的無回答、無覆蓋進行的計算調(diào)整,是實際的抽樣調(diào)查中獲取的權(quán)數(shù),實際權(quán)數(shù)有利于獲取調(diào)查樣本的代表性信息,實際權(quán)數(shù)的計算包含無回答調(diào)整和結(jié)構(gòu)調(diào)整。
需要說明的是,在整理問卷的過程中,往往存在因回答不符合要求被判為廢卷等情況,這是在數(shù)據(jù)處理階段要解決的事情,權(quán)數(shù)計算和調(diào)整只是利用清理完成的數(shù)據(jù)進行計算,對于問卷中的項目無回答情況,一般采用插補的方法進行解決[10]。
無回答調(diào)整涉及各個階段的無回答調(diào)整,包括省份無回答、區(qū)縣無回答、街道(鄉(xiāng)鎮(zhèn))無回答和居(村)委會無回答等,但由于在實際的調(diào)查過程中一般前三個階段無回答情況較少,因此以居(村)委會的無回答調(diào)整為例進行說明。由于沒有抽樣的名單,只有實際調(diào)查的數(shù)據(jù),所以無回答調(diào)整僅就居(村)委會層面進行無回答調(diào)整。無回答調(diào)整得到的權(quán)數(shù)是各個居(村)委會擬抽人數(shù)nhijkl除以實際調(diào)查的人數(shù)L再乘以設(shè)計權(quán)數(shù),調(diào)整后的權(quán)數(shù)為:
(2)
權(quán)數(shù)是樣本單元實際代表的未入樣單元個數(shù),其主要功能就是將樣本單元還原到總體。然而,由于樣本抽取的隨機性,可能造成樣本單元的結(jié)構(gòu)分布與總體結(jié)構(gòu)不一致,導(dǎo)致推斷的精度降低。因此,還需要對實際權(quán)數(shù)進行結(jié)構(gòu)調(diào)整,使得樣本單元的結(jié)構(gòu)與總體一致。
常見的結(jié)構(gòu)調(diào)整方法有:校準(zhǔn)加權(quán)法、迭代法、事后分層法。金勇進和張喆對幾種方法進行了詳細的說明論證[6]。根據(jù)本次調(diào)查的實際情況,本次權(quán)數(shù)調(diào)整使用迭代法,以省為分層變量,在各個層內(nèi)分別進行權(quán)數(shù)的結(jié)構(gòu)調(diào)整。
在結(jié)構(gòu)調(diào)整中不僅要考慮樣本單元的年齡結(jié)構(gòu)與總體一致,同時考慮性別比例與總體一致。本次結(jié)構(gòu)調(diào)整只針對性別、年齡完整的樣本單元進行權(quán)數(shù)的結(jié)構(gòu)調(diào)整,對于性別或年齡缺失的樣本單元,直接使用其經(jīng)無回答調(diào)整后的權(quán)數(shù)結(jié)果。迭代調(diào)整系數(shù)為:
adjhs=
(3)
其中s表示性別或年齡。以安徽省為例,根據(jù)老年人調(diào)查數(shù)據(jù)作為樣本數(shù)據(jù)和第六次人口普查數(shù)據(jù)作為總體數(shù)據(jù)進行對比,發(fā)現(xiàn)樣本中70歲以下的男女比例比總體比例偏低,而樣本中70歲以上男女比例比總體比例要高,也就是說樣本中年齡結(jié)構(gòu)偏大,與總體男女比例有一定的差異。這主要是由于:一是實際調(diào)查數(shù)據(jù)存在性別、年齡缺失的情況,對于這部分數(shù)據(jù)無法進行權(quán)數(shù)調(diào)整,故在此處未放入計算;二是由于使用的人口總體數(shù)據(jù)是2010年進行的全國第六次人口普查數(shù)據(jù),而實際老年人調(diào)查是在2015年,兩者本身就有一定的時間差異,因此有必要對樣本結(jié)構(gòu)進行調(diào)整使其與總體結(jié)構(gòu)相一致。
結(jié)合式(2)和式(3),經(jīng)過結(jié)構(gòu)調(diào)整后的樣本結(jié)構(gòu)和總體結(jié)構(gòu)的比例傾向一致,這樣在進行深入分析時用調(diào)整后的權(quán)數(shù)就更具代表性了。經(jīng)過結(jié)構(gòu)調(diào)整后的調(diào)整系數(shù)如表1所示。
表1 安徽省的權(quán)數(shù)結(jié)構(gòu)調(diào)整系數(shù)
迭代調(diào)整系數(shù)是根據(jù)樣本中老年人口的性別年齡和總體中老年人口的差異,通過迭代調(diào)整得到的,可以用無回答調(diào)整后的權(quán)數(shù)與迭代調(diào)整系數(shù)相乘得到最終的權(quán)數(shù),通過調(diào)整系數(shù)可以保證樣本單元還原到總體的結(jié)構(gòu)與總體大致保持一致。
(4)
由于調(diào)查過程的復(fù)雜性,加上調(diào)查中存在的無回答、樣本結(jié)構(gòu)與總體結(jié)構(gòu)不一致等情況,最終計算得到的權(quán)數(shù)往往差距很大,使得估計量的方差也隨之變大,因此有必要對權(quán)數(shù)進行適當(dāng)?shù)目刂埔员WC估計的方差不會太大。在抽樣調(diào)查中,一般用設(shè)計效應(yīng)來度量復(fù)雜抽樣設(shè)計相對于簡單隨機抽樣的效率或相對精確程度[11]。設(shè)計效應(yīng)是復(fù)雜抽樣設(shè)計與具有相同樣本量的簡單隨機抽樣設(shè)計的估計量的方差之比。當(dāng)設(shè)計效應(yīng)大于1,代表該抽樣設(shè)計的變異性大,需要更大的樣本量才能達到簡單隨機抽樣的效率;反之若小于1,說明只需要少量的樣本量就能達到簡單隨機抽樣的效率。借此方法,金勇進和張喆提出了利用權(quán)效應(yīng)來評估復(fù)雜抽樣設(shè)計相對于簡單隨機抽樣的權(quán)數(shù)效率或相對精確程度[6]。權(quán)效應(yīng)是由抽樣設(shè)計的樣本權(quán)數(shù)和相同樣本量的簡單隨機抽樣設(shè)計的樣本權(quán)數(shù)相比得到。一般情況下,權(quán)效應(yīng)大于1,越大表示權(quán)數(shù)變異越大,需要進行一定的控制,使其在一個合理的范圍內(nèi)。王小寧和金勇進從權(quán)數(shù)控制的角度出發(fā),利用權(quán)效應(yīng)這個系數(shù)對幾種不同的權(quán)數(shù)控制方法進行對比研究,同時給出了復(fù)雜抽樣設(shè)計中進行權(quán)數(shù)調(diào)整的控制方案[12]。盡管權(quán)數(shù)的調(diào)整有利于樣本單元權(quán)數(shù)和等于總體規(guī)模,保證樣本結(jié)構(gòu)和總體結(jié)構(gòu)更加一致,提高了估計精度,但由于調(diào)整后的權(quán)數(shù)差異變大,可能會增加估計量的方差。為了衡量權(quán)數(shù)帶來的影響,本文利用權(quán)效應(yīng)概念來分析相同抽樣方法下由權(quán)數(shù)調(diào)整帶來的估計量方差的變化。權(quán)效應(yīng)是加權(quán)估計量與簡單估計方差的比值,它可以反映在相同的抽樣方法下由于權(quán)數(shù)原因?qū)烙嫹讲顜淼挠绊?,其計算公式為?/p>
(5)
為了使得權(quán)數(shù)波動在一個可控范圍,可使用分位數(shù)為5%和95%的權(quán)數(shù)對整體權(quán)數(shù)進行截取調(diào)整。計算公式如下:
(6)
對于復(fù)雜樣本按照理論直接推導(dǎo)出標(biāo)準(zhǔn)誤差估計,一則十分困難,二則從節(jié)約費用和時間的角度考慮代價也很大。通常采用的替代方法主要有隨機組法、平衡半樣本方法、刀切法和自助法等。本次老年人調(diào)查的抽樣設(shè)計為四階段抽樣,本身是一個自加權(quán)設(shè)計,但由于實際調(diào)查中遇到諸多情況導(dǎo)致樣本單元權(quán)重難以按照傳統(tǒng)的抽樣理論或泰勒展開方法推導(dǎo)出估計量方差的精確或近似計算公式。對于這種復(fù)雜樣本的估計量的方差估計,通常使用復(fù)制樣本法來近似估計方差。
刀切法是由Quenouille等提出的再抽樣方法[13-14],其原始動機是降低估計的偏差。刀切法的用法與Bootstrap用法相似,類似于“Leave-one-out”的交叉驗證方法。假設(shè)x=(x1,x2,…,xn)為觀測到的獨立同分布的樣本數(shù)據(jù),n表示總樣本量,且該數(shù)據(jù)服從在空間χ上未知的分布F,即:
xi~F
(7)
定義第i(i=1,2,…,n)個刀切法樣本為丟掉第i個樣本后的剩余樣本,即:
x(i)=(x1,x2,…,xi-1,xi+1,…,xn)
(8)
(9)
(10)
這樣就得到了基于刀切法的參數(shù)θ的標(biāo)準(zhǔn)誤差的估計值。胡桂華等人使用分層刀切方差估計來計算抽樣方差[15],本文與該文的不同之處在于,一是原文使用了復(fù)制權(quán)數(shù)來剔除第一部樣本的一個樣本調(diào)查小區(qū)后,再重新計算剩下的第一部樣本調(diào)查小區(qū)的抽樣權(quán)數(shù),而式(9)和式(10)通過式(6)進行權(quán)數(shù)截取后的權(quán)數(shù)來直接計算參數(shù)的估計值,分層信息在權(quán)數(shù)的調(diào)整(式(2)和式(3))中有體現(xiàn)。
對權(quán)數(shù)的評估需要借助具體的調(diào)查數(shù)據(jù)來進行分析,以老年人調(diào)查數(shù)據(jù)為例進行說明,該調(diào)查緊緊圍繞老年人生活狀況和養(yǎng)老服務(wù)需求,重點了解城鄉(xiāng)老年人健康、照料護理服務(wù)、家庭、經(jīng)濟、社會參與、維權(quán)意識與行動、宜居環(huán)境以及精神文化生活等方面的狀況。調(diào)查采取入戶訪談和調(diào)查問卷收集數(shù)據(jù),主要以滿足全國代表性需要而抽取樣本。調(diào)查問卷分為個人問卷和社區(qū)問卷,調(diào)查對象為居住在中國境內(nèi)的(不包括臺灣省、香港特別行政區(qū)和澳門特別行政區(qū))60周歲及以上的中國公民。調(diào)查范圍為全國各省、自治區(qū)、直轄市和新疆生產(chǎn)建設(shè)兵團,涉及466個縣(區(qū)),1 864個鄉(xiāng)鎮(zhèn)(街道)(每個抽中的縣(區(qū))抽4個鄉(xiāng)鎮(zhèn)(街道)),7 456個村(居)委會(每個抽中的鄉(xiāng)鎮(zhèn)(街道)抽4個村(居)委會),首次實現(xiàn)覆蓋全國范圍的調(diào)查目標(biāo)。調(diào)查樣本規(guī)模為22.368萬(總抽樣比約為1‰)。調(diào)查結(jié)果數(shù)據(jù)(2)見http://www.cncaprc.gov.cn/contents/2/177118.html。顯示,老年人經(jīng)濟狀況得到顯著改善,老年醫(yī)療衛(wèi)生工作取得積極進展,老齡產(chǎn)業(yè)市場不斷升溫,老年人社會參與和權(quán)益保障工作不斷拓展,老年人精神文化生活與時俱進。調(diào)查獲取的原始數(shù)據(jù)形式如表2所示。
表 2 列舉了部分此次抽樣數(shù)據(jù),基于地理位置的數(shù)據(jù)與被訪者個人屬性的數(shù)據(jù)可以與第六次全國人口普查的整體數(shù)據(jù)進行結(jié)構(gòu)對比,結(jié)合式(3)進行結(jié)構(gòu)化調(diào)整。對權(quán)效應(yīng)的評估選取一個指標(biāo),即被訪者家庭的平均每月食品支出,是一個連續(xù)型變量。對于月均食品支出,可以直接估計其平均值。以全國樣本為例,根據(jù)式(4)和式(5)得到權(quán)數(shù)截取前的權(quán)效應(yīng)計算結(jié)果為3.87,而根據(jù)式(5)和式(6)經(jīng)過分位數(shù)為5%和95%的權(quán)數(shù)進行截取調(diào)整后的權(quán)效應(yīng)變?yōu)?.31,有大幅下降并且在可控范圍之內(nèi)。而如果對權(quán)數(shù)不進行任何調(diào)整,僅以設(shè)計權(quán)數(shù)作為最終權(quán)數(shù)計算的話,權(quán)效應(yīng)為2.86。這也說明權(quán)數(shù)截取調(diào)整使得樣本權(quán)數(shù)變動在一個適當(dāng)?shù)姆秶鷥?nèi),比權(quán)數(shù)截取前也有效地降低了估計量的方差。
表2 老年人調(diào)查數(shù)據(jù)的基本形式
對于目標(biāo)變量缺失的情況,可以直接刪除,也可以采用常用的插補方法進行插補后分析。因本次調(diào)查缺失數(shù)據(jù)較少,所以對缺失數(shù)據(jù)直接刪除。在估計全國老年人月平均食品支出時,利用權(quán)數(shù)的計算公式如下:
(11)
1.計算每個樣本的最終權(quán)數(shù)。根據(jù)被訪者的地理屬性和個人屬性特征,計算其權(quán)數(shù)值。利用式(1)計算第h個省份的第i個區(qū)縣第j個街道辦事處或鄉(xiāng)鎮(zhèn),第k個村(居)委會中抽到的第l個老年人的設(shè)計權(quán)數(shù)Whijkl,即對于相同村(居)委會中老人的權(quán)數(shù)是相同的。將抽樣方案抽樣數(shù)據(jù)和實際得到的樣本數(shù)據(jù)進行比較,利用式(2)進行無回答調(diào)整,得到無回答調(diào)整后的權(quán)數(shù)。同時,結(jié)合第六次人口普查的年齡、性別數(shù)據(jù)和樣本數(shù)據(jù)結(jié)構(gòu)特征,結(jié)合式(3)計算出各個省的調(diào)整系數(shù),利用式(4)得到最終的權(quán)數(shù)。
(12)
(13a)
(13b)
其中q=1,2,分別表示權(quán)數(shù)截取前和截取后的估計。
(14a)
(14b)
結(jié)合實際數(shù)據(jù),分別利用加權(quán)和加權(quán)截取后家庭月均食品支出的標(biāo)準(zhǔn)誤差進行計算,具體見表3。
從表3可知,全國月均食品支出的加權(quán)截取后估計標(biāo)準(zhǔn)誤差為2.62,未進行加權(quán)截取的標(biāo)準(zhǔn)誤差為5.11。各省家庭月均食品支出的加權(quán)估計標(biāo)準(zhǔn)誤差最大為98.73,經(jīng)過截取后標(biāo)準(zhǔn)誤差變?yōu)?7.86,各省家庭月均食品支出的估計標(biāo)準(zhǔn)誤差加權(quán)截取后最大值為北京市的34.88,該省加權(quán)的標(biāo)準(zhǔn)誤差為33.72;標(biāo)準(zhǔn)誤差加權(quán)截取后最小值為山東省的5.46,該省加權(quán)的標(biāo)準(zhǔn)誤差為5.30。綜合表3中的數(shù)據(jù)經(jīng)過權(quán)數(shù)截取,可以使得加權(quán)后標(biāo)準(zhǔn)誤差較大的省份截取后標(biāo)準(zhǔn)誤差適當(dāng)降低,而對于加權(quán)誤差比較小的省份經(jīng)過截取后標(biāo)準(zhǔn)誤差適當(dāng)增大,是在可控的范圍內(nèi),加權(quán)截取后的數(shù)據(jù)從理論上更有說服力,利用了更多的樣本信息,也更方便解釋。
表3 全國和各省加權(quán)未截取和截取后家庭
從變異系數(shù)(標(biāo)準(zhǔn)誤差與平均值的比值,表示數(shù)據(jù)分布的離散程度)角度來看,全國加權(quán)截取后的變異系數(shù)為0.26%;從省份上來看,最大值為西藏自治區(qū)的3.04%,最小值為四川省的0.82%,但是經(jīng)過截取后的變異系數(shù)降低或保持不變,這也從側(cè)面驗證了權(quán)數(shù)控制的有效性。從以上數(shù)據(jù)可看出,四川省的月均食品支出相對比較集中,北京市變動比較大,西藏自治區(qū)離散程度較高。西藏自治區(qū)的變異系數(shù)較高,主要是因為該自治區(qū)本身的老年人口較少,本次調(diào)查的樣本量較少,導(dǎo)致估計的相對誤差比較大。
本文首先探討了在人口研究中普查數(shù)據(jù)的應(yīng)用以及存在的數(shù)據(jù)質(zhì)量問題,接著對相關(guān)的人口抽樣應(yīng)用問題進行了分析,發(fā)現(xiàn)直接利用抽樣樣本信息來對相關(guān)參數(shù)進行估計所代表的信息利用不足,進而提出在調(diào)查過程中利用權(quán)數(shù)和權(quán)數(shù)控制以解決這一問題。針對抽樣中的權(quán)數(shù)問題,從權(quán)數(shù)的計算、權(quán)數(shù)的無回答和結(jié)構(gòu)調(diào)整、權(quán)數(shù)的控制以及基于權(quán)數(shù)計算的變量的標(biāo)準(zhǔn)誤差出發(fā),結(jié)合老年人調(diào)查數(shù)據(jù)進行了詳細的分析和說明,同時強調(diào)了權(quán)數(shù)在抽樣調(diào)查中的重要性。權(quán)數(shù)雖在一定程度上增大了參數(shù)估計的標(biāo)準(zhǔn)誤差,但是從代表整體信息的角度上來看,比單純地利用樣本信息進行估計更具有代表性。為了讓權(quán)數(shù)更有效地代表樣本,避免因權(quán)數(shù)過大或過小對估計的標(biāo)準(zhǔn)誤差造成大的影響,本文分別在實際數(shù)據(jù)中利用原始加權(quán)數(shù)據(jù)和加權(quán)截取(控制)數(shù)據(jù)進行了分析,結(jié)果顯示在參數(shù)估計的過程中,對權(quán)數(shù)進行一定的控制能適當(dāng)降低估計的標(biāo)準(zhǔn)誤差,同時能降低估計變量的變異系數(shù),在一定程度上能有效地提升分析的質(zhì)量和增加調(diào)查信息的認可度。