孟祥蘭,李 瑋,耿 菲,郁婷婷,刑金余
(中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,武漢, 430073)
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的重要性在于它影響著人們對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象的認(rèn)識(shí)和判斷,以及以此為依據(jù)的決策正確性與科學(xué)性,而且還直接威脅著國家統(tǒng)計(jì)機(jī)構(gòu)的形象和聲譽(yù)。隨著經(jīng)濟(jì)全球化進(jìn)程的加快,社會(huì)各界對(duì)統(tǒng)計(jì)信息的需求越來越廣泛,特別是信息網(wǎng)絡(luò)技術(shù)的推廣應(yīng)用,一方面對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量提出更高的要求,賦予其更新的內(nèi)涵;另一方面也為改進(jìn)和提高統(tǒng)計(jì)信息的質(zhì)量提供了更好的便利條件和手段。故而探究統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題,診斷宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的新方法,努力提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,從而保證統(tǒng)計(jì)信息的準(zhǔn)確、全面和有效有著重要的意義。
國外有關(guān)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究始于20世紀(jì)初。20世紀(jì)初至40年代,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量主要圍繞統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性、樣本的代表性這兩條思路展開。1915年,英國統(tǒng)計(jì)學(xué)家鮑萊(A.L.Bowley)在進(jìn)行關(guān)于就業(yè)和貧困問題的調(diào)查研究時(shí),首次提出了非抽樣誤差這一概念。著名統(tǒng)計(jì)學(xué)家奈曼(C.J.Neyman)于1934年進(jìn)行了關(guān)于分層抽樣最優(yōu)分配及回歸、比率估計(jì)等方面的大量研究,對(duì)各種抽樣設(shè)計(jì)的抽樣誤差進(jìn)行了有效估計(jì),產(chǎn)生了今天具有里程碑意義的“可測設(shè)計(jì)”。上世紀(jì)50年代初至70年代,政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究主要圍繞基于統(tǒng)計(jì)調(diào)查誤差計(jì)量模型的建立以及相關(guān)的研究展開,突出研究成果為Hansen和Hurwitz(1946)[1]提出的無回答問題這一概念;其后Hansen,Hurwitz和Bershad(1961)[2]首次提出了完整的調(diào)查誤差模型;20世紀(jì)60年代,許多學(xué)者開始研究均方誤差的主要組成部分,并試圖減少這些成分,如Warner(1965)[3]提出了對(duì)敏感性問題調(diào)查的隨機(jī)化方法。20世紀(jì)70年代之后,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究日趨成熟,開始研究如何建立有效的保證、控制和評(píng)估體系這一層面。1980年聯(lián)合國統(tǒng)計(jì)局出版的《統(tǒng)計(jì)組織手冊(cè)》[4]中,對(duì)官方統(tǒng)計(jì)資料提出了八項(xiàng)要求,其實(shí)質(zhì)已經(jīng)超出傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量對(duì)準(zhǔn)確性、及時(shí)性的要求,明確了政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的綜合涵義。Dalenius(1983)[5]提出統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的“測量向量”,包括統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性、經(jīng)濟(jì)性、保密性、相關(guān)性、時(shí)效性和詳細(xì)程度等。Brackstone(1999,2000)[6]提出統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的六個(gè)維度——相關(guān)性、準(zhǔn)確性、及時(shí)性、可取得性、可解釋性和一致性,并進(jìn)一步描述了統(tǒng)計(jì)機(jī)構(gòu)對(duì)每一個(gè)維度的進(jìn)行管理的具體方法。Fr?schl和Grossman(2000)[7]提出了全面的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的統(tǒng)計(jì)、執(zhí)行框架,將統(tǒng)計(jì)數(shù)據(jù)的各個(gè)維度與統(tǒng)計(jì)數(shù)據(jù)生產(chǎn)過程一一配對(duì)。此外,20世紀(jì)90年代中期國際貨幣基金組織(IMF)分別建立了數(shù)據(jù)公布特殊標(biāo)準(zhǔn)(SDDS)和數(shù)據(jù)公布通用系統(tǒng)(GDDS)以及數(shù)據(jù)質(zhì)量評(píng)估框架(DQAF)等國際標(biāo)準(zhǔn),對(duì)統(tǒng)計(jì)數(shù)據(jù)的產(chǎn)生、公布以及數(shù)據(jù)質(zhì)量定性評(píng)估提供了標(biāo)準(zhǔn)的指導(dǎo)方法。
邏輯性評(píng)估方法根據(jù)所基于的評(píng)估依據(jù)可分為基于規(guī)則、相關(guān)性、非結(jié)構(gòu)化模型的三種邏輯性評(píng)估方法?;谝?guī)則是指將專業(yè)審核后的統(tǒng)計(jì)數(shù)據(jù)資料集中,從總體上檢驗(yàn)數(shù)據(jù)相互間是否平衡和是否符合邏輯。葉長法、岑國榮(1997)[8]歸納了4種基本的邏輯平衡審核評(píng)估的方法:差額平衡法、同項(xiàng)相等的方法、相關(guān)平衡方法、運(yùn)用生產(chǎn)和使用的平衡關(guān)系進(jìn)行評(píng)估的方法?;谙嚓P(guān)性是指根據(jù)相關(guān)性較高的指標(biāo)間關(guān)系,利用已知的正確指標(biāo)評(píng)估其他指標(biāo),若指標(biāo)間關(guān)系出現(xiàn)較大的波動(dòng),則初步判定被評(píng)估指標(biāo)存在一定的質(zhì)量問題?;诜墙Y(jié)構(gòu)化模型是指利用所建立的相關(guān)模型對(duì)數(shù)據(jù)進(jìn)行評(píng)估,例如楊海山、許啟發(fā)(2001)[9]選取某市1978~1995年的生產(chǎn)總值(GDP)和社會(huì)消費(fèi)品零售總額這兩個(gè)相關(guān)性很強(qiáng)的統(tǒng)計(jì)指標(biāo)作為評(píng)估對(duì)象,利用向量自回歸模型(VAR)對(duì)對(duì)該市1996~1998年的GDP進(jìn)行評(píng)估。
異常值評(píng)估分為基于統(tǒng)計(jì)分布和基于系統(tǒng)分析兩種方法。前者假定給定的統(tǒng)計(jì)數(shù)據(jù)服從一個(gè)隨機(jī)分布,并用不一致性檢驗(yàn)來識(shí)別異常點(diǎn)。成邦文等(2000、2003)[10][11]在研究中發(fā)現(xiàn):一維數(shù)據(jù)與多維數(shù)據(jù)的社會(huì)經(jīng)濟(jì)規(guī)模指標(biāo)近似服從對(duì)數(shù)正態(tài)分布,故而提出統(tǒng)計(jì)數(shù)據(jù)質(zhì)量檢查和異常點(diǎn)識(shí)別的對(duì)數(shù)正態(tài)分布置信區(qū)間檢驗(yàn)法。李竹渝(2001)[12]假定誤差分布無定型,使用非參數(shù)回歸估計(jì)方法得到誤差密度函數(shù)的核密度估計(jì),并指出其服從漸進(jìn)正態(tài)分布。后者則從系統(tǒng)分析的觀點(diǎn)出發(fā),分別用確定性模型和ARMA模型描述序列中確定性因素及隨機(jī)因素的變動(dòng)規(guī)律,建立確定性與隨機(jī)性的組合模型。繼而采用誤差控制法、估計(jì)區(qū)間判斷法和異常數(shù)據(jù)檢驗(yàn)法對(duì)統(tǒng)計(jì)指標(biāo)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估。劉洪、黃燕(2009)在文中采用學(xué)生化殘差、Cook統(tǒng)計(jì)量、W-K統(tǒng)計(jì)量作為異常值的檢測統(tǒng)計(jì)量對(duì)我國相關(guān)數(shù)據(jù)進(jìn)行了實(shí)證分析。
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題意味著所提供的統(tǒng)計(jì)數(shù)據(jù)與客觀的社會(huì)經(jīng)濟(jì)現(xiàn)象實(shí)際的數(shù)量特征之間存在差距,本質(zhì)上是即為誤差問題。一般將統(tǒng)計(jì)調(diào)查的誤差分為抽樣誤差和非抽樣誤差。抽樣誤差是在樣本推斷總體過程中不可避免的誤差,它本身并不是錯(cuò)誤的結(jié)果。目前對(duì)抽樣誤差的研究已經(jīng)非常成熟,只要能設(shè)計(jì)出樣本估計(jì)量,便可得出相應(yīng)的估計(jì)量誤差公式。楊清(2000)提出充分認(rèn)識(shí)系統(tǒng)性誤差的結(jié)構(gòu)和特點(diǎn)來判斷原始資料中是否存在系統(tǒng)性誤差,即判斷原始資料是否存在質(zhì)量問題,若存在系統(tǒng)性誤差,則設(shè)法修正或剔除這部分有問題的原始資料,以不存在系統(tǒng)性誤差(即不存在質(zhì)量問題)的原始資料估計(jì)總體,進(jìn)而保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。
屈耀輝、曾五一(2004)[13]借助Cochran(1977)提出的計(jì)量誤差數(shù)學(xué)模型,分析了計(jì)量誤差的來源及其對(duì)總誤差的影響,并以甄別調(diào)查員效應(yīng)為例,運(yùn)用效應(yīng)比較甄別法和貝葉斯估計(jì)3σ圖甄別法對(duì)調(diào)查數(shù)據(jù)中可能存在的計(jì)量誤差進(jìn)行實(shí)證演示。
王華、金勇進(jìn)(2009)參照了社會(huì)調(diào)查領(lǐng)域的計(jì)量誤差效應(yīng)評(píng)估技術(shù),構(gòu)造針對(duì)宏觀統(tǒng)計(jì)數(shù)據(jù)的誤差效應(yīng)模型,通過識(shí)別估計(jì)模型中的重要參數(shù),實(shí)現(xiàn)傳統(tǒng)的統(tǒng)計(jì)偏差評(píng)估并揭示因操作因素、制度因素、基層單元屬性特征等對(duì)統(tǒng)計(jì)數(shù)據(jù)準(zhǔn)確性造成的影響。
王珊珊、蔡永生(2008)[14]利用Bayes統(tǒng)計(jì)決策方法對(duì)統(tǒng)計(jì)數(shù)據(jù)的誤差進(jìn)行檢驗(yàn),引入試驗(yàn)費(fèi)用與參數(shù)性能損失相結(jié)合的損失函數(shù)以鑒定統(tǒng)計(jì)數(shù)據(jù)精度,得到先驗(yàn)分布公式,Bayes決策不等式及Bayes風(fēng)險(xiǎn)的計(jì)算在理論上給出了一種測定數(shù)據(jù)精度的可靠方法。
周潮(2008)[15]使用季節(jié)時(shí)間序列模型(Seasonal ARIMA Model,SARIMA),根據(jù)統(tǒng)計(jì)指標(biāo)歷史數(shù)據(jù)的變化特點(diǎn)建模,在模型通過各種檢驗(yàn)、具有良好統(tǒng)計(jì)預(yù)測功能的基礎(chǔ)上,比較模型擬合出的預(yù)測值與實(shí)際值,找出離群數(shù)據(jù),從而對(duì)該統(tǒng)計(jì)指標(biāo)的數(shù)據(jù)質(zhì)量進(jìn)行有效評(píng)估。
在我國社會(huì)主義市場經(jīng)濟(jì)建設(shè)中,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的好壞顯得尤為重要。我國統(tǒng)計(jì)人員在指標(biāo)體系、統(tǒng)計(jì)標(biāo)準(zhǔn)、調(diào)查方法、技術(shù)手段及數(shù)據(jù)報(bào)送與處理方式等方面辛勤實(shí)踐、大膽探索,宏觀統(tǒng)計(jì)數(shù)據(jù)基本可靠,能夠比較客觀地反映了經(jīng)濟(jì)運(yùn)行的趨勢和變化,并沒有發(fā)生趨勢性誤差。然而,鑒于浮夸現(xiàn)象以及統(tǒng)計(jì)調(diào)查工作中的不完善仍然存在,各種原因交織在一起使得統(tǒng)計(jì)數(shù)據(jù)質(zhì)量參差不齊,不同程度地存在一些問題。
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量失真主要有虛假數(shù)據(jù)、拼湊的數(shù)據(jù)及指標(biāo)數(shù)值背離指標(biāo)等幾種情況。數(shù)據(jù)虛假是最常見的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題,也是危害最為嚴(yán)重的數(shù)據(jù)質(zhì)量問題。這類統(tǒng)計(jì)數(shù)據(jù)完全是杜撰的、虛構(gòu)的,毫無事實(shí)根據(jù)。有意虛報(bào)、瞞報(bào)、據(jù)報(bào)統(tǒng)計(jì)數(shù)據(jù)資料,統(tǒng)計(jì)制度不完善,指標(biāo)制定不嚴(yán)密等各種因素造成了統(tǒng)計(jì)數(shù)據(jù)虛假的問題。
統(tǒng)計(jì)數(shù)據(jù)的不完整是指收集數(shù)據(jù)的相關(guān)單位在收集數(shù)據(jù)的過程中出現(xiàn)遺漏,所列項(xiàng)目的資料沒有搜集齊全,不符合統(tǒng)計(jì)資料完整性的要求。
統(tǒng)計(jì)數(shù)據(jù)的時(shí)效性差是指統(tǒng)計(jì)信息滯后,統(tǒng)計(jì)數(shù)據(jù)局限于單純的事后統(tǒng)計(jì),統(tǒng)計(jì)調(diào)查和統(tǒng)計(jì)分析乏力。最常見的現(xiàn)象是部分政府統(tǒng)計(jì)部門網(wǎng)站上的統(tǒng)計(jì)數(shù)據(jù)更新較慢。另一方面,現(xiàn)行統(tǒng)計(jì)調(diào)查體系的統(tǒng)計(jì)報(bào)表繁瑣笨重,很難滿足“準(zhǔn)確、及時(shí)、全面、方便”的要求。主要采取以手工為主的采集、存儲(chǔ)、加工、處理、傳遞統(tǒng)計(jì)資料的方式及方法制約了統(tǒng)計(jì)信息的開發(fā)及利用。與此同時(shí),普遍存在的遲報(bào)現(xiàn)象,致使一些極為重要的統(tǒng)計(jì)數(shù)據(jù)一般要等到次年4月或5月份才能得到最后確定,從而失去了指導(dǎo)地方經(jīng)濟(jì)發(fā)展的意義。
目前,政府統(tǒng)計(jì)機(jī)構(gòu)還未將統(tǒng)計(jì)數(shù)據(jù)看作公共產(chǎn)品,開發(fā)及生產(chǎn)過程中沒有配合用戶的要求。本質(zhì)上講,統(tǒng)計(jì)數(shù)據(jù)的適用性不強(qiáng)就是統(tǒng)計(jì)數(shù)據(jù)的過剩和數(shù)據(jù)的不足同時(shí)并存的一種矛盾現(xiàn)象。
統(tǒng)計(jì)數(shù)據(jù)的非同一性是指同一個(gè)指標(biāo)在不同時(shí)期的統(tǒng)計(jì)范圍、口徑、內(nèi)容、方法、單位及價(jià)格等方面有差別而造成的數(shù)據(jù)不可比性。統(tǒng)計(jì)數(shù)據(jù)的非同一性主要體現(xiàn)在數(shù)據(jù)的口徑不統(tǒng)一。
造成統(tǒng)計(jì)數(shù)據(jù)質(zhì)量不理想的另一原因就是統(tǒng)計(jì)手段和統(tǒng)計(jì)方法落后。目前來說,很多公司企業(yè)統(tǒng)計(jì)工作仍處于手工狀態(tài)。在處理數(shù)據(jù)方面,采用計(jì)算機(jī)僅僅是減少工作量去做一些匯總以及指標(biāo)計(jì)算。從本質(zhì)上來講,并沒有真正引用先進(jìn)的計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù),所做的統(tǒng)計(jì)分析也局限于事后分析,也就是對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行單純的講解說明,沒有很好的利用計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)實(shí)行信息共享等方式進(jìn)行事前分析和預(yù)測。也就是說“統(tǒng)計(jì)預(yù)測”這一職能并沒有發(fā)揮真正的作用。
從宏觀上對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行邏輯分析或者建立計(jì)量經(jīng)濟(jì)模型并進(jìn)行檢驗(yàn)也存在問題。孟連、王小魯通過對(duì)價(jià)格指數(shù)與經(jīng)濟(jì)增長速度的相互關(guān)系進(jìn)行分析,發(fā)現(xiàn)1996~1998年在各種價(jià)格指數(shù)顯著低于1979~1981年和1989~1990年兩次經(jīng)濟(jì)緊縮時(shí)期的情況下,GDP指數(shù)分別高于前兩個(gè)時(shí)期4至5個(gè)和2個(gè)百分點(diǎn)左右,很大地偏離了正??赡艿姆秶S纱丝梢怨烙?jì)到1996~1998年GDP指數(shù)會(huì)有較大虛增成分。并且通過工業(yè)增加值與能源、運(yùn)輸、產(chǎn)品產(chǎn)量的關(guān)系分析,得出了結(jié)論:1991~1998年我國工業(yè)增加值年均增長率的統(tǒng)計(jì)誤差約為4.5個(gè)百分點(diǎn)。再如,由于統(tǒng)計(jì)制度方法缺陷,2005年我國居民消費(fèi)支出中未把自住房虛擬房租部分計(jì)入,導(dǎo)致居民住房消費(fèi)占居民日常消費(fèi)支出的比重偏低,大約低估了6個(gè)百分點(diǎn),從而導(dǎo)致CPI約被低估0.5個(gè)百分點(diǎn),消費(fèi)率約被低估近2個(gè)百分點(diǎn)。
我國的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題一直存在,廣為社會(huì)各界關(guān)注,同時(shí)始終作為熱點(diǎn)受到統(tǒng)計(jì)界的理論研究探討。本文考慮到統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題本質(zhì)上反映為統(tǒng)計(jì)數(shù)據(jù)與社會(huì)經(jīng)濟(jì)現(xiàn)象實(shí)際數(shù)量特征之間存在的差距問題,即可從誤差的角度以一種新的思路來探討我國統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題。
在統(tǒng)計(jì)工作過程中,統(tǒng)計(jì)調(diào)查中的誤差主要有兩個(gè)方面的來源。一方面,實(shí)際工作程序中的虛報(bào)、瞞報(bào)行為使得統(tǒng)計(jì)數(shù)據(jù)失真,來源于制度因素的誤差需要通過制度的不斷演進(jìn)在較長時(shí)間才能有效降低,這是在制度與組織的宏觀層面來改善統(tǒng)計(jì)數(shù)據(jù)采集環(huán)境,從而有效提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。另一方面,基礎(chǔ)數(shù)據(jù)或原始資料存在質(zhì)量問題,最終導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)失真。作為微觀層面從誤差的觀點(diǎn)看,統(tǒng)計(jì)調(diào)查中的誤差本質(zhì)上可以分為系統(tǒng)性誤差(即非隨機(jī)誤差)和隨機(jī)誤差。抽樣調(diào)查中的誤差理論便是將調(diào)查中的全部誤差分解為隨機(jī)誤差和系統(tǒng)性誤差兩部分。由于有概率論與數(shù)理統(tǒng)計(jì)的基礎(chǔ)和抽樣技術(shù)的發(fā)展,對(duì)隨機(jī)誤差的處理技術(shù)已經(jīng)非常成熟,只要能設(shè)計(jì)出樣本估計(jì)量就能給出相應(yīng)的估計(jì)量的誤差公式。而實(shí)際統(tǒng)計(jì)工作中常常同時(shí)存在隨機(jī)誤差與系統(tǒng)誤差,因而統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題最終歸結(jié)到系統(tǒng)誤差的認(rèn)識(shí)與技術(shù)處理層面上。系統(tǒng)性誤差是指在調(diào)查或抽樣技術(shù)運(yùn)用過程中,受主觀因素影響而形成的誤差,從而導(dǎo)致調(diào)查結(jié)果的失真和估計(jì)結(jié)果的不準(zhǔn)確,產(chǎn)生統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題。
在對(duì)系統(tǒng)性誤差進(jìn)行研究時(shí)發(fā)現(xiàn),系統(tǒng)性誤差貫穿在調(diào)查的全過程中,并且受主觀因素影響,能夠產(chǎn)生系統(tǒng)性誤差的原因很多,可能產(chǎn)生于調(diào)查的任意環(huán)節(jié),從而使得研究以及控制難以把握。鑒于系統(tǒng)性誤差可能產(chǎn)生于統(tǒng)計(jì)調(diào)查工作的任何一個(gè)階段,此處分階段闡述構(gòu)成系統(tǒng)性誤差的各個(gè)具體因素以及相應(yīng)的誤差來源。
4.2.1 設(shè)計(jì)階段
在統(tǒng)計(jì)調(diào)查工作的設(shè)計(jì)階段形成的系統(tǒng)性誤差統(tǒng)稱為設(shè)計(jì)誤差,即由于抽樣調(diào)查方案設(shè)計(jì)不完善、不科學(xué)等錯(cuò)誤而導(dǎo)致的誤差。抽樣方案的設(shè)計(jì)是為了保證統(tǒng)計(jì)調(diào)查工作能夠選擇具有良好代表性的樣本,采用合理科學(xué)的估計(jì)方法進(jìn)行調(diào)查獲取數(shù)據(jù)。在抽樣方案的設(shè)計(jì)中,涉及統(tǒng)計(jì)總體定義、抽樣框編制、目標(biāo)量和估計(jì)量設(shè)計(jì),樣本量確定以及抽樣方法選擇等問題,抽樣方案的設(shè)計(jì)直接影響了調(diào)查工作能否遵循隨機(jī)性原則,因而必然可能導(dǎo)致系統(tǒng)性誤差的產(chǎn)生。
4.2.2 實(shí)施階段
統(tǒng)計(jì)工作的調(diào)查實(shí)施階段,在樣本資料搜集過程中產(chǎn)生的系統(tǒng)性誤差稱之為調(diào)查誤差。這部分誤差通常與調(diào)查者、回答者、資料搜集方式以及問卷測具等因素有關(guān),因而調(diào)查誤差往往是整個(gè)調(diào)查過程中最難避免、最為復(fù)雜的部分。調(diào)查誤差通常來源于調(diào)查過程中出現(xiàn)的無回答或有意、無意的回答偏誤以及測具不良等因素。實(shí)施階段導(dǎo)致誤差的因素眾多,因而只能盡力改進(jìn),控制調(diào)查誤差的產(chǎn)生。
4.2.3 計(jì)量階段
在對(duì)目標(biāo)量進(jìn)行估計(jì)時(shí),如果不存在其他系統(tǒng)性誤差,目標(biāo)量的估計(jì)量期望與真值存在偏誤。這種偏誤的產(chǎn)生來源于有偏估計(jì)量的使用或者是客觀條件變化,使無偏設(shè)計(jì)出現(xiàn)有偏的情況,從而形成這部分系統(tǒng)性誤差。對(duì)于有偏倚的估計(jì)量,在實(shí)際統(tǒng)計(jì)估量中可以選擇接受擁有較小方差的估計(jì)量,或者重新設(shè)計(jì)無偏的估計(jì)量或偏差較小的估計(jì)量,從而降低可能產(chǎn)生的系統(tǒng)性誤差。
4.2.4 整合階段
統(tǒng)計(jì)調(diào)查的整合階段是指在對(duì)樣本單位進(jìn)行計(jì)量之后,對(duì)原始資料進(jìn)行編碼、分類、匯總,通過編輯、整理等改變資料的形式過程。在此過程中形成的誤差可稱之為編輯誤差。這類系統(tǒng)性誤差是各種混合因素的結(jié)果,主要來源于不同的編碼者或編輯人員對(duì)樣本資料進(jìn)行匯總、計(jì)算、編碼、傳輸、儲(chǔ)存等數(shù)據(jù)處理過程,并且還涵蓋了出于政治或經(jīng)濟(jì)利益考慮,將統(tǒng)計(jì)數(shù)據(jù)結(jié)果的篡改、虛夸、隱瞞等造成統(tǒng)計(jì)數(shù)據(jù)失真的現(xiàn)象。
每個(gè)階段都具有其特殊的工作程序與特點(diǎn),相應(yīng)也會(huì)產(chǎn)生對(duì)應(yīng)的系統(tǒng)性誤差,并且上一環(huán)節(jié)工作的失誤引起系統(tǒng)性誤差后對(duì)于下一階段的統(tǒng)計(jì)調(diào)查工作有著至關(guān)重要的影響,甚至可能產(chǎn)生連鎖誤差,導(dǎo)致調(diào)查工作無法繼續(xù)開展,或是所獲得的調(diào)查結(jié)果中統(tǒng)計(jì)數(shù)據(jù)存在較大偏誤。統(tǒng)計(jì)質(zhì)量較低達(dá)不到應(yīng)用水平時(shí),調(diào)查工作進(jìn)程中將蒙受前期投入的損失,倘若調(diào)查過程中的誤差未能及時(shí)發(fā)現(xiàn)便投入使用,可能還會(huì)造成不可預(yù)計(jì)的后果。
因而,結(jié)合我國統(tǒng)計(jì)數(shù)據(jù)質(zhì)量存在的問題從統(tǒng)計(jì)調(diào)查工作的各個(gè)階段深入分析數(shù)據(jù)誤差來源有著重要的意義,只有先從源頭了解數(shù)據(jù)誤差產(chǎn)生的原因,才能在此基礎(chǔ)上進(jìn)一步來測定、實(shí)證檢驗(yàn)我國數(shù)據(jù)質(zhì)量問題,進(jìn)而從檢驗(yàn)的結(jié)果分析探討適合我國具體統(tǒng)計(jì)現(xiàn)狀的改進(jìn)方案和誤差控制方法。
[1]Hansen,M.H.,W.N.Hurwitz.The Problem of Nonresponse in Sample Surveys[J].Journal of the American Stiatistical Association,1946,(41).
[2]Hansen,M.H.,W.N.Hurwitz,Bershad,M.Measurement Errors in Censuses and Surveys[J].Bulletin of the ISI,1961,(38).
[3]Warner,S.L.Randomized Response A Survey Technique for Eliminating Evasive Answer Bias[J].Journal of the American Statistical Association,1965,(60).
[4]United Nations.Handbook of Statistical Organization[Z].Newyork,1980.
[5]Dalenius.Errors and Other Limitataions of Survey,Statistical Methods and the Improvement of Data Quality[M].London:Academic Press Inc,1983.
[6]Brackstone,G.Managing Data Quality at Statistics Agency[J].Survey Methodology,2000,(25).
[7]Fr?schl,K.A.,Grossmann W.The Role of Metadata in Using Administrative Sources[J].Research in Official Statistics,2000,(3).
[8]葉長法,岑國榮.統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法探討[J].浙江統(tǒng)計(jì),1997,(4).
[9]楊海山,許啟發(fā).統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的邏輯評(píng)估方法研究[J].上海統(tǒng)計(jì),2001,(7).
[10]成邦文,王婭莉,石林芬,師漢民.科技規(guī)模指標(biāo)的對(duì)數(shù)正態(tài)分布規(guī)律[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2000,(9).
[11]成邦文,師漢民,王齊莊.多維統(tǒng)計(jì)數(shù)據(jù)質(zhì)量檢驗(yàn)與異常點(diǎn)識(shí)別的模型與方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2003,(4).
[12]李竹渝.非參數(shù)統(tǒng)計(jì)方法對(duì)收入分布的解釋[J].預(yù)測,2001,(4).
[13]屈耀輝,曾五一.農(nóng)產(chǎn)量抽樣調(diào)查中計(jì)量誤差來源分析及其事后甄別[J].財(cái)經(jīng)理論與實(shí)踐,2004,(3).
[14]王珊珊,蔡永生.基于Bayes統(tǒng)計(jì)決策的誤差測定方法[J].統(tǒng)計(jì)與決策,2008,(4).
[15]周潮.基于SARIMA模型涉農(nóng)貸款專項(xiàng)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估[J].甘肅金融,2008,(7).