• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      有限總體基尼系數(shù)的統(tǒng)計(jì)推斷

      2016-04-09 01:51:22艾小青
      統(tǒng)計(jì)與信息論壇 2016年3期
      關(guān)鍵詞:參數(shù)估計(jì)基尼系數(shù)

      艾小青

      (北京工業(yè)大學(xué) a.經(jīng)管學(xué)院;b.首都社會(huì)建設(shè)與社會(huì)管理協(xié)同創(chuàng)新中心,北京100124)

      ?

      有限總體基尼系數(shù)的統(tǒng)計(jì)推斷

      艾小青a,b

      (北京工業(yè)大學(xué) a.經(jīng)管學(xué)院;b.首都社會(huì)建設(shè)與社會(huì)管理協(xié)同創(chuàng)新中心,北京100124)

      摘要:進(jìn)行基尼系數(shù)的統(tǒng)計(jì)推斷時(shí),已有研究一般都設(shè)定總體是無限的。研究在有限總體隨機(jī)抽樣的現(xiàn)實(shí)背景下,如何利用樣本數(shù)據(jù)對(duì)總體基尼系數(shù)進(jìn)行估計(jì)及其評(píng)價(jià)。從總體基尼系數(shù)的內(nèi)涵和定義出發(fā),介紹了非參數(shù)估計(jì)和參數(shù)估計(jì)的方法,構(gòu)造了相應(yīng)的估計(jì)量,基于蒙特卡羅的模擬結(jié)果,論證和揭示了不同情況下估計(jì)量的性質(zhì),并論述了方法的適用性以及在實(shí)際應(yīng)用中需要注意的問題。

      關(guān)鍵詞:有限總體;基尼系數(shù);非參數(shù)估計(jì);參數(shù)估計(jì)

      一、引言

      基尼系數(shù)是測(cè)度收入等社會(huì)經(jīng)濟(jì)變量不平等的重要指標(biāo),它的理論性質(zhì)和實(shí)踐結(jié)果是學(xué)術(shù)界和社會(huì)各界關(guān)注的熱點(diǎn)。對(duì)于特定研究對(duì)象而言,可以理解為一個(gè)包含一定數(shù)量個(gè)體的總體,其基尼系數(shù)往往需要利用樣本數(shù)據(jù)去估計(jì),如何利用樣本數(shù)據(jù)對(duì)總體基尼系數(shù)進(jìn)行估計(jì)及其評(píng)價(jià),這既是一個(gè)理論問題,也是重要的應(yīng)用問題。

      估計(jì)總體基尼系數(shù)有兩種常見的方法:一是非參數(shù)法,也叫做直接估計(jì)法,即根據(jù)樣本數(shù)據(jù)直接計(jì)算出樣本基尼系數(shù)或者相關(guān)表達(dá)式,并作為總體基尼系數(shù)的估計(jì);二是參數(shù)法,也叫做間接估計(jì)法,在總體收入分布函數(shù)的假定下,總體基尼系數(shù)可以由分布函數(shù)的相關(guān)參數(shù)得到,只需估計(jì)出相應(yīng)的參數(shù)值就得到了對(duì)總體基尼系數(shù)估計(jì)。陳希孺認(rèn)為,當(dāng)對(duì)總體收入分布的形式有較大把握時(shí),采用參數(shù)法有利于提高估計(jì)效率,當(dāng)樣本量較大時(shí),采用非參數(shù)法比較穩(wěn)妥,有可能的話可以同時(shí)使用兩種方法并比較其結(jié)果[1]。Cowell指出,采用參數(shù)法估計(jì)總體基尼系數(shù)時(shí),收入分布函數(shù)形式和參數(shù)估計(jì)方法的選擇對(duì)結(jié)果會(huì)有影響[2]。

      Davidson采用非參數(shù)法,給出了總體基尼系數(shù)的一個(gè)plug-in估計(jì),并論證了估計(jì)量在大樣本下的漸進(jìn)正態(tài)性[3]。胡志軍和龔志民模擬并提出了plug-in估計(jì)量在小樣本下的近似正態(tài)性[4]。陳家鼎和陳奇志從洛倫茨曲線擬合出發(fā),構(gòu)造了總體基尼系數(shù)的估計(jì)量,并論證了估計(jì)量收斂于正態(tài)分布及其方差估計(jì)的強(qiáng)相合性[5]。戴平生從收入份額出發(fā),推導(dǎo)出了樣本基尼系數(shù)的不同計(jì)算式,并給出了方差估計(jì)的簡(jiǎn)便算法[6]。陳娟采用核密度估計(jì)法對(duì)收入分布函數(shù)進(jìn)行了擬合,通過積分求解得到了基尼系數(shù)的估計(jì)結(jié)果[7]。楊耀武和楊澄宇采用自助法對(duì)樣本基尼系數(shù)的標(biāo)準(zhǔn)誤進(jìn)行了估計(jì),在此基礎(chǔ)上得到了對(duì)總體基尼系數(shù)的區(qū)間估計(jì)[8]。

      我們注意到,這些已有文獻(xiàn)中專門針對(duì)有限總體基尼系數(shù)的統(tǒng)計(jì)推斷的研究很少,它們往往借用了數(shù)學(xué)中無限總體的理論設(shè)定,忽略或者不考慮這樣的現(xiàn)實(shí)背景,即樣本數(shù)據(jù)通常是在有限總體進(jìn)行隨機(jī)抽樣得到的。本文將基于有限總體的設(shè)定,對(duì)有限總體基尼系數(shù)的統(tǒng)計(jì)推斷問題進(jìn)行研究,在單元數(shù)為N的總體內(nèi)進(jìn)行樣本量為n的不放回簡(jiǎn)單隨機(jī)抽樣,如何根據(jù)樣本數(shù)據(jù)對(duì)總體基尼系數(shù)進(jìn)行估計(jì),估計(jì)量的抽樣性質(zhì)有哪些?在前人研究的基礎(chǔ)上,本文一方面將基于有限總體基尼系數(shù)的內(nèi)涵辨析,給出其非參數(shù)估計(jì)方法和超總體模型假定下的參數(shù)估計(jì)方法,另一方面將通過蒙特卡羅模擬對(duì)估計(jì)量的偏差、標(biāo)準(zhǔn)誤等估計(jì)量性質(zhì)進(jìn)行揭示和檢驗(yàn),對(duì)不同估計(jì)方法以及不同樣本量下的情形進(jìn)行對(duì)比分析,并對(duì)各種方法在特定情況以及實(shí)際應(yīng)用中應(yīng)該注意的問題進(jìn)行討論。

      二、理論基礎(chǔ)

      (一)基本定義

      無限總體包含的個(gè)體數(shù)量是無限多個(gè),個(gè)體的取值是隨機(jī)變量的結(jié)果,而有限總體包含的個(gè)體數(shù)量是特定常數(shù)N,個(gè)體的取值是既定的。無限總體是數(shù)學(xué)概念上的一般化,現(xiàn)實(shí)中的特定總體事實(shí)上都是有限總體,如以某個(gè)國家或地區(qū)為總體,其包含的居民(個(gè)體)數(shù)量必然是有限的。統(tǒng)計(jì)推斷則是在有限總體內(nèi)進(jìn)行抽樣,然后利用樣本數(shù)據(jù)去推斷總體特征。設(shè)定在一個(gè)包含N個(gè)個(gè)體的有限總體(以下簡(jiǎn)稱總體)內(nèi)進(jìn)行樣本量為n的不放回簡(jiǎn)單隨機(jī)抽樣,抽樣比f為n/N。總體單元不會(huì)被重復(fù)抽取,有效樣本量即為n,本文暫不討論其他復(fù)雜抽樣下的情形。

      目標(biāo)變量以收入變量為例,其他社會(huì)經(jīng)濟(jì)變量的分析與之類似??傮w單元i的收入為Xi,i=1,2,…,N,通常認(rèn)為收入值不小于0。樣本單元i的收入為xi,i=1,2,…,n,為了下文論述方便,樣本單元不妨按收入的升序排列,則有x1≤x2,…,xn-1≤xn,并有樣本單元i的收入秩(排序位置)的值即為i。

      (二)總體基尼系數(shù)的辨析

      給定總體的N個(gè)數(shù)據(jù),其基尼系數(shù)的基本計(jì)算式在已有文獻(xiàn)中常見兩個(gè)版本,第一個(gè)計(jì)算式是:

      第二個(gè)計(jì)算式是:

      (三)總體基尼系數(shù)的估計(jì)

      利用樣本數(shù)據(jù)對(duì)總體未知特征進(jìn)行估計(jì),從抽樣推斷而言有兩種方法,一是傳統(tǒng)的直接估計(jì),本質(zhì)上是一種非參數(shù)估計(jì);二是在超總體模型假定下的間接估計(jì),本質(zhì)上是一種參數(shù)估計(jì)。這兩種方法對(duì)于總體基尼系數(shù)的估計(jì)同樣適用:前者是對(duì)總體收入既定取值不做任何分布假定,直接構(gòu)造樣本基尼系數(shù)或者相關(guān)表達(dá)式,作為總體基尼系數(shù)的估計(jì);后者是假定總體收入取值服從一定的分布函數(shù)(即超總體模型),總體基尼系數(shù)與分布函數(shù)的某些參數(shù)有關(guān),研究者需要利用樣本數(shù)據(jù)估計(jì)出分布函數(shù)的未知參數(shù),便得到了總體基尼系數(shù)的估計(jì)。還有其他一些方法可以理解為這兩種方法的拓展。

      非參數(shù)估計(jì)相對(duì)簡(jiǎn)單和明確,但樣本基尼系數(shù)的抽樣性質(zhì)比較復(fù)雜,參數(shù)估計(jì)相對(duì)復(fù)雜和多變,要涉及到分布函數(shù)的假定和參數(shù)估計(jì)的策略,所得估計(jì)量的抽樣性質(zhì)取決于多種因素。下文將對(duì)兩種方法下總體基尼系數(shù)的統(tǒng)計(jì)推斷進(jìn)行深入討論。

      三、總體基尼系數(shù)的參數(shù)估計(jì)

      (一)估計(jì)量的構(gòu)造

      基于總體基尼系數(shù)G的計(jì)算式,樣本基尼系數(shù)的計(jì)算式為:

      (1)

      該計(jì)算式與下列計(jì)算式都是等價(jià)的:

      (2)

      (3)

      式(2)實(shí)質(zhì)上是基尼系數(shù)的協(xié)方差表達(dá)式,式(3)也是從協(xié)方差表達(dá)式中推導(dǎo)出來的,Davidson(2009)提出的修正plug-in估計(jì)量實(shí)質(zhì)上就是式(3)的表達(dá)式。

      以樣本基尼系數(shù)gn作為總體基尼系數(shù)G的估計(jì)量,當(dāng)樣本量n等于總體單元數(shù)N時(shí),樣本基尼系數(shù)即為總體基尼系數(shù)。

      (二)估計(jì)量的性質(zhì)

      樣本基尼系數(shù)的計(jì)算式比較復(fù)雜,在隨機(jī)抽樣下它的抽樣性質(zhì)很難直接通過數(shù)理推導(dǎo)得到,而蒙特卡羅模擬是一種處理復(fù)雜估計(jì)量的有效方法。這里我們利用R軟件進(jìn)行蒙特卡羅模擬,對(duì)樣本基尼系數(shù)的期望、偏差、標(biāo)準(zhǔn)誤等特征值,以及它的分布特征進(jìn)行研究。

      模擬的第一步是生成總體數(shù)據(jù),總體單元數(shù)N設(shè)定為1 000,事實(shí)上當(dāng)N趨于無窮大時(shí)有限總體也就成了無限總體。為保證結(jié)論的可信度,我們構(gòu)造兩個(gè)總體A和B進(jìn)行考察,基于帕累托分布和對(duì)數(shù)正態(tài)分布的隨機(jī)數(shù)產(chǎn)生總體單元的收入變量取值,并計(jì)算出總體基尼系數(shù),GA為0.307 6,GB為0.488 7。然后再在總體內(nèi)進(jìn)行樣本量為n的不放回簡(jiǎn)單隨機(jī)抽樣。為保證結(jié)果的穩(wěn)健性模擬次數(shù)k為10萬次,樣本量設(shè)定為5、10、20、50、100、200、500不等,通過模擬結(jié)果考察估計(jì)量的性質(zhì)。

      表1 不同樣本量下樣本基尼系數(shù)的模擬結(jié)果

      已有研究指出,樣本基尼系數(shù)的偏差以及標(biāo)準(zhǔn)誤的平方(即估計(jì)量方差),一般都與樣本量成反例,當(dāng)樣本量趨向無窮大時(shí)樣本基尼系數(shù)漸進(jìn)無偏且收斂于正態(tài)分布[2,5]。以上結(jié)論都默認(rèn)理論總體是無限的,在有限總體中,以上結(jié)論應(yīng)根據(jù)抽樣比f做出相應(yīng)調(diào)整:有限總體抽樣下的樣本基尼系數(shù),其偏差和估計(jì)量方差都近似與(1-f)/n成比例,當(dāng)抽樣比f為1即總體都進(jìn)行調(diào)查時(shí),樣本基尼系數(shù)的偏差和估計(jì)量方差都為0。

      我們利用兩個(gè)總體的模擬結(jié)果,對(duì)估計(jì)量偏差和方差與樣本量的內(nèi)在關(guān)系進(jìn)行了估計(jì):

      各估計(jì)的決定系數(shù)都達(dá)到了0.9以上,兩個(gè)總體下得到了基本一致性的結(jié)論,說明我們?cè)谟邢蘅傮w下對(duì)樣本基尼系數(shù)(估計(jì)量)性質(zhì)的判斷和調(diào)整是合理的,在特定總體和抽樣機(jī)制下,它的偏差和方差的一般表達(dá)式為:

      (4)

      其中kb和kv為特定系數(shù),取值大小取決于總體特征和抽樣機(jī)制。隨著樣本量的增加,偏差和方差都將減小并趨于0。結(jié)果還顯示,在不同情況下樣本基尼系數(shù)的期望值總是要小于總體基尼系數(shù),當(dāng)樣本量較小時(shí),這種偏離程度更嚴(yán)重。由此可見,用數(shù)量較少的樣本數(shù)據(jù)或者分組數(shù)據(jù)計(jì)算樣本基尼系數(shù)并對(duì)其估計(jì),將很可能造成結(jié)果的低估,這是需要特別小心的。

      考察覆蓋率與樣本量的關(guān)系,顯然隨著樣本量的增加覆蓋率也隨之增加。我們還考察了樣本基尼系數(shù)在不同樣本量下的分布特征,以總體A為例,樣本量以5、10、20為例代表小樣本,以50、100、200為例代表較大樣本,樣本基尼系數(shù)的分布如圖1所示,可以發(fā)現(xiàn)在小樣本時(shí)是右偏的,在較大樣本是近似正態(tài)的。

      圖1 不同樣本時(shí)樣本基尼系數(shù)的分布

      四、總體基尼系數(shù)的非參數(shù)估計(jì)

      (一)估計(jì)量的構(gòu)造

      總體基尼系數(shù)非參數(shù)估計(jì)的核心是收入分布函數(shù)(即抽樣術(shù)語中的超總體模型)的假定和估計(jì),這種方法的優(yōu)勢(shì)在于當(dāng)模型假定與實(shí)際相符并且參數(shù)估計(jì)準(zhǔn)確時(shí),總體基尼系數(shù)的估計(jì)精度較高。整個(gè)過程包括四步:一是假定收入分布函數(shù);二是確定基尼系數(shù)與分布函數(shù)參數(shù)的關(guān)系;三是利用樣本數(shù)據(jù)擬合分布函數(shù),估計(jì)分布函數(shù)參數(shù);四是利用分布函數(shù)參數(shù)的估計(jì)結(jié)果以及基尼系數(shù)與分布函數(shù)參數(shù)的已知關(guān)系,得到總體基尼系數(shù)的估計(jì)。

      1.收入分布函數(shù)的假定。模型視角下的抽樣推斷,認(rèn)為總體之上還存在超總體,總體取值不是既定的,而是超總體模型的隨機(jī)生成。假定總體單元的收入取值獨(dú)立同分布,其分布服從的概率密度函數(shù)為f(X),分布函數(shù)為F(X)?,F(xiàn)實(shí)中的收入分布通常都是單峰右偏的,應(yīng)用最廣泛的兩種理論收入分布為對(duì)數(shù)正態(tài)和帕累托分布,一方面它們有著優(yōu)良的數(shù)理性質(zhì),比如其對(duì)數(shù)線性變換的一致性,以及其洛倫茨曲線的不相交性等,另一方面國內(nèi)外大量實(shí)證研究表明,這兩種分布對(duì)現(xiàn)實(shí)收入數(shù)據(jù)的擬合性較好,這里以這兩種分布為例進(jìn)行介紹。

      2.基尼系數(shù)與分布函數(shù)的關(guān)系。已知隨機(jī)變量的概率密度函數(shù)f(X)或分布函數(shù)F(X),其基尼系數(shù)的理論計(jì)算式為:

      (5)

      該計(jì)算式還可以轉(zhuǎn)化為以下等價(jià)的表述:

      (6)

      (7)

      (8)

      以上計(jì)算看似復(fù)雜,但如果已知具體的分布函數(shù)形式,基尼系數(shù)的結(jié)果是分布函數(shù)參數(shù)的函數(shù)式,在特定分布下基尼系數(shù)與分布函數(shù)參數(shù)有著簡(jiǎn)單明確的關(guān)系。

      在對(duì)數(shù)正態(tài)分布下,基尼系數(shù)為:

      (9)

      在帕累托分布下,基尼系數(shù)為:

      (10)

      可以看出,對(duì)數(shù)正態(tài)分布或帕累托分布的基尼系數(shù)只與其尺度參數(shù)有關(guān),已知對(duì)數(shù)正態(tài)分布函數(shù)的參數(shù)σ,或者帕累托分布的參數(shù)α,就能直接求出基尼系數(shù)。這也意味著只要我們能估計(jì)出分布函數(shù)中相應(yīng)的未知參數(shù),就能估計(jì)出總體基尼系數(shù)。

      3.分布函數(shù)擬合和參數(shù)估計(jì)。對(duì)于特定形式分布函數(shù)的擬合,實(shí)質(zhì)上就是利用樣本數(shù)據(jù)對(duì)分布函數(shù)中未知參數(shù)的估計(jì)。常用的參數(shù)估計(jì)方法有矩估計(jì)、極大似然估計(jì)和最小二乘估計(jì)等,很多時(shí)候不同方法下的估計(jì)結(jié)果是近似乃至一致的。

      對(duì)數(shù)正態(tài)分布的位置參數(shù)μ和尺度參數(shù)σ的極大似然估計(jì)結(jié)果為:

      (11)

      帕累托分布的位置參數(shù)θ和尺度參數(shù)α的矩估計(jì)結(jié)果為:

      (12)

      這兩種分布下我們更關(guān)注尺度參數(shù)的估計(jì)結(jié)果,因?yàn)榛嵯禂?shù)值只與尺度參數(shù)有關(guān)。

      4.總體基尼系數(shù)的估計(jì)。在特定分布函數(shù)(如對(duì)數(shù)正態(tài)分布和帕累托分布)的假定下我們已知了基尼系數(shù)與分布函數(shù)參數(shù)的關(guān)系,利用樣本數(shù)據(jù)我們又估計(jì)出了分布函數(shù)中的未知參數(shù),兩者結(jié)合便得到了對(duì)總體基尼系數(shù)的估計(jì)。

      把式(11)代入式(9),得到對(duì)數(shù)正態(tài)分布下總體基尼系數(shù)的估計(jì)為:

      (13)

      把式(12)代入式(10),得到帕累托分布下總體基尼系數(shù)的估計(jì)為:

      (14)

      (二)估計(jì)量的性質(zhì)

      很多研究強(qiáng)調(diào)樣本數(shù)據(jù)對(duì)收入分布函數(shù)的擬合程度,事實(shí)上這并不是問題的關(guān)鍵,真正關(guān)鍵的是對(duì)總體收入分布的假定是否準(zhǔn)確。比如假定總體收入分布形式更符合對(duì)數(shù)正態(tài)分布,但由于實(shí)際抽樣調(diào)查中低收入人群的樣本數(shù)較少,使得樣本數(shù)據(jù)的收入分布形式更接近帕累托分布;如果強(qiáng)調(diào)樣本數(shù)據(jù)的擬合度而選擇了帕累托分布的形式,以此去估計(jì)總體基尼系數(shù)的結(jié)果,看似樣本數(shù)據(jù)對(duì)收入分布的擬合度高,但估計(jì)結(jié)果可能很不準(zhǔn)確。接下來我們通過統(tǒng)計(jì)模擬來進(jìn)行驗(yàn)證,并揭示總體基尼系數(shù)參數(shù)估計(jì)下估計(jì)量的具體性質(zhì)。

      使用前文中的總體B數(shù)據(jù),其收入分布比較接近對(duì)數(shù)正態(tài)分布。假定我們利用樣本數(shù)據(jù)進(jìn)行收入分布函數(shù)擬合時(shí),一種是正確地選擇對(duì)數(shù)正態(tài)分布的形式進(jìn)行參數(shù)估計(jì),并得到了總體基尼系數(shù)的估計(jì)結(jié)果,另一種是錯(cuò)誤地選擇了帕累托分布的形式并得到了估計(jì)結(jié)果。利用R軟件進(jìn)行10萬次的蒙特卡羅模擬,樣本量也同樣設(shè)定為5、10、20、50、100、200、500不等,計(jì)算估計(jì)量的期望值、偏差和標(biāo)準(zhǔn)誤等特征值,以及估計(jì)量與總體基尼系數(shù)的相對(duì)誤差不超過10%的比例(覆蓋率),相關(guān)模擬結(jié)果如表2所示。

      表2 不同樣本量下總體基尼系數(shù)估計(jì)量的模擬結(jié)果

      模擬結(jié)果給我們的啟示有:一方面,一旦對(duì)總體收入分布形式的預(yù)判是錯(cuò)誤的,利用樣本數(shù)據(jù)對(duì)錯(cuò)誤假定的分布函數(shù)進(jìn)行擬合,即使擬合度很高,并不意味著對(duì)總體基尼系數(shù)的估計(jì)就準(zhǔn)。上例中總體收入分布本身更符合對(duì)數(shù)正態(tài)形式,若用帕累托形式去擬合的話,會(huì)帶來總體基尼系數(shù)結(jié)果的較大高估,甚至我們發(fā)現(xiàn),樣本量越大偏差還越大,覆蓋率也越小(在較大樣本時(shí)竟然近似為0),出現(xiàn)了南轅北轍的災(zāi)難性后果。不少研究者在實(shí)證研究中,以樣本數(shù)據(jù)對(duì)收入分布函數(shù)的擬合優(yōu)度為依據(jù),在得到較高擬合優(yōu)度時(shí)就認(rèn)為對(duì)總體基尼系數(shù)的估計(jì)也是準(zhǔn)確的,這樣的因果邏輯其實(shí)是不成立的。另一方面,當(dāng)對(duì)總體收入分布形式的預(yù)判較為準(zhǔn)確時(shí),利用有限的樣本數(shù)據(jù),能得到對(duì)總體基尼系數(shù)相對(duì)較好的估計(jì)。上例中如果用對(duì)數(shù)正態(tài)形式去擬合收入分布并對(duì)總體基尼系數(shù)進(jìn)行估計(jì),從估計(jì)量性質(zhì)來看,其偏差和方差都與樣本量近似成反比,隨著樣本量增加是漸進(jìn)無偏和近似正態(tài)的,從覆蓋率來看,相比前文中用非參數(shù)方法對(duì)總體基尼系數(shù)估計(jì)時(shí)要更高,說明估計(jì)效果相對(duì)更好。

      五、結(jié)論

      本文討論了針對(duì)特定的有限總體,如何利用隨機(jī)抽樣的樣本數(shù)據(jù)去估計(jì)總體基尼系數(shù)。首先對(duì)總體基尼系數(shù)的內(nèi)涵進(jìn)行了辨析,指出如何合理地計(jì)算總體基尼系數(shù);本文的前部分是總體基尼系數(shù)的非參數(shù)估計(jì)方法,介紹了如何利用樣本基尼系數(shù)去估計(jì)總體基尼系數(shù),并通過統(tǒng)計(jì)模擬揭示了樣本基尼系數(shù)的偏差和方差等抽樣性質(zhì),特別要注意樣本基尼系數(shù)的期望值要小于總體基尼系數(shù),當(dāng)樣本量較小時(shí)這種偏差較嚴(yán)重?,F(xiàn)有研究常見在小樣本或者分組數(shù)據(jù)時(shí)計(jì)算樣本基尼系數(shù)去直接估計(jì),很可能造成結(jié)果的低估。文中還給出了樣本基尼系數(shù)的分布特征,揭示了在較大樣本時(shí)的近似正態(tài)性。本文的后部分是總體基尼系數(shù)的參數(shù)估計(jì)方法,介紹了如何基于收入分布函數(shù)去估計(jì)總體基尼系數(shù),文中以對(duì)數(shù)正態(tài)分布和帕累托分布為例,給出了總體基尼系數(shù)的估計(jì)量,通過統(tǒng)計(jì)模擬揭示了估計(jì)量的偏差和方差等抽樣性質(zhì),特別論證了方法應(yīng)用效果的關(guān)鍵并不是樣本數(shù)據(jù)對(duì)收入分布函數(shù)的擬合程度,而是對(duì)總體收入分布形式假定是否準(zhǔn)確,當(dāng)總體收入分布假定正確時(shí),估計(jì)量性質(zhì)優(yōu)良,然而當(dāng)總體收入分布假定錯(cuò)誤時(shí),整個(gè)估計(jì)方法完全失效,后果是災(zāi)難性的。

      在實(shí)際應(yīng)用中,如何選擇合適的方法去估計(jì)特定總體的基尼系數(shù),需要綜合考慮總體收入分布形式的預(yù)判、抽樣機(jī)制以及樣本量大小等因素。采用非參數(shù)估計(jì)方法是一種相對(duì)穩(wěn)妥保守的做法,而當(dāng)掌握了一定的歷史數(shù)據(jù)或者相似總體數(shù)據(jù)等輔助信息,對(duì)總體收入分布形式的預(yù)判比較有把握時(shí),或者當(dāng)樣本數(shù)據(jù)是來自嚴(yán)格的隨機(jī)抽樣,有理由相信通過樣本數(shù)據(jù)擬合出的收入分布函數(shù)與總體比較一致時(shí),可以考慮采用參數(shù)估計(jì)方法。當(dāng)樣本量特別小時(shí),事實(shí)上任何一種估計(jì)都很難保證結(jié)果的準(zhǔn)確性,可以綜合采用不同的估計(jì)方法,同時(shí)要注意避免對(duì)真實(shí)值的低估。當(dāng)樣本量特別大時(shí),樣本與總體的基尼系數(shù)差別將很小,建議采用非參數(shù)估計(jì)方法。

      本文只討論了有限總體內(nèi)簡(jiǎn)單隨機(jī)抽樣下基尼系數(shù)的統(tǒng)計(jì)推斷問題,在復(fù)雜抽樣下的相關(guān)問題有待進(jìn)一步研究。

      參考文獻(xiàn):

      [1]陳希孺. 基尼系數(shù)及其估[J].統(tǒng)計(jì)研究,2004(8).

      [2]Cowell A. Measuring Inequality[R/OL].Working Paper.Http:∥darp.lse.ac.uk/MI3, 2009.

      [3]Davidson Russell. Reliable Inference for the Gini Index[J]. Journal of Econometrics, 2009,150(1).

      [4]胡志軍,龔志民. 收入基尼系數(shù)的統(tǒng)計(jì)推斷[J].統(tǒng)計(jì)研究,2010(9).

      [5]陳家鼎,陳奇志. 關(guān)于洛倫茨曲線和基尼系數(shù)的統(tǒng)計(jì)推斷[J].應(yīng)用數(shù)學(xué)學(xué)報(bào), 2011(5).

      [6]戴平生. 基尼系數(shù)的區(qū)間估計(jì)及其應(yīng)用[J]. 統(tǒng)計(jì)研究,2013(1).

      [7]陳娟. 基于收人分布的基尼系數(shù)非參數(shù)估算[J].數(shù)理統(tǒng)計(jì)與管理, 2013(7).

      [8]楊耀武,楊澄宇. 中國基尼系數(shù)是否真的下降了?——基于微觀數(shù)據(jù)的基尼系數(shù)區(qū)間估計(jì)[J].經(jīng)濟(jì)研究,2015(3).

      (責(zé)任編輯:張治國)

      Statistical Inference of Finite Population's Gini Index

      AI Xiao-qinga,b

      (a.School of Economics & Management; b. Collaborative Innovation Center of Beijing Society-Building & Social Governance, Beijing University of Technology, Beijing 100124, China)

      Abstract:The population is generally set to be infinite theoretically in the study of statistical inference of Gini index, this paper studies the situation under the sampling in the real finite population. Based on the connotation and definition of population's Gini index, the paper analysis two methods of estimations named as non-parameter estimation and parameter estimation, then derives the corresponding estimators, demonstrates and reveals the properties of different estimators by Monte Carlo simulation. The paper specifically discusses the method's applicability and the issues that require attention in the practical use.

      Key words:finite population; Gini index; non-parameter estimation; parameter estimation

      中圖分類號(hào):C811∶F126.2

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1007-3116(2016)03-0003-06

      作者簡(jiǎn)介:艾小青,男,湖南邵陽人,統(tǒng)計(jì)學(xué)博士,副教授,碩士生導(dǎo)師,研究方向:抽樣調(diào)查及統(tǒng)計(jì)指數(shù)。

      基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目《關(guān)于涵蓋誤差的我國周期性普查數(shù)據(jù)質(zhì)量評(píng)估方法:理論與應(yīng)用研究》(71301033);北京市社科基金基地項(xiàng)目《基于系統(tǒng)動(dòng)力學(xué)的京津冀現(xiàn)代制造業(yè)協(xié)同發(fā)展研究》(14JDJGC040);北京工業(yè)大學(xué)日新人才項(xiàng)目(011000514115005)

      收稿日期:2015-09-18;修復(fù)日期:2015-12-10

      【統(tǒng)計(jì)理論與方法】

      猜你喜歡
      參數(shù)估計(jì)基尼系數(shù)
      基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
      不完全觀測(cè)下非線性非齊次隨機(jī)系統(tǒng)的參數(shù)估計(jì)
      一種GTD模型參數(shù)估計(jì)的改進(jìn)2D-TLS-ESPRIT算法
      基尼系數(shù)
      新視角下理論基尼系數(shù)的推導(dǎo)及內(nèi)涵
      Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
      基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
      基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
      全國總體基尼系數(shù)的地區(qū)特征研究
      什么是基尼系數(shù)
      五原县| 大邑县| 惠安县| 比如县| 乌兰察布市| 滨州市| 沈丘县| 满城县| 潍坊市| 永宁县| 澳门| 兴业县| 彩票| 巴林左旗| 台东市| 乐山市| 定陶县| 兴仁县| 常德市| 樟树市| 南华县| 罗江县| 龙胜| 新乐市| 镇康县| 滁州市| 祁门县| 渝中区| 拉孜县| 龙岩市| 洪雅县| 元江| 梅河口市| 文化| 卢湾区| 镇雄县| 蛟河市| 准格尔旗| 青海省| 武城县| 平和县|