• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      特定抽樣下有效樣本量的性質(zhì)研究

      2016-12-20 12:30:46艾小青
      統(tǒng)計(jì)與決策 2016年23期
      關(guān)鍵詞:北京工業(yè)大學(xué)置信區(qū)間樣本量

      艾小青

      (北京工業(yè)大學(xué)a.經(jīng)管學(xué)院;b.首都社會(huì)建設(shè)與社會(huì)管理協(xié)同創(chuàng)新中心,北京 100124)

      特定抽樣下有效樣本量的性質(zhì)研究

      艾小青a,b

      (北京工業(yè)大學(xué)a.經(jīng)管學(xué)院;b.首都社會(huì)建設(shè)與社會(huì)管理協(xié)同創(chuàng)新中心,北京 100124)

      常見的放回抽樣等方法操作比較簡(jiǎn)單,但缺點(diǎn)是有效樣本量是不確定的,而是取決于抽樣的隨機(jī)結(jié)果。文章對(duì)PPS抽樣和泊松抽樣下有效樣本量的性質(zhì)進(jìn)行了研究,通過數(shù)理推導(dǎo)和統(tǒng)計(jì)模擬揭示了有效樣本量的分布特征,給出了特定條件有效樣本量的置信區(qū)間。

      有效樣本量;PPS抽樣;泊松抽樣

      0 引言

      很多抽樣方法都存在有效樣本量不能事先確定的問題,最終的有效樣本量往往取決于抽樣的結(jié)果,所以是隨機(jī)的[1]。比如群規(guī)模不相等時(shí)的整群抽樣,當(dāng)抽出群的規(guī)模較大時(shí),最終樣本單元就多,反之就少;比如各種放回抽樣,在依次抽取時(shí)都將已抽出的樣本單元放回抽樣總體再重新抽取,導(dǎo)致有些單元可能會(huì)重復(fù)抽到,抽出的有效樣本量小于等于抽取的次數(shù)。

      PPS抽樣和泊松抽樣是現(xiàn)實(shí)中兩種應(yīng)用較多的抽樣方法,它們都存在有效樣本量非確定性的問題[2],但少有文獻(xiàn)深入研究其有效樣本量的具體性質(zhì)到底是怎樣的[3],本文將對(duì)此問題進(jìn)行深入探討,通過數(shù)理推導(dǎo)和統(tǒng)計(jì)模擬揭示有效樣本量的分布特征。對(duì)有效樣本量性質(zhì)的準(zhǔn)確把握,能夠更好地指導(dǎo)實(shí)際的抽樣設(shè)計(jì)。

      1 理論基礎(chǔ)

      有限總體包含N個(gè)單元,單元變量取值分別為Y1,Y2,…,YN,總體總量為

      任何概率抽樣的關(guān)鍵是了解總體單元的入樣概率。一階入樣概率πi表示單元i被抽出的概率;二階入樣概率πij表示不同兩個(gè)單元i和 j都被抽出的概率。

      定義一階示性函數(shù):

      二階示性函數(shù):

      單元i在最終的樣本中則一階示性函數(shù)取值為1,否則為0。因?yàn)榭傮w單元中抽出了n個(gè)有效樣本單元,意味著必有n個(gè)單元的一階示性函數(shù)值為1,所以,有效樣本量與一階示性函數(shù)值的關(guān)系是:

      示性函數(shù)具有如下性質(zhì):

      有效樣本量n的期望即總體所有單元的入樣概率之和:

      有效樣本量n的方差為:

      2 PPS抽樣下有效樣本量的性質(zhì)

      設(shè)存在一個(gè)規(guī)模輔助變量,總體N個(gè)單元的規(guī)模分別為X1,X2,…,XN,總體規(guī)??偭繛閱卧猧的規(guī)模比重為Pi=Xi/X。

      以規(guī)模變量作為輔助信息,進(jìn)行PPS抽樣:設(shè)樣本量為T,即獨(dú)立重復(fù)進(jìn)行T次放回抽取,每次抽取時(shí)單元i被抽到的概率都為Pi。單元i的一階入樣概率為:

      單元i,j(i≠j)的二階入樣概率:

      特別注意的是,這里的樣本量T,實(shí)質(zhì)是抽取的次數(shù),而實(shí)際抽出的有效樣本量n必然小于等于T,因?yàn)樵诜呕爻槿∠掠行﹩卧獣?huì)重復(fù)抽到。

      根據(jù)式(9)和式(10),有效樣本量n的期望和方差為:

      當(dāng)總體單元數(shù)N較大且各單元的規(guī)模比重都接近為0時(shí),單元被重復(fù)抽到的概率很小,有效樣本量n的期望值接近T。

      n的理論取值范圍為1到T之間,P(n),n≤T表示T次抽取后,有效樣本量為n的概率,其概率分布比較復(fù)雜,根據(jù)全概率公式,其理論表達(dá)式為:

      當(dāng)N較大于T且總體單元沒有規(guī)模比重極大的個(gè)體時(shí),單元被重復(fù)抽到的概率很低,有效樣本量n一般接近T。當(dāng)抽取次數(shù)T較大或者總體單元中存在規(guī)模比重極大的個(gè)體時(shí),單元被重復(fù)抽到的概率較大,有效樣本量n將小于T。

      使用R軟件進(jìn)行了PPS抽樣的統(tǒng)計(jì)模擬,其中規(guī)模比重輔助變量根據(jù)均勻分布生成,總體單元數(shù)N確定為1000。模擬次數(shù)為10萬(wàn)次,考察了不同抽取次數(shù)T下,不確定性有效樣本量的分布(直方圖)以及特征值(期望和標(biāo)準(zhǔn)差等)。

      (1)由表1可以看出,抽取次數(shù)T較小時(shí),有效樣本量n分布比較集中,基本上等于或稍小于抽取次數(shù)T,差值一般不超過2。T越小,n=T的概率值就越大,有效樣本量n的期望值與抽取次數(shù)T也越接近,抽取次數(shù)小于40時(shí),兩者的絕對(duì)差值不超過1,相對(duì)差值不超過0.03。

      表1 不同抽取次數(shù)下有效樣本量的概率值和特征值

      (2)由圖1可以看出,隨著抽取次數(shù)T的增加,有效樣本量n分布將更為分散,并且趨于正態(tài)化。當(dāng)抽取次數(shù)等于100時(shí),有效樣本量近似為正態(tài)分布。這樣就能給出當(dāng)抽取次數(shù)T較大時(shí),有效樣本量的95%的置信區(qū)間為:

      圖1 不同抽取次數(shù)下有效樣本量的分布特征

      3 泊松抽樣下有效樣本量的性質(zhì)

      泊松抽樣是嚴(yán)格的不放回不等概率抽樣,總體單元i的入樣概率πi事先確定。針對(duì)總體的各個(gè)單元分別獨(dú)立抽取,每個(gè)單元可能抽出也可能沒抽出,這是它最特別的性質(zhì)。

      每個(gè)單元是否抽出是隨機(jī)的,服從0,1結(jié)果的二項(xiàng)分布,單元i抽出的概率即為事先確定的πi,而最終抽出的單元數(shù)量(有效樣本量)必然也是隨機(jī)的。

      單元之間的抽取都是相互獨(dú)立的,所以二階入樣概率為:

      根據(jù)式(9)和式(10),有效樣本量n的期望和方差為:

      n的概率分布相對(duì)比較簡(jiǎn)單,總體的N個(gè)單元有n個(gè)單元抽出來了,相應(yīng)單元被抽出的概率為πi,有N-n個(gè)單元沒被抽出來,相應(yīng)單元沒被抽出的概率為( ) 1-πj,不同單元的抽取是相互獨(dú)立的,所以根據(jù)全概率公式,有效樣本量n概率分布的理論表達(dá)式為:

      根據(jù)中心極限定理可知,當(dāng)總體單元數(shù)N較大時(shí)(N>30),在這現(xiàn)實(shí)中一般都是滿足的,有效樣本量n近似服從正態(tài)分布[4]。

      入樣概率確定后,有效樣本量n的期望和方差根據(jù)式(18)和式(19)可以直接計(jì)算出來。再通過R軟件統(tǒng)計(jì)模擬(模擬次數(shù)為10萬(wàn)次),其中各單元的入樣概率根據(jù)均勻分布隨機(jī)賦值,展示在不同總體單元數(shù)N下有效樣本量n的分布特征。

      由圖2可以看出,有效樣本量的分布基本都是對(duì)稱的,尤其是當(dāng)總體單元數(shù)N越大時(shí),越近似于正態(tài)分布。這樣就能給出總體單元數(shù)N較大時(shí),有效樣本量的95%的置信區(qū)間為:

      4 結(jié)論

      圖2 不同總體單元數(shù)下有效樣本量的分布特征

      PPS抽樣和泊松抽樣在實(shí)際抽樣調(diào)查中有著廣泛的應(yīng)用,但它們的有效樣本量實(shí)質(zhì)上無法事前確定,而是取決于抽取結(jié)果的隨機(jī)變量。本文對(duì)兩種抽樣下有效樣本量的性質(zhì)進(jìn)行了深入研究,通過數(shù)理推導(dǎo)給出了有效樣本量的概率分布,以及相應(yīng)的特征值(期望和方差),通過統(tǒng)計(jì)模擬給出了有效樣本量的分布特征,特別是給出了一定條件下有效樣本量的置信區(qū)間,這樣雖然無法事前確定有效樣本量的最終結(jié)果,但可以有概率層面的推斷和了解。

      本文研究結(jié)果有著一定的理論和現(xiàn)實(shí)意義,一方面有助于我們更加深入理解抽樣設(shè)計(jì)的原理和抽樣結(jié)果的特征,另一方面對(duì)有效樣本量有了更準(zhǔn)確的事前預(yù)判,能夠更好地指導(dǎo)抽樣的方法設(shè)計(jì)以及調(diào)查的組織開展。

      [1]Antal E,Tille Y.A Direct Bootstrap Method for Complex Sampling De?signs From a Finite Population[J].Journal of the American Statistical Association,2011,16(494).

      [2]Rao C R,Rubin H.On a Characterization of the Poisson Distribution[J]. Sankhyā the Indian Journal of Statistics,1964,(32).

      [3]Antal E,Tillé Y.Simple Random Sampling With Over-replacement[J]. Journal of Statistical Planning and Inference,141.

      [4]金勇進(jìn),杜子芳,蔣妍.抽樣技術(shù)(第二版)[M].北京:中國(guó)人民大學(xué)出版社,2008.

      (責(zé)任編輯/易永生)

      C811

      A

      1002-6487(2016)23-0012-03

      北京市社會(huì)科學(xué)基金基地項(xiàng)目(14JDJGC040);北京工業(yè)大學(xué)日新人才項(xiàng)目;北京工業(yè)大學(xué)首都社會(huì)建設(shè)與社會(huì)管理協(xié)同創(chuàng)新中心項(xiàng)目

      艾小青(1982—),男,湖南邵陽(yáng)人,博士,副教授,研究方向:抽樣調(diào)查、經(jīng)濟(jì)統(tǒng)計(jì)。

      猜你喜歡
      北京工業(yè)大學(xué)置信區(qū)間樣本量
      北京工業(yè)大學(xué)
      北京工業(yè)大學(xué)
      定數(shù)截尾場(chǎng)合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
      醫(yī)學(xué)研究中樣本量的選擇
      p-范分布中參數(shù)的置信區(qū)間
      多個(gè)偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
      北京工業(yè)大學(xué)
      航空裝備測(cè)試性試驗(yàn)樣本量確定方法
      列車定位中置信區(qū)間的確定方法
      北京工業(yè)大學(xué)
      嵩明县| 称多县| 大港区| 浮梁县| 和平县| 福鼎市| 汝州市| 两当县| 宁远县| 阜新| 田东县| 贵阳市| 濮阳县| 府谷县| 观塘区| 临西县| 柞水县| 巴彦淖尔市| 高雄市| 晋城| 横山县| 桂东县| 元江| 改则县| 汪清县| 周宁县| 冕宁县| 祥云县| 临漳县| 丹江口市| 三门县| 芦溪县| 兴城市| 晋江市| 临高县| 南岸区| 庄河市| 珲春市| 澄江县| 衡山县| 丰县|