不重復抽樣下總體比例的估計

2011-03-09 06:37:48管宇

統(tǒng)計與決策 2011年12期

關鍵詞：樣本容量置信水平正態(tài)

管宇

（浙江農林大學統(tǒng)計系，浙江臨安 311300）

0 引言

其中，z為標準正態(tài)分布的分位點Φ(z)=1－α/2，1－α是置信概率或稱置信水平。由于超幾何分布是離散分布，而正態(tài)分布是連續(xù)分布，因此考慮對其進行連續(xù)性修正[1,2]：

正態(tài)近似產生的誤差主要與P和n相關，P接近于0和1時誤差相當大，文獻[1]列出了正態(tài)近似的最小np值與n值。

除正態(tài)近似外，Burstein[4]提出由二項分布近似超幾何分布而借用二項參數(shù)的置信區(qū)間略作修正近似成為p的置信區(qū)間，當然此時二項參數(shù)的置信區(qū)間要盡可能準確。本文研究比較區(qū)間CI1、CI2、CI3的統(tǒng)計性質，以決定它們的取舍。

1 范圍概率

設總體比例P未知，經(jīng)不重復抽樣得樣本比例p，約定置信水平1－α。設[L(p),U(p)]為P的一置信區(qū)間，在常規(guī)意義下區(qū)間估計應該滿足

但是，超幾何分布是有限離散隨機變量，除極個別點P值外，對于（0,1）區(qū)間中的幾乎所有P值來說，等式（4）精確成立是不可能的。為此，我們稱P{L(p)≤P≤U(p)}為置信區(qū)間[L(p),U(p)]的范圍概率，簡記CP{L(p),U(p)}或CP。如果要求對所有P∈(0,1)，都有CP≥1－α，這樣的區(qū)間稱為精確置信區(qū)間（Exact confidence level）；特別地，人們希望這些區(qū)間的長度都是最短的，此時稱為短的精確置信區(qū)間[5]。不難想象精確置信區(qū)間是沒有簡單的顯式表達形式的，必須借助計算機進行編程運算才能獲得。因此，統(tǒng)計家們作出了各種短的精確置信限表以方便人們需要時查閱。我國國家標準庫“數(shù)據(jù)的統(tǒng)計處理和解釋”中就有一些置信限表，如GB/T 10094-2009正態(tài)分布分位數(shù)與變異系數(shù)的置信限、GB/T4087-2009二項分布可靠度單側置信下限等。

另外，精確置信區(qū)間要求范圍概率不得低于置信水平，必然造成在某些時候估計過于保守。假若對于某P值，有兩個置信區(qū)間I1和I2（表達式復雜程度一樣），它們的范圍概率分別等于0.956和0.948，那么恐怕大多數(shù)人會選擇I2而不要I1，雖然前者的范圍概率低于要示的置信水平0.95，但其與0.95的絕對誤差明顯小于后者。因此，尋找與置信水平誤差較小而表達式簡單的近似置信區(qū)間具有非?，F(xiàn)實的實用價值。

定理1置信區(qū)間CI1、CI2、CI3對應的范圍概率分別為

吳喜之[6]指出置信區(qū)間CI1的下限可能會出現(xiàn)負值，其實我們只需要將負值下限修改為0，同樣地凡遇到大于1的上限修改為1。由于這不是問題的關鍵，通常文獻中（如[5]）都不特別強調，只要在使用（本文區(qū)間CI1、CI2、CI3和它們的范圍概率）時略加注意就行。

置信區(qū)間CI1和CI2因為表達式簡單而廣泛地出現(xiàn)在統(tǒng)計手冊[7]和“抽樣技術”教材[1,2]，CI3則表達形式略顯復雜。表1和圖1列出了這三個區(qū)間的范圍概率的一些數(shù)據(jù)，其中表1中N=10000、M分別取遍1至9999所有整數(shù)，minCP表示P= M/N中范圍概率的最小值即最壞的范圍概率，n2-、n1-、n1+、n2+分別為范圍概率與置信水平的差落入?yún)^(qū)間 [kα/5,(k+1)α/5)(k =-2,-1,0,1)的比例。顯然n1+越大越好，其次是n1-+n1+越大越好。如水平1－α=0.90、0.95、0.99時，n1-和n1+分別代表落入?yún)^(qū)間[0.88,0.90)和[0.90,0.92)、[0.94,0.95)和[0.95,0.96)、[0.988,0.99)和[0.99,0.992)。

圖1顯示了H(10000,M,100)對應的區(qū)間CI1、CI2、CI3的范圍概率曲線，M取遍1至5000的所有整數(shù)，P=M/N。因超幾何分布關于M對稱的，故只需顯示一半即可。CI1的范圍概率明顯偏小，特別是水平0.99時只有2%多點達到0.99。CI2在水平0.90和0.95時偏保守，但在水平0.99時則只有約1/ 3達到目的0.99，不同水平下范圍概率分布不平衡。而且CI1和CI2的最壞情形時范圍概率都只有0.1，當M/N＜0.05時它們的范圍概率都明顯小于置信水平。區(qū)間CI3的范圍概率絕大部分都在置信水平附近，對于水平0.90、0.95、0.99相應的n1-+n1+分別是達到88%、85%、73%；只有M/N＜0.02時范圍概率才有些大的波動，但最壞時與置信水平差距最多約0.1。表1中的后六行列出H(10000,M,20)和H(10000,M,2000)相應區(qū)間CI3范圍概率數(shù)據(jù)，顯然抽樣樣本容量n越大，范圍概率分布越集中于置信水平附近，區(qū)間CI3估計效果越好；樣本容量n越小，范圍概率分布越分散，估計效果略差些。但是，即使樣本容量n只有20（抽樣比f=0.002），最壞情形與置信水平相差至多約0.11。

圖1 H(10000,M,100)的置信區(qū)間CI1、CI2、CI3(行：自下往上)對應于置信水平0.90、0.95、0.99(列：從左往右)的范圍概率曲線

表1 區(qū)間CI1、CI2、CI3的最小范圍概率和落入置信水平附近區(qū)域的比率

2 結論

[1]Cochran W G.抽樣技術[M].張堯庭,吳輝譯.北京:中國統(tǒng)計出版社,1984.

[2]李金昌主編.應用抽樣技術[M].北京:科學出版社,2007.

[3]雷欽禮.總體比例置信區(qū)間的確定[J].山西財經(jīng)學院學報,1996,(2).

[4]Burstein H.Finite Population Correction for Binomial Confidence Limits[J].Journal of the American Statistical Association,1975,70 (349).

[5]Kabaila P,Byrne J.Comparion of Poisson Confidence Intervals [J].Communications in Statistics-Theory and Methods,2005,34.

[6]吳喜之.不同總體量和樣本量時如何計算比例的置信區(qū)間[J].統(tǒng)計與信息論壇,2005,20(3).

[7]茆詩松主編.統(tǒng)計手冊[M].北京:科學出版社,2003.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

不重復抽樣下總體比例的估計

0 引言

1 范圍概率

2 結論