管宇
(浙江農林大學 統(tǒng)計系,浙江 臨安 311300)
其中,z為標準正態(tài)分布的分位點Φ(z)=1-α/2,1-α是置信概率或稱置信水平。由于超幾何分布是離散分布,而正態(tài)分布是連續(xù)分布,因此考慮對其進行連續(xù)性修正[1,2]:
正態(tài)近似產生的誤差主要與P和n相關,P接近于0和1時誤差相當大,文獻[1]列出了正態(tài)近似的最小np值與n值。
除正態(tài)近似外,Burstein[4]提出由二項分布近似超幾何分布而借用二項參數(shù)的置信區(qū)間略作修正近似成為p的置信區(qū)間,當然此時二項參數(shù)的置信區(qū)間要盡可能準確。本文研究比較區(qū)間CI1、CI2、CI3的統(tǒng)計性質,以決定它們的取舍。
設總體比例P未知,經(jīng)不重復抽樣得樣本比例p,約定置信水平1-α。設[L(p),U(p)]為P的一置信區(qū)間,在常規(guī)意義下區(qū)間估計應該滿足
但是,超幾何分布是有限離散隨機變量,除極個別點P值外,對于(0,1)區(qū)間中的幾乎所有P值來說,等式(4)精確成立是不可能的。為此,我們稱P{L(p)≤P≤U(p)}為置信區(qū)間[L(p),U(p)]的范圍概率,簡記CP{L(p),U(p)}或CP。如果要求對所有P∈(0,1),都有CP≥1-α,這樣的區(qū)間稱為精確置信區(qū)間(Exact confidence level);特別地,人們希望這些區(qū)間的長度都是最短的,此時稱為短的精確置信區(qū)間[5]。不難想象精確置信區(qū)間是沒有簡單的顯式表達形式的,必須借助計算機進行編程運算才能獲得。因此,統(tǒng)計家們作出了各種短的精確置信限表以方便人們需要時查閱。我國國家標準庫“數(shù)據(jù)的統(tǒng)計處理和解釋”中就有一些置信限表,如GB/T 10094-2009正態(tài)分布分位數(shù)與變異系數(shù)的置信限、GB/T4087-2009二項分布可靠度單側置信下限等。
另外,精確置信區(qū)間要求范圍概率不得低于置信水平,必然造成在某些時候估計過于保守。假若對于某P值,有兩個置信區(qū)間I1和I2(表達式復雜程度一樣),它們的范圍概率分別等于0.956和0.948,那么恐怕大多數(shù)人會選擇I2而不要I1,雖然前者的范圍概率低于要示的置信水平0.95,但其與0.95的絕對誤差明顯小于后者。因此,尋找與置信水平誤差較小而表達式簡單的近似置信區(qū)間具有非?,F(xiàn)實的實用價值。
定理1置信區(qū)間CI1、CI2、CI3對應的范圍概率分別為
吳喜之[6]指出置信區(qū)間CI1的下限可能會出現(xiàn)負值,其實我們只需要將負值下限修改為0,同樣地凡遇到大于1的上限修改為1。由于這不是問題的關鍵,通常文獻中(如[5])都不特別強調,只要在使用(本文區(qū)間CI1、CI2、CI3和它們的范圍概率)時略加注意就行。
置信區(qū)間CI1和CI2因為表達式簡單而廣泛地出現(xiàn)在統(tǒng)計手冊[7]和“抽樣技術”教材[1,2],CI3則表達形式略顯復雜。表1和圖1列出了這三個區(qū)間的范圍概率的一些數(shù)據(jù),其中表1中N=10000、M分別取遍1至9999所有整數(shù),minCP表示P= M/N中范圍概率的最小值即最壞的范圍概率,n2-、n1-、n1+、n2+分別為范圍概率與置信水平的差落入?yún)^(qū)間 [kα/5,(k+1)α/5)(k =-2,-1,0,1)的比例。顯然n1+越大越好,其次是n1-+n1+越大越好。如水平1-α=0.90、0.95、0.99時,n1-和n1+分別代表落入?yún)^(qū)間[0.88,0.90)和[0.90,0.92)、[0.94,0.95)和[0.95,0.96)、[0.988,0.99)和[0.99,0.992)。
圖1顯示了H(10000,M,100)對應的區(qū)間CI1、CI2、CI3的范圍概率曲線,M取遍1至5000的所有整數(shù),P=M/N。因超幾何分布關于M對稱的,故只需顯示一半即可。CI1的范圍概率明顯偏小,特別是水平0.99時只有2%多點達到0.99。CI2在水平0.90和0.95時偏保守,但在水平0.99時則只有約1/ 3達到目的0.99,不同水平下范圍概率分布不平衡。而且CI1和CI2的最壞情形時范圍概率都只有0.1,當M/N<0.05時它們的范圍概率都明顯小于置信水平。區(qū)間CI3的范圍概率絕大部分都在置信水平附近,對于水平0.90、0.95、0.99相應的n1-+n1+分別是達到88%、85%、73%;只有M/N<0.02時范圍概率才有些大的波動,但最壞時與置信水平差距最多約0.1。表1中的后六行列出H(10000,M,20)和H(10000,M,2000)相應區(qū)間CI3范圍概率數(shù)據(jù),顯然抽樣樣本容量n越大,范圍概率分布越集中于置信水平附近,區(qū)間CI3估計效果越好;樣本容量n越小,范圍概率分布越分散,估計效果略差些。但是,即使樣本容量n只有20(抽樣比f=0.002),最壞情形與置信水平相差至多約0.11。
圖1 H(10000,M,100)的置信區(qū)間CI1、CI2、CI3(行:自下往上)對應于置信水平0.90、0.95、0.99(列:從左往右)的范圍概率曲線
表1 區(qū)間CI1、CI2、CI3的最小范圍概率和落入置信水平附近區(qū)域的比率
[1]Cochran W G.抽樣技術[M].張堯庭,吳輝譯.北京:中國統(tǒng)計出版社,1984.
[2]李金昌主編.應用抽樣技術[M].北京:科學出版社,2007.
[3]雷欽禮.總體比例置信區(qū)間的確定[J].山西財經(jīng)學院學報,1996,(2).
[4]Burstein H.Finite Population Correction for Binomial Confidence Limits[J].Journal of the American Statistical Association,1975,70 (349).
[5]Kabaila P,Byrne J.Comparion of Poisson Confidence Intervals [J].Communications in Statistics-Theory and Methods,2005,34.
[6]吳喜之.不同總體量和樣本量時如何計算比例的置信區(qū)間[J].統(tǒng)計與信息論壇,2005,20(3).
[7]茆詩松主編.統(tǒng)計手冊[M].北京:科學出版社,2003.