陳國民
(海軍潛艇學(xué)院,山東 青島 266071)
Bootstrap法是以原始數(shù)據(jù)為基礎(chǔ)的模擬抽樣統(tǒng)計(jì)推斷法,用于研究原始數(shù)據(jù)的某統(tǒng)計(jì)量的分布特征,廣泛應(yīng)用于可信區(qū)間估計(jì)、假設(shè)檢驗(yàn)等問題。當(dāng)用Bootstrap法進(jìn)行統(tǒng)計(jì)分析時(shí),需要從原樣本(樣本含量記為n)中隨機(jī)有放回地抽取n*個(gè)觀測單位,構(gòu)成Bootstrap樣本。關(guān)于Bootstrap樣本含量n*的大小,一般認(rèn)為,可以小于,等于或者大于原樣本含量n[1]。但從有關(guān)Bootstrap法的文獻(xiàn)來看,往往把Bootstrap樣本含量n*設(shè)置為與原樣本含量n相等[2]-[4]。本文擬運(yùn)用計(jì)算機(jī)模擬方法考察Bootstrap樣本含量n*對Bootstrap法總體中位數(shù)可信區(qū)間估計(jì)效果的影響,從而探討B(tài)ootstrap樣本含量n*的設(shè)置方法。
用VFP編寫程序進(jìn)行統(tǒng)計(jì)模擬研究。
模擬步驟:
(1)模擬從標(biāo)準(zhǔn)正態(tài)分布總體X~N(0,1)中隨機(jī)抽取一個(gè)樣本,樣本含量為n。
(2)從該樣本中隨機(jī)有放回抽取一個(gè)Bootstrap樣本,Bootstrap樣本含量為n*。
(3)計(jì)算獲得的Bootstrap樣本的中位數(shù)。
(4)重復(fù)步驟(2)~(3)B次(B=1000)。
(5)對求得的B個(gè)中位數(shù)按升序排序,找到2.5%(第25位)和97.5%(第975位)百分位數(shù),即為由該樣本估計(jì)的總體中位數(shù)的95%可信區(qū)間。
(6)判斷求得的95%可信區(qū)間是否包含總體中位數(shù)0,如果包含0,則記正確1次;否則記錯(cuò)誤1次。
(7)重復(fù)步驟(1)~(6)1000次,得到1000個(gè)可信區(qū)間。
(8)統(tǒng)計(jì)1000個(gè)Bootstrap可信區(qū)間包含總體中位數(shù)0的百分比,該百分比即為Bootstrap法總體中位數(shù)可信區(qū)間估計(jì)正確率的估計(jì)值。
參數(shù)設(shè)置:
模擬實(shí)驗(yàn)一:原樣本含量n分別設(shè)置為5,10,50,100;Bootstrap樣本含量n*分別設(shè)置為2,5,10,20,30,40,50,100,200。
模擬實(shí)驗(yàn)二:原樣本含量n分別設(shè)置為2~50,100;Bootstrap樣本含量n*分別設(shè)置為n,n-1,n-2,n-3,n-4。
判斷標(biāo)準(zhǔn):正確率越接近準(zhǔn)確度100(1-α)%越好。本文α=0.05,所以,1000次模擬所得的正確率越接近95%越好。
模擬實(shí)驗(yàn)一結(jié)果見表1。從中可見:不論原樣本含量n大小,Bootstrap法的正確率隨著Bootstrap樣本含量n*的增加而降低;當(dāng)Bootstrap樣本含量n*很小時(shí),Bootstrap法的正確率遠(yuǎn)遠(yuǎn)大于95%,甚至可達(dá)100%;當(dāng)Bootstrap樣本含量n*很大時(shí),Bootstrap法的正確率遠(yuǎn)遠(yuǎn)小于95%,甚至為0;當(dāng)Bootstrap樣本含量n*等于原樣本含量n時(shí),正確率接近或略小于95%。由此可以推斷,當(dāng)Bootstrap樣本含量n*稍微小于原樣本含量n時(shí),正確率可能更接近理論準(zhǔn)確度。
為了尋找最佳的Bootstrap樣本含量n*,進(jìn)行模擬實(shí)驗(yàn)二。結(jié)果見表2。從中可見:(1)當(dāng)Bootstrap樣本含量n*=原樣本含量n時(shí),若原樣本含量n較小,則正確率偏低,隨著原樣本含量n增加,正確率逐漸提高并接近95%,當(dāng)原樣本含量n達(dá)到30時(shí),正確率基本接近95%;(2)當(dāng)Bootstrap樣本含量n*=原樣本含量n-1時(shí),正確率仍然偏低,但當(dāng)原樣本含量n達(dá)到20時(shí),正確率基本接近95%;(3)當(dāng)Bootstrap樣本含量n*=原樣本含量n-2時(shí),當(dāng)原樣本含量n達(dá)到10時(shí),正確率基本接近95%;(4)當(dāng)Bootstrap樣本含量n*=原樣本含量n-3時(shí),正確率不再偏低,當(dāng)原樣本含量n達(dá)到5時(shí),正確率基本接近95%;(5)當(dāng)Bootstrap樣本含量n*=原樣本含量n-4時(shí),正確率明顯偏高,但當(dāng)原樣本含量n達(dá)到30時(shí),正確率基本接近95%。
表1 Bootstrap樣本含量n*對總體中位數(shù)可信區(qū)間估計(jì)正確率(%)的影響
表2 Bootstrap樣本含量n*對總體中位數(shù)可信區(qū)間估計(jì)的正確率(%)的影響
為了定量考察Bootstrap樣本含量n*對總體中位數(shù)可信區(qū)間估計(jì)準(zhǔn)確度的影響,計(jì)算表2中各種設(shè)置時(shí)的誤差(誤差=正確率-95),不同設(shè)置時(shí)的誤差比較見表3。由表3可見,當(dāng)Bootstrap樣本含量n*=n-3時(shí),誤差的標(biāo)準(zhǔn)差最小,說明誤差的變異最小,同時(shí),此時(shí)誤差的均數(shù)也最小(P<0.05)。因此,結(jié)合前面的分析,可認(rèn)為運(yùn)用Bootstrap法進(jìn)行總體中位數(shù)可信區(qū)間估計(jì)時(shí),把Bootstrap樣本含量n*設(shè)置為n-3時(shí)效果最好。
表3 各種設(shè)置時(shí)的誤差比較
從有關(guān)Bootstrap法的文獻(xiàn)來看,Bootstrap法的效果與Bootstrap樣本含量n*無關(guān),Bootstrap樣本含量n*可以任意設(shè)置,既可以小于原樣本含量n,又可以等于原樣本含量n,還可以大于原樣本含量n。但在實(shí)際應(yīng)用中,往往把Bootstrap樣本含量n*設(shè)置為與原樣本含量n相等[1]-[3]。從本文的模擬結(jié)果來看,Bootstrap樣本含量n*的設(shè)置對Bootstrap法準(zhǔn)確度的影響很大,尤其是當(dāng)原樣本含量n較小時(shí),Bootstrap樣本含量n*更不能任意設(shè)置,否則,估計(jì)出來的可信區(qū)間誤差很大。模擬結(jié)果表明,當(dāng)用Bootstrap法進(jìn)行總體中位數(shù)可信區(qū)間估計(jì)時(shí),如果把Bootstrap樣本含量n*設(shè)置得過?。ㄟh(yuǎn)遠(yuǎn)小于原樣本含量n),則得到的可信區(qū)間會很“寬”,從而導(dǎo)致可信區(qū)間的準(zhǔn)確度遠(yuǎn)遠(yuǎn)高于設(shè)置的100(1-α)%;反之,如果把Bootstrap樣本含量n*設(shè)置得過大(遠(yuǎn)遠(yuǎn)大于原樣本含量n),則得到的可信區(qū)間會很“窄”,從而導(dǎo)致可信區(qū)間的準(zhǔn)確度遠(yuǎn)遠(yuǎn)低于設(shè)置的100(1-α)%。
綜合分析模擬結(jié)果,可得出如下結(jié)論:①如果原樣本含量小于5,Bootstrap法的準(zhǔn)確度過低,不宜用Bootstrap法估計(jì)總體中位數(shù)可信區(qū)間。②如果原樣本含量不小于5,Bootstrap樣本含量n*設(shè)置為原樣本含量n-3最合適,可信區(qū)間的準(zhǔn)確度非常接近理論準(zhǔn)確度100(1-α)%。③如果原樣本含量較大(大于30),Bootstrap樣本含量n*可以設(shè)置為與原樣本含量n相等,但不宜設(shè)置為大于原樣本含量n。
需要說明的是,本研究只是對正態(tài)分布資料的總體中位數(shù)可信區(qū)間估計(jì)進(jìn)行了模擬試驗(yàn),而且僅設(shè)置了α=0.05這樣一種情況,其結(jié)論未必適用于其它情況。對于偏態(tài)分布資料總體中位數(shù)可信區(qū)間估計(jì),尚需進(jìn)一步的研究。
[1]蔡雪亞,金丕煥,曹素華.用Bootstrap方法計(jì)算中位數(shù)的可信區(qū)間[J].中國衛(wèi)生統(tǒng)計(jì),2002,19(3).
[2]陳峰,陸守曾,楊珉.Bootstrap估計(jì)及其應(yīng)用[J].中國衛(wèi)生統(tǒng)計(jì),1997,14(5).
[3]劉勤,金丕煥.Bootstrap方法及其在醫(yī)學(xué)統(tǒng)計(jì)中的應(yīng)用[J].中華預(yù)防醫(yī)學(xué)雜志,1998,32(1).
[4]敖雁,王學(xué)楓,湯在祥,等.Bootstrap方法在平均數(shù)假設(shè)測驗(yàn)中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計(jì),2006,(6).