孫慧玲 胡偉文 劉海濤
摘要:小樣本情況下實(shí)驗數(shù)據(jù)的概率分布較難確定,傳統(tǒng)小樣本估計方法無法提供準(zhǔn)確的參數(shù)估計;針對工程上常用的Bayes Bootstrap方法對小樣本可靠性參數(shù)估計僅僅是原樣本的重復(fù),在參數(shù)區(qū)間估計上精度不夠高的問題;在不改變原樣本數(shù)據(jù)的基礎(chǔ)上,依據(jù)時間序列將原樣本分組并擴(kuò)充,對擴(kuò)充后的樣本進(jìn)行參數(shù)點(diǎn)估計和區(qū)間估計,提出針對小樣本情況下參數(shù)區(qū)間估計的改進(jìn)方法,給出了改進(jìn)方法的算法。運(yùn)用蒙特卡羅仿真方法進(jìn)行建模仿真,結(jié)合具體算例分析,驗證新方法對小樣本情況下參數(shù)的區(qū)間估計精度有顯著提高。
關(guān)鍵詞:小樣本;Bayes Bootstrap方法;區(qū)間估計
中圖分類號:0211 文獻(xiàn)標(biāo)志碼:A 文章編號:1007-2683(2017)01-0109-05
0 引言
樣本容量n≤30在工程上一般被認(rèn)為是小樣本.如果是正態(tài)分布,小樣本的樣本量界定可能更小,甚至小于10。隨著高新技術(shù)在武器系統(tǒng)中的廣泛應(yīng)用,武器裝備是否能保證每次成功完成任務(wù)與其可靠性直接相關(guān),因此,可靠性是衡量裝備性能的一個重要指標(biāo);導(dǎo)致在研制武器裝備的過程中,其精度及可靠度要求越來越高;使得技術(shù)更復(fù)雜,造價更昂貴成為整個研制系統(tǒng)的大趨勢。特別是某些破壞性試驗,一次實(shí)驗往往要付出巨大的代價。針對這類試驗的傳統(tǒng)鑒定方法已不再適用。因為傳統(tǒng)鑒定方法是以經(jīng)典統(tǒng)計理論為基礎(chǔ)的,也就意味著較大的樣本量必不可少,而昂貴的武器裝備從安全以及節(jié)約的方向考慮,顯然不適合進(jìn)行大量試驗。
從統(tǒng)計學(xué)角度分析,武器裝備的可靠性研究是參數(shù)估計的范疇,是參數(shù)估計的具體實(shí)例。目前,工程上已經(jīng)積累了不少方法來處理小樣本問題,根據(jù)有無先驗信息這點(diǎn)進(jìn)行界定,它們大致可以被分為兩大類:一類是以Bayes方法為代表的傳統(tǒng)估計方法。該方法僅利用原始積累實(shí)驗數(shù)據(jù)也即歷史信息來估計參數(shù)。另一類是以Bootstrap和BayesBootstrap方法為代表的方法。該方法僅僅利用當(dāng)前實(shí)驗數(shù)據(jù),在樣本量較小的情況下,可以對參數(shù)進(jìn)行比較準(zhǔn)確的估計。
本文先介紹Bayes Bootstrap方法的基本思想和基本步驟;隨后分析該方法的不足之處,針對不足提出改進(jìn)意見;最后通過具體算例驗證改進(jìn)方法的可行性。
1 小樣本參數(shù)估計Bayes Bootstrap方法
1.1 Bayes Bootstrap方法的基本步驟
定義1 觀測樣本X=(x1,x2,…,xn)為總體樣本,其樣本量是有限的,稱該樣本為原生樣本,設(shè)xi~F(x),i=1,2,…,n,F(xiàn)(x)未知,則這些原生樣本構(gòu)造的經(jīng)驗分布函數(shù)為
(1)式中:x(1)≤x(2)≤…≤x(n)是順序統(tǒng)計量,是按x1,x2,…,xn從小到大的排序后得到的。
步驟1:假設(shè)θ=θ(F)是總體的某個參數(shù)(例如均值或方差),θ=θ(Fn)是總體參數(shù)θ的估計值,記:
1.3 Bayes Bootstrap方法的分析
根據(jù)1.1的介紹可知Bayes Bootstrap方法沒有添加任何樣本以外的信息,僅僅是在原樣本的基礎(chǔ)上的重復(fù)抽樣,對樣本點(diǎn)進(jìn)行了一定的修正,并且擴(kuò)大了樣本容量對原有參數(shù)進(jìn)行估計。據(jù)已有的成果,小樣本情況下(樣本量為10),Bayes Boot-strap方法明顯優(yōu)于經(jīng)典統(tǒng)計法,不僅在參數(shù)點(diǎn)估計更接近真實(shí)值,并且得到的估計置信區(qū)間更短。
研究中發(fā)現(xiàn),Bayes Bootstrap方法對Dirichlet分布和原生樣本依賴性較大。另外,Bayes Boot-strap方法的再生樣本是取自Dirichlet分布隨機(jī)數(shù)與原樣本的加權(quán)平均,在(0,1)區(qū)間生成一序列的隨機(jī)數(shù)結(jié)果有多種可能,一旦生成的隨機(jī)數(shù)均勻性不好就會導(dǎo)致實(shí)驗結(jié)果出現(xiàn)很大差別。鑒于以上局限性,有專家學(xué)者對Bayes Bootstrap方法提出了改進(jìn)意見,一是對經(jīng)驗函數(shù)提出改進(jìn)意見,重新構(gòu)造更為合理的經(jīng)驗分布函數(shù);二是對小樣本的Boot-strap抽樣方法進(jìn)行改進(jìn),目的在于調(diào)整抽樣方法,增大樣本容量。在具體工程問題中,這些改進(jìn)方法都有較好的適應(yīng)性。
3 算例
前面介紹了小樣本參數(shù)估計的傳統(tǒng)方法和Bayes Bootstrap方法,本文提出了基于Bayes Boot-strap方法的改進(jìn)意見并給出了仿真流程,下面通過具體實(shí)例來比較3種方法在實(shí)際問題中的適應(yīng)性,驗證改進(jìn)方法的優(yōu)越性。
例計算機(jī)生成服從正態(tài)分布N(2,0.5)的10個隨機(jī)數(shù)1.7837,1.1672,2.0627,2.1438,1.4268,2.5955,2.5946,1.9812,2.1636,2.0873,取置信度1-α=0.95,分別用傳統(tǒng)小樣本估計方法、BayesBootstrap方法以及改進(jìn)Bayes Bootstrap方法對參數(shù)μ作點(diǎn)估計和區(qū)間估計。
解:用傳統(tǒng)方法計算,根據(jù)式(4)可得μ的點(diǎn)估計μ=2.006,μ的置信度為0.95的置信區(qū)間為[1.7388,2.2625]。由于n=10是小樣本數(shù)據(jù),考慮運(yùn)用Bayes Bootstrap方法和改進(jìn)Bayes Bootstrap方法對μ進(jìn)行估計,方法如下:
構(gòu)造并產(chǎn)生N=10 000組自助統(tǒng)計量(可以更大),根據(jù)式(5)、(6),運(yùn)用Bayes Bootstrap方法得到參數(shù)μ的點(diǎn)估計值和區(qū)間估計(見表1),μ的參數(shù)分布如圖2所示。根據(jù)改進(jìn)方法增大樣本容量的思想,可將原樣本數(shù)據(jù)分為2組,運(yùn)用式(8)、(9),改進(jìn)Bayes Bootstrap方法得到μ的估計值和區(qū)間估計(見表1),μ的參數(shù)分布如圖3所示。
4 改進(jìn)方法的評價
鑒于原Bayes Bootstrap方法對原始數(shù)據(jù)及Dirichlet分布的依賴性較大,在樣本量較小情況下很難得到滿意的估計,改進(jìn)方法在以下方面克服了原方法的不足:第一,先將樣本按時間序列分組,在每一組中重構(gòu)順序統(tǒng)計量,克服了Bayes Bootstrap方法中再生樣本數(shù)據(jù)向中間點(diǎn)集中的趨勢;第二,調(diào)整了抽樣方法從而擴(kuò)展了樣本容量,將每一組的樣本容量都進(jìn)行了擴(kuò)充,并且將最大最小順序統(tǒng)計量延拓至非觀測點(diǎn),極大地降低了再生樣本與原樣本的相似性。
5 結(jié)論
表1的數(shù)據(jù)顯示,改進(jìn)方法對參數(shù)μ的點(diǎn)估計與原方法相差不大。而在相同置信度的情況下對參數(shù)μ的區(qū)間估計精度明顯比Bayes Bootstrap方法更好,原因是改進(jìn)方法對樣本的延拓必然增大了樣本信息,從理論上講,在置信度一定的情況下,提高區(qū)間估計精度只能依靠增加樣本容量,所以,改進(jìn)方法的實(shí)際建模效果與統(tǒng)計學(xué)原理也是一致的。
本文并未對參數(shù)σ進(jìn)行估計,那么,改進(jìn)方法對參數(shù)σ是否也具有良好的適應(yīng)性還有待進(jìn)一步研究。
(編輯:溫澤宇)