呂 鵬,相榮霞,袁永生
(河海大學(xué) 理學(xué)院,江蘇 南京 210098)
PTM(投影深度削減平均)[1]方法是一種比較穩(wěn)健的區(qū)間估計(jì)方法,該方法基于Bootstrap抽樣[2-7],合理地引進(jìn)深度函數(shù)[1,4-5],抑制異常點(diǎn)[6]、重尾分布以及污染數(shù)據(jù)的影響.但是,從文獻(xiàn)[8-9]提出的PTM方法雖然具有較好的穩(wěn)健性,但按照深度截尾得到的區(qū)間偏左,或可能出現(xiàn)區(qū)間“倒置”,而且在小樣本情形下,運(yùn)用該方法可能存在溢出,因此不可用.基于上述可能存在的缺陷,筆者合理地改進(jìn)了PTM方法,對(duì)原來(lái)的深度函數(shù)進(jìn)行重新定義,得到了更加合理的,既適合于小樣本情形,又適合于大樣本情形下的再抽樣區(qū)間估計(jì)方法.
Bootstrap實(shí)際上就是一種再抽樣方法,再抽樣的次數(shù)通常很大,一般都在200次以上.本文用到2種Bootstrap抽樣方法[2,7].
方法1 直接利用原始樣本數(shù)據(jù)作有放回抽樣.設(shè)從1~n內(nèi)產(chǎn)生的n個(gè)隨機(jī)整數(shù),以上述隨機(jī)產(chǎn)生數(shù)為下標(biāo)的原始樣本數(shù)據(jù)作為再生樣本.這種方法可能存在如下2個(gè)缺點(diǎn):
1) 抽樣后所產(chǎn)生新的樣本序列可能并不服從原始樣本所服從的總體分布.
2) 抽樣之后的樣本總體依賴于(0,n)隨機(jī)發(fā)生器,若(0,n)隨機(jī)發(fā)生器產(chǎn)生的數(shù)據(jù)服從某種分布或者均衡性不好,會(huì)使最終的抽樣總體存在系統(tǒng)偏差.當(dāng)然這個(gè)問(wèn)題可以解決.
設(shè)原始樣本為x1,x2,…,xn,在(0,1)內(nèi)隨機(jī)產(chǎn)生n個(gè)(0,1)內(nèi)的小數(shù)ri,i=1,2,…,n,其中n為原始樣本容量.令αi=(n-1)ri,βi=|αi|+1,i=1,2,…,n,并且令y*i=xβi+(βi-αi+1)(xβi+1-xβi),i=1,2,…,n,以此作為一個(gè)新的樣本.如此繼續(xù)重復(fù)抽樣B次,得到B個(gè)Bootstrap樣本[2].
對(duì)PTM方法進(jìn)行改進(jìn),對(duì)原來(lái)的深度函數(shù)進(jìn)行重新定義,利用深度函數(shù)的大小來(lái)去掉原始數(shù)據(jù)中的異常點(diǎn), 使得到的參數(shù)估計(jì)的置信區(qū)間更加精確地逼近于真值,從而提高區(qū)間估計(jì)的精度.
改進(jìn)的PTM方法的一般步驟.
第1步:定義PTM.
1) 設(shè)X=(x1,x2,…,xn)為任意樣本,令Med(X)為樣本中位數(shù),MAD(X)為{|xi-Med(X)|,(i=1,2,…,n)}的中位數(shù).
2) 定義深度函數(shù)
對(duì)原來(lái)的深度函數(shù)進(jìn)行重新定義,可以克服原來(lái)定義中的可能出現(xiàn)溢出的缺陷,使得到的改進(jìn)的PTM方法更加合理有效.
3) 對(duì)于某一個(gè)常數(shù)β>0,對(duì)于所有滿足PD(xi,X)≥β的xi(i=1,2,…,k)有
其中,之所以取某一個(gè)常數(shù)β>0,并對(duì)所有滿足條件PD(xi,X)≥β的xi取均值,作為均值參數(shù)μ的一個(gè)估計(jì),其主要思想是利用深度函數(shù)的大小來(lái)去掉原始數(shù)據(jù)中的異常點(diǎn)或者“貢獻(xiàn)”較小點(diǎn)的影響,使得到的參數(shù)估計(jì)的置信區(qū)間更加精確地逼近于真值或者在樣本均值附近,從而提高區(qū)間估計(jì)的精度.并且可以證明PTMβ(X)漸近趨于均值μ.
第2步:利用Bootstrap抽樣方法,得到參數(shù)的估計(jì)區(qū)間:
1) 設(shè)X=(x1,x2,…,xn)為來(lái)自于經(jīng)驗(yàn)分布Fn的樣本容量為n的任意樣本,采用Bootstrap抽樣方法,對(duì)這組樣本進(jìn)行模擬抽樣,得到B組樣本容量為n的樣本,我們把這B組樣本放在一起,記作Y=(X1,X2,…,XB);
2) 對(duì)這B個(gè)樣本中的每一組樣本,分別按照PTM的定義進(jìn)行計(jì)算,得到B個(gè)PTMβ值,按照樣本下標(biāo)順序,我們令得到的PTMβ值分別為
PTMβ1,PTMβ2,…,PTMβB;
3)然后將PTMβ1,PTMβ2,…,PTMβB按照大小排序PTMβ(1),PTMβ(2),…,PTMβ(B);
將得到的PTMβ1,PTMβ2,…,PTMβB按照大小進(jìn)行排序,改變了原來(lái)PTM方法中按照深度進(jìn)行排序,這樣主要是避免出現(xiàn)置信區(qū)間“倒置”的缺陷.
4) 對(duì)于給定的精度α,利用百分位法截尾,得到的置信區(qū)間為
(PTMβ(?B.α/2?+1),PTMβ(?B.(1-α/2)?)).
改進(jìn)的PTM方法是基于左義君PTM方法的優(yōu)勢(shì)[8-9],結(jié)合其存在的缺陷,加以改進(jìn)得到的一種合理的、有效的、穩(wěn)健的區(qū)間估計(jì)方法.該方法可以適用于任何分布的指定參數(shù)的區(qū)間估計(jì).下面本文分別在正態(tài)分布、泊松分布、指數(shù)分布的情形下,分別基于小樣本情形和大樣本情形,比較改進(jìn)的PTM方法和經(jīng)典方法、百分位法的優(yōu)良性.
用Matlab軟件和數(shù)據(jù)模擬的方法比較改進(jìn)的PTM方法與經(jīng)典t方法、百分位法,以此來(lái)研究改進(jìn)的PTM方法的優(yōu)良性.
由于本文中Bootstrap抽樣方法有2種,且使用較多的是方法1(稱為一般的Bootstrap抽樣方法)和方法2(稱為加權(quán)處理的Bootstrap抽樣方法[2,10]).因此,基于不同的Bootstrap抽樣方法,比較改進(jìn)的PTM方法和傳統(tǒng)方法的優(yōu)良性.并且在樣本容量不同時(shí),各種方法表現(xiàn)出來(lái)的優(yōu)良性也不相同,結(jié)合有關(guān)樣本數(shù)目的規(guī)定,分別比較當(dāng)樣本容量為7、20、和120,Bootstrap抽樣為500時(shí)的改進(jìn)的PTM的優(yōu)良性.見表1~2.
表1 一般Bootstrap抽樣下置信水平為95%的隨機(jī)模擬500次置信區(qū)間的平均長(zhǎng)度(覆蓋率)
表2 加權(quán)Bootstrap抽樣下置信水平為95%的隨機(jī)模擬500次置信區(qū)間的平均長(zhǎng)度(覆蓋率)
1)n=7時(shí),改進(jìn)的PTM方法中的參數(shù)β的取值在不同的分布下取不同的值,一般的在正態(tài)分布下,令β=0.52,在泊松分布下,令β=0.5,在指數(shù)分布下,令β=0.53.N=20,120時(shí),PTM方法中,參數(shù)β的取值均取值為0.5.
2) 在實(shí)際的問(wèn)題當(dāng)中,當(dāng)樣本容量小于15時(shí),經(jīng)典方法是不適用.在這里我們暫時(shí)假設(shè)它可以適用,比較得到上述結(jié)果.
綜合上述多種情形可以看出:在總體為正態(tài)分布和指數(shù)分布時(shí),改進(jìn)的PTM都具有較好的優(yōu)良性.特別是在小樣本的情形下,改進(jìn)的PTM方法較經(jīng)典方法和百分位法具有更好的優(yōu)良性:相同置信水平下,較經(jīng)典方法得到的置信區(qū)間平均長(zhǎng)度更短,并且真值的覆蓋率較高,基本處于95%左右.對(duì)于加權(quán)處理的 Bootstrap 抽樣方法,在相同置信水平下,改進(jìn) PTM 方法得到的置信區(qū)間平均長(zhǎng)度更短,且具有更好的穩(wěn)健性.在總體分布為泊松分布時(shí),改進(jìn)的PTM方法的優(yōu)良性不突出,可能跟泊松分布樣本的離散性有關(guān),需要進(jìn)一步的驗(yàn)證分析.
數(shù)據(jù)來(lái)自某廠某種燈泡的壽命[11],已知服從正態(tài)分布,現(xiàn)從一批燈泡中隨機(jī)抽取16個(gè),測(cè)得其壽命為 1 510、1 450、1 480、1 460、1 520、1 480、1 490、1 460、1 480、1 510、1 530、1 470、1 500、1 520、1 510、1 470 h.
從表3中可以看出在小樣本情況下,一般Bootstrap抽樣下的PTM方法所得的所有燈泡的平均壽命的置信區(qū)間比用 Bootstrap 4 種方法和常規(guī)方法估計(jì)的區(qū)間寬度短,從而說(shuō)明對(duì)于一般的 Bootstrap 抽樣方法,在相同置信水平下,改進(jìn) PTM 方法得到的置信區(qū)間平均長(zhǎng)度更短,且具有更好的穩(wěn)健性.同時(shí),加權(quán)Bootstrap抽樣下的PTM方法所得的所有燈泡的平均壽命的置信區(qū)間比一般Bootstrap抽樣下的PTM方法所得的所有燈泡的平均壽命的置信區(qū)間的區(qū)間寬度要更小一點(diǎn),具有更高的精度.
表3 常規(guī)方法和 Bootstrap 方法以及PTM方法對(duì)燈泡壽命的區(qū)間估計(jì)
注:PTM1為一般Bootstrap抽樣下的PTM方法,PTM2為加權(quán)Bootstrap抽樣下的PTM方法;上述Bootstrap抽樣次數(shù)B均為1000.
在小樣本情形下,改進(jìn)的PTM方法較經(jīng)典方法具有更高的精度,相同置信水平下,改進(jìn)的PTM方法得到的置信區(qū)間平均長(zhǎng)度更短,且具有較高的真值覆蓋率,所以改進(jìn)的 PTM 方法得到的置信區(qū)間具有較好的穩(wěn)健性;尤其在加權(quán)之后的 Bootstrap 方法下,所得到的區(qū)間更加穩(wěn)健,左右擺動(dòng)的幅度更小,且區(qū)間長(zhǎng)度更短.
參考文獻(xiàn):
[1] ZUO Yi-jun.Data depth trimming counterpart of the classicalt(orT2) procedure[J].Journal of Probability and Statistics, 2009(2009):1-9.
[2] 張守玉,封偉書.基于Bootstrap方法的正態(tài)分布樣本數(shù)據(jù)生成研究[J].裝配指揮技術(shù)學(xué)院學(xué)報(bào),2009,20(2):97-100.
[3] 扎庫(kù)拉.戈文達(dá)拉玉盧.抽樣理論與方法(英文版)[M].北京:機(jī)械工業(yè)出版,2005:324-333.
[4] 李強(qiáng).兩類數(shù)據(jù)深度及深度加權(quán)M估計(jì)[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2008:10-20.
[5] 范允征,林路.穩(wěn)健的深度加權(quán)小波估計(jì)[J].南通大學(xué)學(xué)報(bào):自然科學(xué)版,2008,7(4):78-81.
[7] 吳昌莉.小子樣樣本均值區(qū)間估計(jì)方法及其比較[C]//第七屆全國(guó)核儀器及其應(yīng)用學(xué)術(shù)會(huì)議暨全國(guó)第五屆核反應(yīng)堆用核儀器學(xué)術(shù)會(huì)議論文集.北京市:中國(guó)電子學(xué)會(huì)核電子學(xué)與核探測(cè)技術(shù)分會(huì),2009:37-40.
[8] LIU Xiao-hui, ZUO Yi-jun.Computing projection depth and its associated estimators[M].New York: Springer Science, 2012.
[9] ZUO Yi-jun.A note on finite sample breakdown points of projection dased multivariate location and scatter statistics[J].Metrika,2000,(51):259-265
[10] BRADLEY EFRON.Better Bootstrap confidence intervals[J].Journal of American Statistical Association,1987,82(97):171-185.
[11] 趙慧琴.Bootstrap 方法在區(qū)間估計(jì)中的應(yīng)用[J].江西科學(xué),2010, 4:429-431.
云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2014年5期