• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      抽樣分布理論的模擬分析

      2017-05-30 22:52:26潘傳快熊巍
      高教學刊 2017年8期

      潘傳快 熊巍

      摘 要:抽樣分布理論是統(tǒng)計學的核心理論,也是統(tǒng)計學教學的重點和難點。借助計算機進行統(tǒng)計模擬分析,可以形象生動地將該理論的核心思想展現(xiàn)給學生,使學生能更簡單深入地理解該理論。

      關鍵詞:抽樣分布;大數(shù)定律;中心極限定理;統(tǒng)計模擬

      中圖分類號:O17 文獻標志碼:A 文章編號:2096-000X(2017)08-0192-03

      Abstract: Sampling distribution theory is the core theory of statistics, and it is also the key and difficult point in the teaching of statistics. Through carrying out statistical simulation analysis with the aid of the computer, the core idea of the theory can be vividly displayed to students, and they can understand the theory more easily and deeply.

      Keywords: sampling distribution; law of large numbers; central limit theorem; statistical simulation

      一、問題的提出

      以均值為例,抽樣分布理論主要是討論樣本均值的性質。這部分理論的主要內容有:樣本均值的位置與尺度、樣本均值和總體均值的關系以及樣本均值的分布形態(tài)。主要涉及到兩個定理:大數(shù)定律和中心極限定理。抽樣分布理論是基礎理論,區(qū)間估計理論和假設檢驗理論都建立在抽樣分布理論的基礎上,因此這部分內容極為重要。但是由于該理論涉及兩個定理,這兩個定理如果用文字表達比較簡單,也容易理解但缺乏說服力,如果用數(shù)學推導則難度較大而且很抽象。

      如果引入統(tǒng)計模擬方法,可以很好地解決這個問題。統(tǒng)計模擬需要借助計算機的龐大計算能力,但思路簡單易懂。因為抽樣分布理論主要討論樣本均值的性質,我們可以事先模擬一個龐大的總體,然后按照設定的規(guī)則大量地從總體中抽取樣本,再觀測樣本的性質以及與總體均值的關系。由于是模擬,所以所有的總體參數(shù)是事先設定的,我們就可以很好地比較樣本均值和總體均值。本文接下來的第二部分模擬樣本均值的位置和尺度;第三部分對大數(shù)定律進行模擬;第四部分模擬樣本均值的分布;第五部分進行總結。本文所使用的統(tǒng)計模擬軟件為R語言。

      二、位置和尺度模擬

      (一)總體的模擬

      模擬總體來自一個均值為100,標準差為10的正態(tài)(高斯)分布,即:X~N(100,10),讓總體容量為100000000。容量太大,模擬結果無法一一展示,其直方圖如圖1。

      很顯然,該總體來自正態(tài)(高斯)分布。進一步,總體數(shù)據(jù)的描述統(tǒng)計量如表1)。

      均值和標準差跟事先設定的100和10幾乎無差異,偏度和峰度都接近0,幾乎完全服從正態(tài)(高斯)分布。

      (二)位置

      在有放回的簡單隨機抽樣下,可以得到一個獨立同分布的樣本,因此容易推導出樣本均值的期望:

      即所有的樣本均值的期望值為總體均值。對于一個龐大的總體,其樣本接近無數(shù)個,因此也就有接近無數(shù)個樣本均值,我們一次抽樣只得到其中的一個樣本均值。我們可以借助計算機產(chǎn)生大量的樣本,然后計算他們的均值,看是否跟總體均值接近。

      先產(chǎn)生8個容量為100的樣本,箱線圖如圖2。

      發(fā)現(xiàn)8個樣本中位數(shù)(跟均值差異不大)圍繞著100變動,那是否其均值就等于?滋呢?我們把樣本數(shù)擴大,為了反映隨著樣本數(shù)擴大X無限接近?滋的過程,我們分別模擬10個、100個、1000個、10000個、100000個樣本的情況,然后分別計算均值如表2。

      發(fā)現(xiàn)只需抽10次X的均值已經(jīng)很接近?滋了,當然隨著樣本個數(shù)增加X的均值會更接近?滋,但當樣本個數(shù)增加到10000以后,偏差改變就很小了。

      (三)尺度

      在有放回的簡單隨機抽樣下,因此容易推導出樣本均值的標準差(標準誤):

      在模擬的情況下,總體標準差?滓事先已知,即可以實現(xiàn)算出:

      這樣就可以利用大量的樣本來檢驗X的標準差。我們仍把樣本數(shù)擴大,觀察隨著樣本數(shù)擴大X的標準差無限接近S(X) 的過程,計算結果如表3。

      發(fā)現(xiàn)抽取10個樣本時,X的標準差跟理論值已經(jīng)差別很小了,當樣本數(shù)擴大到100000時,X的標準差和理論值已經(jīng)幾乎沒有差異了。

      三、大數(shù)定律的模擬

      (一)大數(shù)定律

      大數(shù)定律是指隨著樣本觀測數(shù)的增加,均值和頻率會不斷穩(wěn)定,在抽樣分布理論中主要指切比雪夫定理。對于任意?著>0,有:

      這個定理證明有點復雜,但意思卻很簡單,即隨著樣本容量的無限增加,樣本均值無限接近總體均值。

      (二)模擬

      下面我們模擬隨著樣本容量增加,樣本均值接近總體均值的過程。讓樣本容量逐次取10、100、1000、10000、100000、1000000,獲取樣本計算均值,表4記錄了它們的結果。

      我們發(fā)現(xiàn),樣本容量為10的時候樣本均值和總體均值(100)的差距還是較大的,但隨著樣本容量增加差距變小,當樣本容量為1000000時,這個差距已經(jīng)小到可以忽略。為了更形象地說明樣本均值隨著容量的增加無限漸進總體均值的過程,我們把實驗次數(shù)增加到10000次(k=1,2,…10000),讓樣本容量為:

      k+100×k

      根據(jù)這10000個樣本計算的均值按照先后順序繪制的線圖如圖3。

      圖3很形象地描繪除了樣本容量不斷增加,樣本均值無限接近總體均值的過程。

      四、中心極限定理的模擬

      (一)中心極限定理

      中心極限定理主要是證明了樣本均值的分布形態(tài)。中心極限定理有幾個表達,我們列出最常用的一個。設隨機變量X1,X2,…,Xn 獨:立同分布(分布形態(tài)不限),其均值為:

      這個定理看起來復雜也不容易證明,但意思很簡單。那就是無論總體成何種分布,在樣本容量足夠大以后,樣本均值服從以?滋為均值,?滓/■為標準差的正態(tài)分布。

      (二)正態(tài)總體時的模擬

      我們先模擬當總體是正態(tài)時的情形,為了清晰地看出中心極限定理,把樣本容量從5慢慢增加到10、20,然后再增加到100、1000,然后在每個容量下抽取300個樣本計算均值,繪出直方圖如圖4所示。

      從圖4中發(fā)現(xiàn),在正態(tài)總體下,哪怕樣本容量為5,樣本均值的分布也接近正態(tài),當然隨著樣本容量增大樣本均值越來越接近正態(tài)分布,而且抽樣誤差也越來越小。

      (三)指數(shù)總體時的模擬

      直觀的理解我們也會相信在正態(tài)總體下中心極限定理是顯而易見的,但是在其它非正態(tài)的總體下,中心極限定理是不是也成立呢?我們模擬總體來自一個均值和標準差為100的指數(shù)總體,即X~EXP(0.01)。

      仍然將樣本容量從5慢慢增加到10、20、100、1000,然后在每個容量下抽取300個樣本計算均值,繪出直方圖如圖5所示。

      由于指數(shù)分布是個右偏的反J型曲線,因此其樣本均值的分布也會受總體分布影響,呈右偏,這在樣本容量小的時候尤為明顯。圖5中我們發(fā)現(xiàn),當樣本容量為5時,樣本均值分布極為明顯,但隨著容量增加偏度下降,容量為1000時已經(jīng)看不到偏態(tài)了,足以證明中心極限定理跟總體分布無關,只要樣本容量足夠大樣本均值都會趨于正態(tài)分布。

      五、結束語

      鑒于計算機的強大計算能力,將模擬技術用于統(tǒng)計研究有極高的價值。在統(tǒng)計教學種應用模擬技術也有很好的效果,譬如用模擬來介紹抽樣分布理論。在模擬的情況下,所有理論的假設條件都可以滿足,而且事先知道總體,因此可以輕松而又深入地理解抽樣分布理論,如大數(shù)定律、中心極限定理,而不用拘謹于繁雜的數(shù)學證明。

      但是也需要指出,統(tǒng)計模擬都是隨機的,因此每次模擬的結果不同,效果不同,在教學中需要注意到這個問題。本文利用R語言,將結果用設定的隨機數(shù)種子固定,但是不同的實驗,結果將不一樣。

      參考文獻

      [1]肖枝洪,朱強.統(tǒng)計模擬及其R實現(xiàn)[M].武漢:武漢大學出版社,2010.

      [2]Sheldon M.Ross. 統(tǒng)計模擬[M].北京:人民郵電出版社,2007.

      [3]Mills J D. Using computer simulation methods to teach statistics:A review of the literature[J].Journal of Statistics Education,2002,10(1):1-20.

      [4]Rubinstein R Y, Kroese D P. Simulation and the Monte Carlo method[M].John Wiley & Sons,2011.

      梁平县| 大安市| 缙云县| 随州市| 孟村| 灌阳县| 宝丰县| 留坝县| 绍兴县| 裕民县| 鄂州市| 贵南县| 盘锦市| 太保市| 湘阴县| 兴和县| 乐山市| 亚东县| 德庆县| 大连市| 淮安市| 称多县| 河南省| 榆中县| 宁陕县| 新津县| 十堰市| 通州区| 百色市| 马尔康县| 寿阳县| 昆山市| 阿鲁科尔沁旗| 博客| 习水县| 星子县| 株洲市| 开原市| 湟源县| 湘乡市| 定兴县|