高啟勝
(杭州醫(yī)學院,浙江 杭州 310053)
·教學研究與管理·
R語言在衛(wèi)生統(tǒng)計學均數(shù)抽樣分布教學中的應用
高啟勝
(杭州醫(yī)學院,浙江 杭州 310053)
抽樣誤差和中心極限定理是衛(wèi)生統(tǒng)計學教學中的重點和難點,純理論講授學生理解較為困難。利用Excel、SPSS、SAS等軟件雖然可以進行隨機抽樣模擬試驗,但編程語言較為復雜。R語言能夠生動形象地展現(xiàn)從不同總體中進行隨機抽樣樣本均數(shù)的分布規(guī)律,有助于學生理解均數(shù)抽樣分布規(guī)律,提高教學效果。R語言具有豐富的統(tǒng)計函數(shù)和強大的繪圖功能等優(yōu)點,在衛(wèi)生統(tǒng)計學各類常用統(tǒng)計量抽樣分布教學中有重要應用價值。
R語言;衛(wèi)生統(tǒng)計學;抽樣分布
由于個體變異的存在,在抽樣研究中產(chǎn)生樣本統(tǒng)計量和總體參數(shù)之間的差異或各樣本統(tǒng)計量之間的差異,稱為抽樣誤差。假設一個已知總體,從該總體中抽樣,對每個樣本計算統(tǒng)計量(均數(shù)、標準差等),觀察樣本統(tǒng)計量的分布規(guī)律稱為抽樣分布規(guī)律。抽樣誤差和抽樣分布是統(tǒng)計推斷的重要基礎理論,由于這一內(nèi)容比較抽象,也成為衛(wèi)生統(tǒng)計學教學的難點。近年來,R語言因其開源免費、豐富的統(tǒng)計函數(shù)和模塊、靈活強大的繪圖功能等優(yōu)點,在國內(nèi)外大學統(tǒng)計教學和科研中獲得廣泛應用[1-3]。本文嘗試利用R語言進行樣本均數(shù)的隨機抽樣模擬試驗,形象地展示抽樣分布的規(guī)律以提高衛(wèi)生統(tǒng)計學教學效果。
1.1 均數(shù)抽樣分布
分別設隨機變量X服從總體均數(shù)為5,標準差為2的正態(tài)分布,X~N(5,22);隨機變量Y服從總體均數(shù)和總體標準差為5的指數(shù)分布,Y~E(1/5); 隨機變量Z服從區(qū)間[1,9]上總體均數(shù)為5,總體標準差為2.3的均勻分布,Z~U(1,32)。運用R語言編程進行隨機抽樣實驗,參考程序如下:
表1 函數(shù)模擬參考程序
程序第1行設定圖形布局,按列順序繪圖,為4行3列。程序2-9行為編寫泛式sim.fun函數(shù),其中,m為模擬樣本次數(shù),X代表需模擬的多個函數(shù)。第10行定義函數(shù)X為從總體均數(shù)為5,標準差為2的正態(tài)分布中隨機抽樣的樣本均數(shù)。第15行定義函數(shù)Y為從總體均數(shù)和標準差為5的指數(shù)分布中隨機抽樣的樣本均數(shù)。第20號定義函數(shù)Z為從總體均數(shù)為5,標準差為2.3的均勻分布中隨機抽樣的樣本均數(shù)。第11-14行、16-19行、21-24行分別為按樣本含量為1、5、10、30模擬抽樣1000次的樣本均數(shù)的直方圖,結(jié)果見圖1。
抽樣實驗小結(jié):當n=1時抽樣分布可看作從總體中抽取的樣本量為1000的一個樣本,其頻數(shù)分布接近總體分布。從正態(tài)總體中隨機抽樣時,樣本均數(shù)的分布仍呈現(xiàn)正態(tài)分布;從非正態(tài)總體中隨機抽樣(指數(shù)分布、均勻分布等),當樣本含量足夠大時,其樣本均數(shù)的分布逐漸逼近正態(tài)分布;樣本均數(shù)的均數(shù)位置始終在總體均數(shù)附近;隨著樣本量的增加,樣本均數(shù)的離散程度越來越小,表現(xiàn)為樣本均數(shù)的分布范圍越來越窄,其高峰越來越尖。
1.2 中心極限定理
圖1 從3個總體中抽取樣本量分別為1、5、10和30時樣本均數(shù)的分布
表2 從不同總體中以不同樣本量抽樣時樣本均數(shù)和樣本標準差的描述結(jié)果
表3 以相同樣本量從不同正態(tài)總體中抽樣時樣本均數(shù)和樣本標準差的描述結(jié)果
在R語言中還可以運用animation擴展包進行中心極限定理的動畫模擬實驗[4]。默認從總體均數(shù)和標準差為1的指數(shù)總體分布中按給定的樣本量(n=1,…,100)重復抽樣300次分別計算樣本均數(shù),畫出樣本均數(shù)的直方圖和相應的核密度估計曲線,同時運用shapiro.test對均數(shù)分布進行正態(tài)性檢驗,并把P值取出來畫在下半幅圖中。程序第1、2行為安裝和載入animation包。第3行為設置時間間隔0.1秒和模擬的最大樣本量100。第4行為設定下邊距和左邊距為4行,上邊距和右邊距分別為1行和0.5行。第5行為默認進行指數(shù)分布動畫模擬,結(jié)果見圖2??梢姡敇颖玖縩超過20之后,P值會普遍偏大,可以認為樣本均值的分布和正態(tài)分布比較接近。此外,可以通過修改clt.ani()函數(shù)的參數(shù),設定抽樣次數(shù)和總體分布。如模擬1000次總體均數(shù)為5,標準差為2的正態(tài)分布的抽樣實驗,可設定clt.ani(obs=1000,FUN=rnorm,mean=5,sd=2);模擬1000次總體均數(shù)為5,標準差為2.3的均勻分布的抽樣實驗,可設定clt.ani(obs=1000,FUN=runif,mean=5,sd=2.3)等。
表4 中心極限定理動畫模擬參考程序
圖2 R語言動畫模擬中心極限定理
運用R語言模擬樣本均數(shù)抽樣分布和中心極限定理的程序關鍵在于編寫一個隨機抽樣循環(huán)函數(shù),隨后則可以同時納入多個不同的總體分布。與以往運用SPSS、SAS等商業(yè)統(tǒng)計軟件進行模擬教學相比,運用R語言主要有以下優(yōu)勢:(1)R語言為免費開源軟件,不會引起版權爭議;(2)R編程有強大的繪圖功能,語言更加簡潔高效;(3)R語言除了圖形展示外,還定量地驗證了樣本均數(shù)和標準差的變化規(guī)律;(4)利用R語言擴展包可以動態(tài)模擬并給出正態(tài)性檢驗的P值。此外,R語言能夠繪制常用連續(xù)性分布和離散性分布概率密度和累計概率曲線,每一種分布均有4個函數(shù):d為密度函數(shù),p為累積概率密度函數(shù),q為分位數(shù)函數(shù),r為隨機數(shù)函數(shù)。利用隨機數(shù)函數(shù)可以從對應分布總體中產(chǎn)生隨機樣本,進行模擬抽樣實驗??梢?,R語言模擬抽樣分布在衛(wèi)生統(tǒng)計學教學中對幫助學生理解各類常用統(tǒng)計量的抽樣分布具有重要應用價值。
[1]商豪,楊策平. 淺議 R 軟件在概率論與數(shù)理統(tǒng)計教學中的運用[J].考試周刊, 2016,(4): 56-57.
[2]熊炳忠.基于R軟件的概率統(tǒng)計課程實驗教學探析[J].學園,2015,(34): 52-54.
[3]張哲,張豪.淺談R語言在生物統(tǒng)計學教學中的應用[J].教育教學論壇,2013, (27): 54-55.
[4]趙軍,楊琳.R 軟件在大學數(shù)學教學中的應用探討[J].高教學刊,2016, (7): 93-95.
TheapplicationofRprogramminglanguageinthemeansampling
GAOQisheng
(Hangzhou Medical College, Hangzhou 310053, China)
Sampling error and central-limit theorem are the important and difficult points in Health Statistics teaching, and it is difficult for students to understand by spoon-feed teaching. Though random sampling simulation tests can be developed by Excel, SPSS, SAS, the programming language is relatively complex. The R programming language can vividly shows sample mean distribution pattern from different population at the same time, which can help stimulate students’ interests in leaning and improve classroom teaching effects. The R programming language provides a wealth of statistic functions and powerful drawing functions, which has important application value in the teaching process of different commonly used statistics sampling distribution of health statistics.
R programming; health statistics; sampling distribution
高啟勝(1984-),男,江西鄱陽人,碩士,講師。研究方向:社會醫(yī)學與衛(wèi)生統(tǒng)計學教學和研究
G642.0
B
1672-0024(2017)04-0001-05
distributionteachingofHealthStatistics