[摘 要]傳統(tǒng)的抽樣調(diào)查課程教學(xué)過于注重理論推導(dǎo),缺乏實際應(yīng)用,以至于學(xué)生在學(xué)習(xí)過程中未能真正掌握其中方法,不懂得如何運用所學(xué)的方法解決實際問題。課題組對實際抽樣時整群抽樣的抽樣與估計步驟進(jìn)行了系統(tǒng)的講解,并結(jié)合R軟件完成了整群抽樣的樣本抽取與總體參數(shù)估計。通過案例教學(xué),幫助學(xué)生掌握整群抽樣的理論知識,并提高了學(xué)生運用R軟件解決實際問題的能力。
[關(guān)鍵詞]案例教學(xué);抽樣調(diào)查;整群抽樣;R軟件
[中圖分類號] G642 [文獻(xiàn)標(biāo)識碼] A [文章編號] 2095-3437(2018)07-0065-03
○、引言
抽樣調(diào)查作為一門應(yīng)用性、實用性很強的統(tǒng)計學(xué)科,是統(tǒng)計學(xué)類專業(yè)的專業(yè)必修課程。然而,傳統(tǒng)的抽樣調(diào)查課程教學(xué)過于注重理論推導(dǎo),缺乏實際應(yīng)用,以至于學(xué)生在學(xué)習(xí)過程中未能真正掌握其中方法,不懂得如何運用所學(xué)的方法解決實際問題。為此,候震梅(2016)[1]探討了抽樣調(diào)查課程實驗教學(xué)改革的思路與途徑;張學(xué)新(2015)[2]提出一種抽樣調(diào)查課程貫穿統(tǒng)計軟件使用的教學(xué)改革方法;盧玉桂(2015)[3]提出應(yīng)運用案例教學(xué)法進(jìn)行抽樣調(diào)查課程教學(xué)。
整群抽樣具有實施調(diào)查便利、節(jié)省費用的優(yōu)點,因而被廣泛應(yīng)用于調(diào)查中。但筆者在教授該知識點時,發(fā)現(xiàn)大部分學(xué)生無法真正理解與掌握整群抽樣方法。因此,筆者擬在前人研究基礎(chǔ)[4][5]上,結(jié)合多年教授抽樣調(diào)查課程的經(jīng)驗,探討如何利用R軟件幫助學(xué)生更好的理解與掌握“整群抽樣”抽樣與估計過程。
一、整群抽樣簡介
整群抽樣(cluster sampling)[5]是將總體劃分為若干個群,然后以群為抽樣單元,從總體N(總體群數(shù))抽取n個樣本群,并對樣本群中的所有單元進(jìn)行調(diào)查的一種抽樣方法。整群抽樣分為群規(guī)模相等和群規(guī)模不等兩種情況。所謂群規(guī)模是指組成群的單元數(shù)量,群規(guī)模可大可小。群規(guī)模大,則估計精度差但費用??;群規(guī)模小,則可提高估計精度但費用也高。因此,一般而言,群規(guī)模不宜過大。本文主要介紹群規(guī)模相等的整群抽樣(也稱為等概率整群抽樣),等概率整群抽樣是指在總體N個群(初級抽樣單元)中,每個群所包含的單元(二級單元)數(shù)皆等于M。
等概率整群抽樣一般用簡單隨機抽樣方法抽取群,此時抽樣比為f=n / N,則總體均值[y]的無偏估計為:
二、群抽樣的R軟件實現(xiàn)
筆者在進(jìn)行整群抽樣教學(xué)時,發(fā)現(xiàn)多數(shù)學(xué)生學(xué)起來吃力,無法理解整群抽樣與簡單[?]隨機抽樣的關(guān)系,以至于產(chǎn)生厭學(xué)、不學(xué)等一些負(fù)面情緒。為了幫助學(xué)生更好的掌握整群抽樣方法,筆者將通過文獻(xiàn)[5]的例子,講解整群抽樣過程。
例 某郵局該轄區(qū)共有5000戶,并劃分為500個群,則每個群有10戶居民。為了解郵局管轄區(qū)內(nèi)每個家庭的月平均定報份數(shù)及其95%的置信區(qū)間,運用整群抽樣方法從500個群中抽取5個群進(jìn)行抽樣調(diào)查。
本例中,每個群的規(guī)模均為10,故為等概率整群抽樣。因此,抽樣方法為運用簡單隨機抽樣從500個群中抽取5個群。因為是按照簡單隨機抽樣抽取群的,所以每個群的入樣概率均為5/500=1/100,又因為總體中的某個群一旦被抽中,則群內(nèi)的所有單元全部入樣。因此,每個總體單元的入樣概率都為1/100,這也驗證了群規(guī)模相等的整群抽樣為何也可稱為等概率整群抽樣。
實施抽樣調(diào)查時,抽樣與估計是分開進(jìn)行的,且先抽樣后估計。整群抽樣的抽樣步驟可分為以下兩步:
第一步:編制抽樣總體數(shù)據(jù)框,即編制抽樣框。
假設(shè)事先已獲取管轄區(qū)內(nèi)5000戶住戶的名錄,并已劃分為500個群。注意,本例中為簡單起見,住戶名錄用數(shù)字編號代替,實際抽樣時,應(yīng)為真實名錄,這樣完成抽樣后,才能根據(jù)抽中的名錄清單,開展調(diào)查。
其R代碼如下:
> a=rep(1:500,each=10)
> b=1:5000
> data=data.frame(“群號”=a,“住戶ID”=b)
第二步:調(diào)用整群抽樣函數(shù)cluster,完成抽樣。
進(jìn)行抽樣前,首先需要下載并加載sampling包(抽樣程序包),然后才可以調(diào)用整群抽樣函數(shù)。整群抽樣函數(shù)cluster( )的第一個參數(shù)為總體數(shù)據(jù)框,第二個參數(shù)為分群變量,參數(shù)size設(shè)定樣本群數(shù),參數(shù)method設(shè)定抽樣方法,包括不放回簡單隨機抽樣(srswor)、放回簡單隨機抽樣(srswr)、泊松抽樣(poisson)、系統(tǒng)抽樣(systematic)4種抽樣方法,description為邏輯型向量,取TRUE值,表示輸出抽樣信息。
其R代碼如下:
> install.packages(‘sampling) #下載sampling包
> library(sampling)#加載sampling包
> n=5#樣本群數(shù)
#調(diào)用整群抽樣函數(shù)
>data.c=cluster(data,“群號”,size=n,method=“srswor”,description=TRUE)
Number of selected clusters:5
Number of units in the population and number of selected units:5000 50
#從總體數(shù)據(jù)框中提取樣本數(shù)據(jù)
> data.c=getdata(data,data.c)
>data.c[1:20,]#顯示前20個樣本的信息
結(jié)果顯示:整群抽樣從總體群500中抽取了5個群,入樣的群編號依次為72、140、146、430、460,且總體單元數(shù)為5000,樣本單元數(shù)為50;整群抽樣函數(shù)cluster( )返回被抽中單元的住戶ID、群號、抽樣單元編號(ID_unit)和入樣概率(Prob)。
完成抽樣后,將對入樣的住戶展開調(diào)查,獲取相關(guān)樣本數(shù)據(jù),完成樣本數(shù)據(jù)的收集。假設(shè)經(jīng)過調(diào)查后,獲取的樣本數(shù)據(jù)為表2。
根據(jù)獲取的樣本數(shù)據(jù),可開始進(jìn)行總體參數(shù)的估計。整群抽樣的估計步驟也可以分為兩步:
第一步:估計的前期工作。
進(jìn)行抽樣估計前,需要下載并加載survey包(估計程序包),另外還需要加載一個grid基礎(chǔ)包,才能開始進(jìn)行抽樣估計。另外,抽樣估計前,需要調(diào)用svydesign函數(shù)定義抽樣設(shè)計,但在使用該函數(shù)前,還需要設(shè)定每個樣本的樣本權(quán)重pw和fpc。其中,pw為入樣概率的倒數(shù)N/n,即為500/5=100,fpc為總體群數(shù)N,即為500。其R代碼如下:
> install.packages(‘survey)#下載survey包
> library(survey) #加載survey包
> library(grid)#加載grid包
> N=500#設(shè)定總體群數(shù)
> n=5#設(shè)定樣本群數(shù)
> pw=rep(N/n,nrow(data1))#設(shè)定樣本權(quán)重
> fpc=rep(N,nrow(data1))#設(shè)定fpc變量
> data1.c=as.data.frame(cbind(data1,pw,fpc))#合并樣本數(shù)據(jù)框
> data1.c[1:5,]#顯示前5行樣本數(shù)據(jù)框
第二步:調(diào)用svydesign函數(shù)定義抽樣設(shè)計,并完成估計。抽樣設(shè)計函數(shù)svydesign( )參數(shù)id定義群變量,參數(shù)weights定義樣本權(quán)重,參數(shù)data定義樣本數(shù)據(jù)框,參數(shù)fpc定義fpc變量。
> d.c<-svydesign(id=~群號,weights=~pw,data=data1.c,fpc=~fpc)#抽樣設(shè)計
> summary(d.c)#查看抽樣設(shè)計
1 - level Cluster Sampling design
With (5) clusters.
svydesign(id = ~群號,weights = ~pw,data = data1.c,fpc = ~fpc)
Probabilities:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01 0.01 0.01 0.01 0.01 0.01
Population size (PSUs):500
Data variables:
[1] “住戶ID”“群號”“ID_unit”“Prob”“訂報數(shù)” “pw”“fpc”
> svymean(~訂報數(shù),d.c)#訂報數(shù)的均值估計和標(biāo)準(zhǔn)誤差
mean SE
訂報數(shù) 2.02 0.1062
結(jié)果顯示:訂報數(shù)的均值估計值為2.02份,標(biāo)準(zhǔn)誤差為0.1062,則訂報數(shù)的均值估計值的95%置信區(qū)間為[1.8119,2.2282]。
三、結(jié)論
本文以一個簡單的抽樣案例,對整群抽樣的抽樣與估計過程進(jìn)行了系統(tǒng)的講解,并結(jié)合R軟件完成了整群抽樣的抽樣與估計。通過運用案例教學(xué)方法進(jìn)行整群抽樣的課堂教學(xué),不僅可以幫助學(xué)生理解與掌握整群抽樣的理論知識,同時還可以提高學(xué)生靈活運用R軟件的能力,以及運用R軟件解決實際抽樣調(diào)查的能力。為此,在進(jìn)行抽樣調(diào)查課程教學(xué)時,應(yīng)注意運用實際案例和R軟件演示相結(jié)合進(jìn)行教學(xué),這將有利于學(xué)生對抽樣理論知識理解與掌握,同時提高學(xué)生運用R軟件解決實際問題的能力。
[ 參 考 文 獻(xiàn) ]
[1] 侯震梅. 《抽樣調(diào)查》實驗教學(xué)創(chuàng)新性研究[J]. 現(xiàn)代商貿(mào)工業(yè),2016(10):168-169.
[2] 張學(xué)新. 《抽樣調(diào)查》課程的統(tǒng)計軟件教學(xué)方法實踐[J]. 寧夏師范學(xué)院學(xué)報,2015(6):83-91.
[3] 盧玉桂. 案例教學(xué)法在《抽樣調(diào)查》課程教學(xué)中的應(yīng)用[J]. 亞太教育,2015(4):104+93.
[4] 王偉,陳志軍,徐辰武. 基于R語言的隨機抽樣方法及其應(yīng)用[J]. 揚州大學(xué)學(xué)報(農(nóng)業(yè)與生命科學(xué)版),2014(2):77-81.
[5] 金勇進(jìn)等.抽樣技術(shù):第四版[M].北京:中國人民大學(xué)出版社,2015.
[責(zé)任編輯:林志恒]