劉文慧 張淑梅 張唯一
(1.北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院 100875; 2.北京師范大學(xué)統(tǒng)計(jì)學(xué)院 100875; 3.人民教育出版社 100081)
在第二次世界大戰(zhàn)期間,由于許多戰(zhàn)略上的理由,盟軍想知道二戰(zhàn)期間德軍總共制造了多少輛坦克[1].盟軍請來了統(tǒng)計(jì)學(xué)家參與情報(bào)的收集和分析工作,從戰(zhàn)后發(fā)現(xiàn)的德國記錄來看,運(yùn)用統(tǒng)計(jì)方法估計(jì)的結(jié)果與德國實(shí)際生產(chǎn)的坦克數(shù)量非常接近.原來,德國人在制造坦克時(shí)是墨守成規(guī)的,他們把坦克從1開始進(jìn)行了連續(xù)編號.在戰(zhàn)爭進(jìn)行過程中,盟軍繳獲了一些德軍坦克,并記錄了它們的生產(chǎn)編號[1].統(tǒng)計(jì)學(xué)家將繳獲的德軍坦克編號作為樣本觀測數(shù)據(jù),用樣本估計(jì)總體的方法推斷總的坦克數(shù)量.生活中還有類似的問題:
問題1某大學(xué)美術(shù)系平面設(shè)計(jì)專業(yè)的報(bào)考人數(shù)連創(chuàng)新高,今年報(bào)名剛結(jié)束,某考生想知道報(bào)考人數(shù).考生的考號按0001,0002,…的順序從小到大依次排列.這位考生隨機(jī)地了解了50個(gè)考生的考號.請給出一種方法,根據(jù)這50個(gè)隨機(jī)抽取的考號,幫助這位考生估計(jì)考生總數(shù).[1]
問題2某個(gè)袋子里有N個(gè)小球,標(biāo)號按1,2,3,…的順序從小到大排列.將袋內(nèi)的小球充分?jǐn)嚢韬?,隨機(jī)不放回地抽取了10個(gè)小球,記下編號.請給出一種方法,根據(jù)這10個(gè)編號,估計(jì)袋子內(nèi)小球的總數(shù).
這是一個(gè)比較好的統(tǒng)計(jì)案例,可以啟發(fā)學(xué)生思考,同時(shí)可以幫助學(xué)生理解統(tǒng)計(jì)解決實(shí)際問題時(shí),更加關(guān)注統(tǒng)計(jì)方法優(yōu)劣,而不是對錯(cuò).
這類問題的特征為假設(shè)事先個(gè)體已經(jīng)按自然數(shù)編號,通過不放回抽樣得到的樣本估計(jì)總體總數(shù)的問題,即:在1,2,3,…,N個(gè)自然數(shù)中不放回地隨機(jī)抽取n個(gè)數(shù),將抽取的樣本從小到大排序后記為x(1),x(2),...,x(n),且滿足n≤x(n)≤N.在實(shí)際問題中,我們不知道N是多少,要估計(jì)N的值.
在教學(xué)中可以啟發(fā)學(xué)生思考解決這個(gè)問題的方法,討論每種方法的合理性,對不同方法進(jìn)行比較.下面給出幾種估計(jì)方法,每種方法都有其合理性,不能說哪種方法是錯(cuò)誤的,但可以用統(tǒng)計(jì)理論從某個(gè)角度,或者在某個(gè)準(zhǔn)則下對它們進(jìn)行比較.
方法一:用樣本的最大值估計(jì)總體的最大值的思想
方法二:用樣本中位數(shù)估計(jì)總體中位數(shù)的思想
方法三:用樣本平均數(shù)估計(jì)總體平均數(shù)的思想
我們知道,中位數(shù)對樣本數(shù)據(jù)的信息利用率較低,僅用到中間的一個(gè)數(shù)據(jù)或兩個(gè)數(shù)據(jù),有的學(xué)生會(huì)考慮用樣本的平均數(shù)估計(jì)總體平均數(shù)的思想,來估計(jì)N.即
方法四:分析區(qū)間長度的方法
樣本將這N個(gè)數(shù)據(jù)分為幾段,端點(diǎn)選取不同,可以得到不同的估計(jì)值.
區(qū)間長度法1:
區(qū)間長度法2:
區(qū)間長度法3:
由區(qū)間長度法的思想得到的三個(gè)估計(jì)值相差不超過1,這樣的差距在實(shí)際問題中是可以忽略的.比如在估計(jì)考生人數(shù)的問題中,估計(jì)的總數(shù)相差1并不會(huì)影響決策,這也體現(xiàn)了統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別.這三個(gè)估計(jì)方法都是可以應(yīng)用的,盡管它們得到的估計(jì)值不盡相同,但不能說明哪個(gè)結(jié)果是錯(cuò)誤.
根據(jù)不同的估計(jì)思想,我們得到了六個(gè)估計(jì)量,這些估計(jì)量哪個(gè)更好?評價(jià)估計(jì)量的好壞常用的標(biāo)準(zhǔn)有無偏性和均方誤差.估計(jì)量是一個(gè)統(tǒng)計(jì)量,也是一個(gè)隨機(jī)變量,隨著樣本的改變而改變.如果一個(gè)估計(jì)量的均值等于要估計(jì)參數(shù)的真值,就稱該估計(jì)量具有無偏性,其含義是如果多次抽樣,并且每次樣本量相同,那么得到的多個(gè)估計(jì)值在參數(shù)真值左右,其平均值與參數(shù)真值接近.接下來,我們從理論的角度推導(dǎo)x(n)的均值,從而討論上面的哪個(gè)估計(jì)量是無偏估計(jì).
從1到N中不放回隨機(jī)抽取n個(gè)數(shù),其中最大的數(shù)記為x(n),則x(n)的分布列為:
x(n)nn+1n+2…N-1NP1CnNCn-1nCnNCn-1n+1CnN…Cn-1N-2CnNCn-1N-1CnN
由此,可以計(jì)算第1個(gè)估計(jì)量和后三個(gè)估計(jì)量的均值,結(jié)果如下:
另外兩個(gè)估計(jì)量的均值計(jì)算很難,后面僅給出模擬的結(jié)果.
注意:(1)我們不能用一次抽樣的樣本得到的估計(jì)值評價(jià)估計(jì)量的好壞.(2)估計(jì)量是隨機(jī)變量,而估計(jì)值是估計(jì)量的一次觀測值,是一個(gè)具體數(shù)據(jù).
在模擬試驗(yàn)中,取N=100,n=10,m=1000,即從1,2,…,100中不放回隨機(jī)抽取10個(gè)數(shù),這樣的模擬試驗(yàn)重復(fù)1000次.
計(jì)算機(jī)模擬步驟如下:
①在1, 2,…,N這N個(gè)自然數(shù)中不放回抽取n個(gè)數(shù)據(jù),組成一個(gè)樣本;
②將樣本中的n個(gè)數(shù)據(jù)從小到大進(jìn)行排列,記為x(1),x(2),…,x(n);
③分別計(jì)算六個(gè)估計(jì)量的值;
④多次重復(fù)步驟①—③.
在下圖中,前六個(gè)圖形為散點(diǎn)圖,橫坐標(biāo)為觀測序號,縱坐標(biāo)分別為六個(gè)估計(jì)量在1000次獨(dú)立重復(fù)試驗(yàn)中的觀測值.
六個(gè)估計(jì)量的散點(diǎn)圖和頻率分布直方圖
六個(gè)估計(jì)量的平均偏差和均方誤差如下表:
六個(gè)估計(jì)量的平均偏差和均方誤差
通過對高中教師進(jìn)行問卷調(diào)查,了解到高中教師對統(tǒng)計(jì)知識儲備不足[3].本文希望借助經(jīng)典的德國坦克估計(jì)問題的背景,介紹一個(gè)實(shí)際的估計(jì)問題,通過在探索多種估計(jì)方法的過程中讓讀者感受統(tǒng)計(jì)解決實(shí)際問題的魅力,理解統(tǒng)計(jì)解決實(shí)際問題時(shí),更加關(guān)注哪種統(tǒng)計(jì)方法好,而不是對錯(cuò),體會(huì)統(tǒng)計(jì)與數(shù)學(xué)的區(qū)別,并了解可以從理論和模擬兩個(gè)角度比較估計(jì)方法的好壞.