北京大學附屬中學(100086)單治超
統(tǒng)計學是對數(shù)據(jù)進行收集、整理、展示、分析和解釋,以幫助人們更有效地進行決策的科學.隨著現(xiàn)代科學技術特別是計算機科學、人工智能的迅猛發(fā)展,人們獲取數(shù)據(jù)和處理數(shù)據(jù)的能力都得到很大的提升.統(tǒng)計學在近幾十年里得到突飛猛進的發(fā)展,越來越多成熟的統(tǒng)計方法和技術應運而生.
中學數(shù)學課程和大學數(shù)學課程當中都有統(tǒng)計部分的內(nèi)容,但風格卻不盡相同.中學的統(tǒng)計側重于講授方法,背后的原理提得不多,方法的合理性常通過直觀加以把握.而大學的統(tǒng)計則側重于概念和證明,嚴謹性更高,但對于方法的直觀性介紹得相對較少.事實上,要想學好統(tǒng)計學,直觀性和嚴謹性都非常重要,二者不可偏廢.
本文介紹中學統(tǒng)計方法背后的數(shù)學原理,希望實現(xiàn)中學統(tǒng)計和大學統(tǒng)計的銜接,對一線教師的教學起到一定幫助.
總體與樣本無疑是統(tǒng)計學中最基本的概念.
中學教材中寫道:“所考察問題涉及的對象全體是總體,總體中每個對象都是個體,抽取的部分對象組成總體的一個樣本”.“簡單隨機抽樣就是從總體中不加任何分組、劃類、排隊等,完全隨機地抽取個體”.
大學教材[1]中寫道:“總體就是一個概率分布”.“按照總體的分布獨立地選取若干個體得到的樣本稱為簡單隨機樣本”.
中學教材里的總體是一個有限集(允許重復元素存在),大學教材里的總體是一個概率分布.二者表面上不同.但是有限集可以看成是有限個元素上的概率分布,每個元素的概率就是該元素所占的比例.
當然,大學教材里總體的概念更富一般性,概率分布未必是有限個元素上的概率分布,更多的情形下概率分布是某連續(xù)型隨機變量的概率分布.但是對于中學教材里的總體概念,當總體中個體很多時,相應的有限個元素上的概率分布可以與連續(xù)型隨機變量的分布非常接近.此時我們可以近似認為總體服從該連續(xù)型隨機變量的概率分布.
此外還有一點需要注意:中學教材里的簡單隨機抽樣多指無放回抽樣,此時先后抽取樣本,彼此是不獨立的.但是當總體中個體很多時,我們可以認為先后抽取的樣本是近似獨立的.于是中學教材里的簡單隨機抽樣與大學教材里的簡單隨機抽樣含義也大致相同.
我們再從大學統(tǒng)計的角度理解分層抽樣的概念.所謂“總體可以分成有明顯差別的、互不重疊的幾部分”可以這樣理解(不妨以分兩層為例):兩層分別服從概率分布F1和F2,兩層所占的比例分別是p和1?p,那么總體的分布F就滿足F(x)=pF1(x)+(1?p)F2(x).按照分層抽樣抽取n個樣本,就相當于按照概率分布F1獨立抽取np(不妨設為整數(shù))個樣本,再按照概率分布F2獨立抽取n(1?p)個樣本.
中學教材里提出分層抽樣比簡單隨機抽樣更合理,但是并沒有提出支撐性的理論依據(jù).本文后續(xù)會在某一方面給出分層抽樣合理性的理論依據(jù).
教材提到:很多時候處理數(shù)據(jù)時會去掉一個最小值和一個最大值,其合理性從直觀上予以把握.事實上,從理論角度我們有如下的結論:
性質(zhì)1一組數(shù)據(jù)(不少于3 個)去掉一個最小值和一個最大值之后,方差一定變小或不變.
證明不妨設x1≤x2≤...≤xn且平均數(shù)是0,不妨設|x1|≥xn,這組數(shù)據(jù)的方差是
去掉一個最小值和一個最大值之后,方差一定小于等于
于是只需證明
當n是偶數(shù)時,
當n是奇數(shù)時,
從證明過程中不難發(fā)現(xiàn),當且僅當n是偶數(shù),且一半數(shù)據(jù)相等,另一半數(shù)據(jù)也相等時,去掉一個最小值和一個最大值之后方差不變.
先看總體平均數(shù)的估計.
中學教材里說:“大數(shù)定律可以保證,當樣本的容量越來越大時,估計的誤差很小的可能性將越來越大”.
這句話是不準確的,讓我來舉一個反例:
例如總體中只有四個數(shù)據(jù)?2,?1,1,2,其平均數(shù)是0.從中隨機抽取兩個樣本,平均數(shù)的絕對值小于的概率是;但從中隨機抽取三個樣本,平均數(shù)的絕對值小于的概率是0.教材中所說的單調(diào)性并不成立.
準確的表述應為大學里所學的大數(shù)定律:如果總體服從期望μ有限的概率分布,那么對于任意ε >0,.
中學范圍內(nèi)要求總體個數(shù)有限,樣本容量并不能任意大,僅僅知道極限行為是不夠的,我們還需要定量的估計.這時需要用到中心極限定理:設總體的方差σ2<∞,那么近似服從正態(tài)分布N(0,σ2),其中的“近似”是有明確的定量估計的.
下面從理論上證明分層抽樣的優(yōu)勢:
“總體可以分成有明顯差別的、互不重疊的幾部分”可以這樣理解(不妨以分兩層為例):兩層分別服從概率分布F1和F2,兩層所占的比例分別是p和1?p,那么總體的分布F就滿足F(x)=pF1(x)+(1?p)F2(x).
設F1的期望和方差是μ1和的期望和方差是μ2和那么F的期望是μ=pμ1+(1?p)μ2,方差是如果按照簡單隨機抽樣抽取n個樣本,那么近似服從正態(tài)分布N(0,σ2).
可是如果我們采取分層抽樣:按照概率分布F1獨立抽取np(不妨設為整數(shù))個樣本,再按照概率分布F2獨立抽取n(1?p)個樣本.此時設樣本平均數(shù)為,那么同樣根據(jù)中心極限定理,近似服從N(0,σ′2),其中只要μ1?=μ2,就有σ′2<σ2,所以比收斂到μ的速度更快,因此在樣本容量相同的條件下,分層抽樣得到的樣本用來估計總體的平均數(shù)就更為準確.
但是值得注意的是:采取分層抽樣必須按照各層的比例來抽樣,如果比例出錯,那么相當于上面的p變成了p′,此時Y近似于μ′=p′μ1+(1?p′)μ2而不是μ.
教材上舉了一個例子:1936年美國總統(tǒng)選舉前,一家很有名的雜志社通過電話簿和各種俱樂部信息等抽取了約240萬人,調(diào)查他們的選舉意向.根據(jù)調(diào)查數(shù)據(jù),羅斯福的預測得票率只有43%,可是最終羅斯福的實際得票率是62%.
事實上,在1936年的美國,一般只有富人才擁有電話、能參加俱樂部,因此這家雜志社通過電話簿和各種俱樂部信息所做的采樣,相當于是一種比例不正確的分層抽樣.因此得到錯誤的結論就在所難免.
文獻[2]中舉了一個類似的例子:專欄作者安·蘭德斯問她的讀者,如果可以重新來過,是否還會生孩子?回答的人中有70%堅定地說“不要”.事實上她邀請讀者回答這個問題時,回應最熱烈的恰恰是那些后悔生孩子的父母.
值得一提的是,雖然用樣本的數(shù)字特征可以估計總體的數(shù)字特征,但是對估計值不可濫用,否則可能會起到誤導的作用.
文獻[2]中舉了這樣的例子:
一項從2003年7 月到2004年2 月進行的蓋洛普民意調(diào)查提出問題:“你支持還是反對憲法修正案規(guī)定只有男女才能結婚,而不允許男同性戀和女同性戀者建立婚姻關系?”該項調(diào)查隨機抽取了2527 個樣本,發(fā)現(xiàn)“支持該憲法修正案的人的比例為51%”.我們是否由此可以推斷:多數(shù)人支持該憲法修正案?
事實上,設總體中支持該修正案的人的比例為p,那么抽取的樣本中支持該修正案的人的比例近似服從正態(tài)分布,根據(jù)樣本中支持該修正案的人的比例為51%,可以有95%的把握認為p在49%和53%之間,而“p >50%”的把握其實并非很高.大學數(shù)理統(tǒng)計里講區(qū)間估計,講置信度,正是因為點估計可能造成這樣的誤導作用.
用樣本的分布可以估計總體的分布,其理論依據(jù)在于:
設總體服從概率分布F,設它是一個連續(xù)型隨機變量,且密度函數(shù)僅在有限個點不連續(xù),那么抽取n個簡單隨機樣本繪出頻率分布直方圖,當組距(是n的函數(shù))隨著n趨于無窮大而趨于0 時,其上邊界會趨近于概率密度曲線.
事實上,設a是概率密度函數(shù)的一個連續(xù)點,設取n個簡單隨機樣本時,a所處的區(qū)間是In,那么相應的頻率分布直方圖中a對應的點的高度等于它近似等于當n趨于無窮大時,它趨于概率密度p(a).
學生在學習頻率分布直方圖時,常常提問頻率為什么要除以組距.在固定分組的情況下把頻率除以組距相當于做了個伸縮變換,確實看不出其意義.但是按照上文的解釋,樣本容量充分大,組距充分小時,頻率分布直方圖與概率密度曲線充分接近,那么除以組距就非常有必要.
教材指出:一元線性回歸模型是否合理要看樣本相關系數(shù)的大小.以r表示樣本相關系數(shù),則有
|r|越小,說明兩個變量之間的線性相關性越弱,也就是得出的回歸直線方程越?jīng)]有價值,即方程越不能反映真實的情況;|r|越大,說明兩個變量之間的線性相關性越強,也就是得出的回歸直線方程越有價值.
教材上只是給出了這條結論,沒有給出解釋.學生在學習過程中經(jīng)常忘記:|r|大時,線性相關性到底強還是弱?
由柯西不等式:
當且僅當存在b,對任意時取等號,這又等價于存在a,b,對任意i,yi=a+bxi.
因此|r|=1,當且僅當y就是x的線性函數(shù).
值得注意的是:樣本相關系數(shù)僅僅是檢驗一元線性回歸模型是否合理的標準之一.使用一元線性回歸模型首先要考慮實際意義.
考慮導彈高度隨時間變化的軌跡.根據(jù)物理學關于斜上拋運動的知識,導彈的運行軌跡應該近似是一條拋物線.可是由于導彈的初速很大,所以最開始導彈的運行軌跡會非常接近直線,用線性回歸的擬合效果會非常好.但是如果我們相信回歸直線能夠擬合導彈運行的完整軌跡,那么我們將會得到結論:導彈永遠不會落地!
顯著性水平是統(tǒng)計學中非常重要的概念.中學教材在講授獨立性檢驗時引入了這個概念.我們把中學教材上的表述摘錄如下:
任意給定一個α(稱為顯著性水平,通常取為0.05,0.01等),可以找到滿足條件P(χ2≥k)=α的數(shù)k(稱為顯著性水平α對應的分位數(shù)).如果根據(jù)樣本數(shù)據(jù)算出χ2的值后,發(fā)現(xiàn)χ2≥k成立,就稱在犯錯誤的概率不超過α的前提下,可以認為A與B不獨立(也稱為A與B有關),或者說,有1?α的把握認為A與B有關.若χ2 值得注意的,我們的結論是“在犯錯誤的概率不超過α的前提下,可以認為A與B不獨立”,而不是說“A與B不獨立”.事實上,如果我們反復做獨立性檢驗很多次,即使每個接受檢驗的對象中A與B都是獨立的,仍然以相當大的概率存在若干個接受檢驗的對象χ2≥k.然后我們認為這幾個接受檢驗的對象中A與B不獨立,就會得到很荒謬的結論. 文獻[3]中舉了一個具體的例子:10 萬種基因中,大約有10 種真的會對精神分裂癥產(chǎn)生影響.但其余的99990 種基因,也會有或者說大約5000 種基因會通過顯著性檢驗.當人們歡呼“天啊,我發(fā)現(xiàn)了精神分裂癥基因”時,虛假結果是真實結果的500 倍. 這種做獨立性檢驗的方法可以形象地被比喻為“對數(shù)據(jù)進行嚴刑拷打,直到它們招供才罷手”.在上面的例子中,99990 個無辜的基因中就有大約5000 種被“屈打成招”. 綜上所述,中學階段介紹的很多統(tǒng)計方法,在直觀上容易被人接受,但是如果經(jīng)過仔細推敲,背后的數(shù)學原理并不簡單.在統(tǒng)計學的學習過程中,應該把每個方法在直觀上的合理性和數(shù)學原理上的合理性都想清楚,才能真正理解這種統(tǒng)計方法,進而在實際場合有效地加以運用,避免得到荒謬的結論.8 小結