李 勇
(北京師范大學(xué)統(tǒng)計學(xué)院 100875)
數(shù)學(xué)抽象是數(shù)學(xué)的核心素養(yǎng)之一,其內(nèi)涵是用已經(jīng)掌握的數(shù)學(xué)知識描述問題情景本質(zhì),為解決問題奠定基礎(chǔ).應(yīng)將數(shù)學(xué)抽象融入新知識的教學(xué)過程中,以熏陶學(xué)生的數(shù)學(xué)抽象能力.本文在高中知識背景限制下,探討統(tǒng)計學(xué)中的總體、個體以及相關(guān)概念的最佳呈現(xiàn)方式.
總體和個體是統(tǒng)計學(xué)中最基本的兩個概念,它們是應(yīng)普查或抽樣調(diào)查的需求而產(chǎn)生[1,2,3].普查的目的是了解所關(guān)心對象的某些特征指標(biāo)情況,我們將這些對象全體稱為基于普查的總體(簡稱為總體),總體中的對象稱為基于普查的個體(簡稱為個體),對象(個體)的特征指標(biāo)稱為變量.總體規(guī)定了普查或抽樣調(diào)查的范圍,個體規(guī)定了調(diào)查對象,而變量(其取值隨著個體的變化而變化)的變化規(guī)律與特點(diǎn)是人們感興趣的問題.
例如,當(dāng)關(guān)心北京市高中生(2018年2月1日在冊)的情況時,總體就為當(dāng)時在冊的高中生全體,個體為總體中的學(xué)生,而學(xué)生的身高、體重、性別、年齡、年級、所在學(xué)校、所在班級、數(shù)學(xué)和語文期末考試成績等都是變量.
習(xí)慣上,人們用大寫希臘字母Ω表示總體,小寫希臘字母ω表示個體,大寫英文字母(例如X,Y等)表示變量.特別當(dāng)變量用X表達(dá)時,X(ω)就代表個體ω所對應(yīng)的變量值.這樣,在前面提到的北京市高中生案例中,當(dāng)時一位在冊的北京市高中生就可以表示為ω,而總體可以表示為
Ω={ω|ω為2018年2月1日在冊的北京市高中生}
(1)
如果用H、W和X分別表示學(xué)生的身高、體重和性別變量,則H(ω)、W(ω)和X(ω)就分別表示ω同學(xué)的身高、體重和性別.
需要注意,能夠普查的總體一定為有限總體,即總體所包含的個體的數(shù)目為正整數(shù).一般地,我們要求總體中的個體互不相同,即個體之間是可區(qū)分的,以使得普查可以進(jìn)行.另外,普查者事先應(yīng)該知道總體的構(gòu)成,即了解總體中的所有個體都是什么;普查者不知道的是每一個體所對應(yīng)的變量值是什么,普查的任務(wù)之一就是獲取每一個體的變量值,為進(jìn)一步的統(tǒng)計分析奠定基礎(chǔ).
變量的概念與高中生已經(jīng)學(xué)習(xí)過的函數(shù)的概念類似:函數(shù)是從實數(shù)到實數(shù)之間的一種對應(yīng)關(guān)系,即給定一個實數(shù),都有唯一的函數(shù)值與這個實數(shù)對應(yīng);變量是個體與變量值之間的一種對應(yīng)關(guān)系,即給定一個個體,都有唯一的變量值與這個個體對應(yīng).
在前面北京市高中生案例中,總體中的任何兩個個體都是不同的高中生,我們在普查之前就已經(jīng)知道所有當(dāng)時在冊的高中生都有哪些,不知道的是各個高中生的變量取值情況(如果知道了這些情況,就沒有必要進(jìn)行普查或者抽樣調(diào)查了),如不知道各個個體的身高,或者體重,或者性別.另外,變量的值可以是文字,如性別變量X的取值可以分別是“男”或“女”.
對于定義在有限總體上的變量Z,人們最為關(guān)心兩個問題:其一是該變量的值域,即各個體所對應(yīng)的變量值全體;其二是比例,即變量值在特定范圍內(nèi)的個體的數(shù)與總體中的個體數(shù)之比.如在前面北京市高中生案例中:對于數(shù)學(xué)成績變量Y,其值域為
ΩY={y|y為總體中某同學(xué)的數(shù)學(xué)期末考試成績}
(2)
而成績低于60分的學(xué)生比例和成績大于或等于90分的學(xué)生的比例等都是成績變量比例問題;對于性別變量X,其值域為
ΩX={男,女}
而總體中男生的比例和女生的比例都是性別變量的比例問題.
對于有限總體,可以證明任何變量的其它特征,都可以通過變量的值域和相應(yīng)的比例來計算.如在前面北京市高中生案例中,所有個體的平均身高可以表達(dá)為
其中ΩH為身高變量的值域,hk為值域中的第k個值,而pk則是總體中身高為hk的那些個體在總體中的比例.
需要強(qiáng)調(diào)的是:在本小段中所述的總體、個體、變量、變量的值域和比例等概念,不涉及任何概率和隨機(jī)變量的知識,這些概念的產(chǎn)生背景為普查或抽樣調(diào)查,特別適合在學(xué)習(xí)抽樣方法時使用.
另外,這里的個體成為變量的載體,通過這個載體我們可以研究多個變量之間的關(guān)系,擴(kuò)大研究視野.在前面提到的北京市高中生案例中,假設(shè)我們關(guān)心的是數(shù)學(xué)期末考試成績,就容易通過變量的載體——個體(即學(xué)生)聯(lián)想到是否有其它的變量能夠幫助研究數(shù)學(xué)成績的變化規(guī)律與特點(diǎn),如學(xué)生所在學(xué)校變量、學(xué)生的性別變量和學(xué)生的身高變量等對于數(shù)學(xué)成績是否有影響,進(jìn)而更好地認(rèn)識學(xué)生數(shù)學(xué)成績的規(guī)律與特點(diǎn).
在前面北京市高中生案例中,如果我們關(guān)心的是數(shù)學(xué)成績,當(dāng)然可以把高中生的數(shù)學(xué)期末考試成績Y作為觀察對象.在此觀點(diǎn)之下個體就是學(xué)生的數(shù)學(xué)成績,總體就是這些數(shù)學(xué)成績?nèi)w,即(2)中的值域ΩY,問題是這種觀點(diǎn)是否適用于普查或者是抽樣調(diào)查?下面討論這個問題.
如果數(shù)學(xué)成績采用百分制,則ΩY中的個體的數(shù)目至多為101,無法刻畫當(dāng)時北京所有在冊高中生,因此無法通過ΩY進(jìn)行普查;為解決普查問題,當(dāng)然可以用yi表示當(dāng)時北京市第i位在冊高中生的數(shù)學(xué)期末考試成績,進(jìn)而可以將總體表示為
Ω2={y1,y2,…,yN}
(3)
其中N為當(dāng)時北京市在冊高中生總數(shù).問題是N遠(yuǎn)遠(yuǎn)大于101,因此Ω2中的元素不是互異的,進(jìn)而(在不知道所有的yi的情況下)就無法借助于Ω2完成普查任務(wù),或者(在知道所有的yi的情況下)沒有必要進(jìn)行普查.
綜上所述,在介紹普查或抽樣知識時,通常不能把調(diào)查對象的特征指標(biāo)值作為個體,也不能將所有的調(diào)查對象的特征指標(biāo)值作為總體.
當(dāng)然,在學(xué)生們掌握隨機(jī)變量相關(guān)知識后,可以將前述總體和個體的概念用隨機(jī)變量的分布和取值來等價刻畫,以方便隨機(jī)樣本性質(zhì)的研究.下面還是以北京市高中生案例中的數(shù)學(xué)期末考試成績?yōu)閱栴}背景,展示這種刻畫方法.
如果將(1)中總體Ω看成是古典概型中的基本事件全體,并且認(rèn)為各個基本事件的出現(xiàn)的可能性相同,那么當(dāng)時北京市高中生數(shù)學(xué)期末考試成績Y就成為定義在Ω上的隨機(jī)變量,其中第i位同學(xué)ωi所對應(yīng)的隨機(jī)變量值為Y(ωi).根據(jù)古典概率的計算公式,可以求得離散型隨機(jī)變量Y的分布列為
表1 數(shù)學(xué)期末考試成績分布列
其中pi為期末數(shù)學(xué)考試成績?yōu)閕分的學(xué)生數(shù)與總體中學(xué)生總數(shù)N之比.
反之,用Y的分布列和N可以刻畫基于普查的總體和個體.事實上,記ki=pi×N,則基于普查的總體和個體構(gòu)成如下:有k0名學(xué)生的成績?yōu)?分,分別記這些學(xué)生為ω1,ω2,…,ωk0;有k1名學(xué)生的成績?yōu)?分,分別記這些學(xué)生為ωk0+1,ωk0+2,…,ωk0+k1;有k2名學(xué)生的成績?yōu)?分,分別記這些學(xué)生為ωk0+k1+1,ωk0+k1+2,…,ωk0+k1+k2;……;有k100名學(xué)生的分?jǐn)?shù)為100分,分別記這些學(xué)生為ωN-k100+1,ωN-k100+2,…,ωN.這樣{ω1,ω2,…,ωN}就是(1)中的基于普查的總體Ω,相應(yīng)的各個個體為ωk,其中1≤k≤N.因此由N和隨機(jī)變量Y的分布列可以恢復(fù)基于普查的總體Ω和個體.
基于隨機(jī)變量的知識,可以將所關(guān)心的總體變量抽象為隨機(jī)變量,將變量的值域抽象為基于隨機(jī)變量的總體(也簡稱為總體),將值域中的值抽象為基于隨機(jī)變量個體(也簡稱為個體),將隨機(jī)變量的分布抽象為總體分布.這樣抽象的好處是:可將任何總體(無論總體中的個體數(shù)目是有限還是無限)上的變量都納入到隨機(jī)變量的框架之下,從而可以方便地利用概率理論研究隨機(jī)樣本估計總體問題.
現(xiàn)在,總體和個體概念有兩種不同的定義方式,一種是基于普查的定義,另一種是基于隨機(jī)變量的定義,兩者適用的情景有一定差異:基于普查的總體和個體的概念,可用于所有統(tǒng)計問題的研究;基于隨機(jī)變量的總體和個體的概念,則不能用于普查和抽樣方法的研究,只能用于隨機(jī)樣本的性質(zhì)的研究.
另外,在研究某一總體變量的變化規(guī)律時,在基于普查概念的框架之下,能夠通過變量的載體——個體為橋梁,探討其它變量對于所關(guān)心變量的影響,進(jìn)而能更加深刻地認(rèn)識該變量的變化規(guī)律.例如,在前面北京市高中生案例中,如果關(guān)心的變量是數(shù)學(xué)期末考試成績,則通過總體(1)中的個體ω,我們會聯(lián)想到學(xué)生ω所在的學(xué)校對于他的成績是否有影響問題,ω的性別對于他的成績是否有影響問題,ω所在的年級對于他的成績是否有影響問題,等等.考慮了學(xué)校、性別和年級的影響,使得我們能夠更加深刻地認(rèn)識數(shù)學(xué)成績變化規(guī)律;而通過基于隨機(jī)變量的總體(2)中的個體y,就無法確定值y所對應(yīng)的學(xué)校變量、性別變量和年級變量的取值是什么,因而也就無法考慮這些變量對于成績的影響.
統(tǒng)計學(xué)中的總體和個體概念有兩種不同的定義方式,一種是基于普查的定義,另一種是基于隨機(jī)變量的定義,在教學(xué)過程中要特別注意兩種定義的應(yīng)用場合,以免影響學(xué)生對于這兩個概念的理解.
在介紹普查和抽樣知識時,只能從基于普查的總體和個體的概念出發(fā),而不能從基于隨機(jī)變量的總體和個體的概念出發(fā);在探討不同變量之間的關(guān)系時,需要用基于普查的個體概念作為橋梁將不同的變量聯(lián)系起來.
將基于普查的個體看成是古典概型中的基本事件,變量就成為隨機(jī)變量,這是連接基于普查的總體和基于隨機(jī)變量的總體兩個概念的橋梁.在研究隨機(jī)樣本的統(tǒng)計性質(zhì)時,從基于隨機(jī)變量的總體和個體出發(fā),能夠直接利用概率論知識進(jìn)行研究,效率更高,這也是在數(shù)理統(tǒng)計中人們喜歡將基于隨機(jī)變量的總體和個體簡稱為總體和個體的原因.
在高中數(shù)學(xué)教學(xué)過程中,統(tǒng)計學(xué)的總體和個體的概念出現(xiàn)在普查和抽樣的知識結(jié)構(gòu)中,位于隨機(jī)變量知識的教學(xué)過程之前,應(yīng)該采用基于普查的總體、個體和變量的概念,避免此涉及基于隨機(jī)變量的總體和個體的概念,以幫助學(xué)生正確理解總體和個體的概念.