田載今
統(tǒng)計(jì)學(xué)是處理信息的科學(xué),各種各樣的信息大多可以用數(shù)字形式來描述,這些數(shù)字在統(tǒng)計(jì)學(xué)中被稱為數(shù)據(jù),統(tǒng)計(jì)過程包括對(duì)數(shù)據(jù)的收集、整理、描述、分析等環(huán)節(jié).不論是研究已經(jīng)發(fā)生的事件,還是推斷未來將要發(fā)生的事件,統(tǒng)計(jì)工作都越來越顯示出重要的作用,由于信息科學(xué)的迅猛發(fā)展,大數(shù)據(jù)(印海量的、多樣的、高增長率的數(shù)據(jù))的處理已經(jīng)成為現(xiàn)代生活中要解決的問題.
人教版初中數(shù)學(xué)教科書的第十章“數(shù)據(jù)的收集、整理與描述”包含以下內(nèi)容:
(1)以抽樣調(diào)查為重點(diǎn),介紹收集、整理數(shù)據(jù);
(2)以直方圖為重點(diǎn),介紹描述數(shù)據(jù);
(3)結(jié)合實(shí)例展示統(tǒng)計(jì)調(diào)查的基本過程,
下面以一個(gè)具體問題為例,介紹這一章的重點(diǎn)知識(shí),希望能幫助同學(xué)們理解相關(guān)內(nèi)容.
問題:某工廠大批量生產(chǎn)了某種型號(hào)的顯示器.作為衡量質(zhì)量好壞的一項(xiàng)重要指標(biāo),這批顯示器的平均使用壽命是廠家應(yīng)該提供的,那么這批顯示器的平均使用壽命是如何得到的呢?
一、抽樣調(diào)查,收集數(shù)據(jù)
這批顯示器的平均使用壽命,應(yīng)是所有顯示器的使用壽命之和除以顯示器總數(shù)所得的商.但是,把每一臺(tái)顯示器都用到壞掉為止再得出結(jié)論顯然是不合常理的.實(shí)際上,廠家的做法通常是:采取某種方式從這批顯示器中隨機(jī)抽取若干臺(tái)進(jìn)行試驗(yàn),分別測(cè)出它們的使用壽命,然后用它們的平均使用壽命估計(jì)這批顯示器的平均使用壽命,
統(tǒng)計(jì)學(xué)中通常把要考察的全體對(duì)象叫作總體,總體中的每個(gè)成員叫作個(gè)體.在上述問題中,每一臺(tái)顯示器(具體來說是每一臺(tái)顯示器的使用壽命)是個(gè)體,對(duì)每個(gè)個(gè)體都收集數(shù)據(jù)的調(diào)查方法,叫作全面調(diào)查,廠家所用的調(diào)查方法顯然不可能是全面調(diào)查,而是從總體中抽取一部分個(gè)體,這種方法叫作抽樣調(diào)查,所抽取的那些個(gè)體合起來叫作總體的一個(gè)樣本.
如果總體范圍太大或試驗(yàn)具有破壞性,則全面調(diào)查不可行,可采用抽樣調(diào)查的方法,為使樣本的數(shù)據(jù)能較為真實(shí)地反映總體狀況,選取樣本時(shí)應(yīng)注意隨機(jī)性,即保證每個(gè)個(gè)體都有平等的機(jī)會(huì)被抽取到樣本中,這可以減少片面性,提高調(diào)查的可信度,降低出現(xiàn)偏差的可能性,此外,還應(yīng)使樣本容量(即樣本中個(gè)體的數(shù)量)大小合適.樣本容量太小反映不出實(shí)際情況,樣本容量太大就會(huì)造成浪費(fèi).
在上述問題中,如果顯示器共有l(wèi) 500臺(tái),則可從中抽取30臺(tái)(總數(shù)的2%)作為樣本,其中30就是樣本容量,假設(shè)測(cè)得這30臺(tái)顯示器的使用壽命(單位:萬小時(shí))分別如下:2.51、2.60、2.00、2.25.3.02、2.94、2.97、3.38、3.36、2.44、2.35、2.45、2.91、3.10、3.12、2.36、3.37、3.42、3.58、2.42、2.74、2.65、2.19、2.65、2.86、2.90、2.73、2.65、2.94、3.14.
這些是抽樣調(diào)查得出的原始數(shù)據(jù),由此可計(jì)算出樣本的平均值為2.80(單位:萬小時(shí)).
二整理與描述數(shù)據(jù)
收集到原始數(shù)據(jù)后,通常要對(duì)其加以整理,進(jìn)一步發(fā)現(xiàn)其中含有的更多信息.以前面所給數(shù)據(jù)為例,其中最小值為2.00,最大值為3.58,可將數(shù)據(jù)分為8組,落在各組中的數(shù)據(jù)的個(gè)數(shù)叫作各組的頻數(shù),于是有如表1所示的頻數(shù)分布表(每組均只含最小值而不含最大值).
由頻數(shù)分布表已能看出分布在各組中的數(shù)據(jù)分別有多少個(gè).為了更直觀地描述數(shù)據(jù)的分布規(guī)律,可以使用一種常用的統(tǒng)計(jì)圖——頻數(shù)分布直方圖,圖1就是描述前面所給數(shù)據(jù)的頻數(shù)分布直方圖.
頻數(shù)分布直方圖的橫軸表示數(shù)據(jù)的取值,每個(gè)小組對(duì)應(yīng)一個(gè)小長方形.各個(gè)小長方形的下底的兩個(gè)端點(diǎn)分別對(duì)應(yīng)各組數(shù)據(jù)的最小值和最大值,底的長度是組距,圖1中各個(gè)小組的組距都相等,其值為0.20.頻數(shù)分布直方圖的縱軸表示頻數(shù)與組距的比值,例如圖1中左邊第一個(gè)小長方形對(duì)應(yīng)第一組數(shù)據(jù),其取值范圍為2.00-2.20(不含2.20),組距為0.20,頻數(shù)為2,高為
頻數(shù)分布直方圖中各個(gè)小長方形的面積=底×高=組距×頻數(shù)/組距=頻數(shù).因此,各組數(shù)據(jù)的頻數(shù)是由各個(gè)小長方形的面積來表示的,如果各組數(shù)據(jù)的組距相同,則各個(gè)小長方形的高之比等于各組數(shù)據(jù)的頻數(shù)之比,此時(shí),可以直接用小長方形的高表示頻數(shù),這樣畫圖和看圖都很方便,
將頻數(shù)分布直方圖中各個(gè)小長方形上底的中點(diǎn)用線段順次連接,所得的折線也能表示數(shù)據(jù)的分布規(guī)律.如圖2,其中的折線像一個(gè)“扣著的鐘”,這顯示出數(shù)據(jù)的分布大致關(guān)于2.80這個(gè)值對(duì)稱,越靠近這個(gè)值,數(shù)據(jù)就越多,越偏離這個(gè)值,數(shù)據(jù)就越少,這反映了隨機(jī)現(xiàn)象中一種常見的叫作正態(tài)分布的規(guī)律.
前面我們將原始數(shù)據(jù)逐一相加再除以30,得到這批顯示器的平均使用壽命為2.80萬小時(shí).利用頻數(shù)分布規(guī)律,還有一種計(jì)算平均使用壽命的方法:用各組數(shù)據(jù)的中間值(即各個(gè)小長方形下底的中點(diǎn)對(duì)應(yīng)的數(shù)據(jù))乘頻數(shù),然后相加,再除以30,即(2.lOx2+2.30x3+2.50x4+2.70x6+2.90x6+3.10 x4+3.30x3 +3.50 x2)÷30=2.80.
三,用樣本估計(jì)總體是一種統(tǒng)計(jì)思想
一方面,由于事物的復(fù)雜性和多樣性,一個(gè)總體中的各個(gè)個(gè)體之間可能存在差異,抽樣調(diào)查得到的數(shù)據(jù)只是在一定程度上能反映總體的情況,由樣本數(shù)據(jù)得到的結(jié)論未必十分準(zhǔn)確,例如在上述問題中,由于顯示器是隨機(jī)抽取的,不同的抽取結(jié)果,所得的原始數(shù)據(jù)就可能不同,進(jìn)而得出的樣本平均值也可能不同,樣本的平均值可能與總體的平均值有差距,這就是通常所說的隨機(jī)影響,
另一方面,盡管總體中不同的個(gè)體之間存在差異,但是作為同類事物的個(gè)體又有共性,以部分個(gè)體為代表,“解剖麻雀”“由此及彼”的思考就是有價(jià)值的.用樣本估計(jì)總體是一種重要的統(tǒng)計(jì)思想,雖然估計(jì)的結(jié)果不可能一絲不差,但是它可以為我們認(rèn)識(shí)總體提供重要的參考.例如在上述問題中,樣本的平均值2.80(單位:萬小時(shí))可能與總體的平均值不完全一致,但是通常情況下總體的平均值偏離2.80(單位:萬小時(shí))的范圍不大,所以可以將2.80萬小時(shí)作為這批產(chǎn)品的平均使用壽命的參考值.
綜上所述,我們既要認(rèn)識(shí)收集、處理數(shù)據(jù)時(shí)的隨機(jī)影響,又不能因噎廢食地忽視抽樣調(diào)查的重要性.如何抽取樣本、分析樣本更為合理?確切地說,采用哪種方法能使估計(jì)結(jié)果盡可能地接近實(shí)際情況?這是統(tǒng)計(jì)學(xué)中的一個(gè)重要問題.隨著學(xué)習(xí)的不斷深入,同學(xué)們會(huì)加深對(duì)統(tǒng)計(jì)學(xué)基本思想的認(rèn)識(shí).