吳 婷 普映娟
(保山學院 大數(shù)據(jù)學院,云南 保山 678000)
概率統(tǒng)計課本里的理論知識雖可以為學生提供理論基礎,但卻缺乏圖形表達和模擬來增強理解與動手實踐能力。在教學實踐中,學生普遍認為中心極限理論晦澀難懂,教學效果不理想[1]。傳統(tǒng)的黑板教學無法再滿足學生課堂教學的需求[2]。因此,在概率論教學中,利用R語言的隨機模擬和可視化將抽象概念轉化為具體形象的圖像,實驗模擬的動態(tài)過程不僅可以加深學生對知識的理解,激發(fā)他們的想象力,從而促進反思,最終掌握知識,還可以提高課堂效率,使概率學習更具操作和動手空間,提高學生的實踐能力。
中心極限定理是相互獨立的隨機變量之和用正態(tài)分布近似的一類定理。直到20世紀30年代,中心極限定理的研究曾是概率論的中心內容。至今其仍是一個活躍的方向,推廣的方向如獨立不同分布乃至非獨立的情形,由中心極限定理而引起的誤差的估計,以及與之相關聯(lián)的問題如大偏差問題之類[3]。最為著名的相互獨立同分布情形下的中心極限定理,又稱為列維-林德伯格中心極限定理。列維(1886-1971年)是法國數(shù)學家,對極限理論和隨機過程理論做出杰出的貢獻。林德伯格(1876-1932年)是芬蘭數(shù)學家,因中心極限定理而聞名于世[4]。
定理1(列維-林德伯格中心極限定理)設隨機變量序列X1,X2,…Xn中心相互獨立同分布,若E(Xi)=μ,D(Xi)=σ2,且0<σ2< +∞,i=1,2,…,則對任意實數(shù)x,有
這個定理的直觀意義是,當n足夠大時,可以近似地認為。在實際問題中,若n較大,可以利用正態(tài)分布近似求得概率。
傳統(tǒng)的教學就是列出不同條件下的中心極限定理,簡單說明在樣本量充分大時依分布收斂到正態(tài)分布。而證明過程在大多公共基礎課的教材基本沒有涉及到。即使教材給出了證明,作為公共基礎課的學生也很少對其繁瑣的推導過程感興趣。故在講授這項重要的知識點的時候,除理論說明和推導之外,還可以結合統(tǒng)計軟件R進行教學,讓學生切實體會到中心極限定理的魅力[4]。
本文將利用R軟件生成n(n=1,2,3,4,30)個相互獨立的均勻分布X~U(0,1)之和的模擬數(shù)據(jù),繪制其直方圖和密度函數(shù)圖形。觀察隨著n的增大,n個相互獨立的變量之和是否能用正態(tài)分布近似。本文將通過2種數(shù)據(jù)模擬的思路,來說明中心極限定理。一是進行隨機采樣,然后求和生成新的數(shù)據(jù)列,再查看和數(shù)據(jù)的分布情況;二是通過卷積推導出和變量的密度函數(shù),然后分別繪制密度函數(shù)線,查看分布情況。設{}Xi為獨立同分布的隨機變量序列,其分布為區(qū)間(0,1)上的均勻分布,即Xi~U(0,1),i=1,2,…,30,且Xi之間相互獨立。記,由中心極限定理可知,Yn~N(nμ,nσ2)。
R語言是一款免費、開源的程序軟件。它由新西蘭奧克蘭大學的Robert Gentleman和Ross Ihaka等人員共同開發(fā),主要用于統(tǒng)計分析、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化[2]。它不僅支持數(shù)據(jù)分析相關的多種算法,而且其語法也十分簡明易懂,運行速度也可以接受,適合在教學和科研中使用。因此本文將利用R語言把概率論中的中心極限定理可視化,輔助教學。
隨機采樣模擬的思路:利用R語言中的隨機數(shù)采樣命令runif隨機生成容量為10 000的30組數(shù)據(jù),然后得到30組的模擬值,最后使用hist命令繪制每組數(shù)據(jù)的直方圖,并增加其密度函數(shù)線。接下來運用R軟件對其進行統(tǒng)計模擬并加以驗證。
(1)隨機生成容量為10 000的30組數(shù)據(jù)
(2)依次構造和變量Yn模擬數(shù)據(jù)
(3)繪制和變量Yn(n=1,2,3,30)的直方圖和分布圖
圖1 均勻分布隨機采樣生成 Yn(n=1,2,3,30)的直方圖
圖2 二項分布隨機采樣生成Yn(n=1,2,3,30)的直方圖
除可以通過采樣的方式生成隨機數(shù),然后加和模擬,還可以通過卷積公式嚴格地推導出和變量的密度函數(shù),用R軟件直接繪制密度函數(shù)來觀察分布情況。但隨著變量的增多,計算會相當復雜,不易實現(xiàn)。
設(X,Y)是二維連續(xù)型隨機變量,它們具有概率密度(fx,y),則Z=X+Y仍為連續(xù)型隨機變量,其概率密度為。若X和Y相互獨立,設(X,Y)關于X,Y的邊緣概率密度分別為fX(x),fY(y),則上式化為
設{Xi}為獨立同分布的隨機變量序列,其分布為區(qū)間(0,1)上的均勻分布,即Xi~U(0,1),i=1,2,3,4,且Xi之間相互獨立。記,由中心極限定理可知,Yn~N(nμ,nσ2),令pn(y)為Yn的密度函數(shù)。根據(jù)卷積公式,可以依次求出Yn(n=1,2,3,4)的密度函數(shù)pn(y),n=1,2,3,4,如下公式(3.1)所示。
3.3.1 利用R語言依次構造Yn的密度函數(shù)pn
3.3.2 繪制Y1,Y2,Y3,Y4的密度圖
根據(jù)構造Yn(n=1,2,3,4)的密度函數(shù),利用R語言的curve函數(shù)繪制x∈[0,4]密度函數(shù)圖。
根據(jù)上述步驟,將Yn(n=1,2,3,4)地密度函數(shù)p1(y),p2(y),p3(y),p4(y)表示在圖3中。由圖3可知:隨著n的增加,pn(y)的圖形愈來愈光滑,且越來越接近正態(tài)曲線,符合中心極限定理。
圖3 Yn(n=1,2,3,4)的密度函數(shù)圖
在《概率論與數(shù)理統(tǒng)計》學習中,在闡釋完中心極限定理的基本定義后,增加中心極限定理的應用案例。高爾頓釘板實驗常常作為應用實例,利用中心極限定理來進行解釋。在課上展示環(huán)節(jié),主要基于R軟件,對高爾頓實驗進行模擬,模擬多種情況,比如釘子層數(shù)的不同、實驗小球的個數(shù)對于實驗結果的影響等。
有一個板上面有n排釘子,每排相鄰的兩個釘子之間的距離均相等。上一排釘子的水平位置恰巧位于下一排緊鄰的兩個釘子水平位置的正中間。從上端入口放入小球,在下落過程中小球碰到釘子后相等的可能性向左或向右偏離,碰到下一排相鄰的兩個釘子中的一個。如此繼續(xù)下去,直到落入底部隔板中的一格,如圖4所示。問當有大量的小球從上端依次放入,任其自由下落,小球最終在底板中堆積的形態(tài)。設釘子有16排,即n=16。
圖4 高爾頓釘板
在街頭賭博中,莊家會在高爾頓鋼板的底板兩端距離原點超出8格的位置放置了值錢的東西來吸引顧客,而在原點附近則放置相對便宜的東西或者不放置任何。一般在賭博游戲中,大多都是莊家贏,而這個游戲也不例外。我們可以用中心極限定理來揭穿這個街頭賭博中的騙術。
若要考察小球堆積的形態(tài),就需要考察小球最終下落在底部隔板的位置的分布。則設隨機變量X為“小球最終下落在底部隔板中的位置”,同時引入隨機變量Xi服從伯努利分布,分布律如表1所示。則μ=E(Xi)=0,σ2=D(Xi)=1。
表1 隨機變量Xi的分布律
為揭穿這個街頭賭博中的騙術,需要計算中大獎概率,即下落小球超出8格的位置的概率。設釘子有16排,即n=16。由于,此時X~N( )0,16,有
此時計算中大獎的概率不到5%,這說明顧客中大獎的可能性微乎其微。
接下來通過軟件模擬的方式,來模擬高爾頓釘板實驗。
4.2.1 模擬生成落點數(shù)據(jù)
設定生成落點數(shù)據(jù)函數(shù)的輸入、輸出參數(shù),如表2和表3所示。
表2 輸入?yún)?shù)
表3 輸出參數(shù)
下面是模擬生成落點數(shù)據(jù)的R函數(shù)實現(xiàn)。
4.2.2 繪制落點數(shù)據(jù)的直方圖
由上述構造的R函數(shù)可以得到每個點的下落位置y,對下落位置繪制其直方圖hist,同時增加臨界位置8和-8,標識出中大獎的概率P(|X|>8)。
根據(jù)上述步驟進行實驗,得到在n=16排釘子下投擲分別M=10,100,1 000,10 000次落點的位置數(shù)據(jù),可以得到結果如圖5所示。在本次模擬下,僅投擲10次,此時獲取大獎(P(|X|>8))的概率為0。當投擲次數(shù)達到100及以上,獲取大獎的概率穩(wěn)定在2%附近。同時,隨著次數(shù)的增加,落點位置的分布更接近于正態(tài)分布。
圖5 在16排釘子下投擲分別10,100,1 000,10 000次落點分布
但同時也注意到隨著投擲次數(shù)的增加,獲取大獎的概率穩(wěn)定在2%附近,與上節(jié)正態(tài)分布計算出的概率4.56%存在差異。原因是層數(shù)n僅為16不足夠大,正態(tài)近似程度不高。雖然能在一定程度上說明賭博問題,得到近似概率,但精確概率仍然需要通過卷積公式來求n重二項分布的和分布函數(shù)。
由此可以得到如下結論:
(1)試驗測試較少時,一次性命中大獎幾乎不可能。
(2)隨著次數(shù)的增加,落點位置的分布接近于正態(tài)分布,符合中心極限定理。
(3)通過數(shù)據(jù)模擬得到的概率值與中心極限定理利用正態(tài)近似得到的概率相比,仍有差異。原因是層數(shù)n不足夠大。但作為近似的判斷也足夠了,不影響對此賭博問題得到近似概率,精確概率仍然需要通過卷積公式來求n重二項分布的和分布函數(shù)。
中心極限定理作為概率論與數(shù)理統(tǒng)計課程教學中的重點和難點之一,在教學過程中選擇使用R語言隨機模擬抽樣和概率分布情況,不僅可以使學生能夠較好地理解和掌握中心極限定理的本質,也能夠訓練學生的編程能力,增強其動手能力[6]。
在計算技術快速發(fā)展的今天,編程和數(shù)據(jù)模擬也是一項必備技能。大學課堂教學也應該與時俱進,充分利用現(xiàn)代化的教學工具和手段,讓學生在學習傳統(tǒng)知識的同時,領略現(xiàn)代科技的發(fā)展對一些學科的促進作用,從而激發(fā)學生的學習興趣,培養(yǎng)學生利用現(xiàn)代技術手段解決問題的能力[5]。