基于R語言的概率論可視化教學(xué)方法

2020-08-20 08:02:10李麗潔潘偉權(quán)尹譽(yù)銘

中阿科技論壇(中英阿文) 2020年7期

李麗潔潘偉權(quán) 尹譽(yù)銘

摘要：概率論理解的關(guān)鍵在于理解各個(gè)概念之中的隨機(jī)性，本文借助于統(tǒng)計(jì)學(xué)中最常用的R軟件，把概率論中的最基本的幾個(gè)概念進(jìn)行可視化，揭示這些概念中隨機(jī)性的本質(zhì)，使學(xué)生能更容易理解并掌握，減少概率論學(xué)習(xí)的困難程度，激發(fā)學(xué)習(xí)者學(xué)習(xí)概率論的興趣，提高學(xué)習(xí)效率。

關(guān)鍵詞：R語言;可視化;概率論

1引言

概率論是一門研究隨機(jī)現(xiàn)象的數(shù)學(xué)學(xué)科[1]，無論是自然科學(xué)、社會(huì)經(jīng)濟(jì)學(xué)、工程技術(shù)學(xué)還是與之密切相關(guān)的統(tǒng)計(jì)學(xué)等相關(guān)專業(yè)的學(xué)生都需要進(jìn)行概率論這門課程的學(xué)習(xí)。因此探討如何在教學(xué)過程中將概率論的理論知識(shí)以一簡(jiǎn)明易懂的方式進(jìn)行教學(xué)具有十分重要的現(xiàn)實(shí)意義[2]。R 語言是一款免費(fèi)、開源的程序軟件。它由新西蘭奧克蘭大學(xué)的Robert Gentleman和Ross Ihaka及其他志愿人員共同開發(fā)。它主要用于統(tǒng)計(jì)分析、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化[3]。相對(duì)其他同類軟件，它的特色在于：有效的數(shù)據(jù)處理和保存機(jī)制，完整的數(shù)組和矩陣計(jì)算操作符，連貫而又完整的數(shù)據(jù)分析工具，圖形工具可以對(duì)數(shù)據(jù)直接進(jìn)行分析和展示，同時(shí)可用于多種圖形設(shè)備。它不僅擁有在數(shù)據(jù)分析方面的多種算法，復(fù)雜數(shù)據(jù)分析方面的速度相較于其他同類軟件也毫不遜色，而且其語言也十分簡(jiǎn)明易懂，十分利于學(xué)生學(xué)習(xí)[4]。因此利用R語言把概率論中重要的概念可視化，具有重要的現(xiàn)實(shí)意義。

因?yàn)楦怕收摰闹R(shí)點(diǎn)較多，本文只介紹最具代表性的大數(shù)定律和中心極限定理來介紹R語言用于可視化這些概念的作用。

2 大數(shù)定律R語言可視化

大數(shù)定律可以簡(jiǎn)單理解為通過大量的重復(fù)試驗(yàn)，事物出現(xiàn)的頻率就能無限逼近其出現(xiàn)的概率的法則[5]。根據(jù)大數(shù)定律我們可以知道，實(shí)驗(yàn)只有重復(fù)的次數(shù)足夠多才能反映真實(shí)的概率，樣本數(shù)量越多，事物出現(xiàn)的頻率就越有機(jī)會(huì)接近其期望值。大數(shù)定律可分為強(qiáng)大數(shù)定律與弱大數(shù)定律。所謂強(qiáng)大數(shù)定律，就是說在極限情況下可以完全肯定的知道樣本的概率平均值可以收斂到預(yù)期值。而弱大數(shù)定律是說明在極限條件下，我們所得到的樣本概率平均值無限逼近于總體期望值，但不會(huì)等于總體的期望值，而在總體期望值的極小范圍內(nèi)波動(dòng)。

以拋硬幣為例，記正面在上為事件A，在n次同條件的試驗(yàn)中，事件A發(fā)生的總次數(shù)為，那么事件A發(fā)生的頻率就是。當(dāng)試驗(yàn)重復(fù)的次數(shù)n足夠多時(shí)，如下圖：

可以看出，在試驗(yàn)次數(shù)小于的時(shí)候，事件A發(fā)生的頻率波動(dòng)大，當(dāng)重復(fù)試驗(yàn)次數(shù)達(dá)到后，事件A發(fā)生的頻率趨于穩(wěn)定，達(dá)到0。5的穩(wěn)定值，而0。5就是基于伯努利試驗(yàn)的事件A發(fā)生的概率，因此可以知道，當(dāng)實(shí)驗(yàn)次數(shù)很大時(shí)，可以用事件發(fā)生的頻率來代替事件的概率，辛欽大數(shù)定律[6] 假設(shè)為獨(dú)立同分布的隨機(jī)變量序列，若的數(shù)學(xué)期望存在，則服從大數(shù)定律，即對(duì)任意的，成立。容易得知服從柯西分布的隨機(jī)數(shù)列的期望不存在。以柯西分布為例：

可以看出，隨著試驗(yàn)次數(shù)的增加，服從柯西分布的隨機(jī)數(shù)列并沒有明顯的收斂趨勢(shì)。且其波動(dòng)性也比較大。相對(duì)的以期望存在的泊松分布、正態(tài)分布作為對(duì)比：

可以看出，服從泊松分布的隨機(jī)數(shù)列隨著樣本數(shù)量的增加，樣本均值逐漸向其總體均值靠近的趨勢(shì)。接下來看正態(tài)分布的均值情況：

可以看出，正態(tài)分布的均值也是服從辛欽大數(shù)定律的。在三種分布中，柯西分布由于期望不存在而不服從辛欽大數(shù)定律。由此我們可以知道，大數(shù)定律不意味著樣本數(shù)據(jù)量足夠大就一定服從，在隨機(jī)數(shù)列分布不存在的情況下，是否服從大數(shù)定律還需要進(jìn)一步討論。

3 中心極限定律可視化

所謂中心極限定理，就是指隨機(jī)變量的序列部分與分布逐漸趨近于正態(tài)分布的定理。根據(jù)中心極限定理，我們可以知道隨機(jī)變量趨近于正態(tài)分布的條件。中心極限定理分為獨(dú)立同分布的中心極限定理以及獨(dú)立不同分布的中心極限定理[6]。

所謂獨(dú)立同分布是指各隨機(jī)變量（，……）獨(dú)立同分布，具有有限的數(shù)學(xué)期望與方差：E（）=，D（）=（k=1，2。。。。），則對(duì)任意函數(shù)，其分布函數(shù)：

該定理說明，當(dāng)n很大時(shí)，隨機(jī)變量近似地服從標(biāo)準(zhǔn)正態(tài)分布N（0，1）。因此，近似地服從正態(tài)分布N（，n）.該定理是中心極限定理最簡(jiǎn)單又最常用的一種形式，在實(shí)際工作中，只要n足夠大，便可以把獨(dú)立同分布的隨機(jī)變量之和當(dāng)作正態(tài)變量。這種方法在數(shù)理統(tǒng)計(jì)中用得很普遍，當(dāng)處理大樣本時(shí)，它是重要工具。為證明這一理論，可以先用一個(gè)簡(jiǎn)單的例子來對(duì)中心極限定理進(jìn)行一個(gè)輪廓上的理解。首先產(chǎn)生一個(gè)總體，如圖所示：

從圖中我們可以知道，這是一個(gè)均值為1.14，方差為0.61，呈右偏分布的總體。其次，為使對(duì)比能更加明顯，先從中抽取數(shù)據(jù)量較少的樣本數(shù)據(jù)：2個(gè)樣本數(shù)量，每個(gè)樣本中有25個(gè)數(shù)據(jù)。

此時(shí)的樣本分布形態(tài)不明顯，雜亂無章，均值為1.23，方差為0.4。再加大樣本量：選擇110個(gè)樣本數(shù)量，每個(gè)樣本中有241個(gè)數(shù)據(jù)：

可以看出，此時(shí)的樣本分布形態(tài)已經(jīng)初步有了正態(tài)分布的形態(tài)，均值為1。13。

為了更好的理解，再選擇一個(gè)總體：

可以看出，總體是一個(gè)呈左偏的分布形態(tài)，其均值為0.71，方差為0.16。從該總體中抽出30個(gè)樣本，其中每個(gè)樣本有100個(gè)數(shù)據(jù)，查看此時(shí)的分布形態(tài)：

可以看出，此時(shí)該樣本逐漸有了正態(tài)分布的形態(tài)。均值為0，72，方差為0.05再加大樣本量：

可以發(fā)現(xiàn)，樣本的分布形態(tài)和正態(tài)分布越來越接近，而在樣本數(shù)據(jù)量逐漸增多的過程中，樣本均值與總體均值的誤差也始終在總體均值附近浮動(dòng)，而樣本方差也在逐漸減小。通過以上兩個(gè)來自不同總體的抽樣分布，可以看出，無論總體服從什么分布，樣本的均值總在總體均值的附件浮動(dòng)。

4 結(jié)語

隨著大數(shù)據(jù)時(shí)代的快速發(fā)展，社會(huì)對(duì)統(tǒng)計(jì)分析人員的數(shù)據(jù)處理能力提出了越來越高的要求。在目前的大數(shù)據(jù)行業(yè)，盛行的模型以及框架等越來越多，對(duì)于結(jié)果的預(yù)測(cè)精度要求也越來越高，這使得相關(guān)專業(yè)的學(xué)生學(xué)習(xí)好概率論成為勢(shì)在必行的事情。而基于概率論的的數(shù)據(jù)分析模型、框架等越來越細(xì)密、繁復(fù)。書本里的理論知識(shí)可以為學(xué)生提供的大量信息的基礎(chǔ)，卻缺乏可以提供的圖形表達(dá)和模擬來增強(qiáng)理解與動(dòng)手實(shí)踐能力。簡(jiǎn)單的技術(shù)和傳統(tǒng)的黑板教學(xué)無法再滿足學(xué)生未來發(fā)展的需求。因此，使用R語言的可視化模塊來幫助概率論的教學(xué)或許能為學(xué)習(xí)概率論的學(xué)生開辟一條更富有效率的捷徑。利用R語言的可視化模塊將抽象概念轉(zhuǎn)化為簡(jiǎn)潔的形象，可提高課堂效率，拓寬師生之間的溝通平臺(tái)。在概率論教學(xué)中，展示實(shí)驗(yàn)過程和近似過程的動(dòng)態(tài)過程可以加深對(duì)學(xué)生知識(shí)的理解，激發(fā)他們的想象力。從而促進(jìn)反思，最終掌握知識(shí)，也為未來的進(jìn)一步學(xué)習(xí)提供靈感的來源與動(dòng)力。

參考文獻(xiàn)：

[1]茆詩松，程依明，濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京：高等教育出版社，2011：93-117，229-246.

[2]樊亞莉.應(yīng)用數(shù)學(xué)專業(yè)概率論實(shí)驗(yàn)課程的教學(xué)設(shè)計(jì)與思考[J].上海理工大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版，2018（04）：89-92.

[3]安麗霞，盧丑麗，燕揚(yáng).初探R軟件在獨(dú)立院校概率論與數(shù)理統(tǒng)計(jì)教學(xué)中的應(yīng)用[J].大學(xué)教育，2018（09）：102-104.

[4]曹麗，張莉.基于R的概率統(tǒng)計(jì)直觀教學(xué)展示[J].大學(xué)數(shù)學(xué)，2017（04）：33-47.

[5]拉窮.論獨(dú)立隨機(jī)序列的大數(shù)定律與中心極限定理及其應(yīng)用[D].西南交通大學(xué)，2007.

[6]何江妮.淺談中心極限定理及其應(yīng)用[J].數(shù)學(xué)學(xué)習(xí)與研究，2014（17）：93.