宋述芳 遲乃榮 呂震宙
摘要:本文介紹了R軟件在數(shù)理統(tǒng)計教學(xué)中的應(yīng)用優(yōu)勢及大數(shù)據(jù)處理分析的延伸功能。結(jié)合數(shù)理統(tǒng)計的課程特點(diǎn)及教學(xué)內(nèi)容,舉例說明了R軟件在數(shù)理統(tǒng)計教學(xué)中的多方面應(yīng)用以及海量數(shù)據(jù)下R的延伸及適用性,并探討了R軟件對數(shù)理統(tǒng)計教學(xué)帶來的積極作用。
關(guān)鍵詞:數(shù)理統(tǒng)計;R軟件;參數(shù)估計;假設(shè)檢驗;大數(shù)據(jù)
中圖分類號:G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2019)09-0231-03
一、引言
數(shù)理統(tǒng)計是理工科院校的必修公共基礎(chǔ)課,是一門應(yīng)用性很強(qiáng)又頗具特色的數(shù)學(xué)學(xué)科。數(shù)理統(tǒng)計研究的是隨機(jī)現(xiàn)象的統(tǒng)計規(guī)律,是概率論知識的實際應(yīng)用。數(shù)理統(tǒng)計所包含的主要內(nèi)容包括收集和整理隨機(jī)樣本,利用一定的統(tǒng)計模型進(jìn)行統(tǒng)計推斷,如參數(shù)估計、假設(shè)檢驗、統(tǒng)計回歸等。其教學(xué)要求及難點(diǎn)體現(xiàn)在掌握統(tǒng)計推斷的原理及方法,根據(jù)樣本歸納樣本所反映的統(tǒng)計規(guī)律。然而傳統(tǒng)的人工處理手段遠(yuǎn)遠(yuǎn)跟不上數(shù)據(jù)處理的廣度、精度、速度的要求。
隨著計算機(jī)分析技術(shù)和實驗測量技術(shù)的發(fā)展,信息化數(shù)據(jù)急劇增加,海量數(shù)據(jù)的處理及分析是數(shù)理統(tǒng)計面臨的難題和挑戰(zhàn),需要借助數(shù)據(jù)處理的軟件,如Matlab、Excel、Python、C語言、R語言等。Matlab工具箱多種多樣,然而安裝包及占用CPU的空間巨大;Excel可采用豐富的函數(shù)進(jìn)行部分分析,但還需自編不容易掌握的宏程序;Python和C語言的分析問題快速,然而語言格式非常嚴(yán)謹(jǐn),不易上手;R語言作為一款開源軟件,完全免費(fèi),有龐大的社區(qū)進(jìn)行維護(hù),簡單易學(xué)。
在國外高校的統(tǒng)計系,R語言幾乎是一門必修的語言,可實現(xiàn)統(tǒng)計分析、數(shù)據(jù)可視化和預(yù)測建模的數(shù)據(jù)分析。R語言支持幾乎所有數(shù)據(jù)分析所需要的數(shù)據(jù)處理、統(tǒng)計模型和圖表,支持大量第三方功能包,涵蓋機(jī)器學(xué)習(xí)、統(tǒng)計學(xué),甚至自然語言處理等方面。本文著重介紹R語言在數(shù)理統(tǒng)計中的應(yīng)用以及大數(shù)據(jù)時代R語言的拓展及實用性。
二、R語言
R語言是一種適用于統(tǒng)計分析和圖像處理的語言,是進(jìn)行統(tǒng)計分析的重要工具,是受S語言和Scheme語言影響發(fā)展而來的。
1.R語言安裝及基本操作。在主頁http://www.r-project.org下載R語言程序(通常只有幾十兆)并進(jìn)行安裝。為了方便使用,可以從http://www.rstudio.com.products/ rstudio /download/中下載圖形界面編輯器RStudio,由于RStudio集成了豐富的開發(fā)界面,提供了方便的函數(shù)名識別及搜索功能,極大地方便了R編程計算。R包的安裝更新在RStudio的Packages選項下的install和Update,數(shù)據(jù)導(dǎo)入選擇環(huán)境選項下的Import Dataset,可以選擇合適的導(dǎo)入格式。
2.R語言在數(shù)理統(tǒng)計教學(xué)內(nèi)容中的應(yīng)用。數(shù)理統(tǒng)計的主要教學(xué)內(nèi)容包括隨機(jī)事件發(fā)生概率的計算、樣本的統(tǒng)計量計算、參數(shù)估計、假設(shè)檢驗、方差分析、統(tǒng)計回歸等。R語言幾乎可以實現(xiàn)數(shù)理統(tǒng)計教學(xué)內(nèi)容的全部應(yīng)用。
預(yù)測2017年該地區(qū)農(nóng)業(yè)生產(chǎn)總值為49.9,95%的預(yù)測區(qū)間是[42.5,57.2];預(yù)測2018年該地區(qū)農(nóng)業(yè)生產(chǎn)總值為54.8,95%的預(yù)測區(qū)間是[46.8,62.9]。
R語言同樣可以實現(xiàn)數(shù)據(jù)的多元非線性回歸,通過設(shè)置不同的非線性函數(shù)求解待定系數(shù),獲得回歸方程并進(jìn)行檢驗,從而用于模型預(yù)測、指導(dǎo)決策等。
三、大數(shù)據(jù)處理
數(shù)據(jù)挖掘是當(dāng)今時代的一門核心技術(shù),提供了對大數(shù)據(jù)的描述、探索、模式的識別和預(yù)測。數(shù)據(jù)挖掘者從統(tǒng)計分析、機(jī)器學(xué)習(xí)和計算科學(xué)中尋找各種適用的方法和工具。
作為優(yōu)秀的統(tǒng)計軟件包,R語言也提供了強(qiáng)大的數(shù)據(jù)挖掘工具。R軟件的延伸——大數(shù)據(jù)包很好地解決了這個問題。
1.Rattle包。Rattle包是一個用于數(shù)據(jù)挖掘的R圖形交互界面,可用于快速處理常見的大數(shù)據(jù)中的數(shù)據(jù)挖掘問題,從數(shù)據(jù)整理到模型評價,Rattle給出了完整的解決方案。Rattle和R平臺具有良好的交互性,簡單易用,不需要有很強(qiáng)的R語言編程基礎(chǔ),被廣泛應(yīng)用于數(shù)據(jù)挖掘與教學(xué)中。
在R控制臺輸入install.packages("RGtk2"),install.packages("rattle"),或者直接在RStudio里面用install命令輸入這兩個功能包的名字就可以安裝。
Rattle界面從上到下依次是菜單欄、工具欄和標(biāo)簽欄,標(biāo)簽欄從左到右依次排列各自完成數(shù)據(jù)挖掘工作中的相關(guān)步驟,包括導(dǎo)入數(shù)據(jù)的Data標(biāo)簽、執(zhí)行數(shù)據(jù)探索的Explore標(biāo)簽、數(shù)據(jù)檢驗的Test標(biāo)簽、數(shù)據(jù)聚類的Cluster標(biāo)簽、關(guān)聯(lián)規(guī)則方法的Associate標(biāo)簽、算法模塊的Model標(biāo)簽、模型評估的Evaluate標(biāo)簽等。
2.R語言的其他大數(shù)據(jù)包。此外,R語言還有一些其他的手段或數(shù)據(jù)包可用于處理大數(shù)據(jù)問題。data.table可用于讀取處理GB級或TB級的大數(shù)據(jù)集,latticist包用于數(shù)據(jù)圖形交互,rggobi包結(jié)合GGobi軟件也可以進(jìn)行圖形交互,ggplot2包用于處理高級繪圖命令,qcc是用于統(tǒng)計質(zhì)量控制的庫,sqldf能在R數(shù)據(jù)框上執(zhí)行SQL查詢。
R語言社區(qū)有數(shù)以百計的功能包,并且還在不斷發(fā)展擴(kuò)充著,需要我們繼續(xù)探索更多的相關(guān)功能包。
四、總結(jié)
利用R語言可以很方便地進(jìn)行數(shù)理統(tǒng)計分析,還可以結(jié)合R語言豐富的包資源環(huán)境進(jìn)行數(shù)據(jù)開發(fā)。數(shù)理統(tǒng)計在R語言的加持下能夠讓學(xué)生擺脫煩躁的計算,極大地激發(fā)學(xué)生對于數(shù)理統(tǒng)計的興趣,更方便的用R語言工具應(yīng)用數(shù)理統(tǒng)計理論解決實際問題,成為大數(shù)據(jù)時代的弄潮兒。
參考文獻(xiàn):
[1]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].第四版.北京:高等教育出版社,2008.
[2]薛毅,陳立萍.R語言在統(tǒng)計中的應(yīng)用[M].北京:人民郵電出版社,2017.
[3]楊衛(wèi).R軟件在高等數(shù)學(xué)教學(xué)中的應(yīng)用[J].新教育時代,2016,(4):205-206.
[4]閏朝暉.R軟件在多元統(tǒng)計分析教學(xué)中的應(yīng)用研究[J].科技創(chuàng)新導(dǎo)報,2011,(1):157-158.
[5]呂書龍,劉文麗,梁飛豹,葉福玲.數(shù)理統(tǒng)計直觀教學(xué)的實驗設(shè)計與R程序?qū)崿F(xiàn)[J].實驗技術(shù)與管理,2016,33(10):142-146.
[6]崔玉杰,劉喜波.R和Python軟件在《概率論與數(shù)理統(tǒng)計》教學(xué)中應(yīng)用初探[J].教育教學(xué)論壇,2017,(12):192-193.
[7]丁新濤,周在瑩,王翠蓮,肖婧.R軟件教學(xué)的一些心得[J].課程教育研究,2013,(12):125.