曾祥潘 廣東省廣州市白云區(qū)景泰小學(xué)
吳俊杰 北京師范大學(xué)物理系
孫麗君 山東省淄博第二中學(xué)
中小學(xué)校在實(shí)驗(yàn)研究中,往往受到各種條件的限制,不允許做大量的實(shí)驗(yàn)觀測(cè),因此能夠取得的實(shí)驗(yàn)數(shù)據(jù)比較少。通過少量數(shù)據(jù)推測(cè)研究對(duì)象的規(guī)律,需要進(jìn)行統(tǒng)計(jì)學(xué)分析和處理。借助統(tǒng)計(jì)軟件可以很便捷地對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,極大降低數(shù)據(jù)處理難度和節(jié)約分析時(shí)間。目前常用的統(tǒng)計(jì)軟件可分為以SPSS為代表的商業(yè)軟件和以R語言為代表的開源軟件。相對(duì)而言,R語言更適合中小學(xué)校使用。這是因?yàn)镽語言除了滿足統(tǒng)計(jì)領(lǐng)域的使用,還有非常強(qiáng)大的拓展性,提供了數(shù)千個(gè)涵蓋了各個(gè)領(lǐng)域的開源工具包。同時(shí),學(xué)??山柚鶵語言開展統(tǒng)計(jì)、編程或其他領(lǐng)域的教學(xué)實(shí)踐。另外,R語言及開源工具包都可以免費(fèi)使用,這有助于研究成果的推廣與延續(xù)。
筆者結(jié)合實(shí)驗(yàn)實(shí)例,敘述了在對(duì)照實(shí)驗(yàn)項(xiàng)目中采用R語言進(jìn)行數(shù)據(jù)的整理、分析及可視化呈現(xiàn)。這樣有助于中小學(xué)師生了解R語言的功能與應(yīng)用,幫助有需要的研究者迅速掌握R語言,正確地統(tǒng)計(jì)分析數(shù)據(jù)。
R語言是一種交互式計(jì)算處理環(huán)境,用戶可在官網(wǎng)(www.r-project.org)下載安裝。R語言安裝后是在命令行窗口操作,為了方便使用,可安裝R語言的集成開發(fā)環(huán)境Rstudio。Rstudio可在官網(wǎng)(www.rstudio.com)找到免費(fèi)版本下載,安裝后界面如圖1所示。
圖1 Rstudio功能界面
Rstudio界面可分為四個(gè)功能區(qū)。其中程序編輯區(qū)用于編寫R語言腳本程序,程序執(zhí)行后輸出數(shù)據(jù)和提示信息將在命令控制臺(tái)顯示。如果是簡單的操作可直接在控制臺(tái)輸入指令,無需編寫?yīng)毩⒊绦?。?shù)據(jù)環(huán)境用于呈現(xiàn)導(dǎo)入的數(shù)據(jù)結(jié)構(gòu)等信息。在使用R語言繪圖時(shí),圖片會(huì)在繪圖輸出中顯示出來。
數(shù)據(jù)采集有很多方式,既可以用人工記錄的傳統(tǒng)方式,也可以通過信息化儀器設(shè)備自動(dòng)采集。
(1)手工記錄。這是傳統(tǒng)方式,用眼看手記把實(shí)驗(yàn)數(shù)據(jù)抄寫在記錄紙上或直接錄入到電子表格。對(duì)于數(shù)據(jù)多、持續(xù)時(shí)間長的實(shí)驗(yàn)項(xiàng)目,需要耗費(fèi)比較多的人力資源,而且持續(xù)記錄容易疲勞,從而導(dǎo)致出現(xiàn)較多的錯(cuò)誤。
(2)數(shù)字化實(shí)驗(yàn)(DIS)自動(dòng)記錄。使用DIS器材開展實(shí)驗(yàn),可以解決手工記錄容易出錯(cuò)的問題。但是DIS設(shè)備購置經(jīng)費(fèi)投入大,不容易普及推廣。部分實(shí)驗(yàn)項(xiàng)目可借助開源硬件傳感器,通過自制實(shí)驗(yàn)器材的方式解決,這需要實(shí)驗(yàn)員做更多的技術(shù)準(zhǔn)備。
(3)對(duì)實(shí)驗(yàn)項(xiàng)目改進(jìn)。利用人工智能等先進(jìn)技術(shù)改進(jìn)實(shí)驗(yàn)器材,使其提高使用效率、提升精度等。例如,借助深度學(xué)習(xí)工具,自動(dòng)識(shí)別儀器讀數(shù)等。還可以重構(gòu)實(shí)驗(yàn)項(xiàng)目,如利用OpenCv計(jì)算機(jī)視覺識(shí)別實(shí)驗(yàn)對(duì)象的周長、投影面積,代替手工測(cè)量和計(jì)算。通過這些方法能夠較便捷地取得實(shí)驗(yàn)數(shù)據(jù)。
實(shí)驗(yàn)數(shù)據(jù)獲得后,可保存為CVS、XLS等數(shù)據(jù)格式,再通過Rstudio菜單File→Import Dataset導(dǎo)入R語言進(jìn)行分析檢驗(yàn)。
數(shù)據(jù)可視化是把數(shù)據(jù)轉(zhuǎn)成圖形的方式顯示出來,可以讓用戶快速、直觀地分析數(shù)據(jù),了解數(shù)據(jù)的整體狀況。R語言常用的可視化圖形有直方圖、散點(diǎn)圖、箱形圖等。下面,以繪制小番茄重量的頻率分布直方圖為例,了解R語言的繪圖方法。
先在Rstudio導(dǎo)入小番茄重量文件“tomato.xls”,該電子表格第1列“sn”為序號(hào),第2列“weight”是小番茄重量。在命令控制臺(tái)輸入以下繪圖指令:
>hist(tomato$weight, freq=F)
其中,“hist”是繪制直方圖函數(shù);“tomato$weight”是數(shù)據(jù)來源,來自tomato文件的weight列;“freq=F”是指定繪制頻率直方圖,如果改為“freq=T”則是繪制頻數(shù)直方圖。繪制的圖像效果如圖2所示。
圖2 小番茄重量分布直方圖
此外,還可以在直方圖上疊加其他圖形。例如,疊加密度曲線,輸入以下指令:
>lines(density(tomato$weight),lw d=2)
在上述指令中,“l(fā)ines”是畫線函數(shù);“density(tomato$weight)”的作用是把重量數(shù)據(jù)轉(zhuǎn)換成密度數(shù)據(jù);“l(fā)wd=2”是設(shè)定線條粗細(xì)。繪圖效果如下頁圖3所示。
圖3 直方圖疊加密度曲線
通過觀看圖形可以非常清晰地了解數(shù)據(jù)的分布情況,也能快速發(fā)現(xiàn)是否有奇異數(shù)據(jù)的存在。頻率分布直方圖也是在后續(xù)做數(shù)據(jù)正態(tài)分布檢驗(yàn)的一個(gè)參考。
在數(shù)理統(tǒng)計(jì)分析中,只能由估計(jì)量估計(jì)總體的參數(shù),總體參數(shù)始終是不可知的,只能通過統(tǒng)計(jì)檢驗(yàn),由統(tǒng)計(jì)量推斷總體參數(shù)。一般在統(tǒng)計(jì)中先對(duì)參數(shù)提出假設(shè),然后再根據(jù)假設(shè)進(jìn)行數(shù)據(jù)檢驗(yàn)。下面,以檢驗(yàn)櫻桃輪廓特征(果實(shí)投影面積及寬高比)差異性為例子介紹檢驗(yàn)過程。
取得大紅櫻桃、大黃櫻桃各30枚,拍照后用OpenCv獲取每一顆櫻桃的輪廓特征數(shù)據(jù)。假設(shè)顯著性水平a=0.05,問是否可以認(rèn)定每兩組櫻桃的輪廓有差異?
分析:每一組櫻桃30顆,數(shù)量少屬于小樣本;櫻桃樣本是隨機(jī)分組,屬于獨(dú)立樣本。因此可使用兩獨(dú)立樣本t檢驗(yàn),其操作流程為:正態(tài)性檢驗(yàn)→方差齊性檢驗(yàn)→t檢驗(yàn)。
應(yīng)用t檢驗(yàn)的前提條件是數(shù)據(jù)必須服從正態(tài)分布,適用于小樣本正態(tài)性檢驗(yàn)的方法是S-W檢驗(yàn)。其次是方差齊性檢驗(yàn),使用F檢驗(yàn)。檢驗(yàn)指令及結(jié)果如下表所示。
從檢驗(yàn)結(jié)果可知,兩組數(shù)據(jù)正態(tài)性檢驗(yàn)p-value值均>0.05,說明符合正態(tài)分布;方差齊性檢驗(yàn)p-value=0.7072>0.05,滿足方差齊。因而可以使用兩獨(dú)立樣本t檢驗(yàn),檢驗(yàn)結(jié)果p-value=1.133e-07<0.05,說明兩組數(shù)據(jù)有明顯差異。
數(shù)據(jù)的正態(tài)性決定了后續(xù)檢驗(yàn)方法的選擇,如果數(shù)據(jù)不服從正態(tài)分布,差異性檢驗(yàn)就不能使用t檢驗(yàn),否則將得出錯(cuò)誤的結(jié)論。
R語言語法簡單,容易編寫,利用好R語言對(duì)于統(tǒng)計(jì)分析來說具有重要的現(xiàn)實(shí)意義。本文介紹的內(nèi)容只是R語言龐大功能的一小部分,對(duì)R語言感興趣想深入了解的讀者可以通過R語言的書籍等相關(guān)資料進(jìn)一步學(xué)習(xí)掌握。
兩獨(dú)立樣本樣本t檢驗(yàn)過程