摘要:隨著大數(shù)據(jù)和云時(shí)代的到來,數(shù)據(jù)分析技術(shù)作為一門前沿技術(shù),廣泛應(yīng)用于各大領(lǐng)域,“數(shù)據(jù)分析”作為大數(shù)據(jù)時(shí)代的核心技術(shù),其商業(yè)價(jià)值正在逐步展現(xiàn)。文章將使用最前沿的R語言,借助數(shù)據(jù)可視化平臺(tái)RStudio,對(duì)本校計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)的專業(yè)基礎(chǔ)課程計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)的教學(xué)效果進(jìn)行可視化分析,從而為教學(xué)質(zhì)量改革提出有效建議。
關(guān)鍵詞:數(shù)據(jù)分析;R語言;可視化;匯總分析
中圖分類號(hào):G424 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)31-0053-03
1 引言
R語言是一種面向?qū)ο蟮木幊陶Z言,是為統(tǒng)計(jì)計(jì)算和圖形顯示而設(shè)計(jì)的語言環(huán)境,也是一套開源的數(shù)據(jù)分析解決方案。R語言最大的優(yōu)勢(shì)在于其軟件包生態(tài)系統(tǒng)的開放性,即免費(fèi)開源,并且可以在不同的平臺(tái)上運(yùn)行。R語言作為完全免費(fèi)的統(tǒng)計(jì)分析軟件,可以輕松地從各種類型的數(shù)據(jù)源讀寫數(shù)據(jù),幾乎所有類型的數(shù)據(jù)都可以用R語言進(jìn)行統(tǒng)計(jì)分析。另外,R語言具有頂尖水準(zhǔn)的制圖功能,能夠直觀地提升用戶對(duì)數(shù)據(jù)的理解,并幫助用戶做出正確的判斷和改進(jìn)[1]。
R語言的原始編譯窗口較為簡(jiǎn)單,提供的編譯環(huán)境不太友好,為了提高代碼的編寫效率,本文選擇使用RStudio 作為代碼編譯環(huán)境。RStudio作為R語言的免費(fèi)的圖形界面編輯器,其實(shí)質(zhì)性的編程語言與R 語言無異,但是比R語言原有的編譯窗口擁有更友好的界面環(huán)境和更強(qiáng)大的操作性能[1]。
本文將使用最前沿的R語言,借助數(shù)據(jù)可視化平臺(tái)RStudio,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)的專業(yè)基礎(chǔ)課程計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)的教學(xué)效果進(jìn)行可視化分析。通過統(tǒng)計(jì)分析和可視化圖形展示,為計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)課程的教學(xué)改革提供有力的數(shù)據(jù)支撐,從而進(jìn)一步提升計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)的教師教學(xué)水平。
2 將數(shù)據(jù)導(dǎo)入到RStudio
本文將針對(duì)計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)的專業(yè)基礎(chǔ)課程計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)的學(xué)生成績(jī)進(jìn)行分析,因此首先需完成數(shù)據(jù)的導(dǎo)入?;诮虅?wù)系統(tǒng)的數(shù)據(jù)管理流程,學(xué)生的成績(jī)均是存放在學(xué)校教務(wù)系統(tǒng)的數(shù)據(jù)庫中的,因此,在數(shù)據(jù)分析前,需先將學(xué)生成績(jī)數(shù)據(jù)導(dǎo)入RStudio中。
本文將模擬從MySQL數(shù)據(jù)庫將數(shù)據(jù)導(dǎo)入RStudio的過程。
2.1 數(shù)據(jù)準(zhǔn)備工作
首先在MySQL中創(chuàng)建數(shù)據(jù)庫stuanalysis,本文要用到的計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)課程的學(xué)生成績(jī)表存在于數(shù)據(jù)庫stuanalysis的表格中,將數(shù)據(jù)表命名為stuscore,通過查看表格內(nèi)容,可以確定該專業(yè)年級(jí)215名學(xué)生的成績(jī)信息已存在于數(shù)據(jù)表stuscore中(圖1) 。
通過查詢,可以看到,計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)課程的成績(jī)由課堂活動(dòng)、作業(yè)和考試三部分組成,三個(gè)部分均以百分制來計(jì)分,在總成績(jī)中所占比例分別為課堂活動(dòng)(30%) 、作業(yè)(30%) 、考試(40%) ;總成績(jī)由以上三部分的成績(jī)按比例計(jì)算而來,同樣采用百分制計(jì)分。
2.2 R環(huán)境準(zhǔn)備
在用R進(jìn)行數(shù)據(jù)分析前,先要完成R和MySQL數(shù)據(jù)庫的連接,方便人們直接對(duì)數(shù)據(jù)進(jìn)行處理。具體步驟如下:
1) R下載RODBC包,加載RODBC包;
2) 下載并安裝mySQL ODBC;
3) 控制面板→管理工具→數(shù)據(jù)源(ODBC) →點(diǎn)擊添加→選中MySQL ODBC driver選項(xiàng);
4) 打開RStudio的界面調(diào)用數(shù)據(jù)庫;
5) 至此,R已經(jīng)成功與MySQL數(shù)據(jù)庫連接,并且獲取了MySQL庫中stuanalysis數(shù)據(jù)庫里stuscore表中的數(shù)據(jù),存放在數(shù)據(jù)框StuAnalysis中。
3 數(shù)據(jù)清洗與匯總分析
R語言中的數(shù)據(jù)清洗的目的在于刪除重復(fù)、有缺失值的信息,對(duì)數(shù)據(jù)進(jìn)行重新審查和消炎,糾正存在的錯(cuò)誤;而R語言中提供的多種數(shù)值計(jì)算和統(tǒng)計(jì)分析的函數(shù),則可以幫助人們快速地對(duì)數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)分析[2]。
3.1 缺失數(shù)據(jù)處理
在數(shù)據(jù)分析的過程中,數(shù)據(jù)對(duì)象的不完整性會(huì)對(duì)后期的數(shù)據(jù)可視化分析造成影響,比如,因在學(xué)生成績(jī)表中會(huì)存在某些學(xué)生按時(shí)參加課堂活動(dòng),完成教學(xué)安排,但是因個(gè)人原因無法參加期末考試的情況。因此在進(jìn)行數(shù)據(jù)分析前,先要進(jìn)行數(shù)據(jù)的缺失值處理。
1) 檢測(cè)StuAnalysis中是否存在缺失值。代碼如下:
> anyNA(StuAnalysis)
[1] TRUE
經(jīng)檢測(cè),StuAnalysis確實(shí)存在缺失值;
2) 刪除StuAnalysis中存在缺失值的行,并將刪除缺失值后的數(shù)據(jù)賦值給新的變量score.data。代碼如下:
score.data<- na.omit(StuAnalysis)
3.2 數(shù)據(jù)匯總統(tǒng)計(jì)分析
對(duì)于學(xué)生成績(jī)數(shù)據(jù)的統(tǒng)計(jì)分析,首先可以使用R語言中的數(shù)值計(jì)算和統(tǒng)計(jì)分析函數(shù),對(duì)學(xué)生成績(jī)進(jìn)行初步統(tǒng)計(jì)分析。
在傳統(tǒng)的成績(jī)分析中,往往會(huì)以最大值、最小值、均值等指標(biāo)作為初步的統(tǒng)計(jì)量,在 R 語言中,也要通過指標(biāo)來表現(xiàn)數(shù)據(jù)樣本的集中趨勢(shì)、離散程度和數(shù)據(jù)分布形狀[3]。
通過 R 語言的數(shù)值計(jì)算和統(tǒng)計(jì)分析函數(shù)來實(shí)現(xiàn)對(duì)學(xué)生學(xué)習(xí)成績(jī)的初步分析,分別得出課堂活動(dòng)、作業(yè)、考試和總成績(jī)的各項(xiàng)統(tǒng)計(jì)值,得出結(jié)果如表1所示。
表1 ? 學(xué)生成績(jī)統(tǒng)計(jì)表
[統(tǒng)計(jì)分量 均 ?值 中位數(shù) 標(biāo)準(zhǔn)差 方 ?差 變異系數(shù) 課堂活動(dòng) 91.34995 93.33 11.0805 122.7774 12.12972 作 ?業(yè) 81.85977 88.105 17.58625 309.2761 21.48338 考 ?試 64.93458 66 16.79664 282.1272 25.86702 總成績(jī) 77.93734 80.595 11.54148 133.2057 14.80866 ]
通過上表可得知:變異強(qiáng)度最低的是課堂活動(dòng),其次是總成績(jī);在數(shù)據(jù)統(tǒng)計(jì)分析中,如果變異系數(shù)值超過15,則認(rèn)為數(shù)據(jù)存在疑問。因此,本科目的作業(yè)成績(jī)和期末考試成績(jī)可能因?yàn)槟承┛陀^原因而導(dǎo)致數(shù)據(jù)變異強(qiáng)度過大;但是基于總成績(jī)的變異系數(shù)在規(guī)定范圍內(nèi),可見本課程的教學(xué)效果相對(duì)良好。
4 數(shù)據(jù)可視化分析
R 語言的強(qiáng)大不僅體現(xiàn)在便捷的數(shù)據(jù)統(tǒng)計(jì)計(jì)算,還體現(xiàn)在可生成各種可視化的圖形,從而更加直觀地向決策者提供數(shù)據(jù)依據(jù)[4]。本文將使用R語言中的散點(diǎn)矩陣圖和箱線圖來反映學(xué)生成績(jī)分布情況。
4.1 繪制成績(jī)散點(diǎn)矩陣圖
根據(jù)導(dǎo)入的課堂活動(dòng)、作業(yè)、考試和總成績(jī)數(shù)據(jù),利用R語言的pairs() 函數(shù),繪制成績(jī)散點(diǎn)矩陣圖(圖2) 。代碼和運(yùn)行結(jié)果如下:
> pairs(score.data[,3:6])
通過散點(diǎn)矩陣圖,可以直觀地發(fā)現(xiàn),課堂活動(dòng)、作業(yè)和考試分?jǐn)?shù)與總成績(jī)之間基本上可以滿足線性規(guī)律,其中考試分?jǐn)?shù)與總成績(jī)之間的線性相關(guān)性最高,說明試卷的難易程度符合課程考核要求。另外,通過觀察發(fā)現(xiàn),課堂活動(dòng)、作業(yè)和考試分?jǐn)?shù)三者之間的相關(guān)性不高,尤其是課堂活動(dòng)與考試之間,難以發(fā)現(xiàn)線性相關(guān),說明某些課堂活動(dòng)參與度高的同學(xué)反而在考試中成績(jī)表現(xiàn)并不好,這是需要任課教師在今后的教學(xué)活動(dòng)中進(jìn)一步做出調(diào)整和改進(jìn)。
4.2 繪制成績(jī)箱線圖
為了對(duì)學(xué)生專業(yè)課成績(jī)的差異性及產(chǎn)生原因進(jìn)行分析,本文將利用R語言的boxplot() 函數(shù)繪制課堂活動(dòng)、作業(yè)、考試和總成績(jī)數(shù)據(jù)的箱線圖(圖3) 。代碼和運(yùn)行結(jié)果如下:
> boxplot(score.data[3:6])
通過箱線圖,可以直觀地發(fā)現(xiàn),課堂活動(dòng)、作業(yè)和考試分?jǐn)?shù)與總成績(jī)之間存在一定的差異性,主要體現(xiàn)以下四點(diǎn):
1) 在學(xué)生的課堂活動(dòng)成績(jī)相較于其他三項(xiàng)較高,而且相對(duì)集中,數(shù)據(jù)離散值較少;
2) 作業(yè)的箱線圖相較于其他三項(xiàng)離散值最多,說明學(xué)生在作業(yè)完成情況上差異項(xiàng)較大;
3) 學(xué)生的考試成績(jī)雖均值較低,但數(shù)據(jù)的分布情況最好,可以滿足成績(jī)的正態(tài)分布規(guī)律;
4) 從總成績(jī)的分布來看,該科目的教學(xué)效果較良好,基本滿足教學(xué)要求。
5 總結(jié)
本文借助數(shù)據(jù)可視化平臺(tái)RStudio,對(duì)本校計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)的專業(yè)基礎(chǔ)課程計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)的課程成績(jī)進(jìn)行了全面細(xì)致的分析,使用R語言實(shí)現(xiàn)了對(duì)數(shù)據(jù)的初步統(tǒng)計(jì)分析,并通過散點(diǎn)矩陣圖和箱線圖對(duì)教學(xué)效果進(jìn)行可視化分析,從而為教學(xué)質(zhì)量改革提出有效建議。
近年來,隨著大數(shù)據(jù)時(shí)代的到來,基于R語言的數(shù)據(jù)挖掘技術(shù)得到了快速發(fā)展和應(yīng)用的良機(jī)[5]。同時(shí)也為高校教師提供了便利,促使我們將其使用在學(xué)生成績(jī)分析中,通過數(shù)據(jù)統(tǒng)計(jì)和可視化圖形來發(fā)現(xiàn)教學(xué)中的問題,從而進(jìn)一步優(yōu)化教學(xué)過程,提升專業(yè)核心競(jìng)爭(zhēng)力。
參考文獻(xiàn):
[1] Kabacoff R I.R語言實(shí)戰(zhàn)[M].高濤,肖楠,陳鋼,譯.北京:人民郵電出版社,2013.
[2] 林智章,張良均.R語言編程基礎(chǔ)[M].北京:人民郵電出版社,2019.
[3] 洪明意,龍海俠,王覓,等.R語言在學(xué)習(xí)成績(jī)應(yīng)用中的探究[J].福建電腦,2018,34(4):3-5.
[4] 楊超.基于R語言的學(xué)生成績(jī)分析[J].遼寧師專學(xué)報(bào)(自然科學(xué)版),2020,22(4):95-99.
[5] 岳強(qiáng),胡中玉,文瑾,等.基于R語言的數(shù)據(jù)挖掘課程實(shí)驗(yàn)設(shè)計(jì)[J].微型電腦應(yīng)用,2016,32(5):31-34,37.
【通聯(lián)編輯:聞翔軍】
收稿日期:2022-03-16
基金項(xiàng)目:教育部高校學(xué)生司關(guān)于供需對(duì)接就業(yè)育人項(xiàng)目(人力資源提升項(xiàng)目)(項(xiàng)目編號(hào):20220101016)
作者簡(jiǎn)介:吳立知(1985—) ,女,貴州貴陽人,副教授,碩士,研究方向?yàn)榫W(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘。