崔新偉+李家森+沙嘉祥
摘要:本文利用R語言對Moodle平臺的數(shù)據(jù)進行分析研究。對平臺模塊訪問總體情況、學(xué)生學(xué)習(xí)時間分布統(tǒng)計、師生交互網(wǎng)絡(luò)等進行圖形化的直觀展示。該研究有利于教師掌握學(xué)生學(xué)習(xí)的總體情況,有針對性的指導(dǎo)和督促學(xué)生。
關(guān)鍵詞:R語言;Moodle;數(shù)據(jù)挖掘
一、引言
隨著近年來網(wǎng)絡(luò)課程、在線學(xué)習(xí)等應(yīng)用的興起,學(xué)習(xí)平臺逐漸積累了大量的用戶基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息。而"用數(shù)據(jù)說話"、"用數(shù)據(jù)決策"等已經(jīng)成為信息時代倡導(dǎo)的未來發(fā)展基石。因此,如何利用大量的數(shù)據(jù)挖掘出有價值的信息,成為研究者重點要解決的問題。
二、R語言簡介
R語言是一種為統(tǒng)計計算和圖形顯示而設(shè)計的語言環(huán)境,是貝爾實驗室(Bell Labortory)的Rick Becker、John Chambers和Allan Wilks開發(fā)的S語言的一種實現(xiàn),提供了一系列統(tǒng)計和圖形顯示工具。它是一套開源的數(shù)據(jù)分析解決方案,由一個龐大且活躍的全球性研究型社區(qū)維護。本文主要應(yīng)用R語言的如下優(yōu)勢:
(1)R可以輕松地從各類型的數(shù)據(jù)源導(dǎo)入數(shù)據(jù),包括文本文件、數(shù)據(jù)庫管理系統(tǒng)、統(tǒng)計軟件,乃至專門的數(shù)據(jù)倉庫。它同樣可以將專門的數(shù)據(jù)輸出并寫到這些系統(tǒng)中。
(2)具有高效的開放性,R不僅提供功能豐富的內(nèi)置函數(shù)供用戶調(diào)用,也允許用戶編寫自己定義的函數(shù)來擴充功能。
(3)R擁有頂尖水準的制圖功能。如果希望復(fù)雜數(shù)據(jù)可視化,那么R擁有最全面且最強大的一系列可用功能。
R是一個體系龐大的應(yīng)用軟件,主要包括核心的R標(biāo)準包和各專業(yè)領(lǐng)域的其他包。R在數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域具有特別優(yōu)勢。
三、R語言數(shù)據(jù)分析
1.moodle平臺模塊總體訪問情況研究
首先利用爬蟲爬取到Moodle平臺用戶訪問數(shù)據(jù)兩萬余條,部分數(shù)據(jù)展示如表1所示:
利用R語言提取moudle列數(shù)據(jù),即平臺模塊列,并對提取數(shù)據(jù)進行詞頻統(tǒng)計,得出各模塊的詞頻數(shù)如表2所示:
利用R語言強大的繪圖功能,使用ggplot()函數(shù)對各模塊訪問詞頻數(shù)繪制圓形餅狀圖,這樣可以直觀地展現(xiàn)用戶對各模塊訪問情況,繪制出Moodle平臺模塊訪問總體情況餅狀圖如圖1所示:
在該課程學(xué)習(xí)的過程中,師生訪問平臺模塊的頻次統(tǒng)計餅狀圖,用以找出學(xué)生更熱衷于哪一版塊的學(xué)習(xí)內(nèi)容。從圖1可更加直觀的看出,師生最常訪問的模塊是forum(26.3%)論壇區(qū),課堂的討論參與的人次數(shù)較多。其次是course(24.5%)課程模塊,再次是assignment(22.6%)作業(yè)模塊,然后是resource(16.1%)資源模塊。可見,學(xué)生在該平臺的訪問行為,都是比較集中地圍繞學(xué)習(xí)活動進行的。
2.學(xué)生學(xué)習(xí)時間分布統(tǒng)計
熱力圖是一種非常常用的統(tǒng)計圖形,該圖將兩個變量(一般是離散變量)的交叉匯總信息以顏色的形式展現(xiàn)出來,而映射給顏色變量的是連續(xù)型數(shù)值變量,下面就以例子說明熱力圖的優(yōu)勢:
熱力圖可以通過stats包的heatmap()函數(shù)繪制,也可以通過ggplot2包中的geom_tile()函數(shù)或geom_raster()函數(shù)繪制,本文使用ggplot2包中的函數(shù)實現(xiàn)。
首先將所需數(shù)據(jù)進行提取,分別提取出月份、小時、分鐘信息,部分數(shù)據(jù)展示如表3所示:
通過對ggplot2包的調(diào)用,調(diào)用geom_tile()函數(shù),繪制學(xué)習(xí)時間分布熱力圖,如圖2所示:
進一步按照月份進行分類,分析學(xué)生學(xué)習(xí)訪問時間是否與月份有關(guān)。在按照月份進行分類的同時,按上、下午進行分類,分析學(xué)生學(xué)習(xí)訪問時間是否與上、下午有關(guān)。進而細化到時間點,分析學(xué)生學(xué)習(xí)訪問時間黃金時段。利用R語言繪制學(xué)習(xí)時間分布圓餅圖如圖3所示:
由圖3可看出學(xué)生學(xué)習(xí)時間安排與月份無關(guān),多數(shù)學(xué)生更偏向于下午學(xué)習(xí),而每日學(xué)生學(xué)習(xí)的黃金時段為上午八點到十點,下午兩點到四點。進而通過此信息,可在此時段保證各科均有老師在線答疑,而其他時段,可輪流值班的安排方案,最大限度的提高教師指導(dǎo)學(xué)生的效率。
3.師生交互網(wǎng)絡(luò)分析
從Moodle平臺獲取的師生交互數(shù)據(jù)如圖4所示:
例如id=2的用戶,他發(fā)了id=5的留言。在圖4中有8個回復(fù),分別是用戶id=2、30、92、66、89、49、69、2這幾個用戶。說明id=2的用戶,跟id=2、30、92、66、89、49、69、2的這幾個用戶有交互。去掉其中自己跟自己的交互,可將用戶的交互用圖5表示:
首先做數(shù)據(jù)篩選,整理出交互數(shù)據(jù)部分如表4所示:
利用R語言做交互分析,繪制師生交互網(wǎng)絡(luò)圖,如圖6所示:
圖6中線的透明度代表交互的強度,具體來說就是回帖的數(shù)量越多,線的顏色就越深。其中2號代表老師,用紅色表示。其他代號為學(xué)生,用藍色表示。從圖中可直觀看出學(xué)生與學(xué)生,老師與學(xué)生之間的交互情況,進發(fā)現(xiàn)哪些學(xué)生平時思考較多,哪些學(xué)生平時思考較少,從而使教師更加有針對性的教學(xué)。例如128、158號學(xué)生與大家交互較多,積極交流課程學(xué)習(xí)內(nèi)容,而在圖中沒有出現(xiàn)的學(xué)生與大家交互很少,基本沒有交流課程內(nèi)容。
四、結(jié)論
通過對研究樣本的詳細分析,實現(xiàn)Moodle平臺數(shù)據(jù)挖掘的研究。利用R語言,對平臺模塊訪問總體情況、學(xué)生學(xué)習(xí)時間分布統(tǒng)計、師生交互網(wǎng)絡(luò)等進行直觀展示。從而,發(fā)現(xiàn)哪些模塊學(xué)生關(guān)注度較高、哪些時間段是學(xué)生學(xué)習(xí)的黃金時段、哪些學(xué)生在平臺上的交互頻繁等情況,幫助教師更加有效的進行教學(xué)與輔導(dǎo)。本文的研究成果,也為類似網(wǎng)絡(luò)課程的學(xué)習(xí)與效果評價等提供參考。
參考文獻
[1]侯亞軍.R語言在數(shù)據(jù)挖掘中的運用[J].應(yīng)用技術(shù)研究,2013
[2]李明.R語言與網(wǎng)站分析[M].北京:機械工業(yè)出版社,2014
[3]Matthew A.Russell.社交網(wǎng)站的數(shù)據(jù)挖掘與分析[M].北京:機械工業(yè)出版社,2015
作者簡介:
崔新偉,女(1980.9-),漢族,河北唐山人,碩士,講師,研究方向:數(shù)據(jù)挖掘
項目資助:中央基本科研業(yè)務(wù)費資助項目(JSJ1201,3142012053);2014年華北科技學(xué)院教研基金資助(計算機相關(guān)專業(yè)網(wǎng)絡(luò)編程課教學(xué)研究);河北省物聯(lián)網(wǎng)數(shù)據(jù)采集與分析工程技術(shù)中心建設(shè)項目