王小越 賈積有
摘 要:本文應(yīng)用數(shù)據(jù)挖掘軟件Weka,對(duì)北京大學(xué)2015年在Coursera平臺(tái)上線的一門課程中學(xué)員的網(wǎng)上學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了相關(guān)分析。對(duì)全體學(xué)員和有學(xué)習(xí)成績(jī)的學(xué)員的學(xué)習(xí)行為分析結(jié)果均表明:學(xué)員的學(xué)習(xí)成績(jī)與課程網(wǎng)頁瀏覽次數(shù)、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖數(shù)、論壇回帖得票呈正相關(guān)關(guān)系。對(duì)無學(xué)習(xí)成績(jī)的學(xué)員學(xué)習(xí)行為分析結(jié)果表明:他們的論壇討論參與度不高,不重視平時(shí)測(cè)驗(yàn)。出現(xiàn)這個(gè)現(xiàn)象的原因可能是他們不關(guān)注考試成績(jī)和證書,只關(guān)注學(xué)習(xí)過程?;谝陨蠑?shù)據(jù)挖掘結(jié)果,為了取得較好的教學(xué)效果,我們建議MOOC課程應(yīng)該積極引導(dǎo)學(xué)生參與論壇的發(fā)帖,重視課程網(wǎng)頁和課件的設(shè)計(jì),同時(shí)可考慮改進(jìn)平時(shí)測(cè)驗(yàn)的內(nèi)容和方式,關(guān)注學(xué)習(xí)者的需求,以便引起學(xué)員注意,讓學(xué)員積極主動(dòng)地完成測(cè)驗(yàn)。
關(guān)鍵詞:Weka;學(xué)習(xí)成績(jī);數(shù)據(jù)分析;MOOC
中圖分類號(hào):G4文獻(xiàn)標(biāo)志碼:A文章編號(hào):2096-0069(2021)02-0068-07
收稿日期:2020-12-14
基金項(xiàng)目:江蘇開放大學(xué)(江蘇城市職業(yè)學(xué)院)“十三五”2020年度科研規(guī)劃課題“藝術(shù)設(shè)計(jì)類在線課程構(gòu)建模式研究”(2020-J-02)
作者簡(jiǎn)介:王小越(1992— ),女,河北唐山人,助教、碩士,研究方向?yàn)閷W(xué)習(xí)科學(xué)與技術(shù)、學(xué)習(xí)分析、在線教育、藝術(shù)教育等;賈積有(1969— ),男,河南獲嘉人,北京大學(xué)教育學(xué)院教育技術(shù)系主任、教授、博士生導(dǎo)師、北京大學(xué)教育信息化國際研究中心主任,研究方向?yàn)榻逃夹g(shù)學(xué)和人工智能教育應(yīng)用。
自2012年MOOC爆炸般地在國內(nèi)外紅火起來后,一批MOOC學(xué)習(xí)平臺(tái)相繼出現(xiàn)并迅猛發(fā)展起來,比如Udacity、Edx、Coursera、中國大學(xué)MOOC等等。Udacity平臺(tái)是于2011年由斯坦福大學(xué)的一個(gè)實(shí)驗(yàn)室創(chuàng)辦,該平臺(tái)提供的在線課程以營利為目的;Edx平臺(tái)是于2012年1月由麻省理工學(xué)院和哈佛大學(xué)共同創(chuàng)辦的,致力于與全世界最好的大學(xué)合作,建設(shè)影響范圍廣且最著名的在線學(xué)習(xí)課程;Coursera平臺(tái)是于2012年7月由斯坦福大學(xué)的兩名計(jì)算機(jī)專家創(chuàng)立,致力于與全世界最頂尖的大學(xué)和機(jī)構(gòu)合作,提供免費(fèi)的在線學(xué)習(xí)課程。這三大平臺(tái)目前保持著全球領(lǐng)先的地位,其中Coursera平臺(tái)作為全球MOOC第一大供應(yīng)商,其課程門類豐富,學(xué)習(xí)者注冊(cè)數(shù)量最多,遍布世界各地。
MOOC發(fā)展至今,學(xué)員注冊(cè)人數(shù)不斷增長(zhǎng),從幾百到幾十萬不等,但學(xué)員中斷學(xué)習(xí)現(xiàn)象依舊突出,真正完成學(xué)習(xí)并獲得結(jié)業(yè)證書的人數(shù)相對(duì)較少。因此,本文以北京大學(xué)2015年在Coursera平臺(tái)上線的一門課程(簡(jiǎn)稱為A課程)為例,基于學(xué)校提供的課程后臺(tái)數(shù)據(jù),從學(xué)員在該課程中的網(wǎng)上學(xué)習(xí)行為包括發(fā)帖、作業(yè)、測(cè)試等方面入手,使用數(shù)據(jù)挖掘工具Weka分析影響學(xué)員學(xué)習(xí)成績(jī)的因素[1]。
一、數(shù)據(jù)處理及描述性統(tǒng)計(jì)分析
(一)課程注冊(cè)人數(shù)及及格率
該課程共有8019位學(xué)員注冊(cè),去除授課教師、助教以及沒有參與任何學(xué)習(xí)活動(dòng)的學(xué)員之后,剩余真正學(xué)員6167位,其中919位學(xué)員有學(xué)習(xí)成績(jī)(即grade>0),約占真正學(xué)員總?cè)藬?shù)的14.9%,5248位學(xué)員學(xué)習(xí)成績(jī)?yōu)?,約占真正學(xué)員總?cè)藬?shù)的85.1%。比照常規(guī)考試,將60分(含)作為及格的閾值[2],在919位學(xué)員中,達(dá)到60分以上的學(xué)員有280人,占有學(xué)習(xí)成績(jī)學(xué)員的30.47%,占真正學(xué)員總?cè)藬?shù)的4.54%。
(二)網(wǎng)上課程學(xué)習(xí)行為基本分析
表1列出了學(xué)習(xí)成績(jī)及11個(gè)網(wǎng)上學(xué)習(xí)行為因素的數(shù)值分布。學(xué)員人均次數(shù)指網(wǎng)上學(xué)習(xí)行為次數(shù)大于0的學(xué)員網(wǎng)上學(xué)習(xí)行為次數(shù)(或天數(shù)等)的平均值,所有真正學(xué)員人均次數(shù)指真正學(xué)員網(wǎng)上學(xué)習(xí)行為次數(shù)(包括次數(shù)為0的學(xué)員)的平均值。
表1顯示,在6167位學(xué)員中,所有學(xué)員均在完成課程注冊(cè)后反復(fù)登錄課程網(wǎng)站,即具有在線時(shí)間(最后一次登錄課程網(wǎng)站時(shí)間與注冊(cè)時(shí)間之差),所有學(xué)員平均在線時(shí)間為23.16天,但由于該時(shí)間為學(xué)員最后一次登錄課程網(wǎng)站時(shí)間與注冊(cè)時(shí)間之差,所以不能說明學(xué)員在這個(gè)時(shí)間內(nèi)一直在學(xué)習(xí)課程內(nèi)容;該課程的視頻有超過一半的學(xué)員進(jìn)行了觀看,并且人均次數(shù)超過200次;瀏覽課程網(wǎng)頁可以獲取課程的相關(guān)信息,數(shù)據(jù)表明大部分學(xué)員都瀏覽了課程網(wǎng)頁,較積極地獲取課程動(dòng)態(tài);所有學(xué)員均無平時(shí)作業(yè)成績(jī),其原因可能是平時(shí)作業(yè)成績(jī)與最后成績(jī)不相關(guān);課件作為課程內(nèi)容的重要載體之一,因此多數(shù)學(xué)員查看或下載課件進(jìn)行學(xué)習(xí);平時(shí)測(cè)驗(yàn)是階段性檢驗(yàn)學(xué)員掌握課程知識(shí)的一種方式,但數(shù)據(jù)顯示只有較少學(xué)員獲得平時(shí)測(cè)驗(yàn)總成績(jī);課程論壇為學(xué)員提供了與其他學(xué)員、助教和教師交流的機(jī)會(huì),實(shí)現(xiàn)知識(shí)探討和疑問解答,課程論壇分為發(fā)帖和回帖兩種形式,每種形式可獲得學(xué)員投票,得票為正表明學(xué)員贊同發(fā)帖或回帖,為負(fù)表示學(xué)員反對(duì)發(fā)帖或回帖,同時(shí)以論壇名聲來反映學(xué)員論壇總體表現(xiàn)[3],數(shù)據(jù)顯示只有少數(shù)學(xué)員參與課程論壇,并且也只有極少數(shù)參與論壇發(fā)帖或回帖的學(xué)員獲得了論壇名聲值。
本文按有無學(xué)習(xí)成績(jī)將學(xué)員分成兩類,為了進(jìn)一步呈現(xiàn)上述學(xué)習(xí)成績(jī)和11個(gè)網(wǎng)上學(xué)習(xí)行為因素的分布情況,筆者對(duì)有學(xué)習(xí)成績(jī)的學(xué)員的各個(gè)網(wǎng)上學(xué)習(xí)行為數(shù)據(jù)用Weka軟件進(jìn)行了可視化處理,發(fā)現(xiàn)學(xué)員在視頻觀看、課程網(wǎng)頁瀏覽、在線時(shí)間、查看和下載課件以及平時(shí)測(cè)驗(yàn)總成績(jī)方面表現(xiàn)較為突出。所有學(xué)員均無平時(shí)作業(yè)成績(jī),并且大部分學(xué)員未完成參與課程論壇的發(fā)帖和回帖活動(dòng),這也可能會(huì)影響學(xué)員網(wǎng)上學(xué)習(xí)行為及其學(xué)習(xí)成績(jī)。
二、影響學(xué)員學(xué)習(xí)成績(jī)因素的相關(guān)分析
為了探討網(wǎng)上學(xué)習(xí)行為的哪些行為因素會(huì)影響學(xué)員學(xué)習(xí)成績(jī),筆者用數(shù)據(jù)挖掘軟件Weka對(duì)有學(xué)習(xí)成績(jī)的919位學(xué)員的學(xué)習(xí)成績(jī)影響因素進(jìn)行了相關(guān)分析。本文首先采用Weka軟件中線性回歸算法對(duì)上述11個(gè)網(wǎng)上學(xué)習(xí)行為因素與學(xué)習(xí)成績(jī)的相關(guān)性進(jìn)行了線性回歸分析,得到了如下線性回歸模型及結(jié)果:
學(xué)習(xí)成績(jī) =0.0101×課程網(wǎng)頁瀏覽-0.0295×查看和下載課件+0.0880×平時(shí)測(cè)驗(yàn)總成績(jī)+1.0159×論壇發(fā)帖次數(shù)-1.2422×論壇回帖次數(shù)+1.8896×論壇回帖得票-1.0238×論壇名聲-4.6210
根據(jù)回歸模型可知:在11個(gè)網(wǎng)上學(xué)習(xí)行為因素中,課程網(wǎng)頁瀏覽次數(shù)、查看和下載課件、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇回帖次數(shù)、論壇回帖得票、論壇名聲7個(gè)因素與學(xué)習(xí)成績(jī)具有相關(guān)性,并且在這7個(gè)因素中,相比較而言,論壇發(fā)帖次數(shù)、論壇回帖次數(shù)、論壇回帖得票、論壇名聲與學(xué)習(xí)成績(jī)的相關(guān)性較高。另外,在這7個(gè)網(wǎng)上學(xué)習(xí)行為因素中,查看和下載課件、論壇回帖次數(shù)、論壇名聲與學(xué)習(xí)成績(jī)有負(fù)相關(guān)關(guān)系;課程網(wǎng)頁瀏覽、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇回帖得票與學(xué)習(xí)成績(jī)有正相關(guān)關(guān)系。而其他指標(biāo)因素與學(xué)員學(xué)習(xí)成績(jī)無關(guān)。
另外,多層感知算法結(jié)果顯示,相關(guān)系數(shù)為0.9604,相關(guān)性很高,平均絕對(duì)誤差為6.8566,均值平方根誤差為10.464,相對(duì)絕對(duì)誤差為20.1568%,相對(duì)平方根誤差為27.8099%,總體來說,各個(gè)評(píng)估指標(biāo)因素的效果較好。
三、影響學(xué)員學(xué)習(xí)成績(jī)因素的神經(jīng)網(wǎng)絡(luò)分析
為了改進(jìn)上面的結(jié)果,筆者又使用了Weka中神經(jīng)網(wǎng)絡(luò)方法中的多層感知算法,并將參數(shù)“l(fā)earning rate”設(shè)置為0.001,將“training time”設(shè)置為10000,得到了如圖1所示的神經(jīng)網(wǎng)絡(luò)圖和表2(見下頁)所示的分類統(tǒng)計(jì)模型表。
從圖1我們可以看出,通過Weka的多層感知算法,將11個(gè)網(wǎng)上學(xué)習(xí)行為因素按照不同的權(quán)重分成了6個(gè)神經(jīng)元節(jié)點(diǎn),并且這6個(gè)神經(jīng)元節(jié)點(diǎn)又與學(xué)習(xí)成績(jī)這一神經(jīng)元節(jié)點(diǎn)相連。
筆者以表2(見下頁)分類統(tǒng)計(jì)模型表來進(jìn)一步對(duì)圖1進(jìn)行解釋,圖1中右側(cè)學(xué)習(xí)成績(jī)神經(jīng)元節(jié)點(diǎn)即為表2中的節(jié)點(diǎn)0(Node 0),節(jié)點(diǎn)0的極限值為0.482,其權(quán)重分布對(duì)應(yīng)的是左側(cè)的6個(gè)神經(jīng)元節(jié)點(diǎn),即表2中的節(jié)點(diǎn)1、節(jié)點(diǎn)2、節(jié)點(diǎn)3、節(jié)點(diǎn)4、節(jié)點(diǎn)5、節(jié)點(diǎn)6,權(quán)重分別為0.735、0.725、-1.492、-0.486、-2.017、1.482。
同樣,在圖1中我們可以發(fā)現(xiàn),節(jié)點(diǎn)1、節(jié)點(diǎn)2、節(jié)點(diǎn)3、節(jié)點(diǎn)4、節(jié)點(diǎn)5、節(jié)點(diǎn)6的權(quán)重又分別對(duì)應(yīng)的是左側(cè)11個(gè)網(wǎng)上學(xué)習(xí)行為因素的權(quán)重,每個(gè)神經(jīng)元節(jié)點(diǎn)中11個(gè)網(wǎng)上學(xué)習(xí)行為因素的權(quán)重均在表2中呈現(xiàn)出來。
在多層感知算法中,相關(guān)系數(shù)為0.9773,平均絕對(duì)誤差為4.7928,均值平方根誤差為7.96,相對(duì)絕對(duì)誤差為14.0897%,相對(duì)平方根誤差為21.1551%,可見相關(guān)系數(shù)比線性回歸中的相關(guān)系數(shù)略有提高,并且其他各個(gè)評(píng)估指標(biāo)值均有所下降,表明分類結(jié)果很好,結(jié)果也有了改善。
四、影響學(xué)員學(xué)習(xí)成績(jī)因素的聚類分析
聚類分析是把一個(gè)數(shù)據(jù)集合中相似的數(shù)據(jù)進(jìn)行聚合分類處理,每個(gè)分類聚群我們稱其為一族[4]。筆者利用Weka軟件中EM(Expectation Maximization,期望最大)聚類算法對(duì)A課程中有學(xué)習(xí)成績(jī)的學(xué)員學(xué)習(xí)行為數(shù)據(jù)進(jìn)行聚類分析。
EM算法是一種迭代算法, 每一次迭代都能保證似然函數(shù)值增加, 并且收斂到一個(gè)局部極大值[5]。通過運(yùn)行Weka軟件得到的結(jié)果如表3所示。
EM聚類算法將學(xué)習(xí)成績(jī)聚成了兩族,標(biāo)號(hào)分別為0和1。其中0族有599位學(xué)員的學(xué)習(xí)成績(jī)記錄,占有學(xué)習(xí)成績(jī)學(xué)員總?cè)藬?shù)的65%,1族有320位學(xué)員的學(xué)習(xí)成績(jī)記錄,占有學(xué)習(xí)成績(jī)學(xué)員總?cè)藬?shù)的35%。
表3呈現(xiàn)了所有指標(biāo)因素在兩族中的均值和標(biāo)準(zhǔn)差。我們發(fā)現(xiàn),0族學(xué)員學(xué)習(xí)成績(jī)的均值僅為9.61分,1族學(xué)員學(xué)習(xí)成績(jī)的均值為77.77分,說明1族學(xué)員平均學(xué)習(xí)成績(jī)要遠(yuǎn)遠(yuǎn)高于0族學(xué)員平均學(xué)習(xí)成績(jī)。但是1族學(xué)員學(xué)習(xí)成績(jī)的標(biāo)準(zhǔn)差(26.28)要大于0族學(xué)員學(xué)習(xí)成績(jī)的標(biāo)準(zhǔn)差(9.95),表明1族學(xué)員學(xué)習(xí)成績(jī)離散程度較大,分布不均勻,相比較而言,0族學(xué)員學(xué)習(xí)成績(jī)分布較均衡,成績(jī)均較低。
表3也顯示平均學(xué)習(xí)成績(jī)較高的1族學(xué)員在線時(shí)間、視頻觀看、課程網(wǎng)頁瀏覽、查看和下載課件、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇回帖得票、論壇名聲的均值均大于平均學(xué)習(xí)成績(jī)低的0族相應(yīng)的網(wǎng)上學(xué)習(xí)行為因素的均值,表明1族學(xué)員比0族學(xué)員在網(wǎng)上學(xué)習(xí)行為中的10個(gè)網(wǎng)上學(xué)習(xí)行為因素平均表現(xiàn)更為突出,這可能是導(dǎo)致1族學(xué)員平均學(xué)習(xí)成績(jī)高于0族學(xué)員平均學(xué)習(xí)成績(jī)的根本原因。除在線時(shí)間、平時(shí)作業(yè)成績(jī)外,1族學(xué)員在剩余9個(gè)網(wǎng)上學(xué)習(xí)行為因素的標(biāo)準(zhǔn)差均高于0族學(xué)員的標(biāo)準(zhǔn)差,說明1族學(xué)員比0族學(xué)員在這9個(gè)網(wǎng)上學(xué)習(xí)行為因素上表現(xiàn)差異更大(或次數(shù)、時(shí)長(zhǎng)離散程度更大),分布更不均衡,這是導(dǎo)致1族學(xué)員內(nèi)部學(xué)習(xí)成績(jī)分布不均、過于離散的原因。另外,由于所有學(xué)員的平時(shí)作業(yè)成績(jī)均為0,所以0族和1族學(xué)員的這一網(wǎng)上學(xué)習(xí)行為相一致。
為了更好地分析兩族學(xué)員學(xué)習(xí)成績(jī)與網(wǎng)上學(xué)習(xí)行為表現(xiàn)的關(guān)系,筆者分別以11個(gè)網(wǎng)上學(xué)習(xí)行為因素為x軸,學(xué)習(xí)成績(jī)?yōu)閥軸,對(duì)網(wǎng)上學(xué)習(xí)行為因素和學(xué)習(xí)成績(jī)的關(guān)系進(jìn)行了聚類可視化分析。
通過對(duì)在線時(shí)間-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員和1族學(xué)員在線時(shí)間分布均較為分散,但1族學(xué)員在線時(shí)間相對(duì)聚集,主要集中在104天左右,并且1族學(xué)員在線時(shí)間普遍大于0族學(xué)員,1族大部分學(xué)員的學(xué)習(xí)成績(jī)也普遍高于0族學(xué)員的學(xué)習(xí)成績(jī),但在相同在線時(shí)間范圍內(nèi),0族存在少數(shù)學(xué)員的學(xué)習(xí)成績(jī)高于1族少數(shù)學(xué)員的學(xué)習(xí)成績(jī)的現(xiàn)象。
通過對(duì)視頻觀看-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員觀看視頻次數(shù)分布較為集中,并且大部分學(xué)員的學(xué)習(xí)成績(jī)較低;而1族中學(xué)員觀看視頻次數(shù)分布相對(duì)分散,并且在視頻觀看次數(shù)相同的情況下,不同學(xué)員學(xué)習(xí)成績(jī)有高有低,差距略大。另外,筆者還發(fā)現(xiàn),在1族中,即便有些學(xué)員觀看視頻的次數(shù)較少甚至為0,這些學(xué)員的學(xué)習(xí)成績(jī)也會(huì)較高,可能這些學(xué)員只想獲得較高分?jǐn)?shù)和證書,并不想真正學(xué)習(xí)A課程的知識(shí)。
通過對(duì)課程網(wǎng)頁瀏覽-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員瀏覽課程網(wǎng)頁次數(shù)分布相對(duì)集中,并且大部分學(xué)員的學(xué)習(xí)成績(jī)較低;而1族學(xué)員瀏覽課程網(wǎng)頁次數(shù)分布相對(duì)離散。在瀏覽課程網(wǎng)頁次數(shù)一樣的情況下,1族學(xué)員的學(xué)習(xí)成績(jī)也會(huì)出現(xiàn)高低不同的情況,瀏覽課程網(wǎng)頁次數(shù)較少的學(xué)員也會(huì)有較高的學(xué)習(xí)成績(jī),但從0族和1族瀏覽課程網(wǎng)頁次數(shù)與學(xué)習(xí)成績(jī)整體分布來看,瀏覽課程網(wǎng)頁次數(shù)越多,其學(xué)習(xí)成績(jī)可能越高。
通過對(duì)平時(shí)作業(yè)成績(jī)-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),無論0族學(xué)員還是1族學(xué)員平時(shí)作業(yè)成績(jī)均為0,但1族學(xué)員的學(xué)習(xí)成績(jī)普遍高于0族學(xué)員的學(xué)習(xí)成績(jī),表明學(xué)員的學(xué)習(xí)成績(jī)與平時(shí)作業(yè)成績(jī)無關(guān)。
通過對(duì)查看和下載課件-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員查看和下載課件次數(shù)分布相對(duì)集中,且大部分學(xué)員學(xué)習(xí)成績(jī)較低;1族學(xué)員查看和下載課件次數(shù)分布相對(duì)分散。另外,在查看和下載課件次數(shù)相同的情況下,0族也存在少數(shù)學(xué)員學(xué)習(xí)成績(jī)較高,1族也有少數(shù)學(xué)員學(xué)習(xí)成績(jī)較低,但相對(duì)而言,1族中大部分學(xué)員的學(xué)習(xí)成績(jī)要比0族學(xué)員高。
通過對(duì)平時(shí)測(cè)驗(yàn)總成績(jī)-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),雖然0族學(xué)員的平時(shí)測(cè)驗(yàn)總成績(jī)與學(xué)習(xí)成績(jī)分布較為分散,但學(xué)員學(xué)習(xí)成績(jī)與平時(shí)測(cè)驗(yàn)總成績(jī)之間的整體分布呈線性上升趨勢(shì),即0族學(xué)員平時(shí)測(cè)驗(yàn)總成績(jī)較高的話,那么其學(xué)習(xí)成績(jī)可能會(huì)相對(duì)較高;與0族相比,1族中學(xué)員的平時(shí)測(cè)驗(yàn)總成績(jī)與學(xué)習(xí)成績(jī)分布的離散程度更大,但除少部分學(xué)員外,大部分學(xué)員的平時(shí)測(cè)驗(yàn)總成績(jī)分布較為集中,學(xué)員平時(shí)測(cè)驗(yàn)總成績(jī)與學(xué)習(xí)成績(jī)之間的整體分布也呈線性上升趨勢(shì),也就是說,如果學(xué)員平時(shí)測(cè)驗(yàn)總成績(jī)較高,那么其學(xué)習(xí)成績(jī)也可能會(huì)比較高(個(gè)例除外)。綜合0族和1族來看,學(xué)員的學(xué)習(xí)成績(jī)會(huì)因平時(shí)測(cè)驗(yàn)總成績(jī)的增長(zhǎng)而增長(zhǎng),也就是說,二者存在正相關(guān)性。這一點(diǎn)也印證了線性回歸中學(xué)習(xí)成績(jī)與平時(shí)測(cè)驗(yàn)總成績(jī)有正線性相關(guān)關(guān)系的結(jié)論。
通過對(duì)論壇發(fā)帖次數(shù)-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員論壇發(fā)帖次數(shù)分布集中,主要聚集在發(fā)帖次數(shù)為0的范圍內(nèi),并且同一發(fā)帖次數(shù)的學(xué)員學(xué)習(xí)成績(jī)略有差距;1族學(xué)員論壇發(fā)帖次數(shù)分布相對(duì)分散,在論壇發(fā)帖次數(shù)一致的情況下,學(xué)員學(xué)習(xí)成績(jī)有高有低,有一定差距;學(xué)員論壇發(fā)帖次數(shù)較多的話,其學(xué)習(xí)成績(jī)可能會(huì)相對(duì)較高。
通過對(duì)論壇發(fā)帖得票-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員論壇發(fā)帖得票數(shù)呈一條直線(即幾乎所有0族學(xué)員論壇發(fā)帖得票數(shù)相同),但學(xué)員之間學(xué)習(xí)成績(jī)略有差距,以低于50分的居多;1族學(xué)員論壇發(fā)帖得票數(shù)分布相對(duì)離散,且獲得相同發(fā)帖得票的學(xué)員之間的學(xué)習(xí)成績(jī)差距較為明顯。
通過對(duì)論壇回帖次數(shù)-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員論壇回帖次數(shù)呈一條直線(即幾乎所有0族學(xué)員論壇回帖次數(shù)相同,均為0),但學(xué)員之間學(xué)習(xí)成績(jī)略有差距,以低于50分的居多;1族學(xué)員論壇回帖次數(shù)分布相對(duì)離散,且獲得相同發(fā)帖得票的學(xué)員的學(xué)習(xí)成績(jī)有高有低,差距較為明顯。另外,普遍而言,1族論壇回帖次數(shù)相對(duì)較多的學(xué)員學(xué)習(xí)成績(jī)沒有比回帖次數(shù)少的學(xué)員學(xué)習(xí)成績(jī)高,有些甚至較低。這符合線性回歸中學(xué)習(xí)成績(jī)與論壇回帖次數(shù)呈負(fù)線性相關(guān)關(guān)系的結(jié)論。
通過對(duì)論壇回帖得票-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員均未得到回帖投票,各個(gè)學(xué)員之間學(xué)習(xí)成績(jī)差異略大;1族學(xué)員大部分學(xué)員也未得到回帖投票,學(xué)員學(xué)習(xí)成績(jī)之間差距較大,并且獲得論壇回帖得票較多的學(xué)員的學(xué)習(xí)成績(jī)均不高。
通過對(duì)論壇名聲-學(xué)習(xí)成績(jī)進(jìn)行聚類可視化分析,可以發(fā)現(xiàn),0族學(xué)員論壇名聲均為0,學(xué)習(xí)成績(jī)略有差距;而1族學(xué)員論壇名聲分布較離散、有高有低,且大部分學(xué)員的論壇名聲為0,學(xué)員的學(xué)習(xí)成績(jī)也存在差距;并且論壇名聲大于0的學(xué)員的學(xué)習(xí)成績(jī)并沒有都很高,有些甚至較低。
五、對(duì)所有學(xué)員學(xué)習(xí)成績(jī)影響因素的相關(guān)分析
以上內(nèi)容均是針對(duì)A課程中有學(xué)習(xí)成績(jī)的學(xué)員的分析,接下來筆者對(duì)所有學(xué)員學(xué)習(xí)成績(jī)影響因素用Weka軟件進(jìn)行了相關(guān)分析,得到了線性回歸模型如下:學(xué)習(xí)成績(jī)=-0.0003×視頻觀看+0.0167×課程網(wǎng)頁瀏覽-0.0311×查看和下載課件+0.0765×平時(shí)測(cè)驗(yàn)總成績(jī)+1.3311×論壇發(fā)帖次數(shù)-0.4871×論壇發(fā)帖得票-1.1739×論壇回帖次數(shù)+2.2637×論壇回帖得票- 0.9755×論壇名聲-0.6222。
我們發(fā)現(xiàn)所有學(xué)員的學(xué)習(xí)成績(jī)與視頻觀看次數(shù)、課程網(wǎng)頁瀏覽次數(shù)、查看和下載課件次數(shù)、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇回帖得票、論壇名聲具有相關(guān)性,并且相比較而言,學(xué)習(xí)成績(jī)與論壇發(fā)帖次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇回帖得票、論壇名聲相關(guān)性更大一些,表明學(xué)員參與課程論壇的網(wǎng)上學(xué)習(xí)活動(dòng)行為對(duì)其學(xué)習(xí)成績(jī)的影響較大。另外,在這些相關(guān)因素中,學(xué)習(xí)成績(jī)與視頻觀看次數(shù)、查看和下載課件次數(shù)、論壇發(fā)帖得票、論壇回帖次數(shù)、論壇名聲呈負(fù)相關(guān),與課程網(wǎng)頁瀏覽次數(shù)、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇回帖得票呈正相關(guān)。
另外,多層感知算法結(jié)果顯示,相關(guān)系數(shù)為0.9614,平均絕對(duì)誤差為2.1976,均值平方根誤差為5.276,相對(duì)絕對(duì)誤差為24.2013%,相對(duì)平方根誤差為27.5007%。該結(jié)果表明對(duì)所有學(xué)員學(xué)習(xí)成績(jī)影響因素的線性回歸效果較好。
六、對(duì)無學(xué)習(xí)成績(jī)學(xué)員特征的分析
在對(duì)無學(xué)習(xí)成績(jī)學(xué)員數(shù)據(jù)分析時(shí),發(fā)現(xiàn)5248名學(xué)員中僅有287名學(xué)員獲得平時(shí)測(cè)驗(yàn)總成績(jī),且超過三分之二的學(xué)員平時(shí)測(cè)驗(yàn)總成績(jī)不超過100分(與平時(shí)測(cè)驗(yàn)總成績(jī)1016分相差甚多)。在5248位學(xué)員中,只有1位學(xué)員參與論壇發(fā)帖22次、回帖1次,獲得發(fā)帖得票46次、回帖得票2次,論壇名聲值為16。除此之外,22位學(xué)員參與了論壇發(fā)帖,發(fā)帖次數(shù)以1次和2次居多,3位學(xué)員參與了1次論壇回帖,5位獲得1至4票發(fā)帖投票,4位獲得論壇名聲,值為1或2,綜合說明學(xué)員對(duì)論壇發(fā)帖、回帖、投票不積極,也不重視論壇名聲。另外,雖然大部分學(xué)員在線時(shí)間較長(zhǎng),平均在16天左右,且有不少學(xué)員觀看視頻或?yàn)g覽課程網(wǎng)頁次數(shù)較多(有些學(xué)員二者均較多),但是仍沒有平時(shí)測(cè)驗(yàn)成績(jī)和學(xué)習(xí)成績(jī)。出現(xiàn)這個(gè)現(xiàn)象的原因可能是這些學(xué)員學(xué)習(xí)MOOC課程并不是為了考試成績(jī)和課程證書。
七、結(jié)論
通過Weka軟件對(duì)A課程中學(xué)員網(wǎng)上學(xué)習(xí)行為數(shù)據(jù)的相關(guān)分析和聚類分析,筆者發(fā)現(xiàn),取得最后學(xué)習(xí)成績(jī)的學(xué)員的學(xué)習(xí)成績(jī)與課程網(wǎng)頁瀏覽次數(shù)、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇回帖得票呈正相關(guān);所有學(xué)員的學(xué)習(xí)成績(jī)都與課程網(wǎng)頁瀏覽次數(shù)、平時(shí)測(cè)驗(yàn)總成績(jī)、論壇發(fā)帖次數(shù)、論壇回帖得票呈正相關(guān)。
根據(jù)這些結(jié)論,筆者認(rèn)為MOOC課程應(yīng)該積極引導(dǎo)學(xué)生參與論壇的發(fā)帖,重視課程網(wǎng)頁、課件的設(shè)計(jì),同時(shí)還應(yīng)考慮重新設(shè)計(jì)或更改平時(shí)測(cè)驗(yàn)的內(nèi)容、方式,以便引起學(xué)員注意,讓學(xué)員積極主動(dòng)地完成測(cè)驗(yàn)。另外,MOOC課程還需關(guān)注學(xué)習(xí)者的學(xué)習(xí)需求和特點(diǎn),有針對(duì)性地給予學(xué)習(xí)者個(gè)性化的學(xué)習(xí)支持,幫助學(xué)習(xí)者獲得較好的學(xué)習(xí)成績(jī)。
[1][2][3]賈積有,繆靜敏,汪瓊.MOOC學(xué)習(xí)行為及效果的大數(shù)據(jù)分析:以北大6門MOOC為例[J].工業(yè)和信息化教育,2014(9):23-29.
[4]何昌霖.基于Weka平臺(tái)的數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量分析中的應(yīng)用[D].南寧:廣西民族大學(xué),2013.
[5]張杰,陽憲惠.多變量統(tǒng)計(jì)過程控制[M].北京:化學(xué)工業(yè)出版社,2000.
(責(zé)任編輯 孫興麗)
An Analysis of Influential Factors of MOOC LearnersAcademic Record Based on Weka
—A Case Study of a Curriculum of Peking University in the Network of Coursera
WANG Xiaoyue1,JIA Jiyou2
(1.School of Design,Jiangsu Open University,Nanjing,Jiangsu,China 210000;
2.Graduate School of Education,Peking University,Beijing,China 100871)
Abstract: With the application of data mining software Weka,this paper has done a correlation analysis to the trainees online learning behavior data of a course logged on the platform Coursera in Peking University in 2015.The results of the analysis of the learning behavior of all the trainees and the trainees with academic record all show that: trainees academic records and curriculum webpage browsing frequency,the normal test results,number of forum posts,forum response votes have positive correlation.The results of the analysis of learning behavior of trainees without the academic records show that: their participation degree of forum discussion is not high,and they do not pay attention to the normal tests.The reasons for such phenomenon could be that they do not focus on the examination performance and certificates,but on the learning process.Based on the above data mining results,we,in order to gain a better teaching effect,make a suggestion that MOOC curriculum should actively guide students to participate in the posting in the forum,focus on the design of curriculum webpage and courseware.At the same time,we should consider improving the contents and ways of normal tests,focus on the needs of learners,so as to arouse the attention of trainees and make the trainees complete the tests actively.
Key words:? Weka;academic record;data analysis;MOOC