李金海 泰州學(xué)院計算機(jī)科學(xué)與技術(shù)學(xué)院
慕課平臺改變了長期以來傳統(tǒng)的口耳相傳的授課模式[1],在新型信息技術(shù)的推動下,以及在學(xué)習(xí)者學(xué)習(xí)經(jīng)歷、學(xué)習(xí)能力等存在一定的差異性的客觀因素下,在線學(xué)習(xí)成為學(xué)習(xí)者進(jìn)行個性化學(xué)習(xí)的現(xiàn)實(shí)需求。近年來,隨著教育部《關(guān)于加強(qiáng)高等學(xué)校在線開放課程建設(shè)應(yīng)用與管理的意見》的頒布,慕課平臺成為全國各高校開展在線開放課程的主要途徑。而2019—2020學(xué)年第二學(xué)期受新型冠狀病毒疫情的影響,全國高校的各類課程教學(xué)活動基本采用了在線授課模式,這里有主動的選擇,如部分高校開設(shè)的在線精品課程資源,這些課程具有豐富的在線教學(xué)資源,但大多數(shù)課程還是被動的選擇,由于事發(fā)突然,這些課程絕大多數(shù)只有線下授課的教學(xué)資源,缺乏在線授課的教學(xué)資源。此時,慕課平臺中大量的精品慕課資源成為首選在線教學(xué)資源,各高校基于慕課平臺建立高校慕課系統(tǒng),通過引入精品慕課資源支撐在線教學(xué)活動,保障在線教學(xué)活動的高效開展。在疫情肆虐的特殊環(huán)境下,筆者所授課的課程“Python數(shù)據(jù)分析技術(shù)”也由線下授課模式轉(zhuǎn)變?yōu)樵诰€授課模式,為了保障在線教學(xué)活動的有效開展,筆者選擇了中國大學(xué)MOOC平臺中嵩天老師教學(xué)團(tuán)隊的國家精品慕課資源《Python語言程序設(shè)計》與《Python數(shù)據(jù)分析與展示》作為學(xué)生在線學(xué)習(xí)的主要在線資源。本文將以學(xué)生慕課平臺的學(xué)習(xí)數(shù)據(jù)以及線下考核成績數(shù)據(jù)為樣本數(shù)據(jù),研究學(xué)生在線學(xué)習(xí)的個性化需求,以及在線學(xué)習(xí)與線下考核成績的相關(guān)性。
1.基于學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者研究
隨著在線教學(xué)平臺的廣泛開展,近年來,部分學(xué)者基于在線教學(xué)平臺中的學(xué)習(xí)數(shù)據(jù)研究了學(xué)習(xí)者的學(xué)習(xí)行為以及學(xué)習(xí)效果。例如,王改花等(2018)利用該校2002年就已開設(shè)的在線開放課程“現(xiàn)代教育技術(shù)”的在線學(xué)習(xí)數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)對在線學(xué)習(xí)者行為進(jìn)行聚類分析。[2]Natek等(2014)通過決策樹算法研究了學(xué)習(xí)者的基本信息、平時表現(xiàn)以及學(xué)習(xí)類型與過程、對最終考核成績的影響。[3]
2.基于慕課平臺的研究
在眾多的在線學(xué)習(xí)系統(tǒng)中,慕課平臺是目前使用較為廣泛的在線學(xué)習(xí)系統(tǒng)。邱文教等(2017)基于對東南大學(xué)的學(xué)生問卷調(diào)查,通過描述性分析以及因子分析方法對慕課滿意度的影響因素進(jìn)行了分析。[4]鄂麗君等(2016)基于高校圖書館視角,對高校學(xué)生的慕課認(rèn)知及學(xué)習(xí)現(xiàn)狀進(jìn)行調(diào)查,為高校圖書館開展慕課學(xué)習(xí)服務(wù)提供支撐。[5]
3.在線學(xué)習(xí)個性化研究
隨著眾多在線教學(xué)平臺的興起,在線學(xué)習(xí)資源激增,猶如電子商務(wù)平臺,在線教學(xué)平臺也出現(xiàn)了信息過載的問題,在線學(xué)習(xí)者獲得有效在線學(xué)習(xí)資源的難度加大,因此,在線學(xué)習(xí)個性化研究成為教學(xué)改革研究的熱點(diǎn)。查英華等(2015)根據(jù)學(xué)生的特征,基于學(xué)生與學(xué)習(xí)資源之間的二元關(guān)系,構(gòu)建了基于個性化推薦的移動學(xué)習(xí)模型。[6]周海波(2018)從數(shù)據(jù)層、行為層以及表示層這三個層次,探究了自適應(yīng)學(xué)習(xí)平臺的體系框架,為優(yōu)化自適應(yīng)學(xué)習(xí)平臺提供了理論支撐。[7]孔晶等(2016)論述了“互聯(lián)網(wǎng)+”時代中的云計算技術(shù)與大數(shù)據(jù)技術(shù)對學(xué)生個性化學(xué)習(xí)的支撐作用。[8]胡國強(qiáng)等(2017)在改進(jìn)協(xié)同過濾算法的基礎(chǔ)上,設(shè)計了MOOC個性化課程推薦系統(tǒng),為用戶提供個性化的課程選擇。[9]
1.基于慕課平臺數(shù)據(jù)分析的學(xué)生在線學(xué)習(xí)效果分析
本文以中國大學(xué)MOOC平臺為在線教學(xué)開展的慕課平臺,對其數(shù)據(jù)進(jìn)行分析,中國大學(xué)MOOC平臺中主要記錄的在線學(xué)習(xí)過程數(shù)據(jù)包括課程數(shù)據(jù)、學(xué)生成績數(shù)據(jù)、學(xué)習(xí)數(shù)據(jù)統(tǒng)計、學(xué)生數(shù)據(jù)等。學(xué)習(xí)數(shù)據(jù)統(tǒng)計包括學(xué)生信息、學(xué)生分組、有效成績、視頻觀看個數(shù)、視頻觀看次數(shù)、視頻觀看時長、討論區(qū)主題數(shù)以及討論區(qū)評論數(shù)+回復(fù)數(shù),共8個數(shù)據(jù)項。筆者選取中國大學(xué)MOOC平臺學(xué)習(xí)數(shù)據(jù)統(tǒng)計數(shù)據(jù)為數(shù)據(jù)分析來源數(shù)據(jù),中國大學(xué)MOOC平臺學(xué)習(xí)數(shù)據(jù)統(tǒng)計界面圖如圖1所示。
圖1 中國大學(xué)MOOC平臺學(xué)習(xí)數(shù)據(jù)統(tǒng)計界面
通過Python數(shù)據(jù)分析技術(shù)對中國大學(xué)MOOC平臺學(xué)習(xí)數(shù)據(jù)統(tǒng)計數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。分析學(xué)習(xí)數(shù)據(jù)統(tǒng)計表發(fā)現(xiàn),8個數(shù)據(jù)項中可以選擇視頻觀看個數(shù)、視頻觀看時長兩項數(shù)據(jù)進(jìn)行學(xué)生在線學(xué)習(xí)效果分析研究的在線學(xué)習(xí)過程數(shù)據(jù),通過與線下考核成績的對比分析,挖掘在線學(xué)習(xí)過程數(shù)據(jù)與線下考核成績的相關(guān)性。
數(shù)據(jù)預(yù)處理的流程如圖2所示。
圖2 數(shù)據(jù)預(yù)處理的流程
數(shù)據(jù)預(yù)處理各流程的操作步驟如下:
①基于Pandas庫導(dǎo)入學(xué)習(xí)數(shù)據(jù)統(tǒng)計Excel表,導(dǎo)入后數(shù)據(jù)類型為DataFrame;
②去除無用列(如學(xué)生分組、有效成績等列);
③按學(xué)生學(xué)號順序升序排序;
④添加序號列(序號列從1開始編號,由于在Python數(shù)據(jù)分析中,DataFrame索引默認(rèn)是從0編號,所以添加從1開始編號的序號列,更便于直觀展示信息);
⑤缺失值填充,默認(rèn)以0填充;
⑥將視頻觀看時長轉(zhuǎn)換為以秒為單位的時間數(shù)據(jù),原始數(shù)據(jù)格式為HH:MM:SS,且為字符串型,這一步的關(guān)鍵在于基于“:”將字符串切割成列表,該列表的格式為[HH, MM, SS],然后通過for循環(huán)將列表轉(zhuǎn)換為一個整型數(shù)據(jù),HH*3600+MM*60+SS即為轉(zhuǎn)換后的秒數(shù)。
基于Pandas庫對學(xué)習(xí)數(shù)據(jù)統(tǒng)計數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后的部分結(jié)果如圖3所示(為了保護(hù)學(xué)生信息,已隱藏學(xué)生姓名、學(xué)號兩列)。其中,視頻觀看個數(shù)1與視頻觀看時長1是指《Python語言程序設(shè)計》慕課的視頻觀看個數(shù)與視頻觀看時長;視頻觀看個數(shù)2與視頻觀看時長2是指《Python數(shù)據(jù)分析與展示》慕課的視頻觀看個數(shù)與視頻觀看時長。
得到了慕課平臺學(xué)生的在線學(xué)習(xí)數(shù)據(jù)后,筆者將學(xué)生的在線學(xué)習(xí)數(shù)據(jù)與線下考核成績進(jìn)行相關(guān)性分析。通過線性回歸挖掘?qū)W生的在線學(xué)習(xí)各項數(shù)據(jù)與線下考核成績的線性相關(guān)性,結(jié)果如下頁圖4所示。其中,各子圖中橫坐標(biāo)表示在線學(xué)習(xí)各項數(shù)據(jù)的值,縱坐標(biāo)表示線下考核成績的值,散點(diǎn)為真實(shí)值坐標(biāo),線段為線性回歸擬合后的預(yù)測坐標(biāo)。
由圖4可以看出,子圖1與子圖2的線性回歸擬合線段較平緩,說明視頻觀看個數(shù)對線下考核成績影響較?。蛔訄D3與子圖4的線性回歸擬合線段呈明顯上升趨勢,說明視頻觀看時長對線下考核成績具有顯著正向影響;而且也可以發(fā)現(xiàn)大多數(shù)學(xué)生的視頻觀看個數(shù)較為一致,這是因?yàn)槟秸n平臺以打開視頻學(xué)習(xí)頁面為計數(shù)標(biāo)準(zhǔn),而視頻觀看時長則根據(jù)學(xué)生具體學(xué)習(xí)視頻時長統(tǒng)計,但是在疫情期間由于慕課平臺在線學(xué)習(xí)人次較多,服務(wù)器負(fù)荷較大,慕課平臺統(tǒng)計數(shù)據(jù)有些許誤差。
圖3 基于Pandas庫對學(xué)習(xí)數(shù)據(jù)統(tǒng)計數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后的部分結(jié)果
2.基于慕課平臺數(shù)據(jù)分析的學(xué)生在線學(xué)習(xí)個性化分析
在分析在線學(xué)習(xí)各項數(shù)據(jù)與線下考核成績的線性相關(guān)性的基礎(chǔ)上,筆者將繼續(xù)研究基于慕課平臺數(shù)據(jù)分析的學(xué)生在線學(xué)習(xí)個性化問題,對線下考核成績較差的學(xué)生,可以對他們進(jìn)行個性化的課程學(xué)習(xí)內(nèi)容推薦。從子圖3與子圖4中可以看出,視頻觀看時長2作為自變量時,線性回歸擬合的斜率更大,這可以在一定程度上說明視頻觀看時長2,即《Python數(shù)據(jù)分析與展示》慕課的學(xué)習(xí)時長的變化對線下考核成績的影響更大。為驗(yàn)證這一推斷,將視頻觀看時長1與視頻觀看時長2兩個變量同時作為線性回歸模型的自變量,線下考核成績作為因變量,構(gòu)建多元線性回歸模型。通過調(diào)用多元線性回歸模型的intercept_、coef_屬性,可以得到常數(shù)項以及回歸系數(shù),如圖5所示。
圖4 在線學(xué)習(xí)各項數(shù)據(jù)與線下考核成績的線性相關(guān)性
圖5 多元線性回歸模型的常數(shù)項以及回歸系數(shù)
可以得到多元線性回歸模型為:
Y=70.61422771+8.89901281e-06*視頻觀看時長1+9.83465545e-05*視頻觀看時長2
通過多元線性回歸模型的兩個自變量的回歸系數(shù)可知,視頻觀看時長2的回歸系數(shù)顯著大于視頻觀看時長1的回歸系數(shù),上述的推斷得到驗(yàn)證。
因此,對線下考核成績較差的學(xué)生,教師可以向他們推薦個性化的課程學(xué)習(xí)內(nèi)容,對沒有完成《Python數(shù)據(jù)分析與展示》慕課學(xué)習(xí)的學(xué)生,讓他們繼續(xù)完成《Python數(shù)據(jù)分析與展示》慕課的學(xué)習(xí),對已完成《Python數(shù)據(jù)分析與展示》慕課學(xué)習(xí)的學(xué)生,可以向他們推薦其他類似慕課學(xué)習(xí)資源。
下面,筆者將通過均方根誤差(RMSE)對以上5個線性回歸模型進(jìn)行評價。
RMSE的評價公式為:
RMSE的評價方法為:np.sqrt(metrics.mean_squared_error(y_true, y_pred))
其中,y_true為真實(shí)的線下考核成績,y_pred為通過線性回歸模型預(yù)測得到的線下考核成績。各模型的RMSE值如下頁圖6所示。
由圖6可知,視頻觀看時長1及視頻觀看時長2組合變量與線下考核成績的多元線性回歸模型的RMSE值最小,說明真實(shí)線下考核成績與預(yù)測線下考核成績的誤差最小,該線性回歸模型較優(yōu),更適合用于評價學(xué)生在線學(xué)習(xí)的效果,以及用于學(xué)生在線學(xué)習(xí)個性化的推薦。
圖6 線性回歸模型的RMSE值
筆者基于中國大學(xué)MOOC慕課平臺的學(xué)習(xí)數(shù)據(jù)統(tǒng)計數(shù)據(jù),對在線學(xué)習(xí)各項數(shù)據(jù)與線下考核成績的線性相關(guān)性進(jìn)行了深入研究。在此基礎(chǔ)上,筆者繼續(xù)研究了不同慕課課程視頻觀看時長對線下考核成績的影響程度大小,發(fā)現(xiàn)《Python數(shù)據(jù)分析與展示》慕課學(xué)習(xí)時長的變化對線下考核成績的影響更大,因此,有針對性地向?qū)W生進(jìn)行個性化的慕課資源推薦。后續(xù),筆者將繼續(xù)引入更多的慕課平臺學(xué)習(xí)數(shù)據(jù),通過數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)對學(xué)生的在線學(xué)習(xí)個性化問題進(jìn)行更為深入的研究。