宗陽+孫洪濤+張亨國+鄭勤華+陳麗
【摘 要】 目前,MOOCs(大規(guī)模開放在線課程)在世界范圍內(nèi)迅猛發(fā)展,但是隨之而來的是對(duì)MOOCs學(xué)習(xí)質(zhì)量和高輟學(xué)率等現(xiàn)象的質(zhì)疑?,F(xiàn)有MOOCs平臺(tái)大都對(duì)學(xué)習(xí)者在線學(xué)習(xí)行為有較為詳細(xì)的記錄。如何對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析、建模和解讀是大數(shù)據(jù)時(shí)代教育研究的熱點(diǎn)和難點(diǎn)所在。邏輯回歸方法作為一種成熟的機(jī)器學(xué)習(xí)方法可以有效地建立學(xué)習(xí)行為和學(xué)習(xí)效果之間的模型。本研究總結(jié)了在線學(xué)習(xí)領(lǐng)域邏輯回歸研究的流程,在此基礎(chǔ)上,從MOOCs在線學(xué)習(xí)過程出發(fā)構(gòu)建了學(xué)習(xí)行為指標(biāo),并應(yīng)用邏輯回歸對(duì)MOOCs學(xué)習(xí)數(shù)據(jù)進(jìn)行分析,就學(xué)習(xí)者在線學(xué)習(xí)行為對(duì)學(xué)習(xí)成績的影響展開了探索。研究檢驗(yàn)了邏輯回歸對(duì)于在線學(xué)習(xí)效果研究的價(jià)值,發(fā)現(xiàn)了課程注冊(cè)時(shí)滯、登錄課程次數(shù)、提交作業(yè)測(cè)試次數(shù)、習(xí)題保存次數(shù)的均值和視頻觀看完成度等指標(biāo)與成績的相關(guān)性。研究發(fā)現(xiàn):在該課程中提交作業(yè)測(cè)試可以作為MOOCs學(xué)習(xí)成績預(yù)測(cè)的關(guān)鍵指標(biāo),所構(gòu)建的邏輯回歸模型預(yù)測(cè)準(zhǔn)確率達(dá)到98%。
【關(guān)鍵詞】 MOOCs;邏輯回歸;在線學(xué)習(xí)行為;學(xué)習(xí)效果
【中圖分類號(hào)】 G420 【文獻(xiàn)標(biāo)識(shí)碼】 A 【文章編號(hào)】 1009—458x(2016)05—0014—09
一、引 言
近年來,MOOCs的快速發(fā)展使其教學(xué)效果受到越來越多的關(guān)注。MOOCs學(xué)習(xí)的規(guī)模效應(yīng),使得在MOOCs中難以開展個(gè)性化的教學(xué)。有研究對(duì)目前部分高校主流MOOCs平臺(tái)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)表明,雖然課程完成率有達(dá)到40%的情況,但大部分課程完成率不到10%(Jordan, K., 2013)。大規(guī)模的學(xué)習(xí)者注冊(cè)似乎意味著大規(guī)模的輟學(xué)率和未通過率,提高M(jìn)OOCs學(xué)習(xí)者的學(xué)習(xí)效果是當(dāng)前包括MOOCs在內(nèi)的在線教育面臨的重大難題。大量研究通過對(duì)不同環(huán)境中在線學(xué)習(xí)行為與學(xué)習(xí)效果的關(guān)系進(jìn)行實(shí)證研究,發(fā)現(xiàn)學(xué)習(xí)者的在線行為對(duì)學(xué)習(xí)效果有著重要影響(F. Kizilcec, 2013; 姜藺, 韓錫斌, 2013; 宏梅, 2008; 呂媛, 2004)。
已有關(guān)于在線行為與學(xué)習(xí)效果的關(guān)系研究中,在線行為特征的獲取大多是基于學(xué)習(xí)者學(xué)習(xí)過程中的單一維度或某幾項(xiàng)維度,如學(xué)習(xí)者的注冊(cè)時(shí)間,什么時(shí)間與何種課程資源交互,如何交互以及交互的程度,練習(xí)次數(shù)、成績、錯(cuò)誤率、錯(cuò)誤的內(nèi)容和學(xué)習(xí)成績等(Macfadyen, 2010; RaMesh, 2013; Balakrishnan, 2013; 蔣卓軒, 2014)。關(guān)于學(xué)習(xí)行為與學(xué)習(xí)效果之間關(guān)系的研究,由于在線學(xué)習(xí)過程的復(fù)雜性,相關(guān)研究所得出的結(jié)論也不盡相同。例如王萍(2015)的研究表明學(xué)習(xí)者觀看視頻數(shù)和學(xué)習(xí)章節(jié)數(shù)等參與行為與學(xué)習(xí)成績沒有直接關(guān)系,而賈積有等(2014)的研究表明觀看視頻次數(shù)、觀看網(wǎng)頁次數(shù)、瀏覽和下載講義次數(shù)等學(xué)習(xí)行為與學(xué)習(xí)成績呈顯著相關(guān)。
MOOCs學(xué)習(xí)者的學(xué)習(xí)效果受到諸多因素的影響。為了全面深入地探索學(xué)習(xí)效果的影響因素,研究者需要對(duì)反映整體學(xué)習(xí)過程的大量數(shù)據(jù)進(jìn)行挖掘和分析。本研究從MOOCs學(xué)習(xí)者整體學(xué)習(xí)過程出發(fā),構(gòu)建MOOCs學(xué)習(xí)者學(xué)習(xí)行為分析框架,通過對(duì)一門實(shí)際MOOC中行為數(shù)據(jù)進(jìn)行分析,應(yīng)用邏輯回歸方法分析MOOCs學(xué)習(xí)者的影響因素。
二、在線學(xué)習(xí)領(lǐng)域的邏輯回歸研究
(一)邏輯回歸及相關(guān)研究
邏輯回歸(Logistic Regression, LR)是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的常見方法之一,屬于有監(jiān)督的學(xué)習(xí)方法。它根據(jù)一個(gè)或多個(gè)連續(xù)型或離散型自變量來分析和預(yù)測(cè)離散型因變量的廣義線性回歸。邏輯回歸的因變量通常為類別等離散變量。二元邏輯回歸是最常用形式之一,其因變量只包含兩個(gè)類別值。在線學(xué)習(xí)分析中,常常會(huì)遇到一些表示研究對(duì)象狀態(tài)的離散變量,例如學(xué)習(xí)者參與課程后能否取得好的學(xué)習(xí)效果,獲得相應(yīng)證書,考試能否及格得到相應(yīng)學(xué)分等。在在線學(xué)習(xí)環(huán)境中,學(xué)習(xí)者的學(xué)習(xí)行為體現(xiàn)在在線學(xué)習(xí)的各個(gè)方面,可以使用二元邏輯回歸方法分析學(xué)習(xí)行為對(duì)學(xué)習(xí)效果的影響。
在在線學(xué)習(xí)領(lǐng)域中,國外已經(jīng)有很多研究通過建立邏輯回歸模型來對(duì)學(xué)習(xí)者的學(xué)習(xí)表現(xiàn)等進(jìn)行分析和預(yù)測(cè)。例如Harrell Ⅱ和Bower(2011)選取了學(xué)習(xí)者的三個(gè)特征(聽覺學(xué)習(xí)風(fēng)格、計(jì)算機(jī)技能和成績平均積點(diǎn)),通過邏輯回歸分析確定模型,預(yù)測(cè)基于學(xué)習(xí)社區(qū)的學(xué)習(xí)者是否會(huì)輟學(xué);San等人(2013)通過智能引導(dǎo)系統(tǒng)搜集學(xué)習(xí)者在初中階段的學(xué)習(xí)過程中所表現(xiàn)的學(xué)習(xí)投入及情感特征來預(yù)測(cè)其是否能上大學(xué);Park和Choi(2009)從個(gè)體特征、家庭社會(huì)因素和心理三方面探究影響成人學(xué)習(xí)者在線課程輟學(xué)率的因素,并預(yù)測(cè)學(xué)習(xí)者成功的可能性。
與國外相比,國內(nèi)關(guān)于在線學(xué)習(xí)領(lǐng)域應(yīng)用邏輯回歸的相關(guān)研究較少。較有代表性的研究為蔣卓軒等(2014)運(yùn)用邏輯回歸等方法,通過看視頻次數(shù)、提交測(cè)驗(yàn)次數(shù)、記錄密度、論壇發(fā)帖次數(shù)、論壇看帖次數(shù)和注冊(cè)時(shí)間距離開課日期的天數(shù)6個(gè)行為特征,對(duì)學(xué)習(xí)者的最后學(xué)習(xí)成果進(jìn)行了預(yù)測(cè)。
文獻(xiàn)研究發(fā)現(xiàn),在線教育領(lǐng)域中的邏輯回歸的相關(guān)研究大多針對(duì)標(biāo)志學(xué)習(xí)過程或結(jié)果的某一重要變量作為因變量(如是否輟學(xué)、是否考試及格等),分析各種自變量(如特征變量、行為變量和心理學(xué)變量等)與因變量的相關(guān)關(guān)系,最終實(shí)現(xiàn)分類和預(yù)測(cè)的目的。
(二)在線學(xué)習(xí)領(lǐng)域邏輯回歸研究的流程
在借鑒上述研究的基礎(chǔ)上,本研究對(duì)在線學(xué)習(xí)領(lǐng)域邏輯回歸研究的一般流程進(jìn)行了梳理。
1.變量選擇
變量選擇是邏輯回歸的第一個(gè)步驟。變量要滿足自變量與因變量的密切相關(guān),以及各個(gè)自變量之間相互獨(dú)立的兩個(gè)條件。為保證變量選擇的合理和有效,需要對(duì)變量進(jìn)行完整的預(yù)處理和相關(guān)性分析。
從原始數(shù)據(jù)集抽取變量時(shí),需要對(duì)指標(biāo)進(jìn)行數(shù)據(jù)預(yù)處理。通過預(yù)處理對(duì)變量的缺失值和異常值等進(jìn)行處理,剔除不符合要求的數(shù)據(jù)。為了有效地建立邏輯回歸模型,需要對(duì)變量進(jìn)行相關(guān)分析,應(yīng)盡可能地將顯著相關(guān)的自變量選入建模過程。例如,Park和Choi(2009)選取了性別、年齡、教育程度、家庭支持、組織支持、學(xué)習(xí)者滿意度與課程關(guān)聯(lián)度等變量研究成人學(xué)習(xí)者在線課程輟學(xué)率,并利用相關(guān)分析法進(jìn)一步分析了研究選擇的變量,發(fā)現(xiàn)性別、年齡和教育程度等人口學(xué)特征與學(xué)習(xí)者的輟學(xué)與否在統(tǒng)計(jì)學(xué)意義上并不相關(guān),因此剔除了這3個(gè)變量,將家庭支持、組織支持、學(xué)習(xí)者滿意度與課程關(guān)聯(lián)度這4個(gè)顯著相關(guān)的自變量放入邏輯回歸的模型中。
2.邏輯回歸建模
確定進(jìn)入邏輯回歸的變量后,需要將數(shù)據(jù)樣本按一定的比例隨機(jī)分成訓(xùn)練集和驗(yàn)證集,每次實(shí)驗(yàn)用訓(xùn)練集訓(xùn)練參數(shù),用驗(yàn)證集驗(yàn)證預(yù)測(cè)精度。例如Harrell Ⅱ 和Bower(2011)在225份有效樣本中隨機(jī)選擇了116條數(shù)據(jù)(51.6%),用于初步的逐步邏輯回歸,余下的109條數(shù)據(jù)用于驗(yàn)證模型的預(yù)測(cè)精度。
邏輯回歸建模具體可細(xì)分為向前引入法、向后剔除法和逐步回歸法,三種方法各有優(yōu)劣。San等人(2013)選用初中生的知識(shí)量、習(xí)題正確率、投入度、粗心、無聊、困惑、開小差等9個(gè)特征變量采用向后剔除的方法進(jìn)行邏輯回歸建模預(yù)測(cè)學(xué)習(xí)者是否能升入大學(xué)。
就在線教育邏輯回歸研究而言,對(duì)模型的教育意義進(jìn)行分析是關(guān)鍵環(huán)節(jié)。模型計(jì)算是一個(gè)客觀過程,但其初步結(jié)果不一定具有合理的教育學(xué)解釋。當(dāng)模型和遠(yuǎn)程教育既有研究和實(shí)踐有差異時(shí),需要對(duì)數(shù)據(jù)和建模過程進(jìn)行反復(fù)分析和驗(yàn)證,甚至引入其他數(shù)據(jù)分析與挖掘方法輔助分析,才能確定最終的結(jié)論。
3.模型應(yīng)用效果評(píng)價(jià)
研究建立的邏輯回歸模型可以通過一系列指標(biāo)進(jìn)行評(píng)價(jià)。常見的評(píng)價(jià)指標(biāo)包括正確率、錯(cuò)誤率、靈敏性和特效性等,以及一些綜合性判斷指標(biāo),如ROC曲線、KS值和Lift值等。最直觀有效的評(píng)價(jià)指標(biāo)是模型的預(yù)測(cè)準(zhǔn)確率。此外,ROC曲線通過曲線下的面積(AUC分?jǐn)?shù))來表征模型準(zhǔn)確度。面積越大的模型對(duì)應(yīng)的模型準(zhǔn)確度越高。如Harrell Ⅱ 和Bower(2011)通過ROC曲線下面的面積(AUC分?jǐn)?shù)為0.617)進(jìn)一步評(píng)估3個(gè)變量模型的有效性,表明所選取的變量能夠有效預(yù)測(cè)學(xué)習(xí)者在線社區(qū)活動(dòng)的持久性。
三、MOOCs學(xué)習(xí)行為分析指標(biāo)
為了分析學(xué)習(xí)行為與學(xué)習(xí)效果之間的關(guān)系,需要對(duì)MOOCs的學(xué)習(xí)過程進(jìn)行解析。在現(xiàn)有研究中,學(xué)習(xí)行為大多基于“注冊(cè)—聽課—課堂隨測(cè)—作業(yè)—討論—考試—結(jié)業(yè)—證書”(孫立會(huì), 2014)的基本流程。賈積有等(2014)通過Coursera平臺(tái)上6門MOOCs中學(xué)習(xí)者的在線行為數(shù)據(jù),分析學(xué)習(xí)行為數(shù)據(jù)及其與成績的關(guān)系。結(jié)果表明:成績與開始學(xué)習(xí)時(shí)間呈顯著負(fù)相關(guān),與在線時(shí)間、觀看視頻次數(shù)、觀看網(wǎng)頁次數(shù)、瀏覽和下載講義次數(shù)、平時(shí)測(cè)驗(yàn)成績之和、論壇參與程度(發(fā)帖、回帖)6個(gè)指標(biāo)呈顯著正相關(guān)。王萍(2015)基于edX 平臺(tái)開放數(shù)據(jù)對(duì)學(xué)習(xí)者進(jìn)行研究,選取注冊(cè)課程時(shí)間、最后登錄時(shí)間、課程交互次數(shù)、課程訪問天數(shù)、播放視頻次數(shù)、學(xué)習(xí)章節(jié)數(shù)和論壇發(fā)帖數(shù)來探索中外MOOCs學(xué)習(xí)者的學(xué)習(xí)行為和特征。研究發(fā)現(xiàn),獲得證書的學(xué)習(xí)者一般瀏覽了較多的課程章節(jié)內(nèi)容,但在視頻觀看上,成績較高的學(xué)習(xí)者也沒有顯著的視頻訪問增加行為。蔣卓軒等(2014)通過分析挖掘北京大學(xué)在Coursera平臺(tái)上6門MOOCs中學(xué)習(xí)者的在線行為數(shù)據(jù),選擇了觀看視頻次數(shù)、提交測(cè)驗(yàn)次數(shù)、記錄密度、論壇發(fā)帖次數(shù)、論壇看帖次數(shù)、注冊(cè)時(shí)間距離開課日期的天數(shù)6個(gè)與學(xué)習(xí)成績有影響且課程共有的特征對(duì)學(xué)習(xí)者的成績進(jìn)行預(yù)測(cè),得到了較高的預(yù)測(cè)準(zhǔn)確率。
通過對(duì)已有研究的分析發(fā)現(xiàn),其選取的學(xué)習(xí)行為在完整性方面存在一定不足,可以建立更為完整的學(xué)習(xí)行為分析指標(biāo),表征在線學(xué)習(xí)過程。在已有研究的基礎(chǔ)上,結(jié)合學(xué)習(xí)者實(shí)際在線學(xué)習(xí)過程,將MOOCs學(xué)習(xí)者在線學(xué)習(xí)過程歸納為學(xué)前準(zhǔn)備、登錄平臺(tái)、資源學(xué)習(xí)、交流討論和作業(yè)考核等階段,并根據(jù)數(shù)據(jù)情況構(gòu)建了18個(gè)MOOCs學(xué)習(xí)行為指標(biāo),具體指標(biāo)及指標(biāo)編碼如表1所示。
(一)準(zhǔn)備與登錄
MOOCs學(xué)習(xí)者登錄過程可以分為注冊(cè)課程前和注冊(cè)課程后兩個(gè)過程,對(duì)應(yīng)到二級(jí)分析維度上主要包括學(xué)前準(zhǔn)備和出勤兩個(gè)方面。學(xué)前準(zhǔn)備通過學(xué)習(xí)者注冊(cè)課程前瀏覽課程詳細(xì)頁次數(shù)和注冊(cè)課程時(shí)滯兩個(gè)指標(biāo)來測(cè)量表征;出勤通過學(xué)習(xí)者登錄平臺(tái)課程的次數(shù)來表征。
(二)資源學(xué)習(xí)
視頻是xMOOCs中最為重要的學(xué)習(xí)資源,觀看視頻是此類MOOCs最為重要的學(xué)習(xí)方式(鄭勤華, 2015)。xMOOCs中視頻以外學(xué)習(xí)資源較少,可以匯總成一類。因此,資源學(xué)習(xí)將資源分為視頻和視頻以外的學(xué)習(xí)資源兩種。通過視頻資源學(xué)習(xí)情況、視頻資源學(xué)習(xí)堅(jiān)持情況和視頻以外其他資源學(xué)習(xí)情況三個(gè)維度進(jìn)行學(xué)習(xí)行為分析。視頻資源學(xué)習(xí)情況進(jìn)一步細(xì)分為每次登錄觀看視頻時(shí)長、視頻觀看完成度和視頻觀看密度三個(gè)指標(biāo)來表征。其中,視頻完成度(R_VF)體現(xiàn)學(xué)習(xí)者課程資源學(xué)習(xí)完成情況,計(jì)算方式為學(xué)習(xí)者觀看學(xué)習(xí)視頻總時(shí)長除以課程所有學(xué)習(xí)視頻總時(shí)長;視頻觀看密度(R_VD)體現(xiàn)了學(xué)習(xí)者課程資源學(xué)習(xí)的集中程度,計(jì)算方式為視頻觀看次數(shù)除以最后一次看視頻與首次觀看視頻的時(shí)間差。視頻資源學(xué)習(xí)堅(jiān)持情況用重復(fù)觀看視頻的次數(shù)、視頻重復(fù)觀看程度和提交作業(yè)測(cè)試后觀看所對(duì)應(yīng)視頻資源的次數(shù)三個(gè)指標(biāo)進(jìn)行表征。其中,視頻重復(fù)觀看程度(R_RF)體現(xiàn)學(xué)習(xí)者資源重復(fù)學(xué)習(xí)的程度,計(jì)算方式為重復(fù)觀看的視頻數(shù)除以視頻觀看數(shù)。
(三)論壇交互
在MOOCs學(xué)習(xí)的過程中,學(xué)習(xí)者可以根據(jù)需要與教師和其他學(xué)習(xí)者在論壇中進(jìn)行交互。針對(duì)該過程選取了學(xué)習(xí)者在論壇參與的交互情況,用學(xué)習(xí)者的論壇發(fā)帖數(shù)、論壇回帖數(shù)和論壇瀏覽次數(shù)三個(gè)指標(biāo)進(jìn)行表征。
(四)作業(yè)測(cè)試
在MOOCs中評(píng)價(jià)手段相對(duì)比較單一,對(duì)學(xué)習(xí)者的學(xué)習(xí)評(píng)價(jià)大都通過作業(yè)和測(cè)試進(jìn)行。本研究選取了學(xué)習(xí)任務(wù)完成量和完成積極性兩個(gè)維度進(jìn)行分析。用提交作業(yè)測(cè)試次數(shù)和習(xí)題保存次數(shù)的均值來表征學(xué)習(xí)任務(wù)的完成量;用提交作業(yè)測(cè)試與發(fā)布時(shí)間差、作業(yè)測(cè)試提交密度和提交作業(yè)測(cè)試時(shí)間間隔來表征完成學(xué)習(xí)任務(wù)的積極性。其中,作業(yè)測(cè)試提交密度(T_AD)體現(xiàn)學(xué)習(xí)者進(jìn)行作業(yè)測(cè)試的集中程度,計(jì)算方式為作業(yè)提交次數(shù)除以最后一次提交作業(yè)測(cè)試與首次提交作業(yè)測(cè)試的時(shí)間差。
四、案例研究
本研究選取365大學(xué)平臺(tái)上一門MOOC中的學(xué)習(xí)行為數(shù)據(jù),采用邏輯回歸方法對(duì)學(xué)習(xí)者學(xué)習(xí)成績進(jìn)行分析。該MOOC開課時(shí)間為2015年10月01日,結(jié)束時(shí)間為2016年01月16日。在開課期間共有512人參與學(xué)習(xí)。該MOOC共有42個(gè)教學(xué)視頻,課程評(píng)價(jià)采用章節(jié)作業(yè)、測(cè)試和期末測(cè)試的形式,共有12個(gè)課后單元作業(yè)測(cè)試和一個(gè)期末考試測(cè)試。該案例中用學(xué)習(xí)者課程成績表征學(xué)習(xí)者的學(xué)習(xí)效果,將成績合格與否作為因變量,MOOCs學(xué)習(xí)行為的18個(gè)指標(biāo)作為自變量,按照在線學(xué)習(xí)領(lǐng)域邏輯回歸研究流程對(duì)學(xué)習(xí)者學(xué)習(xí)效果進(jìn)行預(yù)測(cè)。
(一)變量選擇
1. 數(shù)據(jù)預(yù)處理
本研究18個(gè)預(yù)設(shè)學(xué)習(xí)行為指標(biāo)涉及次數(shù)、時(shí)間間隔、時(shí)長、均值、比率等多類數(shù)據(jù)。絕大部分測(cè)量指標(biāo)需要通過算法對(duì)相關(guān)數(shù)據(jù)表原始數(shù)據(jù)進(jìn)行計(jì)算后獲得數(shù)據(jù)。首先,根據(jù)預(yù)設(shè)指標(biāo)意義和原始數(shù)據(jù)庫表結(jié)構(gòu)編寫獲取指標(biāo)數(shù)據(jù)的算法,然后根據(jù)算法編寫SQL函數(shù)及存儲(chǔ)過程獲取學(xué)習(xí)者樣本在18個(gè)指標(biāo)上的數(shù)據(jù)值。將指標(biāo)數(shù)據(jù)首先進(jìn)行缺失值和異常值處理,剔除缺失樣例和缺失數(shù)據(jù)較多的指標(biāo)變量。MOOC中論壇交互較低是較為普遍的現(xiàn)象,本研究的MOOC論壇中僅有9條帖子,經(jīng)過分析發(fā)現(xiàn),論壇帖子內(nèi)容均是關(guān)于考試的評(píng)論與咨詢,與學(xué)習(xí)者學(xué)習(xí)效果無關(guān),因此,將論壇交互的三個(gè)指標(biāo)論壇發(fā)帖數(shù)(F_PC)、論壇回帖數(shù)(F_RC)和論壇瀏覽次數(shù)(F_VC)剔除。在變量缺失值和0值統(tǒng)計(jì)分析中發(fā)現(xiàn),在案例MOOC中訪問課程其他學(xué)習(xí)資源的次數(shù)(R_WV)、重復(fù)觀看視頻次數(shù)(R_VR)、視頻重復(fù)觀看程度(R_RF)、提交作業(yè)測(cè)試后觀看對(duì)應(yīng)視頻資源的次數(shù)(R_AV)和提交作業(yè)測(cè)試時(shí)間間隔(T_DC)5個(gè)指標(biāo)的缺失值和0值所占比例均超過了72%。因此,將上述5個(gè)指標(biāo)變量剔除,剩下指標(biāo)變量進(jìn)入相關(guān)性分析步驟。
2. 相關(guān)性分析
將預(yù)處理后剩余的10個(gè)指標(biāo)與學(xué)習(xí)者成績使用SPSS Statistics 20進(jìn)行Pearson相關(guān)分析,結(jié)果如表2所示??梢钥闯?,瀏覽課程詳情頁面次數(shù)(L_IV)和視頻觀看密度(R_VD)兩個(gè)指標(biāo)與學(xué)習(xí)成績沒有顯著相關(guān)性;每次登錄觀看視頻時(shí)長(R_TS)和作業(yè)測(cè)試提交密度(T_AD)雖然與學(xué)習(xí)成績?cè)?.01水平上顯著相關(guān),但是相關(guān)系數(shù)均<0.2,即基本與學(xué)習(xí)成績無關(guān);在剩下的6個(gè)指標(biāo)中,從相關(guān)系數(shù)可以看出,提交測(cè)試作業(yè)次數(shù)(T_QC)以及提交習(xí)題與發(fā)布習(xí)題時(shí)間差的均值(T_DA)和習(xí)題保存次數(shù)的均值(T_TS)之間均值在0.01水平上顯著相關(guān),并且相關(guān)性為.772和.629,因此T_QC與T_DA和T_TS之間存在較強(qiáng)的共線性。研究發(fā)現(xiàn),提交作業(yè)測(cè)試次數(shù)(T_QC)與成績之間的相關(guān)性為.971,而本研究MOOC學(xué)習(xí)者成績最后是由測(cè)試作業(yè)成績按一定比例權(quán)重累加給定,學(xué)習(xí)者提交作業(yè)測(cè)試次數(shù)和學(xué)習(xí)成績高相關(guān)性的現(xiàn)象表明學(xué)習(xí)者只要提交了作業(yè)測(cè)試就會(huì)有好的成績,這可能與該課程考核形式相對(duì)簡單有關(guān)?;诠簿€性關(guān)系,本研究決定剔除提交測(cè)試作業(yè)次數(shù)(T_QC)指標(biāo)。綜上所述,共有5個(gè)指標(biāo),即課程注冊(cè)時(shí)滯(L_TL)、登錄課程次數(shù)(L_LC)、提交習(xí)題測(cè)試時(shí)間與發(fā)布時(shí)間差的均值(T_DA)、習(xí)題保存次數(shù)的均值(T_TS)和視頻觀看完成度(R_VF)進(jìn)入初步邏輯回歸建模過程。
(二)邏輯回歸建模
1. 初步模型構(gòu)建
本研究采用邏輯回歸分析中的二元邏輯回歸模型,探討在MOOCs中學(xué)習(xí)者學(xué)習(xí)合格的發(fā)生概率。假設(shè)P為學(xué)習(xí)者學(xué)習(xí)合格的發(fā)生概率,其取值范圍為[0,1],(1-P)即為不合格的概率。為學(xué)習(xí)合格邏輯回歸發(fā)生比,對(duì)其取自然對(duì)數(shù)為 ln[]。
利用(2)式便可以計(jì)算MOOCs中學(xué)習(xí)者學(xué)習(xí)合格的發(fā)生概率。
在本案例中,將學(xué)習(xí)者成績轉(zhuǎn)化為合格(分?jǐn)?shù)>=60)和不合格(分?jǐn)?shù)<60)二元因變量,上述5個(gè)指標(biāo)作為自變量,進(jìn)行邏輯回歸的結(jié)果如表3所示。
可以看出自變量與因變量之間具有較強(qiáng)的關(guān)聯(lián)強(qiáng)度,Hosmer和 Lemeshow檢驗(yàn)結(jié)果達(dá)到顯著,說明該模型適配度較差。5個(gè)指標(biāo)中只有登錄課程次數(shù)(L_LC)可以預(yù)測(cè)解釋學(xué)習(xí)者成績合格與否。該模型預(yù)測(cè)分類正確率結(jié)果如表4所示。
可以看出,該模型預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)合格的正確率達(dá)到99.5%,預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)不合格的正確率達(dá)到75.9%,整體預(yù)測(cè)正確率為93%。
上述模型預(yù)測(cè)準(zhǔn)確率較高,但是模型適配度不佳。通過進(jìn)一步分析發(fā)現(xiàn),視頻觀看完成度(R_VF)與學(xué)習(xí)成績合格的相關(guān)性系數(shù)最高為1.144,但是卻沒有達(dá)到顯著水平,并且習(xí)題保存次數(shù)的均值(T_TS)與學(xué)習(xí)成績出現(xiàn)負(fù)相關(guān)系數(shù)為-.085。本研究案例課程學(xué)習(xí)資源基本上全部為視頻,但是視頻觀看完成度(R_VF)與學(xué)習(xí)成績未達(dá)到顯著相關(guān)。為了深入分析這一現(xiàn)象,筆者對(duì)相關(guān)數(shù)據(jù)進(jìn)行了進(jìn)一步分析。
2. 聚類分析基礎(chǔ)上的模型構(gòu)建
基于上述推測(cè),利用SPSS Modeler 14.2將學(xué)習(xí)者的視頻觀看完成度(R_VF)和提交測(cè)試作業(yè)次數(shù)(T_QC)與學(xué)習(xí)成績進(jìn)行K-means聚類,當(dāng)K=3時(shí)達(dá)到較好的聚類效果,平均輪廓=0.8,聚類結(jié)果如圖1所示。
圖1 聚類結(jié)果
從聚類結(jié)果可以看出,聚類-1這個(gè)類別占據(jù)50%,平均成績89.59,處在較高的水平;而視頻完成度平均為0.08,處于較低的水平。這說明有一半的學(xué)習(xí)者未觀看視頻,僅提交了作業(yè),并取得了較好的成績。本研究按照上述分類結(jié)果將學(xué)習(xí)者樣本分為兩組,一組是基本不觀看視頻直接提交測(cè)試作業(yè)取得高分的學(xué)習(xí)者共256個(gè)(稱為異常組),剩余部分樣本共256個(gè)(稱為正常組)。在上一步的基礎(chǔ)上剔除與所有學(xué)習(xí)者學(xué)習(xí)成績顯著相關(guān)提交測(cè)試作業(yè)次數(shù)(T_QC)指標(biāo)后重新對(duì)異常組和正常組分別進(jìn)行邏輯回歸,結(jié)果如表5和表6所示。
正常組邏輯回歸預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)成績合格與否正確率如表7所示。
通過對(duì)比上述兩組邏輯回歸結(jié)果可以發(fā)現(xiàn),異常組沒有行為指標(biāo)可以預(yù)測(cè)解釋成績合格與否,自變量和因變量之間的關(guān)聯(lián)強(qiáng)度非常低,這進(jìn)一步驗(yàn)證了本研究的推測(cè),該組學(xué)習(xí)者可能僅為拿到學(xué)分,采取只提交測(cè)試作業(yè)而不觀看視頻資源的學(xué)習(xí)方式。正常組邏輯回歸發(fā)現(xiàn)視頻觀看完成度(R_VF)和登錄課程次數(shù)(L_LC)可以有效預(yù)測(cè)解釋學(xué)習(xí)成績合格與否,自變量與因變量之間的關(guān)聯(lián)強(qiáng)度很高,模型適配度較好,模型預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)合格的正確率達(dá)到98.3%,預(yù)測(cè)學(xué)習(xí)者學(xué)習(xí)不合格的正確率達(dá)到97.8%,整體預(yù)測(cè)正確率為98%。
3. 邏輯回歸方程
(三)模型應(yīng)用效果評(píng)價(jià)
本研究采用ROC曲線和AUC值來對(duì)案例MOOC形成的預(yù)測(cè)模型進(jìn)行效果評(píng)價(jià)。對(duì)于MOOCs中所有學(xué)習(xí)者的學(xué)習(xí)成績合格預(yù)測(cè)模型,預(yù)測(cè)結(jié)果ROC曲線如圖2所示,曲線下的面積(AUC)值為0.943,可以看出該模型雖然整體適配度不佳,但仍然具有非常好的預(yù)測(cè)效果。對(duì)于正常組學(xué)習(xí)者學(xué)習(xí)成績合格預(yù)測(cè)模型,預(yù)測(cè)結(jié)果ROC曲線如圖3所示,曲線下的面積(AUC)值為0.994,非常接近1,說明該模型幾乎是完美的預(yù)測(cè)模型。結(jié)合表3和表6所有學(xué)習(xí)者和正常組學(xué)習(xí)者學(xué)習(xí)成績合格邏輯回歸結(jié)果可以看出,正常組學(xué)習(xí)成績預(yù)測(cè)模型在關(guān)聯(lián)強(qiáng)度、整體模型適配度和ROC曲線AUC值上比所有學(xué)習(xí)者預(yù)測(cè)模型均有較為明顯的提升,并且模型預(yù)測(cè)準(zhǔn)確率由93%提高到98%。
五、討論與總結(jié)
通過案例研究,一方面發(fā)現(xiàn)了在線學(xué)習(xí)行為與學(xué)習(xí)成績之間的關(guān)聯(lián)性,另一方面也驗(yàn)證了邏輯回歸方法在遠(yuǎn)程教育中的實(shí)踐價(jià)值。
(一)在線學(xué)習(xí)行為與學(xué)習(xí)成績顯著相關(guān)
研究發(fā)現(xiàn)了多個(gè)學(xué)習(xí)行為指標(biāo)與學(xué)習(xí)效果顯著相關(guān),包括課程注冊(cè)時(shí)滯(L_TL,相關(guān)性-.294)、登錄課程次數(shù)(L_LC,相關(guān)性.482)、提交作業(yè)測(cè)試次數(shù)(T_QC,相關(guān)性.971)、習(xí)題保存次數(shù)的均值(T_TS,相關(guān)性.591)和視頻觀看完成度(R_VF,相關(guān)性.340)。上述5個(gè)與學(xué)習(xí)成績顯著相關(guān)的指標(biāo)變量分布于在線學(xué)習(xí)的準(zhǔn)備與登錄、資源學(xué)習(xí)和作業(yè)測(cè)試三個(gè)維度,說明MOOCs學(xué)習(xí)者學(xué)習(xí)成績與在線學(xué)習(xí)行為的密切關(guān)系。
(二)提交作業(yè)測(cè)試是預(yù)測(cè)MOOCs學(xué)習(xí)成績的關(guān)鍵指標(biāo)
在所選的MOOC中,學(xué)習(xí)行為指標(biāo)中與學(xué)習(xí)者成績相關(guān)性最高的指標(biāo)是提交作業(yè)測(cè)試次數(shù)(T_QC),相關(guān)性為.971。在獲得學(xué)分的學(xué)習(xí)者中,提交作業(yè)測(cè)試次數(shù)與學(xué)習(xí)成績顯著正相關(guān)。這一現(xiàn)象一方面反映了作業(yè)和測(cè)試在評(píng)價(jià)中的有效性,在作業(yè)測(cè)試方面投入更多精力的學(xué)生獲得了更好的成績;另一方面,可能與當(dāng)前MOOCs作業(yè)測(cè)試設(shè)計(jì)相對(duì)簡單有關(guān),一定程度上反映了當(dāng)前MOOCs中形成性評(píng)價(jià)機(jī)制的問題。同時(shí),不排除有學(xué)習(xí)者通過多次試錯(cuò)獲得答案的可能性。
(三)應(yīng)用邏輯回歸可較有效地預(yù)測(cè)學(xué)習(xí)效果
本研究中應(yīng)用邏輯回歸的方法對(duì)所有學(xué)習(xí)者和正常組學(xué)習(xí)者學(xué)習(xí)效果進(jìn)行預(yù)測(cè),均取得了較好的預(yù)測(cè)效果。兩個(gè)預(yù)測(cè)模型預(yù)測(cè)正確率均在93%以上,模型應(yīng)用ROC曲線下的面積(AUC)均高于0.9,表明應(yīng)用邏輯回歸方法基于學(xué)習(xí)行為對(duì)學(xué)習(xí)效果進(jìn)行預(yù)測(cè)有著重要的實(shí)踐價(jià)值,可以通過邏輯回歸方法分析學(xué)習(xí)行為且較為有效地預(yù)測(cè)MOOCs學(xué)習(xí)效果。
(四)案例課程存在兩種典型學(xué)習(xí)模式
通過相關(guān)分析發(fā)現(xiàn),學(xué)習(xí)者視頻觀看完成度(R_VF)與成績相關(guān)性為.340,而在初步邏輯回歸建模過程中出現(xiàn)與學(xué)習(xí)成績相關(guān)但不顯著,并且習(xí)題保存次數(shù)均值(T_TS)出現(xiàn)負(fù)相關(guān)的異常情況。進(jìn)而通過聚類研究發(fā)現(xiàn),有50%的學(xué)習(xí)者視頻觀看完成度很低,但是提交了作業(yè)測(cè)試,并取得較高的學(xué)習(xí)成績。在對(duì)異常組和正常組學(xué)習(xí)者分別進(jìn)行邏輯回歸中發(fā)現(xiàn)了行為指標(biāo)對(duì)這兩類學(xué)習(xí)者的學(xué)習(xí)效果預(yù)測(cè)有著很大差異。正常組學(xué)習(xí)成績預(yù)測(cè)模型具有很高的準(zhǔn)確率,但異常組沒有發(fā)現(xiàn)能有效解釋預(yù)測(cè)學(xué)習(xí)成績的指標(biāo)。
這說明了案例課程中存在兩種典型模式:一類學(xué)習(xí)者通過正常的學(xué)習(xí)流程,先進(jìn)行資源學(xué)習(xí),進(jìn)而完成作業(yè)和測(cè)試;另一類學(xué)習(xí)者則不通過資源學(xué)習(xí)直接提交作業(yè)測(cè)試,獲得成績。后者的成因有待深入研究,可能存在其他學(xué)習(xí)方式替代了在線學(xué)習(xí)過程。學(xué)習(xí)模式的差異直接導(dǎo)致了學(xué)習(xí)行為的差異。這表明在應(yīng)用邏輯回歸方法建模前,通過無監(jiān)督機(jī)器方法對(duì)學(xué)習(xí)者進(jìn)行類別劃分將對(duì)模型的有效性起到重要作用。
綜上所述,邏輯回歸方法作為一種有監(jiān)督的機(jī)器學(xué)習(xí)方法在學(xué)習(xí)分析領(lǐng)域有著重要意義,通過邏輯回歸可以較為有效地預(yù)測(cè)MOOCs學(xué)習(xí)者的學(xué)習(xí)效果。學(xué)習(xí)行為是預(yù)測(cè)在線學(xué)習(xí)效果的重要依據(jù)。但在模型構(gòu)建過程中,需要將有效的在線學(xué)習(xí)行為甄別出來,以此為依據(jù)構(gòu)建的模型才更為真實(shí)、可信。為了實(shí)現(xiàn)這個(gè)目標(biāo),研究者往往需要將多種數(shù)據(jù)分析與挖掘方法綜合應(yīng)用,并通過在線教育專家對(duì)分析結(jié)果不斷進(jìn)行深入解讀。領(lǐng)域?qū)<业闹R(shí)與數(shù)據(jù)分析挖掘方法的有機(jī)整合是在線教育領(lǐng)域中基于數(shù)據(jù)研究的質(zhì)量保障。
[參考文獻(xiàn)]
[1] BALAKRISHNAN G. Predicting student retention in massive open online courses using hidden markov models,UCB/EECS-2013-109[R/OL].Berkeley:University of California,Berkeley,2013.
[2] Ivan L. Harrell II & Beverly L. Bower (2011) Student Characteristics That Predict Persistence in Community College Online Courses, American Journal of Distance Education, 25:3, 178-191, DOI: 10.1080/08923647.2011.590107
[3] Jordan, K. MOOC Completion Rates: The Data[EB/OL]. http://www.
katyjordan.com/MOOCproject.html,2013-09-22.
[4] MACFAYDEN L P,DAWSON S.Minging LMS data to develop an “Early Waring” system for educators:a proof of concept[J]. Computers & Education,2010, 54( 2):588-599.
[5] Park, J.-H., & Choi, H. J. (2009). Factors Influencing Adult Learners Decision to Drop Out or Persist in Online Learning.Educational Technology & Society, 12 (4), 207-217.
[6] RAMESH A,GOLDWASSER D,HUANG B,et al,. Modeling learner engagement in MOOCs using probabilistic soft logic[C/OL]. //NIPS Workshop on Data Driven Educatio,2013[2014-06-0]. http://lytics. stanford.edu/datadriveneducation/papers/
[7] San Pedro, M.O.Z., Baker, R.S.J.d., Bowers, A.J., Heffernan, N.T. (2013) Predicting College Enrollment from Student Interaction with an Intelligent Tutoring System in Middle School. Proceedings of the 6th International Conference on Educational Data Mining, 177-184.ramshtal. pdf.
[8] 宏梅,劉滿貴,楊雋. 學(xué)習(xí)行為與學(xué)習(xí)效果的相關(guān)調(diào)查之研究——網(wǎng)絡(luò)多媒體教學(xué)模式下學(xué)習(xí)者英語自主學(xué)習(xí)調(diào)查與研究[J]. 大學(xué)英語(學(xué)術(shù)版),2008,(02):145-148.
[9] 賈積有,繆靜敏,汪瓊. MOOC學(xué)習(xí)行為及效果的大數(shù)據(jù)分析——以北大6門MOOC為例[J]. 工業(yè)和信息化教育,2014,(09):23-29.
[10] 姜藺,韓錫斌,程建鋼. MOOCs學(xué)習(xí)者特征及學(xué)習(xí)效果分析研究[J]. 中國電化教育,2013,(11):54-59、65.
[11] 蔣卓軒,張巖,李曉明. 基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測(cè)[J]. 計(jì)算機(jī)研究與發(fā)展,2015,(03):614-628.
[12] 呂媛,易銀沙,鄧昶,易尚輝. 網(wǎng)絡(luò)行為對(duì)學(xué)習(xí)者學(xué)習(xí)成績和心理健康狀況的影響[J]. 中國學(xué)校衛(wèi)生,2004,(02):250-251.
[13] 孫立會(huì). 開放教育基本特征的變遷——兼議MOOC之本源性問題[J]. 遠(yuǎn)程教育雜志,2014,(02):30-38.
[14] 田娜,陳明選. 網(wǎng)絡(luò)教學(xué)平臺(tái)學(xué)習(xí)者學(xué)習(xí)行為聚類分析[J]. 中國遠(yuǎn)程教育,2014,(11):38-41.
[15]王萍. 大規(guī)模在線開放課程的新發(fā)展與應(yīng)用:從cMOOC到xMOOC[J]. 現(xiàn)代遠(yuǎn)程教育研究,2013,(03):13-19.
[16] 薛薇. SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M]. 北京:電子工業(yè)出版社,2013.
[17] 鄭勤華,李秋菊,陳麗. 中國MOOCs教學(xué)模式調(diào)查研究[J]. 開放教育研究,2015,(06):71-79.
收稿日期:2016-03-16
定稿日期:2016-04-13
作者簡介:宗陽,在讀碩士;張亨國,在讀碩士;陳麗,博士,教授,博士生導(dǎo)師。北京師范大學(xué)遠(yuǎn)程教育研究中心(100875)。
孫洪濤,博士,高級(jí)工程師, 中央民族大學(xué)現(xiàn)代教育技術(shù)部(100081)。
鄭勤華,博士,副教授,北京師范大學(xué)教育學(xué)部(100875)。
責(zé)任編輯 韓世梅