孫洪濤++李秋劼++鄭勤華
【摘 要】
聚類分析是學習分析和數(shù)據挖掘的常見方法,其核心在于通過分析對象特征屬性集合的相似程度來進行分類。聚類分析在遠程教育中有著廣闊的應用空間,可以對在線學習行為模型和績效水平進行有效劃分,使之成為后續(xù)研究的重要基礎。對在線學習領域的典型聚類研究進行分析,將聚類研究的流程和要點進行總結,著重探討了聚類變量選擇和有效性檢驗等方面,并對252門MOOCs的在線交互狀況進行了聚類分析。研究發(fā)現(xiàn),我國大多數(shù)MOOCs交互水平較低,教師在交互中并不活躍,沒有進行積極的答疑輔導和交互組織;隨著教師發(fā)布主題帖數(shù)量的增加,課程的交互水平會隨之提高;教師的積極參與能夠促進課程交互水平,但在交互水平較高的課程中,教師投入的增加并沒有帶來課程交互水平的增長;教師需要對學生的交互進行有效組織,才能促進交互水平的進一步提高。
【關鍵詞】 聚類;MOOC;學習分析;交互分析
【中圖分類號】 G40-057 【文獻標識碼】 A 【文章編號】 1009—458x(2016)03—0033—07
隨著MOOCs的蓬勃發(fā)展,在線學習數(shù)據不斷激增,學習分析和教育大數(shù)據也越來越受到關注。如何通過數(shù)據提升教育教學質量,提高教學管理水平,促進有效學習發(fā)生,吸引著越來越多的研究者和實踐者。對在線學習過程數(shù)據的分析并非新生事物。從分析方法上,學習分析將統(tǒng)計分析、機器學習和復雜網絡等方法進行了整合應用;從數(shù)據來源上,由于教育自身的特殊規(guī)律,在線教育大數(shù)據之“大”不同于醫(yī)療、交通乃至其他互聯(lián)網領域,分析方法也有著不同的情境,需要遠程教育領域的研究作為指導。
聚類分析是數(shù)據挖掘和機器學習的常見方法之一,屬于無監(jiān)督學習(unsupervised learning),其核心在于分析對象特征屬性集合。通過分析對象屬性集合的相似程度,將其劃分為不同的類別,使類別內的數(shù)據相似度較大而類別間的數(shù)據相似度較小。從本質上,聚類分析是一種具有相對性的分析方法。在應用過程中,聚類分析可以對沒有客觀評價標準的對象屬性進行分析,從而獲得隱含的模式分類。聚類分析是研究在線學習的重要方法,在遠程教育中有著廣闊的應用空間,適用于在線教學中的多類問題解決。本文通過對在線學習領域的典型聚類研究進行分析,將此類聚類研究的流程和要點進行了總結,并通過聚類對252門MOOCs的在線交互狀況進行分析。
一、在線學習領域的聚類研究
在線學習領域的聚類多針對在線學習主體的屬性進行相似性分析并確定其類別。通過聚類分析學習者在學習環(huán)境或學習任務中的行為模式,分析學習者的特征屬性(如人口學特征),或探索多類屬性(如學習策略與學習績效等)之間的關系。
現(xiàn)有的聚類研究中,較常見的方式是通過在線學習平臺日志中的數(shù)據直接進行聚類分析,并以聚類結果為基礎分析學習者的行為模式或績效特征。例如,Amershi和 Conati(2006)在智能教學系統(tǒng)中對學習者的算法學習過程進行了分析,采用K-means基于描述學習者創(chuàng)建、修改和測試行為的24種變量進行聚類分析。該研究發(fā)現(xiàn),通過聚類分析可以將學習者劃分為不同類別,不同類別的學習者呈現(xiàn)出不同的學習行為和學習績效特征。
魏順平(2011)以Moodle教學平臺的forum、course、wiki、assignment、resource、user 行為為聚類變量,將學生分成了三類,分析了學生活躍度集中于forum、course 和wiki,但resource 模塊的訪問頻次卻很低,并分析了這一現(xiàn)象的可能成因。田娜和陳明選(2014)根據網絡學習平臺的系統(tǒng)日志對學生進行了K-means 聚類分析,將學生分成了兩類:一類是學前測試和學后測試成績優(yōu)秀的學生,另一類是學習比較活躍和花費時間較多的學生。研究者進而根據聚類結果對聚類影響因素進行了分析。
隨著MOOCs的發(fā)展,在線學習數(shù)據日益豐富。聚類研究也隨之走向深入,研究者試圖通過聚類來分析更為復雜的學習者特征。聚類分析的輸入變量漸漸由直接提取日志變量,變?yōu)橥ㄟ^日志中的單一變量進行整合和匯聚,試圖揭示深層次的學習規(guī)律。例如,斯坦福大學的Kizilcec等人(2013) 以學生在MOOCs平臺上觀看視頻和完成測驗的行為數(shù)據為基礎,設計了四類取值來表示學習者的學習狀態(tài)。其中,0為“out”,表示完全沒有參與到課程中;1 為“auditing”,表示沒有完成測驗但是觀看了視頻;2 為“behind”,表示在指定的時間點之后完成測驗;3為“on track”,表示學生按時完成測驗。研究者進而根據這些狀態(tài)變量對來自三門課程中的超過9萬名學生進行聚類,最終將學習者分為四類,包括“完成者”(Completing)“旁聽者”(Auditing)“低參與度者”(Disengaging)和“篩選者”(Sampling)。英國開放大學的Ferguson和Clow(2015)同樣采取了這種學習者狀態(tài)評定的研究方法,最終獲得了更為細致的七個學習者分類?;谶@一趨勢,我們對在線學習聚類研究的流程和要點進行了總結,并通過這一流程對在線學習中的典型聚類研究進行了解析。
二、在線學習研究中聚類的一般流程
1. 變量選擇
聚類研究的核心思路是通過一組變量的取值計算變量對應的對象相似程度。變量參數(shù)的選取對聚類研究有著非常重要的影響?;诟髯缘难芯繂栴},研究者需要從可獲得的數(shù)據中選擇或設計能夠表征學習特征的變量作為輸入到聚類算法中的原始參數(shù)。這些分析變量有些可以從學習平臺中直接獲得。例如, Beal等人 (2006)根據學習者自我報告的動機數(shù)據對學習者進行聚類。Amershi和Conati (2006) 選用描述學習者與學習環(huán)境之間各種交互的頻率以及兩次交互之間的時間間隔作為聚類變量,通過聚類得出學習者與學習環(huán)境交互的不同模式。
基于此類變量選擇的聚類分析較為簡便易行。但當涉及學習行為數(shù)據分析時,學習管理平臺記錄下來的數(shù)據往往較為瑣碎,難以體現(xiàn)足夠的教學意義。例如Moodle平臺(2.6以上版本)中僅view類行為就超過30種,通過這些行為直接進行聚類可能會使結果難以解讀。因此,為了確保聚類結果的實際意義,越來越多的研究者傾向于對學習平臺中的數(shù)據進行處理,聚合成新的、具有更強解釋力的數(shù)據。Kizilcec等人(2013)通過對測驗和視頻觀看情況分析獲得的參數(shù),能夠更好地對學習者的學習狀態(tài)進行表征。該研究抓住觀看視頻和完成測驗這兩個MOOCs學習中的常見行為,將學習者行為分成了四種情況,構建了學習過程評價的指標。基于這些指標參數(shù)進行了聚類,更好地對學習者類別進行了劃分。
通過上述分析可見,聚類分析的變量選擇可以簡單選取描述研究對象的某一類參數(shù)(如學習動機、交互頻次等),也可以通過該對象的多個相關參數(shù)進行聚合(如通過觀看視頻和完成測驗進行構建)。
2. 聚類過程
聚類分析通過對象屬性的相似性進行分類。對象相似性比較有多種方法,對應的聚類算法可以分為四類:層次化聚類算法、劃分式聚類算法、基于密度和網格的聚類算法和其他聚類算法(孫吉貴等,2008)。目前,采用較多的聚類算法包括K均值(K-means)聚類、 Kohonen 聚類和層次聚類(Hierarchical cluster)等。由于相似度比較具有一定程度的相對性,聚類結果(包括類別個數(shù)和對象特征)具有不確定性。不同聚類方法獲得的結果可能有所不同。聚類分析往往需要經過多輪迭代才能獲得有效的最終結果,在迭代過程中需要對不同聚類結果進行對比。
3. 類別分析
對聚類獲得的各類別的分析和解釋主要基于各類別原始參數(shù)的組內變量值域分布和組間值域差異。對于聚類結果的解釋和分析需要對各類對象進行概括的描述。通過取值高低來衡量活躍水平和學習績效等是常用的分析方法。例如,Amershi和 Conati(2006) 通過分析獲得的各類別學習績效的平均值,將聚類結果描述為高績效組和低績效組。同時,根據對高績效組和低績效組的比較,研究者進一步發(fā)現(xiàn)了低績效組較頻繁地對其算法設計進行調整,而每次調整之間的間隔較短。
但在更多的研究中,單純的變量數(shù)值高低難以對聚類結果進行有效解釋,需要進一步結合教學過程進行更加深入的解讀。Kizilcec等人(2013)根據聚合的狀態(tài)指標將MOOCs中的學習者劃分為四類: ① “完成者”,此類學習者完成了課程中大部分測驗; ② “旁聽者”,此類學習者持續(xù)觀看課程視頻,但是很少完成測驗;③ “低參與度者”,此類學習者在課程初期完成測驗,但是之后沒有持續(xù)下去;④ “篩選者”,此類學習者在課程進行過程中僅選擇性地觀看視頻并完成測驗。此類分析對學習過程進行了更為深入的解讀。值得注意的是,聚類結果的分析往往和聚類過程迭代進行。由于聚類方法的相對性,聚類結果并不一定可以獲得有效解釋。研究者往往需要對聚類的類別個數(shù)和聚類變量等進行不斷調整,才能最終獲得具有教學意義的有效解釋。
4. 有效性檢驗
聚類分析有效性的分析主要包括兩個方面,聚類變量自身的統(tǒng)計有效性和其他變量的意義一致性。統(tǒng)計意義上的有效性主要通過各類統(tǒng)計指標判斷。研究者可以通過調整類別數(shù)對比統(tǒng)計指標來獲取較好的聚類方案。例如,F(xiàn)erguson和Clow(2015)采用了側影(silhouette)指數(shù)來衡量某個聚類結果中同類別中對象之間的相似度以及不同類別之間對象的差異度。平均側影指數(shù)最大值為1,其值越接近1,聚類效果越好。在這兩個MOOCs學習者分類研究中,平均silhouette 指數(shù)分別約為0.8和0.5。此外,聚類結果各組內方差和(Within group sum of square)也是常用的指數(shù)之一,衡量各組內成員之間的距離。組內方差和越小,聚類效果越好。聚類輪廓系數(shù)是另一種常用聚類質量評價指標(朱連江等,2010),對聚類結果(聚類簇)的凝聚度和分離度進行整合,較為有效地對聚類有效性進行了評價。
此外,聚類結果的意義一致性需要根據聚類結果對聚類變量之外的變量進行分析,以此來判斷所獲得的類別中其他變量的取值情況是否符合類別分析。例如,通過分析MOOCs中“旁聽者”的學習成果,發(fā)現(xiàn)這類學習者中沒有人最終獲得課程證書,與這類學習者的行為特征相符。Beal等人(2006) 的研究中,對學習者自我報告的動機數(shù)據的聚類結果和教師對學習者動機和績效的評價相一致。
5. 擴展研究
聚類分析的重要性在于在沒有目標變量參照的情況下對研究對象進行分類,并可以成為后續(xù)研究的重要基礎。基于聚類結果,研究者既可以通過調查研究和理論研究,深入挖掘各類別對象的特性,也可以通過有監(jiān)督學習(supervised learning)探索影響因素和關聯(lián)關系,還可以作為教學干預研究的起點。
Kizilcec等人(2013)在聚類分析結果的基礎上,對四類MOOCs學習者的性別、年齡、工作狀態(tài)、學習目的、學習滿意度以及論壇參與情況等展開了調查和對比,豐富了對各個類別學習者的理解。通過對各類別學習者學習滿意度的分析,研究者發(fā)現(xiàn)“旁聽者”自我報告了與“完成者”類似的較高的學習滿意度,進而認為“旁聽者”與“完成者”之間學習行為的差異可能來源于兩類學習者不同的學習偏好,而未來的課程設計需要進一步發(fā)現(xiàn)“旁聽者”,并為他們提供針對性的服務。
Berland等人(2013)對新手程序員學習過程中的編程結果進行描述和聚類,發(fā)現(xiàn)了六種不同的學習狀態(tài)。在學習理論的支持下,該研究者發(fā)現(xiàn)了新手程序員學習的三個主要階段,包括探索階段、基于探索的修改階段以及改良階段,并根據數(shù)據對基于探索的修改階段進行了重新定義,加深了對程序員學習過程的認識。
Amershi和Conati(2006)在其關于探索性學習環(huán)境中聚類分析的研究中通過收集到的完整數(shù)據進行聚類之后,將聚類結果用于學習者實時數(shù)據分析中,通過聚類方法對學習者的學習進行實時監(jiān)控和測評,并基于聚類結果進行了教學干預。該研究還對聚類方法進行了優(yōu)化,分析了數(shù)據點采集的數(shù)量和分類結果準確性之間的關系,發(fā)現(xiàn)基于10%的數(shù)據也能夠對學習者進行較為準確的分類。
三、MOOCs交互聚類案例研究
1. 研究目標與數(shù)據來源
案例研究旨在通過對我國MOOCs交互數(shù)據進行聚類分析,發(fā)現(xiàn)其交互現(xiàn)狀,并對其交互特征進行探索。本研究的數(shù)據來自我國現(xiàn)有14個主要MOOCs 平臺中的課程。在這14個平臺中所有可見的1,388 門課程中,有622 門課程(占44.8%)在研究者訪問階段是可以瀏覽的,其他課程已經結束或還未正式開課,無法獲得完整的課程信息(鄭勤華等,2015)。由于MOOCs中的交互主要發(fā)生在課程論壇中,發(fā)帖和回帖是交互的主要形式(Barak et al., 2016),因此,本研究分析的是論壇交互。分析發(fā)現(xiàn),622門課程中產生了交互的僅有295門,占47.4%,327門課程(占52.6%)中沒有論壇交互。針對主題帖數(shù)量進行深入分析可以發(fā)現(xiàn),交互狀況極度不平衡(孫洪濤等,2016),在全部課程中僅有252門課程能夠采集到交互數(shù)據。本研究針對這些課程進行了分析。
2. 分析方法
本研究通過K-means聚類分析對存在有效交互的課程進行了分析。K-means 聚類算法是聚類分析中使用最為廣泛的算法之一。該算法選取 k個初始聚類中心,按最小距離原則將各樣本分配到 k 類中的某一類,之后不斷地計算類別中心,并調整各樣本的類別,最終使各樣本到其所屬類別中心的距離平方之和最小(周世兵等,2010)。本研究采用的分析工具是SPSS Modeler 14.1。
在聚類變量選取方面,為了更好地表征MOOCs交互特征,我們采取了數(shù)量變量和狀態(tài)變量相結合的方式。在論壇交互中,帖子數(shù)量、回帖的時間特性和教師的交互投入情況是表征論壇交互狀況的重要方面。在本研究中,我們采用了主題帖數(shù)、教師發(fā)布的主題帖數(shù)、教師答疑輔導帖數(shù)、回帖熱度和回帖時間間隔五個變量對MOOCs中的交互總量、交互時間和教師投入進行了分析。其中,主題帖、教師主題帖和答疑輔導帖等指標直接采用數(shù)量;回帖熱度采用等級表示,0為未回帖,1為每主題帖平均3個以下回帖,2為平均4-8個回帖,3為平均8個以上回帖;回帖時間間隔也采用了等級表示,其中1為12小時以內回帖,2為24小時之內回帖,3為24-48小時回帖,4為回帖間隔大于48小時,5為未回復。由于各類數(shù)據的取值區(qū)間不同,在聚類分析中對數(shù)據進行了預處理,避免了數(shù)值差異過大引起的結果偏差。主題帖數(shù)等數(shù)據偏度較高,且存在極值。但這些數(shù)據可能體現(xiàn)特殊的交互模式,因此沒有剔除極值。
3. 聚類分析
(1)聚類總體情況
通過聚類將全部課程分為5類(如圖1所示)。其中,最大類別包含139門課程(占55.16%),最小聚類為4門課,僅占1.59%(如表1所示)。
如圖3所示,在聚類影響因素方面,答疑時間間隔和回帖熱度是聚類結果的最重要影響因素。這兩個變量對于類別劃分起到了最為重要的作用。
(3)各類別對比分析
通過分析可以看出,聚類3所占比重最大,占全部課程的55.16%(139門),課程的答疑時間間隔非常長(均值4.67),平均回帖熱度僅為1.03,教師在線答疑帖子均值為16.71,課程主題帖平均為128.29個,教師評價發(fā)主題帖2.38個??梢?,這類課程的交互水平較低,教師很少發(fā)主題帖,也很少答疑。
聚類5占全部課程的29.37%(74門),課程的答疑時間間隔較短(均值為2.19),平均回帖熱度也較低,僅為1.03,教師在線答疑帖子較多,平均為91.74,課程主題帖平均為228.93個,教師發(fā)主題帖平均為8.72個。這類課程中的交互水平稍高,教師發(fā)主題帖和答疑較為積極。
聚類4占全部課程的10.71%(27門),課程的答疑時間間隔較長(均值3.07),平均回帖熱度在各個類別中最高(2.48),教師在線答疑帖子均值為85.41,課程主題帖平均為230.7個,教師評價發(fā)主題帖21.48個。此類課程交互水平較高,教師發(fā)布了更多主題帖,吸引了更多學生參與,形成了很高的回帖熱度。
聚類1課程數(shù)量很少,僅占全部課程的3.17%(8門),課程的答疑時間間隔較短(均值2.5),平均回帖熱度為2.25,教師在線答疑帖子均值在各類中最高(266.13個),課程主題帖非常多,達到了 2,071.5個,教師評價發(fā)主題帖15.13個。教師發(fā)布的主題帖不多,但花費了大量精力進行答疑輔導。雖然回帖熱度不是各類別中最高的,但由于主題帖數(shù)量極多,總體帖子的數(shù)量非常多,課程交互水平很高。
聚類2的課程數(shù)量更少,僅占全部課程的1.59%(4門)。這類課程的答疑時間間隔在各類別中最短(均值1.25),平均回帖熱度為2.00,教師在線答疑帖子均值達到了912個,課程主題帖平均為1,110.5個,教師評價發(fā)主題帖88.75個。這類課程總體也體現(xiàn)出了很高的交互水平,但和前一個類別又有著較大差異。此類課程的教師發(fā)帖數(shù)量達到了極高的水平,無論是主題帖還是在線答疑帖子,都遠遠高于其他類別。課程答疑間隔也是各類課程中最短的。教師的高投入促進了課程整體交互水平的提高。
(4)各類別學習支持方式分析
學習支持是遠程教學的重要組成部分。學習支持狀況對于在線教學交互有著重要的影響。通過聚類對各個課程的交互進行分析之后,筆者進而對各類課程的學習支持方式進行了分析。通過圖4可以看出,交互效果最好的聚類2采用了豐富的學習支持方式,在各項學習支持中采用的比例幾乎都是最高的(僅實時討論采用率位居第二),交互效果次之的聚類1的學習支持方式也非常豐富,交互水平最低的聚類3中各項學習支持方式采用的比例都非常低。
4. 結果討論
通過上述分析可以發(fā)現(xiàn),大多數(shù)MOOCs的交互水平較低,教師在交互中并不活躍,沒有進行積極的答疑輔導并組織論壇中的交互。教師的積極參與能夠促進課程交互水平。隨著教師發(fā)布主題帖數(shù)量的增加,課程的交互水平會越來越高。這一現(xiàn)象在聚類3、聚類4和聚類5的對比中非常明顯。但在交互水平較高、論壇非常活躍、帖子數(shù)非常多的課程中,教師的投入增加并沒有帶來課程交互水平的線性增長。這一現(xiàn)象與García-Saiz 等人(2013)和Hernández-García等人(2015)的發(fā)現(xiàn)相吻合,即在線論壇交互非?;钴S的教師,反而在一定程度上阻礙了學生之間的交流,降低了學生的發(fā)帖率。
對比聚類1和聚類2可以看出,在交互水平高的課程中,學生之間的交互發(fā)揮了更加重要的作用。在主題帖最多的聚類1中,教師只發(fā)了大約15個帖子,不足總主題帖數(shù)的1%,教師也只回復了全部帖子的12.84%。聚類2中,教師發(fā)主題帖的數(shù)量是聚類1的5.87倍,答疑帖數(shù)是聚類1的3.43倍,但總主貼數(shù)卻僅有聚類1的53.60%,總回帖熱度也比聚類1低。這個對比表明,在聚類1中存在大量的生生交互,聚類1中的教師通過自己較高的投入帶動了學生的交流,形成了較高的交互水平。
誠然,我國MOOCs中大多數(shù)課程的交互水平仍然偏低。在這種情況下,教師的積極發(fā)帖值得鼓勵。聚類2中教師的高投入難能可貴。而在交互水平較高的課程中,聚類1的課程更加重視組織和調控,從而取得了比聚類2更好的效果。
對于更多課程而言,交互水平的提高需要教師增加投入,更好地通過教學設計組織教學交互。從各類課程學習支持方式的差異可以看出,采用更加豐富的學習支持方式,對學生的學習過程進行全面支持,有助于交互水平的提高。
四、聚類研究展望
聚類研究對于學習分析有著重要意義。通過聚類可以將較為復雜的學習行為和績效水平等進行有效劃分,便于開展更為深入的學習規(guī)律探索。目前,在線學習研究中聚類分析尚處于探索階段,多用于發(fā)現(xiàn)行為模式或者描述學習者的多樣性,對聚類結果的深入探索和基于聚類的教學干預還較為少見。
首先,多數(shù)研究者并沒有討論研究情境和聚類結果之間的關系,對聚類結果的解釋也少有與理論的結合,因而無法得知聚類結果能在多大范圍內推廣,與已有的遠程學習研究成果有何關系。例如Ferguson和Clow(2015) 采用了與Kizilcec等人(2013) 研究中類似的方法,對基于社會建構理論的多門課程進行分析,發(fā)現(xiàn)了不同于先前研究結果的多個新的學習者類別。這說明不同學習情境中的類似行為的聚類結果可能不同,而這種不同也許與學習情境背后的教學和學習理論有關。其次,雖然許多研究者常比較聚類得到的行為模式或者學習者類別之間學習績效的差異,但少有研究者定量地使用聚類的結果來預測學習績效或者分析學習者的需求。最后,對于如何采用聚類分析的結果支持教育干預的設計以及教育決策的制定還有待進一步探索。
因此,基于聚類分析的在線學習研究應更多地將模式發(fā)現(xiàn)與已有理論結合起來,探索聚類結果的深層意義。正如Wise和Shaffer(2015)所指出的,基于大數(shù)據的學習分析研究更應該注重與理論的結合。遠程教育理論研究成果能夠幫助研究者選擇出更有教育意義的聚類變量,辨別出更有價值的聚類結果,并對聚類結果做出更合理的解釋。在聚類研究結果的基礎上開展應用研究,對在線學習者的學習狀態(tài)進行更為及時的分析,提供相應的教學干預和學習支持。
(編者注:北京師范大學遠程教育研究中心就“學習分析的核心技術與實證研究”主題為本刊撰寫了系列論文,旨在對重要學習分析技術和經典研究進行解析,闡明不同分析技術在遠程教育領域應用的關鍵環(huán)節(jié)和要點,并通過案例研究呈現(xiàn)具體的學習分析技術應用過程。本篇為該系列第一篇。)
[參考文獻]
[1] Amershi, S., & Conati, C. (2006). Automatic recognition of learner groups in exploratory learning environments. In M. Ikeda, K. D. Ashley & T. Chan (Ed.), Intelligent Tutoring Systems (pp. 463-472). Springer Berlin Heidelberg. doi: 10.1007/11774303_46.
[2] Barak, M., Watted, A., & Haick, H. (2016). Motivation to learn in massive open online courses: Examining aspects of language and social engagement. Computers & Education, 94, 49-60. doi:10.1016/j.compedu.2015.11.010.
[3] Beal, C. R., Qu, L., & Lee, H. (2006). Classifying learner engagement through integration of multiple data sources. In Proceedings of the National Conference on Artificial Intelligence (Vol. 21, No. 1, p. 151). London: AAAI Press.
[4] Berland, M., Martin, T., Benton, T., Petrick Smith, C., & Davis, D. (2013). Using learning analytics to understand the learning pathways of novice programmers. Journal of the Learning Sciences, 22(4), 564-599. doi:10.1080/10508406.2013.836655.
[5] Bowers, A. J. (2010). Analyzing the longitudinal K-12 grading histories of entire cohorts of students: Grades, data driven decision making, dropping out and hierarchical cluster analysis. Practical Assessment, Research & Evaluation, 15(7), 1-18.
[6] Ferguson, R., & Clow, D. (2015). Examining engagement: analysing learner subpopulations in massive open online courses (MOOCs). In Proceedings of the Fifth International Conference on Learning Analytics And Knowledge (pp. 51-58). ACM.
[7] García-Saiz, D., Palazuelos, C., & Zorrilla, M. (2013). Data mining and social network analysis in the educational field: An application for non-expert users. In A.Pe?a-Ayala (Ed.), Educational data mining: Applications and trends (pp. 411-439). Berlin, Heidelberg: Springer, Berlin/Heidelberg.
[8] Hernández-García, ?., González-González, I., Jiménez-Zarco, A. I., & Chaparro-Peláez, J. (2015). Applying social learning analytics to message boards in online distance learning: A case study. Computers in Human Behavior, 47, 68-80.
[9] Kizilcec, R. F., Piech, C., & Schneider, E. (2013). Deconstructing disengagement: analyzing learner subpopulations in massive open online courses. In Proceedings of the third international conference on learning analytics and knowledge (pp. 170-179). ACM.
[10] Wise, A. F., & Shaffer, D. W. (2015). Why Theory Matters More than Ever in the Age of Big Data. Journal of Learning Analytics, 2(2), 5-13.
[11] 孫洪濤,鄭勤華,陳麗. 中國MOOCs教學交互狀況調查研究[J]. 開放教育研究,2016,(1):72-79.
[12] 孫吉貴,劉杰,趙連宇. 聚類算法研究[J]. 軟件學報,2008,(1):48-61.
[13] 田娜,陳明選. 網絡教學平臺學生學習行為聚類分析[J]. 中國遠程教育,2014,(11):38-41.
[14] 魏順平. Moodle平臺數(shù)據挖掘研究——以一門在線培訓課程學習過程分析為例[J]. 中國在線學習,2011,(1):24-30.
[15] 周世兵,徐振源,唐旭清. K-means算法最佳聚類數(shù)確定方法[J]. 計算機應用,2010,(8):1995-1998.
[16] 朱連江,馬炳先,趙學泉. 基于輪廓系數(shù)的聚類有效性分析[J]. 計算機應用,2010,(S2):139-141,198.
收稿日期:2016-01-20
定稿日期:2016-02-29
作者簡介:孫洪濤, 博士,高級工程師,中央民族大學現(xiàn)代教育技術部(100081)。
李秋劼,在讀博士,加州大學爾灣分校教育學院(92697)。
鄭勤華,博士,副教授,北京師范大學教育學部(100875)。
責任編輯 日 新