張艷霞 孫洪濤 李爽 陳麗
摘要:教育信息系統中存儲著大量不同格式和不同粒度級別的學生數據,這些數據為利用學習分析技術發(fā)現和解決學生學習過程中的問題提供了可能。然而,如何使用恰當的數據表征學生的學習過程,對研究者來說仍存在很大挑戰(zhàn)。本文首先從數據來源、具體數據項、數據項收集方法、在學習分析中的應用四個方面對現有學習分析研究中使用的數據集進行了整理和歸納,然后對現有數據集的研究現狀、未來發(fā)展趨勢進行了討論和分析。以期呈現現有學習分析領域數據集應用的概貌,為后續(xù)學習分析中數據集的研究奠定基礎。
關鍵詞:學習分析;數據集;學習過程
中圖分類號:G434
文獻標識碼:A
一、引言
學習分析源于商業(yè)智能和網站分析,是用戶數據分析在教育領域的應用,指的是對教育領域的“大數據”處理和分析[l]。在各種教育媒體大量出現,學習資源網絡化、網絡學習方式普及化,學習行為、學習情境和學習結果數據豐富化和可獲得化的背景下產生。在2011年舉行的首屆學習分析技術與知識國際會議(International Conference on LearningAnalytics and Knowledge.LAK)上提出了學習分析的定義,指出學習分析是測量、收集、分析和報告有關學生的學習行為以及學習環(huán)境的數據,用以理解和優(yōu)化學習及其產生的環(huán)境的技術的總稱[2]。即學習分析是對學習者在學習平臺中隨機產生的各種零散的數據進行存儲、收集、篩選、提取,并在對獲取的數據進行分析的基礎上對學習者的學習效果和狀態(tài)進行評估和預測[3]。
從其定義可知,數據是學習分析的關鍵前提。Greller等人提出了確保學習分析向有效改善教育或學習效果方向發(fā)展的六個要素:受益者、目標、數據、設備、內部限制、外部限制[4]。學習分析從根本上是收集和分析學生學習過程中生成的各種數據[5]。這也進一步說明數據是學習分析的重要基礎。Siemens指出學習分析產生的最主要原因是現在可獲得大量的數據,如學生上傳下載資源的頻率、在測試上花費的時間、點擊觀看視頻的次數、參與學習活動的類型等?;谶@些數據,我們可以構建學生模型,預測學生輟學的可能性;對學生已有的知識結構進行評估,幫助學生知道自己所處的學習狀態(tài)及下一步應該學習什么;呈現學生的學習軌跡,為學生提供個性化的學習支持[6]。
最近幾年,各類教育教學軟件和網絡學習資源在教育中的普遍應用、大量課程管理數據庫和學生信息數據庫的建立為學生學習過程中產生的數據提供了大容量的存儲空間。各類在線學習平臺、教育信息系統和在線學習APP中存儲著大量的數據。這些數據記載著學生的學習狀態(tài)和學習過程[7]。它們?yōu)檠芯空咛峁┝诉M行廣泛研究嘗試的潛在數據源。學習分析的開展有賴于高質量的數據。理想情況下,研究者希望捕捉到能夠準確反映學生真實學習過程或狀態(tài)的數據。然而,這些數據通常是以不同的格式和粒度級別被存儲,并且存儲的位置由學生信息管理系統和課程管理系統向分布式的個人學習空間擴展,這給研究者從大量雜亂的數據源中挑選出能夠反映特定學習過程或狀態(tài)的數據帶來了一定的難度。在學習分析中采用哪些數據才能更加深入全面地描述和解析學生的學習過程及狀態(tài)是學習分析技術應用者比較關注的問題,并且該問題一直沒有得到很好的解決。如何選擇適當的數據集合(Dataset),從而開展存儲、收集、提取、分析和報告是學習分析研究中的一個重要前提[8]。
學習分析中的數據集特指與學生學習屬性和學習環(huán)境相關的原始數據項或者用于表征學習行為或學習環(huán)境的聚合數據項的集合。數據集是學習分析和教育數據挖掘領域各種數據模型建立的基礎。另外,學習分析中各種學習結果和學習行為的預測、學習工具的開發(fā)以及學習資源的推薦都是通過對各類數據集中具體數據項的分析來實現。數據集是學習分析技術得以發(fā)展的前提和基礎。因此,對學習分析中使用的數據集進行概述和分析,將為研究者從大量雜亂的數據源中挑選出能夠反映特定學習過程或狀態(tài)的數據提供參照。另外,對學習分析中數據集的整理和分類也可能為學生動態(tài)模型的建立、學習分析T具的開發(fā)等提供更準確的數據選擇依據。
二、文獻來源與分析框架
筆者在Google Scholar中以“LearningAnalytics” “Learning Analytics Research” “LearningAnalysis為關鍵詞,對2011-2014年學習分析領域的相關論文進行了檢索,檢索結果包括學習分析技術與知識國際會議(LAK)及其他涉及學習分析主題的會議(AIED、ECTEL、RecSys等)中的文獻。通過篩選,學習分析中數據集相關的文獻最終獲得了133篇文獻。
學習分析領域關于數據集的研究處于起步階段,國外有研究者開始進行初步的嘗試。Drachsler等人對技術增強學習領域中來自不同學習推薦系統(MovieLens,BookCrossing,EachMovie)中的公開數據集從數據能夠表征學習情景的程度、可重復性、用途等方面進行了整理和分析,并在此基礎上提出了三條幫助研究者根據特定的情景選擇合適的數據集的指導建議[9]。2012年,Verbert等人在Dracbsler研究的基礎上進行了擴展,提出了一個教育數據集的分析框架,并且對教育數據集在共享和重用中存在的挑戰(zhàn)和未來發(fā)展趨勢進行了討論和分析。Verbert等人提出的數據集分析框架由數據集屬性、數據屬性、學習分析的目標三個部分[10]。數據集屬性是對數據集的整體描述,主要是指數據集的來源;數據屬性是在一個更精細的粒度水平上對數據集進行描述,主要包括組成數據集的各個數據元素,即數據項有哪些;學習分析的目標用來映射數據集及其所包含的數據項在學習分析中的潛在有用性。同時,他們還指出通常不同的數據集在收集方法上存在一定的差異性。借助該數據集分析框架,研究者能夠較為直觀地、清晰地發(fā)現學習分析中數據集的特點。
本研究在Verbert等人提出的數據集分析框架基礎上,提出了數據來源、數據項、數據收集方法以及在學習分析中的應用這四個方面,作為對學習分析中的數據集研究進行分析的框架。主要回答以下四個問題:
(1)數據集中的數據主要來源于哪些數據系統?
(2)數據包含哪些數據項,可以歸為哪個類別?
(3)如何收集這些數據?
(4)可用于學習分析中的哪些問題情景?
三、文獻分析結果
依照前述分析框架,筆者對篩選出的133篇文獻進行了分析。
通過圖1可以發(fā)現,現有研究中學習分析的大部分數據來自學習管理系統和網絡課程。
MOOC雖然屬于網絡課程的范疇,但由于其大規(guī)模性和開放性引起了研究者的關注,MOOC開始出現在學習分析領域,有研究者開始研究如何利用學習分析技術來促進MOOC中學習的有效發(fā)生。隨著社會媒體在學習中的廣泛應用,越來越多的研究者開始關注各類社交媒體中學生產生的各類數據。
研究中一般不會明確指出采用了哪種類型的數據集,但會對收集的數據項進行描述。根據其描述進行整理和歸類,發(fā)現現有學習分析相關研究中使用的數據集主要可以分為網絡學習行為數據集、情境數據集、注意元數據集,如下頁圖2所示。
互聯網大數據時代,學生的很多學習行為都發(fā)生在網絡環(huán)境中。這些學習行為數據通常在學生察覺或者不察覺、主動或者被動的情況下被記錄在學習平臺或系統中[11]。學習分析通過對學生在線學習行為數據的分析,以倒溯方式考察影響行為產生動機和需求等因素,以及行為背后所隱藏的學習目的、學生個性特征、學習環(huán)境等元素,最終目的是優(yōu)化學生的學習過程以及學習行為發(fā)生的環(huán)境[12]。學習行為時學習分析關注的重心,網絡學習行為數據在全部學習分析數據集中占很大的比重。
此外,情境數據能夠表征學生學習行為發(fā)生的環(huán)境特點。移動互聯網的發(fā)展,使得利用情境數據提高個性化服務的精確性和學生的滿意度成為個性化服務領域的研究熱點之一。越來越多的在線教育機構開始關注如何通過對學生學習情境數據的分析,為不同情境下的學生精確推薦符合其實際需求的學習資源或服務。情境數據集成為學習分析領域關注的另一類數據集。
注意元數據主要用來表征學生注意力分配方面的特點。通過抓取學生的注意元數據(如:眼睛移動的范圍,鼠標點擊的頻率等),形成學生注意力數據流,進而捕獲學生對學習資源、軟件應用等的偏好,及其交互方式[13]。學習分析領域通過收集和分析學生的注意元數據,了解學生學習過程中的資源偏好及其與學習內容之間的交互方式。目前,注意元數據集在學習分析中應用比較廣泛。學習分析中的數據主要通過基于代理服務器和基于Weh日志挖掘的方法獲取,如圖3所示。在學習分析中應用體現在預測學生表現、構建學生模型、促進學生反思和保持注意力等六個方面,如圖4所示。
通過以上分析可以發(fā)現學習分析數據集的總體狀況。其中,網絡學習行為數據、情境數據和注意元數據是現有學習分析研究數據集的主要來源。這三類數據集在數據來源、數據項構成、數據收集方法和學習分析應用方面有著較大的差異,對各個數據集的深入分析有助于進一步了解現有數據集研究現狀,為應用數據集開展實驗研究和工具設計奠定基礎。
四、對三大類數據集的分析
(一)網絡學習行為數據集
網絡學習行為數據集是指用于描述學生學習過程中產生的各種行為的要素及其屬性的數據集。
1.數據來源
現有研究中網絡學習行為的數據集主要來源于傳統學習管理系統、智能導師系統和白適應超媒體系統、個人學習環(huán)境。
基于傳統學習管理系統中的數據對網絡學習行為進行分析、描述和可視化是學習分析中的研究焦點[14]。這主要與傳統學習管理系統中數據的易獲性、封閉性和連續(xù)性有關。
智能導師系統和白適應超媒體系統其本質是個性化的學習支持服務系統,能夠更有效地支持學生個性化的學習。部分研究者通過對這些個別化學習支持系統中數據的分析來形成能夠體現學生個性化學習過程與策略特征的用戶視圖。
隨著各類移動設備和社會性軟件在學習中的應用,學生的學習不再局限于單一、封閉的學習系統,學習開始跨平臺、跨系統。部分研究者開始關注學生個人學習環(huán)境中產生的數據集,希望通過對個人學習環(huán)境中學生行為數據的分析,挖掘學生的學習興趣,進行資源推薦,可視化學生的學習路徑[15]。
2.數據項
Verbert等人提出了一個用于描述學生行為特征的數據集,見圖5。該數據集中包含五大類數據項:(1)描述行為主體(Learner/Teacher)特征的數據項;(2)描述行為客體(Resource)特征的數據項;(3)描述行為類別(Type)的數據項;(4)描述行為結果(Result)特征的數據項;(5)描述行為發(fā)生情境(Context)特征的數據項。
上述學生行為數據集中不僅包含了用于描述行為本身屬性的數據項,而且包含了用于描述行為發(fā)出者、行為對象、發(fā)生的情境以及產生的結果特征的一系列數據項。研究者可以根據研究的目的以及學習系統存儲數據的特點對上述數據模型中的數據項進行篩選。
3.數據收集方法
基于計算機和網絡平臺的網絡學習行為數據項采集的常用方法主要有三類,基于服務器端的采集、基于客戶端的采集以及服務器端與客戶端相結合的采集。
基于服務器端的數據采集在現有學習分析研究中應用較多。服務器端的數據采集主要包括Web日志挖掘和通過代理服務器進行采集。這兩種方法都存在一定的局限性?;赪eb日志挖掘的局限首先在于Web日志的不易獲得性,即使得到了,也和Web安全的相關原則有沖突,而且只能獲取學生通過該Web服務器時留下的日志數據。基于代理服務器的采集只能得到在該網站進行學習的注冊學生的學習行為數據,這在一定程度上會導致未注冊學生的學習行為數據的流失。這樣的數據系統開發(fā)要與網站程序的設計以及數據庫設計同步進行,才能做到無縫集成,專用性強,靈活性較差[17]。
基于客戶端的采集主要包括客戶端JavaScript采集和瀏覽器插件采集。使用開源軟件進行數據流捕
獲,然后處理并輸出為文本,最后使用文本挖掘的成熟算法進行處理[18]。這種獲取基于隨機樣本,樣本容量可以取的很大,即使出現丟包
情況,也能接近實際情況[19]。
為了獲取能夠描述學生多種學習行為的數
據,少量研究開始采用服務器端與客戶端相結
合的方法進行數據收集。一方面通過服務器端
獲取學生在正規(guī)學習系統中產生的數據,同時
通過開源的JaveScript或瀏覽器插件跟蹤獲取學
生在自己客戶端進行的各項操作行為。
4.在學習分析中的應用
網絡學習行為數據集在學習分析中的應用主要表現在:(1)通過對學生網絡學習行為數據
集中各個數據項的提取、整合、分析后挖掘出
學生在線學習的學習興趣、學習方式和學習習
慣等方面的模式規(guī)律,針對挖掘出的模式規(guī)律
有針對性地為學生提供個性化、智能化的學習
資源和服務。(2)提取分析學生學習過程中與
教師、學生、資源、工具應用進行交互產生的
行為數據,形成學生交互過程的可視化數據圖
表,對學生交互水平進行評估。(3)監(jiān)測學生學習過程中的不良學習行為,開發(fā)遠程學生輟學預警系統,幫助遠程教育機構及時發(fā)現潛在輟學者,并提供及時干預。(4)根據對學習系統中大量學生網絡學習行為數據的分析,預測相同情景中具有相似行為數據的學生的學習表現,包括學生的知識水平、行為表現等。
(二)情境數據集
情境數據集是指用來描述學生學習情境特征的數據集,其學習情境中可以包括是人、位置,或者與學生和應用交互相關的真實或虛擬的對象,包括學生和應用本身[20]。
1.數據來源
用于刻畫學生學習情境特征的數據集主要來源于各類移動終端設備、泛在智能學習環(huán)境。隨著網絡的普及、虛擬環(huán)境、仿真技術和人機交互的迅速發(fā)展,人們可以不受時間和空間的限制,在移動環(huán)境中隨時獲取自己所需要的信息和服務,進行移動學習。研究者開始關注移動學習所具有的特點,希望通過對各類移動終端設備和泛在智能學習環(huán)境中與學習相關的數據進行分析,判斷學生與各種學習應用之間的關系以及學生之間的關系[21]。 2.數據項 情境描述為人機交流的環(huán)境中所包含的各種信息,包括個人基本信息、計算機運行的平臺和網絡信息以及人所處的環(huán)境信息[22]。情境數據集中所包含的數據項應該分為描述個人基本信息的數據項,描述計算機系統或運行平臺和網絡特征的數據項以及用于描述個人所處環(huán)境特征的數據項。情境數據集中所包含的數據項范圍廣泛,具有復雜性、多變性和豐富性等特點。對情境數據集中的數據項進行合理的整合和分析能夠為特定情形中的情境主體提供完整的特征描述。
3.數據收集方法
情境數據集中各類數據項的收集主要通過將傳感器置人移動終端中白動獲取學生的情境數據日志。在當今移動設備越來越普遍的環(huán)境下,通過各種傳感器獲取底層的情境數據變得越來越容易,這為更好地基于學生特定的學習情境為其提供個性化的學習資源提供了數據支撐。
4.在學習分析中的應用
情境數據集在學習分析中的應用主要表現為:(1)在對移動環(huán)境中學生學習相關情境數據的采集、分析和利用為學生構建一個穩(wěn)定并且可擴展的智能學習空間,如白適應性超媒體系統、智能導師系統等。(2)基于情境數據集的學生個性化需求推送。通過對學生問題及問題情境數據的析取和重組形成學生所需知識產品動態(tài)信息,并以不同的表現形式推介給學生。
(三)注意元數據集
注意元數據集是用于描述學生某個特定情景下發(fā)生的一系列行為的數據項的集合[23]。
1.數據來源
注意元數據集中的數據項大多來自各類與學生學習相關的數據系統。這些系統可以是個人信息管理系統、學習對象保存系統、知識管理系統、工作流系統、學習管理系統、網絡瀏覽器、制作工具(如OpenOffice、PowerPoint等用于制作新資源、修改新資源的行為)、視頻會議系統。 2.數據項 Wolper等人提出了一個用于捕獲學生在不同應用中的注意元數據的集合,并以圖的形式形象化表示模型中所包含的數據項,如上頁圖6所示。
上述數據集中不僅包含了用于描述學生行為本身的數據項,也包含了描述行為處理的對象及發(fā)生的情景特征等方面的數據項。這一數據集為研究學生多種類型的觀察注意焦點提供了可能。
2011年,Maren Schffeel等人在上述數據集基礎上進行了修改,提出了以事件為起始點的情景化注意元數據集,如圖7所示,更適用于分析和評估學生觀察注意力水平。
3.數據收集方法
Claudia Roda等人將注意元數據項的收集方法歸納為:心理生理學觀察(通過腦電圖、心電圖獲得心跳、心律變化等獲得)、物理觀察(通過鼠標移動、眼球移動跟蹤、觀察擊鍵、聲音檢測等獲得)、應用程序收集(利用Attention Recorder等收集并利用APML描述應用程序與環(huán)境的交互信息)、用戶的輸入(為用戶提供輸入自己的興趣愛好、學習需求、改進建議等)4大類[26]。
由于利用應用程序進行注意力元數據項的自動收集具有簡化用戶任務,保持檢查統一性等優(yōu)勢,而在學習分析中被廣泛使用。但現有研究中還主要停留在通過開源代碼應用程序對學習管理系統或個人信息管理系統的日志文件進行自動獲取。另外,有少量研究者采用LinuxKernel的核心部件Inotify,通過Java編程實現jNotify的事件監(jiān)聽器來跟蹤學生計算機桌面系統中的文件變化,或者利用JavaMail的應用程序接口來跟蹤電子郵件客戶端用戶對電子郵件的處理順序和動作[2]。
物理觀察和心理生理學觀察兩種方法需要比較精密的儀器,數據收集相對耗時較長,在學習分析領域應用較少。由于學生通常具有一定的保密心理,通常不太愿意主動向系統輸入自己的需求、愛好等個人信息,通過用戶輸入收集數據項的方法在學習分析相關研究中也很少現。
4.在學習分析中的應用
注意元數據捕獲學生行為發(fā)生的時間、地點(在哪些學習應用程序中發(fā)生)、主要行為(如下載/上傳資源、發(fā)帖或回復等)等方面的細節(jié),這類被采集到的數據能夠更加真實地還原學生的學習過程或學習軌跡。
注意元數據集在學習分析中的應用
主要表現在:(1)對學生的學習興趣和目
標進行分析,進而向學生推薦滿足其個
性化需求的學習資源;(2)通過對多個學
生相關的注意元數據的獲取和分析,構
建更加真實反映學生行為的學生模型,
突破傳統靜態(tài)的學生行為模型;(3)學習
平臺性能和資源應用效果測試;(4)虛擬據
社區(qū)可以以注意元數據為依據進行虛擬興趣小組的劃分,實現組內資源共享;(5)根據收集到的注意元數據判斷學生的注意力分配特點及存在的問題,并對其注意行為進行干預。
五、數據集整體應用現狀
目前,各類數據集被廣泛應用到學習分析中,為回答“誰在學” “學什么” “怎樣學” “學的結果如何”等問題提供了新的途徑。在數據來源、數據項、收集方法和學習分析應用四個方面體現出了各自的特點和趨勢。
(一)數據來源由集中式教育信息系統走向分布式學習環(huán)境
學習分析通過對教育數據集進行分析來支持學習過程。學習分析中使用到的教育數據集其來源主要有7類:學生信息系統(SIS)、傳統學習管理系統(LMS)、網絡課程、社交媒體、自適應智能教育系統(包括智能導師系統、白適應超媒體系統)、個人學習環(huán)境、公共數據系統。Chatti等人對學習分析中的數據來源進行了分類,指出教育數據集的來源主要可以分為集中式的教育系統和分布式的學習環(huán)境[28]。
集中式的教育系統主要以學生信息系統、傳統學習管理系統、白適應智能教育系統為代表,如Moodle,Blackboard。集中式的教育系統中存儲著大量的學生活動和交互的日志數據。例如登錄或退出平臺、閱讀、下載或上傳學習材料、參與測試、添加評論等。這類教育系統中的數據集通常用于發(fā)現和分析正規(guī)學習環(huán)境中學生的學習特點,以此來對學生的學習結果或學習行為進行評價、預測或干預。
各種開源、社會性軟件的出現讓學生進行跨平臺、跨系統的學習成為可能,教師開始注重學生之間思想內容的碰撞,各種生成性內容大量產生。隨著用戶生成性內容的大量產生,基于分布式學習環(huán)境中的教育數據集的學習分析變得越來越重要,并逐漸受到關注。社交媒體和個人學習環(huán)境是分布式學習環(huán)境的最好體現。社交媒體和個人學習環(huán)境中的數據來源于正式和非正式學習過程中,它們以不同的形式存在不同的空間、時間和媒介中。學習和知識的創(chuàng)造往往是分布在不同的媒介和網絡環(huán)境中的[29]。因此,通過對分布式學習環(huán)境中的教育數據集進行分析了解學生學習和知識創(chuàng)造的過程是非常有必要的。
另外,云技術的發(fā)展為學生學習過程中產生的數據提供了無限存儲空間,Dietze等人開始關注相互鏈接的數據云,希望通過探究不同數據集之前的聯系來實現資源的推薦poJ。目前這方面的研究還處于起步階段,但未來這應該會成為學習分析中數據集的一個重要來源。
(二)各類數據集所含數據項之間存在重合,但側重點有所不同
數據項是數據集中具有更好粒度水平的可用數據元素,包括與學生行為有關的數據信息、學生/教師人口統計學信息、學習資源相關信息、學習情境數據、表示學習結果的數據信息五大類。
各類數據集在數據項上存在一定的重合,但側重點有所不同。網絡學習行為數據集中更多關注行為類型特征數據項,情境數據集中主要關注表征學生網絡或平臺特征方面的數據項,注意元數據集主要關注學生注意力分配特點方面的數據項。學習分析所解讀的數據通常不局限來源于單一數據集,需要根據學習分析的目標整合多種類型數據集中的數據項。
(三)自動獲取將逐漸成為主要的數據收集方法
現有學習分析中數據的收集方法由基于代理服務器和Web日志挖掘的方法逐漸向基于服務器和客戶端相結合的方法轉變,利用開源軟件或程序進行數據的自動獲取,但目前自動獲取的數據大部分來源于集中式的教育系統,分布式學習環(huán)境中相關數據集的獲取還存在一定的難度。
(四)推薦與構建動態(tài)學生模型是數據集在學習分析中的主要應用體現,智能化學習環(huán)境的構建逐漸引起關注
數據集在學習分析中的應用總結為六個方面:(1)預測學生的表現和建構學生動態(tài)模型;(2)推薦相關的學習資源,包括學習材料、學習工具、學習群體等;(3)促進學生的反思和注意力;(4)監(jiān)測學生的不良學習行為;(5)評估學生之間的交互效果;(6)構建持續(xù)、動態(tài)、可擴展的智能個性化學習空間。
各類數據集都可以應用于推薦和構建動態(tài)學生模型。網絡學習行為數據集在交互效果預測、監(jiān)測不良學習效果方面應用廣泛,情境數據集在構建智能學習空間中應用廣泛,注意元數據集更多的應用于對學生注意力分配特點和干預效果的預測。
整體來說,學習分析中的數據集的類別在不斷地擴充,出現了學生知識領域數據集、學習資源推薦系統數據集,但這些數據集都是以上面三種數據集為基礎,根據研究目的,從上面三種數據集中的數據項進行重新篩選和整合而成。
六、數據集應用面臨的挑戰(zhàn)
各類數據集在學習分析中得到廣泛應用,并且數據集的種類在不斷地擴展,但在應用的過程中依然面臨著大量的挑戰(zhàn)。
(一)缺乏利用數據來描述學習的標準
各個教育機構或教育者對學習描述存在很大的差異,缺乏描述學習的通用數據模型。這導致他們對學習行為的拆分標準存在很大的差異,進而導致學生學習過程中產生的數據大部分是以不同的形式存儲在不同的學習系統、工具和應用中。通常相同類型的數據項在不同的學習系統或平臺中有著不同的表達形式,不同系統或平臺上的交互數據缺乏統一的描述和存儲標準,從而阻止了不同的系統或平臺中數據之間的共享和重復使用。為了確保數據能夠在不同系統或平臺中實現共享和互操作,學習分析領域需要研究通用的數據模型來對學習者的學習進行描述。未來數據集中數據項的共享和重用在學習分析領域需要進一步的探索和研究。
(二)學生學習過程中產生的數據沒有被全部記錄
數據集來源在不斷擴展,但具體實踐中,學習分析相關研究的數據集主要還是來源于單一的集中式教育系統。這些教育系統具有固定的功能,一般只能記錄某幾類學習數據。學生在學習過程中產生的有些能夠反映其特定學習習慣的數據并沒有得到記錄。這可能會導致具體學習分析中獲得的數據并不是學生在學習過程中產生的全部數據,進而導致在此基礎上通過學習分析獲得的學生學習規(guī)律或產生的預測結果并不能真實、正確地表征學生的學習過程。未來,綜合單一數據系統中的數據項,構建聚合數據項的數據模型,獲取能夠正確反映學習過程的數據應該是未來數據集在學習分析中的一個應用方向。
(三)數據收集和處理技術有待進一步提高
數據集的來源由集中式教育系統向分布式學習環(huán)境擴展,學習分析領域希望能夠自動獲取學生的全量數據,現有的數據收集方法雖然已經開始向自動獲取轉變,但這種方法獲取的數據還局限于單一的學習系統或平臺,獲取的數據并不能映射學生的全部學習過程。未來需要開發(fā)出能夠實時自動抓取學生在不同學習系統或平臺上產生的全部數據的數據收集T具。
(四)數據收集使用隱私性問題
在數據收集和使用的過程中通常會涉及到學生隱私權和機構、組織對數據收集使用的許可問題。在對學生數據進行收集和分析前,研究者通常需要告知學生,并且需要得到本人的許可后才能收集和分析他們的個人信息。同時,還需要得到這些數據的組織或提供者的同意和批準。但學生一般不希望透露自己的個人信息,并且大部分組織或機構不愿意提供自己系統或平臺上的數據。學習分析實踐中存在著學生在學習中產生了“大數據”,但研究者卻苦于無法獲得這些“大數據”的現象。學習分析領域還需要制定相應的制度來擴大數據的公開性。同時,組織或機構之間應該建立比較友好的數據共享關系。
參考文獻:
[1]殷丙山學習分析技術將成未來關注重點-2012年和2013年《新媒體聯盟地平線報告(高等教育版)》比較解讀…中國教育網絡,2013(10):35-36.
[2][8]Siemens,G.,&Gasevic,D.Proreedings of the lst conference onLearning Analytics and Knowledge[M].New York,NY:ACM, 2011.1-185
[3]高鍵,張海,王以寧.教育中的大數據如何改變學習?——極具潛力的學習分析技術領域新進展j忡國信息技術教育2013,(8):195-197.
[4] Greller,W.,&Drachsler,H.'l'ranslating learning into numbers:AgenPric framework for learning analytics[J]. Lducational Technologyand SoCIety,2012,19(3), 42-57.
[5][6]魏雪峰,宋靈青.學習分析:更好地理解學生個性化學習過程——訪談學習分析研究專家George Siemens教授[J]中國電化教育,2013,(9):1-4.
[7]孫洪濤.學習分析視角下的遠程教學交互分析案例研究[J]中國電化教育,2012,(11):40-46.
[9] H.Drachsler,T.BogPrs,R.Vuorikari,K.Verhert,E. Duval,N.Manouselis,G.Beham,S. Lindstaedt,H. Stern,M.Friedrich, and M.Wolpers. Issues and considerations regarding sharable data sets forrecommender svstems in technology enhanced learning[J]. ProcediaComputer Science, 2010,1(2):2849-2858.
[10] Verbert, K., Manouselis,N.,Drachsler, H.,&Duval,E.Dataset-Driven Research to Support Learning and Knowledge Analytics[J].Lducational Technology&Society, 2012,15 (3), 133-148.
[11][12]郁曉華,顧小清.學習活動流——一個學習分析的行為模型[J].遠程教育雜志,2013,(4):20-28.
[13] Valentin Butoianu, Philippe Vidal, Katrien VerVbert, Erik Duval,Julien Broisin. User Context and PPrsonalized Learning:a Federationof Contextualized Attention Metadata[J]. Joumal of Universal ComputerScience, 2010?16(16), 2252-2271.
[14] ll-Hyun Jo,Dongho Kim,MPPhyun Yoon. Analyzing the Log Patternsof Adult LearnPrs in LMS Using Learning Analytics[DB/OL].http://dx.doi.org/10.1145/2567574.2567616,2015-06-16.
[15] Koulocheri E,Soumplis A,Xenos M.Applying Learning Analyticsin an Open Personal Learning Lnvironment:A QuantitativeApproach[DB/OL].https://www.infona.pl/resource/bwmeta l.element.ieee-art-000006377407, 2015 -02-12.
[16] Verhert, K., Manouselis,N.,Drachsler, H.,&Duval,E.Dataset-Driven Research to Support Learning and Knowledge Analytics[J].Lducational Technology&Society, 2012,15 (3), 133-148.
[17][19]廖競,張暉.一種靈活的網絡學習行為數據采集與分析系統[J]信息與電腦(理論版),2011,(1):85-86.
[18] Lyndon Walker. Twitter Learning Analytics in R. ascilite Conference,http://www.ascilite.org/conferences/Wellington12/2012/images/ustom/walker,- lyndon一- twitter learning.pdf,2015-05-15.
[20] Dey A K,Abowd G D,Salber D.A Conceptual Framework and a Toolkitfor Supporting the Rapid Prototyping of Contex- aware Applications[J].Joumal of Hunan Computer Interar,tion,2001,16(2):97-166.
[21] Simon Knight, Simon Buckingham Shum ,Karen Littleton. Epistemology,Pedagogy, Assessment and Leaming Analytics[DB/OL]. http://oro.open.ac.uk/3663 5/1/LAK13 0/c20Fmalo/c20paper.pdf,2015 -04-16.
[22]喬哲峰.自適應情景感知中間件的情景數據預處理模型研究與實現[D].上海:華東師范大學,2011.
[23] Chair's Message of CAMA 2006[EB/OL]. http://portalparts. acm.org /1190000 /1183604/fm/front matter.pdf,2015-4-18
[24] MarinWolpers, Jehad Najjar, Katrien Verhert, et a.l. ContextualizedAttention Metadata Across System Boundaries[LB/OL]. http://ariadne. cs. kuleuven. ac. be/cam a2007/slides /Wolpers.ppt, 2015-4-18.
[25] Maren Scheel, Katja Niemann, Abelardo Pardo,Derick Leony, MartinFriedrich, Kerstin Schmidt,Martin Wolpers, and Carlos Delgado Kloos.Lsage Pattern Recognition in Student Activities[J]. Towards UbiquitousLeaming Lecture Notes in Computer Science,2011,(6954):341-355.
[26] Claudia Roda, 'l'hierry Nabeth. Supporting Attention in LearningEnvironments: Attention Support Services and InformationManagement[EB/OL].http: / /www. ac. aup. fr/croda /publications /Ecte107.Pdf, 2015-4-18.
[27] Belizki J, Costache S, Nejdl W. Application independent nwtadatageneration[DB/OL]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.2212&rep=repl&type=pdf, 2006.
[28] Chatti M A, Dyckhoff A L, Schroeder U, et al. A reference,e model forLearning analytics[J]. International Journal of Technology EnhanedLearning, 2012, 4(5-6): 318-331.
[29] Suthers D. & Rosen D. A unified framework for multi-level analysisof distrihutecl learning[DB/OL]. http://lilt.ics.hawaii.edu/papers/2011/Suthers-Rosen-LAK-201 l-Final.pdf, 2011.
[30] Dietze S, Drachsler H, Ciordano D. A SurVP.y on Linked Data andthe Social Web as facilitators for TEL recommender systems[M]. NewYork: Springer, 2014.47-75.
作者簡介:
張艷霞:在讀碩士,研究方向為教師網絡研修(zhangyanxia16@163.com).
孫洪濤:高級工程師,研究方向為遠程教學交互、學習分析和教師專業(yè)發(fā)展(sunhtao@gnlail.com)。
李爽:副教授,碩士生導師,研究方向為遠程教育基本理論、遠程學習支持、學習分析(lilybnu@bnu.edu.cn)。
陳麗:教授,博士生導師,北京師范大學遠程教育研究中心主任、交互媒體與遠程學習實驗室主任,研究方向為遠程教育的理論與實踐(lchen@bnu.edu.cn)。
How to Use the Data to Describe the Learning Process
-A Review of Data Sets Used in Learning Analytics
Zhang Yanxial.2, Sun Hongta03,Li Shuangl.2, Chen Li4 (l.Research Centre of Distance Education, Beijing Normal University, Beijing 100875; 2.Interactive Media and Distance Learning, Beijing Normal University, Beijing 100875;3.Education Technology Center, Minzu University of China, Beijing 100081; 4.Capital Institute for the Learning Society, Beijing Normal University, Beijing 100875) Abstract: Huge amount oflearners' dataset is stored in education information systems with different formats and different granularity levels. These data provide the possibility to find and solve the problems of students in the learning process using learning analytics. However, how to use the appropriate data to describe the learning process of learners is still a great challenge for researchers. The data set is one of the core issues of Learning Analytics research. This article firstly provides a review of the typical data sets of learning analytics. Then we analyze and compare the objectives of analysis, the categories of models, the sources of data, the specific data items and the methods of analysis of the typical data sets. Finally, this paper presents the summary and analysis of the current situation and trend of research on data models of learning analytics. Tlus article shows a general picture of data sets in the field of learning analytics and lays the foundation for subsequent research in the future. Keywords: Leanung Analytics; Data Sets; Learning Process
收稿日期: 2015年6月22日
責任編輯:趙興龍