李 振 周東岱,2 劉 娜 董曉曉 鐘紹春
(1.東北師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,吉林長春 130117;2.吉林省“互聯(lián)網(wǎng)+”教育科技創(chuàng)新中心,吉林長春 130117;3.教育部 數(shù)字化學(xué)習(xí)支撐技術(shù)工程研究中心,吉林長春 130117)
2012年,美國教育部提出以大數(shù)據(jù)為支撐、通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析來促進教學(xué)變革[1]的理念。2015年,我國開始戰(zhàn)略部署教育大數(shù)據(jù),中國教育大數(shù)據(jù)研究院、教育大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室等研究機構(gòu)相繼成立,各地教育信息化發(fā)展規(guī)劃也紛紛將大數(shù)據(jù)列為“十三五”期間大力發(fā)展的重要內(nèi)容,大數(shù)據(jù)已經(jīng)成為推動教育變革的新動力。
近年來,網(wǎng)絡(luò)學(xué)習(xí)空間、電子書包、翻轉(zhuǎn)課堂、MOOC、微課等的出現(xiàn),促使傳統(tǒng)課堂教學(xué)模式與在線教育相互融合。在這種技術(shù)豐富的新型學(xué)習(xí)環(huán)境下,大量網(wǎng)絡(luò)化、數(shù)字化的學(xué)習(xí)系統(tǒng)被應(yīng)用,使得對學(xué)生個體全過程的行為數(shù)據(jù)采集成為可能。而平臺建設(shè)是教育大數(shù)據(jù)發(fā)展的基礎(chǔ),它覆蓋了從數(shù)據(jù)采集、存儲計算、分析挖掘到具體應(yīng)用的整個生命周期。但是,目前相關(guān)教育大數(shù)據(jù)的研究大多停留在理論探索階段,尚沒有形成一個針對教育領(lǐng)域統(tǒng)一的、完整的大數(shù)據(jù)平臺架構(gòu)。因此,本研究對教育大數(shù)據(jù)平臺的架構(gòu)及其關(guān)鍵實現(xiàn)技術(shù)進行研究,以期為學(xué)術(shù)界和產(chǎn)業(yè)界提供參考。
大數(shù)據(jù)是指“規(guī)模超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析能力的數(shù)據(jù)集”[2]。實際上,大數(shù)據(jù)不僅包括“大”的數(shù)據(jù),而且涉及與之相適應(yīng)的技術(shù)與思維方式:①在技術(shù)層面,為處理海量的、多模態(tài)的、實時產(chǎn)生的數(shù)據(jù),產(chǎn)生了與之相適應(yīng)的計算、存儲、分析挖掘技術(shù)——計算方面,出現(xiàn)了面向批量數(shù)據(jù)、流式數(shù)據(jù)、圖式數(shù)據(jù)的并行計算模型[3];存儲方面,出現(xiàn)了諸如HDFS、HBase、Tachyon等分布式存儲技術(shù);分析挖掘方面,除了將傳統(tǒng)數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)應(yīng)用于大數(shù)據(jù)的并行計算,還出現(xiàn)了模擬人類智能的深度學(xué)習(xí)、認(rèn)知計算等新技術(shù)。②在思維層面,舍恩伯格等[4]總結(jié)了大數(shù)據(jù)時代的三大思維轉(zhuǎn)變,即使用全量數(shù)據(jù)、關(guān)注相關(guān)關(guān)系、接收混雜數(shù)據(jù);此外,與傳統(tǒng)的模型驅(qū)動和機理建模的方法所不同的是,數(shù)據(jù)驅(qū)動的創(chuàng)新思維方式無需了解內(nèi)在機制和客觀規(guī)律,而是從數(shù)據(jù)出發(fā)自上而下地探究問題的內(nèi)在機理。
對于教育大數(shù)據(jù)的內(nèi)涵,目前沒有統(tǒng)一的說法。如《中國基礎(chǔ)教育大數(shù)據(jù)發(fā)展藍(lán)皮書(2015)》將教育大數(shù)據(jù)界定為教育活動中產(chǎn)生的、蘊含著巨大價值的數(shù)據(jù)集合[5];而杜婧敏等[6]從數(shù)據(jù)特征、來源、目標(biāo)、技術(shù)的視角對其進行了解讀。從廣義的角度來說,本研究認(rèn)為教育大數(shù)據(jù)的內(nèi)涵包括:①教育大數(shù)據(jù)指“大”的數(shù)據(jù)集合,這些數(shù)據(jù)既具有一般大數(shù)據(jù)體量大、類型多、產(chǎn)生速度快、價值豐富的共性特征,又具有教育數(shù)據(jù)多層性、時間性和序列性的領(lǐng)域特點;②教育大數(shù)據(jù)還包括支持其處理的計算模型、存儲技術(shù)和數(shù)據(jù)分析挖掘技術(shù);③教育大數(shù)據(jù)也指利用全量的、混雜的數(shù)據(jù)發(fā)現(xiàn)相關(guān)關(guān)系,并以數(shù)據(jù)驅(qū)動的方式來理解優(yōu)化學(xué)習(xí)過程、學(xué)習(xí)環(huán)境和探究教育規(guī)律的思維方式。教育大數(shù)據(jù)要從理論走向?qū)嵺`應(yīng)用,其關(guān)鍵在于平臺的構(gòu)建。
教育大數(shù)據(jù)平臺的定位是為教育大數(shù)據(jù)的匯集融合、海量存儲、高效計算、深入分析挖掘以及教育應(yīng)用的開發(fā)與運行提供基礎(chǔ)支撐,因此該平臺應(yīng)滿足以下功能性需求:①數(shù)據(jù)采集方面,應(yīng)提供各種數(shù)據(jù)適配接口,支持結(jié)構(gòu)化的數(shù)據(jù)庫記錄、非結(jié)構(gòu)化的教育教學(xué)資源、實時的行為數(shù)據(jù)流等各種多源、異構(gòu)數(shù)據(jù)的匯集;②數(shù)據(jù)存儲方面,面對海量數(shù)據(jù)的存儲需求,應(yīng)提供高可擴展性、高容錯性、高吞吐量、低成本的分布式存儲方案,支持文件系統(tǒng)、SQL/NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫等存儲方式,并提供高效的管理與快速查詢功能;③數(shù)據(jù)計算方面,應(yīng)提供面向海量數(shù)據(jù)的并行計算引擎,滿足批量計算、實時計算、圖式計算等不同應(yīng)用場景的計算需求;④分析挖掘方面,應(yīng)提供面向教育領(lǐng)域的分析挖掘模型及其相應(yīng)的算法,能實現(xiàn)算法的并行化,并支持算法參數(shù)的靈活配置。
如前文所述,教育大數(shù)據(jù)平臺覆蓋了從數(shù)據(jù)采集、存儲計算、分析挖掘到具體應(yīng)用的整個生命周期?;诖?,結(jié)合前面的需求分析,本研究設(shè)計了教育大數(shù)據(jù)平臺的架構(gòu),如圖1所示。
(1)數(shù)據(jù)源
教育大數(shù)據(jù)的來源可分為四種類型:①管理類數(shù)據(jù),包括學(xué)籍?dāng)?shù)據(jù)、學(xué)生成績、上網(wǎng)數(shù)據(jù)、一卡通數(shù)據(jù)等,這些數(shù)據(jù)多以結(jié)構(gòu)化的形式存儲在關(guān)系型數(shù)據(jù)庫中;②資源類數(shù)據(jù),包括媒體素材、試卷、課件、案例等,這類數(shù)據(jù)多以文本、音視頻等非結(jié)構(gòu)化的形式存儲在文件系統(tǒng)中;③行為類數(shù)據(jù),包括教師教學(xué)行為和學(xué)生學(xué)習(xí)行為產(chǎn)生的數(shù)據(jù),前者涉及講解與演示行為、答疑與指導(dǎo)行為、提問與對話行為、評價與激勵行為等,后者則分為信息檢索類、信息加工類、信息發(fā)布類、信息交流類等;④評價類數(shù)據(jù),包括學(xué)業(yè)水平考試類數(shù)據(jù)和綜合素質(zhì)評價類數(shù)據(jù)。
(2)采集層
教育數(shù)據(jù)的采集方式可以分為批量采集和實時采集兩種:批量采集一般用于導(dǎo)入、同步、復(fù)制歷史收集的日志數(shù)據(jù)、數(shù)據(jù)庫記錄、資源文件、互聯(lián)網(wǎng)數(shù)據(jù)等;實時采集主要利用 Agent技術(shù)實時收集、傳輸在線行為類數(shù)據(jù),而對于線下傳統(tǒng)教學(xué)環(huán)境中的數(shù)據(jù)可以利用點陣數(shù)碼筆、圖像識別等采集技術(shù)進行獲取。
(3)存儲層
對于從數(shù)據(jù)源采集到的各類教育數(shù)據(jù),需要不同的存儲方式對其進行保存,存儲方式包括文件系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)倉庫、消息系統(tǒng)、內(nèi)存存儲系統(tǒng)等。為應(yīng)對海量教育數(shù)據(jù)的存儲需求,這些存儲方式大多采用分布式架構(gòu)。為支持復(fù)雜的分析挖掘任務(wù),存儲層會以分布式數(shù)據(jù)倉庫為主要的存儲及管理方式,并分為臨時存儲區(qū)、操作性數(shù)據(jù)倉庫、大數(shù)據(jù)倉庫和數(shù)據(jù)集市四層。
圖1 教育大數(shù)據(jù)平臺的架構(gòu)
(4)計算層
教育大數(shù)據(jù)的價值挖掘需要相應(yīng)的計算引擎為其提供強大的計算能力,計算引擎包括批處理計算引擎、流計算引擎、內(nèi)存計算引擎、圖計算引擎等[7]。其中,批處理計算引擎用于對大規(guī)模歷史數(shù)據(jù)進行并行運算;流計算引擎用于對實時產(chǎn)生的流式數(shù)據(jù)進行處理;為提高數(shù)據(jù)計算的速度,出現(xiàn)了利用內(nèi)存空間進行數(shù)據(jù)運算的內(nèi)存計算引擎;為應(yīng)對大規(guī)模圖數(shù)據(jù)的處理需求,圖計算引擎也應(yīng)運而生,為學(xué)科知識圖譜的構(gòu)建提供了新的技術(shù)支持。
(5)分析挖掘?qū)?/p>
大數(shù)據(jù)的教育應(yīng)用主要涉及兩個方面:①教育數(shù)據(jù)挖掘,側(cè)重于新算法、新模型的構(gòu)建;②學(xué)習(xí)分析,側(cè)重于直接應(yīng)用已有技術(shù)解決教育領(lǐng)域中存在的問題。雖然二者的側(cè)重點有所不同,但涉及的分析、挖掘技術(shù)相差不大,主要包括關(guān)聯(lián)規(guī)則挖掘、聚類分析、趨勢預(yù)測、時序分析、回歸分析、情感分析、語義分析、社交網(wǎng)絡(luò)分析等?;谶@些通用算法,結(jié)合領(lǐng)域特征,可以構(gòu)建解決教育問題的新方法。
(6)應(yīng)用層
教育大數(shù)據(jù)的價值體現(xiàn)在具體的應(yīng)用中。基于數(shù)據(jù)分析挖掘的技術(shù)可以對學(xué)習(xí)者進行數(shù)字畫像,包括分析學(xué)習(xí)者的風(fēng)格類別,測量學(xué)習(xí)者的現(xiàn)有知識水平,診斷學(xué)習(xí)者的認(rèn)知能力,發(fā)現(xiàn)學(xué)習(xí)者的行為模式、學(xué)習(xí)規(guī)律,預(yù)測學(xué)習(xí)者未來的學(xué)習(xí)表現(xiàn);然后,自動進行個性化推薦,并對預(yù)警的學(xué)生進行干預(yù)。在教師教學(xué)方面,可對教師的教學(xué)行為進行診斷,以便教師調(diào)整教學(xué)模式、教學(xué)計劃等。通過對教學(xué)資源的分析,可以構(gòu)建反映學(xué)科知識內(nèi)在邏輯關(guān)系的知識圖譜。此外,也可以對區(qū)域教育的均衡發(fā)展?fàn)顩r進行監(jiān)測、預(yù)警。
從心理學(xué)角度來說,學(xué)習(xí)行為有五大基本要素:主體、客體、上下文、手段、結(jié)果。基于這五大基本要素,美國高級分布式學(xué)習(xí)(Advanced Distributed Learning,ADL)組織發(fā)布了Experience API(xAPI)規(guī)范[8]。從行為發(fā)生角度來說,在線學(xué)習(xí)行為發(fā)生在學(xué)習(xí)者與圖形用戶界面的交互過程中,并通過事件模型來響應(yīng)用戶的行為動作。本研究基于xAPI規(guī)范、事件模型和大數(shù)據(jù)中的Flume采集技術(shù),設(shè)計了學(xué)習(xí)行為大數(shù)據(jù)的采集框架(如圖2所示),具體采集過程如下:學(xué)習(xí)者與界面進行交互,在組件上實施一個行為動作,產(chǎn)生事件對象,并通知相應(yīng)的事件監(jiān)聽器;事件監(jiān)聽器對應(yīng)的事件處理器會收集行為的相關(guān)要素,聚合后將其發(fā)送給服務(wù)器端的數(shù)據(jù)接收組件 Source;Source將其存入數(shù)據(jù)緩存組件 Channel中,數(shù)據(jù)分發(fā)組件 Sink從Channel中讀取數(shù)據(jù),并將其發(fā)送到消息隊列Kafka中。
圖2 學(xué)習(xí)行為大數(shù)據(jù)的采集框架
教育大數(shù)據(jù)與傳統(tǒng)中小規(guī)模數(shù)據(jù)相比,在數(shù)據(jù)來源、結(jié)構(gòu)、體量等方面有本質(zhì)的區(qū)別[9]。這些特征的變化,使得傳統(tǒng)數(shù)據(jù)存儲與計算技術(shù)難以應(yīng)對現(xiàn)有教育大數(shù)據(jù)的需求,故促使數(shù)據(jù)的存儲方式、計算模式和體系結(jié)構(gòu)均發(fā)生了變化:存儲方式從傳統(tǒng)集中式向分布式發(fā)展,計算模式從傳統(tǒng)單機多線程計算向集群并行運算演進,體系結(jié)構(gòu)從計算、存儲相分離向一體化融合方向發(fā)展。本研究將目前可用的教育大數(shù)據(jù)存儲與計算技術(shù)進行了分類總結(jié),如表1所示。
表1 教育大數(shù)據(jù)存儲與計算技術(shù)分類
教育大數(shù)據(jù)的核心是綜合運用數(shù)理統(tǒng)計、機器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別等技術(shù),在對教育數(shù)據(jù)進行預(yù)處理、探索性分析的基礎(chǔ)上,通過分析模型、預(yù)測模型的構(gòu)建,從數(shù)據(jù)中提取出有價值的信息,以此促進教學(xué)過程的優(yōu)化與教育變革。本研究對目前可用的教育大數(shù)據(jù)分析挖掘技術(shù)中常用的算法和教育應(yīng)用案例進行了歸納總結(jié),如表2所示。
表2 教育大數(shù)據(jù)分析挖掘技術(shù)分類
對教育大數(shù)據(jù)分析挖掘技術(shù)的進一步研究可從以下兩方面著手:①以傳統(tǒng)小數(shù)據(jù)分析挖掘技術(shù)為基礎(chǔ),針對具體教育問題開展相應(yīng)的并行算法研究,以應(yīng)對海量、高速、多樣的教育大數(shù)據(jù)處理需求;②充分挖掘教育數(shù)據(jù)的領(lǐng)域特征,以傳統(tǒng)學(xué)習(xí)理論、網(wǎng)絡(luò)學(xué)習(xí)新型理論、教育測量理論、系統(tǒng)科學(xué)理論為基礎(chǔ),結(jié)合深度學(xué)習(xí)、認(rèn)知計算等新技術(shù),研發(fā)新型教育大數(shù)據(jù)分析挖掘技術(shù)。
教育大數(shù)據(jù)是學(xué)生學(xué)習(xí)個性化、教師教學(xué)精準(zhǔn)化的需求,是量化學(xué)習(xí)過程、深入研究學(xué)習(xí)內(nèi)在發(fā)生機制的需求,也是精細(xì)化管理、利用數(shù)據(jù)進行決策支持的需求。教育大數(shù)據(jù)的發(fā)展應(yīng)以教育大數(shù)據(jù)平臺為依托,以破解當(dāng)前教育面臨的實際問題為導(dǎo)向,通過海量教育數(shù)據(jù)的采集、存儲與計算、分析挖掘,驅(qū)動教育在個性化學(xué)習(xí)、精準(zhǔn)教學(xué)、科學(xué)決策、教育研究等多方面的變革與創(chuàng)新,促進大數(shù)據(jù)與教育教學(xué)的深度融合。本研究按照軟件開發(fā)的思路,通過需求分析、架構(gòu)設(shè)計構(gòu)建了教育大數(shù)據(jù)平臺,并對該平臺涉及的關(guān)鍵實現(xiàn)技術(shù)進行了詳細(xì)闡述。后續(xù)研究將基于該平臺深入開展個性化學(xué)習(xí)模式、精準(zhǔn)教學(xué)模式的實踐應(yīng)用,以期為學(xué)習(xí)者提供更優(yōu)質(zhì)的個性化支持服務(wù)。
[1]U.S. Department of Education. Enhancing teaching and learning through educational data mining and learnin g analytics[OL].
[2]Manyika J. Big data: The next frontier for innovation, competition, and productivity[OL].
[3]潘巍,李戰(zhàn)懷.大數(shù)據(jù)環(huán)境下并行計算模型的研究進展[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2014,(5):43-54.
[4](英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.盛楊燕,周濤譯.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013:27-67.
[5]楊現(xiàn)民.互聯(lián)網(wǎng)+教育:中國基礎(chǔ)教育大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2016:29-33.
[6]杜婧敏,方海光,李維楊,等.教育大數(shù)據(jù)研究綜述[J].中國教育信息化,2016,(19):1-4.
[7]鄭緯民.從系統(tǒng)角度審視大數(shù)據(jù)計算[J].大數(shù)據(jù),2015,(1):10-19.
[8]顧小清,鄭隆威,簡菁.獲取教育大數(shù)據(jù):基于 xAPI規(guī)范對學(xué)習(xí)經(jīng)歷數(shù)據(jù)的獲取與共享[J].現(xiàn)代遠(yuǎn)程教育研究,2014,(5):13-23.
[9]李振,周東岱,劉娜.教育大數(shù)據(jù)整合:現(xiàn)狀、問題、架構(gòu)與實現(xiàn)策略[J].圖書館學(xué)研究,2017,(20):47-50.
[10]Wang Y H, Tseng M H, Liao H C. Data mining for adaptive learning sequence in English language instruction[J].Expert Systems with Applications, 2009,(4):7681-7686.
[11]Feldman J, Monteserin A, Amandi A. Detecting students’ perception style by using games[J]. Computers &Education, 2014,(1):14-22.
[12]Wang Y H, Liao H C. Data mining for adaptive learning in a TESL-based e-learning system[J]. Expert Systems with Applications, 2011,(6):6480-6485.
[13]Araya R, Jiménez A, Bahamondez M, et al. Teaching modeling skills using a massively multiplayer online mathematics game[J]. World Wide Web, 2014,(2):213-227.
[14]Hachey A C, Wladis C W, Conway K M. Do prior online course outcomes provide more information than G.P.A.alone in predicting subsequent online course grades and retention? An observational study at an urban community college[J]. Computers & Education, 2014,(1):59-67.
[15]Rajendran R, Iyer S, Murthy S, et al. A theory-driven approach to predict frustration in an ITS[J]. IEEE Transactions on Learning Technologies, 2013,(4):378-388.
[16]Chen S M, Sue P J. Constructing concept maps for adaptive learning systems based on data mining techniques[J].Expert Systems with Applications, 2013,(7):2746-2755.
[17]Chatti M A, Dyckhoff A L, Schroeder U. et al. A reference model for learning analytics[J]. International Journal of Technology Enhanced Learning, 2012,(5):318-331.
[18]Lang C, Siemens G. Handbook of learning analytics[M]. New York: SOLAR, 2017:175-187.
[19]Aher S B, Lobo L M R J. Combination of machine learning algorithms for recommendation of courses in e-learning system based on historical data[J]. Knowledge-Based Systems, 2013,(1):1-14.
[20]Salehi M, Kamalabadi I N, Ghoushchi M B G. An effective recommendation framework for personal learning environments using a learner preference tree and a GA[J]. IEEE Transactions on Learning Technologies, 2013,(4):350-363.[21]Yudelson M V, Koedinger K R, Gordon G J. Individualized bayesian knowledge tracing models[A]. Lane H C.Artificial intelligence in education[C]. Berlin: Springer, 2013:171-180.
[22]Tr?ka N. Pechenizkiy M. From local patterns to global models: Towards domain driven educational process mining[A]. The Institute of Electrical and Electronics Engineers. Proceedings of ninth international conference on intelligent systems design and applications (ISDA’09)[C]. Washington: IEEE Computer Society, 2009:1114-1119.
[23]Mercer N. The analysis of classroom talk: Methods and methodologies[J]. British Journal of Educational Psychology, 2010,(1):1-14.
[24]He W. Examining students’ online interaction in a live video streaming environment using data mining and text mining[J]. Computers in Human Behavior, 2013,(1):90-102.
[25]吳永和,李若晨,王浩楠.學(xué)習(xí)分析研究的現(xiàn)狀與未來發(fā)展——2017年學(xué)習(xí)分析與知識國際會議評析[J].開放教育研究,2017,(5):42-56.