李娜娜 萬(wàn) 青 任芝軍 閆運(yùn)忠
(河北工業(yè)大學(xué) 天津 300401)
McKinsey定義大數(shù)據(jù)技術(shù)[1]為一種在獲取、存儲(chǔ)、管理、分析等方面規(guī)模遠(yuǎn)超傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具處理數(shù)據(jù)能力范圍的數(shù)據(jù)集合,具有海量數(shù)據(jù)信息、快速的數(shù)據(jù)流轉(zhuǎn)、多樣化的數(shù)據(jù)類型以及價(jià)值密度低四大特征。大數(shù)據(jù)的意義不在于獲取龐大復(fù)雜海量數(shù)據(jù)信息,而在于對(duì)看似無(wú)關(guān)聯(lián)數(shù)據(jù)進(jìn)行專業(yè)化、定制化處理,以達(dá)到挖掘數(shù)據(jù)背后隱藏關(guān)聯(lián)信息,獲取數(shù)據(jù)增值的能力。舍恩伯格和庫(kù)克耶在《大數(shù)據(jù)時(shí)代》[2]指出大數(shù)據(jù)不采用抽樣調(diào)查的隨機(jī)分析法,而是對(duì)全部海量數(shù)據(jù)進(jìn)行分析處理。IBM 提出大數(shù)據(jù)具有海量、高速、多樣性、可變性、低價(jià)值密度、復(fù)雜性、真實(shí)性[3]7V 特征。
在線教學(xué)不受時(shí)間空間限制,以自己喜歡的學(xué)習(xí)模式開展自主學(xué)習(xí)?!督逃畔⒒臧l(fā)展規(guī)劃(2011-2020)》中提出,學(xué)校在教育教學(xué)方面的變革要以學(xué)習(xí)者采取多樣化、個(gè)性化學(xué)習(xí)方法改革上取得突破進(jìn)展。[4]在線學(xué)習(xí)已成為混合式教育、差異性教育、終身學(xué)習(xí)型教育領(lǐng)域主要研究熱點(diǎn)。[5]
今年新冠病毒肆虐,全球絕大多數(shù)學(xué)習(xí)者采用了在線教方式學(xué)習(xí),在線教育的用戶滲透率得到空前提高,各層次用戶群體對(duì)在線教育持續(xù)關(guān)注度熱情不減。但是,由于在線教學(xué)對(duì)學(xué)習(xí)者自主學(xué)習(xí)能力提出較高的要求,學(xué)習(xí)過(guò)程狀態(tài)無(wú)法得到實(shí)時(shí)評(píng)估,學(xué)習(xí)效果參差不齊。在缺乏授課者實(shí)時(shí)隨堂監(jiān)管情況下,部分學(xué)習(xí)者會(huì)出現(xiàn)因缺乏自我有效管控而導(dǎo)致專注力不夠、學(xué)習(xí)狀態(tài)渙散等效率低下行為。因此需要建立一種在線教學(xué)監(jiān)督系統(tǒng),通過(guò)收集在線學(xué)習(xí)全流程中學(xué)習(xí)者的學(xué)習(xí)效率反饋數(shù)據(jù),對(duì)采集的各類型數(shù)據(jù)進(jìn)行處理分析,得出學(xué)習(xí)者的學(xué)習(xí)效果分析結(jié)果,根據(jù)反饋推斷出知識(shí)掌握情況,同時(shí)給出指導(dǎo)性的改進(jìn)意見(jiàn),提升學(xué)習(xí)全過(guò)程的知識(shí)認(rèn)知水平。
如何利用大數(shù)據(jù),最大程度挖掘在線教育教學(xué)潛在價(jià)值,成為各研究所重點(diǎn)研究?jī)?nèi)容。美國(guó)2005 年DQC[6]建議教育決策者大量收集高質(zhì)量教育教學(xué)數(shù)據(jù),為更好提升學(xué)習(xí)效果給出策略性可行建議。2009 年在全美開展的SO1[7]項(xiàng)目,希望利用數(shù)據(jù)分析技術(shù)對(duì)學(xué)校每個(gè)學(xué)習(xí)者的特點(diǎn)、學(xué)習(xí)進(jìn)度開展針對(duì)性的分析與未來(lái)學(xué)習(xí)能力預(yù)測(cè)。同時(shí)為每一位學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)任務(wù)清單,來(lái)適應(yīng)不同教學(xué)進(jìn)度。在《教育數(shù)據(jù)挖掘分析提升教學(xué)概述》[8]中明確表示在教育教學(xué)領(lǐng)域中結(jié)合教育大數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘和分析數(shù)據(jù)技術(shù)提升教學(xué)水平。近年我國(guó)也陸續(xù)出臺(tái)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》《“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃》《新一代人工智能發(fā)展規(guī)劃》等文件,明確發(fā)展教育文化系統(tǒng)大數(shù)據(jù)。[9-10]
教育數(shù)據(jù)分析是利用相關(guān)數(shù)據(jù)分析手段對(duì)采集到的數(shù)據(jù)進(jìn)行歸納、分析、解讀的過(guò)程。根據(jù)分析結(jié)果判斷采取不同干預(yù)措施以及學(xué)習(xí)改進(jìn)計(jì)劃,提升學(xué)習(xí)者的學(xué)習(xí)成效。
(1)數(shù)據(jù)采集:包括數(shù)據(jù)庫(kù)采集中ETL和Sqoop,關(guān)系型數(shù)據(jù)庫(kù)MySQL 和Oracle 等;網(wǎng)絡(luò)數(shù)據(jù)采集中借助于網(wǎng)絡(luò)爬蟲或網(wǎng)站公開的API;文件采集中實(shí)時(shí)文件采集和處理技術(shù)flume、基于ELK 的日志采集和增量采集等。
(2)大數(shù)據(jù)預(yù)處理:數(shù)據(jù)分析前為提高數(shù)據(jù)質(zhì)量,將采集到的原始數(shù)據(jù)“清洗、填補(bǔ)、平滑、合并、規(guī)格化、一致性檢驗(yàn)”操作,為后期分析奠定基礎(chǔ)。
(3)大數(shù)據(jù)存儲(chǔ):用存儲(chǔ)器以數(shù)據(jù)庫(kù)的形式,存儲(chǔ)采集到數(shù)據(jù)的過(guò)程,包含三種典型路線:基于MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群;基于Hadoop 的技術(shù)擴(kuò)展和封裝;大數(shù)據(jù)一體機(jī)。
(4)大數(shù)據(jù)分析挖掘:數(shù)據(jù)挖掘算法、可視化分析、語(yǔ)義引擎、預(yù)測(cè)性分析、數(shù)據(jù)質(zhì)量管理等方面,對(duì)復(fù)雜無(wú)規(guī)律的數(shù)據(jù)進(jìn)行萃取、提煉、分析、整合的過(guò)程。
(5)數(shù)據(jù)反饋:以可視化方式將分析結(jié)果數(shù)據(jù)呈現(xiàn)給學(xué)習(xí)者,以此作為制定教學(xué)效果判別依據(jù)。
(6)可行性建議:根據(jù)可視化反饋結(jié)果結(jié)合可行性建議進(jìn)行有針對(duì)性的學(xué)習(xí)方式改進(jìn)。
綜上所述,當(dāng)今教育現(xiàn)代化背景下,利用大數(shù)據(jù)分析技術(shù),通過(guò)對(duì)在線學(xué)習(xí)過(guò)程中產(chǎn)生的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集挖掘分析,可以得出不同學(xué)科背景、不同學(xué)習(xí)能力等學(xué)習(xí)者的學(xué)習(xí)差異、了解不同學(xué)習(xí)者的行為學(xué)習(xí)特征。以此為據(jù),制定出可視性、差異化、定制性學(xué)習(xí)策略,為學(xué)習(xí)者在線學(xué)習(xí)的效率提升提供可行的方案。