單瑩 楊圣洪 朱承學(xué)
摘? ?要:文章從教育大數(shù)據(jù)的視角,探索教育決策系統(tǒng)的建設(shè)架構(gòu)和思路,并提出通過(guò)加強(qiáng)教育大數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)、提高教育決策主體的數(shù)據(jù)素養(yǎng)、建立教育大數(shù)據(jù)共享融合機(jī)制、培養(yǎng)教育大數(shù)據(jù)復(fù)合型人才、健全教育大數(shù)據(jù)安全保障體系等途徑建立基于大數(shù)據(jù)的教育決策優(yōu)化機(jī)制。
關(guān)鍵詞:大數(shù)據(jù);教育決策;支持系統(tǒng)
中圖分類號(hào):G40-058 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2019)05-0048-04
毋庸置疑,在所有教育管理活動(dòng)中,教育決策是核心和關(guān)鍵所在。它不僅影響教育管理工作的效率和成效,更關(guān)乎小到學(xué)生、教師的個(gè)體發(fā)展,大到地區(qū)乃至國(guó)家教育事業(yè)的興衰。在現(xiàn)今這個(gè)“自媒體”時(shí)代,教育由于關(guān)系每家每戶、各色群體,也因此成為全社會(huì)關(guān)注的焦點(diǎn)和人人都可以談?wù)摰臒狳c(diǎn)——高考改革的一舉一動(dòng)、基礎(chǔ)教育的備受詬病、地區(qū)差距及城鄉(xiāng)差別帶來(lái)的教育不均衡、農(nóng)村教育與教師隊(duì)伍的發(fā)展困境、學(xué)生的學(xué)習(xí)評(píng)價(jià)和教師的職業(yè)倦怠、學(xué)校的育人環(huán)境與校長(zhǎng)的專業(yè)化……有關(guān)教育的任何一個(gè)決定、一條制度、一項(xiàng)法規(guī),都有可能牽動(dòng)無(wú)數(shù)人的目光,教育決策的環(huán)境變得前所未有的復(fù)雜,教育決策科學(xué)性、有效性的需求也日漸突出和迫切。
隨著教育信息化的全面快速推進(jìn),海量的教育大數(shù)據(jù)為教育決策提供了充分的數(shù)據(jù)基礎(chǔ),而數(shù)據(jù)挖掘、商業(yè)智能、云計(jì)算、計(jì)算機(jī)模擬等信息技術(shù)的迅猛發(fā)展,又為基于教育大數(shù)據(jù)之上的智慧教育決策提供了有效手段。2014年3月,教育部印發(fā)的《2014年教育信息化工作要點(diǎn)》中提出:加強(qiáng)對(duì)動(dòng)態(tài)監(jiān)測(cè)、決策應(yīng)用、教育預(yù)測(cè)等相關(guān)數(shù)據(jù)資源的整合與集成,為教育決策提供及時(shí)和準(zhǔn)確的數(shù)據(jù)支持,推動(dòng)教育基礎(chǔ)數(shù)據(jù)在全國(guó)的共享??梢?jiàn),告別“感覺(jué)”和“經(jīng)驗(yàn)”,以數(shù)據(jù)驅(qū)動(dòng)決策的能力已成為教育決策的方向和實(shí)踐路徑。
一、大數(shù)據(jù)和教育大數(shù)據(jù)
大數(shù)據(jù)這一詞匯從2009年開(kāi)始流行,2012年成為時(shí)代發(fā)展的一個(gè)重要趨勢(shì),2013年被媒體稱為中國(guó)大數(shù)據(jù)元年。
教育大數(shù)據(jù)是大數(shù)據(jù)的一個(gè)子集,特指教育領(lǐng)域的大數(shù)據(jù),是整個(gè)教育活動(dòng)過(guò)程中所產(chǎn)生的以及根據(jù)教育需要采集到的、一切用于教育發(fā)展并可創(chuàng)造巨大潛在價(jià)值的數(shù)據(jù)集合。
教育大數(shù)據(jù)主要分成兩類:宏觀數(shù)據(jù),如國(guó)家、各省市的教育年鑒;過(guò)程數(shù)據(jù),如各學(xué)生、各科目、各過(guò)程環(huán)節(jié)的成績(jī),據(jù)教育部2017年統(tǒng)計(jì)數(shù)據(jù)(http://www.chyxx.com/industry/201808/664173.html)顯示,當(dāng)年全國(guó)中小學(xué)在校生總數(shù)為18560.7萬(wàn)人,其中中職在校學(xué)生1592.5萬(wàn)、高中在校學(xué)生 2374.5萬(wàn)、初中在校學(xué)生 4442.1萬(wàn)、小學(xué)在校學(xué)生 10093.7萬(wàn)、特殊教育在校學(xué)生 57.9萬(wàn),如果按每個(gè)學(xué)生一年10門(mén)學(xué)科記錄期中、期末、小考分?jǐn)?shù),按5門(mén)過(guò)程成績(jī)記錄,就有92.80億條數(shù)據(jù),按平均每條數(shù)據(jù)5K計(jì)算,可能需4640175×5K=4.425216萬(wàn)TB=43PB數(shù)據(jù),如果再加上本科學(xué)生數(shù)據(jù),將達(dá)到100PB的驚人數(shù)據(jù)量,多年累積下來(lái),這些數(shù)據(jù)的存貯與利用就是大數(shù)據(jù)研究的范圍。
二、基于大數(shù)據(jù)的教育決策支持系統(tǒng)建設(shè)
早期數(shù)據(jù)處理采用“數(shù)據(jù)挖掘技術(shù)”,尋找數(shù)據(jù)之間的相關(guān)性,如“啤酒與嬰兒尿片”,當(dāng)數(shù)據(jù)達(dá)到海量,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)需與云計(jì)算、超級(jí)計(jì)算結(jié)合起來(lái),不僅要在海量數(shù)據(jù)中找出規(guī)律,而且將這種規(guī)律用某種方式表現(xiàn)出來(lái),并應(yīng)用在新數(shù)據(jù)新問(wèn)題中,這便是機(jī)器學(xué)習(xí)等人工智能技術(shù),尤其基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)即“深度學(xué)習(xí)”技術(shù),在AlphaGo與AlphaGo Zero戰(zhàn)勝人類頂尖圍棋選手后,這種技術(shù)已經(jīng)成為業(yè)界追捧的技術(shù),因此教育大數(shù)據(jù)的處理應(yīng)采用機(jī)器學(xué)習(xí)等人工智能技術(shù)。
1.機(jī)器學(xué)習(xí)處理教育大數(shù)據(jù)的基本框架
教育大數(shù)據(jù)處理的機(jī)器學(xué)習(xí)建模過(guò)程,一般分為七大步驟,分別是數(shù)據(jù)采集、數(shù)據(jù)清洗、預(yù)處理、特征選擇、機(jī)器學(xué)習(xí)模型選擇、模型效果評(píng)估和決策。如圖1所示。
第一步,數(shù)據(jù)采集。把紙質(zhì)的資料掃描為PDF形式,再把PDF形式轉(zhuǎn)換為CSV文件,存儲(chǔ)到云服務(wù)器上。
第二步,數(shù)據(jù)清洗。包括數(shù)據(jù)去重、字符串為空的統(tǒng)一標(biāo)注等。
第三步,數(shù)據(jù)預(yù)處理。包括Y變量標(biāo)注、訓(xùn)練樣本和測(cè)試樣本的篩選、正負(fù)樣本比例的調(diào)整以及啞變量處理等。
第四歩,特征選擇。包括Filter和Wrapper兩種特征選擇,特征降維、特征提升。
第五歩,模型選擇。包括模型選擇、參數(shù)設(shè)置以及評(píng)估指標(biāo)選擇。
第六步,模型效果評(píng)估。包括模型的ROC曲線、AUC面積、模型正則化、模型假設(shè)、超參數(shù)搜索等。
第七步,決策。把模型的輸出概率轉(zhuǎn)化為一個(gè)分?jǐn)?shù),對(duì)所有樣本的分?jǐn)?shù)進(jìn)行區(qū)間統(tǒng)計(jì),最后,選擇一個(gè)分?jǐn)?shù)閾值,把分?jǐn)?shù)閾值以內(nèi)的樣本判斷為壞樣本,把分?jǐn)?shù)閾值以外的樣本判斷為好樣本。
2.教育機(jī)器學(xué)習(xí)的實(shí)例:教師教學(xué)與學(xué)生學(xué)習(xí)成效評(píng)價(jià)的機(jī)器學(xué)習(xí)
在教育大數(shù)據(jù)時(shí)代,將各學(xué)校、各教育的監(jiān)控匯聚起來(lái),將教學(xué)過(guò)程中教師板書(shū)、走動(dòng)范圍、教鞭、教具使用、形體動(dòng)作、聲音、語(yǔ)速、表情等言談舉止通過(guò)視頻形體分析提取出來(lái),將學(xué)生課堂表現(xiàn)——小動(dòng)作、睡覺(jué)、全神貫注、互動(dòng)情況等分析提取出來(lái),還通過(guò)問(wèn)卷調(diào)查等獲取學(xué)習(xí)效果,通過(guò)機(jī)器學(xué)習(xí),找出影響學(xué)習(xí)質(zhì)量的因子。為此采用機(jī)器學(xué)習(xí)方法建立成效評(píng)價(jià)模型,確定關(guān)鍵特征,選擇機(jī)器學(xué)習(xí)樹(shù)模型,決策會(huì)反饋到數(shù)據(jù)采集階段。此研究中最后采用隨機(jī)森林和XGBOOST模型?;跈C(jī)器學(xué)習(xí)方法的教師教學(xué)與學(xué)生學(xué)習(xí)成效評(píng)價(jià)模型如圖2所示。
3.教育機(jī)器學(xué)習(xí)的實(shí)例:教育投入與教學(xué)質(zhì)量成效評(píng)價(jià)的機(jī)器學(xué)習(xí)的研究
在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)應(yīng)用在智能教學(xué)和智能學(xué)習(xí)中,收集湖南省教育年鑒的數(shù)據(jù),將教育在校舍基本保障、教師績(jī)效、教師培訓(xùn)、信息化教學(xué)、學(xué)生競(jìng)賽等方面的投入,與九年義務(wù)制教育的比例、初中升高中比率、初中升高職比率、高中升本科比率、高中升高職比率、當(dāng)?shù)谿DP之間的相關(guān)性等進(jìn)行分析,通過(guò)機(jī)器學(xué)習(xí)建模,找出影響教育質(zhì)量的因子,哪些是正相關(guān),哪些是互相關(guān),找出投入與產(chǎn)出之間的關(guān)系,即模型,以確定最佳的教育投入模式,如投“磚頭”即校舍及設(shè)備的硬件投資、投“人頭”即教師待遇之間的比例是多大最合適等。
從教學(xué)管理的角度,收集每位學(xué)生、每科的各種過(guò)程數(shù)據(jù),如入學(xué)考試、期中、期末、各種小考,小升初比率、初中升高中比率、初中升高職比率、高中升本科比率、高中升高職比率,各種競(jìng)賽獲獎(jiǎng)的情況,還有關(guān)于教學(xué)效果的各種問(wèn)卷調(diào)查等,通過(guò)機(jī)器學(xué)習(xí)找出教學(xué)行為與學(xué)生學(xué)習(xí)效果正相關(guān)的因素。
4.基于以上分析建立驗(yàn)證系統(tǒng)
(1)平臺(tái)功能及模塊
①Web服務(wù)器
Web服務(wù)器,即平臺(tái)前端,以Web瀏覽器的形式展現(xiàn)給用戶??梢怨芾砦募?,包括上傳、瀏覽、下載和刪除文件??梢愿鶕?jù)機(jī)器學(xué)習(xí)的建模過(guò)程,選擇相應(yīng)的腳本,創(chuàng)建一個(gè)任務(wù)壓縮包,并儲(chǔ)存起來(lái)??梢圆榭礄C(jī)器學(xué)習(xí)建模結(jié)果,瀏覽評(píng)估指標(biāo)ROC曲線和AUC面積;可以依據(jù)自定義的評(píng)分策略做決策。
兩個(gè)數(shù)據(jù)表:一個(gè)是mysql-文件信息數(shù)據(jù)表,記錄用戶的文件信息;另一個(gè)是mysql-任務(wù)信息數(shù)據(jù)表,記錄用戶的任務(wù)壓縮包信息。
②文件系統(tǒng)
文件系統(tǒng)可以是一個(gè)服務(wù)器,也可以是一個(gè)Hadoop集群,存儲(chǔ)用戶上傳的或者執(zhí)行任務(wù)返回的結(jié)果文件。
③Zookeeper調(diào)度系統(tǒng)
基于Zookeeper分布式開(kāi)源系統(tǒng)搭建的調(diào)度系統(tǒng),用于管理用戶創(chuàng)建的機(jī)器學(xué)習(xí)任務(wù),并對(duì)相應(yīng)的任務(wù)進(jìn)行調(diào)度。
④任務(wù)執(zhí)行集群
是一個(gè)服務(wù)器,也可以是基于Spark搭建的集群,用于執(zhí)行用戶創(chuàng)建的機(jī)器學(xué)習(xí)任務(wù)。
(2)基本架構(gòu),如圖3所示
(3)基本架構(gòu)中的邏輯關(guān)系
①用戶上傳文件,增加文件信息到mysql-文件信息數(shù)據(jù)表;用戶選擇機(jī)器學(xué)習(xí)處理腳本,創(chuàng)建機(jī)器學(xué)習(xí)任務(wù)壓縮包,存儲(chǔ)任務(wù)壓縮包,增加壓縮包信息到mysql-任務(wù)信息數(shù)據(jù)表。
②Zookeeper調(diào)度系統(tǒng)掃描mysql-任務(wù)信息數(shù)據(jù)表,發(fā)現(xiàn)有未執(zhí)行的任務(wù);根據(jù)任務(wù)相關(guān)信息從文件系統(tǒng)下載文件數(shù)據(jù)和從Web服務(wù)器下載任務(wù)壓縮包。
③Zookeeeper調(diào)度系統(tǒng)根據(jù)mysql-任務(wù)信息數(shù)據(jù)表的相關(guān)信息,安排相應(yīng)的機(jī)器學(xué)習(xí)任務(wù)包到集群執(zhí)行。
④集群執(zhí)行任務(wù)完畢,給文件系統(tǒng)返回結(jié)果文件,給調(diào)度系統(tǒng)返回任務(wù)執(zhí)行結(jié)果信息,調(diào)度系統(tǒng)更新mysql-任務(wù)信息數(shù)據(jù)表的任務(wù)相關(guān)信息。
⑤在Web界面,根據(jù)mysql-任務(wù)信息數(shù)據(jù)表和mysql-文件信息數(shù)據(jù)表查看某任務(wù)的結(jié)果,包括評(píng)估指標(biāo)ROC曲線和AUC面積等。
(4)系統(tǒng)運(yùn)行界面(見(jiàn)圖4a、b、c、d、e)
網(wǎng)址:http://apple41.com:2018/。
三、建立基于大數(shù)據(jù)的教育決策優(yōu)化機(jī)制
大數(shù)據(jù)應(yīng)用于教育決策包含大數(shù)據(jù)獲取、挖掘、分析、應(yīng)用等階段,不同階段面臨著不同的挑戰(zhàn),需要不斷地完善各階段,形成整體機(jī)制,實(shí)現(xiàn)立體化的決策支撐。
1.加強(qiáng)教育大數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)
數(shù)據(jù)的獲取是大數(shù)據(jù)應(yīng)用的源頭,基于大數(shù)據(jù)的教育決策需要多來(lái)源、多類型的數(shù)據(jù)集合。數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是保證各教育部門(mén)數(shù)據(jù)資源共享和業(yè)務(wù)系統(tǒng)整合的關(guān)鍵,數(shù)據(jù)標(biāo)準(zhǔn)的缺失可能會(huì)導(dǎo)致數(shù)據(jù)獲取不足、數(shù)據(jù)處理錯(cuò)誤、無(wú)效信息冗余、有效信息遺漏,從而將教育決策的方向引入歧途,降低教育決策的可用性和科學(xué)性,增加教育決策的風(fēng)險(xiǎn)性。因此,制定統(tǒng)一的數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)采集標(biāo)準(zhǔn)和質(zhì)量標(biāo)準(zhǔn),構(gòu)建清晰有效合理的教育數(shù)據(jù)管理戰(zhàn)略、治理機(jī)制和處理流程,保障教育數(shù)據(jù)的規(guī)范化采集與匯聚共享,保證被采集數(shù)據(jù)的有效性、一致性和準(zhǔn)確性,是開(kāi)展基于大數(shù)據(jù)的教育決策工作的基礎(chǔ)和前提。
2.提高教育決策主體的數(shù)據(jù)素養(yǎng)
大數(shù)據(jù)發(fā)展對(duì)教育決策者的數(shù)據(jù)素質(zhì)提出了更高要求。一是要培養(yǎng)數(shù)據(jù)意識(shí):決策者要“心中有數(shù)”,樹(shù)立起數(shù)據(jù)驅(qū)動(dòng)決策的管理意識(shí),建立大數(shù)據(jù)思維,保持對(duì)數(shù)據(jù)的敏感性,認(rèn)同教育數(shù)據(jù)的價(jià)值和意義,擺脫對(duì)舊有決策習(xí)慣的路徑依賴,構(gòu)建基于大數(shù)據(jù)決策的教育行政組織文化和制度。二是要提高數(shù)據(jù)能力:能夠?qū)芾頉Q策所需要的數(shù)據(jù)進(jìn)行大致定位;能夠理解可視化數(shù)據(jù)模型等不同數(shù)據(jù)的表達(dá)形式;能夠把握數(shù)據(jù)分析結(jié)果對(duì)教育決策的具體效用;能夠通過(guò)數(shù)據(jù)處理呈現(xiàn)的結(jié)果對(duì)決策做出準(zhǔn)確判斷;能夠反思數(shù)據(jù)對(duì)決策實(shí)施的效果,形成拓展性思維。三是要樹(shù)立數(shù)據(jù)倫理觀:教育管理者應(yīng)重視數(shù)據(jù)安全與個(gè)人隱私的保護(hù),提高數(shù)據(jù)使用的倫理道德。
3.建立教育大數(shù)據(jù)共享融合機(jī)制
大數(shù)據(jù)視角下的教育決策對(duì)數(shù)據(jù)來(lái)源提出了廣泛性和全面性的要求,因此需要消滅現(xiàn)存的條塊分割的數(shù)據(jù)孤島,對(duì)各級(jí)各類教育部門(mén)的現(xiàn)有數(shù)據(jù)信息進(jìn)行整體優(yōu)化與有效清理,實(shí)現(xiàn)數(shù)據(jù)的規(guī)范化、模塊化,打通教育部門(mén)縱向和橫向業(yè)務(wù)數(shù)據(jù)的融合渠道,為建立數(shù)據(jù)共享機(jī)制提供平臺(tái)支撐。
4.培養(yǎng)教育大數(shù)據(jù)復(fù)合型人才
教育大數(shù)據(jù)涵蓋內(nèi)容廣泛,不同的教育決策需要不同的教育數(shù)據(jù)進(jìn)行支撐,如何根據(jù)決策需求從海量數(shù)據(jù)源中判斷數(shù)據(jù)的選擇,如何將來(lái)源于各異構(gòu)數(shù)據(jù)源的數(shù)據(jù)按照預(yù)先設(shè)計(jì)好的規(guī)則進(jìn)行轉(zhuǎn)化清洗,如何借助大數(shù)據(jù)進(jìn)行數(shù)據(jù)建?;蜈厔?shì)預(yù)測(cè)分析,都迫切需要同時(shí)具有大數(shù)據(jù)領(lǐng)域和教育決策領(lǐng)域知識(shí)的復(fù)合型人才。因此,當(dāng)務(wù)之急是加快教育大數(shù)據(jù)復(fù)合型人才的引進(jìn)和培養(yǎng),既要充分發(fā)揮高校在培養(yǎng)大數(shù)據(jù)專業(yè)人才方面的先天優(yōu)勢(shì),合理調(diào)整教育資源分配,完善專業(yè)人才培養(yǎng)體系;同時(shí),又要加強(qiáng)與互聯(lián)網(wǎng)公司、數(shù)據(jù)技術(shù)企業(yè)資源合作,通過(guò)聯(lián)合創(chuàng)建大數(shù)據(jù)技術(shù)研發(fā)中心及科研團(tuán)隊(duì),快速培養(yǎng)滿足需求的教育大數(shù)據(jù)復(fù)合型人才。
5.建立健全教育大數(shù)據(jù)安全保障體系
從國(guó)家層面看,教育數(shù)據(jù)的安全性可以比肩金融數(shù)據(jù)。從個(gè)人來(lái)看,龐大規(guī)模的受教育者與教育者群體,尤其是大量未成年學(xué)生,隱私保護(hù)至關(guān)重要。因此,應(yīng)當(dāng)出臺(tái)教育大數(shù)據(jù)治理的法規(guī)條令,設(shè)立完善的教育大數(shù)據(jù)使用及監(jiān)管機(jī)制,明確政府、學(xué)校、企業(yè)和個(gè)人在數(shù)據(jù)收集、處理、共享過(guò)程中的責(zé)任和義務(wù),明確教育數(shù)據(jù)的開(kāi)放程度、開(kāi)放范圍、開(kāi)放對(duì)象,規(guī)范公開(kāi)數(shù)據(jù)與私有數(shù)據(jù)的邊界。同時(shí),要建立教育大數(shù)據(jù)安全保障技術(shù)體系,通過(guò)開(kāi)發(fā)新的數(shù)據(jù)安全監(jiān)測(cè)工具,升級(jí)數(shù)據(jù)安全防護(hù)技術(shù)來(lái)保證數(shù)據(jù)不被竊取。在來(lái)源清晰、責(zé)權(quán)明確、應(yīng)用有序的前提下,通過(guò)數(shù)據(jù)安全法規(guī)體系和技術(shù)保障體系的雙重作用,共同維護(hù)教育大數(shù)據(jù)的信息安全,有效開(kāi)展教育大數(shù)據(jù)研究與應(yīng)用。
參考文獻(xiàn):
[1]彭紅光,林君芬.邁向云時(shí)代的教育變革[M]北京:科學(xué)出版社,2012.8.
[2]單瑩.基于教育信息化的數(shù)字化終身學(xué)習(xí)體系的構(gòu)建[J].成人教育,2014(3).
[3]單瑩.從幕課、微課看碎片化和娛樂(lè)化學(xué)習(xí)[J].中國(guó)教育信息化,2014(11).
[4]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究,2015(9).
(編輯:王天鵬)