董婧
摘要:綜合應(yīng)用教育學(xué)、計算機科學(xué)、統(tǒng)計學(xué)、信息學(xué)等多學(xué)科理論可以實現(xiàn)對高校教育大數(shù)據(jù)的深層次挖掘和應(yīng)用。采用Hadoop大數(shù)據(jù)挖掘云服務(wù),構(gòu)建了高校教育大數(shù)據(jù)挖掘系統(tǒng),應(yīng)用數(shù)據(jù)挖掘技術(shù)和統(tǒng)計方法處理曲靖師范學(xué)院本科教學(xué)評估期間收集的海量數(shù)據(jù),可以實現(xiàn)對大學(xué)更加精準高效的管理以及智慧教與學(xué),提高教育教學(xué)質(zhì)量。
關(guān)鍵詞:教育大數(shù)據(jù);數(shù)據(jù)挖掘;云服務(wù);地方高等院校;Hadoop
中圖分類號:G642? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0139-02
大數(shù)據(jù)時代的教育數(shù)據(jù)與傳統(tǒng)教育數(shù)據(jù)相比,具備實時性高、顆粒度細、真實性和決策性強等特點。教育大數(shù)據(jù)產(chǎn)生在教與學(xué)的各個環(huán)節(jié)[1],包括了各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的具有大數(shù)據(jù)特征的數(shù)據(jù)集,如教學(xué)數(shù)據(jù)、管理數(shù)據(jù)和科研數(shù)據(jù),通過數(shù)據(jù)挖掘和分析、云計算等信息技術(shù)展現(xiàn)教育大數(shù)據(jù)的價值,各高等院校需要利用有效的信息技術(shù)來處理海量數(shù)據(jù),挖掘出對高校教育教學(xué)管理決策有價值的信息[2]。教育數(shù)據(jù)挖掘主要采用了數(shù)據(jù)挖掘、數(shù)學(xué)統(tǒng)計和機器學(xué)習(xí)等技術(shù)對海量教育數(shù)據(jù)進行處理和分析并建立科學(xué)的數(shù)據(jù)模型[3],從中發(fā)現(xiàn)學(xué)習(xí)者學(xué)習(xí)結(jié)果與學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源和教學(xué)行為等一系列變量之間的相關(guān)關(guān)系,挖掘?qū)W生的學(xué)習(xí)習(xí)慣、學(xué)習(xí)興趣和學(xué)習(xí)偏好。
我國大數(shù)據(jù)在高等教育領(lǐng)域應(yīng)用的原理性研究較少,有些支持理論尚處于初生階段缺乏相關(guān)的資料支持。隨著教育機構(gòu)的信息化系統(tǒng)中積累的數(shù)據(jù)量日益增多,教育行業(yè)的管理人員在選擇資源時無法得到有效、優(yōu)質(zhì)的信息,導(dǎo)致部分有效的信息得不到發(fā)掘利用,出現(xiàn)“信息孤島”的現(xiàn)象[4]。數(shù)據(jù)挖掘技術(shù)可以從教育信息海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息,讓教育系統(tǒng)中的各個參與者受益,為解決教育領(lǐng)域中存在的半結(jié)構(gòu)化以及非結(jié)構(gòu)化的決策問題提供依據(jù)。
1教育大數(shù)據(jù)關(guān)鍵技術(shù)
1.1交叉學(xué)科
利用教育大數(shù)據(jù)實現(xiàn)對高校教育大數(shù)據(jù)的深層次挖掘和應(yīng)用,需要綜合應(yīng)用教育學(xué)、計算機科學(xué)、統(tǒng)計學(xué)、信息學(xué)等多學(xué)科理論。近幾年來,教育領(lǐng)域和信息領(lǐng)域發(fā)生了歷史性的變革,各種在線學(xué)習(xí)平臺、智能手機應(yīng)用和社交網(wǎng)絡(luò)為研究者提供了大量的應(yīng)用和海量數(shù)據(jù),但是這些數(shù)據(jù)還沒有被許多地方高校足夠重視與合理運用,利用許多新型的信息技術(shù),如云計算技術(shù)、物聯(lián)網(wǎng)、移動計算和大數(shù)據(jù)技術(shù),為分析和挖掘教育大數(shù)據(jù)提供了技術(shù)支持,可以將這些閑置數(shù)據(jù)變廢為寶,實現(xiàn)數(shù)據(jù)技術(shù)的有效處理,挖掘出蘊含的隱藏價值。
云計算服務(wù)解決了高校信息化建設(shè)中的信息孤島現(xiàn)象[5-6],可以集中整合分散的教育資源,使教師和學(xué)生能夠共享存儲在云服務(wù)端的教育資源,并且與各類終端設(shè)備無縫連接,將云服務(wù)端的各種分散的關(guān)系化、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)分析和數(shù)學(xué)統(tǒng)計等方法進行分析和挖掘[7-8],通過數(shù)據(jù)挖掘技術(shù)得到的信息,可以準確分析評價課堂教學(xué)的質(zhì)量。
1.2數(shù)據(jù)來源
地方高校目前普遍存在教育經(jīng)費使用效率不高,教育投入產(chǎn)出比低;在教學(xué)組織形式方面,沿襲工業(yè)化時代的標準化教學(xué)內(nèi)容、教學(xué)方法、考試制度、學(xué)科設(shè)置及人才培養(yǎng)模式,忽視學(xué)生的個性特征和認知發(fā)展等問題。曲靖師范學(xué)院剛完成普通高等學(xué)校本科教學(xué)工作審核評估,各個學(xué)院以及教輔部門收集整理了各個方面的資料,如教學(xué)設(shè)施、課程資源、社會資源、教學(xué)改革、課堂教學(xué)、實踐教學(xué)、第二課堂、招生及生源情況、學(xué)生指導(dǎo)與服務(wù)、學(xué)風(fēng)與學(xué)習(xí)效果、就業(yè)與發(fā)展、教學(xué)質(zhì)量保障體系、質(zhì)量監(jiān)控、質(zhì)量信息與利用和質(zhì)量改進等,涵蓋了學(xué)校教學(xué)與服務(wù)的方方面面,針對這些海量數(shù)據(jù),如何為我校師生做到精準的教與學(xué)以及質(zhì)量評價是一個難題。本研究主要以曲靖師范學(xué)院本科教學(xué)評估期間收集得到的最新教學(xué)狀態(tài)數(shù)據(jù)、學(xué)生網(wǎng)上學(xué)習(xí)的日志數(shù)據(jù)、用戶產(chǎn)生的UGC數(shù)據(jù),比如微信、微博、論壇等數(shù)據(jù)為主,另外學(xué)校已開設(shè)了公共關(guān)系禮儀實務(wù)等10門爾雅通識課、唐詩宋詞人文解讀等9門好大學(xué)在線等多達幾十門MOOC課程,這些教學(xué)的過程數(shù)據(jù)可以實現(xiàn)全程采集,利用這些數(shù)據(jù)來為我校師生做精準化分析服務(wù)。
其中,基礎(chǔ)數(shù)據(jù)包括學(xué)生基本信息、招生及生源情況;管理數(shù)據(jù)包括學(xué)風(fēng)與學(xué)習(xí)效果、教學(xué)質(zhì)量保障體系、質(zhì)量監(jiān)控、教學(xué)評價;教學(xué)數(shù)據(jù)包括教學(xué)設(shè)施、課堂教學(xué)、教學(xué)改革、課程資源、MOOC課程和網(wǎng)絡(luò)課程教學(xué)平臺;科研數(shù)據(jù)包括教師各項科研成果、第二課堂、實踐教學(xué)、大學(xué)生創(chuàng)新創(chuàng)業(yè)項目;服務(wù)數(shù)據(jù)包括學(xué)生指導(dǎo)與服務(wù)、圖書檔案服務(wù)、學(xué)生網(wǎng)上學(xué)習(xí)日志數(shù)據(jù);輿情數(shù)據(jù)包括UGC數(shù)據(jù),如微信、微博、論壇等數(shù)據(jù)。
2教育大數(shù)據(jù)挖掘應(yīng)用實現(xiàn)
2.1教育大數(shù)據(jù)分析系統(tǒng)框架
教育大數(shù)據(jù)分析系統(tǒng)采用Hadoop大數(shù)據(jù)挖掘云服務(wù),它是一個開放的主要面向互聯(lián)網(wǎng)海量非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘平臺,也支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),集成了多種基于Hadoop的并行數(shù)據(jù)預(yù)處理和挖掘算法,如K-means算法,系統(tǒng)框架如圖所示:
2.2數(shù)據(jù)挖掘與數(shù)學(xué)分析
數(shù)據(jù)挖掘是從大量的、有噪聲的、不完備的、隨機的數(shù)據(jù)中,發(fā)現(xiàn)隱含在其中的、人們事先不知道的、但是是潛在有用的信息和知識的過程。原數(shù)據(jù)通常是大量的、真實有效的、含噪聲的;數(shù)據(jù)挖掘的主要特點是對數(shù)據(jù)庫中的大量數(shù)據(jù)進行提取、轉(zhuǎn)換、分析以及其它模型化處理,挖掘出用戶感興趣的以及有助于管理者決策的重要信息。本文以曲靖師范學(xué)院的高校辦學(xué)狀態(tài)等數(shù)據(jù)為原始數(shù)據(jù)源,采用數(shù)據(jù)挖掘技術(shù)中的統(tǒng)計方法、機器學(xué)習(xí)方法和仿生物法建立模型,獲取教育大數(shù)據(jù)中隱藏的潛在信息。統(tǒng)計方法用到了回歸分析、聚類分析、主成分分析和關(guān)聯(lián)規(guī)則挖掘,機器學(xué)習(xí)方法主要用到支持向量機等相關(guān)算法,仿生物法主要用到神經(jīng)網(wǎng)絡(luò),使用SPSS Clementine數(shù)據(jù)挖掘軟件對學(xué)生特征行為分析模塊、學(xué)生就業(yè)因素分析模塊、學(xué)習(xí)結(jié)果預(yù)測模塊、教學(xué)質(zhì)量監(jiān)控評測、高校管理發(fā)展影響因素分析模塊等進行模型構(gòu)建,進行實例仿真,相關(guān)的教育數(shù)據(jù)挖掘研究結(jié)果如下:
3 結(jié)論
采集高校和各學(xué)院的辦學(xué)狀態(tài)數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù),可以消除信息孤島,實現(xiàn)橫向關(guān)聯(lián)比較,縱向歷史分析,提供精準服務(wù),支持科學(xué)決策。通過數(shù)據(jù)挖掘技術(shù)得到的信息,可以準確分析評價課堂教學(xué)的質(zhì)量,實現(xiàn)對大學(xué)更加精準高效的管理,使得教和學(xué)更加智慧,具體來說,對本校各學(xué)院學(xué)生學(xué)習(xí)過程進行跟蹤,實現(xiàn)興趣、個性、情感等方面的動態(tài)分析與挖掘,兩者結(jié)合起來,建立基于用戶興趣和個性的資源推薦,最后實現(xiàn)個性化精準過濾;同時對教師的教學(xué)質(zhì)量和效果可以進行綜合、動態(tài)和客觀的評價。通過數(shù)據(jù)挖掘、分析、可視化等技術(shù)展現(xiàn)教育大數(shù)據(jù)的價值,推動教育發(fā)展創(chuàng)新,提高教育教學(xué)質(zhì)量。
參考文獻:
[1]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進展綜述[J]. 軟件學(xué)報, 2015,26(11):3026-3042.
[2]張燕南. 大數(shù)據(jù)的教育領(lǐng)域應(yīng)用之研究——基于美國的應(yīng)用實踐[D],華東師范大學(xué), 2016.
[3]馬秀麟,衷克定,劉立超. 從大數(shù)據(jù)挖掘的視角分析學(xué)生評教的有效性[J].中國電化教育, 2014(333):78-84.
[4]彭濤,丁凌云.基于教育數(shù)據(jù)挖掘?qū)W生表現(xiàn)預(yù)測模型構(gòu)建研究[J].黑龍江高教研究, 2015(11):55-58.
[5]崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計與開發(fā)[J].計算機研究與發(fā)展, 2012(49):12-18.
[6]何清,敖翔,莊福振,羅平.一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用[J].信息通信技術(shù), 2015(6):42-49.
[7] Chen X, Vorvoreanu M, Madhavan KPC. Mining social media data for understanding students learning experiences[C]. IEEE Trans. on Learning Technologies, 2014, 7(3):246?259.
[8] Chang MM, Lin MC. The effect of reflective learning e-journals on reading comprehension and communication in language learning. Computers & Education, 2014(71):124?132.
【通聯(lián)編輯:王力】