魯鑫 施宏遠 李印
(營口理工學(xué)院 遼寧省營口市 115000)
大數(shù)據(jù)這一新詞匯為世界帶來了一個全新的革命,極大的推動了社會進步和變革。大數(shù)據(jù)的特點是一量大、二種類多、三價值密度低。國內(nèi)外學(xué)者研究的熱點問題聚焦在如何更有效、快速地存儲、收集、處理和分析大數(shù)據(jù)。其中,教育領(lǐng)域也存在著大數(shù)據(jù)問題的研究通常稱為教育大數(shù)據(jù),同時面臨機遇與挑戰(zhàn)。隨著網(wǎng)絡(luò)的興起,慕課、網(wǎng)絡(luò)教學(xué)、移動終端教學(xué)、社交網(wǎng)絡(luò)和各種信息系統(tǒng)在高校的教學(xué)中應(yīng)用逐步加深,促進校園大數(shù)據(jù)的極速發(fā)展。各高校相繼開發(fā)使用的教務(wù)系統(tǒng)中存在著數(shù)量龐大的教學(xué)相關(guān)信息數(shù)據(jù)。但是,這些數(shù)據(jù)只保存在教務(wù)系統(tǒng)中,未有良好的運用。如何有效的利用這些數(shù)據(jù),將其轉(zhuǎn)化為有用的信息,輔助提高教學(xué)效果,讓教學(xué)管理者以及教師可以利用這些數(shù)據(jù)為教學(xué)決策以及課程優(yōu)化服務(wù),這是教育大數(shù)據(jù)時代到來時,我們要研究的重點問題。
在高校教學(xué)整體運行中,教務(wù)管理的重點之一是學(xué)生成績的管理。學(xué)生的課程成績一方面體現(xiàn)了學(xué)生的個人學(xué)習(xí)效果,同時也是高校教學(xué)質(zhì)量的表現(xiàn)形式。學(xué)生的課程成績能夠指導(dǎo)高校的教學(xué)管理工作,同時也可以指導(dǎo)教師進行教學(xué)方法與手段的改革。隨著教育大數(shù)據(jù)的興起以及高等學(xué)校教學(xué)或教務(wù)管理系統(tǒng)的廣泛應(yīng)用,在系統(tǒng)中積累了大量原始數(shù)據(jù),對這些數(shù)據(jù)進行有效的分析和挖掘?qū)μ岣呓虅?wù)管理的能力和水平有著重要的意義。但一般傳統(tǒng)做法是使用Excel等表格法統(tǒng)計匯總數(shù)據(jù)信息,該方法不能有效挖掘規(guī)律,不能形成一些指導(dǎo)性的原則。隨著大數(shù)量興起,數(shù)據(jù)量規(guī)模大、信息多,統(tǒng)計分析的方法缺點更加突出?;谝陨系姆治?,本文以數(shù)據(jù)挖掘算法為基礎(chǔ)以大數(shù)量環(huán)境為基準研究重點放在高校學(xué)生成績預(yù)警模型的建立上,分析高校學(xué)生的課程成績,來挖掘各學(xué)科與課程的之間的關(guān)系情況,并建立學(xué)生成績預(yù)警模型,同時利用決策樹算法,結(jié)合實際情況得出預(yù)警結(jié)論,這一結(jié)論同時可以幫助教師和學(xué)生預(yù)測課程成績的一個未來趨勢。再對預(yù)測結(jié)果進行有效的分析,可以有效支持學(xué)生、教師、教學(xué)管理者三方面人群所做的決策。
預(yù)警的定義,指在事件未發(fā)生的時候?qū)κ录赡馨l(fā)生的潛在性進行預(yù)測并提供警示信息的過程[1]。根據(jù)教育大數(shù)據(jù)這一環(huán)境,基于現(xiàn)有的數(shù)據(jù)和知識,預(yù)警可以通過數(shù)據(jù)挖掘技術(shù)對事物的發(fā)展規(guī)律進行總結(jié)和分析,描述、預(yù)測事物的發(fā)展趨勢,然后與目標(biāo)閾值進行對比,判斷是否發(fā)出必要的信號和警示,以便事件主體有足夠的時間采取合適的決策。
教育信息的系統(tǒng)化、網(wǎng)絡(luò)化已在我國高等院校廣泛發(fā)展,高校大數(shù)據(jù)研究,即從教務(wù)系統(tǒng)中提取有用信息,并將這些信息進行有效的清洗處理,利用關(guān)聯(lián)數(shù)據(jù)進行成績預(yù)警,建立預(yù)警規(guī)則、模型,最后形成預(yù)警結(jié)論已成為高等院校教學(xué)管理者和教師的主要研究方向之一。自動成績預(yù)警是得用教務(wù)系統(tǒng)中的原始數(shù)據(jù),建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,形成預(yù)警模型,最后根據(jù)預(yù)警模型得出未來的課程成績預(yù)警信息。因這些數(shù)據(jù)都是教務(wù)系統(tǒng)中的真實數(shù)據(jù),在實際應(yīng)用中具有很高的價值。
本文主要工作是介紹以數(shù)據(jù)挖掘算法為基礎(chǔ)的成績預(yù)警系統(tǒng)。系統(tǒng)主要包括以下方面,一低層數(shù)據(jù)的導(dǎo)入、二數(shù)據(jù)清洗(預(yù)處理)、三建模挖掘數(shù)據(jù)關(guān)聯(lián)、四成績預(yù)警信息、五預(yù)警結(jié)論輸出。其中三建模挖掘數(shù)據(jù)關(guān)聯(lián)是系統(tǒng)核心功能。
成績預(yù)警系統(tǒng)根據(jù)監(jiān)測數(shù)據(jù),第一步要設(shè)計好關(guān)聯(lián)規(guī)則,并設(shè)計好進行預(yù)警的一個閾值。體現(xiàn)了關(guān)聯(lián)規(guī)則并超過預(yù)警閾值的數(shù)據(jù)才進行預(yù)警輸出,并且在輸出模塊上設(shè)計一些外部接品,可以與其它的功能一起控制。
成績預(yù)警規(guī)則的定義是能夠反映預(yù)警課程成績與其先修課程成績之間或關(guān)聯(lián)或依賴的關(guān)系[2]。預(yù)警課程成績依賴于其關(guān)聯(lián)課程的成績分布。預(yù)警規(guī)律的生成需要利用關(guān)聯(lián)分析技術(shù)實現(xiàn)。首先對教務(wù)系統(tǒng)中的原始數(shù)據(jù)進行清洗,形成標(biāo)準的數(shù)據(jù)格式,之后,尋找相應(yīng)的預(yù)警規(guī)則,這些規(guī)則需要根據(jù)數(shù)據(jù)的特點在預(yù)警知識庫中提取,最后是比較監(jiān)測的數(shù)據(jù)和預(yù)警規(guī)則:第一步在規(guī)則集的前項中查找監(jiān)測數(shù)據(jù),若均無法匹配,則使用下一條規(guī)則重新比對;若匹配成功,第二步根據(jù)事先的策略產(chǎn)生綜合預(yù)警信息。
關(guān)聯(lián)分析技術(shù)是數(shù)據(jù)技術(shù)中的一種,該技術(shù)從數(shù)據(jù)集中挖掘頻繁項集。關(guān)聯(lián)分析會形成一系列規(guī)則,這些規(guī)則都是以X可得出結(jié)論Y、其中的前項發(fā)生的事件用符號X表示,得到的Y用來表示預(yù)警事件。關(guān)聯(lián)分析生成的規(guī)則稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析技術(shù)是對預(yù)測事件之間的有關(guān)系的一種技術(shù),通過掌握滿足支持度和置信度要求形成預(yù)測結(jié)論。
算法詞語解釋:
(1)Support定義為置信度:表現(xiàn)如果X事件發(fā)生,Y事件可能發(fā)生的概率。
支持:表示所有事務(wù)中itemset{x,y}的概率。
(2)Confidence 定義為依賴度:表現(xiàn)如果X事件發(fā)生,Y事件可能發(fā)生的條件概率。
基于教育大數(shù)據(jù)的教務(wù)系統(tǒng)學(xué)生成績預(yù)測模型,其建立的關(guān)鍵技術(shù)是關(guān)聯(lián)分析。然而,當(dāng)我們對關(guān)聯(lián)分析技術(shù)展開研究過程中發(fā)現(xiàn),傳統(tǒng)的關(guān)聯(lián)算法會導(dǎo)致數(shù)據(jù)中生成產(chǎn)生大量無用的、冗余的關(guān)聯(lián)規(guī)則,這些無用、冗余的規(guī)則影響最終預(yù)警結(jié)論,并使預(yù)警精確度不高。對此,我們在關(guān)聯(lián)算法中,對算法約束和優(yōu)化以此清洗、冗余數(shù)據(jù)及規(guī)則,提高預(yù)警精神。具體加入的約束如下:
約束(1) 最小置信水平約束。預(yù)測結(jié)果是否準確要通過置信水平來決定。置信水平低會導(dǎo)致準確度低的規(guī)則也被認為是關(guān)聯(lián)規(guī)則,顯然會影響預(yù)測結(jié)果,并增加算法建模的壓力以及時間。
約束(2)最小支持度約束。支持度反應(yīng)項集出現(xiàn)在數(shù)據(jù)集中的概率,它反映了數(shù)據(jù)項集所具有的一般規(guī)律。進行數(shù)據(jù)挖掘時,為了保證所分析的規(guī)則和規(guī)則的通用性,有必要限制最小支持度,有最小支持度約束所得出的結(jié)果才具有實際意義。
約束(3) 前后課序約束。在以往的關(guān)聯(lián)分析中,對規(guī)則的順序不進行約束。但是,對學(xué)生的學(xué)業(yè)成績進行預(yù)警過程中,因?qū)W生學(xué)習(xí)課程由學(xué)生培養(yǎng)方案和課程大綱決定,課程有前序課程、后序課程之分。因此,需要在課程預(yù)警算法設(shè)計中,加入前后課序約束。
根據(jù)已有的經(jīng)典 Apriori 算法本文設(shè)計的成績預(yù)警模型。通過算法分析和上述限制條件的約束,最終得到的規(guī)則和實際情況相比是比較符合的,經(jīng)典的Apriori 算法會形成很多的規(guī)則,但其中有很多無用規(guī)則,本文在Apriori 算法的基礎(chǔ)上對算法進行優(yōu)化,對庫內(nèi)數(shù)據(jù)進行有方向的挖掘,因為進行了約束,得到的規(guī)則是用戶需要的。算法的基本思想描述如下:
首先,輸入預(yù)警事項,最小支持度,最小置信度,如果滿足最小支持度和最小置信度,則最終輸出成績預(yù)警規(guī)則。
通過上文的介紹,預(yù)警規(guī)則模型能夠通過對教務(wù)系統(tǒng)數(shù)據(jù)庫成績數(shù)據(jù)的分析,挖掘數(shù)據(jù)中的潛在規(guī)律,建立成績預(yù)警知識庫,以輔助學(xué)校的教學(xué)管理和教務(wù)決策工作。這樣就能夠通過提前預(yù)警,預(yù)警規(guī)則可以同時指導(dǎo)學(xué)生和教師。對于學(xué)生,可以幫助他們及早發(fā)現(xiàn)學(xué)業(yè)問題,及早改進學(xué)習(xí)狀態(tài)。對于教師,可以為教師優(yōu)化教學(xué)流程、提前關(guān)注學(xué)業(yè)困難學(xué)生有針對性的進行幫助提供方便,對于教學(xué)管理者,能夠使教務(wù)管理系統(tǒng)更合理、更科學(xué)。
隨著我國高等教育由精英到大眾教育的發(fā)展,學(xué)生規(guī)模迅速擴大。隨著學(xué)生數(shù)量的急劇增加,高校對教學(xué)質(zhì)量和教學(xué)效果更加重視,畢業(yè)后的學(xué)生,能否滿足社會工作的需要成為社會焦點問題。因些,在學(xué)生成績結(jié)果出現(xiàn)之前,提前對成績有一個初步的預(yù)測,加強學(xué)生學(xué)習(xí)水平的評估和管理,使學(xué)生的學(xué)習(xí)效果和教師的教學(xué)效果達到良好水平,顯得尤為重要。
我們可以利用課程之間的聯(lián)系構(gòu)造關(guān)聯(lián)規(guī)則。例如,數(shù)學(xué)課程類中的高數(shù) AII課程 與概率論與數(shù)理統(tǒng)計課程、線性代數(shù)課程之間存在著高關(guān)聯(lián)性,它們同屬于數(shù)學(xué)類基礎(chǔ)課,課程相互之間必然存在一定的關(guān)聯(lián)。而且在大部分的課程培養(yǎng)方案中,高等數(shù)學(xué)通常作為最基礎(chǔ)的課程首先開設(shè)。因此,當(dāng)學(xué)生出現(xiàn)“高等數(shù)學(xué) AII-不及格”的情況時,預(yù)警模型就會對后續(xù)的概率論與數(shù)理統(tǒng)計 和線性代數(shù)課程給出預(yù)警提示,學(xué)生根據(jù)這一預(yù)警提示,要認真更改自己的學(xué)習(xí)、復(fù)習(xí)計劃,并給予足夠的重視,同時,此類學(xué)生也同樣需要任課教師更多的關(guān)注,及時在學(xué)業(yè)上給于輔導(dǎo)。另外,高等數(shù)學(xué)AII與電工電子技術(shù)課程、大學(xué)物理課程之間也具有顯著的關(guān)聯(lián)性。這3門課程在內(nèi)容上顯然不是同一類課程,但它們之間在學(xué)生學(xué)習(xí)方法、學(xué)生理解問題的方式上具有相似的地方,因此,只是一條統(tǒng)計規(guī)則。此類規(guī)則,更具有現(xiàn)實意義,它能夠為教師和教管管理部門的工作人員,提供有價值的信息,加深對信息的理解,為它們進行決策和管理提供依據(jù)。
大數(shù)據(jù)技術(shù)在推動社會進步和變革方面發(fā)揮了巨大作用。在教育領(lǐng)域,教育大數(shù)據(jù)研究也受到研究學(xué)者的廣泛關(guān)注。利用好大數(shù)據(jù)技術(shù),將數(shù)據(jù)轉(zhuǎn)化為教學(xué)與決策中有用的知識和信息,提升教學(xué)效果,幫助教育管理者和教師進行教學(xué)決策、優(yōu)化課程設(shè)置等服務(wù),是大數(shù)據(jù)時代教育數(shù)據(jù)挖掘研究的熱點問題。
本文以數(shù)據(jù)挖掘理論和高校成績預(yù)警現(xiàn)狀為基礎(chǔ),對高等院校成績預(yù)警算法進行了設(shè)計和優(yōu)化,提出了一種以關(guān)聯(lián)分析技術(shù)為基礎(chǔ)的課程預(yù)警機制,通過我校某專業(yè)學(xué)生的期末考試成績預(yù)警知識挖掘,得到預(yù)警規(guī)則集。根據(jù)預(yù)警規(guī)則集,生成預(yù)警信息,指導(dǎo)教育管理者、教師和學(xué)生三者做出合理決策,提高學(xué)習(xí)質(zhì)量和效果。