陸蕓婷 張德芬
(深圳信息職業(yè)技術(shù)學(xué)院 廣東·深圳 518000)
教育大數(shù)據(jù)伴隨式收集模式是指在教育教學(xué)活動中,當(dāng)教師、學(xué)生等教育關(guān)聯(lián)方由于教育活動產(chǎn)生教育數(shù)據(jù)時,借助全面、優(yōu)質(zhì)的教育管理信息系統(tǒng),實時、動態(tài)地將各種教育數(shù)據(jù)收集并整理的特殊模式。在教育領(lǐng)域數(shù)據(jù)利用中,存在數(shù)據(jù)收集、數(shù)據(jù)處理以及數(shù)據(jù)挖掘方面的問題,通過較為簡單的統(tǒng)計方式已經(jīng)很難滿足當(dāng)前教育管理發(fā)展的實際情況和需要,和其他部門一樣,教育部門也需要認真的分析這些數(shù)據(jù),將其中蘊含的教育教學(xué)規(guī)律更好的挖掘出來,從而給教育教學(xué)策略的調(diào)整提供幫助,切實提高教學(xué)的實際質(zhì)量。具體而言,本文著重于建立以“伴隨式數(shù)據(jù)收集”為數(shù)據(jù)獲取手段,以“多維圖數(shù)據(jù)映射”為數(shù)據(jù)降維處理過程以及以“子空間數(shù)據(jù)聚類”為數(shù)據(jù)挖掘方法的教學(xué)分析。
教育數(shù)據(jù)往往比較多,并且不同對象之間的聯(lián)系往往是多個維度的,能夠?qū)ο蠼换ザ鄻有院芎玫捏w現(xiàn)出來。例如學(xué)生與老師之間的交互往往是多種維度的,如日常授課、課后輔導(dǎo)、電話溝通等。如圖1 所示,(a)是真實世界中教師和學(xué)生之間的交互關(guān)系,其中五個對象之間存在的交互表示是通過虛線。以往的聚類算法會抽取不同分類的特征,并映射成為圖的數(shù)據(jù)來進行挖掘,即將圖1(a)中的交互區(qū)分為三類,分別是日常授課( 代表),課后輔導(dǎo)(——代表)以及電話溝通( 代表),映射成為圖1(b)中的三個子圖后分別進行單維度的聚類分析。
若是僅僅以聚類挖掘反應(yīng)某種特定教育交互中存在的親疏關(guān)系,那么這種較為簡單的維度關(guān)系分析的時候,很難將對象之間的真實社會關(guān)系顯示出來,我們應(yīng)該在進行聚類挖掘的時候?qū)⒏嗑S護交互引入進來,更有可能體現(xiàn)師生之間的親疏關(guān)系。
圖1 現(xiàn)實教育關(guān)系與復(fù)雜關(guān)系圖數(shù)據(jù)的映射
本文將圖中邊類型稱為維度,如圖1(c)中有三個維度。不同維度的組合稱為子空間,子空間共有2^d-1 種組合(d 為維度),如圖1(c)中的子空間包括課堂授課、課后輔導(dǎo)、電話溝通、課堂授課+課后輔導(dǎo)、課堂授課+電話溝通、課后輔導(dǎo)+電話溝通、課堂授課+課后輔導(dǎo)+電話溝通共7 種組合。
圖2 現(xiàn)實教育關(guān)系與復(fù)雜關(guān)系圖數(shù)據(jù)的映射
圖3 SCA 算法聚類示意圖
采用子空間聚類算法(Subspace Cluster Algorithm, SCA)對多維數(shù)據(jù)進行聚類,SCA 對子空間的圖聚類過程如圖3 所示,設(shè)聚類師生社交圖數(shù)據(jù)中包含三種類型的邊(課堂授課、課后輔導(dǎo)、電話溝通),即圖數(shù)據(jù)維度為3。算法需要在三個維度上,自底向上分別對7 個子空間進行運算。即算法首先進行一維聚類(課堂授課、課后輔導(dǎo)、電話溝通),其次為二維聚類(課堂授課+課后輔導(dǎo)、課堂授課+電話溝通、課后輔導(dǎo)+電話溝通),最后是三維聚類(課堂授課+課后輔導(dǎo)+電話溝通)(見圖3)。
對教育數(shù)據(jù)的聚類往往可以發(fā)現(xiàn)學(xué)習(xí)行為、能力相同的學(xué)生。黨的十九大報告中也指出 “努力讓每個孩子都能享有公平而有質(zhì)量的教育”,這也就要求我們?nèi)鎸嵤耙虿氖┙獭保瑸椴煌瑢W(xué)生提供個性化教育,促進每名學(xué)生個性化成長。那么如何將學(xué)習(xí)能力相似的個體聚類到一起,或者說如何通過數(shù)據(jù)挖掘得到學(xué)習(xí)行為、能力相近的個體,即如何對這些多維度特征數(shù)據(jù)進行聚類就顯得特別重要。通過挖掘可以更好的實現(xiàn)“因材施教”的目的,即針對能力相似的聚類提出特定的學(xué)習(xí)方案。