夏雪 龍志雄
[摘要]學(xué)生的成績以分?jǐn)?shù)的形式體現(xiàn),對學(xué)生的評(píng)價(jià)也主要依據(jù)成績分為優(yōu)、良、中、差四類,但這四類的區(qū)分為人的主觀定義,不能準(zhǔn)確的區(qū)分學(xué)生之間的差異。本文使用k-m eans聚類算法對學(xué)生的學(xué)習(xí)成績進(jìn)行分類,得到合理的學(xué)生分類方式以對差別化教學(xué)提供基礎(chǔ)支持。以信息與計(jì)算科學(xué)專業(yè)某班學(xué)生的成績?yōu)樗{(lán)本,使用聚類算法對成績進(jìn)行分類研究,并根據(jù)研究結(jié)果提出教學(xué)改革方案。
[關(guān)鍵詞]聚類算法;學(xué)生成績;教學(xué)改革
引言
大學(xué)生的學(xué)習(xí)成績是評(píng)判其學(xué)習(xí)好壞的一個(gè)重要指標(biāo),尤其是沒有工作經(jīng)驗(yàn)的應(yīng)屆畢業(yè)生,學(xué)習(xí)成績是求職的敲門磚,直接影響著學(xué)生能否通過企業(yè)的初步篩選。如何提高大學(xué)生的學(xué)習(xí)成績是眾多教育工作者研究目標(biāo),對于教師而言,提高學(xué)生的整體成績最為主要的是是因材施教,因材施教的前提是對學(xué)生成績有一個(gè)準(zhǔn)確的分類。傳統(tǒng)分類方法是主觀設(shè)定一個(gè)區(qū)段將學(xué)生的成績單純地分為優(yōu)、良、中、差四類,這種分類方法并沒有考慮學(xué)生成績的聚集性,無法準(zhǔn)確地區(qū)分學(xué)生之間的差異,進(jìn)而根據(jù)這種分類而進(jìn)行因材施教并不一定具有良好的效果。
本文使用K-means聚類算法對學(xué)生成績進(jìn)行劃分與評(píng)價(jià),充分考慮學(xué)生成績的區(qū)域相似性,按照特定的規(guī)則將學(xué)生成績區(qū)分為樣本區(qū)間,同區(qū)間的學(xué)生更具備相似性,進(jìn)而根據(jù)該區(qū)間學(xué)生的特性進(jìn)行教學(xué),此分類方法將在一定程度上彌補(bǔ)了傳統(tǒng)方法的缺陷,有助于教學(xué)人員更好地進(jìn)行教學(xué)優(yōu)化,以提高學(xué)生整體成績。
一、聚類思想
聚類是將一組個(gè)體根據(jù)相似性歸成若干個(gè)類別,使得同一個(gè)群組的個(gè)體樣本相似度盡可能小,而不同群組內(nèi)的個(gè)體樣本盡可能大的分類方法。聚類分析是通過聚類算法來發(fā)現(xiàn)有意義的聚類,主要依據(jù)是將相似的樣本歸為一個(gè)類,而把差別大的樣本區(qū)分開,這樣嘗試的簇是一組數(shù)據(jù)對象集合,這些對象與在同一個(gè)簇中的對象相似,與其他簇中的對象相異。聚類的三個(gè)要素是:相似性測量、聚類準(zhǔn)則與聚類算法。
二聚類算法對學(xué)生成績的處理
(一)數(shù)據(jù)預(yù)處理
論文中的數(shù)據(jù)來源于以文理系2015級(jí)信息與計(jì)算科學(xué)大二學(xué)期的期末考試為例,數(shù)據(jù)以Excel表格形式存在。學(xué)生的成績每學(xué)期都有8~10門專業(yè)課需要進(jìn)行考查,成績都是百分制。然后進(jìn)行數(shù)據(jù)集成,是把多數(shù)據(jù)庫運(yùn)行環(huán)境中的異樣數(shù)據(jù)進(jìn)行合并處理,解決語言意思的模糊性。再進(jìn)行數(shù)據(jù)清洗,除去數(shù)據(jù)中的無關(guān)數(shù)據(jù),處理遺漏的數(shù)據(jù)和清洗臟數(shù)據(jù),去除空白數(shù)據(jù),考慮數(shù)據(jù)變化。將清理過的數(shù)值轉(zhuǎn)化為有用值,大多數(shù)課程都是百分制的,如果成績不是百分制,就把它轉(zhuǎn)換為百分制相對應(yīng)的數(shù)值或其他的分?jǐn)?shù)值。
(二)聚類處理
把處理后的數(shù)據(jù)導(dǎo)人SPSS軟件,利用K-means聚類算法,首先把學(xué)生的成績進(jìn)行分析,初始的聚類中心隨機(jī)產(chǎn)生,K-means聚類算法首先要確定聚類數(shù)目,分別將聚類數(shù)目定為4,5,6。分別求出在不同聚類數(shù)目下,各組全部數(shù)據(jù)與聚類中心的平均分如表1所示。
在各聚類數(shù)目下,各類中各個(gè)成績與聚類中心的方差以及方差均值如表2所示。
(三)聚類結(jié)果分析
利用聚類分析對學(xué)生成績進(jìn)行處理之后,發(fā)現(xiàn)將學(xué)生分為4類最合適。將聚類數(shù)目定為4時(shí)的最終聚類中心為表3
根據(jù)聚類算法將學(xué)生分為4類時(shí),平均方差最小,根據(jù)聚類算法結(jié)果可以得出第一類別的學(xué)生屬于較低水平,分?jǐn)?shù)剛好在及格線左右徘徊,針對這類學(xué)生需要的就是對基本知識(shí)的掌握不夠,需要多做一些練習(xí)。第二類學(xué)生成績屬于中等水平,成績都能及格,對于這類掌握了基本的知識(shí)但是需要進(jìn)一步的提升,需要增加知識(shí)面,掌握整個(gè)知識(shí)結(jié)構(gòu)與脈絡(luò),可以讓這類學(xué)生跟其他學(xué)生講課,促進(jìn)對知識(shí)的理解。第三類學(xué)生是有些偏科的學(xué)生,某些課程少于60分,這類學(xué)生需要教師在課堂上給予一些關(guān)注與幫助。第四類學(xué)生是各科都比較優(yōu)秀的學(xué)生,對于這樣的學(xué)生,老師可以給予一些課堂的自由,讓他們自己可以專研自己感興趣的知識(shí)點(diǎn)。