摘要:在目前學校傳統(tǒng)的教學模式中,針對學生各科成績進行深層次的分析應用的不多,傳統(tǒng)的成績分析也有一定的局限性,分析結(jié)果缺少創(chuàng)新點,本文介紹了利用Microsoft聚類算法,將學生英語一級成績數(shù)據(jù)進行預處理和集成,利用Microsoft SQL Server BI平臺進行聚類,對學生成績數(shù)據(jù)進行挖據(jù)分析。通過試驗結(jié)果分析,打破原有成績分析得局限,使現(xiàn)有數(shù)據(jù)體現(xiàn)更好的價值,從而輔助教學管理者做出相應決策,更好地提高教學質(zhì)量。
關(guān)鍵詞:數(shù)據(jù)挖掘;Microsoft聚類算法;成績分析
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)09-0001-02
1 引言
以前我們?nèi)粘=虒W中各種科目的成績數(shù)據(jù)沒有得到利用,沒有將數(shù)據(jù)潛在的特征挖掘出來,在信息化大數(shù)據(jù)時代,數(shù)據(jù)挖掘能把這些數(shù)據(jù),經(jīng)過篩選和預處理,使用算法進行分析根據(jù)數(shù)據(jù)分析,找出相關(guān)聯(lián)的特征,將有相近特征的數(shù)據(jù)進行分類,通過研究各類的特征,有助于發(fā)掘出潛在規(guī)律,對教學和老師具有指導作用。本文利用聚類分析方法能從數(shù)據(jù)中找出相關(guān)的特征或模式,可以幫助學校針對不同學生的學習狀況,制定針對性的教學策略,輔助學校進行教學管理。
2 Microsoft 聚類分析算法
數(shù)據(jù)挖掘中聚類是對數(shù)據(jù)信息分組,把相似屬性的數(shù)據(jù)信息放在一個類別里。
Microsoft SQL Server BI數(shù)據(jù)挖掘智能平臺中,應用聚類分析算法有兩種選擇,這兩種算法的選擇可以通過CLUSTERING_METHOD參數(shù)設(shè)置來完成,一種是EM算法。另外一個算法就是K-means算法。
Microsoft聚類分析算法支持多種處理優(yōu)化方法,通過設(shè)置 CLUSTER_COUNT 參數(shù)的值可以確定聚類的數(shù)目,也就是分類的數(shù)量。這個數(shù)量確定了聚類結(jié)果的精確性,其默認值是10,在這次實驗中,采用默認值聚類分析后數(shù)據(jù)相似性很大,類比之間差異度就減弱了,因此默認值10的實驗結(jié)果參考價值不大。經(jīng)過反復論證,結(jié)合學校專業(yè)特征和學生特征,嘗試參數(shù)值為7,聚類結(jié)果發(fā)現(xiàn)類3和類1專業(yè)基本一致,類2和類5中的專業(yè)基本一致,這樣特征類似不具備分析價值,缺少差異性。設(shè)置CLUSTER_COUNT 參數(shù)為3,進行聚類分析,發(fā)現(xiàn)會計和計算機這兩個專業(yè)的學生一般都是分開進行教學的,而聚類要求同一個簇當中的對象必須要具有足夠的相似性,所以這個聚類太過籠統(tǒng),需要重新進行分類。通過實驗對比,對最后的聚類結(jié)果數(shù)據(jù)統(tǒng)計對比分析,結(jié)合多年的學生管理的工作經(jīng)驗判斷,當類的初始值為5時效果比較理想,所以本文設(shè)定類的初始值為5。
3 聚類算法在學生成績分析中的應用
3.1 數(shù)據(jù)采集轉(zhuǎn)化
本文研究的是英語一級考試成績和學生其他因素之間的關(guān)聯(lián)關(guān)系。因此,把英語一級成績當成研究指標,為了讓實驗結(jié)果完整和精確,試驗數(shù)據(jù)抽取了我們學校五個專業(yè)不同層次的學生三年在校的各科成績,經(jīng)過預處理保留有效信息1354條。針對預處理后的學生原始成績數(shù)據(jù),結(jié)合試驗需求,對原始的數(shù)據(jù)進行集成和轉(zhuǎn)化,轉(zhuǎn)化為專業(yè)課平均成績、公共課平均成績、英語平均成績、英語一級成績、英語一級考試學期、專業(yè)類別等試驗所用的數(shù)據(jù)信息。
3.2 構(gòu)建英語一級合格客體的聚類分析模型
將預處理后一級通過的815個信息利用SQL Server BI數(shù)據(jù)挖掘向?qū)?chuàng)建和使用聚類分析,通過挖掘模型查看器,可以看到該分類下,各個屬性和屬性值的發(fā)生概率,以此來觀察分類的特征情況,對英語一級合格群體聚類后的分類特征圖如下:
3.2.1 類1特征如圖1所示。
對類1特征圖進行分析,軟件與信息服務(wù)專業(yè)學生在高一的第二學期或者高二第一學期通過英語一級較為普遍,從特征圖明顯看出該部分學生的入學成績、公共基礎(chǔ)課、專業(yè)課程的成績都比較高。而數(shù)控專業(yè)學生在高二的兩個學期通過英語一級考試的群體有明顯的特征就是學生的公共課成績和英和英語課程平時期末的平均成績屬于中等水平,并且群體比例和他們專業(yè)三二分段班級人數(shù)數(shù)量接近。
特征圖中看到媒體傳播專業(yè)學生的英語一級成績普遍較低,大部分是在高二開始才能通過,大部分是在高二第二學期通過,這部分學生的英語平均成績大部分處于60分上下這個階段,專業(yè)課、公共基礎(chǔ)課以及入學成績也是中等水平,該專業(yè)能在高二第一學期通過英語一級的學生,他們的專業(yè)課程和公共課成績整體水平較高。
3.2.2類3特征如圖2所示。
從類3特征圖分析,汽修專業(yè)學生在高二第二學期和高三第一學期通過英語一級的這部分學生,他們的各科成績都是普遍較低,能在高二第一學期就通過英語一級的學生,他們的專業(yè)課程反而是比較好。這就說明這部分學生學習能力較強,學科成績均衡。
綜上所述,觀察合格群體分類特征圖,分類特征比較明顯,主要分析學生英語一級的通過學期和專業(yè)兩個變量屬性值,媒體傳播、汽修、數(shù)控三個專業(yè)通過學期在3.0-5.0這一個范圍的概率較大,軟件與信息服務(wù)和會計顯示的通過學期在2.0-3.0這個范圍概率較大。
對合格各類分析類簇內(nèi)的共性和類簇之間的差異性,比較每一類各變量的值,橫向角度找出英語一級成績和其他變量的關(guān)聯(lián)關(guān)系。發(fā)現(xiàn)通過學期的值越小,入學成績和公共課程成績越高,跟專業(yè)課程關(guān)聯(lián)度不大,反而汽修、數(shù)控專業(yè)部分學生入學成績和公共課成績不高,但是專業(yè)課成績較高。
4 結(jié)果分析及建議
依據(jù)聚類結(jié)果的分析,具體建議如下:
1)我們學校軟件與信息服務(wù)專業(yè)、數(shù)控專業(yè)的部分班級是“三二分段”中高職連貫培養(yǎng),該部分學生入學整體分數(shù)較高,因此,教務(wù)科可以對“三二分段”中高職連貫培養(yǎng)班級入學成績在中等以上學生可以鼓勵他們在高一第二學期報考英語一級考試,對于入學成績在合格或者以下的學生建議他們在高二第一學期報考英語一級考試,以此提高英語一級通過率。
2)針對汽修、數(shù)控、媒體傳播和會計專業(yè)學生,入學成績和英語平均成績低于合格水平的,學校在第一學期開始,針對數(shù)控和汽修專業(yè)非“三二分段”中高職連貫培養(yǎng)班級可以增加英語課時量,利用課余時間安排英語選修課程班,集中培訓,強化知識,在第三學期報考,提高通過率,減少他們報考次數(shù)。
3)媒體傳播專業(yè)和會計專業(yè)由于學生女生較多,他們?nèi)雽W成績中等,有一定基礎(chǔ),安排教學能力較好的教師,并且在第二學期可以適當增加英語課時量,在報考前進行篩選,提高英語學習能力保證一級通過率。
4)針對“三二分段”中高職連貫培養(yǎng)班級中入學成績和公共課程以及專業(yè)課程比較優(yōu)秀的學生,第二學期通過英語一級后,鼓勵他們在第三學期報考二級,并且引導他們參與競賽活動,擴展知識的深度和廣度,取得更大進步。
5 結(jié)語
綜上所述,SQL Server BI數(shù)據(jù)挖掘向?qū)碌木垲惙治?,通過實驗結(jié)合實際,設(shè)定參數(shù)為5類,提高聚類的精確性。依據(jù)聚類結(jié)果分析,結(jié)合學生的實際專業(yè)情況和對英語不同的掌握情況,選擇不同的方式方法來對其英語能力進行提高。聚類分析的結(jié)果不僅讓學生自身了解到自己在班級或年級中的位置,而且能總結(jié)出某類學生在共性上的不足之處,進而教育者采取相應的教育手段,可以很好地做到注重學生的個性化教育和輔導,因教學需求而動態(tài)調(diào)整課程,以此提升學生成績和教學質(zhì)量,讓更多的學生通過英語一級考證。
參考文獻:
[1] 李杰.數(shù)據(jù)挖掘技術(shù)在學生成績分析中的應用研究[D].西安: 西安石油大學,2010.
[2] 周濤.數(shù)據(jù)挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-110.
[3] 陶彬賢.聚類算法分析及其在學生成績分析中的應用[D].安徽師范大學,2011.
[4] 張貴元.數(shù)據(jù)挖掘技術(shù)在中職學生成績分析中的應用研究[D]. 廣東技術(shù)師范學院,2018.
【通聯(lián)編輯:光文玲】