羅鑫帥 高洋
[摘 要]成績畫像對研究生培養(yǎng)具有重要參考價值,以某師范大學某學院某專業(yè)學位碩士研究生近5年成績?yōu)閿?shù)據(jù)基礎,通過K-means算法對研究生考試成績進行分析,獲得代表研究生群體的成績屬性特征。本文運用手肘法確定K值后,選取K個歐式距離最遠點為初始中心建立改進型K-means算法模型,描繪出客觀的研究生成績畫像,并從研究生入學教育、學風建設等方面給出具有參考價值的工作建議。
[關鍵詞]成績畫像 K-means 研究生 學風建設
本項目受助于陜西師范大學研究生思政精品項目(YGYB2114)、教育部高校思想政治工作創(chuàng)新發(fā)展中心(武漢東湖學院)2022年度專項研究課題(編號:WHDHSZZX2022075)以及陜西高校網(wǎng)絡思想政治工作第二批實踐項目(編號:2022WSYJ100083)。
引? 言
學業(yè)成績作為研究生培養(yǎng)質量的重要參考指標之一,在一定程度上反映了研究生的學習狀態(tài)、學習效果和學習能力。隨著大數(shù)據(jù)技術的發(fā)展,用較為科學的方法分析數(shù)據(jù),給予高校研究生教育管理的參考方案,對高校研究生教育管理工作具有重要意義。數(shù)字賦能,能夠輔助升級高校教育管理模式,精準開展各類教育工作,豐富大數(shù)據(jù)技術背景下的典型教育案例。目前越來越多的科研工作者圍繞學生畫像構建進行探索研究,在研究對象方面,針對校園一卡通的消費記錄、學生成績和學生上網(wǎng)時長等方面進行聚類分析與關聯(lián)研究。姜楠和許維勝基于校園一卡通的刷卡記錄,利用K-means聚類算法梳理了學生校園消費習慣,并用Apriori關聯(lián)規(guī)則算法與學生學習行為進行關聯(lián)分析;陶婷婷也利用了類似的方法,進一步分析了一卡通數(shù)據(jù)、學生在線學習時長與學生成績之間的關系;郭鵬基于一卡通數(shù)據(jù),對學生消費水平、消費行為、上網(wǎng)情況和借閱圖書情況進行了系統(tǒng)聚類,并對關聯(lián)算法進行改進。在研究技術方面,根據(jù)研究對象的差異化以及數(shù)據(jù)的多樣性,改進型K-means聚類算法得到越來越廣泛的應用。凌玉龍等提出了基于馬氏距離的改進型K-means算法;何選森等提出了用有效性評價函數(shù)的最小值確定K值的方法;許智宏等運用DPCA方法改進了K-means初始聚類中心的選擇問題;于莉佳和汪濤通過模糊K均值聚類算法分析了高校網(wǎng)絡用戶行為;張云和張軼分別用加權K-means算法對高校學生成績和高校貧困生進行了聚類分析。在研究架構層面,馮廣等對學生畫像系統(tǒng)的技術架構和應用場景進行了分析;黃煒等基于“五育融合”的綜合素質評價構建了學生數(shù)字畫像。在研究價值方面,黃文林基于學生畫像技術對高校精準思政探索進行了闡釋。
由上述研究可以看出,高校教育管理工作越發(fā)精細化與科學化,在學生精準資助、學業(yè)成績分析、校園行為研判等方面均有數(shù)據(jù)化的依據(jù)作為科學決策的有力保障,如何將數(shù)據(jù)有效處理,提供科學決策依據(jù),也是高校教育管理工作面臨的重要問題。本文結合研究生考試成績數(shù)據(jù)量度特點,通過算法選擇歐式距離最遠的K個點作為初始中心,運用K-means聚類算法對研究生考試成績進行分析,做出有效分類,針對成績有困難的研究生群體進行重點關注與幫扶,針對成績優(yōu)秀的研究生群體進行示范宣傳與經(jīng)驗分享,為研究生培養(yǎng)工作提供參考依據(jù)。通過對近5年相同專業(yè)研究生成績進行縱向對比,檢驗教師的教學效果及研究生學習效果,探索該專業(yè)研究生教育的一般規(guī)律,對研究生教育引導和學風建設工作提供參考建議。
算法介紹
K-means算法是在給定分類簇數(shù)和初始簇中心的前提下對樣本數(shù)據(jù)進行分類分析的方法,它屬于一種無監(jiān)督、迭代的學習算法,可以將同一樣本簇的距離盡可能縮小,不同樣本簇之間距離盡可能遠離,從而達到劃分數(shù)據(jù)、有效分析的目的。在K-means算法中隨機選擇樣本點作為初始中心,不斷計算每個樣本點與初始中心的歐式距離,選定距離最近的初始中心為一簇,并對簇的中心進行重新選取,重復上述過程,直至各個簇中心位置不再發(fā)生變化,樣本數(shù)據(jù)也完成劃分,算法結束。本文以研究生成績?yōu)闃颖?,對?shù)據(jù)進行聚類,直到尋找出最終聚類中心樣本,這一研究生成績樣本也就能夠反映出該群體研究生的成績屬性特征。在算法執(zhí)行過程中,確定簇的數(shù)量與初始中心的位置是完成K-means算法的關鍵,本文運用手肘法確定簇的數(shù)量,運用算法遍歷選擇出歐式距離最遠的點作為初始聚類中心。
1.簇的數(shù)量即K值選取
簇的數(shù)量即K值采用手肘法確定:
是隨機樣本點,是聚類中心,SSE是誤差平方和,隨著簇的數(shù)量即K值的精細劃分,SSE會逐漸變小,當SSE與K值關系曲線出現(xiàn)拐點時,SSE不再隨著K值增大有較為明顯的變化,此時的K值就是簇的最佳數(shù)量。本文以2021級此專業(yè)第一學期61名碩士的671條成績數(shù)據(jù)為例,繪制SSE與K值關系圖,可以發(fā)現(xiàn)K值為2或3時,SSE出現(xiàn)拐點。由于手肘法本質也是觀察法,筆者認為按照K=3劃分,學生成績類別更加具體,更有利于對學生的教育管理工作。
2.初始中心的選擇
K-means算法一般在樣本集合中隨機挑選K個樣本點作為初始中心,雖然隨機選擇的初始中心經(jīng)過迭代后均是高密度聚集的樣本點,但是結合成績數(shù)據(jù)特點,即量綱及數(shù)量級無差別,為了使聚類點更有代表性,根據(jù)每個學生n個成績數(shù)據(jù)構成M維數(shù)據(jù)集合=,選擇K個歐式距離最遠的初始中心進行聚類,具體計算方法為:
在這種初始中心選擇方式上,主要考慮了數(shù)據(jù)分布特點,降低數(shù)據(jù)處理的復雜度,又使得高密度聚類樣本點特征加以凸顯?;诹烤V及數(shù)量級無差別的成績數(shù)據(jù)和上述改進思想,應用于研究生成績分析,更好地描繪研究生成績畫像。
根據(jù)上述論述,歸納出改進型K-means算法步驟如下:
步驟1:遍歷成績樣本集合,得到K個歐式距離最遠的樣本點為初始聚類中心;
步驟2:計算樣本點到初始聚類中心距離,進行成績分類;
步驟3:計算每一簇的中心點作為新中心點;
步驟4:重復以上步驟,直到每一簇中心在迭代后收斂為止。
實驗分析
1.初始數(shù)據(jù)
本文以某師范大學某學院某專業(yè)學位碩士研究生近5年成績數(shù)據(jù)為基礎,對該專業(yè)學位碩士研究生成績數(shù)據(jù)逐年進行分析,表1以2021級該專業(yè)研究生第一學期成績?yōu)槔?,并根?jù)本文提出算法,對歐式距離最遠的3個成績樣本點為初始聚類中心,與隨機選取3個成績樣本點為初始聚類中心的計算迭代次數(shù)進行對比,從迭代結果可以看出,使用改進型算法,3個初始中心就在3個分類區(qū)域內,并在3個對應區(qū)域進行迭代優(yōu)化,而未使用改進算法隨機選擇3個初始中心情況則不相同。在表1中,中心1經(jīng)過1次迭代后移動距離明顯大于另外2個中心的移動距離,體現(xiàn)了分布的隨機性。因此,使用改進型算法在一般情況下可以更快地得到聚類結果,迭代次數(shù)也更低。表2是使用改進型算法的3個初始聚類中心,可以看出,初始聚類中心樣本點集中部分科目成績具有較為明顯差異,碩士英語(專碩)、新時代中國特色社會主義理論與實踐、心理發(fā)展與教育、課程與教學論、教育研究方法等課程應該是該專業(yè)該年級成績分類的重要參考科目。
2.數(shù)據(jù)分析
根據(jù)K-means聚類算法,執(zhí)行上述算法過程得到最終3個聚類中心(表3),并計算了各中心之間的歐式距離以及每一類數(shù)據(jù)的有效樣本數(shù)(表4)。
按照算法執(zhí)行數(shù)據(jù)迭代后,從表3中可以看出,該專業(yè)21級61名專業(yè)碩士研究生的成績特點:第一類研究生在公共必修課碩士英語(專碩)、新時代中國特色社會主義理論與實踐考試中成績偏低,其他科目成績均良好;第二類研究生在所有科目的考試中均獲得了較為理想的成績;第三類研究生在公共必修課新時代中國特色社會主義理論與實踐、專業(yè)課心理發(fā)展與教育及教育研究方法等考試中成績偏低,其他科目成績較為理想。從表4中可以看出,各聚類中心分布數(shù)據(jù)樣本數(shù)量依次為18、34、9人,分別約占樣本總數(shù)的三分之一、二分之一和六分之一,樣本均為有效樣本且分布數(shù)量均勻。并且三個聚類中心兩兩距離均在10~12之間,亦是數(shù)據(jù)高密度質心位置。因此從數(shù)據(jù)角度來看,聚類結果較為理想。
對該專業(yè)近5年研究生成績進行分析,從圖2中可以看出,“基礎教育課程改革”系列講座、心理發(fā)展與教育等專業(yè)課平均成績較為穩(wěn)定;教育研究方法、教育原理及課程與教學論等專業(yè)課平均成績穩(wěn)步提升。“基礎教育課程改革”系列講座是研究生取得高分較容易的科目,而心理發(fā)展與教育相對其他科目近5年考試成績均較低,從數(shù)據(jù)角度來看,該門專業(yè)課難度較大,應引起足夠重視。碩士英語(專碩)、新時代中國特色社會主義理論與實踐公共必修課成績較為穩(wěn)定,且平均成績低于專業(yè)課考試成績。
針對聚類結果和近5年成績曲線圖可以看出,研究生教育管理工作者應該對碩士英語(專碩)、新時代中國特色社會主義理論與實踐、心理發(fā)展與教育、課程與教學論等進行重點引導。
一是加強公共必修課重視程度。專業(yè)型碩士研究生公共必修課為碩士英語(專碩)和新時代中國特色社會主義理論與實踐兩門課程,從該專業(yè)近5年研究生學習效果來看,公共必修課成績低于專業(yè)課成績。在課程安排較多的情況下,許多研究生對公共必修課的重視程度不夠,投入學習精力有限,部分研究生出現(xiàn)重視專業(yè)課而輕視公共必修課的學習現(xiàn)象。因此,在研究生教育管理過程中,要加強日常學習管理與考前動員工作,提醒研究生重視公共必修課。
二是加強重難點專業(yè)課學習指導。從近5年研究生專業(yè)課考試成績來看,該專業(yè)研究生在教育研究方法、教育原理及課程與教學論等專業(yè)課學習中均有較為明顯的進步,也說明研究生學習能力越來越強,對專業(yè)課程的掌握情況越來越好。但是心理發(fā)展與教育這門課程,該專業(yè)研究生在近5年內考試成績低于其他課程,也說明這門課程難度較大,并且根據(jù)聚類結果,該專業(yè)21級的研究生學習掌握程度也有差異,9名研究生(約占總人數(shù)的六分之一)成績較低。在日常學習過程中,建議研究生教育管理工作者主動摸排并關心專業(yè)課學習有困難的研究生,邀請授課教師或者高年級研究生進行學習經(jīng)驗分享,提升學習效果。
結? 語
K-means算法適用于研究生考試成績樣本分析場景,根據(jù)考試成績分析場景使用改進型K-means算法可以降低算法迭代次數(shù),更快地得到聚類結果,該算法可以更好地分析研究生成績特點,描繪研究生成績畫像,為研究生教育管理工作者提供一定參考價值,幫助研究生教育管理工作者科學高效地掌握研究生分類特點,因材施教,更加精準地開展研究生學風建設等相關工作。
參考文獻:
[1]郭鵬.基于校園一卡通數(shù)據(jù)的學生消費行為與成績的關聯(lián)性研究[D].楊凌:西北農林科技大學,2019.
[2]陶婷婷.基于校園一卡通和云課堂數(shù)據(jù)的消費與學習行為分析[D].武漢:華中師范大學,2017.
[3]姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學生消費及學習行為分析[J].微型電腦應用,2015,31(2):35-38.
[4]凌玉龍,張曉,李霞,張勇.改進k-means算法在學生消費畫像中的應用[J].計算機技術與發(fā)展,202,31(10):122-127.
[5]何選森,何帆,徐麗,等.K-Means算法最優(yōu)聚類數(shù)量的確定[J].電子科技大學學報,2022,51(6):904-912.
[6]許智宏,李彤彤,董永峰,等.基于改進K-means算法的學生用戶畫像構建研究[J].河北工業(yè)大學學報,2022,51(3):19-24.
[7]于莉佳,汪濤.基于模糊K均值聚類的高校網(wǎng)絡用戶行為分析[J].智能計算機與應用,2022,12(10):200-202.
[8]張云.基于改進的K-means聚類算法的學生成績分析[J].安徽開放大學學報,2022,(3):92-96.
[9]張軼,高雪冬,郭亞偉,趙丙賀.加權k-means算法及其在高校貧困生判別中的應用[J].產(chǎn)業(yè)與科技論壇,2022,21(19):40-44.
[10]馮廣,何雅萱,賀敏慧.基于校園大數(shù)據(jù)的學生畫像系統(tǒng)應用研究[J].軟件,2020,41(8):40-42.
[11]黃煒,張治,胡愛花,等.基于“五育融合”的學生數(shù)字畫像構建與實踐分析[J].教育發(fā)展研究,2021,41(18):44-51.
[12]黃文林.基于學生畫像分析的高校精準思政探索[J].東北大學學報(社會科學版),2021,23(3):104-111.
(羅鑫帥:陜西師范大學黨委研究生工作部;高洋:西安外國語大學英文學院)