• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聚類算法的學(xué)生成績評價與管理機(jī)制研究

      2014-11-30 01:06:34葛佶莛
      中國教育信息化 2014年13期
      關(guān)鍵詞:預(yù)處理聚類論文

      葛佶莛

      (北京科技大學(xué) 東凌經(jīng)濟(jì)管理學(xué)院,北京100083)

      一、引言

      在學(xué)校教育中,考試與教學(xué)不可分割,考試成績扮演著檢驗學(xué)生學(xué)習(xí)情況和狀態(tài)的重要角色。因此,成績評價對于檢測和監(jiān)控教育質(zhì)量、引導(dǎo)教師的教學(xué)行為,督促學(xué)生積極努力地學(xué)習(xí)是非常有必要的。現(xiàn)在,學(xué)校里擁有各種系統(tǒng)和各類數(shù)據(jù)庫,積累了大量的學(xué)生成績數(shù)據(jù),但是由于工作人員缺乏相關(guān)挖掘知識和技術(shù),只能通過Excel工具的簡單統(tǒng)計獲得少量信息,隱藏在這些大量數(shù)據(jù)中的信息不能得到應(yīng)用。因此,如何利用學(xué)生前期的考試成績數(shù)據(jù)進(jìn)行統(tǒng)計分析對提高學(xué)生的知識水平有著至關(guān)重要的意義。面對這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并逐漸顯示出了強(qiáng)大的生命力,[1]作為數(shù)據(jù)挖掘的重要算法,k-means算法是一種硬聚類方法,即在n維的歐幾里得空間把n個樣本數(shù)據(jù)分成k類。[2]由于k-means聚類算法對噪聲和孤立點敏感以及對處理大數(shù)據(jù)集非常有效的特點,[3]本文將k-means算法應(yīng)用于成績分析,從而全面地分析學(xué)生考試結(jié)果。

      本文所引用的文獻(xiàn)一闡述了成績管理的作用、現(xiàn)狀以及現(xiàn)有成績管理的不足,并說明了決策樹算法及粗糙集理論在成績管理中的作用;文獻(xiàn)二介紹了k-means聚類算法,并在此基礎(chǔ)上提出了一種改進(jìn)的遺傳k-means聚類算法;文獻(xiàn)三在分析k-means聚類算法優(yōu)缺點的基礎(chǔ)上進(jìn)行改進(jìn),并通過實驗比較了改進(jìn)算法與原算法的優(yōu)劣;文獻(xiàn)四介紹了典型的數(shù)據(jù)預(yù)處理技術(shù),實現(xiàn)了一種基于日志請求的參考文件的啟發(fā)式會話識別算法。

      論文利用k-means聚類算法對學(xué)生的成績進(jìn)行評價、統(tǒng)計和分析,從而確定學(xué)生的學(xué)業(yè)成績在一個群體中所處的相對位置,為提高學(xué)生的成績做準(zhǔn)備,為教學(xué)工作提供反饋信息,并采取針對性的補(bǔ)救措施,從而進(jìn)一步提高學(xué)校的教學(xué)質(zhì)量。

      二、基于聚類算法的成績評價方案

      1.總體設(shè)計方案

      圖1 設(shè)計方案實現(xiàn)圖

      本論文將按圖1所示,設(shè)計總體方案。同時論文將選用所在學(xué)院的成績數(shù)據(jù)庫,成績數(shù)據(jù)庫中包括了學(xué)生所有課程的考試成績。

      第一步,數(shù)據(jù)采集,為了保證數(shù)據(jù)的完整性和準(zhǔn)確性,首先必須做好原始數(shù)據(jù)的選擇和整理工作,本文選取學(xué)院某個年級的學(xué)生在某一學(xué)期的課程成績。

      第二步,數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理是一個逐步深入、由表及里的過程,經(jīng)過數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗證四大步驟對數(shù)據(jù)進(jìn)行預(yù)處理,解決數(shù)據(jù)沖突和數(shù)據(jù)不一致等問題,最終形成一份學(xué)生成績表。[4]

      第三步,執(zhí)行聚類算法在確定挖掘任務(wù)后,通過編寫k-means聚類算法在matlab程序代碼,實現(xiàn)k-means在學(xué)生成績分析上的處理。

      第四步,聚類結(jié)果評價,對聚類結(jié)果所發(fā)現(xiàn)的信息進(jìn)行解釋和評價。采用k-means聚類算法后,在學(xué)生成績評價中,每一個類就是一個成績?nèi)?,不同的類相?yīng)地對各個成績?nèi)哼M(jìn)行了劃分,也相應(yīng)地給出了不同成績?nèi)旱闹行某煽?,這些中心成績就是學(xué)生成績劃分參考標(biāo)準(zhǔn)之一。

      第五步,提出針對策略,將挖掘出來的信息提供給教學(xué)決策者,調(diào)整教學(xué)策略,進(jìn)一步指導(dǎo)教學(xué)工作,提高學(xué)生成績。

      2.基于k-means的算法設(shè)計原理

      圖2 K-means算法研究學(xué)生成績流程

      圖2給出了K-means算法研究學(xué)生成績的流程,在整個設(shè)計流程中,存在兩個關(guān)鍵問題,分別是成績的表示和成績的距離計算,對于第一個問題,論文將每個學(xué)生各科目的考試成績看做q維向量,記作xi=(x1i,x2i,…,xqi),(i=1,2,…,n),其中xki表示學(xué)生編號為i的第k門科目的成績,成績采用百分制,并根據(jù)不同的科目賦予不同的權(quán)重。對于第二個問題,論文采用歐式加權(quán)距離來定義學(xué)生成績之間的距離,將聚類組數(shù)設(shè)為P,cj(j=1,2,…,p)為聚類中心,則成績到聚類中心的距離可以用公式表示為:

      其中,q為粒子的屬性組成的維數(shù),ωk為各屬性的權(quán)值;

      對所有學(xué)生的各科成績進(jìn)行分組聚類的K-means聚類算法的具體步驟如下:

      Step1:設(shè)學(xué)生成績集為Q=(x1,x2,…xn-1,xn),其中xi=(x1i,x2i,…,xqi);

      Step2:隨機(jī)選取每個類里的一個粒子作為初始聚類中心c1,c2,…,cP;

      Step3:根據(jù)公式(2)將學(xué)生成績集Q中的對象xi(i=1,2,…,n)依次按歐式平均距離分配給距離最近的中心cj(j=1,2,…,p)。

      其中,q為粒子的屬性組成的維數(shù),ωk為各屬性的權(quán)值;

      Step4:按公式(3)計算P個聚類新的中心cj(j=1,2,…,P)。

      其中,Nj為第j個聚類Sj中所包含的粒子個數(shù);

      Step5:如果各個聚類中心cj(j=1,2,…,p)不再變化,否則結(jié)束,否則返回Step3。

      3.基于成績評價的學(xué)生管理策略

      在論文設(shè)計方案中,將學(xué)生(其中不包含不及格需要補(bǔ)考的學(xué)生)分為四類,分別是優(yōu)秀、良好、中等、偏差,并從自我發(fā)展和教學(xué)管理兩方面向不同類別的學(xué)生提出了建議性策略。(見表1)

      表1 學(xué)生管理策略

      三、實證分析

      1.實例描述與成績評價過程

      第一步:數(shù)據(jù)采集

      通過學(xué)院提供的數(shù)據(jù)庫,選取某個年級的學(xué)生在某一學(xué)期的課程成績。學(xué)生該學(xué)期均有8門功課,分別是信息資源管理、概率論、會計學(xué)、口語、工程力學(xué)、毛概、體育、數(shù)學(xué)實驗,依次對應(yīng)的加權(quán)是0.2、0.2、0.2、0.1、0.1、0.1、0.05、0.05,學(xué)生成績均為百分制,隨機(jī)選擇200名學(xué)生的成績形成一張原始成績單。

      第二步:數(shù)據(jù)預(yù)處理

      論文將200名學(xué)生原始成績單集成為一張成績單。通過數(shù)據(jù)處理,使表中的每一個數(shù)據(jù)都是唯一和沒有疑義的,同時對空白數(shù)據(jù)進(jìn)行填補(bǔ)或者刪除。首先考慮到數(shù)據(jù)庫中存在“0分”異常數(shù)據(jù)會對k-means算法造成很大的影響,因此本論文不將其考慮在研究范圍內(nèi)。同時,通過Excel工具將成績小于60分的選出,所對應(yīng)的該學(xué)生成績也不采取k-means算法進(jìn)行處理,因為成績一旦低于60分,該學(xué)生要進(jìn)行補(bǔ)考,相應(yīng)分?jǐn)?shù)也會做更改處理。本論文數(shù)據(jù)采集的200名學(xué)生中一共有10人出現(xiàn)掛科情況,接下來會對剩下的190名學(xué)生的考試成績做k-means算法處理。

      表2 數(shù)據(jù)清理掉的學(xué)生成績表

      第三步:k-means算法對學(xué)生成績進(jìn)行分析處理

      確定聚類個數(shù)k值,聚類個數(shù)要接近于所用的聚類變量的個數(shù),本次實驗選取k=4。通過數(shù)據(jù)初始中心分析,隨機(jī)選擇幾個學(xué)生的學(xué)習(xí)成績作為初始聚類中心,通過matlab算法實現(xiàn)。

      實驗結(jié)果可視化:(見圖3-圖7)

      2.實證結(jié)果分析

      (1)由圖3可知,第二類學(xué)生成績?yōu)閮?yōu)秀,第一類學(xué)生成績?yōu)榱己?,第三類學(xué)生成績?yōu)橹械?,第四類學(xué)生成績?yōu)槠睢Mㄟ^計算,優(yōu)秀和良好的人數(shù)占總?cè)藬?shù)的47%,中等和偏差的人數(shù)占總?cè)藬?shù)的48%,其余為存在掛科學(xué)生的比例,說明本文隨機(jī)選取的這個專業(yè)整體的學(xué)習(xí)狀態(tài)有待進(jìn)步,相關(guān)教職人員和教師應(yīng)該采取必要的措施提高學(xué)生學(xué)習(xí)的積極性。同時,通過分析研究還可以發(fā)現(xiàn),每一科學(xué)生成績隨中心的變化都會影響整體成績的分布情況,特別是像會計學(xué)、概率論、信息資源管理等加權(quán)比較重的科目。

      (2)如圖4、5、6、7所示,距離第二個聚類中心更近的21名學(xué)生聚成一類;距離第三個聚類中心更近的52名學(xué)生聚成一類;距離第四個聚類中心更近的44名學(xué)生聚成一類;距離第一個聚類中心更近的73名學(xué)生聚成一類。從中可以看出相近的成績都被劃分到了同一類,從而彌補(bǔ)了傳統(tǒng)劃分方法“在學(xué)生成績差別不大的情況下,經(jīng)過劃分后結(jié)果可能相差很大”的缺陷。

      (3)聚類分析技術(shù)的應(yīng)用不僅可以使190名學(xué)生清楚自己相對于整體成績的位置,還可以體現(xiàn)某類學(xué)生某些學(xué)科的不足,從而提醒教學(xué)人員針對性地采取相應(yīng)的措施,實驗結(jié)果可以為教學(xué)人員制定出有針對性的解決辦法提供依據(jù),從而提高學(xué)生后期的學(xué)習(xí)成績。

      四、結(jié)論

      本文研究k-means聚類算法在學(xué)生成績評價分析中的應(yīng)用。通過對數(shù)據(jù)的預(yù)處理,采用k-means算法,利用matlab工具對數(shù)據(jù)進(jìn)行處理分析,彌補(bǔ)了傳統(tǒng)統(tǒng)計方法的缺陷。并針對不同類型的學(xué)生,給出了學(xué)生自我發(fā)展策略和教學(xué)管理策略,從而為后期提高學(xué)生成績和教學(xué)質(zhì)量做準(zhǔn)備。

      [1]譚慶.基于k-means聚類算法的試卷成績分析研究[J].河南大學(xué)學(xué)報(自然科學(xué)版),2009,39(4):412-415.

      [2]劉婷,郭海湘,諸克軍,高思維.一種改進(jìn)的遺傳kmeans聚類算法[J].數(shù)學(xué)的實踐與認(rèn)識,2007,37(8):104-111.

      [3]周愛武,于亞飛.k-means聚類算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2011,21(2):61-65.

      [4]張麗偉,李禮.Web挖掘中數(shù)據(jù)預(yù)處理技術(shù)研究[J].電腦知識與技術(shù),2010,6(15):4324-4325.

      猜你喜歡
      預(yù)處理聚類論文
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計
      淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      絡(luò)合萃取法預(yù)處理H酸廢水
      下期論文摘要預(yù)登
      下期論文摘要預(yù)登
      下期論文摘要預(yù)登
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      长子县| 东丰县| 汪清县| 安西县| 原平市| 伊春市| 星子县| 绍兴县| 朝阳市| 霍州市| 十堰市| 弋阳县| 交口县| 长春市| 甘孜县| 汝城县| 天祝| 邵阳市| 托克托县| 汕尾市| 克东县| 华亭县| 汝州市| 克什克腾旗| 买车| 江津市| 攀枝花市| 湘西| 商都县| 沾益县| 乡城县| 田东县| 屯昌县| 镶黄旗| 西安市| 安塞县| 赤水市| 云梦县| 江津市| 彰化市| 桑日县|