• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的高校教學(xué)評估系統(tǒng)的研究

      2016-03-27 20:18:11李瑩羅嬌敏閔芳
      數(shù)碼世界 2016年12期
      關(guān)鍵詞:數(shù)據(jù)挖掘預(yù)處理聚類

      李瑩 羅嬌敏 閔芳

      南京航空航天大學(xué)金城學(xué)院信息工程系

      基于數(shù)據(jù)挖掘的高校教學(xué)評估系統(tǒng)的研究

      李瑩 羅嬌敏 閔芳

      南京航空航天大學(xué)金城學(xué)院信息工程系

      對于高等院校來說,如何從眾多的成績數(shù)據(jù)中選取對于教育決策分析有用的信息,成為一個(gè)亟需解決的問題。本文通過深入研究數(shù)據(jù)挖掘的經(jīng)典算法,尋找適合的算法,建立數(shù)據(jù)挖掘模型。然后以學(xué)院中某個(gè)專業(yè)的歷史數(shù)據(jù)為研究對象,搭建數(shù)據(jù)倉庫,設(shè)計(jì)整體架構(gòu)。經(jīng)過多次的調(diào)研和實(shí)踐,最終確定采用聚類分析進(jìn)行實(shí)施。將學(xué)生通過聚類而不是分?jǐn)?shù)段分為五類,然后通過課程組、整體成績趨勢等多種方式加以分析,通過直觀的數(shù)據(jù)圖標(biāo)加以呈現(xiàn),更加準(zhǔn)確及時(shí)的了解教學(xué)情況,以輔助教學(xué)。

      數(shù)據(jù)挖掘 K-means算法 教學(xué)評估 聚類分析

      1 問題提出

      作為多年從事教育工作的筆者,常年面對學(xué)院產(chǎn)生的大量數(shù)據(jù),例如學(xué)籍管理、學(xué)科管理、招生、就業(yè)、教職工管理等系統(tǒng),其中包含了眾多能夠反饋出學(xué)院教學(xué)狀況的信息,但是由于其數(shù)據(jù)量實(shí)在龐大,且涉及的部門眾多,單純靠人力來解讀較為困難。因此,如何從數(shù)據(jù)中“掘金”,是本文討論的主要問題。

      2 教學(xué)評估系統(tǒng)的架構(gòu)

      本文設(shè)計(jì)的教學(xué)評估系統(tǒng)總體由三層結(jié)構(gòu)組成:數(shù)據(jù)層、邏輯層和表示層。表示層主要負(fù)責(zé)數(shù)據(jù)的輸入輸出,作為界面展示;數(shù)據(jù)層負(fù)責(zé)數(shù)據(jù)的預(yù)處理;邏輯層則提供專業(yè)的數(shù)據(jù)分析和挖掘。

      3 高校數(shù)據(jù)的預(yù)處理

      本文選取的是某高校信息工程專業(yè)的課程成績及設(shè)置,期望以該專業(yè)說明數(shù)據(jù)挖掘?qū)Ω咝?shù)據(jù)分析的過程。由于不同專業(yè)間課程差異較大,核心課程各異,數(shù)據(jù)處理必須分不同專業(yè)進(jìn)行,這也是教育領(lǐng)域數(shù)據(jù)挖掘較大的難點(diǎn)之一。但是其數(shù)據(jù)處理的思路與算法思想基本相同,僅是數(shù)據(jù)預(yù)處理的時(shí)候需要根據(jù)專業(yè)特色來制定。建議該預(yù)處理的過程尋求各專業(yè)內(nèi)部人士給出參考意見,收集本專業(yè)中的核心課程。同時(shí)還需要其了解專業(yè)的課程設(shè)置和學(xué)生情況,如近年來是否存在較大課程改革,學(xué)生學(xué)籍調(diào)動(dòng)等,以免產(chǎn)生較大誤差及噪聲數(shù)據(jù)。

      最終選取的是信息工程專業(yè)的核心課程(共16門),形成兩張關(guān)系表。其中“數(shù)據(jù)信息表”存放的是課程信息,定義專業(yè)課程的名稱,學(xué)時(shí),學(xué)分,課程類別,課程類型和考試方式等信息。而“成績信息表”則存放了學(xué)生的成績信息,將原有的教務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)重構(gòu),一行元組代表一個(gè)學(xué)生所有專業(yè)的成績情況,每個(gè)屬性代表一門專業(yè)課程的最終成績,統(tǒng)一采用百分制。這樣處理學(xué)生數(shù)據(jù)的原因是根據(jù)聚類的特性,將一個(gè)學(xué)生數(shù)據(jù)看成多維空間的一個(gè)數(shù)據(jù)點(diǎn),成績的差異可以通過計(jì)算數(shù)據(jù)點(diǎn)的距離絕對值,則根據(jù)該距離的遠(yuǎn)近可以可以實(shí)現(xiàn)學(xué)生的聚類。

      4 聚類算法應(yīng)用分析

      經(jīng)過多次調(diào)研和實(shí)踐,最終選用聚類分析中K-means算法來完成分析。聚類分析屬于無指導(dǎo)學(xué)習(xí),其挖掘不需要預(yù)先定義的類標(biāo)簽,而是通過大量數(shù)據(jù)找到其分布規(guī)則。由于數(shù)據(jù)來源于真實(shí)的教育背景,其數(shù)據(jù)存在一定的噪聲(如退學(xué)、留級(jí)導(dǎo)致的數(shù)據(jù)缺失等),預(yù)處理需要將這些數(shù)據(jù)刪除。

      在算法實(shí)踐方面,選用WEKA作為算法分析工具,WEKA是當(dāng)今較為先進(jìn)的機(jī)器學(xué)習(xí)算法及數(shù)據(jù)預(yù)處理工具。由新西蘭懷卡托大學(xué)開發(fā),JAVA實(shí)現(xiàn),幾乎可運(yùn)行在所有主流的操作平臺(tái)。WEKA為預(yù)處理以及后處理提供了統(tǒng)一的方法,可以指定學(xué)習(xí)算法應(yīng)用于給定的數(shù)據(jù)源,同時(shí)將不同的學(xué)習(xí)方案計(jì)算的結(jié)果給出評估。

      K-means算法是基于劃分的聚類,嘗試找出最小平方誤差函數(shù)值的K個(gè)劃分。算法復(fù)雜度為O(nkt),其中n是數(shù)據(jù)集的數(shù)目,k是簇?cái)?shù)目,t為迭代次數(shù)。算法需要預(yù)先指定簇?cái)?shù)目k,而對于教務(wù)數(shù)據(jù),由于學(xué)生的成績好壞基本分成五大類,簇?cái)?shù)目很好確定。同時(shí),算法較容易受到“噪聲”和孤立數(shù)據(jù)的影響,少量的誤差數(shù)據(jù)會(huì)對計(jì)算的結(jié)果產(chǎn)生極大影響,這也是教務(wù)數(shù)據(jù)需要進(jìn)行較復(fù)雜的人工指導(dǎo)下的預(yù)處理的原因。

      綜上所述,對于學(xué)生成績選用K-means算法來進(jìn)行聚類是較為合適的,根據(jù)成績的絕對值差距將學(xué)生分為五類。通過主觀觀察和分析簇中心、簇占比等一系列數(shù)據(jù),確定合適的算法參數(shù)(seed值等)作為先驗(yàn)知識(shí),最終選取合適的聚類結(jié)果,再采用柱狀圖的方式加以直觀的展示。

      多次對比試驗(yàn)后,發(fā)現(xiàn)以下信息:

      ①一般情況下,平方誤差的多少是評判聚類好壞的標(biāo)準(zhǔn),該數(shù)據(jù)越小說明簇內(nèi)數(shù)據(jù)距離越小,則簇內(nèi)數(shù)據(jù)越接近,即學(xué)生的成績越接近。因此在判定不同參數(shù)條件下聚類的好壞,該數(shù)據(jù)作為最重要的評判依據(jù)。

      ②為了找到更合適的聚類,在其他參數(shù)不變的情況下,更改隨機(jī)種子值(seed值)。seed值是聚類隨機(jī)選取的種子,一般在10%以內(nèi)?;诒疚牡臄?shù)據(jù)集為769條,seed值一般控制在80以下。隨著seed值的改變,聚類的表現(xiàn)相對較穩(wěn)定,有存在著一定的浮動(dòng)。但為了得到最為合適的聚類結(jié)果,還是需要人為選擇最合適的seed值。

      ③在seed值選為70的時(shí)候,產(chǎn)生了0%的聚類。究其原因是發(fā)現(xiàn)了單條記錄作為孤立點(diǎn)被判為單獨(dú)的簇,該簇占比太小,因此約等于0%。該條記錄有三門課程為零分,但其他課程分?jǐn)?shù)較正常,推測可能為學(xué)生換專業(yè)的原因?qū)е隆槭裁磧H在seed值為70的時(shí)候發(fā)現(xiàn)這種情況?由于K-means算法參數(shù)中的seed的選擇與輸入數(shù)據(jù)的順序直接關(guān)聯(lián),因此該算法很大程度下會(huì)依賴于數(shù)據(jù)的輸入順序。

      ④通過觀察簇中心,在學(xué)生成績預(yù)處理合適的情況下,能夠獲得了較佳的聚類效果。但是如果數(shù)據(jù)預(yù)處理不夠合理,可能會(huì)因?yàn)閿?shù)據(jù)缺失等嚴(yán)重影響聚類效果。

      綜合考慮以上的聚類結(jié)果,對seed值不同產(chǎn)生的不同聚類表現(xiàn),最終選擇的數(shù)據(jù)結(jié)果參數(shù)如下:簇?cái)?shù)目numClusters=5,seed=40。

      5 聚類下的教學(xué)評估體系

      最終聚類結(jié)果:聚類“0”為成績最好的學(xué)生,占比17%,課程平均分89分;聚類“2”成績次之,占比21%,課程平均分79分;聚類“4”成績居中,占比25%,課程平均分68分;聚類“1”成績較差,占比22%,課程成績平均分56分;聚類“3”成績最差,占比15%,課程平均分43分。

      該學(xué)生劃分也可以作為其他數(shù)據(jù)挖掘的分析依據(jù),以下分別從課程組和整體成績趨勢來做分析:

      5.1 按課程組分析

      數(shù)學(xué)類課程組共四門必修課,通過對比數(shù)據(jù)可以發(fā)現(xiàn),優(yōu)秀學(xué)生各科表現(xiàn)都比較好,這也表示出數(shù)學(xué)類課程對于個(gè)人素質(zhì)的體現(xiàn)。對于學(xué)院在新生選拔時(shí)選取數(shù)學(xué)作為考核科目,是較為合適的。

      然而對于“差”和“較差”這兩類學(xué)生來說,《高等數(shù)學(xué)(II)(下)》和《概率論與數(shù)理統(tǒng)計(jì)(II)》成績則出現(xiàn)了明顯下滑,這種下滑在其它簇的學(xué)生中并未出現(xiàn),說明若這一階段數(shù)學(xué)課程出現(xiàn)掛科,應(yīng)引起學(xué)生和老師足夠重視,督促學(xué)生端正學(xué)習(xí)態(tài)度,加重學(xué)習(xí)時(shí)間的投入。

      分析專業(yè)課程,可以發(fā)現(xiàn)《信號(hào)與系統(tǒng)》和《數(shù)字電路》這兩門課程在五類學(xué)生中都出現(xiàn)了明顯下滑,說明該課程的學(xué)習(xí)具有一定的難度,輔導(dǎo)員和班主任在指導(dǎo)該門課程的時(shí)候可以對學(xué)生提出特別提示,學(xué)生學(xué)習(xí)時(shí)也要格外的加強(qiáng)學(xué)習(xí)!

      5.2 整體成績趨勢分析

      將成績按照學(xué)期劃分后,可以發(fā)現(xiàn)一些重要的信息。如大一上學(xué)期,學(xué)生的總體成績不錯(cuò),尤其是高等數(shù)學(xué)。成績優(yōu)秀的學(xué)生,四年來的成績基本保持穩(wěn)定,基本為90分上下;而成績較差的學(xué)生,從大二上學(xué)期開始,成績就明顯發(fā)生了嚴(yán)重下滑,也就是該階段成績拉大了差距。而在大三上學(xué)期,這類學(xué)生有明顯提升了成績,基本與大一一致。數(shù)據(jù)表明,學(xué)生在大學(xué)后學(xué)習(xí)態(tài)度有明顯的變化過程,針對這一變化,輔導(dǎo)員和班主任有必要對學(xué)生加以警示和指導(dǎo),以更好的提升教學(xué)質(zhì)量!

      6 結(jié)束語

      隨著信息技術(shù)的發(fā)展,當(dāng)今社會(huì)早已步入“大數(shù)據(jù)時(shí)代”,數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用不斷出現(xiàn)且日趨成熟,作為新技術(shù)傳播者的高校更不能落后。筆者有多年高校的工作經(jīng)驗(yàn),結(jié)合具體的學(xué)院教學(xué)數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,使用K-means算法完成數(shù)據(jù)預(yù)處理和聚類,通過數(shù)據(jù)重構(gòu)后的數(shù)據(jù)分析,將根學(xué)生分成五大類,而不是簡單的分?jǐn)?shù)段判別方式,進(jìn)而評定教學(xué)質(zhì)量。最后,根據(jù)不同學(xué)生在不同階段的成績情況,給出了課程學(xué)習(xí)的指導(dǎo)建議。

      但是目前的工作還存在著很多不足之處,本文僅就單專業(yè)完成數(shù)據(jù)分析,要形成供整個(gè)學(xué)院指導(dǎo)用途的系統(tǒng),還需要完善專業(yè)課程的數(shù)據(jù)處理信息。另外還可以考慮融入更多的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則挖掘,神經(jīng)網(wǎng)絡(luò),決策樹分析等,為學(xué)院提供更多的決策支持。

      [1]Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

      [2]Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203~212

      [3]王珊,薩師煊著. 數(shù)據(jù)庫系統(tǒng)概論[M]. 北京:高等教育出版社. 2006. [22]王珊,薩師煊著. 數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社. 2006

      [4]S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

      [5]陳曦,王執(zhí)銓著. 決策支持系統(tǒng)理論與方法研究綜述[J].控制與決策. 2006(9):961~968

      [6]G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

      [7]任明侖,楊善林. 智能決策支持系統(tǒng):研究現(xiàn)狀與挑戰(zhàn)[J].系統(tǒng)工程學(xué)報(bào). 2002(5):430~440

      [8]維克托.邁爾.舍爾伯格,肯尼思.庫克耶(英)著.大數(shù)據(jù)時(shí)代[M].浙江人民出版社.2013

      [9]朱德利.就業(yè)信息的數(shù)據(jù)挖掘及其分析[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2014. (31)120~125

      [10]毛海軍,唐煥文著. 智能決策支持系統(tǒng)(IDSS)研究進(jìn)展[J]. 小型微型計(jì)算機(jī)系統(tǒng)

      2015年江蘇省高等教育教改研究“獨(dú)立學(xué)院計(jì)算機(jī)類專業(yè)人才培養(yǎng)模式研究與實(shí)踐”(課題編號(hào):2015JSJG564)。

      李瑩(1983-),女(漢),湖南省常德市,講師,碩士,主要研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析,數(shù)據(jù)庫原理,人工智能等。

      羅嬌敏(1984-),女(漢),江西省高安市,講師,碩士,主要研究方向?yàn)椴僮飨到y(tǒng),系統(tǒng)安全,計(jì)算機(jī)網(wǎng)絡(luò)等。

      閔芳(1980-),女(漢),江蘇省宜興市,講師,碩士,主要研究方向?yàn)閿?shù)據(jù)安全,虛擬化存儲(chǔ),數(shù)據(jù)結(jié)構(gòu)等。

      猜你喜歡
      數(shù)據(jù)挖掘預(yù)處理聚類
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      絡(luò)合萃取法預(yù)處理H酸廢水
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      定兴县| 乌拉特前旗| 吐鲁番市| 滨海县| 浙江省| 麻城市| 手游| 博湖县| 海兴县| 孟州市| 永嘉县| 五寨县| 梁河县| 江油市| 平南县| 荃湾区| 迁安市| 哈巴河县| 甘德县| 临洮县| 麟游县| 沙坪坝区| 江陵县| 渝北区| 罗源县| 收藏| 凤冈县| 开封市| 余干县| 介休市| 旬阳县| 湛江市| 三门峡市| 于都县| 沙河市| 临高县| 新乡市| 惠安县| 府谷县| 苏尼特右旗| 鄱阳县|