• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談數(shù)據(jù)挖掘在高職院校學生成績預警中的應用

      2018-08-11 11:01朱敏朱珍元張林靜
      課程教育研究·學法教法研究 2018年13期
      關(guān)鍵詞:學生成績Apriori算法關(guān)聯(lián)規(guī)則

      朱敏 朱珍元 張林靜

      【摘要】隨著大數(shù)據(jù)技術(shù)的發(fā)展及對此認識的提高,愈來愈多的人開始利用大數(shù)據(jù)來獲取有價值的信息。我國高職院校的不斷擴招使得高職院校教育系統(tǒng)中的數(shù)據(jù)規(guī)模愈來愈龐大,教師想要從其中獲取自己需要的信息愈來愈困難。鑒于這種情況,利用大數(shù)據(jù)挖掘中的Apriori 算法,通過對高職院校學生成績信息的收集、分析以及處理,根據(jù)預設(shè)支持度與置信度找出數(shù)據(jù)庫中具有聯(lián)系和不同可信度的課程成績作為關(guān)聯(lián)規(guī)則,將關(guān)聯(lián)規(guī)則應用到學生成績預警中去,從而形成對成績處于危險狀態(tài)的學生進行預警的反饋機制。

      【關(guān)鍵詞】數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 Apriori算法 學生成績 預警

      【基金項目】安徽省2017年度高校自然科學研究項目重點項目(項目編號KJ2017A639);安徽省2016年度高校自然科學研究項目重點項目(項目編號KJ2016A167)

      【中圖分類號】G712 【文獻標識碼】A 【文章編號】2095-3089(2018)13-0047-02

      本文將通過收集計算機網(wǎng)絡(luò)專業(yè)學生主干課程的考試成績,然后對這些數(shù)據(jù)實施統(tǒng)計、分析以及處理。通過這一過程學校會對某一些不及格課程科目數(shù)比較多、可能無法按時畢業(yè)或者無法取得畢業(yè)證的學生進行預警,以便于督促這一部分學生更加努力地進行學習。我們都知道,相同的專業(yè)不同課程間肯定具備著一定的關(guān)系,本文就是在基于使用數(shù)據(jù)挖掘技術(shù)對高職院校學生得考試成績進行統(tǒng)計、分析以及處理的基礎(chǔ)上,深度發(fā)現(xiàn)不同科目成績間的關(guān)聯(lián)性,探索出他們之間的邏輯關(guān)系,進一步掌握學生學習狀態(tài),更好的對學習成績處于危險狀態(tài)的學生進行預警,督促學生更好的進行學習,提升他們的及格率以及畢業(yè)率。

      一、數(shù)據(jù)挖掘技術(shù)與常見算法

      數(shù)據(jù)挖掘(Data Mining)就是有組織性和目的性地搜尋數(shù)據(jù),通過對這些數(shù)據(jù)進行分析使之成為信息,從而尋找潛在規(guī)律以形成發(fā)現(xiàn)有價值的非同尋常的新信息和知識的過程,數(shù)據(jù)挖掘填補了數(shù)據(jù)和信息之間的鴻溝。

      數(shù)據(jù)挖掘是一個在大數(shù)據(jù)上進行的自然行為,數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的核心部分,要科學表現(xiàn)大數(shù)據(jù)的特點就需要針對這些數(shù)據(jù)的類型及格式制定相應的算法。這些算法可以說是基于統(tǒng)計學的統(tǒng)計方法,也只有這樣,挖掘出來的數(shù)據(jù)才具有相應的價值,同時算法在處理數(shù)據(jù)速度方面起到了關(guān)鍵的作用,若一個算法需要很長時間才能獲得結(jié)論,那么大數(shù)據(jù)的價值也就無從談起。數(shù)據(jù)挖掘的主體沒有限制,主要是將現(xiàn)有數(shù)據(jù)通過數(shù)據(jù)挖掘算法進行預測性分析,進行一些高級別的數(shù)據(jù)分析,可利用Mahout工具實現(xiàn)。下文列舉一些比較常用的數(shù)據(jù)挖掘方法。

      MBR(Memory-Based Reasoning),這是一種基于歷史的分析方法,利用已知的case(案例)來預測未來case的一些attribute(屬性),即先根據(jù)知識和經(jīng)驗尋找相類似的情況,然后將這些情況的信息應用于現(xiàn)在的例子中。具體MBR首先尋找和新記錄情況相類似的鄰居,然后利用這些鄰居對新數(shù)據(jù)進行分類和估值。使用MBR有三個亟待解決的主要問題,尋找確定的歷史數(shù)據(jù);決定表示歷史數(shù)據(jù)的最有效的方法;決定距離函數(shù)、聯(lián)合函數(shù)和鄰居的數(shù)量。

      Decision Tree(決策樹),此算法主要是對未知數(shù)據(jù)進行分類或預測,它以法則的方式即一連串的問題來表達,再通過不斷詢問最終導出所需要的結(jié)果。典型的生成決策樹的方法是采用自頂向下的方式在部門搜索空間中搜索解決方案。它著眼于從一組無次序的、無規(guī)則的事例中推導出,該技術(shù)主要是用于預測和決策,在商業(yè)、科研、工業(yè)等領(lǐng)域具有廣泛的應用。

      Cluster Detection(聚類分析),又稱為群分析,古人云:“物以類聚,人以群分”,描述的正是這類算法。它是一種廣泛應用于研究分類問題的數(shù)據(jù)挖掘方法,主要是在沒有給定具體劃分類即未知類的情況下,找出數(shù)據(jù)當中以前未知的相似群體。經(jīng)常被用來提供不同類對象特征的報告。目前已經(jīng)在許多領(lǐng)域 中有廣泛地應用,包括模式識別、圖像處理、模式分析以及市場研究。

      除上述方法外還有購物籃分析、遺傳算法、OLAP分析、連接分析、神經(jīng)網(wǎng)絡(luò)、判別分析等等,在此不做一一介紹。

      二、數(shù)據(jù)挖掘技術(shù)在相關(guān)領(lǐng)域的應用

      數(shù)據(jù)挖掘的最中目的是要實現(xiàn)數(shù)據(jù)的價值,而商業(yè)智能是在企業(yè)中實現(xiàn)數(shù)據(jù)價值的最佳方式之一。數(shù)據(jù)挖掘能力將成為一個企業(yè)未來的核心競爭力,并且挖掘能力將成為一個衡量企業(yè)業(yè)務(wù)水平高低的重要指標,通過數(shù)據(jù)挖掘以及數(shù)據(jù)分析抓住用戶特點,只有這樣才能實現(xiàn)大數(shù)據(jù)的真正價值,實現(xiàn)商業(yè)價值。它的蓬勃發(fā)展正是由于它在各個領(lǐng)域的廣泛應用,一般較常見的應用案例發(fā)生在營銷領(lǐng)域的零售業(yè)、直效行銷界、制造業(yè)、財務(wù)金融保險、通信業(yè)、醫(yī)療服務(wù)業(yè)以及各種政府機關(guān)等。

      在眾多的應用案例中,數(shù)據(jù)挖掘在營銷領(lǐng)域的應用應該是最為廣泛的。數(shù)據(jù)挖掘可以從銷售的各項數(shù)據(jù)中發(fā)掘消費者的消費習慣,即通過交易記錄找出顧客偏好的產(chǎn)品組合,以進行交叉銷售(Cross-selling)、向上銷售(Up-selling)。找出流失顧客的特征和新產(chǎn)品的時機點等也都是數(shù)據(jù)挖掘在零售業(yè)中常見的應用。

      數(shù)據(jù)挖掘在金融業(yè)中也有著充分的應用。例如,股票交易商可以利用數(shù)據(jù)挖掘來分析時長動向,并預測個被公司的營運狀況以及估價走向等;又例如,采用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘技術(shù),我們結(jié)業(yè)成功預測銀行中不同客戶的需求,一旦獲得了這些信息,銀行就可以改善對不同客戶的服務(wù)項目。

      三、數(shù)據(jù)挖掘技術(shù)在學生成績預警中的實踐分析

      (一)關(guān)聯(lián)規(guī)則算法:Apriori 算法

      1.關(guān)聯(lián)規(guī)則

      設(shè) I{I1,I2,…I}為所有項目的集合,設(shè)與任務(wù)相關(guān)的數(shù)據(jù)庫DB是數(shù)據(jù)庫事務(wù)的集合,其中每一個事務(wù)T是項的集合,使得TI。每一個事務(wù)都關(guān)聯(lián)一個標識符,稱作TID。假設(shè)A是一個由項目組成的集合,稱為一個項集,事務(wù)T包含項集A,當且僅當AT。如果項集A由k個項目組成,稱為k項集。項集A在與任務(wù)相關(guān)的數(shù)據(jù)庫DB中出現(xiàn)的次數(shù)占DB中總?cè)蝿?wù)量的百分比叫做項集A的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集。關(guān)聯(lián)規(guī)則是XY的邏輯蘊含式,其中XI,YI,且XY=φ。如果數(shù)據(jù)庫DB中有s%的事務(wù)包含X∪Y,則稱關(guān)聯(lián)規(guī)則XY的支持度為s%,若項集X的支持度記為support(X),規(guī)則的置信度為support(X∪Y)/support(X)。由此可見,支持度表示模式在規(guī)則中出現(xiàn)的概率,置信度表示規(guī)則的可信性,置信度越高表明規(guī)則越有價值。通常人們只研究支持度高的關(guān)聯(lián)規(guī)則,具有高置信度和強支持度的規(guī)則成為強規(guī)則。即support(X∪Y)=P(X∪Y),confidence(X∪Y)=P(Y|X),同時滿足最小支持度閾值(min_support)和最小置信閾值(min_confidence)的規(guī)則稱作強規(guī)則。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的基本任務(wù)是發(fā)現(xiàn)大型數(shù)據(jù)庫中的強規(guī)則。

      2.Apriori 算法

      Apriori算法作為關(guān)聯(lián)規(guī)則的標準方法,具體挖掘程序如下:

      (1)提前設(shè)定好系統(tǒng)的最小支持度閾值,然后選擇使用迭代的方式來對數(shù)據(jù)庫中涉及到的項目集進行快速檢索,從而發(fā)掘出位于此范圍之內(nèi)的數(shù)據(jù)庫相關(guān)項目組,即找出所有頻繁項集(Large Itemsets)。頻繁項集的意思是指某一項目組出現(xiàn)的頻率相對于其他項目組而言,必須達到某一水平。

      (2)系統(tǒng)地分析由上一步驟頻繁項集產(chǎn)生的所有關(guān)聯(lián)規(guī)則,并選擇置信度大于用戶給定閾值的關(guān)聯(lián)規(guī)則作為強關(guān)聯(lián)規(guī)則,即這些規(guī)則必須同時滿足以上兩個條件最小支持度和最小置信度。

      (二)Apriori 算法在學生成績分析中的應用

      1.數(shù)據(jù)的預處理

      本文以某高職院校2015屆計算機網(wǎng)絡(luò)專業(yè)學生的考試成績來作為對象進行研究,工作人員獲取學生的成績單之后,采用關(guān)聯(lián)規(guī)則算法對學生的卷面考試成績以及不同科目之間的關(guān)系進行深度挖掘。學生的成績?nèi)缦卤?所示,其中包含2015屆計算機網(wǎng)絡(luò)專業(yè)學生全部專業(yè)課程與選修課程的成績。

      (1)科目的選擇

      通常來講,高職院校學生在公共選修課的選擇上具有非常大的自由度,有可能一個班級僅僅有一兩名同學選擇某一門課程,也就是說數(shù)據(jù)集中會出現(xiàn)獨立的一個事務(wù)涵蓋這一項目,這種狀況是與關(guān)聯(lián)規(guī)則的相關(guān)需求相沖突的。從2015屆計算機網(wǎng)絡(luò)專業(yè)學生的考試成績中我們可以得知,在同一個班級中多數(shù)同學共同選修一門選修課的狀況幾乎不存在,因此不把該專業(yè)學生的選修課成績劃入數(shù)據(jù)來源中,也不會對這一部分成績進行挖掘分析。所以,我們主要是針對學生的必修課與專業(yè)選修課成績范疇的數(shù)據(jù)庫進行研究。

      (2)成績的離散化處理

      2015屆計算機網(wǎng)絡(luò)專業(yè)學生成績表中的成績體現(xiàn)為百分制,所以在進行數(shù)據(jù)處理時應該對其開展統(tǒng)一化處理。本文中將學生的成績劃定為四個范圍,分別為1/2/3/4。成績高于或者等于90分的學生,劃入范圍1;成績低于90分且高于或者等于80分的學生,劃入范圍2;成績低于80分且高于或者等于60分的學生,劃入范圍3;其他劃入范圍4。本文選擇該專業(yè)的15門課程來開展分析,這些課程用大寫英文字母來表示,依次為A、B、C……O。

      2.數(shù)據(jù)的處理

      (1)數(shù)據(jù)的轉(zhuǎn)化

      按照數(shù)據(jù)預處理程序中設(shè)定的方式對2015屆計算機網(wǎng)絡(luò)專業(yè)學生考試成績進行轉(zhuǎn)化,結(jié)果如下表2所示:

      (2)數(shù)據(jù)的統(tǒng)計

      由于部分學生會進行補考或者申請延后考試,所以從教務(wù)處中獲取的學生成績單會不可避免的存在重復或者空缺問題。在數(shù)據(jù)統(tǒng)計過程中,對于出現(xiàn)重復的成績,在統(tǒng)計時選擇第一次考試成績;對于空缺的問題,將其成績統(tǒng)計為0。統(tǒng)計離散化后的成績?nèi)缦卤?所示:

      通過表3的統(tǒng)計結(jié)果我們能夠得知,該班級學生部分課程成績會在某一個范圍進行集中,比如,2015屆計算機網(wǎng)絡(luò)專業(yè)1班中共有學生總?cè)藬?shù)為22,但是有16名學生的“網(wǎng)絡(luò)操作系統(tǒng)”這一課程成績處于范圍4之中,其他范圍的學生人數(shù)為6人,占比為6/22,即關(guān)聯(lián)規(guī)則的最小支持度不到三分之一。設(shè)定關(guān)聯(lián)規(guī)則的最小支持度為0.33,當某門課程等級的學生達不到6名時,將他們排除在候選數(shù)據(jù)挖掘數(shù)據(jù)庫中。通過統(tǒng)上述計,得到下表中以0.33作為最小支持度篩選的數(shù)據(jù)。

      3.算法實現(xiàn)

      對所有數(shù)據(jù)處理完成后,選擇使用關(guān)聯(lián)規(guī)則典型算法Apriori對它們進行挖掘。本文的所有挖掘算法操作均是在Windows 7系統(tǒng)及MAT-LAB2015a環(huán)境下進行的,設(shè)置的最小支持度為0.33,最小置信度為0.5,得到347個頻繁項集,562條關(guān)聯(lián)規(guī)則。對部分結(jié)果進行分析可知課程A(計算機基礎(chǔ))、課程E(網(wǎng)絡(luò)互聯(lián)與實現(xiàn))、課程F(系統(tǒng)組裝與實訓)存在著兩兩相關(guān)、相互制約的關(guān)系,學生的成績普遍較低,課程C(C語言程序設(shè)計)與課程G(Java程序設(shè)計)、課程D(網(wǎng)頁設(shè)計基礎(chǔ))與課程H(網(wǎng)站建設(shè)技術(shù))也存在著兩兩相關(guān)、互相影響的關(guān)系。通過對數(shù)據(jù)庫的檢索,可以找出符合這些關(guān)聯(lián)規(guī)則的學生名單,由輔導員負責對這部分學生發(fā)出預警通告。

      四、結(jié)語

      總而言之,數(shù)據(jù)挖掘應用于高職院校學生成績預警工作中,能夠有效的提升學校對學生成績的管理,同步對那些成績處于危險狀態(tài)的學生進行預警反饋,督促他們盡快調(diào)整學習態(tài)度以完成相關(guān)學業(yè)要求,對于提升學校的教學水平和學生的畢業(yè)率具有重要意義。

      參考文獻:

      [1]陳苗,馬燕. 數(shù)據(jù)挖掘在高職院校學生成績預警中的應用研究[J]. 電腦知識與技術(shù),2017,13(2):204-206.

      作者簡介:

      朱敏(1989-),女,安徽合肥人,安徽警官職業(yè)學院教師,研究方向:數(shù)據(jù)挖掘、大數(shù)據(jù)分析;朱珍元(1985—),女,湖北黃岡人,安徽警官職業(yè)學院教師,研究方向:語義Web、數(shù)據(jù)挖掘、移動互聯(lián)網(wǎng);張林靜(1988—),女,安徽合肥人,安徽警官職業(yè)學院教師,研究方向:計算機應用。

      猜你喜歡
      學生成績Apriori算法關(guān)聯(lián)規(guī)則
      淺析數(shù)據(jù)挖掘技術(shù)在學生管理系統(tǒng)中的應用
      基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
      望奎县| 江口县| 白水县| 盐源县| 濮阳县| 三都| 新密市| 西藏| 石阡县| 福泉市| 巨鹿县| 东明县| 日土县| 兴城市| 渭南市| 都江堰市| 新余市| 渝北区| 玛曲县| 凉山| 宁武县| 溧水县| 武平县| 易门县| 托里县| 盈江县| 杂多县| 尼勒克县| 曲阳县| 维西| 兰州市| 康马县| 陕西省| 如东县| 麻阳| 定结县| 吉首市| 登封市| 太原市| 大荔县| 大洼县|