• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹(shù)算法的CCT成績(jī)分析方法探討

      2015-11-19 07:29:43廣州工商學(xué)院
      關(guān)鍵詞:訓(xùn)練樣本決策樹(shù)數(shù)據(jù)挖掘

      廣州工商學(xué)院 陳 雪

      基于決策樹(shù)算法的CCT成績(jī)分析方法探討

      廣州工商學(xué)院 陳 雪

      本文主要介紹基于數(shù)據(jù)挖掘決策樹(shù)技術(shù)的學(xué)生成績(jī)分析的實(shí)現(xiàn)過(guò)程,使用學(xué)生的真實(shí)考試數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理后應(yīng)用算法構(gòu)造決策樹(shù)。提取分類規(guī)則,通過(guò)計(jì)算規(guī)則的準(zhǔn)確率與覆蓋率對(duì)規(guī)則進(jìn)行約簡(jiǎn),從而挖掘有價(jià)值的規(guī)則。最后利用該分類規(guī)則,預(yù)測(cè)學(xué)生能否通過(guò)等級(jí)考試。研究結(jié)果表明,決策樹(shù)預(yù)測(cè)準(zhǔn)確率高,能挖掘出影響學(xué)生通過(guò)CCT考試的關(guān)鍵因素,對(duì)計(jì)算機(jī)基礎(chǔ)課程教學(xué)有一定指導(dǎo)作用。

      數(shù)據(jù)挖掘 決策樹(shù) CCT 成績(jī)分析

      全國(guó)高等學(xué)校計(jì)算機(jī)水平考試(College Computer Test,簡(jiǎn)稱CCT),是經(jīng)全國(guó)各省、市、自治區(qū)教委(教育廳)第八屆高教處長(zhǎng)聯(lián)席會(huì)議協(xié)議,從1997年舉行,由教育部所屬全國(guó)各省、市、自治區(qū)教委(教育廳)組織,測(cè)試高等學(xué)校在校學(xué)生計(jì)算機(jī)應(yīng)用知識(shí)與能力的全國(guó)統(tǒng)一標(biāo)準(zhǔn)的權(quán)威考試。這項(xiàng)考試制度實(shí)施至今,已得到廣東省普通高校和用人單位的廣泛認(rèn)可,受到學(xué)生的高度重視。

      筆者所在院校組織學(xué)生參加CCT考試已有十幾年時(shí)間,積累了大量的CCT相關(guān)數(shù)據(jù)。本文對(duì)筆者所在院校2014級(jí)學(xué)生參加全國(guó)高校計(jì)算機(jī)等級(jí)考試數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)算法進(jìn)行了分析,該方法首先收集大量數(shù)據(jù),通過(guò)數(shù)據(jù)預(yù)處理得到適合的訓(xùn)練樣本和檢測(cè)樣本,利用軟件構(gòu)造出決策樹(shù),通過(guò)對(duì)決策樹(shù)分析得到有價(jià)值的信息,并對(duì)決策樹(shù)模型的風(fēng)險(xiǎn)進(jìn)行評(píng)估。決策樹(shù)方法分類精準(zhǔn),預(yù)測(cè)準(zhǔn)確率高,為了更好地指導(dǎo)學(xué)生順利通過(guò)考試,挖掘大量數(shù)據(jù)背后所隱藏的對(duì)教學(xué)潛在有用信息,并據(jù)此對(duì)教學(xué)進(jìn)行有針對(duì)性改革,是十分有必要的。

      一、數(shù)據(jù)挖掘概述

      1.數(shù)據(jù)挖掘定義。數(shù)據(jù)挖掘(Data mining)是從龐大的數(shù)據(jù)庫(kù)里,通過(guò)對(duì)不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)處理,提取出隱藏在其中不被發(fā)現(xiàn),但又很有利用價(jià)值的信息。數(shù)據(jù)挖掘是一個(gè)完整的、不斷完善的數(shù)據(jù)發(fā)現(xiàn)過(guò)程,可以對(duì)大型數(shù)據(jù)庫(kù)不斷挖掘、進(jìn)行算法優(yōu)化,提取有效信息,并通過(guò)信息分析做出決策。

      數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)技術(shù)、情報(bào)檢索、數(shù)理統(tǒng)計(jì)、專家系統(tǒng)、機(jī)器學(xué)習(xí)、模式識(shí)別與人工智能等的有機(jī)結(jié)合,廣泛應(yīng)用于教育教學(xué)、金融銷售、電信電力、生物醫(yī)學(xué)等各領(lǐng)域。數(shù)據(jù)挖掘的核心算法主要有決策樹(shù)算法、統(tǒng)計(jì)分析法、分類規(guī)則、遺傳算法、聚類算法等,其中決策樹(shù)算法以直觀性強(qiáng)、數(shù)據(jù)分析率高的優(yōu)點(diǎn)而經(jīng)常用于教學(xué)管理中。

      2.決策樹(shù)算法。決策樹(shù)方法利用信息增益來(lái)找尋數(shù)據(jù)庫(kù)中具有最大信息量的字段,用以建立決策樹(shù)的某個(gè)結(jié)點(diǎn),然后再根據(jù)該字段的不同取值來(lái)建立樹(shù)的分支,重復(fù)這個(gè)過(guò)程最終建立樹(shù)的下層結(jié)點(diǎn)和分支。決策樹(shù)方法可以使數(shù)據(jù)規(guī)則變得可視化,構(gòu)造過(guò)程時(shí)間并不需要很長(zhǎng),雖然實(shí)際應(yīng)用中決策樹(shù)可能表現(xiàn)得很復(fù)雜,但從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的每一條路徑仍然易于理解。這種易于理解性是決策樹(shù)的一個(gè)顯著的優(yōu)點(diǎn),所以決策樹(shù)方法能在知識(shí)發(fā)現(xiàn)系統(tǒng)中得到較廣泛的應(yīng)用。

      決策樹(shù)算法通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,思路在于從訓(xùn)練樣本中,自動(dòng)地構(gòu)造出決策樹(shù),根據(jù)這個(gè)決策樹(shù)再對(duì)任意實(shí)例進(jìn)行檢測(cè)。決策樹(shù)的主要優(yōu)點(diǎn)在于樹(shù)狀結(jié)構(gòu)的決策樹(shù)分類模型,采用自頂向下的遞歸方式,簡(jiǎn)單直觀的產(chǎn)生一個(gè)類似于流程圖的樹(shù)形結(jié)構(gòu),可以在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上分別選擇合適的描述屬性,并根據(jù)屬性的取值不同至上向下建立分枝。

      3.決策樹(shù)算法應(yīng)用

      (1)挖掘準(zhǔn)備工作

      ①數(shù)據(jù)采集。我院2014級(jí)學(xué)生是此次數(shù)據(jù)挖掘的對(duì)象,在挖掘中要注意深挖出和結(jié)論可能存在聯(lián)系的隱藏?cái)?shù)據(jù),在學(xué)生相關(guān)信息中找到有價(jià)值的內(nèi)容,方便于決策樹(shù)的構(gòu)造。在數(shù)據(jù)收集中主要獲得了以下三類數(shù)據(jù):

      第一,學(xué)生基本數(shù)據(jù),包括學(xué)號(hào)、姓名、籍貫、年齡、性別、所屬院系、專業(yè)、班級(jí),可以通過(guò)我院的學(xué)生學(xué)籍信息管理系統(tǒng)獲得。教師設(shè)計(jì)問(wèn)卷調(diào)查表,對(duì)學(xué)生的電腦基礎(chǔ)、興趣愛(ài)好、是否預(yù)習(xí)、是否復(fù)習(xí)、是否宿舍有電腦等這一類輔助信息進(jìn)行收集,注意問(wèn)卷設(shè)計(jì)上要多選擇少填寫(xiě)以規(guī)范數(shù)據(jù)格式。

      第二,學(xué)生學(xué)習(xí)狀態(tài)數(shù)據(jù),包含學(xué)生的學(xué)習(xí)態(tài)度和過(guò)程化考核成績(jī)信息,例如學(xué)生考勤信息、作業(yè)完成情況、期中考試成績(jī)、模擬考試成績(jī)等。信息的獲取來(lái)至于學(xué)生考勤表、學(xué)生平時(shí)成績(jī)登記冊(cè)、模擬考試成績(jī)細(xì)分表。其中成績(jī)細(xì)分表包含有學(xué)生在平時(shí)測(cè)試中的各章節(jié)各知識(shí)點(diǎn)得分情況。

      第三,考試成績(jī)數(shù)據(jù),包括學(xué)號(hào)、姓名、成績(jī)、科目、專業(yè)、班級(jí)、準(zhǔn)考生號(hào)等,通過(guò)省考試中心的成績(jī)反饋文件獲取。

      ②數(shù)據(jù)預(yù)處理

      根據(jù)采集到的數(shù)據(jù)特點(diǎn),在挖掘之前要對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理工作,通過(guò)數(shù)據(jù)轉(zhuǎn)換來(lái)得到適合挖掘模型的數(shù)據(jù),這一過(guò)程由數(shù)據(jù)集成、數(shù)據(jù)消減、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換構(gòu)成,其工作量較大,需要占據(jù)挖掘過(guò)程的60%以上。

      第一,數(shù)據(jù)集成。將采集得到的多個(gè)數(shù)據(jù)文件利用數(shù)據(jù)庫(kù)技術(shù)整合,建立起復(fù)雜大型的CCT考試成績(jī)分析數(shù)據(jù)庫(kù)。

      第二,數(shù)據(jù)消減。通過(guò)數(shù)據(jù)集成建立起的CCT考試成績(jī)分析數(shù)據(jù)庫(kù)數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,但并不是所有的數(shù)據(jù)都有意義,應(yīng)該根據(jù)實(shí)際需求挑選出有價(jià)值的的數(shù)據(jù),來(lái)縮小數(shù)據(jù)庫(kù)的規(guī)模,要注意消減操作不能影響到知識(shí)獲取。對(duì)于數(shù)據(jù)挖掘工作來(lái)說(shuō)沒(méi)有價(jià)值的一類數(shù)據(jù),如學(xué)生學(xué)號(hào)、姓名、籍貫、年齡、所屬院系、班級(jí)、科目、準(zhǔn)考證號(hào)等字段,要將其刪除,通過(guò)此步驟得到新的數(shù)據(jù)表。

      第三,數(shù)據(jù)清理。在教師收集學(xué)生問(wèn)卷調(diào)查時(shí),由于學(xué)生的配合度不一,可能會(huì)得到某些不合格的數(shù)據(jù),或在一些選項(xiàng)中存在遺漏,需要進(jìn)行數(shù)據(jù)清理。對(duì)一些單項(xiàng)或少量統(tǒng)計(jì)不全的記錄,可以使用同類樣本的平均值來(lái)進(jìn)行替換空缺選項(xiàng)。例學(xué)生問(wèn)卷調(diào)查表中如果有某條記錄的“電腦基礎(chǔ)”、“是否宿舍有電腦”等信息為空時(shí),可以綜合該班其他學(xué)生的該項(xiàng)平均值記錄來(lái)進(jìn)行人工填補(bǔ);如果存在無(wú)法填補(bǔ)或有較大錯(cuò)誤的記錄,可以直接刪除,例如缺考學(xué)生的數(shù)據(jù)、未提交問(wèn)卷調(diào)查的學(xué)生數(shù)據(jù)。

      第四,數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)清理之后,要把數(shù)據(jù)轉(zhuǎn)換以成數(shù)據(jù)挖掘所需要的形式。在收集到的數(shù)據(jù)中,很多類別的數(shù)據(jù)都很具體,如平時(shí)考勤信息、作業(yè)完成情況、模擬考試成績(jī)、CCT成績(jī)等,對(duì)于挖掘過(guò)程來(lái)說(shuō)工作量過(guò)大,需要將數(shù)值泛化為離散的區(qū)間來(lái)處理有些數(shù)據(jù)之間存在語(yǔ)義模糊,需要進(jìn)行信息缺陷處理,得到規(guī)范的數(shù)據(jù)表述。

      考試分?jǐn)?shù)。由于成績(jī)細(xì)分表中各章的分?jǐn)?shù)占比都不同,為統(tǒng)一標(biāo)準(zhǔn)需進(jìn)行百分制轉(zhuǎn)換,轉(zhuǎn)換的公式為:各章轉(zhuǎn)換得分=(各章得分÷各章總分)×100。接下來(lái)對(duì)所有分?jǐn)?shù)離散化處理,按照以下五個(gè)等級(jí)劃分成績(jī):0-44分為差,45-59分為較差,60-74為中等,75-84分為良好,大于等于85分為優(yōu)秀。

      考勤信息、作業(yè)完成情況。對(duì)以考勤信息、作業(yè)完成情況這類以次數(shù)表達(dá)的信息,也可按完成情況進(jìn)行離散化處理并劃分成五個(gè)等級(jí)。

      興趣愛(ài)好。興趣愛(ài)好屬于字典項(xiàng)數(shù)據(jù),如果按學(xué)生所填信息將很難處理,將這一項(xiàng)目也泛化處理為五大類,包括閱讀、運(yùn)動(dòng)、藝術(shù)、上網(wǎng)、游戲。

      (2)進(jìn)行數(shù)據(jù)挖掘

      本次挖掘的目的是從參加CCT成績(jī)的合格和不合格兩大類中去找出各類的重要影響因素和有用規(guī)則,采用了決策樹(shù)的CRT算法。具體實(shí)現(xiàn)時(shí),使用SPSS軟件把數(shù)據(jù)調(diào)入分析系統(tǒng),設(shè)置CCT考試成績(jī)?cè)u(píng)價(jià)為因變量,設(shè)置其他經(jīng)過(guò)預(yù)處理的數(shù)據(jù)為自變量。采用隨機(jī)拆分樣本抽取數(shù)據(jù)方式,隨機(jī)抽取出80%的數(shù)據(jù)作為訓(xùn)練樣本使用,剩余的20%數(shù)據(jù)作為檢驗(yàn)樣本?;诒狙芯康臄?shù)據(jù)樣本集和挖掘的需要,在最小個(gè)案數(shù)中,父節(jié)點(diǎn)最小設(shè)為60,子節(jié)點(diǎn)最小設(shè)為25,通過(guò)軟件分析系統(tǒng)輸出訓(xùn)練樣本的決策樹(shù)。

      (3) 數(shù)據(jù)分析評(píng)價(jià)

      對(duì)得到的訓(xùn)練樣本決策樹(shù)進(jìn)行分析,可以看出盡管學(xué)生信息復(fù)雜,存在較大差異,但不合格學(xué)生的決策樹(shù)模型具有一定相似性,表現(xiàn)為宿舍里沒(méi)有電腦、出勤率差、平時(shí)成績(jī)差、學(xué)習(xí)習(xí)慣不好、EXCEL得分差、喜歡玩游戲。宿舍里有電腦、出勤率高、EXCEL得分優(yōu)秀、業(yè)余愛(ài)好閱讀的學(xué)生合格率高。Excel題為關(guān)鍵性題型,Excel學(xué)習(xí)情況的好壞對(duì)通過(guò)與否影響較大。此結(jié)論對(duì)教師教學(xué)來(lái)說(shuō)具有較強(qiáng)的指導(dǎo)意義。

      實(shí)際操作中,對(duì)訓(xùn)練樣本和檢測(cè)樣本進(jìn)行測(cè)試,得到的分類準(zhǔn)確率分別為86%和81%,處于合理區(qū)間范圍,對(duì)教學(xué)具有一定的指導(dǎo)意義。

      構(gòu)建決策樹(shù)反饋的評(píng)價(jià)模型風(fēng)險(xiǎn)表如下表所示:

      評(píng)價(jià)模型風(fēng)險(xiǎn)表

      從風(fēng)險(xiǎn)表的反饋數(shù)據(jù)來(lái)看,訓(xùn)練樣本模型將不合格誤判為合格的個(gè)案錯(cuò)判率為9.6%;檢測(cè)樣本模型的個(gè)案錯(cuò)判率為10.8%。構(gòu)建的模型風(fēng)險(xiǎn)可以接受,處于良好可控范圍,從技術(shù)層面上講,說(shuō)明本研究采用決策樹(shù)CRT算法是可行的。訓(xùn)練樣本建立模型的標(biāo)準(zhǔn)誤差為0.012,檢測(cè)樣本建立模型的標(biāo)準(zhǔn)誤差為0.016,根據(jù)偶然誤差的高斯理論,結(jié)合概率統(tǒng)計(jì)相關(guān)的知識(shí),上述誤差值處于低位,說(shuō)明系統(tǒng)在構(gòu)建的模型時(shí),具有一定的可靠性。

      總之,數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)的深層次分析方法,通常通過(guò)長(zhǎng)期對(duì)數(shù)據(jù)庫(kù)進(jìn)行研究和開(kāi)發(fā)才可獲得成果。人類往往只使用到低層次的簡(jiǎn)單查詢操作,通過(guò)數(shù)據(jù)挖掘可以提高到從數(shù)據(jù)中挖掘有價(jià)值信息,提供分析預(yù)測(cè)依據(jù)、干預(yù)決策支持等高級(jí)應(yīng)用中來(lái)。將其運(yùn)用到CCT成績(jī)分析后,能提高工作效率,在預(yù)測(cè)學(xué)生通過(guò)情況時(shí)具有較高的準(zhǔn)確率,風(fēng)險(xiǎn)程度處于良好可控范圍。需要注意的是,教師在利用該方法分析學(xué)生成績(jī)時(shí)應(yīng)注重?cái)?shù)據(jù)挖掘流程的設(shè)計(jì)安排,特別著重于選擇對(duì)挖掘有用的數(shù)據(jù)資源,以保證結(jié)果真實(shí)可靠。

      [1]毛國(guó)軍.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005

      [2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001

      [3]劉志嫵.基于決策樹(shù)算法的學(xué)生成績(jī)的預(yù)測(cè)分析[J].計(jì)算機(jī)應(yīng)用與軟件,2012

      [4]曾 旭,司馬宇.一種基于ID3的計(jì)算機(jī)等級(jí)考試成績(jī)分析方法[J].遵義師范學(xué)院學(xué)報(bào),2013

      [5]陳瀟瀟.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用研究[J].科技風(fēng),2013

      [6]吳鐵洲,曾藝師.決策樹(shù)分類算法在教學(xué)評(píng)估中的應(yīng)用[J].中國(guó)高等教育評(píng)估,2013

      ISSN2095-6711/Z01-2015-10-0247

      猜你喜歡
      訓(xùn)練樣本決策樹(shù)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      人工智能
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      高州市| 百色市| 绥化市| 东辽县| 明溪县| 合山市| 永修县| 河源市| 通榆县| 特克斯县| 桦南县| 平遥县| 水富县| 莎车县| 保定市| 铅山县| 高要市| 梨树县| 雷山县| 永吉县| 调兵山市| 陵水| 曲阳县| 宜昌市| 公安县| 扶风县| 兴山县| 武功县| 行唐县| 尚义县| 全州县| 黔西| 洛阳市| 新昌县| 吴旗县| 海伦市| 临海市| 广河县| 平乡县| 三江| 绥滨县|