• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘在大學(xué)英語四級(jí)成績(jī)預(yù)測(cè)中的應(yīng)用研究

      2018-11-26 09:33:32韓魯峰
      電腦知識(shí)與技術(shù) 2018年24期
      關(guān)鍵詞:數(shù)據(jù)挖掘預(yù)測(cè)

      韓魯峰

      摘要:根據(jù)教育信息化建設(shè)的需要,為解決大學(xué)英語四級(jí)成績(jī)管理只停留在數(shù)據(jù)的保存、查閱及簡(jiǎn)單統(tǒng)計(jì)階段的問題,南京財(cái)經(jīng)大學(xué)教務(wù)處結(jié)合工作實(shí)際,采用數(shù)據(jù)挖掘技術(shù)分類技術(shù)中經(jīng)典算法之一的決策樹算法對(duì)數(shù)據(jù)庫中的海量數(shù)據(jù)進(jìn)行分析,從眾多影響因素中挖掘出影響大學(xué)英語四級(jí)成績(jī)的主要因素,為學(xué)生英語四級(jí)成績(jī)的提高和教育教學(xué)改革提供參考依據(jù)。

      關(guān)鍵詞:數(shù)據(jù)挖掘;英語四級(jí);預(yù)測(cè)

      中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)24-0001-03

      Abstract: In order to solve the problem that the management of CET-4 grades only stays at the stage of data preservation, reference and simple statistics, the academic Affairs Office of Nanjing University of Finance and Economics combines the actual work with the needs of the construction of educational informatization. The decision tree algorithm, one of the classical algorithms in data mining technology, is used to analyze the massive data in the database. To provide reference for the improvement of CET-4 grades and the reform of education and teaching.

      Key words: data mining; CET-4; prediction

      1 引言

      隨著我國(guó)高等教育從“精英化”到“大眾化”的轉(zhuǎn)變,畢業(yè)生人數(shù)按照2%-5%的同比增長(zhǎng)率逐年增長(zhǎng),2018年全國(guó)高校畢業(yè)生預(yù)計(jì)上升至820萬人,再創(chuàng)近10年畢業(yè)生人數(shù)新高值。與大規(guī)模的畢業(yè)生人數(shù)息息相關(guān)的即是就業(yè)情況,而跟就業(yè)相關(guān)的,除了學(xué)生的個(gè)人能力,就是學(xué)生的各項(xiàng)成績(jī)了。大學(xué)英語四級(jí)成績(jī)目前還是許多高校學(xué)位授予的約束條件之一,也是眾多公司招聘的門檻之一。通過大學(xué)英語四級(jí)成績(jī)預(yù)測(cè),可以對(duì)學(xué)生考試成績(jī)進(jìn)行合理化評(píng)估,避免不良后果,這是一種新的、有別于以往的、有益的嘗試??梢杂嗅槍?duì)性地向成績(jī)高危的學(xué)生進(jìn)行成績(jī)預(yù)警,進(jìn)而提高考試通過率。幫助學(xué)生順利地拿到學(xué)位,順利的邁過招聘的門檻。

      2 數(shù)據(jù)挖掘

      2.1數(shù)據(jù)挖掘概念

      數(shù)據(jù)挖掘能夠從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí),滿足大數(shù)據(jù)時(shí)代的數(shù)據(jù)整合、分析需求,為決策提供支持與服務(wù)[1]。將數(shù)據(jù)挖掘方法應(yīng)用于教育領(lǐng)域,可以對(duì)來自教育系統(tǒng)的大量數(shù)據(jù)進(jìn)行挖掘分析,得出內(nèi)含其中的、有價(jià)值的信息和知識(shí),這些信息和知識(shí)不僅可以服務(wù)于教師、學(xué)生和教育領(lǐng)域的研究者們,還可以服務(wù)于系統(tǒng)管理者和軟件開發(fā)者[2]。

      2.2決策樹算法

      決策樹算法是數(shù)據(jù)挖掘技術(shù)中分類技術(shù)的經(jīng)典算法之一,可以完成對(duì)挖掘目標(biāo)有明確分類的課程成績(jī)的預(yù)測(cè)。決策樹算法作為一種分類算法,目標(biāo)就是將具有p維特征的n個(gè)樣本分到c個(gè)類別中去。相當(dāng)于做一個(gè)投影,c=f(n),將樣本經(jīng)過一種變換賦予一種類別標(biāo)簽[3]。

      本文采用C4.5算法對(duì)數(shù)據(jù)進(jìn)行分析,C4.5算法是用于生成決策樹的一種經(jīng)典算法,是ID3算法的一種延伸和優(yōu)化。通過C4.5算法構(gòu)造決策樹時(shí),信息增益率最大的屬性即為當(dāng)前節(jié)點(diǎn)的分裂屬性,隨著遞歸計(jì)算,被計(jì)算的屬性的信息增益率會(huì)變得越來越小,到后期則選擇相對(duì)比較大的信息增益率的屬性作為分裂屬性[4]。

      3 C4.5算法在大學(xué)生英語四級(jí)成績(jī)預(yù)測(cè)中的應(yīng)用

      數(shù)據(jù)挖掘處理的是海量數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中,是長(zhǎng)期積累的結(jié)果,但往往不適合直接挖掘,需要做數(shù)據(jù)的預(yù)處理工作,此工作準(zhǔn)備是否充分,對(duì)于挖掘算法的效率以及正確性都有關(guān)鍵性的影響[5]。

      3.1數(shù)據(jù)預(yù)處理

      影響學(xué)生英語四級(jí)成績(jī)的因素有很多,在現(xiàn)有研究的基礎(chǔ)上,本文選取四個(gè)關(guān)鍵因素作為研究對(duì)象,并選取我校2018屆3965名學(xué)生信息作為研究數(shù)據(jù)集。得到數(shù)據(jù)表(表1)如下:

      為了便于分類研究,采用屬性槪化的方法對(duì)表1中的數(shù)據(jù)進(jìn)行預(yù)處理。其中,生源類別屬性按行政級(jí)別?;癁檗r(nóng)村往屆A1、農(nóng)村應(yīng)屆A2、城市往屆A3、城市應(yīng)屆A4 4類。類似的,四級(jí)成績(jī)屬性,?;癁槲赐ㄟ^四級(jí)B1,通過四級(jí)B2。性別屬性,?;癁槟?1、女0。

      連續(xù)型屬性?;癁閰^(qū)間值:由于在建立決策樹時(shí),用離散型數(shù)據(jù)進(jìn)行處理速度最快,因此應(yīng)對(duì)連續(xù)型數(shù)值進(jìn)行離散化處理。對(duì)高考英語成績(jī)(GKCJ)屬性,按超過及格分?jǐn)?shù)線(JGX)分?jǐn)?shù),?;癁椴患案瘢℅KCJ-JGX<0),中(0≤GKCJ-JGX<10),良(10≤GKCJ-JGX<20),優(yōu)(20≤GKCJ-JGX)。對(duì)大學(xué)英語成績(jī)(YYCJ)屬性,按超過及格分?jǐn)?shù)線(JGX)分?jǐn)?shù),槪化為不及格(YYCJ-JGX<0),中(0≤YYCJ-JGX<10),良(10≤YYCJ-JGX<20),優(yōu)(20≤YYCJ-JGX)。

      對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后將得到表(表2)如下:

      3.3規(guī)則提取

      決策樹生成后,遍歷形成的決策樹,從根到葉就發(fā)現(xiàn)若干條路徑,每一條路徑對(duì)應(yīng)一條規(guī)則,整棵樹就形成了一組表達(dá)式規(guī)則,然后詳審規(guī)則集去發(fā)現(xiàn)最有用的子集,最后的規(guī)則集可存儲(chǔ)在一個(gè)文件中[6]。

      從直接生成的決策樹種提取的分類規(guī)則多達(dá)326條,部分規(guī)則如下:

      規(guī)則1

      IF:大學(xué)英語成績(jī)=優(yōu)

      AND:高考英語成績(jī)=良

      AND:生源地區(qū)=A4

      AND:性別=0

      THEN:四級(jí)成績(jī)=B3

      規(guī)則2

      IF:大學(xué)英語成績(jī)=良

      AND:高考英語成績(jī)=中

      AND:生源地區(qū)=A4

      AND:性別=0

      THEN:四級(jí)成績(jī)=B3

      規(guī)則3

      IF:大學(xué)英語成績(jī)=良

      AND:高考英語成績(jī)=良

      AND:生源地區(qū)=A3

      AND:性別=1

      THEN:四級(jí)成績(jī)=B2

      規(guī)則4

      IF:大學(xué)英語成績(jī)=中

      AND:高考英語成績(jī)=良

      AND:生源地區(qū)=A2

      AND:性別=0

      THEN:四級(jí)成績(jī)=B3

      規(guī)則5

      IF:大學(xué)英語成績(jī)=不及格

      AND:高考英語成績(jī)=中

      AND:生源地區(qū)=A2

      AND:性別=0

      THEN:四級(jí)成績(jī)=B1

      規(guī)則6

      IF:大學(xué)英語成績(jī)=中

      AND:高考英語成績(jī)=中

      AND:生源地區(qū)=A3

      AND:性別=1

      THEN:四級(jí)成績(jī)=B1

      3.4規(guī)則解讀

      通過分析規(guī)則可以得出:大學(xué)英語成績(jī)對(duì)四級(jí)成績(jī)影響最大,起決定性作用。在非成績(jī)影響因素中,性別因素對(duì)四級(jí)成績(jī)影響最大,女生的通過率為75.4%,明顯高于男生的通過率40.3%。當(dāng)然,由于選取數(shù)據(jù)的學(xué)校為文科院校,女生比例較高,可能對(duì)最終的結(jié)論有一定的影響,后期可以選取綜合性高校進(jìn)行分析,提出更有利的提高教學(xué)效率的方法。

      4 結(jié)語

      隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)挖掘正在往各個(gè)行業(yè)滲透,數(shù)據(jù)挖掘技術(shù)正在改變我們的生活,合理的利用數(shù)據(jù)挖掘技術(shù)不僅能提高效率還能有效的規(guī)避風(fēng)險(xiǎn)。本文選用數(shù)據(jù)挖掘技術(shù)中的決策樹算法對(duì)大學(xué)英語四級(jí)成績(jī)進(jìn)行分析和預(yù)測(cè),將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育教學(xué)管理中,為提高學(xué)生的四級(jí)成績(jī)提供了參考方法,為教育改革提供了參考方向。

      參考文獻(xiàn):

      [1]崔仁染.數(shù)據(jù)挖掘在學(xué)生專業(yè)成績(jī)預(yù)測(cè)上的應(yīng)用[J].軟件,2016(1):24-27.

      [2]李文峰, 黃席樾.C4.5算法在國(guó)防生素質(zhì)分析中的應(yīng)用[J].自動(dòng)化技術(shù)及應(yīng)用,2007(7):36-39.

      [3]何迪.面向大數(shù)據(jù)分析的決策樹算法[J].信息系統(tǒng)工程,2017(7):161.

      [4]董躍華,劉力.基于相關(guān)系數(shù)的決策樹優(yōu)化算法[J].計(jì)算機(jī)工程與科學(xué),2015(9):1783-1793.

      [5] 王士虎,呂紀(jì)榮,馮波.基于數(shù)據(jù)挖掘的英語四級(jí)成績(jī)分析與預(yù)測(cè)[J].電腦知識(shí)與技術(shù),2014(3):452-454.

      [6]黃振功.基于決策樹的高校計(jì)算機(jī)等級(jí)考試成績(jī)預(yù)測(cè)分析研究[D].碩士論文,廣西大學(xué),2013.

      【通聯(lián)編輯:王力】

      猜你喜歡
      數(shù)據(jù)挖掘預(yù)測(cè)
      無可預(yù)測(cè)
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測(cè)卷(A卷)
      選修2-2期中考試預(yù)測(cè)卷(B卷)
      選修2—2期中考試預(yù)測(cè)卷(A卷)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      不可預(yù)測(cè)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      不必預(yù)測(cè)未來,只需把握現(xiàn)在
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      兴安盟| 巴林右旗| 波密县| 左云县| 兴安县| 景东| 太原市| 龙南县| 兴安县| 修文县| 桐城市| 怀集县| 叶城县| 嘉善县| 江永县| 高雄市| 逊克县| 禹城市| 自治县| 靖西县| 广元市| 榆林市| 阿坝县| 贵港市| 许昌县| 廊坊市| 宝鸡市| 黔江区| 金秀| 海兴县| 商河县| 游戏| 揭阳市| 松原市| 毕节市| 上杭县| 比如县| 大丰市| 景泰县| 金溪县| 八宿县|