• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘技術(shù)的研究生信息庫數(shù)據(jù)的研究及應(yīng)用

      2016-08-05 03:19:46李門樓
      中國管理信息化 2016年11期
      關(guān)鍵詞:數(shù)據(jù)表英語聽力英語口語

      李門樓,郭 嘉

      (中國地質(zhì)大學(xué) 研究生院,武漢 430074)

      基于數(shù)據(jù)挖掘技術(shù)的研究生信息庫數(shù)據(jù)的研究及應(yīng)用

      李門樓,郭嘉

      (中國地質(zhì)大學(xué)研究生院,武漢 430074)

      論文結(jié)合D大學(xué)研究生信息與管理系統(tǒng)應(yīng)用的實際情況和迫切需求,針對“海量數(shù)據(jù)信息嚴重浪費,亟待挖掘其潛在有用信息”這一現(xiàn)實問題,對D大學(xué)研究生信息與管理系統(tǒng)多年來積累的信息數(shù)據(jù)進行深入研究與探討,運用數(shù)據(jù)挖掘原理,對研究生選課數(shù)據(jù)、研究生科研及成績數(shù)據(jù)、研究生畢業(yè)單位信息數(shù)據(jù)進行有效挖掘,以期得到所隱藏的有價值信息,從而指導(dǎo)教學(xué)管理和學(xué)生的學(xué)習(xí)方向,繼而提高教學(xué)管理水平和研究生培養(yǎng)質(zhì)量,更好更有效地為研究生的成長和發(fā)展服務(wù)。

      管理信息系統(tǒng);關(guān)聯(lián)規(guī)則;決策樹;Apriori;C4.5

      1 引言

      數(shù)據(jù)挖掘,簡單的說,就是從大量數(shù)據(jù)中提取或者“挖掘”有用的知識,是指利用特定的算法從數(shù)據(jù)庫中提取或者挖掘出潛在的、未被人知的有應(yīng)用價值的信息。從學(xué)校教育角度來說,它是教育信息化建設(shè)的發(fā)展帶來的產(chǎn)物,是新的信息數(shù)據(jù)處理技術(shù),其功能和任務(wù)是對教育機構(gòu)的信息數(shù)據(jù)庫進行潛在信息數(shù)據(jù)的抽取、轉(zhuǎn)化、模型化處理、結(jié)果分析等,從中獲得有助于教育決策的潛在信息。但目前大部分學(xué)校都存在一個普遍的問題:學(xué)校多年來積累了海量的數(shù)據(jù),可是其中所隱藏有價值的信息,卻知之甚少,所以從教育的角度出發(fā),需要把這些隱藏信息從中挖掘出來,使它們經(jīng)深層次的挖掘和分析,為教育決策提供更多的有價值信息。

      2 數(shù)據(jù)挖掘方法概要

      數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘有價值信息的一個過程,有時候又稱為知識發(fā)現(xiàn)(Knowledge Discovery in Database)。本文借鑒研究常見的兩種方法。

      2.1關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物就能夠通過其他事物預(yù)測到。關(guān)聯(lián)規(guī)則表示了項之間的關(guān)系。典型算法是Aprior算法。

      2.2決策樹方法

      決策樹方法是建立在信息論基礎(chǔ)上的一種對數(shù)據(jù)進行分類的方法。決策樹一般都是自上而下的來生成的。任意一個結(jié)點的狀態(tài)(即代表決策或者事件)都有可能產(chǎn)生兩個或者多個狀態(tài)(決策或者事件),并最終發(fā)展成為各不相同的結(jié)果。把決策的分支表示成為圖形,這個圖形看起來很像一棵倒立的樹。典型算法是C4.5算法。

      3 關(guān)聯(lián)規(guī)則在研究生信息庫中的研究及應(yīng)用

      3.1數(shù)據(jù)篩選

      本次研究實驗所選取的是D大學(xué)09級研究生的英語成績數(shù)據(jù),利用數(shù)據(jù)庫技術(shù)將多個數(shù)據(jù)表進行整合,合并成研究所需要的一個成績數(shù)據(jù)。

      首先:運用Sql數(shù)據(jù)庫中的視圖技術(shù),從研究生成績庫、學(xué)籍庫和課程庫中選取所需字段(課程名稱kcbmc、學(xué)號xh、成績cj、姓名name),抽取900條數(shù)據(jù)生成09級研究生的英語聽力、英語口語、英語閱讀三門課程的成績數(shù)據(jù)視圖。

      其次,對以上三張數(shù)據(jù)表進行表的連接,生成一張成績數(shù)據(jù)分析表(apriori_data_09碩士英語),這個數(shù)據(jù)表只包含學(xué)號(xh)、口語(ky)、聽力(tl)、閱讀(yd)四個數(shù)據(jù)字段。

      對于缺考或無效的學(xué)生成績給予去除處理。

      3.2數(shù)據(jù)轉(zhuǎn)換

      把待挖掘數(shù)據(jù)表中數(shù)據(jù)字段的格式轉(zhuǎn)換為邏輯布爾型(真和假),將數(shù)據(jù)字段中成績大于等于80分的字段設(shè)置為“真”,即在數(shù)據(jù)中顯示;反之設(shè)置為“假”,在數(shù)據(jù)中不顯示。例如:某項中英語口語/聽力/閱讀成績字段中的值如果大于等于80,則該項中會出現(xiàn)“1”/“2”/“3”,反之,則為空。

      3.3 Apriori算法應(yīng)用

      實驗所用的數(shù)據(jù)是09級研究生成績庫中的英語聽力、閱讀、口語三門課程的成績數(shù)據(jù),經(jīng)過上述選擇和篩選,生成了Apriori算法程序中所用到的待挖掘分析數(shù)據(jù)表apriori_data文件,如表1所示。

      表1 apriori_data數(shù)據(jù)表

      對上述apriori_data數(shù)據(jù)表中891條記錄事務(wù)集,設(shè)置其最小支持度為 0.2,置信度為 0.5,應(yīng)用 Apriori算法程序?qū)priori_data數(shù)據(jù)表中的聽力、口語、閱讀成績進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,如圖1所示。

      圖1關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

      結(jié)果如圖2所示。

      圖2挖掘分析結(jié)果

      頻繁項集I={英語口語成績,聽力成績,閱讀成績}= {1,2,3}的非空子集有{1,2},{1,3},{2,3},{1},{2}和{3}。由I產(chǎn)生的關(guān)聯(lián)規(guī)則及其置信度如下:

      找出滿足最小置信度閾值50%的規(guī)則,最終產(chǎn)生的強關(guān)聯(lián)規(guī)則如下:

      A.當1良好,2、3同時良好的可能性大于86.7%。即:當英語口語成績良好(達到80分以上)時,英語聽力和閱讀同時良好(達到80分以上)的可能性大于86.7%。

      B.當2良好,1、3同時良好的可能性大于54.5%。即:當英語聽力成績良好(達到80分以上)時,英語口語和閱讀同時良好(達到80分以上)的可能性大于54.5%。

      從上述挖掘結(jié)果來看,可以得到一些潛在的關(guān)聯(lián):強關(guān)聯(lián)規(guī)則A說明英語口語對英語聽力和閱讀兩門課程成績有重大影響,也就是說口語能力不強的學(xué)生,英語聽力和閱讀相對會差一些。這一點就給出了我們一個信號,即在開設(shè)英語課程中,要著重考慮安排英語口語課程的課時多些,這樣可以無形中帶動學(xué)生英語聽力和閱讀的能力提高。同理,根據(jù)上面的強關(guān)聯(lián)規(guī)則B可以得到如下潛在信息,即說明英語聽力對英語口語和閱讀兩門課程成績有重大影響,也就是說聽力能力不強的學(xué)生,英語口語和閱讀相對會差一些,這就給出了一個信號,即在開設(shè)英語課程中,要著重考慮安排英語聽力課程的課時多些,這樣可以無形中帶動學(xué)生英語口語和閱讀的能力提高。

      4 應(yīng)用C4 .5 算法決策樹技術(shù)挖掘研究生信息數(shù)據(jù)庫

      4.1建立模型

      挖掘內(nèi)容確定為:學(xué)生基本信息、成績信息、家庭背景信息、科研成果信息、就業(yè)情況信息五個方面。主要字段分別為如下幾類。學(xué)生基本信息包括:學(xué)號、性別、政治面貌。家庭背景信息主要包括家庭基本情況一項信息,即分為兩類:一類是農(nóng)民、下崗工人;二類是公務(wù)員、工人、職工、商人等。學(xué)生成績信息包括:學(xué)業(yè)成績績點、英語專業(yè)水平。科研成果信息包括:助研情況、論文發(fā)表情況。就業(yè)信息包括:就業(yè)單位性質(zhì)。

      4.2數(shù)據(jù)提取及離散歸約化

      4.2.1提取

      挖掘信息需要從信息系統(tǒng)多個模塊中提取整理,分別從如下數(shù)據(jù)庫中提取:

      英語水平(視圖 lunwen_cet表)、助研情況(視圖lunwen_zhuyan表)、論文發(fā)表情況(lunwen_publish表)、學(xué)業(yè)成績(lunwen_cj表)、家庭情況(lunwen_family表)、學(xué)生基本信息(users表)、就業(yè)單位信息(lunwen_jyxx表)。

      4.2.2處理

      為了便于挖掘還需對挖掘字段進行一些必要的處理過程,即要對各屬性字段進行歸約與離散化處理。處理規(guī)則如下表2所示。

      表2對挖掘字段的處理規(guī)則

      按照上述標準對原始記錄處理后,得到如下表3所示。

      表3原始記錄數(shù)據(jù)處理結(jié)果

      4.3結(jié)果分析

      對以上得出的挖掘數(shù)據(jù)結(jié)果分析,可以得出各因素所在的Variable Importance比例分別是:CET:0.436、XB:0.298、CJ:0.153、PAPER:0.054、ZZMM:0.025、FAMILY:0.022、ZHUYAN:0.012,從這些數(shù)據(jù)可以得出如下結(jié)論:

      (1)在對就業(yè)單位性質(zhì)JYDWXZ有影響的八大因素:英語水平CET、性別XB、學(xué)業(yè)成績績點CJ、論文發(fā)表情況PAPER、政治面貌ZZMM、家庭情況FAMILY、助研情況ZHUYAN中,其中英語水平CET是就業(yè)單位性質(zhì)JYDWXZ的最主要的影響因素;其次是性別XB因素;再其次依次是成績CJ因素、發(fā)表論文情況PAPER因素、政治面貌ZZMM因素、家庭情況FAMILY因素,最后是助研統(tǒng)計情況ZHUYAN因素。

      (2)從就業(yè)的角度考慮,那么發(fā)表論文情況PAPER因素便顯得影響很小,起不到?jīng)Q定的因素作用,所以各高校近年相繼做出了“取消以發(fā)表論文作為碩士研究生畢業(yè)條件”的決定,本研究從理論和數(shù)據(jù)上證明了這一決定的重要性。

      (3)英語水平CET在影響就業(yè)單位性質(zhì)JYDWXZ中仍然占主導(dǎo)作用,說明加強英語水平的訓(xùn)練,對于當代研究生的教育培養(yǎng)仍然是一項重中之重的任務(wù)。

      (4)從得出的結(jié)果可以看出,性別XB因素在就業(yè)中仍然占有比較大的分量,雖然國家頒發(fā)了很多關(guān)于在就業(yè)過程中嚴禁性別歧視的規(guī)定,可在實際的招聘過程中仍然存在性別歧視的現(xiàn)象。

      5 結(jié)語

      本文中運用關(guān)聯(lián)規(guī)則方法對學(xué)生成績庫進行挖掘作業(yè),找到課程之間存在的潛在聯(lián)系,為今后合理設(shè)置課程安排提供有效的數(shù)據(jù)支撐;同時運用決策樹技術(shù)對學(xué)生就業(yè)、學(xué)籍、成績、科研數(shù)據(jù)信息庫進行挖掘作業(yè),總結(jié)影響學(xué)生就業(yè)的關(guān)鍵因素,分析其原因,為培養(yǎng)適應(yīng)社會發(fā)展需要的高學(xué)歷人才制定更加合理的培養(yǎng)方案提供決策支持。

      主要參考文獻

      [1]李門樓,郭嘉.研究生教育管理信息化的實踐與思考[J].研究生教育研究,2011(3).

      [2]廖芹,赫志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.

      [3][加]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.

      [3]李婷,傅鋼善.國內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析[J].現(xiàn)代教育技術(shù),2010(10).

      10.3969/j.issn.1673-0194.2016.11.099

      C37

      A

      1673-0194(2016)11-0164-04

      2016-04-08

      猜你喜歡
      數(shù)據(jù)表英語聽力英語口語
      趣味英語聽力 How to Live a Greener Life
      湖北省新冠肺炎疫情數(shù)據(jù)表
      黨員生活(2020年2期)2020-04-17 09:56:30
      基于列控工程數(shù)據(jù)表建立線路拓撲關(guān)系的研究
      初中英語口語教學(xué)的反思與創(chuàng)新
      高中英語口語教學(xué)研究
      如何加強及應(yīng)用英語口語教學(xué)
      圖表
      基于VSL的動態(tài)數(shù)據(jù)表應(yīng)用研究
      河南科技(2014年24期)2014-02-27 14:19:25
      英語口語常見諺語(二)
      来凤县| 万山特区| 睢宁县| 财经| 涞源县| 玉树县| 招远市| 茂名市| 新营市| 六枝特区| 开阳县| 马鞍山市| 西丰县| 常宁市| 镇远县| 庄浪县| 泾源县| 和田市| 克拉玛依市| 上栗县| 保靖县| 瑞安市| 永胜县| 江北区| 扎鲁特旗| 海原县| 习水县| 揭东县| 龙陵县| 林甸县| 林口县| 桂东县| 桂平市| 大理市| 平舆县| 翼城县| 渑池县| 阿拉善左旗| 黄平县| 五华县| 那坡县|