基于數(shù)據(jù)挖掘技術(shù)的研究生信息庫數(shù)據(jù)的研究及應(yīng)用

2016-08-05 03:19:46李門樓

中國管理信息化 2016年11期

關(guān)鍵詞：數(shù)據(jù)表英語聽力英語口語

李門樓，郭　嘉

（中國地質(zhì)大學(xué)　研究生院，武漢 430074）

基于數(shù)據(jù)挖掘技術(shù)的研究生信息庫數(shù)據(jù)的研究及應(yīng)用

李門樓，郭嘉

（中國地質(zhì)大學(xué)研究生院，武漢 430074）

論文結(jié)合D大學(xué)研究生信息與管理系統(tǒng)應(yīng)用的實際情況和迫切需求，針對“海量數(shù)據(jù)信息嚴重浪費，亟待挖掘其潛在有用信息”這一現(xiàn)實問題，對D大學(xué)研究生信息與管理系統(tǒng)多年來積累的信息數(shù)據(jù)進行深入研究與探討，運用數(shù)據(jù)挖掘原理，對研究生選課數(shù)據(jù)、研究生科研及成績數(shù)據(jù)、研究生畢業(yè)單位信息數(shù)據(jù)進行有效挖掘，以期得到所隱藏的有價值信息，從而指導(dǎo)教學(xué)管理和學(xué)生的學(xué)習(xí)方向，繼而提高教學(xué)管理水平和研究生培養(yǎng)質(zhì)量，更好更有效地為研究生的成長和發(fā)展服務(wù)。

管理信息系統(tǒng)；關(guān)聯(lián)規(guī)則；決策樹；Apriori；C4.5

1　引言

數(shù)據(jù)挖掘，簡單的說，就是從大量數(shù)據(jù)中提取或者“挖掘”有用的知識，是指利用特定的算法從數(shù)據(jù)庫中提取或者挖掘出潛在的、未被人知的有應(yīng)用價值的信息。從學(xué)校教育角度來說，它是教育信息化建設(shè)的發(fā)展帶來的產(chǎn)物，是新的信息數(shù)據(jù)處理技術(shù)，其功能和任務(wù)是對教育機構(gòu)的信息數(shù)據(jù)庫進行潛在信息數(shù)據(jù)的抽取、轉(zhuǎn)化、模型化處理、結(jié)果分析等，從中獲得有助于教育決策的潛在信息。但目前大部分學(xué)校都存在一個普遍的問題：學(xué)校多年來積累了海量的數(shù)據(jù)，可是其中所隱藏有價值的信息，卻知之甚少，所以從教育的角度出發(fā)，需要把這些隱藏信息從中挖掘出來，使它們經(jīng)深層次的挖掘和分析，為教育決策提供更多的有價值信息。

2　數(shù)據(jù)挖掘方法概要

數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘有價值信息的一個過程，有時候又稱為知識發(fā)現(xiàn)（Knowledge Discovery in Database）。本文借鑒研究常見的兩種方法。

2.1關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系，那么，其中一個事物就能夠通過其他事物預(yù)測到。關(guān)聯(lián)規(guī)則表示了項之間的關(guān)系。典型算法是Aprior算法。

2.2決策樹方法

決策樹方法是建立在信息論基礎(chǔ)上的一種對數(shù)據(jù)進行分類的方法。決策樹一般都是自上而下的來生成的。任意一個結(jié)點的狀態(tài)（即代表決策或者事件）都有可能產(chǎn)生兩個或者多個狀態(tài)（決策或者事件），并最終發(fā)展成為各不相同的結(jié)果。把決策的分支表示成為圖形，這個圖形看起來很像一棵倒立的樹。典型算法是C4.5算法。

3　關(guān)聯(lián)規(guī)則在研究生信息庫中的研究及應(yīng)用

3.1數(shù)據(jù)篩選

本次研究實驗所選取的是D大學(xué)09級研究生的英語成績數(shù)據(jù)，利用數(shù)據(jù)庫技術(shù)將多個數(shù)據(jù)表進行整合，合并成研究所需要的一個成績數(shù)據(jù)。

首先：運用Sql數(shù)據(jù)庫中的視圖技術(shù)，從研究生成績庫、學(xué)籍庫和課程庫中選取所需字段（課程名稱kcbmc、學(xué)號xh、成績cj、姓名name），抽取900條數(shù)據(jù)生成09級研究生的英語聽力、英語口語、英語閱讀三門課程的成績數(shù)據(jù)視圖。

其次，對以上三張數(shù)據(jù)表進行表的連接，生成一張成績數(shù)據(jù)分析表（apriori_data_09碩士英語），這個數(shù)據(jù)表只包含學(xué)號（xh）、口語（ky）、聽力（tl）、閱讀（yd）四個數(shù)據(jù)字段。

對于缺考或無效的學(xué)生成績給予去除處理。

3.2數(shù)據(jù)轉(zhuǎn)換

把待挖掘數(shù)據(jù)表中數(shù)據(jù)字段的格式轉(zhuǎn)換為邏輯布爾型（真和假），將數(shù)據(jù)字段中成績大于等于80分的字段設(shè)置為“真”，即在數(shù)據(jù)中顯示；反之設(shè)置為“假”，在數(shù)據(jù)中不顯示。例如：某項中英語口語/聽力/閱讀成績字段中的值如果大于等于80，則該項中會出現(xiàn)“1”/“2”/“3”，反之，則為空。

3.3 Apriori算法應(yīng)用

實驗所用的數(shù)據(jù)是09級研究生成績庫中的英語聽力、閱讀、口語三門課程的成績數(shù)據(jù)，經(jīng)過上述選擇和篩選，生成了Apriori算法程序中所用到的待挖掘分析數(shù)據(jù)表apriori_data文件，如表1所示。

表1 apriori＿data數(shù)據(jù)表

對上述apriori_data數(shù)據(jù)表中891條記錄事務(wù)集，設(shè)置其最小支持度為 0.2，置信度為 0.5，應(yīng)用 Apriori算法程序?qū)priori_data數(shù)據(jù)表中的聽力、口語、閱讀成績進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘，如圖1所示。

圖1關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

結(jié)果如圖2所示。

圖2挖掘分析結(jié)果

頻繁項集I=｛英語口語成績，聽力成績，閱讀成績｝= ｛1，2，3｝的非空子集有｛1，2｝，｛1，3｝，｛2，3｝，｛1｝，｛2｝和｛3｝。由I產(chǎn)生的關(guān)聯(lián)規(guī)則及其置信度如下：

找出滿足最小置信度閾值50%的規(guī)則，最終產(chǎn)生的強關(guān)聯(lián)規(guī)則如下：

A.當1良好，2、3同時良好的可能性大于86.7%。即：當英語口語成績良好（達到80分以上）時，英語聽力和閱讀同時良好（達到80分以上）的可能性大于86.7%。

B.當2良好，1、3同時良好的可能性大于54.5%。即：當英語聽力成績良好（達到80分以上）時，英語口語和閱讀同時良好（達到80分以上）的可能性大于54.5%。

從上述挖掘結(jié)果來看，可以得到一些潛在的關(guān)聯(lián)：強關(guān)聯(lián)規(guī)則A說明英語口語對英語聽力和閱讀兩門課程成績有重大影響，也就是說口語能力不強的學(xué)生，英語聽力和閱讀相對會差一些。這一點就給出了我們一個信號，即在開設(shè)英語課程中，要著重考慮安排英語口語課程的課時多些，這樣可以無形中帶動學(xué)生英語聽力和閱讀的能力提高。同理，根據(jù)上面的強關(guān)聯(lián)規(guī)則B可以得到如下潛在信息，即說明英語聽力對英語口語和閱讀兩門課程成績有重大影響，也就是說聽力能力不強的學(xué)生，英語口語和閱讀相對會差一些，這就給出了一個信號，即在開設(shè)英語課程中，要著重考慮安排英語聽力課程的課時多些，這樣可以無形中帶動學(xué)生英語口語和閱讀的能力提高。

4　應(yīng)用C4　.5　算法決策樹技術(shù)挖掘研究生信息數(shù)據(jù)庫

4.1建立模型

挖掘內(nèi)容確定為：學(xué)生基本信息、成績信息、家庭背景信息、科研成果信息、就業(yè)情況信息五個方面。主要字段分別為如下幾類。學(xué)生基本信息包括：學(xué)號、性別、政治面貌。家庭背景信息主要包括家庭基本情況一項信息，即分為兩類：一類是農(nóng)民、下崗工人；二類是公務(wù)員、工人、職工、商人等。學(xué)生成績信息包括：學(xué)業(yè)成績績點、英語專業(yè)水平。科研成果信息包括：助研情況、論文發(fā)表情況。就業(yè)信息包括：就業(yè)單位性質(zhì)。

4.2數(shù)據(jù)提取及離散歸約化

4.2.1提取

挖掘信息需要從信息系統(tǒng)多個模塊中提取整理，分別從如下數(shù)據(jù)庫中提取：

英語水平（視圖 lunwen_cet表）、助研情況（視圖lunwen_zhuyan表）、論文發(fā)表情況（lunwen_publish表）、學(xué)業(yè)成績（lunwen_cj表）、家庭情況（lunwen_family表）、學(xué)生基本信息（users表）、就業(yè)單位信息（lunwen_jyxx表）。

4.2.2處理

為了便于挖掘還需對挖掘字段進行一些必要的處理過程，即要對各屬性字段進行歸約與離散化處理。處理規(guī)則如下表2所示。

表2對挖掘字段的處理規(guī)則

按照上述標準對原始記錄處理后，得到如下表3所示。

表3原始記錄數(shù)據(jù)處理結(jié)果

4.3結(jié)果分析

對以上得出的挖掘數(shù)據(jù)結(jié)果分析，可以得出各因素所在的Variable Importance比例分別是：CET：0.436、XB：0.298、CJ：0.153、PAPER：0.054、ZZMM：0.025、FAMILY：0.022、ZHUYAN：0.012，從這些數(shù)據(jù)可以得出如下結(jié)論：

（1）在對就業(yè)單位性質(zhì)JYDWXZ有影響的八大因素：英語水平CET、性別XB、學(xué)業(yè)成績績點CJ、論文發(fā)表情況PAPER、政治面貌ZZMM、家庭情況FAMILY、助研情況ZHUYAN中，其中英語水平CET是就業(yè)單位性質(zhì)JYDWXZ的最主要的影響因素；其次是性別XB因素；再其次依次是成績CJ因素、發(fā)表論文情況PAPER因素、政治面貌ZZMM因素、家庭情況FAMILY因素，最后是助研統(tǒng)計情況ZHUYAN因素。

（2）從就業(yè)的角度考慮，那么發(fā)表論文情況PAPER因素便顯得影響很小，起不到?jīng)Q定的因素作用，所以各高校近年相繼做出了“取消以發(fā)表論文作為碩士研究生畢業(yè)條件”的決定，本研究從理論和數(shù)據(jù)上證明了這一決定的重要性。

（3）英語水平CET在影響就業(yè)單位性質(zhì)JYDWXZ中仍然占主導(dǎo)作用，說明加強英語水平的訓(xùn)練，對于當代研究生的教育培養(yǎng)仍然是一項重中之重的任務(wù)。

（4）從得出的結(jié)果可以看出，性別XB因素在就業(yè)中仍然占有比較大的分量，雖然國家頒發(fā)了很多關(guān)于在就業(yè)過程中嚴禁性別歧視的規(guī)定，可在實際的招聘過程中仍然存在性別歧視的現(xiàn)象。

5　結(jié)語

本文中運用關(guān)聯(lián)規(guī)則方法對學(xué)生成績庫進行挖掘作業(yè)，找到課程之間存在的潛在聯(lián)系，為今后合理設(shè)置課程安排提供有效的數(shù)據(jù)支撐；同時運用決策樹技術(shù)對學(xué)生就業(yè)、學(xué)籍、成績、科研數(shù)據(jù)信息庫進行挖掘作業(yè)，總結(jié)影響學(xué)生就業(yè)的關(guān)鍵因素，分析其原因，為培養(yǎng)適應(yīng)社會發(fā)展需要的高學(xué)歷人才制定更加合理的培養(yǎng)方案提供決策支持。

主要參考文獻

［1］李門樓，郭嘉.研究生教育管理信息化的實踐與思考［J］.研究生教育研究，2011（3）.

［2］廖芹，赫志峰，陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模［M］.北京：國防工業(yè)出版社，2010.

［3］［加］Jiawei Han，Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)［M］.范明，孟小峰，譯.北京：機械工業(yè)出版社，2007.

［3］李婷，傅鋼善.國內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析［J］.現(xiàn)代教育技術(shù)，2010（10）.

10.3969/j.issn.1673-0194.2016.11.099

C37

1673-0194（2016）11-0164-04

2016-04-08

基于數(shù)據(jù)挖掘技術(shù)的研究生信息庫數(shù)據(jù)的研究及應(yīng)用

1 引言

2 數(shù)據(jù)挖掘方法概要

3 關(guān)聯(lián)規(guī)則在研究生信息庫中的研究及應(yīng)用

4 應(yīng)用C4 .5 算法決策樹技術(shù)挖掘研究生信息數(shù)據(jù)庫

5 結(jié)語

1　引言

2　數(shù)據(jù)挖掘方法概要

3　關(guān)聯(lián)規(guī)則在研究生信息庫中的研究及應(yīng)用

4　應(yīng)用C4　.5　算法決策樹技術(shù)挖掘研究生信息數(shù)據(jù)庫

5　結(jié)語