李門樓,郭 嘉
(中國地質(zhì)大學(xué) 研究生院,武漢 430074)
基于數(shù)據(jù)挖掘技術(shù)的研究生信息庫數(shù)據(jù)的研究及應(yīng)用
李門樓,郭嘉
(中國地質(zhì)大學(xué)研究生院,武漢 430074)
論文結(jié)合D大學(xué)研究生信息與管理系統(tǒng)應(yīng)用的實際情況和迫切需求,針對“海量數(shù)據(jù)信息嚴重浪費,亟待挖掘其潛在有用信息”這一現(xiàn)實問題,對D大學(xué)研究生信息與管理系統(tǒng)多年來積累的信息數(shù)據(jù)進行深入研究與探討,運用數(shù)據(jù)挖掘原理,對研究生選課數(shù)據(jù)、研究生科研及成績數(shù)據(jù)、研究生畢業(yè)單位信息數(shù)據(jù)進行有效挖掘,以期得到所隱藏的有價值信息,從而指導(dǎo)教學(xué)管理和學(xué)生的學(xué)習(xí)方向,繼而提高教學(xué)管理水平和研究生培養(yǎng)質(zhì)量,更好更有效地為研究生的成長和發(fā)展服務(wù)。
管理信息系統(tǒng);關(guān)聯(lián)規(guī)則;決策樹;Apriori;C4.5
數(shù)據(jù)挖掘,簡單的說,就是從大量數(shù)據(jù)中提取或者“挖掘”有用的知識,是指利用特定的算法從數(shù)據(jù)庫中提取或者挖掘出潛在的、未被人知的有應(yīng)用價值的信息。從學(xué)校教育角度來說,它是教育信息化建設(shè)的發(fā)展帶來的產(chǎn)物,是新的信息數(shù)據(jù)處理技術(shù),其功能和任務(wù)是對教育機構(gòu)的信息數(shù)據(jù)庫進行潛在信息數(shù)據(jù)的抽取、轉(zhuǎn)化、模型化處理、結(jié)果分析等,從中獲得有助于教育決策的潛在信息。但目前大部分學(xué)校都存在一個普遍的問題:學(xué)校多年來積累了海量的數(shù)據(jù),可是其中所隱藏有價值的信息,卻知之甚少,所以從教育的角度出發(fā),需要把這些隱藏信息從中挖掘出來,使它們經(jīng)深層次的挖掘和分析,為教育決策提供更多的有價值信息。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘有價值信息的一個過程,有時候又稱為知識發(fā)現(xiàn)(Knowledge Discovery in Database)。本文借鑒研究常見的兩種方法。
2.1關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物就能夠通過其他事物預(yù)測到。關(guān)聯(lián)規(guī)則表示了項之間的關(guān)系。典型算法是Aprior算法。
2.2決策樹方法
決策樹方法是建立在信息論基礎(chǔ)上的一種對數(shù)據(jù)進行分類的方法。決策樹一般都是自上而下的來生成的。任意一個結(jié)點的狀態(tài)(即代表決策或者事件)都有可能產(chǎn)生兩個或者多個狀態(tài)(決策或者事件),并最終發(fā)展成為各不相同的結(jié)果。把決策的分支表示成為圖形,這個圖形看起來很像一棵倒立的樹。典型算法是C4.5算法。
3.1數(shù)據(jù)篩選
本次研究實驗所選取的是D大學(xué)09級研究生的英語成績數(shù)據(jù),利用數(shù)據(jù)庫技術(shù)將多個數(shù)據(jù)表進行整合,合并成研究所需要的一個成績數(shù)據(jù)。
首先:運用Sql數(shù)據(jù)庫中的視圖技術(shù),從研究生成績庫、學(xué)籍庫和課程庫中選取所需字段(課程名稱kcbmc、學(xué)號xh、成績cj、姓名name),抽取900條數(shù)據(jù)生成09級研究生的英語聽力、英語口語、英語閱讀三門課程的成績數(shù)據(jù)視圖。
其次,對以上三張數(shù)據(jù)表進行表的連接,生成一張成績數(shù)據(jù)分析表(apriori_data_09碩士英語),這個數(shù)據(jù)表只包含學(xué)號(xh)、口語(ky)、聽力(tl)、閱讀(yd)四個數(shù)據(jù)字段。
對于缺考或無效的學(xué)生成績給予去除處理。
3.2數(shù)據(jù)轉(zhuǎn)換
把待挖掘數(shù)據(jù)表中數(shù)據(jù)字段的格式轉(zhuǎn)換為邏輯布爾型(真和假),將數(shù)據(jù)字段中成績大于等于80分的字段設(shè)置為“真”,即在數(shù)據(jù)中顯示;反之設(shè)置為“假”,在數(shù)據(jù)中不顯示。例如:某項中英語口語/聽力/閱讀成績字段中的值如果大于等于80,則該項中會出現(xiàn)“1”/“2”/“3”,反之,則為空。
3.3 Apriori算法應(yīng)用
實驗所用的數(shù)據(jù)是09級研究生成績庫中的英語聽力、閱讀、口語三門課程的成績數(shù)據(jù),經(jīng)過上述選擇和篩選,生成了Apriori算法程序中所用到的待挖掘分析數(shù)據(jù)表apriori_data文件,如表1所示。
表1 apriori_data數(shù)據(jù)表
對上述apriori_data數(shù)據(jù)表中891條記錄事務(wù)集,設(shè)置其最小支持度為 0.2,置信度為 0.5,應(yīng)用 Apriori算法程序?qū)priori_data數(shù)據(jù)表中的聽力、口語、閱讀成績進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,如圖1所示。
圖1關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
結(jié)果如圖2所示。
圖2挖掘分析結(jié)果
頻繁項集I={英語口語成績,聽力成績,閱讀成績}= {1,2,3}的非空子集有{1,2},{1,3},{2,3},{1},{2}和{3}。由I產(chǎn)生的關(guān)聯(lián)規(guī)則及其置信度如下:
找出滿足最小置信度閾值50%的規(guī)則,最終產(chǎn)生的強關(guān)聯(lián)規(guī)則如下:
A.當1良好,2、3同時良好的可能性大于86.7%。即:當英語口語成績良好(達到80分以上)時,英語聽力和閱讀同時良好(達到80分以上)的可能性大于86.7%。
B.當2良好,1、3同時良好的可能性大于54.5%。即:當英語聽力成績良好(達到80分以上)時,英語口語和閱讀同時良好(達到80分以上)的可能性大于54.5%。
從上述挖掘結(jié)果來看,可以得到一些潛在的關(guān)聯(lián):強關(guān)聯(lián)規(guī)則A說明英語口語對英語聽力和閱讀兩門課程成績有重大影響,也就是說口語能力不強的學(xué)生,英語聽力和閱讀相對會差一些。這一點就給出了我們一個信號,即在開設(shè)英語課程中,要著重考慮安排英語口語課程的課時多些,這樣可以無形中帶動學(xué)生英語聽力和閱讀的能力提高。同理,根據(jù)上面的強關(guān)聯(lián)規(guī)則B可以得到如下潛在信息,即說明英語聽力對英語口語和閱讀兩門課程成績有重大影響,也就是說聽力能力不強的學(xué)生,英語口語和閱讀相對會差一些,這就給出了一個信號,即在開設(shè)英語課程中,要著重考慮安排英語聽力課程的課時多些,這樣可以無形中帶動學(xué)生英語口語和閱讀的能力提高。
4.1建立模型
挖掘內(nèi)容確定為:學(xué)生基本信息、成績信息、家庭背景信息、科研成果信息、就業(yè)情況信息五個方面。主要字段分別為如下幾類。學(xué)生基本信息包括:學(xué)號、性別、政治面貌。家庭背景信息主要包括家庭基本情況一項信息,即分為兩類:一類是農(nóng)民、下崗工人;二類是公務(wù)員、工人、職工、商人等。學(xué)生成績信息包括:學(xué)業(yè)成績績點、英語專業(yè)水平。科研成果信息包括:助研情況、論文發(fā)表情況。就業(yè)信息包括:就業(yè)單位性質(zhì)。
4.2數(shù)據(jù)提取及離散歸約化
4.2.1提取
挖掘信息需要從信息系統(tǒng)多個模塊中提取整理,分別從如下數(shù)據(jù)庫中提取:
英語水平(視圖 lunwen_cet表)、助研情況(視圖lunwen_zhuyan表)、論文發(fā)表情況(lunwen_publish表)、學(xué)業(yè)成績(lunwen_cj表)、家庭情況(lunwen_family表)、學(xué)生基本信息(users表)、就業(yè)單位信息(lunwen_jyxx表)。
4.2.2處理
為了便于挖掘還需對挖掘字段進行一些必要的處理過程,即要對各屬性字段進行歸約與離散化處理。處理規(guī)則如下表2所示。
表2對挖掘字段的處理規(guī)則
按照上述標準對原始記錄處理后,得到如下表3所示。
表3原始記錄數(shù)據(jù)處理結(jié)果
4.3結(jié)果分析
對以上得出的挖掘數(shù)據(jù)結(jié)果分析,可以得出各因素所在的Variable Importance比例分別是:CET:0.436、XB:0.298、CJ:0.153、PAPER:0.054、ZZMM:0.025、FAMILY:0.022、ZHUYAN:0.012,從這些數(shù)據(jù)可以得出如下結(jié)論:
(1)在對就業(yè)單位性質(zhì)JYDWXZ有影響的八大因素:英語水平CET、性別XB、學(xué)業(yè)成績績點CJ、論文發(fā)表情況PAPER、政治面貌ZZMM、家庭情況FAMILY、助研情況ZHUYAN中,其中英語水平CET是就業(yè)單位性質(zhì)JYDWXZ的最主要的影響因素;其次是性別XB因素;再其次依次是成績CJ因素、發(fā)表論文情況PAPER因素、政治面貌ZZMM因素、家庭情況FAMILY因素,最后是助研統(tǒng)計情況ZHUYAN因素。
(2)從就業(yè)的角度考慮,那么發(fā)表論文情況PAPER因素便顯得影響很小,起不到?jīng)Q定的因素作用,所以各高校近年相繼做出了“取消以發(fā)表論文作為碩士研究生畢業(yè)條件”的決定,本研究從理論和數(shù)據(jù)上證明了這一決定的重要性。
(3)英語水平CET在影響就業(yè)單位性質(zhì)JYDWXZ中仍然占主導(dǎo)作用,說明加強英語水平的訓(xùn)練,對于當代研究生的教育培養(yǎng)仍然是一項重中之重的任務(wù)。
(4)從得出的結(jié)果可以看出,性別XB因素在就業(yè)中仍然占有比較大的分量,雖然國家頒發(fā)了很多關(guān)于在就業(yè)過程中嚴禁性別歧視的規(guī)定,可在實際的招聘過程中仍然存在性別歧視的現(xiàn)象。
本文中運用關(guān)聯(lián)規(guī)則方法對學(xué)生成績庫進行挖掘作業(yè),找到課程之間存在的潛在聯(lián)系,為今后合理設(shè)置課程安排提供有效的數(shù)據(jù)支撐;同時運用決策樹技術(shù)對學(xué)生就業(yè)、學(xué)籍、成績、科研數(shù)據(jù)信息庫進行挖掘作業(yè),總結(jié)影響學(xué)生就業(yè)的關(guān)鍵因素,分析其原因,為培養(yǎng)適應(yīng)社會發(fā)展需要的高學(xué)歷人才制定更加合理的培養(yǎng)方案提供決策支持。
主要參考文獻
[1]李門樓,郭嘉.研究生教育管理信息化的實踐與思考[J].研究生教育研究,2011(3).
[2]廖芹,赫志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.
[3][加]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.
[3]李婷,傅鋼善.國內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析[J].現(xiàn)代教育技術(shù),2010(10).
10.3969/j.issn.1673-0194.2016.11.099
C37
A
1673-0194(2016)11-0164-04
2016-04-08