童 冰
?
數(shù)據(jù)挖掘在學(xué)生就業(yè)指導(dǎo)中的應(yīng)用
童 冰
(漳州職業(yè)技術(shù)學(xué)院 計算機(jī)工程系,福建 漳州 363000)
通過數(shù)據(jù)挖掘技術(shù)分析與學(xué)生就業(yè)相關(guān)的因素,能夠為學(xué)生就業(yè)指導(dǎo)工作提供指導(dǎo)依據(jù)。本文探討了數(shù)據(jù)挖掘技術(shù)在學(xué)生就業(yè)指導(dǎo)中的應(yīng)用。
數(shù)據(jù)挖掘;學(xué)生就業(yè)指導(dǎo);數(shù)據(jù)預(yù)處理;頻繁項挖掘
在學(xué)生工作管理中,學(xué)生就業(yè)指導(dǎo)是一個非常重要的方面。如何對學(xué)生就業(yè)進(jìn)行有效的指導(dǎo),是當(dāng)前高等院校面臨的一個重要課題。就業(yè)指導(dǎo)人員可以通過本系統(tǒng)對漳州職業(yè)技術(shù)學(xué)院往屆畢業(yè)生相關(guān)數(shù)據(jù)進(jìn)行挖掘,獲得一些有指導(dǎo)意義的信息,并且根據(jù)這些信息有針對性地對學(xué)生進(jìn)行就業(yè)指導(dǎo)。舉個例子,假如我們從以往的畢業(yè)生的相關(guān)數(shù)據(jù)中挖掘出某專業(yè)的學(xué)生去某地就業(yè)機(jī)率高而且薪酬不錯,我們就可以根據(jù)這個信息,有針對性地組織學(xué)校的該專業(yè)學(xué)生去該地找工作,這樣就大大減少了就業(yè)的盲目性,節(jié)約了找工作的成本并提高了就業(yè)率。
學(xué)生就業(yè)是學(xué)生工作的重要組成部分,有必要對影響學(xué)生就業(yè)的相關(guān)因素進(jìn)行量化分析,這為學(xué)生工作者在就業(yè)指導(dǎo)方面提供數(shù)據(jù),也能為學(xué)校管理者在招生和專業(yè)設(shè)置等方面提供決策依據(jù)。
基于以上的需求分析,與學(xué)生就業(yè)相關(guān)的數(shù)據(jù)挖掘如下:a)挖掘?qū)W生源地信息與學(xué)生就業(yè)率的關(guān)聯(lián)關(guān)系;b)挖掘?qū)W生的性別與就業(yè)情況的關(guān)聯(lián)關(guān)系;c)挖掘?qū)W生成績與學(xué)生就業(yè)情況的關(guān)聯(lián)關(guān)系;d)挖掘?qū)W生考勤與就業(yè)情況的關(guān)聯(lián)關(guān)系。
圖1 學(xué)生就業(yè)指導(dǎo)系統(tǒng)數(shù)據(jù)庫建模
(1)學(xué)生基本情況表
表1 學(xué)生基本情況表(Student)
(2)學(xué)生課程表
表2 學(xué)生課程表(Course)
(3)學(xué)生成績表
表3 學(xué)生成績表(SelCourse)
(4)學(xué)生就業(yè)情況表
表4 學(xué)生就業(yè)情況表(Work)
(5)學(xué)生考勤表
表5 學(xué)生考勤表(Kaoqing)
本系統(tǒng)的頁面表示層功能采用基于.NET技術(shù)的ASP. NET來完成,以SQL server 2005作為后臺數(shù)據(jù)庫服務(wù)器。在系統(tǒng)中設(shè)置學(xué)生就業(yè)統(tǒng)計分析功能:點擊“學(xué)生就業(yè)統(tǒng)計分析”功能按鈕,將出現(xiàn)下拉列表,列表內(nèi)容如下:
a)挖掘?qū)W生源地信息與學(xué)生就業(yè)率的關(guān)聯(lián)關(guān)系;b)挖掘?qū)W生的性別與就業(yè)情況的關(guān)聯(lián)關(guān)系;c)挖掘?qū)W生成績與學(xué)生就業(yè)情況的關(guān)聯(lián)關(guān)系;d)挖掘?qū)W生考勤與就業(yè)情況的關(guān)聯(lián)關(guān)系。
當(dāng)選擇上述列表a項時,將出現(xiàn)條件選擇界面,在兩個下拉列表框中分別選擇年級(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點擊確定按鈕,將列出所有符合條件的學(xué)生生源地與學(xué)生就業(yè)率統(tǒng)計數(shù)據(jù)的關(guān)聯(lián)關(guān)系的列表。
當(dāng)選擇上述列表b項時,將出現(xiàn)條件選擇界面,在兩個下拉列表框中分別選擇年級(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點擊確定按鈕,將列出所有符合條件的學(xué)生性別與學(xué)生的就業(yè)情況的關(guān)聯(lián)關(guān)系的列表。
當(dāng)選擇上述列表c項時,將出現(xiàn)條件選擇界面,在兩個下拉列表框中分別選擇年級(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點擊確定按鈕,將列出所有符合條件的學(xué)生成績與學(xué)生就業(yè)情況的關(guān)聯(lián)關(guān)系的列表。
當(dāng)選擇上述列表d項時,將出現(xiàn)條件選擇界面,在兩個下拉列表框中分別選擇年級(可選擇某屆畢業(yè)生或所有歷屆的畢業(yè)生)和專業(yè)后,點擊確定按鈕,將列出所有符合條件的學(xué)生考勤與就業(yè)情況的關(guān)聯(lián)關(guān)系的列表。
根據(jù)學(xué)生就業(yè)管理的需求分析,結(jié)合數(shù)據(jù)挖掘的專業(yè)知識,這個模塊的共分為數(shù)據(jù)預(yù)處理,頻繁項挖掘,關(guān)聯(lián)規(guī)則分析三個部分。如圖2所示。
從前面的數(shù)據(jù)設(shè)計來看,該子系統(tǒng)存在5個數(shù)據(jù)表。由于就業(yè)信息跟學(xué)生的其他信息是分布在不同的數(shù)據(jù)表中的,如果不進(jìn)行處理,就無法對其進(jìn)行挖掘。如果我們要挖掘?qū)W生的生源地跟學(xué)生就業(yè)信息的關(guān)聯(lián)就必須先使用結(jié)構(gòu)化查詢語言把學(xué)生的基本情況表跟學(xué)生就業(yè)情況表先進(jìn)行連接,生成一個新的數(shù)據(jù)庫表。數(shù)據(jù)預(yù)處理流程如圖3所示。
圖2 學(xué)生就業(yè)指導(dǎo)系統(tǒng)模塊組成
圖3 數(shù)據(jù)預(yù)處理流程
頻繁項挖掘的方法有很多,在實現(xiàn)的過程采用了時間和空間效率較高FP-growth算法進(jìn)行挖掘。它的基本思想是: 首先將數(shù)據(jù)庫中的所有頻繁項集壓縮到一顆頻繁模式樹(FP-Tree),但仍保留項集關(guān)聯(lián)信息,然后以長度為1的頻繁項為基礎(chǔ),形成條件模式基,挖掘出包含該長度為1的頻繁項所有頻繁模式項。整個算法的實現(xiàn)過程如下:
(1)掃描整個數(shù)據(jù)庫,統(tǒng)計得到所有長度為1的頻繁項的支持?jǐn)?shù),然后按支持?jǐn)?shù)的降序?qū)﹂L度為1的頻繁項進(jìn)行排序。
(2)將數(shù)據(jù)表中的每一條記錄當(dāng)作一個數(shù)據(jù)挖掘的一個事務(wù),將再對每個事務(wù)中的每個數(shù)據(jù)項按第(1)步里的順序進(jìn)行排序。
(3)再將上面排序好的事務(wù)更新到FP-tree上,F(xiàn)P-tree 結(jié)構(gòu)如下:
a.它由一棵根節(jié)點為null 的和一系列代表頻繁項的節(jié)點構(gòu)成的樹, 以及一個數(shù)據(jù)項頭表組成。
b.樹上的節(jié)點都包含三個屬性: 項名(item_name), 計數(shù)器(count), 以及節(jié)點鏈(node_link)。其中, 項名是指該節(jié)點所代表的項; 計數(shù)器用于記錄經(jīng)過此節(jié)點的事務(wù)的數(shù)目;節(jié)點鏈指向具有相同項名的下一個節(jié)點, 如果沒有下一個節(jié)點就為空。
c. 在數(shù)據(jù)項頭表中的每一個條目由兩個域組成, 即項名(item_name)和節(jié)點鏈頭, 其中節(jié)點鏈頭指向FP-Tree樹中具有相同項名的節(jié)點鏈中第一個節(jié)點。
(4)根據(jù)FP-tree挖掘得到頻繁項。整個過程如下: 首先從數(shù)據(jù)項頭表中找出每個長度為1 的頻繁模式,在通過FP-tree構(gòu)造它的條件模式基, ,然后構(gòu)造它的(條件) FP-tree ,并遞歸地對該樹進(jìn)行挖掘。
該過程的流程圖如圖4所示。
關(guān)聯(lián)規(guī)則分析的流程圖如圖5所示。
圖4 頻繁項挖掘處理流程
圖5 關(guān)聯(lián)規(guī)則分析的流程圖
本文以開發(fā)學(xué)生就業(yè)指導(dǎo)系統(tǒng)為例,闡述了數(shù)據(jù)挖掘技術(shù)在學(xué)生就業(yè)指導(dǎo)中的應(yīng)用。表明將數(shù)據(jù)挖掘技術(shù)應(yīng)用在高校信息化建設(shè)的各個方面具有參考意義與實用價值。
[1]鄧納姆(Dunham,M.H.),郭崇慧,田鳳占,靳曉明.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005.
[2]蘇新寧,等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.
Implementation of Data Mining in Employment Guidance
TONG Bing
(Computer Department of Zhangzhou Institute of Technology, Zhangzhou 363000,China)
The factors related to graduates’ employment analyzed by data mining technique give the basis for graduates’ employment guidance. The article is about how data mining technique work in graduates’ employment guidance.
data mining, employment guidance;data preprocessing;mining of frequent items
2010-07-20
童冰(1979-),女,浙江嵊州人,助教,華中科技大學(xué)在職碩士研究生,研究方向:計算機(jī)應(yīng)用技術(shù)。
TP274
B
1673-1417(2010)03-0011-06