梁達(dá)友 董榮勝 王泓剛
摘 要:部分民族地區(qū)高校畢業(yè)生就業(yè)是個(gè)難點(diǎn)問題。本文介紹了ID3、C4.5和CART三種決策樹算法,并選取河池學(xué)院畢業(yè)生追蹤調(diào)查數(shù)據(jù),分別建立ID3、C4.5和CART分類器進(jìn)行預(yù)測(cè)比較。結(jié)果表明,C4.5預(yù)測(cè)分類器具有最小計(jì)算量和最高準(zhǔn)確率。通過測(cè)試,C4.5分類器預(yù)測(cè)分類準(zhǔn)確度和精度與實(shí)測(cè)數(shù)據(jù)相符,能夠較好地滿足應(yīng)用要求。C4.5分類器分類規(guī)則表明,道德素養(yǎng)、專業(yè)素質(zhì)和實(shí)踐能力是用人單位錄用畢業(yè)生的主要標(biāo)準(zhǔn)。預(yù)測(cè)結(jié)果同時(shí)也為學(xué)校創(chuàng)新人才培養(yǎng)模式,提高畢業(yè)生就業(yè)能力提供一定的決策支持。
關(guān)鍵詞:教育數(shù)據(jù)挖掘 追蹤調(diào)查 預(yù)測(cè)分類 C4.5算法
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(a)-0252-05
目前,我國經(jīng)濟(jì)飛速發(fā)展,產(chǎn)業(yè)結(jié)構(gòu)高度化,社會(huì)崗位需求不斷增多,高校擴(kuò)招后畢業(yè)生人數(shù)也逐年增加,然而,由于就業(yè)結(jié)構(gòu)性矛盾不斷加劇,出現(xiàn)招工與就業(yè)“兩難并行”的局面[1]。究其根本原因在于高校培養(yǎng)人才與社會(huì)需求脫節(jié),人才供給與社會(huì)需求錯(cuò)位。作為一所新建的民族地區(qū)高校,河池學(xué)院處于發(fā)展階段,人才培養(yǎng)體系還未完善,畢業(yè)生質(zhì)量與社會(huì)需求尚有較大差距。為了縮短人才培養(yǎng)與社會(huì)需求間的差距,使畢業(yè)生符合社會(huì)需求,需要準(zhǔn)確地了解用人單位對(duì)人才的需求標(biāo)準(zhǔn)。
本文以河池學(xué)院畢業(yè)生追蹤調(diào)查信息數(shù)據(jù)為基礎(chǔ),利用數(shù)據(jù)挖掘技術(shù)對(duì)用人單位評(píng)價(jià)畢業(yè)生的信息數(shù)據(jù)進(jìn)行推測(cè)和估計(jì),探索用人單位錄用畢業(yè)生的規(guī)律及發(fā)展趨勢(shì)[2],找出學(xué)校培養(yǎng)目標(biāo)與社會(huì)需求的差距,為學(xué)校進(jìn)行教育改革,提高畢業(yè)生就業(yè)能力提供依據(jù)。
1 教育數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining,DM)是從大量數(shù)據(jù)中尋找規(guī)律的技術(shù),廣泛應(yīng)用到市場推廣、醫(yī)療、房地產(chǎn)、客戶關(guān)系管理、工程、網(wǎng)絡(luò)信息挖掘等各個(gè)領(lǐng)域。在教育領(lǐng)域,越來越多的研究者使用數(shù)據(jù)挖掘技術(shù)。應(yīng)用在數(shù)據(jù)相關(guān)教育領(lǐng)域的數(shù)據(jù)挖掘技術(shù)稱為教育數(shù)據(jù)挖掘(Education Data Mining,EDM)。教育數(shù)據(jù)挖掘是一種新興的數(shù)據(jù)挖掘技術(shù),側(cè)重于從教育環(huán)境中的數(shù)據(jù)挖掘知識(shí),根據(jù)教育體系中教學(xué)、管理和科研三個(gè)業(yè)務(wù),將教育數(shù)據(jù)挖掘細(xì)分為E-Learning數(shù)據(jù)挖掘、E-Management數(shù)據(jù)挖掘和E-Research數(shù)據(jù)挖掘三個(gè)范疇[3]。E-Management數(shù)據(jù)挖掘使用教育機(jī)構(gòu)數(shù)字化管理系統(tǒng)收錄的數(shù)據(jù),挖掘包括教師績效評(píng)估、人才引進(jìn)、招生決策、就業(yè)預(yù)測(cè)、畢業(yè)生就業(yè)追蹤等多方面信息,為教育管理部分做出決策提供有效支持。常見的數(shù)據(jù)挖掘方法有決策樹、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、粗糙集、模糊集、K近鄰法、遺傳算法等。綜合Romero[4]和Baker[5]對(duì)教育數(shù)據(jù)挖掘的分類,這些方法可分成統(tǒng)計(jì)分析與可視化、聚類(聚類分析等)、預(yù)測(cè)挖掘(決策樹等)、關(guān)系挖掘(關(guān)聯(lián)規(guī)則挖掘等)、文本挖掘五類。
2008年,針對(duì)畢業(yè)生和求職人員共存環(huán)境下的就業(yè)問題現(xiàn)狀,屈百達(dá)[6]等人建立動(dòng)態(tài)對(duì)策模型,并給出H∞控制解法。通過求取反饋增益矩陣,得到在職人員、失業(yè)待業(yè)人員數(shù)名的優(yōu)化組合結(jié)構(gòu)關(guān)系,預(yù)測(cè)當(dāng)期畢業(yè)生新增就業(yè)人數(shù),緩解就業(yè)沖突。2009年,劉斕[7]等人轉(zhuǎn)化決策樹數(shù)據(jù),利用二進(jìn)制關(guān)聯(lián)規(guī)則挖掘算法分析大學(xué)生就業(yè)競爭力,提取有效規(guī)則,在培養(yǎng)學(xué)生就業(yè)能力上有一定指導(dǎo)作用。張穩(wěn)[8]等人以新疆農(nóng)業(yè)大學(xué)畢業(yè)生數(shù)據(jù)為例,采用多項(xiàng)式回歸和多元線性回歸兩種不同的算法對(duì)其數(shù)據(jù)建模,實(shí)現(xiàn)對(duì)該校就業(yè)率的預(yù)測(cè)。韋麗梅[9]等人從管理系統(tǒng)和課程設(shè)置的角度出發(fā),經(jīng)過調(diào)查問卷、訪談、座談會(huì)等方式,分析影響中職院校計(jì)算機(jī)類專業(yè)學(xué)生就業(yè)的因素。2010年,針對(duì)畢業(yè)生就業(yè)預(yù)測(cè)存在的不可靠性問題,程昌品[10]等人以廣東教育學(xué)院畢業(yè)生就業(yè)情況為例,使用基于信息增益比的決策樹方法構(gòu)建畢業(yè)生就業(yè)預(yù)測(cè)模型。實(shí)驗(yàn)測(cè)試表明,C4.5決策樹較ID3算法的預(yù)測(cè)效果有更好的可靠性和健壯性。2011年,牛麗[11]等人提出基于層次分析法和高斯隸屬函數(shù)的模糊綜合評(píng)價(jià)方法,以大學(xué)生就業(yè)能力評(píng)價(jià)的層次性、模糊性為例,評(píng)估大學(xué)生就業(yè)能力。缺點(diǎn)是沒有和計(jì)算機(jī)結(jié)合建立相應(yīng)的評(píng)價(jià)系統(tǒng)。針對(duì)學(xué)生就業(yè)問題中出現(xiàn)噪聲造成不一致數(shù)據(jù)問題,常志玲[12]等人提出基于變精度粗糙集的決策樹模型,分析學(xué)生就業(yè)數(shù)據(jù),簡化決策樹結(jié)構(gòu)。賀愛香[13]等人分析C4.5算法建立流程及結(jié)構(gòu),并以安徽新華學(xué)院畢業(yè)數(shù)據(jù)為基礎(chǔ),運(yùn)用C4.5算法建立應(yīng)用型本科高校就業(yè)模型,并驗(yàn)證模型的正確性和實(shí)用性,為學(xué)校提高就業(yè)率提供決策支持。
綜上所述,大學(xué)生就業(yè)問題的研究方法有矩陣模型、決策樹模型、事務(wù)數(shù)據(jù)庫模型、管理學(xué)方法。決策樹模型依賴迭代或遞歸算法[4],原理計(jì)算和實(shí)現(xiàn)較矩陣模型簡單,建立的決策樹較事務(wù)數(shù)據(jù)庫模型易于理解,且比管理學(xué)問卷調(diào)查等方法易實(shí)施。由于決策樹模型能夠?qū)?fù)雜的決策過程化簡成簡單決策的集合,并能夠提供容易解釋的解決方案。被廣泛應(yīng)用于醫(yī)療診斷、專家系統(tǒng)、語音識(shí)別、遙感等各個(gè)領(lǐng)域[14]。
在教育挖掘領(lǐng)域使用這些技術(shù),可以挖掘出很多方面的知識(shí)。本文將以河池學(xué)院畢業(yè)生追蹤調(diào)查信息數(shù)據(jù)為基礎(chǔ),構(gòu)建決策樹預(yù)測(cè)模型,從用人單位的角度,發(fā)現(xiàn)用人單位錄用畢業(yè)生的潛在標(biāo)準(zhǔn),進(jìn)一步預(yù)測(cè)畢業(yè)生的就業(yè)能力。預(yù)測(cè)目的主要是發(fā)現(xiàn)未被用人單位錄用的畢業(yè)生存在的問題。如果在大學(xué)生未畢業(yè)前,預(yù)測(cè)發(fā)現(xiàn)其將不會(huì)被用人單位錄用,學(xué)校就可以找出其原因所在,及時(shí)采取措施,調(diào)整培養(yǎng)計(jì)劃,提高他的就業(yè)能力,并幫助他順利就業(yè)。
2 決策樹算法
決策樹是一個(gè)樹型預(yù)測(cè)模型,代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹開始于一個(gè)根節(jié)點(diǎn)上,樹中節(jié)點(diǎn)表示某個(gè)對(duì)象;每個(gè)分叉路徑則代表某個(gè)可能的屬性值;葉結(jié)點(diǎn)是從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑所表示對(duì)象的值。決策樹是運(yùn)用概率分析進(jìn)行評(píng)估、預(yù)測(cè)的一種樹型圖解算法,是預(yù)測(cè)分類的一個(gè)重要方法,常用于分析數(shù)據(jù)和評(píng)估預(yù)測(cè)。常用的決策樹方法有ID3算法、C4.5算法和CART算法等。
2.1 ID3(迭代二叉樹3代)
ID3是J.Ross Quinlan于1986年在奧卡姆剃刀基礎(chǔ)上開發(fā)的,基于信息熵的決策樹算法。ID3使用信息增益度量選擇分裂屬性,運(yùn)用自頂向下的貪心策略建立決策樹,選擇具有最高信息增益的屬性為根節(jié)點(diǎn),計(jì)算所有屬性可能的值以確定分支、節(jié)點(diǎn)和葉節(jié)點(diǎn)。樹的建立分兩階段,分別是樹構(gòu)建和修剪。ID3算法原理如下:
定義1:假設(shè)數(shù)據(jù)集合S有s個(gè)數(shù)據(jù)樣本,類別標(biāo)識(shí)屬性C可分為m個(gè)不同類Ci(i=1,2…,m),設(shè)si為Ci樣本數(shù),則集合S分類的期望信息量為
(1)
式中pi表示Ci類在數(shù)據(jù)集合S中的概率,。
定義2:如果A是集合S的屬性,A有n個(gè)值,則集合S可分為n個(gè)子集Si(i=1,2,…,n),設(shè)sij為子集Si的樣本數(shù),則由屬性A劃分成n個(gè)子集后集合S的信息量為:
(2)
式中E(Si)是屬性A劃分出的子集Si按類別標(biāo)識(shí)屬性分類的信息量,s是集合S的樣本數(shù)。則屬性A分枝上的信息增益為:
Gain(S,A)=E(S)-E(S,A) (3)
迭代計(jì)算每個(gè)屬性的信息增益,選擇信息增益大的屬性為分裂屬性建立決策樹。
ID3算法不能處理連續(xù)屬性,需要離散化才能使用,在選擇最佳分離屬性的時(shí)候容易選擇那些屬性值多的一些屬性。
2.2 C4.5算法
C4.5算法是ID3的改進(jìn)算法。C4.5采用信息增益率為度量來選擇決策屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足。C4.5使用悲觀剪枝法,消除不必要的分支,以提高分類的準(zhǔn)確性。該算法在繼承ID3的同時(shí),具有產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高的優(yōu)點(diǎn),能夠完成對(duì)連續(xù)屬性的離散化和不完整數(shù)據(jù)進(jìn)行處理。信息增益率算法原理如下:
(4)
其中Gain(S,A)為屬性A的增益,由(3)式給出;SplitInfo(S,A)為分裂信息,代表屬性A分裂樣本集的廣度和均勻性。
(5)
2.3 CART(分類與回歸樹)
CART(Classification And Regression Trees)分類算法最早由Breiman 等人提出,已經(jīng)在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中普遍使用。CART選擇Gini指數(shù)作為測(cè)試屬性,和ID3和C4.5算法不同的是,CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。CART算法使用后剪枝法,從決策樹中移除不可靠的分支,以改善精度。CART算法可以同時(shí)處理分類和連續(xù)屬性,也可以處理缺失值。不過,Gini指數(shù)是以分類純度來劃分節(jié)點(diǎn)的,因此,CART算法最初建立的樹也有錯(cuò)誤率,因?yàn)橛行┤~子節(jié)點(diǎn)并不是純的。
3 預(yù)測(cè)挖掘過程
3.1 數(shù)據(jù)預(yù)處理
本文從河池學(xué)院歷年收集的畢業(yè)生追蹤調(diào)查信息中,提取了2009年至2013年用人單位對(duì)河池學(xué)院畢業(yè)生的評(píng)價(jià)信息數(shù)據(jù),經(jīng)與學(xué)校統(tǒng)計(jì)的畢業(yè)生就業(yè)狀況數(shù)據(jù)合并,集成了用人單位對(duì)河池學(xué)院畢業(yè)生的評(píng)價(jià)數(shù)據(jù)集,一共477條評(píng)價(jià)記錄,每條記錄包含的屬性有畢業(yè)生的個(gè)人基本信息,數(shù)據(jù)采集日期,用人單位對(duì)畢業(yè)生德、智、能等方面的評(píng)價(jià)。在這些屬性中,抽取用人單位錄用畢業(yè)生影響較大的4個(gè)屬性,分別為用人單位對(duì)畢業(yè)生評(píng)價(jià)選項(xiàng)中的道德素養(yǎng)、專業(yè)素質(zhì)、實(shí)踐能力和創(chuàng)新能力,加標(biāo)識(shí)屬性“是否錄用”,泛化后形成了如表1所示的數(shù)據(jù)集結(jié)構(gòu)。
各屬性定義如下:
DD(道德素養(yǎng)):包括畢業(yè)生的思想道德、社會(huì)責(zé)任感、團(tuán)隊(duì)合作精神、敬業(yè)精神、心理素質(zhì)等,分為優(yōu)、良、一般、差四個(gè)等級(jí)。
ZY(專業(yè)素質(zhì)):指畢業(yè)生具備的相關(guān)專業(yè)素質(zhì),包括專業(yè)知識(shí)、學(xué)習(xí)新知識(shí)能力、語言表達(dá)能力、計(jì)算機(jī)能力和外語水平等,主要以學(xué)習(xí)綜合成績來描述,分為優(yōu)、良、一般、差四個(gè)等級(jí)。
SJ(實(shí)踐能力):指畢業(yè)生的實(shí)踐動(dòng)手能力、獨(dú)立工作能力、人際交往能力、組織管理能力等,分為強(qiáng)、較強(qiáng)、一般、差四個(gè)等級(jí)。
CX(創(chuàng)新能力):指畢業(yè)生創(chuàng)新運(yùn)用知識(shí)和理論的能力,分為強(qiáng)、較強(qiáng)、一般、差四個(gè)等級(jí)。
LY(是否錄用):指畢業(yè)生是否被用人單位錄用,包含被用人單位辭退的畢業(yè)生。分為YES、NO兩種。
集成數(shù)據(jù)集如表2。把數(shù)據(jù)集按年度分為兩個(gè)子數(shù)據(jù)集:其中2009-2012年的385條數(shù)據(jù)記錄作為訓(xùn)練數(shù)據(jù)集,用于預(yù)測(cè)分類建模;2013年的92條數(shù)據(jù)記錄作為測(cè)試數(shù)據(jù)集,用于測(cè)試預(yù)測(cè)模型的準(zhǔn)確度。
3.2 算法選擇
評(píng)價(jià)分類器通常有預(yù)測(cè)準(zhǔn)確度、計(jì)算機(jī)復(fù)雜度和模型描述簡潔度三方面來。預(yù)測(cè)準(zhǔn)確度是使用最多的比較尺度,特別是對(duì)于預(yù)測(cè)型分類任務(wù);計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,操作對(duì)象越是巨大的數(shù)據(jù)庫,空間和時(shí)間的復(fù)雜度問題越重要;模型描述越簡潔越受歡迎,尤其是對(duì)于描述型的分類任務(wù)。目前普遍認(rèn)為,同時(shí)適用于各種特點(diǎn)數(shù)據(jù)的分類器是不存在的。
C4.5算法具有準(zhǔn)確率較高、模型描述簡單和產(chǎn)生分類規(guī)則易于理解的優(yōu)點(diǎn)。根據(jù)本文數(shù)據(jù)的特性和挖掘任務(wù),選用C4.5算法作為本文數(shù)據(jù)預(yù)測(cè)挖掘算法。
3.3 C4.5預(yù)測(cè)模型構(gòu)建
訓(xùn)練數(shù)據(jù)集合中屬性“LY(是否錄用)”為類別標(biāo)識(shí)屬性,其他DD(道德素養(yǎng))、ZY(專業(yè)素質(zhì))、SJ(實(shí)踐能力)和CX(創(chuàng)新能力)為決策屬性。類別標(biāo)識(shí)屬性“LY(是否錄用)”有385個(gè)值,其中“YES”319個(gè),“NO”66個(gè),則集合分類的期望信息量為:
3.3.1 計(jì)算決策屬性的信息量
對(duì)屬性DD(道德素養(yǎng))
當(dāng)DD(道德素養(yǎng))=“優(yōu)”時(shí),有153個(gè)值:153個(gè)“YES”,0個(gè)“NO”,則
當(dāng)DD(道德素養(yǎng))=“良”時(shí),有92個(gè)值:92個(gè)“YES”,0個(gè)“NO”,則
當(dāng)DD(道德素養(yǎng))=“一般”時(shí),有74個(gè)值:53個(gè)“YES”,21個(gè)“NO”,則
當(dāng)DD(道德素養(yǎng))=“差”時(shí),有66個(gè)值:21個(gè)“YES”,45個(gè)“NO”,則
由此得出屬性“DD(道德素養(yǎng))”的信息量
3.3.2 計(jì)算決策屬性的信息增益
屬性DD(道德素養(yǎng))的信息增益為:
Gain(S,DD)=E(S)-E(S,DD)=0.6610-0.3201=0.3409
3.3.3計(jì)算決策屬性的信息增益率
屬性DD(道德素養(yǎng))的分裂信息為:
所以屬性DD(道德素養(yǎng))的信息增益率為:
同理可計(jì)算出屬性ZY(專業(yè)素質(zhì))、SJ(實(shí)踐能力)、CX(創(chuàng)新能力)的信息增益率,分別為
GainRatio(S,ZY)=0.0755
GainRatio(S,SJ)=0.0260
GainRatio(S,CX)=0.0055
3.3.4 確定根節(jié)點(diǎn)
比較屬性DD(道德素養(yǎng))、ZY(專業(yè)素質(zhì))、SJ(實(shí)踐能力)、CX(創(chuàng)新能力)四個(gè)屬性的信息增益率,屬性DD(道德素養(yǎng))具有最大信息增益,所以選擇DD(道德素養(yǎng))作為測(cè)試屬性,得到如圖1所示的決策樹根節(jié)點(diǎn)。
3.3.5 建立決策樹
屬性DD(道德素養(yǎng))為根節(jié)點(diǎn)時(shí),得到“優(yōu)”、“良”、“一般”和“差”四個(gè)分支,利用遞歸方法,對(duì)每個(gè)分支迭代計(jì)算信息增益率,最后得出決策樹,如圖2。
通過上述計(jì)算方法得到的決策樹,詳細(xì)而龐大,每個(gè)屬性都被詳細(xì)地加以考慮,是一顆完美的樹,但實(shí)用性差,存在過擬合現(xiàn)象,實(shí)際使用中會(huì)導(dǎo)致數(shù)據(jù)失真。因此,需要對(duì)決策樹進(jìn)行剪枝,采用悲觀剪枝法剪枝后決策樹如圖3。
3.4 ID3、C4.5和CART比較
WEKA是一個(gè)集合了ID3、 C4.5和CART等機(jī)器學(xué)習(xí)算法的開源應(yīng)用軟件,廣泛應(yīng)用于數(shù)據(jù)挖掘。導(dǎo)入訓(xùn)練數(shù)據(jù)集,在WEKA平臺(tái)分別建立基于十折交叉驗(yàn)證評(píng)估方法的ID3、C4.5和CART分類器。比較結(jié)果如表3、表4和表5。
從以上比較可以看出,準(zhǔn)確度最高和計(jì)算時(shí)間最少的分類器是C4.5。雖然C4.5分類器對(duì)類“YES”分類準(zhǔn)確度稍低于ID3和CART,但C4.5分類器對(duì)類“NO”分類準(zhǔn)確度最高,且C4.5分類器對(duì)類“YES”和“NO”分類準(zhǔn)確度相差最小,說明C4.5分類器對(duì)噪聲數(shù)據(jù)正確預(yù)測(cè)能力較強(qiáng)。綜合上述比較,在本文的數(shù)據(jù)挖掘研究中,C4.5分類器優(yōu)于ID3和CART。
3.5 測(cè)試C4.5分類器
用測(cè)試數(shù)據(jù)集代入C4.5分類器進(jìn)行測(cè)試,準(zhǔn)確測(cè)出90條記錄,2條記錄預(yù)測(cè)錯(cuò)誤,準(zhǔn)確率達(dá)到97.8261%,如表6。
預(yù)測(cè)模型對(duì)“YES”類的預(yù)測(cè)準(zhǔn)確率達(dá)98.7%, 對(duì)“NO”類預(yù)測(cè)準(zhǔn)確率達(dá)92.9%,如表7。
從測(cè)試結(jié)果看,建立的分類器預(yù)測(cè)精度較高,預(yù)測(cè)已錄用(YES)類準(zhǔn)確率高于未錄用(NO)。把預(yù)測(cè)結(jié)果和學(xué)校歷年的就業(yè)統(tǒng)計(jì)數(shù)據(jù)相比較,結(jié)果基本相符。
3.6 C4.5分類器規(guī)則
通過以上測(cè)試和評(píng)價(jià),C4.5預(yù)測(cè)模型能較地應(yīng)用本文數(shù)據(jù)挖掘分類預(yù)測(cè),且有較高預(yù)測(cè)準(zhǔn)確度。根據(jù)圖3所示決策樹得出以下預(yù)測(cè)分類規(guī)則:
(1)IF DD(道德素養(yǎng))=“優(yōu)”O(jiān)R DD(道德素養(yǎng))=“良” THEN LY(是否錄用)=“YES”。
(2)IF DD(道德素養(yǎng))=“一般” AND ZY(專業(yè)素質(zhì))=“優(yōu)”THEN LY(是否錄用)=“YES”。
(3)IF DD(道德素養(yǎng))=“一般” AND ZY(專業(yè)素質(zhì))= “良” THEN LY(是否錄用)=“YES”。
(4)IF DD(道德素養(yǎng))=“一般” AND ZY(專業(yè)素質(zhì))= “一般” THEN LY(是否錄用)=“YES”。
(5)IF DD(道德素養(yǎng))=“一般”AND ZY(專業(yè)素質(zhì))=“差” THEN LY(是否錄用)=“NO”。
(6)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“強(qiáng)”THEN LY(是否錄用)=“YES”。
(7)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“較強(qiáng)” THEN LY(是否錄用)=“YES”。
(8)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“一般” THEN LY(是否錄用)=“YES”。
(9)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“差” THEN LY(是否錄用)=“NO”。
(10)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“強(qiáng)” THEN LY(是否錄用)=“YES”。
(11)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“較強(qiáng)” THEN LY(是否錄用)=“YES”。
(12)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“一般” THEN LY(是否錄用)=“NO”。
(13)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“差” THEN LY(是否錄用)=“NO”。
(14)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“一般” THEN LY(是否錄用)=“NO”。
(15)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“差” THEN LY(是否錄用)=“NO”。
分析以上分類規(guī)則可以得出,道德素養(yǎng)好、專業(yè)素質(zhì)優(yōu)秀、實(shí)踐能力較強(qiáng)的畢業(yè)生,符合用人單位錄用標(biāo)準(zhǔn),能順利就業(yè);如果道德素養(yǎng)較差,則須在畢業(yè)生的專業(yè)素質(zhì)和實(shí)踐能力上較為優(yōu)秀,用人單位才會(huì)錄用;對(duì)于道德素養(yǎng)和專業(yè)素質(zhì)都較差的畢業(yè)生,用人單位一般不會(huì)錄用。
4 結(jié)語
該文提取了河池學(xué)院畢業(yè)生追蹤調(diào)查信息數(shù)據(jù),通過與ID3和CART分類預(yù)測(cè)算法對(duì)比,選取決策樹算法中的C4.5算法構(gòu)建預(yù)測(cè)分類器,從用人單位的角度,進(jìn)行預(yù)測(cè)用人單位的錄用規(guī)則。通過對(duì)原始數(shù)據(jù)進(jìn)行整合、集成等預(yù)處理,利用決策樹技術(shù),對(duì)預(yù)處理過的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,構(gòu)造分類決策樹,產(chǎn)生分類規(guī)則,并測(cè)試其準(zhǔn)確性。從決策樹預(yù)測(cè)分類器選取的屬性指標(biāo)來看,以畢業(yè)生的德、智、能作為判斷分類屬性指標(biāo),具有普遍性,有較強(qiáng)的說服力。從測(cè)試結(jié)果看,該決策樹預(yù)測(cè)模型具有生成規(guī)則易于理解、計(jì)算量較小和預(yù)測(cè)分類準(zhǔn)確度較高等優(yōu)點(diǎn),能較好地識(shí)別用人單位對(duì)錄用畢業(yè)生的能力和素質(zhì)要求,從而能方便快速準(zhǔn)確地預(yù)測(cè)用人單位錄用畢業(yè)生的潛在標(biāo)準(zhǔn),有利于部分民族地區(qū)高校及時(shí)準(zhǔn)確地了解掌握用人單位對(duì)畢業(yè)生的需求標(biāo)準(zhǔn),從而及時(shí)采取措施,調(diào)整培養(yǎng)目標(biāo),促進(jìn)教育改革,提高畢業(yè)生就業(yè)能力。
參考文獻(xiàn)
[1] 人力資源和社會(huì)保障部,中國就業(yè)促進(jìn)會(huì).關(guān)于就業(yè)結(jié)構(gòu)性問題的研究[N].中國就業(yè)促進(jìn)會(huì)網(wǎng)站,2014
[2] 高傳勇,沈延兵.用人單位對(duì)高校畢業(yè)生錄用標(biāo)準(zhǔn)的調(diào)查分析[J].中國青年研究,2005(6):42-45.
[3] 魏順平.教育數(shù)據(jù)的挖掘、分析、應(yīng)用[J].中小學(xué)信息技術(shù)教育,2013(10): 18-21.
[4] C.ROMERO,S.VENTURA.EDUCATIONAL. data mining: A survey from 1995 to 2005[J].Expert Systems with Applications,2007(33):135-146.
[5] RYAN S.J.d. BAKER, KALINA YACEF. The State of Educational Data Mining in 2009: A Review and Future Visions[J].JEDM - Journal of Educational Data Mining,2009,1(1):3-16.
[6] 屈百達(dá),徐保國.就業(yè)問題的對(duì)策模型及其H_∞控制.控制工程[J].2008(15):29-41.
[7] 劉斕,徐健鋒.基于二進(jìn)制關(guān)聯(lián)規(guī)則提取算法的大學(xué)生就業(yè)競爭力分析[J].計(jì)算機(jī)科學(xué),2009,36(3):295-297.
[8] 張穩(wěn).恰汗·合孜爾.畢業(yè)生就業(yè)率預(yù)測(cè)及質(zhì)量評(píng)估研究[J].計(jì)算機(jī)工程與科學(xué),2009,31(5):141-143.
[9] 韋麗梅.計(jì)算機(jī)類專業(yè)課程設(shè)置對(duì)就業(yè)情況的影響[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(10):111-135.
[10] 程昌品,陳強(qiáng).基于信息增益比的決策樹用于畢業(yè)生就業(yè)預(yù)測(cè)[J].計(jì)算機(jī)仿真,2010,27(2):299-302.
[11] 牛麗,陳珂,程媛.改進(jìn)的層次分析法在就業(yè)綜合評(píng)價(jià)中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,28(5):376-375.
[12] 常志玲,王嵐.一種新的決策樹模型在就業(yè)分析中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2011,33(5):144-145.
[13] 賀愛香.決策樹在應(yīng)用型本科高校就業(yè)管理中的應(yīng)用研究[D].安徽:安徽大學(xué),2011.
[14] S.RASOUL SAFAVIAN. DAVID LANDGREBE.A Survey of Decision Tree Classifier Methodology[J].IEEE TRANS ON SYSTEM,1991,21(3):660-674.