• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      C4.5算法在民族地區(qū)高校畢業(yè)生追蹤調(diào)查中的應(yīng)用研究

      2014-11-06 18:24:39梁達(dá)友董榮勝王泓剛
      科技創(chuàng)新導(dǎo)報(bào) 2014年10期
      關(guān)鍵詞:決策樹分類器數(shù)據(jù)挖掘

      梁達(dá)友 董榮勝 王泓剛

      摘 要:部分民族地區(qū)高校畢業(yè)生就業(yè)是個(gè)難點(diǎn)問題。本文介紹了ID3、C4.5和CART三種決策樹算法,并選取河池學(xué)院畢業(yè)生追蹤調(diào)查數(shù)據(jù),分別建立ID3、C4.5和CART分類器進(jìn)行預(yù)測(cè)比較。結(jié)果表明,C4.5預(yù)測(cè)分類器具有最小計(jì)算量和最高準(zhǔn)確率。通過測(cè)試,C4.5分類器預(yù)測(cè)分類準(zhǔn)確度和精度與實(shí)測(cè)數(shù)據(jù)相符,能夠較好地滿足應(yīng)用要求。C4.5分類器分類規(guī)則表明,道德素養(yǎng)、專業(yè)素質(zhì)和實(shí)踐能力是用人單位錄用畢業(yè)生的主要標(biāo)準(zhǔn)。預(yù)測(cè)結(jié)果同時(shí)也為學(xué)校創(chuàng)新人才培養(yǎng)模式,提高畢業(yè)生就業(yè)能力提供一定的決策支持。

      關(guān)鍵詞:教育數(shù)據(jù)挖掘 追蹤調(diào)查 預(yù)測(cè)分類 C4.5算法

      中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(a)-0252-05

      目前,我國經(jīng)濟(jì)飛速發(fā)展,產(chǎn)業(yè)結(jié)構(gòu)高度化,社會(huì)崗位需求不斷增多,高校擴(kuò)招后畢業(yè)生人數(shù)也逐年增加,然而,由于就業(yè)結(jié)構(gòu)性矛盾不斷加劇,出現(xiàn)招工與就業(yè)“兩難并行”的局面[1]。究其根本原因在于高校培養(yǎng)人才與社會(huì)需求脫節(jié),人才供給與社會(huì)需求錯(cuò)位。作為一所新建的民族地區(qū)高校,河池學(xué)院處于發(fā)展階段,人才培養(yǎng)體系還未完善,畢業(yè)生質(zhì)量與社會(huì)需求尚有較大差距。為了縮短人才培養(yǎng)與社會(huì)需求間的差距,使畢業(yè)生符合社會(huì)需求,需要準(zhǔn)確地了解用人單位對(duì)人才的需求標(biāo)準(zhǔn)。

      本文以河池學(xué)院畢業(yè)生追蹤調(diào)查信息數(shù)據(jù)為基礎(chǔ),利用數(shù)據(jù)挖掘技術(shù)對(duì)用人單位評(píng)價(jià)畢業(yè)生的信息數(shù)據(jù)進(jìn)行推測(cè)和估計(jì),探索用人單位錄用畢業(yè)生的規(guī)律及發(fā)展趨勢(shì)[2],找出學(xué)校培養(yǎng)目標(biāo)與社會(huì)需求的差距,為學(xué)校進(jìn)行教育改革,提高畢業(yè)生就業(yè)能力提供依據(jù)。

      1 教育數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘(Data Mining,DM)是從大量數(shù)據(jù)中尋找規(guī)律的技術(shù),廣泛應(yīng)用到市場推廣、醫(yī)療、房地產(chǎn)、客戶關(guān)系管理、工程、網(wǎng)絡(luò)信息挖掘等各個(gè)領(lǐng)域。在教育領(lǐng)域,越來越多的研究者使用數(shù)據(jù)挖掘技術(shù)。應(yīng)用在數(shù)據(jù)相關(guān)教育領(lǐng)域的數(shù)據(jù)挖掘技術(shù)稱為教育數(shù)據(jù)挖掘(Education Data Mining,EDM)。教育數(shù)據(jù)挖掘是一種新興的數(shù)據(jù)挖掘技術(shù),側(cè)重于從教育環(huán)境中的數(shù)據(jù)挖掘知識(shí),根據(jù)教育體系中教學(xué)、管理和科研三個(gè)業(yè)務(wù),將教育數(shù)據(jù)挖掘細(xì)分為E-Learning數(shù)據(jù)挖掘、E-Management數(shù)據(jù)挖掘和E-Research數(shù)據(jù)挖掘三個(gè)范疇[3]。E-Management數(shù)據(jù)挖掘使用教育機(jī)構(gòu)數(shù)字化管理系統(tǒng)收錄的數(shù)據(jù),挖掘包括教師績效評(píng)估、人才引進(jìn)、招生決策、就業(yè)預(yù)測(cè)、畢業(yè)生就業(yè)追蹤等多方面信息,為教育管理部分做出決策提供有效支持。常見的數(shù)據(jù)挖掘方法有決策樹、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、粗糙集、模糊集、K近鄰法、遺傳算法等。綜合Romero[4]和Baker[5]對(duì)教育數(shù)據(jù)挖掘的分類,這些方法可分成統(tǒng)計(jì)分析與可視化、聚類(聚類分析等)、預(yù)測(cè)挖掘(決策樹等)、關(guān)系挖掘(關(guān)聯(lián)規(guī)則挖掘等)、文本挖掘五類。

      2008年,針對(duì)畢業(yè)生和求職人員共存環(huán)境下的就業(yè)問題現(xiàn)狀,屈百達(dá)[6]等人建立動(dòng)態(tài)對(duì)策模型,并給出H∞控制解法。通過求取反饋增益矩陣,得到在職人員、失業(yè)待業(yè)人員數(shù)名的優(yōu)化組合結(jié)構(gòu)關(guān)系,預(yù)測(cè)當(dāng)期畢業(yè)生新增就業(yè)人數(shù),緩解就業(yè)沖突。2009年,劉斕[7]等人轉(zhuǎn)化決策樹數(shù)據(jù),利用二進(jìn)制關(guān)聯(lián)規(guī)則挖掘算法分析大學(xué)生就業(yè)競爭力,提取有效規(guī)則,在培養(yǎng)學(xué)生就業(yè)能力上有一定指導(dǎo)作用。張穩(wěn)[8]等人以新疆農(nóng)業(yè)大學(xué)畢業(yè)生數(shù)據(jù)為例,采用多項(xiàng)式回歸和多元線性回歸兩種不同的算法對(duì)其數(shù)據(jù)建模,實(shí)現(xiàn)對(duì)該校就業(yè)率的預(yù)測(cè)。韋麗梅[9]等人從管理系統(tǒng)和課程設(shè)置的角度出發(fā),經(jīng)過調(diào)查問卷、訪談、座談會(huì)等方式,分析影響中職院校計(jì)算機(jī)類專業(yè)學(xué)生就業(yè)的因素。2010年,針對(duì)畢業(yè)生就業(yè)預(yù)測(cè)存在的不可靠性問題,程昌品[10]等人以廣東教育學(xué)院畢業(yè)生就業(yè)情況為例,使用基于信息增益比的決策樹方法構(gòu)建畢業(yè)生就業(yè)預(yù)測(cè)模型。實(shí)驗(yàn)測(cè)試表明,C4.5決策樹較ID3算法的預(yù)測(cè)效果有更好的可靠性和健壯性。2011年,牛麗[11]等人提出基于層次分析法和高斯隸屬函數(shù)的模糊綜合評(píng)價(jià)方法,以大學(xué)生就業(yè)能力評(píng)價(jià)的層次性、模糊性為例,評(píng)估大學(xué)生就業(yè)能力。缺點(diǎn)是沒有和計(jì)算機(jī)結(jié)合建立相應(yīng)的評(píng)價(jià)系統(tǒng)。針對(duì)學(xué)生就業(yè)問題中出現(xiàn)噪聲造成不一致數(shù)據(jù)問題,常志玲[12]等人提出基于變精度粗糙集的決策樹模型,分析學(xué)生就業(yè)數(shù)據(jù),簡化決策樹結(jié)構(gòu)。賀愛香[13]等人分析C4.5算法建立流程及結(jié)構(gòu),并以安徽新華學(xué)院畢業(yè)數(shù)據(jù)為基礎(chǔ),運(yùn)用C4.5算法建立應(yīng)用型本科高校就業(yè)模型,并驗(yàn)證模型的正確性和實(shí)用性,為學(xué)校提高就業(yè)率提供決策支持。

      綜上所述,大學(xué)生就業(yè)問題的研究方法有矩陣模型、決策樹模型、事務(wù)數(shù)據(jù)庫模型、管理學(xué)方法。決策樹模型依賴迭代或遞歸算法[4],原理計(jì)算和實(shí)現(xiàn)較矩陣模型簡單,建立的決策樹較事務(wù)數(shù)據(jù)庫模型易于理解,且比管理學(xué)問卷調(diào)查等方法易實(shí)施。由于決策樹模型能夠?qū)?fù)雜的決策過程化簡成簡單決策的集合,并能夠提供容易解釋的解決方案。被廣泛應(yīng)用于醫(yī)療診斷、專家系統(tǒng)、語音識(shí)別、遙感等各個(gè)領(lǐng)域[14]。

      在教育挖掘領(lǐng)域使用這些技術(shù),可以挖掘出很多方面的知識(shí)。本文將以河池學(xué)院畢業(yè)生追蹤調(diào)查信息數(shù)據(jù)為基礎(chǔ),構(gòu)建決策樹預(yù)測(cè)模型,從用人單位的角度,發(fā)現(xiàn)用人單位錄用畢業(yè)生的潛在標(biāo)準(zhǔn),進(jìn)一步預(yù)測(cè)畢業(yè)生的就業(yè)能力。預(yù)測(cè)目的主要是發(fā)現(xiàn)未被用人單位錄用的畢業(yè)生存在的問題。如果在大學(xué)生未畢業(yè)前,預(yù)測(cè)發(fā)現(xiàn)其將不會(huì)被用人單位錄用,學(xué)校就可以找出其原因所在,及時(shí)采取措施,調(diào)整培養(yǎng)計(jì)劃,提高他的就業(yè)能力,并幫助他順利就業(yè)。

      2 決策樹算法

      決策樹是一個(gè)樹型預(yù)測(cè)模型,代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹開始于一個(gè)根節(jié)點(diǎn)上,樹中節(jié)點(diǎn)表示某個(gè)對(duì)象;每個(gè)分叉路徑則代表某個(gè)可能的屬性值;葉結(jié)點(diǎn)是從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑所表示對(duì)象的值。決策樹是運(yùn)用概率分析進(jìn)行評(píng)估、預(yù)測(cè)的一種樹型圖解算法,是預(yù)測(cè)分類的一個(gè)重要方法,常用于分析數(shù)據(jù)和評(píng)估預(yù)測(cè)。常用的決策樹方法有ID3算法、C4.5算法和CART算法等。

      2.1 ID3(迭代二叉樹3代)

      ID3是J.Ross Quinlan于1986年在奧卡姆剃刀基礎(chǔ)上開發(fā)的,基于信息熵的決策樹算法。ID3使用信息增益度量選擇分裂屬性,運(yùn)用自頂向下的貪心策略建立決策樹,選擇具有最高信息增益的屬性為根節(jié)點(diǎn),計(jì)算所有屬性可能的值以確定分支、節(jié)點(diǎn)和葉節(jié)點(diǎn)。樹的建立分兩階段,分別是樹構(gòu)建和修剪。ID3算法原理如下:

      定義1:假設(shè)數(shù)據(jù)集合S有s個(gè)數(shù)據(jù)樣本,類別標(biāo)識(shí)屬性C可分為m個(gè)不同類Ci(i=1,2…,m),設(shè)si為Ci樣本數(shù),則集合S分類的期望信息量為

      (1)

      式中pi表示Ci類在數(shù)據(jù)集合S中的概率,。

      定義2:如果A是集合S的屬性,A有n個(gè)值,則集合S可分為n個(gè)子集Si(i=1,2,…,n),設(shè)sij為子集Si的樣本數(shù),則由屬性A劃分成n個(gè)子集后集合S的信息量為:

      (2)

      式中E(Si)是屬性A劃分出的子集Si按類別標(biāo)識(shí)屬性分類的信息量,s是集合S的樣本數(shù)。則屬性A分枝上的信息增益為:

      Gain(S,A)=E(S)-E(S,A) (3)

      迭代計(jì)算每個(gè)屬性的信息增益,選擇信息增益大的屬性為分裂屬性建立決策樹。

      ID3算法不能處理連續(xù)屬性,需要離散化才能使用,在選擇最佳分離屬性的時(shí)候容易選擇那些屬性值多的一些屬性。

      2.2 C4.5算法

      C4.5算法是ID3的改進(jìn)算法。C4.5采用信息增益率為度量來選擇決策屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足。C4.5使用悲觀剪枝法,消除不必要的分支,以提高分類的準(zhǔn)確性。該算法在繼承ID3的同時(shí),具有產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高的優(yōu)點(diǎn),能夠完成對(duì)連續(xù)屬性的離散化和不完整數(shù)據(jù)進(jìn)行處理。信息增益率算法原理如下:

      (4)

      其中Gain(S,A)為屬性A的增益,由(3)式給出;SplitInfo(S,A)為分裂信息,代表屬性A分裂樣本集的廣度和均勻性。

      (5)

      2.3 CART(分類與回歸樹)

      CART(Classification And Regression Trees)分類算法最早由Breiman 等人提出,已經(jīng)在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中普遍使用。CART選擇Gini指數(shù)作為測(cè)試屬性,和ID3和C4.5算法不同的是,CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。CART算法使用后剪枝法,從決策樹中移除不可靠的分支,以改善精度。CART算法可以同時(shí)處理分類和連續(xù)屬性,也可以處理缺失值。不過,Gini指數(shù)是以分類純度來劃分節(jié)點(diǎn)的,因此,CART算法最初建立的樹也有錯(cuò)誤率,因?yàn)橛行┤~子節(jié)點(diǎn)并不是純的。

      3 預(yù)測(cè)挖掘過程

      3.1 數(shù)據(jù)預(yù)處理

      本文從河池學(xué)院歷年收集的畢業(yè)生追蹤調(diào)查信息中,提取了2009年至2013年用人單位對(duì)河池學(xué)院畢業(yè)生的評(píng)價(jià)信息數(shù)據(jù),經(jīng)與學(xué)校統(tǒng)計(jì)的畢業(yè)生就業(yè)狀況數(shù)據(jù)合并,集成了用人單位對(duì)河池學(xué)院畢業(yè)生的評(píng)價(jià)數(shù)據(jù)集,一共477條評(píng)價(jià)記錄,每條記錄包含的屬性有畢業(yè)生的個(gè)人基本信息,數(shù)據(jù)采集日期,用人單位對(duì)畢業(yè)生德、智、能等方面的評(píng)價(jià)。在這些屬性中,抽取用人單位錄用畢業(yè)生影響較大的4個(gè)屬性,分別為用人單位對(duì)畢業(yè)生評(píng)價(jià)選項(xiàng)中的道德素養(yǎng)、專業(yè)素質(zhì)、實(shí)踐能力和創(chuàng)新能力,加標(biāo)識(shí)屬性“是否錄用”,泛化后形成了如表1所示的數(shù)據(jù)集結(jié)構(gòu)。

      各屬性定義如下:

      DD(道德素養(yǎng)):包括畢業(yè)生的思想道德、社會(huì)責(zé)任感、團(tuán)隊(duì)合作精神、敬業(yè)精神、心理素質(zhì)等,分為優(yōu)、良、一般、差四個(gè)等級(jí)。

      ZY(專業(yè)素質(zhì)):指畢業(yè)生具備的相關(guān)專業(yè)素質(zhì),包括專業(yè)知識(shí)、學(xué)習(xí)新知識(shí)能力、語言表達(dá)能力、計(jì)算機(jī)能力和外語水平等,主要以學(xué)習(xí)綜合成績來描述,分為優(yōu)、良、一般、差四個(gè)等級(jí)。

      SJ(實(shí)踐能力):指畢業(yè)生的實(shí)踐動(dòng)手能力、獨(dú)立工作能力、人際交往能力、組織管理能力等,分為強(qiáng)、較強(qiáng)、一般、差四個(gè)等級(jí)。

      CX(創(chuàng)新能力):指畢業(yè)生創(chuàng)新運(yùn)用知識(shí)和理論的能力,分為強(qiáng)、較強(qiáng)、一般、差四個(gè)等級(jí)。

      LY(是否錄用):指畢業(yè)生是否被用人單位錄用,包含被用人單位辭退的畢業(yè)生。分為YES、NO兩種。

      集成數(shù)據(jù)集如表2。把數(shù)據(jù)集按年度分為兩個(gè)子數(shù)據(jù)集:其中2009-2012年的385條數(shù)據(jù)記錄作為訓(xùn)練數(shù)據(jù)集,用于預(yù)測(cè)分類建模;2013年的92條數(shù)據(jù)記錄作為測(cè)試數(shù)據(jù)集,用于測(cè)試預(yù)測(cè)模型的準(zhǔn)確度。

      3.2 算法選擇

      評(píng)價(jià)分類器通常有預(yù)測(cè)準(zhǔn)確度、計(jì)算機(jī)復(fù)雜度和模型描述簡潔度三方面來。預(yù)測(cè)準(zhǔn)確度是使用最多的比較尺度,特別是對(duì)于預(yù)測(cè)型分類任務(wù);計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,操作對(duì)象越是巨大的數(shù)據(jù)庫,空間和時(shí)間的復(fù)雜度問題越重要;模型描述越簡潔越受歡迎,尤其是對(duì)于描述型的分類任務(wù)。目前普遍認(rèn)為,同時(shí)適用于各種特點(diǎn)數(shù)據(jù)的分類器是不存在的。

      C4.5算法具有準(zhǔn)確率較高、模型描述簡單和產(chǎn)生分類規(guī)則易于理解的優(yōu)點(diǎn)。根據(jù)本文數(shù)據(jù)的特性和挖掘任務(wù),選用C4.5算法作為本文數(shù)據(jù)預(yù)測(cè)挖掘算法。

      3.3 C4.5預(yù)測(cè)模型構(gòu)建

      訓(xùn)練數(shù)據(jù)集合中屬性“LY(是否錄用)”為類別標(biāo)識(shí)屬性,其他DD(道德素養(yǎng))、ZY(專業(yè)素質(zhì))、SJ(實(shí)踐能力)和CX(創(chuàng)新能力)為決策屬性。類別標(biāo)識(shí)屬性“LY(是否錄用)”有385個(gè)值,其中“YES”319個(gè),“NO”66個(gè),則集合分類的期望信息量為:

      3.3.1 計(jì)算決策屬性的信息量

      對(duì)屬性DD(道德素養(yǎng))

      當(dāng)DD(道德素養(yǎng))=“優(yōu)”時(shí),有153個(gè)值:153個(gè)“YES”,0個(gè)“NO”,則

      當(dāng)DD(道德素養(yǎng))=“良”時(shí),有92個(gè)值:92個(gè)“YES”,0個(gè)“NO”,則

      當(dāng)DD(道德素養(yǎng))=“一般”時(shí),有74個(gè)值:53個(gè)“YES”,21個(gè)“NO”,則

      當(dāng)DD(道德素養(yǎng))=“差”時(shí),有66個(gè)值:21個(gè)“YES”,45個(gè)“NO”,則

      由此得出屬性“DD(道德素養(yǎng))”的信息量

      3.3.2 計(jì)算決策屬性的信息增益

      屬性DD(道德素養(yǎng))的信息增益為:

      Gain(S,DD)=E(S)-E(S,DD)=0.6610-0.3201=0.3409

      3.3.3計(jì)算決策屬性的信息增益率

      屬性DD(道德素養(yǎng))的分裂信息為:

      所以屬性DD(道德素養(yǎng))的信息增益率為:

      同理可計(jì)算出屬性ZY(專業(yè)素質(zhì))、SJ(實(shí)踐能力)、CX(創(chuàng)新能力)的信息增益率,分別為

      GainRatio(S,ZY)=0.0755

      GainRatio(S,SJ)=0.0260

      GainRatio(S,CX)=0.0055

      3.3.4 確定根節(jié)點(diǎn)

      比較屬性DD(道德素養(yǎng))、ZY(專業(yè)素質(zhì))、SJ(實(shí)踐能力)、CX(創(chuàng)新能力)四個(gè)屬性的信息增益率,屬性DD(道德素養(yǎng))具有最大信息增益,所以選擇DD(道德素養(yǎng))作為測(cè)試屬性,得到如圖1所示的決策樹根節(jié)點(diǎn)。

      3.3.5 建立決策樹

      屬性DD(道德素養(yǎng))為根節(jié)點(diǎn)時(shí),得到“優(yōu)”、“良”、“一般”和“差”四個(gè)分支,利用遞歸方法,對(duì)每個(gè)分支迭代計(jì)算信息增益率,最后得出決策樹,如圖2。

      通過上述計(jì)算方法得到的決策樹,詳細(xì)而龐大,每個(gè)屬性都被詳細(xì)地加以考慮,是一顆完美的樹,但實(shí)用性差,存在過擬合現(xiàn)象,實(shí)際使用中會(huì)導(dǎo)致數(shù)據(jù)失真。因此,需要對(duì)決策樹進(jìn)行剪枝,采用悲觀剪枝法剪枝后決策樹如圖3。

      3.4 ID3、C4.5和CART比較

      WEKA是一個(gè)集合了ID3、 C4.5和CART等機(jī)器學(xué)習(xí)算法的開源應(yīng)用軟件,廣泛應(yīng)用于數(shù)據(jù)挖掘。導(dǎo)入訓(xùn)練數(shù)據(jù)集,在WEKA平臺(tái)分別建立基于十折交叉驗(yàn)證評(píng)估方法的ID3、C4.5和CART分類器。比較結(jié)果如表3、表4和表5。

      從以上比較可以看出,準(zhǔn)確度最高和計(jì)算時(shí)間最少的分類器是C4.5。雖然C4.5分類器對(duì)類“YES”分類準(zhǔn)確度稍低于ID3和CART,但C4.5分類器對(duì)類“NO”分類準(zhǔn)確度最高,且C4.5分類器對(duì)類“YES”和“NO”分類準(zhǔn)確度相差最小,說明C4.5分類器對(duì)噪聲數(shù)據(jù)正確預(yù)測(cè)能力較強(qiáng)。綜合上述比較,在本文的數(shù)據(jù)挖掘研究中,C4.5分類器優(yōu)于ID3和CART。

      3.5 測(cè)試C4.5分類器

      用測(cè)試數(shù)據(jù)集代入C4.5分類器進(jìn)行測(cè)試,準(zhǔn)確測(cè)出90條記錄,2條記錄預(yù)測(cè)錯(cuò)誤,準(zhǔn)確率達(dá)到97.8261%,如表6。

      預(yù)測(cè)模型對(duì)“YES”類的預(yù)測(cè)準(zhǔn)確率達(dá)98.7%, 對(duì)“NO”類預(yù)測(cè)準(zhǔn)確率達(dá)92.9%,如表7。

      從測(cè)試結(jié)果看,建立的分類器預(yù)測(cè)精度較高,預(yù)測(cè)已錄用(YES)類準(zhǔn)確率高于未錄用(NO)。把預(yù)測(cè)結(jié)果和學(xué)校歷年的就業(yè)統(tǒng)計(jì)數(shù)據(jù)相比較,結(jié)果基本相符。

      3.6 C4.5分類器規(guī)則

      通過以上測(cè)試和評(píng)價(jià),C4.5預(yù)測(cè)模型能較地應(yīng)用本文數(shù)據(jù)挖掘分類預(yù)測(cè),且有較高預(yù)測(cè)準(zhǔn)確度。根據(jù)圖3所示決策樹得出以下預(yù)測(cè)分類規(guī)則:

      (1)IF DD(道德素養(yǎng))=“優(yōu)”O(jiān)R DD(道德素養(yǎng))=“良” THEN LY(是否錄用)=“YES”。

      (2)IF DD(道德素養(yǎng))=“一般” AND ZY(專業(yè)素質(zhì))=“優(yōu)”THEN LY(是否錄用)=“YES”。

      (3)IF DD(道德素養(yǎng))=“一般” AND ZY(專業(yè)素質(zhì))= “良” THEN LY(是否錄用)=“YES”。

      (4)IF DD(道德素養(yǎng))=“一般” AND ZY(專業(yè)素質(zhì))= “一般” THEN LY(是否錄用)=“YES”。

      (5)IF DD(道德素養(yǎng))=“一般”AND ZY(專業(yè)素質(zhì))=“差” THEN LY(是否錄用)=“NO”。

      (6)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“強(qiáng)”THEN LY(是否錄用)=“YES”。

      (7)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“較強(qiáng)” THEN LY(是否錄用)=“YES”。

      (8)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“一般” THEN LY(是否錄用)=“YES”。

      (9)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“優(yōu)” AND SJ(實(shí)踐能力)=“差” THEN LY(是否錄用)=“NO”。

      (10)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“強(qiáng)” THEN LY(是否錄用)=“YES”。

      (11)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“較強(qiáng)” THEN LY(是否錄用)=“YES”。

      (12)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“一般” THEN LY(是否錄用)=“NO”。

      (13)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“良” AND SJ(實(shí)踐能力)=“差” THEN LY(是否錄用)=“NO”。

      (14)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“一般” THEN LY(是否錄用)=“NO”。

      (15)IF DD(道德素養(yǎng))=“差”AND ZY(專業(yè)素質(zhì))=“差” THEN LY(是否錄用)=“NO”。

      分析以上分類規(guī)則可以得出,道德素養(yǎng)好、專業(yè)素質(zhì)優(yōu)秀、實(shí)踐能力較強(qiáng)的畢業(yè)生,符合用人單位錄用標(biāo)準(zhǔn),能順利就業(yè);如果道德素養(yǎng)較差,則須在畢業(yè)生的專業(yè)素質(zhì)和實(shí)踐能力上較為優(yōu)秀,用人單位才會(huì)錄用;對(duì)于道德素養(yǎng)和專業(yè)素質(zhì)都較差的畢業(yè)生,用人單位一般不會(huì)錄用。

      4 結(jié)語

      該文提取了河池學(xué)院畢業(yè)生追蹤調(diào)查信息數(shù)據(jù),通過與ID3和CART分類預(yù)測(cè)算法對(duì)比,選取決策樹算法中的C4.5算法構(gòu)建預(yù)測(cè)分類器,從用人單位的角度,進(jìn)行預(yù)測(cè)用人單位的錄用規(guī)則。通過對(duì)原始數(shù)據(jù)進(jìn)行整合、集成等預(yù)處理,利用決策樹技術(shù),對(duì)預(yù)處理過的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,構(gòu)造分類決策樹,產(chǎn)生分類規(guī)則,并測(cè)試其準(zhǔn)確性。從決策樹預(yù)測(cè)分類器選取的屬性指標(biāo)來看,以畢業(yè)生的德、智、能作為判斷分類屬性指標(biāo),具有普遍性,有較強(qiáng)的說服力。從測(cè)試結(jié)果看,該決策樹預(yù)測(cè)模型具有生成規(guī)則易于理解、計(jì)算量較小和預(yù)測(cè)分類準(zhǔn)確度較高等優(yōu)點(diǎn),能較好地識(shí)別用人單位對(duì)錄用畢業(yè)生的能力和素質(zhì)要求,從而能方便快速準(zhǔn)確地預(yù)測(cè)用人單位錄用畢業(yè)生的潛在標(biāo)準(zhǔn),有利于部分民族地區(qū)高校及時(shí)準(zhǔn)確地了解掌握用人單位對(duì)畢業(yè)生的需求標(biāo)準(zhǔn),從而及時(shí)采取措施,調(diào)整培養(yǎng)目標(biāo),促進(jìn)教育改革,提高畢業(yè)生就業(yè)能力。

      參考文獻(xiàn)

      [1] 人力資源和社會(huì)保障部,中國就業(yè)促進(jìn)會(huì).關(guān)于就業(yè)結(jié)構(gòu)性問題的研究[N].中國就業(yè)促進(jìn)會(huì)網(wǎng)站,2014

      [2] 高傳勇,沈延兵.用人單位對(duì)高校畢業(yè)生錄用標(biāo)準(zhǔn)的調(diào)查分析[J].中國青年研究,2005(6):42-45.

      [3] 魏順平.教育數(shù)據(jù)的挖掘、分析、應(yīng)用[J].中小學(xué)信息技術(shù)教育,2013(10): 18-21.

      [4] C.ROMERO,S.VENTURA.EDUCATIONAL. data mining: A survey from 1995 to 2005[J].Expert Systems with Applications,2007(33):135-146.

      [5] RYAN S.J.d. BAKER, KALINA YACEF. The State of Educational Data Mining in 2009: A Review and Future Visions[J].JEDM - Journal of Educational Data Mining,2009,1(1):3-16.

      [6] 屈百達(dá),徐保國.就業(yè)問題的對(duì)策模型及其H_∞控制.控制工程[J].2008(15):29-41.

      [7] 劉斕,徐健鋒.基于二進(jìn)制關(guān)聯(lián)規(guī)則提取算法的大學(xué)生就業(yè)競爭力分析[J].計(jì)算機(jī)科學(xué),2009,36(3):295-297.

      [8] 張穩(wěn).恰汗·合孜爾.畢業(yè)生就業(yè)率預(yù)測(cè)及質(zhì)量評(píng)估研究[J].計(jì)算機(jī)工程與科學(xué),2009,31(5):141-143.

      [9] 韋麗梅.計(jì)算機(jī)類專業(yè)課程設(shè)置對(duì)就業(yè)情況的影響[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(10):111-135.

      [10] 程昌品,陳強(qiáng).基于信息增益比的決策樹用于畢業(yè)生就業(yè)預(yù)測(cè)[J].計(jì)算機(jī)仿真,2010,27(2):299-302.

      [11] 牛麗,陳珂,程媛.改進(jìn)的層次分析法在就業(yè)綜合評(píng)價(jià)中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,28(5):376-375.

      [12] 常志玲,王嵐.一種新的決策樹模型在就業(yè)分析中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2011,33(5):144-145.

      [13] 賀愛香.決策樹在應(yīng)用型本科高校就業(yè)管理中的應(yīng)用研究[D].安徽:安徽大學(xué),2011.

      [14] S.RASOUL SAFAVIAN. DAVID LANDGREBE.A Survey of Decision Tree Classifier Methodology[J].IEEE TRANS ON SYSTEM,1991,21(3):660-674.

      猜你喜歡
      決策樹分類器數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于決策樹的出租車乘客出行目的識(shí)別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      平南县| 南宁市| 昭觉县| 老河口市| 玛沁县| 黔南| 泰兴市| 竹山县| 砚山县| 枣强县| 和硕县| 界首市| 宾川县| 云阳县| 上饶县| 广宗县| 当涂县| 桃江县| 乌什县| 漠河县| 应用必备| 北票市| 刚察县| 临颍县| 平顺县| 松原市| 齐河县| 西丰县| 乌恰县| 基隆市| 西盟| 利辛县| 辉县市| 阳西县| 米易县| 台湾省| 旺苍县| 五原县| 安丘市| 洛宁县| 冕宁县|