• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      決策樹(shù)技術(shù)在高職學(xué)生就業(yè)信息庫(kù)中的應(yīng)用

      2015-05-12 05:06:29林灃
      廣西教育·C版 2015年3期
      關(guān)鍵詞:決策樹(shù)學(xué)習(xí)成績(jī)類(lèi)別

      林灃

      【摘 要】以現(xiàn)有的數(shù)據(jù)挖掘決策樹(shù)算法作為理論支撐,從就業(yè)數(shù)據(jù)出發(fā),按照數(shù)據(jù)挖掘的基本步驟和方法,執(zhí)行C4.5決策樹(shù)算法對(duì)數(shù)據(jù)進(jìn)行分類(lèi)和預(yù)測(cè),從積累的大量數(shù)據(jù)中得到以就業(yè)類(lèi)別為屬性的分類(lèi)規(guī)則,以此為學(xué)校領(lǐng)導(dǎo)機(jī)構(gòu)提供決策支持,提高就業(yè)水平,對(duì)就業(yè)指導(dǎo)工作具有一定的現(xiàn)實(shí)意義。

      【關(guān)鍵詞】C4.5 數(shù)據(jù)挖掘 決策樹(shù) 就業(yè)信息庫(kù)

      【中圖分類(lèi)號(hào)】 G 【文獻(xiàn)標(biāo)識(shí)碼】 A

      【文章編號(hào)】0450-9889(2015)03C-0181-03

      隨著高校的大規(guī)模擴(kuò)招,學(xué)生人數(shù)逐年遞增,畢業(yè)生的大量輸出給社會(huì)帶來(lái)巨大的壓力,學(xué)生就業(yè)管理工作趨向于復(fù)雜化,如何能夠有效地提高畢業(yè)生就業(yè)率在高校中已經(jīng)成為一個(gè)急待解決的問(wèn)題。然而我們通常做的都只是表面的去統(tǒng)計(jì)畢業(yè)生的就業(yè)數(shù)據(jù),不進(jìn)行深層次的數(shù)據(jù)分析,得到的往往也只是表面信息。合理利用現(xiàn)代化的信息手段整理過(guò)往畢業(yè)生的就業(yè)數(shù)據(jù),從中尋找影響用人單位錄用畢業(yè)生的關(guān)鍵要素才是解決問(wèn)題的關(guān)鍵所在。

      有效利用數(shù)據(jù)挖掘技術(shù)對(duì)大學(xué)畢業(yè)生就業(yè)信息進(jìn)行分析,將信息中內(nèi)在的聯(lián)系挖掘出來(lái),這是傳統(tǒng)的、表層的評(píng)價(jià)方法無(wú)法做到的。本文將選取決策樹(shù)C4.5算法構(gòu)建就業(yè)決策分類(lèi)樹(shù)抽取規(guī)則知識(shí),原因是就業(yè)數(shù)據(jù)具有分類(lèi)的預(yù)知性、離散性的特點(diǎn)。

      一、決策樹(shù)算法

      決策樹(shù)方法的原始啟蒙來(lái)源于概念學(xué)習(xí)系統(tǒng),屬于數(shù)據(jù)挖掘核心技術(shù)算法之一,有一定的優(yōu)勢(shì)。它的特點(diǎn)是基于實(shí)例數(shù)據(jù),將大量數(shù)據(jù)有目的地分類(lèi),把一個(gè)復(fù)雜的問(wèn)題分成更簡(jiǎn)單的問(wèn)題并重復(fù)使用這一技巧,找出潛在的、對(duì)決策有利用價(jià)值的信息,決策樹(shù)算法多數(shù)情況下應(yīng)用在預(yù)測(cè)模型中。如果引用信息論中的說(shuō)法,就是在選擇決策節(jié)點(diǎn)屬性時(shí),用信息增益來(lái)進(jìn)行判定。

      所謂決策樹(shù),實(shí)際上是一種形象的叫法,它是由決策節(jié)點(diǎn)、分支、葉子和連接線組成,其形狀類(lèi)似倒長(zhǎng)的樹(shù)型結(jié)構(gòu)。決策樹(shù)的節(jié)點(diǎn)一般用矩形表示,代表一個(gè)非類(lèi)別屬性,每個(gè)葉子用橢圓形表示,代表一個(gè)類(lèi)別。矩形和橢圓形的連接線代表一條分支,每條分支代表著這個(gè)屬性可能出現(xiàn)的值。每一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑則代表著一條分類(lèi)規(guī)則。

      目前眾多決策樹(shù)算法中最為著名的是Quinlan在ID3算法的基礎(chǔ)上進(jìn)行改進(jìn)提出來(lái)的C4.5算法。C4.5算法的先進(jìn)性體現(xiàn)在:C4.5算法比ID3算法先進(jìn)的方面在于選擇屬性時(shí)采用的是信息增益率去替代信息增益,使得在屬性選擇時(shí)不會(huì)對(duì)取值多的屬性帶有更強(qiáng)的偏向性,所得出的計(jì)算結(jié)果更準(zhǔn)確;分析連續(xù)型屬性是C4.5算法又一改進(jìn),并且當(dāng)在樣本集中出現(xiàn)空缺的屬性值時(shí),C4.5算法也能進(jìn)行處理,從而提高結(jié)果的準(zhǔn)確性;C4.5算法能夠直接將連續(xù)值屬性進(jìn)行分割,分別計(jì)算信息增益率,并選取結(jié)果當(dāng)中信息增益率最大的分割為屬性標(biāo)準(zhǔn),從而轉(zhuǎn)換為離散的二值屬性,完成對(duì)連續(xù)型屬性的離散化處理;C4.5算法在構(gòu)造樹(shù)的過(guò)程中采用后修剪枝葉的方法,能有效的控制決策樹(shù)的高度,同時(shí),相對(duì)其他的算法而言C4.5生成的決策樹(shù)分枝也有所減少。

      為了能使用最小的信息構(gòu)造最為簡(jiǎn)單的決策樹(shù),在對(duì)訓(xùn)練樣本子集進(jìn)行分類(lèi)時(shí),在選取當(dāng)前節(jié)點(diǎn)的測(cè)試屬性時(shí),就必須把具有最高信息增益的屬性找出來(lái)。具體方法如下:

      假設(shè)有訓(xùn)練樣本數(shù)據(jù)集S,類(lèi)別屬性C可以取k個(gè)不同的值,將訓(xùn)練樣本數(shù)據(jù)集S分為k個(gè)不同的類(lèi)Ci (i=1,2,……,k),Ri為數(shù)據(jù)集S中屬于Ci類(lèi)的子集,用ri表示子集Ri中的樣本數(shù)量。

      用Pi表示任意樣本屬于類(lèi)別Ci的概率:,|S|表示集合S中的樣本數(shù)量。樣本集合S的平均不確定性和純度的高低是通過(guò)信息熵反映的。如果熵值越小,平均不確定性越低,純度越高。

      每個(gè)屬性的信息增益率都可以由上述的公式計(jì)算出來(lái),這樣集合S的決策樹(shù)的根節(jié)點(diǎn)就可以根據(jù)計(jì)算出來(lái)的信息增益率最高的屬性來(lái)確定,并以該屬性作為標(biāo)記屬性,對(duì)屬性的每一個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本。

      二、數(shù)據(jù)預(yù)處理

      (一)數(shù)據(jù)準(zhǔn)備

      在本研究中,選擇畢業(yè)生的就業(yè)信息作為研究數(shù)據(jù),通過(guò)分析畢業(yè)生在校的學(xué)習(xí)情況、專(zhuān)業(yè)及專(zhuān)業(yè)類(lèi)別等信息,挖掘出用人單位的行業(yè)性質(zhì)。在進(jìn)行構(gòu)造決策樹(shù)時(shí),必須對(duì)數(shù)據(jù)進(jìn)行規(guī)格化處理,能保證數(shù)據(jù)的高質(zhì)量和一致性。同時(shí)還要對(duì)用人單位行業(yè)性質(zhì)的文字描述進(jìn)行量化和對(duì)學(xué)習(xí)情況等決策屬性進(jìn)行離散化。

      (二)數(shù)據(jù)的轉(zhuǎn)換

      在所采集的數(shù)據(jù)中選取4項(xiàng)作為實(shí)驗(yàn)樣本。選取學(xué)習(xí)成績(jī)、外語(yǔ)水平、實(shí)踐能力、就業(yè)方向構(gòu)成四維向量表。數(shù)據(jù)選擇如下:學(xué)習(xí)成績(jī)(CJ)采集學(xué)習(xí)成績(jī)的平均值分段劃分為三級(jí),中等(CJ<75),良好(75≤CJ≤85),優(yōu)秀(CJ≥85)。外語(yǔ)水平(WY)劃分為兩級(jí),通過(guò)全國(guó)英語(yǔ)等級(jí)B級(jí),通過(guò)全國(guó)英語(yǔ)等級(jí)四級(jí)。實(shí)踐能力(SJNL)劃分為三級(jí),優(yōu)秀(實(shí)踐能力強(qiáng)),一般(實(shí)踐能力一般),差(實(shí)踐能力差)。就業(yè)方向(JYFX)劃分四級(jí),國(guó)有企業(yè)事業(yè)單位(V),外資企業(yè)(X),私營(yíng)企業(yè)(Y),自主創(chuàng)業(yè)(Z)。

      三、構(gòu)造決策樹(shù)

      選取決策樣本數(shù)據(jù)集,如表1所示:

      第一步,將樣本訓(xùn)練集中的分類(lèi)標(biāo)志屬性選出來(lái),本例中選擇“就業(yè)方向”作為分類(lèi)標(biāo)志屬性,而“學(xué)習(xí)成績(jī)”“外語(yǔ)水平”“實(shí)踐能力”則作為決策樹(shù)的決策屬性集。將畢業(yè)生就業(yè)數(shù)據(jù)表中“就業(yè)方向”分為4類(lèi):C1、C2、C3、C4分別代表國(guó)有企業(yè)事業(yè)單位:V;外資企業(yè):X;私營(yíng)企業(yè):Y;自主創(chuàng)業(yè):Z。畢業(yè)生就業(yè)數(shù)據(jù)表中的20條記錄構(gòu)建決策樹(shù)的樣本集S的20個(gè)元組,其中C1、C2、C3、C4類(lèi)分別對(duì)應(yīng)的子集的元組個(gè)數(shù)分別為r1=5,r2=5,r3=7,r4=3。要得出每一個(gè)決策屬性的信息增益率,那么就要計(jì)算S的分類(lèi)期望信息量:

      從信息增益率值可以看出值最大的是“實(shí)踐能力”屬性,所以將該屬性定為根節(jié)點(diǎn)構(gòu)建決策樹(shù)。

      其余的分支點(diǎn),我們可以通過(guò)重復(fù)上述的步驟得出,并生成最終的決策樹(shù),如圖1所示。

      根據(jù)決策樹(shù)可以直接提取分類(lèi)規(guī)則:

      IF實(shí)踐能力=優(yōu)秀+英語(yǔ)水平=四級(jí)+學(xué)習(xí)成績(jī)=優(yōu)秀THEN就業(yè)類(lèi)別=X/V。

      IF實(shí)踐能力=優(yōu)秀+英語(yǔ)水平=B級(jí)+學(xué)習(xí)成績(jī)=優(yōu)秀或良好THEN就業(yè)類(lèi)別=V。

      IF實(shí)踐能力=一般+學(xué)習(xí)成績(jī)=良好+英語(yǔ)水平=B級(jí)THEN就業(yè)類(lèi)別=X/Y/Z。

      IF實(shí)踐能力=一般+學(xué)習(xí)成績(jī)=中等+英語(yǔ)水平=B級(jí)THEN就業(yè)類(lèi)別=Y。

      IF實(shí)踐能力=一般+學(xué)習(xí)成績(jī)=優(yōu)秀+英語(yǔ)水平=B級(jí)THEN就業(yè)類(lèi)別=X。

      IF實(shí)踐能力=差+英語(yǔ)水平=B級(jí)+學(xué)習(xí)成績(jī)=中等THEN就業(yè)類(lèi)別=V/Y。

      IF實(shí)踐能力=差+英語(yǔ)水平=B級(jí)+學(xué)習(xí)成績(jī)=良好THEN就業(yè)類(lèi)別=Y/Z。

      從上述分類(lèi)規(guī)則中我們可以發(fā)現(xiàn),不同的能力和水平對(duì)于提高學(xué)生就業(yè)層次具有非常微妙的影響,如果全面加強(qiáng)學(xué)生成績(jī)的培養(yǎng),則提高畢業(yè)生進(jìn)入國(guó)企就業(yè)的數(shù)量;如果重視加強(qiáng)實(shí)踐能力和外語(yǔ)水平的雙方面培養(yǎng),則能提高進(jìn)入外企就業(yè)的畢業(yè)生數(shù)量。當(dāng)然我們還可以擴(kuò)大訓(xùn)練樣本集,添加更多的數(shù)據(jù),這樣所構(gòu)建的決策樹(shù)能反映數(shù)據(jù)之間更多的內(nèi)在聯(lián)系。

      在當(dāng)前復(fù)雜的就業(yè)形勢(shì)下,文章提出了對(duì)就業(yè)數(shù)據(jù)進(jìn)行挖掘,并建立數(shù)據(jù)挖掘模型,利用C4.5決策樹(shù)算法,分析畢業(yè)生就業(yè)信息系統(tǒng)中的數(shù)據(jù)。并在通過(guò)算法建立的決策樹(shù)模型中,最終得到以就業(yè)類(lèi)別為屬性的分類(lèi)規(guī)則,進(jìn)一步分析這些分類(lèi)規(guī)則,能為學(xué)校的就業(yè)提供分析和決策。如能進(jìn)一步完善基于就業(yè)分析模型決策樹(shù)的分類(lèi)器,將決策樹(shù)技術(shù)引入高校學(xué)生就業(yè)信息中,尋求影響學(xué)生就業(yè)的主要因素,最終必將推動(dòng)高校教育管理的改革與發(fā)展。

      【參考文獻(xiàn)】

      [1] 張駿,王琴.C4.5算法在研究生就業(yè)信息庫(kù)中的應(yīng)用研究[J].信息技術(shù),2009(11)

      [2] 雷松澤,郝燕.基于決策樹(shù)的就業(yè)數(shù)據(jù)挖掘[J].西安工業(yè)學(xué)院學(xué)報(bào),2005(10)

      [3] 邱瑾.決策樹(shù)在高職學(xué)生就業(yè)數(shù)據(jù)分析中的應(yīng)用研究 [J].柳州職業(yè)技術(shù)學(xué)院學(xué)報(bào),2012(4)

      [4] 利珊.數(shù)據(jù)挖掘在就業(yè)分析中的應(yīng)用[J].蘭州工業(yè)高等專(zhuān)科學(xué)校學(xué)報(bào),2011(8)

      [5] 張繼美,桂紅兵.R-C4.5決策樹(shù)模型在高職就業(yè)分析中的應(yīng)用[J].電腦知識(shí)與技術(shù),2011(7)

      [6] 何文秀.數(shù)據(jù)挖掘技術(shù)在高校就業(yè)工作中的應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2008(3)

      [7] 常志玲,王嵐.一種新的決策樹(shù)模型在就業(yè)分析中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2011(5)

      【作者簡(jiǎn)介】林 灃(1982- ),男,廣西南寧人,廣西機(jī)電職業(yè)技術(shù)學(xué)院講師,工程師,研究方向:數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘。

      (責(zé)編 丁 夢(mèng))

      猜你喜歡
      決策樹(shù)學(xué)習(xí)成績(jī)類(lèi)別
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      名落孫山
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      服務(wù)類(lèi)別
      大學(xué)生學(xué)習(xí)動(dòng)機(jī)與學(xué)習(xí)成績(jī)的相關(guān)研究
      人間(2015年21期)2015-03-11 15:24:34
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
      聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類(lèi)別
      宁国市| 青海省| 修水县| 莱州市| 鄯善县| 湘乡市| 酉阳| 汶上县| 水城县| 晋城| 东海县| 望城县| 蒲城县| 牙克石市| 漯河市| 都匀市| 西藏| 宣化县| 扎鲁特旗| 克山县| 潢川县| 开江县| 报价| 明水县| 巴彦淖尔市| 淮安市| 毕节市| 雷波县| 延津县| 平湖市| 房山区| 华阴市| 黑龙江省| 崇礼县| 哈巴河县| 左贡县| 来凤县| 密山市| 特克斯县| 苏尼特左旗| 耿马|