• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘在高職院校就業(yè)指導(dǎo)中的應(yīng)用研究

      2011-03-17 02:47:38陳海宇郭曉偉
      關(guān)鍵詞:學(xué)業(yè)成績(jī)決策樹(shù)增益

      陳海宇,郭曉偉

      (羅定職業(yè)技術(shù)學(xué)院電子信息系,羅定 527200)

      數(shù)據(jù)挖掘在高職院校就業(yè)指導(dǎo)中的應(yīng)用研究

      陳海宇,郭曉偉

      (羅定職業(yè)技術(shù)學(xué)院電子信息系,羅定 527200)

      提高就業(yè)率是以培養(yǎng)應(yīng)用型人才為宗旨的高職院校重要目標(biāo).將C45算法應(yīng)用于就業(yè)信息統(tǒng)計(jì)分析中,通過(guò)對(duì)就業(yè)數(shù)據(jù)預(yù)處理、就業(yè)決策樹(shù)的構(gòu)建和剪枝,從其抽取分類(lèi)規(guī)則,并指出決定就業(yè)單位類(lèi)別的決策屬性,得到一些較實(shí)用的預(yù)測(cè)畢業(yè)生就業(yè)動(dòng)態(tài)的規(guī)律,從而更好地服務(wù)于學(xué)生就業(yè)指導(dǎo)工作.

      決策樹(shù);數(shù)據(jù)挖掘 ;維度表;規(guī)則

      近幾年,各高校的學(xué)生信息庫(kù)逐步建立并得到完善、完整,可以對(duì)這些積累的學(xué)生管理中的數(shù)據(jù)以及通過(guò)技術(shù)實(shí)訓(xùn)、社會(huì)實(shí)踐實(shí)際調(diào)查采集的相關(guān)數(shù)據(jù)進(jìn)行挖掘,使得具有分類(lèi)的預(yù)知性與離散性的就業(yè)數(shù)據(jù),變成有價(jià)值的知識(shí).利用挖掘的結(jié)果,一方面可以指導(dǎo)在校低年級(jí)學(xué)生的學(xué)習(xí),另一方面可以指導(dǎo)不同類(lèi)型的畢業(yè)生選擇合適的就業(yè)途徑,提高就業(yè)率.

      1 數(shù)據(jù)挖掘與就業(yè)指導(dǎo)工作

      數(shù)據(jù)挖掘(Data Mining)是從海量的數(shù)據(jù)中,抽取潛在的、有價(jià)值的規(guī)則或知識(shí)的過(guò)程,其本質(zhì)上是一類(lèi)深層次的數(shù)據(jù)分析方法[1].

      將數(shù)據(jù)挖掘應(yīng)用于高校的就業(yè)工作中,能從眾多的學(xué)生信息庫(kù)、學(xué)生就業(yè)信息庫(kù)中挖掘出學(xué)生就業(yè)的基本規(guī)律,引導(dǎo)教育改革的方向,影響決策者的基本決策.在高等院校中,存在著大量的學(xué)生個(gè)人的教育信息和就業(yè)信息.對(duì)于教育信息,既和教學(xué)相關(guān),如學(xué)業(yè)成績(jī)、外語(yǔ)水平、計(jì)算機(jī)水平、普通話水平、獲獎(jiǎng)情況、實(shí)踐操作能力等,又和非智力因素有關(guān),如學(xué)生的性別、身體狀況、性格特征、心理因素、職業(yè)道德等.畢業(yè)生就業(yè)信息則包括企業(yè)地域、企業(yè)性質(zhì)、職位、行業(yè)、薪資待遇等.利用決策樹(shù)數(shù)據(jù)挖掘算法從無(wú)次序、規(guī)律的學(xué)生個(gè)人教育信息和就業(yè)信息中推理出決策樹(shù)型的分類(lèi)規(guī)則,并且該算法具有數(shù)據(jù)分析效率高、直觀易懂的特點(diǎn),更能啟發(fā)相應(yīng)管理者因材施教,增強(qiáng)學(xué)生的綜合競(jìng)爭(zhēng)力,同時(shí)對(duì)畢業(yè)生做一個(gè)有效的就業(yè)指導(dǎo),對(duì)提高學(xué)生的就業(yè)率將會(huì)有事半功倍的效果[2].

      把數(shù)據(jù)挖掘技術(shù)應(yīng)用到學(xué)生就業(yè)教育工作中,綜合分析學(xué)生個(gè)人的綜合信息和畢業(yè)后的就業(yè)動(dòng)態(tài),使隱藏在其中的信息外顯.經(jīng)過(guò)對(duì)學(xué)生相關(guān)數(shù)據(jù)進(jìn)行分析,可以顯示:影響學(xué)生就業(yè)的重要教育、個(gè)人因素,以及就業(yè)方向的影響,等每個(gè)教育者都急需知道的問(wèn)題,這是傳統(tǒng)評(píng)價(jià)方法無(wú)法做到的.

      2 C45算法原理與決策樹(shù)的生成

      決策樹(shù)是一種常用于預(yù)測(cè)模型的算法,通過(guò)將大量數(shù)據(jù)有目的地分類(lèi),從中找到有價(jià)值的、潛在的信息,特別適合大規(guī)模的數(shù)據(jù)處理.其采用自頂向下的方法對(duì)雜亂的學(xué)生綜合信息進(jìn)行決策挖掘,把無(wú)序的數(shù)據(jù)整理成一棵倒掛的樹(shù),從樹(shù)根到葉結(jié)點(diǎn)所經(jīng)過(guò)的一條路徑形成一條選取的規(guī)則[3].C45算法是在ID3基礎(chǔ)上發(fā)展起來(lái)的決策樹(shù)生成算法,其采用信息增益率作為屬性選擇折度量標(biāo)志,通過(guò)四個(gè)式子對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理后,歸納得到?jīng)Q策樹(shù)[4].假設(shè)T為事例集合,Ci為事例樣本類(lèi)標(biāo)號(hào),i=1,2,…m,熵的計(jì)算方法如下式(1)所示.

      式一中:freq(Ci T)表示集合 T中屬于類(lèi)Ci的數(shù)目,|T|表示集合T中的樣本個(gè)數(shù).

      若按照非類(lèi)別屬性X,選取n個(gè)不同值T1,T2,…Tn,產(chǎn)生的決策樹(shù)信息量的期望值即條件熵如下式(2).

      式中:T是按照屬性X進(jìn)行分區(qū)的集合,|Ti|是基于屬性X的某個(gè)值的子樹(shù)中每一類(lèi)例子的數(shù)目.由此得到對(duì)屬性X作為決策分類(lèi)屬性的度量值(互信息)即增益大的是要選取的節(jié)點(diǎn),如式(3)所示.

      用導(dǎo)致最大信息增益Gain的屬性X作為擴(kuò)展屬性進(jìn)行分枝,信息增益率為GainRatio(X)=Gain(X)/Split(X).C45算法需要對(duì)每個(gè)決策屬性的信息增益率進(jìn)行算,并通過(guò)屬性的每一個(gè)取值建立由樹(shù)節(jié)點(diǎn)引出的分枝,生成一棵完全的樹(shù)后,要對(duì)決策樹(shù)進(jìn)行剪枝策略,刪去最不可靠的樹(shù)枝,消除訓(xùn)練集中的噪聲,從而提高分類(lèi)識(shí)別的速度和數(shù)據(jù)準(zhǔn)確分類(lèi)的能力.修剪后的決策樹(shù),可以進(jìn)行決策規(guī)則的提取,每條分類(lèi)規(guī)則都是走一條從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑,用IF-T HEN形式表示[5],路徑上的分支結(jié)點(diǎn)及邊表示相應(yīng)的條件取值,而葉結(jié)點(diǎn)表示由此取值得到的結(jié)論.

      3 在就業(yè)指導(dǎo)工作中的應(yīng)用分析

      3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理

      采用自頂向下企業(yè)數(shù)據(jù)倉(cāng)庫(kù)可以從總體上把握整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模、粒度的級(jí)別和元數(shù)據(jù)管理,是一種系統(tǒng)的解決方法,并能夠最大限度地減少集成問(wèn)題[6].構(gòu)建星型模式(Star Schema)的數(shù)據(jù)倉(cāng)庫(kù),它通過(guò)使用一個(gè)包含主題的事實(shí)表和多個(gè)包含事實(shí)的非正規(guī)化描述的維度表來(lái)執(zhí)行典型的決策支持查詢,是一種關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu),模式的中間是事實(shí)表,周?chē)蔷S度表,數(shù)據(jù)在事實(shí)表中維護(hù),維度數(shù)據(jù)在維度表中維護(hù).每個(gè)維度表通過(guò)一個(gè)關(guān)鍵字(一般情況下為主鍵)與事實(shí)表關(guān)聯(lián)[7].

      在C45算法中,采用近三年學(xué)校畢業(yè)生就業(yè)信息情況進(jìn)行分類(lèi)過(guò)半數(shù)據(jù)作為訓(xùn)練模型,其余的數(shù)據(jù)作為測(cè)試數(shù)據(jù)集用來(lái)測(cè)試模型準(zhǔn)確度,如圖1所示,實(shí)例中使用了學(xué)生就業(yè)統(tǒng)計(jì)表、學(xué)生綜合測(cè)評(píng)表、學(xué)生自然情況表、學(xué)生獎(jiǎng)罰情況表、社會(huì)實(shí)踐情況表等,建立多維數(shù)據(jù)集后,方便在綜合測(cè)評(píng)情況、獲獎(jiǎng)情況、受處分情況、課外實(shí)踐情況下進(jìn)行分析和選擇.

      圖1 星型模式的多維數(shù)據(jù)集

      學(xué)生就業(yè)統(tǒng)計(jì)表中,包括學(xué)生學(xué)號(hào)、姓名、工作單位等屬性.目的是挖掘出哪些素質(zhì)以及素質(zhì)的水平與哪一種類(lèi)型工作相關(guān)聯(lián),在學(xué)生綜合測(cè)評(píng)、學(xué)生獲獎(jiǎng)情況表和社會(huì)實(shí)踐情況表中提出若干素質(zhì)項(xiàng),如:學(xué)業(yè)成績(jī)、技能水平(包括外語(yǔ)水平、計(jì)算機(jī)水平、普通話水平,取得資格考證)、實(shí)踐能力、性格特征(包括外向開(kāi)朗樂(lè)觀有很強(qiáng)的責(zé)任心為優(yōu),外向開(kāi)朗樂(lè)觀為良,而內(nèi)向沒(méi)責(zé)任感的則為差)等作為決策屬性.對(duì)工作單位屬性進(jìn)行量化,分為三種:學(xué)校(A)、公司企業(yè)(B)、自主創(chuàng)業(yè)(C)等,而每個(gè)工作單位分為三種工作種:中學(xué)教師(A1)、小學(xué)教師(A2)、大型公司企業(yè)(B1)、小型公司企業(yè)(B2)、創(chuàng)辦工廠(C1)、開(kāi)店鋪(C2)等.

      給出如表1所示的本校學(xué)生就業(yè)統(tǒng)計(jì)記錄數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,并進(jìn)行分析,從而得出什么行業(yè)、什么層次的就業(yè)條件適合具備什么能力的學(xué)生.教育管理者根據(jù)導(dǎo)出的規(guī)則更好地對(duì)學(xué)生進(jìn)行就業(yè)指導(dǎo)教育;并且以此為依據(jù)進(jìn)行教育教學(xué)的改革與加強(qiáng)具體某專業(yè)的學(xué)生必須進(jìn)行哪些方面技能與實(shí)踐的培養(yǎng),從整體提高學(xué)生就業(yè)層次、學(xué)校的就業(yè)率.

      3.2 用C45算法構(gòu)造就業(yè)決策樹(shù)

      在學(xué)生就業(yè)統(tǒng)計(jì)數(shù)據(jù)中選取屬性:學(xué)業(yè)成績(jī)、技能水平、實(shí)踐能力、性格特征作為決策屬性把工作單作為類(lèi)別識(shí).科、就業(yè)數(shù)據(jù)訓(xùn)練樣本集S中,共有20個(gè)元組,其中選取A1中學(xué)教師A2小學(xué)教師、B1大型公司企業(yè)、C1創(chuàng)辦工廠四個(gè)類(lèi)別進(jìn)行分析,該四類(lèi)所對(duì)應(yīng)的子集中元組個(gè)數(shù)分別為:R1=5、R2=8、R3=3、R4=2,則利用公式計(jì)算集合S分類(lèi)的期望信息量.

      表1 就業(yè)數(shù)據(jù)訓(xùn)練樣本集

      然后計(jì)算每一個(gè)決策性的期望信息量(熵值),其中i=1,2,3,4,5,6則對(duì)屬性“學(xué)業(yè)成績(jī)”,當(dāng)學(xué)業(yè)成績(jī)=“優(yōu)”.

      屬性“學(xué)業(yè)成績(jī)”的信息增益為:

      Gain(學(xué)業(yè)成績(jī))=I(R1,R2,R3,R4)-E(學(xué)業(yè)成績(jī))=1.8164-1.2881=0.5283.

      屬性“學(xué)業(yè)成績(jī)”的信息增益率為:Ratio(學(xué)業(yè)成績(jī))=Gain(學(xué)業(yè)成績(jī))/E(學(xué)業(yè)成績(jī))=0.4101

      同理計(jì)算得到每一個(gè)決策屬性的信息增益和信息增益率如表2所示.

      表2 就業(yè)信息的屬性信息增益和信息增益率

      從上表2可知,屬性GainRatio(學(xué)業(yè)成績(jī))=0.4101具有最大的信息增益率值,所以選擇該屬性作為決策樹(shù)的根節(jié)點(diǎn)進(jìn)行測(cè)試.重復(fù)上述,生成一棵決策樹(shù),可以采用前修剪方法和后剪枝方法對(duì)其采取剪枝策略,后剪枝方法比較常用,是指輸入為一個(gè)未剪枝的樹(shù)T,輸出為剪枝后的決策樹(shù)T1,T1是修剪了T中一個(gè)或多個(gè)子樹(shù)后獲得的樹(shù).實(shí)質(zhì)是把就業(yè)訓(xùn)練集中的孤立點(diǎn)與噪聲消除,經(jīng)過(guò)修剪后得到的就業(yè)決策樹(shù)的屬性如圖2所示.

      決策樹(shù)圖2中,通過(guò)訓(xùn)練集得到?jīng)Q策樹(shù)分類(lèi)模型對(duì)新數(shù)據(jù)進(jìn)行分類(lèi),可以比較容易地對(duì)學(xué)生就業(yè)的動(dòng)態(tài)進(jìn)行判斷,從圖中可以看出,專業(yè)成績(jī)是學(xué)生就業(yè)方向中的關(guān)鍵,其次是技能水平.

      3.3 決策樹(shù)中提取規(guī)則知識(shí)

      修剪后的決策樹(shù),對(duì)其根到葉子結(jié)點(diǎn)的每條路徑創(chuàng)建一個(gè)規(guī)則,以IF-THEN形式的分類(lèi)規(guī)則描述.由決策樹(shù)提取的分類(lèi)規(guī)則沿著其給定路徑上的每個(gè)屬性和屬性像關(guān)聯(lián)值形成規(guī)則條件IF的一個(gè)合取項(xiàng),則葉結(jié)點(diǎn)包含類(lèi)預(yù)測(cè),形成結(jié)論 THEN部分.關(guān)鍵的第一層次單位類(lèi)別,就業(yè)決策樹(shù)中只提取A1、A2、B1、C1類(lèi)的規(guī)則,從圖2中可提出對(duì)應(yīng)規(guī)則:

      圖2 修剪后的就業(yè)決策樹(shù)

      規(guī)則1 if學(xué)業(yè)成績(jī)=“優(yōu)”and技能水平=“一級(jí)”then在各地中學(xué)就業(yè);

      規(guī)則2 if技能水平=“二級(jí)以上”and性格特征=“優(yōu)、良”then在大型公司企業(yè)就業(yè);

      規(guī)則3 if實(shí)踐能力=“強(qiáng)”and專業(yè)成績(jī)=“良”then自主創(chuàng)業(yè);

      規(guī)則4 if技能水平=“一級(jí)”and性格特征=“差”then在各地小學(xué)就業(yè);

      根據(jù)以上規(guī)則可以知道,如果要提學(xué)生各類(lèi)別的就業(yè)層次,對(duì)于三種不同類(lèi)型的就業(yè)單位,要求有差別.若是教育類(lèi)專業(yè)學(xué)生想提高就業(yè)層次需要加強(qiáng)專業(yè)素質(zhì)培養(yǎng),還需增強(qiáng)技能水平的訓(xùn)練;對(duì)于非教育類(lèi)學(xué)生,若外語(yǔ)專業(yè)學(xué)生則需要加強(qiáng)計(jì)算機(jī)和其它技能的培養(yǎng),若計(jì)算機(jī)專業(yè)學(xué)生則需加強(qiáng)提高外語(yǔ)水平.實(shí)質(zhì)上對(duì)于以大型公司與企業(yè)為就業(yè)目標(biāo)的學(xué)生來(lái)說(shuō),需加強(qiáng)綜合技能水平和實(shí)踐能力的培養(yǎng);如果是進(jìn)行自主創(chuàng)業(yè)的學(xué)生,則需要有更強(qiáng)的實(shí)踐能力,也需要一定的知識(shí)支持,才能取得創(chuàng)業(yè)的成功.

      4 結(jié) 論

      決策樹(shù)是數(shù)據(jù)挖掘中的一個(gè)常用的算法工具,而C45算法是數(shù)據(jù)挖掘中的核心算法,在ID3基礎(chǔ)上改進(jìn)而生成的,適用范圍比較廣,構(gòu)造簡(jiǎn)單、能正確分類(lèi)、頻率較高的決策樹(shù)算法.根據(jù)就業(yè)數(shù)據(jù)具有分類(lèi)的預(yù)知性與離散性的特點(diǎn),選擇決策樹(shù)C45算法通過(guò)數(shù)據(jù)轉(zhuǎn)換與預(yù)處理,參數(shù)和類(lèi)選定,構(gòu)造和修剪決策樹(shù),建構(gòu)成就業(yè)決策樹(shù),生成分規(guī)則后,完成分類(lèi)數(shù)據(jù)挖掘,為供決策者提供決策幫助.經(jīng)過(guò)實(shí)驗(yàn),效果較好,在今后的學(xué)習(xí)中,將考慮更完善地對(duì)其它屬性如院校的知名度、所學(xué)專業(yè)、學(xué)生的職業(yè)道德、應(yīng)聘技巧等進(jìn)行深入研究,給以教師更多的就業(yè)指導(dǎo)提示,學(xué)生就業(yè)方向的選擇.

      [1]毛國(guó)君,段立娟,王 實(shí),等,數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2006.

      [2]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹(shù)的探討[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(1):185.

      [3]楊學(xué)兵,張 俊.決策樹(shù)算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(1):20-22.

      [4]李 楠,段隆振,陳 萌.決策樹(shù)C45算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2008,160(12).

      [5]Han J.Datamining Techniques[R].Canada Montreal Proe 1996 ACM-SIGMOD Int Conf on Management of Data,1996.

      [6]王曙燕,耿國(guó)華,周明全.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005,(9):194-195,205.

      [7]黎 婭,郭江娜.決策樹(shù)的剪枝策略研究[J].河南科學(xué),2009,27(3):320-323.

      The Application of Data Mining in Higher Vocational Career Guidance

      CHEN Hai-yu,GUO Xiao-wei

      (Electronic Information Department,Luoding Vocational Technical College,Luoding 527200,China)

      T o raise the employment rate is the important goal of vocational colleges whose purpose is to train practical talents.C45 algorithm is applied to the statistical analysis of employment information through the pre-employment data,employment,decision tree construction and pruning,its classification rule extraction.The decision attributes of employment unit category are decided and some of the more practical graduate employment laws are predicted to better serve the student employment guidance.

      decision tree;data mining;dimension table;rule

      TE258;T P183

      A

      1671-119X(2011)02-0056-04

      2011-01-11

      陳海宇(1978-),女,碩士,講師,研究方向:計(jì)算機(jī)應(yīng)用、軟件工程.

      猜你喜歡
      學(xué)業(yè)成績(jī)決策樹(shù)增益
      基于回歸分析模型的學(xué)生學(xué)業(yè)成績(jī)差異研究
      基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
      基于單片機(jī)的程控增益放大器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:36
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      基于Multisim10和AD603的程控增益放大器仿真研究
      電子制作(2018年19期)2018-11-14 02:37:02
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      學(xué)業(yè)成績(jī)與習(xí)得性無(wú)助:有調(diào)節(jié)的中介效應(yīng)
      大學(xué)生上網(wǎng)情況與學(xué)業(yè)成績(jī)關(guān)系的實(shí)證研究
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      三台县| 长宁区| 泸溪县| 福建省| 辽阳市| 德兴市| 鹰潭市| 津南区| 军事| 阿坝县| 全南县| 荔浦县| 夏邑县| 陆川县| 肇东市| 玉龙| 苏尼特右旗| 永和县| 巫山县| 大连市| 农安县| 乐昌市| 云安县| 襄樊市| 鄂托克前旗| 五台县| 福安市| 陆丰市| 大渡口区| 综艺| 安新县| 洞口县| 宜城市| 壶关县| 温州市| 宁海县| 八宿县| 崇礼县| 长兴县| 抚松县| 合水县|