白曉鑫
[摘 要]文章運(yùn)用決策樹中的C4.5算法對(duì)所調(diào)查的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。通過實(shí)例給出了該算法在大學(xué)生就業(yè)滿意度分析中的應(yīng)用,以找出影響就業(yè)滿意度的因素,為大學(xué)生自身發(fā)展及高校學(xué)生工作提供依據(jù),提高就業(yè)滿意度。
[關(guān)鍵詞]數(shù)據(jù)挖掘;決策樹;C4.5算法;就業(yè)滿意度
[DOI]10.13939/j.cnki.zgsc.2017.28.153
近年來,高等院校招生規(guī)模不斷擴(kuò)大,高校畢業(yè)生人數(shù)不斷增多,預(yù)計(jì)2017年高校畢業(yè)生高達(dá)795萬人。面對(duì)就業(yè)難的形勢,高校畢業(yè)生的就業(yè)滿意度得到了廣泛的關(guān)注。就業(yè)滿意度是反映就業(yè)機(jī)會(huì)的可獲得性、工作穩(wěn)定性、工作場所的尊嚴(yán)和安全、機(jī)會(huì)平等、收入、個(gè)人發(fā)展有關(guān)方面滿意度的綜合概念,也是反映高校人才培養(yǎng)水平的重要標(biāo)志。[1]
文章對(duì)某大學(xué)2017屆畢業(yè)生進(jìn)行問卷調(diào)查,并對(duì)所取得數(shù)據(jù)進(jìn)行挖掘?;诖髮W(xué)生自身的角度,利用C4.5數(shù)據(jù)挖掘算法建立決策分類樹,找出大學(xué)生自身因素對(duì)就業(yè)滿意度的影響,為低屆學(xué)生提供學(xué)習(xí)方向,為高校決策者提供教學(xué)和學(xué)生工作建議。[2]
1 C4.5算法
C4.5算法是決策樹算法中最重要的算法之一,是對(duì)決策樹核心算法ID3的改進(jìn)算法,該算法的基本流程與ID3算法基本相同;但是,值得注意的是,C4.5算法用信息增益率來選擇屬性,克服了ID3算法中用信息增益來選擇屬性時(shí)偏向選擇多值屬性的問題。
在C4.5算法中決策樹結(jié)點(diǎn)屬性的選擇是根據(jù)信息論中熵的概念來進(jìn)行的。首先計(jì)算出類別屬性的信息熵,再計(jì)算出非類別屬性的期望信息熵,通過信息增益與分裂信息得出信息增益率,將信息增益率最大的屬性作為決策樹的節(jié)點(diǎn),從而構(gòu)造出決策樹。[3]計(jì)算過程如下:
設(shè)D為用類別對(duì)訓(xùn)練集進(jìn)行的劃分,則D的熵表示為:
Info(D)=-mi=1Pilog2(Pi)
其中Pi表示第i個(gè)類別在整個(gè)訓(xùn)練集中出現(xiàn)的概率。
隨后假設(shè)將訓(xùn)練集D按屬性A進(jìn)行劃分,則A對(duì)D劃分的期望信息熵為:
Info(D)=nj=1DjDInfo(Dj)
其中D是表示訓(xùn)練集中樣本的數(shù)量,Dj是基于屬性A的某個(gè)值的子樹中每一類的樣本數(shù)量;
那么信息增益就為兩者的差值:
Gain(A)= Info(D)-InfoA(D)
信息增益率為:
Gain Ratio = Gain(A)/ Split Info(A)
其中分裂信息Split Info(A)=- ki=1DjDlog 2DjD,D1到Dk是K個(gè)不同值的屬性A分割D而形成的K個(gè)樣本子集。
2 數(shù)據(jù)預(yù)處理
2.1 數(shù)據(jù)準(zhǔn)備
在此次就業(yè)滿意度調(diào)查中,主要需要收集的數(shù)據(jù)有大學(xué)畢業(yè)生的性別、就業(yè)目標(biāo)清晰度、對(duì)工作崗位的了解程度,為了保證數(shù)據(jù)的質(zhì)量及一致性,需要對(duì)收集到的數(shù)據(jù)進(jìn)行合并、量化、轉(zhuǎn)換、集成等處理工作。
2.2 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)樣本用一個(gè)三維向量X={X1, X2, X3}表示,分別描述性別、就業(yè)目標(biāo)清晰度、對(duì)工作崗位的了解程度對(duì)大學(xué)生就業(yè)滿意度的影響。各屬性按如下方式進(jìn)行定義:
就業(yè)滿意度:分為兩種,滿意用“Y”表示,不滿意用“N”來表示。
性別:分為兩種,即“男”或“女”。
就業(yè)目標(biāo)清晰度:分為三個(gè)等級(jí),高(有明確就業(yè)目標(biāo)),中(就業(yè)目標(biāo)不夠清晰),低(從未想過就業(yè)目標(biāo))。
對(duì)工作崗位的了解程度:分為三種,A(了解),B(不太了解),C(不了解)。
3 構(gòu)造決策樹
選取訓(xùn)練樣本數(shù)據(jù)集,如下表所示,將就業(yè)滿意度作為類別表示屬性,將性別、就業(yè)目標(biāo)清晰度、對(duì)工作崗位的了解程度作為決策屬性。
(1)根據(jù)樣本類別屬性計(jì)算信息熵。就業(yè)訓(xùn)練樣本集中樣本類別屬性為就業(yè)滿意度。首先計(jì)算出就業(yè)滿意度的信息熵,其中就業(yè)滿意的有12人,就業(yè)不滿意的有8人。根據(jù)公式計(jì)算其信息熵:
I(就業(yè)滿意度)=-(1220log21220+820log2820)= 0.9710
(2)計(jì)算每個(gè)非類別屬性的期望信息熵。
對(duì)屬性“性別”
t1=7(性別為“男”的個(gè)數(shù)),p1=6(就業(yè)滿意度為YES的個(gè)數(shù)),q1=1(就業(yè)滿意度為NO的個(gè)數(shù))
t2=13(性別為“女”的個(gè)數(shù)),p2=6(就業(yè)滿意度為YES的個(gè)數(shù)),q2=7(就業(yè)滿意度為NO的個(gè)數(shù))
E(性別)=-[720×(67log267+17log217)+1320×(613log2613+713log2713)] = 0.8543
因此,屬性“性別”的信息增益Gain(性別)= I(就業(yè)滿意度)-E(性別)= 0.9710-0.8543=0.1167
屬性“性別”的分裂信息:
Split Info(性別)=-(720log2720+1320log21320)= 0.9341
屬性“性別”的信息增益率Gain Ratio(性別)= Gain(性別)/ Split Info(性別)= 0.1249
同理計(jì)算得到
對(duì)于屬性“就業(yè)目標(biāo)清晰度”
E(就業(yè)目標(biāo)清晰度)= 0.9203,Split Info(就業(yè)目標(biāo)清晰度)= 1.5129
所以Gain Ratio(就業(yè)目標(biāo)清晰度)= Gain(就業(yè)目標(biāo)清晰度)/ Split Info(就業(yè)目標(biāo)清晰度)= 0.0335
對(duì)于屬性“對(duì)工作崗位的了解程度”
E(對(duì)工作崗位的了解程度)= 0.8797,Split Info(對(duì)工作崗位的了解程度)= 1.5813endprint
所以Gain Ratio(對(duì)工作崗位的了解程度)= Gain(對(duì)工作崗位的了解程度)/ Split Info(對(duì)工作崗位的了解程度)= 0.0577
(3)由于屬性“性別”具有最大信息增益率值,故將“性別”作為決策樹的根節(jié)點(diǎn),引出一個(gè)分支,樣本按此劃分。對(duì)引出的每一個(gè)分支再用此分類方法進(jìn)行分類,再引出分支,最后所構(gòu)造出的決策樹如下圖所示:
C4.5算法構(gòu)造決策樹
(4)分類規(guī)則提取。根據(jù)構(gòu)造的決策樹,用IF—THEN對(duì)所分析出的結(jié)果進(jìn)行描述。將數(shù)據(jù)可視化,以便于人們理解,本例中的部分分類規(guī)則如下:
IF性別=“男”and對(duì)崗位的了解程度=“了解”或“不太了解”THEN對(duì)就業(yè)滿意;
IF性別=“男”and對(duì)崗位的了解程度=“不了解”and就業(yè)目標(biāo)清晰度=“中”THEN對(duì)就業(yè)滿意;
IF性別=“男”and對(duì)崗位的了解程度=“不了解”and就業(yè)目標(biāo)清晰度=“低”THEN對(duì)就業(yè)不滿意;
IF性別=“女”and就業(yè)目標(biāo)清晰度=“高”或“中”and對(duì)崗位的了解程度=“了解”或“不太了解”THEN對(duì)就業(yè)滿意;
IF性別=“女”and就業(yè)目標(biāo)清晰度=“高”或“中”and對(duì)崗位的了解程度=“不了解”THEN對(duì)就業(yè)不滿意;
IF性別=“女”and就業(yè)目標(biāo)清晰度=“低”THEN對(duì)就業(yè)不滿意。
4 結(jié)果分析
由以上規(guī)則可以看出男生與女生在就業(yè)滿意度中有較大程度的不同。男生對(duì)工作崗位了解或有一定程度的了解,無論就業(yè)目標(biāo)是否清晰,都能找到滿意的工作;即使不了解崗位,如果對(duì)就業(yè)目標(biāo)有一定程度的認(rèn)知,也可以找到滿意的工作。而對(duì)于女生來說,只有當(dāng)就業(yè)目標(biāo)清晰度高或者適中且對(duì)工作崗位了解或有一定程度了解,才能找到滿意的工作。由此來看,性別是影響就業(yè)滿意度的重要因素,就業(yè)目標(biāo)清晰度及對(duì)工作崗位的了解程度也起到了較大的作用。
5 提高大學(xué)生就業(yè)滿意度的建議
根據(jù)以上利用C4.5算法對(duì)大學(xué)生業(yè)滿意度的分析,對(duì)學(xué)生本身及高校學(xué)生工作提出以下3點(diǎn)建議:
(1)提前制訂職業(yè)生涯規(guī)劃。大學(xué)生應(yīng)根據(jù)自己的興趣愛好及自身特點(diǎn),進(jìn)行自身的社會(huì)定位,提前制定職業(yè)生涯規(guī)劃,明確就業(yè)目標(biāo),提升自身能力,把握就業(yè)機(jī)會(huì),提高就業(yè)滿意度。值得強(qiáng)調(diào)的是,女生相較于男生而言更需要有相對(duì)清晰的就業(yè)目標(biāo),以此來提高就業(yè)滿意度。
(2)加強(qiáng)對(duì)各工作崗位的了解。大學(xué)生應(yīng)將自己的就業(yè)目標(biāo)與對(duì)工作崗位的認(rèn)知結(jié)合起來考慮,根據(jù)就業(yè)目標(biāo)全面了解相應(yīng)工作崗位的工作內(nèi)容、工作技能和工作方法與工具,以便找到適合自己的工作,提高就業(yè)滿意度。
(3)高校提供高水平的就業(yè)指導(dǎo)。各高校要以市場需求為導(dǎo)向,制定全方位的就業(yè)指導(dǎo)體系,根據(jù)學(xué)生自身特點(diǎn)實(shí)行分類、分階段的就業(yè)指導(dǎo),提升大學(xué)生對(duì)自身、企業(yè)需求、工作內(nèi)容、就業(yè)方向的認(rèn)知,引導(dǎo)大學(xué)生樹立積極的就業(yè)觀念,提高就業(yè)滿意度。
參考文獻(xiàn):
[1] 徐才千.提高大學(xué)生就業(yè)滿意度途徑探索[J].繼續(xù)教育研究,2011(9).
[2] 張俊,王琴.C4.5算法在研究生就業(yè)信息庫中的應(yīng)用研究[J].信息技術(shù),2009(11).
[3] 傅亞莉.數(shù)據(jù)挖掘技術(shù)C4.5算法在成績分析中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào),2013(11).endprint