徐勤亞 劉文睿 張石敏
摘? 要:隨著21世紀知識經(jīng)濟的日益發(fā)展,人力資源成為企業(yè)發(fā)展的核心競爭力之一,對企業(yè)的興衰成敗起決定性作用,因此解決員工離職率這一難題對企業(yè)發(fā)展至關(guān)重要。本文使用SPSS Clementine數(shù)據(jù)挖掘軟件對員工離職數(shù)據(jù)進行處理,探究員工離職主要因素及原因。通過主要特征選擇模型、主成份分析模型和關(guān)聯(lián)規(guī)則Apriori算法,并結(jié)合散點圖、直方圖等對字段進行多維度分析,得出工資收入、是否加班、升職間隔時間、職業(yè)級別等是影響員工離職的主要影響因素,最后針對分析結(jié)果向有關(guān)部門提出合理性建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;SPSS Clementine;員工離職
一、引言
隨著21世紀的發(fā)展,知識經(jīng)濟占主導地位,人才資源成為企業(yè)的核心競爭力之一,決定企業(yè)的興衰成敗。但是,員工的離職率一直是困擾企業(yè)的一個難題。鑒于此,結(jié)合數(shù)據(jù)挖掘軟件SPSS Clementine,對該問題的成因進行歸納分析,探究員工離職的主要影響因素及原因,從而提出可行的對策。
二、實驗數(shù)據(jù)來源及參數(shù)分析
(一)數(shù)據(jù)來源
本文的數(shù)據(jù)取自于開源平臺阿里云大數(shù)據(jù)眾智平臺——阿里云天池,共計27個字段,1100條記錄。
(二)參數(shù)分析
通過數(shù)據(jù)的缺失值和異常值等審核無誤后,對實驗數(shù)據(jù)中的主要字段作如下解析:
1、年齡:員工年齡;2、是否離職:員工是否已經(jīng)離職,0表示未離職,1表示已經(jīng)離職;3、商務差旅頻率:Non-Travel表示不出差,Travel_Rarely表示不經(jīng)常出差,Travel_Frequently表示經(jīng)常出差;4、所在部門:Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部;5、公司跟家庭住址的距離:從1到29,1表示最近,29表示最遠;6、員工的教育程度:從1到5,5表示教育程度最高;7、專業(yè)領(lǐng)域:Life Sciences表示生命科學,Medical表示醫(yī)療,Marketing表示市場營銷,Technical Degree表示技術(shù)學位,Human Resources表示人力資源,Other表示其他;8、工作環(huán)境滿意度:從1到4,1的滿意程度最低,4的滿意程度最高;9、性別:Male表示男性,F(xiàn)emale表示女性;10、工作投入度:從1到4,1為投入度最低,4為投入度最高;11、職業(yè)級別:從1到5,1為最低級別,5為最高級別;12、工作角色:Sales Executive是銷售主管,Research Scientist是科學研究員,Laboratory Technician實驗室技術(shù)員,Manufacturing Director是制造總監(jiān),Healthcare Representative是醫(yī)療代表,Manager是經(jīng)理,Sales Representative是銷售代表,Research Director是研究總監(jiān),Human Resources是人力資源;13、工作滿意度:從1到4,1代表滿意程度最低,4代表滿意程度最高;14、婚姻狀況:Single代表單身,Married代表已婚,Divorced代表離婚;15、月收入:范圍在1009到19999之間;16、曾經(jīng)工作公司數(shù):員工曾經(jīng)工作過的公司數(shù);17、是否加班:Yes表示加班,No表示不加班;18、工資提高百分比:工資提高的百分比;19、績效評估:員工工作績效評估;20 關(guān)系滿意度:從1到4,1表示滿意度最低,4表示滿意度最高;21、總工齡:總共參加工作時間;22、培訓時長:上一年的培訓時長,從0到6,0表示沒有培訓,6表示培訓時間最長;23、工作生活平衡度:從1到4,1表示平衡程度最低,4表示平衡程度最高;24、在目前公司年數(shù):在目前公司工作年數(shù);25、在目前工作職責年數(shù):在目前工作職責的工作年數(shù);26、距離上次升職時長:距離上次工作升職的時間;27、跟管理者共事年數(shù):跟目前的管理者共同工作年數(shù)。
三、具體分析及結(jié)果
由于所分析數(shù)據(jù)字段較多,因此對數(shù)據(jù)進行重要因素分析,根據(jù)模型判斷,將27個字段分為重要、一般重要和不重要三個等級,重要字段分別為:是否加班、總工齡、工作角色、婚姻狀況、年齡、職業(yè)級別、在目前工作職責年數(shù)、跟管理者共事年數(shù)、工作滿意度、工作投入度、工作環(huán)境滿意度、公司跟家庭住址距離、商務差旅頻率、距離上次升職時長、專業(yè)領(lǐng)域、所在部門、關(guān)系滿意度和工作生活平衡度,共計18個字段,接下來將主要從這些字段進行剖析。
結(jié)合主要特征選擇模型分析的結(jié)果,對重要字段構(gòu)建主成份分析模型,總結(jié)出員工離職的關(guān)鍵指標。根據(jù)特征值大于1的原則,最終提取出5個主因子用于歸納員工離職因素,累積方差貢獻率為92.211%,可以較好的解釋整體情況。下面,結(jié)合主成份分析結(jié)果進行具體分析。
首先,對部門離職進行簡單分析,采用計數(shù)對每個部門的離職情況進行統(tǒng)計,可以發(fā)現(xiàn),公司內(nèi)人力資源部門較穩(wěn)定,離職人數(shù)少,研發(fā)部門離職人數(shù)最多,人員流動大,銷售部門的人員流失情況也較嚴重。
其次,探究工資收入、員工工作滿意度與離職的關(guān)系,將工作滿意度作為移動軸參數(shù),制作三者的散點圖,通過調(diào)節(jié)移動軸,可以發(fā)現(xiàn),離職的員工主要為工資<=5000元的群體,同時對于工資收入較低的員工多數(shù)工作滿意度也較低,最終導致離職,可見工資收入是影響離職的關(guān)鍵因素。
接著,探究距離上一次升職時長、工作投入度個和離職的關(guān)系,結(jié)合3D散點圖1,可以發(fā)現(xiàn),在距離上次升職時長2-8年容易導致員工離職,未離職人員也出現(xiàn)明顯的工作投入度下降問題,因此,若員工長時間得不到發(fā)展空間,容易導致離職。
探究職業(yè)級別、是否加班、生活工作平衡度和離職的綜合關(guān)系,以顏色區(qū)分職業(yè)級別,移動坐標軸代表是否加班構(gòu)建直方圖2和圖3,圖2代表不加班,圖3代表加班,通過對比,可以發(fā)現(xiàn)不論加班不加班,多數(shù)人可以將工作生活平衡度維持在3,處于較好狀態(tài),但加班時,離職人數(shù)將增加,明顯表現(xiàn)在職業(yè)級別為1的員工,可見對于基層工作人員來說,加班是影響其離職的關(guān)鍵因素之一。
最后,探究不同年齡層的離職情況,源數(shù)據(jù)中年齡從18歲跨度到60歲,因此,對年齡進行分箱和重新分類,將其分為三個年齡層:青年、中年和中老年。
通過年齡層與離職分布圖可以看出,年紀較大的員工傾向于穩(wěn)定,離職情況少,青年人和中年人離職較多,分析原因,可能是青年人剛參加工作,希望尋求更多機會,需要發(fā)展空間,中年人對于收入和工作滿意度更有需求,同時具有一定的工作經(jīng)驗,如果需求得不到滿足,就有較大概率離職。
結(jié)合關(guān)聯(lián)規(guī)則Apriori算法對年齡層和離職做進一步分析,設(shè)置離職情況為后項,年齡層為前項,結(jié)果中置信度均超過73%以上,對于結(jié)果能夠較好地解釋,可得出結(jié)論,中年人和青年人更加容易離職,中年人是最容易離職的群體。
四、結(jié)論:
通過以上分析,可以發(fā)現(xiàn)各年齡層中,中年和青年員工較容易離職,其中,研發(fā)與銷售部門更容易人員流失,工資收入、是否加班、升職間隔時間、工作時間、工作環(huán)境、職業(yè)級別等因素會較大幅度影響員工的工作滿意度和工作參與度,進而導致離職,因此綜合分析結(jié)果,對企業(yè)提出如下建議:
(一)重視工作滿意度
工作滿意度是員工在工作中,對工作本身及工作環(huán)境、工作狀態(tài)、工作方式等有積極感受的心理狀態(tài)。企業(yè)應當針對不同類型的員工提供不同的方案,重視員工的需求,包括薪資、學習晉升等方面。
(二)建立合理的激勵機制
當員工工作績效較好時,企業(yè)應適當給予激勵,才能激發(fā)員工積極性,否則會降低員工的工作熱情,增加離職的可能性。物質(zhì)激勵只能滿足物質(zhì)需求,而精神激勵可以體現(xiàn)企業(yè)對員工的關(guān)愛與尊重,目前,很多企業(yè)的激勵方式已經(jīng)開始采用“以人為本”的方式,諸如員工生日聚會、員工旅游獎勵等。
(三)關(guān)注高離職率人群
對于新入職或入職不超過3-5年的員工,特別是受教育程度較高的新員工,應當重點關(guān)注其滿意度是否正常、薪水是否合理、工作時長是否過長,以減少人員流失,同時對于研發(fā)部門和銷售部門等人員流失量大的部門,要重點關(guān)注。
參考文獻:
[1]許青.利用Clementine對高校機房管理系統(tǒng)進行數(shù)據(jù)挖掘[J].赤峰學院學報(自然科學版),2018,34(07):50-52.
[2]程代娣.Clementine數(shù)據(jù)挖掘工具在計算機等級考試成績中的應用[J].齊魯工業(yè)大學學報,2017,31(06):52-56.
[3]王芙蓉.基于數(shù)據(jù)挖掘的CET-4成績分析與研究[D].寧夏大學,2016.
[4]劉麗敏,張學鋒.數(shù)據(jù)挖掘中的聚類算法在郵政快遞CRM中的應用[J].網(wǎng)絡安全技術(shù)與應用,2014(08):8-9.
[5]郭宇紅,王路寧,毛玉琪.SPSS Clementine決策樹建模在圖書館中的應用[J].計算機時代,2014(04):30-33.
[6]季聰華,曹毅,張穎,劉姍,王偉.基于SPSS Clementine軟件的關(guān)聯(lián)規(guī)則算法的應用[J].中醫(yī)藥管理雜志,2014,22(01):31-33.
[7]張帆.基于Clementine的廣告客戶數(shù)據(jù)挖掘模型設(shè)計與實現(xiàn)[D].北京郵電大學,2010.
[8]劉利俊.利用Clementine進行試卷質(zhì)量分析[J].現(xiàn)代計算機(專業(yè)版),2008(05):115-117.
作者簡介:
徐勤亞(1998-),女,安徽省合肥市,本科,研究方向:信息管理與信息系統(tǒng)。
劉文睿(1999.10-),男,漢,安徽省合肥市,學生,學士;研究方向:人力資源管理。