• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于區(qū)間變量RF算法的青海省電力公司員工離職預(yù)測

      2022-10-20 12:42:22劉人境
      運(yùn)籌與管理 2022年9期
      關(guān)鍵詞:電力公司分類變量

      鄭 健, 劉人境

      (西安交通大學(xué) 管理學(xué)院,陜西 西安 710049)

      0 引言

      中國的電力行業(yè)是國民經(jīng)濟(jì)支柱產(chǎn)業(yè),電力行業(yè)工作穩(wěn)定、薪資福利待遇好,從而吸引了大量的人才涌入電力行業(yè)。然而,隨著電力行業(yè)不斷深化改革,電力企業(yè)人才流失的問題也日益嚴(yán)重。特別是在中國西部偏遠(yuǎn)地區(qū),由于其環(huán)境惡劣、待遇較低,電力企業(yè)員工離職情況較為嚴(yán)重,不利于電力企業(yè)的可持續(xù)發(fā)展。因此,精準(zhǔn)地預(yù)測離職人員成為電力企業(yè)亟需解決的一大難題[1]。而中國西部地區(qū)的特殊性(如薪資待遇較低、海拔較高、氣候較差等)[2],很大程度上決定了其電力企業(yè)員工離職的影響屬性偏好不同于其它地區(qū),為響應(yīng)“一帶一路”發(fā)展戰(zhàn)略,促進(jìn)西部大發(fā)展,對(duì)中國西部偏遠(yuǎn)地區(qū)電力企業(yè)員工離職進(jìn)行預(yù)測迫在眉睫。

      離職分為被動(dòng)離職和主動(dòng)離職兩種,其中被動(dòng)離職是指員工非自愿的、被所在組織強(qiáng)制的離職,主動(dòng)離職是指員工根據(jù)自己的立場或意愿而自愿做出的離職,一般稱為辭職。員工的被動(dòng)離職較易管控,因而本文聚焦于員工的主動(dòng)離職。青海省電力公司員工離職預(yù)測是一個(gè)二分類問題[3],分別為離職和不離職。同時(shí),青海省電力公司離職員工占總員工數(shù)量的比例較低,數(shù)據(jù)集的分布極不平衡,其員工離職預(yù)測需要處理不平衡數(shù)據(jù)這一問題。

      國內(nèi)外員工離職預(yù)測研究的方法主要有傳統(tǒng)統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法。傳統(tǒng)統(tǒng)計(jì)方法主要包括回歸分析、因子分析、判別分析函數(shù)、描述性統(tǒng)計(jì)分析等。Miller等使用多項(xiàng)logit模型預(yù)測1576名佛羅里達(dá)從事特殊教育行業(yè)的教師的離職率[4]。Yildiz等以序貫回歸模型得到護(hù)士離職的顯著預(yù)測因子,并對(duì)護(hù)士離職情況進(jìn)行預(yù)測[5]。Stokes等運(yùn)用因子分析得到7個(gè)員工離職影響因子以及建立判別函數(shù)確定員工離職的最佳預(yù)測因子[6]。Liss等采用重采樣的方法調(diào)查10246名長期受雇的國家衛(wèi)生機(jī)構(gòu)中央辦公室雇員,并運(yùn)用Logistic回歸模型預(yù)測其離職概率[7]。Masum等采用描述性統(tǒng)計(jì)方法分析土耳其大型民營醫(yī)院417名護(hù)士離職的影響因素,并運(yùn)用logistic回歸方法預(yù)測護(hù)士離職率[8]。周戀等運(yùn)用協(xié)方差和回歸分析的方法,預(yù)測工會(huì)組織中員工離職傾向[9]?;趥鹘y(tǒng)統(tǒng)計(jì)方法的員工離職預(yù)測模型通常要對(duì)樣本數(shù)據(jù)集進(jìn)行較為嚴(yán)格的假設(shè),例如正態(tài)分布和線性關(guān)系等,這在一定程度上影響了模型的適用性和應(yīng)用效果,導(dǎo)致預(yù)測精度不佳。

      機(jī)器學(xué)習(xí)方法主要指借助計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法,以決策樹(Decision Tree,DT)、遺傳算法(Gene Algorithms,GA)、支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)最為著名。Quinn等利用ANN方法對(duì)社會(huì)工作者和主管人員進(jìn)行離職預(yù)測[10];Tzeng等采用SVM算法預(yù)測護(hù)士離職意愿,從而建立人力資源管理預(yù)警機(jī)制的新途徑[11];Zhao和Liu引入潛在SVM建立了離職率預(yù)測模型,采用混沌算法和遺傳算法對(duì)SVM模型的參數(shù)進(jìn)行優(yōu)化,實(shí)驗(yàn)結(jié)果表明所建模型具有較強(qiáng)的泛化能力和特征選擇能力[12]。Asensio-Cuesta等運(yùn)用一種人機(jī)工程學(xué)和能力標(biāo)準(zhǔn)結(jié)合的GA算法預(yù)測員工離職情況[13]。Yunmeng和Chengyi考慮對(duì)員工不同特征的分類,利用K-means對(duì)員工進(jìn)行分類,然后利用DT算法對(duì)離職率進(jìn)行預(yù)測,通過區(qū)分不同類型的員工來提高預(yù)測的準(zhǔn)確性[14]。李強(qiáng)和翟亮通過Stacking集成學(xué)習(xí)算法組合Adaboost和RF算法構(gòu)建預(yù)測模型,實(shí)現(xiàn)對(duì)某企業(yè)的員工離職預(yù)測[15]。隨著機(jī)器學(xué)習(xí)算法的快速發(fā)展,RF算法逐漸運(yùn)用到員工離職預(yù)測中。RF的提出者Breiman指出RF明顯優(yōu)于單個(gè)分類決策樹模[16]。Punnoose和Ajit對(duì)員工流失率展開預(yù)測研究,比較了7種不同的機(jī)器學(xué)習(xí)算法的預(yù)測能力,發(fā)現(xiàn)RF算法無須對(duì)數(shù)據(jù)樣本標(biāo)準(zhǔn)化預(yù)處理,且比SVM、單一DT以及Logistic回歸有更高的準(zhǔn)確率[17]。Sikaroudi等使用10種不同的數(shù)據(jù)挖掘算法進(jìn)行了模擬來預(yù)測員工離職率,結(jié)果表明RF性能明顯優(yōu)于ANN、SVM等方法[18]。機(jī)器學(xué)習(xí)方法提升了員工離職預(yù)測的效率和精度。然而,上述研究在員工離職預(yù)測方面仍存在一定的局限性:(1)對(duì)不平衡數(shù)據(jù)考慮不足。員工離職與未離職數(shù)據(jù)常常表現(xiàn)為不平衡數(shù)據(jù),即多數(shù)類和少數(shù)類存在比例失衡,上述機(jī)器學(xué)習(xí)方法容易忽略少數(shù)類的特征,導(dǎo)致分類結(jié)果存在較大偏差。(2)預(yù)測精度還不是很理想。如DT算法無法賦予每個(gè)樣本不同的歸屬度,ANN相關(guān)算法的分類過程是一個(gè)“黑箱”過程,GA算法無法體現(xiàn)樣本對(duì)于分類結(jié)果的歸屬度等等,都會(huì)影響到算法的預(yù)測效果。(3)缺乏特征排序。企業(yè)需要根據(jù)特征的重要性排序來識(shí)別其關(guān)鍵特征,從而為防止員工流失制定相關(guān)策略。

      從上述研究也能發(fā)現(xiàn)隨機(jī)森林算法在員工離職預(yù)測中性能具有優(yōu)越性,但當(dāng)處理不平衡數(shù)據(jù)集時(shí),它的優(yōu)越性就會(huì)降低。近年來,以Breiman[16]、應(yīng)維云[19]等為代表的國內(nèi)外學(xué)者針對(duì)不平衡數(shù)據(jù)問題,對(duì)隨機(jī)森林算法進(jìn)行了改進(jìn)研究,主要體現(xiàn)在加權(quán)隨機(jī)森林和平衡隨機(jī)森林算法兩個(gè)方面。加權(quán)隨機(jī)森林通過引入代價(jià)敏感學(xué)習(xí),使得隨機(jī)森林中的決策樹在學(xué)習(xí)過程中產(chǎn)生分類器的效率更高;平衡隨機(jī)森林算法主要是采用隨機(jī)抽樣、重采樣等技術(shù)對(duì)不平衡數(shù)據(jù)集進(jìn)行處理,從而使隨機(jī)森林算法具有更強(qiáng)的抗噪性,達(dá)到更好的運(yùn)算效率和預(yù)測效果。上述兩種改進(jìn)的隨機(jī)森林算法在處理不平衡數(shù)據(jù)集體現(xiàn)出更好的性能,但仍存在一定的局限。具體表現(xiàn)為:加權(quán)隨機(jī)森林為少數(shù)類的誤分類設(shè)置了更大的懲罰因子,并且需要遍歷整個(gè)訓(xùn)練集,導(dǎo)致其在解決大規(guī)模不平衡數(shù)據(jù)時(shí)效率低下;另外,該算法為少數(shù)樣本設(shè)置權(quán)重,降低了其抗噪性。平衡隨機(jī)森林算法需要使用采樣技術(shù)使訓(xùn)練的新焦點(diǎn)集中在大多數(shù)具有少數(shù)樣本大小的類,在從少數(shù)類中選擇一定數(shù)量的樣本后,還要從大多數(shù)類中提取相當(dāng)數(shù)量的樣本,這將使大多數(shù)類中的許多樣本無法再使用,從而造成了大部分類信息的丟失。

      基于上述分析,本文引入?yún)^(qū)間變量(Interval Variables,IV),提出一種基于區(qū)間變量RF算法,該算法結(jié)合了代價(jià)敏感學(xué)習(xí)和抽樣技術(shù),能夠有效地解決不平衡數(shù)據(jù)集問題。本研究將該算法應(yīng)用于我國青海省電力公司的2009~2017年的人力資源數(shù)據(jù)集,驗(yàn)證了該算法的有效性以及對(duì)不平衡數(shù)據(jù)集的預(yù)測性能。大量實(shí)驗(yàn)表明,本文提出的區(qū)間變量RF算法在預(yù)測電力企業(yè)員工離職問題上具有更好的性能。本研究的主要貢獻(xiàn)有:(1)提出了基于區(qū)間變量RF的員工離職預(yù)測算法,并以我國青海省電力公司的員工數(shù)據(jù)集進(jìn)行了驗(yàn)證,結(jié)果表明該算法預(yù)測不平衡數(shù)據(jù)是有效的。(2)與DT、SVM和RF算法相比,該算法在預(yù)測員工離職方面的各項(xiàng)指標(biāo)都有顯著的提升。(3)指出了青海省電力公司員工流失的主要因素,為人力資源部門減少員工離職提供了指導(dǎo),并對(duì)其他行業(yè)的員工管理也有一定的參考價(jià)值。

      1 研究方法

      1.1 隨機(jī)森林算法

      在隨機(jī)森林算法中,每一棵決策樹都是一個(gè)分類器,就分類問題而言,將一個(gè)數(shù)據(jù)樣本輸入到隨機(jī)森林算法中,N棵樹則會(huì)產(chǎn)生N個(gè)分類的結(jié)果;隨機(jī)森林集成多個(gè)弱分類器的分類結(jié)果,再通過投票或者取均值的方式形成最終分類結(jié)果,使整個(gè)隨機(jī)森林模型的分類結(jié)果具有更高的泛化能力和精確度。隨機(jī)森林能夠取得不錯(cuò)的分類效果,主要?dú)w功于“隨機(jī)”和“森林”,前者使它具有抗過擬合能力,后者使它更加精準(zhǔn)。

      隨機(jī)森林算法通常采用基尼指數(shù)(Gini index)作為評(píng)價(jià)指標(biāo)來衡量。在隨機(jī)森林算法中,用VIM表示變量重要性評(píng)分(Variable Importance Measures),用GI來表示Gini指數(shù),假設(shè)有m個(gè)特征:X1,X2,X3,…,Xm,通過計(jì)算出每個(gè)特征Xj的Gini指數(shù)評(píng)分VIMj(Gini),即可得到各個(gè)特征變量的重要性。具體步驟如下:

      (1)樣本中各個(gè)特征變量的Gini指數(shù)為

      (1)

      其中,K表示有K個(gè)類別,pmk表示節(jié)點(diǎn)m中類別k所占的比例。

      (2)節(jié)點(diǎn)t分枝前后的Gini指數(shù)變化量表示特征指標(biāo)Xj在節(jié)點(diǎn)t的重要性,則重要性為

      (2)

      其中,GIl和GIr分別表示分枝后兩個(gè)新節(jié)點(diǎn)的Gini指數(shù)。

      (3)若特征變量Xj在決策樹i中出現(xiàn)的節(jié)點(diǎn)在集合T中,則Xj在第i顆樹的重要性為

      (3)

      (4)假設(shè)RF中共有n顆決策樹,則各個(gè)特征變量的重要性為

      (4)

      1.2 改進(jìn)的隨機(jī)森林算法

      本文在隨機(jī)森林算法的基礎(chǔ)上,充分整合加權(quán)隨機(jī)森林和平衡隨機(jī)森林的優(yōu)勢,集成代敏感學(xué)習(xí)技術(shù)和抽樣技術(shù),能夠有效處理不平衡數(shù)據(jù)集。本文構(gòu)建的IVRF算法:通過引入?yún)^(qū)間變量,保證在隨機(jī)森林算法的每一次迭代中的不同類能夠隨機(jī)分布,從而使得算法具有更高的抗噪性,在不平衡數(shù)據(jù)預(yù)測方面具有更高的預(yù)測效率和精度;賦予“多數(shù)類”和“少數(shù)類”樣本相應(yīng)的權(quán)重,改變類的分布,并對(duì)錯(cuò)分的小類樣本設(shè)置更重的懲罰因子;構(gòu)造非剪枝分類樹的一般方法是計(jì)算所有特征的信息熵,將信息量最大的特征作為分類節(jié)點(diǎn)。然而,本文構(gòu)造的IVRF并不是搜索所有特征來生成樹的某一層,而是先隨機(jī)選擇特征,然后根據(jù)這些特征生成樹的特定層,以減少分類誤差?;趨^(qū)間變量的隨機(jī)森林算法實(shí)施步驟如下:

      Step1輸入訓(xùn)練樣本集D=(X1,Y1),(X2,Y2),…,(Xn,Yn),其中Xi是一個(gè)指示向量,Yi是相應(yīng)的分類目標(biāo),i=1,…,n。

      Step2將數(shù)據(jù)集分為第I類和第II類兩個(gè)子集,第I類包含所有不離職的員工樣本(即正類),第II類包含所有離職的員工樣本(即負(fù)類)。

      Step3引入?yún)^(qū)間變量e和f,在區(qū)間e-f/2和e+f/2之間產(chǎn)生隨機(jī)分布變量α,其中e是區(qū)間的中點(diǎn),f是區(qū)間的長度。

      Step4從第II類訓(xùn)練集D2中可重復(fù)性地隨機(jī)抽取nα樣本,從第I類訓(xùn)練集D1中可重復(fù)性地隨機(jī)抽取n(1-α)樣本。

      Step5對(duì)第II類賦以w1權(quán)重,對(duì)第I類賦以w2權(quán)重,其中w1=1-α,w2=α。

      Step6構(gòu)造非剪枝分類樹,隨機(jī)選取mtry個(gè)特征,并依據(jù)這些特征生成樹的某一層。其中,mtry表示在每個(gè)節(jié)點(diǎn)用于生成樹的某一層的特征數(shù)。

      Step7輸出:輸出最終排序T。賦值第I類樣本為1,第II類樣本為-1。將所有樣本按照負(fù)分排序,越多樹將樣本歸為第II類,樣本的負(fù)分越高。樣本的負(fù)分可被視為將樣本分類為II類的所有樹的數(shù)量以及輸出的最終排名,更有可能離職的員工在樣本輸出結(jié)果中排名越高。

      1.3 算法評(píng)價(jià)指標(biāo)

      分類算法通常采用分類的準(zhǔn)確率作為衡量算法性能的主要指標(biāo),然而針對(duì)不平衡數(shù)據(jù)集而言,準(zhǔn)確率不能很好地反映出少數(shù)類的分類效果和精度。因此,本研究詞語混淆矩陣及AUC值衡量分類算法性能,混淆矩陣如表1所示。

      表1 混淆矩陣

      通過混淆矩陣的分析和計(jì)算,可以得到以下指標(biāo):

      (1)精確率

      Precision=TP/(TP+FP)

      (5)

      (2)靈敏度

      Recall=TP/(TP+FN)

      (6)

      (3)F1-Score

      F1=2R/(R+P)

      (7)

      此外,AUC(Area Under ROC)表示ROC曲線下的面積,AUC值越大表示該分類算法區(qū)分正例和負(fù)例的能力越強(qiáng)?;诖?,本研究采用Precision、Recall、F1、AUC作為不平衡數(shù)據(jù)集分類算法評(píng)價(jià)的主要指標(biāo)。

      2 數(shù)據(jù)來源及預(yù)處理

      2.1 數(shù)據(jù)來源

      本文采用青海省電力公司2009~2017年的人力資源數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集有2666條記錄,每條記錄有20個(gè)字段,包括數(shù)值型和文本型。該數(shù)據(jù)集中約有9%的樣本屬于離職人員,定義為第II類樣本,其余樣本定義為第I類樣本。其中第I類和第II類的樣本數(shù)量比例約為11:1,屬于不平衡數(shù)據(jù)集。

      2.2 數(shù)據(jù)預(yù)處理

      (1)屬性選擇

      本文采用的樣本中每一條數(shù)據(jù)有20個(gè)字段,在該公司相關(guān)專家的指導(dǎo)下,刪除姓名、工號(hào)、身份證號(hào)等明顯與分類預(yù)測不相關(guān)的字段。參考應(yīng)維云的做法[19],進(jìn)一步刪除大于30%的缺失值的字段。通過這兩次刪除,我們共保留了2494條記錄,每一條記錄均由13個(gè)字段構(gòu)成,其中前12個(gè)字段是青海省電力公司離職人員的影響因素,作為員工離職特征變量。最后一個(gè)字段表示已知的員工是否離職情況,分為“否”和“是”兩個(gè)情況,作為分類標(biāo)簽。最后,對(duì)每個(gè)字段進(jìn)行編號(hào),編號(hào)x1~x12分別對(duì)應(yīng)字段名稱為“所屬單位類型”,“性別”,“婚姻狀況”,“所在區(qū)域類型”,“生源地”,“政治面貌”,“畢業(yè)學(xué)校類別”,“最高學(xué)歷”,“最高職稱”,“所學(xué)專業(yè)”,“初次配置崗位類別”,“離職前工作地區(qū)”;編號(hào)y對(duì)應(yīng)字段名稱為“離職情況”。

      (2)屬性值處理

      該數(shù)據(jù)集中的13個(gè)特征變量均為離散型變量,在進(jìn)行實(shí)驗(yàn)前,還需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,針對(duì)離散型變量使用數(shù)值{1,2,3,…}表示。如單位類型:供電企業(yè)=1,科研單位=2,其他業(yè)務(wù)單位=3,施工單位=4;性別:男=1,女=2;其余特征變量也依此方法設(shè)置。其中,數(shù)字大小僅代表類別的不同,不代表大小。

      (3)歸一化處理

      在機(jī)器學(xué)習(xí)算法中,為保證最終預(yù)測結(jié)果不受屬性值之間差異的影響,需要對(duì)各個(gè)特征變量的屬性值進(jìn)行歸一化處理。具體如式(8)所示,進(jìn)行歸一化處理后的數(shù)據(jù)將統(tǒng)一映射到[0,1]上。其中vs是歸一化處理后的數(shù)值,V是屬性的原始值,Vmax、Vmin分別為該屬性的最大、最小值。

      (8)

      3 實(shí)證分析

      3.1 模型參數(shù)設(shè)置

      模型參數(shù)對(duì)模型性能往往會(huì)產(chǎn)生一定的影響,本研究運(yùn)用的DT、SVM、RF和IVRF四種模型,各模型的重要參數(shù)及超參數(shù)如表2所示。其中,在DT模型中,criterion表示特征選取方法,max_depth表示樹的最大深度,min_samples_split表示節(jié)點(diǎn)再劃分所需最少樣本數(shù),min_samples_leaf表示葉子節(jié)點(diǎn)所需最少樣本數(shù),考慮到本研究數(shù)據(jù)為2494條,特征為13個(gè),樣本量和特征數(shù)量都不算大,因而DT模型四個(gè)重要參數(shù)分別設(shè)置為“gini”,“None”,“2”和“1”。在SVM模型中,kernel表示核函數(shù),cost表示懲罰系數(shù),gamma表示核函數(shù)系數(shù),本研究中kernel使用“radial”,cost和gamma兩個(gè)超參數(shù)需要通過實(shí)驗(yàn)進(jìn)一步確定。在RF和IVRF模型中,ntree表示在森林中樹的個(gè)數(shù),mtry表示每棵樹使用的特征樹,本研究中RF和IVRF模型中ntree和mtry兩個(gè)超參數(shù)也需要通過實(shí)驗(yàn)來確定最優(yōu)值。

      3.2 不同超參數(shù)下分類器敏感性分析

      通過在處理后的青海省電力公司人力資源數(shù)據(jù)集上實(shí)驗(yàn),來研究分類器超參數(shù)對(duì)分類器準(zhǔn)確率的影響。從而確定SVM模型中cost與gamma兩個(gè)超參數(shù)的最優(yōu)值,以及確定RF和IVRF模型中ntree和mtry兩個(gè)超參數(shù)的最優(yōu)值。如圖1(a)所示,隨著cost值的不斷增加,SVM的分類準(zhǔn)確率逐漸提高,但當(dāng)cost值為100左右時(shí)分類器準(zhǔn)確率趨于穩(wěn)定;圖1(b)所示,選取cost值為100,gamma值為500左右時(shí)分類器準(zhǔn)確率趨于穩(wěn)定。因此,SVM模型選擇超參數(shù)cost=100及gamma=500時(shí),分類器準(zhǔn)確率最高。同理,如圖2和如圖3所示,RF模型選擇超參數(shù)ntree=1500及mtry=4時(shí),分類器準(zhǔn)確率最高;IVRF模型選擇超參數(shù)ntree=1500及mtry=5時(shí),分類器準(zhǔn)確率最高。在模型性能比較以及離職人員預(yù)測研究的實(shí)驗(yàn)中,模型超參數(shù)均以此為依據(jù),如表2所示。

      表2 各模型參數(shù)及超參數(shù)設(shè)置

      (a)cost變化下

      (a)mtry變化下

      (a)mtry變化下

      3.3 模型性能比較

      本研究共進(jìn)行了30組隨機(jī)實(shí)驗(yàn),所有實(shí)驗(yàn)均在R語言軟件中完成,每組實(shí)驗(yàn)首先將訓(xùn)練集與測試集按7∶3的比例隨機(jī)選取,其次將訓(xùn)練集按照不離職和離職兩種情況劃分為第I類和第II類,然后將訓(xùn)練集導(dǎo)入到基于區(qū)間變量隨機(jī)森林算法中進(jìn)行分類器訓(xùn)練,再將測試集數(shù)據(jù)輸入到訓(xùn)練好的分類器中進(jìn)行測試,最后輸出分類結(jié)果。在每組實(shí)驗(yàn)中,傳統(tǒng)算法DT、SVM、RF與IVRF算法進(jìn)行對(duì)比,選取Recall、Precision、F1、AUC值作為算法評(píng)價(jià)指標(biāo),為保證結(jié)果的科學(xué)性,本研究以30組實(shí)驗(yàn)評(píng)價(jià)指標(biāo)的平均值作為評(píng)價(jià)依據(jù),結(jié)果如表3所示。

      表3 不同模型的評(píng)價(jià)指標(biāo)對(duì)比表

      3.4 離職人員預(yù)測

      依據(jù)2009~2017年這9年的青海省電力公司人力資源數(shù)據(jù)集,預(yù)測2018年員工離職情況,預(yù)測結(jié)果如表4示,預(yù)測準(zhǔn)確率曲線如圖4所示。

      圖4 預(yù)測準(zhǔn)確率曲線

      表4 2018年青海省電力公司離職人員預(yù)測

      可以看出,在預(yù)測中國青海省電力公司2018年不離職的739人中,實(shí)際不離職的人員為689人,預(yù)測準(zhǔn)確率為93.23%;在預(yù)測為離職的10人中,實(shí)際離職人員為8人,預(yù)測準(zhǔn)確率為80%。在預(yù)測的749人中,共有697人的離職情況預(yù)測是正確的,總體準(zhǔn)確率為91.99%。這也同圖2預(yù)測算法給出的預(yù)測準(zhǔn)確率吻合,當(dāng)樣本數(shù)量為749時(shí),算法預(yù)測準(zhǔn)確率為91.99%。

      3.5 離職人員特征重要性評(píng)估

      運(yùn)用IVRF算法中importance(x)函數(shù),其格式為importance(x,type=null,class=null,scale=TRUE,…),以此來提取特征變量的重要性度量結(jié)果。青海省電力公司離職員工受離職前工作地區(qū)、單位類型、區(qū)域類型、學(xué)校類別、最高職稱等共同影響。通過基于區(qū)間變量的隨機(jī)森林算法特征重要性分析,得到了影響員工離職的12個(gè)因素的重要性大小,如圖5所示。

      本研究選取Giniindex作為評(píng)價(jià)指標(biāo)來衡量作為度量,12個(gè)特征變量的重要性按照降序排序?yàn)椋弘x職前工作地區(qū)、單位類型、區(qū)域類型、學(xué)校類別、最高職稱、所學(xué)專業(yè)類別、初次配置崗位類別、婚姻狀況、最高學(xué)歷、政治面貌、性別、生源地。從圖5中可以看出“離職前工作地區(qū)”、“單位類型”和“區(qū)域類型”重要性程度較大,生源地這一特征對(duì)預(yù)測準(zhǔn)確率幾乎沒有影響。

      圖5 離職人員影響因素重要性

      4 結(jié)論

      傳統(tǒng)預(yù)測算法無法解決電力企業(yè)實(shí)際員工流失數(shù)據(jù)中正負(fù)樣本數(shù)量不平衡的問題。基于此,本文引入?yún)^(qū)間變量對(duì)隨機(jī)森林算法進(jìn)行了改進(jìn),提出了基于區(qū)間變量的隨機(jī)森林算法,構(gòu)造了與員工離職相關(guān)的12個(gè)特征為輸入變量,以員工是否離職為標(biāo)簽進(jìn)行分類,并在青海省電力公司2009~2017年人力資源數(shù)據(jù)集上進(jìn)行了驗(yàn)證。通過對(duì)青海省電力公司員工離職預(yù)測研究,得到以下結(jié)論與啟發(fā):

      (1)相比于傳統(tǒng)的DT、SVM、RF等算法,IVRF算法具有更高的預(yù)測精度和準(zhǔn)確度,其在處理不平衡數(shù)據(jù)問題上有更大的潛力。該算法的三個(gè)評(píng)價(jià)指標(biāo)均在0.85以上,說明該算法對(duì)青海省電力公司員工離職預(yù)測是有效的。同DT、SVM、RF三個(gè)算法相比,該算法的核心思想在于處理不平衡數(shù)據(jù)集問題,這同員工離職這一實(shí)際問題緊密聯(lián)系。

      (2)運(yùn)用IVRF算法對(duì)2018年青海省電力公司的離職員工進(jìn)行預(yù)測,并同實(shí)際離職員工進(jìn)行對(duì)比分析,進(jìn)一步佐證IVRF算法在處理不平衡數(shù)據(jù)集上的優(yōu)越性。因而,此算法能夠?qū)η嗪J‰娏締T工離職情況進(jìn)行分析預(yù)警,為電力企業(yè)人力資源相關(guān)工作提供決策支持,以促進(jìn)電力企業(yè)良好發(fā)展,提升人才隊(duì)伍,更好的助力于電力企業(yè)發(fā)展。

      (3)本文在實(shí)證研究中,收集了員工離職的12個(gè)影響因素(特征變量),通過重要性評(píng)價(jià)分析,得到12個(gè)影響因素的重要性程度,其中“離職前工作地區(qū)”、“單位類型”和“區(qū)域類型”重要性程度較大,對(duì)員工離職傾向具有重要的作用,青海省電力公司人力資源管理可據(jù)此提出有針對(duì)性的解決措施。

      本研究僅收集了青海省電力公司2009~2017共9年的人力資源數(shù)據(jù),受限于調(diào)研條件并未獲得西部其他偏遠(yuǎn)省份電力公司的人員離職情況,研究樣本數(shù)量較少、范圍較窄。今后研究改進(jìn)的方向:擴(kuò)大樣本選取范圍,從西部多個(gè)偏遠(yuǎn)省份(例如西藏、甘肅、新疆等)的電力公司獲取人力資源數(shù)據(jù)集,進(jìn)一步驗(yàn)證算法的適用性,并將該算法輻射應(yīng)用到西部其他偏遠(yuǎn)省份電力公司的員工離職預(yù)測中;此外,在數(shù)據(jù)集構(gòu)建方面,基于現(xiàn)有的因素,添加更多的特征,從而提高模型預(yù)測的魯棒性;在非平衡數(shù)據(jù)集上,除了在數(shù)據(jù)層面上優(yōu)化外,繼續(xù)研究算法本身的改進(jìn)。

      猜你喜歡
      電力公司分類變量
      國網(wǎng)甘肅省電力公司創(chuàng)新成果展示
      分類算一算
      抓住不變量解題
      也談分離變量
      巨怪電力公司面試中
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      大型電力公司面臨的財(cái)務(wù)風(fēng)險(xiǎn)
      教你一招:數(shù)的分類
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      洛隆县| 万源市| 罗定市| 太和县| 聂拉木县| 通辽市| 彭山县| 河东区| 新密市| 科尔| 和静县| 迁安市| 鄱阳县| 佛山市| 万山特区| 金昌市| 高清| 大同市| 梨树县| 扬中市| 资阳市| 阆中市| 五峰| 台中县| 张家川| 辛集市| 忻州市| 保定市| 阿鲁科尔沁旗| 辉县市| 分宜县| 法库县| 清苑县| 洛宁县| 朝阳县| 突泉县| 娱乐| 渝北区| 连江县| 贺兰县| 炎陵县|