呂金歷,孔寧,白望望,馮智慧
(1.國網(wǎng)甘肅省電力公司經(jīng)濟技術研究院,甘肅蘭州730050;2.蘭州理工大學電氣工程與信息工程學院,甘肅蘭州730050)
隨著特高壓電網(wǎng)與智能電網(wǎng)建設的快速推進,電力企業(yè)面臨著專業(yè)領域內高素質復合人才的緊缺。人才的緊缺已經(jīng)為企業(yè)人才管理敲響了警鐘,使其必須認真分析并應用更加科學的方法來優(yōu)化人才配置[1]。然而,要優(yōu)化人才配置,首要任務是要對人才進行有效甄選。
通常,企業(yè)對人才綜合能力評價是借助傳統(tǒng)的人才資源理論,從經(jīng)驗、績效等方面對人才進行人為的評價[2],存在著一定的主觀性和片面性。而人才綜合能力評價應具有全面性、靈活性、客觀性以及可靠性等特點。為適應現(xiàn)代人才的評價、甄選,K-means聚類算法、神經(jīng)網(wǎng)絡算法、層次分析法等機器學習算法被廣泛應用。針對傳統(tǒng)人才甄選方式的不足,文獻[3]將 K-means聚類引入技術創(chuàng)新人才挖掘,可較好地對高維數(shù)據(jù)進行分析,減少人為主觀性影響。文獻[4]提出一種基于密度方法選擇初始中心的K-means改進聚類算法,克服傳統(tǒng)K-means算法選點隨機性對結果的影響。文獻[5,6]針對人才綜合能力評價問題,提出基于層次分析法的人才綜合評價方法,為評價指標提供可實施的量化方法,使得人才評價過程客觀化、公開化、透明化。文獻[7]在考慮人才考評工作復雜性、人類思維模糊性和指標屬性模糊性后,提出基于模糊層次分析法的專業(yè)技術人才評價方法。文獻[8]針對人才甄選的客觀性、靈活性等特點,提出基于模糊神經(jīng)網(wǎng)絡的人才甄選系統(tǒng),從而提高甄選結果的有效性。文獻[9]針對人才評測甄選中的決策問題,建立基于多層次灰色決策的評測甄選模型,將定性分析和定量分析相結合,提高了測評結果的直觀性、科學性和客觀性。
針對目前人才聚類過程中無法靈活、高效處理非線性高維數(shù)據(jù)的問題,本文研究一種基于FCM算法的人才甄選方法。該方法是一種基于目標函數(shù)的聚類算法,在客觀、有效的數(shù)據(jù)支撐下,可較好處理高維非線性數(shù)據(jù)。同時,F(xiàn)CM算法將模糊理論引入傳統(tǒng)聚類方法,使人才甄選結果在保持全面性和客觀性的基礎上,又具有一定靈活性。
FCM算法的運行需要可靠的數(shù)據(jù)支撐,構建一個客觀、完善的評價指標體系,有助于提高實驗樣本數(shù)據(jù)的有效性,從而提高人才甄選結果可靠性?,F(xiàn)構建人才綜合能力評價指標體系[10,11],如圖1所示。
圖1 人才綜合能力評價指標體系
為對人才綜合能力有一個可靠、全面的評估,確保甄選結果的公正性和權威性,發(fā)揮人才評估及甄選應具有的監(jiān)督、調控、導向等功能,該指標體系的構建遵循以下原則:一是可操作性和可比性原則,二是科學性和先進性原則,三是系統(tǒng)性和全面性原則[12]。
該指標體系以人才的基本素質、工作業(yè)績、科研成果、科研項目為一級指標。根據(jù)電力企業(yè)內高端人才綜合能力評價指標的重要程度,給定各一級指標所占比重如表1。
表1 一級指標比重
每個一級指標由若干二級指標組成,共14個二級指標,每個二級指標所占權重可以由該領域的相關專家提供參考意見來確定。二級指標下可設立多個不同權重的考察項為三級指標,如二級指標職稱下設置三級指標為正高級、副高級、中級、初級等。給定一級指標為θi,二級指標為θij,三級指標為θijk,通過對每個樣本的三級指標θijk進行評測來得出二級指標θij的得分,各二級指標θij得分累加得出一級指標θi的最終得分。
選取電力企業(yè)100名典型人員為研究對象,以各項指標數(shù)據(jù)為基礎,對其科研綜合能力進行評價、甄選。實驗樣本中的各項定性指標由電氣領域相關專家評定,其賦值可根據(jù)企業(yè)自身的要求改變。部分典型樣本數(shù)據(jù)如表2所示。
表2 部分樣本數(shù)據(jù)
設論域 X={x1,x2,…,xn}為被甄選的對象,每個元素xi由m個數(shù)據(jù)表示,對第i個元素有:
這種青霉與匍枝根霉的模型易于制作和演示,可以引起學生的學習興趣,更重要的是可以將肉眼難以辨別的微觀結構放大,突出展示教學要求學生掌握的結構特征,有助于學生掌握兩種真菌的結構特點以及兩者的區(qū)別。這種模型還可以由學生自己制作完成,既能加深學生對真菌結構特點的理解,又能培養(yǎng)學生的觀察能力和動手能力,在實際教學中獲得了較好的效果。
得到原始數(shù)據(jù)矩陣為:
在實際操作中,不同維度數(shù)據(jù)有著不同量綱,為了對不同量綱間的數(shù)據(jù)進行比較,應對各個評價指標數(shù)據(jù)做出適當?shù)淖儞Q,消除量綱影響。即對其做標準化處理,本文采用極差變換:
其中,xik樣本指標數(shù)據(jù);i=1,2,…,n;k=1,2,…,m。部分極差變換后的樣本數(shù)據(jù)如表3所示:
表3 部分極差變換后的樣本數(shù)據(jù)
聚類,就是將數(shù)據(jù)集按照某個特定標準分割成不同的類或簇,使得同一個簇內數(shù)據(jù)對象的相似性盡可能大,不在同一個簇內數(shù)據(jù)對象的差異性也盡可能地大。傳統(tǒng)的聚類算法K-means是一種硬性聚類方法,有著“非此即彼”的性質,其結果只有1和0兩種。由于其硬性劃分特性,導致聚類靈活性欠佳。
FCM類型的算法最早是從“硬”聚類目標函數(shù)的優(yōu)化中導出[13],在 1981 年由 Bezdek 首次實現(xiàn)[14]。該算法將硬性聚類算法推廣到模糊情形,不會強制把幾個類邊界上的對象完全分配到其中一個類。而是為其分配大小介于0與1之間的隸屬度,以指示它們的部分隸屬度關系。與K-means相比具有一定的靈活性,更適合于人才甄選問題。
FCM算法把聚類問題轉化為非線性的數(shù)學規(guī)劃問題,目標函數(shù)J及約束條件如下:
其中,J由樣本到聚類中心的距離與該樣本的隸屬度相乘組成;c為聚類個數(shù);n為樣本數(shù);m為模糊加權指數(shù);uij為隸屬度;xj為樣本點;ci為聚類中心。
隸屬度及聚類中心的更新如下:
隸屬度矩陣U為:
FCM算法運行時,需要建立模糊相似矩陣,也稱之為標定。本文FCM算法采用歐氏距離來建立模糊相似矩陣。
FCM算法實現(xiàn)的具體流程如圖2所示。
圖2 FCM算法流程圖
聚類性能度量也稱為聚類的有效性指標,用來評估聚類結果的好壞[15]。使用FCM將樣本數(shù)據(jù)進行分析后,人才被分配到c個簇中,簇的有效性決定了人才甄選結果的可靠性。而簇有效性的度量一般基于簇內和簇間兩方面,理想的聚類效果應具有最小的簇內距離和最大的簇間距離[16]。輪廓系數(shù)(Silhouette Coefficient)結合了凝聚度和分離度,用于評估聚類的效果,以此來確定最佳聚類簇數(shù)。簇中每個樣本點的輪廓系數(shù)值計算方式如下:
其中,a(i)為樣本i到它所屬簇中所有其它點的平均距離,體現(xiàn)簇內凝聚度;b(i)為樣本i到與它相鄰最近的一簇內所有點的平均距離,體現(xiàn)簇間分離度。
輪廓系數(shù) S(i)∈[-1,1],其值越接近 1,表明樣本i越適合該類,反之,越接近-1,表明樣本i越不適合該類,更應該被分配到其他簇。當S(i)接近于0時,樣本i位于兩個簇的邊界。
為實現(xiàn)不同能力層次的人才甄選,對其能力有一個清晰界定。本文將聚類簇數(shù)c設置為4、5、6進行試驗,得出輪廓系數(shù)如下圖3、圖4、圖5所示,橫坐標為輪廓系數(shù),縱坐標為聚類數(shù)。
圖3 聚類數(shù)為4時輪廓系數(shù)圖
圖4 聚類數(shù)為5時輪廓系數(shù)圖
圖5 聚類數(shù)為6時輪廓系數(shù)圖
圖3表示聚類數(shù)為4時輪廓系數(shù)值的分布情況,圖中每一條矩形代表一個樣本的輪廓系數(shù)值。100組樣本數(shù)據(jù)在FCM算法下分為四類,輪廓系數(shù)值大于0的樣本有96組且大部分值大于0.4,表明人才甄選結果有效性較高。小于0的樣本有4組,少數(shù)樣本值接近于0,表明誤差較小。聚類簇數(shù)為4時,整體甄選效果較好。
圖4表示聚類數(shù)為5時輪廓系數(shù)值的分布情況。類別1和類別5效果較好,類別2、類別3、類別4有個別樣本輪廓系數(shù)值小于0,存在分配誤差。類別3共21組樣本,7組樣本分配存在誤差,甄選效果較差。因此,簇數(shù)為5時,總體甄選效果一般。
圖5表示聚類數(shù)為6時輪廓系數(shù)值的分布情況,從圖中可以觀察到所有簇中都出現(xiàn)了樣本分配誤差。其中類別4的簇內共18組樣本,出現(xiàn)誤差的樣本有7組,誤差最大,整體甄選效果較差。
通過對以上輪廓系數(shù)圖的分析,確定最佳聚類簇數(shù)為4。
設定簇數(shù) c 為 4,迭代停止閾值 eps=1×10-5,給定模糊加權指數(shù)m=2。將電力企業(yè)內人才各項指標數(shù)據(jù)X輸入,經(jīng)FCM算法聚類后,其目標函數(shù)變化如下圖6所示:
圖6 目標函數(shù)J變化圖
FCM算法是使目標函數(shù)最小化的迭代過程,其優(yōu)化過程如圖6所示。樣本數(shù)據(jù)經(jīng)過FCM聚類,在第5次迭代后陷入局部極小值。第6~22次的迭代過程中,尋求跳出局部極小值點,直到第23次迭代時跳出。此時,目標函數(shù)J滿足迭代停止閾值,達到最優(yōu),人才按不同能力層次被分為4類。人才甄選結果散點圖如圖7所示:
圖7 人才甄選結果散點圖
在圖7中,可直觀看出各個數(shù)據(jù)樣本經(jīng)FCM算法聚類后的分布情況,每種圖形代表著一個簇中的所有樣本。如圖中所標注樣本點,其代表第80個樣本點,屬于第4個簇,在二維空間中的分布為(9.72,35.4)。
由于本文采用FCM算法是基于歐氏距離的,所以其分類依據(jù)為樣本到聚類中心的距離大小。部分人才甄選結果如下表4所示:
表4 部分人才甄選結果
樣本點距離聚類中心的距離越小,表明樣本點越應歸為該類。如樣本R1距離聚類中心3距離最近,歸為類別3,樣本R3距離聚類中心1距離最近,歸為類別1。全部樣本的甄選結果由表5給出。
表5 甄選結果
在FCM算法下,對電力企業(yè)高端人才的各項指標數(shù)據(jù)進行客觀分析,使其綜合能力得到有效界定。最終,人才被分為4類,分別定義為A型人才、B型人才、C型人才和D型人才,實現(xiàn)人才甄選目的。
通過FCM算法,對樣本不同維度的數(shù)據(jù)按其內部聯(lián)系進行分析,聚類結果反映出電力企業(yè)人才的不同能力層次,達到人才甄選的目的。其中,對數(shù)據(jù)做極差變換,可消除量綱對實驗結果的影響。利用輪廓系數(shù)法確定最佳聚類簇數(shù),可提高聚類結果的有效性。將FCM算法引入高端人才甄選,可減少人為分類的主觀性因素影響,解決人工統(tǒng)計分析的局限性問題。同時,可處理大量高維非線性樣本數(shù)據(jù),改善傳統(tǒng)K-means算法的硬性劃分特性,使人才甄選更加靈活、客觀。