郭建龍, 方院生, 黃欽偉, 商震雷, 周青云
(1. 廣東電網(wǎng)有限責(zé)任公司 培訓(xùn)與評(píng)價(jià)中心;2. 廣東電網(wǎng)有限責(zé)任公司 電力科學(xué)研究院, 廣東 廣州 510520;3. 廣東電網(wǎng)有限責(zé)任公司, 廣東 廣州 510520)
大數(shù)據(jù)技術(shù)能夠令人們更容易采集信息,還可通過(guò)數(shù)據(jù)應(yīng)用需求,利用數(shù)據(jù)分析技術(shù)為企業(yè)提供更多的服務(wù),而人才畫(huà)像技術(shù)為大數(shù)據(jù)技術(shù)的主要應(yīng)用之一,人才畫(huà)像技術(shù)的目標(biāo)為從多維度角度建立針對(duì)人才的代表性標(biāo)簽屬性[1-2]。通過(guò)建立標(biāo)簽屬性對(duì)人才多個(gè)角度的特征進(jìn)行描述。
人才畫(huà)像技術(shù)的發(fā)展是在用戶畫(huà)像技術(shù)的基礎(chǔ)上實(shí)現(xiàn)的,傳統(tǒng)用戶畫(huà)像技術(shù)采用的數(shù)據(jù)只源于業(yè)務(wù)系統(tǒng)、事件系統(tǒng)以及關(guān)系信息等,有很多種類的信息是缺失的,無(wú)法得到準(zhǔn)確全面的人才畫(huà)像[3-4]。在大數(shù)據(jù)環(huán)境下,可采集的數(shù)據(jù)維度更多,信息更加充分健全,而且隨著互聯(lián)網(wǎng)與物聯(lián)網(wǎng)的逐漸發(fā)展,能夠通過(guò)各種渠道采集信息,可建立全方位人才畫(huà)像。本文主要將大數(shù)據(jù)技術(shù)應(yīng)用于人才畫(huà)像技術(shù)中,根據(jù)聚類分析方法和網(wǎng)絡(luò)爬蟲(chóng)的清洗數(shù)據(jù)作用,構(gòu)建人才畫(huà)像技術(shù)應(yīng)用模型,對(duì)企業(yè)掌握現(xiàn)階段領(lǐng)域杰出人才情況具有重要意義。
基于大數(shù)據(jù)的人才畫(huà)像技術(shù)能夠幫助企業(yè)發(fā)現(xiàn)人才特質(zhì)和崗位需求間的匹配關(guān)系,為人才與企業(yè)提供更好的建議。將人才畫(huà)像數(shù)據(jù)作為基礎(chǔ),構(gòu)造動(dòng)態(tài)分層的分段調(diào)整體系,改進(jìn)人才培養(yǎng)目標(biāo),發(fā)揮真實(shí)數(shù)據(jù)的充分作用,提高人才招聘質(zhì)量與效果[5]。
人才畫(huà)像技術(shù)的主要依據(jù)為二層數(shù)據(jù)倉(cāng)儲(chǔ)設(shè)計(jì),第一層為原始數(shù)據(jù)采集與預(yù)處理,通過(guò)人才數(shù)據(jù)后臺(tái)、網(wǎng)絡(luò)訪問(wèn)的方式采集數(shù)據(jù)并完成匯總,對(duì)采集數(shù)據(jù)進(jìn)行清洗處理,將冗余數(shù)據(jù)刪除;第二層為分析結(jié)果,主要負(fù)責(zé)對(duì)數(shù)據(jù)集成后的標(biāo)簽進(jìn)行保存,構(gòu)建人才畫(huà)像。其中標(biāo)簽可設(shè)計(jì)成內(nèi)容與權(quán)重兩個(gè)部分,對(duì)人才提取的標(biāo)簽內(nèi)容并非一直不發(fā)生改變,其權(quán)重隨時(shí)間的改變而改變。利用標(biāo)簽?zāi)軌驅(qū)θ瞬盘岢鲇嗅槍?duì)性的選擇方案。
在大數(shù)據(jù)環(huán)境下,可挖掘的人才數(shù)據(jù)信息很多,應(yīng)利用數(shù)據(jù)分析技術(shù)對(duì)人才用戶特征標(biāo)識(shí)數(shù)據(jù)進(jìn)行采集,人才畫(huà)像主要數(shù)據(jù)信息標(biāo)識(shí)如圖1所示。
圖1 人才畫(huà)像數(shù)據(jù)信息圖
(1) 用戶層次。人才用戶層次主要有中高端人才、白領(lǐng)人才、藍(lán)領(lǐng)人才和應(yīng)屆畢業(yè)生[6-7]。中高端人才想要找到更加廣闊的的空間,對(duì)薪資有更高的要求;白領(lǐng)人才更加注重用戶體驗(yàn)與高效率;藍(lán)領(lǐng)人才對(duì)網(wǎng)絡(luò)的掌握程度較差,流通性相對(duì)較高,更加關(guān)注信息的及時(shí)性。應(yīng)屆畢業(yè)生對(duì)流通信息的掌握能力尚有很大的提高空間,對(duì)信息及時(shí)性要求更高[8]。
(2) 地域分布。依據(jù)網(wǎng)絡(luò)人才分布的區(qū)域,顯示各個(gè)年齡段人才用戶對(duì)全國(guó)不同地域的求職需求,并且便于為企業(yè)招聘提供準(zhǔn)確的信息。
(3) 人才學(xué)歷。人才學(xué)歷也就是學(xué)歷、專業(yè)、畢業(yè)院校等標(biāo)簽。
(4) 性別。也就是男女性別標(biāo)簽,利用發(fā)送電子簡(jiǎn)歷對(duì)男女人才對(duì)各個(gè)職業(yè)的偏好性進(jìn)行判斷。
(5) 行為特點(diǎn)。行為特點(diǎn)也就是在招聘網(wǎng)站中人才點(diǎn)擊應(yīng)聘職位的次數(shù)標(biāo)簽,可依據(jù)人才瀏覽行為與用戶活躍度獲取。
(6) 社交網(wǎng)絡(luò)。社交網(wǎng)絡(luò)也就是通過(guò)注冊(cè)登錄的社交網(wǎng)絡(luò)以及企業(yè)平臺(tái)標(biāo)簽。
(7) 專業(yè)技能。專業(yè)技能就是人才在所處領(lǐng)域中可體現(xiàn)自身能力的憑證,包括資格證書(shū)、專利等。
采集的數(shù)據(jù)中有很多冗余、重復(fù)和錯(cuò)誤數(shù)據(jù),為了提高數(shù)據(jù)的準(zhǔn)確性,防止對(duì)標(biāo)簽挖掘和決策產(chǎn)生不利影響,應(yīng)通過(guò)數(shù)據(jù)分析算法對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗處理,防止冗余標(biāo)簽干擾挖掘操作。
箱形圖如圖2所示。
圖2 箱形圖
主要用于對(duì)數(shù)據(jù)分布情況進(jìn)行統(tǒng)計(jì),用于對(duì)數(shù)據(jù)整體分布狀態(tài)進(jìn)行觀察[9-10]。通過(guò)中位數(shù)、上四分位數(shù)、下四分位數(shù)、上下邊界統(tǒng)計(jì)量表示數(shù)據(jù)的分布[11]。經(jīng)統(tǒng)計(jì),形成箱體圖,箱體涵蓋了絕大多數(shù)正常數(shù)據(jù),處于箱體上下邊界范圍外的即為異常數(shù)據(jù)。
人才畫(huà)像構(gòu)建即在有限時(shí)間范圍內(nèi)的人才求職行為與內(nèi)容構(gòu)建臨時(shí)人才畫(huà)像,同時(shí)令該人才畫(huà)像求職行為與內(nèi)容和描述性標(biāo)簽屬性匹配,在有效時(shí)間范圍內(nèi)人才求職行為與內(nèi)容標(biāo)簽屬性不匹配的情況下,需在臨時(shí)人才畫(huà)像中建立新的標(biāo)簽屬性[12]。
(1) 數(shù)據(jù)標(biāo)準(zhǔn)化。構(gòu)建人才畫(huà)像應(yīng)分析不同媒介中資源整合的能力,構(gòu)造統(tǒng)一標(biāo)準(zhǔn)實(shí)現(xiàn)對(duì)完整人才畫(huà)像的構(gòu)建。
(2) 人才信息整合。對(duì)人才資料進(jìn)行統(tǒng)計(jì)分析,提取主要因素,通過(guò)數(shù)據(jù)分析算法清洗處理采集到的原始數(shù)據(jù)。
通過(guò)職位內(nèi)容和主題的相似度對(duì)主題網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行設(shè)計(jì),通過(guò)詞語(yǔ)或短語(yǔ)特征詞表示主題,內(nèi)容也可被劃分成詞語(yǔ)與短語(yǔ),從而通過(guò)向量空間模型對(duì)主題與網(wǎng)頁(yè)進(jìn)行描述。為了形成描述主題的特征向量,把若干個(gè)與主題有關(guān)的網(wǎng)頁(yè)進(jìn)行關(guān)鍵詞提取,則可獲取該主題特征向量和向量權(quán)重[13-14]。通過(guò)向量空間模型,可把內(nèi)容描述成詞頻向量,如式(1)。
CTF=(TF1,TF2,…,TFn)
(1)
式中,TFi表示描述第i個(gè)內(nèi)容在網(wǎng)站中的詞頻。
本文通過(guò)余弦間隔對(duì)網(wǎng)站的相關(guān)度進(jìn)行衡量,在夾角是0°的情況下,相似度最高,為1,也就是內(nèi)容和主題最相關(guān)。反之,在夾角是90°的情況下,相似度最低,為0,也就是網(wǎng)頁(yè)內(nèi)容和主題不相關(guān)[15]。相似度計(jì)算如式(2)。
(2)
式中,t表示描述體現(xiàn)主題的詞語(yǔ)集合;s表示描述主題鏈接文本集合;ωsk表示描述集合中特征詞的關(guān)聯(lián)度;ωtk表示描述集合中特征詞針對(duì)某主題的關(guān)鍵性,具體計(jì)算如式(3)。
(3)
式中,TFtk表示描述主題出現(xiàn)的頻率;N表示描述文檔集中全部文檔數(shù)量;nk表示描述出現(xiàn)的文檔數(shù)量。
通過(guò)爬蟲(chóng)對(duì)招聘網(wǎng)站進(jìn)行清洗處理,對(duì)內(nèi)容進(jìn)行分析,通過(guò)式(1)、式(2)求出主題相似度,將得到的結(jié)果與既定閾值相比,若相似度超過(guò)閾值,則認(rèn)為內(nèi)容和主題有關(guān),需進(jìn)行內(nèi)容提取。
(3) 標(biāo)簽挖掘。利用部署環(huán)境平臺(tái)對(duì)標(biāo)簽進(jìn)行加工與處理,針對(duì)爬取數(shù)據(jù)完成結(jié)構(gòu)化操作,通過(guò)聚類分析方法進(jìn)行數(shù)據(jù)挖掘。
聚類分析方法屬于數(shù)據(jù)挖掘,聚類主要是為了在無(wú)先驗(yàn)知識(shí)的情況下,按照數(shù)據(jù)相似程度把數(shù)據(jù)聚類為不同種類,令同一類型的元素盡量類似,而不同種類元素盡量不同,也被稱作非監(jiān)督分類,聚類方法主要有統(tǒng)計(jì)學(xué)方法與機(jī)器學(xué)習(xí)方法,本節(jié)選用K-means算法,該算法是一種典型算法,其聚類目標(biāo)為在既定分組數(shù)k(k≤n)的情況下,利用聚類依據(jù)聚類成都將樣本點(diǎn)劃分為幾個(gè)簇,在相同簇中,數(shù)據(jù)相似度很高,但簇間相似度很低。也就是針對(duì)簇集合A={A1,A2,…,Ak},在數(shù)值模型中針對(duì)下式計(jì)算最小值,其中μi用于描述分類Ai的均值,如式(4)。
(4)
詳細(xì)流程如下。
① 針對(duì)采集的n個(gè)人才數(shù)據(jù)對(duì)象,將k個(gè)對(duì)象當(dāng)成初始聚類中心;
② 按照各聚類對(duì)象均值求出各對(duì)象和上述中心的不同程度,把上述元素依次劃分至差異度最低的簇;
③ 對(duì)所有改變了的聚類均值進(jìn)行重新計(jì)算;
④ 重復(fù)運(yùn)行步驟(2)與步驟(3),直至所有聚類均不出現(xiàn)改變;
⑤ 輸出結(jié)果。
將人才屬性組成記錄,得到有n條數(shù)據(jù)記錄的集合(x1,x2,…,xn),同時(shí)所有xi都是d維向量,也就是xi(xi1,xi2,…,xid),其中xi1—xid代表人才標(biāo)簽。
通過(guò)K-means算法對(duì)經(jīng)清洗后的數(shù)據(jù)進(jìn)行挖掘,把相同種類的數(shù)據(jù)集合在一起,對(duì)人才標(biāo)簽進(jìn)行挖掘。至此,人才畫(huà)像技術(shù)應(yīng)用可視化模型構(gòu)建完成。
(4) 標(biāo)簽驗(yàn)證。利用實(shí)際案例對(duì)挖掘標(biāo)簽結(jié)果的準(zhǔn)確性進(jìn)行驗(yàn)證,使得與標(biāo)簽相應(yīng)的處理結(jié)果達(dá)到預(yù)期結(jié)果。
(1) 結(jié)合業(yè)務(wù)。在建立人才畫(huà)像的過(guò)程中需考慮實(shí)際業(yè)務(wù)場(chǎng)景或所屬領(lǐng)域,防止過(guò)于抽象,在相同環(huán)境下標(biāo)簽的名稱在很大程度上有不同的意義,應(yīng)分別對(duì)待。
(2) 控制粒數(shù)。畫(huà)像粒度并非越細(xì)越好,分割標(biāo)簽也并非越多越好,分割的標(biāo)簽數(shù)量越多,涵蓋的人數(shù)越少,描述性能越差,越可能為偽特征。
(3) 動(dòng)態(tài)變化。不可盲目采用人才畫(huà)像,人才畫(huà)像絕大多數(shù)是靜態(tài)特征,人才特征也會(huì)隨時(shí)間與空間的改變而發(fā)生改變,也有一定的動(dòng)態(tài)人才畫(huà)像信息,例如人才在招聘網(wǎng)站上的訪問(wèn)路徑與時(shí)間等。
下面把基于大數(shù)據(jù)的人才畫(huà)像技術(shù)應(yīng)用于制造領(lǐng)域杰出人才特征分析中,為制造企業(yè)招聘杰出人才提供依據(jù)。我國(guó)的制造領(lǐng)域一般包括基礎(chǔ)的工業(yè)部門如機(jī)械、建材、輕紡等以及一些新興的工業(yè)部門如航空航天工業(yè)、汽車工業(yè)等,以我國(guó)2017—2018年政府?dāng)?shù)據(jù)網(wǎng)內(nèi)全部制造企業(yè)為數(shù)據(jù)樣本,因部分企業(yè)不具有代表性,所以排除3—5線城市制造業(yè);排除第一產(chǎn)業(yè)聯(lián)動(dòng)制造業(yè);排除無(wú)應(yīng)用價(jià)值的國(guó)內(nèi)外合資企業(yè);排除存在股權(quán)不穩(wěn)定等無(wú)法正常管理因素的制造業(yè),剩余企業(yè)369家,將其按照制造業(yè)生產(chǎn)方式分為智能機(jī)器人、數(shù)控機(jī)床與增材制造3種。
現(xiàn)對(duì)3種分類制造業(yè)樣本進(jìn)行人才數(shù)據(jù)畫(huà)像分布情況測(cè)試,以圖測(cè)試本文應(yīng)用研究實(shí)用性。將實(shí)驗(yàn)指標(biāo)設(shè)為杰出人才年齡、杰出人才所處機(jī)構(gòu)、杰出人才專利數(shù)量、杰出人才地理分布4種。
杰出人才年齡分布情況匹配情況如表1所示。
表1 智能制造杰出人才年齡分布
由表1可知,絕大多數(shù)制造領(lǐng)域杰出人才年齡處于50—59歲范圍內(nèi),從智能機(jī)器人、數(shù)控機(jī)床與增材制造三個(gè)制造領(lǐng)域杰出人才的年齡組成分析,增材制造領(lǐng)域杰出人才呈中年、青年、老年的年齡梯隊(duì),智能機(jī)器人與數(shù)控機(jī)床領(lǐng)域均需補(bǔ)充青年人才。
本節(jié)把制造領(lǐng)域人才所處機(jī)構(gòu)劃分成高校、研究院、行業(yè)協(xié)會(huì)3類,人才所處機(jī)構(gòu)分布情況如表2所示。
表2 智能制造杰出人才機(jī)構(gòu)分布
由表2可知,在研究的3個(gè)領(lǐng)域中,研究型人才的數(shù)量最多,主要來(lái)源于高校與研究所,一些來(lái)源于企業(yè),說(shuō)明高校與研究所應(yīng)列為制造企業(yè)招聘的重點(diǎn)。
在制造領(lǐng)域杰出人才專利數(shù)量分布情況如表3所示。
表3 制造杰出人才專利數(shù)量分布
綜合看來(lái),高校與研究所人才專利數(shù)量相對(duì)較多,而協(xié)會(huì)人才專利數(shù)量相對(duì)較少,可以認(rèn)為高校與研究所應(yīng)列為制造企業(yè)招聘的重點(diǎn)。
此次測(cè)試的369家企業(yè)人才分布在以下10個(gè)省份,智能機(jī)器人、數(shù)控機(jī)床以及增材制造人才在各省的人才數(shù)量,如表4—表6所示。
表4 智能機(jī)器人杰出人才地區(qū)分布
表5 數(shù)控機(jī)床杰出人才地區(qū)分布
表6 增材制造杰出人才地區(qū)分布
分析表4可知,智能機(jī)器人領(lǐng)域人才大部分分布于北京、陜西與江蘇地區(qū);數(shù)控機(jī)床人才主要分布在北京、遼寧與陜西,北京最多;增材制造人才主要分布在北京、陜西與江蘇。綜合看來(lái),企業(yè)在招聘制造領(lǐng)域人才的過(guò)程中,可主要考慮北京、陜西地區(qū)。
在經(jīng)過(guò)杰出人才年齡、杰出人才所處機(jī)構(gòu)、杰出人才專利數(shù)量、杰出人才地理分布4種實(shí)驗(yàn)結(jié)果的算例分析后,將得到的分析結(jié)果進(jìn)行證明本文模型的準(zhǔn)確性判斷即標(biāo)簽驗(yàn)證,如式(5)
(5)
式中,(MF1,MF2,…,MFn)表示分割的標(biāo)簽總數(shù)量;K表示標(biāo)簽數(shù)據(jù)擬合個(gè)數(shù)。具體驗(yàn)證結(jié)果如圖3所示。
圖3 標(biāo)簽驗(yàn)證結(jié)果
由圖3可知,本文算例分析的挖掘結(jié)果可在最大程度上符合企業(yè)要求與社會(huì)實(shí)際情況,說(shuō)明本文應(yīng)用模型可有效挖掘出大數(shù)據(jù)下的人才畫(huà)像,是人才畫(huà)像技術(shù)的突出應(yīng)用。
本文進(jìn)行了基于大數(shù)據(jù)的人才畫(huà)像技術(shù)應(yīng)用研究,并將該技術(shù)應(yīng)用于制造領(lǐng)域杰出人才畫(huà)像構(gòu)建中,在杰出人才年齡、杰出人才所處機(jī)構(gòu)、杰出人才專利數(shù)量和杰出人才地理分布4個(gè)方面進(jìn)行本文模型準(zhǔn)確度驗(yàn)證,研究結(jié)論為:從整體分析,制造業(yè)杰出人才年齡主要在50—59歲范圍內(nèi),學(xué)術(shù)型人才相對(duì)較多,可重點(diǎn)考慮高校與研究院,從地域的角度分析,主要集中于北京。為了有效發(fā)展制造領(lǐng)域,智能機(jī)器人企業(yè)與數(shù)控機(jī)床企業(yè)應(yīng)招聘中青年專業(yè)杰出人才,增財(cái)制造企業(yè)應(yīng)增加有專利技術(shù)的杰出人才,經(jīng)過(guò)標(biāo)簽驗(yàn)證后的處理結(jié)果說(shuō)明本文模型人才畫(huà)像挖掘程度可達(dá)到企業(yè)要求。
本文的創(chuàng)新主要體現(xiàn)在應(yīng)用基于大數(shù)據(jù)的人才畫(huà)像技術(shù)為某個(gè)領(lǐng)域與企業(yè)提供杰出人才群體特征,便于該領(lǐng)域發(fā)展。同時(shí),其設(shè)計(jì)的網(wǎng)絡(luò)爬蟲(chóng)具有可遷移性和代表性,說(shuō)明構(gòu)建的人才畫(huà)像應(yīng)用模型可被應(yīng)用于各領(lǐng)域中。