王曉萍,郭夢潔,岳婧雯
1. 上海市經(jīng)濟(jì)和信息化委員會信息中心,上海 200125;2. 復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203;3. 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 201203
干部綜合研判是一項系統(tǒng)性很強(qiáng)的工作,需要收集掌握各類信息資料,對人員進(jìn)行全方位、立體化的研判。判斷是否人崗相宜,找出領(lǐng)導(dǎo)班子的最優(yōu)搭配方案是提高干部綜合水平的一個有效方法。如何借助信息化手段開展干部綜合研判,幫助組織部門更好地管理、任用和選拔干部,是一個具有挑戰(zhàn)的問題。大數(shù)據(jù)為決策提供了越來越多的支持,通過對組織系統(tǒng)中的數(shù)據(jù)資源的整合,可以有效打破數(shù)據(jù)壁壘,推進(jìn)數(shù)據(jù)資源的綜合開發(fā)利用,提高組織工作的科學(xué)化水平?,F(xiàn)實中的許多復(fù)雜關(guān)系可以用圖(或網(wǎng)絡(luò))的形式進(jìn)行描述和分析處理,圖(或網(wǎng)絡(luò))中的節(jié)點表示數(shù)據(jù)實體,邊表示關(guān)系,指示節(jié)點對之間的關(guān)聯(lián)關(guān)系。圖結(jié)構(gòu)的數(shù)據(jù)已經(jīng)在大量機(jī)器學(xué)習(xí)任務(wù)中發(fā)揮了重要作用,如節(jié)點分類[1]、鏈接預(yù)測[2]、商品推薦[3]等。
在干部信息管理過程中,最初解決的是干部個人信息電子化的問題,初步實現(xiàn)了全部數(shù)據(jù)可查詢、可統(tǒng)計、可輸出。但在實際應(yīng)用中,單純的數(shù)據(jù)存儲、數(shù)據(jù)查詢已不能滿足日益發(fā)展的業(yè)務(wù)需求,需要引入新的數(shù)據(jù)分析方法,推動技術(shù)與業(yè)務(wù)的深度融合,進(jìn)一步促進(jìn)干部組織工作的順利開展。在領(lǐng)導(dǎo)班子搭建過程中,需要考慮眾多因素,比如哪些人有過共事關(guān)系,哪些人是同學(xué)或者校友,哪些人曾經(jīng)先后在同一部門工作,哪些人有過相關(guān)部門的工作經(jīng)驗,哪些人一起參加過培訓(xùn)班,哪些人已經(jīng)在同一崗位任職多年(或部門名稱變化但是崗位職責(zé)沒變)。在實際工作過程中,直接通過干部履歷表人工分析或搜索這些相應(yīng)的工作經(jīng)歷及學(xué)習(xí)培訓(xùn)經(jīng)歷,是一件非常耗時費力的工作。
為應(yīng)對上述困難,本文基于網(wǎng)絡(luò)表示學(xué)習(xí)方法對圖中的節(jié)點進(jìn)行特征分析和提取,從而構(gòu)建人員關(guān)系圖譜,實現(xiàn)人員與崗位的匹配推薦,支持人崗相宜分析?;陉P(guān)系圖譜和網(wǎng)絡(luò)表示學(xué)習(xí)方法實現(xiàn)部門成員的人崗相宜分析,分析干部履歷中工作過的部門,以及這些工作部門與領(lǐng)導(dǎo)班子其他成員之間的交集關(guān)系、干部履歷中的屬性,從而判斷人員和崗位是否匹配,為組織部門搭配領(lǐng)導(dǎo)班子提供輔助思路。
本文的主要工作包括以下幾個方面。
(1)從異構(gòu)數(shù)據(jù)源中提取數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)整合,構(gòu)建人員關(guān)系網(wǎng)絡(luò)。此外,將人員的特征屬性等形成多維度標(biāo)簽。
(2)人崗關(guān)系的發(fā)現(xiàn):利用網(wǎng)絡(luò)表示學(xué)習(xí)方法進(jìn)行人員特征學(xué)習(xí)表示,提取節(jié)點(人員、崗位等)的特征和網(wǎng)絡(luò)結(jié)構(gòu)、關(guān)系等。本文采用異質(zhì)網(wǎng)絡(luò)(heterogeneous network)表示學(xué)習(xí)算法metapath2vec[4]對構(gòu)建的多源異質(zhì)的人員關(guān)系網(wǎng)絡(luò)進(jìn)行特征表示。
(3)基于提取的網(wǎng)絡(luò)特征進(jìn)行人員和崗位關(guān)系預(yù)測,使用XGBoost[5]分類模型分析人崗關(guān)系的匹配程度。
(4)將由(2)(3)組成的兩階段方法稱為基于網(wǎng)絡(luò)表示學(xué)習(xí)的人崗關(guān)系預(yù)測(network representation learning for person-position relationship identification,NRL4PPR)方法,實驗結(jié)果表明了NRL4PPR方法的有效性。
(5)為了體現(xiàn)NRL4PPR方法的可伸縮性,對一個大規(guī)模異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)關(guān)系預(yù)測。實驗結(jié)果進(jìn)一步表明,NRL4PPR方法可以處理多種來源、多種類型的大規(guī)模數(shù)據(jù)。
(6)在上述工作的基礎(chǔ)上,給出一個人崗相宜研判系統(tǒng)架構(gòu),為判斷在職干部是否人崗相宜提供支持。
早期人事關(guān)系方面的研究主要通過問卷調(diào)查方式開展[6-7],其規(guī)模非常有限,且缺少靈活高效的分析方法。Chien CF[8]等人使用關(guān)聯(lián)分析方法發(fā)現(xiàn)企業(yè)職位與候選人的關(guān)系,用于企業(yè)招聘候選人;Jantan H等人[9]利用分類模型評估員工的工作表現(xiàn);Li LY等人[10]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對員工離職后的工作崗位進(jìn)行預(yù)測。這些方法雖然在人崗關(guān)系研究方面取得了一定的成效,但是沒有充分利用員工之間的關(guān)系。
近年來,圖數(shù)據(jù)分析技術(shù)因為利用了節(jié)點之間的關(guān)系以及圖的結(jié)構(gòu)特征,引起了研究者廣泛的研究興趣,且被引入人事關(guān)系研究。Liu Y等人[11]運用多源多任務(wù)學(xué)習(xí)模型融合了分布在多個社交網(wǎng)絡(luò)上的信息,以預(yù)測用戶的職業(yè)軌跡。胥皇[12]引入屬性圖作為行為表示,提出基于個人工作記錄數(shù)據(jù)的職業(yè)軌跡屬性圖提取算法,并針對職業(yè)流動行為問題,構(gòu)建了人才流動圖。杜鵬程等人[13]利用社會網(wǎng)絡(luò)圖譜,可視化分析了國內(nèi)人力資源的情況,掌握了人力資源領(lǐng)域的研究熱點。上述研究體現(xiàn)了圖數(shù)據(jù)挖掘技術(shù)在人力資源領(lǐng)域的有效應(yīng)用,即根據(jù)數(shù)據(jù)信息構(gòu)建關(guān)系網(wǎng)絡(luò),從網(wǎng)絡(luò)中挖掘更多的價值,但是上述方法沒有考慮到異質(zhì)網(wǎng)絡(luò)中不同邊表示的關(guān)系類型的差異(例如有的邊表示畢業(yè)于同一院校,有的邊表示參加過同一培訓(xùn)班),沒有提取網(wǎng)絡(luò)中的語義特征。
網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)是將網(wǎng)絡(luò)中的節(jié)點映射到低維向量空間,并盡可能保留網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)及節(jié)點特征等信息。網(wǎng)絡(luò)表示學(xué)習(xí)將網(wǎng)絡(luò)數(shù)據(jù)同后續(xù)機(jī)器學(xué)習(xí)任務(wù)鏈接起來,可用于系統(tǒng)推薦、節(jié)點分類、鏈路預(yù)測等。
隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),研究者提出了基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)模型。例 如DeepWalk[14]和node2vec[15]通 過 在網(wǎng)絡(luò)上進(jìn)行隨機(jī)游走,捕獲每個節(jié)點附近的鄰居,從而學(xué)習(xí)節(jié)點的特征向量。LINE分別捕獲1階和2階鄰域關(guān)系,以學(xué)習(xí)網(wǎng)絡(luò)的局部和全局信息[16]。GCN通過在網(wǎng)絡(luò)上定義傳播規(guī)則來為每個節(jié)點融合其鄰居特征信息,最終得到每個節(jié)點的向量表示[1]。同質(zhì)網(wǎng)絡(luò)上的表示學(xué)習(xí)方法難以區(qū)分不同類型的關(guān)系,無法捕獲豐富的語義信息,因此研究者提出異質(zhì)網(wǎng)絡(luò)的表示學(xué)習(xí)方法。具有代表性的是采用元路徑(metapath)指導(dǎo)隨機(jī)游走[4],以更好地獲取異質(zhì)網(wǎng)絡(luò)中更加復(fù)雜豐富的結(jié)構(gòu)和語義信息。例如metapath2vec[4]算法基于元路徑的隨機(jī)游走,實現(xiàn)根據(jù)不同類型節(jié)點生成含有網(wǎng)絡(luò)語義的異質(zhì)鄰居。此外,擴(kuò)展 Skip-Gram模型[17]促進(jìn)了對位置和語義接近的節(jié)點的建模。人員關(guān)系圖譜中包含人員、崗位等多種類型的節(jié)點和邊的關(guān)系,引入元路徑來捕捉語義信息有助于提升人崗關(guān)系分析的有效性。
本節(jié)利用網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)進(jìn)行人崗關(guān)系分析,主要包括構(gòu)建成員關(guān)系網(wǎng)絡(luò),以及基于網(wǎng)絡(luò)表示學(xué)習(xí)抽取節(jié)點和關(guān)系特征,從而分析人崗關(guān)系。
干部信息系統(tǒng)經(jīng)過了多次人員信息核定,是準(zhǔn)確度較高的數(shù)據(jù)來源。關(guān)于干部個人信息及單位信息,涉及的表格包括基本情況表、學(xué)歷表、工作經(jīng)歷表、年度考核表、家庭成員及社會關(guān)系表等。此外,干部的個人信息、單位信息還包括與人員行為相關(guān)的數(shù)據(jù),如人員參與的會議、因公務(wù)出差的情況、參與的項目等行為數(shù)據(jù)。
首先對上述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和融合,將分散在多個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行映射,如存在曾用名的人員與其工作經(jīng)歷的映射等。然后將人員、崗位、工作單位、畢業(yè)院校、項目等設(shè)置為圖的節(jié)點,并且將人員的出生年月等看作人員類型節(jié)點的屬性;同時,構(gòu)建人員與崗位、人員與人員、人員與工作單位、人員與畢業(yè)院校、人員與會議及項目等行為之間、崗位與崗位之間等的關(guān)系(即邊)。加入邊的屬性描述作為輔助信息,例如張三和復(fù)旦大學(xué)的關(guān)系可能有 本科畢業(yè)(學(xué)歷)、研究生畢業(yè)(學(xué)歷)等不同的屬性,加入屬性描述能更有效地對該節(jié)點進(jìn)行特征表示。最后形成一個人員關(guān)系圖譜,因為圖中的節(jié)點和關(guān)系類型有多種,所以該圖譜是一個異質(zhì)信息網(wǎng)絡(luò)[18],并且具有節(jié)點屬性和邊屬性。
人員關(guān)系采用一種基于圖的數(shù)據(jù)結(jié)構(gòu)來表示,它由節(jié)點(實體)和邊(關(guān)系)組成,每個節(jié)點代表一個實體,邊表示實體與實體之間的關(guān)系,實現(xiàn)了相關(guān)數(shù)據(jù)的打通,構(gòu)建了包含多數(shù)據(jù)源的人員關(guān)系圖譜(如圖1所示)??紤]到數(shù)據(jù)的時效性,需定期對數(shù)據(jù)進(jìn)行更新,通過增刪節(jié)點(如工作單位變動)與更新節(jié)點屬性(如新增獎懲)等對關(guān)系網(wǎng)絡(luò)進(jìn)行維護(hù)。
傳統(tǒng)的特征工程方法對人工的依賴程度高,網(wǎng)絡(luò)表示學(xué)習(xí)方法已被廣泛用于將網(wǎng)絡(luò)中的節(jié)點轉(zhuǎn)化為特征向量表示。如前文所述,網(wǎng)絡(luò)表示學(xué)習(xí)通過分析節(jié)點之間的拓?fù)浣Y(jié)構(gòu)關(guān)系等,為每個節(jié)點生成一個特征向量。該特征向量蘊涵了節(jié)點自身的特征信息與節(jié)點在網(wǎng)絡(luò)中的關(guān)聯(lián)信息,可直接應(yīng)用于多種下游任務(wù),如鏈接預(yù)測與節(jié)點分類。
定義1異質(zhì)網(wǎng)絡(luò)[18]:異質(zhì)網(wǎng)絡(luò)是一種包含了多種類型的節(jié)點和邊的網(wǎng)絡(luò),用=(V, ? )表示。其中,V表示圖中節(jié)點的集合,??V×V表示所有節(jié)點兩兩之間的關(guān)系,不同類型的節(jié)點對之間的關(guān)系構(gòu)成了多種類型的邊。A和R分別表示節(jié)點類型和邊類型的集合,若則稱之為異質(zhì)網(wǎng)絡(luò),否則,稱之為同質(zhì)網(wǎng)絡(luò)。
本文構(gòu)建的人員關(guān)系異質(zhì)網(wǎng)絡(luò)的一個簡單示例如圖2所示。該示例中顯示了種類型的節(jié)點,以及節(jié)點間已存在的關(guān)系(圖2中實線箭頭)。進(jìn)行人崗關(guān)系分析時要預(yù)測人員和崗位之間的關(guān)系(虛線箭頭)。
定義2元路徑[19]:元路徑表示異質(zhì)網(wǎng)絡(luò)中節(jié)點間的一種復(fù)合關(guān)系,記為P=V1→V2→…→VM,P描述了節(jié)點類型V1到VM存在的一種復(fù)合關(guān)系。
不同的元路徑攜帶不同的語義信息,例如對于圖2中的異質(zhì)網(wǎng)絡(luò)示例,可以定義元路徑“人員→院?!藛T”表示存在不同人員畢業(yè)于同一院校,元路徑“崗位→人員→院?!藛T→崗位”表示兩個崗位存在畢業(yè)于同一院校的人員(如圖3所示)。
定義3異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)(也稱為異質(zhì)網(wǎng)絡(luò)嵌入)[19]:異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)的目的是使異質(zhì)網(wǎng)絡(luò)中的節(jié)點學(xué)習(xí)低維稠密的向量表示。即給定一個異質(zhì)網(wǎng)絡(luò)=(V, ? ),異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)是對網(wǎng)絡(luò)上的每一個節(jié)點v∈V學(xué)習(xí)一個實數(shù)向量Xv∈Rd, 其中向量的維度d遠(yuǎn)小于節(jié)點總數(shù)。
異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)是使學(xué)習(xí)的低維表示能最大限度地保留網(wǎng)絡(luò)中多種類型的節(jié)點和邊的關(guān)系。異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)算法可以處理不同規(guī)模的數(shù)據(jù)(如包含千萬個節(jié)點的大型復(fù)雜網(wǎng)絡(luò)),其考慮了節(jié)點的不同類型以及關(guān)系的不同類型,可以很好地處理不同來源、不同類別的異質(zhì)數(shù)據(jù),從而捕獲數(shù)據(jù)中豐富的語義關(guān)系信息。
本文使用基于元路徑的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方法metapath2vec[4]進(jìn)行人崗關(guān)系分析,具體步驟如下。
(1)節(jié)點序列生成
通過隨機(jī)游走生成由圖中節(jié)點構(gòu)成的若干序列。首先選擇一個節(jié)點作為起始節(jié)點,在圖上進(jìn)行隨機(jī)游走,即以一定概率從當(dāng)前節(jié)點的鄰居節(jié)點中抽取一個節(jié)點進(jìn)行跳轉(zhuǎn),并加入序列,再從該鄰居節(jié)點重復(fù)抽取-跳轉(zhuǎn)的過程,直到序列達(dá)到預(yù)定的長度。在這一步驟中,應(yīng)選擇不同的節(jié)點作為起始節(jié)點,從而生成多條節(jié)點序列。
(2)節(jié)點序列訓(xùn)練
節(jié)點序列蘊涵了圖中的關(guān)聯(lián)結(jié)構(gòu)信息,從這些序列中生成節(jié)點的特征表示。這里應(yīng)用了分布假說,即一個節(jié)點的含義可由它的上下文節(jié)點(即節(jié)點序列中前后若干節(jié)點)反映出來?;赟kip-Gram方法,給定一個節(jié)點作為中心節(jié)點,利用其特征表示來預(yù)測上下文節(jié)點。節(jié)點的特征表示向量是隨機(jī)初始化的,在訓(xùn)練過程中,特征向量不斷優(yōu)化調(diào)整,直至可較為準(zhǔn)確地預(yù)測上下文節(jié)點。此時,節(jié)點特征向量已經(jīng)蘊涵了圖中的關(guān)聯(lián)結(jié)構(gòu)信息。
(3)引入元路徑
考慮到該關(guān)系網(wǎng)絡(luò)的邊和節(jié)點都是多種類型的,基于元路徑的異質(zhì)網(wǎng)絡(luò)節(jié)點特征表示學(xué)習(xí)方法metapath2vec是一種基于元路徑的隨機(jī)游走方法,可針對各種類型的節(jié)點生成含有網(wǎng)絡(luò)語義的異質(zhì)鄰居。給定元路徑P=V1→V2→…→Vl+1,從類型為Vk的節(jié)點vi出發(fā),隨機(jī)游走,下一步只會訪問類型為Vk+1的節(jié)點。元路徑指導(dǎo)的隨機(jī)游走在網(wǎng)絡(luò)上生成節(jié)點序列,將節(jié)點序列輸入模型中進(jìn)行訓(xùn)練。
(4)人崗關(guān)系分析
由于人員與崗位均為圖中的節(jié)點,利用上述過程得到人員與崗位的特征表示向量,便可進(jìn)行人崗關(guān)系分析。人崗關(guān)系分析的核心為計算人員節(jié)點與崗位節(jié)點的特征向量的相似度。例如人崗相宜程度可通過計算相應(yīng)向量的余弦相似度或內(nèi)積進(jìn)行量化。對于崗位推薦,可以將其視為鏈接預(yù)測任務(wù),通過現(xiàn)有的人崗關(guān)系數(shù)據(jù),在特征向量的基礎(chǔ)上訓(xùn)練分類模型,該模型可判斷網(wǎng)絡(luò)中哪些人崗存在潛在的鏈接,即人崗適配。本文實驗采用XGBoost分類器,將人員崗位等特征向量作為特征,以預(yù)測人員和崗位、人員和機(jī)構(gòu)之間是否存在關(guān)系。
本節(jié)首先描述數(shù)據(jù)集及其處理,然后進(jìn)行實驗,最后對實驗結(jié)果進(jìn)行分析。
為了說明本文提出的基于網(wǎng)絡(luò)的節(jié)點特征表示學(xué)習(xí)方法在人崗適配中的有效性,筆者在真實數(shù)據(jù)上進(jìn)行了實驗??紤]到數(shù)據(jù)的可公開性,選取來自中國經(jīng)濟(jì)金融研究數(shù)據(jù)庫(China Stock Market& Accounting Research Database,CAMAR)的上市公司等數(shù)據(jù)構(gòu)建了一個具有人員S(staff)、崗位O(occupation)、上市公司E(enter prise)、行業(yè)D(domain)、非上市機(jī)構(gòu)I(institution)和畢業(yè)院校U(university)等節(jié)點的異質(zhì)網(wǎng)絡(luò)。該異質(zhì)網(wǎng)絡(luò)中包含這些節(jié)點間的多種關(guān)系,如人員與公司的雇傭關(guān)系,人員與人員之間的親屬關(guān)系,人員從哪所大學(xué)畢業(yè),公司所屬的領(lǐng)域等。具體說明如下。
數(shù)據(jù)包括2018年開始在滬深股市上市的公司的任職董事、監(jiān)事以及高管等人員,并以這些人員為中心,收集他們的親屬、在非上市公司的同事、畢業(yè)院校等信息。最終提取出6種類型的節(jié)點:人員S(如蔣某、楊某)、崗位O(如總經(jīng)理、總工程師)、上市公司E(如深圳發(fā)展銀行股份有限公司、萬科企業(yè)股份有限公司)、行業(yè)D(如醫(yī)藥制造業(yè)、零售業(yè))、非上市公司或機(jī)構(gòu)I(如復(fù)旦大學(xué)經(jīng)濟(jì)學(xué)院、中華全國工商業(yè)聯(lián)合會)和畢業(yè)院校U(如復(fù)旦大學(xué)、北京大學(xué)),以及6種關(guān)系:上市公司任職關(guān)系(人員在上市公司任職)、人員所屬崗位(人員擔(dān)任某崗位)、親屬關(guān)系(人員和另一位人員之間有親屬關(guān)系)、畢業(yè)院校關(guān) 系(人員畢業(yè)于該院校)、非上市公司任職關(guān)系(人員在非上市公司或機(jī)構(gòu)任職)、所屬行業(yè)關(guān)系(上市公司的所屬行業(yè))。在基于該數(shù)據(jù)集構(gòu)建的異質(zhì)網(wǎng)絡(luò)中,節(jié)點與關(guān)系的數(shù)據(jù)統(tǒng)計見表1。另外,本數(shù)據(jù)集考慮了人員同名的問題,每一個人員都具有獨立ID,以便區(qū)分。
人員崗位關(guān)系預(yù)測實驗采用3條元路徑(O→S→ E→S→O,表示兩個崗位存在在同一家上市公司任職的人員;O→S→O,表示兩個崗位存在共同的人員;O→S→U→S→O,表示兩個崗位存在畢業(yè)于同一院校的人員)進(jìn)行實驗。
人員機(jī)構(gòu)關(guān)系預(yù)測實驗選用3條元路徑(I→S→ E→S→I,表示兩個機(jī)構(gòu)之間存在在同一家上市公司任職的人員;I→S→I,表示兩個機(jī)構(gòu)之間存在共同的人員;I→S→U→S→I,表示兩個機(jī)構(gòu)之間存在畢業(yè)于同一院校的人員)進(jìn)行實驗。
實驗中采用DeepWalk和metapath2vec兩種算法,DeepWalk是一種同質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)算法,其在圖上進(jìn)行隨機(jī)游走后,基于Skip-Gram模型得到節(jié)點向量表示。對于DeepWalk和metapath2vec,將每個節(jié)點的游走次數(shù)設(shè)為100,游走的最大節(jié)點序列長度設(shè)為100,最終的向量表示維度設(shè)為64。
4.3.1 人員崗位關(guān)系預(yù)測
對于數(shù)據(jù)原圖,去除30%崗位與人員的連邊,將剩下的節(jié)點和邊作為訓(xùn)練集;將所有被去除的邊作為正樣本,在每個正樣本中隨機(jī)選取5條不存在的邊作為負(fù)樣本,構(gòu)建測試集。例如,對于真實邊(人員1,崗位1),可以采樣虛假邊(人員1,崗位2)作為負(fù)樣本。評價指標(biāo)采用準(zhǔn)確率(accuracy)和AUC值。采用DeepWalk和基于3條不同元路徑(OSESO、OSO、OSUSO)的metapath2vec進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)。在得到節(jié)點的表征后,使用XGBoost分類器對以上數(shù)據(jù)集進(jìn)行實驗,將訓(xùn)練集的比例分別設(shè)置為20%、40%、60%和80%。對人員和機(jī)構(gòu)之間的關(guān)系進(jìn)行推斷分析,實驗結(jié)果見表2。將使用DeepWalk+XGBoost的預(yù)測方法記為DWPPR。
從表2可以看出,相比于不考慮人員崗位的異質(zhì)信息的DeepWalk,metapath2vec在不同訓(xùn)練比例中均能取得更好的實驗結(jié)果。這展示了捕獲異質(zhì)語義信息的重要性,突出了NRL4PPR在人崗關(guān)系分析中的優(yōu)越性。
此外,選擇OSO元路徑的metapath2vec基本取得了最好的實驗結(jié)果(除了在20%的訓(xùn)練比例上比OSESO元路徑的準(zhǔn)確率低0.001,但實際應(yīng)用中訓(xùn)練比例都超過20%),主要原因是該元路徑很好地考慮了人員與崗位的對應(yīng)關(guān)系,而且長的元路徑在捕獲網(wǎng)絡(luò)鏈接結(jié)構(gòu)時用處不大[20]。不同元路徑對應(yīng)的實驗結(jié)果差別不大,說明元路徑可以捕獲網(wǎng)絡(luò)的異質(zhì)關(guān)系信息,且選用元路徑的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方法在人崗關(guān)系分析中優(yōu)于不考慮異質(zhì)語義的同質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)算法DeepWalk。
表1 節(jié)點與關(guān)系的數(shù)據(jù)統(tǒng)計
表2 人員崗位關(guān)系預(yù)測的實驗結(jié)果
4.3.2 人員機(jī)構(gòu)關(guān)系預(yù)測
對于數(shù)據(jù)原圖,去除30%機(jī)構(gòu)與人員的連邊,將剩下的節(jié)點和邊作為訓(xùn)練集;將所有被去除的邊作為正樣本,每個正樣本同樣隨機(jī)選取5條不存在的邊作為負(fù)樣本,構(gòu)建測試集。評價指標(biāo)也采用準(zhǔn)確率和AUC值。采用DeepWalk和基于3條不同元路徑(ISESI、ISI、ISUSI)的metapath2vec進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)。之后同樣使用XGBoost分類器對以上數(shù)據(jù)集進(jìn)行實驗,同樣分別將訓(xùn)練集的比例設(shè)置為20%、40%、60%和80%。對人員和機(jī)構(gòu)之間的關(guān)系進(jìn)行推斷分析,實驗結(jié)果見表3。
從表3可以看出,metapath2vec在不同元路徑的實驗結(jié)果均優(yōu)于DeepWalk。這主要是因為metapth2vec通過元路徑捕獲了異質(zhì)網(wǎng)絡(luò)中豐富的語義信息,而DeepWalk未考慮網(wǎng)絡(luò)的異質(zhì)性,將人員和機(jī)構(gòu)視為同種類型的節(jié)點。
此外,可以看到選擇ISI作為元路徑的metapath2vec獲得了最好的實驗結(jié)果,因為該元路徑很好地考慮了人員與機(jī)構(gòu)的交互。而采用ISESI元路徑并未取得較好的實驗結(jié)果,這是因為該元路徑中引入了上市公司,而數(shù)據(jù)中人員與上市公司的鏈接較為稀疏,導(dǎo)致產(chǎn)生的節(jié)點序列長度較短,影響了模型的效果。同樣,人員與大學(xué)的鏈接也較為稀疏,因此采用ISUSI的元路徑也未取得較好的實驗結(jié)果。但是從總體上來說,選用元路徑的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方法在人員機(jī)構(gòu)關(guān)系分析中優(yōu)于不考慮語義的DeepWalk。
為了展示本文采用的方法的可伸縮性和擴(kuò)展性,進(jìn)一步使用AMinerCS[21]數(shù)據(jù)集進(jìn)行實驗。該數(shù)據(jù)集包括1693531名作者A、3194405篇論文P和3883種會議或期刊C,以及它們之間的關(guān)系,包括論文在哪個會議或期刊上 發(fā)表、論文的作者。節(jié)點與關(guān)系的數(shù)據(jù)統(tǒng)計見表4。
采用基于元路徑C→P→C的metapath2vec對AMinerCS數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)。訓(xùn)練集和測試集的劃分和之前的實驗設(shè)置相同。之后同樣使用XGBoost分類器對該數(shù)據(jù)集進(jìn)行實驗,對論文和會議之間的關(guān)系進(jìn)行預(yù)測,實驗結(jié)果見表5。
從表5可以看出,本文采用的NRL4PPR方法在大規(guī)模數(shù)據(jù)集上也取得了較高的準(zhǔn)確率和AUC,體現(xiàn)了其良好的可伸縮性和擴(kuò)展性。本文采用的方法不僅可以應(yīng)用在人員公司數(shù)據(jù)集上進(jìn)行人崗關(guān)系匹配,也可以應(yīng)用于千萬級別數(shù)目的大規(guī)模數(shù)據(jù)集上進(jìn)行有效的關(guān)系預(yù)測。
表3 人員機(jī)構(gòu)關(guān)系預(yù)測的實驗結(jié)果
人崗相宜研判系統(tǒng)建立在上述工作的基礎(chǔ)上,為判斷在職干部是否人崗相宜提供了支持。該系統(tǒng)主要通過數(shù)據(jù)融合、特征分析和人崗?fù)扑],實現(xiàn)對干部的數(shù)據(jù)集成和分析推薦。其主要架構(gòu)如圖4所示,包括數(shù)據(jù)層、模型層和應(yīng)用層3個層次。
(1)數(shù)據(jù)層
收集到系統(tǒng)所需的人員及其崗位等信息之后,進(jìn)行數(shù)據(jù)脫敏。在人員關(guān)系圖存儲方面,使用Neo4j作為數(shù)據(jù)存儲數(shù)據(jù)庫。
(2)模型層
通過網(wǎng)絡(luò)表示學(xué)習(xí)對數(shù)據(jù)層得到的關(guān)系圖譜進(jìn)行表征學(xué)習(xí),提取網(wǎng)絡(luò)中豐富的特征和關(guān)系信息,網(wǎng)絡(luò)中每個節(jié)點都能得到一個向量表示。根據(jù)特征向量可對人崗關(guān)系進(jìn)行分析,構(gòu)成人員深度特征標(biāo)簽,并將其作為傳統(tǒng)人工標(biāo)注標(biāo)簽的補(bǔ)充。
(3)應(yīng)用層
應(yīng)用層主要由基礎(chǔ)查詢、人崗?fù)扑]模塊組成。
● 基礎(chǔ)查詢模塊實現(xiàn)了人員的基本信息查詢,即根據(jù)數(shù)據(jù)庫中存儲的數(shù)據(jù)進(jìn)行信息查詢。
● 人崗?fù)扑]模塊實現(xiàn)了干部與崗位之間的匹配,即根據(jù)構(gòu)建的關(guān)系圖譜,基于網(wǎng)絡(luò)表示學(xué)習(xí)的人崗關(guān)系發(fā)現(xiàn)方法進(jìn)行人崗?fù)扑]。
本文使用上海市經(jīng)濟(jì)和信息化委員會在編部門及人員數(shù)據(jù)對人崗相宜研判系統(tǒng)進(jìn)行驗證。目前該委員會共有35個處級(含副處級)處室部門以及17個事業(yè)單位(處級),涉及公務(wù)員294名和事業(yè)單位在編人員1274名。將上述相關(guān)人員信息進(jìn)行匿名脫敏處理后,構(gòu)建異質(zhì)關(guān)系圖譜,并輸入研判系統(tǒng),主要涉及的關(guān)系如圖1所示。當(dāng)需要尋求某個崗位的合適候選人時,可以輸入崗位信息,然后人崗相宜研判系統(tǒng)可以基于人崗關(guān)系預(yù)測算法推薦與該崗位相匹配的人員信息,根據(jù)元路徑的語義定義,可以獲得曾經(jīng)在同一部門或同一崗位工作過、畢業(yè)于同一個專業(yè)、參加過同一個培訓(xùn)、參加過同一個項目等的匹配結(jié)果,關(guān)系匹配相似度越高的人員,就越有可能成為候選人。如以某處室的副處級崗位進(jìn)行候選人推薦,通過對比現(xiàn)任副處長的關(guān)系圖譜,順利找到3~4名候選人,經(jīng)相關(guān)部門專家對候選人與崗位匹配結(jié)果進(jìn)行評估,發(fā)現(xiàn)匹配度較高,驗證了人崗相宜研判系統(tǒng)的有效性。
本文利用構(gòu)建的關(guān)系圖譜和基于網(wǎng)絡(luò)表示學(xué)習(xí)的人崗?fù)扑]方法,分析人員履歷中工作過的單位/機(jī)構(gòu),以及這些工作單位/機(jī)構(gòu)與其他成員之間的交集關(guān)系、履歷中的屬性。實驗結(jié)果表明,本文方法可以很好地判斷人崗是否相宜,為組織部門搭配班子提供了輔助思路。
表4 AMinerCS 異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計
表5 論文會議關(guān)系預(yù)測的實驗結(jié)果