屈弘揚(yáng),於志文,胥 皇,郭 斌
(西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710072)
?
基于職業(yè)社交網(wǎng)絡(luò)的職業(yè)軌跡分析與可視化
屈弘揚(yáng),於志文,胥 皇,郭 斌
(西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710072)
通過職業(yè)軌跡構(gòu)建職業(yè)軌跡網(wǎng)絡(luò),分析了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和網(wǎng)絡(luò)特征,進(jìn)一步根據(jù)軌跡中行業(yè)和空間信息對網(wǎng)絡(luò)核心進(jìn)行了行業(yè)可視化和區(qū)域可視化,直觀地發(fā)現(xiàn)職業(yè)軌跡流動方向和特征,得出了職業(yè)軌跡變遷規(guī)律。分析結(jié)果顯示,職業(yè)軌跡網(wǎng)絡(luò)是一個(gè)稀疏網(wǎng)絡(luò),拓?fù)浣Y(jié)構(gòu)呈現(xiàn)出蝴蝶結(jié)結(jié)構(gòu),流動方向上是以IT公司為核心進(jìn)行職業(yè)流動。
職業(yè)軌跡;結(jié)構(gòu)分析;可視化
近年來,社交網(wǎng)絡(luò)發(fā)展迅速,社交網(wǎng)絡(luò)的類型也同步增長,主要有:基于位置的社交網(wǎng)絡(luò),如Foursquare[1];基于活動的社交網(wǎng)絡(luò),如豆瓣同城;基于職業(yè)的社交網(wǎng)絡(luò),如LinkedIn[2].與基于位置、活動的社交網(wǎng)絡(luò)相比,職業(yè)社交網(wǎng)絡(luò)作為一種更加正式化、商務(wù)化的社交網(wǎng)站逐漸引起研究人員的關(guān)注。
LinkedIn作為全球最大的職業(yè)社交網(wǎng)絡(luò),擁有超過3億6千萬的用戶,涵蓋了22種語言。個(gè)人主頁包含了用戶職業(yè)、教育、社交等多方面的內(nèi)容。公司主頁包含了公司介紹、招聘、新聞等內(nèi)容。這些內(nèi)容信息為研究職業(yè)社交網(wǎng)絡(luò)提供了大量的數(shù)據(jù),成為研究職業(yè)社交網(wǎng)絡(luò)的基礎(chǔ)。
通過挖掘分析職業(yè)社交網(wǎng)絡(luò)中的信息,對于分析個(gè)人職業(yè)發(fā)展、人才市場、人力資源等方面有著重要作用。隨著全球化程度進(jìn)一步提升,個(gè)人職業(yè)發(fā)展也從單一區(qū)域向多重區(qū)域擴(kuò)展開來,分析個(gè)人職業(yè)軌跡為個(gè)人、公司發(fā)展建議提供依據(jù)。當(dāng)前世界的競爭歸結(jié)于人才的競爭,通過分析職業(yè)軌跡,有利于把握人才的流動方向,更好地服務(wù)于人力資源管理。
分析挖掘職業(yè)社交網(wǎng)絡(luò),一個(gè)重要方向是分析職業(yè)軌跡,即更換工作行為。職業(yè)軌跡能夠清楚地表示個(gè)人、公司甚至行業(yè)、區(qū)域的發(fā)展?fàn)顩r。在人力資源管理、社會學(xué)學(xué)科方向,THOMAS et al[4]的研究是理論性地整合、擴(kuò)展更換工作因素。該文研究結(jié)果豐富,但是這些結(jié)果缺少數(shù)據(jù)的支撐,需要通過數(shù)據(jù)進(jìn)一步說明。目前在其他學(xué)科尤其是計(jì)算機(jī)學(xué)科也有對于職業(yè)軌跡的研究,YU et al[1]通過研究社交網(wǎng)絡(luò)挖掘個(gè)人與公司在就業(yè)市場上潛在的行為和關(guān)系,設(shè)計(jì)工作推薦系統(tǒng),實(shí)現(xiàn)對工作的推薦。YE et al[2]的工作是通過挖掘職業(yè)軌跡,對職業(yè)相似性進(jìn)行建模,發(fā)現(xiàn)不同個(gè)體職業(yè)軌跡中相似部分,為職業(yè)規(guī)劃、招聘等提出建議。XU et al[3]的工作通過挖掘LinkedIn和Foursqure兩個(gè)數(shù)據(jù)集的聯(lián)系,預(yù)測用戶職業(yè)變遷的時(shí)間。這些工作都是基于LinkedIn數(shù)據(jù)來完成的,然而,它們都缺少對職業(yè)軌跡網(wǎng)絡(luò)的分析,對于職業(yè)軌跡網(wǎng)絡(luò)的了解缺少直觀性。
筆者通過采集處理LinkedIn用戶軌跡數(shù)據(jù)和公司數(shù)據(jù),構(gòu)建職業(yè)軌跡網(wǎng)絡(luò),并對職業(yè)軌跡網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行特征分析,從稀疏性、度特征、強(qiáng)連通核、蝴蝶結(jié)結(jié)構(gòu)等方面分析職業(yè)軌跡網(wǎng)路的拓?fù)鋵傩?根據(jù)該網(wǎng)絡(luò)的特征和公司屬性數(shù)據(jù),從行業(yè)分類和區(qū)域分類兩個(gè)方面對網(wǎng)絡(luò)核心進(jìn)行了分析,并對行業(yè)進(jìn)行可視化操作,說明職業(yè)軌跡流動的特性。
1.1 數(shù)據(jù)采集
LinkedIn作為全球最大的職業(yè)社交網(wǎng)絡(luò),擁有數(shù)以萬計(jì)的用戶和公司信息。其中用戶數(shù)據(jù)信息包含了用戶名片、用戶背景、職業(yè)軌跡以及教育背景;公司信息包含了公司的背景、公司新聞、公司職位招聘信息。本文主要采用用戶個(gè)人信息、職業(yè)軌跡和公司背景信息來構(gòu)造職業(yè)估計(jì)網(wǎng)絡(luò)的數(shù)據(jù)。
采集數(shù)據(jù)是通過用戶LinkedIn主頁,使用Web流采集用戶主頁的整體頁面信息。根據(jù)解析職業(yè)軌跡部分的頁面信息,獲得用戶職業(yè)軌跡中的公司接口,然后再通過Web流獲得公司信息的整體頁面。通過上述方法,共采集到157 857個(gè)用戶數(shù)據(jù),56 570個(gè)公司數(shù)據(jù)。
1.2 數(shù)據(jù)處理
數(shù)據(jù)采集是通過Web流的方式獲得整體網(wǎng)頁的信息,這些信息含有較多的冗余信息,構(gòu)建職業(yè)軌跡網(wǎng)絡(luò),需要用戶個(gè)人信息、職業(yè)軌跡信息、公司背景信息。因此通過解析頁面來獲得相應(yīng)的數(shù)據(jù)信息。
對于用戶數(shù)據(jù),通過解析相應(yīng)的頁面,分別獲得用戶的以下數(shù)據(jù):用戶名、職業(yè)軌跡編號、公司名稱、就職起始時(shí)間、就職終止時(shí)間。如表1所示。這些數(shù)據(jù)構(gòu)成一條職業(yè)軌跡,由于用戶在不同公司之間更換工作,同一用戶可以有多條職業(yè)軌跡。
表1 用戶信息
對于公司數(shù)據(jù),通過解析公司背景頁面,分別獲得公司的以下數(shù)據(jù):公司接口,公司名稱,公司類型,公司所在地,公司所在國家,如表2所示。
表2 公司信息
這兩種數(shù)據(jù)中,雖然數(shù)據(jù)量較大,但是仍有數(shù)據(jù)存在數(shù)據(jù)缺失。根據(jù)需要對數(shù)據(jù)進(jìn)行過濾,保留信息完整的數(shù)據(jù)。在后續(xù)網(wǎng)絡(luò)可視化過程中,仍需對數(shù)據(jù)進(jìn)行過濾處理。
2.1 網(wǎng)絡(luò)構(gòu)建
通過采集處理數(shù)據(jù),根據(jù)用戶的職業(yè)軌跡數(shù)據(jù)來構(gòu)建職業(yè)軌跡網(wǎng)絡(luò)。但是由于存在部分用戶只有一條職業(yè)軌跡,或者用戶多條職業(yè)軌跡在時(shí)間上存在重疊,因此在構(gòu)建網(wǎng)絡(luò)中選擇用戶的職業(yè)軌跡須滿足三個(gè)條件:a.用戶的職業(yè)軌跡至少為兩條;b.用戶兩條職業(yè)軌跡在時(shí)間上銜接;c.用戶兩條職業(yè)軌跡所在公司不同。
滿足上述條件的職業(yè)軌跡網(wǎng)絡(luò)為一個(gè)加權(quán)有向圖。因此使用G=〈Vf,Vt,Eft,Wft,f≠t,Tf≤Tt〉表示職業(yè)軌跡網(wǎng)絡(luò)。其中Vf表示一個(gè)公司端點(diǎn)f,Vt表示一個(gè)公司端點(diǎn)t,Eft表示從公司f跳槽到公司t,Wft表示邊Eft的權(quán)重,是從公司f跳槽到t的人次,Tf為在公司f就職結(jié)束時(shí)間,Tt為在公司t就職開始的時(shí)間。
2.2 特征分析
由于職業(yè)軌跡網(wǎng)絡(luò)G是一個(gè)宏觀的加權(quán)有向圖,那么它具有有向圖的特征。根據(jù)汪小帆[6]一書提供的網(wǎng)絡(luò)分析方法和igraph工具提供的接口,對職業(yè)軌跡網(wǎng)絡(luò)G提取了一些網(wǎng)絡(luò)特征。這些特征對G有直觀的了解,對于職業(yè)軌跡網(wǎng)絡(luò)的跨學(xué)科研究也具有一定的解析意義。
2.2.1 宏觀描述
對G的宏觀性進(jìn)行描述。G共計(jì)1 241 138個(gè)節(jié)點(diǎn),1 725 775條邊。G是一個(gè)稀疏圖。其中一條邊的權(quán)重最大,值為85,兩個(gè)節(jié)點(diǎn)分別為Nokia和Microsoft.邊權(quán)重最小值為1,共計(jì)1 693 374條。邊權(quán)重小于10,共計(jì)1 725 451條邊。
2.2.2 度分析
分析G的出度和入度特征。由于G為一個(gè)有向圖,因此G的度需要分為出度和入度。G中各個(gè)節(jié)點(diǎn)所有的出度總和與入度總和相同,出度、入度的平均度為1.46.根據(jù)入度和出度情況對G中節(jié)點(diǎn)進(jìn)行分布統(tǒng)計(jì)。使用“雙對數(shù)”方法判斷入度分布和出度分布是否冪律化,如圖1,2所示。從兩個(gè)圖中發(fā)現(xiàn),在度值更大時(shí)入度分布比出度分布更符合冪律分布。
圖1 入度分布Fig.1 The distribution of in degree
圖2 出度分布Fig.2 The distribution of out degree
2.2.3 拓?fù)浣Y(jié)構(gòu)
分析G中的連通巨片和蝴蝶結(jié)結(jié)構(gòu)。根據(jù)度值大小升序排列節(jié)點(diǎn),從度值為1開始依次增加,逐步刪除節(jié)點(diǎn),計(jì)算新的網(wǎng)絡(luò)的強(qiáng)連通性。當(dāng)G中最小度為126時(shí),此時(shí)新的網(wǎng)絡(luò)是一個(gè)強(qiáng)連通圖。上述結(jié)果說明G中存在一個(gè)連通巨片,也就是存在一個(gè)強(qiáng)連通的核。通過分析G中其他節(jié)點(diǎn),存在部分節(jié)點(diǎn)不通過該核能夠連通。其拓?fù)浣Y(jié)構(gòu)如圖3所示。該結(jié)構(gòu)在文獻(xiàn)[5]中被稱為蝴蝶結(jié)結(jié)構(gòu),該職業(yè)軌跡網(wǎng)絡(luò)和WWW網(wǎng)絡(luò)具有相同的拓?fù)浣Y(jié)構(gòu)。
圖3 職業(yè)軌跡網(wǎng)絡(luò)蝴蝶結(jié)結(jié)構(gòu)Fig.3 The bow-tie structure of career trajectories metwork
2.2.4 其他特征
通過igraph工具,對G的聚類性、同配性進(jìn)行特征分析。其聚類系數(shù)為0.004,同配系數(shù)為-0.01,造成這兩個(gè)系數(shù)值偏低的原因是網(wǎng)絡(luò)中存在大量的度值較低的節(jié)點(diǎn),這兩個(gè)特征再次說明G是一個(gè)稀疏圖。
在上一章節(jié)構(gòu)建的職業(yè)軌跡網(wǎng)絡(luò)中存在一個(gè)強(qiáng)連通核,為更加直觀地了解該核心,需要對該核心進(jìn)行可視化操作。
在分析職業(yè)軌跡網(wǎng)絡(luò)特征時(shí)發(fā)現(xiàn)度值較大的節(jié)點(diǎn)之間有向線的權(quán)重也較大。由于直接提取強(qiáng)連通核較為復(fù)雜,因此通過選擇權(quán)重較大的邊和節(jié)點(diǎn)來構(gòu)造新的網(wǎng)絡(luò)。該網(wǎng)絡(luò)包含了強(qiáng)連通核心,但是在規(guī)模上比職業(yè)軌跡網(wǎng)絡(luò)G小的多。
本文主要通過ECharts工具來實(shí)現(xiàn)可視化。根據(jù)公司的屬性,從行業(yè)類型和區(qū)域兩個(gè)方面對數(shù)據(jù)進(jìn)行分析,并對行業(yè)進(jìn)行可視化處理。
3.1 行業(yè)分析與可視化
在數(shù)據(jù)處理時(shí),已經(jīng)提取了公司的類型這一屬性,共計(jì)38種。根據(jù)這些類型的特點(diǎn),又劃分為10個(gè)大類。分別為IT、服務(wù)、科研、媒體、制造業(yè)、管理、健康、金融、娛樂、商業(yè),如表3所示。
根據(jù)劃分的10種大類,以38種小類別作為節(jié)點(diǎn),繪制行業(yè)之間流動的和弦圖,如圖4所示。其中節(jié)點(diǎn)的大小表示該節(jié)點(diǎn)流動的頻繁性,節(jié)點(diǎn)越大表示流動越頻繁。
如圖4所示,IT行業(yè)之間職業(yè)流動較頻繁,其中計(jì)算機(jī)軟件、IT信息服務(wù)、互聯(lián)網(wǎng)3種類型的公司居于首位,相比于其他行業(yè),IT行業(yè)和科研、金融、管理行業(yè)之間的流動較頻繁。
圖4 行業(yè)之間流向和弦圖Fig.4 The chord diagram of industries
10種大類38種公司類型IT計(jì)算機(jī)硬件、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)軟件、電子消費(fèi)、信息技術(shù)服務(wù)、互聯(lián)網(wǎng)、通信、微電子服務(wù)航空公司、酒店科研高等教育、科研所媒體廣告、廣播、報(bào)紙、在線媒體、媒體制作、出版商、攝影制造業(yè)汽車業(yè)、航空制造、工業(yè)制造管理人力資源、管理咨詢健康醫(yī)院、醫(yī)療設(shè)施、藥物金融會計(jì)所、銀行、資本市場、金融服務(wù)、投行娛樂娛樂公司商業(yè)零售、服裝、不動產(chǎn)、餐飲、貿(mào)易
和弦圖表示行業(yè)之間的流動性,但是沒有方向性。為了彌補(bǔ)這些不足進(jìn)而繪制了行業(yè)之間流動的導(dǎo)向圖,如圖5所示。圖中節(jié)點(diǎn)大小表示流動的頻繁性,圖中流動具有方向性,不同節(jié)點(diǎn)之間的距離表示兩個(gè)節(jié)點(diǎn)之間流動的頻繁性,節(jié)點(diǎn)距離越近,節(jié)點(diǎn)之間流動越頻繁。
圖5 行業(yè)之間流向?qū)驁DFig.5 The guide graph of industries
通過圖5可以發(fā)現(xiàn),IT行業(yè)中出現(xiàn)較大的重疊現(xiàn)象,說明這個(gè)行業(yè)內(nèi)部流動性是很頻繁的,并且IT行業(yè)和科研之間的流動比其他行業(yè)之間流動性相比也是很頻繁的。
造成這一現(xiàn)象的原因首先是IT行業(yè)中的公司數(shù)量較多,通過統(tǒng)計(jì)抓取的數(shù)據(jù)發(fā)現(xiàn)IT公司占所有公司總數(shù)的38.1%,其次是發(fā)現(xiàn)IT從業(yè)人員的職業(yè)變遷頻率較高,統(tǒng)計(jì)個(gè)人職業(yè)變遷,IT人員跳槽次數(shù)平均為3.65次,而其他行業(yè)從業(yè)人員只有1.72次。由于圖中節(jié)點(diǎn)數(shù)量較多,部分節(jié)點(diǎn)出現(xiàn)重疊或者沒有連線的現(xiàn)象。為了更加直觀地表現(xiàn)IT行業(yè)之間流動的頻繁性,因此單獨(dú)對IT行業(yè)進(jìn)行繪制導(dǎo)向圖,如圖6所示。
圖6 IT行業(yè)流向?qū)驁DFig.6 The guide graph of IT
3.2 區(qū)域分析
由于部分邊權(quán)重較低,并且這類邊所對應(yīng)的節(jié)點(diǎn)度值也同樣較低,這對于分析主要區(qū)域職業(yè)的變遷造成干擾和影響,因此適當(dāng)?shù)膭h除部分權(quán)重較低的邊和所對應(yīng)的節(jié)點(diǎn)來方便對區(qū)域職業(yè)流動進(jìn)行分析。
首先根據(jù)公司所在地,對區(qū)域之間職業(yè)流動情況進(jìn)行分析。在處理數(shù)據(jù)過程中,發(fā)現(xiàn)大量公司所在地為美國,因此著重研究分析從美國流向其他國家,其他國家流向美國和其他國家之間相互流動三種流動模式。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),區(qū)域之間職業(yè)流動中,這三種模式所占比分別為47%,42%,11%。因此美國成為職業(yè)流動的核心區(qū)域。
美國是區(qū)域跳槽主要的出發(fā)地和目的地。造成這一現(xiàn)象是因?yàn)樵贚inkedIn上注冊用戶和注冊公司以美國居多,其中IT、媒體、金融等行業(yè)中的眾多世界級大公司位于美國,這些公司雇員數(shù)量比其他公司在數(shù)量級上高出許多。
由于在分析區(qū)域之間流動時(shí),只研究一條邊的兩個(gè)公司節(jié)點(diǎn)在兩個(gè)不同國家的情況,而區(qū)域內(nèi)部的流動情況未充分研究,即一條邊的兩個(gè)公司出現(xiàn)在同一國家的情況。由于美國是區(qū)域之間職業(yè)流動的核心,因此對美國國內(nèi)的職業(yè)流動情況進(jìn)行統(tǒng)計(jì)分析。
通過統(tǒng)計(jì)分析發(fā)現(xiàn),美國國內(nèi)職業(yè)流動主要集中于美國大城市,尤其以華盛頓地區(qū)、紐約地區(qū)、舊金山地區(qū)和雷德蒙德地區(qū)為核心。87%的職業(yè)流動在這4個(gè)區(qū)域相互流動。經(jīng)過數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn)造成這種現(xiàn)象的主要原因是華盛頓地區(qū)為美國的首都,紐約地區(qū)則是眾多媒體公司、金融公司的所在地,而舊金山地區(qū)的硅谷是大量IT行業(yè)公司的發(fā)源地,微軟總部坐落在華盛頓州的雷德蒙德。這一結(jié)果從側(cè)面也反映IT行業(yè)職業(yè)流動較大的特征。因此美國的內(nèi)部職位流動受公司規(guī)模和公司所在地影響較大。
本文通過采集職業(yè)信息數(shù)據(jù),構(gòu)建職業(yè)軌跡網(wǎng)絡(luò)并對其拓?fù)浣Y(jié)構(gòu)進(jìn)行分析,研究該網(wǎng)絡(luò)的拓?fù)湫再|(zhì),通過對職業(yè)軌跡核心的可視化,更加清晰直觀地展示了職業(yè)流動情況。本文對于職業(yè)軌跡網(wǎng)的分析和可視化工作,對于全面、直觀了解該網(wǎng)絡(luò)有較大幫助。根據(jù)本文的工作,下一步工作將著重于研究職業(yè)流動模式和用戶職業(yè)變化行為模式,進(jìn)而挖掘公司、行業(yè)、區(qū)域的發(fā)展模式。
[1] YU C,XIE Yusheng,CHEN Zhengzhang,et al.Jobminer:a real-time system for mining job-related patterns from social media[C]∥ACM.The 19th ACM SIGKDD:International Conference on Knowledge Discovery and Data Mining,Chicago,USA,2013:1450-1453.
[2] YE XU,LI ZANG,ABHISHEK GUPTA,et al.Modeling professional similarity by mining professional career trajectories[C]∥ACM.The 20th ACM SIGKDD:International Conference on Knowledge Discovery and Data Mining,New York,NY,USA,2014:1945-1954.
[3] XU H,YU Z,XIONG H,et al.Learning career mobility and human activity patterns for job change analysis[C]∥IEEE.The 2015 IEEE International Conference on Data Mining,Atlantic City,NJ,USA.2015:1057-1062.
[4] THOMAS W H NG,KELLY L SORENSEN,LILLIAN T EBY,et al.Determinants of job mobility:A theoretical integration and extension[J].Journal of Occupational and Organizational Psychology,2007,80(3):363-386.
[5] ROBERT M,SEBASTIANO V,OLIVER L,et al.Graph structure in the web-revisited:a trick of the heavy tail[C]∥WWW.The Companion Publication of the 23rd International Conference on World Wide Web Companion.Switzerland:Republic and Canton of Geneva,2014:427-432.
[6] 汪小帆,李翔,陳關(guān)榮.網(wǎng)絡(luò)科學(xué)導(dǎo)論[M].北京:高等教育出版社,2012.
(編輯:賈麗紅)
The Analysis and Visualization of Career Trajectories Based on Professional Social Network
QU Hongyang,YU Zhiwen,XU Huang,GUO Bin
(SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710072,China)
This paper structures a career trajectories network by these trajectories and analyzes the topological structure and network characteristics of the network, then visualizes the network core according to the industry information and spatial information. It can discover the flow direction and characteristics of trajectories visually, and can be conducive to understanding career trajectories change law. The results show that the career trajectories network is a sparse network and the topological structure is of a bowknot shape. IT company is the center of trajectories.
career trajectories;structural analysis;visualization
1007-9432(2016)03-0394-05
2015-05-30
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃資助項(xiàng)目:城市大數(shù)據(jù)三元空間協(xié)同計(jì)算理論與方法(2015CB352400),國家自然科學(xué)基金資助項(xiàng)目:移動社交中感知數(shù)據(jù)收集的機(jī)會路由與交互式內(nèi)容移交(61332005)
屈弘揚(yáng)(1991-),男,碩士生,主要從事普適計(jì)算研究,(E-mail)qhy33966@mailnwpu.edu.cn
於志文(1977-),教授,博士生導(dǎo)師,CCF高級會員(E200008324S),主要從事普適計(jì)算和社會感知計(jì)算研究,(E-mail)zhiwenyu@nwpu.edu.cn.
TP391
A
10.16355/j.cnki.issn1007-9432tyut.2016.03.022