張 毅,高元榮,黃宗財(cái),吳 升*,王毅青,黃幼姑
(1.福建省星云大數(shù)據(jù)應(yīng)用服務(wù)有限公司,福建 福州 350003; 2.福州大學(xué) 數(shù)字中國(guó)研究院(福建),福建 福州 350002)
近些年,我國(guó)面臨較大經(jīng)濟(jì)下行壓力,就業(yè)形勢(shì)嚴(yán)峻,產(chǎn)業(yè)結(jié)構(gòu)需要轉(zhuǎn)型升級(jí),勞動(dòng)力市場(chǎng)需求發(fā)生重大改變,人才供給與崗位需求出現(xiàn)不對(duì)稱[1-3]。雖然互聯(lián)網(wǎng)為就業(yè)提供了海量的崗位需求數(shù)據(jù),但是同時(shí)也增加了準(zhǔn)確獲取所需信息的時(shí)間和復(fù)雜度。目前就業(yè)部門(mén)、各大招聘網(wǎng)站(BOSS直聘、智聯(lián)招聘、拉勾網(wǎng))等為廣大求職者提供了海量崗位招聘信息,業(yè)務(wù)系統(tǒng)除了支持傳統(tǒng)的崗位檢索,也支持根據(jù)求職者的簡(jiǎn)歷信息進(jìn)行崗位推薦。現(xiàn)有崗位推薦系統(tǒng)通過(guò)分析求職者的歷史搜索記錄,挖掘其求職意愿、需求和求職傾向,為他們提供準(zhǔn)確、快速、個(gè)性化的崗位推薦服務(wù)。
近年來(lái)很多學(xué)者推出崗位推薦系統(tǒng)[4-5],能夠?yàn)橛霉徫慌c求職者搭建匹配推送平臺(tái),努力實(shí)現(xiàn)就業(yè)崗位精準(zhǔn)對(duì)接。隨著互聯(lián)網(wǎng)的迅速發(fā)展,將崗位推薦算法應(yīng)用于移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、新聞媒體、網(wǎng)站、社交軟件等對(duì)外發(fā)布招聘崗位信息的網(wǎng)絡(luò)發(fā)布平臺(tái),將為求職者找工作提供更便捷的通道,特別是在公共就業(yè)服務(wù)領(lǐng)域的職業(yè)介紹業(yè)務(wù)中得到有效的應(yīng)用。例如,尹傳城等[6]針對(duì)高校畢業(yè)生,提出了一種綜合在校歷史信息的高校畢業(yè)生互惠就業(yè)推薦方法,該方法具有較高的推薦準(zhǔn)確率和用戶滿意度,可以為高校畢業(yè)生就業(yè)提供有效指導(dǎo)。在人力資源應(yīng)用方面,古振威[7]將推薦技術(shù)應(yīng)用于人力資源領(lǐng)域,提出了基于隱語(yǔ)義模型與深度森林的人力資源推薦算法,挖掘用戶潛在興趣并推薦用戶感興趣的崗位,從而更好地進(jìn)行人力資源推薦。于海棠[8]將知識(shí)地圖、人崗匹配理論與人力資源配置方法相結(jié)合,首先根據(jù)知識(shí)地圖構(gòu)建方法構(gòu)建人員知識(shí)地圖與崗位知識(shí)地圖,然后利用二分圖匹配算法進(jìn)行匹配,從而實(shí)現(xiàn)一個(gè)基于知識(shí)地圖的人崗匹配模型。歐俊[9]通過(guò)對(duì)鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部人崗匹配現(xiàn)狀進(jìn)行分析,綜合運(yùn)用行為事件訪談法、統(tǒng)計(jì)分析法、問(wèn)卷調(diào)查法等研究方法,構(gòu)建了鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部勝任力模型;然后,以構(gòu)建的鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部勝任力模型為基準(zhǔn),把人崗匹配相關(guān)理論應(yīng)用到知崗、知人、匹配和培訓(xùn)各環(huán)節(jié)工作中,為鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部人崗匹配的實(shí)現(xiàn)提出有針對(duì)性的對(duì)策和建議。
目前,就業(yè)推薦的方法主要有兩種:(1)基于內(nèi)容匹配的推薦算法;(2)基于協(xié)同過(guò)濾的推薦算法?;趦?nèi)容匹配的方法[10-11]是根據(jù)招聘單位崗位要求信息和應(yīng)聘者簡(jiǎn)歷信息進(jìn)行匹配,其利用的是崗位屬性中的文本內(nèi)容與簡(jiǎn)歷中對(duì)應(yīng)屬性的文本內(nèi)容進(jìn)行匹配。基于協(xié)同過(guò)濾的方法[12-13]是根據(jù)招聘方與求職者瀏覽彼此信息的行為記錄來(lái)標(biāo)記用戶與項(xiàng)目之間的喜愛(ài)程度?;趨f(xié)同過(guò)濾的方法面臨著冷啟動(dòng)和數(shù)據(jù)稀疏的問(wèn)題,而基于內(nèi)容匹配的方法中最為關(guān)鍵的是匹配規(guī)則的制定,諸如崗位中“崗位要求”屬性信息和簡(jiǎn)歷中“掌握技能”屬性信息對(duì)于人崗精準(zhǔn)匹配至關(guān)重要。而這屬性內(nèi)容大部分是長(zhǎng)文本組成,充分利用長(zhǎng)文本特征項(xiàng)的深度語(yǔ)義進(jìn)行特征匹配仍然存在一定的挑戰(zhàn)。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,長(zhǎng)文本的向量化表示為深度語(yǔ)義挖掘提供了技術(shù)支持,本文將結(jié)合深度語(yǔ)義特征構(gòu)建人崗精準(zhǔn)匹配模型,充分利用人崗特征中長(zhǎng)文本蘊(yùn)含的豐富語(yǔ)義信息,實(shí)現(xiàn)求職者與崗位之間的精準(zhǔn)匹配。
結(jié)合深度語(yǔ)義特征的精準(zhǔn)人崗匹配算法如圖1所示,首先對(duì)招聘崗位和求職者進(jìn)行特征構(gòu)建,明確不同層次特征的匹配規(guī)則:(1)直接匹配過(guò)濾層,對(duì)人崗特征中相對(duì)應(yīng)的屬性實(shí)行文本直接匹配;(2)量化計(jì)算過(guò)濾層,首先對(duì)人崗中相關(guān)特征進(jìn)行標(biāo)簽量化,然后使用數(shù)值比較計(jì)算的方法,確定相關(guān)特征的匹配度;(3)文本相似計(jì)算層,通過(guò)采用Doc2vec的方法對(duì)人崗匹配特征中具有長(zhǎng)文本的屬性值進(jìn)行向量化,然后通過(guò)計(jì)算對(duì)應(yīng)特征之間的余弦距離,評(píng)價(jià)對(duì)應(yīng)特征的匹配度;(4)行為特征層加權(quán),通過(guò)求職者對(duì)崗位的投遞和收藏等操作,在之前純粹人崗特征屬性上進(jìn)行加權(quán)處理;(5)綜合上述4層特征,計(jì)算求職者和崗位之間的匹配程度,實(shí)現(xiàn)人崗信息之間的精準(zhǔn)匹配。
圖1 基于人崗特征的精準(zhǔn)匹配算法Fig.1 Accurate matching algorithm based on human post features
人崗匹配模型的構(gòu)建基礎(chǔ)在于人崗特征體系的建立。人崗特征體系主要是根據(jù)求職者和用人單位雙方的信息需求構(gòu)建的。通過(guò)調(diào)研各種在線求職招聘網(wǎng)站發(fā)現(xiàn),求職者在求職過(guò)程中想要了解招聘方所發(fā)布的崗位信息,而招聘單位則關(guān)注求職者的個(gè)人基本信息和求職意向。因此,可根據(jù)求職者和招聘單位在招聘應(yīng)聘過(guò)程中所關(guān)注的資料需求,構(gòu)建招聘崗位特征和求職者特征,而眾多在線就業(yè)推薦網(wǎng)站同時(shí)也關(guān)注招聘和求職用戶在平臺(tái)上的行為記錄,包括求職者和招聘方相互閱覽信息和投遞情況的行為,這些行為記錄間接反映了求職者與崗位之間的匹配意愿,所以據(jù)此來(lái)構(gòu)建求職者-崗位的行為特征,在推薦系統(tǒng)起到加強(qiáng)推薦的功能。
(1)崗位特征
這里的招聘崗位特征指的是針對(duì)崗位進(jìn)行特征構(gòu)建,主要包括招聘崗位情況(崗位類別、崗位名稱、崗位簡(jiǎn)介、福利待遇、薪資水平)、公司情況(公司名稱、公司地址、公司性質(zhì)、公司簡(jiǎn)介)、崗位要求(學(xué)歷、性別、專業(yè)、崗位職責(zé)、任職要求、工作經(jīng)驗(yàn)),其屬性大部分能夠反映此崗位的特征和需求。
(2)求職者特征
求職者特征也主要是針對(duì)崗位推薦中的主體求職者用戶構(gòu)建的特征,主要包括崗位要求(性別、學(xué)歷、專業(yè)、崗位職責(zé)、任職要求、工作年限),而招聘單位則關(guān)注求職者的基本信息(姓名、年齡、性別、電話、籍貫、郵箱)、求職意向(崗位、城市、薪資)、教育背景(學(xué)歷、畢業(yè)學(xué)校、學(xué)院、專業(yè)、畢業(yè)成績(jī)、畢業(yè)時(shí)間、獎(jiǎng)勵(lì)證書(shū))、掌握技能、工作經(jīng)驗(yàn)、個(gè)人評(píng)價(jià),其特征屬性反映了求職者本身的背景信息及求職意愿。
(3)用戶行為特征
用戶行為特征是用來(lái)記錄求職者在人崗匹配系統(tǒng)中瀏覽和投遞招聘崗位的行為,其屬性反映了求職者對(duì)系統(tǒng)中某崗位的喜好程度和投遞意愿程度。此特征對(duì)于推薦有優(yōu)化作用。
人崗匹配模型是建立在構(gòu)建崗位特征和求職者特征基礎(chǔ)之上,是充分利用求職者和崗位的部分特征屬性之間存在著內(nèi)容的相互匹配關(guān)系,所以基于特征的匹配是最簡(jiǎn)單有效的匹配。然而,參與匹配的特征中因?yàn)槠鋵傩灾档谋磉_(dá)方式不一樣,在特征屬性進(jìn)行匹配過(guò)程中需要使用不同的匹配規(guī)則,我們根據(jù)其特征屬性表達(dá)方式的類型進(jìn)行了分層,主要分為3層,如圖1所示:(1)直接匹配過(guò)濾層;(2)計(jì)算過(guò)濾層;(3)文本相似性計(jì)算層。直接過(guò)濾層是根據(jù)文本進(jìn)行匹配;計(jì)算過(guò)濾層是通過(guò)值得對(duì)應(yīng)屬性值的比較而完成匹配,需要每一項(xiàng)屬性都匹配成功;文本相似計(jì)算層是針對(duì)匹配特征屬性值為長(zhǎng)文本,需要通過(guò)文本相似計(jì)算進(jìn)行匹配。
1.2.1直接匹配過(guò)濾層特征
崗位特征屬性“崗位名稱”、“專業(yè)要求”、“性別要求”、“工作城市”和求職者特征屬性“投遞崗位”、“專業(yè)”、“性別”、“意愿城市”是一一對(duì)應(yīng)的匹配項(xiàng),其屬性值為簡(jiǎn)單的短語(yǔ),詞語(yǔ)都是較為固定的詞語(yǔ),可以使用屬性值直接匹配進(jìn)行過(guò)濾。如其中只要有一對(duì)匹配特征的屬性值中短文本字符匹配不成功,則直接匹配過(guò)濾層的值為零。使用如公式(1)表示:
pdir=mi1?j1×mi2?j2×mi3?j3×mi4?j4。
(1)
其中:pdir表示直接過(guò)濾層計(jì)算得到的匹配值;i?j={崗位名稱?投遞崗位,專業(yè)要求?專業(yè),性別要求?性別,工作城市?意愿城市};m表示直接匹配過(guò)濾層特征對(duì)應(yīng)人崗特征屬性的匹配度,其值為1或0。
1.2.2量化計(jì)算過(guò)濾層特征
在崗位和求職者特征屬性中,學(xué)歷、薪資等屬性也是較為固定的短文本。但是在匹配過(guò)程中文本語(yǔ)義又存在相互包含或者大小概念之分,如崗位特征屬性中“學(xué)歷要求”為“中?!保舐氄咛卣鲗傩浴皩W(xué)歷”為“碩士”,使用文本直接匹配,則會(huì)丟失語(yǔ)義上“碩士”大于“中?!钡碾[喻內(nèi)涵記錄。所以,本文將3對(duì)特征屬性進(jìn)行標(biāo)簽泛化,如表1所示,將屬性值轉(zhuǎn)化為數(shù)字,然后通過(guò)數(shù)學(xué)運(yùn)算來(lái)判斷兩者之間的大小以及包含關(guān)系,實(shí)現(xiàn)進(jìn)一步的匹配過(guò)濾。
表1 特征屬性量化標(biāo)準(zhǔn)Tab.1 Quantitative criteria of characteristic attributes
量化計(jì)算過(guò)濾層特征匹配計(jì)算公式如式(2)~(5):
(2)
(3)
(4)
pqua=mi1?j1×mi2?j2×mi3?j3。
(5)
其中:pqua表示量化計(jì)算層人崗特征的總匹配度;Vper、Vpos分別表示求職者和崗位對(duì)應(yīng)特征屬性數(shù)值,其數(shù)值由表1轉(zhuǎn)化而來(lái);i?j={學(xué)歷?學(xué)歷要求,期望薪資?薪資酬勞,工作經(jīng)驗(yàn)?工作年限}。量化計(jì)算過(guò)濾層只有當(dāng)pqua等于1,才可以通過(guò)過(guò)濾。
1.2.3文本相似計(jì)算層特征
在人崗特征中還存在使用長(zhǎng)文本進(jìn)行描述的特征屬性,而這些對(duì)應(yīng)的長(zhǎng)文本具體描述了崗位的具體能力要求以及求職者的掌握技能,是崗位與求職者之間精準(zhǔn)匹配的關(guān)鍵信息。其長(zhǎng)文本隱含的深度語(yǔ)義信息反映求職者或崗位的特征。如表2和表3所示,求職者特征“掌握技能”和對(duì)應(yīng)匹配的崗位特征中的“任職要求”屬性值都為長(zhǎng)文本,崗位特征屬性“任職要求”中的文本“有扎實(shí)的美術(shù)功底”和“精通PhotoshopDreamweaverIllustrator等設(shè)計(jì)軟件”與求職者特征“掌握技能”中“熟悉掌握PhotoshopDreamweaverIllustrator等軟件操作”等信息具有很高的匹配度,而這些特征屬性中蘊(yùn)含的重要信息往往促成求職者和崗位之間的匹配。但是長(zhǎng)文本匹配度計(jì)算較為困難,本文將引入自然語(yǔ)言處理技術(shù),采用Doc2vec的方法將文本進(jìn)行向量化,計(jì)算求職者特征屬性中的“項(xiàng)目經(jīng)歷”、“掌握技能”與崗位特征屬性中的“任職要求”、“崗位職責(zé)”相互對(duì)應(yīng)的兩個(gè)長(zhǎng)文本之間的相似度,來(lái)判斷兩對(duì)特征的匹配度。
表2 崗位長(zhǎng)文本特征案例Tab.2 Cases of long text characteristics of posts
表3 求職者長(zhǎng)文本特征案例Tab.3 Longtext characteristics of job seekers
Doc2Vec是Le Q和Mikolov T在2014年提出的一種非監(jiān)督式算法[14],基于Word2vec[15]進(jìn)而獲取句子/段落/文檔的向量表達(dá),學(xué)習(xí)出來(lái)的向量可以通過(guò)計(jì)算距離,獲得句子/段落/文檔之間的相似性。
在Doc2vec向量模型中,長(zhǎng)文本的唯一標(biāo)志ID被映射成矩陣D的列向量,而文檔中的每個(gè)詞也被映射為一個(gè)獨(dú)立向量,作為權(quán)重矩陣W的一列。然后,對(duì)這個(gè)文檔標(biāo)記向量以及對(duì)這些詞向量求平均或者首尾相連構(gòu)建,用來(lái)預(yù)測(cè)文本中的下一個(gè)詞。Doc2vec與Word2vec唯一不同之處在于從W和D兩個(gè)矩陣中構(gòu)建H。文檔的標(biāo)識(shí)被當(dāng)做另外一個(gè)“詞”看待,用來(lái)記憶當(dāng)前文本或者文章主題。因此,把這個(gè)模型稱為文檔向量的分布記憶模型(distributed memory model of paragraph vectors,PV-DM)。在訓(xùn)練的每個(gè)步驟中,從隨機(jī)段落中采樣固定長(zhǎng)度的上下文,用于計(jì)算誤差梯度,以更新模型中的參數(shù)。如圖2所示,以求職者特征屬性“掌握技能”中的長(zhǎng)文本為例,將其文本ID映射為矩陣向量,通過(guò)聯(lián)合后續(xù)“熟練”、“掌握”和“Photoshop”的詞向量,構(gòu)建聯(lián)合矩陣,用來(lái)預(yù)測(cè)下一個(gè)詞匯“Dreamweaver”的向量表示。
圖2 PV-DM模型Fig.2 PV-DM model
這個(gè)算法有兩個(gè)關(guān)鍵階段:1)通過(guò)訓(xùn)練獲得詞向量矩陣W,softmax權(quán)重U,偏置項(xiàng)b以及文檔向量D;2)第二個(gè)階段是推斷階段,用于取得一個(gè)新文檔的文檔向量D,通過(guò)在矩陣D里增加更多的列,并保持W,U,b不變,在矩陣D上進(jìn)行梯度下降。使用輸出的V作為文檔的向量表示。
本文中采用Doc2vec技術(shù),將所有求職者和崗位樣本數(shù)據(jù)中的求職者特征和崗位特征屬性“項(xiàng)目經(jīng)歷”與“任職要求”、“崗位職責(zé)”與“掌握技能”的長(zhǎng)文本屬性值作為兩個(gè)語(yǔ)料庫(kù),分別進(jìn)行文檔向量的訓(xùn)練。在訓(xùn)練之后,獲取求職者或崗位相對(duì)應(yīng)特征屬性的文檔向量;然后,通過(guò)計(jì)算文檔之間的余弦距離,獲取對(duì)應(yīng)特征屬性的相似度;最后,累加獲得文本相似計(jì)算層特征的匹配度。
(6)
pdoc=Si1?j1+Si2?j2+Si3?j3。
(7)
其中:Vi表示特征屬性i的文檔向量,Vj表示特征屬性j的文檔向量;Si1?j1表示特征屬性i和j長(zhǎng)文本的相似度,i?j={項(xiàng)目經(jīng)歷?任職要求,崗位職責(zé)?掌握技能};pdoc表示為求職者和崗位之間文本相似計(jì)算層的相似度。
1.2.4綜合人崗匹配度計(jì)算
通過(guò)綜合直接過(guò)濾層特征匹配式(1)、泛化后計(jì)算層特征式(5)和文本相似性計(jì)算層式(6),獲得求職者和崗位之間的匹配度,計(jì)算公式如式(8)所示:
Pcom=pdir×pqua×pdoc×pact。
(8)
其中:pact表示求職者針對(duì)崗位的行為特征,如果收藏或者投遞,則pact=1。Pcom表示求職者和崗位之間的綜合匹配度,其值如果小于1,則表示人崗匹配不成功;當(dāng)1 鑒于求職者本人的簡(jiǎn)歷信息和招聘單位發(fā)布的崗位信息之間存在天然信息匹配項(xiàng),所以本文在基于內(nèi)容的推薦算法基礎(chǔ)上,構(gòu)建人崗特征體系,采用分層法對(duì)人崗特征進(jìn)行分層處理,針對(duì)不同特征屬性進(jìn)行匹配。然后綜合計(jì)算崗位與求職者特征之間的匹配度,充分考慮人崗不同的特征屬性具有獨(dú)特的特性,同時(shí)在匹配過(guò)程中不同屬性具有不同的權(quán)重大小。利用自然語(yǔ)言處理技術(shù),通過(guò)引入Doc2vec方法挖掘具有長(zhǎng)文本的人崗特征屬性的深度語(yǔ)義,解決了求職者和崗位特征中長(zhǎng)文本匹配難題,提高了長(zhǎng)文本特征屬性深度語(yǔ)義在人崗精準(zhǔn)匹配中的應(yīng)用。本文所提結(jié)合深度語(yǔ)義特征的人崗精準(zhǔn)匹配算法對(duì)于提供更加精準(zhǔn)、全面、個(gè)性化的就業(yè)服務(wù)具有較大的應(yīng)用價(jià)值。2 結(jié)論