• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞向量在崗位描述與簡歷中的分布特征及其應(yīng)用

      2020-03-02 11:36:35曾澤明陳志軒鄧一星
      軟件 2020年1期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

      曾澤明 陳志軒 鄧一星

      摘 ?要: 崗位與簡歷的自動化和智能化匹配在人力資源開發(fā)與管理中具有重要意義,目前的主流方法是根據(jù)與崗位有關(guān)的幾個關(guān)鍵字詞來匹配查詢,未能考慮崗位描述中的有關(guān)職責(zé)、技能和成果等方面的綜合要求。針對此問題,提出了一種基于詞向量和行業(yè)近義詞表的崗位匹配與推薦方法。該方法利用Skip-gram模型進行了詞向量學(xué)習(xí),然后依據(jù)詞向量相似度對簡歷進行行業(yè)分類,最后考慮專業(yè)近義詞的近義程度指數(shù)和崗位描述與簡歷文本的匹配結(jié)果提出崗位推薦。

      關(guān)鍵詞: 詞向量;神經(jīng)網(wǎng)絡(luò);崗位描述;崗位匹配

      中圖分類號: TP391.3 ? ?文獻標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.011

      本文著錄格式:曾澤明,陳志軒,鄧一星. 詞向量在崗位描述與簡歷中的分布特征及其應(yīng)用[J]. 軟件,2020,41(01):5054

      【Abstract】: It is of great significance in the development and management of human resources in organizations to automatic and intelligent in pre-screening resumes and matching to the job descriptions of opening positions. The current mainstream method is still to match the query according to several key words related to the job, but fails to consider the comprehensive requirements such as responsibilities, skills and achievements. To solve this problem, a position matching and recommendation method based on word vector and industry synonym table is proposed. This method uses skip gram model to learn the word vector, and then classifies the resume according to the word vector similarity. Finally, it proposes the position recommendation considering the similarity index of the professional synonyms and the matching result of the position description and the resume text.

      【Key words】: Word vector; Neural network; Job description; Job matching

      0 ?引言

      隨著互聯(lián)網(wǎng)的日益普及,招聘網(wǎng)站及網(wǎng)上社交媒體已經(jīng)為人才招聘的主要來源[1],崗位的招聘信息與各種求職簡歷數(shù)量也呈爆炸型增長。對雇主和求職者而言,分析和匹配崗位信息顯得愈發(fā)困難。傳統(tǒng)的關(guān)鍵詞查詢很難達(dá)到精準(zhǔn)匹配的要求,而招聘信息與求職簡歷這類短文本所具有的信息稀疏等特點使得智能化處理與分析更為復(fù)雜。本文用基于神經(jīng)網(wǎng)絡(luò)和詞向量的方法,通過對不同行業(yè)的相同的詞的詞向量在向量空間上的分布規(guī)律的研究,進而對簡歷以行業(yè)為類別進行分類、結(jié)合簡歷和崗位描述文本的特點探索簡歷和崗位描述之間的近義詞表,以及計算簡歷與崗位描述之間的匹配度,為智能化職業(yè)推薦提供依據(jù)。

      1 ?文本特點和表示學(xué)習(xí)

      本文的研究對象是崗位描述及求職者簡歷的短文本。根據(jù)Harris等提出的分布假說,文本分析的對象是詞和上下文。并且認(rèn)為具有相似上下文的詞,會有相似的語義,并且其詞向量的向量空間相對距離會更接近。因此,針對本文的研究場合,首先對文本特點進行分析,進而選擇表示學(xué)習(xí)的模型。

      1.1 ?文本特點

      本文所使用的文本數(shù)據(jù)來源于招聘平臺上的實時招聘信息中的崗位描述和求職者的簡歷,此兩者的文本長度較短,都具有相應(yīng)行業(yè)的語言信息,其中職位描述專業(yè)詞較多,而簡歷文本偏口語化。通過對崗位描述和簡歷內(nèi)容的比對,發(fā)現(xiàn)其中崗位職能的描述與簡歷中技能的表述不盡相同。文本特點的比較如表1所示,比如專業(yè)詞匯和職位的公司發(fā)展描述在簡歷里是沒有的,而簡歷中的項目經(jīng)歷和未來愿景在職位描述中也是沒有與之對應(yīng)的,只有崗位能力要求與知識點能相互對應(yīng)。

      1.2 ?表示學(xué)習(xí)與詞向量

      目前在使用深度學(xué)習(xí)處理NLP任務(wù)上,詞向量的表示方法應(yīng)用廣泛。詞向量是一種分布式的詞表示方式,它能從大量無標(biāo)注的語料中學(xué)習(xí)到詞與詞之間的語言信息,能夠表示詞與詞之間存在的“距離”概念和包含更多信息,并且每一維都有特定的含義。與傳統(tǒng)的詞袋模型(bag of words, BOW)表示相比,詞向量具有低維度和稠密的特點[2]。目前已有很多開源工具可以訓(xùn)練學(xué)習(xí)詞向量,如word2vec和GolVe等。

      1.3 ?Skip-gram模型和CBOW模型

      Mikolov等人在文獻中,同時提出了CBOW (Continuous Bag of Words)和Skip-gram模型,圖1為兩個模型的模型圖。

      CBOW模型的訓(xùn)練輸入是某一個特征詞的上下文相關(guān)的詞對應(yīng)的詞向量,而輸出就是這特定的一個詞的詞向量。

      Skip-Gram模型和CBOW的思路是反著來的,即輸入是特定的一個詞的詞向量,而輸出是特定詞對應(yīng)的上下文詞向量。

      根據(jù)來斯惟等的實驗結(jié)論,一個領(lǐng)域相似的語料,語料越大越好。語料小的時候用Skip-gram模型效果要優(yōu)于CBOW模型。根據(jù)崗位描述和簡歷的短文本和數(shù)據(jù)量少的特點,本文選用Skip-gram模型進行訓(xùn)練,選用50維的詞向量表示。

      2 ?文本匹配過程

      本文認(rèn)為文本相似度就是詞向量的相似度,即詞向量相似的文本,其文本語義也是相似的。通過特定行業(yè)的詞向量庫與從簡歷訓(xùn)練出的詞向量計算相似度并分類,得到分類后的簡歷,然后通過行業(yè)近義詞表計算簡歷與所屬行業(yè)的崗位描述的相似度,最后做出崗位推薦。

      2.1 ?文本預(yù)處理

      文本預(yù)處理是在訓(xùn)練詞向量前必要的一步,其主要包括分詞、去停用詞和無效的字[4-8]。中文分詞處理的優(yōu)劣直接影響到后續(xù)自然語言處理任務(wù)的優(yōu)劣?,F(xiàn)今的分詞算法主要分為傳統(tǒng)的機器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)分詞模型。神經(jīng)網(wǎng)絡(luò)分詞模型短短數(shù)年間取得長足進步,但整體上仍然不敵傳統(tǒng)模型。無論是分詞精度還是計算效率上,和傳統(tǒng)方法相比并不具有顯著優(yōu)勢。Jieba是比較好的分詞開源工具,本文采用的分詞算法使用jieba開源工具實現(xiàn)。該算法基于前綴詞典實現(xiàn)詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG),采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合。對于未登錄詞,采用了基于漢字成詞能力的HMM模型,采用Viterbi算法進行計算。然后使用哈爾濱工業(yè)大學(xué)停用詞表去除停用詞和無效的字符(比如,標(biāo)點符號等),最后得到分詞后的行業(yè)語料庫。

      2.2 ?文本詞向量的獲取

      為了獲得高質(zhì)量的詞向量,將其按行業(yè)分類得到行業(yè)崗位描述的語料庫,隨后利用word2vec開源工具中Skip-gram模型對語料庫進行訓(xùn)練,獲得了50維的詞向量表示,這些詞向量就作為特定行業(yè)的詞向量庫。

      2.3 ?相似度計算

      將簡歷訓(xùn)練成詞向量后與各個行業(yè)的詞向量進行相似度計算。將簡歷分詞后的每個詞在行業(yè)語料庫中找與之相同的詞,將匹配的詞的詞向量進行相似度計算累加后平均,計算公式為:

      2.5 ?職位推薦方法

      由于崗位描述和簡歷相對應(yīng)的文本較短,故直接使用傳統(tǒng)詞向量的方法效果較差。對此本文提出基于崗位描述與簡歷在特定行業(yè)的相似度確定行業(yè)內(nèi)的詞與詞的近義程度,量化了行業(yè)知識點之間的相似度。圖2描述了崗位推薦的過程,將崗位描述和簡歷中的知識點關(guān)鍵詞提取出來,逐一查該領(lǐng)域的近義詞表累加得分,最終得到與該簡歷較為相似的職位排名,取前n個做出推薦。

      3 ?實驗分析

      3.1 ?數(shù)據(jù)來源

      本文數(shù)據(jù)來源于前程無憂(NASDAQ:JOBS,https://www.51job.com)網(wǎng)上平臺的公開數(shù)據(jù),包括行業(yè)、職能、公司基本情況和崗位描述等文本信息。本文使用了2018年1月至2019年6月期間的招聘信息,包括IT、教育、金融和財務(wù)、醫(yī)療衛(wèi)生和房地產(chǎn)5行業(yè)400000條崗位描述。表2展示了數(shù)據(jù)集的構(gòu)成。

      3.2 ?實驗設(shè)置

      根據(jù)表3描述的數(shù)據(jù)集,本文模型使用的實驗參數(shù)如表3。

      3.3 ?實驗結(jié)果

      本文首先對訓(xùn)練出來的行業(yè)詞向量進行分析,確定行業(yè)近義詞表。表4是IT和醫(yī)療衛(wèi)生行業(yè)的部分近義詞和近義程度的示例。

      醫(yī)療衛(wèi)生和房地產(chǎn)兩大行業(yè)詞向量庫進行比對,提取出相同的30個詞的詞向量使用PCA (Principal Component Analysis)降維,在二維平面上可視化,如圖3所示。

      從這兩張圖的對比可知,不同行業(yè)的相同的詞的詞向量分布(空間上的方向和長度)表示不同,這意味著它們所攜帶的語言信息不同。

      本文進一步對醫(yī)療衛(wèi)生和房地產(chǎn)兩大行業(yè)詞向量庫中的單個詞進行分析,針對相同的詞與其相似的詞的詞向量進行可視化分析。圖3是在醫(yī)療衛(wèi)生行業(yè)和房地產(chǎn)行業(yè)中關(guān)鍵詞“銷售”及空間分布相近15個詞的詞向量分布的比較。

      從圖4可知,詞與之相近詞的詞向量分布因行業(yè)不同有很大差異,其相近詞的詞向量分布也截然不同。這表明某個詞在不同行業(yè)的語言意義也不同,與之相近詞的關(guān)系也具有很大差異。

      基于以上分析結(jié)論,不同行業(yè)的簡歷對特定行業(yè)的描述也具有偏向性。因此,可先將簡歷用詞向量來表示,再與各行業(yè)詞向量做相似度計算,來對簡歷進行行業(yè)分類。本文采用了歐式距離、曼哈頓距離和余弦相似度等3種計算向量相似度的函數(shù)進行了相似度計算。對于相同行業(yè)3種相似度函數(shù)的相似度計算結(jié)果的比較如表5所示。

      該對比試驗中,不同的函數(shù)計算行業(yè)語料庫與簡歷文本相似度的結(jié)果有較大的差異,其中使用曼哈頓距離作為衡量相似度的函數(shù)準(zhǔn)確率最高。本文所使用的崗位描述和簡歷實質(zhì)上是短文本類型語料,其訓(xùn)練出的詞向量,特征較為稀疏,對特定行業(yè)有偏向性,而曼哈頓距離函數(shù)只對特定維度的距離進行計算。而余弦相似度函數(shù)更注重向量在方向上的差異,而對距離或長度不敏感,歐式距離在數(shù)據(jù)較為稠密且連續(xù)時效果會更好,從而導(dǎo)致兩者效果較差。

      分類后的簡歷與行業(yè)中的崗位描述,通過行業(yè)近義詞表計算相似度、排序、做出推薦。系統(tǒng)推薦的崗位與簡歷的理想崗位基本吻合,崗位所要求的知識點技能全都具備。表6展示了計算機、數(shù)據(jù)、房地產(chǎn)和金融行業(yè)的部分實驗結(jié)果。

      4 ?總結(jié)與展望

      通過神經(jīng)網(wǎng)絡(luò)詞向量的計算,以及不同行業(yè)的相同詞的詞向量分布的比較,發(fā)現(xiàn)由于不同行業(yè)詞的文本語義不同在其詞向量分布特征上表現(xiàn)出明顯的差異,并對特定行業(yè)有顯著的偏向性。據(jù)此特性,采用詞向量曼哈頓距離函數(shù)相似度進一步對簡歷進行了行業(yè)分類。本文還對相同行業(yè)中的近義詞的近義程度指數(shù)做了初步探討,結(jié)合神經(jīng)網(wǎng)絡(luò)詞向量的分布特征,量化了崗位描述和簡歷之間的關(guān)聯(lián)關(guān)系,并應(yīng)用于簡歷與崗位描述的匹配,進一步提出了基于詞向量的崗位推薦流程。實驗表明,基于詞向量相似度的崗位推薦方法的計算結(jié)果與實際比較吻合,該方法及流程對短文本信息稀疏的智能化處理與分析有較好的參考意義。

      參考文獻

      [1] Spherion Staffing Services. Latest Emerging Workforce Study Discovers New Workplace Realities and Signifi-cant Employer/Employee Disconnects.www.Spherion. com/Documents/ 2013EWSQ1_FINAL. pdf, January 2013.

      [2] 于政. 基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 華東師范大學(xué), 2016.

      [3] 王彬宇, 劉文芬, 胡學(xué)先, 魏江宏. 基于余弦距離選取初始簇中心的文本聚類研究[J]. 計算機工程與應(yīng)用, 2018(10):

      13-17.

      [4] 陳磊磊. 不同距離測度的K-Means 文本聚類研究[J]. 軟件, 2015, 36(1): 56-61.

      [5] 謝子超. 非結(jié)構(gòu)化文本的自動分類檢索平臺的研究與實現(xiàn)[J]. 軟件, 2015, 36(11): 112-114.

      [6] 劉騰飛, 于雙元, 張洪濤, 等. 基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 軟件, 2018, 39(01): 64-69.

      [7] 陳海紅. 多核SVM文本分類研究[J]. 軟件, 2015, 36(5): 7-10.

      [8] 張曉明, 尹鴻峰. 基于卷積神經(jīng)網(wǎng)絡(luò)和語義信息的場景分類[J]. 軟件, 2018, 39(01): 29-34.

      [9] 于政. 基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 華東師范大學(xué), 2016.

      [10] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

      [11] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proc of the 2014 Conf on Empirical Methods in Natural Language Processing(EMNLP), 2014: 1532-1543.

      [12] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. International Conference on Learning Representations Workshop Track, CoRR abs/1301. 3781 2013.

      [13] 來斯惟. 基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究[D]. 2016.

      [14] 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報, 2007, 21(3): 8-19.

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)
      BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識別上的應(yīng)用研究
      基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個人信用評估
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
      電子制作(2019年24期)2019-02-23 13:22:36
      基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
      電測與儀表(2014年2期)2014-04-04 09:04:04
      巴里| 镇江市| 巨野县| 哈尔滨市| 汉中市| 华坪县| 乐东| 奇台县| 阜康市| 南阳市| 呼伦贝尔市| 清镇市| 泰州市| 云龙县| 神木县| 呼图壁县| 青阳县| 敦煌市| 延长县| 美姑县| 金华市| 河津市| 运城市| 阿克苏市| 沁水县| 砚山县| 灵武市| 蕲春县| 淮滨县| 武功县| 丰城市| 银川市| 尼勒克县| 营口市| 富源县| 平邑县| 延津县| 泰兴市| 武宁县| 黑龙江省| 新化县|