張學(xué)新,賈園園,饒 希,蔡 黎
(湖北工程學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,湖北孝感 432000)
海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的挖掘分析
張學(xué)新,賈園園,饒 希,蔡 黎
(湖北工程學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,湖北孝感 432000)
網(wǎng)絡(luò)招聘憑借其獨(dú)特優(yōu)勢,己成為招聘者發(fā)布信息和應(yīng)聘者獲取信息的主要渠道,挖掘海量網(wǎng)絡(luò)招聘信息里隱含的社會和相關(guān)行業(yè)的需求特點(diǎn)與趨勢有著非常重要的意義。本文抓取拉勾網(wǎng)站發(fā)布的50多萬條招聘數(shù)據(jù)及58同城兩千多條應(yīng)聘數(shù)據(jù),先對其中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行去重去空、中文分詞及停用詞過濾等數(shù)據(jù)預(yù)處理,再使用TF-IDF權(quán)重法提取候選特征詞,形成詞袋,構(gòu)造詞匯-文本矩陣,利用基于潛在語義(LSA)分析的奇異值分解算法(SVD)對詞匯-文本矩陣進(jìn)行空間語義降維,最后通過k-means聚類算法對職位的職業(yè)類型和專業(yè)領(lǐng)域進(jìn)行劃分,找出熱門需求,分析大數(shù)據(jù)職位需求情況與行業(yè)分布情況、大數(shù)據(jù)職位技能要求及IT行業(yè)供求與發(fā)展;對相關(guān)結(jié)果進(jìn)行可視化展示,并運(yùn)用關(guān)聯(lián)規(guī)則挖掘信息間的內(nèi)在聯(lián)系。
大數(shù)據(jù);網(wǎng)絡(luò)招聘信息;TF-IDF;奇異值分解;Python語言
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,企業(yè)把人才招聘信息越來越多地發(fā)布到互聯(lián)網(wǎng)上,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)包含用人單位對人才的需求及能力要求信息,在一定程度上代表了人才需求的未來走向。但是,對模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行挖掘比較困難,涉及統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及專業(yè)軟件使用等技術(shù)。國內(nèi)對這方面的挖掘研究很少。鐘曉旭[1-2]先后對2010年的3家招聘網(wǎng)站的78481條招聘信息及新安人才網(wǎng)上計算機(jī)類專業(yè)招聘信息進(jìn)行聚類,統(tǒng)計各個職位的需求量,計算職位間的相關(guān)系數(shù)。王靜[3]選擇2011年的4家招聘網(wǎng)站、包括6種職業(yè)的2262個招聘網(wǎng)頁,采用偽二維隱馬爾可夫模型來分割,抽取其中的職位名、機(jī)構(gòu)名等信息??偟膩碚f,這些文本挖掘的研究深度有限,所用數(shù)據(jù)不是真正意義上的網(wǎng)絡(luò)招聘數(shù)據(jù),不是大量非結(jié)構(gòu)化的招聘數(shù)據(jù);統(tǒng)計分析方法簡單,很少使用軟件編程。本文利用八爪魚采集器,結(jié)合Python語言爬取自2015年11月至2016年4月拉鉤網(wǎng)25萬多條企業(yè)招聘信息(http://www.lagou.com),58同城網(wǎng)上北京地區(qū)的人才招聘信息共2219條,深入挖掘并可視化海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的有關(guān)信息。
觀察抓取的數(shù)據(jù),招聘信息.csv中的字段大多為文本格式,需要將其量化成數(shù)值形式才能對其進(jìn)行分析。而職位描述.csv中有大量空行以及重復(fù)的情況,如果不做處理會對后續(xù)分析造成影響,并且招聘文本信息存在大量噪聲特征,如果把這些數(shù)據(jù)也引入進(jìn)行分詞、詞頻統(tǒng)計乃至文本聚類等,則必然會對聚類結(jié)果的質(zhì)量造成很大的影響,因此首先要對數(shù)據(jù)進(jìn)行預(yù)處理。
1.1 屬性數(shù)值化
對于招聘信息.csv、Salary(月薪)、Work Year(工作經(jīng)驗(yàn))、Position Advantage(職位優(yōu)勢)、Finance Stage(公司階段)、Education(學(xué)歷要求)、Company Size(公司規(guī)模)等指標(biāo),需要將其數(shù)值化,例如:Salary出現(xiàn)3種字符類型:8k~12k、8k以下、12k以上,正則表達(dá)式轉(zhuǎn)換為數(shù)字型:10、8、12,單位:k;Finance Stage:初創(chuàng)型(未融資)、初創(chuàng)型(不需要融資)、初創(chuàng)型(天使輪)、成長型(不需要融資)、成長型(A輪)、成長型(B輪)、成熟型(不需要融資)、成熟型(C輪)、成熟型(D輪及以上)、上市公司。編碼轉(zhuǎn)換為:初創(chuàng)型—B1、成長型—B2、成熟型—B3、上市公司—B4。
1.2 去重、去空
對職位描述.csv,存在大量空行和崗位描述文本完全一致的樣本,去除后數(shù)據(jù)僅剩365890行。
1.3 中文分詞
由于中文文本的特點(diǎn)是詞與詞之間沒有明顯的界限,從文本中提取詞語時需要分詞,本文采用Python開發(fā)的一個中文分詞模塊——jieba分詞,對每一個崗位描述進(jìn)行中文分詞,jieba分詞的原理是采用Trie樹進(jìn)行詞圖掃描,得到一個有向無環(huán)圖(DAG),其中包括漢字所有可能的構(gòu)詞。對句子中詞的切分采用最大概率(詞頻的最大)方法,對詞典中沒有的詞,采用Viterbi算法,使用HMM模型處理。該分詞系統(tǒng)具有分詞、詞性標(biāo)注、未登錄詞識別,支持用戶自定義詞典、關(guān)鍵詞提取等功能。
部分分詞結(jié)果示例如圖1所示。
圖1 部分分詞結(jié)果
圖1的分詞結(jié)果是沒有停用詞過濾的結(jié)果,可以看到,其中含有大量標(biāo)點(diǎn)及表達(dá)無意義的字詞,對后續(xù)分析會造成很大影響,因此接下來需要進(jìn)行停用詞過濾。
1.4 停用詞過濾
把文本里某些無實(shí)義的介詞、連詞、分號等字符,以及某些無助于分類的專用名詞過濾掉,以減少存儲空間,提高搜索效率。停用詞有兩個特征:一是極其普遍、出現(xiàn)頻率高;二是包含信息量低,對文本標(biāo)識無意義。
2.1 文檔頻數(shù)(DF)
文檔頻數(shù)(DF)即訓(xùn)練集合中包含某單詞的文本數(shù)。當(dāng)一個詞在大量文檔中出現(xiàn)時,這個詞通常被認(rèn)為是噪聲詞。本文選用DF方法篩選出如下停用詞:我、有、的、了、是,等。將篩選出的停用詞加入停用詞表,再利用停用詞表過濾停用詞,將分詞結(jié)果與停用詞表中的詞語進(jìn)行匹配,若匹配成功,則進(jìn)行刪除處理。去除停用詞后的部分結(jié)果示例如圖2所示。
2.2 文本特征抽取
經(jīng)過上述文本預(yù)處理后,雖然已經(jīng)去掉部分停用詞,但還是包含大量詞語,給文本向量化過程帶來困難,所以特征抽取的主要目的是在不改變文本原有核心信息的情況下盡量減少要處理的詞數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。
圖2 停用詞過濾后分詞結(jié)果
在Shannon的信息論的解釋中,如果特征項在所有文本中出現(xiàn)的頻率越高,它所包含的信息嫡越??;如果特征項集中在少數(shù)文本中,即在少數(shù)文本中出現(xiàn)頻率較高,則它所具有的信息嫡也較高。這樣詞的權(quán)重可以定義為wij=tfij×idfi,將權(quán)重按照從大到小的順序排列,抽取權(quán)重最大的前50000個特征詞作為候選特征詞。
2.3 文本的空間向量模型[5]
用向量空間的一個向量表示每一個文本,并以每一個不同的特征項(詞條)對應(yīng)為向量空間中的一個維度,而每一個維度的值就是對應(yīng)的特征項在文本中的權(quán)重,這里的權(quán)重可以由TF-IDF等算法得到。向量空間模型就是將文本表示成為一個特征向量V(d)=(wi)n×1,其中,ti為文檔d中的特征項,wi為該特征項的權(quán)值,可由TF-IDF算法得出。
2.4 文本的向量化表示
上述文本特征抽取將全部特征項篩選為50000個候選特征項,這時需要構(gòu)建一個詞袋,根據(jù)招聘文本的特征項對應(yīng)詞袋中的位置,組成一個同維數(shù)的向量,最后得到一個詞匯-文本矩陣(wij)m×n,其每一行表示一個特征項在各個文檔中的權(quán)重,每一列表示一個文檔向量。表1和表2是部分結(jié)果顯示。
表1 詞匯-文本詞頻矩陣
2.5 語義空間降維
理論上,當(dāng)?shù)贸鑫谋鞠蛄亢缶涂梢灾苯颖容^兩向量夾角的余弦值進(jìn)行相似度的計算。但可以發(fā)現(xiàn),現(xiàn)在構(gòu)造的詞匯-文本矩陣是一個50000×365890的巨大矩陣,計算起來比較困難。另外,招聘信息文本信息中存在同義詞和近義詞等詞語,即使通過特征抽取轉(zhuǎn)化得到的文本向量也可能達(dá)不到自然語言屬性本質(zhì)的要求。
因此,這里需要借用潛在語義分析(LSA)理論,將招聘信息的文本向量空間中非完全正交的多維特征投影到維數(shù)較少的潛在語義空間上。而LSA對特征空間進(jìn)行處理時用的關(guān)鍵技術(shù)就是奇異值分解(SVD),在統(tǒng)計學(xué)上,它是針對矩陣中的特征向量進(jìn)行分解和壓縮的技術(shù)。
2.6 奇異值分解的基本原理
奇異值分解可以將網(wǎng)頁文本通過向量轉(zhuǎn)換后的非完全正交的多維特征投影到較少的一個潛在語義空間中,同時保持原空間的語義特征,從而可以實(shí)現(xiàn)對特征空間的降噪和降維處理。
對于任意的矩陣A=Am×n,這里是由招聘文本信息組成的詞匯-文本矩陣。它的奇異值分解表達(dá)式為A=U∑VT,其中,Um×m是酉矩陣,∑m×n是對角矩陣,Vn×n是酉矩陣。∑對角線上的元素是A的奇異值,∑=diag(σ1,σ2,…,σr,0,…,0),其中σ1≥σ2≥…≥σr>0。
奇異值分解定理[6]設(shè)A∈Rm×n,且r=rank(A)≤min(m,n),則存在正交矩陣U∈Rm×n和V∈Rm×n,對角矩陣∑∈Rm×n,∑=diag(σ1,σ2,…,σr,0,…,0),其中σ1≥σ2≥…≥σr>0,使得
A=U∑VT.
(1)
2.7 詞匯-文本矩陣的奇異值分解
對于矩陣詞匯-文檔矩陣Am×n的奇異值分解可表示為Am×n=Um×m∑m×nVn×nT,其中,Um×m稱為詞匯矩陣,每一行可以理解為意思相關(guān)的一類詞,行中的元素就是某個詞與該行其它詞的相關(guān)性大小的度量,而Vn×nT視為文檔矩陣,它的每一列都表示招聘信息中同一主題一類的文本,其中的每個元素代表這類文本中每篇文本的相關(guān)性,∑m×n矩陣表示的是某類詞與招聘文本之間的相關(guān)性。在生成的這個“語義空間”中,大的奇異值對應(yīng)的維度更具詞的共性,而小的奇異值所對應(yīng)的維度更具有詞的個性。
對Um×m及Vn×n進(jìn)行行分塊,得到
(2)
Am×n≈Um×k∑k×kVk×nT?Ak.
(3)
3.1 文本聚類
相似度是用來衡量文本間相似程度的一個標(biāo)準(zhǔn)。本文采用基于距離度量的歐幾里得距離測度招聘文本間差異。文本聚類對無類別標(biāo)記的文本信息,根據(jù)不同的特征,將有著各自特征的文本進(jìn)行分類,使用相似度計算將具有相同屬性或者相似屬性的文本聚類在一起。通過對不同職位進(jìn)行分類,求職者可以結(jié)合自身狀況更加快捷地獲取相關(guān)信息資源。
聚類結(jié)果顯示,目前所需人才分為產(chǎn)品類、技術(shù)類、運(yùn)營類、金融類、設(shè)計類、市場與銷售類、職能類等類型;人才需求中分為移動互聯(lián)網(wǎng)、電子商務(wù)、分類信息、廣告營銷、教育、金融、旅游、企業(yè)服務(wù)、社交網(wǎng)絡(luò)、生活服務(wù)、數(shù)據(jù)服務(wù)、文化娛樂、信息安全、醫(yī)療健康、硬件、游戲、招聘等專業(yè)領(lǐng)域。
3.2 分析熱門需求
首先,要定義何為熱門需求,本文認(rèn)為熱門需求具備以下幾個特征:普遍供不應(yīng)求、企業(yè)需求量大、平均工資高、未來需求量大、發(fā)展前景好。本文用企業(yè)發(fā)布招聘信息數(shù)量、平均薪水、發(fā)展階段與公司規(guī)模描述人才需求情況。所抓取的文檔涉及300個大中小地域,利用python 2.7求得各個地域發(fā)布的招聘信息量,首先篩選出發(fā)布信息量在前33名的地域占總招聘信息數(shù)的98.89%,因此其余267個城市可以忽略不計,進(jìn)而構(gòu)造上述指標(biāo),運(yùn)用主成分分析法構(gòu)建綜合排名算法對其進(jìn)行綜合排名。熱門行業(yè)排行前五的分別是:移動互聯(lián)網(wǎng)、金融、電子商務(wù)·金融、移動互聯(lián)網(wǎng)·金融、電子商務(wù)。經(jīng)統(tǒng)計,所抓取文檔中共有124類職位,首先篩選出發(fā)布信息量在前37名的行業(yè)占總招聘信息數(shù)的99.83%,因此其余87個行業(yè)可以忽略不計,同樣對其進(jìn)行綜合排名。熱門職位排行前五的分別是:后端開發(fā)、運(yùn)營、銷售、視覺設(shè)計、編輯。
3.3 未來人才需求走向
對于熱門地域前五名,即北京、上海、深圳、杭州、廣州,分析其對學(xué)歷的需求,大多以本科、??茷橹?;分析其對工作經(jīng)驗(yàn)的需求,要求大多在1~3年。分析各月發(fā)布的招聘信息中,熱門地域所占比例均大于80%,占較大比重,且趨勢較均衡,可以看出近期熱門地域?qū)θ瞬诺男枨笕匀缓艽蟆?/p>
3.4 大數(shù)據(jù)職位需求情況
首先需要將大數(shù)據(jù)相關(guān)職位篩選出來進(jìn)行分析,本文通過對大數(shù)據(jù)相關(guān)職位的職位名稱特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)其職位名稱大多包含“數(shù)據(jù)”二字,但是某些職位如“數(shù)據(jù)庫開發(fā)師”“數(shù)據(jù)倉庫工程師”等并不屬于大數(shù)據(jù)相關(guān)職位,因此,本文在篩選數(shù)據(jù)時,只在職位名稱文檔中選出包含“數(shù)據(jù)”字段且不包含“數(shù)據(jù)庫”與“數(shù)據(jù)倉庫”字段的數(shù)據(jù),共得到10958條招聘信息。
3.5 關(guān)聯(lián)規(guī)則挖掘[7]
進(jìn)行關(guān)聯(lián)規(guī)則挖掘時,首先對數(shù)據(jù)進(jìn)行編碼,將文本型數(shù)據(jù)轉(zhuǎn)換為分類數(shù)據(jù),編碼結(jié)果是,城市C1~C4,對應(yīng)一線城市~四線城市;公司規(guī)模B1~B4,對應(yīng)員工50人以下~500人以上;應(yīng)聘者教育水平E1~E4,對應(yīng)大專及學(xué)歷不限~博士;公司金融狀況F1~F4,對應(yīng)初創(chuàng)型~上市公司;工作年限要求W1~W4,對應(yīng)1年以下(應(yīng)屆,不限)~5年以上;月薪資水平S1~S7,對應(yīng)5千以下~3萬以上。對編碼后的數(shù)據(jù)對,分析各個指標(biāo)之間的關(guān)聯(lián)規(guī)則(圖3)。
圖3 關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)
關(guān)聯(lián)分析的部分結(jié)果如表3所示,在所有大數(shù)據(jù)相關(guān)職位中,存在的關(guān)聯(lián)規(guī)則如下:如果一個企業(yè)提供的平均薪酬在2萬~2.5萬范圍內(nèi),且要求學(xué)歷是本科,那么這家企業(yè)92.83%的概率在一線城市。如果一家企業(yè)要求的工作經(jīng)驗(yàn)是3~5年,公司規(guī)模是500人以上,位于一線城市,那么它有86.99%的概率需要本科以上學(xué)歷。
表3 關(guān)聯(lián)分析部分結(jié)果
4.1 地區(qū)分布情況
從大數(shù)據(jù)職位的區(qū)域分布來看,“北上深杭廣”等特大一線城市合計占據(jù)89.2%的職位份額,僅北京地區(qū)占比就超過五成。因此,對于大數(shù)據(jù)的職業(yè)發(fā)展來說,“堅守一線城市”才是明智的選擇。
4.2 大數(shù)據(jù)職位技能要求
本文篩選出所有的大數(shù)據(jù)職位與其對應(yīng)編號,按照編號將抓取保存的數(shù)據(jù)集中相應(yīng)的大數(shù)據(jù)職位的崗位描述和任職要求提取出來,利用武漢大學(xué)開發(fā)的ROST文本挖掘系統(tǒng)對這些文本進(jìn)行分詞,由于文本中有大量的專業(yè)術(shù)語如“數(shù)據(jù)分析”“數(shù)據(jù)挖掘”“云計算”等,需要添加自定義的用戶詞典,將這些專業(yè)術(shù)語添加進(jìn)去,然后再進(jìn)行分詞,詞頻統(tǒng)計,畫出詞云圖[8]如圖4所示。
圖4 詞云圖
根據(jù)圖4可以看出,“數(shù)據(jù)”“數(shù)據(jù)分析”“數(shù)據(jù)挖掘”“開發(fā)”“技術(shù)”“算法”“模型”“系統(tǒng)”“互聯(lián)網(wǎng)”等詞語出現(xiàn)頻數(shù)較大,這說明大數(shù)據(jù)相關(guān)職位要求應(yīng)聘者具有良好的數(shù)據(jù)處理與分析能力,其次,“運(yùn)營”“項目”“市場”“客戶”“用戶行為”“營銷”等詞出現(xiàn)頻率也比較高,這說明要求應(yīng)聘者具有對數(shù)據(jù)的業(yè)務(wù)理解能力;另外,“學(xué)歷”“統(tǒng)計學(xué)”“數(shù)學(xué)”“計算機(jī)”等詞語,說明大數(shù)據(jù)相關(guān)職位對與學(xué)歷和專業(yè)都有一定的要求。
越來越多的企業(yè)將“大數(shù)據(jù)”視為未來發(fā)展的“能源”,期待數(shù)據(jù)能給企業(yè)的運(yùn)營、產(chǎn)品策略、市場研究、品牌管理等方面帶來價值。企業(yè)對數(shù)據(jù)分析師等數(shù)據(jù)相關(guān)人才的需求不斷上升。2016年,據(jù)獵聘網(wǎng)人才大數(shù)據(jù)研究中心估計,中高級數(shù)據(jù)分析師的人才處于極度緊缺狀態(tài),人才緊缺指數(shù)在4.5以上。
4.3 IT行業(yè)供求與發(fā)展
IT行業(yè)包括計算機(jī)硬件業(yè)、通信設(shè)備業(yè)、軟件業(yè)、計算機(jī)及通信服務(wù)業(yè)。原始數(shù)據(jù)沒有給出IT人才市場的供應(yīng)量,需要爬取外部網(wǎng)絡(luò)招聘數(shù)據(jù),構(gòu)造TSI人才緊缺指數(shù)來分析IT人才市場的供求現(xiàn)狀和發(fā)展趨勢。
4.4 數(shù)據(jù)來源
4.5 不同職位供求現(xiàn)狀
不同學(xué)歷TSI指數(shù)見圖5和圖6。由于職業(yè)種類很多,本文只對發(fā)布招聘信息數(shù)前8位的職位進(jìn)行供求分析。根據(jù)圖5可以看出,目前IT行業(yè)中網(wǎng)頁設(shè)計/制作以及軟件工程師的人才緊缺指數(shù)較大,呈現(xiàn)供不應(yīng)求的現(xiàn)狀;而硬件工程師、網(wǎng)絡(luò)管理員、電子電器工程師和技術(shù)支持維護(hù)人員的緊缺指數(shù)較低,呈現(xiàn)供過于求的狀態(tài)。根據(jù)圖6可以看出,目前大專學(xué)歷和碩士人才緊缺指數(shù)較大,呈現(xiàn)供不應(yīng)求的現(xiàn)狀;而本科生的人才緊缺指數(shù)較低,呈現(xiàn)供過于求的狀態(tài),可能是由于大學(xué)擴(kuò)招導(dǎo)致本科畢業(yè)生數(shù)量急劇上升,就業(yè)形勢險峻。
圖5 不同職位TSI指數(shù)
圖6 不同學(xué)歷TSI指數(shù)
本文基于TF-IDF權(quán)重法提取特征詞,構(gòu)造詞匯-文本矩陣,進(jìn)一步運(yùn)用基于潛在語義(LSA)分析的奇異值分解算法(SVD)對詞匯-文本矩陣進(jìn)行空間語義降維,通過k-means聚類算法對職位的職業(yè)類型和專業(yè)領(lǐng)域進(jìn)行了聚類;分析了熱門行業(yè)、職位、地域;對大數(shù)據(jù)相關(guān)新興職位,深入挖掘其關(guān)聯(lián)規(guī)則,分析其需求增長趨勢、行業(yè)分布情況、地域分布情況、行業(yè)職位特征、行業(yè)薪酬情況以及技能要求。
得到的聚類結(jié)果準(zhǔn)確度與抓取文檔的結(jié)果在一定程度上有出入,主要是采用歐式距離測度相似性有局限性,k均值算法本身也需要改進(jìn)。在中文文本挖掘過程中如何使用較復(fù)雜的數(shù)學(xué)統(tǒng)計模型值得進(jìn)行深入研究。
[1]鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究[D].合肥:合肥工業(yè)大學(xué),2010.
[2]鐘曉旭,胡學(xué)鋼.基于數(shù)據(jù)挖掘的Web招聘信息相關(guān)性分析[J].安徽建筑工業(yè)學(xué)院學(xué)報:自然科學(xué)版,2010,18(4):23-45.
[3]王靜.Web對象的信息抽取的關(guān)鍵技術(shù)研究[D].西安:西安電子科技大學(xué),2011.
[4]朱明.數(shù)據(jù)挖掘[M].2版.合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.
[5]鄔啟為.基于向量空間的文本聚類方法與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.
[6]鄭慧嬈,陳紹林,莫忠息,等.數(shù)值計算方法[M].2版.武漢:武漢大學(xué)出版社,2012.
[7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006.
[8]Helic D,Trattner C,Strohmaier M,et al.Are tag clouds useful for navigation? A network-theoretic analysis[J].Journal of Social Computing and Cyber-Physical Systems,2011,1(1):33-55.
[9]周健,傅昭南,田茂再.基于TSI指數(shù)的中國運(yùn)輸服務(wù)指數(shù)構(gòu)建[J].系統(tǒng)工程理論與實(shí)踐,2015,35(4):965-972.
DataMiningAnalysisofMassiveUnstructuredNetworkRecruitmentInformation
ZHANG Xue-xin, JIA Yuan-yuan, RAO Xi, CAI Li
(Mathematics and Statistics School,Hubei Engineering University,Xiaogan Hubei 432000,China)
With its unique advantages, network recruitment has become the main channel for recruiters and candidates to release information, thus, it is of great significance to excavate the features and trends of the social & related industries demand hidden in the vast network of recruitment information. This paper crawl out about 500 thousand recruitment texts from Lagou net and more than 2 thousand application job data from 58 tong city. First of all, the unstructured data are reprocessed by discard empty, Chinese word segmenting and stop word filtering and other data preprocessing. Secondly, extracting of candidate feature words using TF-IDF weighting method, formation words bag, structuring term-document matrix, to reduce the dimensionality of the semantic space for term-document matrix based on the singular value decomposition algorithm for latent semantic analysis are carry out. Finally, post types of occupations and areas of specialization are divided through the K-means clustering algorithm, and the hot demand is find out, the demand for big data jobs and big data industry distribution, big data job skill requirements and the development of IT industry are analyzed, also, visualization of the relevant results, and the inherent link between information by association rules mining are implemented.
big data; network recruitment information; TF-IDF; SVD; Python language
TP391.4
A
2095-7602(2017)10-0028-09
2017-05-06
湖北工程學(xué)院教研項目“與大數(shù)據(jù)公司聯(lián)合開展(應(yīng)用)統(tǒng)計學(xué)專業(yè)實(shí)訓(xùn)教學(xué)的探索與思考”(2016A20)。
張學(xué)新(1966- ),男,副教授,博士,從事概率論與數(shù)理統(tǒng)計方法應(yīng)用研究。