孫含笑
摘? 要: 影響大數(shù)據(jù)人才就業(yè)收入的因素紛繁復雜,難以確定其關(guān)鍵影響條件,影響了潛在從業(yè)者的就業(yè)選擇以及從業(yè)人員的自我提升方向。針對這一社會熱點問題,建立基于信息熵的機器學習模型-分類決策樹,分析影響收入的關(guān)鍵因素,進而提出一種基于Keras搭建的新型高精準率神經(jīng)網(wǎng)絡(luò)收入分類模型。該模型能夠精準地確定影響大數(shù)據(jù)人才收入的主要因素,為大數(shù)據(jù)行業(yè)相關(guān)人員提供從業(yè)指導與幫助。
關(guān)鍵詞: 大數(shù)據(jù); 信息熵; 機器學習; 分類決策樹; 神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.4? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)09-26-03
Abstract: The factors that affect the employment income of big data employees are complex, which makes it difficult to determine the key influencing conditions, and affects the employment choice of potential practitioners and the direction of self promotion of employees. In view of this hot social issue, this paper establishes an information entropy based machine learning model, the classification decision tree, to analyze the key factors affecting income, and thereafter proposes a new high precision neural network revenue classification model based on Keras. The model can accurately determine the main factors affecting the income of big data employees, and provide guidance and help for the relevant personnel in big data industry.
Key words: big data; information entropy; machine learning; classification decision tree; neural network
0 引言
數(shù)據(jù)科學與大數(shù)據(jù)技術(shù),簡稱大數(shù)據(jù)。大數(shù)據(jù)是一個新學科。這幾年“大數(shù)據(jù)”成為發(fā)展最快的行業(yè)。大數(shù)據(jù)人才短缺成為掣肘大數(shù)據(jù)行業(yè)發(fā)展的重要因素之一,培養(yǎng)適合社會需求的大數(shù)據(jù)人才是高等教育亟待解決的問題[1]。面對現(xiàn)狀,國內(nèi)眾多高校開設(shè)了大數(shù)據(jù)專業(yè),源源不斷地向國家輸入大數(shù)據(jù)人才。而大數(shù)據(jù)人才在就業(yè)后的工資收入也成為熱議,基于2020年大數(shù)據(jù)就業(yè)統(tǒng)計,研究了北京、上海、廣州、深圳等四個一線城市,以及南京、西安、鄭州、杭州等四個二線城市的大數(shù)據(jù)人才就業(yè)數(shù)據(jù),以期通過現(xiàn)有的數(shù)據(jù)獲得一個好的收入分類模型。
在現(xiàn)有的機器學習[2]分類模型當中,首先考慮決策樹分類[3]模型。決策樹方法最早產(chǎn)生于上世紀六十年代到七十年代末,由JRoss Quinlan提出了ID3算法[4],此算法的目的在于減少樹的深度。ID3算法在進行特征選擇時,ID3算法優(yōu)先選擇信息增益最大的特征,即優(yōu)先選擇對整個系統(tǒng)貢獻最大的特征。通過決策樹算法構(gòu)建決策樹,可以發(fā)現(xiàn)影響收入高低的主要因素。因為傳統(tǒng)的機器學習算法準確率沒有神經(jīng)網(wǎng)絡(luò)算法模型的準確率高,所以通過現(xiàn)有的數(shù)據(jù)集構(gòu)建一個基于Keras的神經(jīng)網(wǎng)絡(luò)算法模型[5],以達到準確的分類效果。
1 研究目的與框架
1.1 研究目的
對于大數(shù)據(jù)人才的收入狀況有許多影響因素,在眾多因素當中,通過建立決策樹分類模型,得到影響就業(yè)收入的主要因素。為了使得模型的分類準確率更高,采用更為智能的神經(jīng)網(wǎng)絡(luò)模型建立分類器。
1.2 研究設(shè)計示意圖
研究和試驗設(shè)計框架示意圖如圖1所示。
2 研究的設(shè)計與實現(xiàn)
2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗
登錄就業(yè)網(wǎng)以及招聘網(wǎng)站,爬取2020年大數(shù)據(jù)人才的就業(yè)信息和招聘信息,對得到的數(shù)據(jù)查找缺失值以及進行數(shù)據(jù)清洗。
2.2 數(shù)據(jù)分析
基于2020年大數(shù)據(jù)崗位就業(yè)和招聘數(shù)據(jù),研究了北京、上海、廣州、深圳等四個一線城市,以及南京、西安、鄭州、杭州等四個二線城市,共計八個城市的大數(shù)據(jù)崗位就業(yè)和招聘情況數(shù)據(jù),由于目前三四線城市大數(shù)據(jù)人才需求量不大,對模型的最終影響在此忽略不計。據(jù)統(tǒng)計,一線城市大數(shù)據(jù)崗位招聘公司數(shù)量要遠遠高于二線城市,如圖2所示。
此外,通過對招聘數(shù)據(jù)的統(tǒng)計發(fā)現(xiàn),大數(shù)據(jù)崗位要求的學歷以本科為主要人群,如圖3所示。
2.3 特征選取
2.3.1 特征提取方法簡述
通過對2020年大數(shù)據(jù)人才的就業(yè)情況分析,爬取影響就業(yè)收入的特征有:①工作崗位;②工作資歷;③學歷;④公司規(guī)模;⑤工作城市;⑥城市一、二線;⑦南北方地域,其中由于公司規(guī)模這個特征難以考量,因此剔除該特征。在剩下來的6個特征中選取主要特征建立模型,篩選方式是通過ID3算法構(gòu)建決策樹模型。ID3算法涉及到的概念定義如下:
信息熵是一種反映不確定性的度量方式,通過信息量的規(guī)模來體現(xiàn)不確定程度[6]。
ID3算法是基于信息增益來選擇樹結(jié)點,信息增益越大,則這個特征的選擇性越好,即這個特征對整個事件的貢獻越大。
2.3.2 模型構(gòu)建及分析
⑴ 模型構(gòu)建
數(shù)據(jù)集:將①工作崗位;②工作資歷;③學歷;⑤工作城市;⑥城市一、二線;⑦南北方地域等六個特征作為特征數(shù)據(jù)。
數(shù)據(jù)集標簽:將收入作為標簽,標簽有3個取值,[“低”,”中”,”高”],劃分的標準為年收入>20萬為”高”,10-20萬為”中”,<10萬為”低”收入。
⑵ 模型建立
model=tree.DecisionTreeClassifier(criterion='entropy')
⑶ 參數(shù)設(shè)置,尋找主要特征
設(shè)置樹的深度max_depth=4,max_depth=6時,出現(xiàn)在決策樹的特征為:②③⑤⑥⑦。
樹的深度max_depth不設(shè)限,也沒有看到特征①工作崗位出現(xiàn)在決策樹當中,因此,本次實驗丟棄此特征。在多次實驗當中,根節(jié)點出現(xiàn)的特征都為③學歷,因此學歷是影響收入的關(guān)鍵因素。
2.4 模型建立及評分
新的數(shù)據(jù)集:②③⑤⑥⑦五個特征作為特征數(shù)據(jù)。
利用訓練集和訓練集的標簽訓練模型,模型仍然采用Sklearn自帶的決策樹模型:
model=tree.DecisionTreeClassifier(criterion='entropy')
將20%數(shù)據(jù)作為測試集,得到模型的得分為:
測試集得分0.8493975903614458;
訓練集得分0.8874622356495468。
由結(jié)果可知,現(xiàn)在的決策樹模型結(jié)果比較理想,準確率為80%以上。為了得到更為理想的模型,建立神經(jīng)網(wǎng)絡(luò)模型。
2.5 模型改進-基于Keras神經(jīng)網(wǎng)絡(luò)模型
Keras是由純python編寫的基于theano/tensorflow的深度學習框架。Keras是一個高層神經(jīng)網(wǎng)絡(luò)API,能夠把你的“idea”迅速轉(zhuǎn)換為結(jié)果。
實驗采用神經(jīng)網(wǎng)絡(luò)模型如圖4所示。
本次實驗通過改變神經(jīng)網(wǎng)絡(luò)隱層和神經(jīng)元的個數(shù),得到最優(yōu)的模型。
⑴ 模型構(gòu)建
import tensorflow as tf
model.add(tf.keras.layers.Dense(i,input_shape=(j,),
activation='relu'))
model.add(tf.keras.layers.Dense(3,activation='softmax'))
⑵ 尋找最優(yōu)的網(wǎng)絡(luò)層數(shù)及神經(jīng)元個數(shù)
建立2層神經(jīng)網(wǎng)絡(luò),改變隱藏層神經(jīng)元個數(shù),模型訓的練集及測試集準確率如圖5所示。
由圖5可知,當隱層神經(jīng)元的個數(shù)為14的時候,模型的準確率最高,測試集的準確率高達91%。接下來改變神經(jīng)網(wǎng)絡(luò)層數(shù),經(jīng)過實驗研究發(fā)現(xiàn),多層隱藏層和單層隱藏層實驗結(jié)果相差不大,因此,最終模型定義2層神經(jīng)網(wǎng)絡(luò),隱藏層的神經(jīng)元個數(shù)為14。
3 結(jié)束語
本文針對大數(shù)據(jù)從業(yè)人員就業(yè)收入問題,搭建了新型神經(jīng)網(wǎng)絡(luò)模型,用以捕捉影響就業(yè)人員收入的關(guān)鍵因素,借助數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)提升學歷是大數(shù)據(jù)從業(yè)者提高收入的關(guān)鍵。通過分析2020年大數(shù)據(jù)招聘信息數(shù)據(jù),發(fā)現(xiàn)一線城市大數(shù)據(jù)招聘公司要遠遠多于二線城市,同時大數(shù)據(jù)崗位要求的學歷是以本科生為主。其中,對處理后的數(shù)據(jù)建立了Keras神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)收入分類的準確率達90%以上,為廣大從業(yè)者及潛在就業(yè)人員提供巨大幫助。但是該模型對于就業(yè)收入與公司規(guī)模、就業(yè)者年齡等特征的關(guān)系尚不能說明,對此值得進一步研究。
參考文獻(References):
[1] 許新剛.高職大數(shù)據(jù)應用人才培養(yǎng)研究[J].無線互聯(lián)科技,2021.18(3):163-164
[2] 安德里亞斯·穆勒.Python機器學習基礎(chǔ)教程[M].人民郵電出版社,2018.
[3] 岳根霞.基于決策樹算法的醫(yī)療大數(shù)據(jù)填補及分類仿真[J].計算機仿真,2021.38(1):451-454
[4] 杜威銘.決策樹ID3算法研究[J].科技視界,2018.12(11):145-146
[5] 蔣子陽.TensorFlow深度學習算法原理與編程實戰(zhàn)[M].中國水利水電出社,2019.
[6] 毛伊敏.基于信息熵與遺傳算法的并行關(guān)聯(lián)規(guī)則增量挖掘算法[J].通信學報,2021.3.