張宗霞,陳玉忠
(1.山東電子職業(yè)技術(shù)學(xué)院,山東 濟(jì)南,250200;2.中共山東省委黨校(山東行政學(xué)院),山東 濟(jì)南,250014)
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等新一代信息技術(shù)的迅速發(fā)展,全球數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。大數(shù)據(jù)在全球范圍內(nèi)已被公認(rèn)為國(guó)家基礎(chǔ)性戰(zhàn)略資源,是21 世紀(jì)的“鉆石礦”。受宏觀政策環(huán)境、技術(shù)進(jìn)步升級(jí)、數(shù)字應(yīng)用普及滲透等眾多利好因素的影響,2018 年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)整體規(guī)模達(dá)到4384.5 億元,預(yù)計(jì)到2021 年將達(dá)到8070.6 億元[1],這將持續(xù)促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),激發(fā)經(jīng)濟(jì)增長(zhǎng)活力。大數(shù)據(jù)領(lǐng)域快速發(fā)展的同時(shí),我國(guó)大數(shù)據(jù)人才卻面臨著嚴(yán)重不足的挑戰(zhàn)。作為國(guó)內(nèi)人力資源具有影響力的獵聘公司發(fā)布了《2019 年大數(shù)據(jù)人才就業(yè)趨勢(shì)報(bào)告》,顯示國(guó)內(nèi)大數(shù)據(jù)領(lǐng)域的人才需求呈快速增長(zhǎng)的態(tài)勢(shì),2019 年企業(yè)人才需求約為4 年前的12 倍[2],據(jù)TDU 研究顯示,至2025 年中國(guó)數(shù)據(jù)人才缺口將達(dá)到200 萬(wàn)[3]。
面對(duì)大數(shù)據(jù)人才日益嚴(yán)重緊缺的挑戰(zhàn),高校作為培養(yǎng)人才的重要陣地,必須承擔(dān)主要的責(zé)任。近年來(lái)許多本科和高職院校已成立“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)技術(shù)與應(yīng)用”等相關(guān)專業(yè)。由于大數(shù)據(jù)是一門新興技術(shù)產(chǎn)業(yè),近幾年發(fā)展極為迅速,其應(yīng)用的領(lǐng)域也極為廣泛,人才專業(yè)知識(shí)結(jié)構(gòu)的需求較為多元、能力素養(yǎng)趨向全能化,這對(duì)高等院校制定大數(shù)據(jù)人才培養(yǎng)方案帶來(lái)了一定的挑戰(zhàn)性。目前,高校的大數(shù)據(jù)人才培養(yǎng)方案的制定應(yīng)當(dāng)更加注重以市場(chǎng)需求為導(dǎo)向,積極探索、調(diào)整適應(yīng)大數(shù)據(jù)行業(yè)快速發(fā)展的勢(shì)頭。深入了解企業(yè)設(shè)定大數(shù)據(jù)崗位的信息以及對(duì)大數(shù)據(jù)各層次人才的需求規(guī)律,有利于高等院校把握大數(shù)據(jù)領(lǐng)域的發(fā)展趨勢(shì),制定出滿足市場(chǎng)需求的大數(shù)據(jù)相關(guān)專業(yè)的人才培養(yǎng)方案,同時(shí)為有志從事大數(shù)據(jù)行業(yè)的大學(xué)畢業(yè)生提供相關(guān)崗位的資訊。
本文充分基于互聯(lián)網(wǎng)上的招聘信息,統(tǒng)計(jì)分析大數(shù)據(jù)崗位相關(guān)信息,運(yùn)用Python 語(yǔ)言自編爬蟲從國(guó)內(nèi)三大專業(yè)招聘信息網(wǎng)站(前程無(wú)憂、拉勾網(wǎng)、智聯(lián)招聘)中采集招聘信息,并利用Python 語(yǔ)言及第三方擴(kuò)展庫(kù)Numpy、Pandas 及Jieba 等對(duì)原始數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理和分析,總結(jié)出大數(shù)據(jù)就業(yè)崗位需求規(guī)律。在把握大數(shù)據(jù)領(lǐng)域崗位市場(chǎng)需求的基礎(chǔ)上,利用Matplotlib 和Wordcloud 進(jìn)行可視化展示并介紹崗位、企業(yè)和人才要求等分析結(jié)果,最后給出高校大數(shù)據(jù)人才培養(yǎng)方案制定的對(duì)策建議。
本文首先從前程無(wú)憂、拉勾網(wǎng)、智聯(lián)招聘三大專業(yè)招聘網(wǎng)站爬取大數(shù)據(jù)典型崗位的招聘信息,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。然后對(duì)數(shù)據(jù)從崗位數(shù)量、薪資、熱門城市、企業(yè)規(guī)模、學(xué)歷要求、技能素養(yǎng)要求等方面進(jìn)行分析,最后進(jìn)行可視化展示。
筆者使用Python 語(yǔ)言自編爬蟲,從專業(yè)招聘網(wǎng)站前程無(wú)憂、智聯(lián)招聘、拉勾網(wǎng)爬取大數(shù)據(jù)典型崗位的招聘信息。典型崗位確定為數(shù)據(jù)采集工程師(爬蟲工程師)、大數(shù)據(jù)開發(fā)工程師(Hadoop 開發(fā)工程師)、大數(shù)據(jù)運(yùn)維工程師(Hadoop 運(yùn)維工程師)、大數(shù)據(jù)架構(gòu)師、數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師和算法工程師。筆者于2019 年10 月從前程無(wú)憂網(wǎng)站采集到14633 條招聘記錄,從拉勾網(wǎng)站獲得8479 條原始記錄,從智聯(lián)招聘網(wǎng)站收集到4716 條記錄,合計(jì)27828 條招聘記錄。每條招聘記錄包括崗位,企業(yè)和人才要求三方面信息。
由于使用的招聘原始數(shù)據(jù)集采集自于多個(gè)網(wǎng)站,且這些數(shù)據(jù)都是由各個(gè)企業(yè)自行輸入,因此數(shù)據(jù)集中不可避免存在一些無(wú)效記錄或不規(guī)范、格式不一致的數(shù)據(jù)。為了方便后續(xù)的數(shù)據(jù)分析,將原始數(shù)據(jù)集中數(shù)據(jù)進(jìn)行篩選和規(guī)范化處理。
將不同網(wǎng)站的數(shù)據(jù)集進(jìn)行整合,以便進(jìn)行后期的統(tǒng)一分析。處理完后的樣本數(shù)如表1 所示:
表1 樣本數(shù)
從崗位基本信息、企業(yè)基本信息和崗位對(duì)人才要求三方面進(jìn)行分析。
使用matplotlib 庫(kù)和wordcloud 將分析結(jié)果通過(guò)餅圖、柱狀圖、詞云等方式進(jìn)行可視化展示。
1.崗位的需求量
大數(shù)據(jù)相關(guān)崗位的招聘數(shù)量如圖1 所示。
圖1 大數(shù)據(jù)相關(guān)崗位需求量
圖1 表明,數(shù)據(jù)分析師和算法工程師的需求量分別達(dá)到7823 和7265,是目前需求量最大的崗位。數(shù)據(jù)采集工程師和大數(shù)據(jù)架構(gòu)師相對(duì)需求量不大。另外,可以看出大數(shù)據(jù)崗位涉及開發(fā)、實(shí)施、運(yùn)維、分析、測(cè)試等產(chǎn)品研發(fā)的各個(gè)階段。
2.熱門城市
依據(jù)招聘崗位所在的城市,分析大數(shù)據(jù)崗位需求量大的十大熱門城市,結(jié)果如圖2 所示。
圖2 十大熱門城市
圖2 顯示,大數(shù)據(jù)崗位需求量較大的熱門城市為北京、上海、深圳、廣州等這些數(shù)字經(jīng)濟(jì)發(fā)達(dá)的城市。同時(shí)從圖中可以讀出西安、武漢等這些省會(huì)城市需求量也較大,和這些城市近幾年重視人才引進(jìn),重視科技發(fā)展,經(jīng)濟(jì)發(fā)展勢(shì)頭逐年提升分不開。
3.薪資分布規(guī)律
(1)整體薪資分布:根據(jù)每條招聘記錄的最低薪資和最高薪資,計(jì)算出每條招聘崗位的平均薪資。筆者把平均薪資根據(jù)稅收制度收入的劃分分為六個(gè)檔次,分別為5000 及以下,5000-8000,8000-17000,17000-30000,30000-6000 和 60000及以上。分析得出最低平均工資為1000 元,最高平均工資達(dá)到550000 元。6 個(gè)檔次的平均月薪分布如圖3 所示。
圖3 平均月薪分布
圖3 顯示,17000-30000 這個(gè)區(qū)間的薪資所占比例最高,達(dá)到36.7%,其次為8000-17000 檔次,所占比例也高達(dá)33.2%。很明顯大數(shù)據(jù)行業(yè)薪資高于其他行業(yè),這是由這個(gè)領(lǐng)域的高門檻性和人才的稀缺性決定的。
(2)崗位和薪資的關(guān)系:按照崗位分組,分析崗位和平均薪資的關(guān)系,結(jié)果如圖4 所示。
圖4 崗位和平均薪資
從圖4 可以讀出,大數(shù)據(jù)架構(gòu)師的平均薪資最高,達(dá)到28325,其次為算法工程師和數(shù)據(jù)挖掘工程師崗位,大數(shù)據(jù)運(yùn)維工程師的平均月薪也超過(guò)2 萬(wàn),大數(shù)據(jù)開發(fā)工程師和采集工程師平均月薪分別為17588 和13728,最低為數(shù)據(jù)分析師。算法工程師崗位和數(shù)據(jù)挖掘工程師需要較深的數(shù)學(xué)功底,大數(shù)據(jù)架構(gòu)師要求技術(shù)全面經(jīng)驗(yàn)豐富,所以這3 個(gè)崗位薪資都較高。數(shù)據(jù)分析師的薪資低應(yīng)該和目前市場(chǎng)缺口巨大,對(duì)人才要求降低有關(guān)。值得注意的是大數(shù)據(jù)運(yùn)維工程師的薪資趕超大數(shù)據(jù)開發(fā)工程師。
(3)城市和薪資的關(guān)系:按照城市分組,分析各個(gè)城市的平均薪資水平,得出前20 個(gè)高薪資城市,結(jié)果如圖5 所示。
圖5 高薪資城市
圖5 顯示,大數(shù)據(jù)薪資最高的城市為北京,平均月薪達(dá)到24557 元,排名第2 到第4 的是深圳,上海和杭州,其余的16 個(gè)城市的平均薪資幾乎持平。值得注意的是,三門峽和昆山這樣三線城市,雖然需求量沒(méi)進(jìn)前20,但是平均薪資和廣州、蘇州類似。
1.企業(yè)的性質(zhì)
設(shè)立大數(shù)據(jù)相關(guān)崗位的企業(yè)性質(zhì)構(gòu)成比例如圖6 所示。
圖6 企業(yè)性質(zhì)構(gòu)成
從圖6 中可以看出,民營(yíng)公司占63.3%,是引領(lǐng)大數(shù)據(jù)行業(yè)的領(lǐng)頭羊。其次是上市公司、合資、外資和國(guó)企,分別占9.6%、8.1%、7.5%和6.9%。因?yàn)檫@類性質(zhì)的企業(yè)擁有大量的數(shù)據(jù),所以具備大數(shù)據(jù)分析預(yù)測(cè)等需求。
2.企業(yè)的規(guī)模
企業(yè)規(guī)模構(gòu)成如圖7 所示。
圖7 企業(yè)規(guī)模構(gòu)成
圖7 表明,規(guī)模在50-5000 人以下的企業(yè)所占比例較多,共占了78.9%,人數(shù)較多或較少的企業(yè)所占比例都較低。
3.企業(yè)所屬熱門行業(yè)
招聘大數(shù)據(jù)相關(guān)崗位的企業(yè)所屬十大熱門行業(yè)如圖8 所示。
圖8 招聘企業(yè)所屬十大熱門行業(yè)
從圖8 中可以看出,需求量最大的行業(yè)是計(jì)算機(jī)軟件、互聯(lián)網(wǎng)/電子商務(wù)、計(jì)算機(jī)服務(wù)類行業(yè),其次為金融/投資/證券、專業(yè)服務(wù)通信、電子技術(shù)和通信類行業(yè)。這些行業(yè)都屬于第三產(chǎn)業(yè)。此外,值得注意的是服裝/紡織/皮革等傳統(tǒng)行業(yè)也設(shè)置大數(shù)據(jù)崗位,說(shuō)明大數(shù)據(jù)技術(shù)已向傳統(tǒng)產(chǎn)業(yè)滲透,大數(shù)據(jù)專業(yè)發(fā)展前景廣闊。
1.學(xué)歷要求
(1)整體學(xué)歷要求分布情況:大數(shù)據(jù)行業(yè)對(duì)學(xué)歷要求的分布如圖9 所示。
圖9 學(xué)歷要求分布
大數(shù)據(jù)行業(yè)對(duì)學(xué)歷沒(méi)有特別要求,其中本科學(xué)歷的崗位所占比例最高,為61.6%,高學(xué)歷和低學(xué)歷所占比例都很少,分別為4.3%和7.7%,要求大專學(xué)歷的所占比例的為13.6%,無(wú)學(xué)歷要求的也占到11.5%。圖9 充分說(shuō)明大數(shù)據(jù)行業(yè)正處于發(fā)展階段,行業(yè)整體對(duì)學(xué)歷要求不算高。
(2)大數(shù)據(jù)行業(yè)具體崗位和學(xué)歷關(guān)系:大數(shù)據(jù)行業(yè)具體崗位和學(xué)歷關(guān)系以及每種崗位對(duì)學(xué)歷要求所占比例結(jié)果如圖10 所示。
圖10 崗位和學(xué)歷要求
從圖10 中可以看出,調(diào)研所涉及大數(shù)據(jù)崗位中本科學(xué)歷所占的比例都是最高,其中數(shù)據(jù)挖掘工程師和算法工程師要求學(xué)歷較高,碩博學(xué)歷的比例緊跟其后;數(shù)據(jù)采集工程師、數(shù)據(jù)分析師、大數(shù)據(jù)開發(fā)工程師和大數(shù)據(jù)運(yùn)維工程師崗位的學(xué)歷要求較低,大專學(xué)歷的比例占第二。
2.工作年限要求
(1)行業(yè)整體工作年限要求分布:大數(shù)據(jù)行業(yè)對(duì)工作年限要求的分布如圖11 所示。
圖11 工作年限要求分布
圖11 顯示,大數(shù)據(jù)行業(yè)對(duì)人才的工作年限要求不高,各類工作年限所占比例較均衡。所占比例最大的為3-4 年,占比33.2%,對(duì)工作年限無(wú)任何要求次之,所占比例高達(dá)29%,1-2 年要求的占比為26%。
(2)崗位和工作年限:本文同時(shí)分析了每種崗位對(duì)工作年限要求的比例,結(jié)果如圖12 所示。
圖12 不同崗位對(duì)于工作年限要求分布
圖12 顯示,大數(shù)據(jù)架構(gòu)師最歡迎工作5-9 的人才,所占比例超過(guò)60%;大數(shù)據(jù)開發(fā)工程師、大數(shù)據(jù)運(yùn)維工程師和大數(shù)據(jù)挖掘工程師最青睞工作3-4 年的人才,算法工程師、數(shù)據(jù)分析師和數(shù)據(jù)采集工程師對(duì)工作經(jīng)驗(yàn)要求相對(duì)較寬松。
3.知識(shí)技能素養(yǎng)要求
大數(shù)據(jù)相關(guān)崗位所需的知識(shí)技能素養(yǎng)(受技術(shù)所限,本文沒(méi)有對(duì)崗位要求的分詞結(jié)果進(jìn)一步
圖13 知識(shí)技能素養(yǎng)關(guān)鍵詞
圖13 顯示大數(shù)據(jù)相關(guān)崗位所需的知識(shí)主要包括編程語(yǔ)言類、數(shù)據(jù)庫(kù)、操作系統(tǒng)和大數(shù)據(jù)組件。常用的編程語(yǔ)言為Python 和Java;常用的數(shù)據(jù)庫(kù)為MySQL 和HBase;操作系統(tǒng)一般為L(zhǎng)inux,大數(shù)據(jù)組件中出現(xiàn)頻率最高的為Spark 和Storm。所需的技能的高頻詞主要包括邏輯思維、解決問(wèn)題、商業(yè)、數(shù)據(jù)處理等。大數(shù)據(jù)相關(guān)崗位最看重的職業(yè)素養(yǎng)為學(xué)習(xí)能力、責(zé)任心、溝通表達(dá)和團(tuán)隊(duì)合作能力。
1.大數(shù)據(jù)領(lǐng)域目前發(fā)展迅速,崗位人才需求缺口巨大,在專業(yè)崗位設(shè)置中數(shù)據(jù)分析師和算法工程師需求量最大。高校大數(shù)據(jù)人才培養(yǎng)招生比例、師資選聘必須考慮這一市場(chǎng)需求因素,及時(shí)調(diào)整政策適應(yīng)企業(yè)需要;作為大學(xué)生來(lái)說(shuō),在考慮自身興趣愛好的同時(shí)也要照顧到這一客觀要求,減少專業(yè)選擇的盲目性,避免就業(yè)時(shí)的困擾。
2.基于崗位職責(zé)不同,大數(shù)據(jù)各類崗位對(duì)人才學(xué)歷層次也是不同的,既有博士和碩士的學(xué)歷需求,又有無(wú)要求。這就要求高等院校在設(shè)置大數(shù)據(jù)專業(yè)人才培養(yǎng)方案時(shí)必須注重發(fā)揮各自優(yōu)勢(shì)、分層次培養(yǎng)專業(yè)人才。如,211 或985 院校注重發(fā)揮理論前沿的研究?jī)?yōu)勢(shì),一般院校或高職院校要注重培養(yǎng)專業(yè)復(fù)合型、動(dòng)手能力強(qiáng)的學(xué)生,如此才能使得畢業(yè)生在進(jìn)入企業(yè)工作時(shí)更好地發(fā)揮自身優(yōu)勢(shì)。
3.從市場(chǎng)需求來(lái)看,大數(shù)據(jù)專業(yè)人才需求旺盛的企業(yè)大多集中數(shù)字化經(jīng)濟(jì)程度較高的大城市,從區(qū)域分布來(lái)看,華北、中南和華東三個(gè)區(qū)域在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展方面持續(xù)領(lǐng)跑。這就使得企業(yè)所在地的高校具備了大數(shù)據(jù)專業(yè)人才培養(yǎng)的實(shí)踐基礎(chǔ)和動(dòng)力,也為大數(shù)據(jù)專業(yè)的畢業(yè)生就業(yè)提供了充分的就業(yè)崗位。高等院校設(shè)置人才培養(yǎng)專業(yè)計(jì)劃必須結(jié)合所在地的市場(chǎng)優(yōu)勢(shì),一方面為人才專業(yè)的質(zhì)量負(fù)責(zé),另一方面也為大學(xué)生就業(yè)負(fù)責(zé)。
4.大數(shù)據(jù)專業(yè)知識(shí)具有非常強(qiáng)的實(shí)踐性,這就要求高等院校大數(shù)據(jù)專業(yè)培養(yǎng)方案應(yīng)當(dāng)加入企業(yè)研發(fā)因素,一方面以企業(yè)正在進(jìn)行的技術(shù)內(nèi)容、方案、模式創(chuàng)新充實(shí)、激勵(lì)高校理論研究的更新;另一方面高校與企業(yè)合作可以相互促進(jìn)、提高理論研發(fā)能力。按照企業(yè)的性質(zhì),民營(yíng)企業(yè)在大數(shù)據(jù)人才就業(yè)崗位可能稍占優(yōu)勢(shì),當(dāng)然這也不排除有些大型國(guó)有企業(yè)在相關(guān)領(lǐng)域具有大數(shù)據(jù)方面的專業(yè)優(yōu)勢(shì)。
本文通過(guò)對(duì)大數(shù)據(jù)典型崗位的招聘數(shù)據(jù)的獲取、預(yù)處理與分析,對(duì)高校大數(shù)據(jù)人才培養(yǎng)提出了若干條建議。大數(shù)據(jù)領(lǐng)域越來(lái)越青睞于復(fù)合型人才,不僅具有數(shù)理統(tǒng)計(jì)和計(jì)算機(jī)專業(yè)知識(shí)和技能,還具備邏輯分析和商業(yè)思維,這就需要高校整合企業(yè)、培訓(xùn)機(jī)構(gòu)等各方社會(huì)資源,建立健全大數(shù)據(jù)人才培養(yǎng)模式,為大大數(shù)據(jù)領(lǐng)域輸送更多人才。
湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào)2020年5期