郭 佳,李 寧,張 葉,強(qiáng)振平
(西南林業(yè)大學(xué)大數(shù)據(jù)與智能工程學(xué)院,昆明 650224)
高校畢業(yè)生就業(yè)是全社會就業(yè)的重要組成部分,高等教育的快速發(fā)展疫情給大學(xué)生就業(yè)帶來了新挑戰(zhàn)。據(jù)教育部統(tǒng)計(jì),2021年我國大學(xué)畢業(yè)生人數(shù)預(yù)計(jì)將突破909 萬,首次突破900萬大關(guān)。2022年在新冠肺炎疫情等多重不利因素影響下,應(yīng)屆畢業(yè)生就業(yè)形勢愈加復(fù)雜嚴(yán)峻,疫情的突發(fā)給高校就業(yè)工作帶來招聘形式變化、信息平臺建設(shè)欠缺、學(xué)生焦慮情緒增加等困難和挑戰(zhàn)。近年來,我國互聯(lián)網(wǎng)科技發(fā)展迅速,加上傳統(tǒng)行業(yè)和計(jì)算機(jī)融合日益加深,導(dǎo)致IT 行業(yè)人才缺口巨大。面對網(wǎng)上日益復(fù)雜的就業(yè)信息,如果能夠直觀地看出各個行業(yè)的崗位特征和變化趨勢,將有利于學(xué)生們做出選擇。
針對以上背景,本文基于Python 設(shè)計(jì)了大學(xué)計(jì)算機(jī)類專業(yè)就業(yè)分析系統(tǒng),從多個角度進(jìn)行可視化,清晰的將目前市場的計(jì)算機(jī)行業(yè)崗位需求分布、學(xué)歷、經(jīng)驗(yàn)要求、各個城市平均薪資、發(fā)布招聘數(shù)量等進(jìn)行展示,以期為大學(xué)生獲取并分析就業(yè)信息提供幫助。
本設(shè)計(jì)采用Python和Flask 框架進(jìn)行開發(fā),利用Python 爬蟲技術(shù)爬取BOSS 直聘網(wǎng)的招聘信息數(shù)據(jù),包括各地區(qū)計(jì)算機(jī)崗位的平均薪資待遇、計(jì)算機(jī)類崗位數(shù)量、崗位需求學(xué)歷信息、經(jīng)驗(yàn)需求信息、 城市發(fā)布的招聘數(shù)量等。同時結(jié)合PostgreSQL 關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行存儲,然后進(jìn)行數(shù)據(jù)分析并反饋處理后的信息推送,最終將結(jié)果通過可視化展示出來。系統(tǒng)設(shè)計(jì)如圖1所示。
圖1 系統(tǒng)設(shè)計(jì)
近年來互聯(lián)網(wǎng)上涌現(xiàn)了大批網(wǎng)絡(luò)招聘平臺,較以往通過報紙刊登招聘信息和線下開展招聘會的方式顯得十分便利,但網(wǎng)上的招聘信息日益繁雜,選擇認(rèn)可度較高的數(shù)據(jù)源進(jìn)行就業(yè)信息分析顯得尤為重要。本文通過問卷調(diào)查公眾認(rèn)可度的方式,從眾多招聘網(wǎng)站中確定以Boss直聘網(wǎng)(https://www.zhipin.com)作為數(shù)據(jù)源。
本文通過selenium 庫驅(qū)動Google Chrome 瀏覽器進(jìn)行自動化操作模擬人工操作瀏覽器網(wǎng)頁的動作爬取數(shù)據(jù)。在Python 程序訪問網(wǎng)站的過程中,由于網(wǎng)站自帶禁止非注冊用戶訪問詳細(xì)信息的安全機(jī)制。故使用Session 維持同一請求,隨后獲取該對話的cookie 信息,將獲取到的cookie 加載到爬蟲程序進(jìn)行訪問,可有效的解決未注冊用戶限制訪問的問題,隨后對相關(guān)崗位信息的json 格式的數(shù)據(jù)進(jìn)行獲取。成功后會自動將爬取的信息通過循環(huán)調(diào)用函數(shù)將數(shù)據(jù)逐條插入到PostgreSQL 數(shù)據(jù)庫。文所使用的Python 爬蟲程序會在服務(wù)器上定時啟動以采集一段時間內(nèi)由各企業(yè)所發(fā)布的最新招聘數(shù)據(jù)。獲取的數(shù)據(jù)如圖2所示。
圖2 獲取的數(shù)據(jù)實(shí)例
本文所使用的都是結(jié)構(gòu)整齊的數(shù)據(jù),所以采用PostgreSQL數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行存儲。共計(jì)使用8張表,分別用于:存儲招聘網(wǎng)站中的崗位數(shù)據(jù)、存儲爬取數(shù)據(jù)時所用到的cookie、存儲全國各地區(qū)的名稱和編號、存儲爬取的崗位名稱、存儲判定為計(jì)算機(jī)崗位的關(guān)鍵詞、存儲分析所得結(jié)論數(shù)據(jù)、存儲用戶登錄狀態(tài)信息、存儲用戶提交的簡歷數(shù)據(jù)。如表1 數(shù)據(jù)庫及其描述表所示。
表1 數(shù)據(jù)庫及其描述
數(shù)據(jù)庫設(shè)計(jì)結(jié)構(gòu)圖如圖3所示。
圖3 數(shù)據(jù)庫設(shè)計(jì)結(jié)構(gòu)
系統(tǒng)在請求獲取job_data 表中存儲的所有崗位數(shù)據(jù)后對其進(jìn)行計(jì)算,隨后對全國范圍內(nèi)的計(jì)算機(jī)崗位需求比例、崗位學(xué)歷要求、項(xiàng)目經(jīng)歷要求、各城市發(fā)布崗位數(shù)、各城市計(jì)算機(jī)崗位平均薪酬等數(shù)據(jù)進(jìn)行分析。在分析結(jié)束后,系統(tǒng)將結(jié)果保存到web_data 表中。系統(tǒng)將分析和統(tǒng)計(jì)的過程中使用的后端數(shù)據(jù)處理分為狀態(tài)數(shù)據(jù)和近實(shí)時數(shù)據(jù)。狀態(tài)數(shù)據(jù)一天計(jì)算兩次,在web_data 表中使用statue=1 標(biāo)記。近實(shí)時數(shù)據(jù)每分鐘計(jì)算一次,用statue=2進(jìn)行標(biāo)記。系統(tǒng)將按照statue 來區(qū)分并獲取數(shù)據(jù)。最終,分析結(jié)果將以可視化的形式在前端進(jìn)行展示以供用戶查看。
截止2021年6月,畢業(yè)生數(shù)量持續(xù)增長,但就業(yè)率不容樂觀。中國2000—2021年畢業(yè)生數(shù)量及就業(yè)率可視化如圖4所示。
圖4 2000—2021年畢業(yè)生數(shù)量及就業(yè)率可視化
2021年近五成畢業(yè)生就業(yè)崗位與專業(yè)總體對口率顯著提高、就業(yè)滿意度保持高位略有下滑、考慮離職率略有上升。其中,自我因素對計(jì)算機(jī)類畢業(yè)生影響最大,因此,了解計(jì)算機(jī)崗位的人才需求和認(rèn)清自己的定位是求職的必要前提。本文針對崗位需求、城市招聘信息等大學(xué)生亟待了解的問題展開設(shè)計(jì)。系統(tǒng)架構(gòu)如圖5所示。
圖5 系統(tǒng)架構(gòu)
根據(jù)崗位需求比例圖,可以發(fā)現(xiàn)企業(yè)對后端開發(fā)、項(xiàng)目管理等崗位的需求較大,其中后端開發(fā)崗位占整個計(jì)算機(jī)崗位需求的21%,銷售通信等崗位的需求量則較少。如圖6所示。建議希望未來從事專業(yè)IT 行業(yè)的同學(xué)努力提升自己編程能力,擴(kuò)展知識面,在選擇崗位時可優(yōu)先考慮后端開發(fā)類、項(xiàng)目管理等崗位信息,以獲取更多的機(jī)會。
圖6 崗位需求比例
根據(jù)崗位學(xué)歷需求分布圖,可以發(fā)現(xiàn)人工智能崗位對學(xué)歷要求最高,要求研究生的崗位占比為23%,本科占比62%。如圖7所示。
圖7 崗位學(xué)歷分布
通過崗位經(jīng)驗(yàn)需求分布圖我們可分別查看各崗位對人才經(jīng)驗(yàn)的需求。如圖8所示。
圖8 崗位經(jīng)驗(yàn)需求分布
結(jié)合崗位學(xué)歷需求可以分析得出通信、運(yùn)維、銷售技術(shù)支持等崗位低學(xué)歷要求比例較高,人才經(jīng)驗(yàn)要求比較低,因此該類崗位對操作能力和理論基礎(chǔ)的要求不高,適合學(xué)習(xí)能力較差且基礎(chǔ)不好的同學(xué)。而數(shù)據(jù)、后端開發(fā)等崗位與人工智能崗位相比較,本科學(xué)歷需求占比大,且大部分要求3年以上經(jīng)驗(yàn)。對學(xué)歷比較高的崗位同時也需要更多的工作經(jīng)驗(yàn),因此我們可以發(fā)現(xiàn)該類崗位既注重操作性,也需要足夠的理論基礎(chǔ)。
根據(jù)企業(yè)對IT 需求圖,可以發(fā)現(xiàn)近年來隨著傳統(tǒng)工科和計(jì)算機(jī)的結(jié)合,計(jì)算機(jī)科技逐漸融入到醫(yī)療健康機(jī)械重工等傳統(tǒng)行業(yè)中,企業(yè)對IT 行業(yè)的需求比例逐漸增大。如圖9 所示。大學(xué)生在校期間應(yīng)多了解并嘗試實(shí)現(xiàn)跨學(xué)科融合項(xiàng)目,以提升在同級應(yīng)聘者中的綜合競爭力,在畢業(yè)選崗時可獲取更多的行業(yè)選擇。
圖9 企業(yè)對IT需求分布
在平均薪資情況圖中,可以發(fā)現(xiàn)計(jì)算機(jī)行業(yè)薪資較高的城市集中在我國的東部沿海,其提供的崗位數(shù)量也遠(yuǎn)遠(yuǎn)高于內(nèi)陸,其中北京、上海、杭州的計(jì)算機(jī)崗位的平均薪資位列全國前三,其次是國內(nèi)經(jīng)濟(jì)發(fā)展比較好的新一線城市。如圖10 所示。大學(xué)畢業(yè)生在選擇工作時可優(yōu)先考慮沿海城市或新一線城市,以獲取更高的薪資待遇。
圖10 城市平均薪資分布
根據(jù)熱門城市企業(yè)招聘信息發(fā)布量圖,可以發(fā)現(xiàn)全國計(jì)算機(jī)行業(yè)在每年的12月份發(fā)布的崗位數(shù)量最多,其次是9月份。如圖11所示。
圖11 熱門城市招聘發(fā)布量
結(jié)合近2個月城市招聘數(shù)量分布圖,可以發(fā)現(xiàn)廣州在近2個月招聘數(shù)量占據(jù)全國最高,但在11月份到次年1月份這段求職黃金時期中廣州發(fā)布的崗位數(shù)量遠(yuǎn)遠(yuǎn)低于北京。如圖12 所示。有意向在北京就業(yè)的大學(xué)生可在12月份時多關(guān)注各招聘網(wǎng)站發(fā)布的招聘信息。為獲得更多的求職機(jī)會可多關(guān)注廣州、成都、北京、深圳等城市在一年內(nèi)的其他時間發(fā)布的招聘信息。
圖12 近2個月城市招聘數(shù)量分布
本文依托大學(xué)計(jì)算機(jī)類專業(yè)就業(yè)分析系統(tǒng)的設(shè)計(jì)展開,對系統(tǒng)的實(shí)現(xiàn)過程和功能進(jìn)行概述。對當(dāng)前企業(yè)計(jì)算機(jī)崗位人才的需求進(jìn)行整理及分析,有效的降低了求職者手動翻頁瀏覽招聘信息的時間成本。同時,本文結(jié)合分析結(jié)果向在校大學(xué)生職業(yè)規(guī)劃提出意見與建議,以期其在校期間對自己的職業(yè)規(guī)劃更加明確。本文的不足之處在于采用的數(shù)據(jù)源單一且缺少用戶個性化設(shè)計(jì),我們后期會繼續(xù)做更深的挖掘和研究,工作重心將放在多個招聘網(wǎng)站招聘信息的獲取并實(shí)現(xiàn)面向單用戶的個性化開發(fā),增強(qiáng)用戶體驗(yàn),爭取為幫助大學(xué)生就業(yè)發(fā)揮更大的作用。