• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Python爬蟲技術(shù)在高職計算機網(wǎng)絡(luò)技術(shù)專業(yè)市場調(diào)研中的應(yīng)用與實現(xiàn)

      2023-01-14 23:59:40羅卓君徐宇星
      計算機應(yīng)用文摘·觸控 2023年1期
      關(guān)鍵詞:市場調(diào)研爬蟲

      羅卓君 徐宇星

      關(guān)鍵詞:Python;爬蟲;高職計算機網(wǎng)絡(luò)技術(shù)專業(yè);市場調(diào)研

      1項目需求

      專業(yè)市場調(diào)研是保證專業(yè)教育教學(xué)與對應(yīng)產(chǎn)業(yè)深度融合、符合相關(guān)行業(yè)需求的核心工作基礎(chǔ)[1]。通過對高職計算機網(wǎng)絡(luò)技術(shù)崗位群[2]的分析,主要包括網(wǎng)絡(luò)售前技術(shù)支持、網(wǎng)絡(luò)售后技術(shù)支持、信息安全工程師、網(wǎng)絡(luò)管理工程師、網(wǎng)絡(luò)工程師、網(wǎng)站設(shè)計師、網(wǎng)絡(luò)系統(tǒng)集成工程師、數(shù)據(jù)庫管理工程師、網(wǎng)絡(luò)架構(gòu)師、系統(tǒng)工程師十個具體崗位。計算機網(wǎng)絡(luò)技術(shù)專業(yè)在撰寫調(diào)研專業(yè)報告時通過文獻調(diào)研、現(xiàn)場走訪調(diào)研、問卷調(diào)研、網(wǎng)絡(luò)調(diào)研等方法獲得了企業(yè)所需人才的相關(guān)數(shù)據(jù),但數(shù)據(jù)量較小,參考價值有限。

      5ljob“前程無憂”是中國具有廣泛影響力的人力資源服務(wù)供應(yīng)商[3],國內(nèi)絕大部分企事業(yè)單位都會在此網(wǎng)站發(fā)布招聘信息,數(shù)據(jù)較為權(quán)威。如果能獲取5ljob網(wǎng)站上湖南省和全國的關(guān)于計算機網(wǎng)絡(luò)技術(shù)專業(yè)崗位的相關(guān)數(shù)據(jù),并有一個較為直觀的展示,會為專業(yè)調(diào)研報告提供可靠的數(shù)據(jù)來源,對專業(yè)的培養(yǎng)方向、人才培養(yǎng)方案的制定有重要的參考價值。

      本文希望通過編寫一個Python爬蟲系統(tǒng)(以下稱“本系統(tǒng)”),爬取5ljob網(wǎng)站計算機網(wǎng)絡(luò)技術(shù)專業(yè)對應(yīng)十個崗位的相關(guān)數(shù)據(jù),并對數(shù)據(jù)進行清洗和可視化處理,以獲得人數(shù)需求量、薪資水平及學(xué)歷要求的直觀圖。

      2關(guān)鍵技術(shù)分析

      2.1爬蟲技術(shù)

      Python中主要有urllib,urllib2,requests,aiohttp,Scrapy,pyspider等爬蟲庫。本系統(tǒng)采用requests庫,此模塊操作簡單、功能強大且高效o requests庫的核心功能是,向提供的網(wǎng)絡(luò)地址發(fā)出請求,返回網(wǎng)絡(luò)地址對應(yīng)頁面中所有信息的response對象,并將響應(yīng)的數(shù)據(jù)能永久存儲到文件中[4]。

      2.2數(shù)據(jù)清洗技術(shù)

      數(shù)據(jù)清洗是在爬蟲爬取數(shù)據(jù)之后,對數(shù)據(jù)進行分析處理,根據(jù)需求保留有意義的數(shù)據(jù),是保障最終數(shù)據(jù)有效性和正確性的重要方法。Python中主要有numpy和pandas庫來實現(xiàn)數(shù)據(jù)清洗。本系統(tǒng)主要采用pandas庫。pandas庫能讀取csv,execel,mysql等類型的存儲文件,常用的數(shù)據(jù)結(jié)構(gòu)主要有series和DataFrame,提供了功能強大的方法,能靈活地獲取和處理存儲文件中的數(shù)據(jù)[5]。

      2.3數(shù)據(jù)可視化技術(shù)

      數(shù)據(jù)可視化處理是在獲取有效數(shù)據(jù)之后,把數(shù)據(jù)以圖表的形式呈現(xiàn)出來,讓數(shù)據(jù)具備更好的可讀性。Python中matplotlib,pygal,pyecharts等庫都能進行可視化處理。本系統(tǒng)采用的pyecharts庫支持鏈?zhǔn)秸{(diào)用,具備高度靈活的配置項,囊括30多種常見圖表,并能繪制具有一定交互功能的動態(tài)圖像[6]。

      3項目實現(xiàn)

      本系統(tǒng)使用PyCharm作為開發(fā)工具,Python作為開發(fā)語言,主要采用requests庫做爬蟲、pandas庫做數(shù)據(jù)清洗、pyecharts庫做可視化處理,這三個庫都是第三方庫,需要采用pip install庫進行安裝再使用。

      3.1爬取與初步清洗數(shù)據(jù)

      通過登錄5ljob網(wǎng)站,搜索到地區(qū)和相關(guān)崗位的網(wǎng)址后,進行網(wǎng)站數(shù)據(jù)的爬取與初步清洗。其中有4部分關(guān)鍵代碼。

      (1)構(gòu)造url,headers,params,cookies四個參數(shù)的內(nèi)容。url參數(shù)是程序要爬取的地址,已知計算機網(wǎng)絡(luò)技術(shù)專業(yè)的十個崗位,通過登錄5ljob網(wǎng)站,搜索崗位及地區(qū),獲取十個湖南省和十個全國的崗位鏈接地址,構(gòu)造湖南省和全國兩個url地址列表;Headers參數(shù)起到模擬瀏覽器的作用;params參數(shù)是在訪問url時攜帶的參數(shù);cookies參數(shù)用于完成5ljob用戶驗證。

      (2)使用get方法發(fā)送請求,返回response對象。具體代碼如下。

      response=requests. get(url,headers=headers,params=params,cookies=cookies)

      (3)使用response對象的text方法獲取響應(yīng)對象中的數(shù)據(jù)值,同時考慮到url列表中的地址如果有頁碼,使用循環(huán)讀取每頁數(shù)據(jù)。關(guān)鍵代碼如下。

      (4)初步清洗數(shù)據(jù),并存儲數(shù)據(jù)到CSV文件。這一步首先使用了pandas模塊的read_j son方法把獲取的數(shù)據(jù)轉(zhuǎn)成json格式,并用DataFame方法初步清洗數(shù)據(jù),獲取需要的數(shù)據(jù)信息,最后把湖南省的招聘數(shù)據(jù)存儲到“zhaopin_湖南.csv”文件內(nèi),全國的招聘數(shù)據(jù)存儲到“zhaopin_全國.CSV”文件內(nèi)。以湖南省招聘數(shù)據(jù)為例,關(guān)鍵代碼如下。

      3.2清洗數(shù)據(jù)

      在已有的csv文件的基礎(chǔ)上,進一步清洗數(shù)據(jù),方便進行可視化處理。其中有5部分關(guān)鍵代碼。

      (1)匹配崗位。通過re模塊的compile方法來匹配崗位。以信息安全崗位為例的關(guān)鍵代碼如下。

      3.3可視化處理

      數(shù)據(jù)清洗完成后,為了讓數(shù)據(jù)的可讀性更強,本系統(tǒng)使用pyecharts庫對數(shù)據(jù)進行可視化處理。根據(jù)數(shù)據(jù)的特性,崗位與人數(shù)需求采用柱狀圖,崗位與學(xué)歷要求采用餅圖,崗位與薪資水平采用折線圖,最終以網(wǎng)頁的形式展示出來。其中有4部分關(guān)鍵代碼。

      (3)參數(shù)配置。參數(shù)配置根據(jù)具體的圖形各有區(qū)別,但基本分為添加坐標(biāo)、全局配置和系列配置三個部分。以崗位與人數(shù)需求的柱狀圖為例,代碼如下。

      通過可視化處理后,崗位與人數(shù)需求如圖1所示。崗位與學(xué)歷需求(由于崗位與學(xué)歷是以每個崗位一張圖,僅以信息安全崗位學(xué)歷需求為例)如圖2所示。全國崗位與薪資水平如圖3所示。

      4結(jié)束語

      本文通過Python的爬蟲模塊,爬取了5ljob網(wǎng)站內(nèi)計算機網(wǎng)絡(luò)技術(shù)專業(yè)對應(yīng)十個崗位在2021年12月的相關(guān)數(shù)據(jù)信息,并對數(shù)據(jù)進行清洗和可視化處理。通過數(shù)據(jù)結(jié)論圖表,能清晰地看到每個崗位在湖南省和全國分別需要的人數(shù)、薪資水平和學(xué)歷要求。本系統(tǒng)既為書寫專業(yè)調(diào)研報告打下了重要的數(shù)據(jù)基礎(chǔ),還為選擇專業(yè)人才培養(yǎng)方向和制定人才培養(yǎng)方案提供了重要的參考價值。通過定期重新爬取、更新數(shù)據(jù),可持續(xù)作為計算機網(wǎng)絡(luò)技術(shù)專業(yè)崗位數(shù)據(jù)信息的重要來源之一,稍作修改即可在其他專業(yè)進行推廣應(yīng)用。

      猜你喜歡
      市場調(diào)研爬蟲
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      共享經(jīng)濟背景下基于市場調(diào)研的玩具租賃研究
      玩具世界(2022年3期)2022-09-20 01:45:34
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      市場調(diào)研在企業(yè)營銷管理決策中的重要作用
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      蘇州區(qū)域中央空調(diào)市場調(diào)研報告
      機電信息(2014年19期)2014-02-27 15:53:09
      天津區(qū)域中央空調(diào)市場調(diào)研報告
      機電信息(2014年1期)2014-02-27 15:51:15
      邳州市| 岳西县| 石渠县| 陇川县| 阜南县| 醴陵市| 张北县| 南川市| 常熟市| 凤冈县| 盐源县| 长春市| 紫金县| 新巴尔虎左旗| 清徐县| 汝阳县| 富川| 西平县| 潍坊市| 洛南县| 蓬安县| 新邵县| 达孜县| 柏乡县| 收藏| 龙江县| 河曲县| 邹城市| 礼泉县| 东源县| 康平县| 博客| 武宣县| 台州市| 阿拉尔市| 新兴县| 苍山县| 德昌县| 黄陵县| 晋州市| 白河县|