• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Python的GIS專業(yè)就業(yè)信息獲取與分析

      2020-05-25 02:30:57古軍偉靳海亮杜軍王超
      軟件導(dǎo)刊 2020年2期
      關(guān)鍵詞:數(shù)據(jù)可視化

      古軍偉 靳海亮 杜軍 王超

      摘 要:GIS專業(yè)相關(guān)招聘數(shù)據(jù)缺乏,導(dǎo)致學(xué)生不能整體把握行業(yè)需求及就業(yè)前景。通過Python爬蟲程序爬取智聯(lián)招聘中與GIS開發(fā)相關(guān)的就業(yè)信息,將處理后的數(shù)據(jù)利用Echarts和Excel進(jìn)行可視化分析。通過分析數(shù)據(jù)得出以下結(jié)論:本科學(xué)歷為大多數(shù)單位的招聘門檻;省會(huì)、中部以及東部沿海城市地區(qū)人才需求較多;WebGIS相比較底層或者移動(dòng)端的GIS開發(fā)需求比例更高;GIS開發(fā)薪資待遇略低于計(jì)算機(jī),但比傳統(tǒng)GIS其它方向要高;GIS專業(yè)學(xué)生從事GIS開發(fā)比較有優(yōu)勢。這些結(jié)論為地信專業(yè)的學(xué)生未來從事GIS開發(fā)制定學(xué)習(xí)計(jì)劃提供借鑒,也可為高校教學(xué)對接社會(huì)需求提供參考。

      關(guān)鍵詞:Python爬蟲;GIS開發(fā)就業(yè)信息;數(shù)據(jù)可視化

      DOI:10. 11907/rjdk. 191482 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)002-0140-04

      英標(biāo):GIS Development Employment Information Acquisition and Analysis Based on Python

      英作:GU Jun-wei1,JIN Hai-liang1,DU Jun2,WANG Chao2

      英單:(1. School of Surveying and Land Information Engineering, Henan Polytechnic University, Jiaozuo 454150, China;2. Institute of Geographical Sciences, Henan Academy of Sciences, Zhenzhou 450000, China)

      Abstract: Colleges and universities lack the support of data analysis of GIS development and recruitment for students majoring in GIS, which leads to students'inability to grasp the industry needs and employment prospects as a whole. This paper describes the process of using Python crawler program to crawl employment information related to the development of GIS in the recruitment of Intelligent Union. After data processing, the processed data are visualized by Echarts and Excel. Through the analysis of the data, the following conclusions are drawn: undergraduate degree has been called the recruitment threshold of most units; there is more demand for talents in provincial capitals, central and eastern coastal cities; WebGIS has a higher proportion of demand than the bottom or mobile GIS development; the salary of GIS development is slightly lower than that of computer, but higher than other directions of traditional GIS; students majoring in GIS are engaged in GIS development. There are comparative advantages. These conclusions can provide references for students majoring in Geoclass to make learning plans for future GIS development industry, and also for university teachers to meet the needs of society.

      Key Words: Python crawler; recruitment information for GIS development; data visualization

      0 引言

      GIS專業(yè)是與多種學(xué)科有交集的新興邊緣學(xué)科[1]。GIS就業(yè)分為兩大類:一類從事數(shù)據(jù)處理與應(yīng)用,另一類從事GIS開發(fā)[2]。隨著計(jì)算機(jī)技術(shù)的發(fā)展,GIS開發(fā)領(lǐng)域不斷擴(kuò)大[3-5]。

      高校GIS教育發(fā)展良好,但是在GIS專業(yè)學(xué)生培養(yǎng)方面卻存在很多問題[6-8]。GIS專業(yè)的學(xué)生對職業(yè)需要的專業(yè)技能、學(xué)歷要求、地區(qū)需求以及待遇等一系列問題很困惑[9-13]。學(xué)生獲取就業(yè)信息主要有兩種方式:一是通過詢問老師或師兄師姐獲取就業(yè)信息,二是通過搜索招聘網(wǎng)站獲取信息[14-15]。無論哪種方式,學(xué)生都不能從整體上把控就業(yè)信息,所以高校通常采用問卷調(diào)查或者互聯(lián)網(wǎng)在線答題方式解決這一問題,但是此方式費(fèi)時(shí)、費(fèi)力,獲取的數(shù)據(jù)量較小。

      為了讓高校教師和剛?cè)雽W(xué)的GIS專業(yè)學(xué)生了解當(dāng)下GIS就業(yè)技能需求、地域分布以及學(xué)歷要求等綜合信息,本文通過Python獲取智聯(lián)招聘網(wǎng)站GIS開發(fā)招聘信息,經(jīng)過數(shù)據(jù)清洗和反地理編碼處理,利用Echart和Excel對數(shù)據(jù)進(jìn)行可視化展示和分析。

      1 數(shù)據(jù)采集和處理

      1.1 數(shù)據(jù)采集

      地信二次開發(fā)方向涉及到WebGIS、桌面開發(fā)和底層開發(fā)[16],為了最大程度地抓取數(shù)據(jù),將關(guān)鍵詞設(shè)為GIS開發(fā),區(qū)域設(shè)置為全國,以便抓取全國范圍的數(shù)據(jù),然后在火狐瀏覽器的智聯(lián)招聘首頁上輸入關(guān)鍵詞與區(qū)域進(jìn)行數(shù)據(jù)檢索,利用開發(fā)人員工具(F12)獲取數(shù)據(jù)請求URL,對請求的參數(shù)以及響應(yīng)內(nèi)容進(jìn)行分析。抓取數(shù)據(jù)采用多種方式,可以通過返回Json的數(shù)據(jù)格式,也可以通過獲取每個(gè)招聘信息的靜態(tài)頁面鏈接進(jìn)行二次爬取,還可以通過兩種方式相結(jié)合獲取數(shù)據(jù)。相結(jié)合的方式可以獲取每個(gè)職位的靜態(tài)頁面地址,并發(fā)起請求獲取靜態(tài)頁面的數(shù)據(jù)進(jìn)行正則匹配,這種方式比第一種方式獲取的職位信息更多,比第二種方式獲取靜態(tài)頁面的URL更為簡單[17-18],最后將獲取的數(shù)據(jù)保存為xlsx文件。

      1.1.1 數(shù)據(jù)抓取

      采用json數(shù)組和正則表達(dá)式相結(jié)合的方式獲取智聯(lián)招聘數(shù)據(jù),首先設(shè)置請求的關(guān)鍵詞和請求區(qū)域,獲取招聘職位的總頁數(shù),然后通過總頁數(shù)以及頁數(shù)據(jù)量構(gòu)造每一頁的數(shù)據(jù)請求,從而獲取每一頁招聘信息的json數(shù)組,提取數(shù)組中的每一個(gè)靜態(tài)網(wǎng)頁URL存儲(chǔ)到數(shù)組中。偽造頭部采用隨機(jī)方式,將頭部信息聲明為數(shù)組結(jié)合Random進(jìn)行隨機(jī)獲取,設(shè)置每個(gè)請求休息一秒,防止計(jì)算機(jī)IP地址被封而無法進(jìn)行數(shù)據(jù)爬取,采用xpath進(jìn)行匹配獲取每個(gè)靜態(tài)頁面的招聘信息[18]。以下是獲取信息進(jìn)行匹配的核心代碼:

      job_stat = s.xpath('//div[@class="main1 cl main1-stat"])[0]

      stat_li_first = job_stat.xpath('./div[@class="new-info"]/ul/li[1])[0]

      job_name = stat_li_first.xpath('./h1/text()')[0] # 工作名

      salary = stat_li_first.xpath('./div/strong/text()')[0] # 月薪

      stat_li_second = job_stat.xpath('./div[@class="new-info"]/ul/li[2]')[0]

      company_name = stat_li_second.xpath('./div[1]/a/text()')[0] # 公司名稱

      city_name = stat_li_second.xpath('./div[2]/span[1]/a/text()')[0] # 城市名

      workingExp = stat_li_second.xpath('./div[2]/span[2]/text()')[0] # 工作經(jīng)驗(yàn)

      eduLevel = stat_li_second.xpath('./div[2]/span[3]/text()')[0] # 學(xué)歷

      amount = stat_li_second.xpath('./div[2]/span[4]/text()')[0] # 招聘人數(shù)

      job_text = s.xpath('//div[@class="pos-ul"]//text()') # 工作要求

      1.1.2 數(shù)據(jù)存儲(chǔ)

      利用xpath代碼對抓取的數(shù)據(jù)進(jìn)行匹配,然后將數(shù)據(jù)以表1的數(shù)據(jù)格式存儲(chǔ)到csv文件中,以地名+搜索關(guān)鍵字的方式命名文件。

      1.2 數(shù)據(jù)處理

      數(shù)據(jù)處理主要包括“臟數(shù)據(jù)”(包括重復(fù)數(shù)據(jù)和無法使用數(shù)據(jù))的剔除和反地理編碼。獲取的元數(shù)據(jù)不能直接使用,因?yàn)槠渲杏幸恍芭K數(shù)據(jù)”需要剔除,同時(shí)也需要為地名反地理編碼。由于待處理的數(shù)據(jù)需要結(jié)合百度地圖進(jìn)行區(qū)域分布渲染,所以處理數(shù)據(jù)采用Java語言進(jìn)行書寫,剔除臟數(shù)據(jù),同時(shí)將數(shù)據(jù)轉(zhuǎn)換成json數(shù)據(jù)格式,方便數(shù)據(jù)可視化分析。反地理編碼采用百度API提供的地理編碼接口進(jìn)行轉(zhuǎn)換,逆地理編碼核心代碼如下:

      if (ValidateHelper.isNotEmptyString(str)) {

      Map map = new HashMap<>();

      String subStr = str.substring(str.indexOf('(') + 1, str.indexOf("})") + 1);

      //字符串轉(zhuǎn)成json格式

      JSONObject jsonObj = JSONObject.parseObject(subStr);

      //獲取經(jīng)度

      Object lng= jsonObj.getJSONObject("result").getJSONObject("location").get("lng");

      //獲取緯度

      Object lat = jsonObj.getJSONObject("result").getJSONObject("location").get("lat");

      map.put("lng", lng);

      map.put("lat", lat);

      /返回經(jīng)緯度

      return map;

      }

      2 數(shù)據(jù)可視化與分析

      通過程序爬取3 123條招聘信息,經(jīng)過數(shù)據(jù)清洗和去重,有3 000條可供使用。將這些數(shù)據(jù)通過Excel和Echarts[19-21]進(jìn)行人才學(xué)歷、招聘空間分布、技能關(guān)鍵字以及專業(yè)要求進(jìn)行分析。

      2.1 人才學(xué)歷需求分析

      從圖1可以看出,地信開發(fā)行業(yè)招聘的學(xué)歷需求呈現(xiàn)兩極分化的特點(diǎn):大多集中于本科和專科學(xué)歷,其中本科要高于???研究生和學(xué)歷不限的非常少,這點(diǎn)也說明研究生從事地信開發(fā)職業(yè)的較少,而無學(xué)歷要求僅占5%的比例,說明大多數(shù)招聘單位會(huì)設(shè)有學(xué)歷門檻限制。圖1從一定程度上說明在地信開發(fā)行業(yè)中,本科學(xué)歷就能完全滿足招聘單位要求,比研究生學(xué)歷從事地信開發(fā)更有優(yōu)勢。這種現(xiàn)象也與我國教育有關(guān):研究生注重科研而本科生注重實(shí)際應(yīng)用。GIS招聘要求本科學(xué)歷占比非常高。

      2.2 招聘需求空間分布分析

      將招聘信息數(shù)據(jù)在空間分布上進(jìn)行渲染,以熱力圖形式展示如圖2所示。熱力圖越接近紅色表示招聘需求越高,由熱力圖分布可以看出,GIS開發(fā)崗位需求大多集中于中東部地區(qū)或沿海城市,北京和上海形成了兩個(gè)中心區(qū)域,顏色越深表明該區(qū)域招聘需求越大。

      2.3 技能關(guān)鍵字分析

      招聘需求的關(guān)鍵字以詞云方式展示出來,統(tǒng)計(jì)數(shù)據(jù)中技能、數(shù)量越多的關(guān)鍵字,字體就越大。從圖3可以看出,首要的技能就是ArcGIS系列軟件操作,需要通過ArcGIS商業(yè)軟件對前期數(shù)據(jù)進(jìn)行加工,其次對開源的需求也有一定數(shù)量;在前端像Openlayers和LeaFlet 這類開源的API需求比商業(yè)的arcgis for javacaript需求相對較少,在數(shù)據(jù)庫方面開源數(shù)據(jù)庫mysql和postgresql所占比例不大,而Oracle和SqlServer所占比例較大;在編程語言方面Java和C#占比較大,緊接著是C++。Java和C#主要用于WebGIS后臺處理,C++用于底層開發(fā),說明Web開發(fā)要高于底層開發(fā);對于WebGIS開發(fā)服務(wù)器的選擇,GeoServer和ArcServer兩者比例大致相等,前者代表開源,后者代表商業(yè)。無論是HTML、Css、JavaScript這類前端所用的標(biāo)簽和腳本語言,還是數(shù)據(jù)庫、前端GIS開發(fā)API,這些技能在招聘信息中占比都較大,而且這些關(guān)鍵字都與WebGIS有關(guān),印證了地信開發(fā)行業(yè)WebGIS需求很高。

      2.4 專業(yè)要求分析

      3000多份招聘信息中的專業(yè)要求(小數(shù)目專業(yè)不統(tǒng)計(jì),一個(gè)職位可以多個(gè)專業(yè))采用直方圖方式展示。如圖4所示,地信專業(yè)遙遙領(lǐng)先,緊接著就是計(jì)算機(jī)專業(yè),兩者相差不大,測繪和遙感所占比例較小。GIS開發(fā)主要涉及的是GIS理論和計(jì)算機(jī)開發(fā)技術(shù),非專業(yè)人才難以理解GIS理論。隨著各大地圖廠商如百度、谷歌、高德等相繼推出高度封裝的API,使得非專業(yè)性的地信開發(fā)方向難度降低,對開發(fā)人員的GIS理論要求不是很高,這也是為什么計(jì)算機(jī)專業(yè)需求較高的原因,總的來說GIS專業(yè)學(xué)生比較有優(yōu)勢。

      2.5 薪資水平分析

      在3000份樣本中主要展示W(wǎng)ebGIS工資水平直方圖(不分城市地區(qū),工資區(qū)間格式取下限),桌面端和底層開發(fā)太少不展示。地信開發(fā)(WebGIS)的主要薪資集中于10k、8k、9k和6k,薪資水平和計(jì)算機(jī)行業(yè)差的比較多。WebGIS屬于前端開發(fā),薪資待遇要低于計(jì)算機(jī)行業(yè)的純前端,這個(gè)問題可能源于兩個(gè)方面:

      (1)WebGIS在技術(shù)開發(fā)中主要是對API的使用,例如開源中的OpenLayers和Leaflet,商業(yè)中的超圖和ArcGIS。在商業(yè)方案中對API集成比較全,開發(fā)者容易快速適應(yīng)。雖說開源集成可能沒有商業(yè)那么好,但是開源有眾多的插件可供使用,容易入門學(xué)習(xí)、成本低、可以短時(shí)間快速投入工作。一般不是專業(yè)層級的GIS項(xiàng)目,只需原有的前端人員簡單學(xué)習(xí)就可完成項(xiàng)目,沒有必要去招聘專門做GIS的開發(fā)人員。

      (2)WebGIS開發(fā)人員社會(huì)需求還不是很大,據(jù)招聘信息可知,招聘人數(shù)需求大約5000人,這個(gè)比例相比較計(jì)算機(jī)行業(yè)還是較少的。但是隨著大數(shù)據(jù)的興起,WebGIS社會(huì)需求會(huì)有所改變。WebGIS開發(fā)人員技能往往比較單一,即只會(huì)單一API使用,僅僅只能處理WebGIS問題,造成綜合處理問題能力較低并且核心競爭力偏弱,變成項(xiàng)目附屬人員。總體而言,GIS開發(fā)人員待遇比傳統(tǒng)測繪和地信行業(yè)待遇好,但要略低于純計(jì)算機(jī)行業(yè)。

      3 結(jié)語

      Python提供了多種類庫,能夠便捷地獲取網(wǎng)絡(luò)數(shù)據(jù),通過Python爬蟲獲取網(wǎng)絡(luò)數(shù)據(jù)是一個(gè)比較好的方式。Echart可視化結(jié)合Excel彌補(bǔ)了Excel在空間分布展示的缺陷。以上幾種技術(shù)結(jié)合,能夠快速獲取和展示數(shù)據(jù),為數(shù)據(jù)分析提供方便。

      相比較以往學(xué)校通過問卷調(diào)查、走訪、發(fā)送郵件、電話咨詢等方式獲取就業(yè)信息,本文通過Python抓取招聘信息方式具有更加方便、快捷、準(zhǔn)確等優(yōu)勢,數(shù)據(jù)通過Excel和Echart可視化展示,能夠直觀顯示GIS開發(fā)行業(yè)人才需求,通過分析數(shù)據(jù)能夠深入了解當(dāng)下GIS開發(fā)詳情。但此次分析的數(shù)據(jù)沒有連續(xù)的年份數(shù)據(jù),無法對GIS開發(fā)需求作出預(yù)測,如何獲取連續(xù)年份數(shù)據(jù)以及對連續(xù)年份數(shù)據(jù)進(jìn)行分析還需進(jìn)一步研究。

      參考文獻(xiàn):

      [1] 王小兵,孫久運(yùn). 地理信息系統(tǒng)綜述[J]. 地理空間信息,2012,10(1):25-28.

      [2] 龔健雅. 當(dāng)代地理信息系統(tǒng)進(jìn)展綜述[J]. 測繪與空間地理信息,2004(1):5-11.

      [3] 郝杰.? 基于WebGIS的近岸海域空間綜合整治管理信息系統(tǒng)圖形子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 沈陽:遼寧師范大學(xué),2018.

      [4] 宋仁波,張?jiān)?,李文慧,? 軟件考試驅(qū)動(dòng)的GIS專業(yè)教學(xué)改革與實(shí)踐——以“空間數(shù)據(jù)庫”課程為例[J]. 測繪工程,2018,27(4):76-80.

      [5] 郭先春,李大軍,程朋根,等. GIS二次開發(fā)課程案例化教學(xué)方法探索[J]. 測繪科學(xué),2011,36(3):244-246.

      [6] 白建軍. GIS專業(yè)碩士研究生培養(yǎng)中存在的問題及對策[J]. 教育現(xiàn)代化 ,2018,53(5):33-35.

      [7] 中國地理信息系統(tǒng)協(xié)會(huì). 2010?中國地理信息產(chǎn)業(yè)高校畢業(yè)生就業(yè)報(bào)告 [J]. 3s 新聞周刊,2010(10):38-44.

      [8] 陳泰生,王春,王妮,等. 新建本科高校地理信息科學(xué)專業(yè)人才培養(yǎng)模式研究——以滁州學(xué)院為例[J]. 湖北科技學(xué)院學(xué)報(bào),2018,38(5):140-143,148.

      [9] 吳長彬,孫在宏,陳磊. GIS企業(yè)研究生工作站運(yùn)營和人才培養(yǎng)模式探究[J]. 地理信息世界,2018,25(3):118-122.

      [10] 曉東. 美國GIS特色院校申請及就業(yè)展望[J]. 中國測繪,2011(6):20-25.

      [11] 劉正綱,楊金玲,李玲,等. 以人才需求為導(dǎo)向的GIS專業(yè)課程體系構(gòu)建[J]. 測繪工程,2018,27(6):77-80.

      [12] 羅瓊,蔣煥洲. 應(yīng)用型地方高校地理科學(xué)專業(yè)創(chuàng)新人才GIS技能培養(yǎng)體系構(gòu)建與實(shí)踐的探索——以凱里學(xué)院地理科學(xué)專業(yè)為例[J]. 西部素質(zhì)教育,2018,4(7):11-12.

      [13] 肖振強(qiáng). 從美國GIS調(diào)查淺談國內(nèi)GIS教育與就業(yè)[J]. 中國測繪,2009(6):48-51.

      [14] 劉彥花,周美寧. GIS專業(yè)就業(yè)現(xiàn)狀分析與人才培養(yǎng)的思考[J]. 大眾科技,2012,14(2):187-189.

      [14] 溫永寧. 淺論開源軟件在GIS專業(yè)能力培養(yǎng)中作用[J]. 電腦知識與技術(shù),2017,13(18):135-137.

      [15] 徐艷,黃瑞,馬玉銀,等. 高職院?!癎IS設(shè)計(jì)與開發(fā)”課程教學(xué)改革探索[J]. 職教通訊,2017(9):8-10.

      [16] LZU-GIS . 寫給在校的GISER[EB/OL]. [2018-11-08]. https://blog.csdn.net/gisshixisheng/article/details/83796585.

      [17] 羅江華. 基于MD5與Base64的混合加密算法[J]. 計(jì)算機(jī)應(yīng)用,2012,32(S1):47-49.

      [18] 白雪麗. 淺析基于Python爬蟲技術(shù)的特性及應(yīng)用[J]. 山西科技,2018,33(2):53-55.

      [19] UNDCL.什么是Echarts?如何使用Echarts?[EB/OL]. [2017-11-04].http://www.cnblogs.com/Undeceive/p/7782830.html.

      [20] 洪敏,吳紅亞,楊保華. 基于HTML的ECharts的動(dòng)態(tài)數(shù)據(jù)顯示前端設(shè)計(jì)[J]. 計(jì)算機(jī)時(shí)代,2018(8):27-28,32.

      [21] 萬穎樺.? 基于GIS技術(shù)的電商銷售數(shù)據(jù)時(shí)空統(tǒng)計(jì)分析及可視化表達(dá)[D]. 南昌:東華理工大學(xué),2018.

      (責(zé)任編輯:杜能鋼)

      猜你喜歡
      數(shù)據(jù)可視化
      移動(dòng)可視化架構(gòu)與關(guān)鍵技術(shù)綜述
      大數(shù)據(jù)時(shí)代背景下本科教學(xué)質(zhì)量動(dòng)態(tài)監(jiān)控系統(tǒng)的構(gòu)建
      可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
      我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
      科技傳播(2016年19期)2016-12-27 14:53:29
      基于R語言的大數(shù)據(jù)審計(jì)方法研究
      數(shù)據(jù)可視化概念研究
      大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究
      基于B/S結(jié)構(gòu)的考試成績分析系統(tǒng)
      基于Hadoop的商業(yè)數(shù)據(jù)可視化分析模型的研究
      用戶數(shù)據(jù)統(tǒng)計(jì)挖掘與展示
      奉新县| 茌平县| 巨鹿县| 鹤壁市| 鱼台县| 南通市| 重庆市| 福泉市| 井陉县| 南漳县| 额尔古纳市| 泽普县| 霍城县| 安远县| 江阴市| 高淳县| 乌拉特前旗| 康定县| 股票| 交城县| 恭城| 方山县| 文水县| 东阿县| 三原县| 仁化县| 无棣县| 湘阴县| 应城市| 内乡县| 溧水县| 通州市| 甘洛县| 独山县| 石林| 广南县| 甘谷县| 罗源县| 大埔区| 时尚| 依兰县|