徐楠楠 胡晨光
摘 ? 要:數(shù)據(jù)是學(xué)校的核心資產(chǎn),數(shù)據(jù)隨業(yè)務(wù)產(chǎn)生,貫穿于業(yè)務(wù)的全過程。文章對涉及新生報到的10個業(yè)務(wù)活動進(jìn)行梳理和再造,形成從招生到新生報到的上下游業(yè)務(wù)閉環(huán),然后依據(jù)信息標(biāo)準(zhǔn),對各業(yè)務(wù)活動數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換、存儲的全生命周期管理,消除信息孤島。最后利用Python程序設(shè)計語言,從計劃、錄取、報到等多個維度對招生數(shù)據(jù)進(jìn)行分析,縱向比較近幾年招生計劃數(shù)和錄取數(shù),引入Sklearn庫中的LinearRegression構(gòu)建回歸模型,并對招生數(shù)據(jù)進(jìn)行預(yù)測,指導(dǎo)并完善學(xué)校的招生決策。
關(guān)鍵詞:流程優(yōu)化;數(shù)據(jù)治理;數(shù)據(jù)交換共享;Python;招生主題數(shù)據(jù)分析
中圖分類號:TP315 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2019)19-0048-06
一、引言
隨著信息技術(shù)的不斷發(fā)展,教育信息化經(jīng)歷了部門級應(yīng)用建設(shè)、數(shù)字校園建設(shè)等幾個發(fā)展階段,智能化校園建設(shè)成為目前研究和實(shí)踐的焦點(diǎn)。高校信息化建設(shè)過程中,各個部門都先后建立了各種業(yè)務(wù)管理系統(tǒng),但這些系統(tǒng)是不同時期的不同平臺,依據(jù)不同的數(shù)據(jù)模型建立,缺乏統(tǒng)一規(guī)劃,沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),各自為政,相互之間無法進(jìn)行有效的數(shù)據(jù)共享和數(shù)據(jù)利用?!绊?xiàng)目型”建設(shè)模式不僅帶來較大的開發(fā)和運(yùn)維成本,建設(shè)完成即形成新的信息孤島,如果不進(jìn)行數(shù)據(jù)整合和集成,沉睡的數(shù)據(jù)將無法發(fā)揮價值。
《國家中長期教育改革和發(fā)展規(guī)劃綱要(2011-2020年)》中明確提出,構(gòu)建國家教育管理信息系統(tǒng),促進(jìn)學(xué)校管理標(biāo)準(zhǔn)化、規(guī)范化,加強(qiáng)動態(tài)監(jiān)測,提高管理效率。教育部按照《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》要求,制定了《職業(yè)院校數(shù)字校園建設(shè)規(guī)范》,推動職業(yè)院校數(shù)字校園建設(shè),促進(jìn)信息技術(shù)與職業(yè)教育的深度融合?!督逃畔⒒?.0行動計劃》中也提出,建立“覆蓋全國、統(tǒng)一標(biāo)準(zhǔn)、上下聯(lián)動、資源共享”的教育政務(wù)信息資源大數(shù)據(jù),打破數(shù)據(jù)壁壘,實(shí)現(xiàn)“一數(shù)一源”和伴隨式數(shù)據(jù)采集?!吨袊逃F(xiàn)代化2035》中明確提出,建設(shè)智能化校園,統(tǒng)籌建設(shè)一體化智能化教學(xué)、管理與服務(wù)平臺。以上這些政策文件為今后高校信息化建設(shè)指明了方向。
二、學(xué)生業(yè)務(wù)域業(yè)務(wù)梳理
1.原業(yè)務(wù)處理模式問題
學(xué)生是學(xué)校的主體,在信息化建設(shè)中,依據(jù)頂層設(shè)計,對學(xué)生業(yè)務(wù)域的業(yè)務(wù)活動、流程、數(shù)據(jù)進(jìn)行分析尤為重要。學(xué)生相關(guān)管理業(yè)務(wù)在信息化建設(shè)之前,原業(yè)務(wù)處理模式主要存在以下問題:
(1)橫向協(xié)調(diào)困難,效率不高。絕大多數(shù)流程需要多個部門配合才能完成,流程的各活動分散于各部門中,各部門缺乏有效信息交流和協(xié)作,整個流程處于無法整體控制的分散狀態(tài)。各部門以維護(hù)部門利益為工作標(biāo)準(zhǔn),任何一個部門提升整個流程效率的設(shè)想往往無法得到認(rèn)同,缺乏整體控制弱化了整個業(yè)務(wù)流程的效能。
(2)信息交流不暢,數(shù)據(jù)不準(zhǔn)確。缺乏溝通手段,每個活動操作人員只知道自己負(fù)責(zé)的業(yè)務(wù)活動,無法了解流程的全貌,不能準(zhǔn)確地參與到整個流程處理中,經(jīng)常出現(xiàn)重復(fù)性工作。在這些重復(fù)性工作中,原始數(shù)據(jù)的選擇、過濾、處理機(jī)制各不相同,所得結(jié)果無法共享,缺乏第三方驗(yàn)證,無法形成數(shù)據(jù)處理的閉環(huán)流程,信息失真在所難免。
2.學(xué)生業(yè)務(wù)域業(yè)務(wù)活動梳理
根據(jù)上述問題,對涉及學(xué)生主體的招生就業(yè)處、學(xué)工部、教務(wù)處、財務(wù)處、二級學(xué)院等多個職能部門調(diào)研,對學(xué)生入校前、入校、在校、離校四個階段全過程管理進(jìn)行分析,整理出學(xué)生業(yè)務(wù)域的主要業(yè)務(wù)活動,如圖1所示。
學(xué)生入校前,包含的業(yè)務(wù)活動有自主招生、考務(wù)管理、錄取管理、招生管理;入校階段,包含的業(yè)務(wù)活動有生成新生學(xué)籍、收費(fèi)管理、宿舍安排、綠色通道、新生制卡、新生報到(迎新);在校階段,包含的業(yè)務(wù)活動有學(xué)籍管理、學(xué)籍異動、教學(xué)活動、獎懲貸助、發(fā)費(fèi)管理、收費(fèi)管理、綠色通道、宿舍管理、一卡通管理、社團(tuán)活動;離校階段,包含的業(yè)務(wù)活動有畢業(yè)離校、就業(yè)管理、校友管理。
在上述業(yè)務(wù)活動中,學(xué)生在校階段的學(xué)籍管理、學(xué)籍異動和教學(xué)活動是與教學(xué)相關(guān)的非常重要的一部分業(yè)務(wù),因此,此部分內(nèi)容也可以劃分到教學(xué)業(yè)務(wù)域中進(jìn)行分析。
3.以新生為主體進(jìn)行流程優(yōu)化
確定主要業(yè)務(wù)活動后,就進(jìn)入流程分析階段。業(yè)務(wù)流程分析的目的是通過對現(xiàn)有流程進(jìn)行評價,尋找出改進(jìn)的機(jī)會并確定選擇業(yè)務(wù)流程中的哪些活動進(jìn)行優(yōu)化。涉及新生的業(yè)務(wù)活動主要包括入校前和入校兩個階段,在分析過程中,確認(rèn)具體業(yè)務(wù)活動描述和業(yè)務(wù)對應(yīng)的主責(zé)部門,并對這10個業(yè)務(wù)活動全部進(jìn)行信息化并建設(shè)相關(guān)的業(yè)務(wù)系統(tǒng),具體如表1所示。
業(yè)務(wù)系統(tǒng)建設(shè)完成后,雖然在一定程度上規(guī)范了各業(yè)務(wù)部門內(nèi)部的管理工作,提升了管理效率,但是對跨部門間的業(yè)務(wù)和數(shù)據(jù)仍存在業(yè)務(wù)流程不通、數(shù)據(jù)不一致導(dǎo)致的重復(fù)操作情況。因此,需要再次對跨部門業(yè)務(wù)進(jìn)行梳理和流程再造,旨在以業(yè)務(wù)流帶動數(shù)據(jù)流,以數(shù)據(jù)共享需求推動業(yè)務(wù)流程梳理和再造,進(jìn)而打破各部門的系統(tǒng)屏障,實(shí)現(xiàn)跨部門業(yè)務(wù)流轉(zhuǎn),整合原先各部門分散的數(shù)據(jù),統(tǒng)一管理數(shù)據(jù)資源的目標(biāo)。
以自主招生為例,對考生報名、考試、錄取、生成新生學(xué)籍、生成應(yīng)收、安排宿舍、新生報到、報到結(jié)果反饋的全過程進(jìn)行流程梳理和優(yōu)化,如圖2所示。
流程優(yōu)化遵循以下原則:
(1)流程便捷化。在分解和診斷原有流程的基礎(chǔ)上,實(shí)現(xiàn)流程優(yōu)化,達(dá)到便捷化和自動化,從而降低時間成本,提高服務(wù)效率。流程便捷化不是某一個部門內(nèi)部的變革活動,而是眾多部門的聯(lián)動,無需再做重復(fù)性工作。
(2)行為規(guī)范化。通過信息化技術(shù)手段對業(yè)務(wù)流程進(jìn)行準(zhǔn)確描述并形成標(biāo)準(zhǔn)作業(yè)的一系列過程,必然要求業(yè)務(wù)流程的制度化、標(biāo)準(zhǔn)化、程序化。
(3)過程人性化。以用戶需求為導(dǎo)向,業(yè)務(wù)流相關(guān)人員全面參與,建立相互協(xié)調(diào)、相互監(jiān)督、相互合作的工作關(guān)系。
經(jīng)過流程優(yōu)化,達(dá)到以下目標(biāo):
(1)把非結(jié)構(gòu)化的流程轉(zhuǎn)變?yōu)榫唧w的程序化活動,以全局視角將不同部門所負(fù)責(zé)的活動相互連接構(gòu)成了有組織的業(yè)務(wù)活動,破解了各自為政、協(xié)調(diào)困難的問題。
(2)更多關(guān)注活動之間的關(guān)系,設(shè)計各項(xiàng)活動觸發(fā)條件、完成時間、輸入輸出等活動之間的銜接問題,保證流程的整體運(yùn)動方向,以整個流程的標(biāo)準(zhǔn)化促進(jìn)部門內(nèi)各活動處理的制度化、規(guī)范化,實(shí)現(xiàn)流程的整體協(xié)調(diào)。
(3)明確了每個部門的職責(zé),上一個活動產(chǎn)生的輸出作為下一個活動的輸入,下一活動對上一活動提供的數(shù)據(jù)進(jìn)行使用、驗(yàn)證和反饋,流程上實(shí)現(xiàn)了數(shù)據(jù)管理的持續(xù)過程。這種閉環(huán)業(yè)務(wù)流程既提高了工作效率,又保證了學(xué)校所有主數(shù)據(jù)的準(zhǔn)確。
三、數(shù)據(jù)治理為數(shù)據(jù)分析夯實(shí)基礎(chǔ)
業(yè)務(wù)流程再造使得學(xué)生全局業(yè)務(wù)成為上下貫通、左右協(xié)調(diào)的閉環(huán)流程,但是要保證業(yè)務(wù)流上所承載數(shù)據(jù)流的高質(zhì)量、可用性和一致性,還需要對數(shù)據(jù)收集、轉(zhuǎn)換、清洗等過程進(jìn)行規(guī)范化治理。
1.規(guī)范數(shù)據(jù)階段,明確數(shù)據(jù)職責(zé)
數(shù)據(jù)在業(yè)務(wù)流程中分為三個階段:
(1)數(shù)據(jù)產(chǎn)生階段。學(xué)校的原始數(shù)據(jù),大部分源于各業(yè)務(wù)系統(tǒng)。
(2)數(shù)據(jù)集成階段。使用ETL或Web Services接口將數(shù)據(jù)抽取到數(shù)據(jù)交換平臺中。
(3)數(shù)據(jù)使用階段。對上游數(shù)據(jù)進(jìn)一步處理,產(chǎn)生增值數(shù)據(jù)。
數(shù)據(jù)質(zhì)量問題主要產(chǎn)生于數(shù)據(jù)產(chǎn)生階段,主要問題有數(shù)據(jù)項(xiàng)缺失、數(shù)據(jù)不準(zhǔn)確;其次在數(shù)據(jù)集成階段的數(shù)據(jù)加工過程,主要問題有數(shù)據(jù)定義缺失導(dǎo)致的數(shù)據(jù)理解錯誤,系統(tǒng)間數(shù)據(jù)同步時效造成的數(shù)據(jù)不一致。數(shù)據(jù)使用階段和數(shù)據(jù)集成階段是數(shù)據(jù)質(zhì)量問題暴露最多的兩個階段,因?yàn)閿?shù)據(jù)的使用決定了數(shù)據(jù)質(zhì)量問題的定義,很多質(zhì)量問題都是在首次使用時才發(fā)現(xiàn)。
針對數(shù)據(jù)階段特點(diǎn)和數(shù)據(jù)質(zhì)量問題特性,制訂數(shù)據(jù)治理策略:
(1)數(shù)據(jù)產(chǎn)生階段。數(shù)據(jù)質(zhì)量問題必須在源頭得到修正,這是數(shù)據(jù)治理策略的一項(xiàng)基本原則。數(shù)據(jù)項(xiàng)缺失、數(shù)據(jù)不準(zhǔn)確和數(shù)據(jù)集成階段暴露的數(shù)據(jù)定義缺失都是在數(shù)據(jù)產(chǎn)生階段出現(xiàn)的問題,此階段數(shù)據(jù)質(zhì)量問題的實(shí)施策略為:規(guī)范《學(xué)校信息標(biāo)準(zhǔn)》,系統(tǒng)建設(shè)時嚴(yán)格按照信息標(biāo)準(zhǔn)中主數(shù)據(jù)的標(biāo)準(zhǔn)定義系統(tǒng)數(shù)據(jù)項(xiàng),并要求承建商提供數(shù)據(jù)字典。在數(shù)據(jù)采集時,既通過技術(shù)手段做到數(shù)據(jù)“應(yīng)采盡采”,又通過培訓(xùn)等多種形式宣傳數(shù)據(jù)準(zhǔn)確的重要性,讓各系統(tǒng)操作人員把好數(shù)據(jù)質(zhì)量第一道關(guān)。
(2)數(shù)據(jù)集成階段。各信息系統(tǒng)的主數(shù)據(jù)在這個階段進(jìn)行匯集,數(shù)據(jù)項(xiàng)缺失和數(shù)據(jù)定義缺失也是在此階段暴露的。數(shù)據(jù)集成是信息中心核心工作之一,通過數(shù)據(jù)質(zhì)量暴露的問題,追蹤數(shù)據(jù)質(zhì)量背后的根本原因,對人員、業(yè)務(wù)流程、信息系統(tǒng)、集成過程等提出深入優(yōu)化方案。
(3)數(shù)據(jù)使用階段。作為數(shù)據(jù)的最終使用者,在使用環(huán)節(jié)評估數(shù)據(jù)治理的成效,并反饋給信息中心作為下一階段數(shù)據(jù)治理的目標(biāo)依據(jù)。
根據(jù)上述情況,建立數(shù)據(jù)責(zé)任人體系,分別明確數(shù)據(jù)所有者、數(shù)據(jù)管理者、數(shù)據(jù)使用者的工作職責(zé),如圖3所示。數(shù)據(jù)所有者是數(shù)據(jù)的產(chǎn)生維護(hù)者,一般是業(yè)務(wù)部門工作人員,需要按照數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量要求提供可信的原始數(shù)據(jù),并對缺陷數(shù)據(jù)進(jìn)行修復(fù);數(shù)據(jù)管理者是數(shù)據(jù)的集成維護(hù)者,多為信息中心數(shù)據(jù)管理員,負(fù)責(zé)數(shù)據(jù)集成,推動數(shù)據(jù)共享,及時做好數(shù)據(jù)備份,制定數(shù)據(jù)安全管理策略;數(shù)據(jù)使用者申請使用數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,并根據(jù)需要進(jìn)行數(shù)據(jù)分析。全面治理學(xué)生數(shù)據(jù),以實(shí)現(xiàn)“狀態(tài)數(shù)據(jù)要準(zhǔn)確,過程數(shù)據(jù)要連續(xù),歷史數(shù)據(jù)可回溯”的目標(biāo)。
經(jīng)過數(shù)據(jù)治理,確定了學(xué)生基礎(chǔ)數(shù)據(jù)的權(quán)威來源,依據(jù)信息標(biāo)準(zhǔn),規(guī)范學(xué)生主數(shù)據(jù),通過數(shù)據(jù)交換平臺實(shí)現(xiàn)異構(gòu)系統(tǒng)間數(shù)據(jù)的共享交換。數(shù)據(jù)使用中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題及時反饋修復(fù),最終形成數(shù)據(jù)閉環(huán),如圖4所示。學(xué)校各環(huán)節(jié)用戶都成為數(shù)據(jù)的生產(chǎn)者、維護(hù)者、使用者和受益者,打造了全量、高質(zhì)量、標(biāo)準(zhǔn)化的數(shù)據(jù)生態(tài),服務(wù)于人才培養(yǎng)、科學(xué)研究和學(xué)校運(yùn)營。
2.新生數(shù)據(jù)共享交換和治理
為了讓數(shù)據(jù)在業(yè)務(wù)流上流動起來成為信息流,首先是實(shí)現(xiàn)對新生業(yè)務(wù)的數(shù)據(jù)共享交換,采用ETL工具實(shí)現(xiàn)異構(gòu)系統(tǒng)間的數(shù)據(jù)交換,具體共享交換方案如圖5所示。
數(shù)據(jù)共享交換遵從學(xué)校信息標(biāo)準(zhǔn),根據(jù)權(quán)威數(shù)據(jù)來源,確保每個數(shù)據(jù)項(xiàng)只有一個出處,即“數(shù)據(jù)一次錄入多次使用”。信息中心負(fù)責(zé)數(shù)據(jù)的一致性,各業(yè)務(wù)部門負(fù)責(zé)數(shù)據(jù)的準(zhǔn)確性、完整性、規(guī)范性。確定了數(shù)據(jù)產(chǎn)生的權(quán)威部門,數(shù)據(jù)隨著業(yè)務(wù)處理在業(yè)務(wù)流中動起來,下游數(shù)據(jù)使用部門驗(yàn)證數(shù)據(jù)產(chǎn)生部門的數(shù)據(jù)質(zhì)量,形成有效的采集、交換、共享、監(jiān)督、反饋、溝通、整合數(shù)據(jù)閉環(huán),不斷提升數(shù)據(jù)質(zhì)量,為數(shù)據(jù)分析決策夯實(shí)基礎(chǔ)。
四、利用Python實(shí)現(xiàn)招生主題數(shù)據(jù)分析
1.數(shù)據(jù)應(yīng)用的三個層次
數(shù)據(jù)經(jīng)過采集、轉(zhuǎn)換、清洗后,可以進(jìn)行不同層次的利用和分析。對數(shù)據(jù)的利用可分為三個層次:
(1)數(shù)據(jù)報表、可視化:包括師生畫像,師生數(shù)據(jù)一張表,校情數(shù)據(jù)展示等。
(2)數(shù)據(jù)挖掘、關(guān)聯(lián)分析:對不同維度的數(shù)據(jù)進(jìn)行挖掘應(yīng)用。
(3)建立數(shù)據(jù)模型、預(yù)測。
對數(shù)據(jù)的利用,前提和基礎(chǔ)是實(shí)現(xiàn)數(shù)據(jù)共享交換。解決數(shù)據(jù)共享交換,消除信息孤島是一個持續(xù)的過程,新業(yè)務(wù)系統(tǒng)的建設(shè)或者舊業(yè)務(wù)系統(tǒng)的升級改造勢必會影響原有數(shù)據(jù)的共享交換規(guī)則,所以當(dāng)前和未來一段時期,數(shù)據(jù)共享交換仍是高校數(shù)據(jù)工作的重點(diǎn)。目前各高校對數(shù)據(jù)的綜合利用多停留在數(shù)據(jù)報表可視化階段,只有個別高校實(shí)踐了數(shù)據(jù)的挖掘應(yīng)用。
2.Python簡介
利用Python程序設(shè)計語言對數(shù)據(jù)進(jìn)行可視化分析的優(yōu)勢在于其強(qiáng)大的集成性和豐富的第三方庫,Anaconda和PyCharm可以幫助用戶實(shí)現(xiàn)Python的高效開發(fā),把數(shù)據(jù)讀取、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)展示都集成在PythonIDE,無需添加額外的開發(fā)程序。Python具有10萬多個第三方庫,如Requests、BeautifulSoup用于網(wǎng)絡(luò)爬蟲采集數(shù)據(jù);Matplotlib和Seaborn有良好的作圖性能;Pandas是基于Series和DataFrame兩種數(shù)據(jù)類型的數(shù)據(jù)分析庫。
3.招生主題數(shù)據(jù)可視化
本文數(shù)據(jù)可視化圖表均使用Python3.6版本,集成環(huán)境使用Anaconda3。
數(shù)據(jù)采集時,既可以直接通過Python連接數(shù)據(jù)庫,也可以將需要分析的數(shù)據(jù)從數(shù)據(jù)庫中導(dǎo)出成CSV或Excel格式。本文使用的數(shù)據(jù)統(tǒng)一在數(shù)據(jù)庫中用SQL腳本執(zhí)行查詢語句,然后導(dǎo)出。
Python數(shù)據(jù)采集語句如下:
# 引入工具包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
# 如果數(shù)據(jù)圖中需要顯示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#創(chuàng)建工作路徑
import os
os.chdir('D:\\python\\自主招生數(shù)據(jù)分析\\')
#讀取數(shù)據(jù)
zz_student = pd.read_excel('zz_student2019.xlsx',sheetname=0)
數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,清洗過程中對重復(fù)數(shù)據(jù)、非標(biāo)準(zhǔn)化數(shù)據(jù)、缺失值數(shù)據(jù)進(jìn)行處理。利用Pandas和NumPy計算庫對數(shù)據(jù)進(jìn)行聚合操作、清洗、標(biāo)準(zhǔn)化以及數(shù)據(jù)轉(zhuǎn)換等。比如,利用身份證號信息對某些性別為空的數(shù)據(jù)填充正確的“男”“女”值,代碼如下:
##提取身份證號字段
zjh = zz_student1['SFZH']
data_zjhs = pd.DataFrame(zjh)
##定義函數(shù)
def get_sex(series):
getZjsh = str(series['SFZH']) ##假設(shè)數(shù)據(jù)有int和string 2種類型,全轉(zhuǎn)換成str
zjsh = int(getZjsh[:-1]) % 10 ?##這里先取到前17位,然后把string轉(zhuǎn)換成int類型進(jìn)行計算
if zjsh % 2 == 0:
return '女'
else:
return '男'
data_zjhs['性別'] = data_zjhs.apply(get_sex, axis='columns')
數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理后,進(jìn)行可視化處理,使用Matplotlib或Seaborn繪制成圖。
圖6是自主招生考生的考試情況分布餅圖,從圖中可以明顯看出,免試入學(xué)的考生占比將近一半,只免面試的人數(shù)占比24%,只免面試的人數(shù)較少,占比2.74%,參加雙考的人數(shù)占比為27.31%。根據(jù)此數(shù)據(jù)情況,教務(wù)處可以優(yōu)化配置考場安排、筆試監(jiān)考老師、面試官,以達(dá)到資源最優(yōu)配置。
利用Python中的Bokeh制圖可實(shí)現(xiàn)圖表的交互,如圖7所示。該圖是各學(xué)院不同類別新生的錄取人數(shù)堆疊柱狀圖,橫坐標(biāo)是學(xué)院維度,縱坐標(biāo)是人數(shù),顏色表示自主招生、中高職銜接、高招、貫通培養(yǎng)四類新生類別,柱子的高度表示人數(shù)的多少,當(dāng)鼠標(biāo)放在柱子上時,可顯示該學(xué)院各類別新生人數(shù)。從圖中可以看出,電信工程學(xué)院的自主招生人數(shù)最多,汽車工程學(xué)院的高考招生人數(shù)最多,藝術(shù)設(shè)計學(xué)院的中高職銜接轉(zhuǎn)段人數(shù)最多,根據(jù)此數(shù)據(jù)情況,結(jié)合各學(xué)院的招生專業(yè)計劃和實(shí)際師資配比,可以適當(dāng)調(diào)整專業(yè)設(shè)置和專業(yè)計劃數(shù),以突出特色專業(yè),實(shí)現(xiàn)合理師資配比。
另外,從生成的“各類別新生男女生年齡分布折線圖”中可以看出,貫通新生的年齡多在15、16歲,極個別是14歲或者18歲,自主招生和高考統(tǒng)招新生年齡多在18歲,極個別在17歲或者21歲以上。根據(jù)此數(shù)據(jù)情況,結(jié)合各年齡段孩子特點(diǎn),優(yōu)化配置輔導(dǎo)員和班主任。
對2013-2019年學(xué)校自主招生計劃數(shù)和錄取數(shù)進(jìn)行對比,繪制計劃數(shù)和錄取數(shù)分布圖,如圖8所示。
繼續(xù)對招生計劃數(shù)和錄取數(shù)進(jìn)行相關(guān)性分析,利用Python中的corr()函數(shù),求得Pearson相關(guān)系數(shù)為:0.949153,說明兩者有較強(qiáng)的正相關(guān)性。接著利用Sklearn第三方庫中的LinearRegression構(gòu)建回歸模型,模型結(jié)果顯示,計劃數(shù)與錄取數(shù)存在線性關(guān)系。根據(jù)構(gòu)建的回歸模型,當(dāng)計劃數(shù)是1200時,預(yù)測錄取數(shù)是1415。模型代碼如圖9所示,計劃數(shù)與錄取數(shù)回歸擬合線如圖10所示。
五、結(jié)束語
模型的構(gòu)建需要結(jié)合特定的背景,綜合考慮影響預(yù)測值的各個維度和各個因素。比如在上述的回歸模型中,歷年的數(shù)據(jù)積累會增加樣本數(shù)據(jù)量,樣本數(shù)據(jù)量的增加會使得預(yù)測結(jié)果更準(zhǔn)確。另外,在模型中還需要考慮當(dāng)年的招生政策、考生出生當(dāng)年的人口出生率或當(dāng)年各地生源的高三畢業(yè)生人數(shù),多種因素綜合分析也會提升對預(yù)測結(jié)果的判斷力。
大數(shù)據(jù)時代,學(xué)校各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)只有進(jìn)行統(tǒng)一源頭采集、標(biāo)準(zhǔn)規(guī)范清洗轉(zhuǎn)換、合理安全存儲、有效綜合利用的全生命周期,才能真正綻放高校教育數(shù)據(jù)資產(chǎn)的價值。流程是經(jīng)脈,數(shù)據(jù)是血液,以師生為中心,梳理各個核心業(yè)務(wù)尤其是跨部門業(yè)務(wù),是解決和消除數(shù)據(jù)孤島的重要途經(jīng)。數(shù)據(jù)標(biāo)準(zhǔn)是基礎(chǔ),數(shù)據(jù)治理是途徑,數(shù)據(jù)交換是核心,數(shù)據(jù)分析是結(jié)果,數(shù)據(jù)工作需要全校上下各部門聯(lián)動,打造學(xué)校、部門、個人三方共同參與、共同維護(hù)、共同使用、共同獲益的良好數(shù)據(jù)生態(tài),將學(xué)校業(yè)務(wù)數(shù)據(jù)通過采集、處理、利用加以高效組織和科學(xué)管理,使其成果得以有效應(yīng)用于學(xué)校的教學(xué)、科研和校務(wù)管理與決策過程,進(jìn)而提升學(xué)校的核心競爭力。
參考文獻(xiàn):
[1]Wes McKinney著;徐敬一譯.利用Python進(jìn)行數(shù)據(jù)分析[M].北京:機(jī)械工業(yè)出版社,2018.
[2]Clinnton W.Brownley著;陳光欣譯.Python數(shù)據(jù)分析基礎(chǔ)[M].北京:人民郵電出版社,2017.
[3]Kirthi Raman著;程豪譯.Python數(shù)據(jù)可視化[M].北京:機(jī)械工業(yè)出版社,2017.
[4]Eric Matthes著;袁國忠譯.Python編程從入門到實(shí)踐[M].北京:人民郵電出版社,2016.
[5]吳升.大數(shù)據(jù)平臺中數(shù)據(jù)分析工具的設(shè)計與實(shí)現(xiàn)[D].上海:東南大學(xué),2015.
[6]陳為.數(shù)據(jù)可視化的基本原理與方法[M].北京:科學(xué)出版社,2013.
[7]蔣東興等.信息化頂層設(shè)計[M].北京:清華大學(xué)出版社,2015.
(編輯:王曉明)