古亮+劉培艷
摘要:該文通過對高校招生數(shù)據(jù)的分析,歸納總結(jié)出高校招生數(shù)據(jù),尤其是藝術(shù)類招生數(shù)據(jù)的特點,并對其進行歸類。然后對數(shù)據(jù)挖掘技術(shù)進行了陳述,試圖將數(shù)據(jù)挖掘技術(shù)應用到高校招生數(shù)據(jù)的管理和分析中,提高高校招生數(shù)據(jù)管理的有效性,節(jié)省時間和人力物力成本。
關(guān)鍵詞:高校招生;數(shù)據(jù)管理;數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)14-0001-02
高校招生工作是高校進行人才培養(yǎng)的第一步,是整個高等教育過程中的基礎(chǔ)性工作,其影響力涉及千家萬戶,涉及全國的每一位考生。近年來,高校擴招、改革、招生政策、錄取制度也進行了改革,加之物聯(lián)網(wǎng)、大數(shù)據(jù)時代的悄然到來,給招生工作帶來了新的機遇,同時也是我們面臨很多新的挑戰(zhàn)。如何在保證招生工作公平、公正、公開的基礎(chǔ)上引進新的工作思想和新技術(shù),簡化招生工作流程,節(jié)省人力、物力和時間資源,是做好招生工作的要務之一。
1 高校招生數(shù)據(jù)的特點
隨著計算機網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,高校的招生錄取工作基本上實現(xiàn)了基于網(wǎng)絡(luò)進行的狀態(tài),這種招生報名和錄取的形式提高了招生工作的效率,降低了招生過程中的人力物力成本,但卻帶來了新的問題,即招生錄取過程中的數(shù)據(jù)處理問題,因為在報名系統(tǒng)中下載得到的數(shù)據(jù)會出現(xiàn)格式不統(tǒng)一等狀況,給后期的招生錄取、工作總結(jié)以及之后的與教務處的交接工作、學生管理工作都帶來了一系列的麻煩[1]。而招生數(shù)據(jù)的準確性又設(shè)計每一位考生的切身利益,不容有半點馬虎,一點細微的錯誤都可能導致一個家庭的悲劇,因此我們必須嚴肅認真地對待招生數(shù)據(jù)的處理。現(xiàn)將這些數(shù)據(jù)的特點歸納總結(jié)如下:
1.1 普通類招生數(shù)據(jù)的特點
高校普通類招生數(shù)據(jù)的特點相對統(tǒng)一、整齊,涉及的信息主要包括以下幾種:(1)考生號,這也是標志每一位考生的主要關(guān)鍵字,由各省招辦按照統(tǒng)一的規(guī)律進行編排;(2)考生身份證號,鑒于身份證號的唯一性,其也可作為識別考生的主要關(guān)鍵字,但是由于考生來自全國各地,其身份證號不具有一定的規(guī)律性,因此我們一般不作為主關(guān)鍵字來處理,而是作為次要關(guān)鍵字,也就是說當數(shù)據(jù)產(chǎn)生沖突或錯誤等情況時,由其進一步驗證考生身份;(3)考生姓名,一般處理為字符串,處理的過程中需注意校驗每一個字符的正確性,否則會給學生入學后的教學管理和學籍管理工作帶來很大的麻煩,也會對考生自身產(chǎn)生一定的影響;(4)報考專業(yè),這個屬性我們一般可以用專業(yè)代碼來代替,處理起來更加方便;(5)成績,一般情況下,普通類招生按文化成績排名錄取,藝術(shù)類中有些表演類的或者面試類的專業(yè)則按專業(yè)成績排名,所以考生成績是一個非常重要且難以處理的屬性,因此,我們在這里現(xiàn)將這些專業(yè)進行分類,按錄取原則將其歸類,并按類別分別建立表單,以表單名稱標志其錄取規(guī)則。除此之外,我們還要根據(jù)自己的需求建立成績的小項目屬性,因為當出現(xiàn)兩個考生的總成績一致而招生計劃數(shù)不夠的情況下,我們會根據(jù)錄取原則按某門科目的成績高地優(yōu)先錄取,如語文成績等,也有一些專業(yè)會出現(xiàn)對某門科目的小分數(shù)線要求,如英語;(6)學生類別,學生類別主要分文、理兩種,在錄取的時候會按文理分開排隊和錄??;(7)其他屬性,如考試類別,包括城鎮(zhèn)應屆、城鎮(zhèn)往屆、農(nóng)村應屆、農(nóng)村往屆等;生源地,這涉及某些邊遠地區(qū)可能會有錄取的優(yōu)惠政策等;是否服從調(diào)劑等信息。以上涉及的信息,在制作成為數(shù)據(jù)庫時有些我們可以組織編排成代碼的形式,另外在錄取中還要增加一項,即是否提檔,這以便我們后期做錄取結(jié)果數(shù)據(jù)的統(tǒng)計和分析。
1.2 藝術(shù)類招生數(shù)據(jù)的特點
藝術(shù)類招生數(shù)據(jù)相比普通類要復雜很多,涉及不同專業(yè)有不同的考試規(guī)則,錄取規(guī)則等等,還涉及初試成績、復試成績等,并且每個專業(yè)都有所差別,因此我們一般將其按專業(yè)劃分,做成單個小數(shù)據(jù)庫。各數(shù)據(jù)庫以專業(yè)來命名進行區(qū)分,內(nèi)部仍以考生號作為主要關(guān)鍵字,但這里的考生號是我校自己按規(guī)則編排的,次要關(guān)鍵字為考生身份證號,除此之外涉及的主要屬性包括初試成績,是否進入復試,復試成績。
2 數(shù)據(jù)挖掘技術(shù)簡介
數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程[2]。
數(shù)據(jù)挖掘是整合了人工智能、機器學習等多領(lǐng)域的知識,其主要過程是利用已有的數(shù)據(jù)庫進行數(shù)據(jù)訓練,使用某種算法,如決策樹、支持向量機等,構(gòu)造出相應的數(shù)據(jù)模型,然后利用訓練好的模型進行數(shù)據(jù)分析和結(jié)果預測。
數(shù)據(jù)挖掘作為一門多專業(yè)交叉學科,是當今大數(shù)據(jù)時代下最前沿的技術(shù),引起了國內(nèi)外眾多領(lǐng)域研究人員的高度關(guān)注。在這方面,國外起步相對早一些,應用領(lǐng)域也相對廣泛,包括空間和天文學領(lǐng)域,其中比較有代表性的包括噴氣推進實驗室以及SKLCAT等。我國在這方面的研究主要集中在高校和相關(guān)科研單位,其資金來源和研究方向都以國家自然科學基金以及863計劃等。
到目前為止,數(shù)據(jù)挖掘技術(shù)在世界范圍內(nèi)應用廣泛。毫不夸張地說,數(shù)據(jù)挖掘技術(shù)可以分析處理一切有規(guī)則的數(shù)據(jù)庫,比如在教育中涉及的考試成績分析,學生能力分析等等。其在社會中的應用領(lǐng)域也十分廣泛,包括市場、金融、醫(yī)學、教育等。
3 數(shù)據(jù)挖掘技術(shù)在高校招生數(shù)據(jù)管理中的應用
3.1 對普通類招生數(shù)據(jù)的處理
(1)代碼的轉(zhuǎn)換
對于有些屬性,可以用代碼的形式表示,更方便后期的數(shù)據(jù)匯總、分析等處理,如報考專業(yè)、學生類別等等,這就需要招生工作人員首先編排好代碼規(guī)則,然后作進一步的轉(zhuǎn)譯處理,將一些復雜的文字轉(zhuǎn)變成簡單的有意義的字符串,或?qū)⒁恍┪淖帧⒆址D(zhuǎn)變成具有特定意義的數(shù)字代碼,在處理大量的數(shù)據(jù)時,我們可以借助excel的公式或者SQL語句進行處理[3]。
(2)信息合并
有時候我們所要的信息不是來自同一個數(shù)據(jù)表或者數(shù)據(jù)庫中的,因此需要首先對信息進行合并處理,才能得到我們想要的數(shù)據(jù)庫,一般合并的方法,我們也采用excel表或者SQL語句進行合并處理,處理的過程中應注意校對,以免將不同數(shù)據(jù)按同一條數(shù)據(jù)進行合并,導致錯誤的發(fā)生。
3.2 對藝術(shù)類招生數(shù)據(jù)的處理
由于藝術(shù)類招生由兩部分成績構(gòu)成,所以除普通類招生數(shù)據(jù)的處理之外,還要對其進行綜合處理,由我們本校建立的數(shù)據(jù)庫和從招考報名網(wǎng)上下載導出的數(shù)據(jù)庫進行合并,此時考生身份證號是唯一的主要關(guān)鍵字,以身份證號進行連接,因為此時的考生號分別為我校自行編排的和各省招辦編排的,不具備一致性,因此,對數(shù)據(jù)庫進行合并之后要進行嚴格的校驗工作。
3.3 數(shù)據(jù)的分類總結(jié)
分類技術(shù)在很多領(lǐng)域都有應用,其主要過程可以分為兩個步驟:(1)訓練,包括訓練集—>特征選取—>訓練—>分類器;(2)分類:新樣本—>特征選取—>分類—>判決。首先我們將上述建立的數(shù)據(jù)庫增加錄取結(jié)果項,并按錄取結(jié)果進行分類,類別只有兩個,即是或者否[4]。然后使用決策樹歸納的算法自頂向下構(gòu)造決策樹。利用決策樹,我們就可以預測某一條件的考生是否有很大可能被我校錄取。此外,我們還可以建立考生報考志愿決策樹,以此來判斷符合哪些條件的考生更容易報考我校,據(jù)此來調(diào)整招生宣傳策略。
4 小結(jié)
高校招生工作是高校發(fā)展的基礎(chǔ),其具有相當?shù)闹匾?、嚴肅性和規(guī)范化。招生過程中涉及最多的莫過于數(shù)據(jù)的處理和分析。高校招生數(shù)據(jù)是相對繁瑣和復雜的數(shù)據(jù),對其進行規(guī)范的管理和分析對招生工作的順利進行有至關(guān)重要的作用,也能為后期的招生和報考工作提供依據(jù)。大數(shù)據(jù)和物聯(lián)網(wǎng)時代的到來,為高校招生數(shù)據(jù)的管理和分析開辟了新的道路,作為招生工作人員,我們應該緊跟時代的步伐,抓住大數(shù)據(jù)時代的契機,將新的技術(shù)和理念引入到招生數(shù)據(jù)處理中,甚至整個招生過程中,使其為招生工作服務。因此我們今后的工作重點將是在有效數(shù)據(jù)庫的基礎(chǔ)上建立相應的信息管理和處理系統(tǒng),將整個的招生流程整合到一起,提高招生考試部門的整體管理水平和工作效率。
參考文獻:
[1] 李星華,關(guān)曉霞.高校招生數(shù)據(jù)處理探析[J].電腦知識與技術(shù),2015,4(11).
[2] 谷鐵濤.基于數(shù)據(jù)挖掘的招生管理系統(tǒng)分析[J].山東社會科學,2014(s2):51-52.
[3] 朱麗麗.數(shù)據(jù)挖掘在高校招生中的應用研究[J].計算機與現(xiàn)代化,2012(8).
[4] 楊悅,郭大勇.數(shù)據(jù)挖掘在高校招生工作中的應用前景[J].教育科學,2007(10).