摘 要:近年來,以物聯(lián)網(wǎng)和云計算為代表的大數(shù)據(jù)技術正在改變各個行業(yè)的發(fā)展。在教育領域,大數(shù)據(jù)技術在招聘學校人員方面也發(fā)揮著重要作用。本文利用Visual FoxPro開發(fā)的關聯(lián)規(guī)則挖掘工具對學校招聘崗位計劃和應聘者信息進行分析研究,找出它們之間客觀存在的規(guī)律,為學校人員招聘提供科學依據(jù)。
關鍵詞:大數(shù)據(jù);關聯(lián)規(guī)則挖掘;學校;招聘
DOI:10.16640/j.cnki.37-1222/t.2019.20.190
1 引言
2008年9月,“自然”雜志首次開設了“大數(shù)據(jù)”專欄,引發(fā)了學術界對大數(shù)據(jù)的關注[1]。目前,“大數(shù)據(jù)”已成為信息技術應用的熱點,受到各界的高度重視,一致認為大數(shù)據(jù)具有“及時、高效、多樣、大規(guī)模、廣泛使用”的特征。麥肯錫研究所指出:“大數(shù)據(jù)是一種超出了傳統(tǒng)數(shù)據(jù)庫軟件的采集、存儲等功能范圍的數(shù)據(jù)集,而不是不大于一定數(shù)量的數(shù)據(jù)。因為隨著科學技術的發(fā)展,大數(shù)據(jù)標準也會改變,不同的行業(yè)標準也會發(fā)生變化[2]”。
隨著國家對高等教育招生政策的開放,高等學校每年招生數(shù)量也越來越多,導致學科、專業(yè)數(shù)量增加和辦學規(guī)模的擴大,最終致使高校對學科、專業(yè)、管理等人才的需求量越來越大。但是高校在進行招聘時,由于沒有掌握應聘者的信息,不能招到緊需的人才,或?qū)刚卟粷M意。為了解決“招不到人”或“對應聘者不滿意”等問題,學??墒褂么髷?shù)據(jù)技術對以往招聘相關數(shù)據(jù)進行分析研究,找出影響招聘的因素,及時調(diào)整招聘和宣傳策略,吸引優(yōu)秀人才報考,達到招聘到滿意人才的目的。
隨著大數(shù)據(jù)應用技術的普及,在數(shù)據(jù)挖掘技術基礎上開發(fā)了許多大數(shù)據(jù)分析工具。因此,目前對數(shù)據(jù)挖掘技術的討論尚未過時,研究數(shù)據(jù)挖掘技術是為更好地利用大數(shù)據(jù)奠定基礎。關聯(lián)規(guī)則挖掘正好能通過以往招聘相關數(shù)據(jù)進行統(tǒng)計分析,為學校招聘工作服務。
2 關聯(lián)規(guī)則挖掘的概念
關聯(lián)規(guī)則是數(shù)據(jù)挖掘發(fā)現(xiàn)知識模型中重要的模式之一,屬于數(shù)據(jù)挖掘中最活躍的分支,是一種揭示數(shù)據(jù)庫中對象之間的關聯(lián)關系的手段[3]。關聯(lián)規(guī)則挖掘是從海量歷史數(shù)據(jù)中找出數(shù)據(jù)項之間相關規(guī)則的過程[4]。在大數(shù)據(jù)時代,數(shù)據(jù)規(guī)模越來越大,結構越來越復雜,數(shù)據(jù)價值越來越高,數(shù)據(jù)挖掘技術越有用武之地。
關聯(lián)規(guī)則挖掘是Agrawal等人提出的數(shù)據(jù)挖掘技術。設I={i1,i2,…,in}是項集,D是事務集,T是I上子集,TI,TID是單個事務,則關聯(lián)規(guī)則表示為XY,其中XI,YI且XY=,X叫做規(guī)則的條件,Y叫做規(guī)則的結果[5]。為了提高關聯(lián)規(guī)則挖掘的準確性,引入了支持度(S)和置信度(C)兩個指標來衡量規(guī)則的可用性。
支持度計算表達式為:
置信度計算表達式為:
其中D表示事務數(shù)據(jù)庫,N表示事務數(shù)的總和,Count(X)表示事務X的出現(xiàn)次數(shù),Count(X∪Y)表示事務X和Y同時發(fā)生的次數(shù)。支持度S是表示X發(fā)生的頻率,置信度C是表示X發(fā)生時Y也發(fā)生的頻率。
3 關聯(lián)規(guī)則挖掘在學校人員招聘中的應用
3.1 數(shù)據(jù)準備
挖掘?qū)ο笾饕褂脤W校招聘崗位計劃和應聘者報名信息,根據(jù)關聯(lián)規(guī)則挖掘需求,將學校招聘崗位計劃和應聘者報名信息分別轉化為2個二維數(shù)據(jù)表,并對數(shù)據(jù)進行合法性不斷、缺失值處理、歸類等預處理。預處理后的學校招聘崗位計劃表和應聘者報名信息表結構見表1和表2所示。
3.2 算法實現(xiàn)
招聘關系挖掘工具使用FoxPro作為后端數(shù)據(jù)庫管理工具,使用Visual FoxPro 6.0作為前端系統(tǒng)開發(fā)平臺。
3.2.1 數(shù)據(jù)庫實現(xiàn)
3.2.2 關聯(lián)規(guī)則挖掘的實現(xiàn)
招聘關系挖掘工具的操作對象是學校招聘崗位計劃數(shù)據(jù)和應聘者報名數(shù)據(jù),以文本的形式產(chǎn)生關聯(lián)規(guī)則,格式為:屬性A→屬性B 支持度:S% 置信度:C%。
關聯(lián)規(guī)則挖掘算法由Visual FoxPro編程工具實現(xiàn),其算法流程圖如圖1所示。
4 關聯(lián)規(guī)則挖掘
4.1 挖掘結果顯示
基于預設的最小支持閾值(5%)和最小置信度閾值(20%)進行關聯(lián)規(guī)則挖掘,以“屬性A→屬性B 支持度:S% 置信度:C%”形式顯示滿足條件的規(guī)則,挖掘界面和結果如圖2所示。
4.2 挖掘結果分析
關聯(lián)規(guī)則挖掘在學校招聘中應用的主要任務是找出招聘崗位計劃要求與應聘者信息間的關系,指導學校招聘工作。對29項結果的進一步分析得出以下結論:
第一,從規(guī)則1-9可看出,應聘者來源于生源地“省內(nèi)”的支持度遠高于“省外”的支持度,這說明應聘者主要來源于省內(nèi)。因此,學校在以后招聘中要擴大宣傳范圍,加大對“省外”生源的宣傳力度,或在制定招聘政策時對省外生源適當傾斜。招入部分省外教師,使教職工生源地結構合理,合理的教職工生源地結構有利于人才培養(yǎng)和學校的發(fā)展。
第二,從規(guī)則10-19可看出,招考關系挖掘系統(tǒng)對應聘者的學歷和專業(yè)類不敏感,因為學歷和專業(yè)主要取決于學校崗位計劃的要求。
第三,從規(guī)則20-29可看出,應聘者畢業(yè)學校為“省內(nèi)高?!钡闹С侄冗h高于“省外高?!钡闹С侄?,這說明應聘者主要畢業(yè)于省內(nèi)高校。因此,學校在以后招聘中要加大在省外高校的宣傳力度,吸引更多省外高校畢業(yè)的應聘者,使學校教職工的學源結構更合理。來自不同研究生院的教職員工有利于改革和創(chuàng)新,有利于學校的發(fā)展。
5 結束語
本文討論了關聯(lián)規(guī)則挖掘技術在大數(shù)據(jù)時代背景下的學校招聘中的應用。使用Visual FoxPro開發(fā)的挖掘工具分析招聘計劃和應聘人員信息,找出各數(shù)據(jù)項間客觀存在的關系。學??筛鶕?jù)關聯(lián)規(guī)則挖掘結果調(diào)整招聘宣傳策略、招聘政策等,吸引更多優(yōu)秀人才來應聘,最終達到招到結構合理的優(yōu)秀教職工隊伍的目的。同時,為學校人才招聘分析和研究開辟了新思路,也為學校人事管理工作者招聘人才提供了新的依據(jù)。
參考文獻:
[1]王樹西,李安渝,夏增艷.大數(shù)據(jù)和云計算環(huán)境下的信息足跡[C].秦皇島:國際電子商務聯(lián)合會中國分會,2014.
[2]付佳美.大數(shù)據(jù)研究特征分析[D].哈爾濱:哈爾濱工業(yè)大學,2016.
[3]毛德梅,丁瑞國.對數(shù)據(jù)挖掘中關聯(lián)規(guī)則算法的比較研究[J].皖西學院學報,2006(05):27-30.
[4]蘇蕊.數(shù)據(jù)挖掘中關聯(lián)規(guī)則算法的研究[D].上海:上海海事大學,2007.
[5](加)Jiawei Han, Micheline Kamber,范明,孟小峰譯.數(shù)據(jù)挖掘概念及技術[M].北京:機械工業(yè)出版社,2008:147-154.
作者簡介:李佐軍(1980-),男,云南鳳慶人,碩士,副教授,主要從事數(shù)據(jù)挖掘及大數(shù)據(jù)應用技術研究。