楊子天 溫上海
摘 ?要:學(xué)生在校期間產(chǎn)生的數(shù)據(jù),可用以分析和挖掘與學(xué)風(fēng)建設(shè)有關(guān)的因素,并有針對(duì)性地對(duì)學(xué)生加以引導(dǎo),從而提升高校在學(xué)風(fēng)建設(shè)和管理方面的成效。在高校智慧校園建設(shè)的基礎(chǔ)上,通過(guò)基于關(guān)聯(lián)分析模型的數(shù)據(jù)挖掘方法,對(duì)高校一卡通、教務(wù)信息系統(tǒng)、學(xué)生工作數(shù)據(jù)等多個(gè)源渠道的數(shù)據(jù)信息進(jìn)行分析,為高校的學(xué)風(fēng)建設(shè)提供精準(zhǔn)的技術(shù)支撐和決策輔助。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;學(xué)風(fēng)建設(shè)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)14-0127-03
Abstract: The data generated by students in school can be used to analyze and mine the factors related to the construction of study style, and give targeted guidance to students, so as to improve the effectiveness of the construction of study style and management in colleges and universities. Based on the construction of wisdom campus in Colleges and universities, through the data mining method based on association analysis model, this paper analyzes the data information of multiple source channels such as college all-in-one card, educational administration information system and student work data, so as to provide accurate technical support and decision-making assistance for the construction of study style in colleges and universities.
Keywords: data mining; association analysis; the construction of study style
0 ?引 ?言
高校學(xué)風(fēng)建設(shè)是高校辦學(xué)目標(biāo)中的重要內(nèi)容之一,是體現(xiàn)高校辦學(xué)質(zhì)量的重要所在。大數(shù)據(jù)技術(shù)的快速發(fā)展,使得高校各項(xiàng)工作都得到很大提升。高校學(xué)風(fēng)建設(shè)可以借助信息技術(shù)發(fā)展的紅利,改變以往通過(guò)學(xué)生學(xué)習(xí)成績(jī)和課堂上的表現(xiàn)來(lái)制定學(xué)風(fēng)建設(shè)方案的模式,提升對(duì)學(xué)生、學(xué)院、學(xué)校學(xué)習(xí)風(fēng)氣的把握,針對(duì)性地制定學(xué)風(fēng)建設(shè)方案,使高校辦學(xué)質(zhì)量進(jìn)一步精進(jìn)。傳統(tǒng)模式下,高校在制定學(xué)風(fēng)建設(shè)方案時(shí)往往借助以往經(jīng)驗(yàn)和學(xué)生成績(jī),這種方式會(huì)忽略一些很難直觀發(fā)現(xiàn)的問(wèn)題和影響學(xué)風(fēng)的因素,也會(huì)忽略高校所產(chǎn)生的大量有價(jià)值的信息,如一卡通、教務(wù)、學(xué)工等各業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)。
為了準(zhǔn)確掌握學(xué)校學(xué)風(fēng)情況和針對(duì)性調(diào)整學(xué)風(fēng)建設(shè)方案,各高校都在研究如何使用大數(shù)據(jù)技術(shù)和挖掘技術(shù)來(lái)解決學(xué)風(fēng)相關(guān)信息獲取和決策的制定問(wèn)題,如使用Apriori關(guān)聯(lián)規(guī)則算法、BP神經(jīng)網(wǎng)絡(luò)算法、貝葉斯分類算法、K-Means聚類算法、SVM(支持向量機(jī))等算法模型獲取影響學(xué)風(fēng)建設(shè)的因素和學(xué)風(fēng)建設(shè)效果。本文采用Apriori關(guān)聯(lián)規(guī)則算法獲取影響學(xué)風(fēng)建設(shè)的因素。Apriori是挖掘頻繁項(xiàng)集中最常用、最經(jīng)典的算法,其核心思想是通過(guò)連接產(chǎn)生候選項(xiàng)及其支持度,然后通過(guò)剪枝生成頻繁項(xiàng)集。在一個(gè)數(shù)據(jù)集中找出項(xiàng)之間的關(guān)系,比如學(xué)風(fēng)優(yōu)良的學(xué)生中有40%的學(xué)生可能每周去圖書(shū)館兩次及以上。
1 ?基于Apriori關(guān)聯(lián)規(guī)則算法的關(guān)聯(lián)模型
Apriori算法是經(jīng)典的用于關(guān)聯(lián)規(guī)則和挖掘頻繁項(xiàng)集的挖掘算法,也是最經(jīng)典的數(shù)據(jù)挖掘算法。Apriori算法利用逐層搜索的方式找出數(shù)據(jù)項(xiàng)集中的項(xiàng)集關(guān)系,形成規(guī)則,主要方式包括連接操作和剪枝操作。關(guān)聯(lián)規(guī)則的挖掘主要分為兩個(gè)過(guò)程:找出所有的頻繁項(xiàng)集(支持度大于最小支持度的項(xiàng)集,即頻繁項(xiàng)集),由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則(規(guī)則必須滿足最小支持度和最小可信度)。
在挖掘頻繁項(xiàng)集的過(guò)程中,關(guān)聯(lián)規(guī)則必須滿足最小支持度(min_sup)和最小可信度(min_conf)即S(A→B)>min_sup且C(A→B)>min_conf支持度和可信度的計(jì)算公式為和。
1.1 ?學(xué)風(fēng)建設(shè)相關(guān)因素特征的選擇和提取
學(xué)風(fēng)建設(shè)是高校發(fā)展的重要因素之一,根據(jù)本校學(xué)風(fēng)建設(shè)情況,課題組構(gòu)建了科學(xué)、全面的關(guān)聯(lián)模型,遵循客觀、科學(xué)、全面、可行的原則,確定了模型所需的各項(xiàng)指標(biāo)數(shù)據(jù),如表1所示,其中包括學(xué)生基本信息、課堂考勤、消費(fèi)數(shù)據(jù)、上網(wǎng)統(tǒng)計(jì)數(shù)據(jù)、圖書(shū)館數(shù)據(jù)等。
本次采集的數(shù)據(jù)來(lái)自于2019級(jí)大二某專業(yè)學(xué)生共71人(已去除留級(jí)、休學(xué)、入伍等情況導(dǎo)致數(shù)據(jù)不全的學(xué)生),截至2021年7月,學(xué)校已完成成績(jī)登記和統(tǒng)計(jì)工作,所以以2019級(jí)該專業(yè)大二學(xué)生整學(xué)年的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)集。由于本次關(guān)聯(lián)分析的因素大部分為分類變量,所以本次數(shù)據(jù)預(yù)處理時(shí)需要進(jìn)行大量的統(tǒng)計(jì)以及將數(shù)值數(shù)據(jù)合理轉(zhuǎn)化為分類數(shù)據(jù)的計(jì)算。如圖書(shū)館借書(shū)量,大部分學(xué)生都少于五本,所以將0本到3本分為A到D檔,4本及以上為E檔。在計(jì)算周消費(fèi)金額時(shí),采用Min-max Scaling方法,公式為,其中X為各分類變量值,Xmax為變量值中的最大值,Xmin為最小值,這樣所有的變量值都分布在0和1之間,然后均勻地將區(qū)間分為5份,對(duì)應(yīng)于A到E。原始數(shù)據(jù)如圖1所示,數(shù)據(jù)中有些學(xué)生某一項(xiàng)數(shù)據(jù)為空,則用0或者對(duì)應(yīng)等級(jí)代替。
1.2 ?算法計(jì)算與分析
通過(guò)數(shù)據(jù)挖掘軟件,引入Generate Transaction Data部件、apriori部件、Create Association Rules部件,模型如圖2所示,按照實(shí)際需求調(diào)整參數(shù)進(jìn)行挖掘。根據(jù)數(shù)據(jù)特點(diǎn)和挖掘內(nèi)容對(duì)min number of itemsets頻繁項(xiàng)集的最小個(gè)數(shù)、max number of retiries最大嘗試次數(shù)進(jìn)行設(shè)定。
通過(guò)apriori算法對(duì)某一專業(yè)學(xué)生的基本信息和行為數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘,得到與學(xué)生學(xué)業(yè)成績(jī)相關(guān)的部分因素,如表2所示(因挖掘二元頻繁項(xiàng)集過(guò)多,根據(jù)實(shí)際需求進(jìn)行了刪減)。
從挖掘結(jié)果和因素表中可以發(fā)現(xiàn),績(jī)點(diǎn)高學(xué)生(N=A)的成績(jī)與很多因素有關(guān)。例如地區(qū)為中東部、民族為漢族學(xué)生績(jī)點(diǎn)高的概率更大,主要是因?yàn)橹袞|部地區(qū)教育更發(fā)達(dá),且該專業(yè)中漢族人數(shù)眾多,所占比例高達(dá)97.2%。除一些根據(jù)常識(shí)即可獲取的知識(shí)外,挖掘中還有跟想象中不同的額外知識(shí),可供學(xué)校用來(lái)把握學(xué)風(fēng)建設(shè),引導(dǎo)學(xué)風(fēng)風(fēng)向。如第四條,成績(jī)優(yōu)秀的學(xué)生,日均上網(wǎng)量屬于第二檔,平均每天上網(wǎng)時(shí)間在三個(gè)小時(shí)以上。
1.3 ?算法應(yīng)用與拓展
在大數(shù)據(jù)時(shí)代背景下,通過(guò)數(shù)據(jù)挖掘技術(shù)挖掘?qū)W風(fēng)建設(shè)相關(guān)信息促進(jìn)學(xué)校學(xué)風(fēng)建設(shè),引導(dǎo)學(xué)生養(yǎng)成良好的學(xué)習(xí)習(xí)慣獲取想要得到的知識(shí),但卻無(wú)法形成長(zhǎng)效機(jī)制。通過(guò)學(xué)風(fēng)建設(shè)平臺(tái)提供學(xué)生學(xué)習(xí)和行為數(shù)據(jù)的可視化與挖掘分析,可為教師在引導(dǎo)和教育學(xué)生上提供所需數(shù)據(jù)和決策依據(jù),建立起長(zhǎng)效機(jī)制。平臺(tái)作用的發(fā)揮來(lái)自于學(xué)生校園行為大數(shù)據(jù),而數(shù)據(jù)的采集則來(lái)自于軟硬件的結(jié)合。圖3為學(xué)風(fēng)建設(shè)管理平臺(tái),當(dāng)前顯示頁(yè)面為學(xué)業(yè)特征。
首先,根據(jù)不同數(shù)據(jù)源提供的數(shù)據(jù)格式,采用不同的采集方式。對(duì)于定時(shí)抽取的且數(shù)據(jù)庫(kù)開(kāi)放的批量數(shù)據(jù)源,采用ETL進(jìn)行數(shù)據(jù)的初始化,通過(guò)腳本調(diào)度+ETL組合的方式,采集定期批量更新的增量數(shù)據(jù);對(duì)于實(shí)時(shí)流式數(shù)據(jù),定義源數(shù)據(jù)通訊的數(shù)據(jù)報(bào)文格式,采用kafka+zookeeper+MQ組合技術(shù),采集實(shí)時(shí)的流式數(shù)據(jù),以消息服務(wù)方式傳輸至中心;對(duì)于網(wǎng)頁(yè)數(shù)據(jù),則采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),定期抓取目標(biāo)網(wǎng)址的文字和圖片等內(nèi)容;對(duì)于電子類數(shù)據(jù)(如文檔、圖片等),采用socket接口分類定義不同的模板,獲取電子化數(shù)據(jù)。其次,數(shù)據(jù)采集服務(wù)以集群方式部署,采用keeplived+LVS技術(shù),支持多任務(wù)并發(fā),自動(dòng)負(fù)載均衡,支持大數(shù)據(jù)量的抽取轉(zhuǎn)換處理。
通過(guò)數(shù)據(jù)可視化、圖形化的方式呈現(xiàn)學(xué)業(yè)行為數(shù)據(jù)和預(yù)測(cè)結(jié)果,為學(xué)校對(duì)學(xué)生進(jìn)行學(xué)風(fēng)把握以及進(jìn)行精準(zhǔn)化的學(xué)風(fēng)管理與引導(dǎo)提供重要依據(jù)。平臺(tái)展示如圖3所示,通過(guò)匯聚海量行為和學(xué)業(yè)數(shù)據(jù),對(duì)其數(shù)據(jù)進(jìn)行多維度建模(認(rèn)知模型、加權(quán)模型、一分四率模型、離均值模型、進(jìn)步率模型、偏科模型等)和跟蹤,以圖形可視化方式呈現(xiàn)教學(xué)和學(xué)業(yè)數(shù)據(jù)的分析結(jié)果,為教師發(fā)現(xiàn)問(wèn)題、肯定優(yōu)勢(shì)、改進(jìn)教學(xué)以及為學(xué)生的學(xué)習(xí)指明了方向;為校長(zhǎng)及時(shí)發(fā)現(xiàn)問(wèn)題,掌握動(dòng)態(tài)教育發(fā)展規(guī)律、推動(dòng)教育改革,實(shí)現(xiàn)素質(zhì)教育管理與決策提供量化數(shù)據(jù)依據(jù)。
2 ?模型應(yīng)用與效果
本次關(guān)聯(lián)分析模型,采取學(xué)生基本信息、一卡通數(shù)據(jù)、上網(wǎng)時(shí)長(zhǎng)統(tǒng)計(jì)數(shù)據(jù)和教務(wù)成績(jī)數(shù)據(jù),通過(guò)數(shù)據(jù)清洗和預(yù)處理,從數(shù)據(jù)中提取20個(gè)特征點(diǎn),通過(guò)傳統(tǒng)和主成分分析等方法,采用其中14個(gè)主要特征點(diǎn),將數(shù)據(jù)引入關(guān)聯(lián)分析模型中,得到與績(jī)點(diǎn)相關(guān)的頻繁項(xiàng)集并從中獲取知識(shí),符合對(duì)該模型的預(yù)期。通過(guò)該模型,可以對(duì)學(xué)生的學(xué)業(yè)等相關(guān)數(shù)據(jù)進(jìn)行匯總,分類展示,獲取成績(jī)對(duì)比、排名、選課統(tǒng)計(jì)等直觀數(shù)據(jù)可視化,挖掘分析知識(shí)形成互補(bǔ),方便學(xué)校從學(xué)生、班級(jí)、專業(yè)、學(xué)院等角度做出學(xué)風(fēng)建設(shè)相關(guān)決策。
3 ?結(jié) ?論
引入新興技術(shù)包括大數(shù)據(jù)和信息技術(shù),打造智慧校園框架體系,輔助高校學(xué)生管理。在高校智慧校園建設(shè)的基礎(chǔ)上,綜合利用高校一卡通、教務(wù)信息系統(tǒng)、學(xué)生工作數(shù)據(jù)等多個(gè)源渠道,基于數(shù)據(jù)挖掘方法,為高校在學(xué)風(fēng)建設(shè)上提供精準(zhǔn)管理的技術(shù)支撐和決策輔助。通過(guò)完善學(xué)風(fēng)建設(shè)平臺(tái)的建設(shè),其提供的精準(zhǔn)化管理、精準(zhǔn)化服務(wù),并不是針對(duì)個(gè)人而設(shè)計(jì),而是對(duì)不同場(chǎng)景、不同群體,包括畢業(yè)生群體,大一新生群體等提供分類精準(zhǔn)化服務(wù)。根據(jù)普適性學(xué)風(fēng)建設(shè)平臺(tái)和大數(shù)據(jù)挖掘技術(shù),可以準(zhǔn)確把握高校學(xué)風(fēng)狀態(tài),及時(shí)對(duì)學(xué)生予以教育和引導(dǎo)。
參考文獻(xiàn):
[1] 白娟.基于大數(shù)據(jù)分析的學(xué)風(fēng)建設(shè)以及學(xué)生管理工作探析 [J].無(wú)線互聯(lián)科技,2020,17(9):74-76.
[2] 曹陽(yáng),張小恒.數(shù)據(jù)挖掘在學(xué)風(fēng)量化評(píng)價(jià)中的應(yīng)用 [J].科學(xué)咨詢(科技·管理),2018(8):85.
[3] 王寧,孟倩玉.基于學(xué)風(fēng)數(shù)據(jù)分析的高校學(xué)生學(xué)風(fēng)建設(shè)對(duì)策研究 [J].同行,2016(5):136.
[4] SRIDHAR R S,PRASAD M V N K,BALAKRISHNAN R. Spatio-Temporal association rule based deep annotation-free clustering(STAR-DAC)for unsupervised person re-identification [J].Pattern Recognition,2021,122:1082-1087.
[5] 王曉翠,高雅奇,蘇亞萍.大數(shù)據(jù)助力高校學(xué)風(fēng)建設(shè)研究——以北京第二外國(guó)語(yǔ)學(xué)院為例 [J].信息技術(shù)與信息化,2021(2):205-207+212.
作者簡(jiǎn)介:楊子天(1984.07—),男,漢族,江蘇連云港人,實(shí)驗(yàn)師,碩士,研究方向:計(jì)算機(jī)技術(shù)、信息系統(tǒng);溫上海(1991.02—),男,漢族,江蘇徐州人,工程師,碩士,研究方向:數(shù)據(jù)挖掘、信息系統(tǒng)。