李海洋 李忠 李瑩 孫可可
摘? 要 為了有效地指導(dǎo)學(xué)生的日常生活行為,幫助學(xué)生提高學(xué)習(xí)成績,采集某高校學(xué)生洗浴數(shù)據(jù)和成績數(shù)據(jù),利用Apriori算法建立關(guān)聯(lián)分析挖掘模型,通過SPSS Clementine軟件計(jì)算得到若干條關(guān)聯(lián)規(guī)則。分析結(jié)果說明,當(dāng)學(xué)生在白天洗澡次數(shù)多于晚上洗澡次數(shù)時(shí),該生的成績明顯表現(xiàn)得不太理想;而當(dāng)學(xué)生在晚上洗澡次數(shù)多于白天時(shí),該生在成績方面的表現(xiàn)也是比較優(yōu)異的。這種關(guān)聯(lián)關(guān)系對(duì)高校學(xué)生管理工作具有指導(dǎo)意義。
關(guān)鍵詞 數(shù)據(jù)挖掘;Apriori算法;大學(xué)生;洗浴時(shí)間;學(xué)生成績
中圖分類號(hào):G645? ? 文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1671-489X(2020)04-0038-03
1 引言
隨著我國高校推行信息化,各種各樣的學(xué)生信息被記錄下來[1],如上網(wǎng)信息、就餐數(shù)據(jù)、洗浴數(shù)據(jù)、進(jìn)出圖書館時(shí)間等,這為深入挖掘?qū)W生的生活規(guī)律和學(xué)習(xí)習(xí)慣等日常行為特征提供了豐富的數(shù)據(jù)基礎(chǔ)[2-5]。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為從海量數(shù)據(jù)中找出數(shù)據(jù)之間的聯(lián)系和規(guī)律性知識(shí),提供了很好的思路[6]。很多研究者在這方面的研究多集中在圖書館的學(xué)習(xí)行為[7]、上網(wǎng)行為習(xí)慣[8]、日常的體育鍛煉行為[9-10]分析上,很少將洗浴時(shí)間與成績進(jìn)行關(guān)聯(lián)分析。
本文以防災(zāi)科技學(xué)院學(xué)生為例,以2011~2014級(jí)學(xué)生四年的洗浴數(shù)據(jù)與教務(wù)成績數(shù)據(jù)為樣本,分析學(xué)生成績與洗浴時(shí)間之間的關(guān)系,試圖發(fā)現(xiàn)大學(xué)生日常生活行為與學(xué)習(xí)成績之間的關(guān)聯(lián)性,給高校學(xué)生管理、教學(xué)等工作提供參考,指導(dǎo)學(xué)生更加合理有效地利用時(shí)間,提高學(xué)習(xí)成績[1]。
2 數(shù)據(jù)源與預(yù)處理
數(shù)據(jù)來源? 本文收集了防災(zāi)科技學(xué)院2011~2014級(jí)的四屆學(xué)生的日常洗浴相關(guān)數(shù)據(jù)和各科考試成績數(shù)據(jù),其中洗浴數(shù)據(jù)達(dá)到1596萬條,記錄了大學(xué)生在校期間每次洗浴的開始時(shí)間、結(jié)束時(shí)間,據(jù)此可以計(jì)算出每次的洗浴時(shí)間長度。
數(shù)據(jù)預(yù)處理? 數(shù)據(jù)預(yù)處理就是在數(shù)據(jù)挖掘前,對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成和轉(zhuǎn)換等一系列的處理工作。大量的實(shí)踐表明,在數(shù)據(jù)挖掘工作中,數(shù)據(jù)預(yù)處理所占的工作量達(dá)到整個(gè)工作量的60%~80%,所以數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘整個(gè)工作中的地位是極其重要的。
數(shù)據(jù)清洗? 數(shù)據(jù)清洗的目的是將原始數(shù)據(jù)中的“臟數(shù)據(jù)”消除,其中包括填補(bǔ)缺失值、消除噪聲數(shù)據(jù)和刪除重復(fù)數(shù)據(jù)等[4-5]。在洗浴數(shù)據(jù)中,需要計(jì)算有效時(shí)間內(nèi)的數(shù)據(jù),因此無效時(shí)間如寒暑假、小長假等時(shí)間段內(nèi)的數(shù)據(jù)需要剔去;有些數(shù)據(jù)嚴(yán)重偏離正常值,對(duì)計(jì)算結(jié)果容易產(chǎn)生偏差,需要?jiǎng)h除。在學(xué)生成績數(shù)據(jù)中,因留級(jí)導(dǎo)致當(dāng)年成績?nèi)笔Щ蛘邽?,這些數(shù)據(jù)對(duì)結(jié)果的分析意義不大,也要?jiǎng)h除[6]。
本文結(jié)合浴室開放時(shí)間以及上課作息時(shí)間,決定選用12—18點(diǎn)的下午時(shí)間段以及18—22點(diǎn)的晚上時(shí)間段這兩個(gè)區(qū)間的洗浴數(shù)據(jù)信息作為研究對(duì)象,分析洗浴時(shí)間與成績的關(guān)系。這兩區(qū)間數(shù)據(jù)統(tǒng)計(jì)如圖1所示。從圖1中可以看出,在區(qū)間0~100這個(gè)范圍內(nèi),18—22點(diǎn)的分布少于12—18點(diǎn);而在100~200這個(gè)范圍內(nèi),18—22點(diǎn)的洗澡次數(shù)明顯多于12—18點(diǎn)的次數(shù),而且18—22點(diǎn)的最大值要遠(yuǎn)遠(yuǎn)大于12—18點(diǎn)的最大值。這表明大部分學(xué)生還是在選擇在晚上洗澡。
數(shù)據(jù)集成? 對(duì)清洗后的洗浴區(qū)間對(duì)應(yīng)的洗浴次數(shù)表和成績數(shù)據(jù),按照學(xué)生序號(hào)合并為一個(gè)數(shù)據(jù)表,如表1所示。從表1中可以看出,學(xué)生晚上洗浴次數(shù)普遍多于下午的洗浴次數(shù),且不同的學(xué)生洗浴次數(shù)差距也比較明顯,如表中18—22點(diǎn)的數(shù)據(jù)中最大值為151,最小值為7。
數(shù)據(jù)轉(zhuǎn)換? 關(guān)聯(lián)分析挖掘算法Apriori的輸入?yún)?shù)為類別數(shù)值,因此需要對(duì)成績數(shù)據(jù)和洗浴數(shù)據(jù)進(jìn)行類別劃分。
本文結(jié)合本實(shí)驗(yàn)實(shí)際需求將成績數(shù)據(jù)分為三個(gè)檔次:將成績由大到小排列,成績前20%的數(shù)據(jù)段為A檔,可以理解為學(xué)習(xí)成績優(yōu)秀;最后20%的數(shù)據(jù)段為C檔,可以理解為學(xué)習(xí)成績較差;中間的數(shù)據(jù)段為B檔,學(xué)習(xí)成績中等。
本文經(jīng)過多次實(shí)驗(yàn)檢驗(yàn)發(fā)現(xiàn),將洗浴次數(shù)按照從小到大的順序排列后,取前25%的數(shù)據(jù)段為Ⅰ類,25%~50%的數(shù)據(jù)段為Ⅱ類,50%~75%的數(shù)據(jù)段為Ⅲ類,剩余數(shù)據(jù)段為Ⅳ類,這樣的劃分規(guī)則實(shí)驗(yàn)效果最佳。由于數(shù)據(jù)源采用的是除去小長假、寒暑假時(shí)間的數(shù)據(jù),因此有效時(shí)間為九個(gè)月,將對(duì)應(yīng)的洗澡次數(shù)區(qū)間轉(zhuǎn)化為“周/次”數(shù)據(jù)。洗澡區(qū)間12—18點(diǎn)的Ⅰ、Ⅱ、Ⅲ和Ⅳ對(duì)應(yīng)的“周/次”數(shù)據(jù)分別為1.11、2.05、3.2和14.2;區(qū)間18—22點(diǎn)對(duì)應(yīng)的“周/次”數(shù)據(jù)分別為1.5、2.6、4和17.6。變換后的洗浴數(shù)據(jù)類與成績數(shù)據(jù)類的對(duì)應(yīng)關(guān)系如表2所示。
3 關(guān)聯(lián)分析挖掘模型構(gòu)建
Apriori算法原理? Apriori算法是一種挖掘布爾關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集的數(shù)據(jù)挖掘算法,使用逐層搜索的迭代策略,K-1項(xiàng)集用于搜索“K項(xiàng)集”,逐步搜索出高可信度的規(guī)則。算法的核心思想是連接步和剪枝步。連接步是自連接,原則是保證前K-2項(xiàng)相同,并按照字典順序連接。剪枝步是使任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的。反之,如果某個(gè)候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從CK中刪除。
利用Apriori算法建立關(guān)聯(lián)挖掘模型? Apriori算法通過多次掃描數(shù)據(jù)庫來尋找所有的頻繁項(xiàng)集。對(duì)經(jīng)過處理的學(xué)生的洗浴數(shù)據(jù)來說,每個(gè)事務(wù)包含有Ⅰ、Ⅱ、Ⅲ和Ⅳ這四個(gè)項(xiàng);對(duì)于處理好的成績而言,每個(gè)事務(wù)包含有A、B和C這三個(gè)項(xiàng),設(shè)置最小支持度為min_sup。具體操作如下。
輸入:數(shù)據(jù)集合D,支持度閾值,最小置信度值。
輸出:強(qiáng)關(guān)聯(lián)規(guī)則。
1)掃描整個(gè)數(shù)據(jù)集,得到所有出現(xiàn)過的數(shù)據(jù),作為候選頻繁1項(xiàng)集。K=1,頻繁0項(xiàng)集為空集。
2)挖掘頻繁K項(xiàng)集。
①掃描數(shù)據(jù)計(jì)算候選頻繁K項(xiàng)集的支持度。
②去除候選頻繁K項(xiàng)集中支持度低于閾值的數(shù)據(jù)集,得到頻繁K項(xiàng)集。如果得到的頻繁K項(xiàng)集為空,則直接返回頻繁K-1項(xiàng)集的集合作為算法結(jié)果,算法結(jié)束。如果得到的頻繁K項(xiàng)集只有一項(xiàng),則直接返回頻繁K項(xiàng)集的集合作為算法結(jié)果,算法結(jié)束。
③基于頻繁K項(xiàng)集,連接生成候選頻繁K+1項(xiàng)集。
3)令K=K+1,轉(zhuǎn)入步驟2。
4)以此類推,得到頻繁K-項(xiàng)集。
4 關(guān)聯(lián)規(guī)則生成與結(jié)果分析
利用Clementine軟件的Apriori算法,將分類數(shù)據(jù)文件導(dǎo)入軟件。經(jīng)過反復(fù)實(shí)驗(yàn),確定最小支持度為15%,最小置信度為65%。計(jì)算結(jié)果如表3所示。從表3中可以看出,學(xué)生在下午洗浴次數(shù)越多,其成績普遍不理想;在晚上洗浴次數(shù)較多時(shí),成績普遍優(yōu)秀:當(dāng)學(xué)生在晚上洗浴次數(shù)為Ⅰ和在下午洗浴次數(shù)為Ⅳ時(shí),成績?yōu)镃;與之相對(duì)的是當(dāng)學(xué)生在下午洗浴的次數(shù)多,在晚上洗浴次數(shù)較少時(shí),成績更好,為A檔;當(dāng)學(xué)生在下午洗浴次數(shù)=Ⅰ,在晚上洗浴次數(shù)=Ⅱ,和在下午洗浴次數(shù)=Ⅰ,在晚上洗浴次數(shù)=Ⅲ時(shí),成績都為B,但是后者的支持度和置信度都高于前者,從另一方面也說明了在晚上洗浴多時(shí)成績更偏優(yōu);從下午和晚上洗浴的次數(shù)都特別少、成績?yōu)镃的這條規(guī)則中可以看出,不注重個(gè)人衛(wèi)生的學(xué)生可能對(duì)學(xué)習(xí)也不太上心。
5 結(jié)語
本次實(shí)驗(yàn)以防災(zāi)科技學(xué)院2011~2014級(jí)四屆學(xué)生為例,探討大學(xué)生洗浴次數(shù)和學(xué)習(xí)成績之間的關(guān)聯(lián)性,得到結(jié)論:一周的洗浴次數(shù)低于2.6時(shí),那么學(xué)生的成績一般不太理想;每周晚上的洗浴次數(shù)大于2.6時(shí),學(xué)生的成績普遍表現(xiàn)優(yōu);下午洗浴次數(shù)明顯多于晚上洗浴次數(shù)時(shí),學(xué)生的成績往往不太理想。
參考文獻(xiàn)
[1]郭鵬,蔡騁.基于聚類和關(guān)聯(lián)算法的學(xué)生成績挖掘與分析[J].計(jì)算機(jī)工程與應(yīng)用2019(17):169-179.
[2]鄒夢(mèng)君.高校學(xué)生行為大數(shù)據(jù)的分析與應(yīng)用研究[D].浙江:浙江師范大學(xué),2018.
[3]范仲翔.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生行為分析中的研究與應(yīng)用[D].北京:北京郵電大學(xué),2017.
[4]孫楊博.基于大數(shù)據(jù)挖掘的高校學(xué)生行為數(shù)據(jù)分析系統(tǒng)的研究與開發(fā)[D].北京:華北電力大學(xué),2017.
[5]石靜.基于數(shù)據(jù)挖掘的學(xué)生行為對(duì)學(xué)業(yè)成績影響的研究[D].武漢:華中師范大學(xué),2017.
[6]周梅.數(shù)據(jù)挖掘技術(shù)在教學(xué)管理中的應(yīng)用[J].軟件導(dǎo)刊,2017,16(5):213-215.
[7]郭亨藝.基于圖書館門禁數(shù)據(jù)的學(xué)生讀者到館行為分析:以電子科技大學(xué)清水河校區(qū)圖書館為例[J].四川圖書館學(xué)報(bào),2018(3):61-64.
[8]胡祖輝.施佺.高校學(xué)生上網(wǎng)行為分析與數(shù)據(jù)挖掘研究[J].中國遠(yuǎn)程教育,2017(2):26-32.
[9]錢輝煌.朱國華,吳芬,等.關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)算法在學(xué)生考研成功影響因素分析中的應(yīng)用[J].軟件導(dǎo)刊,2017,16(5):143-145.
[10]湯羽,林迪,范愛華,等.大數(shù)據(jù)分析與計(jì)算[M].北京:清華大學(xué)出版社,2018.
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)“基于大數(shù)據(jù)技術(shù)的高校大學(xué)生行為特征分”(ZY20180121);教育部2018年產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目“應(yīng)急大數(shù)據(jù)智能分析科研平臺(tái)”(201801023008)。
作者:李海洋,防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院,主要研究方向?yàn)闉?zāi)害信息處理;李忠,防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院,教授,碩導(dǎo),博士,主要研究方向?yàn)闉?zāi)害監(jiān)測(cè)、信息處理;李瑩、孫可可,防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院(065201)。