• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Apriori算法的學(xué)生成績與洗浴時(shí)間關(guān)聯(lián)性分析

      2020-06-08 10:47李海洋李忠李瑩孫可可
      中國教育技術(shù)裝備 2020年4期
      關(guān)鍵詞:學(xué)生成績Apriori算法數(shù)據(jù)挖掘

      李海洋 李忠 李瑩 孫可可

      摘? 要 為了有效地指導(dǎo)學(xué)生的日常生活行為,幫助學(xué)生提高學(xué)習(xí)成績,采集某高校學(xué)生洗浴數(shù)據(jù)和成績數(shù)據(jù),利用Apriori算法建立關(guān)聯(lián)分析挖掘模型,通過SPSS Clementine軟件計(jì)算得到若干條關(guān)聯(lián)規(guī)則。分析結(jié)果說明,當(dāng)學(xué)生在白天洗澡次數(shù)多于晚上洗澡次數(shù)時(shí),該生的成績明顯表現(xiàn)得不太理想;而當(dāng)學(xué)生在晚上洗澡次數(shù)多于白天時(shí),該生在成績方面的表現(xiàn)也是比較優(yōu)異的。這種關(guān)聯(lián)關(guān)系對(duì)高校學(xué)生管理工作具有指導(dǎo)意義。

      關(guān)鍵詞 數(shù)據(jù)挖掘;Apriori算法;大學(xué)生;洗浴時(shí)間;學(xué)生成績

      中圖分類號(hào):G645? ? 文獻(xiàn)標(biāo)識(shí)碼:B

      文章編號(hào):1671-489X(2020)04-0038-03

      1 引言

      隨著我國高校推行信息化,各種各樣的學(xué)生信息被記錄下來[1],如上網(wǎng)信息、就餐數(shù)據(jù)、洗浴數(shù)據(jù)、進(jìn)出圖書館時(shí)間等,這為深入挖掘?qū)W生的生活規(guī)律和學(xué)習(xí)習(xí)慣等日常行為特征提供了豐富的數(shù)據(jù)基礎(chǔ)[2-5]。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為從海量數(shù)據(jù)中找出數(shù)據(jù)之間的聯(lián)系和規(guī)律性知識(shí),提供了很好的思路[6]。很多研究者在這方面的研究多集中在圖書館的學(xué)習(xí)行為[7]、上網(wǎng)行為習(xí)慣[8]、日常的體育鍛煉行為[9-10]分析上,很少將洗浴時(shí)間與成績進(jìn)行關(guān)聯(lián)分析。

      本文以防災(zāi)科技學(xué)院學(xué)生為例,以2011~2014級(jí)學(xué)生四年的洗浴數(shù)據(jù)與教務(wù)成績數(shù)據(jù)為樣本,分析學(xué)生成績與洗浴時(shí)間之間的關(guān)系,試圖發(fā)現(xiàn)大學(xué)生日常生活行為與學(xué)習(xí)成績之間的關(guān)聯(lián)性,給高校學(xué)生管理、教學(xué)等工作提供參考,指導(dǎo)學(xué)生更加合理有效地利用時(shí)間,提高學(xué)習(xí)成績[1]。

      2 數(shù)據(jù)源與預(yù)處理

      數(shù)據(jù)來源? 本文收集了防災(zāi)科技學(xué)院2011~2014級(jí)的四屆學(xué)生的日常洗浴相關(guān)數(shù)據(jù)和各科考試成績數(shù)據(jù),其中洗浴數(shù)據(jù)達(dá)到1596萬條,記錄了大學(xué)生在校期間每次洗浴的開始時(shí)間、結(jié)束時(shí)間,據(jù)此可以計(jì)算出每次的洗浴時(shí)間長度。

      數(shù)據(jù)預(yù)處理? 數(shù)據(jù)預(yù)處理就是在數(shù)據(jù)挖掘前,對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成和轉(zhuǎn)換等一系列的處理工作。大量的實(shí)踐表明,在數(shù)據(jù)挖掘工作中,數(shù)據(jù)預(yù)處理所占的工作量達(dá)到整個(gè)工作量的60%~80%,所以數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘整個(gè)工作中的地位是極其重要的。

      數(shù)據(jù)清洗? 數(shù)據(jù)清洗的目的是將原始數(shù)據(jù)中的“臟數(shù)據(jù)”消除,其中包括填補(bǔ)缺失值、消除噪聲數(shù)據(jù)和刪除重復(fù)數(shù)據(jù)等[4-5]。在洗浴數(shù)據(jù)中,需要計(jì)算有效時(shí)間內(nèi)的數(shù)據(jù),因此無效時(shí)間如寒暑假、小長假等時(shí)間段內(nèi)的數(shù)據(jù)需要剔去;有些數(shù)據(jù)嚴(yán)重偏離正常值,對(duì)計(jì)算結(jié)果容易產(chǎn)生偏差,需要?jiǎng)h除。在學(xué)生成績數(shù)據(jù)中,因留級(jí)導(dǎo)致當(dāng)年成績?nèi)笔Щ蛘邽?,這些數(shù)據(jù)對(duì)結(jié)果的分析意義不大,也要?jiǎng)h除[6]。

      本文結(jié)合浴室開放時(shí)間以及上課作息時(shí)間,決定選用12—18點(diǎn)的下午時(shí)間段以及18—22點(diǎn)的晚上時(shí)間段這兩個(gè)區(qū)間的洗浴數(shù)據(jù)信息作為研究對(duì)象,分析洗浴時(shí)間與成績的關(guān)系。這兩區(qū)間數(shù)據(jù)統(tǒng)計(jì)如圖1所示。從圖1中可以看出,在區(qū)間0~100這個(gè)范圍內(nèi),18—22點(diǎn)的分布少于12—18點(diǎn);而在100~200這個(gè)范圍內(nèi),18—22點(diǎn)的洗澡次數(shù)明顯多于12—18點(diǎn)的次數(shù),而且18—22點(diǎn)的最大值要遠(yuǎn)遠(yuǎn)大于12—18點(diǎn)的最大值。這表明大部分學(xué)生還是在選擇在晚上洗澡。

      數(shù)據(jù)集成? 對(duì)清洗后的洗浴區(qū)間對(duì)應(yīng)的洗浴次數(shù)表和成績數(shù)據(jù),按照學(xué)生序號(hào)合并為一個(gè)數(shù)據(jù)表,如表1所示。從表1中可以看出,學(xué)生晚上洗浴次數(shù)普遍多于下午的洗浴次數(shù),且不同的學(xué)生洗浴次數(shù)差距也比較明顯,如表中18—22點(diǎn)的數(shù)據(jù)中最大值為151,最小值為7。

      數(shù)據(jù)轉(zhuǎn)換? 關(guān)聯(lián)分析挖掘算法Apriori的輸入?yún)?shù)為類別數(shù)值,因此需要對(duì)成績數(shù)據(jù)和洗浴數(shù)據(jù)進(jìn)行類別劃分。

      本文結(jié)合本實(shí)驗(yàn)實(shí)際需求將成績數(shù)據(jù)分為三個(gè)檔次:將成績由大到小排列,成績前20%的數(shù)據(jù)段為A檔,可以理解為學(xué)習(xí)成績優(yōu)秀;最后20%的數(shù)據(jù)段為C檔,可以理解為學(xué)習(xí)成績較差;中間的數(shù)據(jù)段為B檔,學(xué)習(xí)成績中等。

      本文經(jīng)過多次實(shí)驗(yàn)檢驗(yàn)發(fā)現(xiàn),將洗浴次數(shù)按照從小到大的順序排列后,取前25%的數(shù)據(jù)段為Ⅰ類,25%~50%的數(shù)據(jù)段為Ⅱ類,50%~75%的數(shù)據(jù)段為Ⅲ類,剩余數(shù)據(jù)段為Ⅳ類,這樣的劃分規(guī)則實(shí)驗(yàn)效果最佳。由于數(shù)據(jù)源采用的是除去小長假、寒暑假時(shí)間的數(shù)據(jù),因此有效時(shí)間為九個(gè)月,將對(duì)應(yīng)的洗澡次數(shù)區(qū)間轉(zhuǎn)化為“周/次”數(shù)據(jù)。洗澡區(qū)間12—18點(diǎn)的Ⅰ、Ⅱ、Ⅲ和Ⅳ對(duì)應(yīng)的“周/次”數(shù)據(jù)分別為1.11、2.05、3.2和14.2;區(qū)間18—22點(diǎn)對(duì)應(yīng)的“周/次”數(shù)據(jù)分別為1.5、2.6、4和17.6。變換后的洗浴數(shù)據(jù)類與成績數(shù)據(jù)類的對(duì)應(yīng)關(guān)系如表2所示。

      3 關(guān)聯(lián)分析挖掘模型構(gòu)建

      Apriori算法原理? Apriori算法是一種挖掘布爾關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集的數(shù)據(jù)挖掘算法,使用逐層搜索的迭代策略,K-1項(xiàng)集用于搜索“K項(xiàng)集”,逐步搜索出高可信度的規(guī)則。算法的核心思想是連接步和剪枝步。連接步是自連接,原則是保證前K-2項(xiàng)相同,并按照字典順序連接。剪枝步是使任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的。反之,如果某個(gè)候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從CK中刪除。

      利用Apriori算法建立關(guān)聯(lián)挖掘模型? Apriori算法通過多次掃描數(shù)據(jù)庫來尋找所有的頻繁項(xiàng)集。對(duì)經(jīng)過處理的學(xué)生的洗浴數(shù)據(jù)來說,每個(gè)事務(wù)包含有Ⅰ、Ⅱ、Ⅲ和Ⅳ這四個(gè)項(xiàng);對(duì)于處理好的成績而言,每個(gè)事務(wù)包含有A、B和C這三個(gè)項(xiàng),設(shè)置最小支持度為min_sup。具體操作如下。

      輸入:數(shù)據(jù)集合D,支持度閾值,最小置信度值。

      輸出:強(qiáng)關(guān)聯(lián)規(guī)則。

      1)掃描整個(gè)數(shù)據(jù)集,得到所有出現(xiàn)過的數(shù)據(jù),作為候選頻繁1項(xiàng)集。K=1,頻繁0項(xiàng)集為空集。

      2)挖掘頻繁K項(xiàng)集。

      ①掃描數(shù)據(jù)計(jì)算候選頻繁K項(xiàng)集的支持度。

      ②去除候選頻繁K項(xiàng)集中支持度低于閾值的數(shù)據(jù)集,得到頻繁K項(xiàng)集。如果得到的頻繁K項(xiàng)集為空,則直接返回頻繁K-1項(xiàng)集的集合作為算法結(jié)果,算法結(jié)束。如果得到的頻繁K項(xiàng)集只有一項(xiàng),則直接返回頻繁K項(xiàng)集的集合作為算法結(jié)果,算法結(jié)束。

      ③基于頻繁K項(xiàng)集,連接生成候選頻繁K+1項(xiàng)集。

      3)令K=K+1,轉(zhuǎn)入步驟2。

      4)以此類推,得到頻繁K-項(xiàng)集。

      4 關(guān)聯(lián)規(guī)則生成與結(jié)果分析

      利用Clementine軟件的Apriori算法,將分類數(shù)據(jù)文件導(dǎo)入軟件。經(jīng)過反復(fù)實(shí)驗(yàn),確定最小支持度為15%,最小置信度為65%。計(jì)算結(jié)果如表3所示。從表3中可以看出,學(xué)生在下午洗浴次數(shù)越多,其成績普遍不理想;在晚上洗浴次數(shù)較多時(shí),成績普遍優(yōu)秀:當(dāng)學(xué)生在晚上洗浴次數(shù)為Ⅰ和在下午洗浴次數(shù)為Ⅳ時(shí),成績?yōu)镃;與之相對(duì)的是當(dāng)學(xué)生在下午洗浴的次數(shù)多,在晚上洗浴次數(shù)較少時(shí),成績更好,為A檔;當(dāng)學(xué)生在下午洗浴次數(shù)=Ⅰ,在晚上洗浴次數(shù)=Ⅱ,和在下午洗浴次數(shù)=Ⅰ,在晚上洗浴次數(shù)=Ⅲ時(shí),成績都為B,但是后者的支持度和置信度都高于前者,從另一方面也說明了在晚上洗浴多時(shí)成績更偏優(yōu);從下午和晚上洗浴的次數(shù)都特別少、成績?yōu)镃的這條規(guī)則中可以看出,不注重個(gè)人衛(wèi)生的學(xué)生可能對(duì)學(xué)習(xí)也不太上心。

      5 結(jié)語

      本次實(shí)驗(yàn)以防災(zāi)科技學(xué)院2011~2014級(jí)四屆學(xué)生為例,探討大學(xué)生洗浴次數(shù)和學(xué)習(xí)成績之間的關(guān)聯(lián)性,得到結(jié)論:一周的洗浴次數(shù)低于2.6時(shí),那么學(xué)生的成績一般不太理想;每周晚上的洗浴次數(shù)大于2.6時(shí),學(xué)生的成績普遍表現(xiàn)優(yōu);下午洗浴次數(shù)明顯多于晚上洗浴次數(shù)時(shí),學(xué)生的成績往往不太理想。

      參考文獻(xiàn)

      [1]郭鵬,蔡騁.基于聚類和關(guān)聯(lián)算法的學(xué)生成績挖掘與分析[J].計(jì)算機(jī)工程與應(yīng)用2019(17):169-179.

      [2]鄒夢(mèng)君.高校學(xué)生行為大數(shù)據(jù)的分析與應(yīng)用研究[D].浙江:浙江師范大學(xué),2018.

      [3]范仲翔.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生行為分析中的研究與應(yīng)用[D].北京:北京郵電大學(xué),2017.

      [4]孫楊博.基于大數(shù)據(jù)挖掘的高校學(xué)生行為數(shù)據(jù)分析系統(tǒng)的研究與開發(fā)[D].北京:華北電力大學(xué),2017.

      [5]石靜.基于數(shù)據(jù)挖掘的學(xué)生行為對(duì)學(xué)業(yè)成績影響的研究[D].武漢:華中師范大學(xué),2017.

      [6]周梅.數(shù)據(jù)挖掘技術(shù)在教學(xué)管理中的應(yīng)用[J].軟件導(dǎo)刊,2017,16(5):213-215.

      [7]郭亨藝.基于圖書館門禁數(shù)據(jù)的學(xué)生讀者到館行為分析:以電子科技大學(xué)清水河校區(qū)圖書館為例[J].四川圖書館學(xué)報(bào),2018(3):61-64.

      [8]胡祖輝.施佺.高校學(xué)生上網(wǎng)行為分析與數(shù)據(jù)挖掘研究[J].中國遠(yuǎn)程教育,2017(2):26-32.

      [9]錢輝煌.朱國華,吳芬,等.關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)算法在學(xué)生考研成功影響因素分析中的應(yīng)用[J].軟件導(dǎo)刊,2017,16(5):143-145.

      [10]湯羽,林迪,范愛華,等.大數(shù)據(jù)分析與計(jì)算[M].北京:清華大學(xué)出版社,2018.

      基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)“基于大數(shù)據(jù)技術(shù)的高校大學(xué)生行為特征分”(ZY20180121);教育部2018年產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目“應(yīng)急大數(shù)據(jù)智能分析科研平臺(tái)”(201801023008)。

      作者:李海洋,防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院,主要研究方向?yàn)闉?zāi)害信息處理;李忠,防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院,教授,碩導(dǎo),博士,主要研究方向?yàn)闉?zāi)害監(jiān)測(cè)、信息處理;李瑩、孫可可,防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院(065201)。

      猜你喜歡
      學(xué)生成績Apriori算法數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      淺析數(shù)據(jù)挖掘技術(shù)在學(xué)生管理系統(tǒng)中的應(yīng)用
      基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
      基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
      基于云平臺(tái)MapReduce的Apriori算法研究
      高職數(shù)學(xué)分層教學(xué)學(xué)生成績?cè)u(píng)價(jià)的數(shù)學(xué)模型
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      Excel+VBA開發(fā)之《學(xué)生成績管理系統(tǒng)》的設(shè)計(jì)與實(shí)現(xiàn)
      基于MATLAB轉(zhuǎn)置矩陣的學(xué)生學(xué)習(xí)成績預(yù)警快速算法
      凤阳县| 荥阳市| 饶平县| 江西省| 浦江县| 黔南| 邓州市| 资讯 | 屏南县| 榆中县| 丰原市| 禄丰县| 三明市| 读书| 平舆县| 交口县| 三穗县| 宣恩县| 北辰区| 黎平县| 芦山县| 睢宁县| 綦江县| 油尖旺区| 桃源县| 阜城县| 防城港市| 德令哈市| 乳山市| 扶风县| 昌乐县| 岚皋县| 榆树市| 泰安市| 揭阳市| 辽中县| 东兰县| 高台县| 永平县| 板桥市| 哈密市|