• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于教學數(shù)據(jù)的課程關(guān)聯(lián)挖掘研究

      2018-04-02 01:24:49高小鵬于福洋
      計算機教育 2018年3期
      關(guān)鍵詞:關(guān)聯(lián)度關(guān)聯(lián)規(guī)則

      高小鵬,阮 帥,于福洋,童 超

      (北京航空航天大學 計算機學院,北京 100191)

      1 背 景

      在大數(shù)據(jù)時代下,如何有效利用每時每刻產(chǎn)生的數(shù)量巨大的教學數(shù)據(jù)引起了研究者的關(guān)注。如何在如此多且紛雜的教學數(shù)據(jù)中挖掘出有價值的信息,用以優(yōu)化教育服務成為數(shù)據(jù)挖掘的一個熱點。不少研究者將數(shù)據(jù)分析算法與教學數(shù)據(jù)結(jié)合,進行教學數(shù)據(jù)的挖掘探索。

      在傳統(tǒng)教學中,文獻[1]中利用多種聚類方法將1 278名學生聚類,根據(jù)聚類的結(jié)果分析學生內(nèi)在的驅(qū)動力以及以后從事研究的潛力。文獻[2]利用數(shù)據(jù)挖掘技術(shù)探究課程的改革是否對學生的學習或者其他方面產(chǎn)生影響。文獻[3]在關(guān)聯(lián)規(guī)則的基礎(chǔ)上通過打分函數(shù)對所有的學生進行打分,然后選擇潛在落后的學生,并向他們推薦課程。文獻[4]利用聚類以及決策樹的算法幫助學校管理者更好地分配學習資源。文獻[5]通過將聚類和關(guān)聯(lián)規(guī)則挖掘算法用于學生對教學的反饋信息中,發(fā)現(xiàn)教師表現(xiàn)以及行為的潛在傾向性。

      針對在線學習系統(tǒng)的數(shù)據(jù)挖掘,已經(jīng)取得了很多研究成果。文獻[6]將聚類分析應用到在線學習系統(tǒng)中,通過抽取學生行為的特征,對學生在解決問題時的行為進行分析。文獻[7]利用聚類算法做數(shù)據(jù)的前期處理,并且將聚類的結(jié)果用于學生群組分類。文獻[8]對學生進行聚類,針對聚類發(fā)現(xiàn)的不同學生團體,學校將給予不同的指導。文獻[9]利用在線系統(tǒng)數(shù)據(jù)對學生進行聚類以及成績預測。文獻[10]通過關(guān)聯(lián)規(guī)則挖掘算法挖掘在線學習系統(tǒng)的日志,根據(jù)挖掘出的關(guān)聯(lián)規(guī)則主動引導學生的學習活動,并且推薦相關(guān)的資料。文獻[11]通過關(guān)聯(lián)關(guān)系挖掘算法挖掘?qū)W生學習中的問題,并且給予相應的建議。雖然已經(jīng)存在如此多對于教學數(shù)據(jù)挖掘的研究,但是少有研究者針對教學數(shù)據(jù)中的課程間關(guān)系進行研究。

      2 傳統(tǒng)關(guān)聯(lián)關(guān)系挖掘的缺陷

      傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘分為兩個步驟:第一步是頻繁項集挖掘;第二步是強關(guān)聯(lián)規(guī)則挖掘。頻繁項集挖掘是根據(jù)閾值篩選出符合要求的頻繁項,主要算法包括Aprori[12]算法和FP-Tree[13]算法。強關(guān)聯(lián)規(guī)則挖掘是根據(jù)挖掘出的所有頻繁項集產(chǎn)生出對應的強關(guān)聯(lián)規(guī)則。

      關(guān)聯(lián)關(guān)系挖掘算法能夠挖掘出符合支持度閾值以及置信度閾值的所有規(guī)則集合,但是挖掘出的規(guī)則集合是“雜亂”的,以致很難直接從挖掘出的關(guān)聯(lián)規(guī)則中發(fā)現(xiàn)有價值的信息,如對表1 中帶有等級性的數(shù)據(jù)(A、B、C代表的是等級)進行關(guān)聯(lián)規(guī)則挖掘。設置支持度閾值為10%,置信度閾值為10%,挖掘出來的關(guān)聯(lián)規(guī)則見表2。

      由表2可以得到如下信息:這些關(guān)聯(lián)規(guī)則可以傳遞一些信息,如可以知道事務1在A等級下對應事物2等級的最大可能性,但如果關(guān)聯(lián)規(guī)則中存在上萬條這樣的規(guī)則,用戶將很難直觀地得到想要的數(shù)據(jù)。

      表1 事務數(shù)據(jù)

      表2 關(guān)聯(lián)規(guī)則

      3 關(guān)聯(lián)模式挖掘算法

      3.1 基礎(chǔ)概念說明

      以圖1為例,給出相關(guān)概念的定義。

      圖1 規(guī)則交叉圖

      事務等級:如表1中數(shù)據(jù),事務中的數(shù)據(jù)為A、B、C、D。這個數(shù)據(jù)可以認為是事務的等級,并且定義等級大小為A>B>C>D。

      關(guān)聯(lián)規(guī)則:形如A→B的式子,左邊代表的是事務1的等級,右邊代表的是事務2的等級。例如,表2中每個標號對應的記錄可以認為是一個規(guī)則。

      關(guān)聯(lián)規(guī)則趨勢:如果規(guī)則的右側(cè)對應的等級高于規(guī)則左側(cè)對應的等級,那么認為規(guī)則是上升趨勢,如B→A對應的就是上升趨勢,反之為下降趨勢。

      關(guān)聯(lián)規(guī)則支持度:設規(guī)則X屬于規(guī)則集合θ,規(guī)則X的支持度=規(guī)則集合θ中包含X的條數(shù)/數(shù)據(jù)規(guī)則的總條數(shù)。支持度代表規(guī)則X出現(xiàn)的頻率,如規(guī)則集合中存在1 000條規(guī)則,其中含有X的規(guī)則有100條,那么規(guī)則X的支持度是100/1000=0.1。

      支持度閾值:用戶定義的支持度的最小值。

      規(guī)則交叉:兩條規(guī)則對應的級別是交叉的,兩條規(guī)則就是交叉的,如圖1所示事務1與事物2存在兩條關(guān)聯(lián)規(guī)則,分別為A→B和B→A,這兩個規(guī)則是交叉的。

      正常規(guī)則集合:規(guī)則集合中不存在交叉點,整體的規(guī)則存在一定的趨勢性。

      異常規(guī)則集合:按照一定的約束,不斷將規(guī)則集合中引起交叉的規(guī)則剔除并添加到新的規(guī)則集合中,直到剩余的規(guī)則集合變成正常規(guī)則集合,這個新的規(guī)則集合稱為異常規(guī)則集合。

      規(guī)則等級差:按照事務等級中給出的等級大小,根據(jù)A對應5、 B對應4、 C對應3、 D對應2,E對應1的映射方式,將規(guī)則左右等級映射為數(shù)字,等級差代表的是左側(cè)等級對應的數(shù)值與右側(cè)等級對應的數(shù)值的差。

      規(guī)則集合趨勢:如果規(guī)則集合下降趨勢規(guī)則的支持度和大于上升趨勢規(guī)則的支持度和,那么該規(guī)則集合趨勢為下降,相反為上升。

      3.2 關(guān)聯(lián)模式概念說明

      基于關(guān)聯(lián)分析算法挖掘出關(guān)聯(lián)規(guī)則存在的不足,即產(chǎn)生大量的離散型細節(jié)規(guī)則,對規(guī)則進行整合再挖掘,將規(guī)則整合到特定的模式下,這些模式能夠向用戶提供更清晰、更有價值的信息,這些模式稱為關(guān)聯(lián)模式。關(guān)聯(lián)模式是一類約束,通過約束將關(guān)聯(lián)規(guī)則集合劃分為滿足特定約束的規(guī)則集合以及不滿足特定約束的規(guī)則集合。

      本文定義的關(guān)聯(lián)模式包括如下2種模式:①上升與下降模式,反映規(guī)則集合中規(guī)則的趨勢性,上升模式對應的規(guī)則趨勢都是上升的,下降模式對應的規(guī)則趨勢都是下降的;②正常與異常模式,按照基礎(chǔ)概念定義中對正常規(guī)則集合和異常規(guī)則集合的定義,將原始的規(guī)則集合劃分為正常規(guī)則集合和異常規(guī)則集合。

      3.3 關(guān)聯(lián)模式挖掘算法

      3.3.1 進行關(guān)聯(lián)規(guī)則挖掘

      針對帶有等級的數(shù)據(jù),利用Aprioir算法獲得滿足最小支持度的閾值的頻繁項集合,由頻繁項集產(chǎn)生所有滿足最小置信度的關(guān)聯(lián)規(guī)則集合。

      3.3.2 進行上升與下降模式挖掘

      算法思路:從規(guī)則集中不斷地抽取單條規(guī)則,進行它的等級差計算,如果其等級差大于零,就將它加入上升規(guī)則的集合中;如果它的等級差小于零,就將其加入下降規(guī)則的集合中,重復操作。給出算法示例如下:圖2為原始規(guī)則圖,根據(jù)圖2挖掘出圖3(a)所示的下降規(guī)則,圖3(b)所示的上升規(guī)則。

      圖2 規(guī)則圖

      圖3 上升模式與下降模式

      3.3.3 進行正常與異常模式挖掘

      算法思路:首先計算出所有關(guān)聯(lián)規(guī)則的趨勢、關(guān)聯(lián)規(guī)則集合的趨勢和所有關(guān)聯(lián)規(guī)則的等級差,根據(jù)計算出的等級差查找規(guī)則交叉點,如果存在交叉點,就按照以下異常規(guī)則選取原則進行選取,將選取到的規(guī)則加入異常規(guī)則集合中,循環(huán)執(zhí)行,直至剩余規(guī)則集合中不再有交叉點。異常規(guī)則選取原則:①選擇與其他規(guī)則交叉最多的規(guī)則(如A→E與其他規(guī)則交叉最多,則選取該規(guī)則);②選擇等級差最大的規(guī)則;③選擇與全局大趨勢相反的規(guī)則;④選擇支持度小的規(guī)則。

      4 教學數(shù)據(jù)驗證

      4.1 實驗數(shù)據(jù)來源說明

      實驗數(shù)據(jù)來自于北京航空航天大學計算機學院本科學生在校成績,其中包含590名學生的成績數(shù)據(jù),對應的是40門課程(分為必修課和選修課)。

      成績數(shù)據(jù)形式:一種是學生該門課程的評級(A、B、C、D);另外一種是學生該門課程的綜合成績(考勤成績、作業(yè)成績和試卷成績的加權(quán)成績)。

      4.2 實驗數(shù)據(jù)預處理

      掃描所有的成績數(shù)據(jù),按照表4中成績區(qū)間對應的成績等級,將成績數(shù)據(jù)離散到相應的等級上,其中85—100分映射到A等級,70—84分映射到B等級, 60—69分映射到C等級,40—59分映射到D等級,39分及以下映射到E等級。

      4.3 實驗一:關(guān)聯(lián)模式在兩門課程上的應用

      4.3.1 實驗方法

      本實驗將關(guān)聯(lián)模式挖掘算法應用在數(shù)學分析1以及數(shù)學分析2兩門課程對應的成績數(shù)據(jù)上。表3中的數(shù)據(jù)是學生在數(shù)學分析1與數(shù)學分析2上離散化后的成績數(shù)據(jù)。

      表3 成績數(shù)據(jù)

      4.3.2 實驗結(jié)果與分析

      圖4反映的是上升與下降模式挖掘算法針對表3數(shù)據(jù)挖掘出的兩個規(guī)則集合。由圖4(a)可以看出有248人從數(shù)學分析1到數(shù)學分析2出現(xiàn)上升,由圖4(b)可以看出有45人出現(xiàn)下降的趨勢,整體能夠給出的信息是從數(shù)學分析1到數(shù)學分析2,學生成績出現(xiàn)上升的比較多。

      圖5反映的是正常與異常模式挖掘算法針對表4數(shù)據(jù)挖掘出的兩個規(guī)則集合。圖5(a)代表正常規(guī)則集合,圖5(b)代表異常規(guī)則集合。通過分析正常模式對應的規(guī)則集合,可以看出處于不同成績等級的大部分學生成績都有所上升,并且針對B、C兩個等級來說上升的普遍范圍在0~1個等級,而分析異常模式規(guī)則集合可以看出相對于正常模式中的規(guī)則,異常規(guī)則中的規(guī)則或者是下降的,或者是上升幅度過大的,而這些規(guī)則可為以后分析相應成績等級下的學生行為提供依據(jù),并且通過挖掘的兩種模式對應的學生數(shù)量可以看出兩門課程存在較強的關(guān)聯(lián)性。如果挖掘出兩門關(guān)聯(lián)課程間的正常模式為下降關(guān)系,那么就能夠?qū)虒W工作起到一個預警作用,找到成績下降原因,更好地指導教學工作,提高教學質(zhì)量。

      圖4 上升與下降模式實驗數(shù)據(jù)

      圖5 正常與異常模式實驗數(shù)據(jù)

      4.4 實驗二:關(guān)聯(lián)模式挖掘在課程相關(guān)度計算上的應用

      4.4.1 實驗方法

      通過關(guān)聯(lián)模式中正常與異常模式的挖掘,可以將規(guī)則集合劃分為異常規(guī)則集合以及正常規(guī)則集合。如果異常規(guī)則集合與正常規(guī)則集合對應規(guī)則的支持度和比較接近,那么兩事務的關(guān)聯(lián)度低,相反關(guān)聯(lián)度高。

      本章利用以下方法計算事務間關(guān)聯(lián)度,其中Sim為相關(guān)度,N對應的是正常規(guī)則集合,D對應的是異常規(guī)則集合,Support對應規(guī)則集合中的支持度和。

      (1)當Support(N)≤Support(D)時,Sim=0。

      (2)當 Support(N)≥Support(D)時,利用如下公式計算關(guān)聯(lián)度,Sim值越小,對應的關(guān)聯(lián)度越??;Sim值越大,對應的關(guān)聯(lián)度越大。

      本實驗中將關(guān)聯(lián)模式挖掘算法以及關(guān)聯(lián)度計算方法應用于教學數(shù)據(jù)中,計算40門課程兩兩課程之間的關(guān)聯(lián)度,實驗結(jié)果見表4;從表中選取部分課程進行演示,針對某一門課程將所有課程與該課程的關(guān)聯(lián)度排序后,選擇關(guān)聯(lián)度最高的4門課程顯示出來。

      4.4.2 實驗結(jié)果分析與解釋

      按照經(jīng)驗來看,表4中第1行,數(shù)學分析2、高等數(shù)學2、物理與數(shù)學分析1都有著較強的關(guān)聯(lián),而離散數(shù)學與數(shù)學分析1的關(guān)系無法按照經(jīng)驗知識判斷。

      表4中第2行,筆者認為挖掘出的與編譯原理相關(guān)的課程是不準確的。

      表4中第3行,這些課程都有著較強的關(guān)系。

      表4中第4行,該行對應的課程有一定的關(guān)聯(lián)。

      表4中第5行,行中課程大部分對應的是硬件方向課程,具有較強的關(guān)聯(lián)。

      表4中第6行,這些課程關(guān)聯(lián)較弱。

      表4中第7行,模擬電子、數(shù)字邏輯以及電路分析與匯編語言有一定的關(guān)聯(lián),與數(shù)據(jù)庫均屬于電子信息類課程。

      通過這些實驗結(jié)果,我們可以看到很多課程之間的關(guān)聯(lián)關(guān)系被清晰地表述出來。在教學課程安排中,是否是相關(guān)課程一直都是以人的主觀來判斷的。本實驗從以往學生的成績中挖掘出課程間可能的關(guān)系,給課程的安排提供一個數(shù)據(jù)參考,使課程安排更加科學準確。

      實驗結(jié)果中有些課程的關(guān)聯(lián)符合人們的經(jīng)驗知識,有些不符合人們的經(jīng)驗知識,產(chǎn)生這種誤差的可能原因有以下兩種。

      (1)啟發(fā)式的算法存在一定的誤差性,算法基于的假設是如果兩門課程存在強關(guān)聯(lián)性,那么學生在這兩門課程上的成績應該是相當?shù)?。算法基于上述假設,通過成績數(shù)據(jù)推導出課程相關(guān)度,但是學生的學習是一個很復雜的過程,學習過程會受到很多因素的影響,這些影響的因素會使課程間的關(guān)聯(lián)變得不夠明顯,導致關(guān)聯(lián)度計算的偏差。

      (2)兩個課程間存在隱含的關(guān)聯(lián)性,并且反映到學生的成績中,但是這種關(guān)聯(lián)性還沒有被認識到,這需要教育學家對課程以及學生的學習習慣進行進一步分析。

      5 結(jié) 語

      通過真實教學數(shù)據(jù)實驗驗證,證明關(guān)聯(lián)模式能有效為用戶提供清晰的且有價值的信息,并且關(guān)聯(lián)度計算方法能反映課程間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)模式挖掘出的信息在教學分析中能夠起到一定的指導作用。通過正常模式的挖掘,教師能夠更好地預測某一成績等級學生的普遍行為,這種行為能夠指導教師對課程進行針對性的調(diào)整,提高教學質(zhì)量;同時,在課程關(guān)聯(lián)度上運用的關(guān)聯(lián)模式挖掘能夠準確地反映出課程之間的相關(guān)性,為課程的分類提供一定的參考。數(shù)據(jù)挖掘在教學數(shù)據(jù)的研究上仍具有很大的空間,如何設計更準確的算法對課程進行科學分類,將是我們未來要研究的方向之一。

      參考文獻:

      [1]Dillon A, Stolk J. The students are unstable! Cluster analysis of motivation and early implications for educational research and practice[C]//Proceedings of the 2012 Frontiers in Education Conference. Washington D C: IEEE, 2012: 1-6.

      [2]Becker K, Ghedini C G, Terra E L. Using KDD to analyze the impact of curriculum revisions in a Brazilian university[C]//Data Mining and Knowledge Discovery: Theory, Tools, and Technology II. Orlando: SPIE, 2000: 64-66.

      [3]M a Y, Liu B, Wong C K, et al. Targeting the right students using data mining[C]//Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2000: 457-464.

      [4]ERIC. Data mining and knowledge management in higher education-potential applications[EB/OL]. [2017-11-02]. https://eric.ed.gov/?id=ED474143.

      [5]Singh C, Gopal A, Mishra S. Extraction and analysis of faculty performance of management discipline from student feedback using clustering and association rule mining techniques[C]//201 1 3rd International Conference on Electronics Computer Technology(ICECT). Washiongton D C: IEEE, 2011: 94-96.

      [6]Antonenko P D, Toy S, Niederhauser D S. Using cluster analysis for data mining in educational technology research[J]. Educa tional Technology Research and Development, 2012(60): 383-398.

      [7]Blanc L A L, Rucks C T. Data mining of university philanthropic giving: Cluster-discriminant analysis and Pareto ef fects[J].International Journal of Educational Advancement, 2009, 9(2): 64-82.

      [8]Hamalainen W, Laine T H, Sutinen E. Data mining in personalizing pistance education courses[EB/OL].[2017-1 1-02]. https://www.researchgate.net/publication/250083654_Data_Mining_in_Personalizing_Distance_Education_Courses.

      [9]Jovanovic M, Vukicevic M, Milovanovic M, et al. Using data mining on student behavior and cognitive style data for improving e-learning systems: A case study[J]. International Journal of Computational Intelligence Systems, 2012, 5(3): 597-610.

      [10]Lu J. Personalized e-learning material recommender system[C]//Proceedings of the 2nd International Conference on Information Technology for Application(ICITA 2004).Washington D C: IEEE,2004: 374-379.

      [11]Hwang G J. A data mining approach to diagnosing student learning problems in sciences courses[J]. International Journal of Distance Education Technologies, 2003, 3(4): 35-50.

      [12]Agrawal R, Mannila H, Srikant R, et al. Fast discovery of association rules[J]. Advances in knowledge discovery and data mining,1996, 12(1): 307-328.

      [13]Han J, Pei J, Yin Y. Mining frequent patterns without candidate generation[C]//ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 1-12.

      猜你喜歡
      關(guān)聯(lián)度關(guān)聯(lián)規(guī)則
      撐竿跳規(guī)則的制定
      數(shù)獨的規(guī)則和演變
      “一帶一路”遞進,關(guān)聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      奇趣搭配
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      基于灰色關(guān)聯(lián)度的水質(zhì)評價分析
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      TPP反腐敗規(guī)則對我國的啟示
      基于灰關(guān)聯(lián)度的鋰電池組SOH評價方法研究
      基于灰色關(guān)聯(lián)度的公交線網(wǎng)模糊評價
      河南科技(2014年16期)2014-02-27 14:13:25
      博白县| 贵定县| 安化县| 湖南省| 揭西县| 桦川县| 祁阳县| 嘉定区| 册亨县| 万荣县| 卢湾区| 甘孜县| 宽城| 石景山区| 建平县| 鄂托克前旗| 齐河县| 旬邑县| 应用必备| 双城市| 岳阳市| 大足县| 金沙县| 剑河县| 阜南县| 漾濞| 西平县| 聂荣县| 崇义县| 都兰县| 富锦市| 潼南县| 宁城县| 车险| 海口市| 贵港市| 宜昌市| 江源县| 三江| 福泉市| 汉沽区|