基于興趣度關(guān)聯(lián)規(guī)則的在線學(xué)習(xí)行為分析方法

2019-05-25 01:00:16胡延雪懷麗波崔榮一

延邊大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年1期

胡延雪，懷麗波，崔榮一

( 延邊大學(xué) 工學(xué)院，吉林延吉 133002 )

0 引言

隨著教育信息化的推進(jìn)，數(shù)字化學(xué)習(xí)已經(jīng)成為當(dāng)今學(xué)習(xí)者的重要學(xué)習(xí)方式.同時(shí)，數(shù)據(jù)挖掘技術(shù)的應(yīng)用促進(jìn)了學(xué)習(xí)分析從傳統(tǒng)的經(jīng)驗(yàn)性向客觀性發(fā)展，為研究學(xué)習(xí)者的個(gè)性化發(fā)展提供了新的技術(shù)支持[1].近年來(lái)，如何采用數(shù)據(jù)挖掘技術(shù)對(duì)全數(shù)據(jù)環(huán)境進(jìn)行分析以獲得直接、客觀的教育評(píng)價(jià)和學(xué)習(xí)分析成為學(xué)者們關(guān)注的研究熱點(diǎn).

教育數(shù)據(jù)挖掘是基于大量的學(xué)生個(gè)體相關(guān)數(shù)據(jù)信息的基礎(chǔ)上，分析挖掘出隱含于這些數(shù)據(jù)背后的各類信息，使其更加具有針對(duì)性和個(gè)性化[2].常用的教育數(shù)據(jù)挖掘方法有聚類分析、決策樹(shù)、關(guān)聯(lián)規(guī)則等.其中，聚類分析方法常用于學(xué)習(xí)行為特征分析[3]、判斷影響成績(jī)的因素[4]、尋找成績(jī)?cè)u(píng)價(jià)中存在的問(wèn)題[5]等.決策樹(shù)算法常用于建立學(xué)生成績(jī)分析預(yù)測(cè)模型[6-7].關(guān)聯(lián)規(guī)則常用于對(duì)不同學(xué)生課程的成績(jī)進(jìn)行關(guān)聯(lián)分析，找出課程間的相互影響關(guān)系，為學(xué)生推薦課程或分析影響成績(jī)的重要因素等[8-10].目前，相關(guān)研究大多僅用數(shù)據(jù)挖掘中的單一算法對(duì)成績(jī)進(jìn)行分析，得到的結(jié)果不夠明確，難以直接用于指導(dǎo)改善學(xué)習(xí)行為.例如，通過(guò)決策樹(shù)可以找出影響分類的關(guān)鍵因素，卻無(wú)法得知各項(xiàng)間的關(guān)聯(lián)；而關(guān)聯(lián)規(guī)則可得到各項(xiàng)間的關(guān)聯(lián)，卻無(wú)法說(shuō)明它們之間的內(nèi)在影響關(guān)系.本文以在線課堂環(huán)境下用戶的學(xué)習(xí)行為數(shù)據(jù)為研究對(duì)象，采用含興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析，尋找學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層關(guān)系，以為學(xué)習(xí)者提供明確的學(xué)習(xí)指導(dǎo).

1 相關(guān)算法概述

1.1 聚類分析

聚類是將抽象對(duì)象的集合組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程.聚類生成的類是一組數(shù)據(jù)對(duì)象的集合，聚類分析的原理是使屬于同一類別的個(gè)體之間距離盡可能小，而不同類別的個(gè)體之間距離盡可能大.目前主要的聚類算法可以劃分為：劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法[11].K-means算法是一種典型的扁平聚類算法，是劃分法中應(yīng)用最為廣泛的算法之一.該算法的主要目標(biāo)是最小化各元素到其簇中心的歐式距離平方的平均值，具有簡(jiǎn)單、快速的優(yōu)點(diǎn)，可以對(duì)大型的數(shù)據(jù)集合進(jìn)行快速分類.聚類準(zhǔn)則函數(shù)用于衡量聚類結(jié)果，通常是用數(shù)據(jù)集中所有對(duì)象與各自所在簇的簇中心誤差平方和來(lái)計(jì)算.當(dāng)平方誤差和足夠小時(shí)，即表示可以結(jié)束聚類操作.聚類準(zhǔn)則函數(shù)的表達(dá)式為

(1)

其中ci表示第i類數(shù)據(jù)對(duì)象的集合，p是簇ci中的數(shù)據(jù)對(duì)象，mi是簇ci的平均值，k表示該數(shù)據(jù)集可以劃分為k個(gè)簇.聚類分析可作為數(shù)據(jù)挖掘的一個(gè)模塊，也可作為其他挖掘算法的預(yù)處理步驟.

1.2 關(guān)聯(lián)規(guī)則

傳統(tǒng)關(guān)聯(lián)規(guī)則[12]是表示項(xiàng)集X與項(xiàng)集Y的某種相關(guān)性，形如X?Y的蘊(yùn)涵式，由支持度s和置信度c決定.規(guī)則X?Y在事務(wù)集D中成立.支持度s是D中事務(wù)包含X和Y的百分比，即概率P(X∩Y)，其表達(dá)式為

s(X?Y)=P(X∩Y).

(2)

置信度c是D中事務(wù)包含X的同時(shí)也包含Y的百分比，即條件概率P(Y|X)，其表達(dá)式為

(3)

Apriori是經(jīng)典的關(guān)聯(lián)規(guī)則算法之一，其包括尋找頻繁項(xiàng)集和尋找強(qiáng)規(guī)則兩部分.尋找頻繁項(xiàng)集是算法核心，包含連接、剪枝兩步操作.Apriori算法的基本思想是通過(guò)多遍掃描數(shù)據(jù)庫(kù)找出全部頻繁項(xiàng)集，從1-項(xiàng)頻繁集開(kāi)始，遞歸地產(chǎn)生2-項(xiàng)頻繁集、3-項(xiàng)頻繁集，如此下去直到產(chǎn)生所有的頻繁項(xiàng)集.最后，利用頻繁項(xiàng)集構(gòu)造出滿足最小置信度的強(qiáng)規(guī)則.

傳統(tǒng)關(guān)聯(lián)規(guī)則算法主要考慮支持度和置信度指標(biāo)，通過(guò)滿足大于最小支持度和置信度來(lái)獲得強(qiáng)關(guān)聯(lián)規(guī)則，但該方法有時(shí)難以解釋其規(guī)則的實(shí)際意義.因此，學(xué)者們引入了“興趣度”度量值，修剪無(wú)用的規(guī)則.目前興趣度模型主要有基于模板的興趣度模型、基于概率相關(guān)性的興趣度模型、基于信息量的興趣度模型和基于差異思想的興趣度模型等[13]，這些模型由于是從不同的角度對(duì)興趣度進(jìn)行評(píng)價(jià)，因此只適用于不同的實(shí)際問(wèn)題.

基于概率相關(guān)性的興趣度模型[14]是從統(tǒng)計(jì)獨(dú)立性檢查的角度出發(fā)，在關(guān)聯(lián)規(guī)則的置信度和支持度基礎(chǔ)上增加一個(gè)新的相關(guān)性約束，以將不滿足條件的關(guān)聯(lián)規(guī)則刪除.X和Y的相關(guān)性計(jì)算公式為

(4)

式(4)中的相關(guān)性計(jì)算值作為興趣度，其體現(xiàn)的是X和Y的密切程度.In tr(X?Y)=1，表示X和Y相互獨(dú)立，它們之間沒(méi)有相關(guān)性，此時(shí)P(X∪Y)=P(X)P(Y)； In tr(X?Y)>1, 表示X與Y為正相關(guān)，X的出現(xiàn)會(huì)促進(jìn)Y的出現(xiàn)； In tr(X?Y)<1, 表示X與Y為負(fù)相關(guān)，X的出現(xiàn)會(huì)減少Y的出現(xiàn).在實(shí)際應(yīng)用中，當(dāng)關(guān)聯(lián)規(guī)則的后件為單數(shù)據(jù)項(xiàng)時(shí)具有較為明確的決策指導(dǎo)意義，因此為保證規(guī)則的應(yīng)用價(jià)值，在算法實(shí)現(xiàn)過(guò)程中只挖掘形如X?Y的關(guān)聯(lián)規(guī)則，這樣可以減少大量的冗余關(guān)聯(lián)規(guī)則，提高算法效率.

2 基于興趣度的學(xué)習(xí)行為分析方法

2.1 基于興趣度的學(xué)習(xí)行為分析

傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法在分析學(xué)習(xí)效果的影響因素時(shí)，通常僅考慮支持度和置信度指標(biāo)[15]，而且置信度只考慮X出現(xiàn)時(shí)Y的出現(xiàn)概率，而未考慮X未出現(xiàn)時(shí)Y的出現(xiàn)概率，因此在挖掘時(shí)會(huì)得到大量的冗余規(guī)則，難以實(shí)用.因此，本文采用含有興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對(duì)學(xué)習(xí)行為進(jìn)行分析，以獲得屬性間更多的信息.

假設(shè)學(xué)生的一系列學(xué)習(xí)行為屬性為集合A={A1,A2,…,Am}, 每個(gè)屬性有k個(gè)不同等級(jí)的具體取值.根據(jù)實(shí)際學(xué)習(xí)情況，屬性不同k取值不同.假設(shè)學(xué)生的每條學(xué)習(xí)行為數(shù)據(jù)對(duì)應(yīng)的學(xué)習(xí)成績(jī)?yōu)閆，并且Z按分?jǐn)?shù)值劃分為n個(gè)等級(jí)，即Z={Z1,Z2,…,Zn}.在分析學(xué)習(xí)行為過(guò)程中，本文引入基于概率相關(guān)性的興趣度模型思想，通過(guò)計(jì)算興趣度值分析學(xué)習(xí)行為屬性與學(xué)習(xí)成績(jī)之間的深層關(guān)系.一般情況下，學(xué)習(xí)行為總量為某一具體常數(shù)，則屬性間的興趣度計(jì)算過(guò)程可由式(5)所示：

(5)

2.2 具體算法步驟

數(shù)據(jù)挖掘的過(guò)程一般包括4個(gè)部分：數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和結(jié)果解釋.關(guān)聯(lián)規(guī)則算法是通過(guò)挖掘頻繁項(xiàng)集來(lái)發(fā)現(xiàn)屬性間的聯(lián)系，但若數(shù)據(jù)量大產(chǎn)生的規(guī)則也就越多，用戶很難觀察到某些細(xì)化區(qū)域的隱含規(guī)則，因此本文將聚類分析作為數(shù)據(jù)挖掘的一個(gè)步驟.首先對(duì)樣本數(shù)據(jù)進(jìn)行聚類將區(qū)域細(xì)化，然后對(duì)不同簇類的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘，以此提高挖掘效率.

本文采用基于興趣度的關(guān)聯(lián)規(guī)則算法進(jìn)行學(xué)習(xí)行為分析的主要步驟如下：

1)獲取用戶的原始學(xué)習(xí)行為數(shù)據(jù)，并進(jìn)行數(shù)據(jù)預(yù)處理，包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)離散化等操作，預(yù)處理后的數(shù)據(jù)存入數(shù)據(jù)庫(kù)，形成樣本數(shù)據(jù)集；

2)采用K-means算法進(jìn)行聚類，利用公式(1)選取聚類簇?cái)?shù)，將數(shù)據(jù)區(qū)域細(xì)則化，生成相互區(qū)分的類.以學(xué)習(xí)成績(jī)作為學(xué)習(xí)效果的依據(jù)，對(duì)各類學(xué)習(xí)行為和學(xué)習(xí)效果進(jìn)行歸納分析；

3)采用基于興趣度的關(guān)聯(lián)規(guī)則算法對(duì)各區(qū)域數(shù)據(jù)進(jìn)行挖掘，利用式(2)和式(3)得到影響學(xué)習(xí)效果的學(xué)習(xí)行為因素，然后根據(jù)式(5)計(jì)算結(jié)果，分析學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層聯(lián)系.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)數(shù)據(jù)來(lái)自edX平臺(tái)提供的MITx的2013年春季編號(hào)為8.02x的課程學(xué)習(xí)記錄，該數(shù)據(jù)集含有學(xué)習(xí)者從注冊(cè)到最后結(jié)業(yè)成績(jī)的所有學(xué)習(xí)數(shù)據(jù)，共計(jì)18 579條.實(shí)驗(yàn)主要提取的學(xué)習(xí)特征分別是：是否訪問(wèn)課件標(biāo)簽(A)，訪問(wèn)課程是否過(guò)半(B)，互動(dòng)次數(shù)(C)，視頻播放次數(shù)(D)，互動(dòng)的章節(jié)數(shù)(E)，論壇發(fā)帖數(shù)(F)，是否獲得證書(shū)(G)，成績(jī)結(jié)果(Z).為提高數(shù)據(jù)挖掘的效率，首先進(jìn)行數(shù)據(jù)預(yù)處理操作，將原始數(shù)據(jù)離散化，獲得的部分學(xué)習(xí)特征數(shù)據(jù)如表1所示.

表1 學(xué)習(xí)特征表

表1中，每一行數(shù)值代表某一名學(xué)習(xí)者的全部學(xué)習(xí)特征，各特征項(xiàng)的屬性見(jiàn)表2.

表2 特征值的屬性

3.2 聚類分析

實(shí)驗(yàn)以Eclipse環(huán)境為平臺(tái)，用Python作為開(kāi)發(fā)語(yǔ)言，采用K-means算法對(duì)獲得的學(xué)習(xí)特征進(jìn)行聚類分析.首先，通過(guò)聚類準(zhǔn)則函數(shù)確定最佳的聚類簇?cái)?shù)，其結(jié)果如圖1所示.

圖1 聚類的數(shù)目

由圖1可以看出，曲線呈不斷下降趨勢(shì)，但結(jié)合實(shí)際情況可知聚類數(shù)不可能取無(wú)限小的值，否則失去研究意義.當(dāng)簇的數(shù)目為3時(shí)，曲線變化率最大，即聚類效果最好，因此本實(shí)驗(yàn)選取聚類數(shù)為3.聚類結(jié)果如表3所示，表中列舉了每類含有的主要特征項(xiàng)，括號(hào)內(nèi)的數(shù)值為具體人數(shù).

從表3可以看出，第1類消極型學(xué)習(xí)者幾乎沒(méi)有瀏覽過(guò)課件和視頻等學(xué)習(xí)內(nèi)容，并且?guī)缀鯖](méi)有過(guò)互動(dòng)，學(xué)習(xí)質(zhì)量很差，沒(méi)有獲得證書(shū).第2類被動(dòng)型學(xué)習(xí)者雖然大多數(shù)瀏覽過(guò)課件和視頻，以及有過(guò)互動(dòng)學(xué)習(xí)經(jīng)歷，但大多數(shù)沒(méi)能堅(jiān)持學(xué)習(xí)到課程的一半，學(xué)習(xí)效果并不理想，也沒(méi)能獲得證書(shū).第3類主動(dòng)型學(xué)習(xí)者都瀏覽過(guò)課件和視頻，互動(dòng)和發(fā)帖數(shù)較多，而且能夠堅(jiān)持長(zhǎng)時(shí)間學(xué)習(xí)，因此這類學(xué)習(xí)者的學(xué)習(xí)效果較好，大多獲得了相應(yīng)的課程證書(shū).

表3 聚類結(jié)果

注：第1類約占總?cè)藬?shù)的25%，第2類約占總?cè)藬?shù)的70%，第3類約占總?cè)藬?shù)的5%.

3.3 關(guān)聯(lián)規(guī)則分析

為找出影響學(xué)習(xí)效果的重要因素，分別采用傳統(tǒng)的Apriori算法和含有興趣度的改進(jìn)算法對(duì)不同類型學(xué)習(xí)者的學(xué)習(xí)特征數(shù)據(jù)進(jìn)行挖掘，獲得的關(guān)聯(lián)規(guī)則數(shù)目如表4所示.

表4 不同關(guān)聯(lián)規(guī)則算法的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示，采用含興趣度的算法獲得的強(qiáng)規(guī)則數(shù)目比傳統(tǒng)Apriori算法減少了40.9%.學(xué)習(xí)成績(jī)作為學(xué)習(xí)效果的重要體現(xiàn)，分析與其相關(guān)的強(qiáng)規(guī)則可獲知學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的關(guān)系.由于大多數(shù)學(xué)習(xí)者屬于被動(dòng)型學(xué)習(xí)類型，因此本文以被動(dòng)型學(xué)習(xí)者為例進(jìn)行分析.被動(dòng)型學(xué)習(xí)類型的部分強(qiáng)規(guī)則如表5所示.

表5 部分強(qiáng)規(guī)則

由表5中的置信度可知，所選擇的學(xué)習(xí)特征都是影響學(xué)習(xí)成績(jī)的重要因素.由G0 ?Z0的興趣度為1.0可知，是否獲得證書(shū)和成績(jī)的關(guān)系是相互獨(dú)立的，不能以成績(jī)優(yōu)劣決定是否能獲得證書(shū).學(xué)習(xí)特征A、D與Z之間的興趣度值均小于1，即訪問(wèn)課件、播放視頻與成績(jī)的關(guān)系為負(fù)相關(guān)，說(shuō)明當(dāng)增多訪問(wèn)課件、播放視頻等行為時(shí)，成績(jī)?yōu)?分的情況會(huì)減少；而特征B、C、E、F與Z之間的興趣度值均大于1，即訪問(wèn)課程的次數(shù)不過(guò)半,互動(dòng)次數(shù)少、學(xué)習(xí)的章節(jié)數(shù)少、不發(fā)帖討論等與成績(jī)的關(guān)系為正相關(guān)，說(shuō)明這些情況的出現(xiàn)會(huì)增加成績(jī)?yōu)?分的情況.

4 結(jié)論

本文以在線課堂的用戶學(xué)習(xí)行為數(shù)據(jù)為研究對(duì)象，通過(guò)引入興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法研究了學(xué)習(xí)行為因素與學(xué)習(xí)效果之間的關(guān)系.實(shí)驗(yàn)結(jié)果表明，相比傳統(tǒng)關(guān)聯(lián)規(guī)則本文方法可有效去除冗余規(guī)則，并且可得出規(guī)則前后件的具體聯(lián)系，有利于指導(dǎo)用戶改善學(xué)習(xí)行為.影響學(xué)習(xí)效果的因素較為復(fù)雜，本文僅對(duì)在線學(xué)習(xí)用戶的部分學(xué)習(xí)行為因素進(jìn)行了分析，今后將考慮網(wǎng)絡(luò)環(huán)境、學(xué)習(xí)資源等其他因素對(duì)學(xué)習(xí)行為因素的影響，以及提高數(shù)據(jù)挖掘算法的準(zhǔn)確率，以更有效地分析學(xué)習(xí)行為因素之間的深層關(guān)系，提高在線學(xué)習(xí)用戶的學(xué)習(xí)效果.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看