• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于興趣度關(guān)聯(lián)規(guī)則的在線學(xué)習(xí)行為分析方法

      2019-05-25 01:00:16胡延雪懷麗波崔榮一
      關(guān)鍵詞:置信度學(xué)習(xí)效果數(shù)據(jù)挖掘

      胡延雪, 懷麗波, 崔榮一

      ( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )

      0 引言

      隨著教育信息化的推進(jìn),數(shù)字化學(xué)習(xí)已經(jīng)成為當(dāng)今學(xué)習(xí)者的重要學(xué)習(xí)方式.同時(shí),數(shù)據(jù)挖掘技術(shù)的應(yīng)用促進(jìn)了學(xué)習(xí)分析從傳統(tǒng)的經(jīng)驗(yàn)性向客觀性發(fā)展,為研究學(xué)習(xí)者的個(gè)性化發(fā)展提供了新的技術(shù)支持[1].近年來(lái),如何采用數(shù)據(jù)挖掘技術(shù)對(duì)全數(shù)據(jù)環(huán)境進(jìn)行分析以獲得直接、客觀的教育評(píng)價(jià)和學(xué)習(xí)分析成為學(xué)者們關(guān)注的研究熱點(diǎn).

      教育數(shù)據(jù)挖掘是基于大量的學(xué)生個(gè)體相關(guān)數(shù)據(jù)信息的基礎(chǔ)上,分析挖掘出隱含于這些數(shù)據(jù)背后的各類信息,使其更加具有針對(duì)性和個(gè)性化[2].常用的教育數(shù)據(jù)挖掘方法有聚類分析、決策樹(shù)、關(guān)聯(lián)規(guī)則等.其中,聚類分析方法常用于學(xué)習(xí)行為特征分析[3]、判斷影響成績(jī)的因素[4]、尋找成績(jī)?cè)u(píng)價(jià)中存在的問(wèn)題[5]等.決策樹(shù)算法常用于建立學(xué)生成績(jī)分析預(yù)測(cè)模型[6-7].關(guān)聯(lián)規(guī)則常用于對(duì)不同學(xué)生課程的成績(jī)進(jìn)行關(guān)聯(lián)分析,找出課程間的相互影響關(guān)系,為學(xué)生推薦課程或分析影響成績(jī)的重要因素等[8-10].目前,相關(guān)研究大多僅用數(shù)據(jù)挖掘中的單一算法對(duì)成績(jī)進(jìn)行分析,得到的結(jié)果不夠明確,難以直接用于指導(dǎo)改善學(xué)習(xí)行為.例如,通過(guò)決策樹(shù)可以找出影響分類的關(guān)鍵因素,卻無(wú)法得知各項(xiàng)間的關(guān)聯(lián);而關(guān)聯(lián)規(guī)則可得到各項(xiàng)間的關(guān)聯(lián),卻無(wú)法說(shuō)明它們之間的內(nèi)在影響關(guān)系.本文以在線課堂環(huán)境下用戶的學(xué)習(xí)行為數(shù)據(jù)為研究對(duì)象,采用含興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析,尋找學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層關(guān)系,以為學(xué)習(xí)者提供明確的學(xué)習(xí)指導(dǎo).

      1 相關(guān)算法概述

      1.1 聚類分析

      聚類是將抽象對(duì)象的集合組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程.聚類生成的類是一組數(shù)據(jù)對(duì)象的集合,聚類分析的原理是使屬于同一類別的個(gè)體之間距離盡可能小,而不同類別的個(gè)體之間距離盡可能大.目前主要的聚類算法可以劃分為:劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法[11].K-means算法是一種典型的扁平聚類算法,是劃分法中應(yīng)用最為廣泛的算法之一.該算法的主要目標(biāo)是最小化各元素到其簇中心的歐式距離平方的平均值,具有簡(jiǎn)單、快速的優(yōu)點(diǎn),可以對(duì)大型的數(shù)據(jù)集合進(jìn)行快速分類.聚類準(zhǔn)則函數(shù)用于衡量聚類結(jié)果,通常是用數(shù)據(jù)集中所有對(duì)象與各自所在簇的簇中心誤差平方和來(lái)計(jì)算.當(dāng)平方誤差和足夠小時(shí),即表示可以結(jié)束聚類操作.聚類準(zhǔn)則函數(shù)的表達(dá)式為

      (1)

      其中ci表示第i類數(shù)據(jù)對(duì)象的集合,p是簇ci中的數(shù)據(jù)對(duì)象,mi是簇ci的平均值,k表示該數(shù)據(jù)集可以劃分為k個(gè)簇.聚類分析可作為數(shù)據(jù)挖掘的一個(gè)模塊,也可作為其他挖掘算法的預(yù)處理步驟.

      1.2 關(guān)聯(lián)規(guī)則

      傳統(tǒng)關(guān)聯(lián)規(guī)則[12]是表示項(xiàng)集X與項(xiàng)集Y的某種相關(guān)性,形如X?Y的蘊(yùn)涵式,由支持度s和置信度c決定.規(guī)則X?Y在事務(wù)集D中成立.支持度s是D中事務(wù)包含X和Y的百分比,即概率P(X∩Y), 其表達(dá)式為

      s(X?Y)=P(X∩Y).

      (2)

      置信度c是D中事務(wù)包含X的同時(shí)也包含Y的百分比,即條件概率P(Y|X),其表達(dá)式為

      (3)

      Apriori是經(jīng)典的關(guān)聯(lián)規(guī)則算法之一,其包括尋找頻繁項(xiàng)集和尋找強(qiáng)規(guī)則兩部分.尋找頻繁項(xiàng)集是算法核心,包含連接、剪枝兩步操作.Apriori算法的基本思想是通過(guò)多遍掃描數(shù)據(jù)庫(kù)找出全部頻繁項(xiàng)集,從1-項(xiàng)頻繁集開(kāi)始,遞歸地產(chǎn)生2-項(xiàng)頻繁集、3-項(xiàng)頻繁集,如此下去直到產(chǎn)生所有的頻繁項(xiàng)集.最后,利用頻繁項(xiàng)集構(gòu)造出滿足最小置信度的強(qiáng)規(guī)則.

      傳統(tǒng)關(guān)聯(lián)規(guī)則算法主要考慮支持度和置信度指標(biāo),通過(guò)滿足大于最小支持度和置信度來(lái)獲得強(qiáng)關(guān)聯(lián)規(guī)則,但該方法有時(shí)難以解釋其規(guī)則的實(shí)際意義.因此,學(xué)者們引入了“興趣度”度量值,修剪無(wú)用的規(guī)則.目前興趣度模型主要有基于模板的興趣度模型、基于概率相關(guān)性的興趣度模型、基于信息量的興趣度模型和基于差異思想的興趣度模型等[13],這些模型由于是從不同的角度對(duì)興趣度進(jìn)行評(píng)價(jià),因此只適用于不同的實(shí)際問(wèn)題.

      基于概率相關(guān)性的興趣度模型[14]是從統(tǒng)計(jì)獨(dú)立性檢查的角度出發(fā),在關(guān)聯(lián)規(guī)則的置信度和支持度基礎(chǔ)上增加一個(gè)新的相關(guān)性約束,以將不滿足條件的關(guān)聯(lián)規(guī)則刪除.X和Y的相關(guān)性計(jì)算公式為

      (4)

      式(4)中的相關(guān)性計(jì)算值作為興趣度,其體現(xiàn)的是X和Y的密切程度.In tr(X?Y)=1, 表示X和Y相互獨(dú)立,它們之間沒(méi)有相關(guān)性,此時(shí)P(X∪Y)=P(X)P(Y); In tr(X?Y)>1, 表示X與Y為正相關(guān),X的出現(xiàn)會(huì)促進(jìn)Y的出現(xiàn); In tr(X?Y)<1, 表示X與Y為負(fù)相關(guān),X的出現(xiàn)會(huì)減少Y的出現(xiàn).在實(shí)際應(yīng)用中,當(dāng)關(guān)聯(lián)規(guī)則的后件為單數(shù)據(jù)項(xiàng)時(shí)具有較為明確的決策指導(dǎo)意義,因此為保證規(guī)則的應(yīng)用價(jià)值,在算法實(shí)現(xiàn)過(guò)程中只挖掘形如X?Y的關(guān)聯(lián)規(guī)則,這樣可以減少大量的冗余關(guān)聯(lián)規(guī)則,提高算法效率.

      2 基于興趣度的學(xué)習(xí)行為分析方法

      2.1 基于興趣度的學(xué)習(xí)行為分析

      傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法在分析學(xué)習(xí)效果的影響因素時(shí),通常僅考慮支持度和置信度指標(biāo)[15],而且置信度只考慮X出現(xiàn)時(shí)Y的出現(xiàn)概率,而未考慮X未出現(xiàn)時(shí)Y的出現(xiàn)概率,因此在挖掘時(shí)會(huì)得到大量的冗余規(guī)則,難以實(shí)用.因此,本文采用含有興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對(duì)學(xué)習(xí)行為進(jìn)行分析,以獲得屬性間更多的信息.

      假設(shè)學(xué)生的一系列學(xué)習(xí)行為屬性為集合A={A1,A2,…,Am}, 每個(gè)屬性有k個(gè)不同等級(jí)的具體取值.根據(jù)實(shí)際學(xué)習(xí)情況,屬性不同k取值不同.假設(shè)學(xué)生的每條學(xué)習(xí)行為數(shù)據(jù)對(duì)應(yīng)的學(xué)習(xí)成績(jī)?yōu)閆, 并且Z按分?jǐn)?shù)值劃分為n個(gè)等級(jí),即Z={Z1,Z2,…,Zn}.在分析學(xué)習(xí)行為過(guò)程中,本文引入基于概率相關(guān)性的興趣度模型思想,通過(guò)計(jì)算興趣度值分析學(xué)習(xí)行為屬性與學(xué)習(xí)成績(jī)之間的深層關(guān)系.一般情況下,學(xué)習(xí)行為總量為某一具體常數(shù),則屬性間的興趣度計(jì)算過(guò)程可由式(5)所示:

      (5)

      2.2 具體算法步驟

      數(shù)據(jù)挖掘的過(guò)程一般包括4個(gè)部分:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和結(jié)果解釋.關(guān)聯(lián)規(guī)則算法是通過(guò)挖掘頻繁項(xiàng)集來(lái)發(fā)現(xiàn)屬性間的聯(lián)系,但若數(shù)據(jù)量大產(chǎn)生的規(guī)則也就越多,用戶很難觀察到某些細(xì)化區(qū)域的隱含規(guī)則,因此本文將聚類分析作為數(shù)據(jù)挖掘的一個(gè)步驟.首先對(duì)樣本數(shù)據(jù)進(jìn)行聚類將區(qū)域細(xì)化,然后對(duì)不同簇類的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以此提高挖掘效率.

      本文采用基于興趣度的關(guān)聯(lián)規(guī)則算法進(jìn)行學(xué)習(xí)行為分析的主要步驟如下:

      1)獲取用戶的原始學(xué)習(xí)行為數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)離散化等操作,預(yù)處理后的數(shù)據(jù)存入數(shù)據(jù)庫(kù),形成樣本數(shù)據(jù)集;

      2)采用K-means算法進(jìn)行聚類,利用公式(1)選取聚類簇?cái)?shù),將數(shù)據(jù)區(qū)域細(xì)則化,生成相互區(qū)分的類.以學(xué)習(xí)成績(jī)作為學(xué)習(xí)效果的依據(jù),對(duì)各類學(xué)習(xí)行為和學(xué)習(xí)效果進(jìn)行歸納分析;

      3)采用基于興趣度的關(guān)聯(lián)規(guī)則算法對(duì)各區(qū)域數(shù)據(jù)進(jìn)行挖掘,利用式(2)和式(3)得到影響學(xué)習(xí)效果的學(xué)習(xí)行為因素,然后根據(jù)式(5)計(jì)算結(jié)果,分析學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層聯(lián)系.

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)預(yù)處理

      實(shí)驗(yàn)數(shù)據(jù)來(lái)自edX平臺(tái)提供的MITx的2013年春季編號(hào)為8.02x的課程學(xué)習(xí)記錄,該數(shù)據(jù)集含有學(xué)習(xí)者從注冊(cè)到最后結(jié)業(yè)成績(jī)的所有學(xué)習(xí)數(shù)據(jù),共計(jì)18 579條.實(shí)驗(yàn)主要提取的學(xué)習(xí)特征分別是:是否訪問(wèn)課件標(biāo)簽(A),訪問(wèn)課程是否過(guò)半(B),互動(dòng)次數(shù)(C),視頻播放次數(shù)(D),互動(dòng)的章節(jié)數(shù)(E),論壇發(fā)帖數(shù)(F),是否獲得證書(shū)(G),成績(jī)結(jié)果(Z).為提高數(shù)據(jù)挖掘的效率,首先進(jìn)行數(shù)據(jù)預(yù)處理操作,將原始數(shù)據(jù)離散化,獲得的部分學(xué)習(xí)特征數(shù)據(jù)如表1所示.

      表1 學(xué)習(xí)特征表

      表1中,每一行數(shù)值代表某一名學(xué)習(xí)者的全部學(xué)習(xí)特征,各特征項(xiàng)的屬性見(jiàn)表2.

      表2 特征值的屬性

      3.2 聚類分析

      實(shí)驗(yàn)以Eclipse環(huán)境為平臺(tái),用Python作為開(kāi)發(fā)語(yǔ)言,采用K-means算法對(duì)獲得的學(xué)習(xí)特征進(jìn)行聚類分析.首先,通過(guò)聚類準(zhǔn)則函數(shù)確定最佳的聚類簇?cái)?shù),其結(jié)果如圖1所示.

      圖1 聚類的數(shù)目

      由圖1可以看出,曲線呈不斷下降趨勢(shì),但結(jié)合實(shí)際情況可知聚類數(shù)不可能取無(wú)限小的值,否則失去研究意義.當(dāng)簇的數(shù)目為3時(shí),曲線變化率最大,即聚類效果最好,因此本實(shí)驗(yàn)選取聚類數(shù)為3.聚類結(jié)果如表3所示,表中列舉了每類含有的主要特征項(xiàng),括號(hào)內(nèi)的數(shù)值為具體人數(shù).

      從表3可以看出,第1類消極型學(xué)習(xí)者幾乎沒(méi)有瀏覽過(guò)課件和視頻等學(xué)習(xí)內(nèi)容,并且?guī)缀鯖](méi)有過(guò)互動(dòng),學(xué)習(xí)質(zhì)量很差,沒(méi)有獲得證書(shū).第2類被動(dòng)型學(xué)習(xí)者雖然大多數(shù)瀏覽過(guò)課件和視頻,以及有過(guò)互動(dòng)學(xué)習(xí)經(jīng)歷,但大多數(shù)沒(méi)能堅(jiān)持學(xué)習(xí)到課程的一半,學(xué)習(xí)效果并不理想,也沒(méi)能獲得證書(shū).第3類主動(dòng)型學(xué)習(xí)者都瀏覽過(guò)課件和視頻,互動(dòng)和發(fā)帖數(shù)較多,而且能夠堅(jiān)持長(zhǎng)時(shí)間學(xué)習(xí),因此這類學(xué)習(xí)者的學(xué)習(xí)效果較好,大多獲得了相應(yīng)的課程證書(shū).

      表3 聚類結(jié)果

      注:第1類約占總?cè)藬?shù)的25%,第2類約占總?cè)藬?shù)的70%,第3類約占總?cè)藬?shù)的5%.

      3.3 關(guān)聯(lián)規(guī)則分析

      為找出影響學(xué)習(xí)效果的重要因素,分別采用傳統(tǒng)的Apriori算法和含有興趣度的改進(jìn)算法對(duì)不同類型學(xué)習(xí)者的學(xué)習(xí)特征數(shù)據(jù)進(jìn)行挖掘,獲得的關(guān)聯(lián)規(guī)則數(shù)目如表4所示.

      表4 不同關(guān)聯(lián)規(guī)則算法的實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果顯示,采用含興趣度的算法獲得的強(qiáng)規(guī)則數(shù)目比傳統(tǒng)Apriori算法減少了40.9%.學(xué)習(xí)成績(jī)作為學(xué)習(xí)效果的重要體現(xiàn),分析與其相關(guān)的強(qiáng)規(guī)則可獲知學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的關(guān)系.由于大多數(shù)學(xué)習(xí)者屬于被動(dòng)型學(xué)習(xí)類型,因此本文以被動(dòng)型學(xué)習(xí)者為例進(jìn)行分析.被動(dòng)型學(xué)習(xí)類型的部分強(qiáng)規(guī)則如表5所示.

      表5 部分強(qiáng)規(guī)則

      由表5中的置信度可知,所選擇的學(xué)習(xí)特征都是影響學(xué)習(xí)成績(jī)的重要因素.由G0 ?Z0的興趣度為1.0可知,是否獲得證書(shū)和成績(jī)的關(guān)系是相互獨(dú)立的,不能以成績(jī)優(yōu)劣決定是否能獲得證書(shū).學(xué)習(xí)特征A、D與Z之間的興趣度值均小于1,即訪問(wèn)課件、播放視頻與成績(jī)的關(guān)系為負(fù)相關(guān),說(shuō)明當(dāng)增多訪問(wèn)課件、播放視頻等行為時(shí),成績(jī)?yōu)?分的情況會(huì)減少;而特征B、C、E、F與Z之間的興趣度值均大于1,即訪問(wèn)課程的次數(shù)不過(guò)半,互動(dòng)次數(shù)少、學(xué)習(xí)的章節(jié)數(shù)少、不發(fā)帖討論等與成績(jī)的關(guān)系為正相關(guān),說(shuō)明這些情況的出現(xiàn)會(huì)增加成績(jī)?yōu)?分的情況.

      4 結(jié)論

      本文以在線課堂的用戶學(xué)習(xí)行為數(shù)據(jù)為研究對(duì)象,通過(guò)引入興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法研究了學(xué)習(xí)行為因素與學(xué)習(xí)效果之間的關(guān)系.實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)關(guān)聯(lián)規(guī)則本文方法可有效去除冗余規(guī)則,并且可得出規(guī)則前后件的具體聯(lián)系,有利于指導(dǎo)用戶改善學(xué)習(xí)行為.影響學(xué)習(xí)效果的因素較為復(fù)雜,本文僅對(duì)在線學(xué)習(xí)用戶的部分學(xué)習(xí)行為因素進(jìn)行了分析,今后將考慮網(wǎng)絡(luò)環(huán)境、學(xué)習(xí)資源等其他因素對(duì)學(xué)習(xí)行為因素的影響,以及提高數(shù)據(jù)挖掘算法的準(zhǔn)確率,以更有效地分析學(xué)習(xí)行為因素之間的深層關(guān)系,提高在線學(xué)習(xí)用戶的學(xué)習(xí)效果.

      猜你喜歡
      置信度學(xué)習(xí)效果數(shù)據(jù)挖掘
      疫情期間線上學(xué)習(xí)效果評(píng)價(jià)分析
      “百詞斬”對(duì)于大學(xué)英語(yǔ)四級(jí)詞匯學(xué)習(xí)效果的實(shí)證研究
      民族文匯(2022年14期)2022-05-10 03:08:22
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      基于學(xué)習(xí)性評(píng)價(jià)原則提高研究性學(xué)習(xí)效果的研究
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      蓮心寶寶有話說(shuō)
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      左云县| 江门市| 老河口市| 常熟市| 阳山县| 鲁山县| 镇康县| 澄江县| 乐安县| 蓬莱市| 博客| 原阳县| 华池县| 云浮市| 德钦县| 嵩明县| 托克托县| 申扎县| 新津县| 辽宁省| 平和县| 岐山县| 郎溪县| 通城县| 清流县| 连云港市| 绥德县| 镶黄旗| 三都| 鄢陵县| 天津市| 锦州市| 澎湖县| 长兴县| 北川| 石狮市| 徐水县| 临沂市| 丹江口市| 孟连| 鞍山市|