郭海兵 劉亞帥
摘要:在“互聯(lián)網(wǎng)+”的教育背景下,由于線上學習的方式難以隨時觀察學生學習狀況,因此如何有效地觀測學生的網(wǎng)課學習效果是當前必須要研究的一個話題。本次研究以江西財經(jīng)大學“計量經(jīng)濟學”課程為研究對象,主要通過Mooc學習平臺后臺和人為爬取兩種方式來獲取數(shù)據(jù),運用ID3算法,以學習效率為因變量,計算各個屬性的信息熵和信息增益,進行遞歸,進而出建立決策樹模型,對學生的網(wǎng)課學習效果進行一個大致評價。
關鍵詞:“互聯(lián)網(wǎng)+”;MOOC在線學習平臺;ID3算法;決策樹
一、引言
在面臨著疫情的突發(fā)情況,我國大多數(shù)大學生在家通過網(wǎng)絡平臺進行學習交流,近年來,在線教育平臺得到了快速的發(fā)展,但如何評價學生在線學習效果的問題一直沒有得到有效的解決。針對這個問題,本次研究學生利用網(wǎng)絡平臺進行學習時效果欠佳是由于觀看視頻過程中哪一個或者幾個行為共同影響導致。
本次研究以江西財經(jīng)大學計量經(jīng)濟學課程為研究對象,運用ID3算法,計算各屬性的信息熵和信息增益,不斷遞歸,尋找最優(yōu)分割點,建立決策樹模型,對學生的網(wǎng)課學習效果進行一個大致評價。
二、算法概述
決策樹是一種常用的數(shù)據(jù)挖掘分類模型,呈樹型結構,這是一種從機器學習領域中不斷發(fā)展的用于分類的函數(shù)逼近方法,決策樹模型具有計算速度快,結果容易解釋,穩(wěn)健性強的優(yōu)點。ID3算法是決策樹模型的基礎算法之一,其基本思想是:通過分析屬性的信息增益,找到最具有判別能力的劃分屬性,將樣本劃分為多個子集,每個子集按照類似的方法繼續(xù)遞歸劃分,最終得到?jīng)Q策樹。ID3算法的核心問題就是如何判斷出最優(yōu)的劃分屬性,該算法運用屬性分割前后的熵進行比較,計算信息增益,以此來度量屬性的判別能力。相關計算公式如下:
(一)樣本分類所需信息量
假設S是一個集合,包含有s個樣本,有m個不同的類別屬性值Ci,其中i=1,2,...,m。
給定了概率p1,p2,...,pm,其中,則對樣本分類所需信息量為:
(1)
(二)樣本分類所需期望信息
假設屬性A中有n個不同的取值,即a1,a2,...,an,根據(jù)屬性A劃分樣本集S,分為n個不同的集合,即S1,S2,...,Sn,用sij代表樣本集中屬于sj的類別Ci的樣本數(shù),此時,樣本量的計算公式為:
(2)
其中,表示第j個子集的權重。E(A)值越小,表示集合被劃分得越徹底。
(三)信息增益
信息增益是指兩個信息量之間的差距,計算公式如下:
(3)
計算每個屬性的信息增益,然后進行比較,得到信息增益最大的屬性,即具有最優(yōu)判斷能力的屬性,選擇該屬性作為根節(jié)點,遞歸建立決策樹,直至全部數(shù)據(jù)都屬于同一類為止。
三、數(shù)據(jù)預處理
本次研究以江西財經(jīng)大學的“計量經(jīng)濟學”課程為研究對象,課程共有13個章節(jié),數(shù)據(jù)的獲得途徑主要是通過MOOC學習平臺后臺,也包括老師結課后對于學生的評價和數(shù)據(jù)爬取等途徑。首先對數(shù)據(jù)進行了預處理,剔除掉了異常值,即課程只學習一半等異常情況,只統(tǒng)計完整學習并進行了課程測試的數(shù)據(jù),收集到共100條數(shù)據(jù),數(shù)據(jù)屬性信息表如表1所示。
“學習效率”指標,此數(shù)據(jù)由結課后老師對于學生的評價所得,取值為高、中、低,分別用1、2、3表示,據(jù)表2顯示,期望為2.04,說明每位學生的學習效率并不存在較大的差別。
“觀看時長”指標,單位為小時(h),指的是整個課程的觀看總時間,最能反映出學生的學習態(tài)度,期望為39.63小時,最大值為54.54,最小值28.35,標準差5.03,說明此樣本的觀看時長離散程度較大。
“測試成績”指標,最能反映學生學習情況的指標,最大值91.1,最小值51.6,說明學生之間的學習情況具有較大的差距。
“測試耗費時間”指標,單位為分鐘(min),期望36.54,最長耗費時間50.4,最短耗費時間22.1,側(cè)面反映出學生對于知識的掌握程度具有較大的差距。
“平均暫停次數(shù)”指標,即總暫停次數(shù)與章節(jié)總數(shù)的比值,期望21.76,最大值42,最小值8,說明學生們觀看視頻時的專心程度有很大不同。
“平均回復次數(shù)”指標,總回復次數(shù)與章節(jié)總數(shù)的比值,均值2.95,最小值1,最大值5,說明學生們在與老師互動的頻繁程度上沒有較大差別。
最后,本文根據(jù)數(shù)據(jù)的分布情況,將連續(xù)數(shù)據(jù)離散化,詳情如表3所示。
四、模型的建立與求解
本文通過運用ID3算法,以學習效率為因變量,其余為自變量,建立決策樹模型,以此來判斷學生的網(wǎng)課學習效果。
(一)計算分類屬性的信息量
令自變量屬性集合A={觀看時長,測試成績,測試耗費時間,平均暫停次數(shù),平均回復次數(shù)},因變量屬性由三個取值,C={高,中,低},說明這是一個多分類問題。數(shù)據(jù)集D中取值為“高”有13個,取值為“中”有70個,取值為“低”有17個 ,根據(jù)公式可計算出分類屬性信息量:
(4)
(二)計算屬性的信息增益
對于觀看時長屬性,取值共有“長”和“短”兩種,對應個數(shù)分別為45、55。取值為“長”所對應的學習效率屬性{高、中等、低}個數(shù)分別為{7、28、10},取值為“短”所對應的學習效率屬性{高、中等、低}個數(shù)分別為{6、42、7},觀看時長屬性的信息熵,信息增益分別為:
同理可以計算出其他屬性的信息熵和信息增益分別為:
比較所有屬性的信息增益,可以發(fā)現(xiàn),屬性測試成績的信息增益值最大,即測試成績屬性包含的信息對于分類效益最大,應該選擇測試成績屬性作為分裂屬性,由此便可得出根節(jié)點,如圖1所示。
(三)遞歸建立決策樹模型
以測試成績作為根節(jié)點,可以將數(shù)據(jù)分為{高,中,低}三個子集,然后繼續(xù)遞歸計算每個屬性的信息熵和信息增益。
對于測試成績?yōu)楦叩淖蛹?,即測試成績>90的子集,對于學習效率屬性{高、中、低}個數(shù)分別為{8,2,0},按照遞歸的方式計算信息Info(測試成績高)=0.42。
以此計算其他屬性的信息熵和信息增益,即:
比較所有屬性的信息增益,可以發(fā)現(xiàn),屬性觀看時長的信息增益值最大,即觀看時長屬性包含的信息對于分類效益最大,應該選擇觀看時長屬性作為分裂屬性,由此便可得出根節(jié)點,如圖2所示。
同理可得,對于測試成績?yōu)橹械淖蛹瑢傩云骄貜痛螖?shù)信息增益值最大,選其為根節(jié)點;對于測試成績?yōu)榈偷淖蛹?,全部歸為一類,直接得到葉子節(jié)點。
繼續(xù)遞歸下去,直至數(shù)據(jù)都歸為一類,便得到了決策樹,如圖3所示。
通過上面建立的決策樹模型可以得出以下結論:1.測試成績低于60分的學生視為在線學習效率低;2.測試成績在60到90分且平均回復次數(shù)超過兩次的同學學習效率視為中等;3.測試成績在60到90分,平均回復次數(shù)小于2次且測試耗費時間大于30分鐘視為學習效率低下;4.測試成績在60到90分,平均回復次數(shù)小于2次且測試耗費時間小于30分鐘視為學習效率中等;5.測試成績大于90分且觀看時長小于40小時的同學視為學習效率高;6.測試時間大于90分,觀看時長大于40小時且測試耗費時間小于30分鐘視為學習效率高;7.測試時間大于90分,觀看時長大于40小時且測試耗費時間大于30分鐘視為學習效率中等。
五、模型的評價
根據(jù)往常研究者對于學生學習效果的研究更注重于最后的成績,然而卻忽視了學生過程性的學習行為,一名學生的學習效果不佳是否和他上課期間的各種行為密切相關,這就是本次研究主要需要討論的話題。本次研究運用ID3算法,計算各屬性的信息熵和信息增益,不斷遞歸,尋找最優(yōu)分割點,建立決策樹模型。
決策樹模型生成的規(guī)則易于理解,計算量相對于其他模型不大,且能夠處理連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù);但模型考慮因素不夠全面,學生的學習效果會受到多個因素的影響,本次研究也僅僅考慮了觀看時長、測試成績、測試耗費時間、平均暫停次數(shù)和平均回復次數(shù)五個自變量,來探討學生的網(wǎng)課學習效果。綜上所述,本次研究已經(jīng)達到預期效果。在此模型的基礎上,可以從屬性的選取、算法的改進等方面對模型進一步的優(yōu)化。
作者單位:郭海兵? ? 劉亞帥? ? 江蘇海洋大學理學院
參? 考? 文? 獻
[1] 劉國鈞,陳紹業(yè),王鳳翥.圖書館目錄[M].北京:高等教育出版社,1957.
[2] 傅承義,陳運泰,祁貴中.地球物理學基礎[M].北京:科學出版社,1985.447.
[3] 華羅庚,王元.論一致分布與近似分析[J].中國科學,1973⑷:339-357.
[4] CORDER S P.The significance of learners error[J]. International Review of Applied Linguistic,1967,5(4):161-170.
[5] 李迎春.數(shù)據(jù)挖掘中決策樹分類算法的研究[D].湖南師范大學,2015.05.
[6] 孫靜雯,王紅旗,張欣,等.基于決策樹分類的根河市土地利用變化及驅(qū)動力分析[J].中國人口·資源與環(huán)境,2014,24(03):449-452.
[7] 楊洋,決策樹ID3算法及其改進[J].軟件導刊,2016,15(08):46-48.
[8] 楊霖,周軍,梅紅巖,等.ID3改進算法研究[J].軟件導刊, 2017,16(08):21- 24.
[9] 鐘敏.決策樹算法在高校教學信息系統(tǒng)應用初探[J].武漢工程職業(yè)技術學院學報,2021,33(2):31-33.
[10] 張軍,王芬芬.決策樹在高校學生學業(yè)預警中的應用研究談[J].無線互聯(lián)技術,2020,(20):171-172.