王玉國 宋忠田
摘要:針對當(dāng)前大學(xué)公共體育教學(xué)質(zhì)量評價中缺乏科學(xué)、有效的評價手段,導(dǎo)致教學(xué)效率低下,教學(xué)內(nèi)容枯燥的問題,需要對教育教學(xué)質(zhì)量評價指標(biāo)進(jìn)行數(shù)據(jù)挖掘和分析,提升體育教學(xué)課程管理質(zhì)量和效率?;跊Q策樹技術(shù)進(jìn)行數(shù)據(jù)的分類,提取體育課程中的數(shù)據(jù)特征和關(guān)系,結(jié)合ID3算法,通過信息增益檢驗決策樹各級節(jié)點上數(shù)據(jù)的特征屬性,建立樹形分支,由各分支實例子集遞歸方式來建立決策樹下一級節(jié)點和分支,指導(dǎo)該子集實例被劃分為某一個類別,尋找影響大學(xué)體育課堂教學(xué)質(zhì)量因素。教學(xué)內(nèi)容在教學(xué)質(zhì)量評價中占主導(dǎo)地位,直接影響教學(xué)質(zhì)量的評價結(jié)果,采用決策樹能為體育教學(xué)課程管理提供有價值的數(shù)據(jù)支持,有效提高體育教學(xué)課程管理質(zhì)量和效率。
關(guān)鍵詞:體育教學(xué);決策樹算法;數(shù)據(jù)挖掘
中圖分類號:G641
文獻(xiàn)標(biāo)志碼:A
AnalysisonPublicPhysicalEducationTeachingandEvaluationof
CollegeStudentsunderDecisionTreeAlgorithm
WANGYuguo,SONGZhongtian
(DepartmentofPhysicalEducationandSports,AksuVocationalandTechnicalCollege,Aksu843000,China)
Abstract:Inviewofthelackofscientificandeffectivemeansintheevaluationofpublicphysicaleducationteachingqualityincollegesanduniversities,theteachingefficiencyislowandtheteachingcontentisboring.Throughthedataminingandanalysisoftheevaluationindexofeducationandteachingquality,thedataclassificationbasedondecisiontreetechnologyiscarriedout,andthedatafeaturesandrelationsinphysicaleducationcurriculumareextracted.CombinedwithID3algorithm,thecharacteristicattributesofdataonalllevelsofthedecisiontreearetestedbyinformationgain,branchesareestablished,andthelowerlevelnodesandbranchesofthedecisiontreeareestablishedbytherecurrencemodeofeachbranchinstancesubset.Thesecanguidetodividetheinstanceofthesubsetintoacertaincategoryinordertofindtheinfluenceonthephysicaleducationcourseoftheuniversity.Theexampleshowsthatthedecisiontreecanprovidevaluabledatasupportforphysicaleducationcurriculummanagementandeffectivelyimprovethequalityandefficiencyofphysicaleducationteachingcurriculummanagement.
Keywords:physicaleducation;decisiontreealgorithm;datamining
0引言
高校公共體育實踐教學(xué)是學(xué)習(xí)體育知識和掌握技能的有效方式,能有效增強(qiáng)學(xué)生體質(zhì),提高學(xué)生身體素質(zhì)。隨著高校教育體質(zhì)改革的實施,公共體育教學(xué)觀念、教學(xué)內(nèi)容和手段都在不斷發(fā)生改變[12]。因此,對高校體育課堂教學(xué)進(jìn)行評價,了解影響體育課堂教學(xué)質(zhì)量影響因素,從而有針對性的進(jìn)行教學(xué)改良,提升課堂教學(xué)水平,具有重要意義。數(shù)據(jù)挖掘作為當(dāng)前熱門的研究領(lǐng)域,通過在大量數(shù)據(jù)中來提取未知的、潛在的、有應(yīng)用價值的信息,來為個行業(yè)的發(fā)展和決策提供重要的參考依據(jù)[3]。決策樹算法作為數(shù)據(jù)挖掘中的一個重要技術(shù)手段,融合了機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計、智能數(shù)據(jù)庫、神經(jīng)網(wǎng)絡(luò)等技術(shù),通過算法對相關(guān)影響因素的潛在數(shù)據(jù)進(jìn)行進(jìn)行挖掘,為教育管理和決策提供現(xiàn)代教學(xué)評價數(shù)據(jù)庫理想模型[46]。如通過考慮各影響體育教學(xué)的因素來構(gòu)建決策樹,實現(xiàn)對影響指標(biāo)的綜合評價,并有針對性性的給出提升教學(xué)質(zhì)量的解決方案[7];如基于ID3決策樹的商務(wù)英語實踐成效評價,進(jìn)行考試成績的管理和分析,由此針對性的提出課程內(nèi)容改進(jìn)和教學(xué)內(nèi)容評估等,有效推進(jìn)教學(xué)質(zhì)量評價管理,提升教學(xué)質(zhì)量[8]?;诖?,本文通過將決策樹引入大學(xué)公共體育教學(xué)評價中,對教學(xué)質(zhì)量評價指標(biāo)進(jìn)行有效挖掘,發(fā)現(xiàn)其中的不合理性并進(jìn)行改進(jìn),實現(xiàn)教學(xué)質(zhì)量和管理水平的提升。
1決策樹技術(shù)基本原理
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取或挖掘識別有效的、新穎的、潛在的信息和知識的過程。它利用數(shù)據(jù)庫關(guān)系系統(tǒng)查詢、檢索功能,結(jié)合統(tǒng)計分析處理,得出可供決策參考的統(tǒng)計分析數(shù)據(jù)[7]。決策樹技術(shù)作為數(shù)據(jù)挖掘方法中一種常見的信息論方法,通過對數(shù)據(jù)進(jìn)行分類,以達(dá)到預(yù)測的目的。
決策樹是一棵有向、無環(huán)樹,決策樹由決策節(jié)點、分支和葉子組成[9]。樹上的每一個內(nèi)部節(jié)點均表示一個測試點,樹的分支對應(yīng)一個測試輸出,樹葉節(jié)點則為一個代表類分布。在通過決策樹進(jìn)行數(shù)據(jù)分類過程中,首先需要對獲得的數(shù)據(jù)訓(xùn)練集進(jìn)行分析測試,根據(jù)獲得的數(shù)據(jù)類別建立待解決問題的數(shù)據(jù)分類模型,然后根據(jù)建立的決策樹對未知數(shù)據(jù)分類。作為一類貪心算法,決策樹數(shù)據(jù)挖掘是一種自頂向下的遞歸算法,有決策樹的根節(jié)點開始,根據(jù)獲得的樣本數(shù)量對集中屬性逐一測試,并通過屬性類別對數(shù)據(jù)訓(xùn)練集分類,獲得若干字訓(xùn)練集,其中每個子訓(xùn)練集作為一個非葉節(jié)點,進(jìn)行遞歸循環(huán)執(zhí)行,直到滿足設(shè)定條件后,形成樹的葉子節(jié)點,終止計算[10]。在建立決策樹的過程中,由于數(shù)據(jù)集中存在噪聲的干擾[11],因此,形成的分枝反映出訓(xùn)練集中存在的異常情況,容易造成數(shù)據(jù)的擬合過度問題,因此就需要對構(gòu)建的決策樹進(jìn)行修剪,去掉存在的異常分支,保證分類結(jié)果的準(zhǔn)確性。
對于決策樹每個節(jié)點,每個決策節(jié)點表征一個問題或決策,對應(yīng)待分類對象屬性,每一個葉子代表可能存在的分類結(jié)果。沿決策樹由上而下遍歷,通過對每個結(jié)點進(jìn)行測試,將各節(jié)點上的測試輸出結(jié)果構(gòu)成不同分支,最后由某一途徑傳輸?shù)揭粋€葉子節(jié)點。在這個過程中可利用若干變量來判定所屬類別。目前用于決策樹技術(shù)的算法主要為ID3算法以及C4.5算法[12]。由于C4.5算法在缺省狀態(tài)下存在缺陷,因此本文選擇采用ID3算法進(jìn)行數(shù)據(jù)的分類和預(yù)測。
1.2ID3算法流程
ID3算法作為決策樹算法中最典型的算法,通過信息增益檢驗決策樹各級節(jié)點上數(shù)據(jù)的特征屬性,選擇信息增益最大屬性作為樣本劃分測試屬性,根據(jù)屬性不同值建立分支,由各分支實例子集遞歸方式來建立決策樹下一級節(jié)點和分支,指導(dǎo)該子集實例被劃分為某一個類別。
在ID3算法中,
設(shè)S為訓(xùn)練集,s為樣本數(shù),假設(shè)類Ci(i=1,2,…,m)存在m個不同值,其中類Ci的樣本數(shù)為si。對于一個給定樣本分類所要求的期望信息為:
I(s1,s2,…,sm)=-(p1log2(p1)+(p2log2(p2)+
…+(pmlog2(pm))
上式中:pi=si/s為樣本屬于Ci的概率。
設(shè)屬性A中存在v個不同值{a1,a2,…,av},對S訓(xùn)練集,利用屬性A將其劃分為v個子集
{S1,S2,…,Sv},其中Sj的樣本在A中存在相同值aj。若選擇A作為測試屬性,則分類子集包括S節(jié)點中形成的多個分枝。設(shè)sij為Sj中類Ci樣本數(shù)。將A劃分的子集期望信息熵為:
E(A)=∑vi=1sij+…+smjSI(sij,…,smj)
其中sij+…+smjS作為第j個權(quán)值,則獲得A屬性上分支的編碼信息為:
Gain(A)=I(s1,s2,…sm)-E(A)
算法中選擇最高信息增益的屬性給定S測試屬性,根據(jù)測試屬性創(chuàng)建節(jié)點并進(jìn)行屬性標(biāo)記,并由屬性只構(gòu)建分枝進(jìn)行樣本劃分[13]。
1.3樹的修剪
在決策樹創(chuàng)建過程中,由于訓(xùn)練集中噪聲的存在,在訓(xùn)練數(shù)據(jù)中存在異?,F(xiàn)象的分支,為生成一棵易于理解的決策樹,就需要對包好噪聲分支的決策樹進(jìn)行修剪,解決一些分支過分適應(yīng)的問題[14]。目前比較常見的剪枝方式主要分為先剪枝和后剪制技術(shù)[15]。先剪枝方式是在建立決策樹過程中,對于存在異常的分支,直接停止建立子節(jié)點,從而不形成異常分支。后剪枝方式則是在建立決策樹后,根據(jù)建樹條件,去掉其中存在的部分異常分支,并利用葉節(jié)點重新建立新的決策樹。
本文中根據(jù)體育教學(xué)評價數(shù)據(jù)分類特性,采用基于最小錯誤原則的后剪枝法,即在完全生成決策樹后,將多余部分的分支剪掉,并利用葉節(jié)點獲得新的決策樹[16]。因此,通過建立決策樹對任意實例進(jìn)行判定,挖掘過程如圖1所示。
通過決策樹算法對信息增益特征屬性進(jìn)行檢驗,獲得增益最大值形成決策樹節(jié)點,保證決策樹結(jié)點最小的前提下具備最高的例子識別準(zhǔn)確率。根據(jù)特征取值不同構(gòu)建分支,對分支實例子集進(jìn)行遞歸處理,建立決策樹結(jié)點和分支,直到某一子集中的所有例子均為相同子集。
2決策樹算法應(yīng)用
2.1數(shù)據(jù)采集
以某體育大學(xué)在校師生為對象,分別在學(xué)期末進(jìn)行問卷調(diào)查,針對影響體育教學(xué)質(zhì)量因素分析。體育教學(xué)評價是解釋體育教學(xué)的價值,因此,選定的評價指標(biāo)應(yīng)力求反映體育課堂教學(xué)狀態(tài)和效果。由于教學(xué)質(zhì)量是教學(xué)過程的中心環(huán)節(jié),因此以課堂教學(xué)為例,進(jìn)行決策樹分析,將教學(xué)質(zhì)量評價指標(biāo)按照教學(xué)內(nèi)容、教學(xué)手段、教學(xué)效果和教學(xué)態(tài)度等分為五個項目。假設(shè)K1:教學(xué)態(tài)度;K2:教學(xué)內(nèi)容;K3:教學(xué)方式;K4:教學(xué)效果;K5:教學(xué)結(jié)果五個訓(xùn)練樣本數(shù)據(jù),組織體育學(xué)院6位一線體育教師和4位碩士導(dǎo)師共10人進(jìn)行任課教學(xué)效果評價。將評價等級分為5級,分別為:A:優(yōu)秀(90100);B:良好(8090);C:中等(7080);D:合格(6070);E:不合格(<60);獲得10個教師的教學(xué)質(zhì)量評價如表1所示。
通過表1所示的評價結(jié)果,利用ID3算法構(gòu)成決策樹,部分程序代碼如下:
Print(‘Starttrainning)
Tree=train(train_features,train_labels,list(range(feature_len)))
Time_3=time.time()
Print(‘trainingcost%fsecond%(time_3—time_2))
Print(‘Startpredicting)
Tets_predict=predicting(test_features,tree)time_4=time.time()
Print(‘predictingcost%fsecond%(time_4—time_3))
根據(jù)表1中獲得的教師教學(xué)質(zhì)量評價結(jié)果和建立的決策樹,確定樣本期望信息熵為:
I(S)=-110log2110-
610log2610-
310log2310=1.25775996
對于教學(xué)態(tài)度K1,存在有Values(K1)=(A,B,C),SA={6,8},SA=2,
SB={1,2,3,5,9,10},SB=6,SC={4,7},SC=2,計算獲得教學(xué)態(tài)度K1
條件期望信息為:
E(SA)=-12log212-
12log212=1.0;
E(SB)=-16log216-
56log256=0.64336;
E(Sc)=-12log212-
12log212=1.0,可得到:
E(K1)=210E(SA)+610E(SB)+210E(SC)=0.757845
確定K1信息增熵為:Gain(K1)=I(S)-E(K1)=0.5034435同理可得到其他屬性的信息熵分別為:
Gain(K2)=I(S)-E(K2)=0.6067457;Gain(K3)=0.4765867;
Gain(K4)=0.4315636。
比較樣本的信息熵有:Gain(K2)>Gain(K1)>Gain(K3)>Gain(K4)。可以看出,樣本中教學(xué)內(nèi)容K2屬性信息增益具有做大值,因此選擇教學(xué)內(nèi)容K2作為根節(jié)點測試屬性,在每個值根節(jié)點創(chuàng)建分支,并基于ID3從根節(jié)點進(jìn)行進(jìn)一步細(xì)分。若根節(jié)點到當(dāng)前節(jié)點路徑包含了所有樣本的全部屬性,或?qū)儆谕挥?xùn)練樣本層,則算法完成,根據(jù)教學(xué)內(nèi)容K2測試屬性建立的決策樹形圖,如圖2所示。
2.2決策結(jié)果
根據(jù)建立的決策樹可以看出,從決策樹根部到葉的每一個路徑對應(yīng)一組屬性測試的合取,整個決策樹表示合取的析取。從決策樹中提取表征描述決策樹的知識,并采用ifthen語句作為分類規(guī)則,其中每一條根節(jié)點至葉節(jié)點的路徑均對應(yīng)著一個唯一的決策規(guī)則,根據(jù)建立的決策樹型,獲得決策樹結(jié)果的部分代碼,如圖3所示。
確定知識的表述形式為:
if(K2=A),thenK5=優(yōu)秀;
if(K2=B),thenK5=良好;
if(K2=C∧K1=C),thenK5=中等;
if(K2=C∧K1=B∧K3=B),thenK5=良好;
if(K2=C∧K1=B∧K3=C),thenK5=中等;
根據(jù)分析可知,教學(xué)內(nèi)容K2在教師教學(xué)中占主導(dǎo)地位,若教學(xué)內(nèi)容為優(yōu)秀時,獲得的教學(xué)質(zhì)量評價為優(yōu)秀,若教學(xué)內(nèi)容為良好時,則教學(xué)質(zhì)量評價結(jié)果為良好因此對教學(xué)質(zhì)量的評價中,教學(xué)內(nèi)容作為主要的考慮因素,同時兼顧教學(xué)方式、教學(xué)態(tài)度等其他樣本。當(dāng)教學(xué)內(nèi)容為中等,而教學(xué)態(tài)度為中等時,獲得的教學(xué)質(zhì)量評價結(jié)果為中等;當(dāng)教學(xué)內(nèi)容為中等,而教學(xué)態(tài)度良好,教學(xué)方式為良好或中等時,得到的教學(xué)質(zhì)量評價結(jié)果為中等。
3總結(jié)
大學(xué)公共體育教學(xué)質(zhì)量評價是提升課堂教學(xué)質(zhì)量的有效方式。決策樹技術(shù)應(yīng)用于教學(xué)質(zhì)量的評價,通過對調(diào)查數(shù)據(jù)的挖掘分析,進(jìn)行數(shù)據(jù)的分類,提取體育課程中的數(shù)據(jù)特征和關(guān)系,并結(jié)合ID3算法,通過信息增益檢驗決策樹各級節(jié)點上數(shù)據(jù)的特征屬性,選擇信息增益最大屬性作為樣本劃分測試屬性,根據(jù)屬性不同值建立分支,由各分支實例子集遞歸方式來建立決策樹下一級節(jié)點和分支,指導(dǎo)該子集實例被劃分為某一個類別,尋找影響大學(xué)體育課堂教學(xué)質(zhì)量因素,為體育教學(xué)課程管理提供有價值的數(shù)據(jù)支持,提高體育教學(xué)課程管理質(zhì)量和效率。
參考文獻(xiàn)
[1]武善鋒,陸霞.基于決策樹算法的體育課程分析與管理系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(3):131133.
[2]郭鵬,蔡騁.基于聚類和關(guān)聯(lián)算法的學(xué)生成績挖掘與分析[J].計算機(jī)工程與應(yīng)用,2019,55(17):169179.
[3]張樹滑.基于ID3算法的大學(xué)生成績數(shù)據(jù)挖掘與體能分析系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(5):104106.
[4]林秀科,沈良忠.基于決策樹的學(xué)生成績對畢業(yè)影響分析[J].電腦知識與技術(shù),2017,13(35):1516.
[5]張馨嬌.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生體育成績管理系統(tǒng)的設(shè)計[J].自動化與儀器儀表,2017(10):223224.
[6]吳剡青,韓佳宏,金淵濤,等.基于大數(shù)據(jù)挖掘的警校大學(xué)生公務(wù)員成功考取預(yù)測模型研究——以中央司法警官學(xué)院為例[J].電腦知識與技術(shù),2017,13(12):194195.
[7]吳元慶.基于數(shù)據(jù)挖掘的體育教學(xué)信息系統(tǒng)的研究與設(shè)計[J].自動化與儀器儀表,2017(3):7778.
[8]孫莉.基于C4.5算法的大學(xué)陽光體育系統(tǒng)設(shè)計與實現(xiàn)[J].自動化技術(shù)與應(yīng)用,2019,38(7):2832.
[9]祝莉妮.基于數(shù)據(jù)挖掘的體育成績管理與體能分析研究[J].數(shù)字技術(shù)與應(yīng)用,2017(3):83.
[10]戴紅,王忠,宋大維,等.大數(shù)據(jù)視角下的高校體育教學(xué)研究[J].中國學(xué)校體育(高等教育),2016,3(7):3539.
[11]吳元慶.基于數(shù)據(jù)挖掘的體育教學(xué)信息系統(tǒng)的研究與設(shè)計[J].自動化與儀器儀表,2017(3):7778.
[12]李壽邦.基于分類規(guī)則的大學(xué)生體質(zhì)測試數(shù)據(jù)挖掘的應(yīng)用研究——以西安石油大學(xué)三年級學(xué)生為例[J].西安石油大學(xué)學(xué)報(自然科學(xué)版),2018,33(5):120126.
[13]羅嗣卿,王佳玉,李冰珂.改進(jìn)的組合優(yōu)化決策樹謠言判別方法研究[J].計算機(jī)仿真,2018,35(2):219223.
[14]夏莉莉,趙華碩,徐渭,等.決策樹和回歸技術(shù)在超重危險因素分析中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2018,45(9):15491552.
[15]王杰.基于資源庫的運動技戰(zhàn)術(shù)訓(xùn)學(xué)研平臺構(gòu)建[J].上海體育學(xué)院學(xué)報,2018,42(3):7478.
[16]方歡,方賢文,郭娟,等.案例驅(qū)動下的分類與預(yù)測課程教學(xué)方法研究[J].長春師范大學(xué)學(xué)報,2018,37(8):6772.
(收稿日期:2020.01.24)