苗維誠
(蚌埠醫(yī)學院 數(shù)理教研室,安徽 蚌埠 233030)
數(shù)據(jù)挖掘算法對于提高實驗報告質(zhì)量的作用探討
苗維誠
(蚌埠醫(yī)學院 數(shù)理教研室,安徽 蚌埠 233030)
為提高我校醫(yī)用物理實驗報告的質(zhì)量,本文運用數(shù)據(jù)挖掘決策樹C4.5算法對實驗報告進行處理分析,找出影響實驗報告質(zhì)量的關鍵因素,建立決策樹模型,提出改善的辦法.
實驗報告;數(shù)據(jù)挖掘;決策樹算法
蚌埠醫(yī)學院數(shù)理教研室常年開設醫(yī)用物理學實驗課.實驗報告是實驗教學的一個重要環(huán)節(jié),書寫實驗報告能鍛煉學生的分析、寫作、總結能力,培養(yǎng)學生的實驗素質(zhì)和科研能力,也是教師了解學生掌握知識的狀況和進行成績評定的依據(jù)[1].為提高物理實驗報告質(zhì)量,對學生的實驗報告進行分析,運用數(shù)據(jù)挖掘決策樹C4.5算法找出影響實驗報告質(zhì)量的關鍵因素.
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程.決策樹C4.5算法是數(shù)據(jù)挖掘領域最具影響力的算法之一,在給定數(shù)據(jù)集合上運行C4.5算法可以得到一個從屬性值到類別的映射,進而可以用該映射去分類新的未知實例,最終形成決策樹[2].
C4.5算法構造決策樹是以信息增益率作為分枝準則的,信息增益率表示分枝產(chǎn)生的有用信息的比率,選擇具有最大信息增益率的關鍵因素作為樹的根結點.
為了方便介紹C4.5算法的公式,先作如下假設:D表示一個訓練集Di,(i=1,2,…,m)表示D中m個不同類,那么對D中的元組分類所需的期望信息記為Info(D),也叫做D的熵,公式為:
假定按照屬性A將訓練集D劃分成n個不同的類,需要計算D關于屬性A的熵EntropyA(D).
計算訓練集D關于屬性A的信息增益Gain(A)的公式為:
分裂信息SplitInfoA(D)表示按照屬性A劃分訓練集D的廣度和均勻性,公式為:
信息增益率(GainRatio)的計算公式為:
C4.5算法的數(shù)據(jù)來源于2016級臨床專業(yè)的學生,選取了476份實驗報告.為了方便數(shù)據(jù)的獲取,對實驗報告的四個方面分別進行打分,每項的總分都是10分,最后再給實驗報告一個總分,滿分100分.這四個方面為:(1)實驗報告的格式內(nèi)容.這里存在的問題主要是實驗報告內(nèi)容不完整,格式不規(guī)范,字跡潦草,抄襲書本原話,內(nèi)容雷同.(2)實驗數(shù)據(jù)的處理.主要問題是在數(shù)據(jù)處理上存在簡單錯誤,比如計算錯誤,單位錯誤,圖表格式不規(guī)范,還存在數(shù)據(jù)抄襲的現(xiàn)象.(3)實驗報告的討論總結.主要問題是學生的實驗總結很簡單,沒有深度和新意,沒有去查閱文獻,缺少必要的討論.(4)實驗報告的反饋完善.問題主要是學生拿到批改后的實驗報告不能及時修改,存在拖延現(xiàn)象,有的修改后仍然存在錯誤.
通過對實驗報告四個方面的打分,我們提取出影響實驗報告質(zhì)量的四個關鍵因素,分別為:“格式內(nèi)容”“數(shù)據(jù)處理”“討論總結”“反饋完善”.把這四項得分大于等于8分的記為“優(yōu)”;小于8分的記為“一般”,于是我們就把“格式內(nèi)容”“數(shù)據(jù)處理”“討論總結”“反饋完善”根據(jù)得分都分為“優(yōu)”和“一般”兩類.根據(jù)實驗報告的總得分,把大于等于80分的記為“優(yōu)”;小于80分的記為“一般”,這樣就把實驗報告的質(zhì)量也分為“優(yōu)”和“一般”兩類.對數(shù)據(jù)進行處理獲得476條數(shù)據(jù),把數(shù)據(jù)分為兩類:訓練集360條數(shù)據(jù),測試集116條數(shù)據(jù).
首先計算樣本分類所需的期望信息量,即熵值.訓練數(shù)據(jù)集360條數(shù)據(jù),實驗報告質(zhì)量優(yōu)的有112條,一般的有248條;
由公式①得:
然后計算每一個關鍵因素的信息增益率:
(1)屬性“格式內(nèi)容”,由訓練集得:格式內(nèi)容 =“優(yōu)”有156條,其中84條實驗報告質(zhì)量優(yōu),72條質(zhì)量一般;
格式內(nèi)容=“一般”有204條,其中28條實驗報告質(zhì)量優(yōu),176條質(zhì)量一般;
由公式②計算其熵值為:
由公式③計算其信息增益為:
Gain(格式內(nèi)容)=I(S1,S2)-E(格式內(nèi)容)=0.13603
由公式④計算分裂信息:
(2)屬性“數(shù)據(jù)處理”,數(shù)據(jù)處理=“優(yōu)”有98條,其中79條實驗報告質(zhì)量優(yōu),19條質(zhì)量一般;數(shù)據(jù)處理=“一般”有262條,其中33條實驗報告質(zhì)量優(yōu),229條質(zhì)量一般;
最終公式⑤計算:
(4)屬性“反饋完善”,反饋完善 =“優(yōu)”有 117條,其中75條實驗報告質(zhì)量優(yōu),42條質(zhì)量一般;反饋完善=“一般”有243條,其中37條實驗報告質(zhì)量優(yōu),206條質(zhì)量一般;
(3)屬性“討論總結”,討論總結=“優(yōu)”有93條,其中85條實驗報告質(zhì)量優(yōu),8條質(zhì)量一般;討論總結=“一般”有267條,其中27條實驗報告質(zhì)量優(yōu),240條質(zhì)量一般.
由上面計算出的每個關鍵因素信息增益率的值,來確定決策樹的根結點,生成決策樹,再對決策樹進行剪枝.剪枝采用自下而上的方式,最后生成一棵實驗報告質(zhì)量決策樹.用括號表示實驗報告質(zhì)量決策樹為:(討論總結(數(shù)據(jù)處理(質(zhì)量優(yōu),反饋完善(質(zhì)量優(yōu),質(zhì)量一般)),數(shù)據(jù)處理(反饋完善(質(zhì)量優(yōu),格式內(nèi)容(質(zhì)量優(yōu),質(zhì)量一般)),反饋完善(格式內(nèi)容(質(zhì)量優(yōu),質(zhì)量一般),質(zhì)量一般)).
IF討論總結=“優(yōu)”AND數(shù)據(jù)處理=“優(yōu)”THEN實驗報告質(zhì)量=“優(yōu)”;IF討論總結=“優(yōu)”AND數(shù)據(jù)處理=“一般”AND反饋完善=“優(yōu)”THEN實驗報告質(zhì)量=“優(yōu)”;IF討論總結=“優(yōu)”AND數(shù)據(jù)處理=“一般”AND反饋完善=“一般”THEN實驗報告質(zhì)量=“一般”;IF討論總結=“一般”AND數(shù)據(jù)處理=“優(yōu)”AND反饋完善=“優(yōu)”THEN實驗報告質(zhì)量=“優(yōu)”;IF討論總結=“一般”AND數(shù)據(jù)處理=“優(yōu)”AND反饋完善=“一般”AND格式內(nèi)容=“優(yōu)”THEN實驗報告質(zhì)量=“優(yōu)”;IF討論總結=“一般”AND數(shù)據(jù)處理=“優(yōu)”AND反饋完善=“一般”AND格式內(nèi)容=“一般”THEN實驗報告質(zhì)量=“一般”;IF 討論總結 =“一般”AND 數(shù)據(jù)處理 =“一般”AND反饋完善=“優(yōu)”AND格式內(nèi)容=“優(yōu)”THEN實驗報告質(zhì)量=“優(yōu)”;IF 討論總結 =“一般”AND 數(shù)據(jù)處理 =“一般”AND 反饋完善=“優(yōu)”AND格式內(nèi)容=“一般”THEN實驗報告質(zhì)量=“一般”;IF 討論總結 =“一般”AND 數(shù)據(jù)處理 =“一般”AND反饋完善=“一般”THEN實驗報告質(zhì)量=“一般”.
由以上規(guī)則可以看出,我校醫(yī)用物理學實驗報告的質(zhì)量主要受到格式內(nèi)容、數(shù)據(jù)處理、討論總結、反饋完善四個因素的影響,其中,影響力由大到小依次是討論總結,數(shù)據(jù)處理,反饋完善和格式內(nèi)容.所以要提高實驗報告的質(zhì)量,可以要求學生把實驗報告分為三個部分書寫:(1)課前部分,上課前學生應該認真預習實驗內(nèi)容,用自己的語言把實驗的目的、原理、步驟等簡明扼要的寫在實驗報告上,杜絕照抄課本,有不明白的地方應在實驗報告上做好標記.(2)課堂部分,學生做實驗的過程中需把實驗得到的原始數(shù)據(jù)記錄在實驗報告上,并完善實驗報告課前部分的內(nèi)容.(3)課后部分,實驗課結束后,學生應處理實驗原始數(shù)據(jù)得到實驗結果,并對實驗結果進行分析討論,討論包括對實驗的理解,實驗中遇到各種問題的解決方法,實驗數(shù)據(jù)的偏差處理,對整個實驗的總結等.教師批改完實驗報告反饋給學生,學生要對實驗報告中的不足和錯誤及時進行完善和修改.
實驗報告的改革是一個循序漸進的過程,運用決策樹C4.5算法對醫(yī)用物理實驗報告進行分析,學生實驗報告寫的多,想的少,缺乏自主性和創(chuàng)造性.實驗報告的重點應該是實驗結果的處理分析和討論總結,只有這樣才能使學生把理論和實踐相互轉(zhuǎn)化,真正起到大學實驗課的作用.
〔1〕呂道文.《醫(yī)學物理實驗》的課程建設與教學改革研究[J].中國醫(yī)學物理學雜志,2009,26(6):1570-1572.
〔2〕袁方.實用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2010.
〔3〕吳信東,庫瑪爾.數(shù)據(jù)挖掘十大算法[M].北京:清華大學出版社,2013.
〔4〕張學文,司佑全.《電子技術》實驗報告存在的問題及對策[J].湖北師范學院學報,2015,35(3):97-101.
〔5〕蔣瑾.寫好實驗報告的思考[J].吉林化工學院學報,2013,30(4):56-58.
G642.423
A
1673-260X(2017)12-0201-02
2017-10-25
校級重大教學改革項目(2016jyxm07)