• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于ID3的計(jì)算機(jī)等級(jí)考試成績(jī)分析方法

      2013-06-07 07:32:48司馬宇
      關(guān)鍵詞:決策樹(shù)增益題型

      曾 旭,司馬宇

      (1.遵義醫(yī)學(xué)院 醫(yī)學(xué)信息工程系,貴州 遵義 563003;2.遵義醫(yī)學(xué)院 網(wǎng)絡(luò)技術(shù)中心,貴州 遵義 563003)

      計(jì)算機(jī)等級(jí)考試是經(jīng)國(guó)家教育部批準(zhǔn),由教育部考試中心主辦,面向社會(huì),用于考察應(yīng)試人員計(jì)算機(jī)應(yīng)用知識(shí)與技能的計(jì)算機(jī)水平考試體系。該考試是根據(jù)不同部門(mén)應(yīng)用計(jì)算機(jī)的需要、國(guó)內(nèi)計(jì)算機(jī)技術(shù)的發(fā)展?fàn)顩r以及中國(guó)計(jì)算機(jī)教育、教學(xué)和普及的現(xiàn)狀確定的;它以應(yīng)用能力為主,劃分等級(jí),分別考核,為專業(yè)人員擇業(yè)、人才流動(dòng)提供其計(jì)算機(jī)應(yīng)用知識(shí)與能力水平的證明。

      自醫(yī)療信息化建設(shè)提出以來(lái),醫(yī)療衛(wèi)生領(lǐng)域傳統(tǒng)的紙質(zhì)存檔辦公方式已經(jīng)成為阻礙該行業(yè)發(fā)展的重要因素之一。為了加快醫(yī)療信息化建設(shè)的步伐,醫(yī)學(xué)院校培養(yǎng)擁有辦公自動(dòng)化操作能力的醫(yī)務(wù)人員已成為不可忽視的大學(xué)本科培養(yǎng)目標(biāo),因此在遵義醫(yī)學(xué)院的本科課程設(shè)置中專門(mén)強(qiáng)調(diào)了計(jì)算機(jī)等級(jí)考試的教學(xué)與考核。為了讓學(xué)生有的放矢地學(xué)習(xí)和考核,遵義醫(yī)學(xué)院醫(yī)學(xué)信息工程系收集了相關(guān)的考核數(shù)據(jù)并利用數(shù)據(jù)挖掘技術(shù)作出了分析,分析結(jié)果為后期教學(xué)工作的開(kāi)展起到了很好的指導(dǎo)作用。

      1 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘[1]是從大量數(shù)據(jù)中發(fā)現(xiàn)有趣模式,其中數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中。數(shù)據(jù)挖掘的類(lèi)型包括分類(lèi)規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、預(yù)測(cè)分析、總結(jié)規(guī)則挖掘、聚類(lèi)規(guī)則挖掘、偏差分析和趨勢(shì)分析等。其中分類(lèi)算法作為數(shù)據(jù)挖掘中獲取和提取知識(shí)的重要方法,在數(shù)據(jù)挖掘中起著重要作用。其中決策樹(shù)算法以其直觀性強(qiáng)、數(shù)據(jù)分析效率高等優(yōu)點(diǎn)而倍受關(guān)注。

      1.1 決策樹(shù)概念

      決策樹(shù)由葉子結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)以及分叉構(gòu)成。樹(shù)的分叉表示檢驗(yàn)的結(jié)果,樹(shù)的內(nèi)部結(jié)點(diǎn)表示某種檢驗(yàn)屬性,分類(lèi)則用葉子結(jié)點(diǎn)表示[2]。

      決策樹(shù)的學(xué)習(xí)算法本質(zhì)是貪心算法。決策樹(shù)的構(gòu)建過(guò)程是由上到下、分而治之。從根結(jié)點(diǎn)開(kāi)始,對(duì)給定的數(shù)據(jù)樣本進(jìn)行測(cè)試,根據(jù)測(cè)試所得結(jié)果將數(shù)據(jù)樣本劃分成若干子樣本集,每個(gè)子樣本集合構(gòu)成新子結(jié)點(diǎn)。迭代該建樹(shù)過(guò)程,直到滿足給定的終止條件。一個(gè)構(gòu)建好的決策樹(shù),從根節(jié)點(diǎn)開(kāi)始到葉子結(jié)點(diǎn),每個(gè)分支對(duì)應(yīng)一條規(guī)則。

      1.2 決策樹(shù)算法

      20世紀(jì)70年代,機(jī)器學(xué)習(xí)研究者J.Ross Quinlan開(kāi)發(fā)了決策樹(shù)算法,稱作ID3[4-6]。Quinlan后來(lái)提出了C4.5,成為新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年幾位統(tǒng)計(jì)學(xué)家出版了分類(lèi)與回歸樹(shù)(CART)。以上兩類(lèi)基礎(chǔ)算法促進(jìn)了決策樹(shù)歸納的研究。

      本文的數(shù)據(jù)分析算法采用ID3,其算法描述如下:

      輸入:樣本samples;候選屬性的集合attribute_list.

      輸出:判定樹(shù).

      2 ID3對(duì)評(píng)分結(jié)果的分析

      將ID3決策樹(shù)規(guī)則的挖掘算法應(yīng)用于遵義醫(yī)學(xué)院計(jì)算機(jī)等級(jí)考試模擬評(píng)分系統(tǒng)中,根據(jù)現(xiàn)有的考試成績(jī)可獲得決策樹(shù)規(guī)則?,F(xiàn)以2010級(jí)臨床專業(yè)某班級(jí)40名學(xué)生的考試成績(jī)?yōu)槔捎脹Q策樹(shù)規(guī)則對(duì)Typing、Word、Windows、Choice、Excel和Internet 6種題型間的決策樹(shù)規(guī)則進(jìn)行挖掘??荚嚁?shù)據(jù)共包含40條記錄,原表的基本結(jié)構(gòu)和表中的部分?jǐn)?shù)據(jù)如表1所示。

      表1 原始數(shù)據(jù)

      2.1 數(shù)據(jù)預(yù)處理

      為了更好地進(jìn)行決策樹(shù)挖掘,需對(duì)給定成績(jī)進(jìn)行預(yù)處理[7-10],預(yù)處理過(guò)程是:將得分率低于0.6的題預(yù)處理為未達(dá)標(biāo),否則預(yù)處理為達(dá)標(biāo),預(yù)處理結(jié)果見(jiàn)表2。具體處理方法如下:

      Choice題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于12分),“達(dá)標(biāo)”(12-20分)。

      Windows題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于6分),“達(dá)標(biāo)”(6-10分)。

      Typing題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于9分),“達(dá)標(biāo)”(9-15分)。

      Word題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于15分),“達(dá)標(biāo)”(15-25分)。

      Excel題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于12分),“達(dá)標(biāo)”(12-20分)。

      Internet題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于6分),“達(dá)標(biāo)”(6-10分)。

      表2 預(yù)處理后數(shù)據(jù)

      2.2 構(gòu)造決策樹(shù)

      根據(jù)ID3算法原理,按照2010級(jí)臨床專業(yè)學(xué)生是否通過(guò)考試來(lái)構(gòu)造決策樹(shù)模型,采用以下幾個(gè)步驟。

      步驟1:計(jì)算2010級(jí)臨床專業(yè)成績(jī)樣本分類(lèi)所需的期望信息

      將樣本分成兩類(lèi):設(shè)C1是考試通過(guò)的類(lèi),C2是考試未通過(guò)的類(lèi),則S1=22,S2=18,總計(jì)S=40。

      計(jì)算給定成績(jī)樣本分類(lèi)所需的期望信息:

      步驟2:計(jì)算每個(gè)考試題型的信息增益

      (1)計(jì)算“Choice”題型的信息增益

      對(duì)于“Choice題”=“達(dá)標(biāo)”的情況

      對(duì)于“Choice題”=“未達(dá)標(biāo)”的情況

      計(jì)算出按“Choice題”劃分給定樣本所需的期望信息為:

      這種劃分的信息增益是:

      (2)計(jì)算“Windows題”題型的信息增益

      對(duì)于“Windows題”=“達(dá)標(biāo)”的情況

      對(duì)于“Windows題”=“未達(dá)標(biāo)”的情況

      計(jì)算出按“Windows題”劃分給定樣本所需的期望信息為:

      這種劃分的信息增益是:

      (3)計(jì)算“Typing題”題型的信息增益

      對(duì)于“Typing題”=“達(dá)標(biāo)”的情況

      對(duì)于“Typing題”=“未達(dá)標(biāo)”的情況

      計(jì)算出按“Typing題”劃分給定樣本所需的期望信息為:

      這種劃分的信息增益是:

      (4)計(jì)算“Word題”題型的信息增益

      對(duì)于“Word題”=“達(dá)標(biāo)”的情況

      對(duì)于“Word題”=“未達(dá)標(biāo)”的情況

      計(jì)算出按“Word題”劃分給定樣本所需的期望信息為:

      這種劃分的信息增益是:

      (5)計(jì)算“Excel題”題型的信息增益

      對(duì)于“Excel題”=“達(dá)標(biāo)”的情況

      對(duì)于“Excel題”=“未達(dá)標(biāo)”的情況

      計(jì)算出按“Excel題”劃分給定樣本所需的期望信息為:

      這種劃分的信息增益是:

      (6)計(jì)算“Internet題”題型的信息增益

      對(duì)于“Internet題”=“達(dá)標(biāo)”的情況

      對(duì)于“Internet題”=“未達(dá)標(biāo)”的情況

      計(jì)算出按“Internet題”劃分給定樣本所需的期望信息為:

      這種劃分的信息增益是:

      步驟3:確定測(cè)試題型

      由于“Excel題”的信息增益最高,它被選為測(cè)試題型,用于建立第一個(gè)結(jié)點(diǎn),并將樣本分成兩個(gè)部分,然后對(duì)每一棵子樹(shù)按照上述方法遞歸計(jì)算,最后生成的決策樹(shù)如圖1所示。

      2.3 提取決策樹(shù)分類(lèi)規(guī)則

      在本例中可提取出以下分類(lèi)規(guī)則:

      (1)If “Excel題”=“達(dá)標(biāo)” then “通過(guò)”

      (2)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” then “未通過(guò)”

      圖1 生成決策樹(shù)

      (3)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” then “未通過(guò)”

      (4)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”then “未通過(guò)”

      (5)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)”then “未通過(guò)”

      (6)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)” and “Internet題”=“未達(dá)標(biāo)”then “未通過(guò)”

      (7)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)” and “Internet題”=“達(dá)標(biāo)”then “通過(guò)”

      3 結(jié)束語(yǔ)

      由提取的決策樹(shù)規(guī)則,可得出以下幾個(gè)結(jié)論:

      (1)“Excel題”考試“達(dá)標(biāo)”的同學(xué)熟練掌握了計(jì)算機(jī)操作的相關(guān)題型,能夠在考試過(guò)程中獲得高分并順利通過(guò)考試。

      (2)“Excel題”考試“未達(dá)標(biāo)”的同學(xué),必須在其他5類(lèi)題型中獲得高分,方可通過(guò)考試。

      對(duì)2010級(jí)臨床專業(yè)考生在計(jì)算機(jī)等級(jí)考試中6種題型的得分情況進(jìn)行決策樹(shù)挖掘,所得結(jié)論能夠幫助學(xué)生發(fā)現(xiàn)“Excel題”為關(guān)鍵性題型,便于學(xué)生在學(xué)習(xí)過(guò)程中把握考試的重點(diǎn)。與此同時(shí),教師也需在教學(xué)過(guò)程中突出“Excel題”的講解,幫助學(xué)生把握考試的關(guān)鍵題型并提升過(guò)級(jí)率。此結(jié)論對(duì)考生和教師來(lái)說(shuō)均具有較強(qiáng)的指導(dǎo)性。

      [1]K P Soman, Shyam Diwadar,V Ajay.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003.1-3.

      [2]向文燕.ID3算法在英語(yǔ)成績(jī)分析中的應(yīng)用研究[J].柳州職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011,11(2):31-34.

      [3]Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.192.

      [4]王永梅,胡學(xué)鋼.決策樹(shù)中ID3算法的研究[J].安徽大學(xué)學(xué)報(bào),2011,35(3):71-75.

      [5]陳偉,程黃金.ID3算法構(gòu)造學(xué)生專升本考生以成績(jī)分析決策樹(shù)[J].電腦知識(shí)與技術(shù),2009,5(3):744-746.

      [6]吳陳,林炎鐘.C4.5算法在高校教師評(píng)價(jià)中的應(yīng)用研究[J].信息技術(shù),2011,(1):133-136.

      [7]鄺濤.基于決策樹(shù)技術(shù)在高校成績(jī)分析中的應(yīng)用研究[J].新鄉(xiāng)學(xué)院學(xué)報(bào),2011,28(1):49-51.

      [8]何小明.基于OLAP與數(shù)據(jù)挖掘的高考招生數(shù)據(jù)分析[J].計(jì)算機(jī)科學(xué),2012,39(6):175-178.

      [9]劉美玲.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1130-1133.

      [10]王丹.數(shù)據(jù)挖掘技術(shù)在高職院校教學(xué)管理中的應(yīng)用[J].廣東技術(shù)師范學(xué)院學(xué)報(bào),2010, (3):58-60.

      猜你喜歡
      決策樹(shù)增益題型
      離散型隨機(jī)變量??碱}型及解法
      巧妙構(gòu)造函數(shù) 破解三類(lèi)題型
      基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
      基于單片機(jī)的程控增益放大器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:36
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      基于Multisim10和AD603的程控增益放大器仿真研究
      電子制作(2018年19期)2018-11-14 02:37:02
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      一次函數(shù)中的常見(jiàn)題型
      隨機(jī)抽樣題型“曬一曬”
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      沁水县| 吕梁市| 年辖:市辖区| 岗巴县| 湟源县| 三亚市| 新沂市| 东乌| 独山县| 黄骅市| 榆中县| 保德县| 兰西县| 桐庐县| 南昌市| 泰州市| 永平县| 南丹县| 祁阳县| 崇阳县| 井研县| 文昌市| 广西| 辛集市| 安徽省| 新建县| 平谷区| 澳门| 榆林市| 昌乐县| 左权县| 上思县| 庆城县| 洪江市| 泽普县| 奉新县| 博罗县| 沙洋县| 丰原市| 舒兰市| 吉林市|