• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      決策樹典型算法研究綜述

      2018-05-07 05:45邵晏暉
      電腦知識與技術(shù) 2018年8期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘分類

      邵晏暉

      摘要:決策樹算法是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn),通常用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。該文介紹了決策樹及其發(fā)展過程,重點(diǎn)闡述了三種典型的決策樹算法,分析了它們的優(yōu)缺點(diǎn),并對三種算法進(jìn)行了比較,最后探討了決策樹算法的改進(jìn)方向。

      關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;分類

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)08-0175-03

      1引言

      數(shù)據(jù)挖掘(Data Mining)技術(shù)是一個(gè)非常熱門的、重要的、具有廣闊應(yīng)用前景的研究領(lǐng)域。數(shù)據(jù)挖掘的兩個(gè)目標(biāo)是預(yù)測和描述。分類算法是屬于預(yù)測式數(shù)據(jù)挖掘的一種數(shù)據(jù)分析方法。其中,決策樹算法是目前經(jīng)常被使用的數(shù)據(jù)分類方法之一,已經(jīng)成功應(yīng)用在醫(yī)療、交通、金融等領(lǐng)域。

      決策樹是機(jī)器學(xué)習(xí)中的一個(gè)樹狀預(yù)測模型,其內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的測試,而葉子結(jié)點(diǎn)代表最終的類別結(jié)果。決策樹模型很自然地還原了做決策的過程,將復(fù)雜的決策過程拆分成了一系列簡單的選擇,因而能直觀地解釋決策的整個(gè)過程。

      本文對三種典型的決策樹分類算法進(jìn)行了介紹,分析了不同算法的優(yōu)缺點(diǎn),并討論了決策樹算法今后的改進(jìn)方向。

      2典型決策樹分類算法

      決策樹是一種常用的數(shù)據(jù)挖掘方法,是一個(gè)類似流程圖的樹型結(jié)構(gòu)。決策樹包含三個(gè)元素:根結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)和葉子結(jié)點(diǎn)。若要對未知的數(shù)據(jù)對象進(jìn)行分類,可以按照決策樹的數(shù)據(jù)結(jié)構(gòu)對數(shù)據(jù)集中的屬性(取值)進(jìn)行測試,從決策樹的根結(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑就代表了對相應(yīng)數(shù)據(jù)對象的類別預(yù)測。決策樹是一種分而治之(divide-and-conquer)的決策過程,形成決策樹的決策規(guī)則有許多,如信息增益,信息增益比,基尼指數(shù)等。下面介紹三種典型的決策樹分類算法:ID3算法、C4.5算法和CART算法。

      2.1 ID3算法

      決策樹分類方法的核心算法是由Ross Quinlan在1986年提出的ID3算法。ID3算法的思想是:首先在決策樹的各級結(jié)點(diǎn)上,選擇信息增益最大的屬性作為分類結(jié)點(diǎn),根據(jù)該屬性的不同取值分裂出各個(gè)子結(jié)點(diǎn),隨后采用遞歸的方法建立決策樹的分支,直到樣本集中只含有一種類別時(shí)停止,得到最終的決策樹。

      基尼指數(shù)與熵有類似的性質(zhì)。Gini(D)、Cini(D,A)分別表示集合D的不確定性以及通過A=a分割后集合的不確定性?;嶂笖?shù)值越大,樣本集合的不確定性也就越大。

      CART算法的優(yōu)點(diǎn):1)自動(dòng)處理缺失值,無需進(jìn)行缺失值替換,能夠處理孤立點(diǎn)。2)可使用自動(dòng)的成本復(fù)雜性剪枝來得到歸納性更強(qiáng)的樹。3)變量數(shù)多時(shí),可判斷屬性變量的重要性,自動(dòng)忽略對目標(biāo)變量沒有貢獻(xiàn)的屬性。

      CART算法的缺點(diǎn):1)CART算法本身是一種大樣本的統(tǒng)計(jì)分析方法,樣本量較小時(shí)模型不穩(wěn)定。2)CART算法的要求是被選擇的屬性要是連續(xù)且有序的,并且只能產(chǎn)生兩個(gè)子結(jié)點(diǎn)。

      2.4三種算法的比較

      本文給出了三種典型的決策樹算法,它們在關(guān)鍵技術(shù)上的使用各自不同,表1列出了對此的一個(gè)比較。

      3決策樹算法的改進(jìn)方向

      3.1決策樹算法的分類精度

      分類預(yù)測算法的精度代表了該算法得到的預(yù)測分類結(jié)果和實(shí)際分類結(jié)果之間的接近程度,精度越高,預(yù)測的結(jié)果越接近現(xiàn)實(shí)情況,說明分類算法性能越好。決策樹的分類精度將會一直是今后的研究重點(diǎn)。判斷各種決策樹的生成算法和剪枝算法的優(yōu)劣,精度是最重要的衡量指標(biāo)。決策樹剪枝是為了減小數(shù)據(jù)噪聲對影響,構(gòu)造多變量決策樹是為了減小決策樹的深度,它們的最終目的都是為了提高決策樹的精度。

      3.2決策樹算法與其他技術(shù)的結(jié)合

      在數(shù)據(jù)挖掘中,面臨的數(shù)據(jù)往往是海量的,數(shù)據(jù)挖掘方法的主動(dòng)性和快速性顯得日益重要。只使用單一的決策樹分類算法已經(jīng)很難處理目前日益龐大的數(shù)據(jù)集,完成各種數(shù)據(jù)挖掘任務(wù)。因此需要研究決策樹算法同其他方法交叉結(jié)合的問題。如果把決策樹方法同神經(jīng)網(wǎng)絡(luò)技術(shù)、模糊集理論、遺傳算法等相結(jié)合來進(jìn)行研究,可以不同程度地提高處理效率和精度。

      4結(jié)束語

      決策樹算法雖然已經(jīng)有了廣泛的研究和應(yīng)用,并且廣泛應(yīng)用于各個(gè)領(lǐng)域,如語音識別,模式識別,專家系統(tǒng)等。但是,決策樹算法仍需在適應(yīng)性、容噪性等方面進(jìn)行適當(dāng)?shù)母倪M(jìn)。如何尋找更好的數(shù)據(jù)預(yù)處理方法,如何發(fā)掘更好的優(yōu)化決策樹方法,如何更有效快速地完成決策樹剪枝,如何將決策樹與多種方法交叉結(jié)合等多種問題,都需要今后的學(xué)習(xí)中去研究。

      猜你喜歡
      決策樹數(shù)據(jù)挖掘分類
      分類算一算
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      分類討論求坐標(biāo)
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      數(shù)據(jù)分析中的分類討論
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      基于決策樹的出租車乘客出行目的識別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      全椒县| 南靖县| 灵山县| 凌海市| 彩票| 太和县| 昭平县| 沽源县| 合川市| 洪洞县| 潍坊市| 米林县| 乐东| 迁安市| 大宁县| 沙湾县| 柏乡县| 锡林浩特市| 贵港市| 舟曲县| 马边| 德保县| 新宁县| 永州市| 四会市| 田阳县| 乌兰浩特市| 高邮市| 武乡县| 宕昌县| 白银市| 英吉沙县| 乌恰县| 延长县| 平乡县| 灌阳县| 禄丰县| 东平县| 南郑县| 兰考县| 军事|