• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      決策樹算法研究

      2018-01-24 11:38喬麟婷
      課程教育研究 2018年48期
      關(guān)鍵詞:決策樹分類

      喬麟婷

      【摘要】決策樹作為一種解決分類問題的模型,由于算法簡單易解釋,而受到了普遍的應(yīng)用。本文研究了如何使用決策樹進(jìn)行分類,分別介紹了模型訓(xùn)練、模型評估和預(yù)測過程。針對模型訓(xùn)練,詳細(xì)闡述了決策樹算法原理,運(yùn)用信息增益進(jìn)行屬性選擇,并明確了決策樹停止條件。最后,通過一個簡單的例子將決策樹算法應(yīng)用到實際問題中。

      【關(guān)鍵詞】分類 決策樹 信息增益

      【中圖分類號】G63 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2018)48-0224-02

      1.引言

      隨著現(xiàn)代生活的進(jìn)步與發(fā)展,機(jī)器學(xué)習(xí)逐漸進(jìn)入大眾視野。機(jī)器學(xué)習(xí)實際上是以數(shù)據(jù)為驅(qū)動,從海量數(shù)據(jù)中提取整合出有價值的信息,用機(jī)器代替人工來解決問題的一個學(xué)科。機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。分類問題是監(jiān)督學(xué)習(xí)的一個重要組成部分。它是指人們基于生活中所遇到的、需要將大數(shù)據(jù)進(jìn)行分析并作出篩選與劃分的問題。如生活中的垃圾分類就是一個典型的分類問題,將垃圾進(jìn)行細(xì)致分類而運(yùn)送到不同的地方進(jìn)行處理,已知部分垃圾其物理性質(zhì)、化學(xué)成分、利用價值,并且知道其對應(yīng)的類別標(biāo)簽,即訓(xùn)練集,我們需要對未知的垃圾來根據(jù)它的屬性判定其所屬類別。

      在生活中較為常見的解決分類問題的模型有決策樹、logistic回歸、SVM等,它們的出現(xiàn)可以更加便捷地解決分類問題。其中決策樹以其清晰的圖示,較為簡便的運(yùn)算法則,快速地對數(shù)據(jù)進(jìn)行了全面分析,作出了較為準(zhǔn)確的分類,而在如今普遍得到使用[1]。

      2.決策樹算法原理

      2.1決策樹算法的簡單流程

      作為一種常見的解決分類問題的模型,決策樹的形狀類似于一個樹,包含根節(jié)點、中間節(jié)點和葉子節(jié)點。葉子節(jié)點對應(yīng)著類別標(biāo)簽,不同節(jié)點是根據(jù)不同的分類屬性進(jìn)行分裂。當(dāng)我們使用該模型時,需要將數(shù)據(jù)從其根節(jié)點放入,數(shù)據(jù)會依次經(jīng)過中間節(jié)點進(jìn)行連續(xù)劃分,最終進(jìn)入葉節(jié)點,其代表了最終的所屬類別。每一條從根節(jié)點到葉節(jié)點的分支都代表了對樣本數(shù)據(jù)進(jìn)行的劃分運(yùn)算得到的不同類別。例如上文所提到的對用戶信用度的測試,我們事先會收集用戶的信息,如,貸款經(jīng)歷、開戶時間、存款金額等等作為信息數(shù)據(jù);然后將用戶的所有信息數(shù)據(jù)放入根節(jié)點,依次往下過渡到中間節(jié)點,在每個節(jié)點對信息數(shù)據(jù)進(jìn)行運(yùn)算后,會在葉節(jié)點得到最終的分類結(jié)果。

      2.2決策樹的停止與選擇劃分

      決策樹實際上是一種遞歸的算法[2],這些分支會不斷地生長。決策樹停止分支的生長主要受以下兩點的制約:一是屬性已經(jīng)全部計算完畢,沒有其他數(shù)據(jù)形成分支了;二是訓(xùn)練的數(shù)據(jù)已經(jīng)是屬于同一類別,不用再進(jìn)行劃分了。

      信息增益越大,那么純度的提升就越大,屬性的選擇也就更加簡潔與準(zhǔn)確。因此,我們就可以通過信息增益為準(zhǔn)則來劃分屬性,以此達(dá)到用決策樹來解決分類問題的目的。

      3.決策樹應(yīng)用案例

      下面我們就舉一個實際的例子來說明決策樹算法流程[3-4]。我們以銀行對客戶進(jìn)行的能否貸款的測試為例,表2是客戶數(shù)據(jù)集,包含了7個樣本,四個屬性。

      經(jīng)過對比,收入,存款,違約三者均取得了最大的信息增益,以選擇收入作為劃分屬性為例,這樣就可以得到三個分支。要進(jìn)行進(jìn)一步的劃分,分別對得到的三個分支,將其看成根節(jié)點,以此類推最終可以得到?jīng)Q策樹。

      4.總結(jié)

      決策樹算法是基于規(guī)則的分類算法,算法簡單、可解釋性強(qiáng),能夠直接從數(shù)據(jù)中進(jìn)行歸納,根據(jù)數(shù)據(jù)特征提取分類的有效信息。決策樹算法得到的分類樹便于人們理解,并且它能夠較為準(zhǔn)確地對分類問題作出判斷,劃分出最終結(jié)果。因此,它在實際生活中得到了非常廣泛和普遍的應(yīng)用。隨著時代的發(fā)展,決策樹算法還在不斷地優(yōu)化與更新,以便于更加準(zhǔn)確地解決分類問題。

      參考文獻(xiàn):

      [1]何迪.面向大數(shù)據(jù)分析的決策樹算法[J].信息系統(tǒng)工程, 2017(7):161.

      [2]胡金濤.基于C4.5決策樹的學(xué)生成績預(yù)測教學(xué)系統(tǒng)的研究與實現(xiàn)[D]. 西南交通大學(xué), 2017.

      [3]楊靜, 張楠男, 李建,等. 決策樹算法的研究與應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展, 2010(2):114-116.

      [4]張宇,張之明.一種基于C5.0決策樹的客戶流失預(yù)測模型研究[J].統(tǒng)計與信息論壇, 2015(1):89-94.

      猜你喜歡
      決策樹分類
      分類算一算
      垃圾分類的困惑你有嗎
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      分類討論求坐標(biāo)
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      數(shù)據(jù)分析中的分類討論
      基于改進(jìn)決策樹的故障診斷方法研究
      基于決策樹的出租車乘客出行目的識別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      怀远县| 马尔康县| 石家庄市| 乌兰浩特市| 房产| 新平| 嘉兴市| 白沙| 泸州市| 高陵县| 澄江县| 梅州市| 浑源县| 莆田市| 醴陵市| 崇州市| 罗平县| 娄底市| 阿巴嘎旗| 清原| 长阳| 涞水县| 九江县| 木兰县| 冷水江市| 新晃| 香港| 潜江市| 仙桃市| 元江| 阿尔山市| 房山区| 安康市| 阿勒泰市| 驻马店市| 彰武县| 碌曲县| 霍林郭勒市| 青岛市| 新兴县| 星座|