• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹的Titanic乘客生存預(yù)測

      2019-07-23 01:11:35苗水清鄭海英白海濤
      山東工業(yè)技術(shù) 2019年20期
      關(guān)鍵詞:決策樹預(yù)測

      苗水清 鄭海英 白海濤

      摘 要:本文以史上泰坦尼克號沉船事件對乘客生存進(jìn)行預(yù)測。以決策樹算法對沉船事件進(jìn)行分析和研究,文中對決策樹進(jìn)行構(gòu)造,數(shù)據(jù)分類測試,結(jié)果表決策樹預(yù)測模型對應(yīng)用到事故分析中具有一定的可行性和有效性。

      關(guān)鍵詞:決策樹;預(yù)測;數(shù)據(jù)分類

      DOI:10.16640/j.cnki.37-1222/t.2019.20.175

      0 引言

      泰坦尼克號的沉沒是歷史上最臭名昭著的沉船事件之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞,2224名乘客和船員中有1502人喪生。這場轟動性的悲劇震驚了國際社會,并導(dǎo)致了更好的船舶安全法規(guī)。

      這次海難造成人員傷亡的原因之一是沒有足夠的救生艇供乘客和船員使用。雖然在沉船中幸存下來有一些運(yùn)氣因素,但有些人比其他人更可能存活下來,如婦女、兒童和上層階級。在這個挑戰(zhàn)中,本文通過機(jī)器學(xué)習(xí)工具來預(yù)測哪些乘客在悲劇中幸存下來。

      1 構(gòu)造決策樹進(jìn)行預(yù)測

      1.1 決策樹

      決策樹方法屬于統(tǒng)計學(xué)中分類的一種,該方法中經(jīng)典算法有ID3、C4.5、CART等[1-2]。決策樹算法是一種從一組無次序,無規(guī)則的案例中推理得出的規(guī)則。決策樹的構(gòu)造過程實(shí)質(zhì)是分類的過程[3]。決策樹分析法是一種運(yùn)用概率與圖論中的樹對決策中的不同方案進(jìn)行比較,從而獲得最優(yōu)方案的風(fēng)險型決策方法。

      決策樹采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)某一規(guī)則進(jìn)行分裂,每一個節(jié)點(diǎn)的父節(jié)點(diǎn)和子節(jié)點(diǎn)相對分裂,直至不能分裂為止,利用每一個非葉子節(jié)點(diǎn)作為判斷節(jié)點(diǎn),則在決策樹的葉節(jié)點(diǎn)中得到結(jié)論。

      1.2 決策樹在乘客生存預(yù)測中的應(yīng)用

      (1)泰坦尼克號沉船問題,涉及到乘客存活與否的問題,每一位乘客只有兩種結(jié)果,這是一個二元分類的問題,過對訓(xùn)練數(shù)據(jù)的研究得出對分類比較關(guān)鍵的因素有{'Pclass','Sex','Age','SibSp','Parch,Embarked,Survived}。

      (2)在(1)中描述的因素中除了年齡取值多樣之外,其他因素均有一定的劃分范圍標(biāo)簽,因此對年齡也采用了少年,中年,成年分別表示為0,1,2,3,4,5進(jìn)行了分類,最后采用決策樹方法進(jìn)行了分類。

      決策樹計算主要包含了數(shù)據(jù)的加載,清洗,信息熵的計算,樹的創(chuàng)建、遍歷,模型存儲、加載等。構(gòu)造決策樹主要過程是:

      Step1:確定分類屬性,篩選必要屬性作為分類關(guān)鍵信息,并對一些取值較多的屬性進(jìn)行包箱處理,例如乘客的年齡,可以把不同乘客的年齡處理成,幼兒,青年,成年,老人四個類別;

      Step2:計算各個分類標(biāo)簽的信息增益,信息增益越大,表明該標(biāo)簽的分類效果越好;

      計算公式為:

      其中Gain表示節(jié)點(diǎn)的復(fù)雜度,Gain越高,說明復(fù)雜度越高,分類的效果越明顯。

      Step3:對于Step2中分類結(jié)果進(jìn)一步判斷分類結(jié)果是否為同一種。如果不是,則返回Step2,否則進(jìn)入Step4;

      Step4:設(shè)置該節(jié)點(diǎn)為葉子節(jié)點(diǎn),也即分類最終結(jié)果標(biāo)簽。求熵。熵是對集合信息的度量,熵越大,混亂程度越高,也就是純度越低。計算公式:

      其中Pi表示類i的數(shù)量占比。以二分類問題為例,如果兩類的數(shù)量相同,此時分類節(jié)點(diǎn)的純度最低,熵等于1;如果節(jié)點(diǎn)的數(shù)據(jù)屬于同一類時,此時節(jié)點(diǎn)的純度最高,熵等于0。

      Step4:分割數(shù)據(jù)集,將當(dāng)前已分類的特征整列數(shù)據(jù)去掉,選取數(shù)據(jù)集用于劃分?jǐn)?shù)據(jù)集的最優(yōu)特征。

      本文采用python編程,生成的乘客生存決策樹如圖1所示:

      1.3 實(shí)驗(yàn)結(jié)果

      樣本總數(shù)為1309個,其中訓(xùn)練樣本數(shù)為891個,用418個樣做測試,結(jié)果表明:

      (1)能夠正確分類的個數(shù)比重0.8975903614457831,未能分類個數(shù)為34個。

      (2)用訓(xùn)練集測試樣本,結(jié)果為100%。

      從實(shí)驗(yàn)結(jié)果中能夠發(fā)現(xiàn)在輸入訓(xùn)練集進(jìn)行測試的時候,決策樹能夠?qū)⒂?xùn)練集中所有情況包含,也即能夠?qū)τ?xùn)練集樣本做出正確分類,對于測試集樣本,由于有些測試樣本不在訓(xùn)練集范圍內(nèi),可通過提高訓(xùn)練集的完整度,進(jìn)一步提高其測試精度。

      問題分析:

      (1)熵用來描述樣本的不確定度的大小,值越大不確定度越大,而信息熵增益是指整體信息熵和某個特征條件確定的情況下信息熵的差值,差值越大表明通過該特征進(jìn)行區(qū)分樣本會越明顯,因此決策樹按照信息熵增益的大小進(jìn)行了決策樹構(gòu)造,當(dāng)然這種算法有一定的趨向性,也即,總是以特征內(nèi)類別取值多的屬性作為樹節(jié)點(diǎn),這樣構(gòu)造的樹隨機(jī)性不夠。

      (2)決策樹測試中有些樣本不能分類,主要是因?yàn)闆Q策樹訓(xùn)練樣本中并未涵蓋測試集中的所有情況,因此測試集中有的樣本通過決策樹后未能得到分類標(biāo)簽值,此時需要默認(rèn)給個標(biāo)簽或者舍棄該樣本,出現(xiàn)了過擬合現(xiàn)象,后期需進(jìn)行必要的決策樹剪枝。

      2 總結(jié)

      測試的結(jié)果由于是通過遍歷樹來確定的,因此一方面其精度受決策樹的完整度(包含情況的全面性影響,另一方面也需要進(jìn)行比較的裁剪來處理其過擬合問題,進(jìn)一步提高其隨機(jī)性。此外,雖然本文采用ID3算法構(gòu)造決策樹時是優(yōu)先選擇了屬性取值較多的特征作為樹節(jié)點(diǎn)的,但是這樣構(gòu)造的樹深度淺,對于復(fù)雜切特征量大的模型,相比于其他深度大的樹來說其查詢速度是一個優(yōu)勢。當(dāng)然為了避免ID3算法這種趨向性,增加決策樹的隨機(jī)性可以采用信息增益比即C4.5算法,和CART基尼系數(shù)進(jìn)行研究。

      參考文獻(xiàn):

      [1]Karagiannis T,Papagiannaki K,F(xiàn)aloutsos M.BLINC: Multilevel traffic classification in the dark[C].Proc of the ACM SIG-COMM,2005.

      [2]Erman J,Arlitt M,Mahanti A.Traffic classification using clustering algorithms[C].Proc of the ACM SIGCOMM Workshop on Mining Network Data( MineNet) ,2006.

      [3]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007:12.

      項(xiàng)目編號:18JK1217? ?課題名稱:基于云計算的室內(nèi)定位算法應(yīng)用研究

      作者簡介:苗水清(1988-),女,內(nèi)蒙古人,碩士研究生,講師,研究方向:圖像處理、機(jī)器學(xué)習(xí)。

      猜你喜歡
      決策樹預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      選修2—2期中考試預(yù)測卷(A卷)
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      不可預(yù)測
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進(jìn)決策樹的故障診斷方法研究
      不必預(yù)測未來,只需把握現(xiàn)在
      基于決策樹的出租車乘客出行目的識別
      黄平县| 绵竹市| 泰州市| 肥乡县| 镇原县| 奉新县| 钟山县| 海南省| 宿州市| 罗平县| 鹿泉市| 泰安市| 宜君县| 新巴尔虎右旗| 和平县| 陵水| 青铜峡市| 蚌埠市| 资源县| 温宿县| 晋城| 广平县| 新邵县| 綦江县| 从化市| 集安市| 和林格尔县| 磐石市| 正镶白旗| 报价| 尼勒克县| 奇台县| 宁强县| 安岳县| 金乡县| 蚌埠市| 泗水县| 乐昌市| 阜宁县| 宝坻区| 六枝特区|