• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機器學(xué)習(xí)中集成模型的應(yīng)用問題研究

      2023-01-16 06:00:32嘉,劉
      無線互聯(lián)科技 2022年21期
      關(guān)鍵詞:剪枝決策樹準確率

      焦 嘉,劉 婷

      (湖南信息職業(yè)技術(shù)學(xué)院,湖南 長沙 410203)

      0 引言

      機器學(xué)習(xí)的本質(zhì)是學(xué)習(xí)計算機智能,并賦予計算機與人類相同的學(xué)習(xí)能力。利用糖尿病患者數(shù)據(jù)與機器學(xué)習(xí)的結(jié)合[1-2],能夠達到對專業(yè)數(shù)據(jù)進行處理提供定制醫(yī)療咨詢的能力。

      圖1 集成模型總體流程

      1 集成模型定義及流程

      將Logistic回歸得到的結(jié)果按照概率值劃分為3個區(qū)間,分別是[0-0.4][0.4-0.6][0.6-1]。然后根據(jù)概率值區(qū)間將樣本訓(xùn)練集也劃分為3個區(qū)間,求出每個區(qū)間內(nèi)樣本預(yù)測的準確率。將劃分的3個區(qū)間分別使用C4.5決策樹算法進行訓(xùn)練,分別求出其預(yù)測準確率,然后分別比較兩種模型在3個區(qū)間的預(yù)測準確率,選擇準確率較高的作為最終判別標準。

      如圖1所示為集成模型的總體流程,步驟包括原始數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、單因素分析、多因素Logistic回歸分析、樣本數(shù)據(jù)集劃分與處理、決策樹模型的形成、模型的集成比較、最終形成集成模型等。

      2 模型及目標函數(shù)

      2.1 單因素分析

      單因素分析使用SPSS軟件進行,采用的是列鏈表x2檢驗,用于探討各因素與糖尿病的關(guān)系。糖尿病危險因素單因素分析結(jié)果如表1所示。

      2.2 多因素Logistic回歸

      多因素Logistic回歸分析根據(jù)表1中單因素分析的結(jié)果選擇出來的影響因素進行,Logistic回歸分析使用的是sigmoid函數(shù),將線性回歸的結(jié)果變換后輸出到[0-1]區(qū)間,表達式如下:

      (1)

      其中,β和X為向量,Xi(i=1,2,…,7) 分別表示經(jīng)過單因素分析的影響因素,而βi則表示每個Xi所對應(yīng)的參數(shù),也就是所要求解的回歸系數(shù),β0為常數(shù),而最終要求的是βi(i=0,1,2,…,7)值。

      2.3 樣本數(shù)據(jù)集劃分與處理

      將所有樣本按照sigmoid函數(shù)得到的概率進行區(qū)間劃分,其劃分標準如下:

      H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1]

      將樣本數(shù)據(jù)集劃分區(qū)間后,發(fā)現(xiàn)數(shù)據(jù)集H1,H3的數(shù)據(jù)不平衡,為了解決這個問題方便下面的模型構(gòu)建,本文采用的方法是Easy Ensemble:這是集成算法中最簡單的算法之一[3],具體做法是從0類中(樣本多的類)中取出1類等量樣本,并且不重復(fù)地取多次,用于構(gòu)建多個訓(xùn)練集,最終使得0類樣本大部分都參與訓(xùn)練一次。之后,根據(jù)得到的多個模型選擇其中預(yù)測準確率最好的模型作為最終模型。

      2.4 決策樹生成

      決策樹先選擇根節(jié)點屬性,只要有一個可能的屬性值,就產(chǎn)生一個分支。本文以收集到的醫(yī)療數(shù)據(jù)為例,以Y(是否患病)作為輸出變量,輸入變量以Ti(i=1,2,……13)表示,決策樹輸出變量Y的信息熵為:

      (2)

      其中,P(y2)代表不患糖尿病的概率,P(y1)代表患糖尿病的概率。

      2.5 決策樹減枝

      在決策樹生成的過程中,由于數(shù)據(jù)可能存在噪聲和決策樹算法本身存在的問題,也就是常說的過擬合現(xiàn)象。本文采用的是PEP (Pessimistic Error Pruning)(悲觀剪枝)[3]。其剪枝過程如下所示:

      (1)計算剪枝前錯誤率e。

      (2)計算剪之前誤判次數(shù)均值E,其中E=N×e(其中N是樣本總數(shù))。

      (4)計算剪枝后錯誤率e+。

      (5)計算減值后誤判次數(shù)均值E+,其中E+=N×e+。

      (6)判斷剪枝條件,若E-var>E+,則剪枝該子樹;若E-var≤E+,則不剪枝該子樹。

      上述步驟中的錯誤率估計如下所示:

      (3)

      2.6 模型集成

      本文將數(shù)據(jù)集劃分之后結(jié)合Easy Ensemble技術(shù)形成決策樹的訓(xùn)練數(shù)據(jù)集,隨后生成多個決策樹模型,然后分別計算出各個模型決策樹的預(yù)測準確率,在3個分區(qū)H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1] 分別選擇預(yù)測準確率最高的模型作為最終形成的決策樹模型,其預(yù)測準確率分別記為PJi(i=1,2,3)。同時結(jié)合之前生成的Logistic回歸模型在3個分區(qū)H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1]的預(yù)測準確率PLi(i=1,2,3),最終比較并選出分別在3個分區(qū)上的模型。其集成過程如下:

      (1)選擇分區(qū)Hi(i=1,2,3) ,分別計算兩種模型預(yù)測準確率。

      (2)若PLi>PJi(i=1,2,3),在分區(qū)Hi上最終選擇Logistic回歸模型;若PLi≤PJi(i=1,2,3),在分區(qū)Hi上最終選擇決策樹模型。

      (3)重復(fù)步驟1,直到i=3。

      3 實驗結(jié)果與分析

      如圖2所示為3個分區(qū)內(nèi)的兩個模型的預(yù)測準確率,在H2分區(qū)內(nèi),決策樹和Logistic回歸模型的預(yù)測準確率相差明顯,決策樹預(yù)測準確率明顯高于Logistic回歸模型,在H1,H3兩個分區(qū)內(nèi)決策樹和Logistic回歸模型的預(yù)測準確率差別不大,最終在3個分區(qū)內(nèi)分別選擇H1決策樹、H2決策樹、Logistic回歸模型作為最終的集成模型的判別標準。

      由集成模型和實驗數(shù)據(jù)可知,其訓(xùn)練集和測試集的預(yù)測準確率如表2所示。

      表2 集成模型的預(yù)測準確率

      由表2可知,集成模型的預(yù)測準確率在3個模型中最高,其中訓(xùn)練集預(yù)測準確率為91.16%,測試集的預(yù)測準確率為88.28%,所有樣本的預(yù)測準確率為90.34%。由此可知該模型在3個模型中最具有參考意義,對糖尿病的風(fēng)險預(yù)測作用最大。

      4 結(jié)語

      本文立足實際的醫(yī)療數(shù)據(jù),采用機器學(xué)習(xí)技術(shù)中集成模型來建立糖尿病風(fēng)險預(yù)測模型,改進之處如下:

      (1)將機器學(xué)習(xí)的幾種分類算法結(jié)合起來應(yīng)用到糖尿病的風(fēng)險預(yù)測中,采用Logistic回歸算法和決策樹算法構(gòu)建集成模型,結(jié)合了Logistic回歸模型的優(yōu)點與決策樹模型的優(yōu)點,在一定的程度上解決單分類模型預(yù)測結(jié)果不穩(wěn)定的問題。

      圖2 3個分區(qū)內(nèi)兩種模型預(yù)測準確率對比

      (2)使用集成模型進行實驗,通過對醫(yī)療數(shù)據(jù)的處理,最終證明了集成模型擁有較高的分類準確率和穩(wěn)定性,適合于糖尿病的風(fēng)險預(yù)測。

      猜你喜歡
      剪枝決策樹準確率
      人到晚年宜“剪枝”
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      基于YOLOv4-Tiny模型剪枝算法
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      高速公路車牌識別標識站準確率驗證法
      剪枝
      天津詩人(2017年2期)2017-03-16 03:09:39
      基于決策樹的出租車乘客出行目的識別
      金阳县| 通渭县| 汝阳县| 长垣县| 衡东县| 三都| 东港市| 巴里| 获嘉县| 东方市| 无为县| 白河县| 炉霍县| 安达市| 泽普县| 台北县| 荔浦县| 库尔勒市| 正安县| 桑日县| 巴东县| 容城县| 东海县| 肥东县| 蓬溪县| 本溪市| 乌拉特前旗| 津市市| 南宫市| 温泉县| 永清县| 高阳县| 峨山| 开江县| 凤庆县| 卢龙县| 临城县| 新邵县| 吴桥县| 清苑县| 永新县|