• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      集成學(xué)習(xí)算法在疾病預(yù)測中的應(yīng)用研究

      2020-07-18 11:28:51丁偉民
      科學(xué)大眾 2020年5期
      關(guān)鍵詞:集成學(xué)習(xí)隨機森林堆棧

      摘 要:文章分析了3種集成學(xué)習(xí)框架,在3個疾病數(shù)據(jù)集上對3種典型的集成學(xué)習(xí)算法進行比較,結(jié)果表明:基于Stacking的集成算法在疾病預(yù)測方面表現(xiàn)良好。

      關(guān)鍵詞:集成學(xué)習(xí);隨機森林;堆棧

      近年來,眾多學(xué)者將集成學(xué)習(xí)應(yīng)用到醫(yī)療診斷中,以提高疾病預(yù)測的準(zhǔn)確率,如苗豐順等[1]提出了一種新型的Boosting算法,預(yù)測糖尿病患者。王榮政等[2]應(yīng)用集成學(xué)習(xí),識別血糖異常個體。本文應(yīng)用3種不同的集成學(xué)習(xí)算法,對3種疾病機型進行分類預(yù)測,以比較3種算法在疾病預(yù)測方面的性能。

      1 ? ?3種集成學(xué)習(xí)框架

      集成學(xué)習(xí)的主要方法有提升(Boosting)、裝袋(Bagging)和堆棧(Stacking)。Boosting是一類能夠?qū)⑷鯇W(xué)習(xí)器轉(zhuǎn)化為強學(xué)習(xí)器的算法,它在訓(xùn)練當(dāng)前學(xué)習(xí)器之前通過給予被先前學(xué)習(xí)器錯誤標(biāo)記的樣本更高的權(quán)值,讓當(dāng)前學(xué)習(xí)器在先前學(xué)習(xí)器的錯誤樣本上有更好的表現(xiàn)。Bagging隨機抽?。ㄓ蟹呕兀?shù)據(jù)集里的樣本M次,訓(xùn)練得到M個學(xué)習(xí)器,然后用投票的方法集成。Stacking通常是一個兩層結(jié)構(gòu),選擇訓(xùn)練多個不同類型的基礎(chǔ)分類器來生成元級數(shù)據(jù),然后應(yīng)用元級數(shù)據(jù)訓(xùn)練形成元分類器。近年來,學(xué)者發(fā)現(xiàn)Stacking在集成學(xué)習(xí)方面表現(xiàn)了良好的性能。

      2 ? ?數(shù)據(jù)集合評價準(zhǔn)則

      實驗在3個公共數(shù)據(jù)集上進行,包括:肝臟疾病數(shù)據(jù)集(Hepatitis)、皮膚疾病數(shù)據(jù)集(Dermatology)和乳腺癌數(shù)據(jù)集(Breast-w),如表1所示。

      實驗采用查全率、查準(zhǔn)率和F1值3種方法衡量集成算法的性能。查準(zhǔn)率表示為判定為陽性的實例中實際陽性實例的比例,查全率表示分類器正確預(yù)測的陽性實例的比率,F(xiàn)1值表示查全率和查準(zhǔn)率的調(diào)和均值。

      3 ? ?實驗與分析

      實驗基于WEKA平臺進行,選擇集成算法AdaBoostM1和Bagging,并構(gòu)建Stacking-RF(Randomforest作為元分類器,NaiveBasye,SimpleLogistic和J48作為個體分類器)。

      數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查準(zhǔn)率分別為0.831,0.781和0.842。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查準(zhǔn)率分別為0.276,0.926和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查準(zhǔn)率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.839,0.806和0.852。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.503,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.833,0.785和0.845。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.350,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.953,0.956和0.961。

      數(shù)據(jù)集Hepatitis,Stacking-RF在查全率上優(yōu)于AdaBoostM1 1.5%,優(yōu)于Bagging 5.7%。在查準(zhǔn)率上,優(yōu)于AdaBoostM1 1.3%,優(yōu)于Bagging 7.8%。在F1值上優(yōu)于AdaBoostM1 1.4%,優(yōu)于Bagging 7.6%。同樣,在Dermatology和Breast-w兩個數(shù)據(jù)集上,Stacking-RF均優(yōu)于另外兩種集成算法。因此,從實驗效果上,可以看出Stacking集成算法在疾病預(yù)測方面展示了良好的性能。

      4 ? ?結(jié)語

      首先,本文分析分析了3種集成學(xué)習(xí)框架;其次,在3個疾病數(shù)據(jù)集上對3種典型的集成學(xué)習(xí)算法進行了比較,結(jié)果表明,基于Stacking的集成算法在疾病預(yù)測方面表現(xiàn)良好。

      [參考文獻]

      [1]苗豐順,李巖,高岑,等.基于CatBoost算法的糖尿病預(yù)測方法[J].計算機系統(tǒng)應(yīng)用,2019(9):215-218.

      [2]王榮政,廖賢藝,陳湘萍,等.基于集成學(xué)習(xí)融合模型的血糖預(yù)測[J].醫(yī)學(xué)信息學(xué)雜志,2019(1):63-66,88.

      作者簡介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計算機應(yīng)用技術(shù)。

      猜你喜歡
      集成學(xué)習(xí)隨機森林堆棧
      嵌入式軟件堆棧溢出的動態(tài)檢測方案設(shè)計*
      基于堆棧自編碼降維的武器裝備體系效能預(yù)測
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      基于屬性權(quán)重的Bagging回歸算法研究
      隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于改進的LogitBoost算法的垃圾網(wǎng)頁檢測研究
      科技視界(2015年27期)2015-10-08 11:01:28
      一種用于分析MCS-51目標(biāo)碼堆棧深度的方法
      辉南县| 德昌县| 山阳县| 石嘴山市| 峨边| 惠安县| 陕西省| 六盘水市| 重庆市| 治县。| 光山县| 新兴县| 焦作市| 含山县| 蒲城县| 怀远县| 宾川县| 巴林左旗| 西峡县| 蚌埠市| 辽阳市| 利辛县| 清水河县| 沙洋县| 尉犁县| 芦山县| 禄劝| 南部县| 资中县| 松潘县| 青岛市| 依兰县| 阿勒泰市| 中宁县| 宜春市| 蓬莱市| 葫芦岛市| 德阳市| 元朗区| 宁乡县| 仪征市|