• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Stacking算法在醫(yī)療健康數(shù)據(jù)中的應(yīng)用研究

      2020-07-18 11:28:51丁偉民
      科學(xué)大眾 2020年5期
      關(guān)鍵詞:集成學(xué)習(xí)隨機(jī)森林堆棧

      摘 要:文章分析了基于Stacking的算法框架,提出了一種基于Stacking的集成學(xué)習(xí)算法,在兩種疾病數(shù)據(jù)集上,實驗結(jié)果表明,該方法性能良好。

      關(guān)鍵詞:集成學(xué)習(xí);隨機(jī)森林;堆棧

      1 ? ?分類挖掘技術(shù)在疾病輔助診斷上的應(yīng)用

      近年來,越來越多的學(xué)者將分類挖掘技術(shù)應(yīng)用于疾病的輔助診斷上,如劉文博等[1]提出了一種迭代隨機(jī)森林算法,對糖尿病數(shù)據(jù)進(jìn)行預(yù)測。金強(qiáng)等[2]提出,應(yīng)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法,提高乳腺癌診斷準(zhǔn)確率。本文提出了一種基于堆棧的集成學(xué)習(xí)算法,應(yīng)用于肝臟疾病和皮膚疾病數(shù)據(jù)的分類預(yù)測,為臨床診斷、個人健康提供有效的決策依據(jù)與幫助。

      2 ? ?基于Stacking的集成學(xué)習(xí)算法

      Stacking通常是一個兩層結(jié)構(gòu):0層和1層。0層在底層,選擇訓(xùn)練多個不同類型的基礎(chǔ)分類器生成元級數(shù)據(jù);1層應(yīng)用元級數(shù)據(jù)訓(xùn)練形成元分類器。元數(shù)據(jù)通過K折交叉驗證的過程生成,由基礎(chǔ)分類器對輸入實例的預(yù)測結(jié)果和實例的真實類標(biāo)號組成。其中,基礎(chǔ)分類器的輸出有兩種方式:類標(biāo)號、類概率分布。研究證明,基于類概率分布的Stacking算法性能比較好。學(xué)者們提出了許多基于類概率分布的Stacking算法,如Stacking-MLR等[3]和Stacking-MDT等[4]。本文選擇基礎(chǔ)分類器輸出的類概率分布作為元數(shù)據(jù)的組成部分,并選擇Randomforest(RF)作為元分類器,構(gòu)建集成算法Stacking-RF。

      3 ? ?數(shù)據(jù)集與評價準(zhǔn)則

      實驗在兩個公共數(shù)據(jù)集上進(jìn)行,包括肝臟疾病數(shù)據(jù)集(Hepatitis)和皮膚疾病數(shù)據(jù)集(Dermatology)。兩個實驗數(shù)據(jù)集信息如表1所示。

      實驗采用準(zhǔn)確率衡量集成算法的性能。準(zhǔn)確率表示正確分類實例數(shù)與全體實例數(shù)的比值。

      4 ? ?實驗與分析

      實驗選擇的3個基礎(chǔ)分類器:NaiveBasye(NB),SimpleLogistic(SL)和J48,元分類器為Randomforest(RF),實驗數(shù)據(jù)如表2所示。

      從表2可以看出,本文提出的集成算法Stacking-RF在準(zhǔn)確率性能指標(biāo)上,均優(yōu)于3個個體分類器NaiveBasye,SimpleLogistic和J48。如在Hepatitis,Stacking-RF優(yōu)于準(zhǔn)確率最高的個體分類器SimpleLogistic 0.8%。同樣,在數(shù)據(jù)集Dermatology,Stacking-RF均優(yōu)于3個個體分類器。因此,本文提出的集成算法Stacking-RF在兩種疾病數(shù)據(jù)集上表現(xiàn)了良好的性能。

      5 ? ?結(jié)語

      首先,本文詳細(xì)分析了基于Stacking的算法框架;其次,提出了一種基于Stacking的集成學(xué)習(xí)算法;最后,在兩種疾病數(shù)據(jù)集上進(jìn)行實驗,結(jié)果表明,本文提出的集成算法性能表現(xiàn)良好。

      [參考文獻(xiàn)]

      [1]劉文博,梁盛楠,秦喜文,等.基于迭代隨機(jī)森林算法的糖尿病預(yù)測[J].長春工業(yè)大學(xué)學(xué)報,2019(6):604-611

      [2]金強(qiáng),高普中.人工神經(jīng)網(wǎng)絡(luò)在乳腺癌診斷中的應(yīng)用[J].中國普外基礎(chǔ)與臨床雜志,2019(5):625-630.

      [3]TING K M,WITTEN I H.Issues in stacked generalization[J].Journal of Artificial Intelligence Research,1999(10):271-289.

      [4]TODOROVSKI L,DZEROSKI S.Combining multiple models with meta decision trees[C].Paris:4th European Conference on Principles of Data Mining and Knowledge Discovery,2000.

      [6]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)-WEKA應(yīng)用技術(shù)與實踐[M].北京:清華大學(xué)出版社,2010.

      作者簡介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計算機(jī)應(yīng)用技術(shù)。

      猜你喜歡
      集成學(xué)習(xí)隨機(jī)森林堆棧
      嵌入式軟件堆棧溢出的動態(tài)檢測方案設(shè)計*
      基于堆棧自編碼降維的武器裝備體系效能預(yù)測
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      基于屬性權(quán)重的Bagging回歸算法研究
      隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機(jī)森林模型及應(yīng)用
      基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
      基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁檢測研究
      科技視界(2015年27期)2015-10-08 11:01:28
      一種用于分析MCS-51目標(biāo)碼堆棧深度的方法
      霍邱县| 镇坪县| 都江堰市| 鹤壁市| 禄丰县| 永州市| 兴宁市| 宝丰县| 垫江县| 谢通门县| 涿州市| 余干县| 黄浦区| 习水县| 株洲县| 九江县| 大埔区| 武强县| 潞西市| 凤城市| 莫力| 双江| 扬中市| 武陟县| 冷水江市| 江川县| 高阳县| 乌兰察布市| 彰武县| 梁山县| 达拉特旗| 黄龙县| 九龙坡区| 博白县| 黄浦区| 桐梓县| 鄂尔多斯市| 瑞昌市| 靖远县| 鸡东县| 海林市|