摘 要:文章分析了3種集成學(xué)習(xí)框架,在3個疾病數(shù)據(jù)集上對3種典型的集成學(xué)習(xí)算法進行比較,結(jié)果表明:基于Stacking的集成算法在疾病預(yù)測方面表現(xiàn)良好。
關(guān)鍵詞:集成學(xué)習(xí);隨機森林;堆棧
近年來,眾多學(xué)者將集成學(xué)習(xí)應(yīng)用到醫(yī)療診斷中,以提高疾病預(yù)測的準(zhǔn)確率,如苗豐順等[1]提出了一種新型的Boosting算法,預(yù)測糖尿病患者。王榮政等[2]應(yīng)用集成學(xué)習(xí),識別血糖異常個體。本文應(yīng)用3種不同的集成學(xué)習(xí)算法,對3種疾病機型進行分類預(yù)測,以比較3種算法在疾病預(yù)測方面的性能。
1 ? ?3種集成學(xué)習(xí)框架
集成學(xué)習(xí)的主要方法有提升(Boosting)、裝袋(Bagging)和堆棧(Stacking)。Boosting是一類能夠?qū)⑷鯇W(xué)習(xí)器轉(zhuǎn)化為強學(xué)習(xí)器的算法,它在訓(xùn)練當(dāng)前學(xué)習(xí)器之前通過給予被先前學(xué)習(xí)器錯誤標(biāo)記的樣本更高的權(quán)值,讓當(dāng)前學(xué)習(xí)器在先前學(xué)習(xí)器的錯誤樣本上有更好的表現(xiàn)。Bagging隨機抽?。ㄓ蟹呕兀?shù)據(jù)集里的樣本M次,訓(xùn)練得到M個學(xué)習(xí)器,然后用投票的方法集成。Stacking通常是一個兩層結(jié)構(gòu),選擇訓(xùn)練多個不同類型的基礎(chǔ)分類器來生成元級數(shù)據(jù),然后應(yīng)用元級數(shù)據(jù)訓(xùn)練形成元分類器。近年來,學(xué)者發(fā)現(xiàn)Stacking在集成學(xué)習(xí)方面表現(xiàn)了良好的性能。
2 ? ?數(shù)據(jù)集合評價準(zhǔn)則
實驗在3個公共數(shù)據(jù)集上進行,包括:肝臟疾病數(shù)據(jù)集(Hepatitis)、皮膚疾病數(shù)據(jù)集(Dermatology)和乳腺癌數(shù)據(jù)集(Breast-w),如表1所示。
實驗采用查全率、查準(zhǔn)率和F1值3種方法衡量集成算法的性能。查準(zhǔn)率表示為判定為陽性的實例中實際陽性實例的比例,查全率表示分類器正確預(yù)測的陽性實例的比率,F(xiàn)1值表示查全率和查準(zhǔn)率的調(diào)和均值。
3 ? ?實驗與分析
實驗基于WEKA平臺進行,選擇集成算法AdaBoostM1和Bagging,并構(gòu)建Stacking-RF(Randomforest作為元分類器,NaiveBasye,SimpleLogistic和J48作為個體分類器)。
數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查準(zhǔn)率分別為0.831,0.781和0.842。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查準(zhǔn)率分別為0.276,0.926和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查準(zhǔn)率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.839,0.806和0.852。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.503,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.833,0.785和0.845。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.350,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.953,0.956和0.961。
數(shù)據(jù)集Hepatitis,Stacking-RF在查全率上優(yōu)于AdaBoostM1 1.5%,優(yōu)于Bagging 5.7%。在查準(zhǔn)率上,優(yōu)于AdaBoostM1 1.3%,優(yōu)于Bagging 7.8%。在F1值上優(yōu)于AdaBoostM1 1.4%,優(yōu)于Bagging 7.6%。同樣,在Dermatology和Breast-w兩個數(shù)據(jù)集上,Stacking-RF均優(yōu)于另外兩種集成算法。因此,從實驗效果上,可以看出Stacking集成算法在疾病預(yù)測方面展示了良好的性能。
4 ? ?結(jié)語
首先,本文分析分析了3種集成學(xué)習(xí)框架;其次,在3個疾病數(shù)據(jù)集上對3種典型的集成學(xué)習(xí)算法進行了比較,結(jié)果表明,基于Stacking的集成算法在疾病預(yù)測方面表現(xiàn)良好。
[參考文獻]
[1]苗豐順,李巖,高岑,等.基于CatBoost算法的糖尿病預(yù)測方法[J].計算機系統(tǒng)應(yīng)用,2019(9):215-218.
[2]王榮政,廖賢藝,陳湘萍,等.基于集成學(xué)習(xí)融合模型的血糖預(yù)測[J].醫(yī)學(xué)信息學(xué)雜志,2019(1):63-66,88.
作者簡介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計算機應(yīng)用技術(shù)。