集成學(xué)習(xí)算法在疾病預(yù)測中的應(yīng)用研究

2020-07-18 11:28:51丁偉民

科學(xué)大眾 2020年5期

摘要：文章分析了3種集成學(xué)習(xí)框架，在3個疾病數(shù)據(jù)集上對3種典型的集成學(xué)習(xí)算法進行比較，結(jié)果表明：基于Stacking的集成算法在疾病預(yù)測方面表現(xiàn)良好。

關(guān)鍵詞：集成學(xué)習(xí);隨機森林;堆棧

近年來，眾多學(xué)者將集成學(xué)習(xí)應(yīng)用到醫(yī)療診斷中，以提高疾病預(yù)測的準(zhǔn)確率，如苗豐順等[1]提出了一種新型的Boosting算法，預(yù)測糖尿病患者。王榮政等[2]應(yīng)用集成學(xué)習(xí)，識別血糖異常個體。本文應(yīng)用3種不同的集成學(xué)習(xí)算法，對3種疾病機型進行分類預(yù)測，以比較3種算法在疾病預(yù)測方面的性能。

1 ? ?3種集成學(xué)習(xí)框架

集成學(xué)習(xí)的主要方法有提升（Boosting）、裝袋（Bagging）和堆棧（Stacking）。Boosting是一類能夠?qū)⑷鯇W(xué)習(xí)器轉(zhuǎn)化為強學(xué)習(xí)器的算法，它在訓(xùn)練當(dāng)前學(xué)習(xí)器之前通過給予被先前學(xué)習(xí)器錯誤標(biāo)記的樣本更高的權(quán)值，讓當(dāng)前學(xué)習(xí)器在先前學(xué)習(xí)器的錯誤樣本上有更好的表現(xiàn)。Bagging隨機抽?。ㄓ蟹呕兀?shù)據(jù)集里的樣本M次，訓(xùn)練得到M個學(xué)習(xí)器，然后用投票的方法集成。Stacking通常是一個兩層結(jié)構(gòu)，選擇訓(xùn)練多個不同類型的基礎(chǔ)分類器來生成元級數(shù)據(jù)，然后應(yīng)用元級數(shù)據(jù)訓(xùn)練形成元分類器。近年來，學(xué)者發(fā)現(xiàn)Stacking在集成學(xué)習(xí)方面表現(xiàn)了良好的性能。

2 ? ?數(shù)據(jù)集合評價準(zhǔn)則

實驗在3個公共數(shù)據(jù)集上進行，包括：肝臟疾病數(shù)據(jù)集（Hepatitis）、皮膚疾病數(shù)據(jù)集（Dermatology）和乳腺癌數(shù)據(jù)集（Breast-w），如表1所示。

實驗采用查全率、查準(zhǔn)率和F1值3種方法衡量集成算法的性能。查準(zhǔn)率表示為判定為陽性的實例中實際陽性實例的比例，查全率表示分類器正確預(yù)測的陽性實例的比率，F(xiàn)1值表示查全率和查準(zhǔn)率的調(diào)和均值。

3 ? ?實驗與分析

實驗基于WEKA平臺進行，選擇集成算法AdaBoostM1和Bagging，并構(gòu)建Stacking-RF（Randomforest作為元分類器，NaiveBasye，SimpleLogistic和J48作為個體分類器）。

數(shù)據(jù)集Hepatitis，AdaBoostM1，Bagging和Stacking-RF的查準(zhǔn)率分別為0.831，0.781和0.842。數(shù)據(jù)集Dermatology，AdaBoostM1，Bagging和Stacking-RF的查準(zhǔn)率分別為0.276，0.926和0.978。數(shù)據(jù)集Breast-w，AdaBoostM1，Bagging和Stacking-RF的查準(zhǔn)率分別為0.953，0.956和0.961。數(shù)據(jù)集Hepatitis，AdaBoostM1，Bagging和Stacking-RF的查全率分別為0.839，0.806和0.852。數(shù)據(jù)集Dermatology，AdaBoostM1，Bagging和Stacking-RF的查全率分別為0.503，0.923和0.978。數(shù)據(jù)集Breast-w，AdaBoostM1，Bagging和Stacking-RF的查全率分別為0.953，0.956和0.961。數(shù)據(jù)集Hepatitis，AdaBoostM1，Bagging和Stacking-RF的F1值分別為0.833，0.785和0.845。數(shù)據(jù)集Dermatology，AdaBoostM1，Bagging和Stacking-RF的F1值分別為0.350，0.923和0.978。數(shù)據(jù)集Breast-w，AdaBoostM1，Bagging和Stacking-RF的F1值分別為0.953，0.956和0.961。

數(shù)據(jù)集Hepatitis，Stacking-RF在查全率上優(yōu)于AdaBoostM1 1.5%，優(yōu)于Bagging 5.7%。在查準(zhǔn)率上，優(yōu)于AdaBoostM1 1.3%，優(yōu)于Bagging 7.8%。在F1值上優(yōu)于AdaBoostM1 1.4%，優(yōu)于Bagging 7.6%。同樣，在Dermatology和Breast-w兩個數(shù)據(jù)集上，Stacking-RF均優(yōu)于另外兩種集成算法。因此，從實驗效果上，可以看出Stacking集成算法在疾病預(yù)測方面展示了良好的性能。

4 ? ?結(jié)語

首先，本文分析分析了3種集成學(xué)習(xí)框架;其次，在3個疾病數(shù)據(jù)集上對3種典型的集成學(xué)習(xí)算法進行了比較，結(jié)果表明，基于Stacking的集成算法在疾病預(yù)測方面表現(xiàn)良好。

[參考文獻]

[1]苗豐順，李巖，高岑，等.基于CatBoost算法的糖尿病預(yù)測方法[J].計算機系統(tǒng)應(yīng)用，2019（9）：215-218.

[2]王榮政，廖賢藝，陳湘萍，等.基于集成學(xué)習(xí)融合模型的血糖預(yù)測[J].醫(yī)學(xué)信息學(xué)雜志，2019（1）：63-66，88.

作者簡介：丁偉民（1979— ），男，漢族，山東濰坊人，講師，碩士;研究方向：計算機應(yīng)用技術(shù)。