• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)方法對(duì)不均衡數(shù)據(jù)的處理

      2022-09-09 03:16:24趙存秀
      電子技術(shù)與軟件工程 2022年13期
      關(guān)鍵詞:決策樹(shù)分類器分類

      趙存秀

      (山西科技學(xué)院 山西省晉城市 048000)

      近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,越來(lái)越多的科研人員將機(jī)器學(xué)習(xí)應(yīng)用于安全評(píng)估、疾病診斷及臨床研究中的類別預(yù)測(cè)模型的研究。關(guān)于分類算法及其應(yīng)用已經(jīng)有很多的研究,但基于類別不平衡的數(shù)據(jù)(兩類別個(gè)數(shù)差別很大),仍然是預(yù)測(cè)模型發(fā)展的主要挑戰(zhàn)之一。不平衡數(shù)據(jù)集的分類出現(xiàn)在許多實(shí)際的生物醫(yī)學(xué)應(yīng)用中。目前大多數(shù)分類算法的評(píng)價(jià)指標(biāo)是正確預(yù)測(cè)的總數(shù)最大化。這一標(biāo)準(zhǔn)是建立在每一類誤分類造成的損失相等的假設(shè)基礎(chǔ)上的。當(dāng)類別大小差異很大時(shí),大多數(shù)標(biāo)準(zhǔn)分類器會(huì)傾向于更大的類。一般來(lái)說(shuō),多數(shù)類的預(yù)測(cè)精度較高,少數(shù)類的預(yù)測(cè)精度較低。但是實(shí)際研究中更多的是關(guān)注小類分類情況,傳統(tǒng)的分類器就失效了。類別不平衡分類的一個(gè)主要挑戰(zhàn)是開(kāi)發(fā)一個(gè)能夠?yàn)樯贁?shù)類預(yù)測(cè)提供良好準(zhǔn)確性的分類器。

      王榮杰等提出不平衡數(shù)據(jù)分類的矩陣粒加權(quán)集成分類算法。結(jié)果表明,矩陣粒加權(quán)集成分類算法具有較高的分類準(zhǔn)確性,是對(duì)不平衡數(shù)據(jù)分類算法研究的一次有益嘗試和補(bǔ)充。楊毅提出的B-SMOTE 是在SMOTE 的基礎(chǔ)上把少數(shù)類的邊界樣本與少數(shù)類樣本插值合成新訓(xùn)練樣本,表明基于SMOTE 的集成學(xué)習(xí)算法能有效改善不平衡數(shù)據(jù)集的不平衡性。張宗堂等在提取的子訓(xùn)練樣本集上分別訓(xùn)練基分類器,將其中少類間隔均值最大的基分類器作為本輪選定的分類器,迭代形成最終集成分類器。李勇等詳細(xì)分析了不平衡數(shù)據(jù)集成分類算法的研究現(xiàn)狀,集成學(xué)習(xí)是基于多個(gè)弱基分類器上做決策的機(jī)器學(xué)習(xí)技術(shù),由于基分類器的弱相關(guān)性,因此提高機(jī)器學(xué)習(xí)效果。袁興梅等鑒于最大間隔思想在很多分類問(wèn)題中的優(yōu)越性,將最大間隔思想引入到非平衡分類問(wèn)題中,使用SVM 的方法取得了很好的分類性能。陳力等基于多次訓(xùn)練決策樹(shù)進(jìn)行仿真實(shí)驗(yàn),發(fā)現(xiàn)使用AdaBoost 算法和GBDT 算法后準(zhǔn)確率降幅較大,而改進(jìn)的PFBoost 算法能夠在保證準(zhǔn)確率的情況下顯著提升F1 值和G-mean 值,且在絕大多數(shù)數(shù)據(jù)集上的F1 值和G-mean 值提升幅度遠(yuǎn)超其它兩種集成算法?;诓煌募蓪W(xué)習(xí)方法處理不平衡數(shù)據(jù),研究哪種集成方法更適合于處理不平衡數(shù)據(jù)問(wèn)題中。

      1 算法介紹

      集成學(xué)習(xí)方法是近幾年非常流行的機(jī)器學(xué)習(xí)手段,通過(guò)將若干個(gè)弱學(xué)習(xí)器通過(guò)一定的策略集成一個(gè)學(xué)習(xí)能力較強(qiáng)的學(xué)習(xí)器。Bagging是一種直接的基于自助采樣的典型學(xué)習(xí)方法。有放回的隨機(jī)抽樣訓(xùn)練集,每次試驗(yàn)的訓(xùn)練集有N個(gè)樣本,將抽取的N 個(gè)樣本用于一次訓(xùn)練,并對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。T 次循環(huán)后得到一個(gè)結(jié)果集。最終的預(yù)測(cè)結(jié)果對(duì)于分類問(wèn)題對(duì)結(jié)果集采用投票的方式或者通過(guò)Stacking 學(xué)習(xí)。

      1.1 投票

      投票法就是在同一訓(xùn)練集上,訓(xùn)練得到多個(gè)分類或回歸模型,然后通過(guò)一個(gè)投票器,輸出得票率最高的結(jié)果,投票算法如圖1。

      圖1 :投票法算法流程

      Bagged CART在使用Bagging 的每次訓(xùn)練中使用的是決策樹(shù)(CART)用投票的方式得到最終的預(yù)測(cè)。隨機(jī)森林(Random Forest)使用了CART 決策樹(shù)作為弱學(xué)習(xí)器,在bagging 的基礎(chǔ)上做了修正之后的算法:從總體中抽取的N 個(gè)樣本,隨機(jī)選擇k 個(gè)特征,通過(guò)信息熵或者信息增益選擇最佳分割特征作為決策樹(shù)的左右子樹(shù)劃分,建立CART 決策樹(shù);重復(fù)以上兩步m 次,即建立了m 棵CART 決策樹(shù);這m 個(gè)CART 樹(shù)形成了隨機(jī)森林,通過(guò)投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類別。

      1.2 Stacking

      Stacking具體集成框架如圖2 所示。本次研究的弱分類器有Linear Discriminate Analysis (LDA) [線性分類器,類似的QDA]、Classification and Regression Trees (CART)、Support Vector Machine with a Radial Basis Kernel Function(SVM)三種。本次實(shí)驗(yàn)利用廣義線性回歸和random forest 兩種學(xué)習(xí)方法進(jìn)行第二次學(xué)習(xí)。

      圖2 :stacking 集成

      1.3 支持向量機(jī)

      1.4 線性判別分析

      這樣我們就可以將LDA 要解決的問(wèn)題轉(zhuǎn)化為帶約束的優(yōu)化問(wèn)題:

      1.5 CART剪枝算法

      算法:(CART 剪枝算法)輸入:CART 算法生成的決策樹(shù)T0;輸出:最優(yōu)決策樹(shù)Tα.(1)設(shè)k=0,T=T0.(2)設(shè)α=+∞.(3)自下而上地對(duì)各內(nèi)部結(jié)點(diǎn)t 計(jì)算C(Tt),|Tt|以及images/BZ_256_1355_912_1700_1083.png這里,Tt 表示以t 為根節(jié)點(diǎn)的子樹(shù),C(Tt)是對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)誤差,|Tt|的Tt 葉結(jié)點(diǎn)個(gè)數(shù).(4)自下而上地訪問(wèn)內(nèi)部結(jié)點(diǎn) t,如果有 ,進(jìn)行剪枝,并對(duì)葉結(jié)點(diǎn)t 以多數(shù)表決法決定其類,得到樹(shù)T.(5)設(shè)k=k+1,images/BZ_256_1615_1326_1743_1375.pngTk=T.(6)如果T 不是由根節(jié)點(diǎn)單獨(dú)構(gòu)成的樹(shù),則回到(4).(7)采用交叉驗(yàn)證法在子樹(shù)序列T0,T1…Tn 中選取最優(yōu)子樹(shù)Tα

      1.6 度量

      針對(duì)二分類數(shù)據(jù)問(wèn)題,通過(guò)實(shí)驗(yàn)將預(yù)測(cè)結(jié)果與數(shù)據(jù)真實(shí)情況類別進(jìn)行比較,建立混淆矩陣,如表1。

      表1 :混淆矩陣

      Kappa 值對(duì)于分類問(wèn)題就是檢驗(yàn)?zāi)P皖A(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果是否一致。很多時(shí)候,直接用準(zhǔn)確率來(lái)判斷模型的好與壞,但重復(fù)實(shí)驗(yàn),模型結(jié)果分布很不均勻時(shí),準(zhǔn)確率不一定是一個(gè)好的量度值。Kappa 的范圍是[-1,1],-1 表示完全不一致,0 為偶然一致,落于[0,0.2]表示極低的一致性(slight),[0.21,0.4]一般的一致性(fair),介于[0.41,0.6]為中等的一致性(moderate),Kappa 值位于[0.61.0.8]為高度的一致性(substantial),[0.81,1]幾乎完全一致(almost perfect)。

      2 驗(yàn)數(shù)據(jù)與訓(xùn)練模型

      2.1 真實(shí)數(shù)據(jù)

      圖3 :3 個(gè)分類器的箱線圖

      本次實(shí)驗(yàn)采用的數(shù)據(jù)是美國(guó)威斯康星大學(xué)提供的人體乳腺腫瘤數(shù)據(jù)樣本,將異常數(shù)據(jù)篩選,使得每個(gè)樣本有11 個(gè)屬性,截取部分?jǐn)?shù)據(jù)如表2 所示,腫塊厚度、細(xì)胞大小

      表2 :乳腺腫瘤數(shù)據(jù)集

      的均勻性等九項(xiàng)醫(yī)學(xué)研究?jī)?nèi)容為樣本的實(shí)際特征值,腫瘤性質(zhì)為實(shí)驗(yàn)標(biāo)簽良性與惡性。樣本總共有683 個(gè)實(shí)驗(yàn)數(shù)據(jù),其中良性腫瘤有 444 個(gè),惡性腫瘤有239 個(gè)。其中數(shù)據(jù)的70%為訓(xùn)練樣本集,30%為測(cè)試樣本集。

      2.2 數(shù)據(jù)結(jié)果

      兩個(gè)較為典型的Bagging 算法:Bagged CART 和Random Forest 對(duì)人體乳腺腫瘤數(shù)據(jù)預(yù)測(cè),利用10 折交叉驗(yàn)證的方法模擬實(shí)驗(yàn),得到實(shí)驗(yàn)預(yù)測(cè)結(jié)果如表3。表3 為10折交叉驗(yàn)證得到的10 次結(jié)果。,表中看到隨機(jī)森林(Random Forest)的準(zhǔn)確率平均值達(dá)到了97.41%。

      表3 :Bagged CART 和Random Forest 的Accuracy 與Kappa 值對(duì)比

      為數(shù)據(jù)集構(gòu)建3個(gè)子模型(基學(xué)習(xí)器),Linear Discriminate Analysis (LDA) [線性分類器,類似的QDA]、Classification and Regression Trees (CART)、Support Vector Machine with a Radial Basis Kernel Function (SVM)。用相同的數(shù)據(jù),得到3個(gè)模型的預(yù)測(cè)結(jié)果如表4。從表4 中可以看出3 個(gè)分類器中,svm 的結(jié)果最佳,精確率可以達(dá)到96.10%。

      表4 :三個(gè)分類器的分類后的Accuracy 與Kappa 值對(duì)比

      將3 個(gè)模型的預(yù)測(cè)結(jié)果用簡(jiǎn)單線性模型組合子模型的預(yù)測(cè)結(jié)果精確率達(dá)到96.87%,高于96.10%。Kappa 值為0.9315531,模型的一致性很好。利用random forest 的stacking 得到了精確率為97.33%,kaapa 值為0.9417895。

      3 結(jié)束語(yǔ)

      機(jī)器學(xué)習(xí)集成方法應(yīng)用前景較好,因?yàn)槠漭^于單一模型實(shí)驗(yàn)效果準(zhǔn)確率較高,比較于深度學(xué)習(xí)計(jì)算速度較快,所以在實(shí)際生活中很多領(lǐng)域都有應(yīng)用,從上面的實(shí)驗(yàn)可以看出集成學(xué)習(xí)還可以與醫(yī)學(xué)結(jié)合,結(jié)果良好。

      猜你喜歡
      決策樹(shù)分類器分類
      分類算一算
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      分類討論求坐標(biāo)
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      數(shù)據(jù)分析中的分類討論
      BP-GA光照分類器在車(chē)道線識(shí)別中的應(yīng)用
      教你一招:數(shù)的分類
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      双柏县| 沽源县| 砀山县| 营口市| 兴国县| 赣榆县| 濮阳市| 乌审旗| 嵊泗县| 赣州市| 资兴市| 东莞市| 高州市| 阳西县| 平江县| 丹江口市| 鄂州市| 林州市| 瑞金市| 革吉县| 罗江县| 汝州市| 大田县| 法库县| 尉犁县| 鲜城| 易门县| 凌源市| 嘉黎县| 蕉岭县| 靖州| 武汉市| 福州市| 密云县| 福贡县| 肥西县| 宜昌市| 望都县| 新竹县| 紫云| 盐山县|